CN116910277A

CN116910277A - 知识图谱构建方法、资源查找方法、计算机设备和介质

Info

Publication number: CN116910277A
Application number: CN202311179454.5A
Authority: CN
Inventors: 潘怡君; 胡汉一; 徐佳莹; 张睿; 严笑然
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-10-20
Anticipated expiration: 2043-09-13
Also published as: CN116910277B

Abstract

本申请涉及一种知识图谱构建方法、资源查找方法、计算机设备和介质，通过获取资源对应的数据集，其中，资源包括天文学领域数据，数据集包括多个关键词以及每个关键词的属性，关键词的属性包括关键词在多个资源中的第一权重和关键词对应的资源标识；根据第一权重确定主关键词和副关键词，并将属于同一研究方向的副关键词与主关键词关联，其中，主关键词的第一权重大于副关键词的第一权重；分别在主关键词和副关键词之间构建知识图谱，其中，分别将主关键词和副关键词作为节点，将对应的资源标识和第一权重作为节点属性，将语义关系作为边，构建相应知识图谱，降低了知识图谱的规模，实现了关键词的交叉检索。

Description

知识图谱构建方法、资源查找方法、计算机设备和介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种知识图谱构建方法、资源查找方法、计算机设备和介质。

背景技术

知识图谱是基于领域论文构建的一种信息网络结构，可以用于描述相应领域的知识体系及彼此之间的关系。知识图谱的构建首先需要对知识进行表达与提取，通常可以使用自然语言处理方法分析文献或者图像处理技术识别图像中的关键信息实现。其次，将提取出的知识进行结构化建模，构建具有关系的知识图谱，并利用语义关系挖掘方法，提取不同知识元素之间的联系。

然而，目前在天文学领域，基于关键词构建知识图谱仍然存在一些问题。天文学领域是一门高深复杂的学科，研究方向广而多，关键词量大，按照传统的知识图谱构建方法，得到的知识图谱规模较大，不利于研究人员查找调研。若是牺牲部分关键词，则不利于关键词的交叉检索，例如缺失比重较小但是较为重要的研究方向的知识，无法为研究方向较冷门的学者提供文献补充。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低知识图谱规模且支持关键词交叉检索的知识图谱构建方法、资源查找方法、计算机设备和介质。

第一方面，本申请提供了一种知识图谱构建方法，所述方法包括：

获取资源对应的数据集，其中，所述资源包括天文学领域数据，所述数据集包括多个关键词以及每个关键词的属性，所述关键词的属性包括所述关键词在多个资源中的第一权重和所述关键词对应的资源标识；

根据所述第一权重确定主关键词和副关键词，并将属于同一研究方向的所述副关键词与所述主关键词关联，其中，所述主关键词的第一权重大于所述副关键词的第一权重；

将每个所述主关键词作为节点，将所述主关键词对应的资源标识和所述第一权重作为节点属性，将以每个所述主关键词之间的语义关系作为边，构建第一知识图谱；

将每个所述副关键词作为节点，将所述副关键词对应的资源标识和所述第一权重作为节点属性，将以每个所述副关键词之间的语义关系作为边，构建第二知识图谱。

在其中一个实施例中，所述主关键词在所述数据集中占全部关键词的比例为a，所述副关键词在所述数据集中占全部关键词的比例为b，a＜b；和/或，

所述研究方向包括以下至少之一：天体研究方向、星系研究方向、宇宙学研究方向、射电天文研究方向。

在其中一个实施例中，获取资源对应的数据集，包括：

对所述多个资源进行自然语言处理，提取得到所述关键词；

对各所述关键词在所述多个资源中出现的位置和频次进行加权计算，得到各所述关键词的第一参数；

根据各所述关键词的第一参数占所述数据集中全部关键词的第一参数之和的比例，得到各所述关键词的第一权重。

在其中一个实施例中，对所述多个资源进行自然语言处理，提取得到所述关键词，包括：

在所述多个资源中识别候选词，并计算每个候选词在相应资源中的第二权重；

在多个所述候选词中筛选目标词，并将所述目标词作为所述数据集中的关键词，其中，所述目标词在相应资源中的第二权重大于每一个剩余候选词在相应资源中的第二权重。

在其中一个实施例中，计算每个候选词在相应资源中的第二权重，包括：循环执行如下步骤，直至计算得到每个候选词在相应资源中的第二权重：

在多个所述候选词中，将其中一个候选词作为第一候选词，将剩余候选词作为第二候选词；

获取所述第二候选词对所述第一候选词的贡献度，并根据所述贡献度和预设阻尼系数，确定所述第一候选词在相应资源中的第二权重。

在其中一个实施例中，所述资源包括文献，所述位置包括所述文献中的以下至少之一：题目、摘要、结论。

在其中一个实施例中，将以每个所述主关键词之间的语义关系作为边，包括：根据每两个所述主关键词共同出现在同一资源中的联合概率和分别出现在相应资源中的概率，计算每两个所述主关键词之间的互信息，确定互信息不低于预设阈值的两个主关键词之间存在语义关系，并记录所述语义关系；或者，

将以每个所述副关键词之间的语义关系作为边，包括：根据每两个所述副关键词共同出现在同一资源中的联合概率和分别出现在不同资源中的概率，计算每两个所述副关键词之间的互信息，确定互信息不低于预设阈值的两个副关键词之间存在语义关系，并记录所述语义关系。

第二方面，本申请还提供了一种资源查找方法，所述方法包括：

在交互界面中展示第一资源所对应的关键词；

响应于对所述关键词的访问操作，返回第二资源，其中，所述第一资源和所述第二资源基于知识图谱建立关联关系，所述知识图谱根据上述第一方面所述的知识图谱构建方法生成。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面或者第二方面的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面或者第二方面的步骤。

上述知识图谱构建方法、资源查找方法、计算机设备和介质，根据第一权重对关键词进行分类，得到主关键词（权重较大）和副关键词（权重较小）。比起在全部关键词之间构建知识图谱，分别在主关键词和副关键词之间构建知识图谱，可以减少计算量，提升构建知识图谱的速度，降低知识图谱的规模。比起按照权重过滤关键词，对关键词进行分类并将副关键词归类到主关键词的分支中，链接两层知识图谱，扩大了副关键词的影响力，实现了关键词的交叉检索，为研究方向较冷门的学者提供了文献补充。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一个实施例中知识图谱构建方法的终端的硬件结构框图；

图2为一个实施例中知识图谱构建方法的流程示意图；

图3为一个实施例中知识图谱构建装置的运行原理示意图；

图4为一个实施例中知识图谱的示意图；

图5为一个实施例中资源查找方法的流程示意图；

图6为一个实施例中资源查找方法的应用环境示意图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

天文学领域的知识结构十分复杂，涉及多个学科领域、多样的观察方式、多样的技术以及许多复杂的天体和现象。因此，在构建天文学领域的知识图谱时，需要考虑如何有效地组织和表示这些复杂的知识结构，以便更好地了解不同领域之间的联系和关系。其次，天文学领域存在一些数据的稀缺性和不确定性。观测数据可能存在误差和不确定性，而且某些天体和现象可能难以观测和理解。这些问题可能会影响知识图谱的准确性和完整性，因此在构建天文学知识图谱时需要同时考虑论文之间的复杂关系和数据的质量问题。关键词是一篇论文主要观点的提取与总结，并且论文质量数据缺失不会影响对论文关键词的提取。因此，本申请天文领域知识图谱的知识表达与提取可以考虑利用论文中包含的关键词，构建天文领域知识图谱。在天文学领域，基于关键词构建的知识图谱有多种应用，帮助相关学者了解不同研究领域之间的联系和关系，预测未来研究热点，发现天文学领域的新知识和发展趋势。

然而，目前在天文学领域，基于关键词构建知识图谱仍然存在一些问题。首先，天文学领域是一门高深复杂的学科，关键词的选择可能不准确或不全面，导致构建的知识图谱不完整。此外，天文学领域有许多专业术语和特定领域的关键词，这些关键词可能不为其他领域的研究人员所熟悉。因此，需要使用领域知识和专业术语来建立正确的关键词列表。其次，由于天文学领域是国家化和跨文化的学科，在构建基于关键词的知识图谱时，需要考虑文化和语言的因素，构造统一标准的关键词知识图谱。

而且，针对天文领域，关键词的选择主要经过两个步骤，首先是利用自然语言处理的方法，从文献中获取分类关键词，其次需要利用专家知识对关键词进行标注统一，而不像数学学科那样有统一的标准，直接利用成熟的算法进行关键词获取。

在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行，图1是本申请一实施例的知识图谱构建方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个（图1中仅示出一个）处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的知识图谱构建方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（NetworkInterface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（RadioFrequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在一个实施例中，提供了一种知识图谱构建方法，图2本实施例的知识图谱构建方法的流程示意图，如图2所示，以该方法应用于图1中的终端102为例进行说明，该流程包括如下步骤：

步骤S201，获取资源对应的数据集，其中，资源包括天文学领域数据，数据集包括多个关键词以及每个关键词的属性，关键词的属性包括关键词在多个资源中的第一权重和关键词对应的资源标识。

资源，是指依托网站存储的论文、期刊、报告等文献，这些文献记载有天文学领域数据。资源标识是指能够唯一确定某一文献的符号，例如论文标题、期刊号或者报告标题。

关键词，是指与资源主题相关的词语，在天文学领域，关键词可以是概念（恒星、行星、脉冲星、太阳系、射电望远镜）、理论（红外学、宇宙学、天体物理学）、方法（多波段观测、天文观测）或者现象（恒星多晕、超新星爆发、星系演化）。在数据集中，关键词和其属性可以以键值对形式存储。

第一权重，代表关键词在资源中的重要程度，该重要程度可以基于关键词在资源中出现的位置和频次确定。资源中出现的位置，可以是指文献中的题目、摘要、结论或者其他位置，不同的位置对应不同的权重系数。资源中出现的频次，是指出现在相应位置的文献数目。在一个或者多个资源中，一个关键词可以出现在不止一个位置。示例性地，有一关键词为“快速射电暴”，确定这个关键词在全部500篇论文中的位置，计算得到有10篇在题目中提到了“快速射电暴”，15篇在摘要和结论中提到了“快速射电暴”，50篇在论文的其他位置提到了“快速射电暴”。

步骤S202，根据第一权重确定主关键词和副关键词，并将属于同一研究方向的副关键词与主关键词关联，其中，主关键词的第一权重大于副关键词的第一权重。

基于天文学领域的分类体系，可以将研究方向划分为天体研究方向、星系研究方向、宇宙学研究方向、射电天文研究方向。主关键词的第一权重大于副关键词的第一权重，代表在所搜集的全部资源中，主关键词的重要程度大于副关键词的重要程度。可选地，主关键词在数据集中占全部关键词的比例为a，副关键词在数据集中占全部关键词的比例为b，a＜b，即主关键词数量小于副关键词数量。当然，a+b=1，a＞0，b＞0。示例性地，将第一权重排在前30%大的每个关键词作为主关键词，将剩余70%的关键词作为副关键词，将副关键词作为同属于一个研究方向的主关键词分支，且副关键词在挑选主关键词的时候可以选择多个主关键词，通过这种方式可以有效地实现关键词的交叉检索。

步骤S203，将每个主关键词作为节点，将主关键词对应的资源标识和第一权重作为节点属性，将以每个主关键词之间的语义关系作为边，构建第一知识图谱。

步骤S204，将每个副关键词作为节点，将副关键词对应的资源标识和第一权重作为节点属性，将以每个副关键词之间的语义关系作为边，构建第二知识图谱。

在步骤S203或者步骤S204中，关键词之间存在多种不同的关系，例如共现性、关键词表达含义具有相似性、相关性。所谓“共现”，就是共同出现，即在一个给定大小的滑动窗口内的词，认为是共同出现。在获取节点之间的语义关系时，可以通过将具有相同关键词的论文、关键词具有相关性、相似性的论文的节点进行连接。此时，可以通过关注关键词的度来获取天文学领域中的重要概念或理论，较高的度表示这个关键词与其他关键词具有多重相关关系，因此是较为重要的关键词。

在上述步骤S201至S204中，通过对关键词进行第一权重标注，根据第一权重对关键词进行分类，得到主关键词（权重较大）和副关键词（权重较小）。关键词能够表达一篇文章的关键思想，通过构建基于关键词的知识图谱，整合了需要多次搜索的多模态资源，能够有效地表达不同资源之间的关联关系，提高相关领域的信息检索效率和准确性，为研究学者提供较大的便利。比起在全部关键词之间构建知识图谱，分别在主关键词和副关键词之间构建知识图谱，可以减少计算量，提升构建知识图谱的速度，降低知识图谱的规模。比起按照权重过滤关键词，对关键词进行分类并将副关键词归类到主关键词的分支中，链接两层知识图谱，扩大了副关键词的影响力，有效地实现了关键词的交叉检索，为研究方向较冷门的学者提供了文献补充。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行，例如，步骤203和步骤204可以互换顺序。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，获取资源对应的数据集，可以采用如下方法实现：对多个资源进行自然语言处理，提取得到关键词；对各关键词在多个资源中出现的位置和频次进行加权计算，得到各关键词的第一参数；根据各关键词的第一参数占数据集中全部关键词的第一参数之和的比例，得到各关键词的第一权重。

示例性地，首先，从web of science、google scholar等文献搜索网站，查询相关的天文领域的论文、期刊、报告，对文献的完整性进行确认，并删减与天文学不相关、文献内容不完整等质量较差的论文。其次，对所搜集的文献进行预处理，包括去除标点符号、数字、停用词、特殊字符，以减少噪音和提高提取准确度。接下来，使用关键词提取算法，从文献中提取出与主题相关的关键词。例如自然语言处理方法，对提取出的关键词进行语义解析，识别不同文化表达的区别，识别同义词、近义词等，进一步标准化关键词。然后，基于预设专家知识对关键词进行筛选，对提取出来的关键词进行修正，提高关键词的专业性，消除不同研究人员表达的差异，提高自然语言算法提取出关键词的准确性。最后，将数据分析和预设专家知识提取出的关键词进行加权处理，根据关键词在文献中出现的位置和频次，对关键词进行加权处理，得到第一权重，其中，位置可以是文献中的题目、摘要、结论或者其他位置。可以将权重较小的关键词归类到权重较大的关键词中，既减少知识图谱的规模，又保留了比重较小但是较为重要的关键词，方便研究人员查找调研。

在本实施例中，第一权重计算公式如下：

其中，β_i表示关键词V_i的第一权重，S_i表示关键词V_i的第一参数，S_j表示关键词V_j的第一参数，j=1,2,…为抽取出的全部关键词数目。

第一参数S_i的计算公式如下：

其中，a代表关键词V_i位于题目的权重系数，b代表关键词V_i位于摘要和结论的权重系数，c代表关键词V_i在论文其他位置的权重系数，k₁代表关键词V_i出现在题目中的频次（论文数目），k₂代表关键词出现在摘要和结论中的频次（论文数目），k₃代表关键词V_i出现在其他位置的频次（论文数目）。

在一个实施例中，对多个资源进行自然语言处理，提取得到关键词，可以采用如下方法实现：在多个资源中识别候选词，并计算每个候选词在相应资源中的第二权重；在多个候选词中筛选目标词，并将目标词作为数据集中的关键词，其中，目标词在相应资源中的第二权重大于每一个剩余候选词在相应资源中的第二权重。其中，计算每个候选词在相应资源中的第二权重，可以采用如下方法实现。循环执行如下步骤，直至计算得到每个候选词在相应资源中的第二权重：

步骤S1：在多个候选词中，将其中一个候选词作为第一候选词，将剩余候选词作为第二候选词；

步骤S2：获取第二候选词对第一候选词的贡献度，并根据贡献度和预设阻尼系数，确定第一候选词在相应资源中的第二权重。

从文献中提取出与主题相关的候选词，对提取出的候选词进行语义解析，识别不同文化表达的区别，识别同义词、近义词，进一步标准化候选词。可选地，在多个候选词中，选取第二权重排在前10%大的候选词为目标词，并将这些目标词作为关键词收录至数据集中。具体地，利用一篇文档内部词语间的共现信息(语义)提取关键词，从一个给定的文献中提取出该文献的关键词、关键词组，并使用提取式的自动文摘方法提取出该文献的关键句。第二权重计算公式如下所示：

其中，WS(V_i)表示第一候选词V_i的第二权重，WS(V_j) 表示第二候选词V_j的第二权重，等式右边的求和表示每个相邻的第二候选词对第一候选词的贡献度，W_ji表示第一候选词V_i与第二候选词V_j的相似度，即词语之间的链接关系，d表示阻尼系数，本实施例设置为0.85。

在一个实施例中，将以每个主关键词之间的语义关系作为边，可以采用如下方式实现：根据每两个主关键词共同出现在同一资源中的联合概率和分别出现在相应资源中的概率，计算每两个主关键词之间的互信息，确定互信息不低于预设阈值的两个主关键词之间存在语义关系，并记录语义关系。

基于和上述实施例相近的原理，将以每个副关键词之间的语义关系作为边，可以采用如下方式实现：根据每两个副关键词共同出现在同一资源中的联合概率和分别出现在不同资源中的概率，计算每两个副关键词之间的互信息，确定互信息不低于预设阈值的两个副关键词之间存在语义关系，并记录语义关系。

示例性地，关键词（主关键词或者副关键词）之间存在多种不同的关系，例如共同出现在同一个文献、关键词表达含义具有相似性、相关性。将彼此存在关系的关键词进行相连，作为获取边的方式，以此构建知识图谱。此外，关键词的度是每个关键词作为节点存在的分支数量，用来获取天文学领域中的重要概念或理论，较高的度表示这个关键词与其他关键词具有多重相关关系，即这个关键词较为重要。其中，关键词具有相关性可以通过互信息计算获得，即将互信息计算结果最大的两个关键词连接，互信息计算公式如下所示：

其中，I[X:Y]是指关键词X和关键词Y之间的互信息，p(X:Y)是关键词X和关键词Y之间的联合概率，是指在筛选出的文献中，同时出现关键词X和Y的概率，p(X)和p(Y)分别是关键词X和关键词Y的概率密度函数，是指在筛选出的文献中，分别出现关键词X和Y的概率。

在一个实施例中，提供了另一种知识图谱构建方法，该知识图谱构建方法能够运行在知识图谱构建装置中。图3是本实施例的知识图谱构建装置的运行原理示意图，方法的流程示意图，如图3所示，该装置包括依次连接的文献检索模块、关键词识别与抽取模块、关键词划分模块、属性辨识模块、存储模块和可视化输出模块。知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行各个模块对应的操作。

知识图谱构建装置所执行的知识图谱构建方法包括如下步骤：

步骤S301，检索文献。通过web of science、google scholar等文献搜索网站获取500篇天文学领域论文，对论文的完整性、研究方向的准确性进行筛选删除，删减与天文学不相关、文章内容不完整等质量较差的论文。

步骤S302，识别与抽取关键词。使用自然语言处理技术从上述论文中抽取候选词。在对候选词抽取之前，首先，对上述删减后的论文进行预处理，包括去除标点符号、数字、停用词、特殊字符等，以减少噪音和提高抽取准确度。其次，从论文中抽取出与主题相关的候选词；具体是指对抽取出的候选词进行语义解析，识别不同文化表达的区别，识别同义词、近义词等，进一步标准化候选词。具体地，利用一篇文档内部的词语间的共现信息(语义)抽取关键词，能够从一个给定的论文中抽取出该论文的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该论文的关键句。第二权重计算公式如下所示：

接下来，选取第二权重较大的前10%的候选词为目标词，并将这些目标词作为关键词收录至数据集中。

步骤S303，划分关键词。上述抽取出的关键词包含天文学领域中的概念、理论、方法及现象等。基于天文学领域的分类体系，将上述关键词分为天体、星系、宇宙学及射电天文等类别；同时将关键词包含的属性信息进行存储，例如关键词出现的位置和频次。具体地，利用预设专家知识对关键词进行挑选，对抽取出来的关键词进行修正，提高关键词的专业性，消除不同研究人员表达的差异，提高自然语言算法提取出关键词的准确性。对各关键词在论文集合中出现的位置和频次进行加权计算，得到各关键词的第一参数，根据各关键词的第一参数占数据集中全部关键词的第一参数之和的比例，得到各关键词的第一权重。第一权重计算公式如下：

第一参数Si的计算公式如下：

其中，a代表关键词位于题目的权重系数，其值为0.5，b代表关键词位于摘要和结论的权重系数，其值为0.3，c代表关键词在论文其他位置的权重系数，其值均为0.1，k₁代表关键词V_i出现在题目中的频次（论文数目），k₂代表关键词V_i出现在摘要和结论中的频次（论文数目），k₃代表关键词V_i出现在其他位置的频次（论文数目）。

举例而非限制，假设有500篇论文，从中提取出3个关键词，分别为“快速射电暴”、“土星”和“彗星”。其中，关于“快速射电暴”，确定这个关键词在全部500篇论文中的位置，计算得到有10篇论文在题目中提到了“快速射电暴”，15篇在摘要和结论中提到了“快速射电暴”，50篇在论文的其他位置提到了“快速射电暴”，则“快速射电暴”这个关键词的第一参数为10×0.5+15×0.3+50×0.1=14.5。基于和“快速射电暴”相同的原理，计算得到“土星”的第一参数为10，“彗星”的第一参数为2.6，则“快速射电暴”的第一权重参数为14.5/（14.5+10+2.5）=0.54。

接下来，可以增加一些比重较小但是较为重要的词语作为关键词。对上述所选出的关键词按照第一权重进行大小排序，得到第一权重较大的主关键词和第一权重较小副关键词，将副关键词分类到主关键词里面去，如何分类利用的是专家知识库，即将同一个研究方向的副关键词放到主关键词里面。这个步骤可以利用人工智能实现，示例性地，将权重前30%大的每个关键词（主关键词）作为一个篮子，将剩余70%的关键词（副关键词）利用专家知识库按照研究方向放到权重较大关键词的篮子里面。剩余70%的关键词在挑选篮子的时候可以根据专家知识库选择多个篮子。通过这种方式可以有效地实现关键词的交叉检索，并减小知识图谱的规模。

步骤S304，辨识关键词关联关系。基于关键词的天文学领域知识图谱将每个关键词看作一个节点，将节点之间的语义关系构建为边。关键词之间存在多种不同的关系，例如共同出现在同一篇文章、关键词表达含义具有相似性、相关性及关键词属于同一研究方向。将彼此存在关系的关键词进行相连，作为获取边的方式，以此构建知识图谱。此外，关键词的度是每个关键词作为节点存在的分支数量，用来获取天文学领域中的重要概念或理论，较高的度表示这个关键词与其他关键词具有多重相关关系，表示这个关键词是较为重要。其中，关键词属于同一研究方向则通过步骤S303标注实现。其中，关键词具有相关性可以通过互信息计算获得，即将互信息计算结果最大的两个关键词连接，互信息计算公式如下所示：

步骤S305，将构建的节点和边保存到图数据库Neo4j中，并定期更新知识图谱。例如，添加新的关键词节点、构建新的边权重计算方式、更新属性信息等。同时不断地对知识图谱进行质量控制和校验，保证知识图谱的准确性和完整性。

步骤S306，绘制知识图谱。通过可视化软件将天文学知识图谱绘制出来，方便相关研究人员进行查找分析。图4本实施例的知识图谱的示意图，知识图谱绘制可参考图4。

通过上述步骤，针对天文专业知识梳理困难的问题，基于自然语言处理方法和领域专家经验对天文多模态数据进行知识的整合和挖掘，分析面向关键词的细粒度天文知识抽取方法，构建基于关键词的天文领域知识图谱，本申请的目的在于对天文学领域的知识进行结构化和语义化表示，数据分析和专家知识的双轮驱动知识体系可以提高知识图谱的准确性和普适性。基于天文领域关键词将相关概念和实体之间的关系整合到知识图谱中，使论文中包含的信息可以被更加有效地组织和挖掘。此外，构建基于关键词的天文学知识图谱可以提高相关领域的信息检索效率和准确性，用户可以通过在知识图谱中搜索某个关键词快速地获取相关信息。关键词是一篇论文主要想表达的思想所在，本申请在关键词的选取过程中，利用了关键词加权处理的技术，可以将权重较小的关键词归类到权重较大的关键词领域，缩小知识图谱的规模，提高论文的查找效率，并解决小众研究方向论文较少的问题，为研究学者提供便利条件。

在一个实施例中，提供了一种资源查找方法，图5本实施例的资源查找方法的流程示意图，如图5所示，该流程包括如下步骤：

步骤S501，在交互界面中展示第一资源所对应的关键词。

交互界面还可以展示第一资源，具体地，交互界面展示第一资源的资源标识，资源标识可以是论文标题、期刊号或者报告标题。假设第一资源为一篇论文，资源标识为论文标题，则鼠标点击资源标识所在组件，交互界面会展示该篇论文摘要或者正文。

步骤S502，响应于对关键词的访问操作，返回第二资源，其中，第一资源和第二资源基于知识图谱建立关联关系，知识图谱根据上述任一实施例的知识图谱构建方法生成。

对关键词的访问操作，可以是通过触摸屏、键盘、鼠标等输入工具获取用户下达的操作指令来实现。返回第二资源，可以是在交互界面中展示第二资源的资源标识。

该资源查找方法可以运行在具有运算能力的终端，终端包括后台和交互界面，交互界面接收用户输入的关键词，例如“快速射电暴”，则交互界面会出现所有与“快速射电暴”关键词相连接的关键词。此外，若“快速射电暴”为主关键词，则在点击“快速射电暴”关键词时，会链接到该关键词的副关键词里面。其中，点击每个关键词，都会链接与该关键词相关的论文。

在一个实施例中，资源查找方法可以应用于如图6所示的应用环境中。其中，终端602通过网络与服务器604进行通信。数据存储系统可以存储服务器604需要处理的图数据。数据存储系统可以集成在服务器604上，也可以放在云上或其他网络服务器上。其中，终端602可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器604可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种知识图谱构建方法或者资源查找方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述任一方法实施例的步骤，该方法包括知识图谱构建方法或者资源查找方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例的步骤，该方法包括知识图谱构建方法或者资源查找方法。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（StaticRandom Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种知识图谱构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的知识图谱构建方法，其特征在于，包括：

所述主关键词在所述数据集中占全部关键词的比例为a，所述副关键词在所述数据集中占全部关键词的比例为b，a＜b；和/或，

3.根据权利要求1所述的知识图谱构建方法，其特征在于，获取资源对应的数据集，包括：

对所述多个资源进行自然语言处理，提取得到所述关键词；

4.根据权利要求3所述的知识图谱构建方法，其特征在于，对所述多个资源进行自然语言处理，提取得到所述关键词，包括：

5.根据权利要求3所述的知识图谱构建方法，其特征在于，计算每个候选词在相应资源中的第二权重，包括：循环执行如下步骤，直至计算得到每个候选词在相应资源中的第二权重：

6.根据权利要求3所述的知识图谱构建方法，其特征在于，所述资源包括文献，所述位置包括所述文献中的以下至少之一：题目、摘要、结论。

7.根据权利要求1所述的知识图谱构建方法，其特征在于，

将以每个所述主关键词之间的语义关系作为边，包括：根据每两个所述主关键词共同出现在同一资源中的联合概率和分别出现在相应资源中的概率，计算每两个所述主关键词之间的互信息，确定互信息不低于预设阈值的两个主关键词之间存在语义关系，并记录所述语义关系；或者，

8.一种资源查找方法，其特征在于，所述方法包括：

在交互界面中展示第一资源所对应的关键词；

响应于对所述关键词的访问操作，返回第二资源，其中，所述第一资源和所述第二资源基于知识图谱建立关联关系，所述知识图谱根据权利要求1至权利要求7中任一项所述的知识图谱构建方法生成。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至权利要求8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求8中任一项所述的方法的步骤。