CN116451784A - 知识图谱的特征表达方法、系统及电子设备 - Google Patents
知识图谱的特征表达方法、系统及电子设备 Download PDFInfo
- Publication number
- CN116451784A CN116451784A CN202310216341.1A CN202310216341A CN116451784A CN 116451784 A CN116451784 A CN 116451784A CN 202310216341 A CN202310216341 A CN 202310216341A CN 116451784 A CN116451784 A CN 116451784A
- Authority
- CN
- China
- Prior art keywords
- vector
- entity
- knowledge
- knowledge graph
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 332
- 230000004927 fusion Effects 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013215 result calculation Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种知识图谱的特征表达方法、系统及电子设备,涉及知识图谱技术领域,在知识图谱的特征表达过程中,首先获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本;其中,知识图谱数据集中包含实体向量和关系向量;然后利用知识图谱数据集生成人员关系的字向量;再获取更新后的实体向量的头实体向量和尾实体向量,并根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果;最后利用距离结果确定知识图谱数据集的特征得分。该方法将字向量与实体向量进行融合计算,可充分发挥知识图谱的语义信息,能够解决因遇到新实体而出现oov问题从而导致的知识图谱的准确性受损问题。
Description
技术领域
本发明涉及知识图谱技术领域,尤其是涉及一种知识图谱的特征表达方法、系统及电子设备。
背景技术
目前,在知识表示学习(Knowledge Representation Learning)的相关研究中,正面临的一个重要挑战:如何实现多源信息融合。现有的知识表示学习模型,仅利用知识图谱的三元组结构信息进行知识表示学习,尚有大量与知识有关的其他信息,如实体与关系的描述信息、类别信息等,而这些文本信息、类别信息、视觉信息等丰富的多源异质信息可以帮助改善数据稀疏问题,提高知识表示的区分能力,如何充分融合这种跨模态信息,实现知识表示学习,具有重要意义。然而,知识表示学习中的多源信息融合的相关研究尚不够成熟和完善。
在各种场景中,大量数据以图数据(即包括点和边)的形式进行存储。图数据中的节点可以是商品、设备、用户,或者是图像、文本、音频数据,边表示点之间的关系。但图数据无法直接被使用,在进行进一步分析或预测工作前,需要将其中的信息进行表示,表示的质量决定图数据的还原程度。因此,需要一种图数据的高效表示方法。
现有技术中,通常采用(实体1,关系,实体2)或者(实体,属性,属性值)这样的三元组来表达事实,并基于这样的三元组来学习实体和关系的向量表示,但这种方法对于具有复杂关系表示的知识图谱而言,难以准确、完整地表示出各个实体在复杂关系中的真实语义。例如,医疗领域的行业知识有着自身复杂程度高的领域特点,现有通用领域的表示学习技术很难用简单的传统三元组准确、完整地表达医学知识的复杂性。
综上所述,现有技术对知识图谱的知识表示方法过程中,通常独立地学习三元组而忽视知识图谱的语义信息;如果遇到未出现过的实体信息,就会出现oov(Out-Of-Vocabulary)的问题,使得知识图谱的知识表示的准确性受到严重的影响。
发明内容
有鉴于此,本发明的目的在于提供一种知识图谱的特征表达方法、系统及电子设备,可充分发挥知识图谱的语义信息,能够解决因遇到新实体而出现oov问题从而导致的知识图谱的准确性受损问题。
第一方面,本发明实施例提供了一种知识图谱的特征表达方法,该方法包括以下步骤:
获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本;其中,知识图谱数据集中包含实体向量和关系向量;
利用知识图谱数据集生成人员关系的字向量;
将字向量与实体向量进行融合计算,并根据融合计算结果更新实体向量;
获取更新后的实体向量的头实体向量和尾实体向量,并根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果;
利用距离结果确定知识图谱数据集的特征得分。
在一些实施方式中,获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本的步骤,包括:
获取包含人员关系的知识图谱数据,并将知识图谱数据按照预设的实体关系格式需求构建为三元组数据;
根据三元组数据构建的实体字典、关系字典、头实体集合以及尾实体集合,构建知识图谱数据集;
将知识图谱数据集按照预设的样本划分策略构建正样本和负样本。
在一些实施方式中,利用知识图谱数据集生成人员关系的字向量的步骤,包括:
获取知识图谱数据集中包含的语料数据,并对语料数据进行分字处理,得到语料数据的所有字符;
按照预设字符处理规则对所有字符进行向量化处理生成字符对应的字向量矩阵,并将字向量矩阵输入至预先完成初始化的word2vec模型的Embedding层中进行初始化操作;
根据word2vec模型输出的词典文件,确定词典文件中包含的字向量。
在一些实施方式中,将字向量与实体向量进行融合计算之前,方法还包括:
按照实体字典获取实体向量中的实体ID,并利用实体ID获取对应的实体;
获取实体中对应的字符,并将词典文件确定字符对应的索引ID;其中,索引ID用于获取字符在实体向量或字向量中的位置。
在一些实施方式中,将字向量与实体向量进行融合计算,并根据融合计算结果更新实体向量的步骤,包括:
利用实体字典,将实体转换为对应的实体ID;
将实体ID传入至Embedding层中,并获取Embedding层输出的实体ID对应的实体向量;
将字向量拼接在实体向量之后,完成实体向量的更新。
在一些实施方式中,将字向量与实体向量进行融合计算之前,方法还包括:
利用词典文件确定字符对应的索引ID;
将索引ID传入至Embedding层中,并获取Embedding层输出的索引ID对应的字向量;
获取同一个实体对应的字向量的平均向量,并利用平均向量对实体的字向量进行融合。
在一些实施方式中,根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果,包括:
利用头实体向量、尾实体向量和关系向量计算正样本与负样本之间的曼哈顿距离和/或欧式距离;
利用正样本与负样本之间的曼哈顿距离和/或欧式距离确定距离结果。
在一些实施方式中,利用距离结果确定知识图谱数据集的特征得分的步骤,包括:
获取正样本与负样本之间的曼哈顿距离;
利用预设的得分函数对曼哈顿距离进行计算,得到知识图谱数据集的特征得分;其中,得分函数为:
其中,为特征得分;γ为边距超参数;d(h+l,t)为正样本;d(h′+′,′)为负样本;S为正样本的支持集;S′为负样本的支持集;h为正样本的头实体向量;l为正样本的关系向量;t为正样本的尾实体向量;h′为负样本的头实体向量;l′为负样本的关系向量;t′为负样本的尾实体向量;
[γ+d(h+l,t)-(h′+′,′)]+表示γ+d(h+l,t)-(h′+l′,′)的正数部分。
第二方面,本发明实施例提供了一种知识图谱的特征表达系统,该系统包括:
初始化模块,用于获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本;其中,知识图谱数据集中包含实体向量和关系向量;
字向量生成模块,用于利用知识图谱数据集生成人员关系的字向量;
实体向量生成模块,用于将字向量与实体向量进行融合计算,并根据融合计算结果更新实体向量;
距离结果计算模块,用于获取更新后的实体向量的头实体向量和尾实体向量,并根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果;
特征得分计算模块,用于利用距离结果确定知识图谱数据集的特征得分。
第三方面,本发明实施方式还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现第一方面提供的知识图谱的特征表达方法的步骤。
第四方面,本发明实施方式还提供一种存储介质,存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面提供的知识图谱的特征表达方法的步骤。
本发明实施例带来了以下有益效果:本发明实施例提供了一种知识图谱的特征表达方法、系统及电子设备,在知识图谱的特征表达过程中,首先获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本;其中,知识图谱数据集中包含实体向量和关系向量;然后利用知识图谱数据集生成人员关系的字向量;再获取更新后的实体向量的头实体向量和尾实体向量,并根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果;最后利用距离结果确定知识图谱数据集的特征得分。该方法将字向量与实体向量进行融合计算,可充分发挥知识图谱的语义信息,能够解决因遇到新实体而出现oov问题从而导致的知识图谱的准确性受损问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种知识图谱的特征表达方法的流程图;
图2为本发明实施例提供的一种知识图谱的特征表达方法中,获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本的步骤S101的流程图;
图3为本发明实施例提供的一种知识图谱的特征表达方法中,获利用知识图谱数据集生成人员关系的字向量的步骤S102的流程图;
图4为本发明实施例提供的一种知识图谱的特征表达方法中,将字向量与实体向量进行融合计算之前的流程图;
图5为本发明实施例提供的一种知识图谱的特征表达方法中,将字向量与实体向量进行融合计算,并根据融合计算结果更新实体向量的步骤S103的流程图;
图6为本发明实施例提供的一种知识图谱的特征表达方法中,将字向量与实体向量进行融合计算之前对实体的字向量进行融合的流程图;
图7为本发明实施例提供的一种知识图谱的特征表达方法中,根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果的流程图;
图8为本发明实施例提供的一种知识图谱的特征表达方法中,利用距离结果确定知识图谱数据集的特征得分的步骤S105的流程图;
图9为本发明实施例提供的另一种知识图谱的特征表达方法的流程图;
图10为本发明实施例提供的一种知识图谱的特征表达系统的结构示意图;
图11为本发明实施例提供的一种电子设备的结构示意图。
图标:
1010-初始化模块;1020-字向量生成模块;1030-实体向量生成模块;1040-距离结果计算模块;1050-特征得分计算模块;
101-处理器;102-存储器;103-总线;104-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在知识表示学习(Knowledge Representation Learning)的相关研究中,正面临的一个重要挑战:如何实现多源信息融合。现有的知识表示学习模型,仅利用知识图谱的三元组结构信息进行知识表示学习,尚有大量与知识有关的其他信息,如实体与关系的描述信息、类别信息等,而这些文本信息、类别信息、视觉信息等丰富的多源异质信息可以帮助改善数据稀疏问题,提高知识表示的区分能力,如何充分融合这种跨模态信息,实现知识表示学习,具有重要意义。然而,知识表示学习中的多源信息融合的相关研究尚不够成熟和完善。
在各种场景中,大量数据以图数据(即包括点和边)的形式进行存储。图数据中的节点可以是商品、设备、用户,或者是图像、文本、音频数据,边表示点之间的关系。但图数据无法直接被使用,在进行进一步分析或预测工作前,需要将其中的信息进行表示,表示的质量决定图数据的还原程度。因此,需要一种图数据的高效表示方法。
现有技术中,通常采用(实体1,关系,实体2)或者(实体,属性,属性值)这样的三元组来表达事实,并基于这样的三元组来学习实体和关系的向量表示,但这种方法对于具有复杂关系表示的知识图谱而言,难以准确、完整地表示出各个实体在复杂关系中的真实语义。例如,医疗领域的行业知识有着自身复杂程度高的领域特点,现有通用领域的表示学习技术很难用简单的传统三元组准确、完整地表达医学知识的复杂性。
综上所述,现有技术对知识图谱的知识表示方法过程中,通常独立地学习三元组而忽视知识图谱的语义信息;如果遇到未出现过的实体信息,就会出现oov(Out-Of-Vocabulary)的问题,使得知识图谱的知识表示的准确性受到严重的影响。针对上述问题,本发明提出一种知识图谱的特征表达方法、系统及电子设备,该方法将字向量与实体向量进行融合计算,可充分发挥知识图谱的语义信息,能够解决因遇到新实体而出现oov问题从而导致的知识图谱的准确性受损问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种知识图谱的特征表达方法进行详细介绍,该方法的流程图如图1所示,包括:
步骤S101,获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本;其中,知识图谱数据集中包含实体向量和关系向量。
实际场景中,这里准备的知识图谱数据集可分为两个部分,其中一部分是社区人员关系以及重点人员关系等知识图谱数据集;另一部分是与社会人员关系知识图谱相关领域的语料数据集。然后根据人员关系知识图谱相关数据集构建正样本和负样本。
步骤S102,利用知识图谱数据集生成的字向量。
使用人员关系知识图谱相关领域的语料数据集,可将其数据进行清洗,去除停用词后,然后用word2vec进行训练并输出人员关系知识图谱相关领域的人员关系字向量。
步骤S103,将字向量与实体向量进行融合计算,并根据融合计算结果更新实体向量。
将实体向量与其对应的字向量进行融合,使每个实体向量中包含更加丰富的语义信息。
步骤S104,获取更新后的实体向量的头实体向量和尾实体向量,并根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果。
根据上述融合之后的实体向量,计算正样本和负样本中的头实体、关系与尾实体的L1距离或者是L2距离。
步骤S105,利用距离结果确定知识图谱数据集的特征得分。
用基于边际的排名标准作为最终得分,具体可理解为word2vec的损失函数,通过使用梯度下降来进行参数的更新与优化。
在一些实施方式中,获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本的步骤S101,如图2所示,包括:
步骤S201,获取包含人员关系的知识图谱数据,并将知识图谱数据按照预设的实体关系格式需求构建为三元组数据;
步骤S202,根据三元组数据构建的实体字典、关系字典、头实体集合以及尾实体集合,构建知识图谱数据集;
步骤S203,将知识图谱数据集按照预设的样本划分策略构建正样本和负样本。
上述步骤为数据集的准备步骤。具体使用人员关系知识图谱的数据,按照<头实体,关系,尾实体>的形式进行三元组数据的构建,最终生成文本文档txt的形式。文档的每一行都是由<头实体,关系,尾实体>构成,每个实体和关系之间都有特殊的分隔符进行分隔,以便后面可以方便的进行获取数据。
将所有的三元组写入txt文档后,根据该文档的三元组信息,构建所有实体字典和关系字典以及头实体集合和尾实体集合。实体字典是指所有的实体以及实体ID,其中的内容格式为{实体:实体ID}。关系字典是指所有的关系以及关系ID,其中的内容格式为{关系:关系ID}。头实体集合中的内容是头实体以及以该实体为头实体的所有尾实体。同样尾实体集合中内容是尾实体以及以该实体为尾实体的所有头实体。
实际场景中,可收集关于人员关系相关领域的一些语料,人员关系的科普等信息。将所有的语料进行分句处理,然后进行各种特殊符号的过滤。
在一些实施方式中,利用知识图谱数据集生成人员关系的字向量的步骤S102,如图3所示,包括:
步骤S301,获取知识图谱数据集中包含的语料数据,并对语料数据进行分字处理,得到语料数据的所有字符;
步骤S302,按照预设字符处理规则对所有字符进行向量化处理生成字符对应的字向量矩阵,并将字向量矩阵输入至预先完成初始化的word2vec模型的Embedding层中进行初始化操作;
步骤S303,根据word2vec模型输出的词典文件,确定词典文件中包含的字向量。
该步骤为生成相关领域的字向量步骤,可将人员关系知识图谱相关领域的语料进行分字处理,然后去除其中的停用词,并去除频次少于3的字符。使用word2vec的skip-gram算法,windows设置为5,对字向量进行训练。使用预训练的字向量矩阵初始化Embedding层的参数,比随机初始化Embedding层的参数在后续的训练过程中模型的收敛速度更快。
在一些实施方式中,将字向量与实体向量进行融合计算之前,如图4所示,该方法还包括:
步骤S401,按照实体字典获取实体向量中的实体ID,并利用实体ID获取对应的实体;
步骤S402,获取实体中对应的字符,并将词典文件确定字符对应的索引ID;其中,索引ID用于获取字符在实体向量或字向量中的位置。
字向量训练完成之后,会生成一个向量模型文件,里面包含了所有的字,以及字所对应的字向量,也包含了单独的字向量矩阵。将用于训练字向量的每个字以及每个字对应的id,存入词典文件中。这里的每个字的id,就是每个字对应的字向量在字向量矩阵中的位置,即对应字向量的索引。Word2vec模型中的字向量矩阵也对应保存起来,这个字向量矩阵将会作为字向量Embedding层的初始化参数。
在一些实施方式中,将字向量与实体向量进行融合计算,并根据融合计算结果更新实体向量的步骤S103,如图5所示,包括:
步骤S501,利用实体字典,将实体转换为对应的实体ID;
步骤S502,将实体ID传入至Embedding层中,并获取Embedding层输出的实体ID对应的实体向量;
步骤S503,将字向量拼接在实体向量之后,完成实体向量的更新。
将实体向量与字向量进行融合的目的,是为了增加对应向量包含信息的丰富度,这样就可以对当前实体进行更好的表征。向量融合的方式一般有两种,一种是拼接的方式,即将两个向量拼接在一起,这样会增加向量的维度,拼接后的向量维度为拼接前两个向量维度的加和;第二种向量融合的方式是求平均的方式,即将两个向量进行相加,然后在此基础上计算平均。第二种向量融合方式要求融合的两个向量的维度形状要完全一样,并且融合之后的向量维度不变,依旧是融合之前的维度。
在本实施例中,选择的字向量融合方式是第二种融合方式,即对两个向量进行求平均的方式。具体的操作方式为:
将每个实体文本分解为对应组合的字,并将实体文本对应的每个字通过步骤二中构建的字与字ID的词典文件,将实体文本对应的每个字都转换成该字对应的索引ID。然后将转换后的ID传入定义好的字Embedding层中,Embedding层会根据传入的索引ID进行查找,最后返回对应字的字向量。将同一个实体的每个字向量先进行按位相加,然后再将相加后的向量进行求平均的操作。最后得出来得结果向量,就是同一实体的每个字的向量的融合。
在一些实施方式中,将字向量与实体向量进行融合计算之前,如图6所示,该方法还包括:
步骤S601,利用词典文件确定字符对应的索引ID;
步骤S602,将索引ID传入至Embedding层中,并获取Embedding层输出的索引ID对应的字向量;
步骤S603,获取同一个实体对应的字向量的平均向量,并利用平均向量对实体的字向量进行融合。
在将实体向量和字向量进行融合,增强表达能力之前,需要先将要输入的实体按照前述实施例中构建的实体字典,将这些实体转化为其对应的实体ID。同时将每个实体拆分开来,得到每个实体对应的字,然后按照步骤二中构建的词典文件,得到每个字相应的索引ID。
这里将每个实体以及实体对应的每个字转换为对应的索引ID,是为了可以快速的在对应的Embedding层里面查找到对应的向量。这里的被转换的ID,就代表了该实体或者实体的某个字其对应的稠密向量在实体向量的Embedding层或者字向量的Embedding层中的位置。
在进行实体向量和字向量的融合之前,需要先进行字向量的一个融合。因为一个实体可能由多个字组成,所以需要先将多个字向量融合成一个向量,这一个向量将含有多个字组合信息。
选择的实体向量和融合后的字向量的融合方式是第一种融合方式,即对两个向量进行拼接的方式。具体的操作方法为:
根据前述实施例中构建的实体字典,将每个实体转换为其对应的实体ID。然后将转换后的实体ID传入定义好的实体向量的Embedding中,该Embedding层同样会根据传入的实体ID查询对应的实体向量,然后将其返回。将返回的实体向量与上面得到的融合后的同一实体对应的字向量进行拼接操作,将融合的字向量拼接在实体向量的后面,完成实体向量与其对应的字向量的融合。
在一些实施方式中,根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果,如图7所示,包括:
步骤S701,利用头实体向量、尾实体向量和关系向量计算正样本与负样本之间的曼哈顿距离和/或欧式距离;
步骤S702,利用正样本与负样本之间的曼哈顿距离和/或欧式距离确定距离结果。
该实施例中,在得到实体向量与字向量的融合向量之后,就可以开始计算正样本和负样本的L1距离或者是L2距离。模型的基本假设为如果是同一组的三元组关系,那么尾实体相当于头实体加关系,这里关系被看作了头实体到尾实体的一个翻译,即lh+lr=lt,其中lh为头实体向量,lr为关系向量,lt为尾实体向量。其中L1距离的公式为|lh+lr-lt|,L2距离的计算公式为(lh+lr-lt)2。具体场景中,可选用L1距离的计算公式。使用L1距离的计算公式分别计算出每条正样本的L1距离分数pos和负样本的L1距离分数。
在一些实施方式中,利用距离结果确定知识图谱数据集的特征得分的步骤S105,如图8所示,包括:
步骤S801,获取正样本与负样本之间的曼哈顿距离;
步骤S802,利用预设的得分函数对曼哈顿距离进行计算,得到知识图谱数据集的特征得分。
得分函数为:
其中,为特征得分;γ为边距超参数;d(h+l,t)为正样本;d(h′+l′,t′)为负样本;S为正样本的支持集;S′为负样本的支持集;h为正样本的头实体向量;l为正样本的关系向量;t为正样本的尾实体向量;h′为负样本的头实体向量;l′为负样本的关系向量;t′为负样本的尾实体向量;
[γ+d(h+l,t)-d(h′+l′,t′)]+表示γ+d(h+l,t)-d(h′+l′,t′)的正数部分。
利用上述实施例中得到的正样本以及对应的负样本得L1距离分数,来计算最终的得分。这个最终的得分就是模型的损失函数,模型的所有参数都会根据这个得分来进行反向传播对参数进行更新,更新目标也是最小化这个得分函数。
上述知识图谱的特征表达方法具体如图9所示,首先可获取社会人员关系知识图谱数据集与其相关领域的语料数据集;然后基于社会人员关系知识图谱内容的相关领域的语料数据集,使用word2vec模型,用skip-gram算法进行相关字向量的训练;随后根据每个实体,将其对应的字向量先进行融合,得到包含不同字的信息的向量。将此向量与其对应的实体进行融合。然后,根据社会人员关系知识图谱数据集,进行正负样本的构建生成。然后对构建的正负样本分别进行计算其对应的L1距离分数;最后根据计算出来的正负样本的L1距离分数,计算最终的损失,根据损失进行反向传播更新相关参数,得到头实体、关系和尾实体的社会人员关系知识图谱的知识表示学习模型,生成社会人员关系知识表示。
通过上述知识图谱的特征表达方法可知,该方法将字向量与实体向量进行融合计算,可充分发挥知识图谱的语义信息,能够解决因遇到新实体而出现oov问题从而导致的知识图谱的准确性受损问题。
对应于上述实施例中提到的知识图谱的特征表达方法,本发明实施例还提供了一种知识图谱的特征表达系统,如图10所示,该系统包括:
初始化模块1010,用于获取包含人员关系数据的知识图谱数据集,并根据知识图谱数据集构建正样本和负样本;其中,知识图谱数据集中包含实体向量和关系向量;
字向量生成模块1020,用于利用知识图谱数据集生成人员关系的字向量;
实体向量生成模块1030,用于将字向量与实体向量进行融合计算,并根据融合计算结果更新实体向量;
距离结果计算模块1040,用于获取更新后的实体向量的头实体向量和尾实体向量,并根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果;
特征得分计算模块1050,用于利用距离结果确定知识图谱数据集的特征得分。
在一些实施方式中,模型训练初始化模块1010用于:获取包含人员关系的知识图谱数据,并将知识图谱数据按照预设的实体关系格式需求构建为三元组数据;根据三元组数据构建的实体字典、关系字典、头实体集合以及尾实体集合,构建知识图谱数据集;将知识图谱数据集按照预设的样本划分策略构建正样本和负样本。
在一些实施方式中,字向量生成模块1020用于:获取知识图谱数据集中包含的语料数据,并对语料数据进行分字处理,得到语料数据的所有字符;按照预设字符处理规则对所有字符进行向量化处理生成字符对应的字向量矩阵,并将字向量矩阵输入至预先完成初始化的word2vec模型的Embedding层中进行初始化操作;根据word2vec模型输出的词典文件,确定词典文件中包含的字向量。
在一些实施方式中,知识图谱的特征表达系统还包括:实体索引ID获取模块;实体索引ID获取模块用于:按照实体字典获取实体向量中的实体ID,并利用实体ID获取对应的实体;获取实体中对应的字符,并将词典文件确定字符对应的索引ID;其中,索引ID用于获取字符在实体向量或字向量中的位置。
在一些实施方式中,实体向量生成模块1030用于:利用实体字典,将实体转换为对应的实体ID;将实体ID传入至Embedding层中,并获取Embedding层输出的实体ID对应的实体向量;将字向量拼接在实体向量之后,完成实体向量的更新。
在一些实施方式中,知识图谱的特征表达系统还包括:字向量融合模块;字向量融合模块用于:利用词典文件确定字符对应的索引ID;将索引ID传入至Embedding层中,并获取Embedding层输出的索引ID对应的字向量;获取同一个实体对应的字向量的平均向量,并利用平均向量对实体的字向量进行融合。
在一些实施方式中,距离结果计算模块1040在根据头实体向量、尾实体向量和关系向量计算正样本与负样本之间的距离结果的过程中,还用于:利用头实体向量、尾实体向量和关系向量计算正样本与负样本之间的曼哈顿距离和/或欧式距离;利用正样本与负样本之间的曼哈顿距离和/或欧式距离确定距离结果。
在一些实施方式中,特征得分计算模块1050用于:获取正样本与负样本之间的曼哈顿距离;利用预设的得分函数对曼哈顿距离进行计算,得到知识图谱数据集的特征得分;其中,得分函数为:
其中,为特征得分;γ为边距超参数;d(h+l,t)为正样本;d(h′+′,′)为负样本;S为正样本的支持集;S′为负样本的支持集;h为正样本的头实体向量;l为正样本的关系向量;t为正样本的尾实体向量;h′为负样本的头实体向量;l′为负样本的关系向量;t′为负样本的尾实体向量;
[γ+d(h+l,t)-(h′+′,′)]+表示γ+d(h+l,t)-(h′+l′,′)的正数部分。
通过上述知识图谱的特征表达系统可知,该系统将字向量与实体向量进行融合计算,可充分发挥知识图谱的语义信息,能够解决因遇到新实体而出现oov问题从而导致的知识图谱的准确性受损问题。
本发明实施例所提供的知识图谱的特征表达系统,其实现原理及产生的技术效果和前述知识图谱的特征表达方法的实施例相同,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
本实施例还提供一种电子设备,为该电子设备的结构示意图如图11所示,该设备包括处理器101和存储器102;其中,存储器102用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述知识图谱的特征表达方法。
图11所示的服务器还包括总线103和通信接口104,处理器101、通信接口104和存储器102通过总线103连接。
其中,存储器102可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种知识图谱的特征表达方法,其特征在于,所述方法包括:
获取包含人员关系数据的知识图谱数据集,并根据所述知识图谱数据集构建正样本和负样本;其中,所述知识图谱数据集中包含实体向量和关系向量;
利用所述知识图谱数据集生成所述人员关系的字向量;
将所述字向量与所述实体向量进行融合计算,并根据融合计算结果更新所述实体向量;
获取更新后的所述实体向量的头实体向量和尾实体向量,并根据所述头实体向量、所述尾实体向量和所述关系向量计算所述正样本与所述负样本之间的距离结果;
利用所述距离结果确定所述知识图谱数据集的特征得分。
2.根据权利要求1所述的知识图谱的特征表达方法,其特征在于,所述获取包含人员关系数据的知识图谱数据集,并根据所述知识图谱数据集构建正样本和负样本的步骤,包括:
获取包含人员关系的知识图谱数据,并将所述知识图谱数据按照预设的实体关系格式需求构建为三元组数据;
根据所述三元组数据构建的实体字典、关系字典、头实体集合以及尾实体集合,构建所述知识图谱数据集;
将所述知识图谱数据集按照预设的样本划分策略构建所述正样本和所述负样本。
3.根据权利要求2所述的知识图谱的特征表达方法,其特征在于,所述利用所述知识图谱数据集生成所述人员关系的字向量的步骤,包括:
获取所述知识图谱数据集中包含的语料数据,并对所述语料数据进行分字处理,得到所述语料数据的所有字符;
按照预设字符处理规则对所述所有字符进行向量化处理生成所述字符对应的字向量矩阵,并将所述字向量矩阵输入至预先完成初始化的word2vec模型的Embedding层中进行初始化操作;
根据所述word2vec模型输出的词典文件,确定所述词典文件中包含的字向量。
4.根据权利要求3所述的知识图谱的特征表达方法,其特征在于,所述将所述字向量与所述实体向量进行融合计算之前,所述方法还包括:
按照所述实体字典获取所述实体向量中的实体ID,并利用所述实体ID获取对应的实体;
获取所述实体中对应的字符,并将所述词典文件确定所述字符对应的索引ID;其中,所述索引ID用于获取所述字符在所述实体向量或所述字向量中的位置。
5.根据权利要求4所述的知识图谱的特征表达方法,其特征在于,所述将所述字向量与所述实体向量进行融合计算,并根据融合计算结果更新所述实体向量的步骤,包括:
利用所述实体字典,将所述实体转换为对应的实体ID;
将所述实体ID传入至Embedding层中,并获取所述Embedding层输出的所述实体ID对应的所述实体向量;
将所述字向量拼接在所述实体向量之后,完成所述实体向量的更新。
6.根据权利要求5所述的知识图谱的特征表达方法,其特征在于,所述将所述字向量与所述实体向量进行融合计算之前,所述方法还包括:
利用所述词典文件确定所述字符对应的所述索引ID;
将所述索引ID传入至所述Embedding层中,并获取所述Embedding层输出的所述索引ID对应的所述字向量;
获取同一个所述实体对应的所述字向量的平均向量,并利用所述平均向量对所述实体的所述字向量进行融合。
7.根据权利要求1所述的知识图谱的特征表达方法,其特征在于,根据所述头实体向量、所述尾实体向量和所述关系向量计算所述正样本与所述负样本之间的距离结果,包括:
利用所述头实体向量、所述尾实体向量和所述关系向量计算所述正样本与所述负样本之间的曼哈顿距离和/或欧式距离;
利用所述正样本与所述负样本之间的曼哈顿距离和/或欧式距离确定所述距离结果。
8.根据权利要求1所述的知识图谱的特征表达方法,其特征在于,所述利用所述距离结果确定所述知识图谱数据集的特征得分的步骤,包括:
获取所述正样本与所述负样本之间的曼哈顿距离;
利用预设的得分函数对所述曼哈顿距离进行计算,得到所述知识图谱数据集的特征得分;其中,所述得分函数为:
其中,为所述特征得分;γ为边距超参数;d(h+l,t)为正样本;d(h′+′,′)为负样本;S为正样本的支持集;S′为负样本的支持集;h为正样本的头实体向量;l为正样本的关系向量;t为正样本的尾实体向量;h′为负样本的头实体向量;l′为负样本的关系向量;t′为负样本的尾实体向量;[γ+d(h+l,t)-(h′+′,′)]+表示γ+d(h+l,t)-(h′+′,′)的正数部分。
9.一种知识图谱的特征表达系统,其特征在于,所述系统包括:
初始化模块,用于获取包含人员关系数据的知识图谱数据集,并根据所述知识图谱数据集构建正样本和负样本;其中,所述知识图谱数据集中包含实体向量和关系向量;
字向量生成模块,用于利用所述知识图谱数据集生成所述人员关系的字向量;
实体向量生成模块,用于将所述字向量与所述实体向量进行融合计算,并根据融合计算结果更新所述实体向量;
距离结果计算模块,用于获取更新后的所述实体向量的头实体向量和尾实体向量,并根据所述头实体向量、所述尾实体向量和所述关系向量计算所述正样本与所述负样本之间的距离结果;
特征得分计算模块,用于利用所述距离结果确定所述知识图谱数据集的特征得分。
10.一种电子设备,其特征在于,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的知识图谱的特征表达方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310216341.1A CN116451784A (zh) | 2023-03-02 | 2023-03-02 | 知识图谱的特征表达方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310216341.1A CN116451784A (zh) | 2023-03-02 | 2023-03-02 | 知识图谱的特征表达方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116451784A true CN116451784A (zh) | 2023-07-18 |
Family
ID=87124597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310216341.1A Pending CN116451784A (zh) | 2023-03-02 | 2023-03-02 | 知识图谱的特征表达方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116451784A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932780A (zh) * | 2023-09-13 | 2023-10-24 | 之江实验室 | 天文知识图谱构建方法、资源查找方法、设备和介质 |
-
2023
- 2023-03-02 CN CN202310216341.1A patent/CN116451784A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932780A (zh) * | 2023-09-13 | 2023-10-24 | 之江实验室 | 天文知识图谱构建方法、资源查找方法、设备和介质 |
CN116932780B (zh) * | 2023-09-13 | 2024-01-09 | 之江实验室 | 天文知识图谱构建方法、资源查找方法、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11327978B2 (en) | Content authoring | |
CN111090736B (zh) | 问答模型的训练方法、问答方法、装置及计算机存储介质 | |
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
CN117056471A (zh) | 知识库构建方法及基于生成式大语言模型的问答对话方法和系统 | |
WO2021139266A1 (zh) | 融合外部知识的bert模型的微调方法、装置及计算机设备 | |
CN111339765B (zh) | 文本质量评估方法、文本推荐方法及装置、介质及设备 | |
KR102636493B1 (ko) | 의료 데이터 검증 방법, 장치 및 전자 기기 | |
CN111680488A (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN110427618A (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
CN115048944B (zh) | 一种基于主题增强的开放域对话回复方法及系统 | |
US20220138185A1 (en) | Scene graph modification based on natural language commands | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN111339772A (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN116451784A (zh) | 知识图谱的特征表达方法、系统及电子设备 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN111859974A (zh) | 一种结合知识图谱的语义消歧方法和装置、智能学习设备 | |
WO2024125155A1 (zh) | 一种实体链接方法、装置、计算机设备和存储介质 | |
CN112182159B (zh) | 一种基于语义表示的个性化检索式对话方法和系统 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
CN115357710B (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |