CN112307777B - 知识图谱表示学习方法及系统 - Google Patents

知识图谱表示学习方法及系统 Download PDF

Info

Publication number
CN112307777B
CN112307777B CN202011034887.8A CN202011034887A CN112307777B CN 112307777 B CN112307777 B CN 112307777B CN 202011034887 A CN202011034887 A CN 202011034887A CN 112307777 B CN112307777 B CN 112307777B
Authority
CN
China
Prior art keywords
entity
vector
knowledge graph
triple
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011034887.8A
Other languages
English (en)
Other versions
CN112307777A (zh
Inventor
胡碧峰
侯乐
赵从志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Workway Shenzhen Information Technology Co ltd
Original Assignee
Workway Shenzhen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Workway Shenzhen Information Technology Co ltd filed Critical Workway Shenzhen Information Technology Co ltd
Priority to CN202011034887.8A priority Critical patent/CN112307777B/zh
Publication of CN112307777A publication Critical patent/CN112307777A/zh
Application granted granted Critical
Publication of CN112307777B publication Critical patent/CN112307777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明提供一种知识图谱表示学习方法及系统,该方法包括:根据知识图谱中的三元组的首实体以及尾实体在知识图谱中的关系实体,对应确定所述首实体以及尾实体的语境信息;根据所述三元组以及所包含的首实体以及尾实体的语境信息,构建三元组树,并将所述三元组树输入到嵌入层编码,得到嵌入向量;所述嵌入向量作为正样本的实体向量与关系向量的表示;根据实体向量和关系向量之间的转化模型,通过最小化预设的评价函数,学习得到所述三元组的向量表示。本发明能利用实体的语境信息提高知识图谱表示学习的准确性。

Description

知识图谱表示学习方法及系统
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种知识图谱表示学习方法及系统。
背景技术
当前知识表示技术主要有两类方法,基于翻译距离的方法和基于相似度匹配的方法。基于翻译距离的方法,主要基于翻译原则,使头实体与关系之和与尾实体尽可能接近,常用欧式距离度量;基于相似度匹配的方法,主要计算头实体、关系与尾实体三者的点积,相似度越高,三者越匹配。
然而,当前知识表示技术,在训练及评估阶段,仅考虑单个三元组作为输入,没有考虑三元组中实体的语境。如实体“北京”相关的三元组包括(北京,首都,中国)、(北京,属于,文化中心),这些三元组就是实体“北京”的语境。如何利用实体的语境信息提高知识图谱表示学习的准确性成为亟待解决的问题。
发明内容
有鉴于此,本发明提供一种知识图谱表示学习方法以及方法,以利用实体的语境信息提高知识图谱表示学习的准确性。
一方面,本发明提供一种知识图谱表示学习方法,包括:
根据知识图谱中的三元组的首实体以及尾实体在知识图谱中的关系实体,对应确定所述首实体以及尾实体的语境信息;所述首实体以及尾实体的语境信息包括所述知识图谱中的三元组的首实体以及尾实体在知识图谱中的一度关系实体以及二度关系实体;
根据所述三元组以及所包含的首实体以及尾实体的语境信息,构建三元组树,并将所述三元组树输入到嵌入层编码,得到嵌入向量;所述嵌入向量作为正样本的实体向量与关系向量的表示;所述三元组树包括所述首实体、尾实体、所述首实体的一度关系实体、所述首实体的二度关系实体、所述尾实体的一度关系实体、以及所述尾实体的二度关系实体的信息;
根据实体向量和关系向量之间的转化模型,得到所述三元组数对应嵌入向量的一个评价函数,通过最小化所述评价函数,学习得到所述三元组的向量表示。
进一步地,所述嵌入层包括字符嵌入层、位置嵌入层以及分割嵌入层;所述将所述三元组树输入到嵌入层编码,得到嵌入向量的步骤包括:将所述三元组树输入到字符嵌入层编码、位置嵌入层以及分割嵌入层中的一种,得到所述嵌入向量。
进一步地,将所述三元组树输入到位置嵌入层时,得到所述嵌入向量表示为:
a,b,c,d,e,f,g,h,i,g,k,l,m;
其中,a表示所述三元组中首实体的位置编码,b表示所述三元组中关系的位置编码,c,d表示所述三元组中尾实体的位置编码,e表示所述首实体的一度关系的位置编码,f表示所述首实体的一度关系对应实体的位置编码,g表示所述首实体的二度关系的位置编码,h表示所述首实体的二度关系对应实体的位置编码,i表示所述尾实体的一度关系的位置编码,g表示所述尾实体的一度关系对应实体的位置编码,k表示所述尾实体的二度关系的位置编码,l表示所述尾实体的二度关系对应实体的位置编码。
进一步地,所述实体向量和关系向量之间的转化模型通过伯努利分布分布抽样技术,替换所述三元组的首实体或者尾实体得到负样本。
另一方面,本发明提供一种知识图谱表示学习系统,包括:语境信息获取模块,用于根据知识图谱中的三元组的首实体以及尾实体在知识图谱中的关系实体,对应确定所述首实体以及尾实体的语境信息;所述首实体以及尾实体的语境信息包括所述知识图谱中的三元组的首实体以及尾实体在知识图谱中的一度关系实体以及二度关系实体;
嵌入向量获取模块,用于根据所述三元组以及所包含的首实体以及尾实体的语境信息,构建三元组树,并将所述三元组树输入到嵌入层编码,得到嵌入向量;所述嵌入向量作为正样本的实体向量与关系向量的表示;所述三元组树包括所述首实体、尾实体、所述首实体的一度关系实体、所述首实体的二度关系实体、所述尾实体的一度关系实体、以及所述尾实体的二度关系实体的信息;
向量表示学习模块,用于根据实体向量和关系向量之间的转化模型,得到所述三元组数对应嵌入向量的一个评价函数,通过最小化所述评价函数,学习得到所述三元组的向量表示。
进一步地,所述嵌入层包括字符嵌入层、位置嵌入层以及分割嵌入层;所述嵌入向量获取模块具体用于:将所述三元组树输入到字符嵌入层编码、位置嵌入层以及分割嵌入层中的一种,得到所述嵌入向量。
进一步地,所述嵌入向量获取模块具体用于:将所述三元组树输入到位置嵌入层时,得到所述嵌入向量表示为:
a,b,c,d,e,f,g,h,i,g,k,l,m;
其中,a表示所述三元组中首实体的位置编码,b表示所述三元组中关系的位置编码,c,d表示所述三元组中尾实体的位置编码,e表示所述首实体的一度关系的位置编码,f表示所述首实体的一度关系对应实体的位置编码,g表示所述首实体的二度关系的位置编码,h表示所述首实体的二度关系对应实体的位置编码,i表示所述尾实体的一度关系的位置编码,g表示所述尾实体的一度关系对应实体的位置编码,k表示所述尾实体的二度关系的位置编码,l表示所述尾实体的二度关系对应实体的位置编码。
进一步地,所述实体向量和关系向量之间的转化模型通过伯努利分布分布抽样技术,替换所述三元组的首实体或者尾实体得到负样本。
本发明知识图谱表示学习方法及系统,通过考虑了实体的语境信息,语境信息包括所述知识图谱中的三元组的首实体以及尾实体在知识图谱中的一度关系实体以及二度关系实体;能够在学习知识表示的同时,编码新增的三元组而无需重新训练模型,能更准确判断三元组的向量是否正确,以利用实体的语境信息提高知识图谱表示学习的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据本发明示例性第一实施例的知识图谱表示学习方法的流程图。
图2为根据本发明示例性的三元组树。
图3为根据本发明示例性的嵌入层表示的示意图。
图4为根据本发明示例性第二实施例的知识图谱表示学习系统的结构框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
如图1所示,本发明一种知识图谱表示学习方法,包括:
步骤101,根据知识图谱中的三元组的首实体以及尾实体在知识图谱中的关系实体,对应确定所述首实体以及尾实体的语境信息;
具体操作时,可以从知识图谱中任意抽取一个三元组,直到对知识图谱中的所有三元组完成分析;抽取三元组中实体的语境信息,同时构建负样本。实体向量和关系向量之间的转化模型(比如K-BERT模型)通过伯努利分布(Bernoulli)抽样技术,替换所述三元组的首实体或者尾实体得到负样本。伯努利分布(Bernoulli)抽样技术为现有技术,在此不再赘述。
具体地,三元组中头实体在知识图谱中一度、二度关系的实体,即为当前头实体的语境。相应地,尾实体在知识图谱中一度、二度关系的实体,即为当前尾实体的语境。
步骤102,根据所述三元组以及所包含的首实体以及尾实体的语境信息,构建三元组树,并将所述三元组树输入到嵌入层编码,得到嵌入向量;所述嵌入向量作为正样本的实体向量与关系向量的表示;所述三元组树包括所述首实体、尾实体、所述首实体的一度关系实体、所述首实体的二度关系实体、所述尾实体的一度关系实体、以及所述尾实体的二度关系实体的信息;
具体操作时,当前三元组的树,类似于星型的拓扑结构。针对该结构,需要特定的位置编码方法。所述嵌入层可以包括字符嵌入层、位置嵌入层以及分割嵌入层。其中,对于字符嵌入,该方法与BERT一致,它将字符转化为低维的向量表示。对于位置嵌入,上述星型的中心,该实体的位置编码为0,一度关系位置编码为1,一度关系对应的实体位置编码为2,二度关系位置编码为3,二度关系对应的实体位置编码为4。如二度关系的位置嵌入的输入可能是0,1,2,3,4,1,2,3,4,…。对于分割嵌入,该方法也与BERT一致,用于识别多个不同的句子。在三元组树编码时,由于首实体的三元组主要修饰首实体,因此首实体相关的三元组不应用于编码尾实体,因此构建可视矩阵作为可视层。通过该方法,可以避免引入知识噪音问题。
步骤102中将所述三元组树输入到嵌入层编码,得到嵌入向量的步骤包括:将所述三元组树输入到字符嵌入层编码、位置嵌入层以及分割嵌入层中的一种,得到所述嵌入向量。
优选地,将所述三元组树输入到位置嵌入层时,得到所述嵌入向量表示为:
a,b,c,d,e,f,g,h,i,g,k,l,m;
其中,a表示所述三元组中首实体的位置编码,b表示所述三元组中关系的位置编码,c,d表示所述三元组中尾实体的位置编码,e表示所述首实体的一度关系的位置编码,f表示所述首实体的一度关系对应实体的位置编码,g表示所述首实体的二度关系的位置编码,h表示所述首实体的二度关系对应实体的位置编码,i表示所述尾实体的一度关系的位置编码,g表示所述尾实体的一度关系对应实体的位置编码,k表示所述尾实体的二度关系的位置编码,l表示所述尾实体的二度关系对应实体的位置编码。
步骤103,根据实体向量和关系向量之间的转化模型,得到所述三元组数对应嵌入向量的一个评价函数,通过最小化所述评价函数,学习得到所述三元组的向量表示。
嵌入层编码后,将嵌入向量输入实体向量和关系向量之间的转化模型(来自变换器的双向编码器表征量,Bidirectional Encoder Representations from Transformers,简称BERT)进行学习。这里采用BERT作为预训练模型,有以下优势:它可以作为实体向量及关系向量的初始化。对于新增的三元组,也可以利用BERT的先验知识生成实体向量及关系向量。BERT模型为现有技术,在此不再详述。
即头实体向量,经过关系向量平移后,使之与尾实体向量尽可能接近。这里采欧式距离度量两者的距离。通过最小化评价函数,学习实体向量和关系向量的表示学习方法,利用随机梯度下降方法计算样本的梯度并更新参数。
即考虑了负样本的损失函数。其中,(h,r,t)表示正样本,(h’,r’,t’)表示负样本,gamma属于超参数,表示负样本与正样本之间的间隔,即负样本的得分较大即可。
具体地,以三元组分类任务为例,判断当前三元组是否正确。具体实施步骤如下:以(中国,首都,北京)为例,从图谱中抽取三元组的语境并构建负样本。如中国的语境包括(中国,属于,文明古国),(中国,属于,发展中国家)等,北京的语境包括(北京,属于,文化中心),(北京,近义,燕京)等.通过Bernoulli分布抽样技术,替换(中国,首都,北京)中的实体及关系,从而构建三元组的负样本,如(中国,首都,天津)。
需要说明的是,根据可视层的可视矩阵,需要对标准的变换器编码器进行修改,这里的注意力不再是计算所有词语与该词语的注意力得分,而是计算可视矩阵限定范围内的词语与该词语的得分,因此这里需要对词语进行掩膜处理,所以该变换器编码器称之为掩膜变换器编码器。这里依然采用BERT的预训练模型,有以下优势:它可以作为实体向量及关系向量的初始化。对于新增的三元组,也可以利用BERT的先验知识生成实体向量及关系向量。
首先,构建当前三元组的三元组树,作为嵌入层的输入。
如图2所示的三元组树。
其中,横排文字下面的一排数字索引以及两列竖排文字左边的两列数字索引,即为位置嵌入的输入:
Figure GDA0002822187950000061
其次,根据三元组树,构建可视层的输入
如上例的三元组树中,横排文字上面的一排数字索引以及两列竖排文字右边的两列数字索引,即为可视化矩阵(visible matrix)的索引:
Figure GDA0002822187950000062
对应的可视化矩阵为:
Figure GDA0002822187950000063
Figure GDA0002822187950000071
其中,[CLS]对当前三元组都可见(如中国首都北京),而对实体的其他三元组(实体的语境信息)不可见,表示对当前三元组的编码。三元组“中国属于文明古国”,它们之间相互可见,而对其他三元组都不可见。
通过visible matrix,可以使转换器(transformer)的注意力机制更加有选择性,由于对某些字符设为不可见(不同于传统的transformer,字符都可见),所以该转换器称之为mask-transformer。
然后,嵌入层编码后,作为变换器编码器的输入,获得字编码、位置编码的嵌入向量。嵌入层表示,包括字符嵌入、位置嵌入、分割嵌入,三者之和作为mask-transformerencoder的输入。模型训练完成后,可以获得字编码、位置编码、分割编码的嵌入向量,通常为768维的向量。具体如图3所示。
其中,分割嵌入主要用于区分两个三元组树。当前示例,仅一个三元组树,所以分割嵌入的输入字符都是A。若有两个三元组树,则分别用A、B表示。
再次,提取变换器编码器对应的三元组中实体向量与关系向量的表示,作为评价函数的输入,具体如提取三元组的实体及关系向量的表示,计算(中国,首都,北京)正样本和(中国,首都,天津)负样本的评价函数得分。其中,三元组的语境信息(也是由三元组构成)也作为正样本用于计算评价函数。
最后,通过最小化评价函数,学习实体向量和关系向量的表示,使负样本得分高于正样本超过一定的间隔即可(超参数,通过交叉验证方式,确定最优超参数)。如(中国,首都,天津)负样本得分高于(中国,首都,北京)正样本得分,中国+首都的向量表示距离天津的向量表示较远,而距离北京的向量表示更近。据此,通过随机梯度下降算法,最小化评价函数,可以获得三元组的正确表示。
本实施例不仅在编码阶段,在评估阶段,也考虑三元组中实体的语境,使实体的表示不仅依赖于当前三元组的实体及关系,也依赖于实体所处语境仅需在BERT基础上调优,无需训练新模型,只需要利用三元组信息,能更准确判断当前三元组是否正确。
如图4所示,本发明一种知识图谱表示学习系统,图1所示方法实施例的解释说明均适用于本实施例,如图4所示,包括:
语境信息获取模块201,用于根据知识图谱中的三元组的首实体以及尾实体在知识图谱中的关系实体,对应确定所述首实体以及尾实体的语境信息;
嵌入向量获取模块202,用于根据所述三元组以及所包含的首实体以及尾实体的语境信息,构建三元组树,并将所述三元组树输入到嵌入层编码,得到嵌入向量;所述嵌入向量作为正样本的实体向量与关系向量的表示;
向量表示学习模块203,用于根据实体向量和关系向量之间的转化模型,通过最小化预设的评价函数,学习得到所述三元组的向量表示。
优选地,所述语境信息获取模块201具体用于:将所述知识图谱中的三元组的首实体以及尾实体在知识图谱中的一度关系实体以及二度关系实体,分别对应确定为所述首实体以及尾实体的语境信息。
优选地,所述嵌入层包括字符嵌入层、位置嵌入层以及分割嵌入层;所述嵌入向量获取模块202具体用于:将所述三元组树输入到字符嵌入层编码、位置嵌入层以及分割嵌入层中的一种,得到所述嵌入向量。
优选地,所述嵌入向量获取模块202具体用于:将所述三元组树输入到位置嵌入层时,得到所述嵌入向量表示为:
a,b,c,d,e,f,g,h,i,g,k,l,m;
其中,a表示所述三元组中首实体的位置编码,b表示所述三元组中关系的位置编码,c,d表示所述三元组中尾实体的位置编码,e表示所述首实体的一度关系的位置编码,f表示所述首实体的一度关系对应实体的位置编码,g表示所述首实体的二度关系的位置编码,h表示所述首实体的二度关系对应实体的位置编码,i表示所述尾实体的一度关系的位置编码,g表示所述尾实体的一度关系对应实体的位置编码,k表示所述尾实体的二度关系的位置编码,l表示所述尾实体的二度关系对应实体的位置编码。
本实施例考虑了实体的语境信息,能够在学习知识表示的同时,编码新增的三元组而无需重新训练模型,能更准确判断当前三元组是否正确。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种知识图谱表示学习方法,其特征在于,包括:
根据知识图谱中的三元组的首实体以及尾实体在知识图谱中的关系实体,对应确定所述首实体以及尾实体的语境信息;所述首实体以及尾实体的语境信息包括所述知识图谱中的三元组的首实体以及尾实体在知识图谱中的一度关系实体以及二度关系实体;
根据所述三元组以及所包含的首实体以及尾实体的语境信息,构建三元组树,并将所述三元组树输入到嵌入层编码,得到嵌入向量;所述嵌入向量作为正样本的实体向量与关系向量的表示;所述三元组树包括所述首实体、尾实体、所述首实体的一度关系实体、所述首实体的二度关系实体、所述尾实体的一度关系实体、以及所述尾实体的二度关系实体的信息;
根据实体向量和关系向量之间的转化模型,得到所述三元组树对应嵌入向量的一个评价函数,通过最小化所述评价函数,学习得到所述三元组的向量表示。
2.根据权利要求1所述的知识图谱表示学习方法,其特征在于,所述嵌入层包括字符嵌入层、位置嵌入层以及分割嵌入层;所述将所述三元组树输入到嵌入层编码,得到嵌入向量的步骤包括:
将所述三元组树输入到字符嵌入层编码、位置嵌入层以及分割嵌入层中的一种,得到所述嵌入向量。
3.根据权利要求2所述的知识图谱表示学习方法,其特征在于,将所述三元组树输入到位置嵌入层时,得到所述嵌入向量表示为:
a, b, c, d, e, f, g, h, i, g, k, l, m;
其中,a表示所述三元组中首实体的位置编码, b表示所述三元组中关系的位置编码,c, d表示所述三元组中尾实体的位置编码, e表示所述首实体的一度关系的位置编码, f表示所述首实体的一度关系对应实体的位置编码, g表示所述首实体的二度关系的位置编码, h表示所述首实体的二度关系对应实体的位置编码, i表示所述尾实体的一度关系的位置编码, g表示所述尾实体的一度关系对应实体的位置编码, k表示所述尾实体的二度关系的位置编码, l表示所述尾实体的二度关系对应实体的位置编码。
4.根据权利要求3所述的知识图谱表示学习方法,其特征在于,所述实体向量和关系向量之间的转化模型通过伯努利分布分布抽样技术,替换所述三元组的首实体或者尾实体得到负样本。
5.一种知识图谱表示学习系统,其特征在于,包括:
语境信息获取模块,用于根据知识图谱中的三元组的首实体以及尾实体在知识图谱中的关系实体,对应确定所述首实体以及尾实体的语境信息;所述首实体以及尾实体的语境信息包括所述知识图谱中的三元组的首实体以及尾实体在知识图谱中的一度关系实体以及二度关系实体;
嵌入向量获取模块,用于根据所述三元组以及所包含的首实体以及尾实体的语境信息,构建三元组树,并将所述三元组树输入到嵌入层编码,得到嵌入向量;所述嵌入向量作为正样本的实体向量与关系向量的表示;所述三元组树包括所述首实体、尾实体、所述首实体的一度关系实体、所述首实体的二度关系实体、所述尾实体的一度关系实体、以及所述尾实体的二度关系实体的信息;
向量表示学习模块,用于根据实体向量和关系向量之间的转化模型,得到所述三元组树对应嵌入向量的一个评价函数,通过最小化所述评价函数,学习得到所述三元组的向量表示。
6.根据权利要求5所述的知识图谱表示学习系统,其特征在于,所述嵌入层包括字符嵌入层、位置嵌入层以及分割嵌入层;
所述嵌入向量获取模块具体用于:将所述三元组树输入到字符嵌入层编码、位置嵌入层以及分割嵌入层中的一种,得到所述嵌入向量。
7.根据权利要求6所述的知识图谱表示学习系统,其特征在于,所述嵌入向量获取模块具体用于:将所述三元组树输入到位置嵌入层时,得到所述嵌入向量表示为:
a, b, c, d, e, f, g, h, i, g, k, l, m;
其中,a表示所述三元组中首实体的位置编码, b表示所述三元组中关系的位置编码,c, d表示所述三元组中尾实体的位置编码, e表示所述首实体的一度关系的位置编码, f表示所述首实体的一度关系对应实体的位置编码, g表示所述首实体的二度关系的位置编码, h表示所述首实体的二度关系对应实体的位置编码, i表示所述尾实体的一度关系的位置编码, g表示所述尾实体的一度关系对应实体的位置编码, k表示所述尾实体的二度关系的位置编码, l表示所述尾实体的二度关系对应实体的位置编码。
8.根据权利要求7所述的知识图谱表示学习系统,其特征在于,所述实体向量和关系向量之间的转化模型通过伯努利分布分布抽样技术,替换所述三元组的首实体或者尾实体得到负样本。
CN202011034887.8A 2020-09-27 2020-09-27 知识图谱表示学习方法及系统 Active CN112307777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011034887.8A CN112307777B (zh) 2020-09-27 2020-09-27 知识图谱表示学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011034887.8A CN112307777B (zh) 2020-09-27 2020-09-27 知识图谱表示学习方法及系统

Publications (2)

Publication Number Publication Date
CN112307777A CN112307777A (zh) 2021-02-02
CN112307777B true CN112307777B (zh) 2022-03-11

Family

ID=74488793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011034887.8A Active CN112307777B (zh) 2020-09-27 2020-09-27 知识图谱表示学习方法及系统

Country Status (1)

Country Link
CN (1) CN112307777B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883197B (zh) * 2021-02-08 2023-02-07 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN113204652B (zh) * 2021-07-05 2021-09-07 北京邮电大学 知识表示学习方法和装置
CN114330339B (zh) * 2022-03-03 2022-06-24 阿里巴巴(中国)有限公司 文本处理方法、计算机可读存储介质及计算机设备
CN114817424A (zh) * 2022-05-27 2022-07-29 中译语通信息科技(上海)有限公司 一种基于语境信息的图表征方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092194A (ko) * 2017-02-08 2018-08-17 경북대학교 산학협력단 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法
CN111259653A (zh) * 2020-01-15 2020-06-09 重庆邮电大学 基于实体关系消歧的知识图谱问答方法、系统以及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019103727A1 (en) * 2017-11-21 2019-05-31 Google Llc Improved onboarding of entity data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092194A (ko) * 2017-02-08 2018-08-17 경북대학교 산학협력단 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法
CN111259653A (zh) * 2020-01-15 2020-06-09 重庆邮电大学 基于实体关系消歧的知识图谱问答方法、系统以及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-Hop Knowledge Graph Reasoning with Reward Shaping;Xi Victoria Lin et al.;《arXiv》;20180911;第1-12页 *
双语影视知识图谱的构建研究;王巍巍 等;《北京大学学报(自然科学版)》;20160131;第52卷(第1期);第25-34页 *

Also Published As

Publication number Publication date
CN112307777A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112307777B (zh) 知识图谱表示学习方法及系统
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN109086805B (zh) 一种基于深度神经网络和成对约束的聚类方法
CN112765358A (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN109492099A (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN107562938A (zh) 一种法院智能审判方法
CN112686040B (zh) 一种基于图循环神经网络的事件事实性检测方法
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取系统和方法
CN111553821B (zh) 基于教师学生网络和多头解码器的应用题自动解题方法
CN112560475A (zh) 三元组抽取方法及系统
CN109685103A (zh) 一种基于广义k均值算法的文本多标记学习方法
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117670571A (zh) 基于异构消息图关系嵌入的增量式社交媒体事件检测方法
CN113656594A (zh) 一种基于飞行器维修的知识推理方法
CN116720520A (zh) 一种面向文本数据的别名实体快速识别方法及系统
CN114692615B (zh) 一种针对小语种的小样本意图识别方法
CN116186277A (zh) 一种基于CasRel模型的中文知识图谱构建方法
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
Wang et al. Dual branch network towards accurate printed mathematical expression recognition
CN113378571A (zh) 一种文本数据的实体数据关系抽取方法
CN113435201A (zh) 一种Span标注框架下的实体抽取采样方法
CN114359086B (zh) 分子式识别方法及相关装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant