CN112035672A - 一种知识图谱补全方法、装置、设备以及存储介质 - Google Patents

一种知识图谱补全方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN112035672A
CN112035672A CN202010728082.7A CN202010728082A CN112035672A CN 112035672 A CN112035672 A CN 112035672A CN 202010728082 A CN202010728082 A CN 202010728082A CN 112035672 A CN112035672 A CN 112035672A
Authority
CN
China
Prior art keywords
entity
information
knowledge graph
description text
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010728082.7A
Other languages
English (en)
Other versions
CN112035672B (zh
Inventor
傅向华
谢文豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Technology University
Original Assignee
Shenzhen Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Technology University filed Critical Shenzhen Technology University
Priority to CN202010728082.7A priority Critical patent/CN112035672B/zh
Publication of CN112035672A publication Critical patent/CN112035672A/zh
Application granted granted Critical
Publication of CN112035672B publication Critical patent/CN112035672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于知识图谱处理技术领域,尤其涉及一种知识图谱补全方法、装置、设备以及存储介质,本发明通过预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息,将语义关联信息与知识图谱进行关联与重构,通过深度Bi‑GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码,得到编码后的实体关联序列信息,通过单向GRU网络对实体关联序列信息进行解码,对解码后的知识图谱中的每个候选实体进行综合评分,依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体,以补全知识图谱,从而增强已有知识图谱的语义关联信息。

Description

一种知识图谱补全方法、装置、设备以及存储介质
技术领域
本发明属于知识图谱处理技术领域,尤其涉及一种知识图谱补全方法、装置、设备以及存储介质。
背景技术
随着互联网使用者数量的不断增加,网络中的数据量也呈现出指数增长趋势,但由于网络数据具有规模庞大、异质多源和结构松散等特点,使得人们从网络数据中获取有用的数据信息变得异常困难,在这种背景下,知识图谱技术于2012年由Google正式提出,并受到了研究者们的广泛关注。
其中,知识图谱补全任务是知识图谱技术中的一个主要研究方向,通过对现有的知识图谱补全,使得人们从网络数据中获取有用的数据信息变得简单。现有的知识图谱补全任务主要的方法大多是先将知识图谱中实体与关系的语义信息转换成密集的低维向量,然后通过翻译模型、复杂关系建模以及多源信息融合等知识图谱补全模型,在低维向量空间中利用知识图谱的结构特征高效地计算知识图谱中实体与关系的复杂语义关联,进而对已有知识图谱进行补全,但现有知识图谱补全模型大多都是利用已知实体来补全知识图谱中缺失的事实关系对,若实体是未知,例如通过引入外界新的实体来扩展知识图谱的规模,导致现有的知识图谱补全模型的准确率低,使得现有知识图谱补全模型可扩展性较差。另外,现有的知识图谱补全模型没有考虑到知识图谱中实体与关系之间的语义关联性,并且当知识图谱中实体或关系具有多源信息时仅通过单一的递归神经网络或者卷积神经网络进行特征提取操作,没有根据知识图谱的独特性质对其进行特征抽取,从而导致通过现有的知识图谱补全模型提取到的语义特征信息不准确,并且会对已有的知识图谱过多地引入语义噪声。
发明内容
本发明的目的是提供一种知识图谱补全方法、装置、设备以及存储介质,旨在解决由于现有知识图谱补全模型从外界引入新的实体来扩展已有的知识图谱规模,导致现有的知识图谱补全模型准确率低,可扩展性较差的问题。
一方面,本发明提供了一种知识图谱补全方法,所述方法包括下述步骤:
接收输入的知识图谱补全请求,根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息;
将所述语义关联信息与所述知识图谱进行关联,对关联后的所述知识图谱进行重构,以得到重构后的知识图谱;
将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列;
通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码,得到编码后的实体关联序列信息;
通过单向GRU网络对所述实体关联序列信息进行解码,对解码后的所述知识图谱中的每个候选实体进行综合评分;
依次将所述实体描述文本数据集中的每个实体链接到所述知识图谱中综合评分最高的所述候选实体,以补全所述知识图谱。
优选地,接收输入的知识图谱补全请求,根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息的步骤,包括:
将所述知识图谱中的实体以及实体描述文本信息映射为所述实体以及所述实体对应关系的三元组;
通过预设的抽取计算公式对所述三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理,得到目标实体与关系之间的第一语义关联信息;
通过双通道全卷积神经网络将所述第一语义关联信息与所述知识图谱的实体描述文本信息进行相邻词语义融合,得到所述语义关联信息。
进一步优选地,通过预设的抽取计算公式对所述三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理,得到目标实体与关系之间的第一语义关联信息的步骤,包括:
通过余弦相似度公式从所述三元组的头尾实体描述文本信息中获取关系触发词;
依次将所述头尾实体描述文本信息中的每个词与所述关系触发词、以及所述词对应所述关系触发词的位置拼接成词嵌入元组;
对所述目标实体、所述目标实体对应的关系以及所述目标实体与所述目标实体对应的关系的位置信息进行拼接,得到参考元组;
通过深度记忆网络对所述词嵌入元组以及所述参考元组进行语义关联配对,并通过所述深度记忆网络的softmax层为输出的每个词嵌入元组对参考元组的贡献分数进行评分,得到目标实体与关系之间的第一语义关联信息。
进一步优选地,通过双通道全卷积神经网络将所述第一语义关联信息与所述知识图谱的实体描述文本信息进行相邻词语义融合,得到所述语义关联信息的步骤,包括:
将所述第一语义关联信息与所述知识图谱的实体描述文本信息的位置信息进行关联,得到实体的关联信息矩阵;
对所述实体的关联信息矩阵使用Attention机制进行多语义选择,得到多语义选择后的输入信息矩阵;
通过所述双通道全卷积神经网络的两层卷积以及一层正则化、双通道提取层、共享全连接层以及合并层对所述输入信息矩阵进行处理,以得到所述语义关联信息。
优选地,将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列的步骤,包括:
通过所述预设的关联信息抽取模型从所述预设的实体描述文本数据集中提取出所述预设的实体描述文本数据集中的实体与关系之间的第二语义关联信息;
将所述第二语义关联信息与所述预设的实体描述文本数据集进行关联,对关联后的所述预设的实体描述文本数据集进行重构,以得到重构后的所述实体描述文本数据集;
将重构后的所述知识图谱以及重构后的所述实体描述文本数据集共同组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列。
优选地,通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码,得到编码后的实体关联序列信息的步骤,包括:
通过所述深度Bi-GRU网络建立所述知识图谱中每个三元组的局部结构化信息与所述预设的实体描述文本数据集之间的关联性;
根据Attention机制以及所述知识图谱中每个三元组的邻居结构信息建立所述知识图谱中全局结构化信息与所述预设的实体描述文本数据集之间的关联性。
优选地,通过单向GRU网络对所述实体关联序列信息进行解码,对解码后的所述知识图谱中的每个候选实体进行综合评分的步骤,包括:
通过余弦相似度模型以及基于翻译模型的评分函数计算每个候选实体的综合评分。
另一方面,本发明还提供了一种知识图谱补全装置,所述装置包括:
关联信息获取单元,用于接收输入的知识图谱补全请求,根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息;
图谱重构单元,用于将所述语义关联信息与所述知识图谱进行关联,对关联后的所述知识图谱进行重构,以得到重构后的知识图谱;
输入序列获取单元,用于将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列;
序列信息获取单元,用于通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码,得到编码后的实体关联序列信息;
候选实体评分单元,用于通过单向GRU网络对所述实体关联序列信息进行解码,对解码后的所述知识图谱中的每个候选实体进行综合评分;
知识图谱补全单元,用于依次将所述实体描述文本数据集中的每个实体链接到所述知识图谱中综合评分最高的所述候选实体,以补全所述知识图谱。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
本发明在接收到知识图谱补全请求后,使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息,将语义关联信息与知识图谱进行关联,对关联后的知识图谱进行重构,以得到重构后的知识图谱,将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列,通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码,得到编码后的实体关联序列信息,通过单向GRU网络对实体关联序列信息进行解码,对解码后的知识图谱中的每个候选实体进行综合评分,依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体,以补全知识图谱,从而增强了已有知识图谱的语义关联信息,弥补了实体与关系之间缺失的语义信息,解决了现有知识图谱补全模型准确性低,可扩展性差等问题。
附图说明
图1是本发明实施例一提供的知识图谱补全方法的实现流程图;
图2是本发明实施例二提供的知识图谱补全装置的结构示意图;以及
图3是本发明实施例三提供的计算设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的知识图谱补全方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收输入的知识图谱补全请求,根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息。
本发明实施例适用于使用知识图谱的问答系统或推荐系统,尤其适用于通过引入外界文本信息对知识图谱进行补全的问答系统或推荐系统,以便通过该问答系统或该推荐系统精确地向用户提供用户感兴趣的内容。在本发明实施例中,知识图谱可以通过现有的网络数据进行构建,知识图谱包括实体、关系以及实体描述文本信息,其中实体可以是现实世界中的事物,例如人、地名、公司、电话、动物等,关系可以是不同实体之间的某种联系,例如父子、位于、国籍等,实体描述文本信息可以是一段对该实体进行具体描述的文本信息,在本发明实施例中,从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息,其中该语义关联信息为从当前知识图谱的实体描述文本信息中挖掘出新的实体,以用于补全已有知识图谱中缺失的三元组,例如,给定某个人物知识图谱中缺失的三元组,如(姚明,国籍,),可以从姚明的实体描述文本信息或与姚明相关联的其它实体描述文本信息中推测出姚明的国籍为中国,以通过推测出的实体对缺失的三元组进行补全,得到完整的三元组,如(姚明,国籍,中国),从而完善已有的人物知识图谱。
当根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息时,优选地,使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息的步骤具体包括:
(1)、将知识图谱中的实体以及实体描述文本信息映射为实体以及实体对应关系的三元组,以得到当前知识图谱中的实体与当前关系相关的语义信息。
优选地,当将知识图谱中的实体以及实体描述文本信息映射为实体以及实体对应关系的三元组时,通过预设的映射向量公式将知识图谱中的实体以及实体描述文本信息,映射为实体以及实体对应关系的三元组,从而将实体相关信息(实体本身,实体描述信息)从实体空间映射到对应三元组中的关系空间中,使得知识图谱中的实体仅具有与当前关系相关的语义信息,其中,映射向量公式为:
Figure BDA0002598639800000071
Figure BDA0002598639800000081
h′=Mrhsh,t′=Mrtst;
h′d=Mrhshd,t′d=Mrtstd
其中,h为头实体向量,r为关系向量,t为尾实体向量,h′、t′分别为映射后的头尾实体向量,对于关系和头/尾实体而言,分别对应设定了映射关系向量rp以及头尾实体的映射向量hp、tp,Mrhs和Mrts分别对应头尾实体的整体映射向量,hd、td分别对应头尾实体的描述文本信息,h′d、t′d分别对应映射后头尾实体的描述文本向量,h,hp,t,
Figure BDA0002598639800000082
hd,
Figure BDA0002598639800000083
r,
Figure BDA0002598639800000084
σ表示协方差计算公式,I表示单位向量,并且
Figure BDA0002598639800000085
m、n分别为关系和实体的维度,从而将实体与关系的协方差矩阵作为衡量实体与关系之间语义关联性的依据,并利用单位矩阵I进行维度调整。
(2)、通过预设的抽取计算公式对三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理,得到目标实体与关系之间的第一语义关联信息。
优选地,通过预设的抽取计算公式对三元组中的头尾实体描述文本信息进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理,以增强三元组中实体与关系之间的语义关联性,该抽取计算公式为:
Figure BDA0002598639800000086
其中,e表示实体,r表示两实体之间的关系,t表示目标实体,目标实体则为最终被预测的实体,因为该抽取计算公式是通过从三元组中已知的某个实体和关系,进而预测另一个实体,因此被预测的另一个实体就是目标实体,
Figure BDA0002598639800000087
和τ各自表示实体描述文本的词向量表示和关系的词向量表示函数,
Figure BDA0002598639800000088
Figure BDA0002598639800000089
表示实体描述文本的词矩阵表示,
Figure BDA00025986398000000810
中每一行代表一个k维的词向量,
Figure BDA00025986398000000811
表示关系主题下的综合语义矩阵,
Figure BDA00025986398000000812
表示目标实体的表示矩阵,○表示
Figure BDA0002598639800000091
中每行与预设的SAIE函数进行矩阵相乘,SAIE函数用于计算
Figure BDA0002598639800000092
中的每一个词与该词关联的语义关联信息。
进一步地,通过
Figure BDA0002598639800000093
函数计算Mφ(e)中的每一个词与该词关联的语义关联信息,包括:
A、通过余弦相似度公式从三元组的头尾实体描述文本信息中获取关系触发词;
优选地,通过余弦相似度计算公式从三元组中的实体描述文本中寻找出与关系词所表现出的语义信息最相近的词作为关系触发词,从而快速、准确地得到关系触发词,余弦相似度计算公式为:
Figure BDA0002598639800000094
Figure BDA0002598639800000095
其中,
Figure BDA0002598639800000096
中第i个词的余弦相似度是
Figure BDA0002598639800000097
中第i个词与Mτ(r)中τ(r)关系词嵌入矩阵之间的相似度得分,rmax
Figure BDA0002598639800000098
中相似度最高的词向量表示,同时也是实体描述文本中的关系触发词。
B、依次将头尾实体描述文本信息中的每个词与关系触发词、以及词对应关系触发词的位置拼接成词嵌入元组;
优选地,当依次将头尾实体描述文本信息中的每个词与关系触发词、以及词对应关系触发词的位置拼接成词嵌入元组时,计算头尾实体描述文本信息中每个词相对关系触发词的位置,并将该词与关系触发词、以及该词对应关系触发词的位置三者进行拼接,得到词嵌入元组,以使得在提取目标实体和关系词之间的语义关联信息时可以同时将实体词与关系词关联起来进行语义分析,而不是单一地考虑实体描述文本中的单个词。
C、对目标实体、目标实体对应的关系以及目标实体与目标实体对应的关系的位置信息进行拼接,得到参考元组;
作为示例地,例如,可以将三元组中目标实体对应的关系、目标实体记为(r0,t0),并将目标实体与目标实体对应的关系的位置信息设置为0,对目标实体、目标实体对应的关系以及目标实体与目标实体对应的关系的位置信息进行拼接,以得到参考元组,这里将参考元组标记为q0,q0=[r0;t0;0],
Figure BDA0002598639800000101
Figure BDA0002598639800000102
以作为在提取目标实体和关系词之间的语义关联信息时的语义关联配对参数。
D、通过深度记忆网络对词嵌入元组以及参考元组进行语义关联配对,并通过深度记忆网络的softmax层,为每个词嵌入元组对参考元组的贡献分数进行评分,得到目标实体与关系之间的第一语义关联信息。
优选地,当通过深度记忆网络对词嵌入元组以及参考元组进行语义关联配对时,通过深度记忆网络的双向注意力机制模型计算每个词嵌入元组对参考元组所做的贡献,并对所有词嵌入元组所做的贡献得分与词嵌入元组的乘积进行累加,从而计算出每个词嵌入元组对参照元组的贡献分数,其中,双向注意力机制模型为:
Figure BDA0002598639800000103
Figure BDA0002598639800000104
Figure BDA0002598639800000105
其中,BiLSTM为两个双向LSTM的计算结果,
Figure BDA0002598639800000106
Figure BDA0002598639800000107
Figure BDA00025986398000001011
表示第i个词嵌入元组经过双向BiLSTM编码t时刻的输出结果,并且
Figure BDA0002598639800000108
q表示参考元组表示,
Figure BDA0002598639800000109
pi表示第i个词嵌入元组对参考元组所做的贡献,
Figure BDA00025986398000001010
表示将所有词嵌入元组对参考元组所做的贡献得分与词嵌入元组进行乘积的累加。
当通过深度记忆网络对词嵌入元组以及参考元组进行语义关联配对时,另一优选地,通过深度记忆网络的独立全连接模型处理输入的参考元组的原始信息,以增强每个词嵌入元组对参照元组贡献分数,独立全连接模型为:
Figure BDA0002598639800000111
Figure BDA0002598639800000112
其中,
Figure BDA0002598639800000113
将双向注意力机制模型的计算结果和独立全连接模型的计算结果进行累加,以作为深度记忆网络的中间层输出,从而计算每个词嵌入元组对参考元组的贡献分数更加精准。另外,将深度记忆网络的softmax层作为深度神经网络最后一层,计算每个词嵌入元组对参考元组贡献分数的评分,深度记忆网络的最后一层输出为:
Figure BDA0002598639800000114
Figure BDA0002598639800000115
通过上述步骤A-D,最终可得到:
Figure BDA0002598639800000116
Figure BDA0002598639800000117
从而计算得到Mφ(e)中的每一个词与该词关联的语义关联信息。
(3)、通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合,以实现第一语义关联信息与知识图谱的实体描述文本信息阶梯式融合,得到知识图谱中实体与关系之间的语义关联信息。其中,相邻词语义融合是指在分析实体的语义关联信息时,需对该实体与相邻的实体或关系进行综合考虑,以提供更加精确的语义支撑,例如,给定某个知识图谱的实体描述文本信息为“I like apples.”,若将“I”和“like”分开来分析将会得到不相干的语义信息,而将这两个词组合在一起进行分析则会为后面的“apples”提供语义支撑。
双通道全卷积神经网络(这里可记为TSF)是由多个子双通道全卷积神经网络(这里可记为Sub_TSF)组合而成,其中,每个Sub_TSF包括预设的Attention层、两层卷积、一层正则化、双通道提取层、共享全连接层以及合并层,从而在通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时,提取出知识图谱中实体描述文本信息中相邻词在不同层级上所表现的语义特征信息。
优选地,当通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时,通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合的步骤具体包括:
A、将第一语义关联信息与知识图谱的实体描述文本信息的位置信息关联,得到实体的关联信息矩阵。
优选地,当将第一语义关联信息与实体描述文本信息的位置信息关联时,双通道全卷积神经网络的输入由两部分拼接而成,第一部分为第一语义关联信息对应的语义关联信息矩阵,第二部分为知识图谱的实体描述文本信息的位置信息,将知识图谱的实体描述文本信息的位置信息与关联信息矩阵关联,以得到实体的关联信息矩阵,其中,知识图谱的实体描述文本信息的位置信息包括实体描述文本信息中每个词的相对位置和绝对位置信息,知识图谱的实体描述文本信息的位置信息可通过相对位置编码策略对实体描述文本中的每个词的位置信息进行编码获得。
B、对实体的关联信息矩阵使用Attention机制进行多语义选择,得到多语义选择后的输入信息矩阵。
优选地,当对实体的关联信息矩阵使用Attention机制进行多语义选择时,将实体的关联信息矩阵输入到预设的RS_Encode模型中,通过RS_Encode模型进行多语义选择,其中预设的RS_Encode模型为:
Figure BDA0002598639800000121
Figure BDA0002598639800000122
表示实体的关联信息矩阵,从而在对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时,若一种关系存在多种语义表示,则在每一级的特征融合中可通过基于关系的Attention机制动态适应关系实现多语义选择。
进一步地,当将实体的关联信息矩阵输入到RS_Encode模型中,通过RS_Encode模型进行多语义选择,具体包括:
a、根据多头注意力模型原理,令
Figure BDA0002598639800000131
计算第一语义关联信息矩阵缩放的点乘注意力结果,多头注意力模型公式为:
Figure BDA0002598639800000132
其中,
Figure BDA0002598639800000133
是第一语义关联信息矩阵,
Figure BDA0002598639800000134
k为调节因子,调节因子主要用于在第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时防止梯度爆炸等问题。
b、获取知识图谱中实体与关系的映射矩阵,将知识图谱中实体与关系、以及知识图谱中实体与关系的映射矩阵作为实体文本关联信息输入到基于关系的语义空间矩阵中进行计算,以得到多语义空间矩阵。
c、通过预设的语义信息计算公式计算每个语义空间矩阵中注意力结果,以得到每个语义空间矩阵中的语义信息,具体语义信息计算公式为:
Figure BDA0002598639800000135
其中,
Figure BDA0002598639800000136
RHT为多语义空间矩阵,Attention()表示获取缩放的点乘注意力结果,headi表示每个语义空间矩阵中的语义信息。
d、将每个语义空间矩阵中的语义信息进行合并,并通过线性变换矩阵进行线性变换,以得到合并结果集。
e、在得到合并结果集之后,利用残差网络的短连接模型对该合并结果集进行合并以及正则化,得到第一层多头注意力机制的输出结果,残差网络的短连接模型为:
Figure BDA0002598639800000141
Figure BDA0002598639800000142
Figure BDA0002598639800000143
其中,AN为第一层多头注意力的输出结果,
Figure BDA0002598639800000144
al为第l层网络的输出表示,ul表示第l层的平均输出结果,H表示网络总层数。
f、将第一层多头注意力机制的输出结果通过两个前馈神经网络模型(可记为FFN)进行非线性变换,FFN包括ReLU激活函数和线性激活函数,这里将第一层多头注意力的输出结果表示为AN,从而通过FFN得到非线性变换后的AN,前馈神经网络模型具体为:
FFN(AN)=[max(0,AN*W1+b1)]*W2+b2
其中,AN为第一层多头注意力的输出结果,W1,b1为第一层全连接层参数,W2,b2为第二层全连接层参数,max为ReLU函数,
Figure BDA0002598639800000145
Figure BDA0002598639800000146
g、在通过FFN得到非线性变换后的AN之后,利用残差网络的短连接模型将非线性变换后的AN与AN进行拼接以及正则化,从而通过设计基于关系的多头注意力机制动态适应关系解决了在每一级的语义融合中的多语义选择问题。
C、通过预设的语义融合模型从每个Sub_TSF中提取知识图谱中实体描述文本信息中相邻词在不同层级上所表现的语义特征信息,具体语义融合模型为:
Figure BDA0002598639800000147
Figure BDA0002598639800000148
DCB=LayerNorm(Con(Con(RS)))
Figure BDA0002598639800000151
MLP(x)=W2f(W1x+b1)+b2
其中,
Figure BDA0002598639800000152
表示实体描述文本信息的位置信息编码,
Figure BDA0002598639800000153
表示第一语义关联信息,并且
Figure BDA0002598639800000154
为TSF的实体的关联信息矩阵,且
Figure BDA0002598639800000155
Con表示卷积操作,RS_Encode为双通道全卷积神经网络中Attention层的整体函数表示,avg_pool和max_pool分别为均值池化和最大值池化操作,MLP函数为全连接函数,W1和W2为权重系数,b1和b2为偏置系数,
Figure BDA0002598639800000156
D、在提取出知识图谱中实体描述文本信息中相邻词在不同层级上所表现的语义特征信息之后,将每个子双通道全卷积神经网络Sub_TSF的语义特征信息进行组合,得到一个多维矩阵,并通过双通道全卷积神经网的mean_pool层将该多维矩阵压缩成一维矩阵,从而得到知识图谱中实体与关系之间的语义关联信息。
在步骤S102中,将语义关联信息与知识图谱进行关联,对关联后的知识图谱进行重构,以得到重构后的知识图谱。
在本发明实施例中,在将语义关联信息与知识图谱进行关联时,优选地,获取缺失的三元组,根据语义关联信息将目标实体添加到缺失的三元组中,以构成完整的三元组,例如,某个缺失的三元组如(h,r,),h表示头实体,r表示关系,根据使用关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中目标实体与关系之间的语义关联信息tr,从而可得到缺失的三元组中的尾实体为t,将尾实体t与缺失的三元组(h,r,)进行关联,最终得到完整的三元组(h,r,t)。在对关联后的知识图谱进行重构时,优选地,从头实体描述文本中提取尾实体与关系之间的语义关联信息,从尾实体描述文本中提取头实体与关系之间的语义关联信息,将尾实体与关系之间的语义关联信息与头实体与关系之间的语义关联信息添加到三元组中,例如,给定某个已有的三元组(h,r,t),从头实体描述文本中提取尾实体与关系之间的语义关联信息,记为hr,从尾实体描述文本中提取出头实体与关系之间的语义关联信息,记为tr,将hr与tr与已有的三元组进行重构,即原始三元组就变为了(h,hr,r,tr,t),从而实现对关联后的知识图谱进行重构。
在步骤S103中,将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列。
在本发明实施例中,在重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵之前,优选地,通过关联信息抽取模型从实体描述文本数据集中提取出实体描述文本数据集中实体与关系之间的第二语义关联信息,将第二语义关联信息与实体描述文本数据集进行关联,对关联后的实体描述文本数据集进行重构,得到重构后的实体描述文本数据集,具体如何获取第二语义关联信息以及如何对实体描述文本数据集进行重构可参考前述步骤S101-S102的描述,在此不再赘述。
当将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵时,优选地,获取重构后的实体描述文本数据集,将重构后的知识图谱和实体描述文本数据集组合成实体数据连接矩阵,从而完成对知识图谱和外界文本信息的预处理。
在步骤S104中,通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码,得到编码后的实体关联序列信息。
在本发明实施例中,Bi-GRU网络包括两个平行的GRU网络层,即前向GRU网络层和后向GRU网络层,通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码具体包括:
A、通过深度Bi-GRU网络对实体描述文本输入序列进行编码,以通过深度Bi-GRU网络建立知识图谱中每个三元组的局部结构化信息与实体描述文本数据集之间的关联性。
优选地,当通过深度Bi-GRU网络对实体描述文本输入序列进行编码时,获取实体描述文本输入序列中的每个单词,通过前向GRU网络层对实体描述文本输入序列中的第一个单词到最后一个单词的上下文信息进行编码,从而得到知识图谱中三元组的反向局部结构化信息与外界文本信息之间传递的依赖信息,这里记为
Figure BDA0002598639800000171
通过后向GRU网络层对实体描述文本输入序列中的最后一个单词到第一单词的上下文信息进行编码,从而得到知识图谱中三元组的正向局部结构化信息与外界文本信息之间传递的依赖信息,这里记为
Figure BDA0002598639800000172
Figure BDA0002598639800000173
Figure BDA0002598639800000174
进行关联,以建立知识图谱中每个三元组的局部结构化信息与实体描述文本数据集之间的关联性,进而得到编码后的短序列信息,以用于建立实体与关系在整个知识图谱中全局结构关联性的输入序列。
为便于理解,例如,实体描述文本输入序列可以表示为W={w1,...wt,wt+1,...wn},其中,
Figure BDA0002598639800000175
表示与实体描述文本输入序列中第t个词相对应的一个d维的词向量,n表示实体描述文本输入序列的长度,获取实体描述文本输入序列中每个单词wt,通过前向GRU网络层对w1到wn的上下文信息进行编码,记为
Figure BDA0002598639800000176
通过后向GRU网络层对wn到的w1上下文信息进行编码,记为
Figure BDA0002598639800000177
Figure BDA0002598639800000178
Figure BDA0002598639800000179
这两个向量进行连接得到
Figure BDA00025986398000001710
得到编码后的短序列信息,其中,编码后的短序列信息可记为[h,hr,r,tr,t],h表示头实体,hr表示头实体与关系的语义关联信息,r表示关系,tr表示尾实体与关系的语义关联信息,t表示尾实体。
B、通过预设的关联强化模型对实体描述文本输入序列进行编码,从而建立实体与关系在整个知识图谱中的全局结构关联性。
优选地,当通过预设的关联强化模型对实体描述文本输入序列进行编码时,根据Attention机制以及知识图谱中每个三元组的邻居结构信息建立实体与关系在整个知识图谱中全局结构化信息的关联性,具体包括:
a、根据短序列信息,获取短序列信息的头尾实体的邻居结构信息,根据邻居结构信息,通过预设的邻居权重规则为短序列信息中的每个头尾实体的位置增添额外的权重信息,预设的邻居权重规则包括:a.1、对于头尾实体的位置权重而言,若头尾实体的直接邻居数大于实体邻居阈值或者存在与当前关系相同路径的实体邻居,则为该头尾实体的置信度设置较高的权重,以得到足够的重视,否则不予以处理;a.2、对于短序列中头实体与关系的语义关联信息和尾实体与关系的语义关联信息的位置权重而言,若头尾实体的直接邻居同时也在各自对应的描述文本信息中出现,则为该头尾实体的置信度设置最高的权重,如果不存在,则不进行处理;a.3、对于关系而言,如果关系的邻居数(关系所在三元组的数目)大于关系邻居阈值,则为当前关系增加权重信息,如果不存在则不做处理,从而根据邻居结构信息通过预设的邻居权重规则为短序列信息中的每个位置增添额外的权重信息。
当根据邻居结构信息通过预设的邻居权重规则为短序列信息中的每个头尾实体的位置增添额外的权重信息时,优选地,通过翻译原理为短序列信息中的每个位置增添额外的权重信息。
b、通过Attention模型计算短序列信息中的每个头尾实体位置权重的注意力概率,从而在短序列中突出每部分元素对整体输入序列的重要程度,Attention模型具体为:
hNt=Uatanh(UahN+Ucht+ba)
Figure BDA0002598639800000181
Figure BDA0002598639800000191
其中,Ua,Ub,Uc均表示注意力机制的权值矩阵,ba表示注意力机制的偏置向量值,h′t表示第t个元素的新的特征输出,
Figure BDA0002598639800000192
表示超参数矩阵,该超参数矩阵
Figure BDA0002598639800000193
中的每一个参数值可根据实体关系的邻居信息以及实体的描述信息计算得出,将超参矩阵
Figure BDA0002598639800000194
与常规Attention机制的特征输出相乘,得到新的特征输出,进而得到编码后的实体关联序列信息。
在步骤S105中,通过单向GRU网络对实体关联序列信息进行解码,对解码后的知识图谱中的每个候选实体进行综合评分。
在本发明实施例中,在通过单向GRU网络对实体关联序列信息进行解码,对解码后的知识图谱中的每个候选实体进行综合评分时,优选地,将实体关联序列信息还原成元组,并为每个元组之间进行两两配对,以得到两个元组的相似度得分,当为每个元组之间进行两两配对时,进一步优选地,通过余弦相似度模型计算每个元组之间进行两两配对的相似度得分,从而得到实体描述文本数据集中的每个实体与知识图谱中每个候选实体之间配对的综合评分,例如,通过余弦相似度模型计算两个元组的相似度得分,得到新的序列特征h′t={h1,h2,...,hn},其中hn是前n个向量迭加之后得到的平均值,将实体关联序列信息导入相似度模型中,得到输出特征值hn,余弦相似度模型为:
Figure BDA0002598639800000195
其中,aNt表示实体关联序列信息中第t个元素对第N个元素的注意力概率。
当为每个元组之间进行两两配对时,另一优选地,通过采用基于翻译模型的评分函数计算知识图谱中的每个候选实体的综合评分。
当为每个元组之间进行两两配对时,另一优选地,结合余弦相似度模型以及基于翻译模型的评分函数计算知识图谱中的每个候选实体的综合评分。
当通过单向GRU网络对实体关联序列信息进行解码时,另一优选地,为了加快单向GRU网络的训练速度,通过预设的目标函数加快单向GRU网络的训练速度,优化器采用Adagrad算法,预设的目标函数为:
Figure BDA0002598639800000201
其中,pc是阻断概率因子,该pc从均匀概率分布U[0,1]中获取的,具体实施过程为:当pc>0.5时,保持输入的尾实体t不变,改变在头实体上的正样本和负样本,同理,当pc≤0.5时,保持输入的头实体h不变,改变在尾实体上的正样本和负样本。E+,E-分别是从正负样本的目标分布P+,P-中获取的正负实体集合,P+,P-采用简单的均匀分布获得。当pc≤0.5时,P+是实体在
Figure BDA0002598639800000202
中的均匀分布,P-是实体在
Figure BDA0002598639800000203
中的均匀分布。当pc>0.5时,P+是实体在
Figure BDA0002598639800000204
中的均匀分布,P-是实体在
Figure BDA0002598639800000205
中的均匀分布。
在对解码后的知识图谱中的每个候选实体进行综合评分之后,通过单向GRU网络中的softmax层对知识图谱中的每个候选实体进行输出,从而在三元组预测任务中将实体描述文本数据集中的实体与候选实体进行匹配成三元组时,匹配正确的三元组将会被设置为很高的评分,匹配错误的三元组将会被设置为很低的评分,从而在知识图谱补全时使得知识图谱中每个实体能够准确地链接到正确的外界实体。
在步骤S106中,依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体,以补全知识图谱。
在本发明实施例中,依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体,以补全知识图谱,使得人们可以从规模庞大、异质多源和结构松的网络数据中获取有用的数据信息变得简单,另外,本发明实施例是也适用于通过引入外界文本信息对知识图谱进行补全的问答系统或推荐系统,通过该问答系统或该推荐系统更能精确地向用户提供用户感兴趣的内容。
在本发明实施例中通过接收输入的知识图谱补全请求,根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息,将语义关联信息与知识图谱进行关联,对关联后的知识图谱进行重构,以得到重构后的知识图谱,将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列,通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码,得到编码后的实体关联序列信息,通过单向GRU网络对实体关联序列信息进行解码,对解码后的知识图谱中的每个候选实体进行综合评分,依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体,以补全知识图谱,从而增强了已有知识图谱的语义关联信息,弥补了实体与关系之间缺失的语义信息,解决了现有知识图谱补全模型准确性低,可扩展性差等问题。
实施例二:
图2示出了本发明实施例二提供的知识图谱补全装置的结构示意,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
关联信息获取单元21,用于接收输入的知识图谱补全请求,根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息。
图谱重构单元22,用于将语义关联信息与知识图谱进行关联,对关联后的知识图谱进行重构,以得到重构后的知识图谱。
输入序列获取单元23,用于将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列。
序列信息获取单元24,用于通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码,得到编码后的实体关联序列信息。
候选实体评分单元25,用于通过单向GRU网络对实体关联序列信息进行解码,对解码后的知识图谱中的每个候选实体进行综合评分。
候选实体评分单元26,用于依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体,以补全知识图谱。
在本发明实施例中,知识图谱补全装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例三:
图3示出了本发明实施例三提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
本发明实施例的计算设备3包括处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32。该处理30执行计算机程序32时实现上述知识图谱补全方法实施例中的步骤,例如图1所示的步骤S101至S106。或者,处理器30执行计算机程32时实现上述各装置实施例中各单元的功能,例如图2所示单元21至26的功能。
实施例四:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1所示的步骤S101至S106。或者,该计算机程序被处理器执行时实现上述装置实施例中各单元的功能,例如图2所示单元21至26的功能。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种知识图谱补全方法,其特征在于,所述方法包括下述步骤:
接收输入的知识图谱补全请求,根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息;
将所述语义关联信息与所述知识图谱进行关联,对关联后的所述知识图谱进行重构,以得到重构后的知识图谱;
将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列;
通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码,得到编码后的实体关联序列信息;
通过单向GRU网络对所述实体关联序列信息进行解码,对解码后的所述知识图谱中的每个候选实体进行综合评分;
依次将所述实体描述文本数据集中的每个实体链接到所述知识图谱中综合评分最高的所述候选实体,以补全所述知识图谱。
2.根据权利要求1所述方法,其特征在于,接收输入的知识图谱补全请求,根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息的步骤,包括:
将所述知识图谱中的实体以及实体描述文本信息映射为所述实体以及所述实体对应关系的三元组;
通过预设的抽取计算公式对所述三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理,得到目标实体与关系之间的第一语义关联信息;
通过双通道全卷积神经网络将所述第一语义关联信息与所述知识图谱的实体描述文本信息进行相邻词语义融合,得到所述语义关联信息。
3.根据权利要求2所述方法,其特征在于,通过预设的抽取计算公式对所述三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理,得到目标实体与关系之间的第一语义关联信息的步骤,包括:
通过余弦相似度公式从所述三元组的头尾实体描述文本信息中获取关系触发词;
依次将所述头尾实体描述文本信息中的每个词与所述关系触发词、以及所述词对应所述关系触发词的位置拼接成词嵌入元组;
对所述目标实体、所述目标实体对应的关系以及所述目标实体与所述目标实体对应的关系的位置信息进行拼接,得到参考元组;
通过深度记忆网络对所述词嵌入元组以及所述参考元组进行语义关联配对,并通过所述深度记忆网络的softmax层为输出的每个词嵌入元组对参考元组的贡献分数进行评分,得到目标实体与关系之间的第一语义关联信息。
4.根据权利要求2所述方法,其特征在于,通过双通道全卷积神经网络将所述第一语义关联信息与所述知识图谱的实体描述文本信息进行相邻词语义融合,得到所述语义关联信息的步骤,包括:
将所述第一语义关联信息与所述知识图谱的实体描述文本信息的位置信息进行关联,得到实体的关联信息矩阵;
对所述实体的关联信息矩阵使用Attention机制进行多语义选择,得到多语义选择后的输入信息矩阵;
通过所述双通道全卷积神经网络的两层卷积以及一层正则化、双通道提取层、共享全连接层以及合并层对所述输入信息矩阵进行处理,以得到所述语义关联信息。
5.根据权利要求1所述方法,其特征在于,将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列的步骤,包括:
通过所述关联信息抽取模型从所述预设的实体描述文本数据集中提取出所述预设的实体描述文本数据集中的实体与关系之间的第二语义关联信息;
将所述第二语义关联信息与所述预设的实体描述文本数据集进行关联,对关联后的所述预设的实体描述文本数据集进行重构,以得到重构后的所述实体描述文本数据集;
将重构后的所述知识图谱以及重构后的所述实体描述文本数据集共同组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列。
6.根据权利要求1所述方法,其特征在于,通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码,得到编码后的实体关联序列信息的步骤,包括:
通过所述深度Bi-GRU网络建立所述知识图谱中每个三元组的局部结构化信息与所述预设的实体描述文本数据集之间的关联性;
根据Attention机制以及所述知识图谱中每个三元组的邻居结构信息建立所述知识图谱中全局结构化信息与所述预设的实体描述文本数据集之间的关联性。
7.根据权利要求1所述方法,其特征在于,通过单向GRU网络对所述实体关联序列信息进行解码,对解码后的所述知识图谱中的每个候选实体进行综合评分的步骤,包括:
通过余弦相似度模型以及基于翻译模型的评分函数计算每个候选实体的综合评分。
8.一种知识图谱补全装置,其特征在于,所述装置包括:
关联信息获取单元,用于接收输入的知识图谱补全请求,根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息;
图谱重构单元,用于将所述语义关联信息与所述知识图谱进行关联,对关联后的所述知识图谱进行重构,以得到重构后的知识图谱;
输入序列获取单元,用于将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵,并对所述实体数据连接矩阵进行序列化表示,得到实体描述文本输入序列;
序列信息获取单元,用于通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码,得到编码后的实体关联序列信息;
候选实体评分单元,用于通过单向GRU网络对所述实体关联序列信息进行解码,对解码后的所述知识图谱中的每个候选实体进行综合评分;
知识图谱补全单元,用于依次将所述实体描述文本数据集中的每个实体链接到所述知识图谱中综合评分最高的所述候选实体,以补全所述知识图谱。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202010728082.7A 2020-07-23 2020-07-23 一种知识图谱补全方法、装置、设备以及存储介质 Active CN112035672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010728082.7A CN112035672B (zh) 2020-07-23 2020-07-23 一种知识图谱补全方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010728082.7A CN112035672B (zh) 2020-07-23 2020-07-23 一种知识图谱补全方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112035672A true CN112035672A (zh) 2020-12-04
CN112035672B CN112035672B (zh) 2023-05-09

Family

ID=73583171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010728082.7A Active CN112035672B (zh) 2020-07-23 2020-07-23 一种知识图谱补全方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112035672B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560477A (zh) * 2020-12-09 2021-03-26 中科讯飞互联(北京)信息科技有限公司 文本补全方法以及电子设备、存储装置
CN112560476A (zh) * 2020-12-09 2021-03-26 中科讯飞互联(北京)信息科技有限公司 文本补全方法以及电子设备、存储装置
CN112667824A (zh) * 2021-01-17 2021-04-16 北京工业大学 基于多语义学习的知识图谱补全方法
CN112784066A (zh) * 2021-03-15 2021-05-11 中国平安人寿保险股份有限公司 基于知识图谱的信息反馈方法、装置、终端和存储介质
CN113051408A (zh) * 2021-03-30 2021-06-29 电子科技大学 一种基于信息增强的稀疏知识图谱推理方法
CN113127623A (zh) * 2021-05-06 2021-07-16 东南大学 一种基于混合专家模型和联合学习的知识库问题生成方法
CN113190684A (zh) * 2021-03-23 2021-07-30 电子科技大学 一种基于路径质量判别的强化知识图谱推理算法
CN113205050A (zh) * 2021-05-09 2021-08-03 西北工业大学 一种基于gru-ae网络的舰船辐射噪声线谱提取方法
CN113204647A (zh) * 2021-04-29 2021-08-03 哈尔滨工程大学 一种基于联合权重的编码解码框架知识图谱嵌入方法
CN113220905A (zh) * 2021-05-27 2021-08-06 哈尔滨理工大学 一种融合知识图谱的服务推荐方法
CN113268612A (zh) * 2021-06-25 2021-08-17 中国人民解放军国防科技大学 基于均值融合的异构信息网知识图谱补全方法和装置
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统
CN113360664A (zh) * 2021-05-31 2021-09-07 电子科技大学 一种知识图谱补全方法
CN113420163A (zh) * 2021-06-25 2021-09-21 中国人民解放军国防科技大学 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN113488165A (zh) * 2021-07-26 2021-10-08 平安科技(深圳)有限公司 基于知识图谱的文本匹配方法、装置、设备以及存储介质
CN113569056A (zh) * 2021-07-27 2021-10-29 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备与存储介质
CN113590774A (zh) * 2021-06-22 2021-11-02 北京百度网讯科技有限公司 事件查询方法、装置以及存储介质
CN113590846A (zh) * 2021-09-24 2021-11-02 天津汇智星源信息技术有限公司 法律知识图谱构建方法及相关设备
CN114077676A (zh) * 2021-11-23 2022-02-22 郑州轻工业大学 一种基于路径置信度的知识图谱噪声检测方法
CN114091429A (zh) * 2021-10-15 2022-02-25 山东师范大学 基于异构图神经网络的文本摘要生成方法及系统
CN114281959A (zh) * 2021-10-27 2022-04-05 腾讯科技(深圳)有限公司 语句处理的方法、装置、设备、介质及计算机程序产品
CN114281987A (zh) * 2021-11-26 2022-04-05 重庆邮电大学 一种用于智能语音助手的对话短文本语句匹配方法
CN114385831A (zh) * 2022-01-14 2022-04-22 重庆邮电大学 一种基于特征提取的知识图谱关系预测方法
CN114461816A (zh) * 2022-01-27 2022-05-10 南京邮电大学 基于知识图谱的信息补充语义通信系统的实现方法
CN114490884A (zh) * 2021-12-21 2022-05-13 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质
CN114943010A (zh) * 2022-05-26 2022-08-26 浙江工业大学 基于自注意力的融合三元组信的短序列扩充电影推荐方法
CN116611813A (zh) * 2023-05-08 2023-08-18 武汉人云智物科技有限公司 一种基于知识图谱的智能运维管理方法及系统
CN117251583A (zh) * 2023-11-20 2023-12-19 湖北大学 基于局部图结构的文本增强知识图谱表示学习方法及系统
CN114461816B (zh) * 2022-01-27 2024-10-29 南京邮电大学 基于知识图谱的信息补充语义通信系统的实现方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN109977234A (zh) * 2019-03-28 2019-07-05 哈尔滨工程大学 一种基于主题关键词过滤的知识图谱补全方法
CN110096599A (zh) * 2019-04-30 2019-08-06 长沙知了信息科技有限公司 知识图谱的生成方法及装置
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111241840A (zh) * 2020-01-21 2020-06-05 中科曙光(南京)计算技术有限公司 一种基于知识图谱的命名实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN109977234A (zh) * 2019-03-28 2019-07-05 哈尔滨工程大学 一种基于主题关键词过滤的知识图谱补全方法
CN110096599A (zh) * 2019-04-30 2019-08-06 长沙知了信息科技有限公司 知识图谱的生成方法及装置
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111241840A (zh) * 2020-01-21 2020-06-05 中科曙光(南京)计算技术有限公司 一种基于知识图谱的命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENHAO XIE ET AL.: "Dynamic Knowledge Graph Completion with Jointly Structural and Textual Dependency" *
谢文豪: "基于结构与文本联合表示学习的知识图谱补全任务" *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560476A (zh) * 2020-12-09 2021-03-26 中科讯飞互联(北京)信息科技有限公司 文本补全方法以及电子设备、存储装置
CN112560477A (zh) * 2020-12-09 2021-03-26 中科讯飞互联(北京)信息科技有限公司 文本补全方法以及电子设备、存储装置
CN112560477B (zh) * 2020-12-09 2024-04-16 科大讯飞(北京)有限公司 文本补全方法以及电子设备、存储装置
CN112667824A (zh) * 2021-01-17 2021-04-16 北京工业大学 基于多语义学习的知识图谱补全方法
CN112667824B (zh) * 2021-01-17 2024-03-15 北京工业大学 基于多语义学习的知识图谱补全方法
CN112784066B (zh) * 2021-03-15 2023-11-03 中国平安人寿保险股份有限公司 基于知识图谱的信息反馈方法、装置、终端和存储介质
CN112784066A (zh) * 2021-03-15 2021-05-11 中国平安人寿保险股份有限公司 基于知识图谱的信息反馈方法、装置、终端和存储介质
CN113190684A (zh) * 2021-03-23 2021-07-30 电子科技大学 一种基于路径质量判别的强化知识图谱推理算法
CN113051408B (zh) * 2021-03-30 2023-02-14 电子科技大学 一种基于信息增强的稀疏知识图谱推理方法
CN113051408A (zh) * 2021-03-30 2021-06-29 电子科技大学 一种基于信息增强的稀疏知识图谱推理方法
CN113204647A (zh) * 2021-04-29 2021-08-03 哈尔滨工程大学 一种基于联合权重的编码解码框架知识图谱嵌入方法
CN113127623A (zh) * 2021-05-06 2021-07-16 东南大学 一种基于混合专家模型和联合学习的知识库问题生成方法
CN113205050A (zh) * 2021-05-09 2021-08-03 西北工业大学 一种基于gru-ae网络的舰船辐射噪声线谱提取方法
CN113220905A (zh) * 2021-05-27 2021-08-06 哈尔滨理工大学 一种融合知识图谱的服务推荐方法
CN113360664A (zh) * 2021-05-31 2021-09-07 电子科技大学 一种知识图谱补全方法
CN113360664B (zh) * 2021-05-31 2022-03-25 电子科技大学 一种知识图谱补全方法
CN113360670B (zh) * 2021-06-09 2022-06-17 山东大学 一种基于事实上下文的知识图谱补全方法及系统
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统
CN113590774A (zh) * 2021-06-22 2021-11-02 北京百度网讯科技有限公司 事件查询方法、装置以及存储介质
CN113590774B (zh) * 2021-06-22 2023-09-29 北京百度网讯科技有限公司 事件查询方法、装置以及存储介质
CN113420163A (zh) * 2021-06-25 2021-09-21 中国人民解放军国防科技大学 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN113268612A (zh) * 2021-06-25 2021-08-17 中国人民解放军国防科技大学 基于均值融合的异构信息网知识图谱补全方法和装置
CN113488165A (zh) * 2021-07-26 2021-10-08 平安科技(深圳)有限公司 基于知识图谱的文本匹配方法、装置、设备以及存储介质
CN113488165B (zh) * 2021-07-26 2023-08-22 平安科技(深圳)有限公司 基于知识图谱的文本匹配方法、装置、设备以及存储介质
CN113569056A (zh) * 2021-07-27 2021-10-29 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备与存储介质
CN113590846A (zh) * 2021-09-24 2021-11-02 天津汇智星源信息技术有限公司 法律知识图谱构建方法及相关设备
CN113590846B (zh) * 2021-09-24 2021-12-17 天津汇智星源信息技术有限公司 法律知识图谱构建方法及相关设备
CN114091429A (zh) * 2021-10-15 2022-02-25 山东师范大学 基于异构图神经网络的文本摘要生成方法及系统
CN114281959A (zh) * 2021-10-27 2022-04-05 腾讯科技(深圳)有限公司 语句处理的方法、装置、设备、介质及计算机程序产品
CN114281959B (zh) * 2021-10-27 2024-03-19 腾讯科技(深圳)有限公司 语句处理的方法、装置、设备、介质及计算机程序产品
CN114077676A (zh) * 2021-11-23 2022-02-22 郑州轻工业大学 一种基于路径置信度的知识图谱噪声检测方法
CN114281987A (zh) * 2021-11-26 2022-04-05 重庆邮电大学 一种用于智能语音助手的对话短文本语句匹配方法
CN114490884A (zh) * 2021-12-21 2022-05-13 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质
CN114385831A (zh) * 2022-01-14 2022-04-22 重庆邮电大学 一种基于特征提取的知识图谱关系预测方法
CN114461816A (zh) * 2022-01-27 2022-05-10 南京邮电大学 基于知识图谱的信息补充语义通信系统的实现方法
CN114461816B (zh) * 2022-01-27 2024-10-29 南京邮电大学 基于知识图谱的信息补充语义通信系统的实现方法
CN114943010A (zh) * 2022-05-26 2022-08-26 浙江工业大学 基于自注意力的融合三元组信的短序列扩充电影推荐方法
CN116611813B (zh) * 2023-05-08 2024-03-29 武汉人云智物科技有限公司 一种基于知识图谱的智能运维管理方法及系统
CN116611813A (zh) * 2023-05-08 2023-08-18 武汉人云智物科技有限公司 一种基于知识图谱的智能运维管理方法及系统
CN117251583B (zh) * 2023-11-20 2024-01-26 湖北大学 基于局部图结构的文本增强知识图谱表示学习方法及系统
CN117251583A (zh) * 2023-11-20 2023-12-19 湖北大学 基于局部图结构的文本增强知识图谱表示学习方法及系统

Also Published As

Publication number Publication date
CN112035672B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN112035672B (zh) 一种知识图谱补全方法、装置、设备以及存储介质
JP7141180B2 (ja) ナレッジグラフに基づく事件検索方法、装置、機器及び記憶媒体
US11256487B2 (en) Vectorized representation method of software source code
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN110837738B (zh) 相似问识别方法、装置、计算机设备及存储介质
CN108419094A (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN110933518B (zh) 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN109064294B (zh) 一种融合时间因素、文本特征和相关性的药品推荐方法
CN116049459B (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN112765991B (zh) 一种基于知识增强的深度对话语义角色标注方法及系统
CN113177141A (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN115238053A (zh) 基于bert模型的新冠知识智能问答系统及方法
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN113204633A (zh) 一种语义匹配蒸馏方法及装置
CN112035627A (zh) 自动问答方法、装置、设备及存储介质
CN113496123A (zh) 谣言检测方法、装置、电子设备及存储介质
CN117974693B (zh) 图像分割方法、装置、计算机设备和存储介质
Manikandan et al. Deepq: Residue analysis of localization images in large scale solid state physical environments
CN112883066B (zh) 一种数据库上的多维范围查询基数估计方法
CN117853861A (zh) 农作物病害识别模型的训练方法及农作物病害识别方法
CN116975651A (zh) 相似度确定模型处理方法、目标对象搜索方法和装置
CN114120245B (zh) 基于深度神经网络的人群图像分析方法、装置以及设备
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质
CN111325068A (zh) 基于卷积神经网络的视频描述方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant