CN107871158A - 一种结合序列文本信息的知识图谱表示学习方法及装置 - Google Patents

一种结合序列文本信息的知识图谱表示学习方法及装置 Download PDF

Info

Publication number
CN107871158A
CN107871158A CN201610852672.4A CN201610852672A CN107871158A CN 107871158 A CN107871158 A CN 107871158A CN 201610852672 A CN201610852672 A CN 201610852672A CN 107871158 A CN107871158 A CN 107871158A
Authority
CN
China
Prior art keywords
vector representation
entity
word
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610852672.4A
Other languages
English (en)
Inventor
刘知远
孙茂松
吴佳炜
谢若冰
林衍凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610852672.4A priority Critical patent/CN107871158A/zh
Publication of CN107871158A publication Critical patent/CN107871158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种结合序列文本信息的知识图谱表示学习方法及装置,该方法不仅利用了实体之间的三元关系组信息,还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程,使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数,学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示,显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示,充分利用了语料库中包含实体的序列文本信息,能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率,具有良好的实用性,提高知识图谱的表示性能。

Description

一种结合序列文本信息的知识图谱表示学习方法及装置
技术领域
本发明属于自然语言处理和信息抽取领域,具体涉及一种结合序列文本信息的知识图谱表示学习方法及装置。
背景技术
在社会飞速发展的背景下,人类现在处于信息爆炸的时代,每天都会有海量的实体知识和信息产生。这些信息广泛分布在互联网上,并且通常以文字或者图片等非结构化的形式产生并存储。然而,随着用户对互联网上有效信息筛选与归纳的需求日益增加,如何从海量数据中获取有价值的信息成为一个难题。于是,知识图谱应运而生。
知识图谱将世界上所有的具象事物(如人物、地名、书名、球队名等专有名词)与抽象概念表示为实体,将实体之间内在的交互联系表示为关系,旨在构建一个结构化信息的数据库。在典型的知识图谱中,实体与实体之间的关系被构建成一张巨大的图,其中图中的节点表示实体,而图中的边表示实体间的关系,因此世界的海量知识被表示为实体之间利用关系作为桥梁的三元关系组。例如,针对北京是中国的首都这一知识,在知识图谱就利用三元关系组(北京,是……首都,中国)进行表示。传统的自然语言处理存在歧义性的问题,而在知识图谱的构建过程中,一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元关系组记录了实体之间的内在联系以及实体内在的属性,因此被广泛运用于信息检索、问答系统和数据挖掘等多个领域。
由于知识图谱中实体数量庞大,但实体之间的利用关系相对较少,知识图谱网络存在严重的结构稀疏性问题,同时也存在着知识信息不完整的问题。并且随着信息在极短的时间内不断增加,实体之间的关系也不断进行更新与变化,仅靠人工维护与更新信息难以担当重任。因此,知识图谱的表示与自动补全成为当今重要的研究热点。
近年来,表示学习在知识图谱上的运用获得了巨大的成功,显著提高了知识图谱的表示与自动补全性能。表示学习使用分布式表示方法,将实体与关系映射到低维连续向量空间中,解决了之前知识图谱表示学习中的稀疏性问题,同时也提高了效率,其中基于转化的模型表现最为突出。但是,现有的知识图谱表示学习方法往往只考虑知识图谱三元组关系本身。考虑到实体本身是从语料文本中提取的,这些现有的表示学习方法忽略了语料库中丰富的包含实体的序列文本信息,因此限制了知识图谱的表示性能。
发明内容
本发明所要解决的技术问题是如何提供一种结合序列文本信息的知识图谱表示学习方法,解决现有技术中存在的未能充分利用语料库中包含实体的序列文本信息的问题,以提高知识图谱的表示性能。
针对以上技术问题,本发明提供了一种结合序列文本信息的知识图谱表示学习方法,包括:
S1:获取知识图谱中的三元组关系,所述三元组关系的头实体和尾实体,并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句;
S2:针对每一个所述第一参考语句和每一个所述第二参考语句,采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示,所述第二参考语句对应的第二最终向量表示;
S3:根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示,采用注意力模型得到所述头实体的基于文本向量表示,并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示,采用注意力模型得到所述尾实体的基于文本向量表示;
S4:根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,构建能量方程;
S5:根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。
可选地,所述步骤S2包括:
将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量,其中,所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述头实体或者尾实体的位置的向量;
针对每一个所述第一参考语句,按照所述第一参考语句中的单词出现的先后顺序,读入单词的词向量,采用公式ht=tanh(Wxt+Uht-1+b)得到所述第一参考语句在第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示,同理,针对每一个所述第二参考语句,按照所述第二参考语句中的单词出现的先后顺序,读入单词的词向量,采用公式ht=tanh(Wxt+Uht-1+b)得到所述第二参考语句在第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示;
针对每一个所述第一参考语句,将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作,得到所述第一参考语句对应的第一最终向量表示,同理,针对每一个所述第二参考语句,将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作,得到所述第二参考语句对应的第二最终向量表示;
其中,ht为第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示,xt为第t个单词的词向量,W和U为模型训练得到的矩阵参数,b为模型训练得到的向量参数,c为参考语句的最终的向量表示,hi表示第i时刻循环神经网络的隐状态,n为参考语句的单词长度。
或者,可选地,所述步骤S2包括:
将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量,其中,所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述实体的位置的向量;
针对每一个所述第一参考语句和所述第二参考语句,按照所述第一参考语句和所述第二参考语句中的单词出现的先后顺序,读入单词的词向量,按照以下公式:
it=σ(W(i)xt+U(i)ht-1+b(i));
ft=σ(W(f)xt+U(f)ht-1+b(f));
ot=σ(W(o)xt+U(o)ht-1+b(o));
ut=tanh(W(u)xt+U(u)ht-1+b(u));
c=hn
得到所述第一参考语句对应的第一最终向量表示和所述第二参考语句对应的第二最终向量表示;
其中,在每个当前时刻t,it为输入门限,ft为遗忘门限,ot为输出门限,it、ft和ot的取值均在0和1之间,ct为记忆模块参数,ht为第t个单词表示输入后,t时刻长短时记忆网络的隐状态表示,c为参考语句最终向量表示,n为该参考语句的单词长度。
可选地,所述步骤S3包括:
针对每一所述第一参考语句,按照公式计算其所对应的第一最终向量表示与所述头实体对应的基于结构向量表示之间的第一相似度,同理,针对每一所述第二参考语句,按照公式计算其所对应的第二最终向量表示与所述尾实体对应的基于结构向量表示之间的第二相似度;
获取所述第一参考语句中第一相似度大于第一预设相似度的至少一个第一参考语句,作为第一参考语句集,获取所述第二参考语句中第二相似度大于第二预设相似度的至少一个第二参考语句,作为第二参考语句集,将所述第一参考语句集中第一参考语句按照公式合成为所述头实体的基于文本向量表示,将所述第二参考语句集中第二参考语句合成为所述尾实体的基于文本向量表示;
其中,c为参考语句的最终向量表示,eK为所述头实体或尾实体的基于结构向量表示,s为所述头实体或尾实体的基于文本的向量表示,ci为所述第一参考语句集中的第i句第一参考语句的第一最终向量表示或第二参考语句集中的第i句第二参考语句的第二最终向量表示,eK为所述头实体或尾实体的基于结构向量表示,m为预设的参数。
可选地,所述步骤S4包括:
根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,按照以下公式
E(h,r,t)=EKK+ESS+EKS+ESK
EKK=||hK+r-tK||;
ESS=||hS+r-tS||;
EKS=||hK+r-tS||;
ESK=||hS+r-tK||;
构建能量方程;
其中,E(h,r,t)、EKK、ESS、EKS以及ESK均为能量方程,hS与hK分别表示所述头实体h对应的基于文本向量表示与基于结构向量表示,tS与tK分别所述尾实体t基于文本向量表示与基于结构向量表示,r为关系向量。
可选地,所述步骤S5包括:
根据所述能量方程按照以下公式
构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示;
其中,γ>0是超参数,T′为所述三元组关系的负例集,T为所述三元组关系的正例集,h′为替换h的负例实体,t′为替换t的负例实体,E为实体集合。
可选地,所述单词相对于所述头实体的位置的向量表示为所述单词在其所在的第一参考语句中相对于所述头实体的位置的数值差,所述单词相对于所述尾实体的位置的向量表示为所述单词在其所在的第二参考语句中相对于所述尾实体的位置的数值差。
另一方面,本发明还提供了一种结合序列文本信息的知识图谱表示学习装置,包括:
获取单元,用于获取知识图谱中的三元组关系,所述三元组关系的头实体和尾实体,并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句;
第一构建单元,用于针对每一个所述第一参考语句和每一个所述第二参考语句,采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示,所述第二参考语句对应的第二最终向量表示;
第二构建单元,用于根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示,采用注意力模型得到所述头实体的基于文本向量表示,并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示,采用注意力模型得到所述尾实体的基于文本向量表示;
第三构建单元,用于根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,构建能量方程;
学习单元,用于根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。
本发明提出的结合序列文本信息的知识图谱表示学习方法及装置,不仅利用了实体之间的三元关系组信息,还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程,使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数,学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示,显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示,充分利用了语料库中包含实体的序列文本信息,能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率,具有良好的实用性,提高知识图谱的表示性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的结合序列文本信息的知识图谱表示学习方法的流程示意图;
图2是本发明一个实施例提供的对整个结合序列文本信息的知识图谱表示学习方法模型全面示例的示意图;
图3是本发明一个实施例提供的对给定实体的一个参考语句,采用一个引入均值池化操作的循环神经网络构建这个参考语句的向量表示的示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本,实施例提供的结合序列文本信息的知识图谱表示学习方法的流程示意图。参见图1,该方法包括:
S1:获取知识图谱中的三元组关系,所述三元组关系的头实体和尾实体,并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句;
S2:针对每一个所述第一参考语句和每一个所述第二参考语句,采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示,所述第二参考语句对应的第二最终向量表示;
S3:根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示,采用注意力模型得到所述头实体的基于文本向量表示,并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示,采用注意力模型得到所述尾实体的基于文本向量表示;
S4:根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,构建能量方程;
S5:根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。
需要说明的是,需要选定含有大量实体的文本为语料库(如维基百科),对文本中的实体进行标注;
对知识图谱中包含的每个实体,从选定的语料库中,提取包含且仅包含该实体的语句作为该实体的参考语句。
本实施例提供的结合序列文本信息的知识图谱表示学习方法,不仅利用了实体之间的三元关系组信息,还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程,使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数,学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示,显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示,充分利用了语料库中包含实体的序列文本信息,能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率,具有良好的实用性,提高知识图谱的表示性能。
进一步地,所述步骤S2包括:
将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量,其中,所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述头实体或者尾实体的位置的向量;
针对每一个所述第一参考语句,按照所述第一参考语句中的单词出现的先后顺序,读入单词的词向量,采用公式ht=tanh(Wxt+Uht-1+b)得到所述第一参考语句在第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示,同理,针对每一个所述第二参考语句,按照所述第二参考语句中的单词出现的先后顺序,读入单词的词向量,采用公式ht=tanh(Wxt+Uht-1+b)得到所述第二参考语句在第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示;
针对每一个所述第一参考语句,将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作,得到所述第一参考语句对应的第一最终向量表示,同理,针对每一个所述第二参考语句,将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作,得到所述第二参考语句对应的第二最终向量表示;
其中,ht为第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示,xt为第t个单词的词向量,W和U为模型训练得到的矩阵参数,b为模型训练得到的向量参数,c为参考语句的最终的向量表示,hi表示第i时刻循环神经网络的隐状态,n为参考语句的单词长度。
或者,所述步骤S2包括:
将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量,其中,所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述实体的位置的向量;
针对每一个所述第一参考语句和所述第二参考语句,按照所述第一参考语句和所述第二参考语句中的单词出现的先后顺序,读入单词的词向量,按照以下公式:
it=σ(W(i)xt+U(i)ht-1+b(i));
ft=σ(W(f)xt+U(f)ht-1+b(f));
ot=σ(W(o)xt+U(o)ht-1+b(o));
ut=tanh(W(u)xt+U(u)ht-1+b(u));
c=hn
得到所述第一参考语句对应的第一最终向量表示和所述第二参考语句对应的第二最终向量表示;
其中,在每个当前时刻t,it为输入门限,ft为遗忘门限,ot为输出门限,it、ft和ot的取值均在0和1之间,ct为记忆模块参数,ht为第t个单词表示输入后,t时刻长短时记忆网络的隐状态表示,c为参考语句最终向量表示,n为该参考语句的单词长度。
需要说明的是,在将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量时,将所有在语料库中出现的单词转化为连续的向量表示:每一个单词转化为一个词向量矩阵中的向量。进一步的,使用位置值来对每个单词相对实体的位置进行标注。这里,词向量用于刻画每个单词的语法和语义信息,采用word2vec学习得到;位置值用于刻画单词的位置信息,定义为每个单词和其所在参考语句中实体位置的数值差。最终的词向量定义为word2vec学习到的词向量与位置值的拼接;
步骤S2第一参考语句对应的第一最终向量表示,和第二参考语句对应的第二最终向量表示,可以通过循环神经网络或长短时记忆网络将输入的单词表示转化为的最终向量表示,通过一个引入池化操作的循环神经网络或长短时记忆网络将输入的词表示转化为向量表示。
进一步地,所述步骤S3包括:
针对每一所述第一参考语句,按照公式计算其所对应的第一最终向量表示与所述头实体对应的基于结构向量表示之间的第一相似度,同理,针对每一所述第二参考语句,按照公式计算其所对应的第二最终向量表示与所述尾实体对应的基于结构向量表示之间的第二相似度;
获取所述第一参考语句中第一相似度大于第一预设相似度的至少一个第一参考语句,作为第一参考语句集,获取所述第二参考语句中第二相似度大于第二预设相似度的至少一个第二参考语句,作为第二参考语句集,将所述第一参考语句集中第一参考语句按照公式合成为所述头实体的基于文本向量表示,将所述第二参考语句集中第二参考语句合成为所述尾实体的基于文本向量表示;
其中,c为参考语句的最终向量表示,eK为所述头实体或尾实体的基于结构向量表示,s为所述头实体或尾实体的基于文本的向量表示,ci为所述第一参考语句集中的第i句第一参考语句的第一最终向量表示或第二参考语句集中的第i句第二参考语句的第二最终向量表示,eK为所述头实体或尾实体的基于结构向量表示,m为预设的参数。
进一步地,所述步骤S4包括:
根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,按照以下公式
E(h,r,t)=EKK+ESS+EKS+ESK
EKK=||hK+r-tK||;
ESS=||hS+r-tS||;
EKS=||hK+r-tS||;
ESK=||hS+r-tK||;
构建能量方程;
其中,E(h,r,t)、EKK、ESS、EKS以及ESK均为能量方程,hS与hK分别表示所述头实体h对应的基于文本向量表示与基于结构向量表示,tS与tK分别所述尾实体t基于文本向量表示与基于结构向量表示,r为关系向量。
进一步地,所述步骤S5包括:
根据所述能量方程按照以下公式
构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示;
其中,γ>0是超参数,T′为所述三元组关系的负例集,T为所述三元组关系的正例集,h′为替换h的负例实体,t′为替换t的负例实体,E为实体集合。
进一步地,所述单词相对于所述头实体的位置的向量表示为所述单词在其所在的第一参考语句中相对于所述头实体的位置的数值差,所述单词相对于所述尾实体的位置的向量表示为所述单词在其所在的第二参考语句中相对于所述尾实体的位置的数值差。
作为一种具体的实施例,如图2所示,将仅包含头实体的至少一个参考语句(reference sentences of head),例如:ref1、ref2、ref3……refm,经过如上述实施例中所述的采用循环神经网络(RNN)或长短时记忆网络(LSTM)的处理,得到包含头实体的参考语句的最终向量表示,如图2中c1、c1、c3……cm。然后通过合并过程a1、a2、a3……am,也就是上述实施例中所述的根据最终向量表示和基于结构向量表示生成基于文本向量表示,最终构建能量方程,得到所述头实体head的基于结构向量表示和基于文本的向量表示。
同理,将仅包含尾实体的至少一个参考语句(reference sentences of tail),例如:ref1、ref2、ref3……refm,经过如上述实施例中所述的采用循环神经网络(RNN)或长短时记忆网络(LSTM)的处理,得到包含头实体的参考语句的最终向量表示,如图2中c1、c1、c3……cm。然后通过合并过程a1、a2、a3……am,也就是上述实施例中所述的根据最终向量表示和基于结构向量表示生成基于文本向量表示,最终构建能量方程,得到所述尾实体tail的基于结构向量表示和基于文本的向量表示。
结合关系向量relation,得到最终的三元组关系。
其中,采用引入均值池化操作的循环神经网络构建参考语句的最终向量表示的方法如图3所示,针对每一个包含头实体或者尾实体的参考语句,按照参考语句中的单词(例如,图3中的x1、x2、x3……xm)按照其在参考语句中出现的先后顺序读入单词的词向量,其中,每一个单词的词向量均包括用于表示单词语法和语义的向量(如图3中的word)以及用于表示单词相对于头实体或者尾实体的位置的向量(如图3中的position)。采用循环神经网络(RNN),例如采用公式ht=tanh(Wxt+Uht-1+b)将得到不同时刻(例如,t时刻)循环神经网络的隐状态表示。进一步,根据不同时刻循环神经网络的隐状态表示得到该参考语句的最终向量表示c,具体地,例如,如上实施例中所述的采用得到参考语句的最终向量表示c。
另一方面,本实施例还提供了一种结合序列文本信息的知识图谱表示学习装置,包括:
获取单元,用于获取知识图谱中的三元组关系,所述三元组关系的头实体和尾实体,并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句;
第一构建单元,用于针对每一个所述第一参考语句和每一个所述第二参考语句,采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示,所述第二参考语句对应的第二最终向量表示;
第二构建单元,用于根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示,采用注意力模型得到所述头实体的基于文本向量表示,并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示,采用注意力模型得到所述尾实体的基于文本向量表示;
第三构建单元,用于根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,构建能量方程;
学习单元,用于根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。
本实施例提供的结合序列文本信息的知识图谱表示学习装置,不仅利用了实体之间的三元关系组信息,还充分利用了指定语料库中包含实体的序列文本信息。通过构建能量方程,使得实体在结构化的三元关系组信息和非结构化的文本信息上拥有不同的表示向量。通过最小化基于边际的评价函数,学习基于结构的实体向量、基于文本的实体向量以及关系向量的表示,显著提升了知识图谱的表示学习效果。本发明学习到的知识图谱表示,充分利用了语料库中包含实体的序列文本信息,能够在三元组关系分类和三元组头尾实体预测等任务中得到更高的准确率,具有良好的实用性,提高知识图谱的表示性能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种结合序列文本信息的知识图谱表示学习方法,其特征在于,包括:
S1:获取知识图谱中的三元组关系,所述三元组关系的头实体和尾实体,并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句;
S2:针对每一个所述第一参考语句和每一个所述第二参考语句,采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示,所述第二参考语句对应的第二最终向量表示;
S3:根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示,采用注意力模型得到所述头实体的基于文本向量表示,并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示,采用注意力模型得到所述尾实体的基于文本向量表示;
S4:根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,构建能量方程;
S5:根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。
2.根据权利要求1中所述的方法,其特征在于,所述步骤S2包括:
将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量,其中,所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述头实体或者尾实体的位置的向量;
针对每一个所述第一参考语句,按照所述第一参考语句中的单词出现的先后顺序,读入单词的词向量,采用公式ht=tanh(Wxt+Uht-1+b)得到所述第一参考语句在第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示,同理,针对每一个所述第二参考语句,按照所述第二参考语句中的单词出现的先后顺序,读入单词的词向量,采用公式ht=tanh(Wxt+Uht-1+b)得到所述第二参考语句在第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示;
针对每一个所述第一参考语句,将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作,得到所述第一参考语句对应的第一最终向量表示,同理,针对每一个所述第二参考语句,将所有时刻的循环神经网络的隐状态表示按照公式进行均值池化操作,得到所述第二参考语句对应的第二最终向量表示;
其中,ht为第t个单词的词向量输入后,t时刻循环神经网络的隐状态表示,xt为第t个单词的词向量,W和U为模型训练得到的矩阵参数,b为模型训练得到的向量参数,c为参考语句的最终的向量表示,hi表示第i时刻循环神经网络的隐状态,n为参考语句的单词长度。
3.根据权利要求1中所述的方法,其特征在于,所述步骤S2包括:
将所述语料库中的每一个单词转化为一个词向量矩阵中的词向量,其中,所述词向量包括用于表示所述单词语法和语义向量以及用于表示所述单词相对于所述实体的位置的向量;
针对每一个所述第一参考语句和所述第二参考语句,按照所述第一参考语句和所述第二参考语句中的单词出现的先后顺序,读入单词的词向量,按照以下公式:
it=σ(W(i)xt+U(i)ht-1+b(i));
ft=σ(W(f)xt+U(f)ht-1+b(f));
ot=σ(W(o)xt+U(o)ht-1+b(o));
ut=tanh(W(u)xt+U(u)ht-1+b(u));
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct);
c=hn
得到所述第一参考语句对应的第一最终向量表示和所述第二参考语句对应的第二最终向量表示;
其中,在每个当前时刻t,it为输入门限,ft为遗忘门限,ot为输出门限,it、ft和ot的取值均在0和1之间,ct为记忆模块参数,ht为第t个单词表示输入后,t时刻长短时记忆网络的隐状态表示,c为参考语句最终向量表示,n为该参考语句的单词长度。
4.根据权利要求2或3中所述的方法,其特征在于,所述步骤S3包括:
针对每一所述第一参考语句,按照公式计算其所对应的第一最终向量表示与所述头实体对应的基于结构向量表示之间的第一相似度,同理,针对每一所述第二参考语句,按照公式计算其所对应的第二最终向量表示与所述尾实体对应的基于结构向量表示之间的第二相似度;
获取所述第一参考语句中第一相似度大于第一预设相似度的至少一个第一参考语句,作为第一参考语句集,获取所述第二参考语句中第二相似度大于第二预设相似度的至少一个第二参考语句,作为第二参考语句集,将所述第一参考语句集中第一参考语句按照公式合成为所述头实体的基于文本向量表示,将所述第二参考语句集中第二参考语句合成为所述尾实体的基于文本向量表示;
其中,c为参考语句的最终向量表示,eK为所述头实体或尾实体的基于结构向量表示,s为所述头实体或尾实体的基于文本的向量表示,ci为所述第一参考语句集中的第i句第一参考语句的第一最终向量表示或第二参考语句集中的第i句第二参考语句的第二最终向量表示,eK为所述头实体或尾实体的基于结构向量表示,m为预设的参数。
5.根据权利要求4中所述的方法,其特征在于,所述步骤S4包括:
根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,按照以下公式
E(h,r,t)=EKK+ESS+EKS+ESK
EKK=||hK+r-tK||;
ESS=||hS+r-tS||;
EKS=||hK+r-tS||;
ESK=||hS+r-tK||;
构建能量方程;
其中,E(h,r,t)、EKK、ESS、EKS以及ESK均为能量方程,hS与hK分别表示所述头实体h对应的基于文本向量表示与基于结构向量表示,tS与tK分别所述尾实体t基于文本向量表示与基于结构向量表示,r为关系向量。
6.根据权利要求5中所述的方法,其特征在于,所述步骤S5包括:
根据所述能量方程按照以下公式
<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mo>(</mo> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <mo>(</mo> <msup> <mi>h</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> <mo>&amp;Element;</mo> <msup> <mi>T</mi> <mo>&amp;prime;</mo> </msup> </mrow> </munder> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>&amp;gamma;</mi> <mo>+</mo> <mi>E</mi> <mo>(</mo> <mrow> <mi>h</mi> <mo>,</mo> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mo>)</mo> <mo>-</mo> <mi>E</mi> <mo>(</mo> <mrow> <msup> <mi>h</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>r</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>t</mi> <mo>&amp;prime;</mo> </msup> </mrow> <mo>)</mo> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E};
构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示;
其中,γ>0是超参数,T′为所述三元组关系的负例集,T为所述三元组关系的正例集,h′为替换h的负例实体,t′为替换t的负例实体,E为实体集合。
7.根据权利要求2中所述的方法,其特征在于,所述单词相对于所述头实体的位置的向量表示为所述单词在其所在的第一参考语句中相对于所述头实体的位置的数值差,所述单词相对于所述尾实体的位置的向量表示为所述单词在其所在的第二参考语句中相对于所述尾实体的位置的数值差。
8.一种结合序列文本信息的知识图谱表示学习装置,其特征在于,包括:
获取单元,用于获取知识图谱中的三元组关系,所述三元组关系的头实体和尾实体,并从语料库中获取仅包含所述头实体的至少一个第一参考语句和仅包含所述尾实体的至少一个第二参考语句;
第一构建单元,用于针对每一个所述第一参考语句和每一个所述第二参考语句,采用循环神经网络或长短时记忆网络构建所述第一参考语句对应的第一最终向量表示,所述第二参考语句对应的第二最终向量表示;
第二构建单元,用于根据所述头实体对应的基于结构向量表示和至少一个所述第一最终向量表示,采用注意力模型得到所述头实体的基于文本向量表示,并根据所述尾实体对应的基于结构向量表示和至少一个所述第二最终向量表示,采用注意力模型得到所述尾实体的基于文本向量表示;
第三构建单元,用于根据所述头实体基于结构向量表示和基于文本向量表示、所述尾实体基于结构向量表示和基于文本向量表示,以及所述头实体和尾实体的关系向量表示,构建能量方程;
学习单元,用于根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习所述头实体和尾实体的基于结构向量表示、基于文本的向量表示以及关系向量表示。
CN201610852672.4A 2016-09-26 2016-09-26 一种结合序列文本信息的知识图谱表示学习方法及装置 Pending CN107871158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610852672.4A CN107871158A (zh) 2016-09-26 2016-09-26 一种结合序列文本信息的知识图谱表示学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610852672.4A CN107871158A (zh) 2016-09-26 2016-09-26 一种结合序列文本信息的知识图谱表示学习方法及装置

Publications (1)

Publication Number Publication Date
CN107871158A true CN107871158A (zh) 2018-04-03

Family

ID=61751979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610852672.4A Pending CN107871158A (zh) 2016-09-26 2016-09-26 一种结合序列文本信息的知识图谱表示学习方法及装置

Country Status (1)

Country Link
CN (1) CN107871158A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109241278A (zh) * 2018-07-18 2019-01-18 绍兴诺雷智信息科技有限公司 科研知识管理方法及系统
CN109376864A (zh) * 2018-09-06 2019-02-22 电子科技大学 一种基于堆叠神经网络的知识图谱关系推理算法
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN109597878A (zh) * 2018-11-13 2019-04-09 北京合享智慧科技有限公司 一种确定文本相似度的方法及相关装置
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110457692A (zh) * 2019-07-26 2019-11-15 清华大学 复合词表示学习方法及装置
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
WO2020020085A1 (zh) * 2018-07-24 2020-01-30 华为技术有限公司 表示学习方法及装置
CN111428050A (zh) * 2020-03-23 2020-07-17 北京明略软件系统有限公司 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN111523327A (zh) * 2020-04-23 2020-08-11 北京市科学技术情报研究所 一种基于语音识别的文本确定方法及系统
CN111581929A (zh) * 2020-04-22 2020-08-25 腾讯科技(深圳)有限公司 基于表格的文本生成方法及相关装置
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
WO2022178950A1 (zh) * 2021-02-25 2022-09-01 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
CN116842109A (zh) * 2023-06-27 2023-10-03 北京大学 信息检索知识图谱嵌入方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN105824802A (zh) * 2016-03-31 2016-08-03 清华大学 一种获取知识图谱向量化表示的方法以及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAWEI WU等: "Knowledge Representation via Joint Learning of Sequential Text and Knowledge Graphs", 《ARXIV:1609.07075V1 [CS.CL]》 *
RUOBING XIE等: "Representation Learning of Knowledge Graphs with Entity Descriptions", 《PROCEEDINGS OF THE THIRTIETH AAAI CONFERENCE ON ARTICIAL INTELLIGENCE》 *
YANKAI LIN等: "Learning Entity and Relation Embeddings for Knowledge Graph Completion", 《PROCEEDINGS OF THE TWENTY-NINTH AAAI CONFERENCE ON ARTICIAL INTELLIGENCE 》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN108984745B (zh) * 2018-07-16 2021-11-02 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109241278A (zh) * 2018-07-18 2019-01-18 绍兴诺雷智信息科技有限公司 科研知识管理方法及系统
CN109241278B (zh) * 2018-07-18 2022-04-26 绍兴诺雷智信息科技有限公司 科研知识管理方法及系统
WO2020020085A1 (zh) * 2018-07-24 2020-01-30 华为技术有限公司 表示学习方法及装置
CN109376864A (zh) * 2018-09-06 2019-02-22 电子科技大学 一种基于堆叠神经网络的知识图谱关系推理算法
CN109492101A (zh) * 2018-11-01 2019-03-19 山东大学 基于标签信息与文本特征的文本分类方法、系统及介质
CN109597878A (zh) * 2018-11-13 2019-04-09 北京合享智慧科技有限公司 一种确定文本相似度的方法及相关装置
CN110008469B (zh) * 2019-03-19 2022-06-07 桂林电子科技大学 一种多层次命名实体识别方法
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110457692A (zh) * 2019-07-26 2019-11-15 清华大学 复合词表示学习方法及装置
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN111428050A (zh) * 2020-03-23 2020-07-17 北京明略软件系统有限公司 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN111428050B (zh) * 2020-03-23 2023-06-02 北京明略软件系统有限公司 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN111581929A (zh) * 2020-04-22 2020-08-25 腾讯科技(深圳)有限公司 基于表格的文本生成方法及相关装置
CN111523327A (zh) * 2020-04-23 2020-08-11 北京市科学技术情报研究所 一种基于语音识别的文本确定方法及系统
CN111523327B (zh) * 2020-04-23 2023-08-22 北京市科学技术情报研究所 一种基于语音识别的文本确定方法及系统
CN111949764B (zh) * 2020-08-18 2021-06-29 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
WO2022178950A1 (zh) * 2021-02-25 2022-09-01 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
CN116842109A (zh) * 2023-06-27 2023-10-03 北京大学 信息检索知识图谱嵌入方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN107871158A (zh) 一种结合序列文本信息的知识图谱表示学习方法及装置
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN113535953B (zh) 一种基于元学习的少样本分类方法
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN113343690B (zh) 一种文本可读性自动评估方法及装置
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
Wu et al. Knowledge representation via joint learning of sequential text and knowledge graphs
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN116720519B (zh) 一种苗医药命名实体识别方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
Bhalekar et al. Generation of image captions using VGG and ResNet CNN models cascaded with RNN approach
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
Gao et al. A hybrid GCN and RNN structure based on attention mechanism for text classification
CN114648005A (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
CN116468030A (zh) 一种基于多任务神经网络的端到端方面级情感分析方法
CN112015891A (zh) 基于深度神经网络的网络问政平台留言分类的方法及系统
CN113449517A (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180403

WD01 Invention patent application deemed withdrawn after publication