CN110851620B - 一种基于文本嵌入和结构嵌入联合的知识表示方法 - Google Patents
一种基于文本嵌入和结构嵌入联合的知识表示方法 Download PDFInfo
- Publication number
- CN110851620B CN110851620B CN201911036834.7A CN201911036834A CN110851620B CN 110851620 B CN110851620 B CN 110851620B CN 201911036834 A CN201911036834 A CN 201911036834A CN 110851620 B CN110851620 B CN 110851620B
- Authority
- CN
- China
- Prior art keywords
- embedding
- entity
- text
- knowledge
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于文本嵌入和结构嵌入联合的知识表示方法,包括步骤一:将知识库中的实体描述文本进行预处理,对每个实体描述提取主题词;步骤二:使用fasttext将主题词编码成词向量,每个实体描述表示为多维词向量;步骤三:将处理后的多维词向量,输入到带有注意力机制的双向长短记忆网络(A‑BiLSTM)或带有注意力机制的长短记忆网络(A‑LSTM)编码,将表示每个实体的多维词向量处理成一维向量,也就是文本表示,并训练现有的StransE模型,得到实体的结构表示;步骤四:引入门控机制,并提出四种关于文本嵌入和结构嵌入联合的方法,得到最终的实体嵌入矩阵;步骤五:将实体嵌入矩阵输入到ConvKB、TransH、TransR、Distmult、Hole知识图谱嵌入模型中,提高知识补全任务。
Description
技术领域
本发明属于知识图谱、自然语言处理和信息检索领域,涉及知识表示学习中的异质信息融合与知识图谱补全,尤其是一种在知识库中联合基于实体描述的文本嵌入和结构嵌入的知识表示方法。
背景技术
将知识表示嵌入方法分为两个方面,一个方面是仅使用符号三元组的基于结构的嵌入模型。Bordes等人受到词向量空间对于词汇语义与句法关系存在有趣的平移不变现象的启发,提出了TransE模型,将知识库中的关系看作实体间的某种平移向量。与以往模型相比,TransE模型参数较少,计算复杂度低,却能直接建立实体和关系之间的复杂语义联系。可以说,TransE已经成为知识表示学习的代表模型。但是也由于过于简单,导致TransE在处理前面提到的知识库的复杂关系时捉襟见肘。
为了解决TransE模型在处理1-N、N-1、N-N复杂关系时的局限性,TransH模型提出让一个实体在不同的关系下拥有不同的表示。TransR模型进一步认为不同的关系拥有不同的语义空间。对每个三元组,首先应将实体利用矩阵投影到对应的关系空间中,然后再建立从头实体到尾实体的翻译关系。针对在知识库中实体的异质性和不平衡性,还有TransR模型中矩阵参数过多的问题,TransD模型和TranSparse模型对TransR模型中的投影矩阵进行了进一步的优化。此外,TransG模型和KG2E模型提出了利用高斯分布来表示知识库中的实体和关系,可以在表示过程中考虑实体和关系本身语义上的不确定性。上述模型都从不同角度尝试解决复杂关系建模问题。
另一种是使用文本描述的文本增强嵌入模型。现在主要是考虑实体描述的知识表示学习模型,以及文本与知识库融合的知识表示学习。文本嵌入模型通常可追溯到NTN。NTN使用实体名称并嵌入实体作为名称的平均单词嵌入向量。将知识图与语料库对齐,然后联合进行知识嵌入和单词嵌入。然而,对准信息的必要性在性能和实际适用性方面限制了该方法。因此,提出了“联合”方法,该方法仅将freebase实体与相应的wiki页面对齐。DKRL将基于翻译的嵌入方法从特定三元组方法扩展到“文本增强”模型。更重要的是,DKRL采用CNN结构来表示单词,这提升了单词语义的表达能力。一般而言,通过联合建模知识和文本,文本增强嵌入模型获得了最先进的性能。
但是,还有几个问题需要解决。(1)在这些方法中,结构表示和文本表示的最佳组合没有得到很好的研究,一个实体的良好表示应该同时编码结构和文本信息,并且能够适用于多种基于结构的模型。(2)给定实体描述文本,其描述中提供的所有信息并非都可用于预测链接实体。一个好的编码器应该根据不同的关系上下文从文本中选择文本信息,使其最有易于实体链接任务。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于文本嵌入和结构嵌入联合的知识表示方法,本发明是一个新的文本增强知识表示方法,能够有效地融合事实三元组的结构信息和实体的描述信息,增强知识图谱的表示学习。此方法能适用于已存在的多种知识图谱嵌入模型,且能提高这些嵌入模型的链接预测任务。
本发明的目的是通过以下技术方案实现的:一种基于文本嵌入和结构嵌入联合的知识表示方法,包括以下步骤:
步骤一:将知识库中的实体描述文本进行预处理,对每个实体描述提取主题词;
步骤二:使用fasttext将主题词编码成词向量,每个实体描述表示为多维词向量;
步骤三:将处理后的多维词向量,输入到带有注意力机制的双向长短记忆网络(A-BiLSTM)或带有注意力机制的长短记忆网络(A-LSTM)编码,将表示每个实体的多维词向量处理成一维向量,也就是文本表示,并训练现有的StransE模型,得到实体的结构表示;
步骤四:引入门控机制,并通过文本嵌入和结构嵌入联合的方法,得到最终的实体嵌入矩阵;
步骤五:将实体嵌入矩阵输入到ConvKB、TransH、TransR、Distmult、Hole知识图谱嵌入模型中,提高知识补全任务。
进一步的,步骤一中对实体描述文本进行预处理的具体步骤如下:首先从原始文本中删除所有停止词,之后在描述中标记所有短语,并将这些短语视为单词;然后,对每个实体提取多个主题单词作为描述。
进一步的,步骤三的具体步骤如下:双向长短时神经网络(Bi-LSTM,Bi-directional Long Short-Term Memory)被认为两个单独的不同方向的LSTMs;其中一个LSTM从左到右将文本描述编码,而另一个LSTM分别将文本描述从右向左编码,然后把两次结果组合起来;在解码端引入注意力机制,对目标数据进行加权变化,能够有效提高文本编码的表示;利用提供的参数训练StransE知识图谱嵌入模型得到结构表示。
进一步的,步骤四的具体步骤如下:
对于实体e,定义ed表示是它的结构嵌入信息,es是对实体e文本描述的编码;对于如何结合es和ed,即要得到平衡系数gs与gd如公式(1)所示;
通过以下四种方法将结构特征矩阵和文本特征矩阵组合;分别为:
(2)根据attention机制的思想,得到平衡系数gs和gd如公式(2)所示。
us=tanh(es·w+b)
ud=tanh(ed·w+b)
(2)将平衡系数gs和gd总和设置为1,并利用在(2)中的评分系数us和ud,得到gs和gd如公式(3)所示:
(5)同样地,将gs和gd总和为1,并利用评分函数z(e),得到gs和gd如公式(5)所示:
gd=1-gs (5)。
与现有技术相比,本发明的技术方案所带来的有益效果是:
现有的知识表示学习模型如TransE等,仅利用知识图谱的三元组结构信息进行表示学习,尚有大量与知识有关的其他信息没有得到有效利用。本发明方法充分利用知识库中的补充文本,提高知识表示的区分能力,以较好地完成知识图谱补全、知识问答等任务。
在公开数据集WN18RR和FB15k-237上,将本发明联合表示方法引入到现有经典知识图谱嵌入模型中,H@10、MRR、MR的值都比原模型提高很多。
附图说明
图1是本发明的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于实体描述的联合文本嵌入和结构嵌入的知识表示方法,如图1所示,为本发明知识表示方法一具体实施例的整体示意图,包括:
步骤S1:将知识库中的实体描述文本进行预处理,对每个实体描述提取多个主题词。
步骤S2:使用fasttext将主题词编码成词向量,每个实体描述表示为多维词向量。
步骤S3:将处理后的多维词向量,输入到带有注意力机制的双向长短记忆网络(A-BiLSTM)或带有注意力机制的长短记忆网络(A-LSTM)编码,将表示每个实体的多维词向量处理成一维向量,也就是文本表示,并训练现有的StransE模型,得到实体的结构表示。
步骤S4:提出了一个联合机制来学习结构和文本信息。对于实体e,我们定义ed表示是它的结构嵌入信息,es是对其文本描述的编码。主要关注的是如何结合es和ed,即要得到gs和gd如公式(1)所示。
通过提出的四种方法将结构特征矩阵和文本特征矩阵组合。分别为:
(1)根据attention机制的思想,得到gs和gd如公式(2)所示:
us=tanh(es·w+b)
ud=tanh(ed·w+b)
(2)将gs和gd总和为1,并利用us和ud,得到gs和gd如如公式(3)所示:
gd=1-gs (3)
(4)同样地,将gs和gd总和为1,并利用z(e),得到gs和gd如公式(1)所示:
步骤S5:将得到的实体嵌入矩阵输入到ConvKB、TransH、TransR、Distmult、Hole知识图谱嵌入模型中,可得到MRR、MR和hist@10的值。
表1 ConvKB模型链接预测结果
表2各模型链接预测结果对比
在知识库补全或链接预测任务是目的是预测在知识图中丢失的三元组,即预测一个不在知识图中的三元组是否可能有效,在一个链接预测任务(h,r,?)中,对于一个给定的实体h,和一个给定的关系r,我们的目标是确定哪个实体或者哪些实体t可以形成一个知识三元组(h,r,t)。利用“Filtered”设置,即不考虑出现在知识库中的任何错误的三元组。按分数的从大到小排列正确的测试三元组和错误的三元组。我们使用三种常用的评估指标:平均排名(MR)、平均倒数排名(MRR)和Hits@10(即有效的测试三元组排在前10的概率)。较低的MR,较高的MRR或Hits@10表示性能更好。
实验结果表1表明,当利用BiLSTM时,虽然MR的排名结果大幅度提升260-220=40,但MRR也下降。显然模型结合BiLSTM的鲁棒性不是很好。所以我们认为综合考虑,结合A-BiLSTM时,训练效果最好。当结合A-BiLSTM时,尤其在WN18RR数据集上,ConvKB模型的MR值降低了2664-1754=910(大约34%的提高)。
实验结果表2表明,在FB15k-237数据集上,DistMult利用Gate1的方式MR降低了16。对Hole来说,MR、Hits@10、Hits@3也都有小幅度地提升,其中MR降低了50。在Gate3方式上,TransH和TransD的MR、Hits@10、Hits@3也都有小幅度地提升,其中TransH的MR降低了13,Trans的MR降低了15。值得注意的是,在Gate4方式上,TransH的MRR增加了3%,hist@10提高了3.8%,MR降低了25。TransD的MRR增加了4.3%,hist@10提高了2.8%,MR降低了23。相比Gate3,Gate4的结合方式较好。在WN18RR数据集上,MR都下降了,即实验结果提高了。在Gate1的方式下,DistMult、Hole、TransH、TransD的MR降低了322、222、67、22。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (3)
1.一种基于文本嵌入和结构嵌入联合的知识表示方法,其特征在于,包括以下步骤:
步骤一:将知识库中的实体描述文本进行预处理,对每个实体描述提取主题词;
步骤二:使用fasttext将主题词编码成词向量,每个实体描述表示为多维词向量;
步骤三:将处理后的多维词向量,输入到带有注意力机制的双向长短记忆网络A-BiLSTM或带有注意力机制的长短记忆网络A-LSTM编码,将表示每个实体的多维词向量处理成一维向量,也就是文本表示,并训练现有的transE模型,得到实体的结构表示;
步骤四:引入门控机制,并通过文本嵌入和结构嵌入联合的方法,得到最终的实体嵌入矩阵;具体如下:
对于实体e,定义ed表示是它的结构嵌入信息,es是对实体e文本描述的编码;对于如何结合es和ed,即要得到平衡系数gs与gd如公式(1)所示;
通过以下四种方法将结构特征矩阵和文本特征矩阵组合;分别为:
(1)根据attention机制的思想,得到平衡系数gs和gd如公式(2)所示;
us=tanh(es·w+b)
ud=tanh(ed·w+b)
(2)将平衡系数gs和gd总和设置为1,并利用在(2)中的评分系数us和ud,得到gs和gd如公式(3)所示:
(4)同样地,将gs和gd总和为1,并利用评分函数z(e),得到gs和gd如公式(5)所示:
步骤五:将实体嵌入矩阵输入到ConvKB、TransH、TransR、Distmult、Hole知识图谱嵌入模型中,提高知识补全任务。
2.根据权利要求1所述一种基于文本嵌入和结构嵌入联合的知识表示方法,其特征在于,步骤一中对实体描述文本进行预处理的具体步骤如下:首先从原始文本中删除所有停止词,之后在描述中标记所有短语,并将这些短语视为单词;然后,对每个实体提取多个主题单词作为描述。
3.根据权利要求1所述一种基于文本嵌入和结构嵌入联合的知识表示方法,其特征在于,步骤三的具体步骤如下:双向长短时神经网络Bi-LSTM,Bi-directional Long Short-Term Memory被认为两个单独的不同方向的LSTMs;其中一个LSTM从左到右将文本描述编码,而另一个LSTM分别将文本描述从右向左编码,然后把两次结果组合起来;在解码端引入注意力机制,对目标数据进行加权变化,能够有效提高文本编码的表示;利用提供的参数训练transE知识图谱嵌入模型得到结构表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911036834.7A CN110851620B (zh) | 2019-10-29 | 2019-10-29 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911036834.7A CN110851620B (zh) | 2019-10-29 | 2019-10-29 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851620A CN110851620A (zh) | 2020-02-28 |
CN110851620B true CN110851620B (zh) | 2023-07-04 |
Family
ID=69598922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911036834.7A Active CN110851620B (zh) | 2019-10-29 | 2019-10-29 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851620B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380325B (zh) * | 2020-08-15 | 2022-05-31 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 |
CN112214335B (zh) * | 2020-10-13 | 2023-12-01 | 重庆工业大数据创新中心有限公司 | 基于知识图谱和相似度网络的Web服务发现方法 |
CN112561064B (zh) * | 2020-12-21 | 2023-03-24 | 福州大学 | 基于owkbc模型的知识库补全方法 |
CN113111224B (zh) * | 2021-03-17 | 2023-08-18 | 中山大学 | 一种基于拓扑感知文本表征的网络嵌入学习方法 |
CN113010690B (zh) * | 2021-03-29 | 2022-11-18 | 华南理工大学 | 一种基于文本信息增强实体嵌入的方法 |
CN113722499A (zh) * | 2021-07-23 | 2021-11-30 | 山东师范大学 | 基于关系图注意力网络的临床知识图链接预测方法及系统 |
CN114881047B (zh) * | 2022-07-12 | 2022-10-25 | 杭州远传新业科技股份有限公司 | 一种蔬菜病虫害图片问答方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3156949A2 (en) * | 2015-10-16 | 2017-04-19 | Baidu USA LLC | Systems and methods for human inspired simple question answering (hisqa) |
DE102016223193A1 (de) * | 2016-11-23 | 2018-05-24 | Fujitsu Limited | Verfahren und Vorrichtung zum Komplettieren eines Wissensgraphen |
CN109977234A (zh) * | 2019-03-28 | 2019-07-05 | 哈尔滨工程大学 | 一种基于主题关键词过滤的知识图谱补全方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN107391623B (zh) * | 2017-07-07 | 2020-03-31 | 中国人民大学 | 一种融合多背景知识的知识图谱嵌入方法 |
CN108763237A (zh) * | 2018-03-21 | 2018-11-06 | 浙江大学 | 一种基于注意力机制的知识图谱嵌入方法 |
CN109408743B (zh) * | 2018-08-21 | 2020-11-17 | 中国科学院自动化研究所 | 文本链接嵌入方法 |
CN109299284B (zh) * | 2018-08-31 | 2021-07-20 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109753571B (zh) * | 2019-01-11 | 2022-04-19 | 中山大学 | 一种基于二次主题空间投影的场景图谱低维空间嵌入方法 |
CN110334219B (zh) * | 2019-07-12 | 2023-05-09 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
-
2019
- 2019-10-29 CN CN201911036834.7A patent/CN110851620B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3156949A2 (en) * | 2015-10-16 | 2017-04-19 | Baidu USA LLC | Systems and methods for human inspired simple question answering (hisqa) |
DE102016223193A1 (de) * | 2016-11-23 | 2018-05-24 | Fujitsu Limited | Verfahren und Vorrichtung zum Komplettieren eines Wissensgraphen |
CN109977234A (zh) * | 2019-03-28 | 2019-07-05 | 哈尔滨工程大学 | 一种基于主题关键词过滤的知识图谱补全方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110851620A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851620B (zh) | 一种基于文本嵌入和结构嵌入联合的知识表示方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
CN111310439B (zh) | 一种基于深度特征变维机制的智能语义匹配方法和装置 | |
CN111680488B (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110929515A (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
CN113590784B (zh) | 三元组信息抽取方法、装置、电子设备、及存储介质 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN111178051B (zh) | 建筑信息模型自适应的中文分词方法及装置 | |
CN111460824A (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN115761753A (zh) | 一种融合知识图谱的检索式知识前缀引导视觉问答方法 | |
CN111428443A (zh) | 一种基于实体上下文语义交互的实体链接方法 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN111368058A (zh) | 一种基于迁移学习的问答匹配方法 | |
CN110516145A (zh) | 一种基于句向量编码的信息搜索方法 | |
CN115344672A (zh) | 文档检索模型训练方法、检索方法及存储介质 | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN113010690B (zh) | 一种基于文本信息增强实体嵌入的方法 | |
CN114020871B (zh) | 基于特征融合的多模态社交媒体情感分析方法 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |