CN112100342A - 一种基于知识表示学习技术的知识图谱问答方法 - Google Patents
一种基于知识表示学习技术的知识图谱问答方法 Download PDFInfo
- Publication number
- CN112100342A CN112100342A CN202010776098.5A CN202010776098A CN112100342A CN 112100342 A CN112100342 A CN 112100342A CN 202010776098 A CN202010776098 A CN 202010776098A CN 112100342 A CN112100342 A CN 112100342A
- Authority
- CN
- China
- Prior art keywords
- natural language
- predicate
- model
- question
- language question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Abstract
本发明公开了一种基于知识表示学习技术的知识图谱问答方法,使用该方法构建了一个主题检测模块和谓词预测模块。当用户提出一个自然语言问句时,通过主题检测模块与谓词预测模块识别到自然语言问句中的主题与谓词,将主题与谓词输入到知识图谱中,自动进行查找并返回知识图谱支持的正确答案。本发明方法可以准确表示知识图谱组件的语义信息,能够维护知识图谱的固有结构,同时具备处理用户提出新的自然语言问句的能力。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种知识图谱问答方法。
背景技术
大规模知识图谱的构建和应用使计算机的可读性和互操作性迅速增长。知识图谱是由实体(节点)和关系(边)组成的多关系图的形式表示。在诸如Freebase和DBpedia之类的大规模知识图谱中,每个边都表示一个三元组(主题,谓词,对象),每个三元组表示两个实体(主题、对象)通过特定关系(谓词)连接的事实。尽管可以有效地表示知识图谱,但结构化数据的大容量和稀疏表达性通常使知识图谱难以访问,因此研究人员提出基于知识图谱的问答系统解决上述问题。基于知识图谱的问答技术旨在设计一个系统,该系统面对用户提出的自然语言问句时,能够自动查找并返回知识图谱支持的正确答案。传统的知识图谱问答系统通过语义解析器完成任务,该语义解析器用于泛化可查询的逻辑表示。但训练泛化能力强大的语义解析分类器需要大量的训练数据,而现有问答数据集中问答对都比较少。随着深度学习的不断发展,基于神经网络的知识图谱问答方法逐渐成为知识图谱问答的主流方法。文献“Large-scale simple question answering with memory networks。”首次针对问答数据集提出了基于知识图谱的问答模型,该模型通过记忆网络匹配主题,使用句子文本中的n-gram来生成候选主题完成问答任务。文献“Neural network-basedquestion answering over knowledge graphs on word and character level。”提出对主题与谓词对进行排序,使给定问题的相关事实答案得以检索的方法。尽管上述方法取得了很好的效果,但基于深度学习的问答模型仍然需要改进。知识图谱中的主题和谓词是不同源信息且数据具有稀疏性,执行知识图谱问答任务时,很难维护知识图谱的固有结构,导致问答系统性能不佳。由于知识图谱组件具有各种表示形式,造成问答模型难以准确表示知识图谱组件的语义信息。此外,大多数问答模型不具备处理用户提出新的自然语言问句的能力,即依赖训练语料。
近年来知识表示学习技术使一些自然语言任务受益,知识表示学习技术的主要思想是将知识图谱中的主题和谓词嵌入到连续的向量空间中,在完成下游任务的同时保留知识图谱的原始语义信息。在向量空间中,学习到的单个主题/谓词/对象表示形式是整个知识图谱交互作用的结果,且相似的知识图谱组件具有相似的向量,此属性可以帮助下游算法处理用户提出的新问题,提升问答系统的性能。
发明内容
为了克服现有技术的不足,本发明提供了一种基于知识表示学习技术的知识图谱问答方法,使用该方法构建了一个主题检测模块和谓词预测模块。当用户提出一个自然语言问句时,通过主题检测模块与谓词预测模块识别到自然语言问句中的主题与谓词,将主题与谓词输入到知识图谱中,自动进行查找并返回知识图谱支持的正确答案。本发明方法可以准确表示知识图谱组件的语义信息,能够维护知识图谱的固有结构,同时具备处理用户提出新的自然语言问句的能力。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:构建主题检测模块;
给定包含M个自然语言问句的训练集Q,假设其中第m个自然语言问句的长度为L,即包含L个token;首先将第m个自然语言问句中的L个token通过预训练模型映射为一个问题词嵌入向量{qi},其中i=1,...,L;然后使用Bi-GRU学习得到第m个自然语言问句中第i个token的前向隐藏状态序列和后向隐藏状态序列
式中,hi表示第m个自然语言问句中第i个token的隐藏状态向量,qi是问题词嵌入向量{qi}第i个元素,表示第m个自然语言问句中第i个token的前向隐藏状态向量,表示第m个自然语言问句中第i个token的后向隐藏状态向量,concate表示拼接运算;
采用开源信息瓶颈nonlinearIB模型得到最终的主题表示,如下式所示:
其中,Subm表示输入第m个自然语言问句时主题检测模型的输出,NIB表示开源信息瓶颈模型,Wo表示输出权重,bo表示输出偏置;
训练集Q包含M个自然语言问句,Q中每一个自然语言问句通过步骤1的上述方法得到对应的主题检测模型输出Sub,总计M个Sub;
主题检测模块总体表示为:
Sub=NIB(Decentity(Q)) (3)
式中,Decentity表示主题检测模型;
步骤2:构建谓词预测模块;
其中,maxpolling表示最大值池化操作;
得到谓词预测模块的输出如下所示:
其中,Pm表示输入第m个自然语言问句时谓词预测模型的输出;
训练集Q包含M个自然语言问句,Q中每一个自然语言问句通过步骤2的上述方法得到对应的主题检测模型输出P,总计M个P;
谓词预测模块总体表示为:
P=Decpredicate(Q) (8)
其中,Decpredicate表示谓词预测模型;
步骤3:构建主题检测模块与谓词预测模块的联合训练模型;
设定联合训练模型损失函数,如下公式所示:
采用基于表示学习的平移距离预训练模型TransE,对联合训练模型进行训练,当联合训练模型训练迭代次数达到预设值时,停止训练,得到最终的主题检测模块和谓词预测模块;
步骤4:将一个待回答的自然语言问句输入到主题检测模块和谓词预测模块中,得到待回答自然语言问句的主题和谓词,再将主题和谓词输入到知识图谱中,知识图谱返回答案。
优选地,步骤1中所述预训练模型为GloVe模型。
优选地,步骤4中所述的预定义权重λ为0.4。
由于采用了本发明的一种基于知识表示学习技术的知识图谱问答方法,能够在基于知识图谱的问答系统中准确表示知识图谱组件的语义信息,维护知识图谱的固有结构,同时具备处理用户提出新的自然语言问句的能力。
附图说明
图1是本发明提出的知识图谱问答方法示意图。
图2是本发明提出的知识图谱问答方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1和图2所示,本发明提供了一种基于知识表示学习技术的知识图谱问答方法,包括以下步骤:
步骤1:构建主题检测模块;
给定包含M个自然语言问句的训练集Q,假设其中第m个自然语言问句的长度为L,即包含L个token;首先将第m个自然语言问句中的L个token通过预训练模型映射为一个问题词嵌入向量{qi},其中i=1,...,L;然后使用Bi-GRU学习得到第m个自然语言问句中第i个token的前向隐藏状态序列和后向隐藏状态序列
式中,hi表示第m个自然语言问句中第i个token的隐藏状态向量,qi是问题词嵌入向量{qi}第i个元素,表示第m个自然语言问句中第i个token的前向隐藏状态向量,表示第m个自然语言问句中第i个token的后向隐藏状态向量,concate表示拼接运算;
采用开源信息瓶颈nonlinearIB模型得到最终的主题表示,如下式所示:
其中,Subm表示输入第m个自然语言问句时主题检测模型的输出,NIB表示开源信息瓶颈模型,Wo表示输出权重,bo表示输出偏置;
训练集Q包含M个自然语言问句,Q中每一个自然语言问句通过步骤1的上述方法得到对应的主题检测模型输出Sub,总计M个Sub;
主题检测模块总体表示为:
Sub=NIB(Decentity(Q)) (3)
式中,Decentity表示主题检测模型;
步骤2:构建谓词预测模块;
其中,maxpolling表示最大值池化操作;
得到谓词预测模块的输出如下所示:
其中,Pm表示输入第m个自然语言问句时谓词预测模型的输出;
训练集Q包含M个自然语言问句,Q中每一个自然语言问句通过步骤2的上述方法得到对应的主题检测模型输出P,总计M个P;
谓词预测模块总体表示为:
P=Decpredicate(Q) (8)
其中,Decpredicate表示谓词预测模型;
步骤3:构建主题检测模块与谓词预测模块的联合训练模型;
设定联合训练模型损失函数,如下公式所示:
采用基于表示学习的平移距离预训练模型TransE,对联合训练模型进行训练,当联合训练模型训练迭代次数达到预设值时,停止训练,得到最终的主题检测模块和谓词预测模块;
步骤4:将一个待回答的自然语言问句输入到主题检测模块和谓词预测模块中,得到待回答自然语言问句的主题和谓词,再将主题和谓词输入到知识图谱中,知识图谱返回答案。
实施例:
本发明遵循全监督体系结构,即训练数据由N对自然语言问题和形式查询(主题与谓词)组成。
1、给定一个自然语言问句,主题检测模型的目标是在主题嵌入空间中找到一个点作为主题表示。对于知识图谱可以回答的所有问题,主题检测模型学习到的主题向量表示必须位于主题嵌入空间中,这有助于知识图谱的主题语义信息以及维护知识图谱固有结构。主题检测模型将问句作为输入并返回主题向量,该向量尽可能接近该问题的主题表示。
基于此,对于训练集Q中第m个长度为L的自然语言问句,主题检测模块首先基于一个预先训练的模型GloVe,将其L个token映射到一个词嵌入向量{qi}中,其中i=1,...,L。然后使用Bi-GRU来学习前向隐藏状态序列和后向隐藏状态序列以前向GRU为例,hi通过下式计算得到:
其中,ri表示重置门的激活向量,σ表示激活函数,Wr表示重置门输入权重,Ur表示重置门隐藏权重,表示第i-1个token的隐藏状态向量,br表示重置门的偏置向量;zi表示更新门的激活向量,Wz表示更新门输入权重,Uz表示更新门隐藏权重,bz表示更新门的偏置向量;tanh表示tanh激活函数,Wh表示当前隐藏输入权重,Uh表示当前隐藏权重,bh表示当前隐藏偏置。
希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫做信息瓶颈的理论。信息瓶颈理论被证实在深度神经网络的学习过程中具备把信息从瓶颈中挤压出去,去除噪音输入,只保留最相关特征的能力。由于本发明提出的主题检测模型基于从自然语言问句提取主题的思想,因此使用信息瓶颈技术可以最大程度的在主题嵌入空间中恢复知识图谱中的主题向量表示。主题检测模型采用直接调用现有信息瓶颈技术模型NIB的方法,主题表示如下所示:
Subm表示输入第m个自然语言问句时主题检测模型的输出,即从自然语言问句中识别出的主题;
主题检测模块总体表示为:
Sub=NIB(Decentity(Q))
在训练过程中,Glove预训练模型的嵌入维度是300,主题检测模型在第35轮完成训练,学习率为0.0003;
2、给定一个自然语言问题,谓词预测模型的目标是在谓词嵌入空间中找到一个点作为其谓词表示。对于知识图谱可以回答的所有问题,谓词预测模型学习到的谓词向量表示必须位于谓词嵌入空间中,这有助于问答模型恢复谓词语义信息以及维护知识图谱固有结构。谓词预测模型将问题作为输入并返回谓词向量,该向量尽可能接近该问题的谓词表示。
由于最终用户的问题域通常是不受限制的,因此新问题的谓词可能与训练集Q中的所有谓词都不同。传统谓词预测模型无法解决这种情况。由于知识表示学习技术获得的全局谓词信息可用,基于此可以提高总体问题回答的准确性。为了实现此目标,本发明采用残差层级Bi-GRU的神经网络架构,它主要由双向的GRU网络组成。在谓词预测模型中,为了能正确预测出问题中谓词不同抽象级的谓词表示形式,本发明通过对输入的自然语言问题应用深层的Bi-GRU来解决此问题。
对于步骤1中长度为L的自然语言问句,Bi-GRU的第一层用于处理自然语言问题Q中的问题词q={q1,...,qN}的词嵌入,并获得隐藏表示第二层Bi-GRU的输入是以获取第二组隐式表示形式由于第二层Bi-GRU输入为第一层的隐藏表示,因此与第一层相比,它可以学习更多谓词的常规信息和抽象信息。但深度Bi-GRU不保证自然语言问题的两个级别的隐藏表示具有可比性,因此本发明基于残差思想在两层Bi-GRU之间添加连接,对与分别应用最大值池化分别获得与
具体过程如下:
谓词预测模块首先基于一个预先训练的模型GloVe将问句中的L个token映射到一个词嵌入向量{qi}中,其中i=1,...,L。然后使用两层Bi-GRU,Bi-GRU的第一层用于处理自然语言问题Q中的问题词qi={q1,...,qL}的词嵌入,以前向GRU为例,的计算方法同主题检测模块中计算的方法相同。
得到谓词预测模块的输出如下所示:
其中,Pm表示输入第m个自然语言问句时谓词预测模型的输出,即从自然语言问句中识别出的谓词;
谓词预测模块总体表示为:
P=Decpredicate(Q)
在训练过程中,谓词预测模型在第35轮时完成训练,学习率为0.0005;
3、对于每个自然语言问题,首先通过主题检测模块与谓词预测模块识别了主题表示Sub和谓词表示P,然后在知识图谱中找到与这些学习的表示形式最匹配的对象Obj。其中主题Sub,谓词P,与对象Obj之间的关系为Sub+P=Obj。
设定联合训练模型损失函数,如下公式所示:
本发明使用l2范数来度量距离。
在训练过程中,TransE预训练模型的嵌入维度是250,预定义权重值λ为0.4。训练完成,得到最终的主题检测模块和谓词预测模块;
4、将一个待回答的自然语言问句输入到主题检测模块和谓词预测模块中,得到待回答自然语言问句的主题和谓词,再将主题和谓词输入到知识图谱中,主题和谓词组合成对象Obj,在知识图谱中进行查询,返回答案。
Claims (3)
1.一种基于知识表示学习技术的知识图谱问答方法,其特征在于,包括以下步骤:
步骤1:构建主题检测模块;
给定包含M个自然语言问句的训练集Q,假设其中第m个自然语言问句的长度为L,即包含L个token;首先将第m个自然语言问句中的L个token通过预训练模型映射为一个问题词嵌入向量{qi},其中i=1,...,L;然后使用Bi-GRU学习得到第m个自然语言问句中第i个token的前向隐藏状态序列和后向隐藏状态序列
式中,hi表示第m个自然语言问句中第i个token的隐藏状态向量,qi是问题词嵌入向量{qi}第i个元素,表示第m个自然语言问句中第i个token的前向隐藏状态向量,表示第m个自然语言问句中第i个token的后向隐藏状态向量,concate表示拼接运算;
采用开源信息瓶颈nonlinearIB模型得到最终的主题表示,如下式所示:
其中,Subm表示输入第m个自然语言问句时主题检测模型的输出,NIB表示开源信息瓶颈模型,Wo表示输出权重,bo表示输出偏置;
训练集Q包含M个自然语言问句,Q中每一个自然语言问句通过步骤1的上述方法得到对应的主题检测模型输出Sub,总计M个Sub;
主题检测模块总体表示为:
Sub=NIB(Decentity(Q)) (3)
式中,Decentity表示主题检测模型;
步骤2:构建谓词预测模块;
其中,maxpolling表示最大值池化操作;
得到谓词预测模块的输出如下所示:
其中,Pm表示输入第m个自然语言问句时谓词预测模型的输出;
训练集Q包含M个自然语言问句,Q中每一个自然语言问句通过步骤2的上述方法得到对应的主题检测模型输出P,总计M个P;
谓词预测模块总体表示为:
P=Decpredicate(Q) (8)
其中,Decpredicate表示谓词预测模型;
步骤3:构建主题检测模块与谓词预测模块的联合训练模型;
设定联合训练模型损失函数,如下公式所示:
采用基于表示学习的平移距离预训练模型TransE,对联合训练模型进行训练,当联合训练模型训练迭代次数达到预设值时,停止训练,得到最终的主题检测模块和谓词预测模块;
步骤4:将一个待回答的自然语言问句输入到主题检测模块和谓词预测模块中,得到待回答自然语言问句的主题和谓词,再将主题和谓词输入到知识图谱中,知识图谱返回答案。
2.根据权利要求1所述的一种基于知识表示学习技术的知识图谱问答方法,其特征在于,步骤1中所述预训练模型为GloVe模型。
3.根据权利要求1所述的一种基于知识表示学习技术的知识图谱问答方法,其特征在于,步骤4中所述的预定义权重λ为0.4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010776098.5A CN112100342A (zh) | 2020-08-05 | 2020-08-05 | 一种基于知识表示学习技术的知识图谱问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010776098.5A CN112100342A (zh) | 2020-08-05 | 2020-08-05 | 一种基于知识表示学习技术的知识图谱问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100342A true CN112100342A (zh) | 2020-12-18 |
Family
ID=73749556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010776098.5A Pending CN112100342A (zh) | 2020-08-05 | 2020-08-05 | 一种基于知识表示学习技术的知识图谱问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100342A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765312A (zh) * | 2020-12-31 | 2021-05-07 | 湖南大学 | 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
US20200242444A1 (en) * | 2019-01-30 | 2020-07-30 | Baidu Usa Llc | Knowledge-graph-embedding-based question answering |
-
2020
- 2020-08-05 CN CN202010776098.5A patent/CN112100342A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763284A (zh) * | 2018-04-13 | 2018-11-06 | 华南理工大学 | 一种基于深度学习和主题模型的问答系统实现方法 |
US20200242444A1 (en) * | 2019-01-30 | 2020-07-30 | Baidu Usa Llc | Knowledge-graph-embedding-based question answering |
Non-Patent Citations (1)
Title |
---|
XIAO HUANG等: ""Knowledge Graph Embedding Based Question Answering"", 《WSDM’19:PROCEEDINGS OF THE TWELFTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765312A (zh) * | 2020-12-31 | 2021-05-07 | 湖南大学 | 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统 |
CN112765312B (zh) * | 2020-12-31 | 2022-05-10 | 湖南大学 | 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992648B (zh) | 基于词迁徙学习的深度文本匹配方法及装置 | |
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN109992783B (zh) | 中文词向量建模方法 | |
KR101950985B1 (ko) | 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법 | |
US20180329884A1 (en) | Neural contextual conversation learning | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
CN110390397B (zh) | 一种文本蕴含识别方法及装置 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN110019685B (zh) | 基于排序学习的深度文本匹配方法及装置 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
US20180144234A1 (en) | Sentence Embedding for Sequence-To-Sequence Matching in a Question-Answer System | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN110457718B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN107992528B (zh) | 利用可解释推理网络的多关系问答系统 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN115269847A (zh) | 基于知识增强句法异构图的方面级情感分类方法 | |
CN108549703B (zh) | 一种基于循环神经网络的蒙古语语言模型的训练方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN115510226A (zh) | 一种基于图神经网络的情感分类方法 | |
CN114492451B (zh) | 文本匹配方法、装置、电子设备及计算机可读存储介质 | |
CN111882042A (zh) | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201218 |