CN115525742A - 一种基于表示学习的知识图谱问答方法 - Google Patents
一种基于表示学习的知识图谱问答方法 Download PDFInfo
- Publication number
- CN115525742A CN115525742A CN202110706443.2A CN202110706443A CN115525742A CN 115525742 A CN115525742 A CN 115525742A CN 202110706443 A CN202110706443 A CN 202110706443A CN 115525742 A CN115525742 A CN 115525742A
- Authority
- CN
- China
- Prior art keywords
- question
- vector
- relation
- knowledge
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于表示学习的知识图谱问答方法研究。模型可大致分为问题嵌入、关系筛选、向量融合、答案预测四个模块,几个模块之间相互联系。在已有知识表示学习模型的基础上,本发明提出了基于向量融合表示的答案预测方法,以问题嵌入模块为基础、关系筛选和向量融合模块为核心,通过答案预测模块输出结果,实现了端到端的知识图谱问答流程。近年来,知识图谱已经作为一种基础数据服务被广泛地应用在更多的垂直领域中支撑行业上层智能应用的建设。本文基于表示学习的特性和优势,结合医学背景的特点和应用落地的需求,设计并实现了基于医学知识图谱的问答系统,并将在智能问诊,辅助临床诊断方面有广阔的应用前景。
Description
技术领域
本发明设计了一种基于表示学习的知识图谱问答方法,涉及深度学习技术、表示学习技术、自然语言处理技术领域。
背景技术
2012年5月,Google提出了知识图谱(Knowledge Graph)的概念,标志着知识图谱的诞生。随着Freebase、DBpedia、YAGO等大规模知识图谱的发展,衍生出了许多基于知识图谱的下游任务,如语义搜索、智能推荐、自动问答等,自动问答主要依赖的先验知识为知识图谱中大量的包含实体及关系的三元组,这些三元组是组成知识图谱的核心信息,通过错综复杂的连接关系构成知识图谱。知识图谱问答(Knowledge Graph QuestionAnswering,KGQA)的核心目标就是分析问题的语义,从这些三元组中挖掘出与问题最匹配的答案信息。
知识图谱问答有多种实现方式。近年来,随着深度学习的演进和普及,越来越多的知识图谱问答将答案预测流程映射到向量空间中求解,其中,基于表示学习的方法是实现知识图谱问答的重要手段之一。在许多任务中,解决问题的难易程度取决于信息的表示方式,这也是表示学习的理论依据。一个好的表示往往可以减弱后续任务的难度,而后续任务实现的好坏可以反过来对选择哪种表示做出指示。在知识图谱中,表示学习通过深度神经网络和某些特定的映射方法,将知识图谱的三元组信息嵌入到统一的低维向量空间,并在向量空间中对问题进行求解。相比于需要引入大量人工规则和辅助标注信息的传统方法,基于表示学习的方法能自主地从图谱数据中学习到相应的隐含信息,并能够较为理想地预测更加复杂的问题。
近年来,AI落地的呼声与日俱增,知识图谱已经作为一种基础数据服务被广泛地应用在更多的垂直领域中支撑行业上层智能应用的建设。以医学领域为例,随着大数据技术的不断发展,海量的医学信息出现在了多种形式的信息载体上,在这样的数字化背景下,如何有效地提取、存储和应用这些医学信息,提高它们的利用效率变得至关重要。
发明内容
本文基于表示学习的特性和优势,在开放域知识图谱问答中取得了一些进展,并借鉴其中具有迁移能力的方法,结合医学背景的特点和应用落地的需求,构建了医学知识图谱问答所需的子模块和数据集,设计并实现了基于医学知识图谱的问答系统。该系统在确保问答准确率的同时,具有较高的答案检索效率,为辅助医生信息查询和临床诊断提供了帮助,是实现智能问诊的重要基础。
本发明基于表示学习的方法和查询图的思路,提出了基于向量融合表示的答案预测方法,结合知识表示学习方法,构建了端到端的知识图谱问答模型,在单跳和多跳问答数据集上都能进行训练并回答相应跳数的问题。
MetaQA数据集是目前公开的一个大规模的多跳知识图谱问答数据集,在通用语料的电影领域中有超过40万个问题,分为单跳、2跳和3跳的问答对,同时提供了一个包含约13.5万条三元组、4.3万个实体的三元组集合构成的知识图谱。我们的模型在多跳问答基准数据集MetaQA上取得了较好的测试结果,并通过对向量融合策略的消融实验分析,验证了该方法的合理性。
本发明通过以下技术方案来实现上述目的:
1、步骤(一)中将输入的自然语言问句q映射为表示学习空间的问题向量vq,供后续模块使用;
2、步骤(二)、(三)中从输入的问题筛选出与之可能相关的所有关系,得到关系集合R,作为三元组编码器的输入之一,为向量融合模块提供基础:
(1)先将问题q中的主语实体h送入查询图生成器,查询图生成器将对知识图谱中的所有关系进行初步筛选,生成关系候选集R0;
(2)将q通过RoBERTa后,由公式(1)得到q0,将其与R0中的r计算点积,然后用Sigmoid函数,如下公式(2)得出它们的相似度分数s,将相似度分数s大于0.5的关系构成一个
集合,记为R1;
q0=RoBERTa(q) (1)
(3)对答案候选集中的每个候选答案实体a,筛选主语实体h到a之间的最短关系路径,将所有最短路径中包含的关系构成另一个集合,记为R2,对R1和R2取交集运算,见公式(3),得到所需的关系集合R;
R=R1∩R2 (3)
3、步骤(四)中本发明提出了向量融合的方法vq和关系集合R进行有机融合,先对R中的每个关系进行编码,通过Pos-Att-complex编码器得到关系向量的集合VR,对VR中的所有关系向量计算了均值,然后将其与vq相加,完成关系和问题向量的融合表示,输出的融合表示向量为vr';
4、步骤(五)中将答案候选集A中的所有实体以及主语实体h输入Pos-Att-complex编码器,得到候选答案向量的集合VA和头实体向量vh。将VA中的每个向量与vh、vr'组合构成三元组编码,送入Pos-Att-complex解码器,对三元组进行打分,如公式(5)所示。
附图说明
图1是知识图谱问答模型结构。
图2是问题嵌入模块。
图3是关系筛选模块。
具体实施方式
下面结合附图对本发明作进一步说明:
图1为知识图谱问答模型结构。模型可大致分为问题嵌入、关系筛选、向量融合、答案预测四个模块,几个模块间有机联系,结合Pos-Att-complex编码器和解码器,共同完成知识图谱问答的任务。
问题嵌入模块的目标是将输入的自然语言问句q映射为表示学习空间的问题向量vq,供后续模块使用。如图2所示,首先将问题q通过RoBERTa做词嵌,得到维度为768的词向量,然后输入到N层的线性层中,进一步学习问题的表示。线性层中的维度为512,每层线性层之间通过ReLU激活函数连接,赋予网络非线性变换的能力。在线性层的最后,通过一层工厂层,将特征向量的维度转换为三元组嵌入的维度,得到问题嵌入向量vq。
关系筛选模块为从输入的问题筛选出与之可能相关的所有关系,得到关系集合R,作为三元组编码器的输入之一,为向量融合模块提供基础。具体流程如图3所示,首先将问题q中的主语实体h送入查询图生成器,查询图生成器将对知识图谱中的所有关系进行初步筛选,生成关系候选集R0。生成步骤为:以h为中心节点,不限制跳数地遍历所有与h有关联的关系链,直到没有节点可以扩展出新的关系链,得到这些关系的集合R0。得到R0后,还要对其做进一步筛选,使输出到后续模块的信息尽可能地精确。一方面,对R0中的每个关系r,计算问题q和r的语义相似度,将相似度分数s大于0.5的关系构成一个集合,记为R1。另一方面,对答案候选集中的每个候选答案实体a,筛选主语实体h到a之间的最短关系路径,将所有最短路径中包含的关系构成另一个集合,记为R2。至此,R1包含了与问题q可能有关的所有关系,R2包含了主语实体h到所有可能答案的路径中的关系,而本轮问答最有可能涉及到的关系应该处于两者的交集中,因此对R1和R2取交集运算,得到所需的关系集合R。
在向量融合模块中,首先对R中的每个关系进行编码,通过Pos-Att-complex编码器得到关系向量的集合VR。为了表示关系集合中的向量,并与问题向量较好地融合,对VR中的所有关系向量计算均值,然后将其与vq相加,完成关系和问题向量的融合表示。
答案预测模块通过计算答案预测的分数输出得分最高的答案。计算方式如公式(5)所示。在训练过程中,模型将对所有候选答案输出一个答案预测分数,得到一个分数向量,而标签中的分数向量只有0和1,分别代表错误和正确答案。在计算损失时,对这两个向量计算二元交叉熵(BinaryCross-entropy,BCE)损失,并在一个batch内求平均。
为体现问答模型应对缺失链接的能力,用类似dropout的方式将知识图谱的三元组以50%的概率进行了随机删除,得到了缺失图谱下的1~3跳数据集,与原数据集扩展得到6个数据集。模型将在这6个数据集上开展实验,分别用n-full和n-half表示完整图谱和缺失图谱下的n跳数据集。
在6个数据集上完成训练后,将保存6个模型,依次在6个测试集上计算问答的准确率,将测试结果与近几年公开的模型对比,其测试结果如表一所示:
表一
结果表明,本文提出的基于向量融合表示的答案预测方法在完整知识图谱上的问答测试指标接近公开的最好结果,在缺失图谱的问答数据集上的测试结果超过了近几年的模型。
为了验证向量融合策略的有效性,进行了消融实验,在其他条件不变的情况下取消向量融合,直接将问题嵌入向量vq当做vr'输入Pos-Att-complex解码器,在相同实验环境下训练模型,其测试结果如表二所示:
表二
可以看出,当取消向量融合时,模型在1-half和2-half数据集上的结果与原始模型相同,在其他数据集上的准确率均出现了不同程度的下降,验证了向量融合策略的有效性。其中,在完整图谱的问答数据集上降幅更大,说明向量融合策略在n-full数据集上的重要性更强,在缺失链接场景下的n-half数据集上的影响略微小一些。
Claims (4)
1.一种基于表示学习的知识图谱问答方法研究,其特征在于包括以下步骤:
步骤一:将问题q通过RoBERTa做词嵌得到的词向量,输入到线性层,每层线性层之间通过ReLU激活函数连接,最后通过一层工厂层,将特征向量的维度转换为三元组嵌入的维度,得到问题嵌入向量vq;
步骤二:将问题q中的主语实体h送入查询图生成器,查询图生成器将对知识图谱中的所有关系进行初步筛选,生成关系候选集R0,对R0中的每个关系r,计算问题q和r的语义相似度,将相似度分数s大于0.5的关系构成一个集合,记为R1;
步骤三:对答案候选集中的每个候选答案实体a,筛选主语实体h到a之间的最短关系路径,将所有最短路径中包含的关系构成另一个集合,记为R2,再对R1和R2取交集运算,得到所需的关系集合R;
步骤四:对R中的每个关系进行编码,通过Pos-Att-complex编码器得到关系向量的集合VR,对VR中的所有关系向量计算了均值,然后将其与vq相加,完成关系和问题向量的融合表示,模块输出的融合表示向量为vr';
步骤五:将答案候选集A中的所有实体以及主语实体h输入Pos-Att-complex编码器,将得到候选答案向量的集合VA和头实体向量vh,将VA中的每个向量与vh、vr'组合构成三元组编码,送入Pos-Att-complex解码器,对三元组进行打分,取分数最高的那条三元组对应的尾实体,即为预测的答案;
步骤六:预测分数向量为p,标签分数向量为y,索引i处的损失loss(pi,yi)计算二元交叉熵,同时为减小过拟合带来的影响,引入正则化的策略,将loss与标签分数向量的L3范数加权。
2.根据权利要求1所述的基于表示学习的知识图谱问答方法,其特征在于步骤二中,提出了在知识图谱中筛选与问题q相关关系的方法,以问题q中的主语实体h为中心节点,不限制跳数地遍历所有与h有关联的关系链,直到没有节点可以扩展出新的关系链,得到这些关系的集合R0,对R0中的每个关系r与q通过RoBERTa后得到q0计算点积,然后用Sigmoid函数得出它们的相似度分数s,将相似度分数s大于0.5的关系构成一个集合R1。
3.根据权利要求1所述的基于表示学习的知识图谱问答方法,其特征在于步骤三中,提出了进一步筛选关系的方法,筛选出包含了主语实体h到所有可能答案的路径中的关系R2,对R1和R2取交集运算,得到所需的关系集合R。
4.根据权利要求1所述的一种基于注意力位置联合编码的三元组分类方法,其特征在于步骤四中,通过在向量融合模块中对R中的每个关系进行编码,输入Pos-Att-complex编码器得到关系向量的集合VR并计算向量的均值,然后将其与问题向量vq相加,完成关系和问题向量的融合表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706443.2A CN115525742A (zh) | 2021-06-24 | 2021-06-24 | 一种基于表示学习的知识图谱问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706443.2A CN115525742A (zh) | 2021-06-24 | 2021-06-24 | 一种基于表示学习的知识图谱问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115525742A true CN115525742A (zh) | 2022-12-27 |
Family
ID=84693826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110706443.2A Pending CN115525742A (zh) | 2021-06-24 | 2021-06-24 | 一种基于表示学习的知识图谱问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525742A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573809A (zh) * | 2024-01-12 | 2024-02-20 | 中电科大数据研究院有限公司 | 一种基于事件图谱的舆情推演方法以及相关装置 |
-
2021
- 2021-06-24 CN CN202110706443.2A patent/CN115525742A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573809A (zh) * | 2024-01-12 | 2024-02-20 | 中电科大数据研究院有限公司 | 一种基于事件图谱的舆情推演方法以及相关装置 |
CN117573809B (zh) * | 2024-01-12 | 2024-05-10 | 中电科大数据研究院有限公司 | 一种基于事件图谱的舆情推演方法以及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009285B (zh) | 基于自然语言处理的林业生态环境人机交互方法 | |
CN108133038B (zh) | 一种基于动态记忆网络的实体级别情感分类系统及方法 | |
CN111581395B (zh) | 一种基于深度学习的模型融合三元组表示学习系统及方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN111753054B (zh) | 一种基于图神经网络的机器阅读推断方法 | |
CN111651557A (zh) | 一种自动化文本生成方法、装置及计算机可读存储介质 | |
CN113934824B (zh) | 一种基于多轮智能问答的相似病历匹配系统及方法 | |
CN106897254A (zh) | 一种网络表示学习方法 | |
CN112766507A (zh) | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN113764037A (zh) | 模型训练、抗体改造和结合位点预测的方法与装置 | |
CN114077659A (zh) | 一种基于邻居交互网络的知识图谱问答方法及系统 | |
CN114077673A (zh) | 一种基于btbc模型的知识图谱构建方法 | |
CN112949929A (zh) | 一种基于协同嵌入增强题目表示的知识追踪方法及系统 | |
CN115827844A (zh) | 一种基于Sparql语句生成的知识图谱问答方法和系统 | |
CN114648015B (zh) | 一种基于依存关系注意力模型的方面级情感词识别方法 | |
CN115687638A (zh) | 基于三元组森林的实体关系联合抽取方法及系统 | |
CN116401353A (zh) | 一种结合内部与外部知识图谱的安全多跳问答方法及系统 | |
CN115525742A (zh) | 一种基于表示学习的知识图谱问答方法 | |
CN117954081A (zh) | 一种基于图Transformer的智能医疗问诊方法及系统 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN116823027A (zh) | 一种基于关联技能知识的智能学生能力评估方法 | |
CN114648017A (zh) | 一种基于异质图注意力网络的文档级关系抽取方法 | |
CN113590745B (zh) | 一种可解释的文本推断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |