CN114936293A - 一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质 - Google Patents

一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114936293A
CN114936293A CN202210646432.4A CN202210646432A CN114936293A CN 114936293 A CN114936293 A CN 114936293A CN 202210646432 A CN202210646432 A CN 202210646432A CN 114936293 A CN114936293 A CN 114936293A
Authority
CN
China
Prior art keywords
question
answer
embedded
representation
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210646432.4A
Other languages
English (en)
Other versions
CN114936293B (zh
Inventor
孙广路
周训凯
梁丽丽
朱素霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210646432.4A priority Critical patent/CN114936293B/zh
Publication of CN114936293A publication Critical patent/CN114936293A/zh
Application granted granted Critical
Publication of CN114936293B publication Critical patent/CN114936293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质,属于机器学习技术领域。首先,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集;其次,得到知识图谱中所有实体和关系的嵌入表示;其次,将自然语言问题嵌入到固定的维度;其次,得到增强的问题嵌入表示;其次,将增强的问题嵌入表示、主题实体嵌入表示通过答案评分函数得到所有实体的答案得分和答案候选实体的嵌入表示;最后,将候选实体嵌入表示信息通过关系评分函数,将答案评分函数和关系评分函数的线性组合作为最终的评分函数,选择得分最高的实体作为预测结果。解决EmbedKGQA模型效率低、问答不准确的问题。

Description

一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设 备及存储介质
技术领域
本申请涉及知识图谱问答,尤其涉及一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质,属于机器学习技术领域。
背景技术
知识图谱是知识工程技术的一部分,它的本质是一种结构化的知识表现形式,旨在利用图结构建模、识别和推断事物之间的关联关系和沉淀领域知识,其基本组成元素是三元组,由(h,r,t)表示一个三元组,h、r、t分别表示头实体、关系和尾实体。
在词向量的启发下,知识图谱嵌入(KGE)将知识图谱的实体和关系映射到连续的向量空间,并且包含一些语义层面的信息,可以在下游任务上更加方便的操作知识图谱,例如问答任务、关系抽取等。
根据知识图谱问答推理方法的不同,我们主要分为三大类方法:神经推理、符号推理和神经-符号推理。由于KGQA需要处理自然语言问题,根据问题的类型,我们可以将KGQA进一步分为简单关系问题、多跳关系问题和复杂逻辑问题。简单关系问题是指只涉及单一主题实体和知识图谱单一关系的问题,然后知识图谱中与主题实体和关系相对应的尾部实体被提取出来作为答案。多跳关系问题是基于路径的,这意味着答案通过主题实体开始沿着由多个中间关系和实体组成的路径行走来找到。复杂逻辑问题包含几个由合取(∩)、析取(∪)、或逻辑否定
Figure BDA0003684276870000011
聚合的主题实体,这意味着答案可以通过一些操作获得,比如多个路径查询结果的交集。
现有的EmbedKGQA模型属于神经推理方法,被提出来处理多跳关系问题。它首先使用ComplEx(KGE方法)将实体和关系嵌入到复杂空间,然后使用预训练语言模型将问题嵌入到一个复杂空间,最后对每一个主题实体、问题和答案嵌入的三元组使用ComplEx作为评分函数来预测答案,选择得分最高的实体作为答案。然而,该方法将KG和问题分别嵌入到一个复杂空间,并没有考虑学习到KG嵌入表示和问题嵌入表示之间潜在的信息,并且关系匹配模块设计比较简单,仅仅考虑了问题与关系之间的联系,而忽略了头实体和候选实体的影响,并不能有效筛选出正确答案。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在EmbedKGQA模型效率低、问答不准确的技术问题,本发明提供一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质。
方案一、一种基于改进型EmbedKGQA模型的知识图谱问答方法,包括以下步骤:
S1.从知识图谱问答数据集中获得对应的知识图谱,对知识图谱问答数据集进行预处理,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集;
S2.对步骤S1所述知识图谱进行嵌入训练,得到图谱中所有实体的嵌入表示E和所有关系的嵌入表示R,并对知识图谱中所有实体和其对应的嵌入表示E,所有关系和其对应的嵌入表示R构建字典;
S3.对步骤S1所述问题集中的自然语言问题q进行处理,得到一个固定维度的嵌入向量;取最后隐藏层的平均池化结果作为问题的嵌入表示Q=eq∈Cd
S4.获取关系路径的嵌入表示eL、问题的主题实体嵌入表示eh和答案相关的关系嵌入表示er
S5.将S4所述嵌入表示进行拼接,得到答案上下文信息的嵌入表示C;
S6.将S3所述嵌入表示Q与S5所述答案上下文信息的嵌入表示C进行协同注意力模型关注,得到问题和答案上下文的注意力分数,与原始的问题和答案上下文嵌入表示结合,获得增强的问题嵌入表示
Figure BDA0003684276870000021
S7.将S4所述主题实体嵌入表示eh、增强问题嵌入表示
Figure BDA0003684276870000022
和所有可能候选实体列表的嵌入表示输入到答案评分函数中,得到所有候选实体的答案得分和答案候选实体的嵌入表示;
S8.将S3所述嵌入表示Q与S7所述候选实体列表的嵌入表示作为输入,再次执行步骤S6,得到增强后的问题嵌入表示,将增强后的问题嵌入表示和答案关系列表的嵌入表示输入到关系评分函数中,得到答案候选实体的关系得分,取评分大于0.5的关系作为候选关系集Ra,与知识图谱中每一个候选实体到主题实体之间的关系集Ra'取交集,则最终的评分函数为答案评分函数和关系集交集的线性组合,选择得分最高的实体作为预测结果。
优选的,知识图谱进行嵌入训练的方法是:基于向量旋转的图谱嵌入方法RotatE来对知识图谱进行嵌入训练,RotatE模型将图谱实体和关系映射到复数向量空间,并将每个关系定义为从头实体到尾实体间的旋转,对于一个三元关系(h,r,t),h,t∈E,r∈R,期望
Figure BDA0003684276870000034
h,r,t∈Ck,RotatE的距离函数定义为:
Figure BDA0003684276870000035
其中
Figure BDA0003684276870000031
表示元素积,||·||表示L1范式,r表示关系嵌入表示,h表示头实体嵌入表示,t表示尾实体嵌入表示,E表示所有实体嵌入表示的集合,R表示所有关系嵌入表示的集合,Ck表示复数向量空间。
优选的,使用预训练语言模型对S1所述问题集中的自然语言问题q进行处理,具体方法是:将自然语言问题q嵌入到一个固定的维度d=768,得到一个固定维度的嵌入向量;取最后隐藏层的平均池化结果作为问题的嵌入表示Q=eq∈Cd;eq=RoBERTa(q)。
优选的,获取关系路径的嵌入表示eL、问题的主题实体嵌入表示eh和答案相关的关系嵌入表示er的方法是:
关系路径的嵌入表示eL:将S1所述答案相关的关系集中关系对应S2中字典的序列输入LSTM中获得;
问题的主题实体嵌入表示eh和答案实体相关的关系嵌入表示er:根据问题的主题实体和答案相关的关系搜索S2所述字典获得。
优选的,获得增强后的问题嵌入表示
Figure BDA0003684276870000032
和答案上下文信息嵌入表示
Figure BDA0003684276870000033
的方法是:包括以下步骤,
将S3所述问题嵌入表示Q和S5所述答案上下文嵌入表示C计算相似度矩阵V:
V=tanh(QTWbC)
分别计算问题和答案上下文嵌入表示的注意力权重Hq、Hc
Hc=tanh(WcC+(WqQ)V),Hq=tanh(WqQ+(WcC)VT)
Figure BDA0003684276870000041
其中,问题嵌入表示Q∈Rd×T,答案上下文嵌入表示C∈Rd×N,d表示batch的大小,T,N表示问题的长度,答案上下文的长度,Wb代表的是权重,相似度矩阵V∈RT×N;Wc、Wq∈Rk×d,whc、whq∈Rk是权重参数,ac∈RN,aq∈RT分别代表的是每个答案的上下文嵌入表示和问题嵌入表示的注意力分数,基于上述注意力权重,计算答案上下文和问题的注意力向量为问题表示和上下文表示的加权和:
Figure BDA0003684276870000042
其中,
Figure BDA0003684276870000043
表示第n答案上下文的注意力分数,
Figure BDA0003684276870000044
表示问题中第t个词语的注意力分数,cn表示第n个答案上下文的嵌入表示,qt表示问题中第t个词语的嵌入表示。
优选的,得到每个候选实体的答案得分和答案候选实体的嵌入表示的方法是:
对于每一个问题,用所有可能的候选答案实体a′∈E,对
Figure BDA0003684276870000045
进行评分,选择得分top200的实体作为候选实体:
Figure BDA0003684276870000046
其中,eh表示的是主题实体的嵌入表示,
Figure BDA0003684276870000047
表示的是增强的问题嵌入表示,ea'表示的是所有可能候选实体列表的嵌入表示。
方案二:一种基于改进型EmbedKGQA模型的知识图谱问答系统,用于实现方案一所述一种基于改进型EmbedKGQA模型的知识图谱问答方法的系统,包括图谱嵌入学习模块、问题嵌入模块、注意力模块、答案过滤模块和关系匹配模块;
所述图谱嵌入学习模块用于知识图谱嵌入学习,得到图谱实体和关系的嵌入表示;
所述问题嵌入模块用于处理自然语言问题,得等问题的嵌入表示;
所述注意力模块用于对问题的嵌入表示、答案上下文信息的嵌入表示进行增强;
所述答案过滤模块用于得到每个候选实体的答案得分和答案候选实体的嵌入表示;
所述关系匹配模块用于得到答案候选实体的关系得分,并进一步预测出答案。
方案三:电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法的步骤。
方案四:计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法。
本发明的有益效果如下:本发明考虑使用了注意力机制,学习了问题嵌入和答案上下文信息之间的潜在联系,关系评分函数也分别考虑了问题嵌入和主题实体嵌入、候选实体嵌入之间的注意力分数,提取出更精确的关系集,从而通过最终的评价函数有效筛选出正确答案,具有问答效率高、回答精准的特点,解决了EmbedKGQA模型效率低、问答不准确的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为方法流程图;
图2为知识图谱结构示意图;
图3为改进型EmbedKGQA模型示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1-3说明本实施方式,一种基于改进型EmbedKGQA模型的知识图谱问答方法,包括以下步骤:
S1.从知识图谱问答数据集中获得对应的知识图谱,对知识图谱问答数据集进行预处理,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集,具体方法是,包括以下步骤:
S11.首先从知识图谱问答数据集中获得对应的知识图谱,以三元组(h,r,t)的形式保存在数据文件中;
S12.然后对知识图谱问答数据集进行预处理,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集;
不失一般性的,图2表示的是从知识图谱问答数据集中获得的的知识图谱部分子图的结构,其中物品1、2、3、4可为电影的名称,用户1、2、3、4可为导演的名字,人物1、2、3可为演员的名字,属性1可为科幻,属性2可为2020年;相应的,其中关系r1为导演,r2为主演,r3为题材,r4为首映时间。
S2.对步骤S1所述知识图谱进行嵌入训练,得到图谱中所有实体的嵌入表示E和所有关系的嵌入表示R,并对知识图谱中所有实体和其对应的嵌入表示E,所有关系和其对应的嵌入表示R构建字典;
所述构建字典,是指将知识图谱中所有实体和其对应的嵌入表示E,所有关系和其对应的嵌入表示R构建成一一对应的关系,即,根据已知的实体或关系将会在字典中找到对应实体的嵌入表示或对应关系的嵌入表示。
所述知识图谱进行嵌入训练的方法是:使用基于复数表示方法ComplEx来对知识图谱进行嵌入训练,学习图谱的实体和关系的向量表示,对KG中所有h,t∈E和所有r∈R进行ComplEx训练,得到三元组在关系r所确定的向量空间的嵌入向量表示分别为eh、wr、et,则有:
Figure BDA0003684276870000061
其中,Re(x)表示取x的实部,Im(x)表示取x的虚部;若u=Re(u)+iIm(u),则
Figure BDA0003684276870000062
其中i2=-1;φ(·)表示评分函数,Θ表示模型相应的参数,三元组(h,r,t)的score计算过程
Figure BDA0003684276870000063
表示为关系r的表示向量、主题实体h的表示向量、尾实体t的表示向量的共轭向量的乘积,并保留最后结果的实部。最终(h,r,t)为真的概率通过下式得到:
P(Yrht=1)=σ(φ(r,h,t;Θ))
其中,P(Yrht=1)表示(h,r,t)为真的概率,σ(·)表示激活函数。
基于向量旋转的图谱嵌入方法RotatE来对知识图谱进行嵌入训练,RotatE模型将图谱实体和关系映射到复数向量空间,并将每个关系定义为从头实体到尾实体间的旋转,对于一个三元关系(h,r,t),h,t∈E,r∈R,期望
Figure BDA0003684276870000071
h,r,t∈Ck,RotatE的距离函数定义为:
Figure BDA0003684276870000072
其中
Figure BDA0003684276870000073
表示元素积,||·||表示L1范式,r表示,h表示,t表示,E表示,R表示,Ck表示。
S3.使用长短时记忆网络或预训练语言模型对步骤S1所述问题集中的自然语言问题q进行处理,将其嵌入到一个固定的维度d=768,得到一个固定维度的嵌入向量;取最后隐藏层的平均池化结果作为问题的嵌入表示Q=eq∈Cd;eq=RoBERTa(q)。
S4.获取关系路径的嵌入表示eL、问题的主题实体嵌入表示eh和答案相关的关系嵌入表示er
关系路径的嵌入表示eL:将S1所述答案相关的关系集中关系对应S2中字典的序列输入LSTM中获得;
问题的主题实体嵌入表示eh和答案实体相关的关系嵌入表示eh:根据问题的主题实体和答案相关的关系搜索S2所述字典获得。
S5.将S4所述嵌入表示进行拼接,得到答案上下文信息的嵌入表示C;
S6.将S3所述嵌入表示Q与S5所述答案上下文信息的嵌入表示C进行协同注意力模型关注,得到问题和答案上下文的注意力分数,与原始的问题和答案上下文嵌入表示结合,获得增强的问题嵌入表示
Figure BDA0003684276870000074
方法是:包括以下步骤,
将S3所述问题嵌入表示Q和S5所述答案上下文嵌入表示C计算相似度矩阵V:
V=tanh(QTWbC)
分别计算问题和答案上下文嵌入表示的注意力权重Hq、Hc
Hc=tanh(WcC+(WqQ)V),Hq=tanh(WqQ+(WcC)VT)
Figure BDA0003684276870000081
其中,问题嵌入表示Q∈Rd×T,答案上下文嵌入表示C∈Rd×N,d表示batch的大小,T,N表示问题的长度,答案上下文的长度,Wb代表的是权重,相似度矩阵V∈RT×N;Wc、Wq∈Rk×d,whc、whq∈Rk是权重参数,ac∈RN,aq∈RT分别代表的是每个答案的上下文嵌入表示和问题嵌入表示的注意力分数,基于上述注意力权重,计算答案上下文和问题的注意力向量为问题表示和上下文表示的加权和:
Figure BDA0003684276870000082
其中,
Figure BDA0003684276870000083
表示第n答案上下文的注意力分数,
Figure BDA0003684276870000084
表示问题中第t个词语的注意力分数,cn表示第n个答案上下文的嵌入表示,qt表示问题中第t个词语的嵌入表示。
S7.将S4所述主题实体嵌入表示eh、增强问题嵌入表示
Figure BDA0003684276870000085
和所有可能候选实体列表的嵌入表示输入到答案评分函数中,得到所有候选实体的答案得分和答案候选实体的嵌入表示,方法是:
对于每一个问题,用所有可能的候选答案实体a′∈E,对
Figure BDA0003684276870000086
进行评分,选择得分top200的实体作为候选实体:
Figure BDA0003684276870000087
其中,eh表示的是主题实体的嵌入表示,
Figure BDA0003684276870000088
表示的是增强的问题嵌入表示,ea'表示的是所有可能候选实体列表的嵌入表示。
所述所有可能候选实体列表的嵌入表示是S1中问题的答案集的one-hot编码;
所述答案评分函数是图谱嵌入方法ComplEx,第一步是将主题实体嵌入表示、增强问题嵌入表示和所有可能候选实体列表的嵌入表示输入到图谱嵌入方法ComplEx中得到所有可能候选实体的答案得分,第二步是在这些实体的得分中选择得分top200的实体作为候选实体,并返回答案候选实体的嵌入表示作为函数的输出。
S8.将S3所述嵌入表示Q与S7所述候选实体列表的嵌入表示作为输入,再次执行步骤S6,得到增强后的问题嵌入表示,将增强后的问题嵌入表示和答案关系列表的嵌入表示输入到关系评分函数中,得到答案候选实体的关系得分,取评分大于0.5的关系作为候选关系集Ra,与知识图谱中每一个候选实体到主题实体之间的关系集Ra'取交集,则最终的评分函数为答案评分函数和关系集交集的线性组合,选择得分最高的实体作为预测结果。
对于每一个问题,将问题嵌入eq与候选实体嵌入ec、主题实体的嵌入eh分别通过步骤S6得到增强的问题嵌入
Figure BDA0003684276870000091
将其与关系嵌入hr输入到关系评分函数中:
Figure BDA0003684276870000092
其中,
Figure BDA0003684276870000093
表示增强的问题嵌入,hr表示答案关系的嵌入。
取评分大于0.5的关系作为候选关系集Ra,知识图谱中每一个候选实体到主题实体之间的关系集记为Ra',则最终的评分函数为答案评分函数和关系评分函数的线性组合:
Figure BDA0003684276870000094
其中,γ是可以调节的超参数。
所述答案关系列表的嵌入表示是S1中答案相关的关系集的one-hot编码;
实施例2、一种基于改进型EmbedKGQA模型的知识图谱问答系统,包括图谱嵌入学习模块、问题嵌入模块、注意力模块、答案过滤模块和关系匹配模块;
所述图谱嵌入学习模块用于知识图谱嵌入学习,得到图谱实体和关系的嵌入表示;
所述问题嵌入模块用于处理自然语言问题,得等问题的嵌入表示;
所述注意力模块用于对问题的嵌入表示、答案上下文信息的嵌入表示进行增强;
所述答案过滤模块用于得到每个候选实体的答案得分和答案候选实体的嵌入表示;
所述关系匹配模块用于得到答案候选实体的关系得分,并进一步预测出答案。
实验验证:在多个数据集上与现有技术进行了对比验证本发明提出的改进型知识图谱问答方法的有效性。
1、数据集,本实验选取MetaQA、WebQuestionsSP以及MetaQA-50、WebQuestionsSP-50,我们随机删除KB中的一半三元组来模拟一个不完整的KB,我们称为KG-50,对于完整的KG,我们称之为KG-50,用来证明本模型在不完整KG上效果的提升。
MetaQA:是一个大规模的多跳KGQA数据集,在电影领域有超过40万个问题。它有1跳、2跳和3跳问题。在实验中,使用"vanilla"版本的问题。与QA数据一起,MetaQA提供了一个有135k triples,43k entities和9个关系的KG。
WebQuestionsSP:是一个较小的QA数据集,有4,737个问题。这个数据集中的问题是1跳和2跳的问题,通过Freebase KG回答。将知识库限制为Freebase的一个子集,其中包含WebQuestionsSP的问题中提到的任何实体的2跳以内的所有事实。进一步修剪,只包含那些在数据集中提到的关系。这个较小的KB有180万个实体和570万个三元组。
2、对比结果,本发明在数据集上VRN、GraftNet、PullNet、KV-Mem以及EmbedKGQA的对比结果如表1本发明及其他对比模型在MetaQA数据集上准确率的对比结果、表2本发明及其他对比模型在WebQuestionsSP数据集上准确率的对比结果所示,在针对KG-Full和KG-50上,本发明的提出的改进型知识图谱问答模型的性能优于现有的对比方法。
表1本发明及其他对比模型在MetaQA数据集上准确率的对比结果
Figure BDA0003684276870000101
注:括号中的数字对应于使用文本来增强不完整的KG-50的设置。
表2本发明及其他对比模型在WebQuestionsSP数据集上准确率的对比结果
Figure BDA0003684276870000102
Figure BDA0003684276870000111
注:括号中的数字对应于使用文本来增强不完整的KG-50的设置。
本发明工作原理:
本发明利用从知识图谱问答数据集中获得对应的知识图谱,并对知识图谱问答数据集进行处理,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集等;使用图谱嵌入方法对知识图谱进行嵌入训练,得到实体和关系的向量表示;使用预训练语言模型将自然语言问题嵌入到一个固定的维度;对主题实体嵌入表示、关系嵌入表示和关系路径嵌入表示进行连接得到答案的上下文嵌入表示,与问题嵌入作协同注意力得到增强的问题嵌入表示及答案上下文信息嵌入表示;将增强的问题嵌入表示、主题实体嵌入表示通过答案评分函数得到所有实体的答案得分和答案候选实体的嵌入表示;最后,将候选实体嵌入表示等信息通过关系评分函数,将答案评分函数和关系评分函数的线性组合作为最终的评分函数,选择得分最高的实体作为预测结果。
实施例3、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例4、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (9)

1.一种基于改进型EmbedKGQA模型的知识图谱问答方法,其特征在于,包括以下步骤:
S1.从知识图谱问答数据集中获得对应的知识图谱,对知识图谱问答数据集进行预处理,获得问题集、问题的主题实体、问题的答案集和答案相关的关系集;
S2.对步骤S1所述知识图谱进行嵌入训练,得到图谱中所有实体的嵌入表示E和所有关系的嵌入表示R,并对知识图谱中所有实体和其对应的嵌入表示E,所有关系和其对应的嵌入表示R构建字典;
S3.使用预训练语言模型对步骤S1所述问题集中的自然语言问题q进行处理,得到一个固定维度的嵌入向量;取预训练语言模型最后隐藏层的平均池化结果作为问题的嵌入表示Q=eq∈Cd
S4.获取关系路径的嵌入表示eL、问题的主题实体嵌入表示eh和答案相关的关系嵌入表示er
S5.将S4所述嵌入表示进行拼接,得到答案上下文信息的嵌入表示C;
S6.将S3所述嵌入表示Q与S5所述答案上下文信息的嵌入表示C进行协同注意力模型关注,得到问题和答案上下文的注意力分数,与原始的问题和答案上下文嵌入表示结合,获得增强的问题嵌入表示
Figure FDA0003684276860000011
S7.将S4所述主题实体嵌入表示eh、增强问题嵌入表示
Figure FDA0003684276860000012
和所有可能候选实体列表的嵌入表示输入到答案评分函数中,得到所有候选实体的答案得分和答案候选实体的嵌入表示;
S8.将S3所述嵌入表示Q与S7所述候选实体列表的嵌入表示作为输入,再次执行步骤S6,得到增强后的问题嵌入表示,将增强后的问题嵌入表示和答案关系列表的嵌入表示输入到关系评分函数中,得到答案候选实体的关系得分,取评分大于0.5的关系作为候选关系集Ra,与知识图谱中每一个候选实体到主题实体之间的关系集Ra'取交集,则最终的评分函数为答案评分函数和关系集交集的线性组合,选择得分最高的实体作为预测结果。
2.根据权利要求1所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法,其特征在于,知识图谱进行嵌入训练的方法是:基于向量旋转的图谱嵌入方法RotatE来对知识图谱进行嵌入训练,RotatE模型将图谱实体和关系映射到复数向量空间,并将每个关系定义为从头实体到尾实体间的旋转,对于一个三元关系(h,r,t),h,t∈E,r∈R,期望
Figure FDA0003684276860000013
h,r,t∈Ck,RotatE的距离函数定义为:
Figure FDA0003684276860000023
其中ο表示元素积,||·||表示L1范式,r表示关系嵌入表示,h表示头实体嵌入表示,t表示尾实体嵌入表示,E表示所有实体嵌入表示的集合,R表示所有关系嵌入表示的集合,Ck表示复数向量空间。
3.根据权利要求2所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法,其特征在于,使用预训练语言模型对S1所述问题集中的自然语言问题q进行处理具体方法是:将自然语言问题q嵌入到一个固定的维度d=768,得到一个固定维度的嵌入向量;取最后隐藏层的平均池化结果作为问题的嵌入表示Q=eq∈Cd;eq=RoBERTa(q)。
4.根据权利要求3所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法,其特征在于,获取关系路径的嵌入表示eL、问题的主题实体嵌入表示eh和答案相关的关系嵌入表示er的方法是:
关系路径的嵌入表示eL:将S1所述答案相关的关系集中关系对应S2中字典的序列输入LSTM中获得;
问题的主题实体嵌入表示eh和答案实体相关的关系嵌入表示er:根据问题的主题实体和答案相关的关系搜索S2所述字典获得。
5.根据权利要求4所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法,其特征在于,获得增强后的问题嵌入表示
Figure FDA0003684276860000021
和答案上下文信息嵌入表示
Figure FDA0003684276860000022
的方法是:包括以下步骤,
将S3所述问题嵌入表示Q和S5所述答案上下文嵌入表示C计算相似度矩阵V:
V=tanh(QTWbC)
分别计算问题和答案上下文嵌入表示的注意力权重Hq、Hc
Hc=tanh(WcC+(WqQ)V),Hq=tanh(WqQ+(WcC)VT)
Figure FDA0003684276860000031
其中,问题嵌入表示Q∈Rd×T,答案上下文嵌入表示C∈Rd×N,d表示batch的大小,T,N表示问题的长度,答案上下文的长度,Wb代表的是权重,相似度矩阵V∈RT×N;Wc、Wq∈Rk×d,whc、whq∈Rk是权重参数,ac∈RN,aq∈RT分别代表的是每个答案上下文的注意力分数和问题中每个词语的注意力分数,基于上述注意力权重,计算答案上下文和问题的注意力向量为问题表示和上下文表示的加权和:
Figure FDA0003684276860000032
其中,
Figure FDA0003684276860000033
表示第n答案上下文的注意力分数,
Figure FDA0003684276860000034
表示问题中第t个词语的注意力分数,cn表示第n个答案上下文的嵌入表示,qt表示问题中第t个词语的嵌入表示。
6.根据权利要求5所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法,其特征在于,得到每个候选实体的答案得分和答案候选实体的嵌入表示的方法是:
对于每一个问题,用所有可能的候选答案实体a′∈E,对
Figure FDA0003684276860000037
进行评分,选择得分top200的实体作为候选实体:
Figure FDA0003684276860000035
其中,eh表示的是主题实体的嵌入表示,
Figure FDA0003684276860000036
表示的是增强的问题嵌入表示,ea'表示的是所有可能候选实体列表的嵌入表示。
7.一种基于改进型EmbedKGQA模型的知识图谱问答系统,其特征在于,用于实现权利要求1-6任一项所述一种基于改进型EmbedKGQA模型的知识图谱问答方法的系统,包括图谱嵌入学习模块、问题嵌入模块、注意力模块、答案过滤模块和关系匹配模块;
所述图谱嵌入学习模块用于知识图谱嵌入学习,得到图谱实体和关系的嵌入表示;
所述问题嵌入模块用于处理自然语言问题,得等问题的嵌入表示;
所述注意力模块用于对问题的嵌入表示、答案上下文信息的嵌入表示进行增强;
所述答案过滤模块用于得到每个候选实体的答案得分和答案候选实体的嵌入表示;
所述关系匹配模块用于得到答案候选实体的关系得分,并进一步预测出答案。
8.电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-6任一项所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的一种基于改进型EmbedKGQA模型的知识图谱问答方法。
CN202210646432.4A 2022-06-08 2022-06-08 一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质 Active CN114936293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210646432.4A CN114936293B (zh) 2022-06-08 2022-06-08 一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210646432.4A CN114936293B (zh) 2022-06-08 2022-06-08 一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114936293A true CN114936293A (zh) 2022-08-23
CN114936293B CN114936293B (zh) 2023-01-31

Family

ID=82867308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210646432.4A Active CN114936293B (zh) 2022-06-08 2022-06-08 一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114936293B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506714A (zh) * 2019-01-30 2020-08-07 百度(美国)有限责任公司 基于知识图嵌入的问题回答
CN112749567A (zh) * 2021-03-01 2021-05-04 哈尔滨理工大学 一种基于现实信息环境知识图谱的问答系统
CN114254093A (zh) * 2021-12-17 2022-03-29 南京航空航天大学 多空间知识增强的知识图谱问答方法及系统
US20220108188A1 (en) * 2020-10-01 2022-04-07 International Business Machines Corporation Querying knowledge graphs with sub-graph matching networks
CN114328943A (zh) * 2021-11-08 2022-04-12 腾讯科技(深圳)有限公司 基于知识图谱的问题回答方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506714A (zh) * 2019-01-30 2020-08-07 百度(美国)有限责任公司 基于知识图嵌入的问题回答
US20220108188A1 (en) * 2020-10-01 2022-04-07 International Business Machines Corporation Querying knowledge graphs with sub-graph matching networks
CN112749567A (zh) * 2021-03-01 2021-05-04 哈尔滨理工大学 一种基于现实信息环境知识图谱的问答系统
CN114328943A (zh) * 2021-11-08 2022-04-12 腾讯科技(深圳)有限公司 基于知识图谱的问题回答方法、装置、设备及存储介质
CN114254093A (zh) * 2021-12-17 2022-03-29 南京航空航天大学 多空间知识增强的知识图谱问答方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUANGLU SUN: "Collaborative Self-Regression Method With Nonlinear Feature Based on Multi-Task Learning for Image Classification", 《IEEE ACCESS ( VOLUME: 6)》 *
WEIQIANG JIN: "Improving Embedded Knowledge Graph Multi-hop Question", 《ARXIV:2110.12679V1 [CS.CL]》 *
卢琪: "融合知识表示学习的双向注意力问答模型", 《计算机工程与应用》 *
杜会芳: "知识图谱多跳问答推理研究进展、挑战与展望", 《大数据》 *

Also Published As

Publication number Publication date
CN114936293B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
US10534863B2 (en) Systems and methods for automatic semantic token tagging
US20230259784A1 (en) Regularized neural network architecture search
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111602147A (zh) 基于非局部神经网络的机器学习模型
CN110321537B (zh) 一种文案生成方法和装置
WO2021204014A1 (zh) 一种模型训练的方法及相关装置
CN117529755A (zh) 图像识别系统中的迁移学习
CN111476038A (zh) 长文本生成方法、装置、计算机设备和存储介质
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN112836502B (zh) 一种金融领域事件隐式因果关系抽取方法
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
Shao et al. Collaborative learning for answer selection in question answering
CN117077792B (zh) 一种基于知识图谱生成提示数据的方法及装置
CN111027292A (zh) 一种限定采样文本序列生成方法及其系统
Tüselmann et al. Recognition-free question answering on handwritten document collections
Haba Data Augmentation with Python: Enhance deep learning accuracy with data augmentation methods for image, text, audio, and tabular data
CN114936293B (zh) 一种基于改进型EmbedKGQA模型的知识图谱问答方法、电子设备及存储介质
CN115564013B (zh) 提高网络表示学习表示能力的方法、模型训练方法和系统
CN116186312A (zh) 用于数据敏感信息发现模型的多模态数据增强方法
US20220292812A1 (en) Zero-shot dynamic embeddings for photo search
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
US20230144138A1 (en) Machine learning algorithm search with symbolic programming
CN113626574B (zh) 一种信息查询方法及系统及装置及介质
CN115905852A (zh) 基于预训练提示的故事生成方法、系统、存储介质和终端
Stamp Alphabet soup of deep learning topics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant