CN114896377A - 一种基于知识图谱的答案获取方法 - Google Patents

一种基于知识图谱的答案获取方法 Download PDF

Info

Publication number
CN114896377A
CN114896377A CN202210360978.3A CN202210360978A CN114896377A CN 114896377 A CN114896377 A CN 114896377A CN 202210360978 A CN202210360978 A CN 202210360978A CN 114896377 A CN114896377 A CN 114896377A
Authority
CN
China
Prior art keywords
evidence
path
information
graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210360978.3A
Other languages
English (en)
Inventor
杨鹏
刘子健
张朋辉
陈维威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210360978.3A priority Critical patent/CN114896377A/zh
Publication of CN114896377A publication Critical patent/CN114896377A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/257Belief theory, e.g. Dempster-Shafer

Abstract

本发明公开了一种基于知识图谱的答案获取方法,具体如下:从问题与候选答案中提取相关的关键词信息;在知识图谱中提取从问题当中的关键词到选项当中关键词的路径;将路径输入路径证据聚合器PEF和图证据聚合器GEF当中,分别得到相关的路径证据信息和图证据信息;将题目与选项组合成状态向量并输入文本证据聚合器TEF当中,利用TEF当中的预训练语言模型捕捉文本之间的语义关联,获得知识图谱之外的特征;将以上获得的三种不同来源的证据融合成特征向量并最后得到选择分数。充分利用题目给定的信息,在捕获题目当中单词语义关系的同时,还能利用知识图谱获得相关的证据信息进行答案选择,将结构化和非结构化的证据相结合,推荐准确率高,可解释性好。

Description

一种基于知识图谱的答案获取方法
技术领域
本发明涉及一种基于知识图谱的答案获取方法,属于互联网与人工智能技术领域。
背景技术
随着互联网的快速发展,数据信息呈现爆炸的增长态势,例如,淘宝、京东、拼多多等电商平台上有成千上万种商品;爱奇艺、腾讯视频、优酷等视频网站上有上万部影视资源;今日头条、新浪网、腾讯新闻等新闻网上有亿条新闻信息。面对如此大的数据量,用户全部浏览一遍是不可能的,因此用户想从中找到自己感兴趣的内容也是非常困难的。如何高效地获得真正有用的信息,即实现高效获取已经成为当下吸引众多研究者的话题之一。目前正处于信息爆炸性增长的时代,这一现象不仅带来了信息获取的便利性,而且导致准确信息获取的困难性和复杂性。据表明,人们在日常工作和信息处理当中,往往需要花费80%的时间寻找相关信息,实际处理和使用数据的时间往往不到20%。当下人们主要使用基于关键词检索的搜索引擎寻找自己所需要的信息,此类引擎可以根据输入的关键词,通过与之前爬虫获取的信息进行比对,返回相关性较高的信息。但这种方法仅仅依靠输入的文字信息获得按相关度排序的答案文档,无法获得与输入文字相关的语义上下文信息,而且具体的答案仍需要人工排查寻找。而且该方法非常依赖用户输入的信息,不同的人对于同一事物有多种不同的描述方法,他们通过搜索引擎获取的信息也可能是有很大差别。
目前已经引入了许多不同类型的外部知识来解决这类问题。KagNet、BERT_CS等方法是从外部知识图(KG)中提取静态图,并将其与预训练语言模型相结合,以获得最终预测。而在提取静态图之后,MHGRN和RGCN利用图神经网络将消息从邻居传递到中心节点,从而提高从KG提取的静态图中信息的传递性和流通性。PG采用生成模型并优化原始路径以处理静态图当中信息稀疏的问题。
虽然知识图谱的应用带来了很多好处,但缺点也不能忽视,其限制了对隐式关系和深度路径的探索。以前的很多研究工作只是使用KG当中的原始关系而不是通过探索不同实体之间的隐式关系进行预测。此外,由于提取出的子图往往过于庞大但信息量不足,邻接矩阵稀疏性是基于GNN的模型的常见问题,通常无法为推理提供足够的证据。这是由于GNN的节点更新机制更注重使用各种方法计算不同形式的权重和来更新节点表示,而不是探索不同节点之间的隐式关系。
发明内容
针对目前基于知识图谱的答案获取方法难以捕捉并有效利用知识图谱当中的深层次路径和隐式关系等问题,本发明提出一种基于知识图谱的答案获取方法,利用深度学习技术,通过在已有的问题和选项的不同组合中利用关键词提取技术提取出关键词,继而利用这些关键词在知识图谱中提取相关的路径,再对这些路径中存在的关系通过基于路径的知识聚合器进行处理,最终经过池化操作得到来自路径的证据Cp。从图的角度出发,对上述提取出的路径进行图化处理,构建图网络,再利用图推理网络进行节点之间的信息交互等更新机制更新实体的向量表示,然后将最后一层的节点表示先拼接再通过池化层,完成图证据Cg的聚合。文本证据聚合器通过对状态向量的处理,最终得到文本证据Ct
为实现上述发明目的,本发明所述的一种基于知识图谱的答案获取方法,首先利用关键词提取方法提取出文本的关键词;然后根据关键词从知识图谱中抽取出相应的路径信息;接着分别构建基于GPT-2的路径证据聚合器,基于图推理网络的图证据聚合器和基于预训练模型的文本证据聚合器。最后将三个证据聚合器聚合的证据进行处理后得到分数信息并选出最终的答案。该方法主要包括四个步骤,具体如下:
一种基于知识图谱的答案获取方法,所述方法包括以下步骤:步骤1:根据给定的问题Qi和其候选答案Aij,本文从Qi中提取n个关键词
Figure BDA0003585259420000021
从Aij当中提取m个关键词
Figure BDA0003585259420000022
并将这些关键词应用到下文不同的证据提取器当中;
步骤2:针对步骤1当中提取出的关键词信息,利用迪杰斯特拉算法找到两个关键词对应节点在知识图谱当中的路径信息;迪杰斯特拉算法的思想为:设图G=(V,E)是一个有向图,其中V是顶点集合,E是边集合。把图中顶点集合V分为两部分,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有源点,以后每求出一条最短路径,就将顶点加入到S中,直到所有顶点都加入到S中,算法结束),第二组为其余未求出最短路径的顶点集合(用U表示),按最短路径的长度次序依次将第二组中的顶点加入到第一组中。具体方法如下:
(1)将关键词在知识图谱当中对应的实体节点作为有向图当中的节点,实体之间的关系视为有向图当中的边,相邻节点之间距离为1;
(2)选择一个问题关键词作为源点v。初始时,S中只有源点,即S={v},v的距离为0(到自己的距离为0)。U包含除v外的所有其他顶点,v与U中顶点u距离为1(若v到u存在边)或∞(v到u不存在边);
(3)从U中选取一个距离v最小的顶点k加入到S中;
(4)以k为新考虑的中间点,修改U中各顶点的距离。若从源点v经过顶点k到顶点u的距离比原来距离(不经过顶点k)短,则修改顶点u的距离,修改后的距离值为顶点k的距离加上1;
(5)重复(3)、(4)直到所有的顶点都加入到S中。
(6)重复(2)到(5)直到所有问题关键词节点已完成到选项关键词节点最短路径的查询。
步骤3:训练基于知识图谱的答案获取方法,首先利用步骤1当中提取的关键词和步骤2当中的路径构建三个证据聚合器分别聚合来自路径、图和文本的证据信息,将以上获得的证据信息拼接后得到选择的分数信息并给出答案,最后利用交叉熵损失函数实现反向传播。
步骤4:根据步骤3所得到的最佳验证模型对待获取答案的问题进行获取答案操作。对于待进行答案获取的问题,首先按步骤1和步骤2进行处理,将问题原文、关键词和路径输入到步骤3中训练好的答案获取方法中,获得最终的答案信息。该方案能够从多个维度提取文本的关键信息,克服传统文本摘要方法主题不够一致、信息不够完整的问题,可应用于媒体文本关键信息的精确提取,提升媒体文本摘要的效果。
作为本发明的一种改进,步骤1中具体如下:首先,使用Natural LanguageToolkit(NLTK)对文本进行预处理,包括分词、词性标注、词形还原等操作,并去除句子当中的停用词和标点符号等特殊字符,实现提升文本特征质量的效果,接着本文通过n-gram对文本当中的单词进行处理生成单词元组,并使用下划线“_”将同一元组中的单词进行连接成为组合,再根据TF-IDF算法(如以下公式所示)评估这些组合在语句当中的重要性,选出重要性前n和前m的组合拆分后作为最终的关键词,
TF-IDF算法为:
Figure BDA0003585259420000041
Figure BDA0003585259420000042
tfidfi,j=tfi,j×idfi#(3)
其中ni,j为元组ti在路径dj当中出现的次数,∑knk,j为路径dj当中三元组的数量之和,|{j:ti∈dj}|为三元组ti出现的总路径数量,|D|为所有路径的总数。
作为本发明的一种改进,步骤3,利用步骤2处理后的基于知识图谱的答案获取方法进行训练,该步骤的实施可以分为以下子步骤:
子步骤3-1,构建路径证据聚合器,为了解决邻接矩阵的稀疏问题,本方法引入了PEF寻找有较少跳数(Hops)但包含更多信息的路径。此外,本方法认为直接从知识图谱当中提取的路径证据并不是最优的,因为这样的方法知识通过检索相关信息实现而并没有探索储存在知识图谱当中的事实信息。与显式的关系信息相比,隐式关系被用于描述两个特定实体之间的连接方式,且不能通过从知识图谱当中检索直接得到。因此,本方法采用了以GPT-2为核心的PEF获得问题-选项关键词对
Figure BDA0003585259420000043
带有隐式关系的最优k(1≤k≤K)跳路径p,并认为GPT-2能够在静态图当中找到更多相关的结构化证据,本方法使用了路径当中的三元组对预训练好的GPT-2进行微调(fine-tune),并使用字节对编码(Byte-PairEncoding,BPE)将路径转换为文本序列信息,使用前缀“_”代表相反的关系,这些新路径可以充分利用知识图谱当中的信息。在训练模型进行推理时,路径当中的最后一个词应在开始阶段输入模型当中表示模型应以此单词作为路径的结束,其计算过程如下:如公式4所示。
{E0,R′0,E1}=GPT-2({E0,R0,E1})#(4)
其中{E0,R0,E1}是原始路径p当中的三元组,{E0,R′0,E1}是包含隐式关系的新路径p′当中的三元组,路径当中的关系实体升级成为包含很多推理信息的隐式关系,在生成所有关键词对之间的路径{p1,p2,…,pn}后,使用注意力机制获取整体知识的表示作为从路径当中获取的证据聚合,注意力计算公式如以下公式所示:
ui=tanh(Wip′i+bi)#(5)
Figure BDA0003585259420000044
Figure BDA0003585259420000051
上述公式中,Wi、bi为可学习的模型参数,p′i为新生成的路径信息,tanh(·)为激活函数,ui为生成路径的表示,αi为路径权重,Cp为来自路径的证据。
子步骤3-2,构建图证据聚合器,本方法选取了基于Bert的向量表示方法对节点进行初始化,具体的初始化方法如公式所示。
Figure BDA0003585259420000052
其中xi代表节点i的向量表示,
如公式9所示,本方法在第l层使用线性变换计算从节点
Figure BDA0003585259420000053
通过路径流向节点i的信息,
Figure BDA0003585259420000054
其中Wk为可学习的模型参数,
Figure BDA0003585259420000055
为通过k跳路径传递至节点i的信息,
Figure BDA0003585259420000056
是节点j在第l层的节点属性或隐藏状态,
Figure BDA0003585259420000057
代表距离节点i的k跳路径起点集合。
在第l+1层,通过注意力权重eik表示经过k跳路径传递至节点i的信息重要性与相关性大小,本文只对于k≤K考虑这种信息的影响。为了得到最终的注意力权重,本方法使用softmax函数对所有的注意力系数进行归一化,如公式10、11所示。
Figure BDA0003585259420000058
Figure BDA0003585259420000059
其中Wattn为可学习的模型参数,s为状态向量,
Figure BDA00035852594200000510
为通过k跳路径传递至节点i的信息,eik为注意力系数,βik为注意力权重。
在这里,本方法使用了注意力机制衡量s与
Figure BDA00035852594200000511
之间的相关性并分配了相应的权重βik,如公式12所示,本文认为状态向量s包含了问题和选项的相关信息,更大的权重表明该信息与当前选项更接近并且对于推理可以提供更有说服力的信息。
Figure BDA00035852594200000512
其中,mi代表聚合之后的信息,βik为注意力权重。
接下来如公式13所示,本方法将传递到节点i的信息mi及当前层的隐藏状态通过线性组合的方式得到下一层的节点表示,
Figure BDA0003585259420000061
其中
Figure BDA0003585259420000062
为模型学习的参数,σ为sigmoid激活函数;
最后在信息通过l+1网络传递之后可以得到每个节点最终的表示,如公式14所示,本方法通过将所有节点的属性输入池化层最终得到图级别的证据表示。
Figure BDA0003585259420000063
其中Cg代表从图当中聚合的证据结果,
子步骤3-3,构建文本证据聚合器,本方法首先使用词法分析器对问题Qi和其候选答案Aij当中的单词进行分隔,再将其组成状态向量s并输入TEF当中获得证据信息,如公式15所示,在处理输入时本文使用预训练语言模型(Pre-training Language Models,PLMs)对本文进行处理,并使用最后一个隐藏层的隐藏状态作为从文本当中提取的证据,
Ct=PLMs(s)#(15)
子步骤3-4,构建决策层,如公式16所示,最后来自文本的证据Ct,来自图的证据Cg以及来自路径的证据Cp通过拼接再送入决策层当中计算分数并得到最终的预测结果,
ρ(Qi,Aij)=Wmlp([Cp:Ct:Cg])+bmlp#(16)
其中,Wmlp和bmlp为待学习的模型参数,[:]为拼接函数,ρ(Qi,Aij)为问题Qi的选项Aij的分数;
子步骤3-5,构建损失函数层,本层使用交叉熵损失作为所述模型的训练损失函数,如公式17所示,在训练阶段本方法通过最小化交叉熵损失组成最大化正确答案
Figure BDA0003585259420000064
的分数;
Figure BDA0003585259420000065
子步骤3-6,联合训练损失。本实例采用随机初始化的方式对所有的参数进行初始化在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,初始学习率设置为0.001,当训练损失不再下降或训练轮数超过50轮时,模型训练结束,并保存在验证集上表现最好的模型。
相对于现有技术,本发明的优点如下:1)本发明利用一种基于生成模型GPT-2的路径证据聚合器,利用GPT-2模型在生成类任务上表现较好的特点,探索不同实体节点之间的深层次的路径和隐式关系,增强对知识的利用;2)本发明使用基于图推理网络(GraphReasoning Network,GRN)的图证据聚合器,该聚合器可以收集来自知识图谱当中最直接有效的证据,并将实体之间的关系信息融合进实体表示的更新之中,从另一层面提升图证据的表示;3)本发明使用基于预训练语言模型的文本证据聚合器,该聚合器可以捕捉到同一语句内不同词汇之间的微小却重要的语义和语境之间的关系作为来自文本的证据,作为上述两种证据聚合器的补充。
附图说明
图1为本发明实施例的方法框架图。
图2为本发明实施例的方法流程图
图3为本发明实施例中图证据聚合器的数据流动示意图。
具体实施方式
为了加深对本发明的认识和理解,下面结合具体实施例,进一步阐明本发明。
实施例1:参见图1—图3,一种基于知识图谱的答案获取方法,所述方法包括以下步骤:
步骤1,根据给定的问题Qi和其候选答案Aij,本方法需要从Qi中提取n个关键词
Figure BDA0003585259420000071
从Aij当中提取m个关键词
Figure BDA0003585259420000072
并将这些关键词应用到下文所述不同的证据提取器当中。首先,本方法使用Natural Language Toolkit(NLTK)对这些文本进行预处理,包括分词、词性标注、词形还原等操作,并去除句子当中的停用词和标点符号等特殊字符,实现提升文本特征质量的效果。接着本文通过n-gram对文本当中的单词进行处理生成单词元组,并使用下划线“_”将同一元组中的单词进行连接成为组合,再根据TF-IDF算法(如以下公式所示)评估这些组合在语句当中的重要性,选出重要性前n和前m的组合拆分后作为最终的关键词。
Figure BDA0003585259420000073
Figure BDA0003585259420000081
tfidfi,j=tfi,j×idfi#(3)
其中ni,j为元组ti在路径dj当中出现的次数,∑knk,j为路径dj当中三元组的数量之和,|{j:ti∈dj}|为三元组ti出现的总路径数量,|D|为所有路径的总数。
步骤2,针对步骤1当中提取出的关键词信息,利用迪杰斯特拉算法找到两个关键词对应节点在知识图谱当中的路径信息。迪杰斯特拉算法的思想为:设图G=(V,E)是一个有向图,其中V是顶点集合,E是边集合。把图中顶点集合V分为两部分,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有源点,以后每求出一条最短路径,就将顶点加入到S中,直到所有顶点都加入到S中,算法结束),第二组为其余未求出最短路径的顶点集合(用U表示),按最短路径的长度次序依次将第二组中的顶点加入到第一组中。具体方法如下:
(1)将关键词在知识图谱当中对应的实体节点作为有向图当中的节点,实体之间的关系视为有向图当中的边,相邻节点之间距离为1;
(2)选择一个问题关键词作为源点v。初始时,S中只有源点,即S={v},v的距离为0(到自己的距离为0)。U包含除v外的所有其他顶点,v与U中顶点u距离为1(若v到u存在边)或∞(v到u不存在边);
(3)从U中选取一个距离v最小的顶点k加入到S中;
(4)以k为新考虑的中间点,修改U中各顶点的距离。若从源点v经过顶点k到顶点u的距离比原来距离(不经过顶点k)短,则修改顶点u的距离,修改后的距离值为顶点k的距离加上1;
(5)重复(3)、(4)直到所有的顶点都加入到S中。
(6)重复(2)到(5)直到所有问题关键词节点已完成到选项关键词节点最短路径的查询。
步骤3,利用步骤2处理后的基于知识图谱的答案获取方法进行训练,该步骤的实施可以分为以下子步骤:
子步骤3-1,构建路径证据聚合器。为了解决邻接矩阵的稀疏问题,本方法引入了PEF寻找有较少跳数(Hops)但包含更多信息的路径。此外,本方法认为直接从知识图谱当中提取的路径证据并不是最优的,因为这样的方法知识通过检索相关信息实现而并没有探索储存在知识图谱当中的事实信息。与显式的关系信息相比,隐式关系被用于描述两个特定实体之间的连接方式,且不能通过从知识图谱当中检索直接得到。因此,本方法采用了以GPT-2为核心的PEF获得问题-选项关键词对
Figure BDA0003585259420000091
带有隐式关系的最优k(1≤k≤K)跳路径p,并认为GPT-2能够在静态图当中找到更多相关的结构化证据。本方法使用了路径当中的三元组对预训练好的GPT-2进行微调(fine-tune),并使用字节对编码(Byte-PairEncoding,BPE)将路径转换为文本序列信息,使用前缀“_”代表相反的关系。这些新路径可以充分利用知识图谱当中的信息。在训练模型进行推理时,路径当中的最后一个词应在开始阶段输入模型当中表示模型应以此单词作为路径的结束,其计算过程如公式4所示。
{E0,R′0,E1}=GPT-2({E0,R0,E1})#(4)
其中{E0,R0,E1}是原始路径p当中的三元组,{E0,R′0,E1}是包含隐式关系的新路径p′当中的三元组。路径当中的关系实体升级成为包含很多推理信息的隐式关系。在生成所有关键词对之间的路径{p1,p2,…,pn}后,使用注意力机制获取整体知识的表示作为从路径当中获取的证据聚合。注意力计算公式如以下公式所示。
ui=tanh(Wip′i+bi)#(5)
Figure BDA0003585259420000092
Figure BDA0003585259420000093
上述公式中,Wi、bi为可学习的模型参数,p′i为新生成的路径信息,tanh(·)为激活函数,ui为生成路径的表示,αi为路径权重,Cp为来自路径的证据。
子步骤3-2,构建图证据聚合器。本方法选取了基于Bert的向量表示方法对节点进行初始化。具体的初始化方法如公式所示。
Figure BDA0003585259420000094
其中xi代表节点i的向量表示。
如公式9所示,本方法在第l层使用线性变换计算从节点
Figure BDA0003585259420000095
通过路径流向节点i的信息。
Figure BDA0003585259420000101
其中Wk为可学习的模型参数,
Figure BDA0003585259420000102
为通过k跳路径传递至节点i的信息,
Figure BDA0003585259420000103
是节点j在第l层的节点属性或隐藏状态,
Figure BDA0003585259420000104
代表距离节点i的k跳路径起点集合。
在第l+1层,通过注意力权重eik表示经过k跳路径传递至节点i的信息重要性与相关性大小。本文只对于k≤K考虑这种信息的影响。为了得到最终的注意力权重,本方法使用softmax函数对所有的注意力系数进行归一化,如公式10、11所示。
Figure BDA0003585259420000105
Figure BDA0003585259420000106
其中Wattn为可学习的模型参数,s为状态向量,
Figure BDA0003585259420000107
为通过k跳路径传递至节点i的信息,eik为注意力系数,βik为注意力权重。
在这里,本方法使用了注意力机制衡量s与
Figure BDA0003585259420000108
之间的相关性并分配了相应的权重βik。如公式12所示,本文认为状态向量s包含了问题和选项的相关信息,更大的权重表明该信息与当前选项更接近并且对于推理可以提供更有说服力的信息。
Figure BDA0003585259420000109
其中,mi代表聚合之后的信息,βik为注意力权重。
接下来如公式13所示,本方法将传递到节点i的信息mi及当前层的隐藏状态通过线性组合的方式得到下一层的节点表示。
Figure BDA00035852594200001010
其中
Figure BDA00035852594200001011
为模型学习的参数,σ为sigmoid激活函数。
最后在信息通过l+1网络传递之后可以得到每个节点最终的表示。如公式14所示,本方法通过将所有节点的属性输入池化层最终得到图级别的证据表示。
Figure BDA00035852594200001012
其中Cg代表从图当中聚合的证据结果。
子步骤3-3,构建文本证据聚合器,本方法首先使用词法分析器对问题Qi和其候选答案Aij当中的单词进行分隔,再将其组成状态向量s并输入TEF当中获得证据信息。如公式15所示,在处理输入时本文使用预训练语言模型(Pre-training Language Models,PLMs)对本文进行处理,并使用最后一个隐藏层的隐藏状态作为从文本当中提取的证据。
Ct=PLMs(s)#(15)
子步骤3-4,构建决策层。如公式16所示,最后来自文本的证据Ct,来自图的证据Cg以及来自路径的证据Cp通过拼接再送入决策层当中计算分数并得到最终的预测结果。
ρ(Qi,Aij)=Wmlp([Cp:Ct:Cg])+bmlp#(16)
其中,Wmlp和bmlp为待学习的模型参数,[:]为拼接函数,ρ(Qi,Aij)为问题Qi的选项Aij的分数。
子步骤3-5,构建损失函数层,本层使用交叉熵损失作为所述模型的训练损失函数。如公式17所示,在训练阶段本方法通过最小化交叉熵损失组成最大化正确答案
Figure BDA0003585259420000111
的分数。
Figure BDA0003585259420000112
子步骤3-6,联合训练损失。本实例采用随机初始化的方式对所有的参数进行初始化在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,初始学习率设置为0.001,当训练损失不再下降或训练轮数超过50轮时,模型训练结束,并保存在验证集上表现最好的模型。
步骤4,利用训练完毕的模型构建输出模型获取答案。输出模型不需要事先构建数据,只需要待进行答案获取的问题作为输入,该方法会首先进行关键词提取,然后使用不同的证据聚合器进行证据聚合操作,最后输出获得的选项作为输入问题的答案。
基于相同的发明构思,本发明实例还提供一种基于知识图谱的答案获取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于知识图谱的答案获取方法。
应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims (4)

1.一种基于知识图谱的答案获取方法,其特征在于,所述方法包括以下步骤:
步骤1:根据给定的问题Qi和其候选答案Aij,本方法从Qi中提取n个关键词
Figure FDA0003585259410000014
从Aij当中提取m个关键词
Figure FDA0003585259410000013
并将这些关键词应用到不同的证据提取器当中;
步骤2:针对步骤1当中提取出的关键词信息,利用迪杰斯特拉算法找到两个关键词对应节点在知识图谱当中的路径信息,
步骤3:训练基于知识图谱的答案获取方法,首先利用步骤1当中提取的关键词和步骤2当中的路径构建三个证据聚合器分别聚合来自路径、图和文本的证据信息,将以上获得的证据信息拼接后得到选择的分数信息并给出答案,最后利用交叉熵损失函数实现反向传播;
步骤4:根据步骤3所得到的最佳验证模型对待获取答案的问题进行获取答案操作,对于待进行答案获取的问题,首先按步骤1和步骤2进行处理,将问题原文、关键词和路径输入到步骤3中训练好的答案获取方法中,获得最终的答案信息。
2.根据权利要求1所述的基于知识图谱的答案获取方法,其特征在于,步骤1具体如下:
首先,使用Natural Language Toolkit(NLTK)对文本进行预处理,包括分词、词性标注、词形还原操作,并去除句子当中的停用词和标点符号等特殊字符,实现提升文本特征质量的效果,接着本文通过n-gram对文本当中的单词进行处理生成单词元组,并使用下划线“_”将同一元组中的单词进行连接成为组合,再根据TF-IDF算法评估这些组合在语句当中的重要性,选出重要性前n和前m的组合拆分后作为最终的关键词,
TF-IDF算法为:
Figure FDA0003585259410000011
Figure FDA0003585259410000012
tfidfi,j=tfi,j×idfi#(3)
其中ni,j为元组ti在路径j当中出现的次数,∑knk,j为路径dj当中三元组的数量之和,|{j:ti∈dj}|为元组ti出现的总路径数量,|D|为所有路径的总数。
3.根据权利要求1所述的基于知识图谱的答案获取方法,其特征在于,
步骤3,利用步骤2处理后的基于知识图谱的答案获取方法进行训练,该步骤的实施分为以下子步骤:
子步骤3-1,构建路径证据聚合器,采用基于解码器模块堆叠构建的生成方法GPT-2为核心的PEF获得问题-选项关键词对
Figure FDA0003585259410000026
带有隐式关系的最优k(1≤k≤K)跳路径p′,并认为GPT-2能够在静态图当中找到更多相关的结构化证据,使用路径当中的三元组对预训练好的GPT-2进行微调(fine-tune),并使用字节对编码(Byte-Pair Encoding,BPE)将路径转换为文本序列信息,使用前缀“_”代表相反的关系,在训练模型进行推理时,路径当中的最后一个词应在开始阶段输入模型当中表示模型应以此单词作为路径的结束,其计算过程如下:
{E0,R′0,E1}=GPT-2({E0,R0,E1})#(4)
其中{E0,R0,E1}是原始路径p当中的三元组,{E0,R′0,E1}是包含隐式关系的新路径p′当中的三元组,路径当中的关系实体升级成为包含很多推理信息的隐式关系,在生成所有关键词对之间的路径{p1,p2,…,pn}后,使用注意力机制获取整体知识的表示作为从路径当中获取的证据聚合,注意力计算公式如以下公式所示:
ui=tanh(Wip′i+bi)#(5)
Figure FDA0003585259410000021
Figure FDA0003585259410000022
上述公式中,Wi、bi为可学习的模型参数,p′i为新生成的路径信息,tanh(·)为激活函数,ui为生成路径的表示,αi为路径权重,Cp为来自路径的证据,
子步骤3-2,构建图证据聚合器,选取了基于Bert的向量表示方法对节点进行初始化,具体的初始化方法如公式所示,
Figure FDA0003585259410000023
其中xi代表节点i的向量表示,
Figure FDA0003585259410000024
为第0层节点i的隐藏状态,
如公式9所示,在第l层使用线性变换计算从节点
Figure FDA0003585259410000025
通过路径流向节点i的信息,
Figure FDA0003585259410000031
其中Wk为可学习的模型参数,
Figure FDA0003585259410000032
为通过k跳路径传递至节点i的信息,
Figure FDA0003585259410000033
是节点j在第l层的节点属性或隐藏状态,
Figure FDA0003585259410000034
代表距离节点i的k跳路径起点集合,
在第l+1层,通过注意力权重eik表示经过k跳路径传递至节点i的信息重要性与相关性大小,使用softmax函数对所有的注意力系数进行归一化,如公式10、11所示,
Figure FDA0003585259410000035
Figure FDA0003585259410000036
其中Wattn为可学习的模型参数,s为状态向量,
Figure FDA0003585259410000037
为通过k跳路径传递至节点i的信息,eik为注意力系数,βik为注意力权重;
使用了注意力机制衡量s与
Figure FDA0003585259410000038
之间的相关性并分配了相应的权重βik,如公式12所示,
Figure FDA0003585259410000039
其中,βik为注意力权重,mi代表聚合之后的信息;
如公式13所示,将传递到节点i的信息mi及当前层的隐藏状态通过线性组合的方式得到下一层的节点表示;
Figure FDA00035852594100000310
其中
Figure FDA00035852594100000311
为模型学习的参数,σ为sigmoid激活函数,mi代表聚合之后的信息;
最后在信息通过l+1网络传递之后可以得到每个节点最终的表示,如公式14所示,通过将所有节点的属性输入池化层最终得到图级别的证据表示;
Figure FDA00035852594100000312
其中Cg代表从图当中聚合的证据结果,
子步骤3-3,构建文本证据聚合器,首先使用词法分析器对问题Qi和其候选答案Aij当中的单词进行分隔,再将其组成状态向量s并输入TEF当中获得证据信息,如公式15所示,在处理输入时本文使用预训练语言模型(Pre-training Language Models,PLMs)对本文进行处理,并使用最后一个隐藏层的隐藏状态作为从文本当中提取的证据,
Ct=PLMs(s)#(15)
其中s为状态向量;
子步骤3-4,构建决策层,如公式16所示,最后来自文本的证据Ct,来自图的证据Cg以及来自路径的证据Cp通过拼接再送入决策层当中计算分数并得到最终的预测结果,
ρ(Qi,Aij)=Wmlp([Cp:Ct:Cg])+bmlp#(16)
其中,Wmlp和bmlp为待学习的模型参数,[:]为拼接函数,ρ(Qi,Aij)为问题Qi的选项Aij的分数;
子步骤3-5,构建损失函数层,本层使用交叉熵损失作为所述模型的训练损失函数,如公式17所示,在训练阶段本方法通过最小化交叉熵损失组成最大化正确答案
Figure FDA0003585259410000041
的分数;
Figure FDA0003585259410000042
子步骤3-6,联合训练损失,采用随机初始化的方式对所有的参数进行初始化,在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,初始学习率设置为0.001,当训练损失不再下降或训练轮数超过50轮时,模型训练结束,并保存在验证集上表现最好的模型。
4.根据权利要求1所述的基于知识图谱的答案获取方法,其特征在于,步骤2:中迪杰斯特拉算法的思想为:具体如下:
(1)将关键词在知识图谱当中对应的实体节点作为有向图当中的节点,实体之间的关系视为有向图当中的边,相邻节点之间距离为1;
(2)选择一个问题关键词作为源点v,初始时,S中只有源点,即S={v},v的距离为0,到自己的距离为0,U包含除v外的所有其他顶点,v与U中顶点u距离为1(若v到u存在边)或∞(v到u不存在边);
(3)从U中选取一个距离v最小的顶点k加入到S中;
(4)以k为新考虑的中间点,修改U中各顶点的距离,若从源点v经过顶点k到顶点u的距离比原来距离(不经过顶点k)短,则修改顶点u的距离,修改后的距离值为顶点k的距离加上1;
(5)重复(3)、(4)直到所有的顶点都加入到S中;
(6)重复(2)到(5)直到所有问题关键词节点已完成到选项关键词节点最短路径的查询。
CN202210360978.3A 2022-04-07 2022-04-07 一种基于知识图谱的答案获取方法 Pending CN114896377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210360978.3A CN114896377A (zh) 2022-04-07 2022-04-07 一种基于知识图谱的答案获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210360978.3A CN114896377A (zh) 2022-04-07 2022-04-07 一种基于知识图谱的答案获取方法

Publications (1)

Publication Number Publication Date
CN114896377A true CN114896377A (zh) 2022-08-12

Family

ID=82716323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210360978.3A Pending CN114896377A (zh) 2022-04-07 2022-04-07 一种基于知识图谱的答案获取方法

Country Status (1)

Country Link
CN (1) CN114896377A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252314A (zh) * 2023-08-22 2023-12-19 杭州万澜科技有限公司 基于最优路径的实验规划方法与系统
CN117290489A (zh) * 2023-11-24 2023-12-26 烟台云朵软件有限公司 一种行业问答知识库快速构建方法与系统
CN117573850A (zh) * 2024-01-17 2024-02-20 清华大学 基于知识图谱与内生知识融合的大模型问答方法及系统
WO2024046013A1 (zh) * 2022-08-31 2024-03-07 王举范 一种基于知识图谱最短路径的信息获取方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024046013A1 (zh) * 2022-08-31 2024-03-07 王举范 一种基于知识图谱最短路径的信息获取方法及装置
CN117252314A (zh) * 2023-08-22 2023-12-19 杭州万澜科技有限公司 基于最优路径的实验规划方法与系统
CN117252314B (zh) * 2023-08-22 2024-04-02 杭州万澜科技有限公司 基于最优路径的实验规划方法与系统
CN117290489A (zh) * 2023-11-24 2023-12-26 烟台云朵软件有限公司 一种行业问答知识库快速构建方法与系统
CN117290489B (zh) * 2023-11-24 2024-02-23 烟台云朵软件有限公司 一种行业问答知识库快速构建方法与系统
CN117573850A (zh) * 2024-01-17 2024-02-20 清华大学 基于知识图谱与内生知识融合的大模型问答方法及系统
CN117573850B (zh) * 2024-01-17 2024-04-05 清华大学 基于知识图谱与内生知识融合的大模型问答方法及系统

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN114896377A (zh) 一种基于知识图谱的答案获取方法
US20210019599A1 (en) Adaptive neural architecture search
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN110019685B (zh) 基于排序学习的深度文本匹配方法及装置
CN112214685A (zh) 一种基于知识图谱的个性化推荐方法
US20040162827A1 (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111737426B (zh) 问答模型的训练方法、计算机设备以及可读存储介质
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN116157791A (zh) 一种文本推荐方法、模型训练方法、装置及可读存储介质
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN115374362A (zh) 多路召回模型训练方法、多路召回方法、装置及电子设备
Su et al. Hybrid recommender system based on deep learning model
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
CN114386425B (zh) 用于对自然语言文本内容进行处理的大数据体系建立方法
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置
CN111581326B (zh) 一种基于异构外部知识源图结构抽取答案信息的方法
CN114328820A (zh) 信息搜索方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination