CN113742447A - 基于查询路径生成的知识图谱问答方法、介质和设备 - Google Patents
基于查询路径生成的知识图谱问答方法、介质和设备 Download PDFInfo
- Publication number
- CN113742447A CN113742447A CN202110814028.9A CN202110814028A CN113742447A CN 113742447 A CN113742447 A CN 113742447A CN 202110814028 A CN202110814028 A CN 202110814028A CN 113742447 A CN113742447 A CN 113742447A
- Authority
- CN
- China
- Prior art keywords
- predicate
- question
- constraint condition
- answer
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 60
- 230000008569 process Effects 0.000 claims description 32
- 238000003062 neural network model Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 4
- 241000607479 Yersinia pestis Species 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于查询路径生成的知识图谱问答方法、介质和设备,首先针对问题‑答案训练集中各问题‑答案训练样本,基于知识图谱构建问题‑谓语序列数据集,然后训练得到谓语序列检测器;针对需要回答的问题,首先通过谓语序列检测器识别出问题的谓语序列;通过问题的焦点词、谓语序列和实体的标签值构建核心路径,接着通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案;本发明能够有效提高知识图谱的搜索效率,并且能够精确地理解问题的意图,大大缩小答案的选择范围,保证答案的正确性,节省资源的耗费。
Description
技术领域
本发明属于计算机应用技术的知识图谱问答技术领域,特别涉及一种基于查询路径生成的知识图谱问答方法、介质和设备。
背景技术
在信息爆炸的时代背景下,虽然搜索引擎为人们在检索信息方面提供一定程度的帮助,但是人们仍需要花费不少精力来获得自己想要的信息。当用户利用引擎进行搜索时,搜索引擎只会返回包含搜索词的相关网页,然后用户不得不进入某些网页查找信息。而问答系统是信息检索系统的高级形式,其旨在解答自然语言形式的问题,即用户不用做多余的操作就可以在最短的时间内获取最为简洁、最为准确的信息,大大提升用户的使用体验。基于知识图谱的问答系统具有数据优势:第一,在知识图谱中,实体与实体之间或实体与属性值之间通过带有语义信息的边关联,而关联信息为理解语义提供了条件。第二,知识图谱的构建需要专业人士或专业数据库的介入,知识图谱的数据相较于纯文本的数据拥有更高的准确率。第三,知识图谱的结构化形式,提高了计算机的检索效率,并且为答案的精确定位创造了可能。因此,基于知识图谱的问答系统具有很好的应用前景。
基于知识图谱的问答系统具有数据优势,利用知识图谱,实现自动问答系统,引起国内外学者的高度关注。目前,利用知识图谱来回答问题的方法可被分为5类,分别是:基于模板的方法、基于查询图生成的方法、基于网络的方法、基于问题图对齐的方法、基于嵌入的方法。
然而,上述基于知识图谱的问答方法存在着一些不足之处。在基于模板的方法中,利用手工定义的模板不可能覆盖所有的问答情况;在基于查询图生成的方法中,建立问题与各候选查询图之间的联系,存在查询图生成成本高、知识图谱搜索空间大与搜索效率低的缺陷;在基于嵌入的方法中,该方法是一种黑盒方式,具有较差的可解释性。此外,针对复杂问题(具有多跳关系的问题或具有约束条件的问题)的回答,基于知识图谱的问答方法还有答案搜索不全、答案选择不准的问题。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于查询路径生成的知识图谱问答方法,该方法能够有效提高知识图谱的搜索效率,并且能够精确地理解问题的意图,大大缩小答案的选择范围,保证答案的正确性,节省资源的耗费,增强问答的可解释性。
本发明的第二目的在于提供一种基于查询路径生成的知识图谱问答装置。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:一种基于查询路径生成的知识图谱问答方法,步骤包括:
针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集;
基于问题-谓语序列数据集训练得到谓语序列检测器;
针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;
通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,通过核心路径获取到候选答案;
通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;
根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
优选的,问题-谓语序列数据集的构建过程如下:
针对问题-答案训练集中各问题-答案训练样本,提取问题、焦点词和一个答案;
以焦点词作为起点,以答案作为终点,并结合焦点词和答案的标签值,设计Cypher语句;
利用Cypher语句在Neo4j数据库中执行查询,获取到问题的一个或多个谓语序列;
计算问题与各谓语序列之间的语义相似度,确定出与问题在语义上最相似的一个谓语序列;
将问题以及与问题在语义上最相似的一个谓语序列作为问题-谓语序列数据样本,构建得到问题-谓语序列数据集。
优选的,基于问题-谓语序列数据集训练得到谓语序列检测器的具体过程如下:
S21、将问题输入到神经网络模型中,经过神经网络模型中嵌入模块和编码模块后,得到问题的向量表示;
S22、将问题的向量表示输入到分类模块中,输出第一个预测值谓语的分类标签,并得到所对应的第一个预测值谓语;
S23、确定分类模块当前输出的分类标签所对应的谓语是否为空;
若是,执行步骤S26;
若否,执行步骤S24;
S24、连接问题和分类模块当前输出的谓语,并且输入到神经网络模型中,经过嵌入模块和编码模块后得到问题和当前谓语的向量表示;
S25、将问题和当前谓语的向量表示输入到分类模块中,输出下一个输出下一个预测值谓语的分类标签,得到所对应的下一个预测值谓语,然后执行步骤S23;
S26、判定训练是否结束;
若否,则从问题-谓语序列数据集中读取下一对问题和谓语序列,并且返回步骤S21;
若是,输出谓语序列检测器;
针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列的具体过程如下:
S31、输入问题至谓语序列检测器,输出问题的第一个谓语;
S32、确定谓语序列检测器当前输出的谓语是否为空;
若否,则连接谓语序列检测器当前输入的问题和当前输出的谓语,得到连接结果,然后执行步骤S33;
若是,则执行步骤S34;
S33、将连接结果输入到谓语序列检测器中,输出问题的下一个谓语,并且返回步骤S32;
S34、将谓语序列检测器所获得的谓语构成谓语序列。
优选的,通过问题的焦点词、谓语序列和实体的标签值,构建核心路径的具体过程如下:
S41、以问题的焦点词为起点,利用知识图谱,链接谓语序列的第一个谓语,记为谓语W1,求出三元组(焦点词,谓语W1,node1)的未知元素node1;
S42、检查谓语序列,确定当前完成链接的谓语是否为谓语序列的最后一个谓语;
若否,则执行步骤S43;
若是,则执行步骤S44;
S43、将谓语序列中下一个谓语Wi作为当前谓语,i=2,3,...,N,然后以上一个三元组中求出的未知元素nodei-1为起点,利用知识图谱,链接当前谓语,求出当前三元组(nodei-1,谓语Wi,nodei)的未知元素nodei,然后返回步骤S42;
S44、生成核心路径,形式为:
焦点词→谓语W1→node1→...→nodeN-1→谓语WN→nodeN;
其中,N为谓语序列中谓语的数量,WN为谓语序列中第N个谓语,nodeN为求出的三元组(nodeN-1,谓语WN,nodeN)的未知元素;
S45、将核心路径中的nodeN作为候选答案。
优选的,通过分析问题识别约束条件,包括问题的约束条件和查询路径的约束条件;所述问题的约束条件包括标签值型约束条件、实体型约束条件、时间型约束条件和序数型约束条件;
基于核心路径构建得到查询路径的具体过程如下:
S51、针对问题,先识别问题的约束条件,根据问题的约束条件决定是否扩展核心路径;
若问题的约束条件为空或问题的约束条件是标签值型数据,则无需对核心路径进行扩展,将核心路径直接作为查询路径;
若问题的约束条件是实体型数据、时间型数据或序数型数据,则需对核心路径进行扩展,进入步骤S52;
S52、针对问题,识别查询路径的约束条件,并且将其挂载到核心路径上,得到查询路径。
更进一步的,所述时间型约束条件包括显式时间型约束条件、显隐式时间型约束条件、隐式时间型约束条件;
识别问题的约束条件的具体过程如下:
当问题存在名词词性,且该名词最靠近疑问词,同时该名词指示着知识图谱的实体标签值,则该问题具有标签值型约束条件,且该名词所指示的实体标签值是问题的约束条件;
当问题存在名词词性,且该名词对应到知识图谱中具有明显的指示作用,则该问题具有实体型约束条件,且该名词是问题的约束条件;
当问题存在基数词词性,则该问题具有显式时间型约束条件,且该基数词是问题的约束条件;
当问题存在时间指示词,则该问题具有显隐式时间型约束条件,且该时间状语从句是问题的约束条件;
若约束条件暗含在问题的时态上,则该问题具有隐式时间型约束条件,且该问题的时态是问题的约束条件;
若问题存在序数词词性,则该问题具有序数型约束条件,且该序数词是问题的约束条件;
查询路径的约束条件通过查询路径约束条件识别模型进行识别,查询路径约束条件识别模型基于问题-约束条件数据集训练得到,训练过程如下:
S601、针对问题-答案训练集,确定与问题最为相似的查询路径的约束条件,从而构建问题-约束条件数据集;
S602、针对问题-约束条件数据集的每对问题和约束条件,合并问题和已去掉焦点词的问题,形成输入文本;
S603、将输入文本输入到神经网络模型中,经过神经网络模型嵌入模块和编码模块,输出问题和已去掉焦点词的问题的向量表示;
S604、将问题和已去掉焦点词的问题的向量表示输入到分类模块中,输出查询路径的约束条件的分类标签,且得到所对应的查询路径的约束条件;
S605、确定训练是否结束;
若是,则得到查询路径约束条件识别模型;
若否,则从问题-约束条件数据集中读取下一对问题和约束条件,然后返回步骤S602。
优选的,根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案的方式如下:
对于无约束条件的问题,将核心路径中获取到的候选答案确定为最终答案;
对于存在标签值型约束条件的问题,在其查询路径中,当候选答案的标签值与约束条件一致时,该候选答案被选择为最终答案;
对于存在实体型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中,决定性客体的确定方式为:获取查询路径中的各扩展三元组,计算各扩展三元组的客体与已去除焦点词的问题之间的语义相似度分数,得分最高的客体是决定性客体;
对于存在时间型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中:
对于存在显式时间型约束条件的问题,决定性客体的确定方式为:如果扩展三元组的客体的时间范围包含着问题的显式时间,那么该客体是决定性客体;
对于存在显隐式时间型约束条件的问题,决定性客体的确定方式为:首先确定与时间状语从句之间的语义相似度最高的候选答案,然后确定上述候选答案所对应的扩展三元组的客体的时间范围,最后根据时间指示词,推理符合的时间范围,若查询路径的扩展三元组的客体的时间范围包含着推理所得的时间范围,那么该客体是决定性客体;
对于存在隐式时间型约束条件的问题,决定性客体的确定方式为:通过问题的时态,推理问题的时间范围;若查询路径的扩展三元组的客体的时间范围包含着推理所得的时间范围,那么该客体是决定性客体;
对于存在序数型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中,决定性客体通过查询路径的扩展三元组的客体的排列顺序来确定。
本发明的第二目的通过下述技术方案实现:一种基于查询路径生成的知识图谱问答装置,包括:
问题-谓语序列数据集构建模块,用于针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集;
谓语序列检测器训练模块,用于基于问题-谓语序列数据集训练得到谓语序列检测器;
检测谓语序列模块,用于针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;
生成核心路径模块,用于通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,并通过核心路径获取到候选答案;
识别约束条件模块,用于通过分析问题识别约束条件;
构建查询路径模块,用于在识别出的约束条件基础上,基于核心路径构建得到查询路径;
选择答案模块,用于根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
本发明的第三目的通过下述技术方案实现:一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现本发明第一目的所述的基于查询路径生成的知识图谱问答方法。
本发明的第四目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的基于查询路径生成的知识图谱问答方法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明基于查询路径生成的知识图谱问答方法,首先针对问题-答案训练集中各问题-答案训练样本,基于知识图谱构建问题-谓语序列数据集,然后训练得到谓语序列检测器;针对需要回答的问题,首先通过谓语序列检测器识别出问题的谓语序列;通过问题的焦点词、谓语序列和实体的标签值构建核心路径,接着通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;依据问题的语义,以及核心路径中获取到的候选答案和查询路径,选择最终答案。由上述可见,本发明引入谓语序列检测器,将问答方法从查询图层面转换为谓语序列层面,学习的不是查询图的特征,而是问题应该对应的谓语序列,从而减少计算资源的耗费,解决查询图生成成本高的问题。
(2)本发明基于查询路径生成的知识图谱问答方法,针对需要回答的问题,通过问题的焦点词、谓语序列和实体的标签值构建核心路径,利用实体的标签值(即实体的类型值)能够有效限制知识图谱的搜索空间,从而提高搜索的效率,并且保证答案的正确性,解决现有技术在问答过程中知识图谱搜索空间大与搜索效率低的问题。
(3)本发明基于查询路径生成的知识图谱问答方法,提出了分阶段查询路径生成方法,包括谓语序列检测器训练、查询路径生成与答案选择,将问题和谓语序列关联、将问题和扩展三元组关联,而不是将问题和查询图关联,不仅可以增强问答的可解释性,解决查询图生成成本高的问题,而且能够精确地理解问题的意图,大大地缩小答案的选择范围,节省资源的耗费;针对复杂问题,例如具有多跳关系的问题或具有约束条件的问题的回答,也能够实现答案的全面以及正确的搜索。
附图说明
图1是本发明方法整体框架流程图。
图2是本发明方法中问题-谓语序列数据集构建流程图。
图3是本发明方法中过滤谓语序列流程图。
图4是本发明方法中谓语序列检测器训练过程图。
图5是本发明方法中谓语序列检测流程图。
图6是本发明方法中核心路径生成流程图。
图7是本发明方法中查询路径约束条件识别模型训练过程图。
图8是本发明方法中查询路径构建流程图。
图9是本发明方法中确定决定性客体流程图。
图10是本发明方法中确定与时间状语从句之间的语义相似度最高的候选答案流程图。
图11是本发明方法实施例1中举例所涉及知识图谱子图。
图12是本发明装置结构框图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
针对目前现有技术中查询图生成成本高、问答模型可解释性差、知识图谱搜索空间大与搜索效率低等问题,本实施例公开了一种基于查询路径生成的知识图谱问答方法,该方法主要包括谓语序列检测器训练、查询路径生成和答案选择步骤,能够有效提高知识图谱的搜索效率,并且能够精确地理解问题的意图,大大缩小答案的选择范围,保证答案的正确性以及节省资源的耗费。
为便于对本实施例进行理解,对本实施例基于查询路径生成的知识图谱问答方法进行详细介绍。
如图1所示,本实施例一种基于查询路径生成的知识图谱问答方法,具备包括步骤:
S1、针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集。
在本实施例中,针对问题-答案训练集中各问题-答案训练样本,提取问题的焦点词和答案,根据问题的焦点词和答案,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集。如图2中所示,具体过程如下:
S11、针对问题-答案训练集中各问题-答案训练样本,提取问题、焦点词和一个答案。
S12、以焦点词作为起点,以答案作为终点,并结合焦点词和答案的标签值,设计Cypher语句。
S13、利用Cypher语句在Neo4j数据库中执行查询,获取到问题的一个或多个谓语序列。
S14、利用RoBERTa-Large-MNLI模型计算问题与各谓语序列之间的语义相似度,确定出与问题在语义上最相似的一个谓语序列,达到过滤谓语序列的目的。在本实施例中,利用RoBERTa-Large-MNLI模型来过滤谓语序列的流程如图3所示,保留RoBERTa-Large-MNLI模型输出结果为“蕴含关系”的谓语序列,并且其中选择得分最高的谓语序列来作为与问题在语义上最相似的谓语序列。
S15、将问题以及与问题在语义上最相似的一个谓语序列作为问题-谓语序列数据样本,构建得到问题-谓语序列数据集。
S2、基于问题-谓语序列数据集训练得到谓语序列检测器;具体过程如图4中所示:
S21、将问题输入到神经网络模型中,经过神经网络模型中嵌入模块和编码模块后,得到问题向量表示。
在本实施例中,上述神经网络模型可以是RoBERTa模型,本步骤中将问题输入到RoBERTa模型中,经过RoBERTa模型嵌入模块和编码模块处理后得到问题的向量表示。
S22、将问题的向量表示输入到分类模块中,输出第一个预测值谓语的分类标签,并得到所对应的第一个预测值谓语。
在本实施例中,问题的向量表示输入到分类模块中,分类模块由多层感知机实现,问题的向量表示输入到多层感知机后进行如下操作:
S22-1、在该多层感知机中,对问题的向量表示进行第一次线性转换,如下:
y1=x1W1 T+b1;
其中,x1代表输入矩阵,W1代表权重矩阵,b1代表偏移量矩阵,y1代表输出矩阵。
S22-2、在该多层感知机中,经过第一次线性转换,y1先被tanh函数激活,再连接Dropout操作,成为x2,如下:
x2=tanh(y1)。
S22-3、在该多层感知机中,利用目前学习到的特征,进行第二次线性转换,来完成分类任务。第二次线性转换的公式如下:
其中,x2代表输入矩阵,W2代表权重矩阵,b2代表偏移量矩阵,y2代表输出矩阵。
S22-4、以PyTorch的交叉熵损失函数为优化目标函数,该交叉熵损失函数结合LogSoftmax函数和NLLLoss函数,具体如下:
其中,x[j]代表预测值谓语,x[class]代表真值谓语。
S23、确定分类模块当前输出的分类标签所对应的谓语是否为空;
若是,执行步骤S26;
若否,执行步骤S24;
S24、连接问题和分类模块即多层感知机当前输出的谓语,并且输入到RoBERTa模型中,经过嵌入模块和编码模块后得到问题和当前谓语的向量表示。
S25、将问题和当前谓语的向量表示输入到分类模块即多层感知机中,输出下一个预测值谓语的分类标签,得到所对应的下一个预测值谓语,然后执行步骤S23;
S26、判定训练是否结束;
若否,则从问题-谓语序列数据集中读取下一对问题和谓语序列,并且返回步骤S21;
若是,输出谓语序列检测器。
S3、针对需要回答的问题,通过步骤S2中获取到的谓语序列检测器识别出问题的谓语序列,如图5中所示,本实施例中,谓语序列检测器识别出问题的谓语序列过程如下:
S31、输入问题至谓语序列检测器,输出问题的第一个谓语;
S32、确定谓语序列检测器当前输出的谓语是否为空;
若否,则连接谓语序列检测器当前输入的问题和当前输出的谓语,得到连接结果,然后执行步骤S33;
若是,则执行步骤S34;
S33、将连接结果输入到谓语序列检测器中,输出问题的下一个谓语,并且返回步骤S32;
S34、将谓语序列检测器所获得的谓语构成谓语序列。
S4、通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,通过核心路径获取到候选答案。
在本实施例中,如图6中所示,核心路径的构建过程如下:
S41、以问题的焦点词为起点,利用知识图谱(其中实体具有标签值),链接谓语序列的第一个谓语,记为谓语W1,求出三元组(焦点词,谓语W1,node1)的未知元素node1。
S42、检查谓语序列中,确定当前完成链接的谓语是否为谓语序列的最后一个谓语,即是否挖掘完谓语序列;
若否,则执行步骤S43;
若是,则执行步骤S44;
S43、将谓语序列中下一个谓语Wi作为当前谓语,i=2,3,...,N,然后以上一个三元组中求出的未知元素nodei-1为起点,利用知识图谱,链接当前谓语,求出当前三元组(nodei-1,谓语Wi,nodei)的未知元素nodei,然后返回步骤S42。
S44、生成核心路径,形式为:
焦点词→谓语W1→node1→...→nodeN-1→谓语WN→nodeN。
其中,N为谓语序列中谓语的数量,WN为谓语序列中第N个谓语,nodeN为求出的三元组(nodeN-1,谓语WN,nodeN)的未知元素。
S45、从核心路径中提取出候选答案,本实施例中,将核心路径中的nodeN作为候选答案。在本实施例中,核心路径的数目可能为一条或多条,候选答案的数量和核心路径的数量相同,即有n条核心路径时就对应有n个候选答案。
S5、通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径。
在本实施例中,约束条件包括问题的约束条件和查询路径的约束条件。其中:
(1)问题的约束条件包括标签值型约束条件、实体型约束条件、时间型约束条件和序数型约束条件,时间型约束条件包括显式时间型约束条件、显隐式时间型约束条件、隐式时间型约束条件;
识别问题的约束条件的具体过程如下:
当问题存在名词词性,且该名词最靠近疑问词,同时该名词指示着知识图谱的实体标签值,则该问题具有标签值型约束条件,且该名词所指示的实体标签值是问题的约束条件;
当问题存在名词词性,且该名词对应到知识图谱中具有明显的指示作用,则该问题具有实体型约束条件,且该名词是问题的约束条件;
当问题存在基数词词性,则该问题具有显式时间型约束条件,且该基数词是问题的约束条件;
当问题存在时间指示词例如“before”、“after”,则该问题具有显隐式时间型约束条件,且该时间状语从句是问题的约束条件;
若约束条件暗含在问题的时态上,则该问题具有隐式时间型约束条件,且该问题的时态是问题的约束条件;
若问题存在序数词词性,则该问题具有序数型约束条件,且该序数词是问题的约束条件。
(2)查询路径的约束条件通过查询路径约束条件识别模型进行识别,查询路径约束条件识别模型基于问题-约束条件数据集训练得到,如图7中所示,训练过程如下:
S501、针对问题-答案训练集,可以通过人工确定与问题最为相似的查询路径的约束条件,从而构建问题-约束条件数据集;
S502、针对问题-约束条件数据集的每对问题和约束条件,合并问题和已去掉焦点词的问题,形成输入文本;
S503、将输入文本输入到神经网络模型中,经过神经网络模型嵌入模块和编码模块,输出问题和已去掉焦点词的问题的向量表示。
在本实施例中,该步骤中所使用的神经网络模型可以是RoBERTa模型,输入文本输入到RoBERTa模型中,经过RoBERTa模型中嵌入模块和编码模块出来后,输出问题和已去掉焦点词的问题的向量表示。
S504、将问题和已去掉焦点词的问题的向量表示输入到分类模块即多层感知机中,输出查询路径的约束条件的分类标签,且得到所对应的查询路径的约束条件。本步骤中,多层感知机的处理过程具体如下:
S504-1、对问题和已去掉焦点词的问题的向量表示进行第一次线性转换。
S504-2、经过第一次线性转换,再连接Dropout操作。
S504-3、对Dropout操作后的特征进行第二次线性转换,来完成分类任务。
S504-4、以PyTorch的交叉熵损失函数为优化目标函数,具体如步骤S22-4中所示。
S505、确定训练是否结束;
若是,则得到查询路径约束条件识别模型;
若否,则从问题-约束条件数据集中读取下一对问题和约束条件,然后返回步骤S502。
在本实施例中,如图8所示,本步骤中基于核心路径构建查询路径的具体实现过程如下:
S51、针对问题,先识别问题的约束条件,根据问题的约束条件决定是否扩展核心路径;
若问题的约束条件为空或问题的约束条件是标签值型数据,则无需对核心路径进行扩展,将核心路径直接作为查询路径;
若问题的约束条件是实体型数据、时间型数据或序数型数据,则需对核心路径进行扩展,进入步骤S52;
S52、针对问题,识别查询路径的约束条件,并且将其挂载到核心路径上,得到查询路径。
S6、根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
在本实施例中,根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案的方式如下:
1)、对于无约束条件的问题,将核心路径中获取到的候选答案确定为最终答案。
2)、对于存在标签值型约束条件的问题,在其查询路径中,当候选答案的标签值与约束条件一致时,该候选答案被选择为最终答案。
3)、对于存在实体型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中,决定性客体的确定方式为:获取查询路径中的各扩展三元组,利用RoBERTa-Large-MNLI模型计算各扩展三元组的客体与已去除焦点词的问题之间的语义相似度分数,如图9所示,将得分最高的客体作为决定性客体。其中查询路径的扩展三元组是由对应核心路径中一个或多个nodei以及查询路径相对于核心路径所扩展的元素组合得到。
在本实施例中,若把核心路径上的所有三元组看作集合A,把查询路径上的所有三元组看作集合B,则扩展三元组相当于集合A(核心路径)在集合B(查询路径)中的补集。例如,核心路径“Justin Bieber→/people/person/sibling_s→Dummy Node→/people/sibling_relationship/sibling→Jaxon Bieber”、查询路径“Justin Bieber→/people/person/sibling_s→Dummy Node→/people/sibling_relationship/sibling→JaxonBieber→/people/person/gender→Male”,那么扩展三元组是“Jaxon Bieber→/people/person/gender→Male”。
4)、对于存在时间型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中:
4-1)、对于存在显式时间型约束条件的问题,决定性客体的确定方式为:如果查询路径的扩展三元组的客体的时间范围包含着问题的显式时间,那么该客体是决定性客体;
4-2)、对于存在显隐式时间型约束条件的问题,决定性客体的确定方式为:首先利用RoBERTa-Large-MNLI模型确定与时间状语从句之间的语义相似度最高的候选答案,如图10所示;然后确定上述候选答案所对应的扩展三元组的客体的时间范围,最后根据时间指示词(如“before”、“after”),推理符合的时间范围,若查询路径的扩展三元组的客体的时间范围包含着推理所得的时间范围,那么该客体是决定性客体;
4-3)、对于存在隐式时间型约束条件的问题,决定性客体的确定方式为:通过问题的时态,推理问题的时间范围;若查询路径的扩展三元组的客体的时间范围包含着推理所得的时间范围,那么该客体是决定性客体;
5)、对于存在序数型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中,决定性客体通过查询路径的扩展三元组的客体的排列顺序来确定。
基于本实施例上述步骤S1至S6的内容,下面举例说明本实施例如何实现针对问题进行问答的。其中:
问题:What is the name of Justin Bieber brother?答案:Jaxon Bieber;
给定的知识图谱子图如图11所示。
上述问题是一个具有2跳关系的、具有实体型约束条件的复杂问题。它的回答过程如下:
S101、针对上述问题,首先利用本实施例上述步骤S2获得的谓语序列检测器识别该问题的谓语序列,具体为:
S101-1、输入文本“What is the name of Justin Bieber brother”,该文本由问题构成,经过谓语序列检测器,输出问题的第1个谓语“/people/person/sibling_s”。
S101-2、输入文本“What is the name of Justin Bieber brother./people/person/sibling_s”,该文本由问题和第1个谓语构成,经过谓语序列检测器,输出问题的第2个谓语“/people/sibling_relationship/sibling”。
S101-3、输入文本“What is the name of Justin Bieber brother./people/person/sibling_s./people/sibling_relationship/sibling”,该文本由问题、第1个谓语W1和第2个谓语W2构成,经过谓语序列检测器,输出问题的第3个谓语W3“”。即第3个谓语W3为空,检测谓语序列的工作停止。
S101-4、将S101-1、S101-2输出的谓语组成谓语序列:
[/people/person/sibling_s,/people/sibling_relationship/sibling]。
S201、利用问题的焦点词“Justin Bieber”、问题的谓语序列和知识图谱中的实体的标签值,构建得到核心路径,具体为:
S201-1、以焦点词“Justin Bieber”为起点(该焦点词的标签值是“MusicalArtist”),利用知识图谱,链接谓语W1“/people/person/sibling_s”,求得三元组“(JustinBieber,/people/person/sibling_s,node1)”的node1是“Dummy Node”。
S201-2、检查谓语序列“[/people/person/sibling_s,/people/sibling_relationship/sibling]”,发现有谓语W2需要链接。
S201-3、以node1“Dummy Node”为起点,利用知识图谱,链接谓语W2“/people/sibling_relationship/sibling”,求得三元组“(Dummy Node,/people/sibling_relationship/sibling,node2)”的node2有“Jaxon Bieber”和“Jazmyn Bieber”,其标签值是“Person”。
S201-4、检查谓语序列“[/people/person/sibling_s,/people/sibling_relationship/sibling]”,发现谓语序列的谓语都已经链接完毕。
S201-5、生成核心路径:
Justin Bieber→/people/person/sibling_s→Dummy Node→/people/sibling_relationship/sibling→Jaxon Bieber;
Justin Bieber→/people/person/sibling_s→Dummy Node→/people/sibling_relationship/sibling→Jazmyn Bieber;
获得候选答案“Jaxon Bieber”和“Jazmyn Bieber”。由上述可知,该问题的核心路径一共有2条,候选答案一共有2个。
S301、确定问题的约束条件,利用查询路径约束条件识别模型,检测出该问题的查询路径约束条件,具体为:
S301-1、在问题“What is the name of Justin Bieber brother”中,具有名词词性的有:“name”、“brother”。
S301-2、在S301-1的2个名词中,基于知识图谱数据集和问答数据集,“brother”具有明显的指示作用。因此,确定该问题具有实体型约束条件,且“brother”是问题的约束条件。
S301-3、利用查询路径约束条件识别模型,得出该问题的查询路径约束条件是“/people/person/gender”。
S401、根据核心路径与约束条件(即问题的约束条件“实体型”和查询路径的约束条件“/people/person/gender”),生成查询路径,具体为:
根据S301,确定查询路径的约束条件需挂载在核心路径上,才能完成查询路径的构建,基于知识图谱,得到查询路径是:
Justin Bieber→/people/person/sibling_s→Dummy Node→/people/sibling_relationship/sibling→Jaxon Bieber→/people/person/gender→Male;
Justin Bieber→/people/person/sibling_s→Dummy Node→/people/sibling_relationship/sibling→Jazmyn Bieber→/people/person/gender→Female;
其中包含的候选答案是“Jaxon Bieber”和“Jazmyn Bieber”。
S501、选择答案,在候选答案“Jaxon Bieber”和“Jazmyn Bieber”中,确定“JaxonBieber”为问题的最终答案。
S501-1、求出查询路径的扩展三元组,分别是扩展三元组1“(Jaxon Bieber,/people/person/gender,Male)”和扩展三元组2“(Jazmyn Bieber,/people/person/gender,Female)”。
S501-2、利用RoBERTa-Large-MNLI模型,分别计算扩展三元组1的客体“Male”和扩展三元组2的客体“Female”与已去除焦点词的问题“What is the name of brother”之间的语义相似度。
S501-3、根据S501-2的结果,得出“Male”比“Female”在语义上与“What is thename of brother”更相似,从而确定“Male”是决定性客体。
S501-4、将决定性客体“Male”所在的查询路径的候选答案“Jaxon Bieber”被确定为问题的最终答案。
本领域技术人员可以理解,实现本实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。应当注意,尽管在附图中以特定顺序描述了本实施例1的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序,有些步骤也可以同时执行,附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2
本实施例公开了一种基于查询路径生成的知识图谱问答装置,如图12所示,包括:
问题-谓语序列数据集构建模块,用于针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集;
谓语序列检测器训练模块,用于基于问题-谓语序列数据集训练得到谓语序列检测器;
检测谓语序列模块,用于针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;
生成核心路径模块,用于通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,通过核心路径获取到候选答案;
识别约束条件模块,用于通过分析问题识别约束条件;
构建查询路径模块,用于在识别出的约束条件基础上,基于核心路径构建得到查询路径;
选择答案模块,用于根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
本实施例上述各个模块的具体实现可以参见上述实施例1,在此不再一一赘述。需要说明的是,本实施例提供的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3
本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的基于查询路径生成的知识图谱问答方法,如下:
针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集;
基于问题-谓语序列数据集训练得到谓语序列检测器;
针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;
通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,通过核心路径获取到候选答案;
通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;
根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
本实施例中,上述各个过程具体实现可以参见上述实施例1,在此不再一一赘述。
在本实施例中,存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、U盘、移动硬盘等介质。
实施例4
本实施例公开了一种计算设备,包括处理器、用于存储处理器可执行程序的存储器,处理器执行存储器存储的程序时,实现实施例1所述的基于查询路径生成的知识图谱问答方法,如下:
针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集;
基于问题-谓语序列数据集训练得到谓语序列检测器;
针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;
通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,通过核心路径获取到候选答案;
通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;
根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
本实施例中,上述各个过程具体实现可以参见上述实施例1,在此不再一一赘述。
本实施例中,计算设备可以是服务器、台式电脑、笔记本电脑、PDA手持终端、平板电脑等终端设备。
在本实施例中,计算设备包括:处理器,存储器,总线和通信接口,处理器、通信接口和存储器通过总线连接;处理器配置成执行存储器中存储的可执行模块,例如计算机程序。
其中,存储器可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网和城域网等。
总线可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线和控制总线等。
其中,存储配置成存储程序,所述处理器在接收到执行指令后,执行所述程序,前述本申请实施例揭示的流过程定义的装置所执行的方法可以应用于处理器中,或者由处理器实现。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)和网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件以及分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存和/或只读存储器,可编程只读存储器或者电可擦写可编程存储器和/或寄存器等本领域成熟的存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于查询路径生成的知识图谱问答方法,其特征在于,步骤包括:
针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集;
基于问题-谓语序列数据集训练得到谓语序列检测器;
针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;
通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,通过核心路径获取到候选答案;
通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;
根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
2.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,问题-谓语序列数据集的构建过程如下:
针对问题-答案训练集中各问题-答案训练样本,提取问题、焦点词和一个答案;
以焦点词作为起点,以答案作为终点,并结合焦点词和答案的标签值,设计Cypher语句;
利用Cypher语句在Neo4j数据库中执行查询,获取到问题的一个或多个谓语序列;
计算问题与各谓语序列之间的语义相似度,确定出与问题在语义上最相似的一个谓语序列;
将问题以及与问题在语义上最相似的一个谓语序列作为问题-谓语序列数据样本,构建得到问题-谓语序列数据集。
3.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,基于问题-谓语序列数据集训练得到谓语序列检测器的具体过程如下:
S21、将问题输入到神经网络模型中,经过神经网络模型中嵌入模块和编码模块后,得到问题的向量表示;
S22、将问题的向量表示输入到分类模块中,输出第一个预测值谓语的分类标签,并得到所对应的第一个预测值谓语;
S23、确定分类模块当前输出的分类标签所对应的谓语是否为空;
若是,执行步骤S26;
若否,执行步骤S24;
S24、连接问题和分类模块当前输出的谓语,并且输入到神经网络模型中,经过嵌入模块和编码模块后得到问题和当前谓语的向量表示;
S25、将问题和当前谓语的向量表示输入到分类模块中,输出下一个输出下一个预测值谓语的分类标签,得到所对应的下一个预测值谓语,然后执行步骤S23;
S26、判定训练是否结束;
若否,则从问题-谓语序列数据集中读取下一对问题和谓语序列,并且返回步骤S21;
若是,输出谓语序列检测器;
针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列的具体过程如下:
S31、输入问题至谓语序列检测器,输出问题的第一个谓语;
S32、确定谓语序列检测器当前输出的谓语是否为空;
若否,则连接谓语序列检测器当前输入的问题和当前输出的谓语,得到连接结果,然后执行步骤S33;
若是,则执行步骤S34;
S33、将连接结果输入到谓语序列检测器中,输出问题的下一个谓语,并且返回步骤S32;
S34、将谓语序列检测器所获得的谓语构成谓语序列。
4.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,通过问题的焦点词、谓语序列和实体的标签值,构建核心路径的具体过程如下:
S41、以问题的焦点词为起点,利用知识图谱,链接谓语序列的第一个谓语,记为谓语W1,求出三元组(焦点词,谓语W1,node1)的未知元素node1;
S42、检查谓语序列,确定当前完成链接的谓语是否为谓语序列的最后一个谓语;
若否,则执行步骤S43;
若是,则执行步骤S44;
S43,将谓语序列中下一个谓语Wi作为当前谓语,i=2,3,...,N,然后以上一个三元组中求出的未知元素nodei-1为起点,利用知识图谱,链接当前谓语,求出当前三元组(nodei-1,谓语Wi,nodei)的未知元素nodei,然后返回步骤S42;
S44、生成核心路径,形式为:
焦点词→谓语W1→node1→...→nodeN-1→谓语WN→nodeN;
其中,N为谓语序列中谓语的数量,WN为谓语序列中第N个谓语,nodeN为求出的三元组(nodeN-1,谓语WN,nodeN)的未知元素;
S45、将核心路径中的nodeN作为候选答案。
5.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,通过分析问题识别约束条件,包括问题的约束条件和查询路径的约束条件;所述问题的约束条件包括标签值型约束条件、实体型约束条件、时间型约束条件和序数型约束条件;
基于核心路径构建得到查询路径的具体过程如下:
S51、针对问题,先识别问题的约束条件,根据问题的约束条件决定是否扩展核心路径;
若问题的约束条件为空或问题的约束条件是标签值型数据,则无需对核心路径进行扩展,将核心路径直接作为查询路径;
若问题的约束条件是实体型数据、时间型数据或序数型数据,则需对核心路径进行扩展,进入步骤S52;
S52、针对问题,识别查询路径的约束条件,并且将其挂载到核心路径上,得到查询路径。
6.根据权利要求5所述的基于查询路径生成的知识图谱问答方法,其特征在于,所述时间型约束条件包括显式时间型约束条件、显隐式时间型约束条件、隐式时间型约束条件;
识别问题的约束条件的具体过程如下:
当问题存在名词词性,且该名词最靠近疑问词,同时该名词指示着知识图谱的实体标签值,则该问题具有标签值型约束条件,且该名词所指示的实体标签值是问题的约束条件;
当问题存在名词词性,且该名词对应到知识图谱中具有明显的指示作用,则该问题具有实体型约束条件,且该名词是问题的约束条件;
当问题存在基数词词性,则该问题具有显式时间型约束条件,且该基数词是问题的约束条件;
当问题存在时间指示词,则该问题具有显隐式时间型约束条件,且该时间状语从句是问题的约束条件;
若约束条件暗含在问题的时态上,则该问题具有隐式时间型约束条件,且该问题的时态是问题的约束条件;
若问题存在序数词词性,则该问题具有序数型约束条件,且该序数词是问题的约束条件;
查询路径的约束条件通过查询路径约束条件识别模型进行识别,查询路径约束条件识别模型基于问题-约束条件数据集训练得到,训练过程如下:
S601、针对问题-答案训练集,确定与问题最为相似的查询路径的约束条件,从而构建问题-约束条件数据集;
S602、针对问题-约束条件数据集的每对问题和约束条件,合并问题和已去掉焦点词的问题,形成输入文本;
S603、将输入文本输入到神经网络模型中,经过神经网络模型嵌入模块和编码模块,输出问题和已去掉焦点词的问题的向量表示;
S604、将问题和已去掉焦点词的问题的向量表示输入到分类模块中,输出查询路径的约束条件的分类标签,且得到所对应的查询路径的约束条件;
S605、确定训练是否结束;
若是,则得到查询路径约束条件识别模型;
若否,则从问题-约束条件数据集中读取下一对问题和约束条件,然后返回步骤S602。
7.根据权利要求1所述的基于查询路径生成的知识图谱问答方法,其特征在于,根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案的方式如下:
对于无约束条件的问题,将核心路径中获取到的候选答案确定为最终答案;
对于存在标签值型约束条件的问题,在其查询路径中,当候选答案的标签值与约束条件一致时,该候选答案被选择为最终答案;
对于存在实体型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中,决定性客体的确定方式为:获取查询路径中的各扩展三元组,计算各扩展三元组的客体与已去除焦点词的问题之间的语义相似度分数,得分最高的客体是决定性客体;
对于存在时间型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中:
对于存在显式时间型约束条件的问题,决定性客体的确定方式为:如果扩展三元组的客体的时间范围包含着问题的显式时间,那么该客体是决定性客体;
对于存在显隐式时间型约束条件的问题,决定性客体的确定方式为:首先确定与时间状语从句之间的语义相似度最高的候选答案,然后确定上述候选答案所对应的扩展三元组的客体的时间范围,最后根据时间指示词,推理符合的时间范围,若查询路径的扩展三元组的客体的时间范围包含着推理所得的时间范围,那么该客体是决定性客体;
对于存在隐式时间型约束条件的问题,决定性客体的确定方式为:通过问题的时态,推理问题的时间范围;若查询路径的扩展三元组的客体的时间范围包含着推理所得的时间范围,那么该客体是决定性客体;
对于存在序数型约束条件的问题,决定性客体所在的查询路径的候选答案被确定为最终答案;其中,决定性客体通过查询路径的扩展三元组的客体的排列顺序来确定。
8.一种基于查询路径生成的知识图谱问答装置,其特征在于,包括:
问题-谓语序列数据集构建模块,用于针对问题-答案训练集中各问题-答案训练样本,在知识图谱中搜索到问题的谓语序列,构建问题-谓语序列数据集;
谓语序列检测器训练模块,用于基于问题-谓语序列数据集训练得到谓语序列检测器;
检测谓语序列模块,用于针对需要回答的问题,通过谓语序列检测器识别出问题的谓语序列;
生成核心路径模块,用于通过问题的焦点词、谓语序列和实体的标签值,构建核心路径,并通过核心路径获取到候选答案;
识别约束条件模块,用于通过分析问题识别约束条件;
构建查询路径模块,用于在识别出的约束条件基础上,基于核心路径构建得到查询路径;
选择答案模块,用于根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
9.一种存储介质,其特征在于,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1~7中任一项所述的基于查询路径生成的知识图谱问答方法。
10.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1~7中任一项所述的基于查询路径生成的知识图谱问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814028.9A CN113742447B (zh) | 2021-07-19 | 2021-07-19 | 基于查询路径生成的知识图谱问答方法、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110814028.9A CN113742447B (zh) | 2021-07-19 | 2021-07-19 | 基于查询路径生成的知识图谱问答方法、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742447A true CN113742447A (zh) | 2021-12-03 |
CN113742447B CN113742447B (zh) | 2024-04-02 |
Family
ID=78728756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110814028.9A Active CN113742447B (zh) | 2021-07-19 | 2021-07-19 | 基于查询路径生成的知识图谱问答方法、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742447B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117332097A (zh) * | 2023-11-30 | 2024-01-02 | 北京大数据先进技术研究院 | 一种基于时空语义约束的知识问答方法、装置和产品 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276525A1 (en) * | 2015-12-03 | 2018-09-27 | Huawei Technologies Co., Ltd. | Method and neural network system for human-computer interaction, and user equipment |
CN109033305A (zh) * | 2018-07-16 | 2018-12-18 | 深圳前海微众银行股份有限公司 | 问题回答方法、设备及计算机可读存储介质 |
US20190205384A1 (en) * | 2017-12-28 | 2019-07-04 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Search method and device based on artificial intelligence |
CN110837550A (zh) * | 2019-11-11 | 2020-02-25 | 中山大学 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN110991183A (zh) * | 2019-12-06 | 2020-04-10 | 北京百度网讯科技有限公司 | 问题的谓词确定方法、装置、设备及存储介质 |
CN111143539A (zh) * | 2019-12-31 | 2020-05-12 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111159345A (zh) * | 2019-12-27 | 2020-05-15 | 中国矿业大学 | 一种中文知识库答案获取方法及其装置 |
CN111177345A (zh) * | 2019-12-19 | 2020-05-19 | 中国平安财产保险股份有限公司 | 基于知识图谱的智能问答方法、装置和计算机设备 |
CN111625633A (zh) * | 2020-05-22 | 2020-09-04 | 广东飞企互联科技股份有限公司 | 基于知识图谱的企业制度问答意图识别方法及装置 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111949758A (zh) * | 2019-05-16 | 2020-11-17 | 北大医疗信息技术有限公司 | 医疗问答推荐方法、推荐系统和计算机可读存储介质 |
CN112328766A (zh) * | 2020-11-10 | 2021-02-05 | 四川长虹电器股份有限公司 | 一种基于路径搜索的知识图谱问答方法和装置 |
CN112380325A (zh) * | 2020-08-15 | 2021-02-19 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 |
CN112784590A (zh) * | 2021-02-01 | 2021-05-11 | 北京金山数字娱乐科技有限公司 | 文本处理方法及装置 |
CN112989005A (zh) * | 2021-04-16 | 2021-06-18 | 重庆中国三峡博物馆 | 一种基于分阶段查询的知识图谱常识问答方法及系统 |
CN112989004A (zh) * | 2021-04-09 | 2021-06-18 | 苏州爱语认知智能科技有限公司 | 面向知识图谱问答的查询图排序方法及系统 |
-
2021
- 2021-07-19 CN CN202110814028.9A patent/CN113742447B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276525A1 (en) * | 2015-12-03 | 2018-09-27 | Huawei Technologies Co., Ltd. | Method and neural network system for human-computer interaction, and user equipment |
US20190205384A1 (en) * | 2017-12-28 | 2019-07-04 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Search method and device based on artificial intelligence |
CN109033305A (zh) * | 2018-07-16 | 2018-12-18 | 深圳前海微众银行股份有限公司 | 问题回答方法、设备及计算机可读存储介质 |
CN111949758A (zh) * | 2019-05-16 | 2020-11-17 | 北大医疗信息技术有限公司 | 医疗问答推荐方法、推荐系统和计算机可读存储介质 |
CN110837550A (zh) * | 2019-11-11 | 2020-02-25 | 中山大学 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN110991183A (zh) * | 2019-12-06 | 2020-04-10 | 北京百度网讯科技有限公司 | 问题的谓词确定方法、装置、设备及存储介质 |
CN111177345A (zh) * | 2019-12-19 | 2020-05-19 | 中国平安财产保险股份有限公司 | 基于知识图谱的智能问答方法、装置和计算机设备 |
CN111159345A (zh) * | 2019-12-27 | 2020-05-15 | 中国矿业大学 | 一种中文知识库答案获取方法及其装置 |
CN111143539A (zh) * | 2019-12-31 | 2020-05-12 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111625633A (zh) * | 2020-05-22 | 2020-09-04 | 广东飞企互联科技股份有限公司 | 基于知识图谱的企业制度问答意图识别方法及装置 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN112380325A (zh) * | 2020-08-15 | 2021-02-19 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 |
CN112328766A (zh) * | 2020-11-10 | 2021-02-05 | 四川长虹电器股份有限公司 | 一种基于路径搜索的知识图谱问答方法和装置 |
CN112784590A (zh) * | 2021-02-01 | 2021-05-11 | 北京金山数字娱乐科技有限公司 | 文本处理方法及装置 |
CN112989004A (zh) * | 2021-04-09 | 2021-06-18 | 苏州爱语认知智能科技有限公司 | 面向知识图谱问答的查询图排序方法及系统 |
CN112989005A (zh) * | 2021-04-16 | 2021-06-18 | 重庆中国三峡博物馆 | 一种基于分阶段查询的知识图谱常识问答方法及系统 |
Non-Patent Citations (2)
Title |
---|
刘波;潘久辉;: "基于频繁模式图的多维关联规则挖掘算法研究", 电子学报, no. 08, 15 August 2007 (2007-08-15) * |
罗鹏;张宾;高亚斌;周晶;: "中文知识图谱在商品咨询自动问答系统中的应用", 自动化技术与应用, no. 06, 25 June 2020 (2020-06-25) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117332097A (zh) * | 2023-11-30 | 2024-01-02 | 北京大数据先进技术研究院 | 一种基于时空语义约束的知识问答方法、装置和产品 |
CN117332097B (zh) * | 2023-11-30 | 2024-03-01 | 北京大数据先进技术研究院 | 一种基于时空语义约束的知识问答方法、装置和产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113742447B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
Sun et al. | Logician: A unified end-to-end neural approach for open-domain information extraction | |
US11080295B2 (en) | Collecting, organizing, and searching knowledge about a dataset | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
US20210064821A1 (en) | System and method to extract customized information in natural language text | |
US20200356729A1 (en) | Generation of text from structured data | |
CN111475623A (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
US20220277005A1 (en) | Semantic parsing of natural language query | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN112925563B (zh) | 一种面向代码重用的源代码推荐方法 | |
US11487795B2 (en) | Template-based automatic software bug question and answer method | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN117874161A (zh) | 表格问答优化方法、装置、电子设备及可读存储介质 | |
Sharath et al. | Question answering over knowledge base using language model embeddings | |
US20220366135A1 (en) | Extended open information extraction system | |
CN116975212A (zh) | 问题文本的答案查找方法、装置、计算机设备和存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
Kumar et al. | Constructing knowledge graph from unstructured text | |
CN113742447B (zh) | 基于查询路径生成的知识图谱问答方法、介质和设备 | |
CN114417016A (zh) | 一种基于知识图谱的文本信息匹配方法、装置及相关设备 | |
WO2022271369A1 (en) | Training of an object linking model | |
US20220164598A1 (en) | Determining a denoised named entity recognition model and a denoised relation extraction model | |
KR102345568B1 (ko) | 자연어 단어를 데이터베이스의 컬럼 및 테이블과 연결하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |