CN112989004B - 面向知识图谱问答的查询图排序方法及系统 - Google Patents

面向知识图谱问答的查询图排序方法及系统 Download PDF

Info

Publication number
CN112989004B
CN112989004B CN202110383401.XA CN202110383401A CN112989004B CN 112989004 B CN112989004 B CN 112989004B CN 202110383401 A CN202110383401 A CN 202110383401A CN 112989004 B CN112989004 B CN 112989004B
Authority
CN
China
Prior art keywords
query graph
score
graph
model
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110383401.XA
Other languages
English (en)
Other versions
CN112989004A (zh
Inventor
陈文亮
贾永辉
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Original Assignee
Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Aiyu Cognitive Intelligent Technology Co ltd filed Critical Suzhou Aiyu Cognitive Intelligent Technology Co ltd
Priority to CN202110383401.XA priority Critical patent/CN112989004B/zh
Publication of CN112989004A publication Critical patent/CN112989004A/zh
Application granted granted Critical
Publication of CN112989004B publication Critical patent/CN112989004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向知识图谱问答的查询图排序方法及系统,包括以下步骤:将自然语言问句解析为对应的候选查询图,获得每个问句对应的候选查询图集合,所述自然语言问句包括训练集、测试集和验证集;从所述候选查询图集合中选择出最优查询图,包括:将候选查询图转换成对应的查询图序列;构建排序模型;使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型;通过最优的排序模型获取测试集中每个问句对应的得分集合,从得分集合中筛选获得分值最高的查询图。其提升了查询图的编码质量,排序过程合理,提高了系统的整体性能。

Description

面向知识图谱问答的查询图排序方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其是指一种面向知识图谱问答的查询图排序方法及系统。
背景技术
知识图谱问答是自然语言处理领域中的重要任务之一,它以自然语言问句作为输入,并从知识图谱中找到相关的实体或属性值作为答案输出。知识图谱问答的出现为人们快速准确地获取知识提供了一种可行的解决方案。同时,多种大型知识图谱的不断发展也为知识图谱的应用奠定了基础,使得开放领域的知识图谱问答应用逐渐进入大众的视野。
已有的知识图谱问答方法可以被分为两种:基于信息检索的方法和基于语义解析的方法。基于信息检索的方法根据问句中的实体在知识图谱中搜索得到相关的候选答案,并且对候选答案进行排序得到最终的答案。在这种思路下,相关研究工作提出了许多有效的问句与候选答案之间的匹配方法,比如基于卷积神经网络和基于长短期记忆网络的方法等。另一种实现知识图谱问答的方法是基于语义解析的方法。这种方式先将问句解析为一种语义表示形式,然后将其与底层知识图谱进行映射从而返回最终答案。常见的语义表示形式有λ-DCS等。相比于基于信息检索的方法,基于语义解析的方法被认为在复杂问题处理上更具可解释性。
在基于语义解析的方式中,基于查询图表示形式的方法被认为能够解决传统语义表示形式与知识图谱的语义结构之间存在的不一致性,并受到研究人员的广泛关注。基于查询图的知识图谱问答可以分为查询图生成和查询图选择两个模块,其中查询图生成着眼于将问句转化为对应的候选查询图,即实现问句的语义理解;而查询图选择模块旨在从候选查询图中选择出最优的查询图,即排除语义理解中存在的各种歧义候选。在查询图生成模块,当前研究主要通过预先定义的操作逐步进行查询图生成。同时为了处理多跳复杂问题,对查询图进行扩展的方法也被提出应用。在查询图选择中,研究人员着眼于通过提升查询图编码来实现更好的查询图选择性能。比如,通过对查询图的不同组件进行特征抽取或者在编码过程中引入句法信息等。
现有技术存在以下技术缺陷:
1、在编码问句与查询图时,使用余弦相似度函数计算两者之间的相似度忽略了问句与查询图之间的交互信息,不利于得到良好的问句与查询图编码向量。
2、在查询图排序过程中,手工设计的特征通常不够鲁棒,同时对于深度神经网络模型也不是必要的。
3、在学习优化排序函数的过程中,没有充分利用不同候选之间的信息,导致模型排序性能相对下降。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中忽略了问句与查询图之间的交互信息,需要人工设计复杂的查询图特征,缺少考虑候选之间联系的技术缺陷。
为解决上述技术问题,本发明提供了一种面向知识图谱问答的查询图排序方法,包括以下步骤:
步骤一、将自然语言问句解析为对应的候选查询图,获得候选查询图集合,所述自然语言问句包括训练集、测试集和验证集;
步骤二、从所述候选查询图集合中选择出最优查询图,包括:
将候选查询图转换成对应的查询图序列;
构建排序模型,其中,所述排序模型包括编码模块和评分模块,所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示,所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分;
使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型;
通过最优的排序模型获取测试集对应的得分集合,从得分集合中筛选获得分值最高的查询图。
作为优选的,所述S1包括:
获取自然语言问句;
通过节点链接得到自然语言问句的约束信息,所述约束信息为实体词、类型词、时间词和序数词中的一种或多种;
获取主路径集合,在所述主路径集合中的每个主路径上依次添加不同的约束信息,获得完整的候选查询图集合;
基于查询图的关系的歧义或实体的歧义,获得候选查询图集合。
作为优选的,所述通过节点链接得到自然语言问句的约束信息,所述约束信息为实体词、类型词、时间词和序数词中的一种或多种,具体包括:
对于实体词链接,使用SMART工具获取提及词和实体词数据对;
对于类型词链接,使用词向量计算类型词和问句中的连续子序列之间的相似度,获取预定数量的提及词和类型词数据对;
对于时间词链接,使用正则匹配来抽取显式的时间信息;
对于序数词链接,使用预定义的序数词模板来抽取序数词表达。
作为优选的,所述将候选查询图转换成对应的查询图序列,包括:
根据预定义的子路径顺序将候选查询图转换成对应的查询图序列。
作为优选的,所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种。
作为优选的,使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型,包括:
使用定义的优化函数计算训练数据的得分的损失值,并使用Adam优化器反向传播计算梯度,并更新排序模型的参数;
通过验证集对更新后的排序模型进行评价,如果更新后的模型的性能超过之前所有的排序模型的性能,那么保存当前更新后的排序模型;
迭代上述步骤,当达到预先设置的最大训练轮次后终止,并获得最优的排序模型。
作为优选的,所述使用定义的优化函数计算训练数据的得分的损失值,其中,训练数据的获取满足:
构建多组训练数据,一组训练数据
Figure BDA0003013891140000041
训练数据C对应的标签记为Y={y0,y1,y2,…,ym},其中,
Figure BDA0003013891140000042
表示单个正例查询图,
Figure BDA0003013891140000043
表示单个负例查询图;
每组训练数据经过BERT和线性层之后的得分为{s0,s1,s2,…,sm},其中,si代表组内第i个训练数据的得分,i=0,1,2,…m。
作为优选的,在优化过程中,采用的优化函数为:
归一化后的概率得分
Figure BDA0003013891140000051
训练数据的损失函数值
Figure BDA0003013891140000052
本发明公开了一种面向知识图谱问答的查询图排序系统,包括:
候选查询图生成模块,所述候选查询图生成模块用于将自然语言问句解析为对应的候选查询图,获得候选查询图集合;
查询图序列生成模块,所述查询图序列生成模块用于将候选查询图转换成对应的查询图序列;
排序模型构建模块,所述排序模型构建模块用于构建排序模型,其中,所述排序模型包括编码模块和评分模块,所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示,所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分;
训练模块,所述训练模块使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型;
测试模块,所述测试模块通过最优的排序模型获取测试集中每个问句对应的得分集合,从得分集合中筛选获得分值最高的查询图。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明在编码阶段,引入了查询图和问句两者之间的交互信息,并且采用更自然地序列编码方式提升了查询图的编码质量。
2、本发明在排序优化阶段,我们通过考虑候选之间的联系进行优化,使得排序过程更加合理,并且提高了系统的整体性能。
附图说明
图1为本发明中面向知识图谱问答的查询图排序方法的流程图;
图2为查询图生成过程的示意图;
图3为查询图到查询图序列的转换示意图;
图4为构建排序模型及优化的示意图,其中,(a)为查询图和问句编码框架示意图;(b)为不同的排序策略优化方法示意图,其中
Figure BDA0003013891140000061
表示问句和正例查询图构成的序列,
Figure BDA0003013891140000062
Figure BDA0003013891140000063
表示问句和不同的负例查询图构成的三个序列。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明的面向知识图谱问答的查询图排序方法,包括以下步骤:
步骤一、将自然语言问句解析为对应的候选查询图,获得候选查询图集合,所述自然语言问句包括训练集、测试集和验证集。
(1)获取自然语言问句。
(2)通过节点链接得到自然语言问句的约束信息,所述约束信息为实体词、类型词、时间词和序数词中的一种或多种。对于实体词链接,使用SMART工具获取提及词和实体词数据对。对于类型词链接,使用词向量计算类型词和问句中的连续子序列之间的相似度,获取预定数量的提及词和类型词数据对。对于时间词链接,使用正则匹配来抽取显式的时间信息。对于序数词链接,使用预定义的序数词模板来抽取序数词表达。
(3)获取主路径集合,在所述主路径集合中的每个主路径上依次添加不同的约束信息,获得完整的候选查询图集合。
(4)基于查询图的关系的歧义或实体的歧义,获得候选查询图集合。
查询图生成的目标是将自然语言问句解析为对应的查询图结构。给定一个问句q,本发明首先通过节点链接得到四种约束信息,包括实体词、类型词、时间词以及序数词。对于实体词链接,本发明使用SMART工具获取(提及词,实体词)数据对;对于类型词链接,本发明用词向量计算类型词和问句中的连续子序列之间的相似度,并选出前10个(提及词,类型词)数据对;对于时间词链接,本发明使用正则匹配来抽取显式的时间信息;对于序数词链接,本发明使用预定义的序数词模板来抽取序数词表达。图2(a)展示了一个节点链接的结果实例。
在完成节点链接之后,本发明基于链接到的实体词进行一跳和两跳搜索得到主路径信息,如图2(b)所示;然后,本发明在主路径节点上添加相应实体约束,图2(c)展示了相应的结果;接下来,本发明继续添加类型约束、时间约束以及序数词约束,最终得到完整的查询图结构,如图2(d)所示。
通过查询图生成,本发明可以得到每个问句对应的候选查询图集合G={g1,g2,…,gn}。接下来,本发明将通过查询图选择从中选取出最优的查询图结果。
步骤二、从所述候选查询图集合中选择出最优查询图,包括:
S21、将候选查询图转换成对应的查询图序列。根据预定义的子路径顺序将候选查询图转换成对应的查询图序列。所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种。
S22、构建排序模型,其中,所述排序模型包括编码模块和评分模块,所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示,所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分。
S23、使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型。
训练数据的获取满足:
构建多组训练数据,一组训练数据
Figure BDA0003013891140000081
训练数据C对应的标签记为Y={y0,y1,y2,…,ym},其中,
Figure BDA0003013891140000082
表示单个正例查询图,
Figure BDA0003013891140000083
表示单个负例查询图;
每组训练数据经过BERT和线性层之后的得分为{s0,s1,s2,…,sm},其中,si代表组内第i个训练数据的得分,i=0,1,2,…m。
在优化过程中,采用的优化函数为:
归一化后的概率得分
Figure BDA0003013891140000084
训练数据的损失函数值
Figure BDA0003013891140000085
使用定义的优化函数计算训练数据的得分的损失值,并使用Adam优化器反向传播计算梯度,并更新排序模型的参数。
通过验证集对更新后的排序模型进行评价,如果更新后的模型的性能超过之前所有的排序模型的性能,那么保存当前更新后的排序模型。
迭代上述步骤,当达到预先设置的最大训练轮次后终止,并获得最优的排序模型。
S24、通过最优的排序模型获取测试集对应的得分集合,从得分集合中筛选获得分值最高的查询图。
下面,结合具体实施方式对步骤二中的技术方案做进一步说明。
由于查询图生成过程中歧义的存在,查询图生成可能产生许多候选查询图。因此本发明设计一个匹配方案从候选查询图中选择出最优查询图g*。在这部分,本发明的说明书首先介绍如何将查询图g∈G转换为查询图序列gs;然后描述问句q和查询图序列qs的编码方法;最后介绍相关的优化方法。
查询图到序列的转换过程可以被视为是查询图生成的拆解过程。给定一个查询图,本发明根据预定义的子路径顺序将查询图转换成对应的查询图序列。具体而言,本发明首先根据不同的约束将查询图拆分为不同的子路径。经过图拆解,本发明可以得到五种子路径序列,分别是类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列以及主路径序列。以图3为例,与实体词“Prime minister”对应的实体词路径序列为“basictitle prime minister.”。最后,五种子路径序列被组合在一起形成完整的查询图序列。需要注意的是,为了区分不同的子路径序列,本发明添加了额外的标记([unused0-3])来分隔不同的子路径序列,并且答案节点的信息同样被加入到查询图序列中,而不仅仅用一个标识符来表达。
本发明选择在自然语言处理中广被应用的BERT框架作为编码器。BERT是一种预训练语言模型,它可以针对单个句子或者句子对进行编码。为了引入问句和查询图序列之间的交互信息,本发明采用BERT中的句子对编码策略,编码框架如图4(a)所示。
给定一个问句q={w1,w2,…,wn}和查询图序列gs={u1,u2,…,un},本发明通过特殊的标记将q和gs拼接在一起形成句子对,记为
Figure BDA0003013891140000091
Figure BDA0003013891140000092
对于候选查询图G中的每个查询图g,其都可以和对应的问句q形成句子对
Figure BDA0003013891140000101
然后,所有句子对被依次输入给BERT进行编码。本发明使用BERT中的[CLS]节点输出作为问句和查询图序列的语义表示,记为f。
本发明提出了一种查询图排序方法,它可以通过三种不同的优化策略实现,分别为单点优化、成对优化和列表优化。在进行排序之前,本发明首先对训练数据进行预处理。根据正确的答案能否可以被获取,候选查询图可以被分为两类:G+和G-,其中G+表示正例查询图集合,G-表示负例查询图集合。相应的,本发明使用
Figure BDA0003013891140000102
Figure BDA0003013891140000103
表示单个正例查询图和负例查询图。无论是正例查询图还是负例查询图,每个查询图gi都会经过BERT框架得到对应的表示fi,然后再经过一个线性层映射为每个查询图成为最优查询图的得分si
单点优化的特点是逐个地对每个候选查询图进行处理,不考虑候选查询图之间的联系。在单点优化策略下,本发明将查询图排序问题作为一个简单的二分类任务。如图4(b)所示,每个查询图gi在单点优化方式下是被独立进行优化的。
对于每个候选查询图gi,它对应的标签yi∈{1,0},其中“1”表示正例,“0”表示负例。在优化过程中,本发明采用交叉熵损失函数进行优化,并且选择最高得分的查询图作为最优查询图g*。损失函数的具体定义如下:
Figure BDA0003013891140000104
Lpoint=-∑yilog(s'i)+(1-yi)log(1-s'i)。 (2)
成对优化可以考虑两两候选之间的联系,通过计算两个候选之间的相对次序达到全局排序的目的。当使用成对优化方法时,本发明将查询图排序问题视为如何区分正例查询图和负例查询图的问题。在这种情况下,本发明构建正负例查询图对,然后优化正负例对之间的得分,优化方式如图4(b)所示。
对于每个正负例查询图对
Figure BDA0003013891140000111
通过BERT编码以及线性层映射可以得到对应的得分为si和sj,然后si和sj通过等式(1)被归一化为s'i和sj'。本发明使用合页损失函数来优化正例和负例对,并且使正负例之间的得分之差稳定在一个固定值λ。合页损失函数的具体定义如下:
Lpair=max{0,λ-s'i+s'j}, (3)
其中λ取值为0.5。
列表优化可以考虑所有候选之间的内部联系,并且直接优化整个候选之间的次序。不过在查询图选择中,本发明并不在意正例之前的次序,或者负例之间的次序,本发明的优化目标是把正例排在第一位即可。如图4(b)所示,列表优化时能够考虑一组候选之间的联系,并且根据一组候选的得分进行整体优化。
在构建训练数据时,本发明选择每个正例查询图和固定数量的负例查询图形成一组数据
Figure BDA0003013891140000112
其对应的标签记为Y={y0,y1,y2,…,ym}。每组数据经过BERT和线性层之后的得分为{s0,s1,s2,…,sm}。在优化过程中,本发明采用下面的优化函数:
Figure BDA0003013891140000113
Figure BDA0003013891140000114
本发明还公开了一种面向知识图谱问答的查询图排序系统,包括候选查询图生成模块、查询图序列生成模块、排序模型构建模块、训练模块和测试模块。
所述候选查询图生成模块用于将自然语言问句解析为对应的候选查询图,获得候选查询图集合。所述查询图序列生成模块用于将候选查询图转换成对应的查询图序列。
所述排序模型构建模块用于构建排序模型,其中,所述排序模型包括编码模块和评分模块,所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示,所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分。
所述训练模块使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型。
所述测试模块通过最优的排序模型获取测试集中每个问句对应的得分集合,从得分集合中筛选获得分值最高的查询图。
本发明通过引入问句与查询图之间的交互信息来提升当前的特征编码质量,同时使用深度神经网络替代以往复杂的人工特征。在此基础上,设计了不同的优化训练方法来充分利用不同候选之间的信息,从而有效提高了查询图排序的性能,实现了更好的知识图谱问答系统。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (4)

1.一种面向知识图谱问答的查询图排序方法,其特征在于,包括以下步骤:
S1、将自然语言问句解析为对应的候选查询图,获得每个问句对应的候选查询图集合,所述自然语言问句包括训练集、测试集和验证集;
S2、从所述候选查询图集合中选择出最优查询图,包括:
将候选查询图转换成对应的查询图序列,包括:
根据预定义的子路径顺序将候选查询图转换成对应的查询图序列;所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种;
构建排序模型,其中,所述排序模型包括编码模块和评分模块,所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示,所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分;
使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型,包括:使用定义的优化函数计算训练数据的得分的损失值,并使用Adam优化器反向传播计算梯度,并更新排序模型的参数;通过验证集对更新后的排序模型进行评价,如果更新后的模型的性能超过之前所有的排序模型的性能,那么保存当前更新后的排序模型;迭代上述步骤,当达到预先设置的最大训练轮次后终止,并获得最优的排序模型;
通过最优的排序模型获取测试集中每个问句对应的得分集合,从得分集合中筛选获得分值最高的查询图;
其中,所述使用定义的优化函数计算训练数据的得分的损失值,其中,训练数据的获取满足:
构建多组训练数据,一组训练数据
Figure FDA0003446140280000021
训练数据C对应的标签记为Y={y0,y1,y2,...,ym},其中,
Figure FDA0003446140280000022
表示单个正例查询图,
Figure FDA0003446140280000023
表示单个负例查询图;
每组训练数据经过BERT和线性层之后的得分为{s0,s1,s2,...,sm},其中,si代表组内第i个训练数据的得分,i=0,1,2,…m;
在优化过程中,采用的优化函数为:
归一化后的概率得分
Figure FDA0003446140280000024
训练数据的损失函数值
Figure FDA0003446140280000025
2.根据权利要求1所述的面向知识图谱问答的查询图排序方法,其特征在于,所述S1包括:
获取自然语言问句;
通过节点链接得到自然语言问句的约束信息,所述约束信息为实体词、类型词、时间词和序数词中的一种或多种;
获取主路径集合,在所述主路径集合中的每个主路径上依次添加不同的约束信息,获得完整的候选查询图集合。
3.根据权利要求2所述的面向知识图谱问答的查询图排序方法,其特征在于,所述通过节点链接得到自然语言问句的约束信息,所述约束信息为实体词、类型词、时间词和序数词中的一种或多种,具体包括:
对于实体词链接,使用SMART工具获取提及词和实体词数据对;
对于类型词链接,使用词向量计算类型词和问句中的连续子序列之间的相似度,获取预定数量的提及词和类型词数据对;
对于时间词链接,使用正则匹配来抽取显式的时间信息;
对于序数词链接,使用预定义的序数词模板来抽取序数词表达。
4.一种面向知识图谱问答的查询图排序系统,其特征在于,包括:
候选查询图生成模块,所述候选查询图生成模块用于将自然语言问句解析为对应的候选查询图,获得候选查询图集合,所述自然语言问句包括训练集、测试集和验证集;
查询图序列生成模块,所述查询图序列生成模块用于将候选查询图转换成对应的查询图序列,包括:根据预定义的子路径顺序将候选查询图转换成对应的查询图序列;所述预定义的子路径包括类型词路径序列、实体词路径序列、时间词路径序列、序数词路径序列和主路径序列中的一种或多种;
排序模型构建模块,所述排序模型构建模块用于构建排序模型,其中,所述排序模型包括编码模块和评分模块,所述编码模块使用BERT获得自然语言问句和查询图序列的语义表示,所述评分模块将自然语言问句和查询图序列的语义表示转化为查询图对应的评分;
训练模块,所述训练模块使用训练集对所述排序模型进行迭代训练,获得训练后的排序模型,通过验证集评价训练后的排序模型,保存评价得分最高的排序模型作为最优的排序模型,包括:使用定义的优化函数计算训练数据的得分的损失值,并使用Adam优化器反向传播计算梯度,并更新排序模型的参数;通过验证集对更新后的排序模型进行评价,如果更新后的模型的性能超过之前所有的排序模型的性能,那么保存当前更新后的排序模型;迭代上述步骤,当达到预先设置的最大训练轮次后终止,并获得最优的排序模型;
测试模块,所述测试模块通过最优的排序模型获取测试集中每个问句对应的得分集合,从得分集合中筛选获得分值最高的查询图,其中,所述使用定义的优化函数计算训练数据的得分的损失值,其中,训练数据的获取满足:
构建多组训练数据,一组训练数据
Figure FDA0003446140280000041
训练数据C对应的标签记为Y={y0,y1,y2,...,ym},其中,
Figure FDA0003446140280000042
表示单个正例查询图,
Figure FDA0003446140280000043
表示单个负例查询图;
每组训练数据经过BERT和线性层之后的得分为{s0,s1,s2,...,sm},其中,si代表组内第i个训练数据的得分,i=0,1,2,…m;
在优化过程中,采用的优化函数为:
归一化后的概率得分
Figure FDA0003446140280000044
训练数据的损失函数值
Figure FDA0003446140280000045
CN202110383401.XA 2021-04-09 2021-04-09 面向知识图谱问答的查询图排序方法及系统 Active CN112989004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110383401.XA CN112989004B (zh) 2021-04-09 2021-04-09 面向知识图谱问答的查询图排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110383401.XA CN112989004B (zh) 2021-04-09 2021-04-09 面向知识图谱问答的查询图排序方法及系统

Publications (2)

Publication Number Publication Date
CN112989004A CN112989004A (zh) 2021-06-18
CN112989004B true CN112989004B (zh) 2022-03-11

Family

ID=76339641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110383401.XA Active CN112989004B (zh) 2021-04-09 2021-04-09 面向知识图谱问答的查询图排序方法及系统

Country Status (1)

Country Link
CN (1) CN112989004B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344122B (zh) * 2021-06-29 2023-06-16 复旦大学 一种操作流程诊断方法、装置及存储介质
CN113742447B (zh) * 2021-07-19 2024-04-02 暨南大学 基于查询路径生成的知识图谱问答方法、介质和设备
CN113468311B (zh) * 2021-07-20 2023-09-19 四川启睿克科技有限公司 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN113486092B (zh) * 2021-07-30 2023-07-21 苏州工业职业技术学院 一种基于时间约束的时间图近似查询方法及装置
CN113626574B (zh) * 2021-08-19 2023-08-29 成都数联云算科技有限公司 一种信息查询方法及系统及装置及介质
CN113779272B (zh) * 2021-09-15 2024-01-26 上海泓笛数据科技有限公司 基于知识图谱的数据处理方法、装置、设备及存储介质
CN117332097B (zh) * 2023-11-30 2024-03-01 北京大数据先进技术研究院 一种基于时空语义约束的知识问答方法、装置和产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325108B (zh) * 2018-08-13 2022-05-27 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质
CN111488441B (zh) * 2020-04-08 2023-08-01 北京百度网讯科技有限公司 问题解析方法、装置、知识图谱问答系统和电子设备
CN111506722B (zh) * 2020-06-16 2024-03-08 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN111930906A (zh) * 2020-07-29 2020-11-13 北京北大软件工程股份有限公司 基于语义块的知识图谱问答方法及装置
CN112364132A (zh) * 2020-11-12 2021-02-12 苏州大学 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN112328773A (zh) * 2020-11-26 2021-02-05 四川长虹电器股份有限公司 基于知识图谱的问答实现方法和系统

Also Published As

Publication number Publication date
CN112989004A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112989004B (zh) 面向知识图谱问答的查询图排序方法及系统
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN114020862A (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN110245238B (zh) 基于规则推理和句法模式的图嵌入方法及系统
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN111339269A (zh) 模板自动生成的知识图谱问答训练及应用服务系统
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN113204976B (zh) 一种实时问答方法及系统
CN110851584A (zh) 一种法律条文精准推荐系统和方法
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN113468891A (zh) 文本处理方法以及装置
CN117312499A (zh) 一种基于语义的大数据分析系统及方法
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN115115984A (zh) 视频数据处理方法、装置、程序产品、计算机设备和介质
CN115795018B (zh) 一种面向电网领域的多策略智能搜索问答方法及系统
CN117034135A (zh) 一种基于提示学习和双信息源融合的api推荐方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115238705A (zh) 语义解析结果重排序方法及系统
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant