CN114090746B - 一种基于知识图谱的答案查询方法、装置及电子设备 - Google Patents

一种基于知识图谱的答案查询方法、装置及电子设备 Download PDF

Info

Publication number
CN114090746B
CN114090746B CN202111176483.7A CN202111176483A CN114090746B CN 114090746 B CN114090746 B CN 114090746B CN 202111176483 A CN202111176483 A CN 202111176483A CN 114090746 B CN114090746 B CN 114090746B
Authority
CN
China
Prior art keywords
path
candidate
answer
feature vector
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111176483.7A
Other languages
English (en)
Other versions
CN114090746A (zh
Inventor
刘译璟
苏萌
易显维
苏海波
镇诗奇
林志墅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Percent Technology Group Co ltd
Original Assignee
Beijing Percent Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Percent Technology Group Co ltd filed Critical Beijing Percent Technology Group Co ltd
Priority to CN202111176483.7A priority Critical patent/CN114090746B/zh
Publication of CN114090746A publication Critical patent/CN114090746A/zh
Application granted granted Critical
Publication of CN114090746B publication Critical patent/CN114090746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明提供一种基于知识图谱的答案查询方法、装置及电子设备。方法包括:获取用户端的提问语句。在已构建的知识图谱中,确定包含提问语句中实体的搜索子图,并根据搜索子图确定由实体指向候选答案的至少两条候选路径。将各候选路径与提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,人工智能模型是基于样本特征向量和对样本特征向量标注有置信度值的标签所训练得到的,样本特征向量是将样本提问语句对应知识图谱的候选路径与样本提问语句中的问题、答案类型进行组合得到的。筛选出置信度值符合预设标准的目标路径,以将目标路径指向的候选答案作为提问语句的最终答案推送给用户端。

Description

一种基于知识图谱的答案查询方法、装置及电子设备
技术领域
本文件涉及信息处理技术领域,尤其涉及一种基于知识图谱的答案查询方法、装置及电子设备。
背景技术
问答系统(Question Answering System,QA)是信息检索领域中的一种高级形式。它依赖于知识图谱中存储的数以百万计的信息,用准确、简洁的自然语言回答用户用自然语言提出的问题。
在目前基于知识图谱的问答方法中,由于知识图谱的规模比较庞大,检索时可能会差生多条指向候选答案的路径。比如在提出问题:感染伤寒后有什么症状?回生成有候选路径一:'<伤寒_(医疗百科)><常见症状><?x>',和候选路径二:'<伤寒><临床表现><?x>'。现有技术是没办法智能识别出其中哪一条候选最符合问题,导致检索出的最终答案并不一定满足提问者的预期。为此,如何确定候选路径进行进一步筛选是本申请所解决的技术问题。
发明内容
本发明实施例目的是提供一种基于知识图谱的答案查询方法、装置及电子设备,能够在基于知识图谱确定指向候选答案的候选路径后,对候选路径做进一步筛选,从而提高最终答案符合提问者预期的概率。
为了实现上述目的,本发明实施例是这样实现的:
第一方面,提供一种基于知识图谱的答案查询方法,包括:
获取用户端的提问语句;
在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径;
将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的;
从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端。
第二方面,提供一种基于知识图谱的答案查询方法、装置,包括:
提问获取模块,获取用户端的提问语句;
路径确定模块,在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径;
路径筛选模块,将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的;
答案反馈模块,从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端。
第三方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
获取用户端的提问语句;
在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径;
将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的;
从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
获取用户端的提问语句;
在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径;
将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的;
从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端。
基于本发明实施例的方案,在通过知识图谱中确定提问语句所对应的至少两条候选路径后,使用人工智能模型,以“候选路径+问题+答案类型”的特征维度组合作为提问意图的分析因子,预测各候选路径指向正确答案的置信度值,从而根据置信度值,在候选路径中择优选一者检索最终答案以反馈给提问语句的发起方。整个方案能够避免在语意迷惑性较强的错误候选路径中检索答案,因此可以有效提高检索的效率以及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于知识图谱的答案查询方法的流程示意图。
图2为本发明实施例提供的基于知识图谱的答案查询装置的结构意图。
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如前所述,在目前基于知识图谱的问答方法中,由于知识图谱的规模比较庞大,检索时可能会差生多条指向候选答案的路径。而现有技术是没办法智能识别出其中哪一条候选最符合问题,导致检索出的最终答案并不一定满足提问者的预期。针对这一问题,本文件旨在提出一种更智能的答案查询方案,能够在基于知识图谱确定指向候选答案的候选路径后,对候选路径作进一步筛选,从而提高最终答案符合提问者预期的概率。
图1是本发明实施例基于知识图谱的答案查询方法的流程图,图1所示方法可以由下文所对应的答案查询装置执行,具体包括如下步骤:
S102,获取用户端的提问语句。
其中,本文不对用户端发起提问语句的方式作具体限定。
作为示例性,用户端在有提问需求,可以通过个人终端识别与接入问答系统的应用端口,并通过该应用端口提交自然语言的提问语句。
S104,在已构建的知识图谱中,确定包含提问语句中实体的搜索子图,并根据搜索子图确定由实体指向候选答案的至少两条候选路径。
应理解,知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱中,每个节点即为一个“实体”,每条边为实体与实体之间的“关系”。识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
具体地,本申请实施例的方法在已构建的知识图谱中,以提问语句中实体作为路径第一跳的起点,并对路径第一跳的起点进行最大关系搜索;之后,根据搜索到路径第一跳的起点在知识图谱中的最大关系,生成路径第一跳,并以路径第一跳的终点作为路径第二跳的起点,进行路径第二跳的起点进行最大关系搜索,并以此类推进行路径下一跳的搜索,直至路径最后一跳的终点满足路径截止条件时停止,以得到搜索子图。
应理解,搜索子图中各路径最后一跳的终点即为候选答案,基于搜索子图可以得到由实体指向候选答案的各个候选路径。
S106,将各候选路径与提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,人工智能模型是基于样本特征向量和对样本特征向量标注有置信度值的标签所训练得到的,样本特征向量是将样本提问语句对应所述知识图谱的候选路径与样本提问语句中的问题、答案类型进行组合得到的。
本申请实施例采用人工智能技术,实现对候选路径的机械筛选。具体地,可以使用“候选路径-问题-答案类型”包含三种维度特征信息来作为训练人工智能模型的特征向量。
比如:问题为“XX公司在哪里?”,候选路径为“<XX><公司口号>?answer”,答案类型为“口号”,对应形成的特征向量为“[CLS]XX公司在哪里?[SEP]<XX><公司口号>?answer[SEP]口号[SEP]”。
再比如:问题为“XX公司在哪里?”,候选路径为“<XX><公司口号>?answer”,答案类型为“地址”,对应形成的特征向量为“[CLS]XX公司在哪里?[SEP]<XX><公司地址>?answer[SEP]地址[SEP]”。
在提前准备好已确定有正确答案的提问语句来作为样本后,即可基于样本提问语句对应的样本特征向量,对人工智能模型进行有监督训练。
这里,以采用正例样本特征向量和反例样本特征向量对模型进行训练为例,进行介绍(正例样本特征向量与反例样本特征向量数量比以不小于1.5:1,且不大于2.5:1为宜)。
首先,可以通过置信度值作为标签,对正例样本特征向量和反例样本特征向量进行标注。置信度值反映了样本特征向量匹配正确答案的概率,也就是说,一个样本特征向量的置信度越高,则匹配正确答案的概率也越高,反之,一个样本特征向量的置信度越低,则匹配正确答案的概率值也越低。这里需要说明的是,由于样本提问语句的正确答案是已知的,因此对基于样本提问语句生成的正例样本特征向量和反例样本特征向量所因标注的置信度值也是能够确定的。
之后,将标注后的样本特征向量输入至人工智能模型,以进行训练。训练过程中,样本特征向量输入至人工智能模型后即可得到人工智能模型输出的训练结果。这个训练结果是人工智能模型模型当前阶段针对输入的样本特征所给出的置信值的预测结果,预测结果可能会与之前的标注结果存在误差,为此可以基于最大似然估计推导得到损失函数,计算出预测结果与标注结果的损失,并以降低损失为目的,对人工智能模型模型中的参数(如特征向量对应的权重值)进行优化,从而达到训练效果。
在基于上述方式对人工智能模型模型中的参数进行多轮迭代调整后,即可使人工智能模型模型具备基于候选路径的特征向量,来预测候选路径指向正确答案的置信度的能力。
在将训练完成的人工智能模型模型代入到具体应用时,本步骤可以将与用户端提问语句相关的各候选路径所对应的特征向量输入至该人工智能模型,以由人工智能模型使用置信度值为各候选路径进行预测打分。
需要说明的是,本文不对人工智能模型作具体限定,任何以文本类型数据作为输入的分类功能模型均可适用于本申请实施例的方案。
S108,从至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将目标路径指向的候选答案作为提问语句的最终答案推送给用户端。
应理解,置信度值越高,则候选路径指向的候选答案符合提问语句的概率越高,因此步骤可以将置信度值达到预设置信度阈值的候选路径确定为目标路径。
此外,倘若没有置信度值均符合所述预设标准的候选路径,则可以从候选路径中选择置信度值最高的一者作为目标路径。
或者,倘若没有置信度值均符合所述预设标准的候选路径,也可以对候选路径进行补充,尝试找到其他合适的候选答案。具体流程包括:在知识图谱中,确定与S104确定出的搜索子图具有出度关系的至少两条补充候选路径,并将各补充候选路径与提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各补充候选路径的置信度值;之后,在从至少两条补充候选路径中筛选出置信度值符合预设标准的目标路径。如果在补充候选路径中也没有找到置信度值符合预设标准的,则可以在之前确定的候选路径和新添加的补充候选路径中选择置信度值最高的一者作为目标路径。
基于本发明实施例的方法,在通过知识图谱中确定提问语句所对应的至少两条候选路径后,使用人工智能模型,以“候选路径+问题+答案类型”的特征维度组合作为提问意图的分析因子,预测各候选路径指向正确答案的置信度值,从而根据置信度值,在候选路径中择优选一者检索最终答案以反馈给提问语句的发起方。整个方案能够避免在语意迷惑性较强的错误候选路径中检索答案,因此可以有效提高检索的效率以及准确性。
下面以问题“女演员YYY的父亲的职业是什么?”为例,对在知识图谱中确定候选路径的流程进行详细介绍。
首先,从“女演员YYY的父亲的职业是什么?”的问题中,初步确定实体为“女演员”、“YYY”、“父亲”。
之后,在知识图谱中找到相匹配的候选路径为“[SEP]<女演员><YYY><父亲>?answer”,并基于该候选路径确定答案类型为“[SEP]人物[SEP]”。显然,“[SEP]<女演员><YYY><父亲>?answer”的候选路径在知识图谱中的答案是女演员YYY的父亲的名字,这与问题并不相符。因此,在将对应的特征向量“[CLS]女演员YYY的父亲的职业是什么?[SEP]<女演员><YYY><父亲>?answer[SEP]人物[SEP]”输入至人工智能模型后,得到的置信度值并不符合预设标准,也就是表示候选路径“SEP]<女演员><YYY><父亲>?answer”的检索过于模糊,无法提供准确答案。
为此,继续在知识图谱中“[SEP]<女演员><YYY><父亲>?answer”的终点节点<父亲>处,搜索具有出度关系的节点,以作为候选路径的补充。
对于知识图谱中海量的信息而言,必然会记录有女演员YYY父亲的具体职业,因此可以补充出新的候选路径为“[SEP]<女演员><YYY><父亲><职业>?answer”。可以看出,由于新的候选路径搜索条件更精确,确定出的答案类型也由之前“[SEP]人物[SEP]”变为更为准确“[SEP]职业[SEP]”。之后将新的候选路径的特征向量“[CLS]女演员YYY的父亲的职业是什么?[SEP]<女演员><YYY><父亲><职业>?answer[SEP]职业[SEP]”输入至人工智能模型后,得到符合预设标准的置信度值,并将知识图谱中针对候选路径“[SEP]<女演员><YYY><父亲><职业>?answer”指向答案作为最终答案提供给问题的发起方。
可以看出,基于上述设计,本申请实施例的方法可以在知识图谱中由模糊搜索过渡到精确搜索,从而最终锁定正确的答案。这一过程避免了候选路径在搜索过程呈现爆发式增长,从而有效降低计算机资源的消耗。
以上是对本说明书实施例的方法的介绍。应理解,在不脱离本文上述原理基础之上,还可以进行适当的变化,这些变化也应视为本说明书实施例的保护范围。
此外,对应于图1所示的方法,本发明实施例还提供一种基于知识图谱的答案查询装置。图2是本发明实施例答案查询装置200的结构示意图,包括:
提问获取模块210,获取用户端的提问语句;
路径确定模块220,在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径;
路径筛选模块230,将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的;
答案反馈模块240,从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端。
基于本发明实施例的装置,在通过知识图谱中确定提问语句所对应的至少两条候选路径后,使用人工智能模型,以“候选路径+问题+答案类型”的特征维度组合作为提问意图的分析因子,预测各候选路径指向正确答案的置信度值,从而根据置信度值,在候选路径中择优选一者检索最终答案以反馈给提问语句的发起方。整个方案能够避免在语意迷惑性较强的错误候选路径中检索答案,因此可以有效提高检索的效率以及准确性。
可选地,若没有置信度值均符合所述预设标准的候选路径,则路径确定模块220在所述知识图谱中,确定与所述搜索子图具有出度关系的至少两条补充候选路径,并将各补充候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各补充候选路径的置信度值。对应地,答案反馈模块240从所述至少两条补充候选路径中筛选出置信度值符合预设标准的目标路径。
在上述基础之上,路径确定模块220可以在所述知识图谱中,将与所述搜索子图中的终点节点具有出度关系的路径确定为补充候选路径。
可选地,若没有置信度值均符合所述预设标准的候选路径,则答案反馈模块240从所述至少两条候选路径中选择置信度值最高的一者作为目标路径。
可选地,路径确定模块220具体用于:在已构建的知识图谱中,以所述提问语句中实体作为路径第一跳的起点,并对所述路径第一跳的起点进行最大关系搜索;根据搜索到所述路径第一跳的起点在所述知识图谱中的最大关系,生成所述路径第一跳,并以所述路径第一跳的终点作为路径第二跳的起点,进行所述路径第二跳的起点进行最大关系搜索,直至路径最后一跳的终点满足路径截止条件时停止,以得到包含所述实体的搜索子图;以所述搜索子图中各路径最后一跳的终点作为所述候选答案,得到由所述实体指向所述候选答案的至少两条所述候选路径。
可选地,所述样本特征向量包括正例样本特征向量和反例样本特征向量,所述正例样本特征向量与反例样本特征向量数量比不小于1.5:1,且不大于2.5:1。
可选地,所述人工智能模型包括深度双向预训练转换器模型。
应理解,本说明书实施例的答案查询装置可以作为图1所示方法的执行主体,因此能够实现图1所示方法中的步骤和功能。由于原理相同,本文不再赘述。
图3是本说明书的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成答案查询装置。对应地,处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取用户端的提问语句。
在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径。
将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的。
从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端。
基于本发明实施例的电子设备,在通过知识图谱中确定提问语句所对应的至少两条候选路径后,使用人工智能模型,以“候选路径+问题+答案类型”的特征维度组合作为提问意图的分析因子,预测各候选路径指向正确答案的置信度值,从而根据置信度值,在候选路径中择优选一者检索最终答案以反馈给提问语句的发起方。整个方案能够避免在语意迷惑性较强的错误候选路径中检索答案,因此可以有效提高检索的效率以及准确性。
上述如本说明书图1所示实施例揭示的答案查询方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本发明实施例的电子设备可以使上述答案查询装置实现对应于图1所示方法中的步骤和功能。由于原理相同,本文不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
此外,本发明实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令。
其中,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示的答案查询方法的步骤,包括:
获取用户端的提问语句。
在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径。
将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的。
从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。此外,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。

Claims (6)

1.一种基于知识图谱的答案查询方法,其特征在于,包括:
获取用户端的提问语句;
在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径;
将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的;首先,通过置信度值作为标签,对正例样本特征向量和反例样本特征向量进行标注;置信度值反映了样本特征向量匹配正确答案的概率,一个样本特征向量的置信度越高,则匹配正确答案的概率也越高,反之,一个样本特征向量的置信度越低,则匹配正确答案的概率值也越低;之后,将标注后的样本特征向量输入至人工智能模型,以进行训练;训练过程中,样本特征向量输入至人工智能模型后即可得到人工智能模型输出的训练结果;这个训练结果是人工智能模型当前阶段针对输入的样本特征所给出的置信值的预测结果,预测结果可能会与之前的标注结果存在误差,为此基于最大似然估计推导得到损失函数,计算出预测结果与标注结果的损失,并以降低损失为目的,对人工智能模型中的参数进行优化,从而达到训练效果;在基于上述方式对人工智能模型中的参数进行多轮迭代调整后,即可使人工智能模型具备基于候选路径的特征向量,来预测候选路径指向正确答案的置信度的能力;在将训练完成的人工智能模型代入到具体应用时,本步骤将与用户端提问语句相关的各候选路径所对应的特征向量输入至该人工智能模型,以由人工智能模型使用置信度值为各候选路径进行预测打分;
从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端;
若没有置信度值均符合所述预设标准的候选路径,则所述方法还包括:
在所述知识图谱中,确定与所述搜索子图具有出度关系的至少两条补充候选路径,并将各补充候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各补充候选路径的置信度值;
从所述至少两条补充候选路径中筛选出置信度值符合预设标准的目标路径;如果在补充候选路径中也没有找到置信度值符合预设标准的,则在之前确定的候选路径和新添加的补充候选路径中选择置信度值最高的一者作为目标路径;
在所述知识图谱中,确定与所述搜索子图具有出度关系的补充候选路径,包括:
在所述知识图谱中,将与所述搜索子图中的终点节点具有出度关系的路径确定为补充候选路径;
在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径,包括:
在已构建的知识图谱中,以所述提问语句中实体作为路径第一跳的起点,并对所述路径第一跳的起点进行最大关系搜索;
根据搜索到所述路径第一跳的起点在所述知识图谱中的最大关系,生成所述路径第一跳,并以所述路径第一跳的终点作为路径第二跳的起点,进行所述路径第二跳的起点进行最大关系搜索,直至路径最后一跳的终点满足路径截止条件时停止,以得到包含所述实体的搜索子图;
以所述搜索子图中各路径最后一跳的终点作为所述候选答案,得到由所述实体指向所述候选答案的至少两条所述候选路径。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述样本特征向量包括正例样本特征向量和反例样本特征向量,所述正例样本特征向量与反例样本特征向量数量比不小于1.5:1,且不大于2.5:1。
3.根据权利要求1所述的方法,其特征在于,还包括:
所述人工智能模型包括深度双向预训练转换器模型。
4.一种基于知识图谱的答案查询装置,其特征在于,包括:
提问获取模块,获取用户端的提问语句;
路径确定模块,在已构建的知识图谱中,确定包含所述提问语句中实体的搜索子图,并根据所述搜索子图确定由实体指向候选答案的至少两条候选路径;
路径筛选模块,将各候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,其中,所述人工智能模型是基于样本特征向量和对所述样本特征向量标注有置信度值的标签所训练得到的,所述样本特征向量是将样本提问语句对应所述知识图谱的候选路径与所述样本提问语句中的问题、答案类型进行组合得到的;首先,通过置信度值作为标签,对正例样本特征向量和反例样本特征向量进行标注;置信度值反映了样本特征向量匹配正确答案的概率,一个样本特征向量的置信度越高,则匹配正确答案的概率也越高,反之,一个样本特征向量的置信度越低,则匹配正确答案的概率值也越低;之后,将标注后的样本特征向量输入至人工智能模型,以进行训练;训练过程中,样本特征向量输入至人工智能模型后即可得到人工智能模型输出的训练结果;这个训练结果是人工智能模型当前阶段针对输入的样本特征所给出的置信值的预测结果,预测结果可能会与之前的标注结果存在误差,为此基于最大似然估计推导得到损失函数,计算出预测结果与标注结果的损失,并以降低损失为目的,对人工智能模型中的参数进行优化,从而达到训练效果;在基于上述方式对人工智能模型中的参数进行多轮迭代调整后,即可使人工智能模型具备基于候选路径的特征向量,来预测候选路径指向正确答案的置信度的能力;在将训练完成的人工智能模型代入到具体应用时,本步骤将与用户端提问语句相关的各候选路径所对应的特征向量输入至该人工智能模型,以由人工智能模型使用置信度值为各候选路径进行预测打分;
答案反馈模块,从所述至少两条候选路径中筛选出置信度值符合预设标准的目标路径,以将所述目标路径指向的候选答案作为所述提问语句的最终答案推送给用户端;
若没有置信度值均符合所述预设标准的候选路径,则路径确定模块在所述知识图谱中,确定与所述搜索子图具有出度关系的至少两条补充候选路径,并将各补充候选路径与所述提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各补充候选路径的置信度值;答案反馈模块从所述至少两条补充候选路径中筛选出置信度值符合预设标准的目标路径;如果在补充候选路径中也没有找到置信度值符合预设标准的,则在之前确定的候选路径和新添加的补充候选路径中选择置信度值最高的一者作为目标路径;
路径确定模块在所述知识图谱中,将与所述搜索子图中的终点节点具有出度关系的路径确定为补充候选路径;
所述路径确定模块具体用于:
在已构建的知识图谱中,以所述提问语句中实体作为路径第一跳的起点,并对所述路径第一跳的起点进行最大关系搜索;
根据搜索到所述路径第一跳的起点在所述知识图谱中的最大关系,生成所述路径第一跳,并以所述路径第一跳的终点作为路径第二跳的起点,进行所述路径第二跳的起点进行最大关系搜索,直至路径最后一跳的终点满足路径截止条件时停止,以得到包含所述实体的搜索子图;
以所述搜索子图中各路径最后一跳的终点作为所述候选答案,得到由所述实体指向所述候选答案的至少两条所述候选路径。
5.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现权利要求1所述的方法。
6.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1所述的方法。
CN202111176483.7A 2021-10-09 2021-10-09 一种基于知识图谱的答案查询方法、装置及电子设备 Active CN114090746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111176483.7A CN114090746B (zh) 2021-10-09 2021-10-09 一种基于知识图谱的答案查询方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111176483.7A CN114090746B (zh) 2021-10-09 2021-10-09 一种基于知识图谱的答案查询方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114090746A CN114090746A (zh) 2022-02-25
CN114090746B true CN114090746B (zh) 2022-12-06

Family

ID=80296658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111176483.7A Active CN114090746B (zh) 2021-10-09 2021-10-09 一种基于知识图谱的答案查询方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114090746B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817504A (zh) * 2022-05-05 2022-07-29 北京三快在线科技有限公司 药品的搜索方法、装置、设备及存储介质
CN117573849B (zh) * 2024-01-16 2024-04-19 之江实验室 一种知识图谱多跳问答方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN110837550A (zh) * 2019-11-11 2020-02-25 中山大学 基于知识图谱的问答方法、装置、电子设备及存储介质
CN112397197A (zh) * 2020-11-16 2021-02-23 康键信息技术(深圳)有限公司 基于人工智能的问诊数据处理方法及装置
CN113297369A (zh) * 2021-07-26 2021-08-24 中国科学院自动化研究所 基于知识图谱子图检索的智能问答系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063497B (zh) * 2014-07-04 2018-03-06 百度在线网络技术(北京)有限公司 观点处理方法和装置以及搜索方法和装置
US10331673B2 (en) * 2014-11-24 2019-06-25 International Business Machines Corporation Applying level of permanence to statements to influence confidence ranking
CN106649786B (zh) * 2016-12-28 2020-04-07 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN110837550A (zh) * 2019-11-11 2020-02-25 中山大学 基于知识图谱的问答方法、装置、电子设备及存储介质
CN112397197A (zh) * 2020-11-16 2021-02-23 康键信息技术(深圳)有限公司 基于人工智能的问诊数据处理方法及装置
CN113297369A (zh) * 2021-07-26 2021-08-24 中国科学院自动化研究所 基于知识图谱子图检索的智能问答系统

Also Published As

Publication number Publication date
CN114090746A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
US10586155B2 (en) Clarification of submitted questions in a question and answer system
CN109871483B (zh) 一种推荐信息的确定方法及装置
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
CN114090746B (zh) 一种基于知识图谱的答案查询方法、装置及电子设备
WO2020244150A1 (zh) 语音检索方法、装置、计算机设备及存储介质
CN110717034A (zh) 一种本体构建方法及装置
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN108182207B (zh) 基于分词网络的中文手术操作的智能编码方法及系统
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN108681541B (zh) 图片搜索方法、装置及计算机设备
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及系统
CN114707007B (zh) 一种图像文本检索方法、装置及计算机存储介质
CN111611471A (zh) 一种搜索方法、装置及电子设备
CN116069876A (zh) 基于知识图谱的问答方法、装置、设备及存储介质
CN113742474B (zh) 一种基于知识图谱的智能问答方法和装置
CN114417016A (zh) 一种基于知识图谱的文本信息匹配方法、装置及相关设备
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品
CN113051919B (zh) 一种识别命名实体的方法和装置
CN110222156B (zh) 发现实体的方法和装置、电子设备、计算机可读介质
CN112100313A (zh) 一种基于最细粒度切分的数据索引方法及系统
CN112597287A (zh) 一种语句处理方法、语句处理装置及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant