CN114547321A

CN114547321A - 一种基于知识图谱的答案生成方法、装置及电子设备

Info

Publication number: CN114547321A
Application number: CN202110186832.7A
Authority: CN
Inventors: 张展; 卫婕; 吕明; 陈燕辉
Original assignee: Beijing Zhongke Wuji Data Technology Co ltd
Current assignee: Beijing Zhongke Wuji Data Technology Co ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2022-05-27

Abstract

本申请提供了一种基于知识图谱的答案生成方法、装置及电子设备，答案生成方法包括：获取目标问题文本；基于训练好的问题分类模型，确定目标问题文本的问题类型；基于知识图谱和问题类型，确定问题类型在知识图谱中对应的目标答案模板，并根据目标答案模板确定目标问题文本的目标答案。本申请对目标问题文本的语句形式没有限制，通过训练好的问题分类模型可以确定出目标问题文本的问题类型，进而通过问题类型在知识图谱中搜索出对应的目标答案模板，以生成目标答案，这样，可以快速的生成目标答案，提高目标问题查询检索的效率以及准确性。

Description

一种基于知识图谱的答案生成方法、装置及电子设备

技术领域

本申请涉及自然语言处理技术领域，尤其是涉及一种基于知识图谱的答案生成方法、装置及电子设备。

背景技术

目前市场上，传统的搜索引擎是基于专业的查询语句中的关键词的搜索方式进行搜索的，缺乏对自然语言的语义分析和语义理解，已经越来越难以满足人们的需求，而在当前核电等某些专业领域的生产过程中，业务人员对信息查询搜索是通过输入专业的查询语句，去数据库中检索答案。这种方式需要首先对查询人员要做专业的培训，使其了解专业查询语句的语法，且查询专利语句的数据库只有一个，查询条件有限，而跨库搜索的步骤又较复杂，导致了信息查询检索的效率低下，且准确率低。

发明内容

有鉴于此，本申请的目的在于提供一种基于知识图谱的答案生成方法、装置及电子设备，通过对目标问题文本的语句形式没有限制，通过训练好的问题分类模型可以确定出目标问题文本的问题类型，进而通过问题类型在知识图谱中搜索出对应的目标答案模板，以生成目标答案，这样，可以快速的生成目标答案，提高目标问题查询检索的效率以及准确性。

本申请主要包括以下几个方面：

第一方面，本申请实施例提供了一种知识图谱的答案生成方法，所述答案生成方法包括：

获取目标问题文本，其中，所述目标问题文本为自然语言类型的问题文本；

基于训练好的问题分类模型，确定所述目标问题文本的问题类型；

基于知识图谱和所述问题类型，确定所述问题类型在所述知识图谱中对应的目标答案模板，并根据所述目标答案模板确定所述目标问题文本的目标答案。

在一种可能的实施方式中，通过以下方式获取训练好的问题分类模型，包括：

获取多个样本问题文本，并对每个所述样本问题文本进行问题类型的分类；

针对每个所述问题类型对应的所述样本问题文本进行分词处理，得到该样本问题文本对应的至少一个样本词汇；

根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的样本向量；

基于每个所述样本问题文本的所述样本向量，对构建好的初始问题分类模型进行训练，确定训练好的问题分类模型。

在一种可能的实施方式中，所述根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的样本向量，包括：

根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的初始样本向量；

根据每个所述样本词汇的词频的在对应的所述样本问题文本中的占比，对所述初始样本向量进行权重调节，确定每个所述样本问题的样本向量。

在一种可能的实施方式中，所述基于知识图谱和所述问题类型，确定所述问题类型在所述知识图谱中对应的目标答案模板，并根据所述目标答案模板确定所述目标问题文本的目标答案，包括：

基于所述问题类型，从知识图谱中的多个答案模板中确定所述目标问题文本对应的目标答案模板；

根据所述目标答案模板与所述目标问题文本中的文本实际值，确定所述目标问题文本的目标答案。

在一种可能的实施方式中，所述目标答案包括目标答案框架以及目标答案细节数据。

第二方面，本申请实施例还提供了一种基于知识图谱的答案生成装置，所述答案生成装置包括：

获取模块，用于获取目标问题文本，其中，所述目标问题文本为自然语言类型的问题文本；

第一确定模块，用于基于训练好的问题分类模型，确定所述目标问题文本的问题类型；

第二确定模块，用于基于知识图谱和所述问题类型，确定所述问题类型在所述知识图谱中对应的目标答案模板，并根据所述目标答案模板确定所述目标问题文本的目标答案。

在一种可能的实施方式中，所述确定模块是通过以下方式获取训练好的问题分类模型，包括：

在一种可能的实施方式中，所述第二确定模块包括：

第一确定单元，用于基于所述问题类型，从知识图谱中的多个答案模板中确定所述目标问题文本对应的目标答案模板；

第二确定单元，用于根据所述目标答案模板与所述目标问题文本中的文本实际值，确定所述目标问题文本的目标答案。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的答案生成方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的答案生成方法的步骤。

本申请实施例提供的基于知识图谱的答案生成方法、装置及电子设备，与现有技术中的信息检索方法相比，本申请对目标问题文本的语句形式没有限制，通过训练好的问题分类模型可以确定出目标问题文本的问题类型，进而通过问题类型在知识图谱中搜索出对应的目标答案模板，以生成目标答案，这样，可以快速的生成目标答案，提高目标问题查询检索的效率以及准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于知识图谱的答案生成方法的流程图；

图2示出了本申请实施例所提供的另一种基于知识图谱的答案生成方法的流程图；

图3示出了本申请实施例所提供的一种基于知识图谱的答案生成装置的结构示意图；

图4示出了本申请实施例所提供的另一种基于知识图谱的答案生成装置的结构示意图；

图5示出了本申请实施例所提供的一种电子设备的结构示意图；

图6示出了本申请实施例所提供的一种基于知识图谱的答案生成方法中测试用样本数据的混淆矩阵。

图中：

300-答案生成装置；310-获取模块；320-第一确定模块；330-第二确定模块；331-第一确定单元；332-第二确定单元；500-电子设备；510-处理器；520-存储器；530-总线。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

经研究发现，目前市场上，传统的搜索引擎是基于专业的查询语句中的关键词的搜索方式进行搜索的，缺乏对自然语言的语义分析和语义理解，已经越来越难以满足人们的需求，而在当前核电等某些专业领域的生产过程中，业务人员对信息查询搜索是通过输入专业的查询语句，去数据库中检索答案。这种方式需要首先对查询人员要做专业的培训，使其了解专业查询语句的语法，且查询专利语句的数据库只有一个，查询条件有限，而跨库搜索的步骤又较复杂，导致了信息查询检索的效率低下，且准确率低。

基于此，本申请实施例提供了一种基于知识图谱的答案生成方法、装置及电子设备，通过训练好的问题分类模型获取的目标问题文本的问题类型，并基于知识图谱和所述问题类型，确定所述问题类型在所述知识图谱中对应的目标答案模板以及目标答案模板对应的目标答案，在取消了对查询语句的限制的同时，可以快速的生成目标答案，提高了目标问题查询检索的效率以及准确性。

请参阅图1，图1为本申请实施例所提供的一种知识图谱的答案生成方法的流程图。所如图1中所示，本申请实施例提供的一种知识图谱的答案生成方法，所述答案生成方法包括以下步骤：

S101、获取目标问题文本，其中，所述目标问题文本为自然语言类型的问题文本。

该步骤中，所述目标问题文本为业务人员使用自然语言的语言类型作为问题的输入形式的文本，这样，使得业务人员可以用自然语言的方式进行提问，从而可以更精确地表达出真正的搜索需求。

S102、基于训练好的问题分类模型，确定所述目标问题文本的问题类型。

该步骤中，针对训练好的问题分类模型对业务人员使用自然语言的语言类型作为问题的输入形式的所述目标问题文本进行分类，并确定所述目标问题文本的问题类型。

其中，定所述目标问题文本的问题类型是用于对所述目标问题文本进行有针对性的与知识图谱进行匹配和检索查询，提高了所述目标问题文本对应的目标答案的检索和查询速度，省去了业务人员自己再去筛选结果的过程，这样可以很大程度的减少业务人员的精力和时间的消耗。

可选的，通过以下方式获取训练好的问题分类模型，包括：

获取多个样本问题文本，并对每个所述样本问题文本进行问题类型的分类。

其中，通过对所述样本问题文本创建类别标签来进行分类，所述建类别标签是通过0-8的9个数字对样本问题文本做分类标记，不同数字表示不同类型的问题，用做问题分类模型训练时样本数据的目标变量。

这里，在应用于核工业领域时，可将所述样本问题文本的问题类型划分为重码查询类、物料库存类、采购申请类、路径类、设备类、工单类、BOM类、制造商类、领料单类以及备件类，具体问题类型的类别标签见表1：

表1问题类型的类别标签

问题类别	问题描述	代表问句
			0	重码查询类	xxx编码的物料与xxx编码的物料是否重码
1	物料库存类	xxx编码物料的库存数量
			2	采购申请类	xxx编码物料的采购数量
3	路径类	xxx编码的设备使用的xxx编码的物料数量
			4	设备类	使用xxx编码物料的设备数量
5	工单类	xxx位置的历史使用备件情况
			6	BOM类	使用xxx编码物料的BOM数量
7	制造商类	xxx编码物料的制造商名称
			8	领料单类	xxx编码物料被哪些领料单使用
9	备件类	xxx位置的历史使用备件情况

针对每个所述问题类型对应的所述样本问题文本进行分词处理，得到该样本问题文本对应的至少一个样本词汇。

其中，所述分词处理具体依照领域专业词典进行分词处理、按照通用业词典进行分词处理以及按照同义词词典进行分词处理，依照上述词典对所述样本问题文本进行分词以及词性的标注，所述词性包括实词的词性和虚词的词性，所述实词的词性包括名词、动词、形容词、数词、量词和代词，所述虚词的词性包括副词、介词、连词、助词、拟声词和叹词，且所述不同词性对应的词性编码对照表具体如表2所示：

表2词性编码对照表

这里，同义词词典用于对所述样本问题文本的样本词汇进行合理的扩展，便于在后续的模型训练的过程中，能过对与关键词相关的样本词汇同样进行训练，提高了检索的成功率和准确性。

这样，将得到所述样本问题文本对应的样本词汇存储至问题词汇表，并且按照词汇索引升序排列，这样样本问题文本中出现的词都可在词汇表中找到对应索引。

根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的样本向量。

其中，根据所述样本词汇的词频，确定每个所述样本问题文本的样本向量具体为使用词袋模型对所述样本词汇的词频特征与样本词汇进行所述样本问题文本的向量化处理，得到每个所述样本问题文本的样本向量。

进一步的，所述根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的样本向量，包括：

根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的初始样本向量。

其中，根据所述样本词汇的词频，确定每个所述样本问题文本的样本向量具体为使用词袋模型对所述样本词汇的词频特征与样本词汇进行所述样本问题文本的向量化处理，得到每个所述样本问题文本的初始样本向量。

根据每个所述样本词汇的词频的在对应的所述样本问题文本中的占比，对所述初始样本向量进行权重调节，确定每个所述样本问题文本的样本向量。

其中，针对所述初始样本向量使用TF-IDF进行特征的权重修正，具体为根据每个所述样本词汇的词频的在对应的所述样本问题文本中的占比，对所述初始样本向量进行权重调节，并在结束群众调节后，将所述样本问题文本的分词结果与存储至词汇表中的样本词汇做特征匹配，对出现的词表示为1，否则为0，进行标准化调解。

其中，所述初始问题分类模型为随机森林模型组成的分类器，且在对所述构建好的初始问题分类模型进行训练时，将所述样本问题文本的样本数据按照自定义的比例划分为训练用样本数据以及测试用样本数据，并采用5折交叉验证方法训练初始问题分类模型。

这里，举例说明，将所述样本问题文本的样本数据按照9:1的比例分为训练用样本数据以及测试用样本数据，如图6所示，图6为测试用样本数据的混淆矩阵，根据图6的图像结果显示，图标中的9类样本问题文本的召回率和准确率都为100％，进一步证明了，模型的泛化性能更准确。

这样，随机森林是以决策树为基础的一种更高级的算法。像决策树一样，随机森林即可以用于回归也可以用于分类。从名字中可以看出，随机森林是用随机的方式构建的一个森林，而这个森林是由很多的相互不关联的决策树组成。实时上随机森林从本质上属于机器学习的一个很重要的分支叫做集成学习。集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

S103、基于知识图谱和所述问题类型，确定所述问题类型在所述知识图谱中对应的目标答案模板，并根据所述目标答案模板确定所述目标问题文本的目标答案。

该步骤中，根据所述问题类型，在知识图谱中查询检索相关信息来确定所述问题类型在所述知识图谱中对应的目标答案模板，并根据所述目标答案模板来确定所述目标问题文本对应的所述目标答案。

这里，所述相关信息具体为在所述知识图谱中预先存储的所述问题类型的cypher查询语句，根据知识图谱中的cypher查询语句确定所述问题类型在所述知识图谱中对应的目标答案模板。

本申请实施例提供的知识图谱的答案生成方法，与现有技术中的信息检索方法相比，本申请对目标问题文本的语句形式没有限制，通过训练好的问题分类模型可以确定出目标问题文本的问题类型，进而通过问题类型在知识图谱中搜索出对应的目标答案模板，以生成目标答案，这样，可以快速的生成目标答案，提高目标问题查询检索的效率以及准确性，且本申请通过使用自然语言类型的目标问题文本来训练问题分类模型，并确定所述问题类型，提高了问答方法中对自然语言的语义分析和语义理解，且无需查询人员做相关的专业的培训以及了解专业查询语句的语法，且本申请文件中使用知识图谱来对各个类型的目标文本进行搜索以及查询，扩大了查询的广度和深度。

请参阅图2，图2为本申请另一实施例提供的一种知识图谱的答案生成方法的流程图。如图2中所示，本申请实施例提供的一种知识图谱的答案生成方法，所述答案生成方法包括：

S201、获取目标问题文本，其中，所述目标问题文本为自然语言类型的问题文本。

S202、基于训练好的问题分类模型，确定所述目标问题文本的问题类型。

S203、基于所述问题类型，从知识图谱中的多个答案模板中确定所述目标问题文本对应的目标答案模板。

该步骤中，根据所述问题类型，在知识图谱中查询检索相关信息来确定所述问题类型在所述知识图谱中对应的目标答案模板。

S204、根据所述目标答案模板与所述目标问题文本中的文本实际值，确定所述目标问题文本的目标答案。

该步骤中，根据知识图谱中的cypher查询语句确定所述问题类型在所述知识图谱中对应的目标答案模板，对所述目标答案模板中的预设参数值进行所述目标问题文本中的文本实际值的替换，确定所述目标问题文本的目标答案。

其中，S201至S202的描述可以参照S101至S102的描述，并且能达到相同的技术效果，对此不做赘述。

可选的，所述目标答案包括目标答案框架以及目标答案细节数据。

这里，所述目标答案框架为所述目标问题文本所对应的目标答案的框架，目标答案框架为自然语言类型的目标答案的总体回答，所述目标答案细节数据为所述目标答案相对于自然语言类型的总体回答的详细的数据细节。

请参阅图3、图4，图3为本申请实施例所提供的一种基于知识图谱的答案生成装置的结构示意图，图4为本申请实施例所提供的另一种基于知识图谱的答案生成装置的结构示意图。如图3中所示，所述一种基于知识图谱的答案生成装置，所述答案生成装置300包括：

获取模块310，用于获取目标问题文本，其中，所述目标问题文本为自然语言类型的问题文本。

进一步地，所述确定模块是通过以下方式获取训练好的问题分类模型，包括：

可选的，所述根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的样本向量，包括：

第一确定模块320，用于基于训练好的问题分类模型，确定所述目标问题文本的问题类型。

第二确定模块330，用于基于知识图谱和所述问题类型，确定所述问题类型在所述知识图谱中对应的目标答案模板，并根据所述目标答案模板确定所述目标问题文本的目标答案。

本申请实施例提供的答案生成装置300，与现有技术中的信息检索装置相比，本申请对目标问题文本的语句形式没有限制，通过训练好的问题分类模型可以确定出目标问题文本的问题类型，进而通过问题类型在知识图谱中搜索出对应的目标答案模板，以生成目标答案，这样，可以快速的生成目标答案，提高目标问题查询检索的效率以及准确性，且本申请通过使用自然语言类型的目标问题文本来训练问题分类模型，并确定所述问题类型，提高了问答方法中对自然语言的语义分析和语义理解，且无需查询人员做相关的专业的培训以及了解专业查询语句的语法，且本申请文件中使用知识图谱来对各个类型的目标文本进行搜索以及查询，扩大了查询的广度和深度。

进一步的，如图4所示，所述一种基于知识图谱的答案生成装置300，所述答案生成装置300包括：

进一步的，所述第二确定模块330包括：

第一确定单元331，用于基于所述问题类型，从知识图谱中的多个答案模板中确定所述目标问题文本对应的目标答案模板。

第二确定单元332，用于根据所述目标答案模板与所述目标问题文本中的文本实际值，确定所述目标问题文本的目标答案。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1以及图2所示方法实施例中的答案生成方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的答案生成方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于知识图谱的答案生成方法，其特征在于，所述答案生成方法包括：

2.根据权利要求1所述的答案生成方法，其特征在于，通过以下方式获取训练好的问题分类模型，包括：

3.根据权利要求2所述的答案生成方法，其特征在于，所述根据每个所述样本问题文本对应的至少一个的所述样本词汇的词频，确定每个所述样本问题文本的样本向量，包括：

4.根据权利要求1所述的答案生成方法，其特征在于，所述基于知识图谱和所述问题类型，确定所述问题类型在所述知识图谱中对应的目标答案模板，并根据所述目标答案模板确定所述目标问题文本的目标答案，包括：

5.根据权利要求4所述的答案生成方法，其特征在于，所述目标答案包括目标答案框架以及目标答案细节数据。

6.一种基于知识图谱的答案生成装置，其特征在于，所述答案生成装置包括：

7.根据权利要求6所述的答案生成装置，其特征在于，所述确定模块是通过以下方式获取训练好的问题分类模型，包括：

8.根据权利要求6所述的答案生成装置，其特征在于，所述第二确定模块包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器运行时执行如上述的权利要求1至5任一所述的答案生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述的权利要求1至5任一所述的答案生成方法的步骤。