CN117951305A

CN117951305A - 一种基于知识库的精准问答方法、系统及计算机存储介质

Info

Publication number: CN117951305A
Application number: CN202310526494.6A
Authority: CN
Inventors: 刘凡平
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2024-04-30

Abstract

本发明提供了一种基于知识库的精准问答方法、系统及计算机存储介质，所述方法包括如下步骤：S1、获取问题数据和答案数据，生成向量问答神经网路模型；S2、构建知识库；S3、获取用户问题数据，生成用户问题的词嵌入值E′_q；S4、查找与用户问题的词嵌入值E′_q对应的段落或章节的词嵌入值E_p；S5、将查找到的段落或章节的词嵌入值E_p对应的段落或章节的词嵌入，以及用户问题的词嵌入，输入到机器阅读理解模型中，生成用户问题的答案信息。本发明通过用户问题的词嵌入值与知识库中的段落或章节的词嵌入值匹配，将用户问题的词嵌入对应的段落或章节的词嵌入，输入机器阅读理解模型生成的答案，具备高度可概括性。

Description

一种基于知识库的精准问答方法、系统及计算机存储介质

技术领域

本发明涉及计算机技术领域，尤其是涉及一种基于知识库的精准问答方法、系统及计算机存储介质。

背景技术

现有技术中用户搜索相关信息时通常为全文检索，全文检索方式是将相关文档(例如office文档、在线wiki、txt等文档)作为检索的原始数据，需要用户通过关键词获取全文检索的信息。然而在全文检索时检索的信息精准命中，对用户的输入的关键词要求很高，而且全文检索命中的是相关性，只能找到答案(检索的信息)附近的文本，无法准确定位答案(检索的信息)。

发明内容

本发明提供了一种基于知识库的精准问答方法、系统及计算机存储介质，以解决现有技术中全文检索对用户的输入的关键词要求高、无法准确定位答案的技术问题。

本发明的一个方面在于提供一种基于知识库的精准问答方法，所述精准问答方法包括如下方法步骤：

S1、获取问题数据和答案数据，提取问题的词嵌入和答案的词嵌入；将问题的词嵌入和答案的词嵌入输入到神经网路模型中，对问题的词嵌入和答案的词嵌入进行相似性计算，生成一个向量问答神经网路模型；

S2、获取原始数据，将原始数据按照段落或章节，提取段落或章节的词嵌入；将段落或章节的词嵌入，输入到训练得到的向量问答神经网路模型中，生成每个段落或章节的词嵌入值E_p；将所有段落或章节的词嵌入值E_p存储，构建知识库；

S3、获取用户问题数据，提取用户问题的词嵌入；将用户问题的词嵌入，输入到训练得到的向量问答神经网路模型中，生成用户问题的词嵌入值E_q′；

S4、在步骤S2中构建的知识库中，查找与用户问题的词嵌入值E_q′对应的段落或章节的词嵌入值E_p；

S5、将步骤S4中查找到的段落或章节的词嵌入值E_p对应的段落或章节的词嵌入，以及用户问题的词嵌入，输入到机器阅读理解模型中，生成用户问题的答案信息。

在一个优选的实施例中，在步骤S1中，通过获取大量问题数据和答案数据，对神经网路模型进行训练，生成一个向量问答神经网路模型。

在一个优选的实施例中，在步骤S1中，通过不同词嵌入的夹角余弦，计算问题的词嵌入和答案的词嵌入的相似性。

本发明的另一个方面在于提供一种基于知识库的精准问答系统，所述精准问答系统包括：

向量问答神经网路模型生成模块，用于获取问题数据和答案数据，提取问题的词嵌入和答案的词嵌入，以及将问题的词嵌入和答案的词嵌入输入到神经网路模型中，对问题的词嵌入和答案的词嵌入进行相似性计算，生成一个向量问答神经网路模型；

知识库构建模块，用于获取原始数据，将原始数据按照段落或章节，提取段落或章节的词嵌入，以及将段落或章节的词嵌入，输入到训练得到的向量问答神经网路模型中，生成每个段落或章节的词嵌入值E_p，将所有段落或章节的词嵌入值E_p存储，构建知识库；

用户问题获取模块，用于获取用户问题数据，提取用户问题的词嵌入；将用户问题的词嵌入，输入到训练得到的向量问答神经网路模型中，生成用户问题的词嵌入值E_q′；

匹配模块，用于将查找到的段落或章节的词嵌入值E_p对应的段落或章节的词嵌入，以及用户问题的词嵌入，输入到机器阅读理解模型中，生成用户问题的答案信息。

在一个优选的实施例中，向量问答神经网路模型生成模块，通过获取大量问题数据和答案数据，对神经网路模型进行训练，生成一个向量问答神经网路模型。

在一个优选的实施例中，向量问答神经网路模型生成模块，通过不同词嵌入的夹角余弦，计算对问题的词嵌入和答案的词嵌入的相似性。

本发明的又一个方面在于提供一种计算机存储介质，所述计算机存储介质用于存储计算机执行指令，所述计算机执行指令，用于执行本发明提供的一种基于知识库的精准问答方法。

与现有技术相比，本发明具有以下有益效果：

本发明提供的一种基于知识库的精准问答方法、系统及计算机存储介质，通过获取大量问题数据和答案数据，对神经网路模型进行训练，生成一个向量问答神经网路模型，提升检索的精准度同时提升搜索效率。

本发明提供的一种基于知识库的精准问答方法、系统及计算机存储介质，通过用户问题的词嵌入值与知识库中的段落或章节的词嵌入值匹配，将用户问题的词嵌入对应的段落或章节的词嵌入，输入机器阅读理解模型生成的答案，具备高度可概括性，与关键词覆盖度无关。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于知识库的精准问答方法的流程图。

具体实施方式

为了使本发明的上述以及其他特征和优点更加清楚，下面结合附图进一步描述本发明。应当理解，本文给出的具体实施例是出于向本领域技术人员解释的目的，仅是示例性的，而非限制性的。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

如图1所示本发明一种基于知识库的精准问答方法的流程图，根据本发明的实施例，提供一种基于知识库的精准问答方法，包括如下方法步骤：

步骤S1、生成向量问答神经网路模型。

获取问题数据和答案数据，提取问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)；将问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)输入到神经网路模型中，对问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)进行相似性计算，生成一个向量问答神经网路模型。

本发明的实施例中，通过获取大量问题数据和答案数据，对神经网路模型进行训练，生成一个向量问答神经网路模型。

在对神经网路模型进行训练过程中，通过不同词嵌入(词向量、Embedding)的夹角余弦，计算问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)的相似性。

例如，将一个问题的词嵌入(词向量、Embedding)输入神经网路模型，输出一个答案的词嵌入(词向量、Embedding)，则该问题的词嵌入(词向量、Embedding)与该答案的词嵌入(词向量、Embedding)的夹角进行余弦计算，判断问题与该答案是否对应(相似)。

或者，将一个答案的词嵌入(词向量、Embedding)输入神经网路模型，输出一个问题的词嵌入(词向量、Embedding)，则该答案的词嵌入(词向量、Embedding)与该问题的词嵌入(词向量、Embedding)的夹角进行余弦计算，判断答案与该问题是否对应(相似)，由此训练生成一个向量问答神经网路模型，使问题与答案尽可能相似。

步骤S2、构建知识库。

获取原始数据，将原始数据按照段落或章节，提取段落或章节的词嵌入(词向量、Embedding)；将段落或章节的词嵌入(词向量、Embedding)，输入到训练得到的向量问答神经网路模型中，生成每个段落或章节的词嵌入值E_p；将所有段落或章节的词嵌入值E_p存储，构建知识库。

本发明的实施例，原始数据来源为企业office文档、在线wiki、txt等文档，在一些实施例中，原始数据来源还可以是其他来源，例如政府网站相关政策文档、知网、万方数据库等。

将原始数据按照段落或章节划分为一段文字，提取段落或章节的词嵌入(词向量、Embedding)。

例如，“上海是个大城市，有16个区，xx万人”，则划分为“上海是个大城市”、“有16个区”、“xx万人”三个段落，提取“上海是个大城市”、“有16个区”、“xx万人”每个段落的词嵌入(词向量、Embedding)。

将段落或章节的词嵌入(词向量、Embedding)，输入到训练得到的向量问答神经网路模型中，生成每个段落或章节的词嵌入值E_p；将所有段落或章节的词嵌入值E_p存储，构建知识库。

步骤S3、获取用户问题。

获取用户问题数据，提取用户问题的词嵌入(词向量、Embedding)；将用户问题的词嵌入(词向量、Embedding)，输入到训练得到的向量问答神经网路模型中，生成用户问题的词嵌入值E_q′。

例如，用户检索的问题是“上海有多少个区？”，提取“上海有多少个区？”的词嵌入(词向量、Embedding)，并输入到训练得到的向量问答神经网路模型中，生成“上海有多少个区？”的词嵌入值E_q′。

步骤S4、在步骤S2中构建的知识库中，查找与用户问题的词嵌入值E_q′对应的段落或章节的词嵌入值E_p。

在步骤S2中，构建的知识库中已经存储原始数据生成的所有段落或章节的词嵌入值E_p。在构建的知识库中查找与用户问题的词嵌入值E_q′对应的段落或章节的词嵌入值E_p。

例如，用户问题为“上海有多少个区？”，在构建的知识库中查找与“上海有多少个区？”的词嵌入值E_q′，对应的“有16个区”的词嵌入值E_p。

步骤S5、生成用户问题的答案信息。

将步骤S4中查找到的段落或章节的词嵌入值E_p对应的段落或章节的词嵌入(词向量、Embedding)，以及用户问题的词嵌入(词向量、Embedding)，输入到机器阅读理解模型中，生成用户问题的答案信息。

例如，用户检索的问题是“上海有多少个区？”，在构建的知识库中查找到的“有16个区”的词嵌入值E_p，则将“有16个区”的词嵌入值Ep对应的“有16个区”的词嵌入(词向量、Embedding)，以及“上海有多少个区？”的词嵌入(词向量、Embedding)输入到机器阅读理解模型中，生成用户问题的答案信息。

本发明中机器阅读理解模型采用现有的机器阅读理解模型，机器阅读理解模对搜索的问题，在对应的段落或章节上下文查找答案。

根据本发明的实施例，一种基于知识库的精准问答系统，包括：

向量问答神经网路模型生成模块，用于获取问题数据和答案数据，提取问题的词嵌入和答案的词嵌入(词向量、Embedding)，以及将问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)输入到神经网路模型中，对问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)进行相似性计算，生成一个向量问答神经网路模型。

向量问答神经网路模型生成模块，通过获取大量问题数据和答案数据，对神经网路模型进行训练，生成一个向量问答神经网路模型。通过不同词嵌入(词向量、Embedding)的夹角余弦，计算问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)的相似性。

知识库构建模块，用于获取原始数据，将原始数据按照段落或章节，提取段落或章节的词嵌入(词向量、Embedding)，以及将段落或章节的词嵌入(词向量、Embedding)，输入到训练得到的向量问答神经网路模型中，生成每个段落或章节的词嵌入值E_p，将所有段落或章节的词嵌入值E_p存储，构建知识库。

用户问题获取模块，用于获取用户问题数据，提取用户问题的词嵌入(词向量、Embedding)；将用户问题的词嵌入(词向量、Embedding)，输入到训练得到的向量问答神经网路模型中，生成用户问题的词嵌入值E_q′。

匹配模块，用于将查找到的段落或章节的词嵌入值E_p对应的段落或章节的词嵌入(词向量、Embedding)，以及用户问题的词嵌入(词向量、Embedding)，输入到机器阅读理解模型中，生成用户问题的答案信息。

根据本发明的实施例，提供一种计算机存储介质，用于存储计算机执行指令。计算机执行指令，用于执行本发明提供的一种基于知识库的精准问答方法。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于知识库的精准问答方法，其特征在于，所述精准问答方法包括如下方法步骤：

S3、获取用户问题数据，提取用户问题的词嵌入；将用户问题的词嵌入，输入到训练得到的向量问答神经网路模型中，生成用户问题的词嵌入值E′_q；

S4、在步骤S2中构建的知识库中，查找与用户问题的词嵌入值E′_q对应的段落或章节的词嵌入值E_p；

2.根据权利要求1所述的精准问答方法，其特征在于，在步骤S1中，通过获取大量问题数据和答案数据，对神经网路模型进行训练，生成一个向量问答神经网路模型。

3.根据权利要求1所述的精准问答方法，其特征在于，在步骤S1中，通过不同词嵌入的夹角余弦，计算问题的词嵌入和答案的词嵌入的相似性。

4.一种基于知识库的精准问答系统，其特征在于，所述精准问答系统包括：

用户问题获取模块，用于获取用户问题数据，提取用户问题的词嵌入；将用户问题的词嵌入，输入到训练得到的向量问答神经网路模型中，生成用户问题的词嵌入值E′_q；

5.根据权利要求4所述的精准问答系统，其特征在于，向量问答神经网路模型生成模块，通过获取大量问题数据和答案数据，对神经网路模型进行训练，生成一个向量问答神经网路模型。

6.根据权利要求4所述的精准问答系统，其特征在于，向量问答神经网路模型生成模块，通过不同词嵌入的夹角余弦，计算问题的词嵌入和答案的词嵌入的相似性。

7.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储计算机执行指令，所述计算机执行指令，用于执行权利要求1或3任一权利要求所述的精准问答方法。