CN117708282A

CN117708282A - 一种基于大语言模型的知识问答方法及系统

Info

Publication number: CN117708282A
Application number: CN202311601621.0A
Authority: CN
Inventors: 吕松南
Original assignee: Founder Purvar Software Wuhan Inc co
Current assignee: Founder Purvar Software Wuhan Inc co
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-15

Abstract

本发明提供一种基于大语言模型的知识问答方法及系统，方法包括：通过大语言模型基于每一个分段知识文本生成相关问题，并存储至向量数据库；从向量数据库中检索与用于提问问题距离最近的多个相似的相关问题，根据相似的相关问题以及对应的分段知识文本整合成带有提示词的问题文本；通过大语言模型基于带有提示词的问题文本输出相应的问题答案。针对专业领域或者机密行业的特殊性，常见的大语言模型无法满足其需求，本发明通过构建本地知识库，并根据用户问题从本地知识库中检索相关参考知识，利用大语言模型的文本解析能力，实现准确的知识问答功能，提高了大语言模型的使用范围，为特定领域和行业提供高效快捷的问题答案提取方法。

Description

一种基于大语言模型的知识问答方法及系统

技术领域

本发明涉及长文本检索领域和人工智能大语言模型领域，更具体地，涉及一种基于大语言模型的知识问答方法及系统。

背景技术

在大语言模型领域中，常用的大语言模型通过大量的通用知识文本数据和强大的算力资源训练完成。通过解析用户输入的问题，从模型的知识结构中生成相应的答案。

对于一些特殊行业领域的知识，常见的开源大语言模型的知识结构中不包含和包含较少，因此无法进行解析和处理。虽然也存在一些专门针对一些专业领域训练的大语言模型，但是存在训练数据无法更新和训练成本较大的问题，并且也存在部分特殊行业无法对行业知识和文档进行开源。所以需要一种本地知识库的智能文档信息提取和生成的方法。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于大语言模型的知识问答方法及系统。

根据本发明的第一方面，提供了一种基于大语言模型的知识问答方法，包括：

将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题；

将生成的所述相关问题向量化，将每一个所述相关问题与对应的分段知识文本存储至向量数据库作为本地知识问题库；

将用户的提问问题进行向量化，从所述向量数据库中检索与用户的提问问题距离最近的多个相似的相关问题，并获取每一个相似的相关问题对应的分段知识文本；

根据多个相似的相关问题以及对应的分段知识文本整合成带有提示词的问题文本；

将所述带有提示词的问题文本输入大语言模型中，输出相应的问题答案。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题，包括：

将本地的专业知识文档进行分段拆分，得到多个分段知识文本；

将每一个分段知识文本输入大语言模型中，获取与每一个分段知识文本对应的多个相关问题。

可选的，大语言模型的训练包括：

获取多个通用知识文本，对每一个通用知识文本进行多个知识点的提问，以得到每一个通用知识文本对应的多个相关问题；

获取训练样本集，所述训练样本集中的每一个样本包括一个通用知识文本和与其对应的相关问题；

基于所述训练样本集对大语言模型进行训练，得到训练后的大语言模型。

可选的，所述将生成的所述相关问题向量化，将每一个所述相关问题与对应的分段知识文本存储至向量数据库作为本地知识问题库，包括：

将大语言模型生成的相关问题通过BERT算法，对问题文本进行编码实现向量化，将向量化的所有相关问题存储入向量数据库中，并构建相关问题与分段知识文本的关联关系。

可选的，所述将用户的提问问题进行向量化，从所述向量数据库中检索与用户的提问问题距离最近的多个相似的相关问题，并获取每一个相似的相关问题对应的分段知识文本，还包括：

当多个相似的相关问题对应的所有分段知识文本中有重复的，针对多个重复的分段知识文本，仅保留一个分段知识文本。

根据本发明的第二方面，提供一种基于大语言模型的知识问答系统，包括：

生成模块，用于将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题；

存储模块，用于将生成的所述相关问题向量化，将每一个所述相关问题与对应的分段知识文本存储至向量数据库作为本地知识问题库；

获取模块，用于将用户的提问问题进行向量化，从所述向量数据库中检索与用户的提问问题距离最近的多个相似的相关问题，并获取每一个相似的相关问题对应的分段知识文本；

整合模块，用于根据多个相似的相关问题以及对应的分段知识文本整合成带有提示词的问题文本；

输出模块，用于将所述带有提示词的问题文本输入大语言模型中，输出相应的问题答案。

可选的，所述生成模块，生成模块，用于将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题，包括：

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现基于大语言模型的知识问答方法的步骤。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现基于大语言模型的知识问答方法的步骤。

本发明提供的一种基于大语言模型的知识问答方法及系统，针对专业领域或者机密行业的特殊性，常见的大语言模型无法满足其需求，本发明通过构建本地知识库，并根据用户问题从本地知识库中检索相关参考知识，利用大语言模型的文本解析能力，实现准确的知识问答功能，提高了大语言模型的使用范围，为特定领域和行业提供高效快捷的问题答案提取方法。

附图说明

图1为本发明提供的一种基于大语言模型的知识问答方法流程图；

图2为生成向量数据库的示意图；

图3为根据用户提问问题检索相似问题和分段知识文本的示意图；

图4为本发明提供的一种基于大语言模型的知识问答系统的结构示意图；

图5为本发明提供的一种可能的电子设备的硬件结构示意图；

图6为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，这种结合不受步骤先后次序和/或结构组成模式的约束，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1为本发明提供的一种基于大语言模型的知识问答方法流程图，如图1所示，方法包括：

步骤1，将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题。

可理解的是，可以通过将用户本地的专业知识文档进行分段拆分，使其成为大量的知识段，下称分段知识文本。将每一个分段知识文本输入大语言模型中，获取与每一个分段知识文本对应的多个相关问题。

其中，每一个分段知识文本对应多个相关问题，通过大语言模型LLM针对每一个分段知识文本进行提问，由于每个分段知识文本的知识点不唯一，所以每个分段知识文本至少需要生成5-10个问题，以确保可以覆盖知识段内的所有知识点，那么将上述的每一个分段知识文本输入大语言模型中，由大语言模型输出每一个分段知识文本对应的多个相关问题。

可理解的是，大语言模型是根据大量的通用知识文本和相关问题训练而来，具有一定的通用性。大语言模型的训练过程包括：获取多个通用知识文本，对每一个通用知识文本进行多个知识点的提问，以得到每一个通用知识文本对应的多个相关问题；获取训练样本集，所述训练样本集中的每一个样本包括一个通用知识文本和与其对应的相关问题；基于所述训练样本集对大语言模型进行训练，得到训练后的大语言模型。

由于利用大量的通用知识文本进行训练的大语言模型在一些专业领域或者特殊领域不适用，因此，基于本地知识文本进行补充，使其适用于一些专业领域，扩充大语言模型的适用范围。

步骤2，将生成的所述相关问题向量化，将每一个所述相关问题与对应的分段知识文本存储至向量数据库作为本地知识问题库。

可理解的是，参见图2，根据每一个分段知识文本和相对应的相关问题，构建本地知识问题库。具体的，将大语言模型生成的相关问题通过BERT算法对问题文本进行编码实现向量化，将向量化的所有问题存储入向量数据库中作为本地知识问题库，并构建问题与分段知识文本的关联关系，便于后续检索和查询。

步骤3，将用户的提问问题进行向量化，从所述向量数据库中检索与用户的提问问题距离最近的多个相似的相关问题，并获取每一个相似的相关问题对应的分段知识文本。

可理解的是，对于用户的提问问题，将用户提出的问题进行向量化，如图3所示，将向量化的用户问题送入本地知识问题库(向量数据库)进行近似检索，获取与用户问题最接近的前k个相关问题，并查询获取与每一个近似的相关问题的分段知识文本。

由于与用户问题相近的相关问题可能来自相同的分段知识文本，因此获取到的分段知识文本可能存在重复，需要对于用户提问问题相关的所有分段知识文本进行去重，从而得到用于回答用户问题的所有参考文本。

步骤4，根据多个相似的相关问题以及对应的分段知识文本整合成带有提示词的问题文本。

可理解的是，本发明根据在向量数据库中检索到的多个相似的相关问题以及对应的分段知识文本，整合成带有提示词的问题文本。其中，采用提示词方法对问题进行重构，提示词方法需要通过构建场景，提出问题，设置条件等描述手法向大语言模型提问。首先构建一个场景，让模型结合参考文本给出问题的答案；然后使用步骤S2中检索的相关问题作为问题部分；最后若用户提出的问题中有附带特殊的条件信息，则补充条件部分。

步骤5，将所述带有提示词的问题文本输入大语言模型中，输出相应的问题答案。

其中，对步骤4重构的带有提示词的问题输入给大语言模型，大语言模型将输出相对应的答案，该问题答案相比原始采用通用的大语言模型，输出的问题答案更加复合用户需求。

参见图4，为本发明提供的一种基于大语言模型的知识问答系统，该系统包括生成模块401、存储模块402、获取模块403、整合模块404和输出模块405，其中：

生成模块401，用于将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题；

存储模块402，用于将生成的所述相关问题向量化，将每一个所述相关问题与对应的分段知识文本存储至向量数据库作为本地知识问题库；

获取模块403，用于将用户的提问问题进行向量化，从所述向量数据库中检索与用户的提问问题距离最近的多个相似的相关问题，并获取每一个相似的相关问题对应的分段知识文本；

整合模块404，用于根据多个相似的相关问题以及对应的分段知识文本整合成带有提示词的问题文本；

输出模块405，用于将所述带有提示词的问题文本输入大语言模型中，输出相应的问题答案。

可以理解的是，本发明提供的一种基于大语言模型的知识问答系统与前述各实施例提供的基于大语言模型的知识问答方法相对应，基于大语言模型的知识问答系统的相关技术特征可参考基于大语言模型的知识问答方法的相关技术特征，在此不再赘述。

请参阅图5，图5为本发明实施例提供的电子设备的实施例示意图。如图5所示，本发明实施例提了一种电子设备500，包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序511时实现基于大语言模型的知识问答方法的步骤。

请参阅图6，图6为本发明提供的一种计算机可读存储介质的实施例示意图。如图6所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现基于大语言模型的知识问答方法的步骤。

本发明实施例提供的一种基于大语言模型的知识问答方法及系统，具有以下有益效果：

1、过去针对文档检索都是采取关键词的形式实现存储和检索，不仅需要大量人力工作，并且检索精度较差，对文档内容的理解很局限，本发明对文档知识进行分段，并利用大语言模型技术生成知识相关问题，并采用向量化技术存入向量数据库，基于大语言模型对问题进行重构，基于重构的问题，得出来的问题答案更符合用户的实际需求，一方面采用智能的方法对文档进行总结和整理，另一方面通过对文本的向量化提高检索的效率和准确性。

2、相比于用户以个人逻辑撰写的问题文本，本发明通过检索已生成的问题并采用提示词方法将问题和参考文本格式化，使大语言模型可以更好的理解问题并做出解答。

3、针对专业领域或者机密行业的特殊性，常见的大语言模型无法满足其需求，本发明通过构建本地知识库，并根据用户问题从本地知识库中检索相关参考知识，利用大语言模型的文本解析能力，实现知识问答提取功能，提高了大语言模型的使用范围，为特定领域和行业提供高效快捷的智能文档信息提取方法。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于大语言模型的知识问答方法，其特征在于，包括：

2.根据权利要求1所述的基于大语言模型的知识问答方法，其特征在于，所述将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题，包括：

3.根据权利要求2所述的基于大语言模型的知识问答方法，其特征在于，大语言模型的训练包括：

4.根据权利要求1所述的基于大语言模型的知识问答方法，其特征在于，所述将生成的所述相关问题向量化，将每一个所述相关问题与对应的分段知识文本存储至向量数据库作为本地知识问题库，包括：

5.根据权利要求1所述的基于大语言模型的知识问答方法，其特征在于，所述将用户的提问问题进行向量化，从所述向量数据库中检索与用户的提问问题距离最近的多个相似的相关问题，并获取每一个相似的相关问题对应的分段知识文本，还包括：

6.一种基于大语言模型的知识问答系统，其特征在于，包括：

7.根据权利要求6所述的基于大语言模型的知识问答系统，其特征在于，所述生成模块，生成模块，用于将本地文档划分成段，得到多个分段知识文本，通过大语言模型基于每一个分段知识文本生成相关问题，包括：

8.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-5任一项所述的基于大语言模型的知识问答方法的步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-5任一项所述的基于大语言模型的知识问答方法的步骤。