CN117216208A

CN117216208A - 基于长文档的问答方法、装置、存储介质及设备

Info

Publication number: CN117216208A
Application number: CN202311125882.XA
Authority: CN
Inventors: 汪敏; 严妍; 杨春宇; 石鑫
Original assignee: Beijing Kaipuyun Information Technology Co ltd
Current assignee: Beijing Kaipuyun Information Technology Co ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-12-12

Abstract

本申请公开了一种基于长文档的问答方法、装置、存储介质及设备，属于机器学习技术领域。所述方法包括：按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库；获取用户输入的提问文本；从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库；根据提问文本和切块向量数据库生成提示词；将提示词输入训练后的大语言模型，将大语言模型的输出结果确定为提问文本的回答。本申请可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块，解决了提问文本的长短不确定，可能导致语义检索的定位不准确的问题，使得问答结果更准确。

Description

基于长文档的问答方法、装置、存储介质及设备

技术领域

本申请涉及机器学习技术领域，特别涉及一种基于长文档的问答方法、装置、存储介质及设备。

背景技术

基于长文本的问答是指利用大语言模型理解本地的长文档，并回答问题。大语言模型是通过大规模数据集训练得到的通用语言模型，功能强大，包括识别、总结、翻译、预测和生成文本内容等。但是，大语言模型的输入文本长度有限(比如2048或4096等)，对于长文档(如一万字以上)，不能将全文提问大语言模型，需要找到文档中与问题相关的某些部分再提问大语言模型。

相关技术中，可以按照段落或句子对长文档进行切分，得到多个切块；然后，根据用户提问的问题的语义精准定位到长文档中的某几个切块，再获取切块附近的上下文组合成提示词，根据提示词提问大语言模型。

然而，用户提问的问题的长短不定，有时候可能很短，有时候也可能很长，按照单一的切块方法无法定位到合适长短的切块，导致组合成的提示词不准确，从而影响了问答的准确性。

发明内容

本申请提供了一种基于长文档的问答方法、装置、存储介质及设备，用于解决按照单一的切块方法无法定位到合适长短的切块，导致组合成的提示词不准确，从而影响了问答的准确性的问题。所述技术方案如下：

本申请的第一方面，提供了一种基于长文档的问答方法，所述方法包括：

按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库；

获取用户输入的提问文本；

从多个切块向量数据库中查找与所述提问文本的长度相匹配的一个切块向量数据库；

根据所述提问文本和所述切块向量数据库生成提示词；

将所述提示词输入训练后的大语言模型，将所述大语言模型的输出结果确定为所述提问文本的回答。

在一种可能的实现方式中，所述将每个切分长度对应的多个切块组成一个切块向量数据库，包括：

对于每个切分长度，将所述切分长度对应的每个切块编码为切块向量；

将所有切块向量组成与所述切分长度对应的一个切块向量数据库。

在一种可能的实现方式中，所述从多个切块向量数据库中查找与所述提问文本的长度相匹配的一个切块向量数据库，包括：

获取所述提问文本的长度；

从多个切分长度中查找与所述提问文本的长度最接近的切分长度；

将所述切分长度对应的切块向量数据库确定为与所述提问文本的长度相匹配的一个切块向量数据库。

在一种可能的实现方式中，所述从多个切分长度中查找与所述提问文本的长度最接近的切分长度，包括：

分别计算每个切分长度与所述提问文本的长度的差值；

将绝对值最小的差值所对应的切分长度确定为与所述提问文本的长度最接近的切分长度。

在一种可能的实现方式中，所述根据所述提问文本和所述切块向量数据库生成提示词，包括：

将所述提问文本编码为文本向量；

在所述切块向量数据库中查找与所述文本向量的相似度最高的n个切块向量，n为正整数；

在所述长文档中获取所述n个切块向量对应的上下文，将所述上下文拼接成提示词。

在一种可能的实现方式中，所述在所述切块向量数据库中查找与所述文本向量的相似度最高的n个切块向量，包括：

分别计算所述文本向量与所述切块向量数据库中的每个切块向量之间的余弦相似度；

选择数值最大的n个余弦相似度；

将所述n个余弦相似度对应的切块向量确定为与所述文本向量的相似度最高的n个切块向量。

在一种可能的实现方式中，所述提示词的长度小于所述大语言模型的最大长度限制。

本申请的第二方面，提供了一种基于长文档的问答装置，所述装置包括：

切分模块，用于按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库；

获取模块，用于获取用户输入的提问文本；

查找模块，用于从多个切块向量数据库中查找与所述提问文本的长度相匹配的一个切块向量数据库；

生成模块，用于根据所述提问文本和所述切块向量数据库生成提示词；

确定模块，用于将所述提示词输入训练后的大语言模型，将所述大语言模型的输出结果确定为所述提问文本的回答。

本申请的第三方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的基于长文档的问答方法。

本申请的第四方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的基于长文档的问答方法。

本申请提供的技术方案的有益效果至少包括：

按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库；然后，从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库；根据提问文本和切块向量数据库生成提示词；将提示词输入训练后的大语言模型，将大语言模型的输出结果确定为提问文本的回答，这样，可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块，解决了提问文本的长短不确定，可能导致语义检索的定位不准确的问题，使得问答结果更准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的基于长文档的问答方法的流程图；

图2是本申请另一实施例提供的基于长文档的问答方法的流程图；

图3是本申请再一实施例提供的基于长文档的问答装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

如图1所示，其示出了本申请一个实施例提供的基于长文档的问答方法的方法流程图，该基于长文档的问答方法可以应用于计算机设备中。该基于长文档的问答方法，可以包括：

步骤101，按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库。

本实施例中，长文档是长度大于大语言模型的最大长度限制的文档。

计算机设备可以预先设置多个切分长度，比如10、20、40、80、160、320等。切分长度的具体数值可以是经验值，也可以是采用公式计算得到的，本实施例中不作限定。

计算机设备分别使用每个切分长度对长文档进行切分，每个切分长度对应于一组切块，将该组切块组成一个切块向量数据库。比如，切分长度为10时，计算机设备按照10个字符的切分长度对长文档进行切分，得到一组切块，将所有切块组成一个切块向量数据库；切分长度为20时，按照20个字符的切分长度对长文档进行切分，得到另一组切块，将所有切块组成另一个切块向量数据库，依此类推。也就是说，有多少个切分长度，就可以得到多少个切块向量数据库。

步骤102，获取用户输入的提问文本。

用户可以以多种方式输入提问文本。比如，当用户以语音的方式说出问题时，计算机设备可以将语音转换成提问文本；或者，当用户以打字的方式输入问题时，计算机设备可以直接获取到提问文本。

提问文本可以是“小明是中学生，本产品对他的物理学习有哪些帮助？”。

步骤103，从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库。

提问文本的长度可以是提问文本的字符数。

与提问文本的长度相匹配的切块向量数据库是指与提问文本的长度最接近的切块向量数据库。比如，切分长度包括10、20、40、80、160和320，且提问文本“小明是中学生，本产品对他的物理学习有哪些帮助？”的长度为23，则与提问文本的长度相匹配的是切分长度20对应的一个切块向量数据库。

步骤104，根据提问文本和切块向量数据库生成提示词。

计算机设备可以利用文本编码器对提问文本进行处理后，结合切块向量数据库和长文档生成提示词。

本实施例中，可以使用一些问答数据对文本编码器进行微调，使得文本向量在问答任务上表现得更精准。

步骤105，将提示词输入训练后的大语言模型，将大语言模型的输出结果确定为提问文本的回答。

计算机设备可以获取训练好的大语言模型，或者，计算机设备也可以获取训练样本，利用训练样本对大语言模型进行训练，本实施例不对训练过程进行赘述。

计算机设备可以获取大语言模型的输出结果，将该输出结果作为提问文本的回答提供给用户。

本申请可以实现长文档的精准问答，且该方法不止对于一篇长文档生效，对于多篇长文档的问答效果也很好。

综上所述，本申请实施例提供的基于长文档的问答方法，按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库；然后，从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库；根据提问文本和切块向量数据库生成提示词；将提示词输入训练后的大语言模型，将大语言模型的输出结果确定为提问文本的回答，这样，可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块，解决了提问文本的长短不确定，可能导致语义检索的定位不准确的问题，使得问答结果更准确。

如图2所示，其示出了本申请一个实施例提供的基于长文档的问答方法的方法流程图，该基于长文档的问答方法可以应用于计算机设备中。该基于长文档的问答方法，可以包括：

步骤201，按照不同切分长度分别对长文档进行切分。

计算机设备分别使用每个切分长度对长文档进行切分，每个切分长度对应于一组切块。比如，切分长度为10时，计算机设备按照10个字符的切分长度对长文档进行切分，得到一组切块；切分长度为20时，按照20个字符的切分长度对长文档进行切分，得到另一组切块，依此类推。也就是说，有多少个切分长度，就可以得到多少组切块。

步骤202，对于每个切分长度，将切分长度对应的每个切块编码为切块向量；将所有切块向量组成与切分长度对应的一个切块向量数据库。

对于每个切分长度对应的一组切块，计算机设备利用文本编码器对每个切块进行编码，将得到的一组切块向量组成一个切块向量数据库。

比如，切分长度为10时，计算机设备按照10个字符的切分长度对长文档进行切分得到一组切块，将所有切块组成一个切块向量数据库；切分长度为20时，按照20个字符的切分长度对长文档进行切分得到另一组切块，将所有切块组成另一个切块向量数据库，依此类推。也就是说，有多少个切分长度，就可以得到多少个切块向量数据库。

步骤203，获取用户输入的提问文本。

步骤204，从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库。

提问文本的长度可以是提问文本的字符数。

与提问文本的长度相匹配的切块向量数据库是指与提问文本的长度最接近的切块向量数据库。

具体的，从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库，可以包括：获取提问文本的长度；从多个切分长度中查找与提问文本的长度最接近的切分长度；将切分长度对应的切块向量数据库确定为与提问文本的长度相匹配的一个切块向量数据库。

其中，从多个切分长度中查找与提问文本的长度最接近的切分长度，可以包括：分别计算每个切分长度与提问文本的长度的差值；将绝对值最小的差值所对应的切分长度确定为与提问文本的长度最接近的切分长度。

比如，切分长度包括10、20、40、80、160和320，且提问文本“小明是中学生，本产品对他的物理学习有哪些帮助？”的长度为23，则与提问文本的长度相匹配的是切分长度20对应的一个切块向量数据库。

步骤205，根据提问文本和切块向量数据库生成提示词。

具体的，根据提问文本和切块向量数据库生成提示词，可以包括：将提问文本编码为文本向量；在切块向量数据库中查找与文本向量的相似度最高的n个切块向量，n为正整数；在长文档中获取n个切块向量对应的上下文，将上下文拼接成提示词。

在查找切块向量时，计算机设备可以分别计算文本向量与切块向量数据库中的每个切块向量之间的余弦相似度；选择数值最大的n个余弦相似度；将n个余弦相似度对应的切块向量确定为与文本向量的相似度最高的n个切块向量。其中，n的数值可以自行设置。比如n为50，则计算机设备可以得到50个切块向量。

在得到切块向量后，计算机设备可以选取n个切块在长文档中的附近上下文，拼接成提问大语言模型的提示词。其中，提示词的长度小于大语言模型的最大长度限制。

步骤206，将提示词输入训练后的大语言模型，将大语言模型的输出结果确定为提问文本的回答。

如图3所示，其示出了本申请一个实施例提供的基于长文档的问答装置的结构框图，该基于长文档的问答装置可以应用于计算机设备中。该基于长文档的问答装置，可以包括：

切分模块310，用于按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库；

获取模块320，用于获取用户输入的提问文本；

查找模块330，用于从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库；

生成模块340，用于根据提问文本和切块向量数据库生成提示词；

确定模块350，用于将提示词输入训练后的大语言模型，将大语言模型的输出结果确定为提问文本的回答。

在一个可选的实施例中，切分模块310，还用于：

对于每个切分长度，将切分长度对应的每个切块编码为切块向量；

将所有切块向量组成与切分长度对应的一个切块向量数据库。

在一个可选的实施例中，查找模块330，还用于：

获取提问文本的长度；

从多个切分长度中查找与提问文本的长度最接近的切分长度；

将切分长度对应的切块向量数据库确定为与提问文本的长度相匹配的一个切块向量数据库。

在一个可选的实施例中，查找模块330，还用于：

分别计算每个切分长度与提问文本的长度的差值；

将绝对值最小的差值所对应的切分长度确定为与提问文本的长度最接近的切分长度。

在一个可选的实施例中，生成模块340，还用于：

将提问文本编码为文本向量；

在切块向量数据库中查找与文本向量的相似度最高的n个切块向量，n为正整数；

在长文档中获取n个切块向量对应的上下文，将上下文拼接成提示词。

在一个可选的实施例中，生成模块340，还用于：

分别计算文本向量与切块向量数据库中的每个切块向量之间的余弦相似度；

选择数值最大的n个余弦相似度；

将n个余弦相似度对应的切块向量确定为与文本向量的相似度最高的n个切块向量。

在一个可选的实施例中，提示词的长度小于大语言模型的最大长度限制。

综上所述，本申请实施例提供的基于长文档的问答装置，按照不同切分长度分别对长文档进行切分，将每个切分长度对应的多个切块组成一个切块向量数据库；然后，从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库；根据提问文本和切块向量数据库生成提示词；将提示词输入训练后的大语言模型，将大语言模型的输出结果确定为提问文本的回答，这样，可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块，解决了提问文本的长短不确定，可能导致语义检索的定位不准确的问题，使得问答结果更准确。

本申请一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的基于长文档的问答方法。

本申请一个实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的基于长文档的问答方法。

需要说明的是：上述实施例提供的基于长文档的问答装置在进行基于长文档的问答时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将基于长文档的问答装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于长文档的问答装置与基于长文档的问答方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种基于长文档的问答方法，其特征在于，所述方法包括：

获取用户输入的提问文本；

根据所述提问文本和所述切块向量数据库生成提示词；

2.根据权利要求1所述的基于长文档的问答方法，其特征在于，所述将每个切分长度对应的多个切块组成一个切块向量数据库，包括：

3.根据权利要求1所述的基于长文档的问答方法，其特征在于，所述从多个切块向量数据库中查找与所述提问文本的长度相匹配的一个切块向量数据库，包括：

获取所述提问文本的长度；

4.根据权利要求1所述的基于长文档的问答方法，其特征在于，所述从多个切分长度中查找与所述提问文本的长度最接近的切分长度，包括：

分别计算每个切分长度与所述提问文本的长度的差值；

5.根据权利要求1至4任一所述的基于长文档的问答方法，其特征在于，所述根据所述提问文本和所述切块向量数据库生成提示词，包括：

将所述提问文本编码为文本向量；

6.根据权利要求5所述的基于长文档的问答方法，其特征在于，所述在所述切块向量数据库中查找与所述文本向量的相似度最高的n个切块向量，包括：

选择数值最大的n个余弦相似度；

7.根据权利要求5所述的基于长文档的问答方法，其特征在于，所述提示词的长度小于所述大语言模型的最大长度限制。

8.一种基于长文档的问答装置，其特征在于，所述装置包括：

获取模块，用于获取用户输入的提问文本；

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至7任一所述的基于长文档的问答方法。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至7任一所述的基于长文档的问答方法。