CN116881425A

CN116881425A - 一种通用型文档问答实现方法、系统、设备及存储介质

Info

Publication number: CN116881425A
Application number: CN202310995639.7A
Authority: CN
Inventors: 胡华; 周逸聪; 郭鹏程; 钟刚
Original assignee: Wuhan Firehome Putian Information Technology Co ltd
Current assignee: Wuhan Firehome Putian Information Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-10-13

Abstract

本发明公开一种通用型文档问答实现方法，包括以下步骤：S1、将不同格式的文档解析成纯文本格式的文档集；S2、将所述文档集分成语义完整不冗余的文本段集合D；S3、对所述文本段集合D建立倒排索引库IndexS和向量索引库IndexV；S4、对用户的问句在所述倒排索引库和所述向量索引库进行检索，使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度，得到最相关的top‑k个候选文本段Dcand；S5、将所述问句和所述候选文本段构建Prompt模板，将Prompt模板输入至大模型中进行答案的生成；本发明答案检索召回率高，对复杂问题的解析及处理能力强，并且能够免去人工标注成本，使其方便快速的拓展到其他任意场景，赋予文档问答通用能力。

Description

一种通用型文档问答实现方法、系统、设备及存储介质

技术领域

本发明涉及到信息技术领域，具体涉及到一种通用型文档问答实现方法。

背景技术

文档型问答(Document-based Question Answering，简称文档型QA)是自然语言处理领域中的一个重要分支，文档型QA任务需要对非结构化的文档库中的每篇文档进行深入理解和分析，从中提取相关信息，然后根据用户提出的问题给出准确的答案。其目标是使计算机具备类似人类阅读和理解文本的能力，并根据用户的问题提供准确的答案。

这与传统的搜索引擎不同，传统搜索引擎返回的是与关键词相关的文档列表，而文档型问答系统更加注重从文档中直接提取用户所需的具体的答案。因此，文档型QA可以帮助用户快速获取所需的知识和答案，减轻人工工作负担，提高用户满意度，能够帮助组织及个人高效、准确地管理和利用大量的文档和知识库。

目前针对文档型QA任务，普遍的实现方法是：1)先对文档库中的文档进行切分，然后使用Inverted Index方法构建细粒度的文本索引库；2)对问句进行解析，使用BM25、tfidf等文本相似度算法从文本索引库中检索召回出匹配度最高的top-k个文本段；3)然后利用机器阅读理解技术从检索出的相关文本段中抽取出答案返回给用户。此方法比较适合处理逻辑简单、句式单一、表述标准的问题，并给出简短的答案。

现有技术缺陷在于：1)由于文档切分容易将答案文本一分为二或者将不同语义的文本切分到一起，导致检索召回阶段无法召回包含答案的文本段，导致准确率不佳；2)对于逻辑较为复杂、句式较为繁琐、表述多样的解释型、概括型、判断型等问题显得并不适用；3)问句解析及机器阅读理解阶段需要标注大量与任务场景相关的数据进行算法的训练，人工成本较大且无法直接拓展到其他场景，缺乏通用性。

发明内容

本发明的目的是针对现有技术存在的问题，提供一种通用型文档问答实现方法，答案检索召回率高，对复杂问题的解析及处理能力强，并且能够免去人工标注成本，使其方便快速的拓展到其他任意场景，赋予文档问答通用能力。

为实现上述目的，本发明采用的技术方案是：

一种通用型文档问答实现方法，包括以下步骤：

S1、将不同格式的文档解析成纯文本格式的文档集；

S2、将所述文档集分成语义完整不冗余的文本段集合D；

S3、对所述文本段集合D建立倒排索引库IndexS和向量索引库IndexV；

S4、对用户的问句在所述倒排索引库和所述向量索引库进行检索，使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度，得到最相关的top-k个候选文本段D_cand；

S5、将所述问句和所述候选文本段构建Prompt模板，将Prompt模板输入至大模型中进行答案的生成。

步骤S1具体为，文档格式包括Word、PDF、TXT和XML，使用Python的各类文本格式解析框架对不同格式文档进行解析。

步骤S2具体包括，将文档切分转换为语义连贯性判断任务，并使用大模型ChatGLM-6B进行实现。

所述语义连贯性判断任务具体包括以下步骤：

S2.1、使用换行符对所述文档集进行分段，得集合P；

S2.2、构建语义连贯性判断任务的Prompt模板，将具体上文和下文填充至Prompt模板中得到完整的语义连贯性判断任务输入，输入至ChatGLM-6B进行推理，得到是否语义连贯的结果；

S2.3、对分段后的所有段落循环遍历，进行语义连贯性判断，构建语义连贯不冗余的文本段集合D，设最后得到的D的长度为M。

构建倒排索引库IndexS的步骤具体为，

S3.1、使用jieba分词对全文本段集合进分词，构建词表V＝{v0，v1,...vi,...}，词表长度为L；

S3.2、遍历词表，统计每个词语在哪些文本段中出现过，得每个词语所属的文本段子集D_vi；

S3.3、计算每个词语在文本段集D中的逆文档频率idf_vi，其代表了词语v_i在文本段集D中的重要性程度；

S3.4、由以上可得每个词语的数据，[v_i,D_vi,idf_vi]，然后将其追加到IndexS中，遍历完成后得到完整IndexS。

构建向量索引库IndexV的步骤具体为，设向量维度为N，构建出的indexV是一个行数为M，列数为N的矩阵，如下：

其中，每一行代表的每个文本段的向量化语义表示，文本段的向量化方法使用预训练的文本Embedding模型。

步骤S4具体包括：

S4.1、基于倒排索引的问句-文本段相似度计算，算法公式如下：

其中，q_i为问句Q分词后的语素，k_i，b为调节因子；f_i为q_i在文本段d中的出现频率；dl为文本段d的长度；avgdl为所有文档的平均长度，ScoreI(Q,d)值域为[0,1]；

S4.2、基于向量索引的问句-文本段相似度计算，先对问句Q进行向量化，同样使用文本Embedding模型，得到V_Q，然后使用余弦相似度计算步骤如下：

其中，ScoreV(Q,d)值域为[0,1]；

S4.3、使用动态加权相似度对两类相似度进行加权平均，得到最终的向量索引的问句-文本段相似度，如下：

Score(Q,d)＝α·ScoreI(Q,d)+(1-α)·ScoreV(Q,d)；

其中，α的值域为[0,1]，其计算方法如下：

S4.4、计算问句与每篇文本段的加权相似度，得到相似度最高的top-k个候选文本段D_cand。

一种基于大语言模型的通用型文档问答系统，包括：

文档解析模块，用于将不同格式的文档解析成纯文本格式的文档集；

文档切分模块，用于将所述文档集分成语义完整不冗余的文本段集合D；

文本段索引构建模块，用于构建倒排索引库IndexS和向量索引库IndexV；

检索召回模块，用于对用户的问句在所述倒排索引库和所述向量索引库进行检索，使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度，得到最相关的top-k个候选文本段Dcand；

答案生成模块，用于将所述问句和所述候选文本段构建Prompt模板，将Prompt模板输入至大模型中进行答案的生成。

一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述的通用型文档问答实现方法。

一种存储介质，所述存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述的通用型文档问答实现方法。

与现有技术相比，本发明的有益效果是：

1、在文本段切分时，将文档切分转换为语义连贯性判断任务，并使用大模型ChatGLM-6B进行实现，使文档形成语义完整不冗余的文本段集合，解决了文档切分语义不连贯，导致检索召回准确率不佳的问题；

2、对用户的问句分别在倒排索引库向量索引库进行检索，使用动态加权相似度的方式计算问题与文本段集合的相似度，两者在文本段字面层面及语义层面对文本段进行表示，使用动态加权相似度的方式计算问题与文本段集合的相似度，得到最相关的top-k个候选文本段，对复杂问题的解析及处理能力强，能够提高答案检索召回的准确率；

3、该将原问句和top-k个候选文本段构建大模型输入的Prompt，输入至大模型中进行答案的生成，形成连贯易读的答案文本，能够免去人工标注成本，使其方便快速的拓展到其他任意场景，赋予文档问答通用能力。

附图说明

图1为本发明一种通用型文档问答实现方法的逻辑框图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种通用型文档问答实现方法，包括以下步骤：

S1、将不同格式的文档解析成纯文本格式的文档集；

S2、将所述文档集分成语义完整不冗余的文本段集合D；

S5、将所述问句和所述候选文本段构建Prompt模板，如表1所示，将Prompt模板输入至ChatGLM-6B模型中进行答案的生成。

表1

步骤S1具体为，文档格式包括Word、PDF、TXT和XML，使用Python的各类文本格式解析框架对不同格式文档进行解析，比如使用python-docx解析Word格式文件，PyPDF2解析PDF格式文件，lxml解析XML格式。

步骤S2具体为，将文档切分转换为语义连贯性判断任务，并使用大模型ChatGLM-6B进行实现。判断两段话是否具有语义的连续性，是否是描述同一个主题。

所述语义连贯性判断任务具体包括以下步骤：

S2.1、使用换行符对所述文档集进行分段，得集合P；

S2.2、构建语义连贯性判断任务的Prompt模板，如表2所示，将具体上文和下文填充至Prompt模板中得到完整的语义连贯性判断任务输入，输入至ChatGLM-6B进行推理，得到是否语义连贯的结果；

表2

其中，above和below分别是上下文两段文本中的上文和下文；

构建倒排索引库IndexS，每条数据包括了词语本身、词语的文本段id集合以及词语的逆文档频率，构建步骤包括词表构建、词语文本段统计以及逆文档频率计算，具体如下：

其中，每一行代表的每个文本段的向量化语义表示，文本段的向量化方法使用预训练的文本Embedding模型text2vec-large-chinese，也可使用其他同类模型；

步骤S4具体包括：

其中，ScoreV(Q,d)值域为[0,1]；

Score(Q,d)＝α·ScoreI(Q,d)+(1-α)·ScoreV(Q,d)；

其中，α的值域为[0,1]，其计算方法如下：

本发明还提供一种基于大语言模型的通用型文档问答系统，采用上述的通用型文档问答实现方法，包括：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种通用型文档问答实现方法，其特征在于，包括以下步骤：

S1、将不同格式的文档解析成纯文本格式的文档集；

S2、将所述文档集切分成语义完整不冗余的文本段集合D；

2.根据权利要求1所述的一种通用型文档问答实现方法，其特征在于，步骤S1具体为，文档格式包括Word、PDF、TXT和XML，使用Python的各类文本格式解析框架对不同格式文档进行解析。

3.根据权利要求1所述的一种通用型文档问答实现方法，其特征在于，步骤S2中，将文档切分任务转换为语义连贯性判断任务，并使用大模型ChatGLM-6B进行实现。

4.根据权利要求3所述的一种通用型文档问答实现方法，其特征在于，所述语义连贯性判断任务具体包括以下步骤：

S2.1、使用换行符对文档集进行分段，得集合P；

5.根据权利要求1所述的一种通用型文档问答实现方法，其特征在于，构建倒排索引库IndexS的步骤具体为，

6.根据权利要求1所述的一种通用型文档问答实现方法，其特征在于，构建向量索引库IndexV的步骤具体为，设向量维度为N，构建出的indexV是一个行数为M，列数为N的矩阵，如下：

7.根据权利要求1所述的一种通用型文档问答实现方法，其特征在于，步骤S4具体包括：

其中，q_i为问句Q分词后的语素，k_i，b为调节因子；f_i为q_i在文本段d中的出现频率；

dl为文本段d的长度；avgdl为所有文档的平均长度，ScoreI(Q,d)值域为[0,1]；

其中，ScoreV(Q,d)值域为[0,1]；

Score(Q,d)＝α·ScoreI(Q,d)+(1-α)·ScoreV(Q,d)

其中，α的值域为[0,1]，其计算方法如下：

8.根据权利要求1所述的一种基于大语言模型的通用型文档问答系统，其特征在于，采用权利要求1至7任意一项所述的通用型文档问答实现方法，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至7中任意一项所述的通用型文档问答实现方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的通用型文档问答实现方法。