CN117573821A

CN117573821A - 知识问答方法、装置、设备和存储介质

Info

Publication number: CN117573821A
Application number: CN202311523898.6A
Authority: CN
Inventors: 王思睿; 管晓钱; 代茹烟
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-20

Abstract

本发明提供一种知识问答方法、装置、设备和存储介质，应用于人工智能技术领域，该方法包括：获取待回答问题和至少一个候选文档；针对各候选文档，确定所述待回答问题与所述候选文档中各段落的匹配分数，所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关；确定所述待回答问题与所述候选文档中各段落的语义相似度；基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落；基于所述目标段落，确定所述待回答问题的答案信息。该方法可以提高召回的目标段落的准确性，从而可以提高大语言模型输出答案的准确度。

Description

知识问答方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种知识问答方法、装置、设备和存储介质。

背景技术

知识问答通常是用户向机器提出问题指令，由机器针对用户提出的指令给出对应的答复内容的过程。

当前大语言模型自定义知识库的构建方法为使用LlamaIndex创建文档数据索引，以使用自然语言搜索索引，从而在原始文档中搜索出相关片段后将由LlamaIndex检索并传递给大语言模型。具体地，LlamaIndex会将原始文档数据转换为查询友好的矢量化索引，并利用该索引根据查询和数据的匹配程度找到最相关的答案段落，之后，这些相关的答案段落将被发送到大语言模型，以便大语言模型具备必要的背景知识来回答用户提出的问题。

然而，通常会存在有些原始文档的内容十分庞大，而且其中可能存在大量重复或者碎片化的片段，因此，在通过索引查询时，可能会出现遗漏，因此，相关的答案段落将无法精确地被召回并被大语言模型所学习，导致大语言模型输出的答案准确度较低。

发明内容

本发明提供一种知识问答方法、装置、设备和存储介质，用以解决现有技术中大语言模型输出的答案准确度较低的缺陷，实现提高大语言模型输出答案的准确度。

本发明提供一种知识问答方法，包括：

获取待回答问题和至少一个候选文档；

针对各候选文档，确定所述待回答问题与所述候选文档中各段落的匹配分数，所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关；

确定所述待回答问题与所述候选文档中各段落的语义相似度；

基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落；

基于所述目标段落，确定所述待回答问题的答案信息。

根据本发明提供的一种知识问答方法，所述基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落，包括：

基于各所述段落的所述匹配分数和所述语义相似度，确定各段落的第一度量分数；所述第一度量分数用于表征所述段落与所述待回答问题之间的相关度；

基于各所述第一度量分数，从所有所述段落中确定至少两个候选段落；

针对各所述候选段落，将所述待回答问题和所述候选段落输入机器阅读理解模型中，得到所述机器阅读理解模型输出的所述候选段落的第二度量分数，所述第二度量分数用于表征通过所述候选段落可回答所述待回答问题的自信度；

基于各所述候选段落的第一度量分数和所述第二度量分数，确定所述目标段落。

根据本发明提供的一种知识问答方法，所述基于各所述段落的所述匹配分数和所述语义相似度，确定各段落的第一度量分数，包括：

针对各所述段落，基于所述匹配分数对应的第一权重、所述语义相似度对应的第二权重、所述匹配分数和所述语义相似度，确定所述段落的所述第一度量分数，在所述匹配分数小于第一预设分数的情况下，所述第二权重大于所述第一权重。

根据本发明提供的一种知识问答方法，所述基于各所述候选段落的第一度量分数和所述第二度量分数，确定所述目标段落，包括：

针对各所述候选段落，基于所述第一度量分数对应的第三权重、所述第二度量分数对应的第四权重、所述第一度量分数和所述第二度量分数，确定所述候选段落的第三度量分数，在所述第一度量分数小于第二预设分数的情况下，所述第四权重大于所述第三权重；

基于各所述第三度量分数，确定所述目标段落。

根据本发明提供的一种知识问答方法，所述将所述待回答问题和所述候选段落输入机器阅读理解模型中，得到所述机器阅读理解模型输出的所述候选段落的第二度量分数，包括：

将所述待回答问题和所述候选段落输入机器阅读理解模型中，通过所述机器阅读理解模型确定在所述候选段落中包括与所述待回答问题相关的目标信息的情况下，确定所述目标信息在所述候选段落中的起始位置和结束位置，基于所述起始位置和所述结束位置确定所述候选段落的第二度量分数。

根据本发明提供的一种知识问答方法，所述确定所述待回答问题与所述候选文档中各段落的匹配分数，包括：

对待回答问题与所述候选文档中各段落分别进行文本预处理，得到预处理后的待回答问题和各预处理后的段落；所述文本预处理包括分词处理和/或去停用词处理；

将预处理后的待回答问题转换为问题向量，并将各预处理后的段落转换为段落向量；

基于所述问题向量和各段落向量，确定所述待回答问题与所述候选文档中各段落的匹配分数。

根据本发明提供的一种知识问答方法，所述基于所述目标段落，确定所述待回答问题的答案信息，包括：

将所述目标段落和所述待回答问题输入至大语言模型中，得到所述大语言模型输出的所述答案信息。

本发明还提供一种知识问答装置，包括：

获取模块，用于获取待回答问题和至少一个候选文档；

确定模块，用于针对各候选文档，确定所述待回答问题与所述候选文档中各段落的匹配分数，所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关；

所述确定模块，还用于确定所述待回答问题与所述候选文档中各段落的语义相似度；

所述确定模块，还用于基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落；

所述确定模块，还用于基于所述目标段落，确定所述待回答问题的答案信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述知识问答方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述知识问答方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述知识问答方法。

本发明提供的知识问答方法、装置、设备和存储介质，通过获取待回答问题和至少一个候选文档，针对各候选文档，确定待回答问题与候选文档中各段落的匹配分数，该匹配分数与待回答问题中的分词在段落中出现的频率、待回答问题中的分词在所述待回答问题中出现的频率和段落的长度相关，通过确定待回答问题与候选文档中各段落的语义相似度，并基于各段落的匹配分数和语义相似度，确定目标段落，从而基于该目标段落，确定待回答问题的答案信息。由于匹配分数与待回答问题中的分词在段落中出现的频率、待回答问题中的分词在所述待回答问题中出现的频率和段落的长度相关，语义相似度考虑了待回答问题和各段落之间的语义相关性，因此，将匹配分数和语义相似度结合后确定目标段落，会使得确定出的目标段落更精准，从而可以进一步提高答案信息的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的知识问答方法的流程示意图之一；

图2是本发明实施例提供的知识问答方法的流程示意图之二；

图3为本发明实施例提供的知识问答方法的流程示意图之三；

图4是本发明实施例提供的知识问答装置的结构示意图；

图5示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在构建大语言模型的知识库时，通常通过使用LlamaIndex创建文档数据索引的方式查询和数据的匹配程度，以找到最相关的答案段落。但是LlamaIndex需要事先定义索引的字段，而且需要提前确定并配置哪些字段将被索引。当文档发生变化时，LlamaIndex需要重新索引以反映文档最新的更改。因此在文档更新频繁的情况下，初始索引构建过程可能会有一定的延迟。另外，有些文档的内容可能十分庞大，而且其中会存在大量重复或者碎片化的片段，在通过索引查询时，可能会出现遗漏，因此与待回答问题相关的答案段落无法准确地被召回并被大语言模型所学习。同时，LlamaIndex索引召回主要基于关键词匹配，因此，无法充分考虑到查询的上下文信息。综上所述，通过现有的方式确定出的文档的相关段落召回的准确度较低，导致大语言模型输出的答案的准确度也不高。

本发明实施例中考虑到上述问题，提出一种知识问答方法，该方法中通过考虑待回答问题和候选文档中各个段落之间的匹配分数以及语义相似度，从而基于匹配分数和语义相似度，从候选文档中确定与待回答问题相关的目标段落，将目标段落作为背景知识，以使大语言模型可以基于该背景知识回答待回答问题的答案信息。由于匹配分数考虑了待回答问题中的分词在段落中出现的频率、待回答问题中的分词在待回答问题中出现的频率和段落的长度等信息，而语义相似度考虑了待回答问题和各个段落之间的语义相似性，将两者结合，可以精准的从候选文档中召回与待回答问题相关的目标段落，从而可以提高目标段落召回的准确度，由此可以进一步提高待回答问题的答案信息。

下面结合图1至图3对本发明实施例提供的知识问答方法进行描述。本发明实施例提供的知识问答方法，可以应用于语言翻译、搜索引擎等领域，也可以应用于无人驾驶汽车、智能物流机器人等工业生产、以及家庭服务、医疗保健、网络安全和保险服务等领域，还可以应用于任何需要基于大语言模型进行知识问答的场景中。

图1是本发明实施例提供的知识问答方法的流程示意图之一，本发明方法的执行主体可以是智能手机、平板电脑、智能音箱、智能电视、计算机、服务器或服务器集群等电子设备，或者也可以是专门设计的知识问答设备等电子设备，或者还可以是设置在上述电子设备中的知识问答装置，该知识问答装置可以通过软件、硬件或两者的结合来实现。其中，上述电子设备中集成有大语言模型。如图1所示，该知识问答方法包括：

步骤101：获取待回答问题和至少一个候选文档。

在本步骤中，待回答问题可以是用户输入的问题，也即用户希望通过大语言模型回答的问题，例如“保险业务的犹豫期是多长时间”等等。候选文档可以是包括特定企业相关知识的文档，该候选文档也可以理解为用户提供的专门的资料，如一份保单或者保险合同等等，大语言模型会通过对至少一个候选文档的学习，从而具备某种知识，以回答用户输入的待回答问题。

上述的待回答问题可以为一个，也可以为多个，在待回答问题为多个的情况下，针对每个待回答问题，都可以根据本发明实施例中所述的方式确定该待回答问题对应的目标段落。另外，上述的候选文档可以为一个，也可以为多个。在候选文档为多个的情况下，针对每个候选文档，都可以基于本发明实施例中所述的方式从该候选文档中召回或者确定目标段落。本发明实施例中均以一个待回答问题和一个候选文档为例进行说明，对于多个待回答问题和多个候选文档的情况，其具体的实现方式可以参照一个待回答问题和一个候选文档的实现方式，本发明实施例中不再赘述。

步骤102：针对各候选文档，确定待回答问题与候选文档中各段落的匹配分数。

其中，匹配分数与待回答问题中的分词在段落中出现的频率、待回答问题中的分词在待回答问题中出现的频率和段落的长度相关。

在本步骤中，对于每个候选文档，会划分该候选文档中的各个段落。其中，该段落可以是候选文档中的各自然段落，也可以是以预设字符数量划分的段落。例如，若预设字符数量为100，则将候选文档中每100个字符划分为一个段落，从而可以确定出候选文档中的多个段落。

在确定出候选文档中的各段落之后，可以确定待回答问题和每个段落之间的匹配分数。示例性的，可以使用BM25算法确定待回答问题和每个段落之间的匹配分数，当然，也可以使用其他的算法确定待回答问题和每个段落之间的匹配分数，只要使得确定出的匹配分数与待回答问题中的分词在段落中出现的频率、待回答问题中的分词在所述待回答问题中出现的频率和段落的长度相关即可。

由于确定出的匹配分数考虑了待回答问题中的分词在段落中出现的频率、待回答问题中的分词在待回答问题中出现的频率和段落的长度等因素，后续在基于匹配分数确定目标段落时，使得确定出的目标段落与待回答问题的相关性更高。

步骤103：确定待回答问题与候选文档中各段落的语义相似度。

在本步骤中，可以将待回答问题和候选文档中的各段落均输入至编码网络中进行编码，分别得到待回答问题的向量表示和各段落的向量表示，其中，待回答问题的向量表示中会捕捉到待回答问题的语义信息，段落的向量表示会捕捉到该段落的语义信息。示例性的，上述编码网络可以为Sentence-Bert模型，当然，也可以为其他能够对句子进行编码的网络模型，只要能使编码后得到的向量表示中包含有句子的语义信息即可。

在确定出待回答问题的向量表示和各段落的向量表示之后，可以确定待回答问题与各段落的语义相似度，也即相似度得分。示例性的，可以通过余弦相似度的方式确定上述的语义相似度，也可以通过欧式距离的方式确定上述的语义相似度，还可以通过其他任何可以确定出语义相似度的方式确定待回答问题与各段落的语义相似度，如海明距离的方式等。

步骤104：基于各段落的匹配分数和语义相似度，确定目标段落。

在本步骤中，在确定出待回答问题和各段落的匹配分数，以及待回答问题和各段落的语义相似度之后，针对每个段落，可以将该段落对应的匹配分数和语义相似度进行融合，如可以将两者进行加权，或者确定两者的平均值，或者取两者中的最大值等等，从而可以得到该段落对应的检索分数。

在一种可能的实现方式中，可以对每个段落对应的检索分数按照从大到小的顺序进行排序，从而选择前第一预设数量个检索分数对应的段落作为目标段落。在另一种可能的实现方式中，也可以将大于第一预设分数的检索分数对应的段落确定为目标段落。

步骤105：基于目标段落，确定待回答问题的答案信息。

在本步骤中，在确定出目标段落后，可以将该目标段落存储至知识库中，并将该目标段落发送至大语言模型，从而使得该大语言模型将筛选出的目标段落作为背景知识，确定待回答问题的答案信息。

本发明实施例提供的知识问答方法，通过获取待回答问题和至少一个候选文档，针对各候选文档，确定待回答问题与候选文档中各段落的匹配分数，该匹配分数与待回答问题中的分词在段落中出现的频率、待回答问题中的分词在所述待回答问题中出现的频率和段落的长度相关，通过确定待回答问题与候选文档中各段落的语义相似度，并基于各段落的匹配分数和语义相似度，确定目标段落，从而基于该目标段落，确定待回答问题的答案信息。由于匹配分数与待回答问题中的分词在段落中出现的频率、待回答问题中的分词在所述待回答问题中出现的频率和段落的长度相关，语义相似度考虑了待回答问题和各段落之间的语义相关性，因此，将匹配分数和语义相似度结合后确定目标段落，会使得确定出的目标段落更精准，从而可以进一步提高答案信息的准确度。

图2是本发明实施例提供的知识问答方法的流程示意图之二，本实施例是对图1所示实施例的步骤104中，如何基于各段落的匹配分数和语义相似度，确定目标段落的实现过程进行详细说明。如图2所示，该方法包括：

步骤201：获取待回答问题和至少一个候选文档。

步骤202：针对各候选文档，确定待回答问题与候选文档中各段落的匹配分数。

其中，匹配分数与待回答问题中的分词在段落中出现的频率、待回答问题中的分词在所述待回答问题中出现的频率和段落的长度相关。

示例性的，在确定待回答问题与候选文档中各段落的匹配分数时，可以基于如下方式进行：

对待回答问题与候选文档中各段落分别进行文本预处理，得到预处理后的待回答问题和各预处理后的段落；文本预处理包括分词处理和/或去停用词处理；将预处理后的待回答问题转换为问题向量，并将各预处理后的段落转换为段落向量；基于问题向量和各段落向量，确定待回答问题与候选文档中各段落的匹配分数。

具体地，可以先对待回答问题与候选文档中各段落分别进行分词处理和/或去停用词处理等文本预处理，得到预处理后的待回答问题和各预处理后的段落，其中，对待回答问题和各段落进行文本预处理，可以消除噪声、减少数据的复杂性，以确定出后续确定与待回答问题相关段落时有用的信息，有助于提升大语言模型的准确性和效果，并减少处理候选文档中各段落所需的计算资源和时间。

进一步地，可以基于预先训练的向量转化模型将预处理后的待回答问题转换为问题向量，并将各预处理后的段落转换为段落向量。之后可以基于BM25算法确定问题向量和各段落向量之间的匹配度，从而确定待回答问题和各段落的匹配分数。

在本实施例中，通过对待回答问题和候选文档中的各段落进行文本预处理，可以消除噪声、减少数据的复杂性，节省处理候选文档中各段落所需的计算资源和时间。

步骤203：确定待回答问题与候选文档中各段落的语义相似度。

步骤201-步骤203的相关内容可以参照步骤101-步骤103，此处不再赘述。

步骤204：基于各段落的匹配分数和语义相似度，确定各段落的第一度量分数；第一度量分数用于表征段落与待回答问题之间的相关度。

在本步骤中，针对每个段落，可以通过对该段落的匹配分数和语义相似度进行加权求和、或者加权平均，或者直接求平均值等方式，确定该段落的第一度量分数。其中，由于匹配分数可以用于表征段落和待回答问题之间的匹配程度，语义相似度可以用于表征段落和待回答问题之间的语义相似程度，因此，基于两者确定出的第一度量分数可以用于表征段落和待回答问题之间的相关度。

步骤205：基于各第一度量分数，从所有段落中确定至少两个候选段落。

在本步骤中，在确定出各个段落的第一度量分数之后，示例性的，可以将第一度量分数按照从大到小的顺序排序，从而选择前第一预设数量个第一度量分数对应的段落作为候选段落，其中，第一预设数量可以根据实际情况或者经验进行设置，例如可以设置为3或者5等。示例性的，也可以是将所有第一度量分数中，大于预设度量分数的第一度量分数对应的段落作为候选段落。

步骤206：针对各候选段落，将待回答问题和候选段落输入机器阅读理解模型中，得到机器阅读理解模型输出的候选段落的第二度量分数，第二度量分数用于表征通过候选段落可回答待回答问题的自信度。

在本步骤中，机器阅读理解(Machine Reading and Comprehension，MRC)模型可以理解为，在给定一篇文章以及基于文章的一个问题后，机器可以在阅读文章后对问题进行作答。因此，在确定出至少两个候选段落后，可以将待回答问题和每个候选段落分别组成问题-段落对，并将至少两个问题-段落使用预训练的语言模型(BERT)对文本进行编码后，可以得到待回答问题的向量表示和候选段落的向量表示。将待回答问题的向量表示和候选段落的向量表示输入至MRC模型中，MRC模型会通过自注意力机制(self-attention)和卷积等操作来对上下文进行理解，从而可以获取到待回答问题与候选段落之间的交互信息，并捕捉到候选段落中与待回答问题相关的关键信息。

进一步地，MRC模型会根据上下文理解的结果，进一步进行答案抽取，从而可以基于抽取的答案输出每个候选段落的第二度量分数。其中，第二度量分数用于表征通过候选段落可回答待回答问题的自信度或者自信程度，或者也可以理解为第二度量分数用于表征通过候选段落可回答待回答问题的信心程度。

示例性的，将待回答问题和候选段落对应的向量表示输入机器阅读理解模型中，可以通过机器阅读理解模型确定在候选段落中包括与待回答问题相关的目标信息的情况下，确定目标信息在候选段落中的起始位置和结束位置，基于起始位置和结束位置确定候选段落的第二度量分数。

具体地，机器阅读理解模型在确定出候选段落中包括与待回答问题相关的目标信息后，通过对输出层进行线性变换或者使用特定的抽取机制，在该候选段落中识别出该目标信息的起始位置和结束位置。其中，抽取机制例如可以包括span-based、boundary-based等。其中，该目标信息可以理解为待回答问题对应的可能的答案。

进一步地，可以根据MRC模型生成的目标信息的起始位置和结束位置，可以计算每个候选段落的第二度量分数。在一种可能的实现方式中，可以使用起始位置和结束位置对应的概率分布来作为第二度量分数，在另一种可能的实现方式中，也可以计算起始位置和结束位置的得分作为第二度量分数。该第二度量分数可以反映MRC模型对于每个候选段落能否正确回答待回答问题的自信程度。

在本实施例中，可以通过机器阅读理解模型进一步对待回答问题和候选段落进行上下文理解，并确定与待回答问题相关的目标信息在候选段落中的起始位置和结束位置后，生成候选段落的第二度量分数，从而能够更好的理解查询意图，提高第二度量分数的准确度。

步骤207：基于各候选段落的第一度量分数和第二度量分数，确定目标段落。

在本步骤中，针对每个候选段落，该候选段落对应的第一度量分数和第二度量分数进行融合，如可以将两者进行加权，或者确定两者的平均值，或者取两者中的最大值等等，从而可以得到该候选段落对应的最终召回分数。

在一种可能的实现方式中，可以将每个候选段落对应的最终召回分数按照从大到小的顺序进行排序，从而选择前第二预设数量个最终召回分数对应的候选段落作为目标段落。在另一种可能的实现方式中，也可以将大于预设召回分数的最终召回分数对应的候选段落确定为目标段落。

步骤208：基于目标段落，确定待回答问题的答案信息。

在本实施例中，可以基于各段落的匹配分数和语义相似度，确定各段落的用于表征段落和待回答问题之间相关度的第一度量分数，基于该第一度量分数，从所有段落中初步筛选出至少两个候选段落，进一步地，可以将待回答问题和候选段落输入机器阅读理解模型中，得到机器阅读理解模型输出的候选段落的第二度量分数，从而可以基于各候选段落的第一度量分数和第二度量分数，确定从候选段落中更加精准的确定出目标段落，从而可以基于目标段落确定待回答问题的答案信息。上述方式可以避免现有技术中采用LlamaIndex创建文档数据索引造成的延迟问题，而且可以提升由于候选文档信息庞大，造成段落召回不精准的问题，提高了目标段落的精准度，从而可以进一步提升答案信息的准确性。

示例性的，在上述实施例的基础上，在基于各段落的匹配分数和语义相似度，确定各段落的第一度量分数时，可以基于如下方式进行：

针对各段落，基于匹配分数对应的第一权重、语义相似度对应的第二权重、匹配分数和语义相似度，确定段落的第一度量分数，在匹配分数小于第一预设分数的情况下，第二权重大于第一权重。

具体地，第一权重和第二权重的初始值可以为预先设置的，初始的第一权重和初始的第二权重可以相同，也可以不同。在后续的使用过程中，可以基于待回答问题和各个段落之间的匹配分数和语义相似度，动态调整初始的第一权重和初始的第二权重，以在基于调整后的第一权重和第二权重确定第一度量分数时，可以基于与待回答问题和段落的内容匹配的权重进行。

在匹配分数小于第一预设分数的情况下，说明在分词的频率、文档长度等因素方面，待回答问题和段落的匹配程度较低。此时，将会更加依赖于段落的上下文信息，也即要更依赖于语义相似度来确定目标段落。因此，语义相似度对应的第二权重将大于匹配分数对应的第一权重。

在匹配分数大于第一预设分数的情况下，说明在分词的频率、文档长度等因素方面，待回答问题和段落的匹配程度较高。此时，基于待回答问题中的分词在段落中匹配相应的目标段落，效率会更高。因此，可以设置匹配分数对应的第一权重大于语义相似度对应的第二权重。

需要进行说明的是，上述第一预设分数可以根据经验或者实际情况进行设置，例如可以设置为65或者70等，对于第一预设分数的具体取值，本发明实施例中不做限制。

在本实施例中，在确定第一度量分数时，可以基于匹配分数对应的第一权重、语义相似度对应的第二权重、匹配分数和语义相似度，确定段落的第一度量分数，在匹配分数小于第一预设分数的情况下，可以设置第二权重大于第一权重，这样，在通过分词很难在段落中匹配出相关内容时，可以更加依赖于上下文内容，也即依赖于语义相似度确定第一度量分数，由此可以基于待回答问题和段落的相关性实时调整相应的权重，可以提高第一度量分数的准确度。

示例性的，在上述实施例的基础上，在基于各候选段落的第一度量分数和第二度量分数，确定目标段落时，可以基于如下方式进行：

针对各候选段落，基于第一度量分数对应的第三权重、第二度量分数对应的第四权重、第一度量分数和第二度量分数，确定候选段落的第三度量分数，在第一度量分数小于第二预设分数的情况下，第四权重大于所述第三权重；基于各第三度量分数，确定目标段落。

具体地，第三权重和第四权重的初始值可以为预先设置的，初始的第三权重和初始的第四权重可以相同，也可以不同。在后续的使用过程中，可以基于待回答问题和各个候选段落之间的第一度量分数和第二度量分数，动态调整初始的第三权重和初始的第四权重，以在基于调整后的第三权重和第四权重确定第三度量分数时，可以基于与待回答问题和候选段落的内容匹配的权重进行。

在第一度量分数小于第二预设分数的情况下，说明在基于第一度量分数进行粗召回时，待回答问题和段落之间的匹配性不高，因此，需要进一步基于段落的上下文信息，也即要更依赖于机器阅读理解后得到的第二度量分数来确定目标段落。因此，第二度量分数对应的第四权重将大于第一度量分数对应的第三权重。

在第一度量分数小于第二预设分数的情况下，说明在基于第一度量分数进行粗召回时，待回答问题和段落之间的匹配性较高。此时，基于第一度量分数确定相应的目标段落时效率可能会更高。因此，可以设置第一度量分数对应的第三权重大于第二度量分数对应的第四权重。

需要进行说明的是，上述第二预设分数可以根据经验或者实际情况进行设置，例如可以设置为70或者80等，对于第二预设分数的具体取值，本发明实施例中不做限制。

在确定出第三度量分数后，可以按照从大到小的顺序对第三度量分数进行排序，从而选择前预设数量个第三度量分数对应的候选段落作为目标段落。或者可以将大于预设度量分数的第三度量分数对应的候选段落作为目标段落。

在本实施例中，在确定第三度量分数时，可以基于第一度量分数对应的第三权重、第二度量分数对应的第四权重、第一度量分数和第二度量分数，确定候选段落的第三度量分数，在第一度量分数小于第二预设分数的情况下，第四权重大于第三权重，这样，在通过第一度量分数很难在候选段落中匹配出相关内容时，可以依赖于机器阅读理解的上下文内容确定第三度量分数，由此可以基于待回答问题和段落的相关性实时调整第一度量分数和第二度量分数对应的权重，从而可以提高第三度量分数的准确度。

示例性的，在上述各实施例的基础上，基于目标段落，确定待回答问题的答案信息，可以通过如下方式实现：

将目标段落和待回答问题输入至大语言模型中，得到大语言模型输出的答案信息。

其中，大语言模型例如可以包括讯飞星火大模型(IFlytek Spark)等。在从候选文档中召回目标段落之后，可以将召回的目标段落和用户输入的待回答问题发送给大语言模型，以便大语言模型将该目标段落对应的文本作为背景知识，生成待回答问题对应的答案信息并进行输出。

在本实施例中，可以将目标段落和待回答问题输入至大语言模型中，得到大语言模型输出的答案信息，由于目标段落为通过多次匹配之后召回的精确度较高的段落，因此，基于该目标段落对应的文本生成的答案信息准确度也较高。

图3为本发明实施例提供的知识问答方法的流程示意图之三，本实施例中以通过BM25算法确定匹配分数、通过Sentence-Bert模型确定语义相似度为例对本发明实施例进行说明。如图3所示，该方法包括：

步骤S1：获取待回答问题和至少一个候选文档。

步骤S2：分别对待回答问题和候选文档中各段落分别进行文本预处理，得到预处理后的待回答问题和各预处理后的段落。

步骤S3：使用BM25算法并通过softmax处理后，可以确定预处理后的待回答问题和各预处理后的段落之间的匹配分数。其中，该匹配分数与待回答问题中的分词在各段落中出现的频率、待回答问题中的分词在待回答问题中出现的频率和所述段落的长度相关。

步骤S4：将预处理后的待回答问题和预处理后的各段落通过Sentence-Bert模型进行编码，得到待回答问题对应的向量表示和各段落对应的向量表示，并基于待回答问题对应的向量表示和各段落对应的向量表示，使用余弦相似度的方式确定待回答问题与各段落的语义相似度。

步骤S5：针对各段落，将段落的匹配分数和语义相似度进行加权融合，得到第一度量分数。其中，匹配分数对应的第一权重为1-a，语义相似度对应的第二权重为a。

其中，通过调整匹配分数对应的第一权重和语义相似度对应的第二权重的大小，可以平衡匹配分数和语义相似度之间的影响。

使用BM25和Sentence-Bert模型算法得到top-K1的检索的第一度量分数，BM25在softmax后结果差异大，第一度量分数可以集中于前预设数量个结果中，可利用其特性，通过参数a调节匹配分数与语义相似度的融合。

步骤S6：基于各段落对应的第一度量分数，从所有段落中确定至少两个候选段落。其中，第一度量分数可以反映每个段落和待回答问题之间的相关性。

在本实施例中，由于BM25算法能够考虑到分词的频率和文档长度等因素，但在面对语义相关性较弱的查询时，效果可能不理想。而Sentence-Bert模型通过学习语义相似性，可以弥补BM25算法的不足，提供更准确的召回结果。通过将两者结合使用，可以在信息检索任务中获得更好的性能，使得确定出的候选段落的准确度更高。

步骤S7：针对各候选段落，将待回答问题和候选段落输入机器阅读理解模型中，得到机器阅读理解模型输出的候选段落的第二度量分数。

步骤S8：针对各候选段落，将第一度量分数和第二度量分数进行加权融合，得到第三度量分数。其中，第一度量分数对应的第三权重为1-b，第二度量分数对应的第四权重为b。

其中，b的值可以根据实际需要进行调整，如果b接近于1，意味着更加偏向于MRC模型的结果；如果b接近于0，意味着更加偏向于第一度量分数的结果，也即检索的结果。

步骤S9：基于各第三度量分数，确定目标段落。

步骤S10：基于目标段落，确定待回答问题的答案信息。

本发明实施例中，通过BM25和Sentence-Bert模型进行候选段落的粗召回，再通过MRC模型进行精确召回目标段落的方法用于进行知识库的构建，可以避免现有技术中进行索引构建带来的延迟，同时能够提升由于候选文档信息庞大带来的目标段落进度不高的问题。Sentence-Bert模型算法和MRC模型考虑了句子或段落的上下文信息，因此能够更好地理解查询意图。此外，由于BM25和Sentence-Bert模型利用了预训练的BERT模型，它具有良好的泛化能力和鲁棒性，可以在不同领域、数据规模和特定任务上进行迁移学习，使得召回模型具有更强的适应性和表达能力。另外，可以利用检索模型和MRC模型的优势相结合，既考虑了段落与待回答问题之间的相关性，又考虑了MRC模型对于段落的理解能力，因此可以提高段落召回的准确性和效果。通过上述知识库构建的方法，可以使得大语言模型能够更快地学习新知识并产生更加准确的答案。

下面对本发明提供的知识问答装置进行描述，下文描述的知识问答装置与上文描述的知识问答方法可相互对应参照。

图4是本发明实施例提供的知识问答装置的结构示意图，参照图4所示，知识问答装置400包括：

获取模块401，用于获取待回答问题和至少一个候选文档；

确定模块402，用于针对各候选文档，确定所述待回答问题与所述候选文档中各段落的匹配分数，所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关；

所述确定模块402，还用于确定所述待回答问题与所述候选文档中各段落的语义相似度；

所述确定模块402，还用于基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落；

所述确定模块402，还用于基于所述目标段落，确定所述待回答问题的答案信息。

在一种示例实施例中，所述确定模块402，具体用于：

基于各所述第三度量分数，确定所述目标段落。

在一种示例实施例中，所述确定模块402，具体用于：

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行知识问答方法，该方法包括：获取待回答问题和至少一个候选文档；针对各候选文档，确定所述待回答问题与所述候选文档中各段落的匹配分数，所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关；确定所述待回答问题与所述候选文档中各段落的语义相似度；基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落；基于所述目标段落，确定所述待回答问题的答案信息。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的知识问答方法，该方法包括：获取待回答问题和至少一个候选文档；针对各候选文档，确定所述待回答问题与所述候选文档中各段落的匹配分数，所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关；确定所述待回答问题与所述候选文档中各段落的语义相似度；基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落；基于所述目标段落，确定所述待回答问题的答案信息。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的知识问答方法，该方法包括：获取待回答问题和至少一个候选文档；针对各候选文档，确定所述待回答问题与所述候选文档中各段落的匹配分数，所述匹配分数与所述待回答问题中的分词在所述段落中出现的频率、所述待回答问题中的分词在所述待回答问题中出现的频率和所述段落的长度相关；确定所述待回答问题与所述候选文档中各段落的语义相似度；基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落；基于所述目标段落，确定所述待回答问题的答案信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种知识问答方法，其特征在于，包括：

获取待回答问题和至少一个候选文档；

基于所述目标段落，确定所述待回答问题的答案信息。

2.根据权利要求1所述的知识问答方法，其特征在于，所述基于各所述段落的所述匹配分数和所述语义相似度，确定目标段落，包括：

3.根据权利要求2所述的知识问答方法，其特征在于，所述基于各所述段落的所述匹配分数和所述语义相似度，确定各段落的第一度量分数，包括：

4.根据权利要求2所述的知识问答方法，其特征在于，所述基于各所述候选段落的第一度量分数和所述第二度量分数，确定所述目标段落，包括：

基于各所述第三度量分数，确定所述目标段落。

5.根据权利要求2所述的知识问答方法，其特征在于，所述将所述待回答问题和所述候选段落输入机器阅读理解模型中，得到所述机器阅读理解模型输出的所述候选段落的第二度量分数，包括：

6.根据权利要求2所述的知识问答方法，其特征在于，所述确定所述待回答问题与所述候选文档中各段落的匹配分数，包括：

7.根据权利要求2所述的知识问答方法，其特征在于，所述基于所述目标段落，确定所述待回答问题的答案信息，包括：

8.一种知识问答装置，其特征在于，包括：

获取模块，用于获取待回答问题和至少一个候选文档；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述知识问答方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识问答方法。