CN117290694B

CN117290694B - 问答系统评估方法、装置、计算设备及存储介质

Info

Publication number: CN117290694B
Application number: CN202311585325.6A
Authority: CN
Inventors: 陈健; 乔楠; 杨昆; 翟晓更
Original assignee: Beijing Paratera Technology Co ltd
Current assignee: Beijing Paratera Technology Co ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-03-15
Anticipated expiration: 2043-11-24
Also published as: CN117290694A

Abstract

本发明公开了一种问答系统评估方法、装置、计算设备及存储介质，属于人工智能技术领域。方法包括：利用大语言模型根据向量库中的各标准文本块分别生成多个问题和预期答案，以生成测试数据集；从向量库中搜索出与问题相似的一个或多个相似文本块；根据相似文本块中是否包含问题对应的标准文本块，来评估问答系统的向量搜索命中效果；根据问题和相似文本块组合生成第一提问信息，利用大语言模型根据第一提问信息生成问题对应的第一答案；根据问题、第一答案、问题对应的预期答案或者标准文本块，生成第二提问信息，利用大语言模型根据第二提问信息来评估大语言模型回答问题的准确性。本发明实现了对问答系统进行细粒度、全方面的评估。

Description

问答系统评估方法、装置、计算设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种问答系统评估方法、问答系统评估装置、计算设备及存储介质。

背景技术

基于向量库和大模型的问答系统是一种基于向量表示和相似度计算的方法来进行问题回答的系统，该系统主要由嵌入模型、向量库、大语言模型组成，工作流程如下：首先，系统先将已有的文本进行分块处理，再通过嵌入模型将文本块转换为向量表示并将结果存入向量库中，当用户提出问题时，系统将用户的问题转换为向量表示，并与向量库中的向量进行相似度计算，选出相似度最高的前几个文本块，最后，大模型基于用户的问题和这些文本块生成答案并返回给用户。

对于如何评估上述问答系统的效果目前存在以下几个问题：缺少标注数据，该系统所使用的文本一般来自本地文档或网页，没有针对这些文本的问答格式的标注数据，而人工标注数据不仅耗时耗力而且无法大量标注数据；基于大模型答案的多样性，对于同一个问题，大模型可能给出多个不同的回答，导致评估的难度较大；针对答案可靠性的评估，问答系统所提供的答案应该是准确可靠的，受限于向量搜索的效果和大模型的能力，大模型经常给出错误的答案。

因此，需要一种问答系统评估方法，以解决上述技术方案中存在的至少一个问题。

发明内容

为此，本发明提供一种问答系统评估方法及问答系统评估装置，以解决或至少缓解上面存在的问题。

根据本发明的一个方面，提供一种问答系统评估方法，所述问答系统包括向量库和大语言模型，所述方法包括：利用大语言模型，根据向量库中的各标准文本块分别生成多个问题和预期答案，并根据所述各标准文本块以及对应的所述多个问题和预期答案生成测试数据集；对于所述测试数据集中的每个问题：从向量库中搜索出与所述问题相似的一个或多个相似文本块；根据搜索出的所述一个或多个相似文本块中是否包含所述问题对应的标准文本块，来评估所述问答系统的向量搜索命中效果；根据所述问题和搜索出的所述一个或多个相似文本块，组合生成第一提问信息，并利用大语言模型，根据所述第一提问信息生成所述问题对应的第一答案；根据所述问题、所述第一答案、所述问题对应的预期答案或者标准文本块，生成第二提问信息，并利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性。

可选地，在根据本发明的问答系统评估方法中，根据搜索出的所述一个或多个相似文本块中是否包含所述问题对应的标准文本块，来评估所述问答系统的向量搜索命中效果，包括：对于每个所述问题，确定搜索出的与所述问题相似的一个或多个相似文本块中是否包含所述问题对应的标准文本块，如果包含，则确定命中所述问题对应的标准文本块；确定所述测试数据集中的所有问题对应的标准文本块的命中率，作为所述问答系统的向量搜索命中率，以便根据所述向量搜索命中率评估所述问答系统的向量搜索命中效果。

可选地，在根据本发明的问答系统评估方法中，利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性，包括：将所述第二提问信息输入所述大语言模型中进行处理，以输出所述问题对应的第一答案是否正确的判断结果；根据每个所述问题对应的第一答案是否正确的判断结果，来确定所述大语言模型回答问题的正确率，以便根据所述正确率评估所述大语言模型回答问题的准确性。

可选地，在根据本发明的问答系统评估方法中，根据每个所述问题对应的第一答案是否正确的判断结果，来确定所述大语言模型回答问题的正确率，包括：根据每个所述问题对应的第一答案是否正确的判断结果，来确定所述测试数据集中的所有问题对应的第一答案的正确率，作为所述大语言模型回答问题的正确率。

可选地，在根据本发明的问答系统评估方法中，利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性，包括：利用大语言模型，根据所述问题以及所述问题对应的预期答案，来对所述第一答案的准确性进行评估；或者利用大语言模型，根据所述问题以及所述问题对应的标准文本块，来对所述第一答案的准确性进行评估。

可选地，在根据本发明的问答系统评估方法中，根据所述问题、所述第一答案、所述问题对应的预期答案或者标准文本块，生成第二提问信息，包括：根据所述问题、所述第一答案、所述问题对应的标准文本块，生成包含上下文的第二提问信息；利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性，包括：利用大语言模型，根据事实性或者所述第二提问信息中的上下文来评估所述大语言模型回答问题的准确性。

可选地，在根据本发明的问答系统评估方法中，根据所述问题和搜索出的所述一个或多个相似文本块，组合生成第一提问信息，包括：根据所述问题和搜索出的所述一个或多个相似文本块，组合生成基于所述一个或多个相似文本块回答所述问题的第一提问信息。

可选地，在根据本发明的问答系统评估方法中，从向量库中搜索出与所述问题相似的一个或多个相似文本块，包括：将所述问题转换为问题向量，从向量库中搜索出与该问题向量相似的一个或多个相似向量；将一个或多个相似向量转换为对应的一个或多个相似文本块。

根据本发明的一个方面，提供一种问答系统评估装置，所述问答系统包括向量库和大语言模型，所述装置包括：问答生成模块，适于利用大语言模型，根据向量库中的各标准文本块分别生成多个问题和预期答案，并根据所述各标准文本块以及对应的所述多个问题和预期答案生成测试数据集；向量搜索模块，适于对于所述测试数据集中的每个问题，从向量库中搜索出与所述问题相似的一个或多个相似文本块；向量搜索评估模块，适于根据搜索出的所述一个或多个相似文本块中是否包含所述问题对应的标准文本块，来评估所述问答系统的向量搜索命中效果；大模型问答模块，适于根据所述问题和搜索出的所述一个或多个相似文本块，组合生成第一提问信息，并利用大语言模型，根据所述第一提问信息生成所述问题对应的第一答案；问答评估模块，适于根据所述问题、所述第一答案、所述问题对应的预期答案或者标准文本块，生成第二提问信息，并利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性。

根据本发明的一个方面，提供一种计算设备，包括：至少一个处理器；存储器，存储有程序指令，其中，程序指令被配置为适于由上述至少一个处理器执行，所述程序指令包括用于执行如上所述的问答系统评估方法的指令。

根据本发明的一个方面，提供一种存储有程序指令的可读存储介质，当该程序指令被计算设备读取并执行时，使得该计算设备执行如上所述的问答系统评估方法。

根据本发明的技术方案，提供了一种问答系统评估方法，其中，利用大语言模型根据向量库中的各标准文本块分别生成多个问题和预期答案，并根据各标准文本块以及对应的多个问题和预期答案生成测试数据集，对于测试数据集中的每个问题，可以从向量库中搜索出与该问题相似的一个或多个相似文本块，并根据搜索出的一个或多个相似文本块中是否包含该问题对应的标准文本块，来评估问答系统的向量搜索命中效果。并且，可以根据该问题和搜索出的一个或多个相似文本块组合生成第一提问信息，利用大语言模型根据第一提问信息来生成该问题对应的第一答案。最后，可以根据上述问题及对应的第一答案、问题对应的预期答案或者标准文本块，生成第二提问信息，并利用大语言模型根据所第二提问信息来评估大语言模型回答问题的准确性。

这样，根据本发明的技术方案，利用大语言模型基于向量库中的标准文本块生成测试数据集，可以针对问答系统高效地生成大量具有标注数据的测试数据，解决了现有的针对问答系统的评估方案中缺少标注数据的问题。本发明通过确定测试数据集中所有问题对应的标准文本块的命中率作为向量搜索命中率，根据向量搜索命中率能够精确评估问答系统的向量搜索命中效果，实现了对问答系统效果进行更加细粒度的评估。根据大语言模型回答问题的正确率来评估大语言模型回答问题的准确性高低，该准确性同时也反映了问答系统的整体效果，进而能实现对问答系统的整体效果（包括向量搜索效果和问答效果）进行评估。而且，基于测试数据集中的大量测试数据，能够抵消大模型回答问题的多样性带来的评估波动，从而解决了大模型回答问题的多样性带来的评估困难问题。可见，根据本发明的问答系统评估方案，实现了对问答系统效果进行细粒度、全方面的评估，提高了对问答系统的评估效率和精确性，解决了大模型回答问题的多样性带来的评估困难问题。

此外，根据本发明的问答系统评估方案，可以根据问题以及问题对应的预期答案来对第一答案的准确性进行评估，也可以根据问题以及问题对应的标准文本块来对第一答案的准确性进行评估。并且，可以根据事实性或者第二提问信息中的上下文来评估大语言模型回答问题的准确性。这样，本发明可以采用多种评估方式和策略来对问答系统进行评估，实现了从多个角度评估问答系统的效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的问答系统评估装置100的示意图；

图2示出了根据本发明一个实施例的计算设备200的示意图；

图3示出了根据本发明一个实施例的问答系统评估方法300的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的问答系统评估装置100的示意图。根据本发明的问答系统评估装置100可用于对问答系统进行评估。

需要说明的是，待评估的问答系统包括向量库、一个或多个大语言模型（即LargeLanguage Model，缩写为LLM）。

如图1所示，问答系统评估装置100包括依次耦接的问答生成模块110、向量搜索模块120、大模型问答模块140、问答评估模块150，还包括与向量搜索模块120耦接的向量搜索评估模块130。其中，问答生成模块110、大模型问答模块140、问答评估模块150分别可以与（问答系统的）一个或多个大语言模型耦接，例如，问答生成模块110、大模型问答模块140、问答评估模块150分别可以调用一个或多个大语言模型提供的接口（Web接口）来与一个或多个大语言模型进行数据交互。另外，问答生成模块110、向量搜索模块120分别可以与问答系统的向量库耦接。

值得注意的是，根据本发明的问答系统评估装置100中的向量搜索模块120与问答系统中的向量搜索功能一致，问答系统评估装置100中的大模型问答模块140与问答系统中的大模型问答功能一致，以便基于向量搜索模块120、大模型问答模块140，来实现对问答系统的向量搜索效果、大模型问答效果进行评估。

在一些实施例中，本发明中的大语言模型例如可以包括ChatGPT、文心一言等模型。但，本发明不受限于大语言模型的具体种类和版本。

在本发明的实施例中，问答生成模块110可以利用大语言模型，根据向量库中的各标准文本块分别生成多个问题和预期答案（每个问题分别对应的预期答案）。这里，每个问题分别对应一个预期答案。随后，可以根据各标准文本块以及对应的多个问题和预期答案生成测试数据集。

向量搜索模块120可以从向量库中搜索出与问题相似的一个或多个相似文本块。在一些实施例中，向量搜索模块120可以通过嵌入模型将问题转换为问题向量，进而，通过将该问题向量与向量库中的每个向量进行相似度计算，以从向量库中搜索出与该问题向量相似的一个或多个相似向量。例如，在一个实施例中，可以利用余弦相似度算法，来将该问题向量与向量库中的每个向量进行相似度计算，确定向量库中的每个向量对应的相似度，并获取相似度最高的一个或多个向量作为与该问题向量相似的一个或多个相似向量。之后，向量搜索模块120可以将与问题向量相似的一个或多个相似向量，转换为对应的一个或多个相似文本块，从而得到与上述问题相似的一个或多个相似文本块。

向量搜索评估模块130可以根据上述问题和搜索出的与该问题相似的一个或多个相似文本块，来评估向量搜索命中效果。具体地，可以根据搜索出的与问题相似的一个或多个相似文本块中是否包含该问题对应的标准文本块，来评估问答系统的向量搜索命中效果，也即，评估问答系统的向量搜索模块120的向量搜索命中效果。这样，通过评估问答系统的向量搜索命中效果，可以实现对问答系统的向量搜索功能的效果评估。

大模型问答模块140可以根据上述问题和搜索出的与该问题相似的一个或多个相似文本块，组合生成第一提问信息。相应地，第一提问信息中包含问题以及一个或多个相似文本块。随后，大模型问答模块140可以利用大语言模型，来根据第一提问信息生成问题对应的第一答案。可以理解，第一答案即是大语言模型预测出的问题答案。

具体地，大模型问答模块140可以将第一提问信息输入大语言模型中进行处理，以通过大语言模型生成问题对应的第一答案并输出。随后，大模型问答模块140可以获取大语言模型输出的（问题对应的）第一答案。

问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的预期答案或者标准文本块，来生成第二提问信息。相应地，第二提问信息可以包括上述问题、该问题对应的第一答案、该问题对应的预期答案或者标准文本块。也就是说，问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的预期答案，来生成第二提问信息；或者，问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的标准文本块，来生成第二提问信息。随后，问答评估模块150可以利用大语言模型，根据第二提问信息来评估大语言模型回答问题的准确性。

在本发明的实施例中，问答系统评估装置100适于执行本发明的问答系统评估方法300。本发明的问答系统评估方法300将在下文中详述。其中，关于问答系统评估装置100中的问答生成模块110、向量搜索模块120、向量搜索评估模块130、大模型问答模块140以及问答评估模块150的具体执行逻辑可参见下文问答系统评估方法300中对步骤310~350的描述。

在本发明的一个实施例中，问答系统评估装置100可以部署在如下所述的计算设备200中，使得本发明的问答系统评估方法300可以在计算设备200中执行。问答系统评估装置100通过执行本发明的问答系统评估方法300，可以实现对问答系统进行细粒度、全方面的评估，提高对问答系统的评估准确性。

图2示出了根据本发明一个实施例的计算设备200的示意图。如图2所示，在基本配置中，计算设备200包括至少一个处理单元202和系统存储器204。根据一个方面，取决于计算设备的配置和类型，处理单元202可以实现为处理器。系统存储器204包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪速存储器、或者这样的存储器的任何组合。根据一个方面，系统存储器204中包括操作系统205。

根据一个方面，操作系统205例如适合于控制计算设备200的操作。此外，示例结合图形库、其他操作系统、或任何其他应用程序而被实践，并且不限于任何特定的应用或系统。在图2中通过在虚线内的那些组件示出了该基本配置。根据一个方面，计算设备200具有额外的特征或功能。例如，根据一个方面，计算设备200包括额外的数据存储设备(可移动的和/或不可移动的)，例如磁盘、光盘、或者磁带。这样额外的存储在图2中是由可移动存储设备209和不可移动存储设备210示出的。

如在上文中所陈述的，根据一个方面，在系统存储器204中存储有程序模块203。根据一个方面，程序模块203可以包括一个或多个应用程序，本发明不限制应用程序的类型，例如应用程序可以包括：电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片展示应用程序、绘画或计算机辅助应用程序、网络浏览器应用程序等。在根据本发明的实施例中，程序模块203中包括执行本发明的问答系统评估方法300的多条程序指令。

在一些实施例中，程序模块203中包括问答系统评估装置100，问答系统评估装置100中包括执行本发明的问答系统评估方法300的多条程序指令。

根据一个方面，可以在包括分立电子元件的电路、包含逻辑门的封装或集成的电子芯片、利用微处理器的电路、或者在包含电子元件或微处理器的单个芯片上实践示例。例如，可以经由其中在图2中所示出的每个或许多组件可以集成在单个集成电路上的片上系统(SOC)来实践示例。根据一个方面，这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能，其全部作为单个集成电路而被集成(或“烧”)到芯片基底上。当经由SOC进行操作时，可以经由在单个集成电路(芯片)上与计算设备200的其他组件集成的专用逻辑来对在本文中所描述的功能进行操作。还可以使用能够执行逻辑操作(例如AND、OR和NOT)的其他技术来实践本发明的实施例，所述其他技术包括但不限于机械、光学、流体、和量子技术。另外，可以在通用计算机内或在任何其他任何电路或系统中实践本发明的实施例。

根据一个方面，计算设备200还可以具有一个或多个输入设备212，例如键盘、鼠标、笔、语音输入设备、触摸输入设备等。还可以包括输出设备214，例如显示器、扬声器、打印机等。前述设备是示例并且也可以使用其他设备。计算设备200可以包括允许与其他计算设备218进行通信的一个或多个通信连接216。合适的通信连接216的示例包括但不限于：RF发射机、接收机和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

如在本文中所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质可以包括以任何用于存储信息(例如，计算机可读指示、数据结构、或程序模块)的方法或技术来实现的易失性的和非易失性的、可移动的和不可移动的介质。系统存储器204、可移动存储设备209、和不可移动存储设备210都是计算机存储介质的示例(即，存储器存储)。计算机存储介质可以包括随机存取存储器(RAM) 、只读存储器(ROM) 、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可用于存储信息并且可以由计算设备200访问的任何其他制品。根据一个方面，任何这样的计算机存储介质都可以是计算设备200的一部分。计算机存储介质不包括载波或其他经传播的数据信号。

根据一个方面，通信介质是由计算机可读指令、数据结构、程序模块、或者经调制的数据信号(例如，载波或其他传输机制)中的其他数据实施的，并且包括任何信息传递介质。根据一个方面，术语“经调制的数据信号”描述了具有一个或多个特征集或者以将信息编码在信号中的方式改变的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频(RF)、红外线的、以及其他无线介质之类的无线介质。

在根据本发明的实施例中，计算设备200被配置为执行根据本发明的问答系统评估方法300。计算设备200包括一个或多个处理器、以及存储有程序指令的一个或多个可读存储介质，当程序指令被配置为由一个或多个处理器执行时，使得计算设备200执行本发明实施例中的问答系统评估方法300。

图3示出了根据本发明一个实施例的问答系统评估方法300的流程示意图。问答系统评估方法300适于在计算设备（例如前述计算设备200）中执行，具体可以在计算设备200的问答系统评估装置100中执行。通过执行本发明的问答系统评估方法300，能实现对问答系统进行细粒度、全方面的评估，提高对问答系统的评估准确性。

需要说明的是，待评估的问答系统包括向量库、一个或多个大语言模型。向量库中包含多个向量以及各向量分别对应的标准文本块。

如前文所述，根据本发明的问答系统评估装置100，包括依次耦接的问答生成模块110、向量搜索模块120、大模型问答模块140、问答评估模块150，还包括与向量搜索模块120耦接的向量搜索评估模块130。其中，问答生成模块110、大模型问答模块140、问答评估模块150分别可以与（问答系统的）一个或多个大语言模型耦接，例如，问答生成模块110、大模型问答模块140、问答评估模块150分别可以调用一个或多个大语言模型提供的接口（Web接口）来与一个或多个大语言模型进行数据交互。另外，问答生成模块110、向量搜索模块120分别可以与问答系统的向量库耦接。

如图3所示，问答系统评估方法300始于步骤310。

在步骤310中，可通过问答生成模块110，利用大语言模型，根据向量库中的各标准文本块分别生成多个问题和预期答案（每个问题分别对应的预期答案）。这里，每个问题分别对应一个预期答案。随后，可以根据各标准文本块以及对应的多个问题和预期答案生成测试数据集。

这里，测试数据集中的测试数据包含标准文本块、对应的多个问题和预期答案（每个问题分别对应的预期答案）。这样，本发明利用大语言模型基于向量库中的多个标准文本块，可以高效地生成大量问答格式的标注数据，以作为评估问答系统的测试数据。

例如，在一个实施例中，标准文本块例如为“深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术”。

根据该标准文本块可以生成以下3个问题的预期答案。

问题：什么是深度学习？

预期答案：深度学习是通过学习样本数据内部的规律和表示来解决问题的学习方法。

问题：深度学习最终的目标是什么？

预期答案：深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

问题：深度学习有什么优势？

预期答案：深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

进而，对于测试数据集中的每个问题分别可以执行下述步骤320~350。换言之，下述步骤320~350中的问题可以是测试数据集中的任一问题。

在步骤320中，通过向量搜索模块120，从向量库中搜索出与问题相似的一个或多个相似文本块。

在一些实施例中，向量搜索模块120可以通过嵌入模型将问题转换为问题向量，进而，通过将该问题向量与向量库中的每个向量进行相似度计算，以从向量库中搜索出与该问题向量相似的一个或多个相似向量。例如，在一个实施例中，可以利用余弦相似度算法，来将该问题向量与向量库中的每个向量进行相似度计算，确定向量库中的每个向量对应的相似度，并获取相似度最高的一个或多个向量作为与该问题向量相似的一个或多个相似向量。

之后，将与问题向量相似的一个或多个相似向量，转换为对应的一个或多个相似文本块，从而得到与上述问题相似的一个或多个相似文本块。

下面是关于问题、问题向量、两个相似向量和对应的两个相似文本块的示例。

问题：什么是深度学习？

问题向量：[0.4457394480705261, -0.10722091794013977, ......]

相似向量（1）：[ 1.0664916038513184, 0.03477246314287186, ......]

相似向量（2）：[0.38642147183418274, 0.4371371567249298, ......]

相似文本块（1）：深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

相似文本块（2）：深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

接着，在步骤330中，可以通过向量搜索评估模块130，根据上述问题和搜索出的与该问题相似的一个或多个相似文本块，来评估向量搜索命中效果。具体地，可以根据搜索出的与问题相似的一个或多个相似文本块中是否包含该问题对应的标准文本块，来评估问答系统的向量搜索命中效果，也即，评估问答系统的向量搜索模块120的向量搜索命中效果。

这样，通过评估问答系统的向量搜索命中效果，可以实现对问答系统的向量搜索功能的效果评估。

在一个具体实施例中，可以针对测试数据集中的每个问题，确定搜索出的与问题相似的一个或多个相似文本块中是否包含该问题对应的标准文本块，如果与问题相似的一个或多个相似文本块中包含该问题对应的标准文本块，则可以确定（向量搜索模块120）命中问题对应的标准文本块。

根据测试数据集中的每个问题是否命中对应的标准文本块，可以确定测试数据集中的所有问题对应的标准文本块的命中率（也即，测试数据集的命中率）。这里，通过将命中标准文本块的问题数除以测试数据集中的问题总数，可以得到命中率。并且，可以将该命中率作为问答系统的向量搜索命中率，以便根据向量搜索命中率来评估问答系统的向量搜索命中效果。

这里，可以理解的是，向量搜索命中率可作为评估问答系统的向量搜索命中效果的指标。这样，本发明通过确定测试数据集中所有问题对应的标准文本块的命中率作为向量搜索命中率，根据向量搜索命中率能够精确评估问答系统的向量搜索命中效果。

接下来，在步骤340中，可以通过大模型问答模块140，根据上述问题和搜索出的与该问题相似的一个或多个相似文本块，组合生成第一提问信息。相应地，第一提问信息中包含问题以及一个或多个相似文本块。随后，大模型问答模块140可以利用大语言模型，来根据第一提问信息生成问题对应的第一答案。可以理解，第一答案即是大语言模型预测出的问题答案。

在一些实施例中，大模型问答模块140可以根据上述问题和搜索出的与该问题相似的一个或多个相似文本块，组合生成基于一个或多个相似文本块回答该问题的第一提问信息。也就是说，第一提问信息中包含问题和搜索出的与该问题相似的一个或多个相似文本块，第一提问信息是基于一个或多个相似文本块回答问题的提问信息。通过将第一提问信息输入大语言模型中进行处理，以便大语言模型基于第一提问信息中的一个或多个相似文本块，回答第一提问信息中的问题，以生成该问题对应的第一答案并输出。

例如，根据问题“什么是深度学习”以及搜索出的与该问题相似的两个相似文本块，可以生成第一提问信息，该第一提问信息如下所示。

基于以下信息回答问题：什么是深度学习？

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

上面即是根据问题“什么是深度学习”以及搜索出的与该问题相似的两个相似文本块生成的第一提问信息，其中包含一个问题和两个相似文本块。

应当指出的是，上面仅作为第一提问信息的一个示例，但是，本发明的第一提问信息并不受限于该示例中关于问题及相似文本块的具体内容。

最后，在步骤350中，可以通过问答评估模块150，根据上述问题、该问题对应的第一答案、该问题对应的预期答案或者标准文本块，来生成第二提问信息。相应地，第二提问信息可以包括上述问题、该问题对应的第一答案、该问题对应的预期答案或者标准文本块。也就是说，问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的预期答案，来生成第二提问信息；或者，问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的标准文本块，来生成第二提问信息。随后，问答评估模块150可以利用大语言模型，根据第二提问信息来评估大语言模型回答问题的准确性。

在一些实施例中，利用大语言模型，根据第二提问信息来评估大语言模型回答问题的准确性，具体可以通过以下方法实现：将第二提问信息输入大语言模型中进行处理，以便大语言模型输出（第二提问信息中的）问题对应的第一答案是否正确的判断结果。这里，判断结果可以为 “正确”或者“错误”。

这里，利用大语言模型，可以根据（第二提问信息中的）问题以及问题对应的预期答案，来对第一答案的准确性进行评估；或者，根据（第二提问信息中的）问题以及问题对应的标准文本块，来对第一答案的准确性进行评估。

进而，问答评估模块150可以根据测试数据集中的每个问题对应的第一答案是否正确的判断结果，来确定大语言模型回答问题的正确率。具体地，根据测试数据集中的每个问题对应的第一答案是否正确的判断结果，可以确定测试数据集中的所有问题对应的第一答案的正确率。这里，可以将判断结果为“正确”的问题数量除以问题总数，来得出所有问题对应的第一答案的正确率。所有问题对应的第一答案的正确率可作为大语言模型回答问题的正确率。这样，可以根据大语言模型回答问题的正确率来评估大语言模型回答问题的准确性高低。

这样，根据大语言模型回答问题的正确率可以评估大语言模型回答问题的准确性高低，该准确性同时也反映了问答系统的整体效果，进而能实现对问答系统的整体效果（包括向量搜索效果和问答效果）进行评估。

在一些实施例中，第二提问信息的格式可以为判断题格式。

在一个实施例中，问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的预期答案，来生成第二提问信息。第二提问信息中包含上述问题、该问题对应的第一答案、该问题对应的预期答案。相应地，在根据该第二提问信息来评估大语言模型回答问题的准确性时，利用大语言模型，可以根据（第二提问信息中的）问题以及问题对应的预期答案，来对第一答案的准确性进行评估。

例如，在该实施例中，可以根据以下格式来生成第二提问信息（包含问题、该问题对应的第一答案、该问题对应的预期答案）并输入大语言模型。

You are a teacher grading a quiz.

You are given a question, the student's answer, and the true answer,and are asked to score the student answer as either CORRECT or INCORRECT.

Example Format:

QUESTION: question here

STUDENT ANSWER: student's answer here

TRUE ANSWER: true answer here

GRADE: CORRECT or INCORRECT here

Grade the student answers based ONLY on their factual accuracy.Ignore differences in punctuation and phrasing between the student answer andtrueanswer. It is OK if the student answer contains more information than thetrue answer, as long as it does not contain any conflicting statements.Begin!

QUESTION: {question}

STUDENT ANSWER: {answer}

TRUE ANSWER: {true answer}

GRADE:

在又一个实施例中，问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的标准文本块，来生成第二提问信息。第二提问信息中包含上述问题、该问题对应的第一答案、该问题对应的标准文本块。相应地，在根据该第二提问信息来评估大语言模型回答问题的准确性时，利用大语言模型，可以根据（第二提问信息中的）问题以及问题对应的标准文本块，来对第一答案的准确性进行评估。

在该实施例中，问答评估模块150可以根据上述问题、该问题对应的第一答案、该问题对应的标准文本块，来生成包含上下文的第二提问信息。进而，可以利用大语言模型，根据事实性或者第二提问信息中的上下文，来评估大语言模型回答问题的准确性。

需要说明的是，根据事实性进行评估，要求结果不存在事实性错误。根据上下文进行评估，要求结果来源于第二提问信息中的上下文。

例如，根据事实性进行评估，可以根据以下格式来生成第二提问信息（包含问题、该问题对应的第一答案、该问题对应的标准文本块）并输入大语言模型。

You are a teacher grading a quiz.

You are given a question, the context the question is about, and thestudent's answer. You are asked to score the student's answer as eitherCORRECTor INCORRECT, based on the context.

Example Format:

QUESTION: question here

CONTEXT: context the question is about here

STUDENT ANSWER: student's answer here

GRADE: CORRECT or INCORRECT here

Grade the student answers based ONLY on their factual accuracy. Don'thave any explanation. Just give the CORRECT or INCORRECT answer. Ignoredifferencesin punctuation and phrasing between the student answer and trueanswer. It is OK if the student answer contains more information than thetrue answer, aslong as it does not contain any conflicting statements. Begin!

QUESTION: {question}

CONTEXT: {context}

STUDENT ANSWER: {answer}

GRADE:

根据上下文进行评估，可以根据以下格式来生成第二提问信息（包含问题、该问题对应的第一答案、该问题对应的标准文本块）并输入大语言模型。

You are a teacher grading a quiz.

Example Format:

QUESTION: question here

CONTEXT: context the question is about here

STUDENT ANSWER: student's answer here

GRADE: CORRECT or INCORRECT here

Grade the student answers based ONLY on the CONTEXT. Don't have anyexplanation. Just give the CORRECT or INCORRECT answer. Ignore differencesinpunctuation and phrasing between the student answer and true answer. It isOK if the student answer contains more information than the true answer, aslongas it does not contain any conflicting statements. Begin!

QUESTION: {question}

CONTEXT: {context}

STUDENT ANSWER: {answer}

GRADE:

综上，根据本发明的问答系统评估方法300，利用大语言模型根据向量库中的各标准文本块分别生成多个问题和预期答案，并根据各标准文本块以及对应的多个问题和预期答案生成测试数据集，对于测试数据集中的每个问题，可以从向量库中搜索出与该问题相似的一个或多个相似文本块，并根据搜索出的一个或多个相似文本块中是否包含该问题对应的标准文本块，来评估问答系统的向量搜索命中效果。并且，可以根据该问题和搜索出的一个或多个相似文本块组合生成第一提问信息，利用大语言模型根据第一提问信息来生成该问题对应的第一答案。最后，可以根据上述问题及对应的第一答案、问题对应的预期答案或者标准文本块，生成第二提问信息，并利用大语言模型根据所第二提问信息来评估大语言模型回答问题的准确性。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，移动终端一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的问答系统评估方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

Claims

1.一种问答系统评估方法，所述问答系统包括向量库和大语言模型，所述方法包括：

利用大语言模型，根据向量库中的各标准文本块分别生成多个问题和预期答案，并根据所述各标准文本块以及对应的所述多个问题和预期答案生成测试数据集；

对于所述测试数据集中的每个问题：

从向量库中搜索出与所述问题相似的一个或多个相似文本块；

根据搜索出的所述一个或多个相似文本块中是否包含所述问题对应的标准文本块，来评估所述问答系统的向量搜索命中效果；

根据所述问题和搜索出的所述一个或多个相似文本块，组合生成第一提问信息，并利用大语言模型，根据所述第一提问信息生成所述问题对应的第一答案；

根据所述问题、所述第一答案、所述问题对应的预期答案或者标准文本块，生成第二提问信息，并利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性，其中包括：将所述第二提问信息输入所述大语言模型中进行处理，以输出所述问题对应的第一答案是否正确的判断结果，根据每个所述问题对应的第一答案是否正确的判断结果，来确定所述大语言模型回答问题的正确率，以便根据所述正确率评估所述大语言模型回答问题的准确性。

2.如权利要求1所述的方法，其中，根据搜索出的所述一个或多个相似文本块中是否包含所述问题对应的标准文本块，来评估所述问答系统的向量搜索命中效果，包括：

对于每个所述问题，确定搜索出的与所述问题相似的一个或多个相似文本块中是否包含所述问题对应的标准文本块，如果包含，则确定命中所述问题对应的标准文本块；

确定所述测试数据集中的所有问题对应的标准文本块的命中率，作为所述问答系统的向量搜索命中率，以便根据所述向量搜索命中率评估所述问答系统的向量搜索命中效果。

3.如权利要求1所述的方法，其中，根据每个所述问题对应的第一答案是否正确的判断结果，来确定所述大语言模型回答问题的正确率，包括：

根据每个所述问题对应的第一答案是否正确的判断结果，来确定所述测试数据集中的所有问题对应的第一答案的正确率，作为所述大语言模型回答问题的正确率。

4.如权利要求1或2所述的方法，其中，利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性，包括：

利用大语言模型，根据所述问题以及所述问题对应的预期答案，来对所述第一答案的准确性进行评估；或者

利用大语言模型，根据所述问题以及所述问题对应的标准文本块，来对所述第一答案的准确性进行评估。

5.如权利要求1或2所述的方法，其中，根据所述问题、所述第一答案、所述问题对应的预期答案或者标准文本块，生成第二提问信息，包括：根据所述问题、所述第一答案、所述问题对应的标准文本块，生成包含上下文的第二提问信息；

利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性，包括：利用大语言模型，根据事实性或者所述第二提问信息中的上下文来评估所述大语言模型回答问题的准确性。

6.如权利要求1或2所述的方法，其中，根据所述问题和搜索出的所述一个或多个相似文本块，组合生成第一提问信息，包括：

根据所述问题和搜索出的所述一个或多个相似文本块，组合生成基于所述一个或多个相似文本块回答所述问题的第一提问信息。

7.如权利要求1或2所述的方法，其中，从向量库中搜索出与所述问题相似的一个或多个相似文本块，包括：

将所述问题转换为问题向量，从向量库中搜索出与该问题向量相似的一个或多个相似向量；

将一个或多个相似向量转换为对应的一个或多个相似文本块。

8.一种问答系统评估装置，所述问答系统包括向量库和大语言模型，所述装置包括：

问答生成模块，适于利用大语言模型，根据向量库中的各标准文本块分别生成多个问题和预期答案，并根据所述各标准文本块以及对应的所述多个问题和预期答案生成测试数据集；

向量搜索模块，适于对于所述测试数据集中的每个问题，从向量库中搜索出与所述问题相似的一个或多个相似文本块；

向量搜索评估模块，适于根据搜索出的所述一个或多个相似文本块中是否包含所述问题对应的标准文本块，来评估所述问答系统的向量搜索命中效果；

大模型问答模块，适于根据所述问题和搜索出的所述一个或多个相似文本块，组合生成第一提问信息，并利用大语言模型，根据所述第一提问信息生成所述问题对应的第一答案；

问答评估模块，适于根据所述问题、所述第一答案、所述问题对应的预期答案或者标准文本块，生成第二提问信息，并利用大语言模型，根据所述第二提问信息来评估所述大语言模型回答问题的准确性，其中包括：将所述第二提问信息输入所述大语言模型中进行处理，以输出所述问题对应的第一答案是否正确的判断结果，根据每个所述问题对应的第一答案是否正确的判断结果，来确定所述大语言模型回答问题的正确率，以便根据所述正确率评估所述大语言模型回答问题的准确性。

9.一种计算设备，包括：

至少一个处理器；以及

存储器，存储有程序指令，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-7中任一项所述的方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-7中任一项所述方法。