CN117763128B

CN117763128B - 人机交互的数据处理方法、服务器、存储介质和程序产品

Info

Publication number: CN117763128B
Application number: CN202410072354.0A
Authority: CN
Inventors: 卿立之; 康杨杨; 孙常龙
Original assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Filing date: 2024-01-18
Publication date: 2024-06-04
Anticipated expiration: 2044-01-18

Abstract

本申请提供一种人机交互的数据处理方法、服务器、存储介质和程序产品。本申请的方法，通过配置包含填充槽位和测评思维链的提示模板，将包括问题和待测评响应的待测评数据填充至所述提示模板的槽位中生成测评指令，将所述测评指令输入第一测评模型，使得第一测评模型进行基于所述测评思维链的逻辑推理，得到所述待测评数据的质量等级，根据所述待测评数据的质量等级，计算得到所述人机交互模型的测评结果，采用ACR的方式引入问题响应质量的多个质量等级，可缓解对于同一问答对的多次打分不一致的情况，更好地控制测评模型测评的鲁棒性；通过测评思维链指导第一测评模型的测评步骤，可提升测评准确性，扩展性强、测评效率高。

Description

人机交互的数据处理方法、服务器、存储介质和程序产品

技术领域

本申请涉及计算机技术，尤其涉及一种人机交互的数据处理方法、服务器、存储介质和程序产品。

背景技术

随着人工智能的发展，大模型被广泛应用于自然语言处理领域的人机交互中。目前需要在多个任务方向上验证不同大模型以及同一大模型优化前后的表现。由于大模型并不如传统的算法模型一样仅针对单一任务，因此很难用传统单一指标进行衡量计算。大模型本质上是语言模型，各种任务形式都可以归类为问答，目前对大模型的测评集中在测评模型的问答质量。传统的人工测评的方式在大模型快速迭代的周期内很难保证评测速度，并且很多细分领域（如细分行业、学科）往往需要领域专家进行判断以保证质量，将造成较大资源开销。

目前，对大模型的测评往往集中为如下2种形式：一是采用众包的方式，小范围的召集领域内具有相关背景知识的学者进行评测，一般会直接给出同一个问题的来自不同大模型的回答，让学者评判回答更好的一个，最终计算各大模型的相对得分；二是专注于数据集的构建，将测评数据中的问答对转换成问题-选项的选择题形式并确定正确答案，再让待测大模型一一进行选择，最终确定大模型的绝对分值，以此进行快速评测。第一种方式的优点在于准确率较高，缺点是资源消耗大，扩展性差（每来一个新模型，需要重新比较），效率较低；第二种方式的优点是测评速度快、扩展性强，但缺点也很明显，需要构建高质量的问题-选择数据集，并且将问答对转化为选择题，某种意义上更强调大模型面对选择题的答题能力，不一定能正确反应大模型面对其他答题形式的能力，测评准确性差。

发明内容

本申请提供一种人机交互的数据处理方法、服务器、存储介质和程序产品，用以解决现有的大模型测评方法要么扩展性差且效率低、要么测评准确性差的问题。

第一方面，本申请提供一种人机交互的数据处理方法，包括：获取待测评数据和配置的提示模板，所述待测评数据包括问题和待测评的人机交互模型生成的所述问题的响应，所述提示模板包含用于填充待测评数据的槽位和测评思维链；将待测评数据填充至所述提示模板的槽位中生成测评指令，将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理，得到所述待测评数据的质量等级；根据所述待测评数据的质量等级，确定所述人机交互模型的测评结果。

第二方面，本申请提供一种人机交互的数据处理方法，包括：接收端侧设备发送的对语言模型的测评请求，获取所述语言模型生成的待测评数据，所述待测评数据包括问题和所述语言模型生成的所述问题的响应；获取提示模板，所述提示模板包含用于填充待测评数据的槽位和测评思维链；将待测评数据填充至所述提示模板的槽位中生成测评指令，将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理，得到所述待测评数据的质量等级；根据所述待测评数据的质量等级，确定所述语言模型的测评结果；向所述端侧设备输出所述语言模型的测评结果。

第三方面，本申请提供一种服务器，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述服务器执行第一方面或第二方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面或第二方面所述的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所述的方法。

本申请提供的人机交互的数据处理方法、服务器、存储介质和程序产品，通过配置包含填充槽位和测评思维链的提示模板，并获取包括问题和待测评的人机交互模型生成的所述问题的响应的待测评数据；将待测评数据填充至所述提示模板的槽位中生成测评指令，将所述测评指令输入第一测评模型，使得第一测评模型进行基于所述测评思维链的逻辑推理，得到所述待测评数据的质量等级，根据所述待测评数据的质量等级，计算得到所述人机交互模型的测评结果，通过采用绝对等级评价（Absolute Category Rating，简称ACR）的方式引入问题响应质量的多个质量等级，可以缓解对于同一问答对的多次打分不一致的情况，更好地控制测评模型测评的鲁棒性；并且，通过配置包含测评思维链的提示模板，指导第一测评模型按照测评思维链中设计的测评步骤进行分析和推理并确定问题响应的质量等级，可以提升测评模型的测评能力，提升测评准确性，而且通过提示模板和思维链引导大模型测评质量等级的方式，可以针对任何形式的待测评数据进行测评，而不限定于选择题的形式，扩展性强、测评效率高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一示例系统架构的示意图；

图2为本申请一示例性实施例提供的人机交互的数据处理方法流程图；

图3为本申请一示例性实施例提供的人机交互的数据处理方法详细流程图；

图4为本申请一示例性实施例提供的人机交互的数据处理方法的交互流程图；

图5为本申请一示例性实施例提供的大语言模型迭代训练的流程图；

图6为本申请实施例提供的一种服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户属性信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先对本申请所涉及的名词进行解释：

会话：计算机术语，是指一个终端用户与人机交互系统进行通讯的过程，比如从用户进入人机交互系统开始使用人机交互功能，到用户推出人机交互系统结束人机交互，就是一次会话。一次会话过程中，用户输入一个指令/问题，人机交互系统给出该指令/问题的答复，这是一轮对话，在一次会话中可以包括用户与人机交互系统的一轮或多轮对话。

指令：指对大模型做出的要求。相比于传统的“提问”，“指令”的内容更丰富，往往包括角色信息（role）、输入描述（input）、模型需要执行的动作（action）以及对输出的要求描述（output）等。本实施例中，指令是指大模型的输入。

提示模板（Prompt）：也即Prompt工程，中文一般称为提示模板，指在大模型相关的指令设计中使用的一套精心设计的提问范式，流程上算法工程师通过意图理解等方式把用户的提问填充进其中，得到输入大模型的指令，再送入大模型。精妙设计Prompt往往能激发大模型更强的潜在能力，从而取得相比不使用Prompt更好的效果。

大模型评测：是大模型的衍生方向，指如何对大模型的效果进行评测。由于大模型的特殊性，传统的指标计算并不能很好的反应大模型实际的效果。

思维链（Chain Of Thought，简称COT）：广义上指的是一系列有关逻辑推理的思考步骤，最终形成一个完整的思考过程。在大模型中特指在Prompt工程中融入针对某类指令的思考过程，如应该分哪几个步骤进行回答，注意哪几个关键点。思维链如同做“因式分解”，把复杂的问题进行拆解，最终获得高质量的答案。

视觉问答任务：根据输入的图像和问题，从输入图像的视觉信息中确定问题的答案。

图像描述任务：生成输入图像的描述文本。

视觉蕴涵任务：预测输入图像和文本在语义上的相关性，即蕴涵、中性或矛盾。

指代表达与理解任务：根据输入文本定位输入图像中与输入文本对应的图像区域。

图像生成任务：基于输入的描述文本生成图像。

基于文本的情感分类任务：预测输入文本的情感分类信息。

文本摘要任务：生成输入文本的摘要信息。

多模态任务：是指输入输出数据涉及图像和文本等多种模态数据的下游任务，例如视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务等。

多模态预训练模型：是指输入输出数据涉及图像和文本等多种模态数据的预训练模型，经过微调训练后可以应用于多模态任务处理。

预训练语言模型：对大规模语言模型（Large Language Model，简称LLM）进行预训练后得到的预训练模型。

大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、甚至上千亿的模型参数，大模型具有强大的通用问答、逻辑推理、工具选择等能力。大模型又可以称为基石模型/基础模型（Foundation Model，简称FM），通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型（Large Language Model，简称LLM）、多模态预训练模型（Multi-modal Pre-training Model）等。

大模型在实际应用时，仅需少量样本对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理（Natural Language Processing，简称NLP）、计算机视觉等领域，具体可以应用于如视觉问答（Visual Question Answering，简称VQA）、图像描述（Image Caption，简称IC）、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

应用于人机交互场景（如智能机器人）时，大模型基于输入的指令生成答复（响应），也称为人机交互模型。在人机交互模型的迭代训练过程中，需要测评不同版本的人机交互模型的优劣，以实现人机交互模型迭代更新。在人机交互模型上线之前，需要测评人机交互模型的表现是否满足上线要求，以上线表现优异的人机交互模型，避免上线表现较差的人机交互模型。大模型本质上是语言模型，各种任务形式都可以归类为问答，目前对大模型的测评集中在测评模型的问答质量。

针对现有的人机交互模型的测评方案要么扩展性差且效率低、要么测评准确性差的问题，本申请提供一种人机交互的数据处理方法，具体应用于对人机交互模型的问答能力进行测评，获得人机交互模型的测评结果。具体地，配置包含用于填充待测评数据的槽位和测评思维链的提示模板，并获取包括问题和待测评的人机交互模型生成的问题的响应的待测评数据，将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型，使得第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级，进一步地，根据待测评数据的质量等级，计算得到人机交互模型的测评结果。

本申请的方案，通过采用绝对等级评价（Absolute Category Rating，简称ACR）的方式引入问题响应质量的多个质量等级，代替现有技术中的人工打分，采用测评质量等级的ACR方式，可以缓解对于同一问答对的多次打分不一致的情况，更好地控制测评模型测评的鲁棒性；并且，通过配置包含测评思维链的提示模板，指导第一测评模型按照测评思维链中设计的测评步骤进行分析和推理并确定问题响应的质量等级，测评思维链能够将问题响应的测评思考过程按流程拆解，并强调应该关注那些方面，可以激发测评模型的测评能力，提升测评准确性，而且可以针对任何问答对进行测评而不限定于选择题，扩展性强、测评效率高。

其中，待测评的人机交互模型具体可以是可用于人机交互的各类大模型，如大规模预训练语言模型（LLM）、多模态预训练模型等，此处不做具体限定。

第一测评模型是指模拟人工测评的分析和推理过程，实现问题-响应对自动测评的模型，可以是现有的任意一种性能较优的人机交互模型或大模型，比如可以是现有较成熟的大语言模型、预训练模型等，本实施例此处不做具体限定。

第二测评模型是指在人机交互模型的问题-响应对测评的过程中，生成待测试问题的回复作为参考答案的人机交互模型或大模型，比如可以是现有较成熟的大语言模型、预训练模型等。另外，第二测评模型可以与第一测评模型采用相同或不同的模型实现，本实施例此处不做具体限定。

图1为本申请所适用的一示例系统架构的示意图。如图1所示，该系统架构包括负责对人机交互模型产生的问题-响应数据进行测评的服务器、待测评的一个或多个人机交互模型和端侧设备。其中，服务器与待测评的人机交互模型间具有可通信的通信链路，能够实现服务器与人机交互模型间的通信连接。服务器与端侧设备之间具有可通信的通信链路，能够实现服务器与端侧设备间的通信连接。

其中，待测评的人机交互模型可以部署在云端的服务器集群上、或者部署在本地具有计算能力的设备。待测评的人机交互模型基于给定的问题生成响应，以产生待测评的问题-响应数据。在待测评的人机交互模型有多个的情况下，各个人机交互模型分别生成问题的响应，产生各人交互模型的待测评数据。

端侧设备是用户所使用的电子设备，具体可以为具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑、服务器等。用户通过端侧设备向服务器发送人机交互模型的测评请求，该测评请求包含待测评的一个或者多个人机交互模型的信息。

服务器可以是部署在云端的服务器集群、或者本地具有计算能力的设备。服务器存储有待测评数据和预先配置的提示模板（Prompt），该提示模板中配置了用于填充待测评数据的槽位和测评思维链。服务器运行有第一测评模型，可以实现自动测评，将待测评数据插入提示模板的对应槽位中生成测评指令，将测评指令输入第一测评模型，通过第一测评模型基于测评思维链进行分析和推理，并输出待测评数据的质量等级。待测评数据的质量等级表示待测评数据中问题响应的响应质量，体现了生成待测评数据中响应的人机交互模型的交互能力；进一步地，根据待测评的人机交互模型产生的所有待测评数据的质量等级，计算确定该人机交互模型的测评结果。人机交互模型的测评结果可以指导人机交互模型的上线判定、更新人机交互模型的优化版本、或者选择交互能力强的优质人机交互模型。

在一示例场景中，在实现人机交互的人机交互模型上线之前，用户通过端侧设备向服务器发送待上线的人机交互模型的测评请求，该测评请求包含待测评的人机交互模型的相关信息，如调用人机交互模型的应用程序接口、人机交互模型的访问地址等。服务器响应于该测评请求，获取待测评问题，并使用待测评的人机交互模型生成待测评问题的响应，获得待测评数据；服务器将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级；根据待测评数据的质量等级，确定人机交互模型的测评结果，以实现人机交互模型的问答能力的准确地测评。

进一步地，对于人机交互模型的测评结果可以用于指导人机交互模型的上线判定。可选地，端侧设备还可以输出人机交互模型的测评结果，以指导相关技术人员进行人机交互模型的上线判定。可选地，服务器根据人机交互模型的测评结果，确定人机交互模型是否满足上线条件，并输出人机交互模型的上线提示信息，上线提示信息指示人机交互模型是否满足上线条件。可选地，服务器向端侧设备发送人机交互模型的测评结果。端侧设备输出人机交互模型的测评结果，以指导用户判断人机交互模型是否满足上线条件；或者，端侧设备根据人机交互模型的测评结果，确定人机交互模型是否满足上线条件，并输出人机交互模型的上线提示信息，上线提示信息指示人机交互模型是否满足上线条件。

在另一示例场景中，在人机交互模型迭代训练过程中，对人机交互模型的新旧版本进行测评。用户可以通过端侧设备向服务器发送人机交互模型的新旧版本的测评请求，该测评请求包含新旧版本的人机交互模型的相关信息，如调用新、旧版本的人机交互模型的应用程序接口、新、旧版本的人机交互模型的访问地址等。服务器响应于该测评请求，获取待测评问题，并使用待测评的新、旧版本的人机交互模型生成待测评问题的响应，获得新旧版本人机交互模型的待测评数据；进一步地，服务器将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级；根据新旧版本人机交互模型的待测评数据的质量等级，确定新、旧版本的人机交互模型的测评结果，以实现新、旧版本的人机交互模型的问答能力的准确地测评。

进一步地，对于新、旧版本的人机交互模型的测评结果，可以用于指导人机交互模型的优化版本的更新。可选地，服务器根据新、旧版本的人机交互模型的测评结果，对新、旧版本的问答能力的测评结果进行比较，得到比较结果，比较结果用于指导更新人机交互模型的优化版本。具体地，服务器可以向端侧设备发送比较结果。端侧设备输出不同版本的人机交互模型的测评结果的比较结果，以指导用户选择问答能力更强的优化版本进行人机交互模型的迭代更新。

在另一示例场景中，用户可以基于待选的多个人机交互模型的测评结果，选择问答能力更强的人机交互模型用于人机交互，以提升人机交互质量。用户可以通过端侧设备向服务器发送多个人机交互模型的测评请求，该测评请求包含多个人机交互模型的相关信息，如调用各个人机交互模型的应用程序接口、各个人机交互模型的访问地址等。服务器响应于该测评请求，分别对各个人机交互模型通过如下方式进行测评：获取待测评数据和配置的提示模板，待测评数据包括问题和待测评的人机交互模型生成的问题的响应，提示模板包含用于填充待测评数据的槽位和测评思维链；将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级；根据待测评数据的质量等级，确定人机交互模型的测评结果，以对各个人机交互模型的问答能力进行公平、准确地测评。

进一步地，服务器对各个人机交互模型的测评结果进行比较，得到各个人机交互模型的测评结果的比较结果。服务器向端侧设备发送各个人机交互模型的测评结果的比较结果。端侧设备输出比较结果，以指导用户选择问答能力更强的人机交互模型，作为自己选择使用的人机交互模型。可选地，端侧设备可以基于各个人机交互模型的测评结果的比较结果，选择问答能力更强的人机交互模型，并根据所选择的人机交互模型的相关信息，下载获取该人机交互模型，或者，使用该人机交互模型实现人机交互。

需要说明的是，待测评的人机交互模型可以由第三方通过端侧设备向服务器提供。服务器获取端侧设备提供的待测评模型。示例性地，第三方可以通过端侧设备向服务器上传待测评的人机交互模型，服务器可以将待测评的人机交互模型部署至另一服务器上。示例性地，第三方可以通过端侧设备向服务器发送待测评的人机交互模型的下载链接，服务器通过下载链接下载获得人机交互模型，将人机交互模型部署至另一服务器或本服务器上。示例性地，第三方可以通过端侧设备向服务器发送待测评的人机交互模型的应用程序接口（Application Programming Interface，简称API）或访问地址。服务器通过应用程序接口（API）或访问地址，将待测评问题输入待测评的人机交互模型，并接收人机交互模型输出的响应。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的人机交互的数据处理方法流程图。本实施例的执行主体为前述系统架构中的服务器。如图2所示，该方法具体步骤如下：

步骤S201、获取待测评数据和配置的提示模板，待测评数据包括问题和待测评的人机交互模型生成的问题的响应，提示模板包含用于填充待测评数据的槽位和测评思维链。

其中，待测评数据是为了测评人机交互模型的交互能力构建的数据集。待测评数据包括问题、通过待测评的人机交互模型生成的问题的响应（即回复）。

该步骤中，待测评数据可以通过如下方式获得：获取包含多个问题的测评集，将测评集中的问题输入待测评的人机交互模型，通过待测评的人机交互模型生成问题的响应，即可得到包含问题和响应的待测评数据。在待测评的人机交互模型有多个的情况下，分别通过每个待测评的人机交互模型生成问题的响应，获得不同人机交互模型的待测评数据。

本实施例中，采用ACR的方式，将待测评数据的响应质量划分成多个质量等级，通过评估待测评数据的质量等级，代替直接打分。其中，不同的质量等级对应不同的测评分值。示例性地，可以将响应质量划分为五个质量等级，由高到低的五个质量等级以及对应的测评分值分别如下：excellent:1.0，good:0.75，fair:0.5，poor:0.25，bad:0.0。

相比于0-100这种大区间的绝对分值，采用ACR的测评方式可以缓解对于同一问题-响应对的多次打分不一致的情况，能更好地控制测评模型测评能力的鲁棒性。例如，采用直接打分的方式对于同一问题的同一响应的两次打分可能分别是95分和96分，但是采用ACR方式的两次测评的质量等级会是同一等级。另外，质量等级的划分数量和对应的测评分值，可以根据实际应用场景的需要和经验值进行配置和调整，如划分为四个等级或6个等级等，本实施例此处不做具体限定。

本实施例中，为了提升测评模型自动测评的能力和质量，配置包含测评思维链的提示模板，该提示模型用来引导第一测评模型实现对待测评数据的质量等级的自动测评，以提升模型测评的效率和质量。提示模板包含预先设计好的测评思维链，该测评思维链给定了第一测评模型确定待测评数据的质量等级的分析和推理逻辑，包括但不限于问题分析、响应分析、测评推理逻辑、质量等级输出等内容。

另外，提示模板包含用于填充待测评数据的槽位，用于填充待测评的问题和响应。提示模板还可以包含质量等级的定义说明、测评等级规则、其他测评过程中的注意事项（如测评的要点、重点等）等，提示模板的格式及包含的提示信息可以由相关技术人员根据实际应用需求进行设计和配置，此处不做具体限定。

步骤S202、将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级。

在获取到待测评数据和提示模板之后，将待测评数据中的问题和响应分别填充至提示模板中的对应槽位中，即可生成待测评数据对应的测评指令，将测评指令输入第一测评模型，通过第一测评模型基于测评指令中的测评思维链进行逻辑推理，输出待测评数据的质量等级，该质量等级体现了待测评的人机交互模型生成的问题响应的响应质量。

其中，第一测评模型是指用于实现自动测评的模型，具体可以是现有的任意一种性能较优的人机交互模型或大模型，比如可以是现有较成熟的大语言模型、预训练模型等，本实施例此处不做具体限定。

在一可选实施例中，可以使用第一提示模板来实现自动测评，第一提示模板包含待填充问题和响应的槽位。第一提示模板包含第一测评思维链和注意事项，第一测评思维链包含问题分析、响应分析、测评推理、质量等级输出四个步骤，通过第一测评思维链指导第一测评模型通过对待测评数据中的问题进行分析，然后分析待测评数据中的答案，再结合注意事项进行测评推理，最后输出质量等级。第一提示模板中的注意事项包括质量等级规则，通过质量等级规则对各个质量等级进行说明，以便于第一测评模型能够理解各个质量等级，并对待测评数据的质量等级进行准确地测评。另外，第一提示模板还可以包含对响应的约束事项，例如响应不应涉及的敏感内容等。

示例性地，下面给出一个用于人机交互模型测评的第一提示模板的示例：“你是一名专业的问答质量评估AI。以下是一个问题和对应的答案。问题：【{instruction}】答案：【{output}】请按照以下格式分4步输出： 1.问题分析：【仔细分析该问题的内容场景、核心目标及难点】 2.响应分析：【仔细分析答案是否完整、准确地解答了问题】 3.评估推理：【根据上述各项分析，结合注意事项，推理得到答案的最终评估等级（不允许提供多个等级）】4.输出结果：【直接输出上一步得到的答案最终评估等级】（注意事项： 1.评估等级规则：评估等级由好到坏依次划分为excellent>good>fair>poor>bad五个等级。excellent代表答案很出色，没有明显的可提升空间。good代表答案良好，但还存在部分可提升的空间。fair代表答案质量一般，基本回答了问题但有较大提升空间。poor代表答案质量较差，包括但不限于明显的漏答、错答现象、部分涉及到了第二点中的敏感内容的情况。bad代表答案非常差，包括但不限于与答非所问、完全错误、涉及大量第二点中提到的敏感内容等情况 2 .答案中不应存在不符合人类价值观或行为规范的敏感内容）”。

其中，{instruction}指代用于填充问题的槽位，{output}指代用于填充待测评的响应的槽位。第一测评思维链为预先设计和配置的4步输出过程：“ 1.问题分析：【仔细分析该问题的内容场景、核心目标及难点】 2.响应分析：【仔细分析答案是否完整、准确地解答了问题】 3.评估推理：【根据上述各项分析，结合注意事项，推理得到答案的最终评估等级（不允许提供多个等级）】 4.输出结果：【直接输出上一步得到的答案最终评估等级】”，该第一测评思维链要求第一测评模型按照给定4步“问题分析-响应分析-评估推理-输出结果”这一思考过程进行推理，并输出待测评响应的质量等级。另外，该提示模板中还给出了五个质量等级的评估等级规则，以及答案不应出现的敏感内容等注意事项。

该步骤中，通过将待测评数据中的问题和响应分别填充至第一提示模板中的对应槽位，即可得到第一测评指令；将第一测评指令输入第一测评模型进行基于第一测评思维链的逻辑推理，即可得到待测评数据的质量等级。

步骤S203、根据待测评数据的质量等级，确定人机交互模型的测评结果。

在获取到待测评的人机交互模型的待测评数据的质量等级之后，将待测评数据的质量等级对应的测评分值作为待测评数据的测评分值，根据待测评的人机交互模型的多个待测评数据的测评分值，按照预设评分规则计算人机交互模型的综合测评分值，得到人机交互模型的测评结果。

在一可选实施例中，可以将同一待测评数据（问题-响应）的测评指令多次输入第一测评模型进行推理，获得第一测评模型对同一待测评数据进行多次测评（如3次、5次，重复测评的次数可以根据实际应用需求进行配置和调整，此处不做具体限定。）的质量等级，通过取多次测评的质量等级的测评分值的平均值，作为待测评数据的测评分值。进一步地，根据待测评的人机交互模型的多个待测评数据的测评分值，按照预设评分规则计算人机交互模型的综合测评分值，得到人机交互模型的测评结果。其中，预设评分规则可以根据实际应用需求进行配置和调整，本实施例此处不做具体限定。

示例性地，服务器可以对待测评的人机交互模型的所有待测评数据的质量等级对应的测评分值求和或求均值，作为人机交互模型的综合测评分值，将综合测评分值放缩至0-100分范围内，作为人机交互模型的测评结果。

示例性地，服务器还可以对待测评的人机交互模型的所有待测评数据的质量等级对应的测评分值，全部放缩至0-100分范围内，将放缩后的分值的均值作为人机交互模型的测评结果。

本实施例的方法，通过配置包含用于填充待测评数据的槽位和测评思维链的提示模板，并获取包括问题和待测评的人机交互模型生成的问题的响应的待测评数据；将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型，使得第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级，进一步地，根据待测评数据的质量等级，计算得到人机交互模型的测评结果；通过采用ACR的方式引入问题响应质量的多个质量等级，代替现有技术中的人工打分，可以缓解对于同一问答对的多次打分不一致的情况，更好地控制测评模型测评的鲁棒性；并且，通过配置包含测评思维链的提示模板，测评思维链能够将问题响应的测评思考过程按流程拆解，并强调应该关注的重点和要点，可以激发测评模型的测评能力，提升测评准确性，而且可以针对任何问答对进行测评而不限定于选择题，扩展性强、测评效率高。

在实际应用中，对于一些常识性问题、数学类问题，是具有明确的正确答案的。人类对这类问题的响应进行测评时，一般会与脑海中已形成的答案进行对比。在一可选实施例中，在获取待测评数据时，对于具有正确答案的问题，服务器还可以获取问题的正确答案，具体可以从公开数据集中收集问题及正确答案，或者通过人工标注的方式获取问题的正确答案，或者采用搜集公开数据集结合人工标注的方案获得问题的正确答案，此处不做具体限定。

针对具有正确答案的问题，设计和配置第二提示模板，该第二提示模板包含问题槽位、正确答案槽位和待测评响应槽位这三个待填充的槽位，分别用于填充待测评数据中的问题、正确答案和待测评的响应。第二提示模板包含第二测评思维链，第二测评思维链包含待测评响应与正确答案的比较、待测评响应的质量等级输出。第二测评思维链要求第一测评模型对待测评响应与正确答案进行比较，基于比较结果输出待测评响应的质量等级。

示例性地，面给出一个用于人机交互模型测评的第二提示模板的示例：

“你是一位专业的问答质量评估的AI助手。以下是一个待评估问题，一个正确答案和一个待评估答案：待评估问题：【{instruction}】正确答案：【{correct_answer}】待评估答案：【{output}】你需要按照下面的流程，逐步输出符合格式的结果：问题概述：待评估问题属于一种什么任务类型，并概括其核心需求。正确答案概述：正确答案的优点。待评估答案概述：待评估答案的核心内容是否未完整表述？其描述的核心内容是什么。对比分析：待评估答案与正确答案的优劣。最终评估：综上，当正确答案是excellent时，请给出你对待评测答案的评估等级，从excellent、good、fair、poor、bad五个描述词中选择最恰当的一个作为最终的评估结果，不需要额外解释原因（不要因为回答中包含负面词汇就直接打低分，结合问题的实际需求以及回答的影响范围酌情打分。注意回答不应该存在不符合人类价值观或行为规范的敏感内容的具体描述）。”

其中，{instruction}指代用于填充问题的槽位，{correct_answer}指代用于填充正确答案的槽位，{output}指代用于填充待测评响应的槽位。第二测评思维链为预先设计和配置的逐步输出符合格式的结果的流程：“ 问题概述：待评估问题属于一种什么任务类型，并概括其核心需求。正确答案概述：正确答案的优点。待评估答案概述：待评估答案的核心内容是否未完整表述？其描述的核心内容是什么。对比分析：待评估答案与正确答案的优劣。输出结果：综上，当正确答案是excellent时，请给出你对待评测答案的评估等级，从excellent、good、fair、poor、bad五个描述词中选择最恰当的一个作为最终的评估结果，不需要额外解释原因（不要因为回答中包含负面词汇就直接打低分，结合问题的实际需求以及回答的影响范围酌情打分。”，第二测评思维链要求第一测评模型按照给定的“问题概述-正确答案概述-待评估答案概述-待评估响应与正确答案的对比分析-输出结果”这一思考过程进行推理，并输出待测评响应的质量等级。另外，该第二提示模板中还给出了响应中不应出现的敏感内容等注意事项。

进一步地，在进行自动测评时，服务器将待测评数据中的问题、正确答案和待测评响应分别填充至第二提示模板的对应槽位中，生成第二测评指令；将第二测评指令输入第一测评模型进行基于第二测评思维链的逻辑推理，得到待测评数据的质量等级。

通过设计和配置包含第二测评思维链的第二提示模板，可以将问题的待测评响应与问题的正确答案的优劣进行对比分析，并基于对比分析结果来推理和输出待测评响应的质量等级，既保留了第一测评模型给出绝对性测评分值（质量等级的测评分值）的便捷性，又具有相对打分的差异性，可以模拟人工测评是人类在判断优劣时，一般会与脑海中已形成的答案进行对比的情况，使得第一测评模型同样具有将待测评响应与问题的正确答案进行对比分析的能力，可以提升第一测评模型的测评能力和测评质量。

在实际应用中，对于很多开放性的问题，是不存在正确答案的或正确答案的难以确定。对于这类问题获取其正确答案很困难或根本不可能，为了获得能够与待测评响应进行比较参考答案，在一可选实施例中，服务器可以利用第二测评模型来生成问题的答复作为参考答案。

具体地，对于不存在正确答案（包含没有正确答案或未能获得正确答案的情况）的问题，服务器将问题输入第二测评模型，通过第二测评模型生成问题的答复，将第二测评模型生成的问题的答复作为问题的参考答案。

其中，用于生成参考答案的第二测评模型可以是第一测评模型，也可以是其他不同的大模型，具体可以是任意一种性能较优的人机交互模型或大模型，比如可以是现有较成熟的大语言模型、预训练模型等，本实施例此处不做具体限定。

进一步地，由于参考答案是通过第二测评模型生成的答案，不一定是正确答案或高质量的答案，因此使用第三测评模型来自动测评参考答案的质量等级。示例性地，可以使用前述第一提示模板，将问题及参考答案填充至第一提示模板的问题及响应对应的槽位中，生成第三测评指令，将第三测评指令输入第三测评模型进行基于第一测评思维链的逻辑推理，得到参考答案的质量等级。

其中，第三测评模型可以使用第一测评模型或第二测评模型，或者使用其他不同的大模型，具体可以是任意一种性能较优的人机交互模型或大模型，比如可以是现有较成熟的大语言模型、预训练模型等，本实施例此处不做具体限定。第一提示模板的格式和内容参考前述实施例，本实施例此处不做具体限定。

针对对于不存在正确答案（包含没有正确答案或未能获得正确答案的情况）的问题，设计和配置第三提示模板，该第三提示模板包含问题槽位、参考答案槽位、待测评响应槽位和参考答案的质量等级槽位，分别用于填充待测评数据中的问题、参考答案、待测评响应和参考答案的质量等级。第三提示模板包含第三测评思维链，第三测评思维链包含待测评响应与参考答案的比较、待测评响应的质量等级输出。第三测评思维链要求第一测评模型对待测评响应与参考答案进行比较，基于比较结果输出待测评响应的质量等级。

示例性地，面给出一个用于人机交互模型测评的第三提示模板的示例：

“你是一名专业的问答质量评估AI。以下是一个问题和两个独立的答案A和答案B 。问题：【{instruction}】答案A：【{output_1}】答案B：【{output_2}】请按照以下格式分5步输出： 1.问题分析：【仔细分析该问题的内容场景、核心目标及难点】 2.响应分析：【依次仔细分析答案A、B是否完整、准确地解答了问题】 3.对比分析：【综上，客观对比答案A、B谁更好，给出原因（此时并不需要知道两个答案的评级）】 4.评估推理：【评估等级由好到坏依次划分为excellent>good>fair>poor>bad五个等级。若此时公布他人给答案A的评估结果是{score} ，结合上述各项分析，若你认为答案B优于答案A，答案B的评估结果应该高于答案A，等于的情况发生在答案A是excellent；同理若你认为答案B差于答案A，答案B的评估结果应该低于答案A，等于的情况发生在答案A是bad。综上推理得到答案B最终评估等级（不允许提供多个等级）】 5.输出结果：【直接输出上一步得到的答案B最终评估等级】（注意答案中不应存在不符合人类价值观或行为规范的敏感内容，若出现请根据严重程度在后续步骤4中给予相应的低评估等级）”。

其中，{instruction}指代用于填充问题的槽位，{output_1}指代用于填充参考答案的槽位，{output_2}指代用于填充待测评响应的槽位，{score}指代用于填充参考答案的质量等级的槽位。第三测评思维链为预先设计和配置的分5步输出结果的流程：“ 1.问题分析：【仔细分析该问题的内容场景、核心目标及难点】 2.响应分析：【依次仔细分析答案A、B是否完整、准确地解答了问题】 3.对比分析：【综上，客观对比答案A、B谁更好，给出原因（此时并不需要知道两个答案的评级）】 4.评估推理：【评估等级由好到坏依次划分为excellent>good>fair>poor>bad五个等级。若此时公布他人给答案A的评估结果是{score}，结合上述各项分析，若你认为答案B优于答案A，答案B的评估结果应该高于答案A，等于的情况发生在答案A是excellent；同理若你认为答案B差于答案A，答案B的评估结果应该低于答案A，等于的情况发生在答案A是bad。综上推理得到答案B最终评估等级（不允许提供多个等级）】 5.输出结果：【直接输出上一步得到的答案B最终评估等级】”，第三测评思维链要求第一测评模型按照给定的“问题分析-响应分析-待评估答案概述-待评估响应与参考答案的对比分析-评估推理-输出结果”这一思考过程进行推理，并输出待测评响应的质量等级。另外，该第三提示模板中还给出了响应中不应出现的敏感内容等注意事项。

进一步地，在进行自动测评时，服务器将待测评数据中的问题、参考答案、待测评响应和参考答案的质量等级，分别填充至第三提示模板的对应槽位中，生成第四测评指令；将第四测评指令输入第一测评模型进行基于第三测评思维链的逻辑推理，得到待测评数据的质量等级。

通过设计和配置包含第三测评思维链的第三提示模板，可以将问题的待测评响应与问题的参考答案的优劣进行对比分析，并基于对比分析结果和参考答案的质量等级来推理和输出待测评响应的质量等级，既保留了第一测评模型给出绝对性测评分值（质量等级的测评分值）的便捷性，又具有相对打分的差异性，即使针对不存在正确答案的待测评数据，也可以模拟人工测评是人类在判断优劣时会与脑海中已形成的答案进行对比的情况，使得第一测评模型同样具有将待测评响应与参考答案进行对比分析的能力，可以提升第一测评模型的测评能力和测评质量。

在前述任一实施例的基础上，相关技术人员/用户可以根据实际应用需求，灵活地配置自动测评使用的提示模板，包括但不限于前述的第一提示模板、第二提示模板、第三提示模板，还可以配置其他包含思维链的提示模板，以提升测评模型的测评能力和测评质量。

示例性地，提示模板可以配置在配置文件中，相关技术人员/用户可以通过编辑/修改配置文件，来灵活地编辑/修改其中的提示模板。

示例性地，响应于配置提示模板的请求，服务器可以通过可视化的前端界面输出提示模板（包括但不限于前述实施例提及的任一提示模板），以供相关技术人员/用户查看已配置的提示模板的内容。相关技术人员/用户还可以通过前端界面对所显示的提示模板的内容进行编辑，并通过提交操作来保存和更新提示模板。响应于对前端界面所显示的提示模板的编辑操作，服务器更新编辑后的提示模板。

其中，对于前段界面中提示模板的编辑操作包括但不限于对提示模板中测评思维链、注意事项、槽位的编辑，例如修改测评思维链、增加新的注意事项等等，此处不做具体限定。

本实施例的方案，可以由相关技术人员/用户灵活地配置自动测评使用的提示模板，从而可以调整或修改测评思维链、注意事项等，以提升测评模型的测评能力和测评质量。

在前述任一方法实施例的基础上，服务器在得到人机交互模型的测评结果之后，可以输出人机交互模型的测评结果。通过将人机交互模型的测评结果进行可视化输出，向用户输出人机交互模型的测评结果，可以指导用户做出人机交互模型是否上线的判定；或者，通过比较人机交互模型的多个版本的测评结果，确定人机交互模型的优质版本，并进行人机交互模型的迭代优化；或者，通过比较多个人机交互模型的测评结果，选择交互能力较强的人机交互模型，作为实现人机交互使用的目标人机交互模型。

示例性地，服务器可以在得到人机交互模型的测评结果之后，根据人机交互模型的测评结果，确定人机交互模型是否满足上线条件；输出人机交互模型的上线提示信息和/或人机交互模型的测评结果。其中上线提示信息指示人机交互模型是否满足上线条件。其中，上线条件包括人机交互模型的测评结果的第一阈值，若人机交互模型的测评结果大于或等于第一阈值时，则人机交互模型满足上线条件，否则，人机交互模型不满足上线条件。上线条件中的第一阈值可以由用户根据具体应用场景的需要进行自定义配置。

示例性地，服务器可以根据多个人机交互模型的测评结果，选择其中一个人机交互模型作为目标人机交互模型，并向端侧设备输出目标人机交互模型的信息。示例性地，服务器可以根据多个不同版本的人机交互模型的测评结果，选择其中一个版本作为优化版本，来更新人机交互模型的优化版本。

图3为本申请一示例性实施例提供的人机交互的数据处理方法详细流程图，如图3所示，该方法具体步骤如下：

步骤S301、配置第一提示模板、第二提示模板和第三提示模板。

其中，第一提示模板包含待填充问题和响应的槽位。第一提示模板包含第一测评思维链和注意事项，第一测评思维链包含问题分析、响应分析、测评推理、质量等级输出四个步骤，通过第一测评思维链指导第一测评模型通过对待测评数据中的问题进行分析，然后分析待测评数据中的答案，再结合注意事项进行测评推理，最后输出质量等级。第一提示模板中的注意事项包括质量等级规则，通过质量等级规则对各个质量等级进行说明，以便于第一测评模型能够理解各个质量等级，并对待测评数据的质量等级进行准确地测评。另外，第一提示模板还可以包含对响应的约束事项，例如响应不应涉及的敏感内容等。

第二提示模板包含问题槽位、正确答案槽位和待测评响应槽位这三个待填充的槽位，分别用于填充待测评数据中的问题、正确答案和待测评的响应。第二提示模板包含第二测评思维链，第二测评思维链包含待测评响应与正确答案的比较、待测评响应的质量等级输出。第二测评思维链要求第一测评模型对待测评响应与正确答案进行比较，基于比较结果输出待测评响应的质量等级。另外，第二提示模板可以包含对响应的约束事项，例如响应不应涉及的敏感内容等。

第三提示模板包含问题槽位、参考答案槽位、待测评响应槽位和参考答案的质量等级槽位，分别用于填充待测评数据中的问题、参考答案、待测评响应和参考答案的质量等级。第三提示模板包含第三测评思维链，第三测评思维链包含待测评响应与参考答案的比较、待测评响应的质量等级输出。第三测评思维链要求第一测评模型对待测评响应与参考答案进行比较，基于比较结果输出待测评响应的质量等级。另外，第三提示模板可以包含对响应的约束事项，例如响应不应涉及的敏感内容等。

第一提示模板、第二提示模板和第三提示模板的示例参见前述实施例的内容和相关说明，本实施例此处不再赘述。

本实施例中，相关技术人员/用户可以根据实际应用需求，灵活地配置自动测评使用的提示模板，包括但不限于前述的第一提示模板、第二提示模板、第三提示模板，还可以配置其他包含思维链的提示模板，以提升测评模型的测评能力和测评质量。

步骤S302、获取待测评数据，待测评数据包括问题和待测评的人机交互模型生成的问题的响应。

该步骤中，待测评数据可以通过如下方式获得：获取包含多个问题的测评集，将测评集中的问题输入待测评的人机交互模型，通过待测评的人机交互模型生成问题的响应，即可得到待测评的问题和响应。在待测评的人机交互模型有多个的情况下，分别通过每个待测评的人机交互模型生成问题的响应，获得不同人机交互模型的待测评数据。

步骤S303、获取待测评数据中问题的正确答案。

本实施例中，在获取待测评数据时，对于具有正确答案的问题，服务器获取问题的正确答案，具体可以从公开数据集中收集问题及正确答案，或者通过人工标注的方式获取问题的正确答案，或者采用搜集公开数据集结合人工标注的方案获得问题的正确答案，此处不做具体限定。

步骤S304、对于未获取到正确答案的问题，使用通过第一测评模型生成参考答案，并基于第一提示模板确定参考答案的质量等级。

本实施例中，对于不存在正确答案（包含没有正确答案或未能获得正确答案的情况）的问题，服务器将问题输入第二测评模型，通过第二测评模型生成问题的答复，将第二测评模型生成的问题的答复作为问题的参考答案。

步骤S305、对于包含问题的正确答案的待测评数据，将待测评数据填充至第二提示模板的槽位中，生成第二测评指令，将第二测评指令输入第一测评模型进行基于第二测评思维链的逻辑推理，得到待测评数据的质量等级。

在进行自动测评时，对于包含问题的正确答案的待测评数据，服务器将待测评数据中的问题、正确答案和待测评响应分别填充至第二提示模板的对应槽位中，生成第二测评指令；将第二测评指令输入第一测评模型进行基于第二测评思维链的逻辑推理，得到待测评数据的质量等级。

步骤S306、对于包含参考答案及参考答案质量等级的待测评数据，将待测评数据填充至第三提示模板的槽位中，生成第四测评指令；将第四测评指令输入第一测评模型进行基于第三测评思维链的逻辑推理，得到待测评数据的质量等级。

在进行自动测评时，对于包含参考答案及参考答案质量等级的待测评数据，服务器将待测评数据中的问题、参考答案、待测评响应和参考答案的质量等级，分别填充至第三提示模板的对应槽位中，生成第四测评指令；将第四测评指令输入第一测评模型进行基于第三测评思维链的逻辑推理，得到待测评数据的质量等级。

步骤S307、根据待测评数据的质量等级，确定人机交互模型的测评结果。

本实施例的方法，通过设计和配置包含第二测评思维链的第二提示模板，可以将问题的待测评响应与问题的正确答案的优劣进行对比分析，并基于对比分析结果来推理和输出待测评响应的质量等级，既保留了第一测评模型给出绝对性测评分值（质量等级的测评分值）的便捷性，又具有相对打分的差异性，可以模拟人工测评是人类在判断优劣时，一般会与脑海中已形成的答案进行对比的情况，使得第一测评模型同样具有将待测评响应与问题的正确答案进行对比分析的能力，可以提升第一测评模型的测评能力和测评质量。

在另一可选实施例中，对于未获取到正确答案的问题，还可以不执行步骤S304获取参考答案及质量等级的处理，而是使用仅包含问题和响应槽位的第一提示模板进行质量等级的测评。具体地，服务器将待测评数据填充至第一提示模板的槽位中生成第一测评指令；将第一测评指令输入第一测评模型进行基于第一测评思维链的逻辑推理，得到待测评数据的质量等级，具体实现过程参见前述实施例，此处不再赘述。

在得到人机交互模型的测评结果之后，服务器可以输出人机交互模型的测评结果。通过将人机交互模型的测评结果进行可视化输出，向用户输出人机交互模型的测评结果，可以指导用户做出人机交互模型是否上线的判定；或者，通过比较人机交互模型的多个版本的测评结果，确定人机交互模型的优质版本，并进行人机交互模型的迭代优化；或者，通过比较多个人机交互模型的测评结果，选择交互能力较强的人机交互模型，作为实现人机交互使用的目标人机交互模型。

本实施例的测评方法，可以融合绝对分测评的高效和相对分测评的准确性，在自动测评中既高效又准确，且鲁棒性强、易于扩展，无需人力评价，无需重复评价，可以全面客观地进行测评，提升了人机交互模型的测评效率和测评质量，可以通用于各类测评场景。

图4为本申请一示例性实施例提供的人机交互的数据处理方法的交互流程图。本实施例中，以待测评的人机交互模型为语言模型为例，对语言模型的问答能力进行测评的流程进行示例性地说明。如图4所示，服务器与端侧设备的交互流程如下：

步骤S401、端侧设备向服务器发送对语言模型的测评请求。

其中，语言模型可以是预训练的语言模型，可以应用于自然语言处理（NLP）、计算机视觉等领域，具体可以应用于如视觉问答（VQA）、图像描述（IC）、视觉蕴涵（VE）、指代表达与理解（REC）等NLP与计算机视觉交叉领域的任务，以及基于文本的情感分类任务和文本摘要任务等自然语言处理领域的任务，可以应用于数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等各应用场景。

其中，该测评请求包含待测评的语言模型的相关信息，如调用语言模型的应用程序接口、语言模型的访问地址等。

步骤S402、服务器接收端侧设备发送的对语言模型的测评请求。

服务器接收到对语言模型的测评请求后，从测评请求中提取待测评的语言模型的相关信息。如，调用语言模型的应用程序接口、语言模型的访问地址等。

步骤S403、服务器获取提示模板，提示模板包含用于填充待测评数据的槽位和测评思维链。

该步骤中获取提示模板的具体实现方式和效果参见前述实施例的相关内容，此处不再赘述。

步骤S404、服务器将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级。

该步骤的具体实现方式参见前述实施例中的相关内容，此处不再赘述。

步骤S405、服务器根据待测评数据的质量等级，确定语言模型的测评结果。

在一可选实施例中，服务器获得语言模型的测评结果之后，还可以通过步骤S406-S408输出语言模型的测评结果。

步骤S406、服务器向端侧设备输出语言模型的测评结果。

步骤S407、端侧设备接收服务器发送的语言模型的测评结果。

步骤S408、端侧设备输出语言模型的测评结果。

本实施例中，通过配置包含用于填充待测评数据的槽位和测评思维链的提示模板，并获取包括问题和待测评的人机交互模型生成的问题的响应的待测评数据；将待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型，使得第一测评模型进行基于测评思维链的逻辑推理，得到待测评数据的质量等级，进一步地，根据待测评数据的质量等级，计算得到人机交互模型的测评结果；通过采用ACR的方式引入问题响应质量的多个质量等级，代替现有技术中的人工打分，可以缓解对于同一问答对的多次打分不一致的情况，更好地控制测评模型测评的鲁棒性；并且，通过配置包含测评思维链的提示模板，测评思维链能够将问题响应的测评思考过程按流程拆解，并强调应该关注的重点和要点，可以激发测评模型的测评能力，提升测评准确性，而且可以针对任何问答对进行测评而不限定于选择题，扩展性强、测评效率高。测评结果用于指导语言模型的上线判定或更新语言模型的优化版本，可以在语言模型迭代中准确地选择优质模型，提升迭代更新得到的语言模型的多轮对话质量，提升上线模型的多轮对话质量，从而提升人机交互中多轮对话的质量。

本实施例的方法具体可以应用于人机交互模型的上线判定、版本迭代、模型选择等场景中。下面以大语言模型训练过程中的版本迭代为例，在大语言模型迭代训练过程中，对大语言模型的新旧版本进行测评，如图5所示，具体流程如下：

步骤S501、端侧设备对大语言模型进行一轮迭代训练，获得大语言模型的第一版本。

步骤S502、端侧设备向服务器发送对大语言模型的第一版本的测评请求。

步骤S503、服务器响应于接收到对大语言模型的第一版本的测评请求，获取第一版本的待测评数据。

步骤S504、服务器将第一版本的待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型进行基于测评思维链的逻辑推理，得到第一版本的待测评数据的质量等级，根据第一版本的待测评数据的质量等级，确定第一版本的测评结果。

步骤S505、服务器向端侧设备返回第一版本的测评结果。

步骤S506、端侧设备接收第一版本的测评结果。

步骤S507、端侧设备对大语言模型进行新一轮迭代训练，获得大语言模型的第二版本。

步骤S508、端侧设备向服务器发送对大语言模型的第二版本的测评请求。

步骤S509、服务器响应于接收到对大语言模型的第二版本的测评请求，获取第二版本的待测评数据。

步骤S510、服务器将第二版本的待测评数据填充至提示模板的槽位中生成测评指令，将测评指令输入第一测评模型进行基于测评思维链的逻辑推理，得到第二版本的待测评数据的质量等级，根据第二版本的待测评数据的质量等级，确定第二版本的测评结果。

步骤S511、服务器向端侧设备返回第二版本的测评结果。

步骤S512、端侧设备接收第二版本的测评结果。

步骤S513、端侧设备根据比较大语言模型的第一版本和第二版本的测评结果，根据比较结果选择其中一个版本作为优化版本，继续对优化版本进行迭代训练。

本实施例中将前述实施例中对模型的测评方法应用于大语言模型训练过程中的版本迭代场景，可以实现大语言模型训练过程中产生的不同版本进行精准地测评，基于测评比较结果可以精准地选择更优的版本，可以提升大语言模型训练的效果。

图6为本申请实施例提供的一种服务器的结构示意图。如图6所示，该服务器包括：存储器601和处理器602。存储器601，用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在服务器上的操作。处理器602，与存储器601通信连接，用于执行存储器601存储的计算机执行指令，以实现上述任一方法实施例所提供的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。

可选的，如图5所示，该服务器还包括：防火墙603、负载均衡器604、通信组件605、电源组件606等其它组件。图6中仅示意性给出部分组件，并不意味着服务器只包括图6所示组件。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现前述任一实施例的方法，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例的方法。计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器执行上述任一方法实施例所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中服务器的技术方案。可选的，该芯片还包括存储模块（如，存储器），存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例所提供的技术方案。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器执行本申请各个实施例方法的部分步骤。

应理解，上述处理器可以是处理单元（Central Processing Unit，简称CPU），还可以是其它通用处理器、数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速随机存取存储器（Random Access Memory，简称RAM），也可能还包括非易失性存储，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储器可以是对象存储(Object Storage Service，简称OSS)。上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static RandomAccess Memory，简称SRAM），电可擦除可编程只读存储器（ElectricallyErasable Programmable Read Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory，简称EPROM），可编程只读存储器（Programmable Read Only Memory，简称PROM），只读存储器（ReadOnly Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如移动热点（WiFi），第二代移动通信系统（2G）、第三代移动通信系统（3G）、第四代移动通信系统（4G）/长期演进（Long Term Evolution，简称LTE）、第五代移动通信系统（5G）等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（Near Field Communication，简称NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（Radio Frequency Identification，简称RFID）技术，红外技术，超宽带（UltraWide Band，简称UWB）技术，蓝牙技术和其他技术来实现。上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例的顺序仅仅为了描述，不代表实施例的优劣。另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种人机交互的数据处理方法，其特征在于，包括：

获取待测评数据和配置的提示模板，所述待测评数据包括问题和待测评的人机交互模型生成的所述问题的响应，所述提示模板包含用于填充待测评数据的槽位和测评思维链；

将待测评数据填充至所述提示模板的槽位中生成测评指令，将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理，得到所述待测评数据的质量等级；

根据所述待测评数据的质量等级，确定所述人机交互模型的测评结果；

所述方法还包括：

若所述问题不存在正确答案，利用第二测评模型生成所述问题的答复，作为所述问题的参考答案，将所述问题及参考答案输入第三测评模型进行基于第一测评思维链的逻辑推理，得到所述参考答案的质量等级；

将包含参考答案及参考答案质量等级的待测评数据输入所述第一测评模型进行基于第三测评思维链的逻辑推理，得到所述待测评数据的质量等级。

2.根据权利要求1所述的方法，其特征在于，所述获取待测评数据，包括：

获取测评集，所述测评集包含多个问题；

将所述问题输入待测评的人机交互模型生成所述问题的响应，所述问题和响应构成待测评数据。

3.根据权利要求2所述的方法，其特征在于，所述将待测评数据填充至所述提示模板的槽位中生成测评指令，将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理，得到所述待测评数据的质量等级，包括：

将待测评数据填充至第一提示模板的槽位中生成第一测评指令，所述第一提示模板包含第一测评思维链，所述第一测评思维链包含问题分析、响应分析、测评推理、质量等级输出；

将所述第一测评指令输入第一测评模型进行基于所述第一测评思维链的逻辑推理，得到所述待测评数据的质量等级。

4.根据权利要求2所述的方法，其特征在于，所述获取待测评数据，还包括：

获取所述问题的正确答案；

所述将待测评数据填充至所述提示模板的槽位中生成测评指令，将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理，得到所述待测评数据的质量等级，包括：

将包含正确答案的待测评数据填充至第二提示模板的槽位中，生成第二测评指令，所述第二提示模板包含问题槽位、正确答案槽位和待测评响应槽位，以及第二测评思维链，所述第二测评思维链包含待测评响应与正确答案的比较、待测评响应的质量等级输出；

将所述第二测评指令输入第一测评模型进行基于所述第二测评思维链的逻辑推理，得到所述待测评数据的质量等级。

5.根据权利要求4所述的方法，其特征在于，所述将所述问题及参考答案输入第三测评模型进行基于第一测评思维链的逻辑推理，得到所述参考答案的质量等级，包括：

将所述问题及参考答案填充至第一提示模板的槽位中生成第三测评指令，所述第一提示模板包含第一测评思维链，所述第一测评思维链包含问题分析、响应分析、测评推理、质量等级输出；

将所述第三测评指令输入第三测评模型进行基于所述第一测评思维链的逻辑推理，得到所述参考答案的质量等级。

6.根据权利要求5所述的方法，其特征在于，所述将包含参考答案及参考答案质量等级的待测评数据输入所述第一测评模型进行基于第三测评思维链的逻辑推理，得到所述待测评数据的质量等级，包括：

将包含参考答案及参考答案质量等级的待测评数据，填充至第三提示模板的槽位中，生成第四测评指令，所述第三提示模板包含问题槽位、参考答案槽位、待测评响应槽位和参考答案的质量等级槽位，以及第三测评思维链，所述第三测评思维链包含待测评响应与参考答案的比较、待测评响应的质量等级输出；

将所述第四测评指令输入所述第一测评模型进行基于所述第三测评思维链的逻辑推理，得到所述待测评数据的质量等级。

7.根据权利要求1-6中任一项所述的方法，其特征在于，还包括：

响应于提示模板配置请求，通过前端界面显示所述提示模板；

响应于所述前端界面上所显示的提示模板的编辑操作，更新所述提示模板。

8.根据权利要求1-6中任一项所述的方法，其特征在于，还包括：

根据所述人机交互模型的测评结果，确定所述人机交互模型是否满足上线条件；

输出所述人机交互模型的上线提示信息和/或所述人机交互模型的测评结果，所述上线提示信息指示所述人机交互模型是否满足上线条件。

9.根据权利要求1-6中任一项所述的方法，其特征在于，还包括：

根据多个人机交互模型的测评信息，选择其中一个人机交互模型作为目标人机交互模型，并向端侧设备输出所述目标人机交互模型的信息；

或者，

根据多个不同版本的人机交互模型的测评结果，选择其中一个版本作为所述人机交互模型的优化版本。

10.一种人机交互的数据处理方法，其特征在于，包括：

接收端侧设备发送的对语言模型的测评请求，获取所述语言模型生成的待测评数据，所述待测评数据包括问题和所述语言模型生成的所述问题的响应；

获取提示模板，所述提示模板包含用于填充待测评数据的槽位和测评思维链；

根据所述待测评数据的质量等级，确定所述语言模型的测评结果；

向所述端侧设备输出所述语言模型的测评结果；

所述方法还包括：

11.一种服务器，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述服务器执行权利要求1-10任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-10任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-10任一项所述的方法。