CN117272011A

CN117272011A - 模型测评方法、装置、电子设备和存储介质

Info

Publication number: CN117272011A
Application number: CN202311270956.9A
Authority: CN
Inventors: 张航; 施旭; 孙月如; 房迪娜; 张彪; 杨帆; 林家明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-22

Abstract

本公开提供了一种模型测评方法，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理和大模型技术领域。具体实现方案为：响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集；使用待测评模型基于第一提示数据集对测评数据集进行处理，得到答案数据集；响应于接收到来自目标对象的第二操作信息，确定第二提示数据集；使用M个裁判模型分别基于第二提示数据集对答案数据集进行评价，得到评价数据集，M为大于1的整数；根据评价数据集确定测评结果。本公开还提供了一种模型测评装置、电子设备和存储介质。

Description

模型测评方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、自然语言处理和大模型技术领域。更具体地，本公开提供了一种模型测评方法、装置、电子设备和存储介质。

背景技术

随着人工智能的发展，大模型技术在各个领域备受关注。大模型是指大规模深度学习模型，例如大语言模型(Large Language Model，LLM)，在自然语言处理领域被广泛应用。

目前市面上有多种大模型，企业在自身的应用场景下，如何选择大模型是一个问题。大模型的测评是大模型选取的依据，但是测评本身是一个开放的问题，目前没有一个相对统一的测评基准。

发明内容

本公开提供了一种模型测评方法、装置、设备以及存储介质。

根据第一方面，提供了一种模型测评方法，该方法包括：响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集，第一提示数据集包括针对待测评模型的输入输出示例；使用待测评模型基于第一提示数据集对测评数据集进行处理，得到答案数据集；响应于接收到来自目标对象的第二操作信息，确定第二提示数据集，第二提示数据集包括针对裁判模型的输入输出示例；使用M个裁判模型分别基于第二提示数据集对答案数据集进行评价，得到评价数据集，其中，M为大于1的整数；以及根据评价数据集确定测评结果。

根据第二方面，提供了一种模型测评装置，该装置包括：第一响应模块，用于响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集，第一提示数据集包括针对待测评模型的输入输出示例；第一处理模块，用于使用待测评模型基于第一提示数据集对测评数据集进行处理，得到答案数据集；第二响应模块，用于响应于接收到来自目标对象的第二操作信息，确定第二提示数据集，第二提示数据集包括针对裁判模型的输入输出示例；评价模块，用于使用M个裁判模型分别基于第二提示数据集对答案数据集进行评价，得到评价数据集，其中，M为大于1的整数；以及测评结果确定模块，用于根据评价数据集确定测评结果。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的可以应用模型测评方法和装置的示例性系统架构示意图；

图2是根据本公开的一个实施例的模型测评方法的流程图；

图3是根据本公开的一个实施例的模型测评方法的流程图；

图4是根据本公开的一个实施例的模型测评方法的示意图；

图5是根据本公开的一个实施例的模型测评装置的框图；

图6是根据本公开的一个实施例的模型测评方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着大模型技术的广泛使用，各企业也在你追我赶的尝试接入各种大模型及相关衍生应用。但面临百模大战的行业现状，企业在真实进行业务落地时会面临很多困难。例如，针对自身的应用场景，选取什么大模型、选取的依据是什么、成本如何、调优后效果如果评估、如何进行模型的持续迭代升级、升级依据是什么等等。

因此，大模型相关的效果、性能评测是必不可少的环节。不可避免的，评测基准便成为大模型发展的风向标。自然语言处理领域的评测基准(Benchmark)、开源榜单非常多，被大模型们反复“刷榜”。然而，现有的评测基准并不能做到对模型的公平性评测，这也反映出评测本身是一个开放性的难题。

为了完成一个完整的大模型测评，目前包括以下步骤。

步骤一、选取评测集。目前市面上，各榜单常选取一些著名的大数据量开源数据集作为评测集，大多为英文数据集。

使用著名的一些开源数据集无可厚非。但存在以下几个问题。若评测数据集本身是待评测模型的训练数据，则该评测数据集本身的测评结果的意义值得商榷。同时，也无法完全确认评测集是否被污染，这导致评测本身缺少可信度。会存在一些大模型在各榜单上标榜得分很高，但实际企业在应用时，发现在内部的评测集上效果很差。因此依据开源榜单得分来做模型选型是件不大可行的事情。针对原始评测集，会发现在每次评测时，数据量不同或者数据场景的增加，会导致每次效果评分的总分差异比较大。一些开源的榜单，缺乏更多场景的中文评测集，同时长上下文场景的语料也十分缺乏。

步骤二、确定评测范围。一般只看大模型的推理阶段的效果和性能。对于模型开发团队，会额外加入模型训练相关的几个指标(比如资源利用率)。

一般评测诉求最多的是模型的推理性能(效果、延时)，但传统上的评测(尤其是只关注开源榜单对标的评估)在实际应用层面，缺少很多维度的评测考量。

步骤三、确定各评测范围的评估指标。

在模型推理阶段，评估指标包括常见的准确率、召回率等客观指标(metrics)。在模型的训练阶段，评估指标包括训练效率、资源利用率等客观指标。

客观指标可以使用现有的一些测评框架来运行模型，输出对应的客观指标评估值。然而客观指标不能反映模型使用者对模型的主观感受，数字指标不能很好的映射到实际的场景效果上，多大的数字指标才能达到人们心中可接受的效果是很难直接映射的。

因此，可以引入主观评测来来增加主观打分倾向因子，主观评测主要基于人为制定的规则进行打分。一般需要雇佣专家进行人工标注。尤其对于生成式场景而言，常会采取雇佣专家或与第三方数据标注团队合作，进行人工标注。然而标注大量数据，所需的时间、金钱成本巨大。标注大量数据又十分费时费力且昂贵。

步骤四、整理测评结果，并权衡是否达到准出标准。

现目前，并没有官方渠道提到所谓大模型准出标准的概念。实际评测结果到达什么程度才可以实际进行实际应用，暂时没有明确标准或者暂时没有人意识到这一点。

总结而言，现有的测评方法每一步都需要人工权衡和制定，例如人工选取数据集、人工确定测评范围和测评指标、人工进行主观打分等等。人工介入成本高，且测评效率低。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1是根据本公开一个实施例的可以应用模型测评方法和装置的示例性系统架构示意图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括模型训练子系统110、模型测评子系统120和模型推理子系统130。

模型训练子系统110用于对待测评模型进行训练。例如待测评模型包括基础模型Base Model，可以使用大规模的行业无标注数据(无标注Datasets)对基础模型Base Model进行训练得到的预训练模型(Post-Pretrain)，然后使用小规模的有标注的实际应用场景数据(有标注Datasets)对预训练模型进行训练得到SFT(Supervised fine-tuning，有监督微调)模型。

接下来，为了对待测评模型(基础模型、预训练模型、SFT模型中的至少之一)进行测评，可以将待测评模型部署到模型推理子系统130。模型推理子系统130可以包括小规模的服务器、芯片等，用于运行待测评模型，即进行待测评模型的推理。

模型测评子系统120可以与模型训练子系统110和模型推理子系统130分别连接，从而可以针对模型训练子系统110在执行模型训练时进行训练阶段的测评，还可以针对模型推理子系统130在模型执行模型推理后进行推理效果的测评。

模型测评子系统120的评估维度包括客观评价(客观metrics)和主观评价。客观评价包括一些效果指标(召回率、准确率等)和性能指标(效率、资源利用率等)，主观评价包括自动效果打分和人工打分校验。自动效果打分包括使用裁判模型模拟人工对对待测评模型的效果进行打分。人工校验打分是指在自动效果打分不可信的情况下，引入人工进行二次校验。其中，在多个裁判模型对待测评模型的效果打分不一致的情况下，可以确定自动效果打分不可信。

模型测评子系统120可以提供可视化的测评平台，该平台可以预置多种开源数据集、多种应用场景以及每种应用场景下可以预置多种数据集，以供用户选择。

本实施将测评所需要的评测集选取、场景选取、模型的评估(打分)、评估结果的统计等串联起来，为用户提供一站式、全流程、自动化的大模型测评服务。

本实施例能够覆盖多领域、多应用场景，可以评估多领域多场景下的多个维度的指标，使用户能够权衡测评效率和可信度。

本公开实施例所提供的模型测评方法一般可以由测评子系统120执行。相应地，本公开实施例所提供的模型测评装置一般可以设置于测评子系统120中。

图2是根据本公开的一个实施例的模型测评方法的流程图。

如图2所示，该模型测评方法200包括操作S210～操作S250。

在操作S210，响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集。

本实施例的执行主体可以是用于提供大模型自动化测评服务的服务器，该服务器的前端提供可视化的测评平台。在该测评平台可以预置有供用户选择的应用场景和测评集。

测评平台针对不同的用场景和测评集还预置有对应的第一提示数据集，第一提示数据集可以包括用于指导待测评模型做预测的prompt模板(简称为预测prompt)。预测prompt模板包括一些输入输出示例，用于指示待测评模型按照prompt模板中输入输出示例的形式做预测，从而输出答案数据。

多个预测prompt模板可以按照与用户选定的场景和测评集之间的相关度进行排序，并以推荐列表的形式展示给用户，供用户选择。

目标对象可以是用户，第一操作信息可以包括用户对应用场景的选取操作、对测评集的选取操作以及对预测prompt模板的选取操作。响应于用户的选取操作，可以确定用户选取的应用场景、测评集、以及预测prompt模板。

需要说明的是，用户可以不选取测评平台提供的测评集和预测prompt模板。用户可以自己上传测评集，并且可以自定义预测prompt，此外，对于用户自定义的预测prompt，测评平台还可以给出指导建议信息、修改建议信息等。以便用户获得更加准确的预测prompt。

在操作S220，使用待测评模型基于第一提示数据集对测评数据集进行处理，得到答案数据集。

例如，将用户选取的测评集和预测prompt(第一提示数据集)输入待测评模型，待测评模型基于预测prompt对输入数据(测评数据)进行处理，得到与输入数据对应的答案数据。

以生成摘要的应用场景为例，测评集可以包括多个文章，预测prompt可以包括一些文章示例、这些文章示例的摘要示例，以及一些要求，比如摘要字数不超过50字、符合语法规范等。将测评集和预测prompt输入待测评模型，待测评模型可以输出与测评集中每个文章对应的摘要(答案)。

在操作S230，响应于接收到来自目标对象的第二操作信息，确定第二提示数据集。

在待测评模型输出每个测评数据的答案数据之后，需要对待测评数据输出的答案数据进行评价，以评估待测评模型的预测效果。

本实施例采用裁判模型模拟人工对待测评模型进行打分，裁判模型也可以是大模型，需要prompt指导打分。用于指导打分的prompt(简称为打分prompt)为第二提示数据。测评平台可以预置打分prompt模板，基于用户选取的应用场景，可以确定打分规则，基于打分规则可以确定打分prompt的推荐列表，并展示给用户，以供用户选择。

类似地，用户也可以自定义打分prompt，此外，对于用户自定义的打分prompt，测评平台还可以给出指导建议信息、修改建议信息等。

在操作S240，使用M个裁判模型分别基于第二提示数据集对答案数据集进行评价，得到评价数据集。

为提高打分的可靠性，可以使用多个(M个，M为大于1的整数，例如M＝3)裁判模型进行打分。例如，针对每个裁判模型，将答案数据集和打分prompt(第二提示数据集)输入该裁判模型，该裁判模型输出每个答案的评价数据，该评价数据可以是基础评估值(分数)。

在操作S250，根据评价数据集确定测评结果。

M个裁判模型中的每个裁判模型针对答案数据集打分可以得到对应的评价数据集，M个裁判模型得到的M个评价数据集组成整体的评价数据集，该整体的评价数据集中包括多个答案各自的评价数据，每个答案是与一个测评数据对应的，每个答案的评价数据包括M个裁判模型打分得到的M个评估值。

基于与每个答案对应的M个评估值，可以确定该答案的综合评估值。基于多个答案各自的综合评估值，可以确定测评结果，该测评结果表征待测评模型的推理效果。例如测评结果包括优秀答案的占比、普通答案的占比等，其中，优秀答案占比越高，待测评模型的推理效果越好。

本公开的实施例响应于目标对象的第一操作信息，确定测评集和第一提示数据，使用待测评模型基于第一提示数据对测评集进行处理，得到答案数据，响应于目标对象的第二操作信息，使用裁判模型基于第二提示数据对答案数据进行评价，得到评价数据，基于评价数据确定测评结果。本实施例能够自动化执行测评流程，且使用裁判模型代替人工对答案数据进行评价，减少人工介入成本，提高测评效率。

本实施例将测评集的选取、第一提示数据的选取、第二提示数据的选取、答案数据的自动化评价以及评价数据的统计串联起来，能够实现一站式、全流程的模型测评。

下面对本公开实施例提供的可视化测评平台进一步进行说明。

根据本公开的实施例，用户可以在可视化平台上选取应用场景、测评集、预测prompt以及打分prompt。

操作S210具体包括响应于接收到来自目标对象的场景选取操作，确定目标场景以及与目标场景对应的至少一个推荐数据集；响应于接收到来自目标对象针对至少一个推荐数据集中的目标数据集的选取操作，将目标数据集确定为测评数据集；基于目标场景和测评数据集中的至少之一，确定多个第一提示模板(预测prompt)；以及响应于来自目标对象针对多个第一提示模板中的至少一个第一提示模板的选取操作，将至少一个第一提示模板确定为第一提示数据集。

操作S230具体包括基于目标场景，确定多个第二提示模板(打分prompt)；响应于接收到来自目标对象针对多个第二提示模板中的至少一个第二提示模板的选取操作，将至少一个第二提示模板确定为第二提示数据集。

本实施例提供的测评平台可以预置多种应用领域(例如法律、医疗、金融等)，每种应用领域可以预置有多种任务场景(例如分类任务、生成任务等)，每种任务场景还可以预置多种子任务场景(例如开放域问答、限定式问答、摘要生成等)。还可以根据实际需求，再将子任务场景进行细分。

针对每种子任务场景，可以对应预置有数据集。对应每种数据集，预置有对应的预测prompt。针对每种场景，针对裁判大模型，还预置有打分prompt。

响应于用户选取目标场景，展示对应的数据集，响应于用户选取目标数据集作为测评集，展示对应的预测prompt，响应于用户选取的预测prompt，执行待测评模型的推理，得到答案数据。响应于用户选取的打分prompt，裁判模型对答案数据自动打分。

数据集可以包括开源的数据集。很多时候在做评测时，往往面临待评测的数据集不够(尤其是在前期做技术选型时、模型调优的数据集缺乏等)。面对这个问题，可以利用大模型，来泛化评测集。

例如，为了避免评测集未在模型训练阶段已被使用，造成评测集被污染，可以对原始数据集做近似词替换或其他数据泛化、数据增强后再进行对比评估。此外，还可以定期更新，保证评测数据与市场应用趋势趋近。

在实际的评测过程中，为了适应快节奏高频率的业务迭代，需要平衡评测效率与评测范围。因此可以在评测数据集建立时，沉淀例行集以及回归集，例行集和回归集均进行储备，作为测评集，预置到测评平台中。

例行集数据量级相对较大，是一个完成一个全流程评估所需的例行评测数据集。用户根据自身测评需求，可以选取要测评的例行集。测评需求以及对应的例行集、测评方式如下表1所示。

表1

如表1所示，用户的测评需求包括测评模型的应用能力、学习能力和通用能力，不同测评需求对应不同的测评集(例行集)。其中，通用能力的测评方式包括客观指标(metrics)的评价以及大模型自动评价。学习能力和通用能力的测评方式包括大模型自动评价。

回归集适用于小版本评估验证以及需要快速评估模型性能的场景，例如希望快节奏验证上线的场景。这些场景每次评估需100％覆盖回归集。回归集说明如下表2所示。

表2

数据来源	备注	是否必须
			badcase数据	历史沉淀的Badcase数据	是
重保业务case	核心业务的重保数据case	是

本实施例明确了测评需求、测评集以及测评方式的对应关系。

下面对测评范围和测评指标进行说明。

关于测评范围，传统上大模型评测只会看模型推理阶段的性能。对此，本实施例将测评范围进行拓展，大模型评估可以涉及从数据准备、模型训练、预测服务部署及模型推理验证的全流程。关联的评测指标整体会包含客观metrics指标及主观感受评价指标。针对各评测阶段对应的客观metrics指标进行如下说明。

训练数据储备阶段：测评模型训练所需涉及的数据质量、大小、安全传输及支持的数据格式等。例如，客观指标包括达到指定效果和性能指标时所需的最小数据量级、数据是否安全(传输及存储安全性、隐私信息是否隐藏掉)、数据清洗质量(数据清洗前后，对模型效果和训练时长等是否带来正向收益)、数据格式丰富度(支持的数据格式种类)。

模型训练阶段：整个大模型的训练流程在国产化硬件上的可用性、易用性等评测。例如，客观指标包括训练时间、迭代次数、平均故障时间(大模型训练过程中，两次中断之间的平均时间)以及训练速度。

模型部署阶段：大模型训练完成后，将模型部署至相应国产化服务器或软硬一体设备。例如，客观指标包括部署耗时、模型支持的硬件个数、操作系统个数、内存占用率、磁盘大小及所需最低硬件规格。

模型推理阶段：推理服务部署成功后，测评推理服务的效果及性能等指标。同时加入模型结果安全性评估。如下表3示出了模型推理阶段的评估指标。

表3

关于主观感受评价指标，本实施例使用大模型模拟人工打分，得到的是模拟人为主观感受的评估值。

主观打分的总体规则为：大模型预测返回的结果应该在保障安全性的基础上，以满足用户需求为首要目标，并保证尽可能贴近人类的习惯和情商。首要原则是安全保证，不提及安全敏感问题。其次答案要符合事实、回复规范并流畅，避免出现语句不通、语法错误等。回复内容逻辑清洗，结构良好并表达流畅。以下表4示出了打分规则。

表4

本实施例明确和拓宽了评测范围，旨在将评测尽可能覆盖大模型应用链上的更多场景。

本实施例明确各评测范围的评测指标、效果打分的规则，提升大模型预测结果的效果标注效率。在保证正确性和可信度的基础上，使用自动化打分的方式减少人工标注答案的成本。

总体而言，本实施例提供的可视化的平台，串联大模型评测所需的各种数据、预测、评估、统计、模型配置等操作，实现大模型一站式、全流程的测评。

图3是根据本公开的一个实施例的模型测评方法的流程图。

如图3所示，该模型测评方法包括使用裁判模型对答案数据进行评价的步骤(操作S310～操作S320)、针对每个答案数据确认裁判模型的评价一致性的步骤(操作S330～操作S360)、使用仲裁模型针对评价不一致的答案数据进行校验的步骤(操作S361～操作S364)、效果评分统计步骤(操作S370)、以及Badcase回流步骤(操作S380)。

在操作S310，从候选模型集合中选举出M个裁判模型。

候选模型集合中的候选模型可以是用于对答案数据进行打分的大模型，为提高打分可靠性，可以从候选模型集合中选举出在当前用户的应用场景下可信度最高的M个候选模型作为裁判模型。M为大于1的整数，例如M＝3。

根据本公开的实施例，答案数据集中可以设置一部分答案子集用来选举裁判模型。该答案子集称为选举答案子集。可以使用候选模型集合中的每个候选模型对选举答案子集进行评价，得到选举评价结果；以及根据选举评价结果，从候选模型集合中确定裁判模型。

针对每个候选模型，使用候选模型对选举答案子集进行多次评价，得到与多次评价各自对应的多个第一选举评价结果；计算候选模型的多个第一选举评价结果之间的第一选举一致性，响应于第一选举一致性大于第二阈值，将候选模型确定为裁判模型。

例如，针对每个候选模型，可以使用该候选模型对选举答案子集进行多次评价(例如3次)，每次评价得到一个选举评价结果(第一选举评价结果)。如果多次评价得到的多个第一选举评价结果之间的选举一致性大于一定阈值(例如0.9)，可以确定该候选模型的打分是可信的，可以作为裁判模型。

针对每个候选模型，调整选举答案子集中的答案顺序，得到多个答案序列；以及使用候选模型对多个答案序列分别进行评价，得到与多个答案序列各自对应的多个第二选举评价结果；计算候选模型的多个第二选举评价结果之间的第二选举一致性。响应于第二选举一致性大于第二阈值，将候选模型确定为裁判模型。

有些大模型可能存在打分位置偏差，例如，对两个答案进行打分时，存在位置偏差的大模型倾向于给第一个答案更高分。即使在提示语中要求不要保留这种位置偏差，依然会导致模型偏向另一边。对于这种情况，可以调整选举答案子集中的答案顺序，得到多个答案序列，针对每个答案序列进行打分，得到与多个答案序列对应的多个第二选举评价结果。如果多个第二选举评价结果之间的选举一致性大于一定阈值(例如0.9)，可以确定该候选模型的打分是可信的，可以作为裁判模型。

本实施例针对每个候选模型，计算该候选模型重复多次打分的一致性，以及打乱答案顺序后多次打分的一致性，在两种一致性中的至少之一大于阈值(例如0.9)的情况下，确定候选模型打分可信，可以将候选模型确定为裁判模型。通过操作S310选举出的裁判模型的打分可信度更高，提高打分效果。

在操作S320，使用M个裁判模型对答案数据集进行评价，得到评价数据集。

操作S320与操作S240的具体实现方式一致，这里不再赘述。

在操作S330，根据评价数据集，确定M个裁判模型的评价一致性。

评价数据集包括每个答案的评价数据，每个答案的评价数据包括M个基础评估值，M个基础评估值分别来自M个裁判模型的打分。评价一致性的计算方式如下表5所示。

表5

表5所示的示例包括n个裁判模型(评分者/裁判员，n＝3)，测评集包括N条测评(N＝5)，待测评模型输出了5条答案数据(数据1～数据5)。每条数据有三档分数，分别为0分(不满意)、1分(部分满意)、2分(十分满意)。

n_ij表示第i条数据得到的第j个分数值的数量，因此每一行的数值总和为裁判员总数，即3。

每个分数等级的随机一致性概率P_j＝每一列的总和/任务总数(即n*N)。

每个数据的评价一致性如下公式(1)所示。

最终的一致性概率如下公式(2)所示。

最终的随机一致性概率如下公式(3)所示。

总的一致性K值如下公式(4)所示。

需要说明的是，每个答案的评价一致性为p_i，该评价一致性的公式也适用于操作S310中多个第一选举评价结果之间的选举一致性计算以及多个第二选举评价结果之间的选举一致性的计算。

还需要说明的是，计算总的一致性K，是为了评估多个裁判员整体的评价一致性，如果总的一致性K大于等于第三阈值(例如0.8)，可以认为测评集中的数据的得分都是可信的。可以执行操作S370，统计可信答案数据，得到测评结果。

在总的一致性K小于第三阈值(0.8)时，可以针对每个答案数据，分别基于该答案数据的评价一致性确定该答案是否可信。参见如下操作S340。

在操作S340，针对每一个答案，确定评价一致性是否大于等于第一阈值，如果是则执行操作S350，否则执行操作S360。

针对每个答案，如果该答案的评价一致性小于0，表示多个裁判模型针对该答案的评价一致性程度低于随机水平。如果该答案的评价一致性等于0，表示多个裁判模型针对该答案的评价一致性程度等于随机水平。如果该答案的评价一致性大于0，表示多个裁判模型针对该答案的评价一致性程度高于随机水平。

评价一致性的值越高表示多个裁判模型之间的一致性越好。可以设置第一阈值(例如0.6)，如果评价一致性的值大于等于0.6，表示多个裁判模型之间的一致性良好，答案的多个得分都是可以接受的。

因此，针对每个答案，如果该答案的评价一致性的值大于等于第一阈值(0.6)，认为该答案可信，接下来执行操作S350。如果该答案的评价一致性的值小于第一阈值(0.6)，认为该答案不可信，接下来执行操作S360。

在操作S350，将答案数据划分到可信答案子集。

在操作S360，将答案数据划分到待校验答案子集。

划分到待校验答案子集中的答案，不能直接认定为答案不可信，需要引入第三方进行校验。

在操作S361，使用仲裁模型对待校验答案子集进行校验，得到每个待校验答案的校验评估值。

可以使用仲裁大模型进行校验，仲裁大模型可以是从候选模型集合中选举出来的、且未参与待测评模型打分的裁判模型。此外，还可以引入人工进行专家校验。

例如，针对每个待校验答案，可以将待校验答案和打分prompt输入仲裁模型，仲裁模型对待校验答案进行打分，得到校验评估值。

在操作S362，根据待校验评估值，将待校验答案划分到可信答案子集和失败答案子集中的之一。

针对每个待校验答案，如果校验评估值呈现一定规律，例如与M个基础评估值中的之一非常接近(例如差值小于0.2)的情况下，可以认为该待校验答案校验通过，是可信的，可以作为可信答案划分到可信答案子集中，得到更新的可信答案子集。

此外，需要说明的是，在确定待校验答案为可信答案的情况下，可以提高M个基础评估值中与校验评估值最接近的基础评估值的权重，以便于后续评估值的统计。

如果校验评估值没有呈现任何规律，例如与M个基础评估值中的任一个均不接近(例如差值大于等于0.2)的情况下，可以认为该待校验答案为失败答案(Badcase)，划分到失败答案子集中。

在操作S363，得到更新的可信答案子集。

在操作S364，得到失败答案子集。

在操作S370，统计可信答案数据，得到测评结果。

更新的可信答案数据子集中包括所有的可信答案，针对每个可信答案，可以对该可信答案的M个基础评估值进行统计，得到综合评估值。例如，可以计算M个基础评估值的平均值、加权平均值等作为综合评估值，还可以从M个基础评估值中择一作为综合评估值。综合评估值可以作为一个维度的指标。

还可以统计其他维度的指标。例如，统计可信答案数据集中综合评估值大于等于1的占比，作为可接受度。统计可信答案数据集中综合评估值大于等于2的占比，作为优秀答案占比。统计可信答案数据集中综合评估值小于2的占比，作为普通答案占比。

此外，还可以统计待测评模型的效果趋势。效果趋势是以一个模型为基准，评价该模型与其他模型的优劣。效果趋势的评价指标为GSB，GSB＝Good：Same：Bad。其中，G值越高，模型效果越好。

下面为计算GSB的一个示例。

例如测评数据有5条，以待测评模型A为基准，计算待测评模型A和待测评模型B的GSB。

针对待测评模型A的5条输出结果，裁判模型的打分为：1，0，2，1，2；针对待测评模型B的5条输出结果，裁判模型的打分为：0，0，1，1，1。那么待测评模型A有3条打分结果好于待测评模型B，Good＝3；待测评模型A有1条打分结果与待测评模型B相同，Same＝2；待测评模型A有0条打分结果与待测评模型B相同，Bad＝0。因此，GSB＝3：2：0。

类似地，可以计算出待测评模型A分别与待测评模型C、D、E的GSB。GSB作为一个维度的指标，可以在两个模型进行抉择的情况下(两个模型的得分接近，难以抉择选取哪一个)，对模型进行快速抉择。

总结来说，上述综合评估值、可接受度、优秀答案占比、普通答案占比以及效果趋势GSB作为多个维度的效果指标，可以防止对某个评估标准进行“刷榜”，从而能够更好的评价模型的整体效果。

在操作S380，反馈失败答案子集。

失败答案子集为Badcase，可以将Badcase进行反馈，以确定回归集，用于回归测评。例如，确定测评集中与Badcase对应的测评数据，将与Badcase对应的测评数据确定为回归数据，用户可以选择回归数据进行测评。

造成Badcase的原因有很多，可以引入专家进行分析。例如，生成摘要的应用场景下，对于待测评模型针对某一条数据生成的摘要，裁判模型A的打分为0，裁判模型B的打分为1，裁判模型C没有得分。经分析发现：各个裁判模型是从不同维度考虑打分的，例如由于生成的摘要字数超过要求字数(50字)，裁判模型A直接打分为0。裁判模型B认为尽管没有符合字数要求，但是摘要内容符合要求，因此打了1分。裁判模型C认为题目有问题，因此没有给分。经人工确认后，如果确实是数据本身问题或者prompt问题，可以认为本条数据为Badcase。

对于数据本身造成的Badcase，可以修改数据本身，例如修改与Badcase对应的回归数据。还可以修改与Badcase对应的prompt，例如，确定产生该Badcase所使用的第一提示模板(预测prompt)以及第二提示模板(打分prompt)，修改预测prompt和打分prompt中的至少之一。

例如，可以修改预测prompt使得输入输出示例中摘要字数均小于上限值(50字)，还可以修改打分prompt增加摘要内容的打分权重，减小字数的打分权重等等。

图4是根据本公开的一个实施例的模型测评方法的示意图。

如图4所示，本实施例的流程包括：在可视化测评平台上，响应于用户的操作，确定应用场景和测评集。基于用户的应用场景，向该用户推荐适用当前应用场景的行业基础模型。接下来，向用户推荐第一提示模板(预测prompt)，第一提示模板用于指示待测评大模型针对输入数据输出答案。

响应于用户选取出第一提示模板，将用户选取的第一提示模板和测评集输入待测评模型，待测评模型包括用户选取的基础模型(Base Model)、预训练模型(Post-Pretrain)以及调优模型(SFT)中的至少之一。待测评模型输出答案数据。

测评平台基于应用场景向用户推荐第二提示模板(打分prompt)，打分prompt用于指示裁判模型对待测评大模型输出的答案数据进行打分。测试平台可以预置与场景匹配的第二提示模板。针对常用的充当裁判员的大模型，自动生成和优化通用的打分prompt作为第二提示模板。对于相同的打分场景，不同的模型，可能用不同的prompt打出来的分更可信。

针对多个裁判模型(裁判模型1～裁判模型M)的打分结果，计算多个打分结果之间的评价一致性。如果所有答案的评价一致性均大于阈值(例如0.6)，所有答案均为可信答案，统计可信答案的效果得分并生成测评报告。

对于评价一致性不大于阈值的答案，使用仲裁模型或者人工进行校验，如果通过校验，则确认答案可信，作为可信答案参与效果评分的统计。如果未通过校验，得到确认为Badcase，作为回归数据回流至测评集。

除裁判模型的打分指标之外，待测评模型还包括一些客观指标，例如召回率、准确率、资源利用率等。本实施还包括将效果评分和客观指标进行一致性确认，如果二者一致，认为答案数据可信。如果二者不一致，例如效果评分表示对答案十分满意，然而客观指标的准确率却很低(例如低于50％)，则二者是矛盾的。针对这种情况，也可以使用仲裁模型或者人工进行二次校验，校验通过则作为可信答案参与效果评分的统计。否则作为Badcase回流至测评集。

本实施例通过测评平台将模型测评涉及到的场景的选取、数据集的选取、提示模板的选取、模型的推理、推理效果的评价、评价结果的统计、评价结果的二次校验等串联起来，能够实现大模型的一站式、全流程的自动化测评。

在得到测评报告之后，可以基于测评报告中的指标值指导应用落地。例如可参考如下分数线推动系统上线。

在效果方面，按照裁判模型的打分指导上线标准，例如参与评测数据量为N(每条数据按0-2分进行效果打分)，准入线(可公测)可以是0.5*N分，发布线(可正式发布)可以是0.6*N分，标杆线(行业标杆)可以是0.8*N分。

在性能方面，由于大语言模型的参数量极大，推理所耗费的计算资源巨大，并且用户输入和模型生成内容均较多，因此除一般的系统指标外，考察此类系统的稳定性、可用性，还应着重考察以下独特的或重要的指标。例如首字/句token返回时间、故障恢复时间以及QPS。首字/句token返回时间，即用户发送输入内容后，系统开始进入生成状态，其返回的首个字符/首句的等待时长。故障恢复时间，即系统发生重大故障，导致部分或全部用户无法使用系统后，恢复正常所需时间。QPS(Queries Per Second)，即每秒钟系统可以响应的用户提问数。

性能上线准入标准例如包括：首字(Token)返回时间的平均值在6秒以内，80分位不超过30秒，QPS不少于30，以及单次故障不多于30分钟，365天内总故障时间不超过2小时。

本实施例明确评测结果对实际应用时的指导标准和规范，便于大模型应用的快速落地。

图5是根据本公开的一个实施例的模型测评装置的框图。

如图5所示，该模型测评装置500包括第一响应模块501、第一处理模块502、第二响应模块503、评价模块504以及测评结果确定模块505。

第一响应模块501用于响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集，第一提示数据集包括针对待测评模型的输入输出示例。

第一处理模块502用于使用待测评模型基于第一提示数据集对测评数据集进行处理，得到答案数据集。

第二响应模块503用于响应于接收到来自目标对象的第二操作信息，确定第二提示数据集，第二提示数据集包括针对裁判模型的输入输出示例。

评价模块504用于使用M个裁判模型分别基于第二提示数据集对答案数据集进行评价，得到评价数据集，其中，M为大于1的整数。

测评结果确定模块505用于根据评价数据集确定测评结果。

根据本公开的实施例，答案数据集包括与测评数据集中的多个测评数据各自对应的多个答案，针对每个答案，评价数据集包括与该答案对应的M个基础评估值。评价模块504包括评价子模块、划分子模块和测评结果确定子模块。

评价子模块用于针对每个答案，根据与该答案对应的M个基础评估值，确定M个裁判模型针对该答案的评价一致性。

划分子模块用于根据评价一致性，将答案数据集划分为可信答案子集和待校验答案子集。

测评结果确定子模块用于根据可信答案子集和待校验答案子集，确定测评结果。

划分子模块包括第一划分单元和第二划分单元。

第一划分单元用于将答案数据集中评价一致性大于等于第一阈值的答案作为可信答案，划分到可信答案子集。

第二划分单元用于将答案数据集中评价一致性小于第一阈值的答案作为待校验答案，划分到待校验答案子集。

测评结果确定子模块包括仲裁单元、划分单元和测评结果确定单元。

仲裁单元用于使用仲裁模型对待校验答案子集中的待校验答案进行评价，得到待校验答案的校验评估值。

划分单元用于根据校验评估值将待校验答案划分到可信答案子集和失败答案子集中的之一，得到更新的可信答案子集和失败答案子集。

测评结果确定单元用于根据更新的可信答案子集和失败答案子集，确定测评结果。

测评结果确定单元包括综合评估值确定子单元和指标确定子单元。

综合评估值确定子单元用于针对更新的可信答案子集中的每个答案，根据与每个答案对应的M个基础评估值，确定该答案的综合评估值。

指标确定子单元用于根据综合评估值，确定待评测模型的可接受度、优秀答案占比、普通答案占比以及效果趋势中的至少之一。

模型测评装置500还包括回归数据确定模块。

回归数据确定模块用于将测评数据集中的与失败答案子集对应的测评数据子集确定为回归数据。

第一处理模块还用于响应于接收到来自目标对象的选择回归数据作为测评数据集的操作，执行使用待测评模型基于第一提示数据集对测评数据集进行处理，得到答案数据集的操作。

模型测评装置500还包括提示数据确定模块和更新模块。

提示数据确定模块，用于确定第一提示数据集中与回归数据对应的第一提示数据，以及第二提示数据集中与回归数据对应的第二提示数据；

更新模块，用于更新回归数据、第一提示数据和第二提示数据中的至少之一。

根据本公开的实施例，答案数据集包括选举答案子集。模型测评装置500还包括选举模块和裁判模型确定模块。

选举模块用于使用候选模型集合中的每个候选模型对选举答案子集进行评价，得到选举评价结果。

裁判模型确定模块用于根据选举评价结果，从候选模型集合中确定裁判模型。

选举模块包括第一选举子模块、调整子模块以及第二选举子模块。

第一选举子模块用于使用候选模型对选举答案子集进行多次评价，得到与多次评价各自对应的多个第一选举评价结果。

调整子模块用于调整选举答案子集中的答案顺序，得到多个答案序列。

第二选举子模块用于使用候选模型对多个答案序列分别进行评价，得到与多个答案序列各自对应的多个第二选举评价结果。

裁判模型确定模块包括第一计算子模块、第二计算子模块以及裁判模型确定子模块。

第一计算子模块用于计算候选模型的多个第一选举评价结果之间的第一选举一致性。

第二计算子模块用于计算候选模型的多个第二选举评价结果之间的第二选举一致性。

裁判模型确定子模块用于响应于第一选举一致性和第二选举一致性中的至少之一大于第二阈值，将候选模型确定为裁判模型。

根据本公开的实施例，第一操作信息包括选取操作信息。第一响应模块501包括第一响应子模块、第二响应子模块、第一提示模板确定子模块以及第一提示数据集确定子模块。

第一响应子模块用于响应于接收到来自目标对象的场景选取操作，确定目标场景以及与目标场景对应的至少一个推荐数据集。

第二响应子模块用于响应于接收到来自目标对象针对至少一个推荐数据集中的目标数据集的选取操作，将目标数据集确定为测评数据集。

第一提示模板确定子模块用于基于目标场景和测评数据集中的至少之一，确定多个第一提示模板。

第一提示数据集确定子模块用于响应于接收到来自目标对象针对多个第一提示模板中的至少一个第一提示模板的选取操作，将至少一个第一提示模板确定为第一提示数据集。

根据本公开的实施例，第二操作信息包括选取操作信息。第二响应模块503包括第二提示模板确定子模块和第二提示数据集确定子模块。

第二提示模板确定子模块用于基于目标场景，确定多个第二提示模板。

第二提示数据集确定子模块用于响应于接收到来自目标对象针对多个第二提示模板中的至少一个第二提示模板的选取操作，将至少一个第二提示模板确定为第二提示数据集。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本丈所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本丈中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如模型测评方法。例如，在一些实施例中，模型测评方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的模型测评方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型测评方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型测评方法，包括：

响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集，所述第一提示数据集包括针对待测评模型的输入输出示例；

使用所述待测评模型基于所述第一提示数据集对所述测评数据集进行处理，得到答案数据集；

响应于接收到来自目标对象的第二操作信息，确定第二提示数据集，所述第二提示数据集包括针对裁判模型的输入输出示例；

使用M个所述裁判模型分别基于所述第二提示数据集对所述答案数据集进行评价，得到评价数据集，其中，M为大于1的整数；以及

根据所述评价数据集确定测评结果。

2.根据权利要求1所述的方法，其中，所述答案数据集包括与所述测评数据集中的多个测评数据各自对应的多个答案，针对每个答案，所述评价数据集包括与该答案对应的M个基础评估值；所述根据所述评价数据集确定测评结果包括：

针对每个答案，根据与该答案对应的M个基础评估值，确定所述M个裁判模型针对该答案的评价一致性；

根据所述评价一致性，将所述答案数据集划分为可信答案子集和待校验答案子集；以及

根据所述可信答案子集和待校验答案子集，确定所述测评结果。

3.根据权利要求2所述的方法，其中，所述根据所述评价一致性，将所述答案数据集划分为可信答案子集和待校验答案子集包括：

将所述答案数据集中评价一致性大于等于第一阈值的答案作为可信答案，划分到所述可信答案子集；以及

将所述答案数据集中评价一致性小于所述第一阈值的答案作为待校验答案，划分到所述待校验答案子集。

4.根据权利要求2或3所述的方法，其中，所述根据所述可信答案子集和待校验答案子集，确定所述测评结果包括：

使用仲裁模型对所述待校验答案子集中的待校验答案进行评价，得到所述待校验答案的校验评估值；

根据所述校验评估值将所述待校验答案划分到所述可信答案子集和失败答案子集中的之一，得到更新的可信答案子集和失败答案子集；以及

根据所述更新的可信答案子集，确定所述测评结果。

5.根据权利要求4所述的方法，其中，所述根据所述更新的可信答案子集，确定所述测评结果包括：

针对所述更新的可信答案子集中的每个答案，根据与每个答案对应的M个基础评估值，确定该答案的综合评估值；

根据所述综合评估值，确定所述待评测模型的可接受度、优秀答案占比、普通答案占比以及效果趋势中的至少之一。

6.根据权利要求4或5所述的方法，还包括：

将所述测评数据集中的与所述失败答案子集对应的测评数据子集确定为回归数据；以及

响应于接收到来自目标对象的选择所述回归数据作为测评数据集的操作，返回使用所述待测评模型基于所述第一提示数据集对所述测评数据集进行处理，得到答案数据集的步骤。

7.根据权利要求6所述的方法，还包括：

确定所述第一提示数据集中与所述回归数据对应的第一提示数据，以及所述第二提示数据集中与所述回归数据对应的第二提示数据；

更新所述回归数据、所述第一提示数据和所述第二提示数据中的至少之一。

8.根据权利要求1所述的方法，其中，所述答案数据集包括选举答案子集；所述方法还包括：

使用候选模型集合中的每个候选模型对所述选举答案子集进行评价，得到选举评价结果；以及

根据所述选举评价结果，从所述候选模型集合中确定所述裁判模型。

9.根据权利要求8所述的方法，其中，所述使用候选模型集合中的每个候选模型对所述选举答案子集进行评价，得到选举评价结果包括：针对每个候选模型，

使用所述候选模型对所述选举答案子集进行多次评价，得到与多次评价各自对应的多个第一选举评价结果；

调整所述选举答案子集中的答案顺序，得到多个答案序列；以及

使用所述候选模型对所述多个答案序列分别进行评价，得到与多个答案序列各自对应的多个第二选举评价结果。

10.根据权利要求9所述的方法，其中，所述根据所述选举评价结果，从所述候选模型集合中确定所述多个裁判模型包括：针对每个候选模型，

计算所述候选模型的多个第一选举评价结果之间的第一选举一致性；

计算所述候选模型的多个第二选举评价结果之间的第二选举一致性；以及

响应于所述第一选举一致性和所述第二选举一致性中的至少之一大于第二阈值，将所述候选模型确定为所述裁判模型。

11.根据权利要求1至10中任一项所述的方法，其中，所述第一操作信息包括选取操作信息；所述响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集包括：

响应于接收到来自目标对象的场景选取操作，确定目标场景以及与所述目标场景对应的至少一个推荐数据集；

响应于接收到来自目标对象针对所述至少一个推荐数据集中的目标数据集的选取操作，将所述目标数据集确定为所述测评数据集；

基于所述目标场景和所述测评数据集中的至少之一，确定多个第一提示模板；以及

响应于接收到来自目标对象针对所述多个第一提示模板中的至少一个第一提示模板的选取操作，将所述至少一个第一提示模板确定为所述第一提示数据集。

12.根据权利要求11所述的方法，其中，所述第二操作信息包括选取操作信息；所述响应于接收到来自目标对象的第二操作信息，确定第二提示数据集包括：

基于所述目标场景，确定多个第二提示模板；以及

响应于接收到来自目标对象针对所述多个第二提示模板中的至少一个第二提示模板的选取操作，将所述至少一个第二提示模板确定为所述第二提示数据集。

13.一种模型测评装置，包括：

第一响应模块，用于响应于接收到来自目标对象的第一操作信息，确定测评数据集以及第一提示数据集，所述第一提示数据集包括针对待测评模型的输入输出示例；

第一处理模块，用于使用所述待测评模型基于所述第一提示数据集对所述测评数据集进行处理，得到答案数据集；

第二响应模块，用于响应于接收到来自目标对象的第二操作信息，确定第二提示数据集，所述第二提示数据集包括针对裁判模型的输入输出示例；

评价模块，用于使用M个所述裁判模型分别基于所述第二提示数据集对所述答案数据集进行评价，得到评价数据集，其中，M为大于1的整数；以及

测评结果确定模块，用于根据所述评价数据集确定测评结果。

14.根据权利要求13所述的装置，其中，所述答案数据集包括与所述测评数据集中的多个测评数据各自对应的多个答案，针对每个答案，所述评价数据集包括与该答案对应的M个基础评估值；所述评价模块包括：

评价子模块，用于针对每个答案，根据与该答案对应的M个基础评估值，确定所述M个裁判模型针对该答案的评价一致性；

划分子模块，用于根据所述评价一致性，将所述答案数据集划分为可信答案子集和待校验答案子集；以及

测评结果确定子模块，用于根据所述可信答案子集和待校验答案子集，确定所述测评结果。

15.根据权利要求14所述的装置，其中，所述划分子模块包括：

第一划分单元，用于将所述答案数据集中评价一致性大于等于第一阈值的答案作为可信答案，划分到所述可信答案子集；以及

第二划分单元，用于将所述答案数据集中评价一致性小于所述第一阈值的答案作为待校验答案，划分到所述待校验答案子集。

16.根据权利要求14或15所述的装置，其中，所述测评结果确定子模块包括：

仲裁单元，用于使用仲裁模型对所述待校验答案子集中的待校验答案进行评价，得到所述待校验答案的校验评估值；

划分单元，用于根据所述校验评估值将所述待校验答案划分到所述可信答案子集和失败答案子集中的之一，得到更新的可信答案子集和失败答案子集；以及

测评结果确定单元，用于根据所述更新的可信答案子集和失败答案子集，确定所述测评结果。

17.根据权利要求16所述的装置，其中，所述测评结果确定单元包括：

综合评估值确定子单元，用于针对所述更新的可信答案子集中的每个答案，根据与每个答案对应的M个基础评估值，确定该答案的综合评估值；

指标确定子单元，用于根据所述综合评估值，确定所述待评测模型的可接受度、优秀答案占比、普通答案占比以及效果趋势中的至少之一。

18.根据权利要求16或17所述的装置，还包括：

回归数据确定模块，用于将所述测评数据集中的与所述失败答案子集对应的测评数据子集确定为回归数据；以及

所述第一处理模块，还用于响应于接收到来自目标对象的选择所述回归数据作为测评数据集的操作，执行使用所述待测评模型基于所述第一提示数据集对所述测评数据集进行处理，得到答案数据集的操作。

19.根据权利要求18所述的装置，还包括：

提示数据确定模块，用于确定所述第一提示数据集中与所述回归数据对应的第一提示数据，以及所述第二提示数据集中与所述回归数据对应的第二提示数据；

更新模块，用于更新所述回归数据、所述第一提示数据和所述第二提示数据中的至少之一。

20.根据权利要求13所述的装置，其中，所述答案数据集包括选举答案子集；所述装置还包括：

选举模块，用于使用候选模型集合中的每个候选模型对所述选举答案子集进行评价，得到选举评价结果；以及

裁判模型确定模块，用于根据所述选举评价结果，从所述候选模型集合中确定所述裁判模型。

21.根据权利要求20所述的装置，其中，所述选举模块包括：

第一选举子模块，用于使用所述候选模型对所述选举答案子集进行多次评价，得到与多次评价各自对应的多个第一选举评价结果；

调整子模块，用于调整所述选举答案子集中的答案顺序，得到多个答案序列；以及

第二选举子模块，用于使用所述候选模型对所述多个答案序列分别进行评价，得到与多个答案序列各自对应的多个第二选举评价结果。

22.根据权利要求21所述的装置，其中，所述裁判模型确定模块包括：

第一计算子模块，用于计算所述候选模型的多个第一选举评价结果之间的第一选举一致性；

第二计算子模块，用于计算所述候选模型的多个第二选举评价结果之间的第二选举一致性；以及

裁判模型确定子模块，用于响应于所述第一选举一致性和所述第二选举一致性中的至少之一大于第二阈值，将所述候选模型确定为所述裁判模型。

23.根据权利要求13至22中任一项所述的装置，其中，所述第一操作信息包括选取操作信息；所述第一响应模块包括：

第一响应子模块，用于响应于接收到来自目标对象的场景选取操作，确定目标场景以及与所述目标场景对应的至少一个推荐数据集；

第二响应子模块，用于响应于接收到来自目标对象针对所述至少一个推荐数据集中的目标数据集的选取操作，将所述目标数据集确定为所述测评数据集；

第一提示模板确定子模块，用于基于所述目标场景和所述测评数据集中的至少之一，确定多个第一提示模板；以及

第一提示数据集确定子模块，用于响应于来自目标对象针对所述多个第一提示模板中的至少一个第一提示模板的选取操作，将所述至少一个第一提示模板确定为所述第一提示数据集。

24.根据权利要求23所述的装置，其中，所述第二操作信息包括选取操作信息；所述第二响应模块包括：

第二提示模板确定子模块，用于基于所述目标场景，确定多个第二提示模板；以及

第二提示数据集确定子模块，用于响应于接收到来自目标对象针对所述多个第二提示模板中的至少一个第二提示模板的选取操作，将所述至少一个第二提示模板确定为所述第二提示数据集。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至12中任一项所述的方法。