CN117971661A

CN117971661A - 大模型测试方法、装置、电子设备及存储介质

Info

Publication number: CN117971661A
Application number: CN202410045310.9A
Authority: CN
Inventors: 张红艳; 刘召; 杨翌晨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-05-03

Abstract

本公开提供了大模型测试方法、装置、电子设备及存储介质，涉及大模型、自然语言处理以及深度学习等人工智能领域。其中的方法可包括：确定本次测试的测试任务以及待测试大模型，测试任务的数量为M，M为正整数，每个测试任务中分别包括至少两个问题，待测试大模型的数量为N，N为大于一的正整数；针对各测试任务，分别执行以下处理：遍历该测试任务中的问题，针对每次遍历到的问题，分别将其作为待处理问题，并将待处理问题发送给各待测试大模型，得到各待测试大模型生成的响应信息，分别确定出各响应信息对应的评分，将各响应信息及对应的评分作为待处理问题对应的测试结果并进行展示。应用本公开所述方案，可提升测试效率和测试效果等。

Description

大模型测试方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及大模型、自然语言处理以及深度学习等领域的大模型测试方法、装置、电子设备及存储介质。

背景技术

大模型是指使用大量文本数据训练得到的深度学习模型，可以生成自然语言文本或理解自然语言文本的含义等。

发明内容

本公开提供了大模型测试方法、装置、电子设备及存储介质。

一种大模型测试方法，包括：

确定本次测试的测试任务以及待测试大模型，所述测试任务的数量为M，M为正整数，每个测试任务中分别包括至少两个问题，所述待测试大模型的数量为N，N为大于一的正整数；

针对各测试任务，分别执行以下处理：遍历所述测试任务中的问题，其中，针对每次遍历到的问题，分别将其作为待处理问题，并将所述待处理问题发送给各待测试大模型，得到各待测试大模型生成的响应信息，分别确定出各响应信息对应的评分，将各响应信息及对应的评分作为所述待处理问题对应的测试结果并进行展示。

一种大模型测试装置，包括：信息确定模块以及模型测试模块；

所述信息确定模块，用于确定本次测试的测试任务以及待测试大模型，所述测试任务的数量为M，M为正整数，每个测试任务中分别包括至少两个问题，所述待测试大模型的数量为N，N为大于一的正整数；

所述模型测试模块，用于针对各测试任务，分别执行以下处理：遍历所述测试任务中的问题，其中，针对每次遍历到的问题，分别将其作为待处理问题，并将所述待处理问题发送给各待测试大模型，得到各待测试大模型生成的响应信息，分别确定出各响应信息对应的评分，将各响应信息及对应的评分作为所述待处理问题对应的测试结果并进行展示。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行如以上所述的方法。

一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如以上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开所述大模型测试方法实施例的流程图；

图2为本公开所述针对任一测试任务的第一展示页面示意图；

图3为本公开所述针对任一测试任务的第二展示页面示意图；

图4为本公开所述历史记录的示意图；

图5为本公开所述大模型测试方法的整体实现过程示意图；

图6为本公开所述大模型测试装置实施例600的组成结构示意图；

图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本公开所述大模型测试方法实施例的流程图。如图1所示，包括以下具体实现方式。

在步骤101中，确定本次测试的测试任务以及待测试大模型，所述测试任务的数量为M，M为正整数，每个测试任务中分别包括至少两个问题(query)，所述待测试大模型的数量为N，N为大于一的正整数。

在步骤102中，针对各测试任务，分别执行以下处理：遍历该测试任务中的问题，其中，针对每次遍历到的问题，分别将其作为待处理问题，并将待处理问题发送给各待测试大模型，得到各待测试大模型生成的响应信息，分别确定出各响应信息对应的评分，将各响应信息及对应的评分作为待处理问题对应的测试结果并进行展示。

在实际应用中，需要对大模型的性能(推理能力)进行测试(即评估)，以便对存在问题的大模型进行优化改进等。

采用上述方法实施例所述方案，可根据测试任务中的问题，自动地同时实现对于多个待测试大模型的多轮测试，从而提升了测试效率，而且，通过对各待测试大模型生成的响应信息进行评分和展示，使得用户能够直观地了解到不同的待测试大模型在处理各问题时的性能优劣，提升了测试效果等。

优选地，可确定第一用户从预先配置的测试集模板中选中的任务，将选中的任务作为测试任务，测试集模板中包括的任务数量大于或等于M，并可确定第一用户从作为候选对象的大模型中选中的大模型，将选中的大模型作为待测试大模型，作为候选对象的大模型的数量大于或等于N。

比如，假设测试集模板中共包括5个任务，第一用户选中了其中的3个任务，那么这3个任务即为本次测试的测试任务。再比如，假设共存在4个作为候选对象的大模型，第一用户选中了其中的3个大模型，那么这3个大模型即为本次测试的待测试大模型，所述大模型可以是指文心一言(ERNIE-Bot)大模型以及ERNIE-Bot 4.0大模型等，其中，ERNIE指基于知识增强的语义表示(Enhanced Representation through kNowledge IntEgration)。测试集模板可为预先生成的，其中具体包括哪些内容可根据实际需要而定。

可以看出，采用上述处理方式，用户可根据实际需要，自行选择测试任务以及待测试大模型，非常的灵活方便。

若测试任务的数量大于1，那么通常会针对各测试任务，依次执行以下处理：遍历该测试任务中的问题，针对每次遍历到的问题，分别将其作为待处理问题，并将待处理问题发送给各待测试大模型，得到各待测试大模型生成的响应信息，分别确定出各响应信息对应的评分，将各响应信息及对应的评分作为待处理问题对应的测试结果并进行展示。

比如，处理完当前的测试任务后，可切换到下一个测试任务，直到所有的测试任务均处理完毕，各测试任务的具体执行顺序可根据实际需要而定，比如，可按照在测试集模板中的排列顺序由先到后的顺序，依次处理各测试任务。

优选地，在对任一测试任务进行处理时，针对当前遍历到的待处理问题，在分别确定出各响应信息对应的评分之后，还可按照评分由高到低的顺序对各待测试大模型进行排序，并可将排序结果加入到待处理问题对应的测试结果中进行展示。相应地，可使得用户更为直观地了解到不同的待测试大模型在处理同一问题时的性能优劣。

图2为本公开所述针对任一测试任务的第一展示页面示意图。图3为本公开所述针对任一测试任务的第二展示页面示意图。

如图2和图3所示，页面布局可采用左右结构，其中，左边区域为问题区域，可用于展示当前处理的测试任务(如测试任务1)中的各问题等，右边区域为模型区域，可用于展示各待测试大模型生成的响应信息、评分以及排序结果等，另外，问题区域的顶部工具栏可显示有各种图标，用于支持用户的各种操作，如复制所展示的问题等，每个大模型对应的子区域中的顶部工具栏中也可显示有各种图标，用于支持用户的各种操作，如复制对话、重置对话等。

初始阶段，可展示图2所示页面，此时，由于不存在具体的评分，因此排序结果中结果1、结果2和结果3可显示为相等(假设共存在3个待测试大模型，分别对应于结果1、结果2和结果3)。假设第一用户发出了触发指令，那么则可按照展示顺序由先到后的顺序，依次遍历问题区域中的各问题，以第一个问题“你现在扮演一名医生，负责对病人问诊，记录病人的症状、开始时间、持续时间以及其它症状等关键信息”为例，那么如图3所示，每个待测试大模型会分别生成对应的响应信息，如第一个待测试大模型(对应于结果1的待测试大模型)生成的响应信息为：好的，我将扮演医生跟你聊天，在接下来的聊天过程中，我将代入这个角色跟你聊天，如果你想退出角色扮演，可以直接让我退出，退出后我将停止扮演角色，请问你有什么想要聊的？相应地，针对每个待测试大模型生成的响应信息，可分别确定出对应的评分，即图3中所示的满意度，并可按照评分由高到低的顺序对各待测试大模型进行排序，将排序结果进行展示，之后，可针对下一个问题，即“我最近一直肚子痛”，重复上述处理。

其中，为将测试任务中的问题发送给各待测试大模型，需要预先建立与各待测试大模型之间的对话连接，相应地，可利用所述对话连接来与各待测试大模型进行交互。

另外，优选地，测试任务中还可包括：各问题分别对应的标注信息，所述标注信息用于标识是否需要对对应的问题进行评分，相应地，分别确定出各响应信息对应的评分的方式可包括：响应于根据待处理问题对应的标注信息确定出需要对待处理问题进行评分，分别确定出各响应信息对应的评分，另外，响应于根据待处理问题对应的标注信息确定出不需要对待处理问题进行评分，将各响应信息作为待处理问题对应的测试结果并进行展示。

即对于测试任务中的某个或某些问题，如果需要，可选择不对其进行评分，以简化处理流程，提升处理效率等。

另外，优选地，测试任务中还可包括：各问题分别对应的参考信息，所述参考信息为作为参考答案的响应信息，相应地，分别确定出各响应信息对应的评分的方式可包括：根据待处理问题对应的参考信息，分别确定出各响应信息对应的评分。

优选地，测试任务中还可包括：各问题分别对应的评分规则，相应地，分别确定出各响应信息对应的评分的方式可包括：根据待处理问题对应的参考信息以及评分规则，分别确定出各响应信息对应的评分。

也就是说，针对测试任务中的不同问题，可分别设置对应的参考信息，或者，分别设置对应的参考信息以及评分规则。若未设置评分规则，那么可按照默认的规则，根据待处理问题对应的参考信息，分别确定出各响应信息对应的评分，比如，可分别获取各响应信息与待处理问题对应的参考信息之间的语义相似度，并可按照相似度越高评分越高的原则，分别确定出各响应信息对应的评分。若设置了评分规则，那么则可根据待处理问题对应的参考信息以及评分规则，分别确定出各响应信息对应的评分。不同问题可对应不同的评分规则，相应地，可使得评分更具针对性，进行进一步提升了评分结果的准确性等。不同问题分别对应何种评分规则可根据实际需要而定。

基于上述介绍，本公开中所述的任务可为表一所示形式：

表一任务的组成

测试集模板中可包括多个上述形式的任务，并可将第一用户从中选中的任务作为测试任务，ID用于标识不同的任务，场景分类可以是指大模型的具体应用场景，如知识问答、数学计算、代码生成等，可针对不同的应用场景分别构建对应的任务，以便对大模型进行测试。每个任务中分别包括的问题数量可根据实际需要而定，而且，同一任务中的各问题之间可以存在关联关系，也可以不存在关联关系，所述关联关系可以是指语义上的关联关系等。另外，以上述问题1为例，后面的“......”可表示评分规则等其它信息。

在实际应用中，对于第一用户选中的任一测试任务，还可支持第一用户对其进行编辑操作，如增加新的问题等。

优选地，针对任一测试任务，在得到其中的任一待处理问题对应的测试结果后，还可将所述测试结果按照预定格式存储到本次测试的测试报告中。

比如，所述预定格式可为轻量级标记语言(markdown)格式，不同待测试大模型返回的响应信息可能采用不同的格式进行表示，将其统一转换为markdown格式进行存储，可便于后续进行查看和维护等。

优选地，响应于获取到第二用户对于测试报告的展示请求，可将测试报告进行展示，响应于获取到第二用户对测试报告中的任一测试结果执行的修改操作，可将修改后的测试结果作为被修改后的测试结果对应的审核结果，并保存到测试报告中，所述修改操作包括：对其中的至少一个响应信息的评分进行修改，或者，对其中的至少一个响应信息的评分进行修改以及对排序结果进行修改。

比如，假设共包括2个测试任务，且均已经处理完毕，那么测试报告中会记录有每个测试任务中的每个问题对应的以下信息(测试结果)：各待测试大模型生成的响应信息、各响应信息分别对应的评分以及各待测试大模型的排序结果等。后续，第二用户可对测试报告进行查看，并可对其中的任一测试结果执行修改操作，比如，针对某一问题，第二用户发现某一待测试大模型给出的响应信息并不理想，但给出的评分却为5分，那么可手动修改评分，如修改为3分，如果排序结果相应地发生了变化，那么还可通过拖动等操作调整排序结果。

第二用户可为专门的审核用户，而且，第二用户的数量可为一个或多个，也就是说，可通过多个第二用户进行多轮审核，或者，可通过多个第二用户分别对测试报告中的不同测试任务进行审核等。

优选地，响应于获取第三用户对于修改后的测试报告的展示请求，可将修改后的测试报告进行展示，响应于获取到第三用户对修改后的测试报告中存在对应的审核结果的任一测试结果执行了选中操作，可删除所选中的测试结果对应的审核结果，响应于获取到第三用户对修改后的测试报告中的任一审核结果执行了选中操作，可删除所选中的审核结果对应的测试结果。

第三用户可为专门的验收用户，第三用户可从修改后的测试报告中查看到测试时生成的测试结果以及第二用户修改后得到的审核结果，即可直观地看到两者的差异(diff)，进而可通过比较及自身判断等确定出保留(选中)测试报告还是审核结果。

通过上述审核和验收操作，可对测试报告中可能存在的错误进行修正，从而进一步提升了生成的测试报告的准确性等。

另外，优选地，还可针对第二用户执行的修改操作生成对应的日志信息，并可针对第三用户执行的选中操作生成对应的日志信息，以及可将生成的日志信息保存到历史记录中。

图4为本公开所述历史记录的示意图。如图4所示，其中可按照时间顺序记录有各次生成的日志信息，比如，日志信息1中可记录有：***(用户名)于2023年12月1日18:36:19修改了测试结果3(表示某一具体的测试结果)，将结果1的满意度由5分修改为了3分，并将排序结果调整为了结果1>结果3>结果2。通过历史记录，可方便后续进行日志分析和问题追溯等。

结合前述介绍，图5为本公开所述大模型测试方法的整体实现过程示意图。如图5所示，假设共包括两个测试任务，分别为测试任务1和测试任务2，那么测试过程中可依次对测试任务1和测试任务2进行测试处理，并可针对生成的测试报告，分别进行审核、验收以及历史记录生成等操作，具体实现可参照前述相关说明，不再赘述。

另外，需要说明的是，对于前述的方法实施例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图6为本公开所述大模型测试装置实施例600的组成结构示意图。如图6所示，包括：信息确定模块601以及模型测试模块602。

信息确定模块601，用于确定本次测试的测试任务以及待测试大模型，所述测试任务的数量为M，M为正整数，每个测试任务中分别包括至少两个问题，所述待测试大模型的数量为N，N为大于一的正整数。

模型测试模块602，用于针对各测试任务，分别执行以下处理：遍历该测试任务中的问题，其中，针对每次遍历到的问题，分别将其作为待处理问题，并将待处理问题发送给各待测试大模型，得到各待测试大模型生成的响应信息，分别确定出各响应信息对应的评分，将各响应信息及对应的评分作为待处理问题对应的测试结果并进行展示。

采用上述装置实施例所述方案，可根据测试任务中的问题，自动地同时实现对于多个待测试大模型的多轮测试，从而提升了测试效率，而且，通过对各待测试大模型生成的响应信息进行评分和展示，使得用户能够直观地了解到不同的待测试大模型在处理各问题时的性能优劣，提升了测试效果等。

优选地，信息确定模块601可确定第一用户从预先配置的测试集模板中选中的任务，将选中的任务作为测试任务，测试集模板中包括的任务数量大于或等于M，并可确定第一用户从作为候选对象的大模型中选中的大模型，将选中的大模型作为待测试大模型，作为候选对象的大模型的数量大于或等于N。

若测试任务的数量大于1，那么模型测试模块602通常会针对各测试任务，依次执行以下处理：遍历该测试任务中的问题，针对每次遍历到的问题，分别将其作为待处理问题，并将待处理问题发送给各待测试大模型，得到各待测试大模型生成的响应信息，分别确定出各响应信息对应的评分，将各响应信息及对应的评分作为待处理问题对应的测试结果并进行展示。

优选地，在对任一测试任务进行处理时，模型测试模块602针对当前遍历到的待处理问题，在分别确定出各响应信息对应的评分之后，还可按照评分由高到低的顺序对各待测试大模型进行排序，并可将排序结果加入到待处理问题对应的测试结果中进行展示。

优选地，测试任务中还可包括：各问题分别对应的标注信息，所述标注信息用于标识是否需要对对应的问题进行评分，相应地，模型测试模块602分别确定出各响应信息对应的评分的方式可包括：响应于根据待处理问题对应的标注信息确定出需要对待处理问题进行评分，分别确定出各响应信息对应的评分，另外，响应于根据待处理问题对应的标注信息确定出不需要对待处理问题进行评分，将各响应信息作为待处理问题对应的测试结果并进行展示。

另外，优选地，测试任务中还可包括：各问题分别对应的参考信息，所述参考信息为作为参考答案的响应信息，相应地，模型测试模块602分别确定出各响应信息对应的评分的方式可包括：根据待处理问题对应的参考信息，分别确定出各响应信息对应的评分。

优选地，测试任务中还可包括：各问题分别对应的评分规则，相应地，模型测试模块602分别确定出各响应信息对应的评分的方式可包括：根据待处理问题对应的参考信息以及评分规则，分别确定出各响应信息对应的评分。

优选地，针对任一测试任务，在得到其中的任一待处理问题对应的测试结果后，模型测试模块602还可将所述测试结果按照预定格式存储到本次测试的测试报告中。

优选地，模型测试模块602响应于获取到第二用户对于测试报告的展示请求，可将测试报告进行展示，响应于获取到第二用户对测试报告中的任一测试结果执行的修改操作，可将修改后的测试结果作为被修改后的测试结果对应的审核结果，并可保存到测试报告中，所述修改操作包括：对其中的至少一个响应信息的评分进行修改，或者，对其中的至少一个响应信息的评分进行修改以及对排序结果进行修改。

优选地，模型测试模块602响应于获取第三用户对于修改后的测试报告的展示请求，可将修改后的测试报告进行展示，响应于获取到第三用户对修改后的测试报告中存在对应的审核结果的任一测试结果执行了选中操作，可删除所选中的测试结果对应的审核结果，响应于获取到第三用户对修改后的测试报告中的任一审核结果执行了选中操作，可删除所选中的审核结果对应的测试结果。

另外，优选地，模型测试模块602还可针对第二用户执行的修改操作生成对应的日志信息，并可针对第三用户执行的选中操作生成对应的日志信息，以及可将生成的日志信息保存到历史记录中。

图6所示装置实施例的具体工作流程可参照前述方法实施例中的相关说明，不再赘述。

总之，采用本公开所述方案，可同时实现对于多个待测试大模型的多轮测试，从而提升了测试效率，而且，用户可方便地查看到测试用的问题、响应信息、响应信息对应的评分、根据评分确定出的各待测试大模型的排序结果、测试报告以及历史记录等，从而方便了用户对于本次测试相关的各种信息进行了解，另外，通过本公开所述的评分方式以及审核和验收等操作，提升了测试结果的准确性等。

本公开所述方案可应用于人工智能领域，特别涉及大模型、自然语言处理以及深度学习等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术，人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术，人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

本公开所述实施例中的问题等并不是针对某一特定用户的，并不能反映出某一特定用户的个人信息。本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如本公开所述的方法。例如，在一些实施例中，本公开所述的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行本公开所述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开所述的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种大模型测试方法，包括：

2.根据权利要求1所述的方法，其中，

所述确定本次测试的测试任务以及待测试大模型包括：

确定第一用户从预先配置的测试集模板中选中的任务，将所述选中的任务作为所述测试任务，所述测试集模板中包括的任务数量大于或等于M；

确定所述第一用户从作为候选对象的大模型中选中的大模型，将所述选中的大模型作为所述待测试大模型，所述作为候选对象的大模型的数量大于或等于N。

3.根据权利要求1或2所述的方法，还包括：

所述分别确定出各响应信息对应的评分之后，按照评分由高到低的顺序对各待测试大模型进行排序，并将排序结果加入到所述测试结果中进行展示。

4.根据权利要求1或2所述的方法，其中，

所述测试任务中还包括：各问题分别对应的标注信息，所述标注信息用于标识是否需要对对应的问题进行评分；

所述分别确定出各响应信息对应的评分包括：响应于根据所述待处理问题对应的标注信息确定出需要对所述待处理问题进行评分，分别确定出各响应信息对应的评分；

还包括：响应于根据所述待处理问题对应的标注信息确定出不需要对所述待处理问题进行评分，将各响应信息作为所述待处理问题对应的测试结果并进行展示。

5.根据权利要求1或2所述的方法，其中，

所述测试任务中还包括：各问题分别对应的参考信息，所述参考信息为作为参考答案的响应信息；

所述分别确定出各响应信息对应的评分包括：根据所述待处理问题对应的所述参考信息，分别确定出各响应信息对应的评分。

6.根据权利要求5所述的方法，其中，

所述测试任务中还包括：各问题分别对应的评分规则；

所述分别确定出各响应信息对应的评分包括：根据所述待处理问题对应的所述参考信息以及所述评分规则，分别确定出各响应信息对应的评分。

7.根据权利要求3所述的方法，还包括：

将所述测试结果按照预定格式存储到本次测试的测试报告中。

8.根据权利要求7所述的方法，还包括：

响应于获取到第二用户对于所述测试报告的展示请求，将所述测试报告进行展示；

响应于获取到所述第二用户对所述测试报告中的任一测试结果执行的修改操作，将修改后的测试结果作为被修改后的测试结果对应的审核结果，并保存到所述测试报告中，所述修改操作包括：对其中的至少一个响应信息的评分进行修改，或者，对其中的至少一个响应信息的评分进行修改以及对所述排序结果进行修改。

9.根据权利要求8所述的方法，还包括：

响应于获取第三用户对于修改后的测试报告的展示请求，将修改后的测试报告进行展示；

响应于获取到所述第三用户对修改后的测试报告中存在对应的审核结果的任一测试结果执行了选中操作，删除所选中的测试结果对应的审核结果，响应于获取到所述第三用户对修改后的测试报告中的任一审核结果执行了选中操作，删除所选中的审核结果对应的测试结果。

10.根据权利要求9所述的方法，还包括：

针对所述第二用户执行的修改操作生成对应的日志信息，并针对所述第三用户执行的选中操作生成对应的日志信息，将生成的日志信息保存到历史记录中。

11.一种大模型测试装置，包括：信息确定模块以及模型测试模块；

12.根据权利要求11所述的装置，其中，

所述信息确定模块确定第一用户从预先配置的测试集模板中选中的任务，将所述选中的任务作为所述测试任务，所述测试集模板中包括的任务数量大于或等于M，确定所述第一用户从作为候选对象的大模型中选中的大模型，将所述选中的大模型作为所述待测试大模型，所述作为候选对象的大模型的数量大于或等于N。

13.根据权利要求11或12所述的装置，其中，

所述模型测试模块进一步用于，所述分别确定出各响应信息对应的评分之后，按照评分由高到低的顺序对各待测试大模型进行排序，并将排序结果加入到所述测试结果中进行展示。

14.根据权利要求11或12所述的装置，其中，

所述模型测试模块进一步用于，响应于根据所述待处理问题对应的标注信息确定出需要对所述待处理问题进行评分，分别确定出各响应信息对应的评分，响应于根据所述待处理问题对应的标注信息确定出不需要对所述待处理问题进行评分，将各响应信息作为所述待处理问题对应的测试结果并进行展示。

15.根据权利要求11或12所述的装置，其中，

所述模型测试模块进一步用于，根据所述待处理问题对应的所述参考信息，分别确定出各响应信息对应的评分。

16.根据权利要求15所述的装置，其中，

所述测试任务中还包括：各问题分别对应的评分规则；

所述模型测试模块进一步用于，根据所述待处理问题对应的所述参考信息以及所述评分规则，分别确定出各响应信息对应的评分。

17.根据权利要求13所述的装置，其中，

所述模型测试模块进一步用于，将所述测试结果按照预定格式存储到本次测试的测试报告中。

18.根据权利要求17所述的装置，其中，

所述模型测试模块进一步用于，响应于获取到第二用户对于所述测试报告的展示请求，将所述测试报告进行展示，响应于获取到所述第二用户对所述测试报告中的任一测试结果执行的修改操作，将修改后的测试结果作为被修改后的测试结果对应的审核结果，并保存到所述测试报告中，所述修改操作包括：对其中的至少一个响应信息的评分进行修改，或者，对其中的至少一个响应信息的评分进行修改以及对所述排序结果进行修改。

19.根据权利要求18所述的装置，其中，

所述模型测试模块进一步用于，响应于获取第三用户对于修改后的测试报告的展示请求，将修改后的测试报告进行展示，响应于获取到所述第三用户对修改后的测试报告中存在对应的审核结果的任一测试结果执行了选中操作，删除所选中的测试结果对应的审核结果，响应于获取到所述第三用户对修改后的测试报告中的任一审核结果执行了选中操作，删除所选中的审核结果对应的测试结果。

20.根据权利要求19所述的装置，其中，

所述模型测试模块进一步用于，针对所述第二用户执行的修改操作生成对应的日志信息，并针对所述第三用户执行的选中操作生成对应的日志信息，将生成的日志信息保存到历史记录中。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-10中任一项所述的方法。