CN117112744B

CN117112744B - 大语言模型的评估方法、装置及电子设备

Info

Publication number: CN117112744B
Application number: CN202310967652.1A
Authority: CN
Inventors: 杨家铭; 郑叔亮; 李文珏
Original assignee: Beijing Lingxin Intelligent Technology Co ltd
Current assignee: Beijing Lingxin Intelligent Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2024-07-12
Anticipated expiration: 2043-08-02
Also published as: CN117112744A

Abstract

本申请提供了一种大语言模型的评估方法、装置及电子设备。该方法包括：获取待评估模型的多个对话数据组；各个对话数据组中包含输入信息以及对应的应答信息；各个对话数据组中应答信息由待评估模型基于输入信息生成；多个对话数据组中存在至少两组的输入信息相同而应答信息不同；以多个对话数据组作为评估模型的输入，通过评估模型对多个对话数据组执行矩阵预算采样处理，得到多个对话数据组的评估分数；对多个对话数据组的评估分数进行一致性分析；若一致性分析结果满足预先设置的可靠性条件，以多个对话数据组的评估分数，作为待评估模型的目标评估分数。该方法能够自动评估大语言模型的对话质量，提高模型评估准确性，提高模型评估效率。

Description

大语言模型的评估方法、装置及电子设备

技术领域

本申请实施例涉及计算机技术领域，更具体地涉及一种大语言模型的评估方法、装置及电子设备。

背景技术

大语言模型(Large Language Model，LLM)，实质上是一种生成式模型。通过大语言模型能够为基于输入的对话信息生成相应的对话响应，因此可广泛应用于咨询、分析、聊天等场景。

对于大语言模型而言，如何评估模型在人机对话中的表现，是一个基础问题之一。针对大语言模型的对话表现评估，主要评估的是大语言模型的对话交互能力。比如，基于大语言模型在不同情境中的反应和行为特征，对大语言模型的理解能力、生成能力、逻辑推理能力、情感理解能力等多个方面进行评价分析。

相关技术中，通过大语言模型输出的对话信息可以评估模型的对话交互能力。然而，由于大语言模型的输出具有不可预见性，即使输入相同信息，模型输出的对话信息也会因每次预测得到的概率不同而存在一定差异，使得基于单次对话信息得到的评估结果出现偏差，影响评估结果的准确性，增加模型评估的难度。为了消除上述随机性偏差，相关技术中，通常需要多个评估者人工评判，并交叉验证评判结果，以保证在消除随机性偏差的同时，不会引入因人工评判而带来的主观偏差。这种评估方式不仅成本较高，还难以保证评估效率，不利于模型的开发、优化。

因此，需要设计一种全新的解决方案，用以解决上述技术问题。

发明内容

本申请实施例提供了一种改进的一种大语言模型的评估方法、装置及电子设备，用以实现大语言模型的自动化评估，消除随机性偏差，降低模型评估难度，提升模型评估的准确性，提高模型评估效率。

本申请的实施例期望提供一种大语言模型的评估方法、装置及电子设备。

在本申请的第一方面中，提供了一种大语言模型的评估方法，包括：

获取待评估模型的多个对话数据组；其中，所述待评估模型为大语言模型；各个对话数据组中包含输入信息以及对应的应答信息；各个对话数据组中应答信息由所述待评估模型基于输入信息生成；所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同；

以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理，得到所述多个对话数据组的评估分数；其中，所述评估模型为参数容量大于所述待评估模型的大语言模型；所述评估分数表征各个对话数据组的对话质量；所述评估分数与各个对话数据组的对话质量成正比；

对所述多个对话数据组的评估分数进行一致性分析；

若一致性分析结果满足预先设置的可靠性条件，则以所述多个对话数据组的评估分数，作为所述待评估模型的目标评估分数。

在本申请的第二方面中，提供了一种大语言模型的评估装置，所述装置包括：

输入模块，用于获取待评估模型的多个对话数据组；其中，所述待评估模型为大语言模型；各个对话数据组中包含输入信息以及对应的应答信息；各个对话数据组中应答信息由所述待评估模型基于输入信息生成；所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同；

评分模块，用于以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理，得到所述多个对话数据组的评估分数；其中，所述评估模型为参数容量大于所述待评估模型的大语言模型；所述评估分数表征各个对话数据组的对话质量；所述评估分数与各个对话数据组的对话质量成正比；

分析模块，用于对所述多个对话数据组的评估分数进行一致性分析；

输出模块，用于若一致性分析结果满足预先设置的可靠性条件，则以所述多个对话数据组的评估分数，作为所述待评估模型的目标评估分数。

在本申请的第三方面中，提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行第四方面中所述的大语言模型的评估方法。

在本申请的第四方面中，提供了一种计算设备，被配置为：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第四方面中所述的大语言模型的评估方法。

本申请实施例提供的技术方案中，对于需要评估的大语言模型，即待评估模型，首先需要获取待评估模型的多个对话数据组。其中，各个对话数据组中包含输入信息以及对应的应答信息，各个对话数据组中应答信息由待评估模型基于输入信息生成。此处，多个对话数据组中存在至少两组的输入信息相同而应答信息不同，为消除模型的随机性偏差提供数据基础。进而，以多个对话数据组作为评估模型的输入，通过评估模型对多个对话数据组执行矩阵预算采样处理，得到多个对话数据组的评估分数。此处，评估模型为参数容量大于待评估模型的大语言模型，以保证评估模型具备足够的参数容量，能够更好地学习、表示数据的复杂性和多样性。此处，评估模型得到的评估分数用于表征各个对话数据组的对话质量，其中，评估分数与各个对话数据组的对话质量成正比。通过评估模型对对话数据组进行对话质量评估，能够降低人工评分带来的效率不佳的问题，提高模型评估效率。并且，借由多个对话数据组中相同输入对应的不同应答信息，以及评估模型的矩阵预算采样处理，能够减少待评估模型的不可预见性对评估结果带来的扰动，消除随机性偏差，提高评估结果的准确性。最终，还需对多个对话数据组的评估分数进行一致性分析。若一致性分析结果满足预先设置的可靠性条件，则以多个对话数据组的评估分数，作为待评估模型的目标评估分数。从而，通过一致性分析能够优化模型评估结果，进一步剔除模型不可预见性带来的随机性偏差以及人为引入的主观偏差，提高评估结果的准确性、可靠性。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施例，其中：

图1示意性地示出了根据本申请中大语言模型的评估方法的一种流程示意图；

图2示意性地示出了根据本申请中数据组获取方法的一种原理示意图；

图3示意性地示出了根据本申请中待评估模型训练方法的一种原理示意图；

图4示意性地示出了根据本申请中大语言模型的评估装置的一种结构示意图；

图5示意性地示出了根据本申请中计算设备的一种结构示意图；

图6示意性地示出了根据本申请中服务器的一种结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解，给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施例可以实现为一种系统、装置、设备、系统或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

相关技术中，通过大语言模型输出的对话信息可以评估模型的对话交互能力。然而，由于大语言模型的输出具有不可预见性，即使输入相同信息，模型输出的对话信息也会因每次预测得到的概率不同而存在一定差异，使得基于单次对话信息得到的评估结果出现偏差，影响评估结果的准确性，增加模型评估的难度。

为了消除上述随机性偏差，相关技术中，通常需要多个评估者人工评判，并交叉验证评判结果，以保证在消除随机性偏差的同时，不会引入因人工评判而带来的主观偏差。这种评估方式不仅成本较高，还难以保证评估效率，不利于模型的开发、优化。

综上，需要设计一种全新的解决方案，用以解决上述技术问题。

为了克服上述技术问题，根据本申请的实施例，提出了一种大语言模型的评估方法、装置及电子设备。

申请人发现，相较于相关技术，本申请实施例的技术方案，一方面，借由多个对话数据组中相同输入对应的不同应答信息，以及使用参数容量更大的评估模型对对话数据组执行的矩阵预算采样处理，减少待评估模型的不可预见性对评估结果带来的扰动，消除随机性偏差，提高评估结果的准确性。另一方面，通过一致性分析能够优化模型评估结果，进一步剔除模型不可预见性带来的随机性偏差以及人为引入的主观偏差，提高评估结果的准确性、可靠性。

具体来说，对于需要评估的大语言模型，即待评估模型，首先获取待评估模型的多个对话数据组。其中，各个对话数据组中包含输入信息以及对应的应答信息，各个对话数据组中应答信息由待评估模型基于输入信息生成。此处，多个对话数据组中存在至少两组的输入信息相同而应答信息不同，为消除模型的随机性偏差提供数据基础。进而，以多个对话数据组作为评估模型的输入，通过评估模型对多个对话数据组执行矩阵预算采样处理，得到多个对话数据组的评估分数。此处，评估模型为参数容量大于待评估模型的大语言模型，以保证评估模型具备足够的参数容量，能够更好地学习、表示数据的复杂性和多样性。此处，评估模型得到的评估分数用于表征各个对话数据组的对话质量，评估分数与各个对话数据组的对话质量成正比。通过评估模型对对话数据组进行对话质量评估，能够降低人工评分带来的效率不佳的问题，提高模型评估效率。并且，借由多个对话数据组中相同输入对应的不同应答信息，以及评估模型的矩阵预算采样处理，能够减少待评估模型的不可预见性对评估结果带来的扰动，消除随机性偏差，提高评估结果的准确性。最终，还需对多个对话数据组的评估分数进行一致性分析。若一致性分析结果满足预先设置的可靠性条件，则以多个对话数据组的评估分数，作为待评估模型的目标评估分数。从而，通过一致性分析能够优化模型评估结果，进一步剔除模型不可预见性带来的随机性偏差以及人为引入的主观偏差，提高评估结果的准确性、可靠性。

作为一种可选的实施方式，大语言模型的评估装置的数量是一个，也可以是多个。大语言模型的评估装置可以实现为部署在人机对话的测试系统中，也可以是以其他形式部署在各种心理测试或对话质量评估场景下使用到的应用程序中，本申请不作限制。例如，大语言模型的评估装置可以设置在各种设备(如终端设备、服务器)的处理器件中。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面结合具体应用场景，参考图1来描述根据本申请示例性实施例的用于大语言模型的评估的方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施例在此方面不受任何限制。相反，本申请的实施例可以应用于适用的任何场景。

下面结合以下实施例对大语言模型的评估方法的执行过程进行说明。图1为本发明实施例提供的一种大语言模型的评估方法的流程图。该方法应用于对话质量评估场景中的处理模块。如图1所示，该方法包括如下步骤：

步骤101，获取待评估模型的多个对话数据组。

本申请实施例中，待评估模型为大语言模型(Large Language Model，LLM)。大语言模型是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如对话、文本分类、问答等，是人工智能领域的一条重要途径。

大语言模型，实质上是一种生成式模型。通过大语言模型能够为基于输入的对话信息生成相应的对话响应，因此可广泛应用于咨询、分析、聊天等场景。

待评估模型可以设置在对话系统中。通过聊天机器人与用户进行交互。聊天机器人可以设置在对话系统的服务端或本地终端中，用以与用户进行实时对话。当然，聊天机器人也可以是即时聊天工具中的插件，网页，以及其他各种形式的应用程序。进一步可选地，对话系统可以是一个在线学习架构的系统，从而对话系统中的待评估模型均能实时地学习、动态更新，不断适应新增的数据以及各类对话场景，提高待评估模型的性能。

本申请实施中，各个对话数据组中包含输入信息以及对应的应答信息，各个对话数据组中应答信息由所述待评估模型基于输入信息生成。例如，用户的输入信息以及待评估模型回复的应答信息。

进一步地，多个对话数据组中存在至少两组的输入信息相同而应答信息不同，减少待评估模型的不可预见性对评估结果带来的扰动，为消除模型的随机性偏差提供数据基础。

作为一个可选实施例，参见图2，步骤101中，获取待评估模型的多个对话数据组，可以实现为：

步骤201，从测试数据集中拆分多个对话样本；

步骤202，以各个对话样本中的输入信息作为所述待评估模型的输入，通过所述待评估模型对各个输入信息进行预测，得到各个输入信息对应的多个应答信息；

步骤203，将各个输入信息与各自对应的应答信息组合为多个对话数据组；各个对话数据组中包含一个输入信息以及对应的至少一个应答信息。

具体来说，步骤201中，按照发生时间从所述测试数据集中提取多个回合的对话信息。进而，将首个回合中用户输入的对话信息作为第一输入信息，响应所述第一输入信息的对话信息作为第一回复信息，得到由所述第一输入信息以及所述第一回复信息组成的第一对话样本。接着，将非首个回合中用户输入的对话信息以及历史上文信息组合为第二输入信息，响应所述第二输入信息的对话信息作为第二回复信息，得到由所述第二输入信息以及所述第二回复信息组成的第二对话样本。此处，所述历史上文信息包括发生时间早于当前回合的所有对话信息。循环对所述第二回合执行的对话样本获取步骤，直到处理完所述多个回合的对话信息。

步骤202中，将多个对话样本中的输入信息(如上文的第一输入信息、第二输入信息等)输入到待评估模型中，并通过待评估模型对各个输入信息进行预测，得到各个输入信息对应的多个应答信息。步骤203中，将各个输入信息(如上文的第一输入信息、第二输入信息等)，与各个输入信息对应的应答信息组合为多个对话数据组。例如，第一输入信息与第一输入信息对应的第一应答信息。可选地，为了提升随机性偏差消除效果，对于同一个输入信息，可以生成多个应答信息。例如，对于同一个输入信息，可以生成100个应答信息，以期尽可能消除随机性偏差，避免不可预见性带来的干扰。

通过上述步骤201至203，能够组合出层次更为丰富的输入信息，比如以本回合中原始输入信息以及上一回合中的完整对话信息作为一组输入信息，使得对话数据组中的输入信息包含更多特征信息，从而待评估模型预测得到的应答信息也更为真实可信，符合上文逻辑，有利于进一步提高后续模型评估的准确性。

例如，测试数据集中包括如下对话数据：User1；Response1；User2；Response2；User3；Response3。其中，User1、User2、User3为用户的输入信息，Response1、Response2、Response3为上述三个输入信息对应的应答信息。基于上述步骤，可以将对话数据拆分为如下，即：

第一输入信息：User1；第一应答信息：Response1；

第二输入信息：User1，Response1，User2；第二应答信息：Response2；

第三输入信息：User1，Response1，User2，Response2，User3；第三应答信息：Response3。

将上述三个输入信息输入到待评估模型中，并通过待评估模型对上述三个输入信息进行预测，得到上述三个输入信息对应的多个应答信息。比如，每一输入信息可以生成对应的20个应答信息，进而获得60个对话数据组。

由于用户与聊天机器人之间的对话，包括多种聊天内容，比如打招呼、功能介绍、对基本信息的询问、问题检索、设计方案生成、文档编辑、视频剪辑，等等，故而，可以从对话内容中选取用于后续评估分析的对话数据。此处对话数据可以汇总成为测试数据集。

进一步地，实际应用中，可能需要对对话系统的某些性能属性进行评估，因而，需要设置筛选机制，用于保证对话数据中包含足够多的可用于后续评估分析的有效对话内容。

具体来说，可以设置预设测试条件，以便从用户与聊天机器人之间的对话中筛选出用于对话质量评估的对话数据。实际应用中，预设测试条件包括但不限于：用户的输入信息中包含预设关键词，用户与聊天机器人之间的对话应答次数超过预设应答次数。

作为一个可选实施例，假设预设测试条件为用户的输入信息中包含预设关键词。设置与待测性能属性相关的关键词，可以保证达到该条件的对话数据中包含相关内容，从而使筛选出的对话数据能够应用到对模型性能属性的评估分析。

步骤102，以多个对话数据组作为评估模型的输入，通过评估模型对多个对话数据组执行矩阵预算采样处理，得到多个对话数据组的评估分数。

其中，评估分数表征各个对话数据组的对话质量；评估分数与各个对话数据组的对话质量成正比。例如，评估分数可以是从0到10之间的任意整数，对话数据组的评估分数值越高，表示对话数据组的对话质量越高。

本申请实施例中，评估模型为参数容量大于待评估模型的大语言模型。例如，可以选择参数容量十倍于待评估模型的大语言模型作为评估模型。例如，选择参数容量一百倍于待评估模型的大语言模型作为评估模型。值得说明的是，评估模型可以是一个，也可以是多个，数量上并不限定。多个评估模型得到的评分结果可以全部应用一致性分析进行筛选评判，也可以采用十字交叉验证等其他方式进行一致性分析，进一步提升模型评估的准确性。

在一可选实施例中，将多个对话数据组输入评估模型中。进而，采用评估模型对各个对话数据组进行矩阵运算推理，得到各个对话数据组在多个评分维度下的评估分数。作为一个可选实施例，评估模型包括嵌入层、位置编码层、编码器层、多头自注意力层、前馈神经网络层、归一化层、输出层。具体来说，嵌入层，用于将输入到评估模型的令牌序列中的每个令牌标记(token)，转换为各个单词嵌入的第一评估特征向量，从而通过这些词嵌入来捕获每个标记的语义和语法信息。令牌序列中的每个token用于表示一个单词或者一个子词单元。

位置编码层，用于将位置编码添加到各个单词嵌入的第一评估特征向量中。位置编码能够区分令牌序列中各个标记的顺序和相对位置，简单来说，就是采用位置编码替代第一评估特征向量序列中第一评估特征向量的顺序信息。

编码器层，可以由12个相同的transformer编码器层组成。这一编码器可以由多头自注意力机制和前馈神经网络组成，用于描述输入和输出之间的全局依赖关系。举例来说，将具有位置编码的第一评估特征向量输入到transformer编码器中，得到具有更高层语义信息的第二评估特征向量。

其中，多头自注意力层中采用多头自注意力机制(Multi-headed Self-attention)，允许序列中的每个单词关注其他单词，捕捉单词之间的依赖性和重要性。多头注意机制跨多个注意头并行执行此操作，使模型能够捕获不同类型的关系。此处，应用多头自注意力机制的目的是，将输入数据通过非线性变换，映射到多个不同的子空间中，例如映射到8个子空间中。进而，通过这些子空间决策出在新空间中的最终位置点，得到最终输出的位置点数据。从而，通过多个子空间的应用，从输入数据中捕捉到更加丰富的特征信息，挖掘出输入数据中更深层的隐含特征信息，达到更好效果。前馈神经网络层，用于对自注意力子层中的输出进行非线性变换，使评估模型具有更强的表达能力。

归一化层，用于在编码器的每一个子层之后，对编码器的输出进行层归一化，便于评估模型的稳定训练。

输出层，用于将编码器层的输出被投影到一个词汇表大小的空间中。进而，经过softmax激活函数层激活，生成输出结果在词汇表上的概率分布。输出层允许评估模型根据上下文生成序列中的下一个单词。

通过上述几个层可以构成评估模型架构，使用该评估模型可以从多个评分维度获取到对话数据组的评估分数。进一步地，为了增加评估模型的准确性，提升评估性能，可以在评估模型的网络参数中融入各个评分维度对应的拼接算子，用以将评估特征向量与各个评分维度对应领域的特征信息融合起来，形成更具深度的高层语义特征，用于后续处理流程，从而提高输出结果的准确性。

实际应用中，多个评分维度包括以下至少一个：上下文相关性、语言流畅度、信息量、合理性、实用性、无害性。具体来说，相关性用于评估应答信息与用户上文(即输入信息)之间的相关程度。流畅性用于评估应答信息是否自然、流畅，符合语言表达规范。信息量用于评估应答信息所包含的内容是否充足，内容调理是否清晰。合理性用于评估应答信息是否合理，即是否符合常识逻辑。有用性用于评估应答信息对用户的问题或需求是否有用。无害性用于评估应答信息是否存在任何潜在的有害或冒犯性内容。

除了上述多个评分维度的评价方式之外，也可以采用评估模型对对话数据组整体进行评价，从而，实现对待评估模型中对话质量的整体评估。当然，整体评估分数也可以是由各个对话数据组在多个评分维度下的评估分数经过预设处理方式得到的，例如均值计算、加权求和计算、随机森林，等等。

本申请实施例中，还提供了一种评估模型的训练方法，参见图3，具体流程如下：

步骤301，确定用于构建评估模型的基座模型；

步骤302，获取用于训练评估模型的训练数据集；

步骤303，采用训练数据集对基座模型进行微调，得到评估模型。

其中，基座模型的参数容量与待评估模型的参数容量之间呈设定倍数。例如，可以选择参数容量十倍于待评估模型的大语言模型作为基座模型。这样，可以确保基座模型具备足够的参数容量，从而更好地学习和表示训练数据中特征信息的复杂性和多样性。

本申请实施例中，训练数据集包括多个特征数据。多个特征数据标注有以下至少一个评分维度的评分标签：上下文相关性、语言流畅度、信息量、合理性、实用性、无害性。例如，通过采用专业标注人员进行数据收集和标注，可以提高数据的质量以及准确性，从而增强评价模型的训练效果。这些标注数据包含对话评分的各个评估维度，数量可以设置在至少1000个。

通过训练数据集对基座模型进行微调得到的评估模型，能够有效融合训练数据集中的特征参数，更准确地捕捉对话数据组中的关键特征信息，提高评估模型的准确性和鲁棒性。

步骤103，对多个对话数据组的评估分数进行一致性分析。

步骤104，若一致性分析结果满足预先设置的可靠性条件，则以多个对话数据组的评估分数，作为待评估模型的目标评估分数。

这样，通过一致性分析能够优化模型评估结果，进一步剔除模型不可预见性带来的随机性偏差以及人为引入的主观偏差，提高评估结果的准确性、可靠性。

步骤103中，对多个对话数据组的评估分数进行一致性分析，可以实现为：

统计多个对话数据组的评估分数之间的一致性指标参数，以得到多个对话数据组的评估分数的一致性评分。

作为一种可选实施例，统计多个对话数据组的评估分数之间的一致性指标参数，以得到多个对话数据组的评估分数的一致性评分，可以实现为：

对于各个对话数据组的评估分数，计算评估模型对各个对话数据组所给出的相同的评估分数在所有评估分数中所占的百分比，作为各个对话数据组的评估分数的一致性评分。

举例来说，Fleiss Kappa系数适用于三个以上对象的一致性分析，因而，本申请中可选地，可以采用Fleiss Kappa系数进行一致性计算。各个对话数据组的评估分数的一致性评分P_i的计算公式如下：

其中，n为对话数据组的总数，i表示第i个对话数据组，j为第j次被标注的评估分数，k为被标记过的评估分数总数。

进一步可选地，还计算多种综合性指标，用以进一步衡量评估分数的一致性程度。作为一个可选实施例，计算多个对话数据组的评估分数之间的联合边缘分布评分；基于联合边缘分布评分确定多个对话数据组的评估分数之间的随机一致性评分；基于一致性评分的均值，计算多个对话数据组的评估分数之间的标注一致性评分。进而，判断随机一致性评分和/或标注一致性评分是否达到设定阈值，以验证多个对话数据组的评估分数是否可靠。若多个对话数据组的评估分数之间的随机一致性评分和/或标注一致性评分达到设定阈值，则认为当前获取到的评估分数是可靠的；反之，则认为当前获取的评估分数不可靠。

无论采用上述何种一致性计算方式，其目的均是判断多个对话数据组的评估分数之间的相似程度。进而，获取到一致性分析结果之后，判断一致性分析结果满足预先设置的可靠性条件的步骤，还可以实现为：

判断多个对话数据组的评估分数之间的一致性评分是否达到设定阈值；若一致性评分达到设定阈值，则确定一致性分析结果满足可靠性条件。

例如，假设设定阈值为0.6。那么，可以判断多个对话数据组的评估分数之间的一致性评分是否大于0.6。若多个对话数据组的评估分数之间的一致性评分大于0.6，则说明多个对话数据组的评估分数较为相似，可以剔除掉因对话数据组中应答信息引入的随机性偏差，此情况下，确定该一致性分析结果较为可信，满足可靠性条件。

作为另一种可选实施例，判断多个对话数据组的评估分数之间的一致性评分是否达到设定阈值，可以实现为：

计算各个对话数据组的评估分数的一致性评分的均值；判断一致性评分的均值是否达到设定阈值。

例如，假设设定阈值为0.7。那么，可以依次判断各个对话数据组的评估分数的一致性评分的均值是否大于0.7。若各个对话数据组的评估分数的一致性评分的均值大于0.7，则也可说明多个对话数据组的评估分数较为相似，从而剔除掉因对话数据组中应答信息引入的随机性偏差，此情况下，确定该一致性分析结果较为可信，满足可靠性条件。

与前述实施例相比，均值处理可以进一步消除评估分数中的随机性偏差，进一步提高一致性分析结果的可靠性。

作为再一种可选实施例，可以对达到设定阈值的一致性分析结果进行随机采用，进一步验证一致性分析结果的可靠性。例如，在1000组一致性分析结果中随机采样50组进行抽检，从而，判断这一批一致性分析结果的可靠性，确保模型评估结果的准确性。

最终，步骤104中，以多个对话数据组的评估分数，作为待评估模型的目标评估分数，可以实现为：以各个对话数据组在多个评分维度下的评估分数的均值，作为待评估模型的目标评估分数。

与前文类似，实际应用中，多个评分维度包括以下至少一个：上下文相关性、语言流畅度、信息量、合理性、实用性、无害性。

本申请实施例中，一方面，借由多个对话数据组中相同输入对应的不同应答信息，以及使用参数容量更大的评估模型对对话数据组执行的矩阵预算采样处理，减少待评估模型的不可预见性对评估结果带来的扰动，消除随机性偏差，提高评估结果的准确性。另一方面，通过一致性分析能够优化模型评估结果，进一步剔除模型不可预见性带来的随机性偏差以及人为引入的主观偏差，提高评估结果的准确性、可靠性。

在介绍了本申请实施例的方法之后，接下来，参考图4对本申请实施例的大语言模型的评估装置进行介绍。

本申请实施例中的大语言模型的评估装置40能够实现对应于上述图1所对应的实施例中大语言模型的评估方法的步骤。大语言模型的评估装置40实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述大语言模型的评估装置40应用于服务端设备或终端设备。所述大语言模型的评估装置40可包括输入模块401、评分模块402、分析模块403、输出模块404，所述输入模块401、评分模块402、分析模块403、输出模块404的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。

一些实施方式中，输入模块401，用于获取待评估模型的多个对话数据组；其中，所述待评估模型为大语言模型；各个对话数据组中包含输入信息以及对应的应答信息；各个对话数据组中应答信息由所述待评估模型基于输入信息生成；所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同；

评分模块402，用于以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理，得到所述多个对话数据组的评估分数；其中，所述评估模型为参数容量大于所述待评估模型的大语言模型；所述评估分数表征各个对话数据组的对话质量；所述评估分数与各个对话数据组的对话质量成正比；

分析模块403，用于对所述多个对话数据组的评估分数进行一致性分析；

输出模块404，用于若一致性分析结果满足预先设置的可靠性条件，则以所述多个对话数据组的评估分数，作为所述待评估模型的目标评估分数。

一些实施方式中，输入模块401获取待评估模型的多个对话数据组时，被配置为：

从测试数据集中拆分多个对话样本；

以各个对话样本中的输入信息作为所述待评估模型的输入，通过所述待评估模型对各个输入信息进行预测，得到各个输入信息对应的多个应答信息；

将各个输入信息与各自对应的应答信息组合为多个对话数据组；各个对话数据组中包含一个输入信息以及对应的至少一个应答信息。

一些实施方式中，输入模块401从测试数据集中拆分多个对话样本时，被配置为：

按照发生时间从所述测试数据集中提取多个回合的对话信息；

将首个回合中用户输入的对话信息作为第一输入信息，响应所述第一输入信息的对话信息作为第一回复信息，得到由所述第一输入信息以及所述第一回复信息组成的第一对话样本；

将非首个回合中用户输入的对话信息以及历史上文信息组合为第二输入信息，响应所述第二输入信息的对话信息作为第二回复信息，得到由所述第二输入信息以及所述第二回复信息组成的第二对话样本；所述历史上文信息包括发生时间早于当前回合的所有对话信息。

一些实施方式中，评分模块402以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理，得到所述多个对话数据组的评估分数时，被配置为：

将所述多个对话数据组输入所述评估模型中；

采用所述评估模型对各个对话数据组进行矩阵运算推理，得到各个对话数据组在多个评分维度下的评估分数；

所述输出模块404以所述多个对话数据组的评估分数，作为所述待评估模型的目标评估分数时，被配置为：

以各个对话数据组在多个评分维度下的评估分数的均值，作为所述待评估模型的目标评估分数；

其中，多个评分维度包括以下至少一个：上下文相关性、语言流畅度、信息量、合理性、实用性、无害性。

一些实施方式中，评分模块402以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理，得到所述多个对话数据组的评估分数之前，还被配置为：

确定用于构建所述评估模型的基座模型；所述基座模型的参数容量与所述待评估模型的参数容量之间呈设定倍数；

获取用于训练所述评估模型的训练数据集；所述训练数据集包括多个特征数据；所述多个特征数据标注有以下至少一个评分维度的评分标签：上下文相关性、语言流畅度、信息量、合理性、实用性、无害性；

采用所述训练数据集对所述基座模型进行微调，得到所述评估模型。

一些实施方式中，分析模块403对所述多个对话数据组的评估分数进行一致性分析时，被配置为：

统计所述多个对话数据组的评估分数之间的一致性指标参数，以得到所述多个对话数据组的评估分数的一致性评分；

分析模块403判断一致性分析结果满足预先设置的可靠性条件时，还被配置为：

判断所述多个对话数据组的评估分数之间的一致性评分是否达到设定阈值；

若所述一致性评分达到设定阈值，则确定所述一致性分析结果满足所述可靠性条件。

一些实施方式中，分析模块403统计所述多个对话数据组的评估分数之间的一致性指标参数，以得到所述多个对话数据组的评估分数的一致性评分时，被配置为：

对于各个对话数据组的评估分数，计算所述评估模型对各个对话数据组所给出的相同的评估分数在所有评估分数中所占的百分比，作为各个对话数据组的评估分数的一致性评分；

分析模块403判断所述多个对话数据组的评估分数之间的一致性评分是否达到设定阈值时，被配置为：

计算所述各个对话数据组的评估分数的一致性评分的均值；

判断所述一致性评分的均值是否达到所述设定阈值。

一些实施方式中，分析模块403还被配置为：

计算所述多个对话数据组的评估分数之间的联合边缘分布评分；

基于所述联合边缘分布评分确定所述多个对话数据组的评估分数之间的随机一致性评分；

基于所述一致性评分的均值，计算所述多个对话数据组的评估分数之间的标注一致性评分；

所述分析模块403判断所述多个对话数据组的评估分数之间的一致性评分是否达到设定阈值，还被配置为：

判断所述随机一致性评分和/或所述标注一致性评分是否达到所述设定阈值。

在介绍了本申请实施例的方法、装置之后，接下来，对本申请实施例的计算机可读存储介质进行说明，计算机可读存储介质可为光盘，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取待评估模型的多个对话数据组；其中，所述待评估模型为大语言模型；各个对话数据组中包含输入信息以及对应的应答信息；各个对话数据组中应答信息由所述待评估模型基于输入信息生成；所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同；以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理，得到所述多个对话数据组的评估分数；其中，所述评估模型为参数容量大于所述待评估模型的大语言模型；所述评估分数表征各个对话数据组的对话质量；所述评估分数与各个对话数据组的对话质量成正比；对所述多个对话数据组的评估分数进行一致性分析；若一致性分析结果满足预先设置的可靠性条件，则以所述多个对话数据组的评估分数，作为所述待评估模型的目标评估分数。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

上面从模块化功能实体的角度对本申请实施例中的大语言模型的评估装置40进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行大语言模型的评估方法的服务器、终端设备进行描述。

需要说明的是，在本申请大语言模型的评估装置实施例的图4所示的输入模块401和输出模块404对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等，评分模块402和分析模块403对应的实体设备可以为处理器。图4所示的大语言模型的评估装置40可以具有如图5所示的结构，当图4所示的大语言模型的评估装置40具有如图5所示的结构时，图5中的处理器和收发器能够实现前述对应该装置的装置实施例提供的各个模块中相同或相似的功能，图5中的存储器存储处理器执行上述大语言模型的评估方法时需要调用的计算机程序。

图6是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器1100的结构。例如，例如上述实施例中由图6所示的大语言模型的评估装置80所执行的步骤可以基于该图6所示的服务器结构。例如，所述中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158接收获取待评估模型的多个对话数据组；其中，所述待评估模型为大语言模型；各个对话数据组中包含输入信息以及对应的应答信息；各个对话数据组中应答信息由所述待评估模型基于输入信息生成；所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同；

对所述多个对话数据组的评估分数进行一致性分析；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种大语言模型的评估方法，其特征在于，包括：

以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵运算推理，得到所述多个对话数据组的评估分数；其中，所述评估模型为参数容量大于所述待评估模型的大语言模型；所述评估分数表征各个对话数据组的对话质量；所述评估分数与各个对话数据组的对话质量成正比；所述评估模型是采用训练数据集对基座模型进行微调；所述训练数据集包括多个特征数据；所述多个特征数据标注有以下至少一个评分维度的评分标签：上下文相关性、语言流畅度、信息量、合理性、实用性、无害性；

对所述多个对话数据组的评估分数进行一致性分析；

若一致性分析结果满足预先设置的可靠性条件，则以所述多个对话数据组的评估分数，作为所述待评估模型的目标评估分数；

其中，所述获取待评估模型的多个对话数据组，包括：

从测试数据集中拆分多个对话样本；

将各个输入信息与各自对应的应答信息组合为多个对话数据组；各个对话数据组中包含一个输入信息以及对应的至少一个应答信息；

其中，所述从测试数据集中拆分多个对话样本，包括：

将非首个回合中用户输入的对话信息以及历史上文信息组合为第二输入信息，响应所述第二输入信息的对话信息作为第二回复信息，得到由所述第二输入信息以及所述第二回复信息组成的第二对话样本；所述历史上文信息包括发生时间早于当前回合的所有对话信息；

其中，所述对所述多个对话数据组的评估分数进行一致性分析，包括：

对于各个对话数据组的评估分数，计算所述评估模型对各个对话数据组所给出的相同的评估分数在所有评估分数中所占的百分比，作为各个对话数据组的评估分数的一致性评分。

2.如权利要求1所述的方法，其特征在于，所述以所述多个对话数据组的评估分数，作为所述待评估模型的目标评估分数，包括：

3.如权利要求2所述的方法，其特征在于，所述以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理，得到所述多个对话数据组的评估分数之前，还包括：

获取用于训练所述评估模型的训练数据集；

4.如权利要求1所述的方法，其特征在于，判断一致性分析结果满足预先设置的可靠性条件的步骤，还包括：

5.如权利要求4所述的方法，其特征在于，所述判断所述多个对话数据组的评估分数之间的一致性评分是否达到设定阈值，包括：

计算所述各个对话数据组的评估分数的一致性评分的均值；

判断所述一致性评分的均值是否达到所述设定阈值。

6.如权利要求5所述的方法，其特征在于，还包括：

所述判断所述多个对话数据组的评估分数之间的一致性评分是否达到设定阈值，还包括：

7.一种大语言模型的评估装置，其特征在于，所述装置包括：

其中，所述输入模块获取待评估模型的多个对话数据组时，被配置为：从测试数据集中拆分多个对话样本；以各个对话样本中的输入信息作为所述待评估模型的输入，通过所述待评估模型对各个输入信息进行预测，得到各个输入信息对应的多个应答信息；将各个输入信息与各自对应的应答信息组合为多个对话数据组；各个对话数据组中包含一个输入信息以及对应的至少一个应答信息；

其中，所述输入模块从测试数据集中拆分多个对话样本时，被配置为：按照发生时间从所述测试数据集中提取多个回合的对话信息；将首个回合中用户输入的对话信息作为第一输入信息，响应所述第一输入信息的对话信息作为第一回复信息，得到由所述第一输入信息以及所述第一回复信息组成的第一对话样本；将非首个回合中用户输入的对话信息以及历史上文信息组合为第二输入信息，响应所述第二输入信息的对话信息作为第二回复信息，得到由所述第二输入信息以及所述第二回复信息组成的第二对话样本；所述历史上文信息包括发生时间早于当前回合的所有对话信息；

评分模块，用于以所述多个对话数据组作为评估模型的输入，通过所述评估模型对所述多个对话数据组执行矩阵运算推理，得到所述多个对话数据组的评估分数；其中，所述评估模型为参数容量大于所述待评估模型的大语言模型；所述评估分数表征各个对话数据组的对话质量；所述评估分数与各个对话数据组的对话质量成正比；所述评估模型是采用训练数据集对基座模型进行微调；所述训练数据集包括多个特征数据；所述多个特征数据标注有以下至少一个评分维度的评分标签：上下文相关性、语言流畅度、信息量、合理性、实用性、无害性；

其中，所述分析模块对所述多个对话数据组的评估分数进行一致性分析时，被配置为：对于各个对话数据组的评估分数，计算所述评估模型对各个对话数据组所给出的相同的评估分数在所有评估分数中所占的百分比，作为各个对话数据组的评估分数的一致性评分；

8.一种电子设备，其特征在于，所述电子设备包括存储器和一个或多个处理器；其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1至6中任一项所述的大语言模型的评估方法。