CN117634468B

CN117634468B - 一种基于大语言模型的通用文本质量评价方法

Info

Publication number: CN117634468B
Application number: CN202311618670.5A
Authority: CN
Inventors: 文博思; 冯卓尔; 刘潇; 柯沛
Original assignee: Beijing Zhipu Huazhang Technology Co ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-05-28
Anticipated expiration: 2043-11-30
Also published as: CN117634468A

Abstract

本发明属于大模型技术领域，涉及一种基于大语言模型的通用文本质量评价方法，其包括以下步骤：1)、采用大语言模型构建通用文本质量评价模型；2)、构建训练数据：所述训练数据的输入为提示词和评价输入、输出为评价结果，所述提示词包括指令、评分规则和输出格式，且构建训练数据包括构建含参考答案的训练数据和构建不含参考答案的训练数据；3)、用所述训练数据训练所述通用文本质量评价模型；4)、用训练后的文本质量评价模型对通用文本进行质量评价。其能够同时获得含参考答案和不含参考答案的高质量训练数据，提升了不含参考答案设定下的数据质量和性能。

Description

一种基于大语言模型的通用文本质量评价方法

技术领域

本发明属于大模型技术领域，涉及一种通用文本质量评价方法，尤其是一种基于大语言模型的通用文本质量评价方法。

背景技术

大型语言模型(Large Language Models,LLMs)，如ChatGPT、GPT-4和GLM近期发展迅速，其在各类任务上的生成性能已逐渐接近人类水平，因此如何准确评价大模型的生成性能成为了当前自然语言处理领域的研究热点。高质量的文本质量评价方法可以同时提供评价分数和评价理由，这些评价结果可作为反馈信号持续优化大模型的生成性能。由于传统评价指标如BLEU(BiLingual Evaluation Understudy)、ROUGE(Recall-OrientedUnderstudy for Gisting Evaluation)等大多关注生成文本和参考文本的n-gram重合度，这会很大程度上忽略生成文本中存在的内容问题，如内容一致性、相关性等。

近期研究工作大多基于预训练模型设计评价方法，其中一系列工作利用预训练语言模型的语言表示能力来计算生成文本和参考文本在语义空间的相似度分数；另一系列工作则利用预训练模型的生成能力，通过生成概率或生成结果来得到评价分数。

近期由于ChatGPT、GPT-4等大模型的快速发展，也有研究者将评价任务转化为指令遵循任务，然后利用这些大模型直接生成评价结果。这些方法在设计提示方案时，直接利用ChatGPT或GPT-4来根据输入信息和生成文本获得评价结果，然后基于该数据来训练评价模型。这种做法会导致评价数据的质量较差，尤其是在难度更高的不含参考文本的设定下，直接用ChatGPT或GPT-4来生成评价结果会导致其和人工评价的差距较大。

因此，针对上述现有技术中存在的缺陷，需要研发一种新型的通用文本质量评价方法。

发明内容

为了克服现有技术的缺陷，本发明提出一种基于大语言模型的通用文本质量评价方法，其通过设计两轮对话的提示分别得到含参考答案和不含参考答案的自动评价结果，使得不含参考答案的评价结果可参考第一轮对话中含参考答案的评价结果来进行生成，从而提升了评价数据的质量，最终改善了通用文本质量评价模型的性能。

为了实现上述目的，本发明提供如下技术方案：

一种基于大语言模型的通用文本质量评价方法，其特征在于，包括以下步骤：

1)、采用大语言模型构建通用文本质量评价模型；

2)、构建训练数据：所述训练数据的输入为提示词和评价输入、输出为评价结果，所述提示词包括指令、评分规则和输出格式，且构建训练数据包括构建含参考答案的训练数据和构建不含参考答案的训练数据；

3)、用所述训练数据训练所述通用文本质量评价模型；

4)、用训练后的文本质量评价模型对通用文本进行质量评价。

优选地，所述步骤2)中的构建含参考答案的训练数据具体包括：

2.1)、确定所述含参考答案的训练数据的第一提示词，也就是，确定所述第一提示词的第一指令、第一评分规则和第一输出格式；

2.2)、获取所述含参考答案的训练数据的第一评价输入；

2.3)、获取所述含参考答案的训练数据的第一评价结果。

优选地，所述步骤2)中的构建不含参考答案的训练数据具体包括：

2.4)、确定用户提示词，使所述用户提示词为去除掉所述第一提示词、所述第一评价输入和第一评价结果中所有与参考答案直接相关的叙述；

2.5)、通过所述用户提示词，基于所述第一提示词、所述第一评价输入和所述第一评价结果生成所述不含参考答案的训练数据的第二提示词、第二评价输入和第二评价结果。

优选地，所述步骤2.2)中的获取所述含参考答案的训练数据的第一评价输入具体包括：

2.2.1)、获取增强用户询问指令：收集公开网络平台上的多个初始用户询问指令并对其进行处理，以获得多个增强用户询问指令；

2.2.2)、收集生成回复：将所述多个增强用户询问指令都输入到多个中文开源大语言模型与API访问模型中，以为每个所述增强用户询问指令分别生成多个生成回复；

2.2.3)、收集参考答案：将所述多个增强用户询问指令分别输入到GPT-4模型中，由所述GPT-4模型生成初始参考答案，然后由标注人员针对所述初始参考答案中的问题进行纠正，以获得最终的参考答案；

2.2.4)、基于所述增强用户询问指令、生成回复和参考答案组成所述含参考答案的训练数据的第一评价输入。

优选地，所述评价结果包括评价理由和评价分数。

优选地，所述步骤2.3)中的获取所述含参考答案的训练数据的第一评价结果具体为：将所述第一提示词和所述第一评价输入都输入到GPT-4模型中，由所述GPT-4模型基于所述第一评分规则对所述生成回复相对于所述参考答案的质量好坏进行打分和生成对应的评价理由，从而获得所述第一评价结果的评价理由和评价分数。

优选地，所述步骤2.2.1)中的获取增强用户询问指令具体包括：

2.2.1.1)、收集公开网络平台上的多个初始用户询问指令并对其进行分类；

2.2.1.2)、基于所述多个初始用户询问指令，用ChatGPT生成更多个与初始用户询问指令类别分布相近、指令内容不同的用户询问新指令；

2.2.1.3)、基于文本重叠度评价指标，对所述用户询问新指令进行筛选；

2.2.1.4)、对筛选后的所述用户询问新指令进行难度筛选，使不同难度等级内的所述用户询问新指令的数据占比均等；

2.2.1.5)、均衡难度筛选后的所述用户询问新指令的类别分布，使各个分类中的所述用户询问新指令的数据占比均等，从而获得所述多个增强用户询问指令。

优选地，所述步骤2.2.1.1)中，进行分类时共分成八类，分别为：逻辑推理、综合问答、专业能力、基本能力、数学计算、角色扮演、文本写作和中文理解。

优选地，所述步骤4)中，用训练后的文本质量评价模型对通用文本进行质量评价时，采用贪心搜索和自洽性两种解码策略。

优选地，所述步骤1)中，采用大语言模型构建通用文本质量评价模型时，所述大语言模型是参数量分别为60亿、120亿或660亿的ChatGLM2模型。

与现有技术相比，本发明的基于大语言模型的通用文本质量评价方法具有如下有益技术效果中的一者或多者：

1、本发明通过设计提示来自动构建面向通用文本质量评价的训练数据，从而训练通用文本质量评价模型，以针对大模型生成的通用文本给出评价分数和评价理由。

2、本发明在构建训练数据时，通过设计第一轮提示以得到含参考答案的自动评价结果，然后设计第二轮提示以改写上述评价结果得到不含参考答案的评价结果，并用其训练了通用文本质量评价模型，支持在含参考答案和不含参考答案两种设定下对生成文本质量进行评价。

3、通过定量实验表明，本发明训练的通用文本质量评价模型在含参考答案的设定下能达到和GPT-4相当的水平，在不含参考答案的设定下能在3个任务上超过GPT-4的评价性能。

附图说明

图1是本发明的基于大语言模型的通用文本质量评价方法的流程示意图。

图2是本发明的示例性的构建训练数据并用构建的训练数据训练通用文本质量评价模型的过程示意图。

图3示出了本发明的示例性的不同评价模型生成评分与人类评分的相关系数示意图。

图4示出了本发明的示例性的不同评价模型与GPT-4模型的分类型评价结果的示意图。

具体实施方式

在详细说明本发明的任何实施方式之前，应理解的是，本发明在其应用中并不限于以下描述阐述或以下附图图示的部件的构造和布置细节。本发明能够具有其他实施方式并且能够以各种方式实践或进行。另外，应理解的是，这里使用的措辞和术语出于描述的目的并且不应该被认为是限制性的。本文中使用“包括”或“具有”及其变型意在涵盖下文中陈列的条目及其等同物以及附加条目。

并且，在本发明的揭露中，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

本发明提出了一种基于大语言模型的通用文本质量评价方法，其通过设计提示来自动构建面向质量评价的训练数据，从而训练评价模型以针对大模型生成的文本给出评价分数和评价理由。

图1示出了本发明的基于大语言模型的通用文本质量评价方法的流程示意图。如图1所示，本发明的基于大语言模型的通用文本质量评价方法包括以下步骤：

一、采用大语言模型构建通用文本质量评价模型。

在本发明中，可以采用各种中文大语言模型作为通用文本质量评价模型。例如，用参数量分别为60亿、120亿或660亿的ChatGLM2模型等作为通用文本质量评价模型。

二、构建训练数据。

要采用所述通用文本质量评价模型对通用文本质量进行评价，最主要的是构建合适的训练数据并利用构建的训练数据对所述文本质量评价模型进行训练。

在本发明中，所述训练数据的输入为提示词和评价输入、输出为评价结果。其中，所述提示词包括指令、评分规则和输出格式。且构建训练数据包括构建含参考答案的训练数据和构建不含参考答案的训练数据。由此，支持在含参考答案和不含参考答案两种设定下对生成的通过用文本质量进行评价。

在本发明中，在构建训练数据时，采用基于对话的训练数据构造方法，通过设计第一轮提示以得到含参考答案的训练数据，然后设计第二轮提示以改写上述结果得到不含参考答案的训练数据。

具体地，首先构建含参考答案的训练数据，其包括以下步骤：

1、确定所述含参考答案的训练数据的第一提示词，也就是，确定所述第一提示词的第一指令、第一评分规则和第一输出格式。

其中，所述第一指令用于指示大模型如何生成文本。例如，在图2中，所述第一指令为“请你扮演一个公正的裁判者，评判一个AI助手生成的回复的质量…”。

所述第一评分规则规定了对生成的回复的质量进行评价的准则，其不但规定了分数等级，而且规定了分数等级对应的理由。在本发明中，将评价分数分为1-10这10个档次，其中1-2分的档次对应非常混乱且严重事实性错误的生成回复，3-4分的档次对应答案有显著不足，例如语法正确性、连贯性等的生成回复，5-6、7-8、9-10分三个区间均为质量较好的回复，根据生成回复相对于参考答案的质量好坏被分为劣于、持平、优于三个档次。

所述第一输出格式规定了生成回复的格式。在图2中，其为“在各处评价理由后，你必须按照如下的格式输出评价分数：“[[评分]]””。

2、获取所述含参考答案的训练数据的第一评价输入。

在本发明中，所述含参考答案的训练数据的第一评价输入包括用户指令、参考答案和生成文本。其中，所述用户指令为处理后的增强用户询问指令。

因此，获取所述含参考答案的训练数据的第一评价输入具体包括以下步骤：

(1)、获取增强用户询问指令，也就是，收集公开网络平台上的多个初始用户询问指令并对其进行处理，以获得多个增强用户询问指令。

在本发明中，获得多个增强用户询问指令具体包括以下步骤：

首先、收集公开网络平台上的多个初始用户询问指令并对其进行分类。

在本发明中，收集了公开网络平台上706个初始用户询问指令并进行了分类。其中，分类的类别包括逻辑推理、综合问答、专业能力、基本能力、数学计算、角色扮演、文本写作和中文理解。

其次、基于所述多个初始用户询问指令，用ChatGPT生成更多个与初始用户询问指令类别分布相近、指令内容不同的用户询问新指令。

为了获得更多的用户询问指令以提高训练的效果，在本发明中，以收集的706个初始用户询问指令为基础，通过ChatGPT生成了260,000个与这些初始用户询问指令类别分布相近、指令内容不同的用户询问新指令。

再次、基于文本重叠度评价指标，对所述用户询问新指令进行筛选。

为了解决生成的用户询问新指令之间存在重复的问题，本发明利用ROUGE-L与Self-BLEU两个基于文本重叠度的自动评价指标，对用户询问新指令进行筛选，筛选得到4,223个指令。

接着、对筛选后的所述用户询问新指令进行难度筛选，使不同难度等级内的所述用户询问新指令的数据占比均等。

由于所述用户询问新指令的难度各有不同，为了使得训练数据能够包含各种难度的指令且使得各种难度的指令的数据占比尽量均匀，在本发明中，给ChatGPT提供了难度1-3级的分类标准，让ChatGPT对所述用户询问新指令的难度进行分类，然后均衡各个难度级别的数据占比，最终从4223条中筛选出3351条指令。

最后、均衡难度筛选后的所述用户询问新指令的类别分布，使各个分类中的所述用户询问新指令的数据占比均等，从而获得所述多个增强用户询问指令。如前所述，共将指令分为了8个类别，为了提高训练效果，优选地，使得8个类别包含的训练数据数量尽量均衡，因此，在本发明中，给定指令分类，让ChatGPT对难度筛选后的用户询问新指令所属的指令类型进行分类，然后使各个类型的数量均衡，同时考虑到成本和数据集大小的因素，从3351条指令中保留了1000条。这1000条指令就是处理后得到的增强用户询问指令。

(2)、收集生成回复。

生成回复的多样性和覆盖度对评价数据的质量也至关重要，因此，在本发明中，将所述多个增强用户询问指令都输入到多个中文开源大语言模型与API访问模型中，以为每个所述增强用户询问指令分别生成多个生成回复。

具体地，本发明选择了10个具有代表性的中文开源模型与API访问模型，作为生成回复的生成模型，包括GPT-4、ChatGPT、2个版本的ChatGLM、MOSS、Minimax、Sparkdesk、Chinese-Llama2-7B-Chat、Baichuan2-13B-Chat和Ernie-Bot。每个模型均根据所述1,000条增强用户询问指令生成对应回复，共得到约10,000条生成数据。

(3)、收集参考答案。

在本发明中，将所述多个增强用户询问指令分别输入到GPT-4模型中，由所述GPT-4模型生成初始参考答案，然后由标注人员针对所述初始参考答案中的问题进行纠正，以获得最终的参考答案。

在标注人员对所述初始参考答案中的问题进行纠正时，针对其生成的初始参考答案中存在的事实错误、逻辑混乱、细节矛盾等问题纠正，最终成为高质量的参考答案。

由于GPT-4功能强大和齐全，使用其生成的初始参考答案相对比较准确，然后再通过人工标注的方式进行纠正，使得最终的参考答案会更加准确。

(4)、基于所述增强用户询问指令、生成回复和参考答案组成所述含参考答案的训练数据的第一评价输入。

有了所述增强用户询问指令、生成回复和参考答案，就可以将其组成所述含参考答案的训练数据的第一评价输入。

在本发明中，共有约10000个第一评价输入。

由此，通过上述步骤1和2，可以得到含参考答案的训练数据的输入，将其组成一个提示词模板，其如图2中左上角所示。

3、获取所述含参考答案的训练数据的第一评价结果。

在本发明中，所述评价结果包括评价理由和评价分数。并且，获取所述含参考答案的训练数据的第一评价结果具体为：将所述第一提示词和所述第一评价输入(也就是，含参考答案的训练数据的输入)都输入到GPT-4模型中，由所述GPT-4模型基于所述第一评分规则对所述生成回复相对于所述参考答案的质量好坏进行打分和生成对应的评价理由，从而获得所述第一评价结果的评价理由和评价分数。

具体地，在图2中，所述含参考答案的训练数据的第一评价结果为“AI助手的答案和参考答案相比…评分[[5]]”。

通过上述步骤1-3，完成了第一轮含参考答案的训练数据的收集。接下来就是如何实现不含参考答案的训练数据的收集。

在本发明中，将所述第一提示词、所述第一评价输入和所述第一评价结果作为第一轮对话内容，在此基础上设计了第二轮对话的提示词，也就是，用户提示词，使GPT-4修改所述第一评价结果的评价理由，去除所有与参考答案直接相关的叙述，同时使新的评价理由符合对应的打分结果。

具体地，构建不含参考答案的训练数据包括：

4、确定用户提示词。

所述用户提示词为去除掉所述第一提示词、所述第一评价输入和第一评价结果中所有与参考答案直接相关的叙述。例如，在图2中，所述用户提示词具体如下：

“请你修改你之前一轮的评价理由和分数，遵守如下的要求：

1.在你修改后的评价理由中国，不应该提到参考答案…

…

4.保持之前的格式不变…”。

5、通过所述用户提示词，基于所述第一提示词、所述第一评价输入和所述第一评价结果生成所述不含参考答案的训练数据的第二提示词、第二评价输入和第二评价结果。

GPT-4可以基于所述用户提示词，修改所述第一提示词、第一评价输入和第一评价结果的评价理由，去除所有与参考答案直接相关的叙述，同时使新的评价理由符合对应的打分结果。

由此，通过上述步骤4和5，完成了第二轮不含参考答案的训练数据的收集。

三、用所述训练数据训练所述通用文本质量评价模型。

有了训练数据，如图2的右侧所示，可以利用所述训练数据对所述通用文本质量评价模型(即，图2中的CritiqueLLM)进行训练。

四、用训练后的文本质量评价模型对通用文本进行质量评价。

在训练好了文本质量评价模型后，将通用文本输入到训练后的文本质量评价模型中，所述文本质量评价模型的输出即为对通用文本质量评价的结果。

其中，用训练后的文本质量评价模型对通用文本进行质量评价时，需要进行模型推理。在模型推理时，考虑到评价生成是一个类似思维链(Chain-of-Thought)的逐步推理过程，因此，本发明主要采用贪心搜索(Greedy Search)和自洽性解码(Self-Consistency)两种解码策略，进一步提升评价生成的质量。贪心搜索在解码过程中每步直接选择生成概率最大的词作为解码结果，而自洽性解码首先通过核采样(Nuclear Sampling)获取多个评价结果，然后计算这些评价结果中评分的均值作为最终的评分，并选取评分和该均值最为接近的评价结果对应的评价理由作为最终的评价理由。

为了证明本发明的基于大语言模型的通用文本质量评价方法的性能，发明人进行了量化实验。

具体地，本发明将参数量为60亿、120亿、660亿三个规模的ChatGLM2模型分别作为通用文本质量评价模型，分别训练了含参考答案和不含参考答案两个场景下的评价模型。选用了一个包含250条用户询问指令，每条询问指令带有8个不同的大型语言模型生成的回答的测试集。该测试集旨在测试大型语言模型在中文场景下与人类指令对齐的水平，包括八个任务类型：逻辑推理、综合问答、专业能力、基本能力、数学计算、角色扮演、文本写作、中文理解。对于每条回答，招募标注员对其质量进行了1-5分的人工标注。

本发明对比了不同的评价模型生成评分与人类评分的相关系数，包括Pearson(r)，Spearman(ρ)，Kendall(τ)，结果如图3所示。由图3可知，基于660亿参数ChatGLM2训练的评价模型CritiqueLLM-66B在含参考答案的场景下，其评分与人类评分的相关系数几乎与当前最强的评价模型GPT-4相同；在不含参考答案的场景下，其评分与人类评分的相关系数也达到了GPT-4的90％左右，显著超过了其他的评价模型。

在分类型的评价中，其结果如图4所示。由图4可知，CritiqueLLM-66B在含参考答案设定下的逻辑推理任务，以及不含参考答案设定下的综合问答、文本写作和中文理解三项任务都能达到超过GPT-4的评价性能。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制。本领域的技术人员，依据本发明的思想，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于大语言模型的通用文本质量评价方法，其特征在于，包括以下步骤：

1）、采用大语言模型构建通用文本质量评价模型；

2）、构建训练数据：所述训练数据的输入为提示词和评价输入、输出为评价结果，所述提示词包括指令、评分规则和输出格式，且构建训练数据包括构建含参考答案的训练数据和构建不含参考答案的训练数据；

3）、用所述训练数据训练所述通用文本质量评价模型；

4）、用训练后的文本质量评价模型对通用文本进行质量评价；

所述步骤2）中的构建含参考答案的训练数据具体包括：

2.1）、确定所述含参考答案的训练数据的第一提示词，也就是，确定所述第一提示词的第一指令、第一评分规则和第一输出格式；

2.2）、获取所述含参考答案的训练数据的第一评价输入；

2.3）、获取所述含参考答案的训练数据的第一评价结果；

所述步骤2）中的构建不含参考答案的训练数据具体包括：

2.4）、确定用户提示词，使所述用户提示词为去除掉所述第一提示词、所述第一评价输入和第一评价结果中所有与参考答案直接相关的叙述；

2.5）、通过所述用户提示词，基于所述第一提示词、所述第一评价输入和所述第一评价结果生成所述不含参考答案的训练数据的第二提示词、第二评价输入和第二评价结果；

所述步骤2.2）中的获取所述含参考答案的训练数据的第一评价输入具体包括：

2.2.1）、获取增强用户询问指令：收集公开网络平台上的多个初始用户询问指令并对其进行处理，以获得多个增强用户询问指令；

2.2.2）、收集生成回复：将所述多个增强用户询问指令都输入到多个中文开源大语言模型与API访问模型中，以为每个所述增强用户询问指令分别生成多个生成回复；

2.2.3）、收集参考答案：将所述多个增强用户询问指令分别输入到GPT-4模型中，由所述GPT-4模型生成初始参考答案，然后由标注人员针对所述初始参考答案中的问题进行纠正，以获得最终的参考答案；

2.2.4）、基于所述增强用户询问指令、生成回复和参考答案组成所述含参考答案的训练数据的第一评价输入。

2.根据权利要求1所述的基于大语言模型的通用文本质量评价方法，其特征在于，所述评价结果包括评价理由和评价分数。

3.根据权利要求2所述的基于大语言模型的通用文本质量评价方法，其特征在于，所述步骤2.3）中的获取所述含参考答案的训练数据的第一评价结果具体为：将所述第一提示词和所述第一评价输入都输入到GPT-4模型中，由所述GPT-4模型基于所述第一评分规则对所述生成回复相对于所述参考答案的质量好坏进行打分和生成对应的评价理由，从而获得所述第一评价结果的评价理由和评价分数。

4.根据权利要求3所述的基于大语言模型的通用文本质量评价方法，其特征在于，所述步骤2.2.1）中的获取增强用户询问指令具体包括：

2.2.1.1）、收集公开网络平台上的多个初始用户询问指令并对其进行分类；

2.2.1.2）、基于所述多个初始用户询问指令，用ChatGPT生成更多个与初始用户询问指令类别分布相近、指令内容不同的用户询问新指令；

2.2.1.3）、基于文本重叠度评价指标，对所述用户询问新指令进行筛选；

2.2.1.4）、对筛选后的所述用户询问新指令进行难度筛选，使不同难度等级内的所述用户询问新指令的数据占比均等；

2.2.1.5）、均衡难度筛选后的所述用户询问新指令的类别分布，使各个分类中的所述用户询问新指令的数据占比均等，从而获得所述多个增强用户询问指令。

5.根据权利要求4中所述的基于大语言模型的通用文本质量评价方法，其特征在于，所述步骤2.2.1.1）中，进行分类时共分成八类，分别为：逻辑推理、综合问答、专业能力、基本能力、数学计算、角色扮演、文本写作和中文理解。

6.根据权利要求1-5中任一项所述的基于大语言模型的通用文本质量评价方法，其特征在于，所述步骤4）中，用训练后的文本质量评价模型对通用文本进行质量评价时，采用贪心搜索和自洽性两种解码策略。

7.根据权利要求6所述的基于大语言模型的通用文本质量评价方法，其特征在于，所述步骤1）中，采用大语言模型构建通用文本质量评价模型时，所述大语言模型是参数量分别为60亿、120亿或660亿的ChatGLM2模型。