CN117909504A

CN117909504A - 一种文本质量评估、以及文本质量评估模型的训练方法及装置

Info

Publication number: CN117909504A
Application number: CN202410171791.8A
Authority: CN
Inventors: 吴锐; 张沈昱; 黄修添
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-04-19

Abstract

本说明书实施例公开了一种文本质量评估、以及文本质量评估模型的训练方法及装置，应用于预先训练得到的文本质量评估模型，包括：响应于获取到的待评估文本，判断所述待评估文本是否存在文本错误；在所述待评估文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述待评估文本的目标类型，并从所述目标类型对应的多个具体错误问题中确定出匹配于所述待评估文本的目标错误问题；将所述目标错误问题标注于所述待评估文本，并输出标注得到的文本质量评估结果。

Description

一种文本质量评估、以及文本质量评估模型的训练方法及装置

技术领域

本说明书的一个或多个实施例涉及语言模型技术领域，具体涉及一种文本质量评估、以及文本质量评估模型的训练方法及装置。

背景技术

生成式人工智能是一类使用机器学习技术创造新的内容(如文本、图像、音乐等)的AI系统。它通过学习大量数据样本来生成与原始数据相似的新实例，广泛应用于内容创作、数据增强等领域。机器生成文本则是基于生成式人工智能模型创造的文本内容。

由于机器生成文本是生成式人工智能模型自动生成的，因此其可能存在一些问题，例如可以包括：缺乏深度和真实性、无法准确反映复杂情感和细微差别、包含不准确或过时的信息，并且在理解和处理特定文化或语境相关性时存在不足。此外，如果没有适当的监督，机器生成文本可能会无意中复制存在于模型的训练数据中的偏见或不当言论，也可能因为缺乏人类的创造力和洞察力而无法产生真正原创的或具有启发性的内容。所以，机器生成文本的质量评估是优化生成式人工智能模型的重要手段。

发明内容

本说明书实施例提供了涉及一种文本质量评估、以及文本质量评估模型的训练方法及装置，其技术方案如下：

第一方面，本说明书实施例提供了一种文本质量评估方法，应用于预先训练得到的文本质量评估模型，包括：

响应于获取到的待评估文本，判断所述待评估文本是否存在文本错误；

在所述待评估文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述待评估文本的目标类型，并从所述目标类型对应的多个具体错误问题中确定出匹配于所述待评估文本的目标错误问题；

将所述目标错误问题标注于所述待评估文本，并输出标注得到的文本质量评估结果。

第二方面，本说明书实施例提供了一种文本质量评估模型的训练方法，包括：

获取训练样本集，所述训练样本集中的每一训练样本包括：无标注文本、第一标注文本和第二标注文本；所述第一标注文本标注有所述无标注文本对应的真实错误类型，所述第二标注文本标注有所述无标注文本对应的真实错误问题；

将所述训练样本集输入待训练模型，以使所述待训练模型对所述无标注文本执行下述操作：判断所述无标注文本是否存在文本错误，并在所述无标注文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述无标注文本的预测错误类型，以及从所述预测错误类型对应的多个具体错误问题中确定出匹配于所述无标注文本的预测错误问题；

分别对比所述真实错误类型和所述预测错误类型，以及所述真实错误问题和所述预测错误问题，并根据对比结果对所述待训练模型进行优化，直至所述待训练模型用于对机器生成文本进行文本质量评估。

第三方面，本说明书实施例提供了一种文本质量评估装置，应用于预先训练得到的文本质量评估模型，包括：

判断单元，用于响应于获取到的待评估文本，判断所述待评估文本是否存在文本错误；

确定单元，用于在所述待评估文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述待评估文本的目标类型，并从所述目标类型对应的多个具体错误问题中确定出匹配于所述待评估文本的目标错误问题；

输出单元，用于将所述目标错误问题标注于所述待评估文本，并输出标注得到的文本质量评估结果。

第四方面，本说明书实施例提供了一种文本质量评估模型的训练装置，包括：

获取单元，用于获取训练样本集，所述训练样本集中的每一训练样本包括：无标注文本、第一标注文本和第二标注文本；所述第一标注文本标注有所述无标注文本对应的真实错误类型，所述第二标注文本标注有所述无标注文本对应的真实错误问题；

输入单元，用于将所述训练样本集输入待训练模型，以使所述待训练模型对所述无标注文本执行下述操作：判断所述无标注文本是否存在文本错误，并在所述无标注文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述无标注文本的预测错误类型，以及从所述预测错误类型对应的多个具体错误问题中确定出匹配于所述无标注文本的预测错误问题；

第一优化单元，用于分别对比所述真实错误类型和所述预测错误类型，以及所述真实错误问题和所述预测错误问题，并根据对比结果对所述待训练模型进行优化，直至所述待训练模型用于对机器生成文本进行文本质量评估。

第五方面，本说明书实施例提供了一种电子设备，包括处理器以及存储器；所述处理器与所述存储器相连；所述存储器，用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行上述实施例第一方面或第二方面所述方法的步骤。

第六方面，本说明书实施例提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述实施例第一方面或第二方面所述方法的步骤。

本说明书一些实施例提供的技术方案带来的有益效果至少包括：

将文本质量评估划分为两步，第一步是确定待评估文本是否存在文本错误，并在存在文本错误的情况下确定大概的错误类型；第二步是从确定的大概的错误类型对应的多个具体错误问题中确定出匹配于待评估文本的目标错误问题。相对于直接确定错误问题，一方面，该方法确定的文本错误准确率更高；另一方面，由于错误类型和相应的错误问题均已预先定义，评估的指标明确，使得输出的文本质量评估结果更容易被用户理解。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种生成式人工智能模型的数据处理系统的架构图。

图2是本说明书实施例提供一种文本质量评估方法的流程示意图。

图3是本说明书实施例提供的一种模型任务分层的示意图。

图4是本说明书实施例提供一种文本质量评估模型的训练方法的流程示意图。

图5是本说明书实施例提供的一种文本质量评估装置的框图。

图6是本说明书实施例提供的一种文本质量评估模型的训练装置的框图。

图7为本说明书实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述。

本说明书中的说明书和权利要求书及上述附图中的术语“第一”、“第二”、等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”以及它的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本说明书在结合一个或多个实施例对涉及一种文本质量评估、以及文本质量评估模型的训练方法进行详细阐述之前，先对相关的技术术语进行简单解释：

生成式人工智能：一类使用机器学习技术创造新的内容(如文本、图像、音乐等)的AI系统。它通过学习大量数据样本来生成与原始数据相似的新实例，广泛应用于内容创作、数据增强等领域。

机器生成文本：基于生成式人工智能模型自动创造的文本内容。

机器生成文本的质量评估方法：使用一些评估算法来评估机器生成文本的质量和相关性。

大模型的可解释性(Explainability)：可解释性涉及对生成式人工智能模型决策过程的理解和解释。这意味着我们能够追溯和理解模型是如何从给定的输入数据得出特定的输出或决策的。

图1是一示例性实施例提供的一种生成式人工智能模型的数据处理系统的架构图。如图1所示，可以包括手机11和服务器12。

手机11是用户可以使用的一种类型的电子设备，当然用户所使用的电子设备并不限于此，例如还可以包括：平板设备、笔记本电脑、掌上电脑(PDAs，PersonalDigitalAssistants)、可穿戴设备(如智能眼镜、智能手表等)等，本说明书并不对此进行限制。在运行过程中，手机11上运行有数据处理系统的客户端程序，使得该手机11被配置为该数据处理系统的客户端。该客户端程序可以接收用户输入的待处理数据，并将该待处理数据转发至服务器12，以使服务器12对待处理数据进行处理。待处理数据可以为用户输入的自然语言文本，例如：用户可以输入文本内容“今天天气怎么样？”，针对该文本内容，数据处理系统可以生成机器生成文本“今天天气很好，是晴天。”

服务器12可以为包含一独立主机的物理服务器，或者该服务器12可以为主机集群承载的虚拟服务器。服务器12上部署有生成式人工智能模型121。服务器12上运行有数据处理系统的服务端程序，使得该服务器12被配置为该数据处理系统的服务端。该服务端程序可以配合于上述的客户端，譬如可以接收客户端发送的待处理数据，并将接收到的待处理数据输入至自身部署的人工智能模型121进行处理。对于手机11和服务器12之间进行的交互方式，可以包括多种类型的有线或无线交互，本说明书并不对此进行限制。

相关技术中，存在两种文本质量评估方法，一种是基于规则的评估方法，例如：通过计算机器生成文本与参考文本之间的重叠度，即相似程度，相似程度越高，则表明机器生成文本的文本质量越高。然而，该方仅仅关注文本的表层信息，对语义信息的洞察不足，评估结果无法准确反映文本质量。另一种是基于机器学习的评估方法，将机器生成文本输入文本质量评估模型，文本质量评估模型可以输出机器生成文本对应的分数来表征文本质量。该方法输出的分数仅能作为文本质量的一个标签，无法反映机器生成文本的具体文本错误，难以为生成式人工智能模型的开发者提供有效反馈。

为解决相关技术中存在的问题，本说明书提出了一种文本质量评估方法。

请参阅图2，图2示出了本说明书实施例提供的一种文本质量评估方法的流程示意图，如图2所示，该文本质量评估方法应用于预先训练得到的文本质量评估模型，至少可以包括以下步骤：

步骤202、响应于获取到的待评估文本，判断所述待评估文本是否存在文本错误。

文本质量评估模型可以为用于对机器生成文本进行文本质量评估的模型，如前所述，该模型基于机器学习的方法进行文本质量评估。至于该模型的训练过程将在后文进行详细介绍，此处不再赘述。

待评估文本可以仅为机器生成文本，也可以为用户输入文本和相应的机器生成文本的集合。在待评估文本包含用户输入文本的情况下，文本质量评估模型可以对用户输入文本与机器生成文本之间的相关性进行分析，并在后续确定错误类型时，将其确定为一类错误类型。

步骤204、在所述待评估文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述待评估文本的目标类型，并从所述目标类型对应的多个具体错误问题中确定出匹配于所述待评估文本的目标错误问题。

质量评估模型的开发者可以预先定义错误类型和每一错误类型对应的具体错误问题。例如，错误类型包括下述至少之一：可靠性类型、安全性类型、偏见和毒性类型、基本类型。

其中，可靠性(Reliability)类型：机器生成文本可能不准确、违背事实或产生幻觉，与用户输入冲突或不是用户希望得到的结果。可靠性类型对应的具体错误问题可以包括：不对齐问题，生成的文本与用户的意图或输入内容不对齐；内在幻觉问题，生成文本与用户的输入矛盾；外在幻觉问题，无法从用户的输入中验证生成的输出；非事实性问题，生成的文本不符合世界知识或违背常识。

安全性(Safety)类型：生成的文本可能含有违法、暴力、露骨、心理不健康或侵犯隐私的内容。安全性类型对应的具体错误问题可以包括：非法问题，生成的文本中包含非法或违法内容；暴力问题，生成的文本中包含露骨的内容；心理不健康问题，生成的文本可能导致或加剧用户的心理问题；侵犯隐私问题，生成的文本包含私人信息并侵犯隐私。

偏见和毒性(Bias and Toxicity)类型：生成的文本可能包含刻板印象或违反社会规范，对某些用户群体表现出不尊重、冒犯或仇视。偏见和毒性类型对应的具体错误问题可以包括：刻板印象问题，生成的文本包含对某些人群的刻板印象；仇恨问题，生成的文本促进对某些个人或群体的歧视、敌意或仇恨；冒犯问题，生成的文本包含冒犯性或粗鲁的语言。

基本(Basic Error)类型：由于误用词汇、重复表达等，生成的文本可能不流利、不连贯、不一致或无意义。基本类型对应的具体错误问题可以包括：不流利问题，由于词汇或语义重复、词语误用等问题，生成的文本不流利；不一致问题，生成的文本中存在冲突或矛盾的信息；不连贯问题，组成生成文本的句子或段落之间缺乏逻辑连贯性；无意义问题，生成的文本是荒谬的、无意义的或是由乱码组成的。

当然，错误类型和相应的错误问题可以由质量评估模型的开发者自由定义，本说明书并不对此进行限制。

步骤206、将所述目标错误问题标注于所述待评估文本，并输出标注得到的文本质量评估结果。

为更好的地理解文本质量评估的具体过程，这里举个例子：

获取的待评估文本包括用户输入文本“本想睡个懒觉，门口洒水车轰隆隆，起来呗”和机器生成文本“你真是个小机灵鬼”。文本质量评估模型输出的文本质量评估结果可以为：是否存在文本错误“是”；错误类型“可靠性类型”；具体错误问题“不对齐问题：生成的文本与用户的意图或输入内容不对齐”。

可以看出，文本质量评估结果中包含：文本质量评估模型标注的文本错误的判断结果、确定的错误类型、确定的具体错误问题。

在该实施例中，将文本质量评估划分为两步，第一步是确定待评估文本是否存在文本错误，并在存在文本错误的情况下确定大概的错误类型；第二步是从确定的大概的错误类型对应的多个具体错误问题中确定出匹配于待评估文本的目标错误问题。相对于直接确定错误问题，一方面，该方法确定的文本错误准确率更高；另一方面，由于错误类型和相应的错误问题均已预先定义，评估的指标明确，使得输出的文本质量评估结果更容易被用户理解。

在一实施例中，还包括步骤：确定所述目标错误问题在所述待评估文本中的目标错误位置，并根据所述目标错误问题和所述目标错误位置生成解释信息；将所述解释信息和所述目标错误位置添加至所述文本指令评估结果中。

如前述的举例，文本质量评估结果中还可以包含：错误位置“整个机器输出”；解释信息“用户的输入是关于被门口的洒水车声音吵醒，而机器的输出‘你真是个小机灵鬼’与用户的输入并不对齐，没有回应用户的情况”。

当然，错误位置除整个机器输出外还可以是机器生成文本的具体每一个词，例如：待评估文本包含用户输入文本“今天天气如何”和机器生成文本“今天下雪，最高温度20摄氏度，最低温度15摄氏度”，显然，此时文本质量评估结果中包含：是否存在文本错误“是”；错误类型“可靠性类型”；具体错误问题“非事实性问题，生成的文本不符合世界知识或违背常识”；错误位置“下雪”；解释信息“当最低温度为15摄氏度时天气不可能是下雪，违背天气的常识”。

在该实施例中，一方面，在文本质量评估结果中添加了文本错误的具体位置，使得用户可以直观地了解到文本错误的发生位置；另一方面，在文本质量评估结果中添加了文本错误的解释信息，使得文本质量评估结果不再是单一的分数，进而使得用户可以根据解释信息准确定位文本错误问题的根源，从而针对性的对生成式人工智能模型调优和内容修正。

在一实施例中，所述文本质量评估模型为基于美洲驼2大语言模型在中文语料上进行预训练以及指令精调得到的模型，所述文本质量评估模型存在指令精调得到的上层任务和下层任务；其中，所述上层任务用于判断所述待评估文本是否存在文本错误，以及在所述待评估文本存在文本错误的情况下确定所述目标类型，所述下层任务用于确定所述目标错误问题。

Llama 2(美洲驼2)，是一种大型语言模型，大型语言模型(Large LanguageModels，LLM)是指将大量文本数据作为训练数据集进行训练、学习语言使用的模式进行工作的深度学习模型。大型语言模型可以生成自然语言文本或理解语言文本的含义，从而处理多种自然语言任务，如文本分类、问答、对话等。Chinese-Alpaca-2(中文羊驼)是以Llama2模型为基础，进一步在中文语料上进行预训练及指令精调得到的模型，Llama 2模型只支持英文，而中文羊驼既支持中文、也支持英文。

如图3所示，模型开发者使用指令对文本指令评估模型配置的任务进行精调，使得文本质量评估模型分为上层任务和下层任务。其中，上层任务用于判断待评估文本是否存在文本错误，以及在待评估文本存在文本错误的情况下确定所述目标类型；下层任务用于确定目标错误问题。

上层任务和下层任务虽然是分开执行的，但是下层任务是以上层任务输出的结果为基础执行的，即下层任务根据上层任务确定的错误类型进一步确定错误类型对应的错误问题。在模型训练时，上层任务和下层任务也是分开进行训练以及优化的。

本说明书还提出了一种文本质量评估模型的训练方法。请参阅图4，图4示出了本说明书实施例提供的一种文本质量评估模型的训练方法的流程示意图，如图4所示，该文本质量评估模型的训练方法至少可以包括以下步骤：

步骤402、获取训练样本集，所述训练样本集中的每一训练样本包括：无标注文本、第一标注文本和第二标注文本；所述第一标注文本标注有所述无标注文本对应的真实错误类型，所述第二标注文本标注有所述无标注文本对应的真实错误问题。

在一实施例中，所述获取训练样本集，包括：响应于获取到的无标注文本集，将所述无标注文本集输入至生成式预训练转换器模型中，以使所述生成式预训练转换器模型分别对所述无标注文本集中的每一无标注文本执行下述操作：判断所述无标注文本是否存在文本错误，并在所述无标注文本存在文本错误的情况下，从所述多个错误类型中确定出所述真实错误类型，以及从所述真实错误类型对应的多个具体错误问题中确定出所述预测错误问题；根据所述真实错误类型标注所述无标注文本得到第一标注文本，根据所述真实错误问题标注所述无标注文本得到第二标注文本。

GPT(Generative Pre-Trained Transformer，生成式预训练转换器模型)是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。本说明书中提及的生成式预训练转换器模型可以为OpenAI发布的GPT-4，该模型为成熟的聊天机器人模型。

使用GPT-4对无标注文本集中的每一无标注文本进行标注，标注的过程与前述文本质量评估的过程类似，也是分为两步，第一步判断无标注文本是否存在文本错误，并在无标注文本存在文本错误的情况下，从多个错误类型中确定出真实错误类型；第二步从真实错误类型对应的多个具体错误问题中确定出预测错误问题。事实上，第一标注文本和第二标注文本分别为前述文本质量评估结果的一部分，第一标注文本对应于前述文本错误的判断结果和确定的目标类型，第二标注文本对应于确定的目标错误问题。

在该实施例中，通过使用成熟的大预言模型GPT-4对文本进行标注，来获取训练数据集，加快了训练数据集的生成速度，从而提升了文本质量评估模型的训练效率。

步骤404、将所述训练样本集输入待训练模型，以使所述待训练模型对所述无标注文本执行下述操作：判断所述无标注文本是否存在文本错误，并在所述无标注文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述无标注文本的预测错误类型，以及从所述预测错误类型对应的多个具体错误问题中确定出匹配于所述无标注文本的预测错误问题。

待训练模型对于无标注文本的判断结果也可以为不存在文本错误，此时，无需确定错误类型和错误问题，直接输出判断结果。训练数据集中，无标注文本对应的第一标注文本和第二标注文本也可以为空，此时GPT-4对于无标注文本是否存在文本错误的判断结果为：不存在文本错误。

步骤406、分别对比所述真实错误类型和所述预测错误类型，以及所述真实错误问题和所述预测错误问题，并根据对比结果对所述待训练模型进行优化，直至所述待训练模型用于对机器生成文本进行文本质量评估。

在对比错误类型之前，需要先对文本错误的判断结果进行对比，文本错误的判断结果的对比以及错误类型的对比属于上层的训练任务，错误问题的对比属于下层训练任务，两层训练任务的优化是分开进行的。根据对比结果可以对模型的参数进行调整，并将训练数据集再次输入参数调整后的模型，直至待训练模型可以用于对机器生成文本进行文本质量评估。

判定模型达到要求的方式有很多，具体的，可以认为错误类型的准确率达到第一预设阈值，错误问题的准确率达到第二预设阈值时，模型可以被用于文本质量评估。

在该实施例中，对应于文本质量评估模型进行文本质量评估的过程，将文本质量评估模型的训练过程也分为两步，第一步是对比文本错误的判断结果以及错误类型的确定结果，第二步是对比错误问题的确定结果。根据两步对比结果，分开对待训练模型进行优化，使得训练完成的文本质量评估模型可以基于两步进行文本质量评估，从而提升文本质量评估的准确率。

在一实施例中，所述第二标注文本还标注有所述真实错误问题对应的真实错误位置和真实解释信息；所述将所述训练样本集输入待训练模型，包括：将所述训练样本集输入待训练模型，以使所述待训练模型确定所述预测错误问题对应的预测错误位置，以及根据所述预测错误位置和所述预测错误问题生成预测解释信息；还包括步骤：对比所述真实错误位置和所述预测错误位置，以及所述真实解释信息和所述预测解释信息，根据对比结果对所述待训练模型进行优化。

如前所述，文本质量评估模型输出的文本质量评估结果中还可以添加有错误位置和解释信息，相应的模型训练过程也需要对错误位置和解释信息的准确性进行优化。相对于错误位置，解释信息并不好对比，具体的可以通过计算真实解释信息和预测解释信息之间的重叠度，即相似程度，来实现解释信息之间的对比。

在该实施例中，增设了错误位置和解释信息的训练过程，使得训练得到的文本质量评估模型可以在输出的文本质量评估结果中添加文本错误的错误位置和解释信息，从而使得用户可以直观地了解到文本错误的发生位置，以及用户可以根据解释信息准确定位文本错误问题的根源，从而针对性的对生成式人工智能模型调优和内容修正。

请参阅图5，图5为本说明书实施例提供的一种文本质量评估装置的框图。该装置应用于预先训练得到的文本质量评估模型，所述装置包括：

判断单元502，用于响应于获取到的待评估文本，判断所述待评估文本是否存在文本错误；

确定单元504，用于在所述待评估文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述待评估文本的目标类型，并从所述目标类型对应的多个具体错误问题中确定出匹配于所述待评估文本的目标错误问题；

输出单元506，用于将所述目标错误问题标注于所述待评估文本，并输出标注得到的文本质量评估结果。

可选的，还包括：

生成单元508，用于确定所述目标错误问题在所述待评估文本中的目标错误位置，并根据所述目标错误问题和所述目标错误位置生成解释信息；

添加单元510，用于将所述解释信息和所述目标错误位置添加至所述文本指令评估结果中。

可选的，所述错误类型包括下述至少之一：可靠性类型、安全性类型、偏见和毒性类型、基本类型。

可选的，所述文本质量评估模型为基于美洲驼2大语言模型在中文语料上进行预训练以及指令精调得到的模型，所述文本质量评估模型存在指令精调得到的上层任务和下层任务；其中，所述上层任务用于判断所述待评估文本是否存在文本错误，以及在所述待评估文本存在文本错误的情况下确定所述目标类型，所述下层任务用于确定所述目标错误问题。

基于本说明书多个实施例中所述的文本质量评估装置，可知，将文本质量评估划分为两步，第一步是确定待评估文本是否存在文本错误，并在存在文本错误的情况下确定大概的错误类型；第二步是从确定的大概的错误类型对应的多个具体错误问题中确定出匹配于待评估文本的目标错误问题。相对于直接确定错误问题，一方面，该方法确定的文本错误准确率更高；另一方面，由于错误类型和相应的错误问题均已预先定义，评估的指标明确，使得输出的文本质量评估结果更容易被用户理解。

请参阅图6，图6为本说明书实施例提供的一种文本质量评估模型的训练装置的框图。所述装置包括：

获取单元602，用于获取训练样本集，所述训练样本集中的每一训练样本包括：无标注文本、第一标注文本和第二标注文本；所述第一标注文本标注有所述无标注文本对应的真实错误类型，所述第二标注文本标注有所述无标注文本对应的真实错误问题；

输入单元604，用于将所述训练样本集输入待训练模型，以使所述待训练模型对所述无标注文本执行下述操作：判断所述无标注文本是否存在文本错误，并在所述无标注文本存在文本错误的情况下，从预先定义的多个错误类型中确定出匹配于所述无标注文本的预测错误类型，以及从所述预测错误类型对应的多个具体错误问题中确定出匹配于所述无标注文本的预测错误问题；

第一优化单元606，用于分别对比所述真实错误类型和所述预测错误类型，以及所述真实错误问题和所述预测错误问题，并根据对比结果对所述待训练模型进行优化，直至所述待训练模型用于对机器生成文本进行文本质量评估。

可选的，所述获取单元602具体用于：

响应于获取到的无标注文本集，将所述无标注文本集输入至生成式预训练转换器模型中，以使所述生成式预训练转换器模型分别对所述无标注文本集中的每一无标注文本执行下述操作：

判断所述无标注文本是否存在文本错误，并在所述无标注文本存在文本错误的情况下，从所述多个错误类型中确定出所述真实错误类型，以及从所述真实错误类型对应的多个具体错误问题中确定出所述预测错误问题；

根据所述真实错误类型标注所述无标注文本得到第一标注文本，根据所述真实错误问题标注所述无标注文本得到第二标注文本。

可选的，所述第二标注文本还标注有所述真实错误问题对应的真实错误位置和真实解释信息；

所述输入单元604具体用于：将所述训练样本集输入待训练模型，以使所述待训练模型确定所述预测错误问题对应的预测错误位置，以及根据所述预测错误位置和所述预测错误问题生成预测解释信息；

还包括：第二优化单元608，用于对比所述真实错误位置和所述预测错误位置，以及所述真实解释信息和所述预测解释信息，根据对比结果对所述待训练模型进行优化。

基于本说明书多个实施例中所述的文本质量评估模型的训练装置，可知，对应于文本质量评估模型进行文本质量评估的过程，将文本质量评估模型的训练过程也分为两步，第一步是对比文本错误的判断结果以及错误类型的确定结果，第二步是对比错误问题的确定结果。根据两步对比结果，分开对待训练模型进行优化，使得训练完成的文本质量评估模型可以基于两步进行文本质量评估，从而提升文本质量评估的准确率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分相互参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于文本质量评估装置实施例而言，由于其基本相似于文本质量评估方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

请参阅图7示出的本说明书实施例提供的一种电子设备的结构示意图。

如图7所示，该电子设备700可以包括：至少一个处理器701、至少一个网络接口704、用户接口703、存储器705以及至少一个通信总线702。

其中，通信总线702可用于实现上述各个组件的连接通信。

其中，用户接口703可以包括按键，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口704可以但不局限于包括蓝牙模块、NFC模块、Wi-Fi模块等。

其中，处理器701可以包括一个或者多个处理核心。处理器701利用各种接口和线路连接整个电子设备700内的各个部分，通过运行或执行存储在存储器705内的指令、程序、代码集或指令集，以及调用存储在存储器705内的数据，执行电子设备700的各种功能和处理数据。可选的，处理器701可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器701可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器701中，单独通过一块芯片进行实现。

其中，存储器705可以包括RAM，也可以包括ROM。可选的，该存储器705包括非瞬时性计算机可读介质。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及文本质量评估应用程序。处理器701可以用于调用存储器705中存储的文本质量评估应用程序，并执行前述实施例中提及的文本质量评估及制定的步骤。

本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述图2～图4所示实施例中的一个或多个的步骤。上述电子设备的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在所述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本说明书实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatile Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本说明书的优选实施例方式进行描述，并非对本说明书的范围进行限定，在不脱离本说明书的设计精神的前提下，本领域普通技术人员对本说明书的技术方案作出的各种变形及改进，均应落入本说明书的权利要求书确定的保护范围内。

Claims

1.一种文本质量评估方法，应用于预先训练得到的文本质量评估模型，包括：

2.根据权利要求1所述的一种文本质量评估方法，还包括步骤：

确定所述目标错误问题在所述待评估文本中的目标错误位置，并根据所述目标错误问题和所述目标错误位置生成解释信息；

将所述解释信息和所述目标错误位置添加至所述文本指令评估结果中。

3.根据权利要求1所述的一种文本质量评估方法，所述错误类型包括下述至少之一：可靠性类型、安全性类型、偏见和毒性类型、基本类型。

4.根据权利要求1所述的一种文本质量评估方法，所述文本质量评估模型为基于美洲驼2大语言模型在中文语料上进行预训练以及指令精调得到的模型，所述文本质量评估模型存在指令精调得到的上层任务和下层任务；其中，所述上层任务用于判断所述待评估文本是否存在文本错误，以及在所述待评估文本存在文本错误的情况下确定所述目标类型，所述下层任务用于确定所述目标错误问题。

5.一种文本质量评估模型的训练方法，包括：

6.根据权利要求5所述的一种文本质量评估模型的训练方法，所述获取训练样本集，包括：

7.根据权利要求5所述的一种文本质量评估模型的训练方法，所述第二标注文本还标注有所述真实错误问题对应的真实错误位置和真实解释信息；

所述将所述训练样本集输入待训练模型，包括：将所述训练样本集输入待训练模型，以使所述待训练模型确定所述预测错误问题对应的预测错误位置，以及根据所述预测错误位置和所述预测错误问题生成预测解释信息；

还包括步骤：对比所述真实错误位置和所述预测错误位置，以及所述真实解释信息和所述预测解释信息，根据对比结果对所述待训练模型进行优化。

8.一种文本质量评估装置，应用于预先训练得到的文本质量评估模型，包括：

9.根据权利要求8所述的一种文本质量评估装置，还包括：

生成单元，用于确定所述目标错误问题在所述待评估文本中的目标错误位置，并根据所述目标错误问题和所述目标错误位置生成解释信息；

添加单元，用于将所述解释信息和所述目标错误位置添加至所述文本指令评估结果中。

10.根据权利要求8所述的一种文本质量评估装置，所述错误类型包括下述至少之一：可靠性类型、安全性类型、偏见和毒性类型、基本类型。

11.根据权利要求8所述的一种文本质量评估装置，所述文本质量评估模型为基于美洲驼2大语言模型在中文语料上进行预训练以及指令精调得到的模型，所述文本质量评估模型存在指令精调得到的上层任务和下层任务；其中，所述上层任务用于判断所述待评估文本是否存在文本错误，以及在所述待评估文本存在文本错误的情况下确定所述目标类型，所述下层任务用于确定所述目标错误问题。

12.一种文本质量评估模型的训练装置，包括：

13.根据权利要求12所述的一种文本质量评估模型的训练装置，所述获取单元，包括：

14.根据权利要求12所述的一种文本质量评估模型的训练装置，所述第二标注文本还标注有所述真实错误问题对应的真实错误位置和真实解释信息；

所述输入单元，包括：将所述训练样本集输入待训练模型，以使所述待训练模型确定所述预测错误问题对应的预测错误位置，以及根据所述预测错误位置和所述预测错误问题生成预测解释信息；

还包括：第二优化单元，用于对比所述真实错误位置和所述预测错误位置，以及所述真实解释信息和所述预测解释信息，根据对比结果对所述待训练模型进行优化。

15.一种电子设备，包括处理器以及存储器；

所述处理器与所述存储器相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1～7任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。