CN117093460A

CN117093460A - 评估方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN117093460A
Application number: CN202311073105.5A
Authority: CN
Inventors: 李沁桐; 闭玮; 崔乐阳; 李雅夫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-21

Abstract

提供了评估方法、评估装置、电子设备及计算机可读存储介质。评估方法包括：针对评估任务，获取由第一神经网络模型生成的评估标准集，该评估标准集包括至少一条用于评估该评估任务对应的测试实例的输出质量的评估标准；基于该评估标准集，创建用于显示该评估标准集的图形元素，并在该图形元素上创建用于编辑或确认该评估标准集中的评估标准的控件；响应于完成对该评估标准集中的评估标准的确认，针对该评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果；以及基于该评估标准集和该评估结果，创建用于显示该测试实例的评估结果的图形元素，并在该图形元素上创建用于编辑或确认该测试实例的评估结果的控件。

Description

评估方法、装置、电子设备及计算机可读存储介质

技术领域

本公开实施例涉及人工智能中的自然语言处理领域，特别涉及一种评估方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，自然语言生成系统的开发在很大程度上仍然依赖于人工或人类专家来对自然语言生成系统中的神经网络模型的输出质量进行评估，其需要耗费专业人员大量的时间。此外，这样的开发方案通常依赖人类专家设计的评估标准集。然而，人类专家往往仅会为特定任务设计评估标准集，而这样的评估标准集难以统一应用到其他相似的任务中，最终导致评估结果难以复现。

近年来，已经开始探索使用大型语言模型来代替人工或人类专家来评估大型语言模型的输出质量。然而这样的方案仍然存在较大的缺陷。具体而言，在利用大型语言模型往往会错误地评估涉及信息筛选的任务或核实数字的任务。此外，大型语言模型往往在评估任务中给出过于积极乐观的评分。

因此，需要对基于大型语言模型的评估方案进行改进。

发明内容

根据本公开的一方面，提供了一种评估方法，该方法包括：针对评估任务，获取由第一神经网络模型生成的评估标准集，所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准；基于所述评估标准集，创建用于显示所述评估标准集的图形元素，并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件；响应于完成对所述评估标准集中的评估标准的确认，针对所述评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果；以及基于所述评估标准集和所述评估结果，创建用于显示所述测试实例的评估结果的图形元素，并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件。

根据本公开的另一方面，提供了一种评估装置，包括处理模块和显示模块，其中：所述处理模块，被配置为：针对评估任务，获取由第一神经网络模型生成的评估标准集，所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准；所述显示模块，被配置为：基于所述评估标准集，创建用于显示所述评估标准集的图形元素，并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件；所述处理模块，还被配置为：响应于完成对所述评估标准集中的评估标准的确认，针对所述评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果；以及所述显示模块，还被配置为：基于所述评估标准集和所述评估结果，创建用于显示所述测试实例的评估结果的图形元素，并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件。

根据本公开的又一方面，还提供了一种电子设备，包括：处理器；以及存储器，其上存储有计算机程序，该计算机程序被处理器执行时，使得所述处理器实现如上所述的评估方法的各步骤。

根据本公开的另一方面，还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如上所述的评估方法的各步骤。

根据本公开的又一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上所述的评估方法的各步骤。

本公开的各项实施例，通过先由第一神经网络模型生成评估标准集再由人类专家来对评估标准集进行修订，来代替人类专家针对特定任务直接制定评估标准(或评估标准集)，不仅可以生成多维度的评估标准，还增加了评分标准的一致性。从而，避免了人类专家制定评估标准时的主观性，从而得到容易复现的评估结果。本公开的各项实施例还通过使用第二神经网络模型来针对各个评估标准对测试实例的输出进行评估，并对应地给出评估过程的解释，由此增加了评估过程的可解释性。评估结果通过人机交互界面直接呈现给了人类专家，并交由人类专家对评估结果进行修订，由此可以得到可靠性更强、更为客观的评估结果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本公开实施例的应用场景的示意图。

图2示出了相关技术中评估自然语言生成系统中的神经网络模型的输出质量的流程图。

图3是本公开实施例提供的通信系统的架构示意图。

图4示出了根据本公开实施例的评估方法的流程示意图。

图5示出了根据本公开实施例的评估方法的又一示意图。

图6示出了根据本公开实施例的评估方法的在第一评估阶段的界面示意图。

图7示出了根据本公开实施例的评估方法的在第二评估阶段的第一界面示意图。

图8示出了根据本公开实施例的评估方法的在第二评估阶段的第二界面示意图。

图9示出了根据本公开实施例的评估方法的在第一评估阶段的示意图。

图10示出了根据本公开实施例的评估方法的在第二评估阶段的示意图。

图11示出了根据本公开实施例的评估方法与其他评估方法相比在评估标准集的设定上覆盖范围的对比图。

图12示出了根据本公开实施例的评估方法与其他评估方法对比时的批准率、修改率、删除率和新增率。

图13示出了根据本公开实施例的评估方法与其他评估方法相比在评估结果的校正率上的优势对比图。

图14示出了根据本公开实施例的评估方法与其他评估方法相比在不同的人类专家在评估结果的一致性上的优势对比图。

图15示出了根据本公开实施例的装置的结构框图。

图16示出了根据本公开实施例的电子设备的示意性框图。

图17示出了根据本公开的存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

本公开中的待评估的神经网络模型可以是自然语言生成系统(NLG系统)中的任意一个神经网络模型，其可以用于处理自然语言生成系统中涉及的任意种类的任务。具体地，自然语言生成系统可以自动生成符合语法和语义要求的文本。自然语言生成系统的输入可以是结构化数据、知识库等,输出可以是具有连贯性和逻辑性的语言表达。自然语言生成系统的应用包括对话系统、文档生成系统等等。

可选地，本公开可以使用基于人工智能(Artificial intelligence，AI)的神经网络模型来对该待评估的神经网络模型的输出质量进行评估。以下又将该基于人工智能的神经网络模型称为评估模型。其中，人工智能是一种利用数字计算机或者数字计算机控制的机器，通过模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一种综合技术，旨在让机器能够以类似于人类智能相似的方式做出反应。例如，对于本公开的评估模型而言，其能够以类似于人类专家评估一段文本的方式，确定针对该文本的评估标准以及某个文本样本在该评估标准下的得分等等。该模型通过研究各种智能机器的设计原理与实现方法，实现了理解文本信息并据此生成评估的功能。

可选地，本公开的评估模型可以采用了人工智能领域中的自然语言处理技术，其通过研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。例如，本公开的评估模型可以是一种大型语言模型(LLM)。通过在海量文本数据上进行训练大型语言模型,可以生成高质量的自然语言文本,并可以通过迁移学习应用于各种下游自然语言处理任务。可选地，大型语言模型包括GPT、BERT等。大型语言模型展现出了在语言理解和生成方面的强大能力,是自然语言处理领域当前的研究热点。

可选地，下文中的可用于本公开实施例的各种模型都可以是人工智能模型，尤其是基于人工智能的神经网络模型。通常，基于人工智能的神经网络模型被实现为无环图，其中神经元布置在不同的层中。通常，神经网络模型包括输入层和输出层，输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点(也即神经元)经由边全连接至相邻层中的节点，并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式，本公开对此不作限制。

首先参照图1描述根据本公开实施例的方法以及相应的装置等的应用场景。图1示出了根据本公开实施例的应用场景100的示意图，其中示意性地示出了服务器110和多个终端120。

本公开实施例的评估模型具体可以集成在各种电子设备中，例如，图1所示的多个终端120。终端120可以是手机、平板电脑、笔记本电脑、台式计算机、个人计算机(PC，Personal Computer)、智能音箱或智能手表等，但并不局限于此。

更具体地，评估模型可以集成在终端120上搭载的任意应用中。在用户通过其终端120开启该应用时，将通过服务器110对待评估的文本进行传输和加密处理。在可选的情况下，服务器110上将不会存储任何待评估的文本，也不会将待评估的文本提供给任何第三方。一旦待评估的文本被成功发送或接收，服务器110将立刻删除这些待评估的文本。

可以理解的是，应用本公开实施例的评估模型来进行推理的装置可以是终端120也可以是服务器110。也即，应用本公开实施例的各项方法既可以在终端120上执行也可以在服务器110上执行。更具体地，评估模型可以存在于用户终端本地也可以存在于服务器本地。然而在任何未经明确授权的情况下，这些待评估的文本以及针对这些文本的评估结果都不会与任何未经授权的第三方共享。

可以理解的是，在得到用户的明示许可的情况下，评估模型可能会根据评估结果自动调整其神经元参数或连接神经元的链路的偏置，以提高其准确性和效率。这些神经元参数或连接神经元的链路的偏置是评估模型的核心组成部分，属于个人隐私或商业秘密，不会在用户未允许的情况下共享或更新。如果用户同意共享或更新神经元参数或连接神经元的链路的偏置，本公开实施例会通过加密和匿名化等技术手段保护用户隐私的安全。本公开实施例将会采取合理的技术措施，保护待评估的文本和评估结果的安全和完整性，防止其被未经授权的第三方访问或泄露。可以理解的是，本公开实施例保护用户的个人信息权利，遵守相关法律法规的规定，维护用户的合法权益。

如图2所示，在相关技术中，通常需要要求人类专家根据自己的经验，针对特定任务人工设计用于评估这些任务的完成质量的评估标准(或评估标准集)。这些评估标准可能包括但不限于与一致性有关的标准以及与相关性有关的标准。接着，基于这些特定任务设计多个测试实例。然后基于人类专家预设的评估标准，对这些测试实例的输出的质量进行评估。评估的方法包括但不限于由人类专家基于预设的评估标准来对各个测试实例进行评估；或者由人工智能模型基于人类专家预设的评估标准来对各个测试实例进行评估。

上述的评估标准集通常是某个领域的人类专家针对特定任务设计的，因此，这样的评估标准集中的评估标准的主观性较强。即使任务相似，不同人类专家设定的评估标准也难以统一,导致评估结果难以复现。而如果对所有的任务都设定相同的评估标准又不能完全达到评估的目的。此外，如果利用人工智能模型来对测试实例进行打分，由于无法得知人工智能评分的逻辑，这样得到的评估结果的可解释性较低。同时，如果直接使用大型语言模型作为人工智能模型来评估的话，评估结果会受到输入指令(prompt)的影响，导致评估结果不够客观。

因此，为了解决上述技术问题，本公开实施例提供了一种评估方法。该方法包括：针对评估任务，获取由第一神经网络模型生成的评估标准集，所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准；基于所述评估标准集，创建用于显示所述评估标准集的图形元素，并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件；响应于完成对所述评估标准集中的评估标准的确认，针对所述评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果；以及基于所述评估标准集和所述评估结果，创建用于显示所述测试实例的评估结果的图形元素，并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件。

下面参考图3进一步说明本公开实施例提供的评估方法的示例性应用。

参见图3，图3是本公开实施例提供的通信系统的架构示意图，为实现用于对待评估的神经网络模型的输出质量进行评估的人机协作应用，终端120通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

如图3所示，终端120上运行有各种应用，例如，评估应用、即时通信应用、社交媒体应用、资讯类阅读应用、浏览器等。以下以评估应用为例进行说明，本领域技术应当理解本公开应当并不依此为限。

服务器200是终端120上运行的应用的后台服务器，用于为应用提供后台服务。终端120响应于应用的刷新(例如应用接收到用户触发的应用唤醒操作)，可以通过网络300向服务器200发送用于获取评估标准、测试实例、或机器评估结果的获取请求，以从服务器200获取评估标准、测试用例、或机器评估结果中的至少一个。

服务器200在接收到终端120发送的获取请求之后，可以以任务标识符为关键字获取或检索评估任务、或者可以以测试实例标识符为关键字获取或检索测试实例。然后将获取或检索到的评估任务的详情或测试实例的详情进行汇总后发送至用户终端。

可选地，可以在用户终端处显示评估任务的详情。如图3所示，终端120可以在评估应用的对话框中部署显示用于显示评估任务的详情的图形元素以及用于显示针对该评估任务的评估标准集的信息的图形元素，并将对应的评估任务的详情信息分配到对应图形元素中进行显示。评估任务的详情信息包括但不限于：任务描述、任务的输入、任务的输出。针对该评估任务的评估标准集的信息包括但不限于：评估标准集中的每个评估标准的详细信息。此外，终端120上还可以部署多个控件，每个控件分别用于确认、删除、修订、添加评估标准。当然本公开并不以此为限。

可选地，还可以在用户终端处显示评估任务对应的测试实例的详情。例如，终端120可以在评估应用的对话框中部署显示用于显示测试实例的详情的图形元素以及用于显示基于评估标准集对该测试实例进行评估的评估结果的图形元素，并将对应的测试实例的详情信息分配到对应图形元素中进行显示。测试实例的详情信息包括但不限于：测试实例的输入、测试实例的输出、测试实例的一个或多个评估标准。基于评估标准集对该测试实例进行评估的评估结果包括但不限于：评估结果的文字描述、评估结果的数值化分数、评估结果所使用的证据、针对该评估结果的评价。此外，终端120上还可以部署多个控件，每个控件分别用于确认、删除、修订、添加评估结果中的全部或部分内容。当然本公开并不以此为限。

在另一些实施例中，终端设备和/或服务器还可以通过运行计算机程序来实现本公开实施例提供的评估方法。举例来说，计算机程序可以是操作系统中的任意形式的应用程序、模块或插件，例如，可以嵌入到任意程序中的信息推荐模块；还可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，例如图3中示出的评估应用。

以下结合图4至图17对本公开的评估方法进行详细介绍。

首先结合图4和图5对根据本公开实施例的评分方法的一个方面进行介绍。其中，图4示出了根据本公开实施例的评估方法40的流程示意图。图5示出了根据本公开实施例的评估方法40的又一示意图。方法40可以在终端设备(如图2所述的终端120)处执行。其中，方法40包括操作S410至步骤S440。当然方法40还可以包括更多或更少的步骤，本公开并不以此为限。

如图5所示，操作S410和步骤S420为第一评估阶段中的步骤，步骤S430至步骤S430为第二评估阶段中的步骤。第一评估阶段用于执行操作S410和S420的模块将与第二评估阶段中用于执行步骤S430和S440中的模块进行解耦，从而实现高内聚低耦合。具体地，第一评估阶段可专用于评估标准集的生成，而第二评估阶段则依据第一评估阶段中所生成的评估标准集进行测试实例的评估。用于第一评估阶段的模块中还设有用于交互的接口模块，该接口模块将第一评估阶段所生成的评估标准集传递至第二评估阶段的模块中用于交互的接口模块。由此，第一评估阶段和第二评估阶段中的模块可以独立地迭代优化，二者不会相互影响。当然本公开并不以此为限。

首先介绍第一评估阶段。如图4所示，在操作S410，针对评估任务，获取由第一神经网络模型生成的评估标准集，所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准。

可选地，评估任务是指对任意计算机系统的输出进行质量判断的活动。在一些方面，根据本公开实施例的评估任务是指由人机协作完成的对自然语言生成系统的输出进行质量判断的活动。其中，可选地，人类专家和神经网络模型将共同协作以确定自然语言生成系统在特定语言生成任务上的表现。在另一些方面，根据本公开实施例的评估任务是指由神经网络模型单独完成的对自然语言生成系统的输出进行质量判断的活动。当然本公开并不限于此。

可选地，评估任务有关的信息包括但不限于：评估任务的标识符、评估任务的名称、评估任务的描述、评估任务的输入、评估任务的输出等等。其中，评估任务的标识符可用于唯一地标识评估任务。评估任务的描述可以用于描述评估任务的具体目标(例如，文本分类、语音识别、问答生成等等)和/或评估任务的方法和实际应用场景等等，本公开并不以此为限。评估任务的输入是指在评估需要处理的输入数据，该输入数据可以是任何的结构化数据，如自然语言文本(例如用户的输入指令、待回答的问题等等)。评估任务的输出是指完成任务后需要产生的输出结果，例如，自然语言文本(例如，待回答的问题的答案等等)、语音、图像等等。图5给出了评估任务的一个具体的示例。如图5所示，评估任务的描述可能是为孩童生成问答论坛中的某个问题的答案。评估任务的输入可能是问答论坛中的某个问题。评估任务的输出可能是由NLP系统生成的针对该问题的答案。当然，本公开并不以此为限。

可选地，第一神经网络模型可以是上述的评估模型中的一个子模型，或者第一神经网络模型为上述的评估模型本身。第一神经网络模型可以是用于基于评估任务有关的信息来生成评估标准集的任意一种神经网络模型，其包括但不仅限于大型语言模型。大型语言模型又称为大规模神经网络语言模型，其在语言的理解和生成方面具有强大的能力。因此大型语言模型能够相对准确地理解评估任务的有关的信息。从而为评估任务定制用于评估某个计算机系统的输出的质量的评估标准集。当然，本公开并不以此为限。

可选地，评估标准集中可选地包括至少一条评估标准，这些标准都用来评估该评估任务对应的测试实例的输出质量。测试实例是与评估任务对应的测试样本，其包括测试实例的输入和输出。可选地，测试实例的输入被输入至待评估的计算机系统，并将由该待评估的计算机系统生成的输出作为测试实例的输出。其中测试实例的输入符合评估任务的输入指定的内容或格式，同时测试实例的输出符合评估任务的输出指定的内容或格式。例如，在该待评估的计算机系统为自然语言生成系统的情况下，测试实例的输入和输出均为自然语言文本，且其语义符合评估任务指定的要求。例如，如图5所示，符合图5中的评估任务的描述的一个测试实例的输入可能是“为什么红色和黄色会唤起饥饿感”(也即问答论坛中的某个问题)，输出可能是“因为红色和黄色是食物的颜色，就像某些餐厅的招牌的颜色”(也即，问答论坛中的某个问题的答案)。当然本公开不限于此。

可选地，第一神经网络模型为评估任务生成了一个评估标准集。例如，如图5所示，评估标准集包括三条评估标准，其分别是：使用了简单的语言、给出了示例、和容易理解。这三条评估标准都能用于评估某个问题的答案是否符合评估任务的描述和对于输出的要求。当然本公开并不限于此。

在步骤S420，基于所述评估标准集，创建用于显示所述评估标准集的图形元素，并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件。

例如，用于显示所述评估标准集的图形元素是一种用于呈现评估标准集相关信息的图形界面组件。该图形元素可以包含多种元素，如文本、图像、按钮、列表、表格、滑块等。该图形元素可以根据用户的输入或输出来响应或更新，以提供更丰富或更准确的信息。

例如，如图5所示，用于显示所述评估标准集的图形元素上可以部署多个控件，这些控件可以用于编辑或确认所述评估标准集中的评估标准等等。可选地，所述多个控件中的每个控件可以绑定有点击事件和图形图标。例如，所述用于编辑或确认所述评估标准集中的评估标准的控件包括以下各项中的至少一项：评估标准确认控件、评估标准删除控件、评估标准修订控件、评估标准添加控件；所述编辑或确认所述评估标准集中的评估标准包括：响应于检测到针对所述评估标准确认控件的点击事件，触发对于所述评估标准的确认；响应于检测到针对所述评估标准删除控件的点击事件，触发对于所述评估标准的删除；响应于检测到针对所述评估标准修订控件的点击事件，触发对于所述评估标准的修订；以及响应于检测到针对所述评估标准添加控件的点击事件，触发新增评估标准。

例如，对于绑定有“√”型的图形图标的评估标准确认控件，响应于检测到针对该控件的点击事件，则触发针对对应评估标准的确认。例如，对于绑定有“×”型的图形图标的评估标准删除控件，响应于检测到针对该控件的点击事件，则触发针对对应评估标准的删除。例如，对于绑定有剪刀型的图形图标的评估标准修订控件，响应于检测到针对该控件的点击事件，则触发针对对应评估标准的修订。例如，对于绑定有“+”型的图形图标的评估标准添加控件，响应于检测到针对该控件的点击事件，则触发新增评估标准。由此，实现了人类专家对于第一神经网络模型生成的评估标准集的更新和确认，从而在设定评估标准的粒度上实现了人机合作。当然，本公开并不以此为限。

接着，介绍第二评估阶段。在步骤S430，响应于完成对所述评估标准集中的评估标准的确认，针对所述评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果。

可选地，可以基于是否点击绑定有确认评估标准的事件的按钮，来确定是否完成对所述评估标准集中的评估标准的确认。可选地，人类专家将依次审核评估标准集中的每条评估标准，并对应地对每条评估标准进行确认、修订、或删除，甚至新增评估标准。在完成针对评估标准集中的每条评估标准的审核后，可以触发第二评估阶段。

可选地，在确定完成对所述评估标准集中的评估标准的确认之后，将调用与第二评估阶段有关的计算机模块，从而从数据库中检索到与所述评估任务对应的至少一个测试实例。如上所述，该测试实例包括测试实例的输入和测试实例的输出。可选地，将可以直接将测试实例的输入、输出和评估标准集输入至第二神经网络模型，并利用第二神经网络模型生成评估结果。

可选地，第二神经网络模型可以是上述的评估模型中的一个子模型，或者第二神经网络模型为上述的评估模型本身。第二神经网络模型可以是用于基于测试实例的输入和输出、评估标准集、和/或评估任务的有关信息来生成评估结果的任意一种神经网络模型，其包括但不仅限于大型语言模型。第二神经网络模型可以是与第一神经网络模型相同的同一个神经网络模型，也可以是与第一神经网络完全不同的神经网络模型。本公开对此不进行限制。具体的，当第二神经网络模型与第一神经网络模型是相同的大型语言模型时，在调用第二神经网络模型之前，需要将待输入至第二神经网络的各项输入进行整合和调整。例如，需要将测试实例的输入和输出、评估标准集、和/或评估任务有关的信息整合为完整的文本，并将整合后的文本作为第二神经网络模型的输入。而当第二神经网络模型与第一神经网络模型是不同的神经网络模型时，则可以分别将测试实例的输入和输出、评估标准集、和/或评估任务有关的信息依次输入至第二神经网络模型。当然，本公开并不以此为限。

可选地，评估结果是指在完成评估任务后确定的关于系统输出质量的判断。在一些方面，根据本公开实施例的评估结果是指由人机协作完成的对自然语言生成系统的输出进行质量判断的结果。其中，可选地，人类专家和神经网络模型将共同协作以确定自然语言生成系统在特定语言生成测试实例上的表现。在另一些方面，根据本公开实施例的评估任务是指由神经网络模型单独完成的对自然语言生成系统的输出进行质量判断的结果。当然本公开并不限于此。

可选地，评估结果有关的信息包括但不限于：评估结果的描述、评估结果的得分、评估结果的解释、评估结果的证据等等。其中，评估结果的描述可以用于综合评价测试实例的输出的质量，其通常为一定长度的具有特定语义的字符串。本公开并不以此为限。评估结果的得分包括但不限于基于评估标准集中的每个评估标准确定的分数。通常来讲，评估结果的得分在1到5之间，得分越高表示测试实例的输出越符合该条评估标准。评估结果的解释包括但不限于对于评估标准集中的每个评估标准为什么确定该项的得分的原因等等。图5给出了评估结果的一个具体的示例。如图5所示，评估结果的描述包括“该回答容易理解”；评估结果的得分为5；评估结果的解释为“使用了食物的颜色和餐厅作为示例”。当然，本公开并不以此为限。

在操作S440中，基于所述评估标准集和所述评估结果，创建用于显示所述测试实例的评估结果的图形元素，并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件。

例如，用于显示所述测试实例的评估结果的图形元素是一种用于呈现评估结果的相关信息的图形界面组件。该图形元素可以包含多种元素，如文本、图像、按钮、列表、表格、滑块等。该图形元素可以根据用户的输入或输出来响应或更新，以提供更丰富或更准确的信息。

例如，如图5所示，用于显示所述评估标准集的图形元素上可以部署多个控件，这些控件可以用于编辑或确认与评估标准集中的任意一项评估标准对应的评估结果等等。可选地，所述多个控件中的每个控件可以绑定有点击事件和图形图标。例如，所述用于编辑或确认所述测试实例的评估结果的控件包括以下各项中的至少一项：评估结果确认控件、评估结果删除控件、评估结果修订控件、评估结果添加控件；所述编辑或确认所述测试实例的评估结果包括：响应于检测到针对所述评估结果确认控件的点击事件，触发对于所述评估结果中的信息的确认；响应于检测到针对所述评估结果删除控件的点击事件，触发对于所述评估结果中的信息的删除；响应于检测到针对所述评估结果修订控件的点击事件，触发对于所述评估结果中的信息的修订；以及响应于检测到针对所述评估结果添加控件的点击事件，触发新增评估结果中的信息。

例如，对于绑定有“√”型的图形图标的评估结果确认控件，响应于检测到针对该控件的点击事件，则触发针对对应评估结果中的一项信息的确认。例如，对于绑定有“×”型的图形图标的评估结果删除控件，响应于检测到针对该控件的点击事件，则触发针对对应评估结果中的一项信息的删除。例如，对于绑定有剪刀型的图形图标的评估结果修订控件，响应于检测到针对该控件的点击事件，则触发针对评估结果的一项信息的修订。例如，对于绑定有“+”型的图形图标的评估结果添加控件，响应于检测到针对该控件的点击事件，则触发新增一项评估结果的信息。由此，实现了人类专家对于第二神经网络模型生成的评估结果的更新和确认，从而在针对每个测试实例在每个评估标准的粒度上实现了人机合作。当然，本公开并不以此为限。

由此，在本公开的实施例的第一评估阶段，通过先由第一神经网络模型生成评估标准集再由人类专家来对评估标准集进行修订，来代替人类专家针对特定任务直接制定评估标准(或评估标准集)，不仅可以生成多维度的评估标准，还增加了评分标准的一致性。从而，避免了人类专家制定评估标准时的主观性，从而得到容易复现的评估结果。在本公开的实施例的第二评估阶段，通过使用第二神经网络模型来针对各个评估标准对测试实例的输出进行评估，并对应地给出评估过程的解释，由此增加了评估过程的可解释性。评估结果通过人机交互界面直接呈现给了人类专家，并交由人类专家对评估结果进行修订，由此可以得到可靠性更强、更为客观的评估结果。

接下来，参考其他附图进一步描述根据本公开实施例的评估方法的细节。

图6示出了根据本公开实施例的评估方法的在第一评估阶段的界面示意图，其示意性地示出了评估任务的有关信息和对评估标准集进行编辑的状态。

可选地，如图6所示，在第一评估阶段对应的人机交互界面(也即，第一评估阶段的界面示意图)上，首先布置有第一区块4001。以上和以下提及的各种区块可以是人机交互界面中的一个块级元素，用于将显示界面划分为多个不同的区块，以方便样式和布局的控制。例如，区块可以是div元素，其是一种容器，内部可以包括多种图形元素，例如文本、图像、表格、列表等等。具体地，在第一区块中，显示有评估者姓名、评估任务的名称、评估任务对应的测试实例的总数、以及已完成评估的测试实例的总数等等。进一步地，在第一区块中还可以部署有确认控件，所述确认控件被绑定有点击事件和确认图标(该确认图标具有OK字样)。响应于检测到针对该确认控件的点击事件，则触发开启第一区块中指示的评估任务。

可选地，上述的步骤S420还包括：在用于显示所述评估标准集的图形元素上创建用于显示所述评估任务有关的信息的区块(例如第二区块4002)。可选地，响应于触发开启第一区块4001中指示的评估任务，创建或显示第二区块4002和第三区块4003。其中，第二区块4002用于显示评估任务有关的信息。如图6所示，评估任务有关的信息包括：评估任务的描述、评估任务的输入、和评估任务的输出。评估任务的描述可能是“该任务是为了向问答论坛中的某个问题提供能够被5岁的小孩理解的回答”。评估任务的输入可能是问答论坛中的某个问题。评估任务的输出可能是由NLP系统生成的针对该问题的答案。可选地，第二区块4002还用于显示第三区块中的各个控件对应的解释说明。例如，第三区块4003中的各个控件对应的解释说明包括：“如果评估标准是合适的,请在“同意√”下面填写内容”以及“在“删除×”/“修订”/“添加+”下简短说明为什么某个评估标准是不必要的/不合理的/需要添加某个标准的原因”。可选地，在第二区块4002中，还可以显示提示字段“第一阶段：列出该基于人工智能的任务所需的标准”。当然，本公开并不以此为限。

可选的，第三区块4003用于显示由第一神经网络模型生成的评估标准集以及用于编辑或确认所述评估标准集中的评估标准的控件。可选地，如图6所示，可以通过在第三区块4003中部署列表的形式，显示由第一神经网络模型生成的评估标准集以及用于编辑或确认所述评估标准集中的评估标准的控件。这里所述的列表包括但不限于有序列表(Orderedlist)、无序列表(Unordered list)和定义列表(Definition List)。其中，有序列表(Ordered List)可以使用<ol>元素来创建，列表项使用<li>元素来创建。无序列表(Unordered List)可以使用<ul>元素来创建，列表项使用<li>元素来创建。本公开并不以此为限。

具体地，如图6所示，该列表中包括多个列表项，这些列表项分别用于呈现评估标准集中的各个评估标准的信息以及针对各个评估标准进行操作的控件。每个列表项可以包括多个字段，其分别是评估标准的信息、评估标准的同意信息、评估标准的删除原因信息、评估标准的修订信息、评估标准的新增评估标准的信息等等。针对各个评估标准进行操作的控件包括但不限于评估结果确认控件、评估结果删除控件、评估结果修订控件或评估结果修订控件等。可选地，在一些情况下，评估结果修订控件和评估结果添加控件可以被组合为一个评估结果修订/添加控件。当然本公开并不以此为限。

可选地，每个评估标准的信息包括如图6所示的评估标准对应的文本内容，例如，“为了用五岁孩子也能理解的方式来回答问答论坛中的问题,应考虑以下几点:”、“使用简单易懂的语言”、“避免使用技术术语或行话”、“使用五岁孩子能理解的例子或类比”、“将复杂的概念分解成更小、更容易掌握的概念”、“使用视觉辅助或插图来帮助解释”和“要有耐心,准备好回答后续的问题”。当然，本公开并不以此为限。

可选地，评估结果确认控件被绑定有点击事件和同意图标(该确认图标具有“同意”字样或“√”型图标)。响应于检测到针对该确认控件的点击事件，则触发对于对应评估标准的确认，并将该评估标准的同意信息置为1并进行显示。如图6所示，第2条评估标准“使用简单易懂的语言”和第3条评估标准“避免使用技术术语或行话”的同意信息被显示为1。可选地，在这两条评估标准在被确认之后，与这两条评估标准对应的其他控件将不再检测其绑定的事件。当然，本公开并不以此为限。

可选地，评估结果删除控件被绑定有点击事件和删除图标(该删除图标具有“删除”字样或“×”型图标)。响应于检测到针对该评估结果删除控件的点击事件，则触发对于对应评估标准的删除，可选地，此时还可能触发对话框的弹出，该对话框中用于输入删除该评估标准的原因。响应于检测到完成输入删除该评估标准的原因，该对话框可以消失，同时该条评估标准的删除信息显示删除该条评估标准的原因。如图6所示，第1条评估标准的删除信息被显示为“介绍”。可选地，在某评估标准在被删除之后，与该评估标准对应的其他控件将不再检测其绑定的事件。当然，本公开并不以此为限。

可选地，评估结果修订/添加控件被绑定有点击事件(该修订或添加图标具有“修订”字样或剪刀型图标同时具有“添加”字样或“+”图标)。响应于检测到针对该修订或添加控件的点击事件，则触发是选择对对应评估标准进行修订或新增一条评估标准。响应于检测到选择对对应评估标准进行修订，触发对话框的弹出，该对话框用于输入修改后的评估标准。响应于检测到完成输入修改后的评估标准，该对话框可以消失，同时该条评估标准的修订信息显示修订后的评估标准。响应于检测到选择对新增评估标准，触发对话框的弹出，该对话框中用于输入新增的评估标准。响应于检测到完成输入新增的评估标准，该对话框可以消失，同时新增评估标准栏显示新增的评估标准。当然，本公开并不以此为限。

图7示出了根据本公开实施例的评估方法的在第二评估阶段的第一界面示意图，其示意性地示出了测试实例的有关信息和选择用于评估该测试实例的评估标准的状态。

可选地，如图7所示，响应于完成对所述评估标准集中的评估标准的确认，显示评估任务中的至少一个测试实例有关的信息。

可选地，如图7所示，在第二评估阶段对应的第一人机交互界面(也即第一界面)上，首先布置有第四区块4004。具体地，在第四区块中，部署有显示测试实例标识符的列表项、跳转输入控件、确认跳转控件、显示评估任务的输入的列表项、显示评估任务的输出的列表项、显示测试实例的输入的列表项、显示测试实例的输出的列表项、选择评估标准的控件、确认评估标准的控件、人类专家评分输入框等等。可选地，在第二评估阶段对应的第二人机交互界面上还可以部署有第五区块4005。该第五区块中的各列表项此时处于未被激活的状态，直至某条评估标准被确认。当然本公开并不以此为限。

具体的，在图7中，评估任务的输入为“论坛问题”，评估任务的输出为“答案”。经过在数据库中进行检索，该评估任务具有一个测试实例，该测试实例的输入为“为什么我感觉自己不做梦？或者当我做梦时,我很容易就把梦忘记？”该测试实例的输出为“有些人难以做梦,因为他们的大脑不习惯做梦。其他人难以记住自己的梦,因为那些梦通常很无聊”。

可选地，该选择评估标准的控件绑定有单选事件。响应于评估标准集中的一条评估标准被选中，对应评估标准的选择框被高亮。该确认评估标准的控件绑定有点击事件。响应于该确认评估标准的控件被点击，触发对于被选中的评估标准的确认，从而激活第五区块4005中的各列表项。第五区块4005被激活后转换为后续详述的第八区块4008。当然本公开并不以此为限。

此外，可选地，在第二评估阶段对应的第一人机交互界面上还可以布置有第六区块4006。在第六区块4006中布置有四个控件，其分别用于触发下一测试实例的检索、保存当前的评估结果、跳转至最后一个测试实例、以及导出评估结果。当然本公开并不以此为限。

图8示出了根据本公开实施例的评估方法的在第二评估阶段的第二界面示意图，其示意性地示出了测试实例的有关信息和该测试实例在评估标准下的测试结果。

可选地，如图8所示，在第二评估阶段对应的第二人机交互界面(也即第二界面)上，首先布置有第七区块4007。具体地，在第七区块4007中，部署有显示测试实例标识符的列表项、跳转输入控件、确认跳转控件、显示评估任务的描述(其被示出为任务信息)的列表项、显示评估任务的输入(其被示出为任务输入)的列表项、显示评估任务的输出(其被示出为任务输出)的列表项、显示测试实例的输入的列表项、显示测试实例的输出的列表项、选择评估标准的控件、确认评估标准的控件、人类专家评分输入框等等。

例如，作为一个示例，其显示的测试实例的输入为“确定儿童是否可以观看给定的电影。如果你认为他们不能看给定电影,请提到是什么使得该电影不适合儿童观看。输入:《电影A》(2008)”；测试实例的输出为“不可以,儿童不能观看《电影A》。这部电影的评级是PG-13,这意味着不适合13岁以下的儿童观看。电影中的暴力和黑暗主题对年幼的儿童来说可能太过了”；被选择的评估标准为“相关性：回复应该与用户的指令或要求相关”；

可选地，在第二评估阶段对应的第二人机交互界面上还可以部署有第八区块4008。该第八区块4008中的各列表项此时处于已被激活的状态，每个列表项显示一条评估结果的相关信息。第八区块4008又可以被称为用于显示所述评估结果有关的信息的区块。例如，当然本公开并不以此为限。

具体的，在图8中，评估结果的描述为“这篇文章满足前提,因为它清楚地回答了儿童是否可以观看《电影A》的问题,并提供了原因解释为什么这部电影可能不适合他们”，评估任务的得分为4分。评估结果的解释为“因为它对问题给出了清晰简洁的回复,但是可以从提供额外信息或例子方面得到改进,以支持论点”。评估结果的证据为“不可以,儿童不能观看《电影A》”、“这部电影的评级是PG-13,这意味着不适合13岁以下的儿童观看”、以及“电影中的暴力和黑暗主题对年幼的儿童来说可能太过了”。

通过图8提供的第二界面，人类专家可以修改评估结果的有关信息。具体地，具体地，如图8所示，在第八区块2008中还布置有针对各个评估标准进行操作的控件。每个列表项可以包括多个字段，其分别是评估结果的信息、评估结果的同意信息、评估结果的删除原因信息、评估结果的修订信息、新增评估结果的信息等等。针对各个评估结果进行操作的控件包括但不限于同意控件、删除控件、修订或添加控件等。

可选地，同意控件被绑定有点击事件和同意图标(该确认图标具有“同意”字样或“√”型图标)。响应于检测到针对该确认控件的点击事件，则触发对于对应评估结果的确认，并将该评估结果的描述的同意信息置为1并进行显示。如图8所示，评估结果的描述“这篇文章满足前提,因为它清楚地回答了儿童是否可以观看《电影A》的问题,并提供了原因解释为什么这部电影可能不适合他们”的同意信息被显示为1。可选地，在该评估结果在被确认之后，与该评估结果对应的其他控件将不再检测其绑定的事件。当然，本公开并不以此为限。

可选地，删除控件被绑定有点击事件和删除图标(该删除图标具有“删除”字样或“×”型图标)。响应于检测到针对该删除控件的点击事件，则触发对于对应评估结果的删除，可选地，此时还可能触发对话框的弹出，该对话框中用于输入删除该评估结果的原因。响应于检测到完成输入删除该评估结果的原因，该对话框可以消失，同时该条评估结果的删除信息显示删除该条评估结果的原因。可选地，在某评估结果在被删除之后，与该评估结果对应的其他控件将不再检测其绑定的事件。当然，本公开并不以此为限。

可选地，修订或添加控件被绑定有点击事件和修订或添加控件(该修订或添加图标具有“修订”字样或剪刀型图标同时具有“添加”字样或“+”图标)。响应于检测到针对该修订或添加控件的点击事件，则触发是选择对对应评估结果进行修订或新增一条评估结果。响应于检测到选择对对应评估结果进行修订，触发对话框的弹出，该对话框用于输入修改后的评估结果。响应于检测到完成输入修改后的评估结果，该对话框可以消失，同时该条评估结果的修订信息显示修订后的评估结果。例如，如图8所示，人类专家通过点击修订或添加控件，然后点击对评估结果进行修订，并在弹出的对话框中输入“得分：5”，并点击完成评估结果的修改，对话框消失。此时评估结果的修订信息显示“得分：5”。此外，响应于检测到选择对新增评估结果，触发对话框的弹出，该对话框中用于输入新增的评估结果。响应于检测到完成输入新增的评估结果，该对话框可以消失，同时新增评估结果栏显示新增的评估结果。继续图8的示例，人类专家通过点击修订或添加控件，然后点击新增评估结果，并在弹出的对话框中输入“我会给这个回复打5分，因为它对问题给出了清晰简洁的回复”，并点击完成评估结果的修改，对话框消失。此时新增的评估结果显示为“我会给这个回复打5分，因为它对问题给出了清晰简洁的回复”。当然，本公开并不以此为限。

参考图6至图8的描述的本公开实施例的方面，以人机协作的方式对评估任务的流程进行了全面地改进。评估任务的流程从评估标准的创建开始，扩展到多维评价(即结论、分数和解释)的生成。图6至图8的描述的本公开实施例的方面先根据任务特性制定评估标准(也即第一评估阶段)。随后，将这些评估标准应用于特定测试实例，以便于进行具有解释性的综合评估结果(也即第二评估阶段)。在这两个阶段，图6至图8的描述的本公开实施例的方面都向人类专家呈现了可视化界面，以便于人类评估者在该界面上针对每个评估标准都可以执行进行四个动作，其在之后的描述中，将被分别表示为A＝(a_apv，adel，a_revise，a_add)，也即，批准、删除、修改或添加，以最终生成公平和准确的评估标准E。

接下来，参考图9至图10来进一步描述本公开的实施例在评估NLP系统的输出质量的任务的一些细节。

图9示出了根据本公开实施例的评估方法的在第一评估阶段的示意图，其示意性地示出了评估任务和评估标准集的示例。

比如参考以上所描述的，在第一评估阶段的操作S410中，针对评估NLP系统的输出质量的任务T，将由第一神经网络模型生成的评估标准集C。任务T有关的信息包括但不限于：(1)评估任务的描述Td_esc，(2)评估任务的输入Ti_pt，以及(3)评估任务的输出T_opt。基于这些信息，第一神经网络模型将确定适当的评估标准集C＝[c1，...，c_n]。

可选地，对于第一神经网络模型来说，其生成评估标准集主要考虑的因素是其是否能够生成正确的评估标准以及这些评估标准是否能够符合特定任务的特性。因此，在第一神经网络模型的训练过程中，将基于正确性参数和任务特性参数构成的损失函数来对所述第一神经网络模型的神经元参数和偏置进行调整。可选地，正确性参数可以是用于衡量生成的评估标准的正确性的度量。例如，可以基于生成的评估标准的语法性参数和一致性参数来确定正确性参数。其中，语法性参数用于衡量生成的评估标准中的语法错误的占比，而一致性参数用于衡量指生成的评估标准中的逻辑一致性。进一步地，任务特性参数可以是用于衡量生成的评估标准是否符合任务信息的上下文的度量，其可以指示某条评估标准是否满足评估任务的期望。例如，如果评估任务涉及短篇故事生成，则“长度”可以被认为是惩罚冗长和乏味故事的相关标准。也即，涉及“长度”的评估标准的任务特性参数的值将较高。当然，本公开并不以此为限。

如图9所示，在操作S410中，可以向第一神经网络模型输入指令“任务是[T_desc].输入是[T_ipt].输出[T_opt]应该具有哪些能力？直接列出”，以用于针对任务T＝(T_desc，T_ipt，T_opt)生成评估标准集C＝[c₁，...，c_n]。作为一个具体的示例，T_desc为“以五岁孩子也能理解的方式来回答问答论坛的问题”、T_ipt为“问答论坛中的问题”、T_opt为“回答”。评估标准集C包括如图9所示的6条标准。

接着，在步骤S420中，为了将由第一神经网络模型生成的潜在的错误评估标准分解为特定类型，可选地，将迭代评估标准集C中每个评估标准c_i，并要求人类专家编辑或确认评估标准c_i。如图9和图6描述的本公开的方面所示，被绑定有以下四个操作之一的控件在被触发后将对应的执行相应操作。

批准(a_apv)：如果人类专家确认该评估标准在现实世界场景中容易实现，并且与评估任务的上下文很好地对齐，则触发对该条评估标准的确认。例如，图9中的第一评估标准和第二评估标准。

删除(a_del)：如果人类专家认为该评估标准是不现实的，并与评估任务上下文不对齐，则触发对该条评估评估标准的删除。例如，图9中的第3-5条评估标准。

修改(a_revise)：如果人类专家认为可以改进该评估标准，以更好地与任务上下文对准，则触发对该条评估标准的修改。例如，图9中的第6条评估标准。

添加(a_add)：如果人类专家认为第一神经网络模型遗漏了对于评估任务上下文的评估是必需的重要评估标准，则触发对新增评估评估标准。例如，图9中的第7条和第8条评估标准。

可选地，在本公开的一些实施例中，可以基于以上操作被触发的次数来对第一神经网络模型进行训练(也即对所述第一神经网络模型的神经元参数和偏置进行调整)。也即，在根据本公开实施例的一个方面中，所述第一神经网络模型的训练包括：基于用于编辑或确认所述评估标准集中的评估标准的控件中的至少一个控件被触发的次数，计算用于训练所述第一神经网络模型的损失函数的值；基于所述用于训练所述第一神经网络模型的损失函数的值，对所述第一神经网络模型的神经元参数和偏置进行调整。

例如，对于以上任意操作，可以计算操作比率r_a*。例如，对于每个操作a_*∈A，A＝(a_apv，a_del，a_revise，a_add)，r_a*可以被按照公式(1)进行计算。

/>

其中，|a_*|表示操作a_*的出现次数。针对每条评估标准其至多对应于一个操作。具体的在对第一神经模型进行训练的过程中，如果批准操作的出现次数足够高则可以认为第一神经网络模型被训练得足够好，而如果其他操作的出现次数较高则可以认为第一神经网络模型仍需要进一步的训练。也即，第一神经网络模型对应的损失函数正相关于批准操作出现的次数(也即评估标准确认控件被触发的次数)，而负相关于其他操作出现的次数(也即评估标准删除控件、评估标准修订控件、评估标准添加控件被触发的次数)。当然本公开并不以此为限。

图10示出了根据本公开实施例的评估方法的在第二评估阶段的示意图，其示意性地示出了测试实例和评估结果的示例。

比如参考以上所描述的，在第二评估阶段的步骤S430中，在获得针对评估任务T的评估标准集C(可选地，该评估标准集C中的每条评估标准已经经人类专家进行确认)后，将由第二神经网络模型针对评估任务T中的测试实例(X，Y)进行评估并对应地生成针对评估标准c_i的评估结果E_i。对于每个评估标准c_i，第二神经网络模型被要求启发式地生成具有逐步地、细粒度的分层评估结果。

可选地，对于第二神经网络模型来说，其生成评估结果主要考虑的因素是其是否能够生成清晰的结论、准确的标量的得分、并且能够生成支持该结论和得分的解释，从而保证评估结果的可信性。因此，在第二神经网络模型的训练过程中，其将基于清晰性参数、得分参数、和解释性参数构成的损失函数来进行训练。可选地，清晰性参数可以是用于衡量生成的评估结果的描述的清晰性的度量。得分参数可以是用于衡量生成的评估结果的得分的准确性的度量。解释性参数可以是用于衡量生成的评估结果的解释的正确性和/或证据的相关性的度量。当然，本公开并不以此为限。

如图10所示，在步骤S430中，可以向第二神经网络模型输入指令“请基于标准来评估候选内容。标准：[c_i]；候选内容：[X]；参考内容：[Y]；评估步骤：评估该候选内容是否满足所述标准。给出结论。在1至5的量表上为该候选内容打分，其中1是最低，5是最高。通过引用候选内容的句子来列出证据以支持你的结论”，以用于基于评估标准c_i，为测试实例(X，Y)进行评估并对应地生成针对评估标准c_i的评估结果E_i。作为一个具体的示例，c_i为“使用简单易懂的语言”；X为“如何制作香水？”；Y为“花草中的味道可以用酒精提取出来。然后这些味道可以浓缩，装进瓶子里，喷在男孩女孩身上”；评估结果E_i的描述为“该答复没有满足标准，因为它使用像“浓缩”这样小孩可能不熟悉的词语”；评估结果E_i的得分为“得分：4”；评估结果E_i的解释为“虽然回答大多使用简单语言，但有几个词组可能使孩子难以理解”；评估结果E_i的证据为“使用“浓缩”和“花草中的味道”等词语”。

接着，在步骤S440中，为了将由第二神经网络模型生成的潜在的错误评估结果分解为特定类型，可选地，将迭代评估结果E_i中每个信息e_j，并要求人类专家编辑或确认信息e_i。如图7、图8和图10描述的本公开的方面所示，被绑定有以下四个操作之一的控件(也即，评估结果确认控件、评估结果删除控件、评估结果修订控件、评估结果添加控件)在被触发后将对应的执行相应操作。

批准(a′_apv)：如果人类专家确认该评估结果的信息准确性较高，并且与评估任务的上下文和评估标准的内容很好地对齐，则触发对该条评估结果的确认。例如，图10中的评估结果的描述“该答复没有满足标准，因为它使用像“浓缩”这样小孩可能不熟悉的词语”。

删除(a′_del)：如果人类专家认为该评估结果的信息是不正确的，并与且与评估任务的上下文和评估标准的内容不对齐，则触发对该条评估评估结果的信息的删除。

修改(a′_revise)：如果人类专家认为可以改进该评估结果，以更好地与评估任务或评估标准的上下文对准，则触发对该条评估评估结果的修改。例如，图10中的评估结果的证据“使用“浓缩”和“花草中的味道”等词语”将被修改为“使用了“酒精”和“浓缩”等词语”。

添加(a′_add)：如果人类专家认为第二神经网络模型遗漏了对于评估标准是必需的重要评估结果的信息，则触发对新增评估结果的信息。

可选地，在本公开的一些实施例中，可以基于以上操作被触发的次数来对第二神经网络模型进行训练(也即，对第二神经网络模型的神经元参数和偏置进行调整)。例如，所述第二神经网络模型的训练可选地包括：基于用于编辑或确认所述测试实例的评估结果的控件被触发的次数，计算用于训练所述第二神经网络模型的损失函数的值；基于所述用于训练所述第一神经网络模型的损失函数的值，对所述第二神经网络模型的神经元参数和偏置进行调整。

例如，对于以上任意操作，可以计算操作比率r_a′*。例如，对于每个操作a′_*∈A′，A′＝(a′_apv，a′_del，a′_revise，a′_add)，r_a′*可以被按照公式(2)进行计算。

其中，|a′_*|表示操作a′_*的出现次数。针对每条评估结果的信息至多对应于一个操作。具体的在对第二神经模型进行训练的过程中，如果批准操作的出现次数足够高则可以认为第二神经网络模型被训练得足够好，而如果其他操作的出现次数较高则可以认为第二神经网络模型仍需要进一步的训练。也即，第二神经网络模型对应的损失函数正相关于批准操作出现的次数，而负相关于其他操作出现的次数。当然本公开并不以此为限。

参考图9至图10的描述的本公开实施例的方面，以人机协作的方式对评估任务的流程进行了全面地改进。评估任务的流程从评估标准的创建开始，扩展到多维评价(即结论、分数和解释)的生成。图9至图10的描述的本公开实施例的方面先根据任务特性制定评估标准(也即第一评估阶段)。随后，将这些评估标准应用于特定测试实例，以便于进行具有解释性的综合评估结果(也即第二评估阶段)。在这两个阶段，图9至图10的描述的本公开实施例的方面都向人类专家呈现了可视化界面，并基于人类专家的操作的结果对第一神经网络模型和第二神经网络模型进行了训练。

接下来参考图11至图14进一步描述根据本公开实施例的有益效果。

图11示出了根据本公开实施例的评估方法与其他评估方法相比在评估标准集的设定上的优势。如图11所示，将本公开实施例确定的评估标准集与其他方案确定的评估标准集进行比较，本公开实施例确定的评估标准集更全面，覆盖范围更广，并且适合于特定任务，例如在评估针对儿童的答案时考虑了“简单语言”。本公开实施例确定的评估标准集表现出高查全率和高精度。

图12示出了根据本公开实施例的评估方法与其他评估方法相比在评估标准集的批准率上的优势。如图12所示，将本公开实施例确定的评估标准集与其他方案确定的评估标准集进行比较，本公开实施例确定的评估标准集更容易被人类专家确认为是合理的。

图13示出了根据本公开实施例的评估方法与其他评估方法相比在评估结果的校正率上的优势。如图13所示，将本公开实施例确定的评估结果与其他方案确定的评估结果进行比较，本公开实施例确定的评估结果更容易被人类专家确认为是合理的，因此更少地被修订。更进一步地，尤其是第二神经网络模型生成评估结果的整体质量较高，大部分都能被人类专家确认。

图14示出了根据本公开实施例的评估方法与其他评估方法相比在不同的人类专家在评估结果的一致性上的优势。如图14所示，将本公开实施例确定的评估结果与其他方案确定的评估结果进行比较，由不同的人类专家对其进行确认/编辑的一致性较高。在图14中，第二神经网络模型和5个人类专家(A1至A5)之间的一致性。第二神经网络模型的评价得分被认为是可接受的，超过50％的人类专家显示出高度一致性(a>0.7)。

对于两组人类专家，即(组1：A3、A4和A5)和(组2：A1和A2)，评估一致性超过了0.8，表明不同人类专家之间“最佳文本片段”的定义的固有差异。值得注意的是，与第2组人类专家(其一致率为a≥0.487)相比，第1组人类专家(其一致率a≥0.754)与第二神经网络模型的评估得分更一致。可见，可以通过具有不同背景的人来对评估结果进行评估，以提高第二神经网络模型的评估的可靠性。

图15示出了根据本公开实施例的评估装置1000的结构框图。

如图15所示，评估装置1000包括处理模块1010以及显示模块1020。

具体地，处理模块1010可以针对评估任务，获取由第一神经网络模型生成的评估标准集，所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准。显示模块1020可以基于所述评估标准集，创建用于显示所述评估标准集的图形元素，并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件。处理模块1010还可以响应于完成对所述评估标准集中的评估标准的确认，针对所述评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果。显示模块1020还可以基于所述评估标准集和所述评估结果，创建用于显示所述测试实例的评估结果的图形元素，并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件。

另外，虽然在图15中以示例的方式示出了上述各模块和子模块，但是应理解，根据不同的功能还可以将评估装置1000以不同的方式划分，或者可以将其划分为更多或更少的模块，或者每个模块可以被划分为进一步的更多或更少子模块。在一些示例实施方式中，模块或者其子模块可用电子硬件(例如，通用目的处理器、DSP、ASIC、FPGA或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件等等)、计算机软件(例如可以存储于随机接入存储器(RAM)、闪存、只读存储器(ROM)、可擦除可编程ROM(EPROM)等等)或两者的组合来实现。

在本公开的实施例中，通过先由第一神经网络模型生成评估标准集再由人类专家来对评估标准集进行修订，来代替人类专家针对特定任务直接制定评估标准(或评估标准集)，不仅可以生成多维度的评估标准，还增加了评分标准的一致性。从而，避免了人类专家制定评估标准时的主观性，从而得到容易复现的评估结果。本公开的各项实施例还通过使用第二神经网络模型来针对各个评估标准对测试实例的输出进行评估，并对应地给出评估过程的解释，由此增加了评估过程的可解释性。评估结果通过人机交互界面直接呈现给了人类专家，并交由人类专家对评估结果进行修订，由此可以得到可靠性更强、更为客观的评估结果。

图16示出了根据本公开实施例的电子设备1200的示意性框图。该电子设备1200可以是如图3所示的终端120。

如图16所示，电子设备1200包括通过系统总线连接的一个或多个处理器、一个或多个存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该终端的非易失性存储介质存储有操作系统，还可存储有计算机可执行程序，该计算机可执行程序被处理器执行时，可使得处理器实现如前面所述的评估方法的各步骤中描述的各种操作。该内存储器中也可储存有计算机可执行程序，该计算机可执行程序被处理器执行时，可使得处理器执行上述评估方法的至少一部分步骤中描述的各种操作。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开的实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X84架构或ARM架构的。

非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。应注意，本公开描述的方法的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

该电子设备可以是终端或者服务器。其中，终端可包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能电视等；终端内可运行各式各样的客户端(application，APP)，如多媒体播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端，等等。服务器可以是参考图2描述的服务器，即可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

根据本公开的另一方面，还提供了一种计算机可读存储介质。图17示出了根据本公开的存储介质4000的示意图。

如图17所示，所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的方法。本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

根据本公开的又一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如前面所述的评估方法的各步骤。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的方法和装置的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

如上详细描述的本公开的实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例或其特征进行各种修订和组合，这样的修订应落入本公开的范围内。

Claims

1.一种评估方法，包括：

针对评估任务，获取由第一神经网络模型生成的评估标准集，所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准；

基于所述评估标准集，创建用于显示所述评估标准集的图形元素，并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件；

响应于完成对所述评估标准集中的评估标准的确认，针对所述评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果；以及

基于所述评估标准集和所述评估结果，创建用于显示所述测试实例的评估结果的图形元素，并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件。

2.如权利要求1所述的方法，其中，所述用于编辑或确认所述评估标准集中的评估标准的控件包括以下各项中的至少一项：评估标准确认控件、评估标准删除控件、评估标准修订控件、评估标准添加控件；

所述编辑或确认所述评估标准集中的评估标准包括：

响应于检测到针对所述评估标准确认控件的点击事件，触发对于所述评估标准的确认；

响应于检测到针对所述评估标准删除控件的点击事件，触发对于所述评估标准的删除；

响应于检测到针对所述评估标准修订控件的点击事件，触发对于所述评估标准的修订；以及

响应于检测到针对所述评估标准添加控件的点击事件，触发新增评估标准。

3.如权利要求1所述的方法，其中，所述用于编辑或确认所述测试实例的评估结果的控件包括以下各项中的至少一项：评估结果确认控件、评估结果删除控件、评估结果修订控件、评估结果添加控件；

所述编辑或确认所述测试实例的评估结果包括：

响应于检测到针对所述评估结果确认控件的点击事件，触发对于所述评估结果有关的信息的确认；

响应于检测到针对所述评估结果删除控件的点击事件，触发对于所述评估结果有关的信息的删除；

响应于检测到针对所述评估结果修订控件的点击事件，触发对于所述评估结果有关的信息的修订；以及

响应于检测到针对所述评估结果添加控件的点击事件，触发新增评估结果有关的信息。

4.如权利要求1所述的方法，其中，所述创建用于显示所述评估标准集的图形元素还包括：

在用于显示所述评估标准集的图形元素上创建用于显示所述评估任务有关的信息的区块，其中，所述评估任务有关的信息包括以下各项中的至少一项：评估任务的标识符、评估任务的名称、评估任务的描述、评估任务的输入、评估任务的输出。

5.如权利要求1所述的方法，其中，所述创建用于显示所述测试实例的评估结果的图形元素还包括：

在用于显示所述测试实例的评估结果的图形元素上创建用于显示所述评估结果有关的信息的区块，其中，所述评估结果有关的信息包括以下各项中的至少一项：评估结果的描述、评估结果的得分、评估结果的解释、评估结果的证据。

6.如权利要求1所述的方法，其中，所述第一神经网络模型的训练包括：

基于正确性参数和任务特性参数构成的损失函数，对所述第一神经网络模型的神经元参数和偏置进行调整，

其中，所述正确性参数是用于衡量生成的评估标准的正确性的度量，所述任务特性参数是用于衡量生成的评估标准是否符合任务信息的上下文的度量。

7.如权利要求1所述的方法，其中，所述第一神经网络模型的训练包括：

基于用于编辑或确认所述评估标准集中的评估标准的控件中的至少一个控件被触发的次数，计算用于训练所述第一神经网络模型的损失函数的值；

基于所述用于训练所述第一神经网络模型的损失函数的值，对所述第一神经网络模型的神经元参数和偏置进行调整。

8.如权利要求1所述的方法，其中，所述第二神经网络模型的训练包括：

基于清晰性参数、得分参数、和解释性参数构成的损失函数，对所述第二神经网络模型的神经元参数和偏置进行调整，

其中，所述清晰性参数是用于衡量生成的评估结果的描述的清晰性的度量，所述得分参数是用于衡量生成的评估结果的得分的准确性的度量，所述解释性参数是用于衡量生成的评估结果的解释的正确性或证据的相关性的度量。

9.如权利要求1所述的方法，其中，所述第二神经网络模型的训练包括：

基于用于编辑或确认所述测试实例的评估结果的控件被触发的次数，计算用于训练所述第二神经网络模型的损失函数的值；

基于所述用于训练所述第一神经网络模型的损失函数的值，对所述第二神经网络模型的神经元参数和偏置进行调整。

10.一种评估装置，包括处理模块和显示模块，其中：

所述处理模块，被配置为：针对评估任务，获取由第一神经网络模型生成的评估标准集，所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准；

所述显示模块，被配置为：基于所述评估标准集，创建用于显示所述评估标准集的图形元素，并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件；

所述处理模块，还被配置为：响应于完成对所述评估标准集中的评估标准的确认，针对所述评估任务中的至少一个测试实例，获取由第二神经网络模型生成的评估结果；以及

所述显示模块，还被配置为：基于所述评估标准集和所述评估结果，创建用于显示所述测试实例的评估结果的图形元素，并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件。

11.一种电子设备，包括：

处理器；以及

存储器，其上存储有计算机程序，该计算机程序被处理器执行时，使得所述处理器实现如权利要求1-9中任一项所述的评估方法的各步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，使得所述处理器实现如权利要求1-9中任一项所述的评估方法的各步骤。