CN115422950A

CN115422950A - 对话系统的评测方法、装置、电子设备和存储介质

Info

Publication number: CN115422950A
Application number: CN202211065235.XA
Authority: CN
Inventors: 高峰; 刘琛; 邱锡鹏; 李林阳; 程沁源; 权国风
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-02

Abstract

本申请提出了一种对话系统的评测方法、装置、电子设备和存储介质。该评测方法包括：获取对话系统交互的对话文本；通过自动评分模型确定对话文本的文本质量分数；根据文本质量分数对对话系统进行评测；其中，自动评分模型表示对对话文本进行无参考评测的模型。

Description

对话系统的评测方法、装置、电子设备和存储介质

技术领域

本申请涉及任务型对话系统评测技术领域，具体而言，涉及一种对话系统的评测方法、装置、电子设备和存储介质。

背景技术

相关技术中，通常采用标注后的对话文本，与对话系统进行交互的方式对对话系统进行评测，采用这种方案，对话系统动态生成的对话文本可能与和原来标注的对话文本无法形成一个对照关系，导致无法使用基于参考文本的评测指标来计算对话系统生成的对话文本的句子质量，如流畅度、连贯性等。

发明内容

本申请旨在至少解决相关技术中存在的技术问题之一。

为此，本申请的第一个方面在于提出一种对话系统的评测方法。

本申请的第二个方面在于提出一种对话系统的评测装置。

本申请的第三个方面在于提出一种电子设备。

本申请的第四个方面在于提出一种可读存储介质。

本申请的第五个方面在于提出一种计算机程序产品。

有鉴于此，根据本申请的一个方面，提出了一种对话系统的评测方法，该评测方法包括：获取对话系统交互的对话文本；通过自动评分模型确定对话文本的文本质量分数；根据文本质量分数对对话系统进行评测；其中，自动评分模型表示对对话文本进行无参考评测的模型。

需要说明的是，本申请所提出的对话系统的评测方法的执行主体可以是对话系统的评测装置，为了更加清楚的对本申请提出的对话系统的评测方法进行说明，下面技术方案中以对话系统的评测方法的执行主体为对话系统的评测装置进行示例性说明。

在该技术方案中，上述对话系统表示任务型对话系统，可以通过与用户的交互完成相应的任务；上述对话文本表示用户模拟器与上述对话系统交互生成的文本，或者真实用户与对话系统交互生成的文本；上述自动评分模型能够对对话文本进行无参考评测。

在本申请的技术方案中，评测装置通过自动评分模型计算对话文本的文本质量分数，避免了由于无法使用基于参考文本的评测指标来计算对话系统生成的对话文本的句子质量的情况。这样，提高了对上述对话系统性能进行评测的准确性。

此外，根据本申请的上述技术方案提出的对话系统的评测方法，还可以具有以下附加技术特征：

在上述技术方案中，获取对话系统交互的对话文本的步骤具体包括：将第一用户目标输入至用户模拟器后，通过用户模拟器与对话系统进行交互；在用户模拟器与对话系统的交互满足预设条件的情况下，确定交互完成，并获取对话文本。在上述技术方案中，预设条件表示关于第一用户目标的交互完成，或用户模拟器与对话系统交互的轮数大于预设轮数，或用户模拟器和/或对话系统发出交互停止指示的情况。

在上述技术方案中，自动评分模型包括第一模型和第二模型，文本质量分数包括流畅度分数和连贯度分数，通过自动评分模型确定对话文本的文本质量分数的步骤具体包括：将对话文本输入至第一模型，确定流畅度分数；将对话文本输入至第二模型，确定连贯度分数；其中，第一模型为用于确定对话文本的流畅度的模型，第一模型为用于确定对话文本的连贯度的模型。

在上述技术方案中，将对话文本输入至第一模型，确定流畅度分数的步骤具体包括：将对话文本输入至第一模型，确定对话文本的平均交叉熵损失；以平均交叉熵损失作为流畅度分数。

在上述技术方案中，将对话文本输入至第二模型，确定连贯度分数的步骤具体包括：将对话文本输入至第二模型，确定对话文本的平均置信度；以平均置信度作为连贯度分数。在上述技术方案中，将对话文本输入至第一模型之前，评测方法还包括：获取第一对话数据；根据第一对话数据对第一预设模型进行训练，确定第一模型；根据第一对话数据对第二预设模型进行训练，确定第二模型；其中，第一预设模型为生成性预训练模型，第二预设模型为二分类分类器。

在上述技术方案中，在通过自动评分模型确定对话文本的文本质量分数之后，评测方法还包括：根据对话文本中对话系统回复的对话内容与第一用户目标的要求的匹配度，确定对话的通知率；根据对话文本中对话系统回复的对话内容与第一用户目标要求的全部信息的匹配度，确定对话的成功率。

在上述技术方案中，在获取对话系统交互的对话文本之前，评测方法还包括：获取第二对话数据和与第二对话数据对应的第二用户目标；根据第二对话数据和第二用户目标对第三预设模型进行训练，构建用户模拟器；其中，第三预设模型为文本到文本转换器。

根据本申请的第二个方面，提出了一种对话系统的评测装置，该对话系统的评测装置包括获取模块，用于获取对话系统交互的对话文本；第一处理模块，用于通过自动评分模型确定对话文本的文本质量分数；第二处理模块，用于根据文本质量分数对对话系统进行评测；其中，自动评分模型表示对对话文本进行无参考评测的模型。

在本申请的技术方案中，第一处理模块通过自动评分模型计算对话文本的文本质量分数，避免了由于无法使用基于参考文本的评测指标来计算对话系统生成的对话文本的句子质量的情况。这样，提高了对对话系统性能进行评测的准确性。

根据本申请第三个方面，提出了一种电子设备，包括：存储器，存储器中存储有程序或指令；处理器，处理器执行存储在存储器中的程序或指令以实现如本申请上述技术方案提出的对话系统的评测方法的步骤，因而具有本申请上述技术方案提出的对话系统的评测方法的全部有益技术效果，在此不再做过多赘述。

根据本申请的第四个方面，提出了一种可读存储介质，其上存储有程序或指令，程序或指令被处理器执行时实现如本申请上述技术方案提出的对话系统的评测方法。因此，该可读存储介质具备本申请上述技术方案提出的对话系统的评测方法的全部有益效果，在此不再赘述。

根据本申请的第五个方面，提出了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如本申请上述技术方案提出的对话系统的评测方法。因此，该计算机程序产品具备本申请上述技术方案提出的对话系统的评测方法的全部有益效果，在此不再赘述。

本申请的附加方面和优点将在下面的描述部分中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本申请实施例的对话系统的评测方法的流程示意图之一；

图2示出了本申请实施例的对话系统的评测方法的流程示意图之二；

图3示出了本申请实施例的对话系统的评测方法的流程示意图之三；

图4示出了本申请实施例的对话系统的评测方法的流程示意图之四；

图5示出了本申请实施例的对话系统的评测方法的流程示意图之五；

图6示出了本申请实施例的对话系统的评测方法的流程示意图之六；

图7示出了本申请实施例的对话系统的评测装置的示意框图；

图8示出了本申请实施例的电子设备的示意框图；

图9示出了采用本申请实施例的提出的评测方法和传统评测方式的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不限于下面公开的具体实施例的限制。

下面结合图1至图9，通过具体的实施例及其应用场景对本申请实施例提供的一种对话系统的评测方法、装置、电子设备和存储介质进行详细地说明。

实施例一：

图1示出了本申请实施例的对话系统的评测方法的流程示意图，该评测方法包括：

S102，获取对话系统交互的对话文本；

S104，通过自动评分模型确定对话文本的文本质量分数；

S106，根据文本质量分数对对话系统进行评测。

其中，自动评分模型表示对对话文本进行无参考评测的模型。

在该实施例中，上述对话系统表示任务型对话系统，可以通过与用户的交互完成相应的任务；上述对话文本表示用户模拟器与上述对话系统交互生成的文本，或者真实用户与对话系统交互生成的文本；上述自动评分模型能够对对话文本进行无参考评测。

具体地，评测装置获取上述对话系统交互过程中的对话文本。具体而言，在对对话系统进行评测时，评测装置首先需要获取对话系统交互时产生的对话文本，以根据该对话文本对对话系统的性能进行评测。

进一步地，评测装置通过上述自动评分模型对上述对话文本的文本质量分数进行计算。具体而言，根据上述文本质量分数可以明确对话文本中各个句子流畅度和任意两个句子之间的连贯程度。

具体而言，由于上述自动评分模型能够对对话文本进行无参考评测，使得本申请在无参考文本的情况下也可对对话文本的质量进行评测。

进一步地，评测装置根据上述文本质量分数对上述对话系统的性能进行评测。具体而言，评测装置根据上述文本质量分数可以明确对话文本中各个句子流畅度和任意两个句子之间的连贯程度是否满足要求，即可判断对话系统的性能是否满足要求。

相关技术中，通常采用标注后的对话文本与对话系统进行交互的方式对对话系统的性能进行评测，这种方式可能会导致对话系统生成的对话文本与和原来标注的对话文本不存在对照关系，可能会导致无法使用基于参考文本的评测指标来计算对话系统生成的对话文本的句子质量，影响了对话系统的评测结果。

因此，在本申请的实施例中，评测装置是通过能够进行无参考评测的自动评分模型来计算对话文本的文本质量分数，这样，避免了由于无法使用基于参考文本的评测指标来计算对话系统生成的对话文本的句子质量的情况，提高了对上述对话系统性能进行评测的准确性。

图2示出了本申请实施例的对话系统的评测方法的流程示意图，该评测方法包括：

S202，将第一用户目标输入至用户模拟器后，通过用户模拟器与对话系统进行交互；

S204，在用户模拟器与对话系统的交互满足预设条件的情况下，确定交互完成，并获取对话文本；

S206，通过自动评分模型确定对话文本的文本质量分数；

S208，根据文本质量分数对对话系统进行评测。

在该实施例中，上述用户模拟器表示预先训练好的能够根据用户目标自动地、自然地与对话系统进行交互的模型。

具体地，评测装置获取上述对话文本的过程为：评测装置首先接收一个用户目标，即上述第一用户目标。具体而言，上述第一用户目标表示用户的意图，如用户想要预订一个餐馆，用户想要预订一张机票等。

进一步地，评测装置把上述第一用户目标输入到用户模拟器中，通过该用户模拟器和对话系统进行交互。具体而言，在用户模拟器和对话系统交互的过程中，用户模拟器会将第一用户目标划分成多个子目标，通过多轮交互完成多个子目标，最终完成上述第一用户目标。

进一步地，在用户模拟器和对话系统交互的过程中，评测装置会判断用户模拟器和对话系统的交互是否满足预设条件，在满足预设条件时，确定对话系统与用户模拟器的交互完成，并获取交互时产生的对话文本。

具体而言，如果对话系统和用户模拟器的交互已经满足了预设条件，则表明关于第一用户目标的交互已经全部完成，即对话系统已经发出了关于第一用户目标中相关需求的全部信息，因此，在这种情况下，评测装置可以获取上述对话文本，以便于后续步骤根据该对话文本对对话系统的性能进行准确的评测。

在该实施例中，用户模拟器是根据给定的第一用户目标与对话模拟器进行交互，且对话文本是在确认对话系统与用户模拟器的交互符合预设条件的情况下获取的，这样，提高了对话文本的适用性，避免了对话系统生成的对话文本与和原来标注的对话文本不存在对照关系的情况，提高了后续步骤中对于对话系统性能评测的准确性。

在上述实施例中，上述预设条件具体表示用户模拟器和对话系统的交互完成了上述第一用户目标的情况，或者上述用户模拟器和上述对话系统之间交互的轮数高于预设轮数的情况，或者上述对话系统和/或用户模拟器发出的对话文本中包含了停止交互指示的情况。

具体而言，如果用户模拟器和对话系统的交互完成了上述第一用户目标，或者上述用户模拟器和上述对话系统之间交互的轮数高于预设轮数，或者上述对话系统和/或用户模拟器发出的对话文本中包含了停止交互指示，则表明对话系统已经发出了关于第一用户目标中相关需求的全部信息，因此，在这种情况下，评测装置可以确定用户模拟器和对话系统的交互已经完成。

图3示出了本申请实施例的对话系统的评测方法的流程示意图，其中，自动评分模型包括第一模型和第二模型，文本质量分数包括流畅度分数和连贯度分数，该评测方法包括：

S302，获取对话系统交互的对话文本；

S304，将对话文本输入至第一模型，确定流畅度分数；

S306，将对话文本输入至第二模型，确定连贯度分数；

S308，根据文本质量分数对对话系统进行评测。

其中，第一模型为用于确定对话文本的流畅度的模型，第一模型为用于确定对话文本的连贯度的模型。

在该实施例中，上述自动评分模型具体包括有用于确定对话文本的连贯度第一模型和用于确定对话文本的连贯度的第二模型，上述文本质量分数分为流畅度分数及连贯度分数，其中，流畅度分数用于指示上述对话文本中句子的流畅度，连贯度分数用于指示上述对话文本中任意两个句子的连贯程度。

具体地，通过上述自动评分模型分析对话文本的文本质量分数的过程为：评测装置将上述对话文本输入至上述第一模型中，确定出对话文本中句子的流畅度，根据该流畅度确定上述流畅度分数。

进一步地，评测装置将上述对话文本输入至上述第二模型中，确定出对话文本中任一两个句子的连贯程度，根据该连贯程度确定上述连贯度分数。

在该实施例中，评测装置能够通过将对话文本输入至上述第一模型和上述第二模型的方式，分别确定出表示对话文本中句子的流畅度的流畅度分数和表示对话文本中任意两个句子的连贯程度的连贯度分数。这样，避免了由于无法使用基于参考文本的评测指标来计算对话系统生成的对话文本的句子质量的情况，保证了对于对话系统性能的评测结果的准确性。

在上述实施例中，将对话文本输入至第一模型，确定流畅度分数的步骤具体包括：将对话文本输入至第一模型，确定对话文本的平均交叉熵损失；以平均交叉熵损失作为流畅度分数。

在该实施例中，上述平均交叉熵损失表示真实对话内容与对话文本中的对话内容之间的差异性。

具体地，确定流畅度分数的过程为：评测装置将上述对话文本输入到第一模型中，确定出平均交叉熵损失，然后以该平均交叉熵损失作为上述流畅度分数。

具体而言，由于上述流畅度分数为平均交叉熵损失，即上述流畅度分数表示表示真实对话内容与对话文本中的对话内容之间的差异性，因此，流畅度分数越小，表示对话文本中句子的流畅度越好。

在上述实施例中，将对话文本输入至第二模型，确定连贯度分数的步骤具体包括：将对话文本输入至第二模型，确定对话文本的平均置信度；以平均置信度作为连贯度分数。

在该实施例中，上述平均置信度表示对话文本中，两个句子之间连贯的概率有多大。

具体地，确定连贯度分数的过程为：评测装置将上述对话文本输入到第二模型中，确定出平均置信度，然后以该平均置信度作为上述连贯度分数。

示例性地，可以在第二模型中设置两句连续的标注对话作为正样本，不连续的句子作为负样本，评测装置通过确定对话文本中，任意两个句子为上述正样本的概率确定上述平均置信度。

具体而言，由于上述连贯度分数为平均置信度，即上述连贯度分数表示表示两个句子之间连贯的概率，因此，连贯度分数越大，表示对话文本中任意两个句子之间越连贯。

图4示出了本申请实施例的对话系统的评测方法的流程示意图，该评测方法包括：

S402，获取对话系统交互的对话文本；

S404，获取第一对话数据；

S406，根据第一对话数据对第一预设模型进行训练，确定第一模型；

S408，根据第一对话数据对第二预设模型进行训练，确定第二模型；

S410，将对话文本输入至第一模型，确定流畅度分数；

S412，将对话文本输入至第二模型，确定连贯度分数；

S414，根据文本质量分数对对话系统进行评测。

其中，第一预设模型为生成性预训练模型，第二预设模型为二分类分类器。

在该实施例中，上述第一预设模型表示GPT-2模型，即上述生成性预训练模型；上述第二预设模型表示二分类分类器，其中，二分类分类器的目标函数为Softmax函数。

具体地，将上述对话文本输入到上述第一模型之前，即在分别通过上述第一模型和上述第二模型确定流畅度分数和连贯度分数之前，评测装置还需获取第一对话数据训练上述第一预设模型和上述第二预设模型，以构建出上述第一模型和上述第二模型。

具体地，上述第一对话数据中包括不同流畅度的句子，评测装置通过这些句子训练上述第一预设模型，可以确定出能够根据对话文本确定句子流畅度得分(即上述流畅度分数)的第一模型。

具体地，上述第一对话数据中包括多组连续的句子和多组不连续的句子，即包括多组正样本和负样本，评测装置通过这些样本训练上述第二预设模型，可以确定出能够根据对话文本，对对话文本中任意两个句子的连贯程度进行评分(即确定上述连贯度分数)的第二模型。

在该实施例中，评测装置可以通过获取第一对话数据训练和构建用于确定流畅度分数的第一模型和用于确定连贯度分数的第二模型。这样，提高了后续步骤中确定上述流畅度分数以及上述连贯度分数的效率和准确性。

图5示出了本申请实施例的对话系统的评测方法的流程示意图，该评测方法包括：

S502，获取对话系统交互的对话文本；

S504，通过自动评分模型确定对话文本的文本质量分数；

S506，根据对话文本中对话系统回复的对话内容与第一用户目标的要求的匹配度，确定对话的通知率；

S508，根据对话文本中对话系统回复的对话内容与第一用户目标要求的全部信息的匹配度，确定对话的成功率；

S510，根据文本质量分数对对话系统进行评测。

在该实施例中，在确定出上述对话文本的文本质量分数后，评测装置还用于确定对话系统本次对话的通知率和成功率。

具体地，评测装置判断对话文本中属于对话系统回复的对话内容与第一用户目标的要求的匹配度，即判断对话系统回复的文本是否满足第一用户目标中的相关要求，并根据判断结果确定上述通知率。

具体而言，如果判断结果为上述匹配度超过了阈值，即对话系统回复的具体对话内容满足了第一用户目标中的相关要求，则表明对话系统回复了客户需要的信息，即对话系统的回复是有效的，而在对话系统的回复有效，可以确定通知率为1，因此，评测装置可以通过对话文本中属于对话系统回复的对话内容与第一用户目标的要求的匹配确定上述通知率。

进一步地，评测装置判断对话文本中属于对话系统回复的对话内容与第一用户目标要求的全部信息的匹配度，即对话系统回复的文本是否包含了第一用户目标中的相关要求的全部信息，根据判断结果确定上述成功率。

具体而言，如果判断结果为上述匹配度超过了阈值，即对话系统回复的文本中包含了第一用户目标中的相关要求的全部信息，则表明用户系统与对话系统的交互是成功的，即成功率为1。因此，评测装置可以通过判断对话文本中属于对话系统回复的对话内容与第一用户目标要求的全部信息的匹配度，得出上述成功率。

在该实施例中，评测装置还可以根据上述对话文本确定出对话的通知率和成功率，这样，评测装置可以综合上述文本质量分数(即流畅度分数和连贯度分数)、通知率和成功率综合对对话系统的性能进行评测，以便与提高评测的准确性。

示例性地，对于对话系统的性能的评测，在评测装置可以通过判断通知率与通知率阈值的大小关系，成功率与成功率阈值的大小关系，流畅度分数与流畅度分数阈值的大小关系，以及连贯度分数与连贯度分数阈值的大小关系综合评测对话系统的性能。

具体地，在对于对话系统的性能要求较高时，在判断得出上述通知率大于上述通知率阈值，上述成功率大于上述成功率阈值，上述流畅度分数小于上述流畅度分数阈值，且上述连贯度分数大于上述连贯度分数阈值时，才确定对话系统的性能能够符合使用的要求。

具体地，在对于对话系统的性能要求较低时，在判断得出上述通知率大于上述通知率阈值且上述成功率大于上述成功率阈值或者上述流畅度分数小于上述流畅度分数阈值且上述连贯度分数大于上述连贯度分数阈值时，即可确定对话系统的性能能够符合使用的要求。

图6示出了本申请实施例的对话系统的评测方法的流程示意图，该评测方法包括：

S602，获取第二对话数据和与第二对话数据对应的第二用户目标；

S604，根据第二对话数据和第二用户目标对第三预设模型进行训练，构建用户模拟器；

S606，将第一用户目标输入至用户模拟器后，通过用户模拟器与对话系统进行交互；

S608，在用户模拟器与对话系统的交互满足预设条件的情况下，确定交互完成，并获取对话文本；

S610，通过自动评分模型确定对话文本的文本质量分数；

S612，根据文本质量分数对对话系统进行评测。

其中，第三预设模型为文本到文本转换器。

在该实施例中，上述第三预设模型为T5模型，即上述文本到文本转换器。

具体地，在通过上述用户模拟器和上述对话系统交互之前，评测装置还需要获取上述第二对话数据以及与该对话数据相对应的第二用户目标。并根据上述第二对话数据和上述第二用户目标训练上述第三预设模型，以构建出能够根据输入的用户目标，自动地、自然地与对话系统进行交互的用户模拟器。

具体地，上述第二对话数据表示通过人工方式与对话系统进行交互且交互成功的历史对话数据，上述对话数据中包含有用于标注对话数据中反应用户需求的关键词的标注语料。

具体地，在训练过程中，评测装置首先会根据上述标注语料将上述第二用户目标划分为多个子目标，并确定出第二对话数据中与多个子目标相对应的对话文本。

进一步地，评测装置会将多个子目标输入到上述第三预设模型，以得出输出结果，然后通过比较输出结果与多个子目标相对应的对话文本的差异，对上述第三预设模型进行优化，进而确定出上述用户模拟器。

在该实施例中，评测装置可以通过上述第二对话数据和上述第二用户目标训练第三预设模型，确定出上述用户模拟器。这样，使得后续步骤中可以通过对话系统与该用户模拟器进行交互的方式对对话系统的性能进行评测，提高了确定出的对话系统的评测结果的准确性。

示例性地，在根据文本质量分数对对话系统进行评测之后，评测装置还可以根据评测的结果对对话系统进行优化。

具体地，根据对话系统的评测结果，评测装置可以明确对话系统的不足之处，例如，对话系统的通知率偏低、对话系统的成功率偏低、对话系统回复的对话文本中句子不够流畅、对话系统回复的对话文本中相邻两个句子之间的连贯程度偏低等。因此，评测装置可以根据对于对话系统的评测结果对上述对话系统进行优化。

示例性地，评测装置可以采用策略梯度算法对上述对话系统进行优化，但不限于此。

具体而言，采用策略梯度算法可以随着迭代自然地逼近最优策略，不需要手动的调节对话系统中的相关参数，这样，能够减少优化对话系统的流程，并能够保证优化后的对话系统的可靠性。

在该实施例中，评测装置还可以根据对于对话系统的评测结果，对对话系统进行进一步的优化，这样，有利于提高上述对话系统的可靠性。

示例性地，在上述实施例中，在获取到对话系统交互的对话文本后，评测装置还可以根据该对话文本对上述用户模拟器的性能进行评价，如计算对话文本中用户模拟器发出的对话内容的句子的流畅度或者该句子与相邻句子之间的连贯程度。这样，在后续对对话系统的性能评测过程中，可以参考用户模拟器的性能评测结果，更加综合的对对话系统的性能进行评测，有利于提高确定出的对话系统评测结果的准确性。

示例性地，评测装置还可以参考用户模拟器的性能评测结果，对用户模拟器进行优化。具体地，可以采用采用策略梯度算法对上述用户模拟器进行优化，但不限于此。

具体而言，采用策略梯度算法可以随着迭代自然地逼近最优策略，不需要手动的调节用户模拟器中的相关参数，这样，能够减少优化用户模拟器的流程，并能够保证优化后的用户模拟器的可靠性。

实施例二：

图7示出了本申请实施例的对话系统的评测装置的示意框图，该对话系统的评测装置700包括：获取模块702，用于获取对话系统交互的对话文本；第一处理模块704，用于通过自动评分模型确定对话文本的文本质量分数；第二处理模块706，用于根据文本质量分数对对话系统进行评测；其中，自动评分模型表示对对话文本进行无参考评测的模型。

具体地，首先通过获取模块702获取上述对话系统交互过程中的对话文本。具体而言，在对对话系统进行评测时，评测装置首先需要获取对话系统交互时产生的对话文本，以根据该对话文本对对话系统的性能进行评测。

进一步地，第一处理模块704通过上述自动评分模型对上述对话文本的文本质量分数进行计算。具体而言，根据上述文本质量分数可以明确对话文本中各个句子流畅度和任意两个句子之间的连贯程度。

进一步地，第二处理模块706根据上述文本质量分数对上述对话系统的性能进行评测。具体而言，评测装置根据上述文本质量分数可以明确对话文本中各个句子流畅度和任意两个句子之间的连贯程度是否满足要求，即可判断对话系统的性能是否满足要求。

因此，在本申请的实施例中，第一处理模块704是通过能够进行无参考评测的自动评分模型来计算对话文本的文本质量分数，这样，避免了由于无法使用基于参考文本的评测指标来计算对话系统生成的对话文本的句子质量的情况，提高了对上述对话系统性能进行评测的准确性。

进一步地，在上述实施例中，第一处理模块704还用于将第一用户目标输入至用户模拟器后，通过用户模拟器与对话系统进行交互；第一处理模块704还用于在用户模拟器与对话系统的交互满足预设条件的情况下，确定交互完成；在确定交互完成的情况下，获取模块702获取对话文本。

进一步地，在上述实施例中，上述预设条件具体表示第一处理模块704判断得出用户模拟器和对话系统的交互完成了上述第一用户目标的情况，或者第一处理模块704判断得出上述用户模拟器和上述对话系统之间交互的轮数高于预设轮数的情况，或者第一处理模块704判断得出上述对话系统和/或用户模拟器发出的对话文本中包含了停止交互指示的情况。

进一步地，在上述实施例中，上述自动评分模型具体包括有第一模型以及第二模型，上述文本质量分数具体包括有流畅度分数以及连贯度分数，第一处理模块704具体用于将对话文本输入至第一模型，确定流畅度分数；将对话文本输入至第二模型，确定连贯度分数；其中，第一模型为用于确定对话文本的流畅度的模型，第一模型为用于确定对话文本的连贯度的模型。

进一步地，在上述实施例中，第一处理模块704具体用于将对话文本输入至第一模型，确定对话文本的平均交叉熵损失；以平均交叉熵损失作为流畅度分数。

进一步地，在上述实施例中，第一处理模块704具体用于将对话文本输入至第二模型，确定对话文本的平均置信度；以平均置信度作为连贯度分数。

进一步地，在上述实施例中，对话系统的评测装置还包括第三处理模块708，第三处理模块708具体用于根据对话文本中对话系统回复的对话内容与第一用户目标的要求的匹配度，确定对话的通知率；根据对话文本中对话系统回复的对话内容与第一用户目标要求的全部信息的匹配度，确定对话的成功率。

进一步地，在上述实施例中，获取模块702还用于获取第一对话数据；第一处理模块704还用于根据第一对话数据对第一预设模型进行训练，确定第一模型；根据第一对话数据对第二预设模型进行训练，确定第二模型；其中，第一预设模型为生成性预训练模型，第二预设模型为二分类分类器。

实施例三：

图8示出了本申请实施例的电子设备的示意框图，其中，该电子设备800包括：存储器802，存储器802中存储有程序或指令；处理器804，处理器804执行存储在存储器802中的程序或指令以实现如本申请上述实施例提出的对话系统的评测方法的步骤，因而具有本申请上述实施例提出的对话系统的评测方法的全部有益技术效果，在此不再做过多赘述。

实施例四：

根据本申请的第四个实施例，提出了一种可读存储介质，其上存储有程序或指令，程序或指令被处理器执行时实现如本申请上述实施例提出的对话系统的评测方法。因此，该可读存储介质具备本申请上述实施例提出的对话系统的评测方法的全部有益效果，在此不再赘述。

实施例五：

根据本申请的第五个实施例，提出了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如本申请上述实施例提出的对话系统的评测方法。因此，该计算机程序产品具备本申请上述实施例提出的对话系统的评测方法的全部有益效果，在此不再赘述。

实施例六：

示例性地，如表1所示，为本申请提出的对话系统的评测方法与传统评测方式的对照表。

表1

具体地，在表1中，UBAR、PPTOD、MTTOD和MTTOD(RL)表示不同类型的对话系统，MTTOD(RL)表示经过优化后MTTOD；交互式评测方式表示通过本发明提出的对话系统的评测方法对对话系统进行评测的方式。

根据表1可以看出MTTOD模型在传统评估中得分最高，而UBAR模型在交互评估中得分最高，这表明这些模型之间的改进无法在传统评测方式来评测，但可以通过本发明提出的交互式评测方式进行评测。

根据表1可以看出，经过优化之后的模型虽然取得了很高的通知率和成功率，较好地完成了用户地任务，但是模型生成的句子质量会有一定程度的下降，这可以表1中交互式评测方式中MTTOD和MTTOD(RL)的流畅度分数和连贯度分数看出。

示例性地，如表2所示，为本申请提出的自动打分模型和传统打分模型对于不同对话文本的打分示例表。

表2

根据表2可以看出，表2的第二组中，较流畅的语句得到了较好的句子流畅度得分，而有语病的句子得到了较差的句子流畅度得分。而表2中第三组中，传统评测中明显不连贯的对话，对话流畅度得分偏高。以上结果说明本发明提出的对话系统的评测方法确实能够缓解传统评测方式的缺陷，能够提高对话系统评测的准确性。

示例性地，如图9所示，为进行标注后的对话文本，以及采用传统的评测方式和交互式评测方式(本发明提出的评测方式)所产生的对话文本。

具体地，根据传统的评测方式的对话文本可以看出，在多轮对话的评测过程中，每轮对话系统回复生成之后，用户针对系统生成回复的对话问询是固定的从标注数据集中抽取的用户问询，这样的问询会与用户回复出现不匹配问题。

具体地，根据交互式评测方式的对话文本可以看出，每轮对话是分别由用户模拟器和对话系统生成，下一轮的用户语句会根据上一轮的系统回复动态地调整。两个系统生成文本相互交互形成新的对话历史，应用于对应的下轮对话中，避免了策略不匹配问题对于后续生成的影响。

在本说明书的描述中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性，除非另有明确的规定和限定；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对话系统的评测方法，其特征在于，包括：

获取所述对话系统交互的对话文本；

通过自动评分模型确定所述对话文本的文本质量分数；

根据所述文本质量分数对所述对话系统进行评测；

其中，所述自动评分模型表示对所述对话文本进行无参考评测的模型。

2.根据权利要求1所述的对话系统的评测方法，其特征在于，获取所述对话系统交互的对话文本，具体包括：

将第一用户目标输入至用户模拟器后，通过所述用户模拟器与所述对话系统进行交互；

在所述用户模拟器与所述对话系统的交互满足预设条件的情况下，确定交互完成，并获取所述对话文本。

3.根据权利要求2所述的对话系统的评测方法，其特征在于，所述预设条件表示关于所述第一用户目标的交互完成，或所述用户模拟器与所述对话系统交互的轮数大于预设轮数，或所述用户模拟器和/或所述对话系统发出交互停止指示的情况。

4.根据权利要求1至3中任一项所述的对话系统的评测方法，其特征在于，所述自动评分模型包括第一模型和第二模型，所述文本质量分数包括流畅度分数和连贯度分数，所述通过自动评分模型确定所述对话文本的文本质量分数，具体包括：

将所述对话文本输入至所述第一模型，确定所述流畅度分数；

将所述对话文本输入至所述第二模型，确定所述连贯度分数；

其中，所述第一模型为用于确定所述对话文本的流畅度的模型，所述第一模型为用于确定所述对话文本的连贯度的模型。

5.根据权利要求4所述的对话系统的评测方法，其特征在于，所述将所述对话文本输入至所述第一模型，确定所述流畅度分数，具体包括：

将所述对话文本输入至所述第一模型，确定所述对话文本的平均交叉熵损失；

以所述平均交叉熵损失作为所述流畅度分数。

6.根据权利要求4所述的对话系统的评测方法，其特征在于，所述将所述对话文本输入至所述第二模型，确定所述连贯度分数，具体包括：

将所述对话文本输入至所述第二模型，确定所述对话文本的平均置信度；

以所述平均置信度作为所述连贯度分数。

7.根据权利要求4所述的对话系统的评测方法，其特征在于，所述将所述对话文本输入至所述第一模型之前，所述评测方法还包括：

获取第一对话数据；

根据所述第一对话数据对第一预设模型进行训练，确定所述第一模型；

根据所述第一对话数据对第二预设模型进行训练，确定所述第二模型；

其中，所述第一预设模型为生成性预训练模型，所述第二预设模型为二分类分类器。

8.根据权利要求2或3所述的对话系统的评测方法，其特征在于，所述通过自动评分模型确定所述对话文本的文本质量分数之后，所述评测方法还包括：

根据所述对话文本中所述对话系统回复的对话内容与所述第一用户目标的要求的匹配度，确定对话的通知率；

根据所述对话文本中所述对话系统回复的对话内容与所述第一用户目标要求的全部信息的匹配度，确定对话的成功率。

9.根据权利要求2或3所述的对话系统的评测方法，其特征在于，在获取所述对话系统交互的对话文本之前，所述评测方法还包括：

获取第二对话数据和与所述第二对话数据对应的第二用户目标；

根据所述第二对话数据和所述第二用户目标对第三预设模型进行训练，构建所述用户模拟器；

其中，所述第三预设模型为文本到文本转换器。

10.一种对话系统的评测装置，其特征在于，包括：

获取模块，用于获取所述对话系统交互的对话文本；

第一处理模块，用于通过自动评分模型确定所述对话文本的文本质量分数；

第二处理模块，用于根据所述文本质量分数对所述对话系统进行评测；

11.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器存储有程序，所述处理器执行所述程序时实现如权利要求1至9中任一项所述的对话系统的评测方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至9中任一项所述的对话系统的评测方法的步骤。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器被执行时实现如权利要求1至9中任一项所述的对话系统的评测方法的步骤。