CN111488436B

CN111488436B - 多轮对话模型的生成方法、测试方法、装置及电子设备

Info

Publication number: CN111488436B
Application number: CN201910088049.XA
Authority: CN
Inventors: 李庆功
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2023-05-05
Anticipated expiration: 2039-01-29
Also published as: CN111488436A

Abstract

本发明实施例提供了一种多轮对话模型的生成方法、测试方法、装置及电子设备，其中方法包括：获取与多轮对话模型对应的测试语料集，测试语料集包含多个测试语料子集，各个测试语料子集分别与多轮对话模型中的各个测试对话路径对应，测试子集包括与各个对话节点对应的作为用户答复的测试语料，使用多个测试语料子集，分别对多轮对话模型进行测试，如果多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理。本发明实施例使用预先构建测试语料集来对各个测试对话路径进行分别测试，并在对话流出现偏差时报错，能够精确定位到出现偏差的对话节点，并且每个测试对话路径单独对应一套测试语料子集，从而能够对多轮对话模型进行全面测试。

Description

多轮对话模型的生成方法、测试方法、装置及电子设备

技术领域

本申请涉及一种多轮对话模型的生成方法、测试方法、装置及电子设备，属于计算机技术领域。

背景技术

对话工厂(Dialog Studio，简称DS)技术允许按照既定的话术套路设计用户与机器人之间的对话，通过填槽技术(Slot Filling)，机器人可以与用户在对话中完成业务流程处理。当用户与机器人的对话匹配到意图时，机器人会按照预先编排的多轮对话模型来收集所需参数，这里所说的参数是指，机器人为了进行下一步的业务处理而采集的信息，例如，当确认用户有订票意图时，需要进一步采集用户的身份信息、出发时间、出发目的地等信息，这些就是订票业务处理所需的参数。当意图的全部参数收集完毕，机器人会调用意图处理逻辑中配置的服务来进行业务处理，例如由机器人完成订单查询、退货、订票等业务处理。

在多轮对话模型的开发过程中，需要对开发出的多轮对话模型进行测试，以对多轮对话进行不断完善。机器人与用户的每一个对话回合称作一轮对话，要采集业务处理所需要的参数需要通过多轮对话来实现。现有技术中，开发人员采用都是单轮手动测试，即开发人员会针对每一轮的对话中机器人提问模拟输入用户答复，来测试会话流是否朝向预设的分支跳转。但是，由于多轮对话分支较多，测试工作量非常巨大，并且容易疏漏。并且，单轮对话无法从对话流的角度去测试多轮对话模型是否完善。

发明内容

本发明实施例提供一种多轮对话模型的生成方法、测试方法、装置及电子设备，以实现对多轮对话模型进行全面精确的测试。

为了实现上述目的，本发明实施例提供了一种多轮对话模型的生成方法，包括：

确定待优化的多轮对话模型，该多轮对话模型包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作；

根据用户配置数据生成用于对多轮对话模型进行优化测试的测试语料集；

使用该测试语料集对所述多轮对话模型的各个对话路径进行测试，以对所述多轮对话模型进行优化。

本发明实施例还提供了一种多轮对话模型的测试方法，包括：

为用户提供语料生成的配置界面；

响应于用户在配置界面的配置信息，生成测试语料集；

使用该测试语料集，对多轮对话模型进行测试。

获取多轮对话模型中的测试对话路径；

根据测试对话路径上的各个对话节点中的机器人提问，从测试语料集中获取用户答复并进行回复；

判断形成的对话流与所述测试对话路径是否存在偏差，如果存在偏差，则执行报错处理。

获取与多轮对话模型对应的测试语料集，所述测试语料集包含多个测试语料子集，各个测试语料子集分别与所述多轮对话模型中的各个测试对话路径对应，每个测试对话路径包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作，所述测试子集包括与各个对话节点对应的作为用户答复的测试语料；

使用所述多个测试语料子集，分别对所述多轮对话模型进行测试，如果所述多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理。

本发明实施例还提供了一种多轮对话模型的测试装置，包括：

测试语料集获取模块，用于获取与多轮对话模型对应的测试语料集，所述测试语料集包含多个测试语料子集，各个测试语料子集分别与所述多轮对话模型中的各个测试对话路径对应，每个测试对话路径包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作，所述测试子集包括与各个对话节点对应的作为用户答复的测试语料；

测试处理模块，用于使用所述多个测试语料子集，分别对所述多轮对话模型进行测试，如果所述多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于如下处理：

本发明实施例还提供了一种电子设备，其中，包括：

存储器，用于存储程序；

本发明实施例还提供了一种电子设备，其中，包括：

存储器，用于存储程序；

为用户提供语料生成的配置界面；

响应于用户在配置界面的配置信息，生成测试语料集；

使用该测试语料集，对多轮对话模型进行测试。

本发明实施例还提供了一种电子设备，其中，包括：

存储器，用于存储程序；

获取多轮对话模型中的测试对话路径；

本发明实施例使用预先构建测试语料集来对各个测试对话路径进行分别测试，并在对话流出现偏差时报错，能够精确定位到出现偏差的对话节点，并且每个测试对话路径单独对应一套测试语料子集，从而能够对多轮对话模型进行全面测试。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1为本发明实施例的多轮对话模型的测试方法的应用场景示意图之一；

图2为本发明实施例的多轮对话模型的测试方法的流程示意图之一；

图3为本发明实施例的多轮对话模型的测试方法的流程示意图之二；

图4为本发明实施例的多轮对话模型的测试方法的应用场景示意图之二；

图5为本发明实施例的多轮对话模型的测试方法的应用场景示意图之三；

图6为本发明实施例的多轮对话模型的测试方法的应用场景示意图之四；

图7为本发明实施例的多轮对话模型的测试装置的结构示意图；

图8为本发明实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在多轮对话的开发过程中，需要对设计出的多轮对话模型进行测试，以对多轮对话模型进行不断改进，而现有技术的单轮手动测试工作量巨大，并且容易疏漏，本发明实施例通过对多轮对话模型中的各个对话路径设计测试语料集，从而进行全面的测试。本申请实施例中，可在多轮对话开发平台中实现，具体而言，该多轮对话开发平台可为需要开发多轮对话模型(或者称为多轮对话机器人)的用户提供便捷的开发过程，例如，用户可以在该开发平台快速的编辑和生成多轮对话模型；同时，可根据本申请实施例中的测试语料集对多轮对话模型进行测试优化，从而生成满足用户需求的多轮对话模型。

本申请实施例中，用户可以在多轮对话开发平台上通过配置多轮对话的场景需求信息，或者说用户的特征信息，来生成对应的测试语料集来实现对多轮对话模型的测试优化。这样的语料集可以满足用户对特定场景设计的对话模型的测试，从而可以提高用户生成的模型的准确性和可靠性。

具体地，如图1所示，其为本发明实施例的多轮对话模型的测试方法的应用场景示意图之一，多轮对话模型包括多个对话节点，例如，节点1至节点9，每个对话节点中包括预设的机器人提问和根据用户答复而执行的处理动作。对于每个节点的处理动作可以是跳转到另一个对话节点，进行下一轮的对话，也可以是完成信息采集后执行具体的业务处理，还可以是结束对话。例如，图中节点4的处理动作可以是跳转到节点9或节点8，还可以是业务处理a，具体的业务处理可以是执行用户意图的具体操作，例如进行订票等，而节点9的动作处理可以是业务处理d还可以是结束对话。基于处理动作的设定，每个对话节点会有多个分支，因此，整个多轮对话模型中也会形成多个对话路径，例如，节点1、节点2、节点4、节点9和业务处理d的串联就形成了一条对话路径。其中，这里所说的“对话路径”包含了各个对话节点之间的跳转关系以及对话节点所执行的处理动作。

在本发明实施例的测试方法中，将根据多轮对话中的对话路径构建测试语料集，整个测试语料集包含多个测试语料子集，各个测试语料子集分别与多轮对话模型中的各个测试对话路径对应。测试语料集的作用是模拟用户答复，以测试开发人员设计的多轮对话模型是否按照开发人员的意图实现对话流。因此，每个测试语料子集中包含与各个对话节点对应的作为用户答复的测试语料，即针对每个对话节点中的机器人提问来确定的作为用户答复的测试语料。其中，测试语料可以包括多个模拟用户答复(从不同角度或者表达方式模拟的用户答复)，这样能够更加全面地测试该对话节点中处理动作是否合理。

进一步地，测试语料可以根据机器人的提问人为设定标准答复语料，例如，机器人的问题是“请问您想订哪里的机票”，标准答复语料可以是“我想订北京飞往广州的机票”。另外，也可以从用户聊天记录中提取能够作为用户答复的测试语料，例如，机器人的问题为“请问您想订哪里的机票”，用户答复可以是“我要去广州出差”，在这种情况下，机器人需要对用户答复的信息进行语义分析，并结合用户当前的位置确定出用户是想要订北京到广州的机票。因此，用户的表达方式是多种多样的，不一定都会采用标准的回答方式，在测试的过程中，可以通过上下的联系确定符合实际场景的答复。对于一些常见答复情况，可以从一些历史的用户真实对话记录中提取。除此以外，还可以通过大数据挖掘从网络语料库中获取的作为用户答复的测试语料，例如，网络平台提供的大量的语料库，可以根据预设的机器人提问，借助网络资源来形成更多的测试语料。

在构建好测试语料集后，就可以根据测试语料集中的各个测试语料子集，分别对多轮对话模型进行测试。其中，各个测试语料子集中的测试语料可以具有上下文的关联关系，以呈现更加接近真实的对话场景，并且也能够更好地测试多轮对话模型的适应性。

具体地，如图1所示，针对各个测试对话路径的测试可以通过对话管理(DialogManagement简称DM)模块和自然语言理解(Natural Language Understanding，简称NLU)模块，基于测试语料子集，驱动多轮对话模型进行测试，形成对话流，，通过对话管理模块和自然语言理解模块，基于测试语料子集中的语料，驱动所述多轮对话模型，形成对话流。其中，在测试过程中，对话管理模块和所述自然语言理解模块，对形成的对话流进行基于上下文的对话生命周期管理和语义识别。

如果多轮对话模型设计合理，那么，基于测试语料子集中的测试语料驱动的多轮对话模型所形成的对话流，应该沿着与该测试语料子集对应的测试对话路径走。如果出现了偏差，那么说明多轮对话模型存在问题，就会进行报错。

例如，在某个对话节点中，模拟用户答复为“我要提取公积金”，而实际意图识别为“我要查询公积金”，从而触发了“查询公积金”的处理动作。或者，模拟用户答复为“我要提取公积金”，意图识别是正确的，但是却错误的配置了执行“查询公积金”的处理动作，这两种情况都会导致与测试对话路径出现偏差。

当出现对话流与测试对话路径出现偏差时，测试会进行报错。为了让用户更加直观地分析错误以及便于用户进行修改，可以将错误的对话节点或者测试对话路径标识在画布界面上，并且，开发人员可以在画布上直接进行修改，在修改完多轮对话模型后，为了避免当前的修改可能触发其他测试对话路径错误的问题，可以使用已经构建好的测试语料集重新进行全面的测试。其中，这里所说的画布界面是开发人员用来配置多轮对话模型的开发界面，用于展现整个多轮对话模型，并且可以针对各个对话节点进行编辑修改等。

下面通过一些具体实施例来进一步说明本发明的技术方案。

实施例一

如图2所示，其为本发明实施例的多轮对话模型的测试方法的流程示意图之一，该方法包括如下步骤：

S101：获取与多轮对话模型对应的测试语料集，测试语料集包含多个测试语料子集，各个测试语料子集分别与多轮对话模型中的各个测试对话路径对应，每个测试对话路径包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作，测试子集包括与各个对话节点对应的作为用户答复的测试语料。

具体地，如图3所示，其为本发明实施例的多轮对话模型的测试方法的流程示意图之二，获取与多轮对话模型对应的测试语料集的过程可以包括如下步骤：

S1011：根据多轮对话模型的各个对话节点的处理动作，提取出多个测试对话路径。

在对多轮对话模型测试之前，可以提取出多轮对话模型测试的多条测试对话路径，提取对话路径的方式可以利用遍历算法，对多轮对话模型的各个对话节点进行遍历，从而提取出全部的可能对话路径。如图1所示，多轮对话模型包括多个节点，例如，节点1至节点9，每个对话节点中包括预设的机器人提问和根据用户答复而执行的处理动作。对于每个节点的处理动作可以是跳转到另一个对话节点，进行下一轮的对话，也可以是完成信息采集后执行具体的业务处理，还可以是结束对话。例如，图中节点4的处理动作可以是跳转到节点9或节点8，还可以是执行业务处理a，具体的业务处理可以是执行用户意图的具体操作，例如进行订票等。而节点9的动作处理可以是执行业务处理d还可以是结束对话。基于处理动作的设定，每个对话节点会有多个分支，因此，整个多轮对话模型中也会形成多个对话路径，例如，节点1、节点2、节点4、节点9和业务处理d的串联就形成了一条对话路径。

S1012：根据各个测试对话路径中每个对话节点的机器人提问和处理动作，分别生成作为用户答复的测试语料，测试语料的语义与对应的测试对话路径相匹配，即按照开发人员的设计本意，利用该测试语料，能够让对话流沿着测试对话路径进行。

测试语料可以来自于：根据机器人提问生成的标准答复语料，和/或，从用户聊天记录中提取的能够作为用户答复的测试语料，和/或，通过大数据挖掘从网络语料库中获取的作为用户答复的测试语料。

具体地，测试语料可以根据机器人的提问人为设定标准答复语料，例如，机器人的问题是“请问您想订哪里的机票”，标准答复语料可以是“我想订北京飞往广州的机票”。另外，也可以从用户聊天记录中提取能够作为用户答复的测试语料，例如，机器人的问题为“请问您想订哪里的机票”，用户答复可以是“我要去广州出差”，在这种情况下，机器人需要对用户答复的信息进行语义分析，并结合用户当前的位置确定出用户是想要订北京到广州的机票。因此，用户的表达方式是多种多样的，不一定都会采用标准的回答方式，在测试的过程中，可以通过上下的联系确定符合实际场景的答复。对于一些常见答复情况，可以从一些历史的用户真实对话记录中提取。除此以外，还可以通过大数据挖掘从网络语料库中获取的作为用户答复的测试语料，例如，网络平台提供的大量的语料库，可以根据预设的机器人提问，借助网络资源来形成更多的测试语料。

S1013：将每个测试对话路径中各个对话节点的测试语料，按照对应的测试对话路径的对话节点顺序，形成测试语料序列并作为测试语料子集。

具体地，例如图1中所示的节点1、节点2、节点4、节点9和业务处理d串联形成的对话路径，对应的节点的测试语料按照对话节点的顺序排列将形成该对话路径的测试语料子集。

S1014：将各个测试对话路径对应的测试语料子集组合后，形成测试语料集。

具体地，将上述形成的测试语料子集组合后就形成了测试语料集。测试语料集的作用是模拟用户答复，以测试开发人员设计的多轮对话模型是否按照开发人员的意图实现对话流。因此，每个测试语料子集中包含与各个对话节点对应的作为用户答复的测试语料，即针对每个对话节点中的机器人提问来确定的作为用户答复的测试语料。其中，测试语料可以包括多个模拟用户答复(从不同角度或者表达方式模拟的用户答复)，这样能够更加全面地测试该对话节点中处理动作是否合理。

在确定了测试语料集后，就可以使用该测试语料集进行进一步的测试了。在下面的描述中将具体介绍对多轮对话模型进行测试。

S102：使用多个测试语料子集，分别对多轮对话模型进行测试。

在构建好测试语料集后，就可以根据测试语料集中的各个测试语料子集，分别对多轮对话模型进行测试。为了进行全面的测试，一般提取出全部可能的测试对话路径进行测试，也可以根据实际需要，只选择其中部分测试对话路径进行测试。根据每个测试语料子集的测试结果，执行如下S103和S104的处理。

S103：如果多轮对话模型的对话流按照测试对话路径执行对话，则确定该测试对话路径为正常状态。即按照该测试语料子集而触发的对话流是按照对应的测试对话路径进行的，符合多轮对话模型的设计预期。

S104：如果多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理。

如果多轮对话模型的对话流与对应的测试对话路径出现了偏差，那么说明多轮对话模型存在问题，就会进行报错。

具体地，在报错方式方面，可以在与多轮对话模型对应的画布界面上，标记出对话流与测试对话路径出现偏差的对话节点和/或测试对话路径。例如，如图4所示，其为本发明实施例的多轮对话模型的测试方法的应用场景示意图之二，图中的多轮对话模型中原始对话为“我要提取一下我的公积金”，所以意图应该识别为“提取公积金”，但实际识别意图为“查询公积金”，因此，在提取公积金触发节点出现错误，从而在画布上进行了相应的显示，提醒用户在画布上进行相应的修改。如图5所示，其为本发明实施例的多轮对话模型的测试方法的应用场景示意图之三，图5中左侧显示了错误原因为对话节点中的变量缺失以及函数无响应，右侧显著地示出了出错路径也就是当前的测试对话路径(起始节点为提取公积金触发节点，结束节点为查询公积金接口节点)在多轮对话模型中的位置，从而让用户能够更好地分析该测试对话路径的错误原因以及对其他路径的影响，也便于用户进行进一步修改。

另外，还可以在出现偏差后提示出现对话流与测试对话路径出现偏差的对话节点以及对应的上下文对话内容。如图6所示，其为本发明实施例的多轮对话模型的测试方法的应用场景示意图之四，在上述提取公积金触发节点出现错误的意图识别后还可以在画布上显示具体的上下文对话内容，从而可以更直观的展现对话情景，帮助用户修改错误。

进一步地，在发现错误偏差后，响应于对多轮对话模型的修改操作，使用测试语料集重新对修改后的多轮对话模型进行测试。

具体地，开发人员可以在画布上直接进行修改，在修改完多轮对话模型后，为了避免当前的修改可能触发其他测试对话路径错误的问题，可以使用已经构建好的测试语料集重新进行全面的测试。

本发明实施例使用预先构建测试语料集来对各个测试对话路径进行分别测试，并在对话流出现偏差时报错，能够精确定位到出现偏差的对话节点，并且每个测试对话路径单独对应一套测试语料子集，从而能够对多轮对话模型进行全面测试。另外，本发明实施例采用的是针对各个测试对话路径而设计的模拟多轮对话的测试语料集，在测试的过程中，能够进行基于多轮对话而形成的对话流进行测试，在测试的过程中，可以结合上下文的联系，进行更加符合实际对话场景的测试。

实施例二

如图7所示，其为本发明实施例的多轮对话模型的测试装置的结构示意图，该装置包括：

测试语料集获取模块21，用于获取与多轮对话模型对应的测试语料集，测试语料集包含多个测试语料子集，各个测试语料子集分别与多轮对话模型中的各个测试对话路径对应，每个测试对话路径包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作，测试子集包括与各个对话节点对应的作为用户答复的测试语料。

具体地，获取与多轮对话模型对应的测试语料集的过程可以包括：

根据多轮对话模型的各个对话节点的处理动作，提取出多个测试对话路径。

在对多轮对话模型测试之前，可以提取出多轮对话模型测试的多条测试对话路径，提取对话路径的方式可以利用遍历算法，对多轮对话模型的各个对话节点进行遍历，从而提取出全部的可能对话路径。每个对话节点中包括预设的机器人提问和根据用户答复而执行的处理动作。对于每个节点的处理动作可以是跳转到另一个对话节点，进行下一轮的对话，也可以是完成信息采集后执行具体的业务处理，还可以是结束对话。

然后，根据各个测试对话路径中每个对话节点的机器人提问和处理动作，分别生成作为用户答复的测试语料，测试语料的语义与对应的测试对话路径相匹配，即按照开发人员的设计本意，利用该测试语料，能够让对话流沿着测试对话路径进行。

此后，将每个测试对话路径中各个对话节点的测试语料，按照对应的测试对话路径的对话节点顺序，形成测试语料序列并作为测试语料子集。

最后，将各个测试对话路径对应的测试语料子集组合后，形成测试语料集。

测试处理模块22，用于使用多个测试语料子集，分别对多轮对话模型进行测试。

在测试语料集获取模块21构建好测试语料集后，测试处理模块22就可以根据测试语料集中的各个测试语料子集，分别对多轮对话模型进行测试。为了进行全面的测试，一般提取出全部可能的测试对话路径进行测试，也可以根据实际需要，只选择其中部分测试对话路径进行测试，根据每个测试语料子集的测试结果，可以执行如下处理：

如果多轮对话模型的对话流按照测试对话路径执行对话，则确定该测试对话路径为正常状态。即按照该测试语料子集而触发的对话流是按照对应的测试对话路径进行的，符合多轮对话模型的设计预期。

如果多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理。

具体地，在报错方式方面，可以在与多轮对话模型对应的画布界面上，标记出对话流与测试对话路径出现偏差的对话节点和/或测试对话路径。

另外，还可以在出现偏差后提示出现对话流与测试对话路径出现偏差的对话节点以及对应的上下文对话内容。

实施例三

本实施例涉及一种多轮对话模型的生成方法。该方法可以基于模型设计平台而执行，模型设计平台为作为多轮对话模型开发方的用户提供模型开发、测试以及优化的服务。在本实施例中，作为多轮对话模型开发方的用户一般是企业或者机构，基于业务上的需求，而设计多轮对话模型，以辅助其执行业务处理，例如，一个旅行社为了方便用户订购机票，而需要开发一套用于与顾客进行订票方面的信息交互的多轮对话模型。具体地，该方法包括：

S201：确定待优化的多轮对话模型，该多轮对话模型包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作。这里所说的用户答复是指作为顾客或者消费者的答复。多轮对话模型可以基于模型设计平台为作为开发方的用户提供的画布界面而生成，画布界面可以以非常直观的方式为开发人员提供各个对话节点以及对话节点之间的连接关系的编辑和配置功能，开发人员通过对画布界面就可以生成多轮对话模型，在生成了初步的多轮对话模型后，还可以进行后续步骤的优化处理。

S202：根据用户配置数据生成用于对多轮对话模型进行优化测试的测试语料集。这里的用户配置数据可以是作为开发方的用户的需求数据，或者是作为开发方的用户提供的其面对的顾客或者消费者的一些信息，或者是一些历史的交互数据，例如客服与顾客或者消费者之间的历史聊天记录，顾客或者消费者的使用行为数据或者注册信息等等。

S203：使用该测试语料集对多轮对话模型的各个对话路径进行测试，以对多轮对话模型进行优化。在生成了多轮对话模型后，可以通过前述实施例中介绍的测试语料集，对多轮对话模型的各个对话路径进行测试，并基于测试情况不断完善该多轮对话模型，以形成满足信息采集需求的多轮对话模型。具体的测试过程可以包括：

S2031：获取多轮对话模型中的测试对话路径；

S2032：根据测试对话路径上的各个对话节点中的机器人提问，从测试语料集中获取用户答复并进行回复；

S2033：判断形成的对话流与测试对话路径是否存在偏差，如果存在偏差，则执行报错处理。

进一步地，如果对话流与预设的对话路径出现偏差，则出现偏差的对话节点进行修正，并再次使用测试语料集对多轮对话模型的各个对话路径进行测试，如果测试通过，则输出多轮对话模型。

需要说明的是，模型设计平台可以为用户提供模型开发、测试以及优化整套服务，也可以针对用户已经开发的多轮对话模型提供测试和优化服务，在这种情况下，用户可以向模型设计平台导入已经设计的多轮对话模型即可。

实施例四

本实施例涉及一种多轮对话模型的测试方法，该方法通过对话交互的模式对多轮对话模型进行测试，该方法包括：

S301：在给定待测试的多轮对话模型后，获取多轮对话模型中的测试对话路径。具体可以通过对多轮对话模型进行遍历的方式，提取出该多轮对话模型的全部对话路径作为测试对话路径。

S302：根据测试对话路径上的各个对话节点中的机器人提问，从测试语料集中获取用户答复并进行回复。测试语料集可以通过前述实施例中介绍方式形成。

S303：基于这种对话形式，将会生成对话流，然后判断形成的对话流与测试对话路径是否存在偏差，如果存在偏差，则执行报错处理，然后可以对该多轮对话模型进行修改，并再次进行全面测试，如果不存在偏差，可以确定为测试通过。

作为另外一种实施例，本发明实施例还提供了一种多轮对话模型的测试方法，其包括：

S401：为用户提供语料生成的配置界面；

S402：响应于用户在配置界面的配置信息，生成测试语料集；

S403：使用该测试语料集，对多轮对话模型进行测试。具体的测试过程可以参见前面各个实施例的处理过程。

实施例五

前面实施例描述了本发明实施例流程处理及装置结构，上述的方法和装置的功能可借助一种电子设备实现完成，如图8所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器110和处理器120。

存储器110，用于存储程序。

除上述程序之外，存储器110还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器110可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器120，耦合至存储器110，用于执行存储器110中的程序，以用于执行如下处理：

获取与多轮对话模型对应的测试语料集，测试语料集包含多个测试语料子集，各个测试语料子集分别与多轮对话模型中的各个测试对话路径对应，每个测试对话路径包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作，测试子集包括与各个对话节点对应的作为用户答复的测试语料；

使用多个测试语料子集，分别对多轮对话模型进行测试，如果多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理。

其中，获取与多轮对话模型对应的测试语料集可以包括：

根据多轮对话模型的各个对话节点的处理动作，提取出多个测试对话路径；

根据各个测试对话路径中每个对话节点的机器人提问和处理动作，分别生成作为用户答复的测试语料，测试语料的语义与对应的测试对话路径相匹配；

将每个测试对话路径中各个对话节点的测试语料，按照对应的测试对话路径的对话节点顺序，形成测试语料序列并作为测试语料子集；

将各个测试对话路径对应的测试语料子集组合后，形成测试语料集。

其中，测试语料可以包括：

根据机器人提问生成的标准答复语料，和/或，从用户聊天记录中提取的能够作为用户答复的测试语料，和/或，通过大数据挖掘从网络语料库中获取的作为用户答复的测试语料。

其中，执行报错处理可以包括：

在与多轮对话模型对应的画布界面上，标记出对话流与测试对话路径出现偏差的对话节点和/或测试对话路径。

其中，上述处理还可以包括：

响应于对多轮对话模型的修改操作，使用测试语料集重新对修改后的多轮对话模型进行测试。

其中，如果多轮对话模型的对话流按照测试对话路径执行对话，则可以确定该测试对话路径为正常状态。

其中，测试语料子集中的测试语料具有上下文的关联关系，

使用多个测试语料子集，分别对多轮对话模型进行测试可以包括：

针对各个测试对话路径，通过对话管理模块和自然语言理解模块，基于测试语料子集中的语料，驱动多轮对话模型，形成对话流，其中，在测试过程中，对话管理模块和自然语言理解模块，对形成的对话流进行基于上下文的对话生命周期管理和语义识别。

其中，执行报错处理可以包括：

提示出现对话流与测试对话路径出现偏差的对话节点以及对应的上下文对话内容。

作为另外一种实施方式，上述处理可以包括：

其中，所述确定待优化的多轮对话模型包括：

响应于用户在模型设计平台上的画布界面的操作，生成所述多轮对话模型的对话节点以及对话节点之间的连接关系。

其中，所述使用该测试语料集对所述多轮对话模型的各个对话路径进行测试包括：

获取多轮对话模型中的测试对话路径；

作为另外一种实施方式，上述处理可以包括：

为用户提供语料生成的配置界面；

响应于用户在配置界面的配置信息，生成测试语料集；

使用该测试语料集，对多轮对话模型进行测试。

作为另外一种实施方式，上述处理可以包括：

获取多轮对话模型中的测试对话路径；

上述对于上述处理过程具体说明、技术原理详细说明以及技术效果详细分析在前面实施例中进行了详细描述，在此不再赘述。

进一步，如图所示，电子设备还可以包括：通信组件130、电源组件140、音频组件150、显示器160等其它组件。图中仅示意性给出部分组件，并不意味着电子设备只包括图中所示组件。

通信组件130被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件130经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件130还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件140，为电子设备的各种组件提供电力。电源组件140可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件150被配置为输出和/或输入音频信号。例如，音频组件150包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器110或经由通信组件130发送。在一些实施例中，音频组件150还包括一个扬声器，用于输出音频信号。

显示器160包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多轮对话模型的生成方法，包括：

使用该测试语料集对所述多轮对话模型的各个对话路径进行测试，以对所述多轮对话模型进行优化；

其中，所述根据用户配置数据生成用于对多轮对话模型进行优化测试的测试语料集，包括：

根据各个测试对话路径中每个对话节点的机器人提问和处理动作，分别生成作为用户答复的测试语料，所述测试语料的语义与对应的测试对话路径相匹配；

将各个测试对话路径对应的测试语料子集组合后，形成所述测试语料集。

2.根据权利要求1所述的方法，其中，所述确定待优化的多轮对话模型包括：

3.根据权利要求1所述的方法，其中，所述使用该测试语料集对所述多轮对话模型的各个对话路径进行测试包括：

获取多轮对话模型中的测试对话路径；

4.一种多轮对话模型的测试方法，包括：

为用户提供语料生成的配置界面；

响应于用户在配置界面的配置信息，生成测试语料集；

使用该测试语料集，对多轮对话模型进行测试；

其中，所述响应于用户在配置界面的配置信息，生成测试语料集，包括：

5.一种多轮对话模型的测试方法，包括：

获取多轮对话模型中的测试对话路径；

判断形成的对话流与所述测试对话路径是否存在偏差，如果存在偏差，则执行报错处理；

其中，所述方法还包括：

6.一种多轮对话模型的测试方法，包括：

获取与多轮对话模型对应的测试语料集，所述测试语料集包含多个测试语料子集，各个测试语料子集分别与所述多轮对话模型中的各个测试对话路径对应，每个测试对话路径包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作，所述测试语料子集包括与各个对话节点对应的作为用户答复的测试语料；

使用所述多个测试语料子集，分别对所述多轮对话模型进行测试，如果所述多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理；

其中，获取与多轮对话模型对应的测试语料集包括：

将每个测试对话路径中各个对话节点的测试语料，按照对应的测试对话路径的对话节点顺序，形成测试语料序列并作为所述测试语料子集；

7.根据权利要求6所述的方法，其中，所述测试语料包括：

根据所述机器人提问生成的标准答复语料，和/或，从用户聊天记录中提取的能够作为用户答复的测试语料，和/或，通过大数据挖掘从网络语料库中获取的作为用户答复的测试语料。

8.根据权利要求6所述的方法，其中，所述执行报错处理包括：

在与所述多轮对话模型对应的画布界面上，标记出对话流与测试对话路径出现偏差的对话节点和/或测试对话路径。

9.根据权利要求8所述的方法，其中，还包括：

响应于对多轮对话模型的修改操作，使用所述测试语料集重新对修改后的多轮对话模型进行测试。

10.根据权利要求6所述的方法，其中，如果所述多轮对话模型的对话流按照测试对话路径执行对话，则确定该测试对话路径为正常状态。

11.根据权利要求6所述的方法，其中，所述测试语料子集中的测试语料具有上下文的关联关系，

所述使用所述多个测试语料子集，分别对所述多轮对话模型进行测试包括：

针对各个测试对话路径，通过对话管理模块和自然语言理解模块，基于测试语料子集中的语料，驱动所述多轮对话模型，形成对话流，其中，在测试过程中，所述对话管理模块和所述自然语言理解模块，对形成的对话流进行基于上下文的对话生命周期管理和语义识别。

12.根据权利要求11所述的方法，其中，执行报错处理包括：

13.一种多轮对话模型的测试装置，包括：

测试语料集获取模块，用于获取与多轮对话模型对应的测试语料集，所述测试语料集包含多个测试语料子集，各个测试语料子集分别与所述多轮对话模型中的各个测试对话路径对应，每个测试对话路径包括多个对话节点，每个对话节点包括预设的机器人提问以及根据用户答复而执行的处理动作，所述测试语料子集包括与各个对话节点对应的作为用户答复的测试语料；

测试处理模块，用于使用所述多个测试语料子集，分别对所述多轮对话模型进行测试，如果所述多轮对话模型的对话流与对应的测试对话路径出现偏差，则执行报错处理；

其中，获取与多轮对话模型对应的测试语料集包括：

14.一种电子设备，其中，包括：

存储器，用于存储程序；

其中，获取与多轮对话模型对应的测试语料集包括：

15.一种电子设备，其中，包括：

存储器，用于存储程序；

16.一种电子设备，其中，包括：

存储器，用于存储程序；

为用户提供语料生成的配置界面；

响应于用户在配置界面的配置信息，生成测试语料集；

使用该测试语料集，对多轮对话模型进行测试；

17.一种电子设备，其中，包括：

存储器，用于存储程序；

获取多轮对话模型中的测试对话路径；

其中，所述处理器还用于如下处理：