CN110209561B

CN110209561B - 用于对话平台的评测方法和评测装置

Info

Publication number: CN110209561B
Application number: CN201910385993.1A
Authority: CN
Inventors: 刘伟丽; 沈湘
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2024-02-09
Anticipated expiration: 2039-05-09
Also published as: CN110209561A

Abstract

本发明实施例提供一种用于对话平台的评测方法和评测装置，属于人工智能领域。所述评测方法包括：选择对所述对话平台的性能进行评测的指标，确定所选择的指标对应的实际参数值；以及根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分，所述指标为以下中的一者或多者：对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时。通过本发明的技术方案，可以实现对对话平台的自动评测，提升测评效率，降低人力成本。

Description

用于对话平台的评测方法和评测装置

技术领域

本发明涉及人工智能技术领域，具体地涉及一种用于对话平台的评测方法和用于对话平台的评测装置。

背景技术

目前有很多公司都在研发对话平台，对话平台即理解与交互技术平台。对话平台可以提供对话模型，而对话平台的主要职责就是负责意图和槽位的解析。例如，用户向对话平台提供的对话模型提问“北京今天天气怎么样”，对话平台会解析出用户的意图(intent)是“查询天气”，槽位(slot)有“时间(time)”是“今天”，“地点(local)”是“北京”，对话平台再通过调用第三方api接口、查询数据库或者通过其他操作返回最终的结果，比如可以返回“北京今天晴”。

现已开放的主流对话平台有很多，例如百度的unit平台、Google的api.ai平台、Facebook的wit平台、Microsoft的lusi平台以及科大讯飞的AIUI等等，但是这些对话平台的性能和提供的对话模型的效果对于用户来说都是未知的。

目前，只能通过人工使用对话平台进行效果评测，而人工评测具有成本高和效率低的缺点。另外，人工评测的评测维度单一，而用户对对话平台的关注点又不仅局限于平台效果，因此会导致人工评测的有关对话平台的评测结论会与用户的真实体验之间有较大的差距。

发明内容

本发明实施例的目的是提供一种用于对话平台的评测方法和评测装置，用于解决上述技术问题中的一者或多者。

为了实现上述目的，本发明实施例提供一种用于对话平台的评测方法，上述评测方法包括：选择对所述对话平台的性能进行评测的指标；确定所选择的指标对应的实际参数值；以及根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分，所述指标为以下中的一者或多者：对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时。

可选的，所述评测方法还包括：在所选择的指标为多个指标的情况下，根据所选择的指标的预设权重值和所选择的指标的评分结果确定所述对话平台的综合评分。

可选的，选择根据对话平台建立可用模型的耗时对所述对话平台的性能进行评测包括：根据建立可用模型的训练数据上传时间、可用模型训练时间、可用模型的意图和槽位的确定时间以及可用模型的模型启动时间确定所述对话平台建立可用模型的耗时。

可选的，选择根据可用模型对输入的query的解析效果对所述对话平台的性能进行评测包括：针对单轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、以及意图召回率；针对多轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、意图召回率、对话整体召回正确平均轮数、以及对话意图召回正确平均轮数。

可选的，选择根据可用模型的理解能力对所述对话平台的性能进行评测包括：根据意图的精细化程度和槽位的精细化程度确定所述可用模型的理解能力，其中，所述意图的精细化程度由对话平台提供的意图数量确定，所述槽位的精细化程度由对话平台提供的槽位的数量和可用模型允许输入的可配置槽位的数量确定。

可选的，选择根据可用模型的稳定性对所述对话平台进行评测包括：根据正常返回的query的数量占输入的总query数量的比例确定所述可用模型的稳定性。

可选用，选择根据可用模型返回query的平均耗时对所述对话平台进行评测包括：根据正常返回的query总耗时与正常返回的query的总数量之比确定所述可用模型返回query的平均耗时。

可选的，所述方法还包括：建立至少两个封闭场景的可用模型和至少一个开放场景的可用模型以对所述对话平台进行评测。

相应的，本发明实施例还提供了一种用于对话平台的评测装置，所述评测装置包括：选择模块，用于选择对所述对话平台的性能进行测试的指标，所述指标为以下中的一者或多者：对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时；以及评分模块，用于确定所选择的指标对应的实际参数值；以及根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分。

可选的，在所选择的指标为多个指标的情况下，所述评分模块还用于执行以下操作：根据所选择的指标的预设权重值和所选择的指标的评分结果确定所述对话平台的综合得分。

可选的，所述选择模块选择根据对话平台建立可用模型的耗时对所述对话平台的性能进行评测包括：根据建立可用模型的训练数据上传时间，可用模型训练时间、可用模型的意图和槽位的确定时间以及可用模型的模型启动时间确定所述对话平台建立可用模型的耗时。

可选的，所述选择模块选择根据可用模型对输入的query的解析效果对所述对话平台的性能进行评测包括：针对单轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、以及意图召回率；针对多轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、意图召回率、对话整体召回正确平均轮数、以及对话意图召回正确平均轮数。

可选的，所述选择模块选择根据可用模型的理解能力对所述对话平台的性能进行评测包括：根据意图的精细化程度和槽位的精细化程度确定所述可用模型的理解能力，其中，所述意图的精细化程度由对话平台提供的意图数量确定，所述槽位的精细化程度由对话平台提供的槽位的数量和可用模型允许输入的可配置槽位的数量确定。

可选的，所述选择模块选择根据可用模型的稳定性对所述对话平台进行评测包括：根据正常返回的query的数量占输入的总query数量的比例确定所述可用模型的稳定性。

可选的，所述选择模块选择根据可用模型返回query的平均耗时对所述对话平台进行评测包括：根据正常返回的query总耗时与正常返回的query的总数量之比确定所述可用模型返回query的平均耗时。

可选的，所述检测装置还包括建模模块，所述建模模块用于建立至少两个封闭场景的可用模型和至少一个开放场景的可用模型以对所述对话平台进行评测。

相应的，本发明还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述中任一项所述的用于对话平台的评测方法。

相应的，本发明还提供一种处理器，用于运行程序，所述程序被运行时用于执行本申请上述中任一项所述的用于对话平台的评测方法。

通过上述技术方案，根据选定的合适的指标对对话平台进行评分来时限对对话平台的自动评测，能够提升评测效率，降低人力成本。并且上述技术方案中提供的评测指标基本覆盖了用户和开发者关注的所有维度，在进行评测的过程中，可以模拟真实用户的使用过程，使得评测结果更加接近于用户的真实体验。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的用于对话平台的评测方法的流程示意图；

图2是本发明实施例提供的用于对话平台的评测方法的总方案示意图；

图3是本发明实施例提供的用于对话平台的评测方法的流程示意图；

图4是本发明实施例提供的用于对话平台的评测装置的结构框图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1示出了根据本发明一实施例的用于对话平台的评测方法的流程示意图。如图1所示，本发明实施例提供一种用于对话平台的评测方法，所述方法可以包括步骤S102至步骤S106。

步骤S102，选择对对话平台的性能进行评测的指标。

可选的，可以选用以下指标中的一者或多者来实现对对话平台的性能的自动测试：对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时。

本发明该实施例提供的上述可选用的指标可以实现从对话平台提供的可用模型的实际效果、实际功能、易用性和稳定性等多个方面对对话平台进行测评。

在对对话平台进行评测时，不仅要考虑对话平台自身的性能，还应该考虑到对话平台训练出的可用模型的性能。因此，在对对话平台进行评测时，优选建立至少两个如智能客服、金融和地图等封闭场景的可用模型和至少一个开放场景的可用模型，并综合上述至少三种模型确定该对话平台的性能。

步骤S104，确定所选择的指标对应的实际参数值。

可选的，根据选择的指标的不同，获取所选择的指标对应的实际参数值的方法可以是不同的，本领域技术人员可以根据实际选择的指标，通过任意的方式获取指标对应的实际参数值。例如，对于对话平台建立可用模型的耗时来说，可以先获取建立可用模型的训练数据上传时间、可用模型的训练时间、可用模型的意图和槽位的确定时间和可用模型的启动时间，并将上述各阶段的时间之和作为所述对话平台建立可用模型的耗时的实际参数值，对于可用模型的稳定性来说，可以根据获取的可用模型正常返回的query的数量和输入的至可用模型的总query数量来确定所述可用模型的稳定性的实际参数值等等。

步骤S106，根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分。

为了获得更加直观的评测结果，在获取选择的指标对应的实际参数值以后，还需要根据实际参数值与预设参数值的比较结果来确定所选择的指标的评分。

其中，根据用户需求的不同，可以自行设定与不同指标对应的预设参数值。例如，可以采用十分制来对对话平台的性能进行评测，对于对话平台建立可用模型的耗时这一指标来说，可以设定预设参数值a₁<a₂<a₃，如果获取的对话平台建立可用模型的耗时的实际参数值a<a₁，则认定该可用模型的用户体验非常好，其评分可以为十分，如果获取的对话平台建立可用模型的耗时的实际参数值a处于a₁和a₂之间，则认定该可用模型的用户体验一般，其评分可以为八分，如果获取的对话平台建立可用模型的耗时的实际参数值a>a₂，则认定该可用模型的用户体验很差，不方便使用，其评分可以为五分等等。对于其他指标来说，可以选择相同或相似的方法对所选择的指标进行评分。

通过上述方法，可以实现对对话平台的不同性能方面的评测，并且还能够实现不同对话平台之间的相同性能评测比较。

进一步的，为了能够获得对对话平台的性能的整体评测结果，在已经获得所选择的各个指标的评分以后，还可以对对话平台进行综合评分。

例如，在所选择的指标为单个指标的情况下，可以根据所选择的指标评分结果来对对话平台进行评分，在所选择的指标多个指标的情况下，可以根据所选择的指标的预设权重值和所选择的指标的评分结果。

其中，在所选择的指标为多个的情况下，由于各个指标分别表示对话平台的不同方面的性能，因此选用的各个指标的权重值可以由用户根据实际需求来自行设定。例如，如果侧重于对话平台提供的可用模型的对话解析效果，则可以设定可用模型对输入query的解析效果这一指标在选用的全部指标中占据较大的百分比即可。

相应的，针对不同指标对应的参数的不用，本发明该实施例还提供了针对不同指标的评分方法，具体内容如下所述。

示例一，选择对话平台建立可用模型的耗时对对话平台的性能进行评测。

所述对话平台建立可用模型的耗时可以包括以下内容：建立可用模型的训练数据上传时间、可用模型的训练时间、可用模型的意图和槽位的确定时间和可用模型的启动时间。

可选的，在依据对话平台建立可用模型的耗时对对话平台的性能进行评测时，不限于选用上述全部内容，可以选用其中的一者或多者。

此外，在进行多个平台的性能评测时，可以使用相同的训练样本来对不同平台的可用模型进行训练，根据不同平台建立相同场景的可用模型的总耗时来实现多个平台功能的横向比较。

示例二，选择根据已建立的可用模型对输入的query的解析效果对对话平台的性能进行评测。

由于对话平台的对话解析效果可以由其识别的意图和槽位的情况来表示，因此在对对话平台的性能进行评测时，主要以可用模型解析出的query的意图和槽位的情况对其进行评测。

对话平台提供的对话模型可以分为两类，一类是仅支持单轮对话模式时，另一类是还支持多轮对话模式。例如，用户输入“北京今天天气”，对话平台返回“北京今天晴”，用户不再输入，对话到此结束，这就是单轮对话，如果继续问“那明天呢？”，对话平台返回“北京明天多云”，这就是多轮对话，且该多轮对话中包含两轮对话。

在对仅支持单轮对话模式的可用模型进行评测时，可以根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、以及意图召回率。

在对还支持多轮对话的可用模型进行评测时，可以根绝一下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、意图召回率、对话整体召回正确平均轮数、以及对话意图召回正确平均轮数。

具体的，上述各个参数的计算方法如下所示：

整体准确率＝意图和槽位均解析正确的query个数/解析出有意图的query个数；

整体召回率＝意图和槽位均解析正确的query个数/输入的总query个数；

意图准确率＝意图解析正确的query个数/解析出有意图的query个数；

意图召回率＝意图解析正确的query个数/输入的总query个数；

对话整体召回正确评论轮数＝最后一轮意图和槽位均解析正确的对话总轮数/最后一轮意图和槽位均解析正确的对话总个数；

对话意图召回正确平均轮数＝最后一轮意图正确的对话总轮数/最后一轮意图正确的对话总个数。

举例来说，单轮对话中，总共输入10条query，某对话平台建立的可用模型解析出8条query的意图和槽位，其中有6条query的意图和槽位都解析正确，7条query的意图解析正确，则整体准确率为6/8，整体召回率为6/10，意图准确率为7/8，意图召回率为7/10；多轮对话中，共进行了3个多轮对话(session)，这3个多轮对话分别进行了2轮对话、3轮对话和4轮对话才解析出正确的意图和槽位，则整体召回正确平均轮数为(2+3+4)/3。

可选的，还可以通过以下方法来识别可用模型解析的准确性：向对话平台发送预先标注有其对应的正确的意图和槽位的query，并获取可用模型解析结果，从解析结果中提取出待评测关键字段，将预先标注的正确的意图和槽位与可用模型解析出的意图和槽位进行比较，并根据比较结果确定可用模型解析出的意图和槽位是否正确。

示例三，选择根据已建立的可用模型的理解能力对对话平台的性能进行评测。

根据上述内容可知，对话平台的对话解析效果可以由其识别的意图和槽位的情况来表示，那么对话平台的对话理解能力则可以由意图的精细化程度和槽位的精细化程度来表示。

具体的，意图的精细化程度由对话平台提供的意图数量确定，如果对话平台提供的意图数量越多，则认定该对话平台的意图精细化程度越高，反之则认定对话平台的意图精细化程度越低。

槽位的精细化程度由对话平台提供的槽位的数量和可用模型允许输入的可配置槽位的数量确定，如果对话平台提供的槽位数量和对话平台建立的可用模型支持用户自动编辑的槽位的数量越多的，则认定该对话平台的槽位精细化程度越高，反之则认定对话平台的槽位精细化程度越低。

并且意图的精细化程度和槽位的精细化程度越高，则可用模型的理解能力越好。

示例四，选择根据已建立的可用模型的稳定性对对话平台的性能进行评测。

考虑到可用模型的稳定性对用户体验的影响很大，因此可以将可用模型的稳定性也作为一个对话平台性能的评测指标。

具体的，可以通过以下参数来确定可用模型的稳定性：稳定性＝正常返回的query的数量/输入的总query数量。如果计算得出的稳定性的值越大，表示可用模型的稳定性好，有关稳定性的评分越高，反之，如果计算得出的稳定性的值越小，则表示可用模型的稳定性差，有关稳定性的评分越低。

由于在进行评测时，需要短时内输入大量的query，因此需要调用对话平台的api，如果某对话平台没有提供api接入方式，则在采用该指标进行评测时，根据实际需求选择使该指标的打分为零分或负分等。

示例五，选择已建立的可用模型反馈query的平均耗时对对话平台进行评测。

具体的，可以通过以下方法确定可用模型返回query的平均耗时：可用模型返回query的平均耗时＝正常返回的query总耗时/正常返回的query的总数量

由于在确定可用模型返回query的平均耗时时也需要调用api接口在短时内输入大量的query，因此在进行评测时，可以对对话平台执行与示例四中相同或相似的打分策略。

在对对话平台进行评测时，从哪些维度进行测评以及评测指标如何制定才能使得评测结果与用户的真实体验之间具有零代沟这些至关重要的，本发明该实施例提供的用于对话平台的评测方法，选用的几个重要指标基本覆盖了用户和开发者关注的所用维度，在进行评测的过程中，可以模拟真实用户的使用过程，使得评测结果更加接近于用户的真实体验。

此外，通过本发明该实施例提供的技术方案，可以实现对对话平台的性能的自动评测，能够提升评测效率，降低人力成本。

在对对话平台的性能进行测试时，选用的指标并不限于上述实施例提供的选择，可以由本领域技术人员根据实际需要选用其他合适的指标来对对话平台进行评测。

例如，在确定对话平台的功能时，还可以以对话平台是否支持多轮对话为依据对其进行评分，如果对话平台提供的可用模型支持多轮对话，则可以额外加分，如不支持多轮对话，则不加分。

或者测定对话平台是否能够提供丰富完善的对话管理能力和快捷灵活的定制机智供开发者调整自身对话逻辑。例如，在用户输入一条对话时，对话平台可先进行检测，如该条对话与可用模型相关度不够，则输出与“请确认输入内容是否正确，如不正确请重新输入”类似的提示，方便用户调整对话逻辑，能使得对话模型更高的解析用户输入的对话。与上述相同，如果对话平台支持该功能，则可以额外加分，如不支持，则不加分。

或者根据对话平台是否提供了评估功能、模型分析和用户日志分析手段进行评测。具体的，模型分析是指对话平台是否允许用户对可用模型解析出的意图和槽位进行纠正；评估功能是指对话平台是否提供有URL接口，以便将可用模型解析出的大量query的意图和槽位与该大量query预先标注的意图和槽位进行比对；用户日志分析是指对话平台是否提供了有关用户行为的记录、输入的query记录以及解析记录等等。如果对话平台具有上述功能，则可以额外加分，如不具有上述功能，则不加分。

或者根据默认场景库支持功能进行评测。具体的，首先根据对话平台是否提供无需用户重新配置和训练的系统预设场景的可用模型，如果对话平台有提供则进行加分，并进一步根据对话平台提供的系统预设场景的可用模型的数量进行评分，此外，还可以根据对话平台提供的系统预设场景的可用模型对query的解析效果进行评分。上述三个指标可以单独打分，也可以确定一综合评分，有关进行综合评分的评分标准可以由用户自行设定。

或者根据对话平台的逻辑模块是否清晰，流程和步骤是否能引导清楚。产品使用文档是否清晰来进行评分，有关上述指标的评分属于主观评分，因此可以根据实际需求确定是否需要选用。

或者根据对话平台提供的帮助开发者定位和解决问题的sample范例进行评分。

或者根据对话平台提供的咨询方式进行评分(例如常用的咨询方式有工单、QQ群论坛等)，如果支持多渠道咨询，则可以相应加分。此外，还可以根据各咨询渠道的响应时间和咨询问题的解决时间进行评分。

或者根据对话平台提供的接入方式进行评分，例如是否有api、多种SDK接入方式等。

本发明上述实施例中提供了多种指标，但在对对话平台进行评测时，不仅可以选择上述指标中的一者或多者，还是自行设定其它评测指标，实现对对话平台的性能测评。

图2是本发明实施例提供的用于对话平台的评测方法的总方案示意图，图3是本发明实施例提供的用于对话平台的评测方法的流程示意图。结合图2和图3所示，在对对话平台进行评测之前，需要先制定评测方案，即确定评测方向，例如需要对对话评测进行效果评测、功能评测、易用性评测、性能评测和稳定性评测，在确定评测方向以后，需要确定评测指标，例如用于评测效果的效果指标(如可用模型对query的解析效果等)、用于评测功能的功能指标(如可用模型的理解能力、是否支持多轮对话等)、用于评测易用性的指标(如建立可用模型的耗时、是否支持多种接入方式等)、用于评测性能的指标(如可用模型返回query的平均耗时等)以及用于评测稳定的指标等，在制定完评测方案并确定评测指标后，先选取合适的评测集(例如针对开放场景和评测集和针对封闭场景的评测集等)训练可用模型。采用相同的评测集对不同对话评测进行训练，得到n个可用模型，调用每个模型的api接口，输入query并获得返回结果，提取解析结果中的待评测字段并对标已标注评测集，计算相应评测指标的得分后，根据得分生成评测报告。

其中，考虑到评测集的构建对于对话平台的评测来说至关重要，因此本发明实施例还提供一种富集评测集的方法。

对于封闭场景的评测集来说，可以拉取对话式平台用户量排名前几的不同类型场景(例如导航场景、智能机器人场景、发指令场景和问答场景等)的用户日志，对日志数据进行预处理、过滤、清洗、人工标注和格式转换等步骤梳理成各种对话平台要求的语料(包含训练语料和评测语料)格式。

对于开放场景的评测集来说，可以拉取百度的大搜、度秘或者其他搜索引擎等产品线线上日志，经过预处理、过滤、清洗、人工标注和格式转换梳理成开放场景的评测集，作为封闭场景的补充。

此外，为了便于待评测字段与已标注评测集进行比较，本发明实施例还提供一种评测集格式，该评测集格式具体内容如下：

示例1：找个华语版的恐怖电影\t USER_MOVIE\t user_movie_type:恐怖#@#@#user_movie_language:华语

示例2：帮我买两张湄公河行动的票\t USER_MOVIE_TICKET\t user_movie:湄公河行动#@#@#user_ticket_count:两

评测集共有3个字段，每个字段以tab键分割，第一个字段是query，第二个字段是query对应的意图，第三个字段是槽位。比如，上述第一个例子中的query是“找个华语版的恐怖电影”，意图是“USER_MOVIE”，槽位是“user_movie_type”和“user_movie_language”，两个槽位对应的值分别是“恐怖”和“华语”，多个槽位之间用“#@#@#”特殊符号分割。对话平台返回的结果也会被抽取出带评测字段后将其组织成上述格式，再分别对标意图和槽位即可。

评测集的格式不限于上述实施例提供的格式，用户可以自行设定评测集的格式，只要将对话平台返回的结果组织成与评测集相同的格式就能够规范待评测字段与已标注评测集的比较过程。

相应的，本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于是的机器能够执行根据本发明任意实施例所述的用于对话平台的测试方法。

相应的，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时能够执行根据本发明任意实施例所述的用于对话平台的测试方法。

图4示出了根据本发明一实施例的用于对话平台的评测装置的结构框图。如图4所示，本发明实施例还提供了一种用于对话平台的评测装置，所述装置可以包括：选择模块410和评分模块420。其中，选择模块410用于选择对所述对话平台的性能进行测试的指标，评分模块420，用于确定所选择的指标对应的实际参数值；以及根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分。

可选的，对所述对话平台进行评测的指标为以下中的一者或多者：对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时。

本发明该实施例提供的上述指标，可以实现从对话平台提供的可用模型的实际效果、实际功能、易用性和稳定性等多个方面对对话平台进行测评。用户在对对话平台的性能进行测评时，可以根据实际需求选择合适的指标。

例如，选择模块410选择根据对话平台建立可用模型的耗时对所述对话平台的性能进行评测包括：根据建立可用模型的训练数据上传时间，可用模型训练时间、可用模型的意图和槽位的确定时间以及可用模型的模型启动时间确定所述对话平台建立可用模型的耗时。上述对话平台建立可用模型的耗时展示出了新手跑通一个实例花费的时长，可以有效体现出对话平台的易用性。

或者，选择模块410选择根据可用模型对输入的query的解析效果对所述对话平台的性能进行评测包括：针对单轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、以及意图召回率；针对多轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、意图召回率、对话整体召回正确平均轮数、以及对话意图召回正确平均轮数。上述方案对支持多轮对话的对话平台和不支持多轮对话的对话平台设置了不同的参数标准，针对范围广，并且上述各个参数的数值还可以有效体现出对话平台的实际效果。

或者，选择模块410选择根据可用模型的理解能力对所述对话平台的性能进行评测包括：根据意图的精细化程度和槽位的精细化程度确定所述可用模型的理解能力，其中，所述意图的精细化程度由对话平台提供的意图数量确定，所述槽位的精细化程度由对话平台提供的槽位的数量和可用模型允许输入的可配置槽位的数量确定。如果意图的精细化程度和槽位的精细化程度越高，则表示可用模型的理解能力越好。

或者，选择模块410选择根据可用模型的稳定性对所述对话平台进行评测包括：根据正常返回的query的数量占输入的总query数量的比例确定所述可用模型的稳定性。如果计算得出的稳定性的值越大，则表示可用模型的稳定性好。

或者，选择模块410选择根据可用模型返回query的平均耗时对所述对话平台进行评测包括：根据正常返回的query总耗时与正常返回的query的总数量之比确定所述可用模型返回query的平均耗时。

对于上述最后两个指标来说，由于需要调用api接口以在短时内输入大量的query来实现这两个指标的评测，因此如果对话平台没有提供api接口，则在采用这两个指标进行评测时，可以根据实际需求选择使这两个指标的打分为零分或负分等。

本发明上述实施例中提供了多种指标，但是在对对话平台进行评测时，不仅可以选择上述指标中的一者或多者，还可以自行设定其它评测时间，实现对对话平台的性能测评。

在一些可选实施例中，如果所选择的指标为多个指标，则评分模块420还可以根据所选择的指标的预设权重值和所选择的指标的评分结果确定对话平台的综合得分。其中，在所选择的指标为多个的情况下，由于各个指标分别表示对话平台的不同方面的性能，因此选用的各个指标的权重值可以由用户根据实际需求来自行设定。例如，如果侧重于对话平台提供的可用模型的对话解析效果，则可以设定可用模型对输入query的解析效果这一指标在选用的全部指标中占据较大的百分比即可。

在一些可选实施例中，评分模块420还可以根据以下方法使用所选择的指标对对话平台进行评分：先确定所选择的指标对应的实际参数值，再根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分。在已知各个指标的评分的基础上，还可以通过上述方法确定对话平台的综合评分。

在一些可选实施例中，用于对话平台的检测装置还可以包括建模模块，所述建模模块用于建立至少两个封闭场景的可用模型和至少一个开放场景的可用模型以对对话平台进行评测。在对不同的对话平台进行评测时，优选采用相同的训练样本建立相同的可用模型，实现多个平台的性能的横向比较。

本发明上述实施例提供的用于对话平台的检测装置的具体工作原理及益处与上述本发明实施例提供的用于对话平台的检测方法的具体工作原理及益处相似，这里将不再赘述。

另外，本发明实施例提供的用于对话平台的评测装置包括处理器和存储器，上述选择模块和评分模块等可以均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来执行根据本发明任意实施例的用于对话平台的评测方法。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现本发明任意实施例提供的用于对话平台的评测方法。本文中的设备可以是服务器、PC、PAD、手机等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于对话平台的评测方法，其特征在于，所述评测方法包括：

选择对所述对话平台的性能进行评测的指标；

确定所选择的指标对应的实际参数值；以及

根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分，所述指标包括：对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时，

所述指标还包括：是否支持多轮对话、是否能够提供对话管理能力、是否能够定制机智供开发者调整自身对话逻辑、对话平台的逻辑模块是否清晰、流程和步骤是否能引导清楚、对话平台提供的咨询方式进行评分、对话平台提供的接入方式进行评分、对话平台是否提供了评估功能、模型分析和用户日志分析手段；

其中，选择根据对话平台建立可用模型的耗时对所述对话平台的性能进行评测包括：

确定所述对话平台建立可用模型的耗时指标对应的建立可用模型的训练数据上传时间、可用模型训练时间、可用模型的意图和槽位的确定时间以及可用模型的模型启动时间实际参数值，并根据该实际参数值与所述相应预设参数值的比较结果确定所述对话平台建立可用模型的耗时指标的评分。

2.根据权利要求1所述的评测方法，其特征在于，所述评测方法还包括：

在所选择的指标为多个指标的情况下，根据所选择的指标的预设权重值和所选择的指标的评分结果确定所述对话平台的综合评分。

3.根据权利要求1所述的评测方法，其特征在于，选择根据可用模型对输入的query的解析效果对所述对话平台的性能进行评测包括：

针对单轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、以及意图召回率；

针对多轮对话，根据以下参数确定所述可用模型对输入的query的解析效果：整体准确率、整体召回率、意图准确率、意图召回率、对话整体召回正确平均轮数、以及对话意图召回正确平均轮数。

4.根据权利要求1所述的评测方法，其特征在于，选择根据可用模型的理解能力对所述对话平台的性能进行评测包括：根据意图的精细化程度和槽位的精细化程度确定所述可用模型的理解能力，

其中，所述意图的精细化程度由对话平台提供的意图数量确定，所述槽位的精细化程度由对话平台提供的槽位的数量和可用模型允许输入的可配置槽位的数量确定。

5.根据权利要求1所述的评测方法，其特征在于，选择根据可用模型的稳定性对所述对话平台进行评测包括：根据正常返回的query的数量占输入的总query数量的比例确定所述可用模型的稳定性。

6.根据权利要求1所述的评测方法，其特征在于，选择根据可用模型返回query的平均耗时对所述对话平台进行评测包括：根据正常返回的query总耗时与正常返回的query的总数量之比确定所述可用模型返回query的平均耗时。

7.根据权利要求1所述的评测方法，其特征在于，所述方法还包括：

建立至少两个封闭场景的可用模型和至少一个开放场景的可用模型以对所述对话平台进行评测。

8.一种用于对话平台的评测装置，其特征在于，所述评测装置包括：

选择模块，用于选择对所述对话平台的性能进行测试的指标，所述指标包括：对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时，

所述指标还包括：是否支持多轮对话、是否能够提供对话管理能力、是否能够定制机智供开发者调整自身对话逻辑、对话平台的逻辑模块是否清晰、流程和步骤是否能引导清楚、对话平台提供的咨询方式进行评分、对话平台提供的接入方式进行评分、对话平台是否提供了评估功能、模型分析和用户日志分析手段；以及

评分模块，用于确定所选择的指标对应的实际参数值；以及根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分；

确定所述对话平台建立可用模型的耗时指标对应的建立可用模型的训练数据上传时间、可用模型训练时间、可用模型的意图和槽位的确定时间以及可用模型的模型启动时间实际参数值，并根据该实际参数值与所述相应预设参数值的比较结果确定所述对话平台建立可用模型的耗时指标的评分；

建模模块，用于建立至少两个封闭场景的可用模型和至少一个开放场景的可用模型以对所述对话平台进行评测。

9.根据权利要求8所述的评测装置，其特征在于，在所选择的指标为多个指标的情况下，所述评分模块还用于执行以下操作：根据所选择的指标的预设权重值和所选择的指标的评分结果确定所述对话平台的综合得分。

10.根据权利要求8所述的评测装置，其特征在于，所述选择模块选择根据可用模型对输入的query的解析效果对所述对话平台的性能进行评测包括：

11.根据权利要求8所述的评测装置，其特征在于，所述选择模块选择根据可用模型的理解能力对所述对话平台的性能进行评测包括：根据意图的精细化程度和槽位的精细化程度确定所述可用模型的理解能力，

12.根据权利要求8所述的评测装置，其特征在于，所述选择模块选择根据可用模型的稳定性对所述对话平台进行评测包括：根据正常返回的query的数量占输入的总query数量的比例确定所述可用模型的稳定性。

13.根据权利要求8所述的评测装置，其特征在于，所述选择模块选择根据可用模型返回query的平均耗时对所述对话平台进行评测包括：根据正常返回的query总耗时与正常返回的query的总数量之比确定所述可用模型返回query的平均耗时。

14.根据权利要求8所述的评测装置，其特征在于，所述评测装置还包括建模模块，所述建模模块用于建立至少两个封闭场景的可用模型和至少一个开放场景的可用模型以对所述对话平台进行评测。

15.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行根据权利要求1-7中任一项所述的用于对话平台的评测方法。

16.一种处理器，其特征在于，用于运行程序，其中，所述程序被运行时用于执行根据权利要求1-7中任一项所述的用于对话平台的评测方法。