CN113782004B

CN113782004B - 人机语音交互测试方法、装置、计算机设备和存储介质

Info

Publication number: CN113782004B
Application number: CN202111091294.XA
Authority: CN
Inventors: 鲁昱; 石真
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-10-24
Anticipated expiration: 2041-09-17
Also published as: CN113782004A

Abstract

本申请提供了一种人机语音交互测试方法、装置、设备和存储介质。该方法包括：基于与机器人的语音通话对机器人进行第一轮语音交互测试；针对第一轮语音交互测试中产生的用户语音数据，添加对用户语音数据识别的、且与应答相关的标签项；响应于纠正指令，将添加的错误的标签项进行纠正；添加了错误的标签项的用户语音数据为错误应答的用户语音数据；基于错误应答的用户语音数据，对机器人进行语音交互优化；在优化后，基于第一轮测试中的用户语音数据，进行第二轮语音交互测试；将第二轮语音交互测试时机器人针对用户语音数据的应答语句与用户语音数据对应的标签项匹配，根据匹配结果输出第二轮测试的测试结果。本申请的方案能够节省成本。

Description

人机语音交互测试方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种人机语音交互测试方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了很多先进技术，人机语音交互测试技术即为其中一项重要的技术，在很多领域都有着很重要的作用，其对人机语音交互的准确性起着至关重要的影响。

目前人机语音交互场景下，对机器人的语音交互测试均为人工手动发起。通常经过一轮语音交互测试后，由技术人员手动对机器人调优。若为了验证调优效果，需要人工再次手动发起第二轮语音交互测试，并手动分析测试结果，操作非常繁琐，操作成本很高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够节省操作成本的人机语音交互测试方法、装置、计算机设备和存储介质。

一种人机语音交互测试方法，其特征在于，所述方法包括：

基于与机器人的语音通话对所述机器人进行第一轮语音交互测试；

针对所述第一轮语音交互测试中产生的用户语音数据，添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项；

响应于纠正指令，将添加的错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据；

基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理；

在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试；

将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。

一种人机语音交互测试装置，所述装置包括：

测试模块，用于基于与机器人的语音通话对所述机器人进行第一轮语音交互测试；

标签添加模块，用于针对所述第一轮语音交互测试中产生的用户语音数据，添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项；

纠正模块，用于响应于纠正指令，将添加的错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据；

优化模块，用于基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理；

所述测试模块还用于在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试；将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。

在其中一个实施例中，标签添加模块还用于添加在所述第一轮语音交互测试时对所述用户语音数据识别的意图标签项、用于触发的节点名称标签项以及用于触发的词槽名称标签项中的至少一种。

在其中一个实施例中，优化模块还用于获取与所述错误应答的用户语音数据相符的补充语料；根据所述补充语料，对机器人进行语音交互优化处理，以优化所述机器人对所述错误应答的用户语音数据的识别能力。

在其中一个实施例中，所述错误的标签项包括错误的意图标签项；所述错误应答的用户语音数据，包括添加了所述错误的意图标签项的用户语音数据；优化模块还用于按照添加了所述错误的意图标签项的用户语音数据所对应的正确意图，获取符合所述正确意图的补充语料。

在其中一个实施例中，所述装置还包括：

页面展示模块，用于在第一轮语音交互测试对应的通话页面中，将所述第一轮语音交互测试中交互的用户语音数据和机器人的应答语音数据进行文本化展示，得到用户的文本的询问语句和机器人的文本的应答语句；所述应答语音数据，是对相应用户语音数据识别后做出的应答；

标签添加模块还用于基于所述文本的应答语句，在所述通话页面中为相应询问语句所对应的用户语音数据，添加与应答相关的标签项。

在其中一个实施例中，纠正模块还用于响应于对添加错误的标签项的纠正指令，对添加了待纠正的错误的标签项的用户语音数据进行分析，根据分析结果推荐候选标签项；确定从所述候选标签项中选择的正确的目标标签项，并将所述错误的标签项纠正为所述目标标签项。

在其中一个实施例中，所述测试模块还用于基于第一轮语音交互测试中产生的所述用户语音数据，再次发起交互任务，以发起对所述机器人的第二轮语音交互测试；在所述第二轮语音交互测试中，将所述用户语音数据作为用户输入语句，以与所述机器人进行语音交互，并获取所述机器人在所述语音交互中的应答语句。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现本申请各实施例的人机语音交互测试方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本申请各实施例的人机语音交互测试方法中的步骤。

上述人机语音交互测试方法、装置、计算机设备和存储介质，在基于与机器人的语音通话对所述机器人进行第一轮语音交互测试后，可以针对所述第一轮语音交互测试中产生的用户语音数据，自动添加与应答相关的标签项，并响应于纠正指令，将错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据。即可以使得第一轮测试的用户语音数据具有正确的标签项。基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理；在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试；将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。即，能够自动复用第一轮语音交互测试中的用户语音数据来进行第二轮语音交互测试，并根据正确的标签项能够自动分析出第二轮测试的测试结果，大大提高了效率，而不需要人工手动地发起第二轮语音交互测试，也不需要人工来分析第二轮测试的测试结果，节省了操作成本。

附图说明

图1为一个实施例中人机语音交互测试方法的应用环境图；

图2为一个实施例中人机语音交互测试方法的流程示意图；

图3为一个实施例中的通话页面示意图；

图4为一个实施例中人机语音交互测试装置的框图；

图5为另一个实施例中人机语音交互测试装置的框图；

图6为一个实施例中计算机设备的内部结构图；

图7另为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人机语音交互测试方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能可穿戴设备(比如智能手表和智能眼镜等)等，但并不局限于此。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

测试人员可以使用终端102与服务器104中的机器人(即机器人程序)进行语音通话，发起针对机器人的第一轮语音交互测试。服务器104可以针对所述第一轮语音交互测试中产生的用户语音数据，添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项，并将添加的标签项在终端102中展示。测试人员可以基于终端102进行纠正操作，以输入纠正指令。终端102可以响应于纠正指令，将添加的错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据。测试人员可以使用终端102向服务器发起机器人优化请求，服务器104则可以基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理。在进行优化后，测试人员可以使用终端102基于第一轮语音交互测试中产生的用户语音数据，发起针对服务器104中的机器人的第二轮语音交互测试。终端102可以将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。

在一个实施例中，如图2所示，提供了一种人机语音交互测试方法，该人机语音交互测试方法可以由终端或服务器执行，或者通过终端和服务器之间的交互来实现。现以方法应用于计算机设备为例进行说明，计算机设备可以是终端或服务器，该方法具体可以包括以下步骤：

步骤202，基于与机器人的语音通话对所述机器人进行第一轮语音交互测试。

其中，机器人，是用于与用户进行语音通话的智能化程序。可以理解，机器人可以替代真人与用户进行语音通话。比如，用户拨打客服电话，则可以由机器人替代真人客服与用户进行语音通话，从而帮用户解决问题。语音交互测试，是在语音通话过程中与机器人进行语音交互对话，以对机器人的语音对话性能进行测试。

具体地，测试人员可以基于计算机设备向机器人发起语音通话请求，以与机器人之间建立语音通话，在语音通话中，测试人员可以与机器人进行语音对话，以对机器人进行第一轮语音交互测试。

步骤204，针对所述第一轮语音交互测试中产生的用户语音数据，添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项。

其中，用户语音数据，是在第一轮语音交互测试时的语音通话中，测试人员的语音数据。可以理解，在第一轮语音交互测试时，测试人员会与机器人进行语音对话，在进行语音对话时，测试人员会发声，从而会产生用户语音数据，机器人会在语音通话中针对用户语音数据进行语音应答，从而形成对机器人的语音交互测试。

需要说明的是，本申请实施例是应用于机器人测试场景中，所以，用户语音数据是指参与测试的测试人员进行测试时产生的语音数据。

可以理解，机器人在语音通话中对每条用户语音数据进行应答时，会参考一定的信息以进行应答，因此，与应答相关的标签项则用于表征机器人做应答时的参考依据。

具体地，计算机设备可以对第一轮语音交互测试时产生的用户语音数据进行识别，得到与该用户语音数据对应的且与应答相关的标签项，并针对每条用户语音数据，对应添加识别出的与应答相关的标签项。

在一个实施例中，添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项包括：添加在所述第一轮语音交互测试时对所述用户语音数据识别的意图标签项、用于触发的节点名称标签项以及用于触发的词槽名称标签项中的至少一种。

可以理解，与应答相关的标签项可以包括意图标签项、用于触发的节点名称标签项以及用于触发的词槽名称标签项等汇总的至少一种。

需要说明的是，机器人可以根据用户语音数据所表达的意图来进行应答，所以，用户语音数据表达的意图就是机器人进行应答的参考依据，意图标签项，则用于表征该参考依据，即用于表征用户语音数据所表达的意图。

用于触发的节点名称标签项，用于表征用户语音数据将要触发的节点的名称。用于触发的词槽名称标签项，用于表征用户语音数据将要触发的词槽的名称。可以理解，在人机语音交互场景中，要触发的节点和词槽能够体现对用户语音数据的理解结果，所以属于机器人进行应答时的参考依据。因此，用于触发的节点名称标签项和用于触发的词槽名称标签项皆是与应答相关的标签项，用于表征机器人应答时的参考依据。

步骤206，响应于纠正指令，将添加的错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据。

可以理解，计算机设备自动添加的标签项中可能存在错误的标签项。计算机设备可以将添加的标签项进行输出，由测试人员对标签项进行正误核对。测试人员可以对错误的标签项进行纠正操作，以生成纠正指令，计算机设备可以响应于该纠正指令，对错误的标签项进行纠正，以纠正为正确的标签项。

步骤208，基于错误应答的用户语音数据，对机器人进行语音交互优化处理。

具体地，计算机设备可以基于错误应答的用户语音数据，对机器人进行语音交互优化处理，以优化提高机器人针对错误应答的用户语音数据的识别能力。

步骤210，在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试。

具体地，在第一轮语音交互测试完毕后，计算机设备可以将第一轮语音交互测试中产生的用户语音数据进行存储。在对机器人进行语音交互优化处理完毕后，计算机设备可以获取存储的第一轮语音交互测试中产生的用户语音数据，并复用该用户语音数据，对机器人进行第二轮语音交互测试。

可以理解，复用用户语音数据进行第二轮语音交互测试，是指在第二轮语音交互测试中，仍然使用第一轮交互测试中测试人员的语音数据(即用户语音数据)来与优化后的机器人进行语音交互对话，以再次测试机器人。

步骤212，将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。

具体地，在第二轮语音交互测试时，机器人会在语音通话中对用户语音数据进行应答，生成应答语句。计算机设备可以将生成的应答语句与用户语音数据最终对应的标签项进行匹配，得到匹配结果。计算机设备可以根据匹配结果输出第二轮语音交互测试的测试结果。可以理解，用户语音数据最终对应的标签项，是指纠正后的正确的标签项。

在一个实施例中，匹配结果可以包括针对每条用户语音数据的应答正误信息，若生成的应答语句与用户语音数据最终对应的标签项匹配，则判定机器人针对该条用户语音数据应答正确，若不匹配，则判定机器人针对该条用户语音数据应答错误。

比如，“中签标签哪里能查询到”这一用户语音数据，若第一轮语音交互测试时机器人应答错误，则对其相应的意图标签项进行纠正，得到正确的意图标签项为“【如何查询中签信息】”并对机器人重新优化训练后，在第二轮语音交互测试中，则可以将机器人在第二轮测试时针对“中签标签哪里能查询到”这一用户语音数据的应答语句与【如何查询中签信息】这一意图标签进行匹配，如果匹配，则判定应答正确，如果不匹配，则判定应答错误。

在一个实施例中，测试结果可以包括匹配上的标签数量(即正确命中的标签数量)和未匹配上标签项的用户语音数据(即未命中的用户语音数据)等中的至少一种。

在一个实施例中，若第二轮语音交互测试的测试结果，表示机器人的语音交互性能还需要优化，则可以确定在第二轮语音交互测试时机器人错误应答的用户语音数据，并继续返回执行步骤208，以基于第二轮语音交互测试时错误应答的用户语音数据，对机器人进一步地进行语音交互优化处理。并且，在进行优化后，基于第一轮语音交互测试中产生的用户语音数据，继续对机器人进行新一轮的语音交互测试，直至测试结果表示机器人的语音交互性能满足预设条件为止。

上述人机语音交互测试方法，在基于与机器人的语音通话对所述机器人进行第一轮语音交互测试后，可以针对所述第一轮语音交互测试中产生的用户语音数据，自动添加与应答相关的标签项，并响应于纠正指令，将错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据。即可以使得第一轮测试的用户语音数据具有正确的标签项。基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理；在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试；将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。即，能够自动复用第一轮语音交互测试中的用户语音数据来进行第二轮语音交互测试，并根据正确的标签项能够自动分析出第二轮测试的测试结果，大大提高了效率，而不需要人工手动地发起第二轮语音交互测试，也不需要人工来分析第二轮测试的测试结果，节省了操作成本。

在一个实施例中，步骤208基于错误应答的用户语音数据，对机器人进行语音交互优化处理包括：获取与所述错误应答的用户语音数据相符的补充语料；根据所述补充语料，对机器人进行语音交互优化处理，以优化所述机器人对所述错误应答的用户语音数据的识别能力。

其中，补充语料，是补充的与错误应答的用户语音数据相符的语料。

可以理解，错误应答的用户语音数据属于未识别正确的用户语音数据，与错误应答的用户语音数据相符的补充语料，则属于机器人容易识别错误的语音数据，因而，根据补充语料对机器人进行语音交互优化处理，相当于利用容易识别错误的语音数据来优化训练机器人，从而使得机器人对错误应答的用户语音数据的识别能力得以提高。

上述实施例中，通过补充与错误应答的用户语音数据相符的补充语料对机器人进行语音交互优化，能够便捷有效地针对性对机器人进行优化，缩短了机器人优化训练的周期。

在一个实施例中，所述错误的标签项包括错误的意图标签项；所述错误应答的用户语音数据，包括添加了所述错误的意图标签项的用户语音数据。本实施例中，获取与所述错误应答的用户语音数据相符的补充语料包括：按照添加了所述错误的意图标签项的用户语音数据所对应的正确意图，获取符合所述正确意图的补充语料。

具体地，针对添加了错误的意图标签项的用户语音数据，说明机器人对该用户语音数据的正确意图的识别能力比较差，所以需要对机器人做这方面的优化，因此，测试人员可以按照添加了错误的意图标签项的用户语音数据所对应的正确意图，补充符合该正确意图的语音数据作为补充语料，计算机设备则可以获取符合正确意图的补充语料，然后，根据符合正确意图的补充语料，对机器人进行优化训练，以提升机器人识别该正确意图的能力。

比如，用户语音数据为“中签哪里能查到吗”，其正确意图是“如何查询中签信息”，但是，机器人对该正确意图未识别出来，后续，则可以专门补充符合该正确意图的语音数据作为补充语料，以对机器人进行语音交互优化训练，从而提高机器人能够正确识别该意图，以提高机器人的识别能力。

上述实施例中，按照添加了所述错误的意图标签项的用户语音数据所对应的正确意图，获取符合所述正确意图的补充语料，以使用符合正确意图的补充语料对机器人进行语音交互优化，能够更便捷、更有针对性地提高机器人的意图识别能力，提高了优化效率，更有效地利用了进行优化的系统资源。

在一个实施例中，所述方法还包括：在第一轮语音交互测试对应的通话页面中，将所述第一轮语音交互测试中交互的用户语音数据和机器人的应答语音数据进行文本化展示，得到用户的文本的询问语句和机器人的文本的应答语句。本实施例中，添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项，包括：基于所述文本的应答语句，在所述通话页面中为相应询问语句所对应的用户语音数据，添加与应答相关的标签项。

其中，应答语音数据，是机器人对相应用户语音数据识别后做出应答的语音数据。用户的文本的询问语句，是对用户语音数据的文本化展示的结果。机器人的文本的应答语句，是对机器人的应答语音数据进行文本化展示的结果。

通话页面，是在进行语音交互测试时，用于可视化展示语音交互测试中的发生交互的语音数据的页面。即，将语音交互测试中的测试人员与机器人之间的语音对话数据在通话页面中进行可视化展示，以供测试人员进行参考。需要说明的是，这个通话页面并非一个实际对话页面，即，测试人员并非在该通话页面中输入语音数据来通过通话页面来与机器人进行对话，该通话页面实际上是将语音通话中的对话可视化得到的、供测试人员参考的能够体现语音通话中的对话情况的一个页面。

具体地，计算机设备可以在第一轮语音交互测试对应的通话页面中，将所述第一轮语音交互测试中交互的用户语音数据和机器人的应答语音数据进行文本化展示，得到用户的文本的询问语句和机器人的文本的应答语句。计算机设备可以基于文本的应答语句，在所述通话页面中为相应询问语句所对应的用户语音数据，添加与应答相关的标签项。

如图3所示，为一个实施例中的通话页面示意图。该通话页面中302即为第一轮语音交互测试的语音通话数据的播放轴。从中可知，进行第一轮语音交互测试的语音通话时间是52秒。该通话页面就是将这52秒语音通话中的对话进行可视化得到的一个页面。虚线框304中的语句即为用户的文本的询问语句，虚线框中的语句即为机器人的文本的应答语句。比如，a1和b1是一组应答语句，a1是用户的询问语句，其所对应的用户语音数据是“中签哪里能查到吗”，但是机器人识别成“中山哪里能查到吗”，所以，机器人做出的应答语句是b1，机器人可以基于应答语句b1，为a1所对应的“中签哪里能查到吗”这一用户语音数据添加与应答相关的标签项。

上述实施例中，提出了一个可以将语音交互测试中发生交互的语音数据进行可视化的通话页面，从而将第一轮测试中交互的用户语音数据和机器人的应答语音数据在该通话页面中进行文本化展示，从而将语音通话转化为在通话页面呈现的可视化的询问应答对话，进而基于该通话页面中机器人的文本的应答语句，为询问语句对应的用户语音数据便捷、高效地添加与应答相关的标签项，是一种便捷、准确地添加标签项的方案，进而也减少了系统资源的消耗。

在一个实施例中，所述响应于纠正指令，将添加的错误的标签项进行纠正，包括：响应于对添加错误的标签项的纠正指令，对添加了待纠正的错误的标签项的用户语音数据进行分析，根据分析结果推荐候选标签项；确定从所述候选标签项中选择的正确的目标标签项，并将所述错误的标签项纠正为所述目标标签项。

具体地，测试人员可以对添加错误的标签项进行纠正操作，以触发生成纠正指令，计算机设备可以响应于该纠正指令，对添加了待纠正的错误的标签项的用户语音数据进行分析，并根据分析结果推荐候选标签项。测试人员可以从候选标签项中选择正确的目标标签项，计算机设备可以确定所选择的目标标签项，并将错误的标签项纠正为该目标标签项。

同样结合图3进行举例说明。比如，机器人对a1的意图识别错误，所以，做出的应答语句b1与正确意图也不相符，因此，计算机设备基于b1为a1所对应的“中签哪里能查到吗”这一用户语音数据添加的意图标签项也就不正确。那么，测试人员可以对错误的标签项输入纠正指令，计算机设备则可以对添加了待纠正的错误的标签项的用户语音数据“中签哪里能查到吗”进行分析，然后自动推荐【如何查询中签信息】和【中签信息查询不到的原因】等候选标签项。测试人员可以从中选择“【如何查询中签信息】”这一目标标签项，计算机设备则可以将错误的标签项纠正为“【如何查询中签信息】”这一目标标签项。

上述实施例中，在进行纠正时，计算机设备可以自动进行分析，并推荐候选标签项，供测试人员从中选择正确的目标标签项，提高了标签项纠正处理的效率。

在一个实施例中，所述基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试包括：基于第一轮语音交互测试中产生的所述用户语音数据，再次发起交互任务，以发起对所述机器人的第二轮语音交互测试；在所述第二轮语音交互测试中，将所述用户语音数据作为用户输入语句，以与所述机器人进行语音交互，并获取所述机器人在所述语音交互中的应答语句。

具体地，计算机设备可以基于第一轮语音交互测试中产生的所述用户语音数据，再次发起交互任务，以发起对机器人的第二轮语音交互测试。在所述第二轮语音交互测试中，计算机设备可以将所述用户语音数据作为用户输入语句，以与所述机器人进行语音交互。可以理解，机器人在语音交互中会生成应答语音数据，计算机设备可以获取所述机器人在所述语音交互中的应答语句。

上述实施例中，能够复用第一轮测试中产生的用户语音数据，再次发起交互任务，将所述用户语音数据作为用户输入语句，与机器人进行第二轮语音交互测试，实现了测试数据的复用，节省了用户语音数据的利用率，从而节省了测试成本，而且节省了操作成本。此外，相较于重新建立语音通话而言，节省了一定的系统资源。

应该理解的是，虽然各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图4所示，在一个实施例中，提供一种人机语音交互测试装置400，该装置包括：测试模块402、标签添加模块404、纠正模块406以及优化模块408，其中：

测试模块402，用于基于与机器人的语音通话对所述机器人进行第一轮语音交互测试。

标签添加模块404，用于针对所述第一轮语音交互测试中产生的用户语音数据，添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项。

纠正模块406，用于响应于纠正指令，将添加的错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据；

优化模块408，用于基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理。

所述测试模块402还用于在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试；将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。

在其中一个实施例中，标签添加模块404还用于添加在所述第一轮语音交互测试时对所述用户语音数据识别的意图标签项、用于触发的节点名称标签项以及用于触发的词槽名称标签项中的至少一种。

在其中一个实施例中，优化模块408还用于获取与所述错误应答的用户语音数据相符的补充语料；根据所述补充语料，对机器人进行语音交互优化处理，以优化所述机器人对所述错误应答的用户语音数据的识别能力。

在其中一个实施例中，所述错误的标签项包括错误的意图标签项；所述错误应答的用户语音数据，包括添加了所述错误的意图标签项的用户语音数据；优化模块408还用于按照添加了所述错误的意图标签项的用户语音数据所对应的正确意图，获取符合所述正确意图的补充语料。

如图5所示，在其中一个实施例中，所述装置还包括：

页面展示模块403，用于在第一轮语音交互测试对应的通话页面中，将所述第一轮语音交互测试中交互的用户语音数据和机器人的应答语音数据进行文本化展示，得到用户的文本的询问语句和机器人的文本的应答语句；所述应答语音数据，是对相应用户语音数据识别后做出的应答；

标签添加模块404还用于基于所述文本的应答语句，在所述通话页面中为相应询问语句所对应的用户语音数据，添加与应答相关的标签项。

在其中一个实施例中，纠正模块406还用于响应于对添加错误的标签项的纠正指令，对添加了待纠正的错误的标签项的用户语音数据进行分析，根据分析结果推荐候选标签项；确定从所述候选标签项中选择的正确的目标标签项，并将所述错误的标签项纠正为所述目标标签项。

在其中一个实施例中，所述测试模块402还用于基于第一轮语音交互测试中产生的所述用户语音数据，再次发起交互任务，以发起对所述机器人的第二轮语音交互测试；在所述第二轮语音交互测试中，将所述用户语音数据作为用户输入语句，以与所述机器人进行语音交互，并获取所述机器人在所述语音交互中的应答语句。

上述人机语音交互测试装置，在基于与机器人的语音通话对所述机器人进行第一轮语音交互测试后，可以针对所述第一轮语音交互测试中产生的用户语音数据，自动添加与应答相关的标签项，并响应于纠正指令，将错误的标签项进行纠正；其中，添加了所述错误的标签项的用户语音数据为错误应答的用户语音数据。即可以使得第一轮测试的用户语音数据具有正确的标签项。基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理；在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试；将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果。即，能够自动复用第一轮语音交互测试中的用户语音数据来进行第二轮语音交互测试，并根据正确的标签项能够自动分析出第二轮测试的测试结果，大大提高了效率，而不需要人工手动地发起第二轮语音交互测试，也不需要人工来分析第二轮测试的测试结果，节省了操作成本。

关于人机语音交互测试装置的具体限定可以参见上文中对于人机语音交互测试方法的限定，在此不再赘述。上述人机语音交互测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种人机语音交互测试方法中的至少部分步骤。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。

该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储搜索数据。

该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种人机语音交互测试方法中的至少部分步骤。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中至少部分的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中至少部分的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中至少部分的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人机语音交互测试方法，其特征在于，所述方法包括：

将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果；所述用户语音数据最终对应的标签项，是指纠正后的正确的标签项。

2.根据权利要求1所述的方法，其特征在于，所述添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项包括：

添加在所述第一轮语音交互测试时对所述用户语音数据识别的意图标签项、用于触发的节点名称标签项以及用于触发的词槽名称标签项中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述基于所述错误应答的用户语音数据，对机器人进行语音交互优化处理包括：

获取与所述错误应答的用户语音数据相符的补充语料；

根据所述补充语料，对机器人进行语音交互优化处理，以优化所述机器人对所述错误应答的用户语音数据的识别能力。

4.根据权利要求3所述的方法，其特征在于，所述错误的标签项包括错误的意图标签项；所述错误应答的用户语音数据，包括添加了所述错误的意图标签项的用户语音数据；

所述获取与所述错误应答的用户语音数据相符的补充语料包括：

按照添加了所述错误的意图标签项的用户语音数据所对应的正确意图，获取符合所述正确意图的补充语料。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在第一轮语音交互测试对应的通话页面中，将所述第一轮语音交互测试中交互的用户语音数据和机器人的应答语音数据进行文本化展示，得到用户的文本的询问语句和机器人的文本的应答语句；所述应答语音数据，是对相应用户语音数据识别后做出的应答；

所述添加在所述第一轮语音交互测试时对所述用户语音数据识别的、且与应答相关的标签项，包括：

基于所述文本的应答语句，在所述通话页面中为相应询问语句所对应的用户语音数据，添加与应答相关的标签项。

6.根据权利要求1所述的方法，其特征在于，所述响应于纠正指令，将添加的错误的标签项进行纠正，包括：

响应于对添加错误的标签项的纠正指令，对添加了待纠正的错误的标签项的用户语音数据进行分析，根据分析结果推荐候选标签项；

确定从所述候选标签项中选择的正确的目标标签项，并将所述错误的标签项纠正为所述目标标签项。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试包括：

基于第一轮语音交互测试中产生的所述用户语音数据，再次发起交互任务，以发起对所述机器人的第二轮语音交互测试；

在所述第二轮语音交互测试中，将所述用户语音数据作为用户输入语句，以与所述机器人进行语音交互，并获取所述机器人在所述语音交互中的应答语句。

8.一种人机语音交互测试装置，其特征在于，所述装置包括：

所述测试模块还用于在进行优化后，基于第一轮语音交互测试中产生的所述用户语音数据，对所述机器人进行第二轮语音交互测试；将第二轮语音交互测试时所述机器人针对所述用户语音数据的应答语句与所述用户语音数据最终对应的标签项进行匹配处理，根据匹配结果输出第二轮语音交互测试的测试结果；所述用户语音数据最终对应的标签项，是指纠正后的正确的标签项。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。