CN111563029A

CN111563029A - 对话机器人的测试方法、系统、存储介质及计算机设备

Info

Publication number: CN111563029A
Application number: CN202010173205.5A
Authority: CN
Inventors: 何华健; 孙非凡; 孙信中; 吴涵渠
Original assignee: Shenzhen Aoto Electronics Co Ltd
Current assignee: Shenzhen Aoto Electronics Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-08-21

Abstract

本申请涉及一种对话机器人的测试方法、系统、存储介质及计算机设备。测试方法，包括：获取测试用例，并解析测试用例得到标准语句及标准答复；对标准语句进行扩展，得到若干扩展语句；生成输入语句，并将输入语句输入到对话机器人，其中，输入语句为标准语句及若干扩展语句中的任意一语句；接收对话机器人的实际答复；将实际答复与标准答复进行比对，得到测试评价。通过对标准语句进行扩展，得到多个扩展语句，多个扩展语句均对应一标准答复，相当于对测试用例进行了扩展，将一个对同一个提问，扩展出多种不同的提问话术，模拟了同一提问在不同用户中的不同的提问，提升了模拟交互的智能性，能够测试更高AI水平的对话机器人。

Description

对话机器人的测试方法、系统、存储介质及计算机设备

技术领域

本申请涉及人工智能相关技术领域，特别是涉及一种对话机器人的测试方法、系统、存储介质及计算机设备。

背景技术

随着人工智能的不断发展，人机交互的对话机器人如雨后春笋般不断出现，这些产品都是基于自然语言处理的人工智能系统。目前，针对对话机器人的测试方法，通常使用对话机器人预先提供的输入信息与对话机器人进行交互，获取对话机器人系统返回的输出信息，通过比对返回的输出信息与对话机器人提供的正确答复生成测试数据。

随着各种基于深度神经网络的自然语言理解模型不断涌现，对话机器人对于训练语料中不曾出现的自然语言的泛化能力不断提高，对于用户的多样化的交互语句能够更好的理解并给出合适的答复。然而，上述测试方法不能模拟用户的多样化交互语句，只能输入给定的信息，比较单一。

发明内容

基于此，有必要针对现有的测试方法不能模拟用户的多样化交互语句，只能输入给定的信息，比较单一的问题，提供一种对话机器人的测试方法、系统、存储介质及计算机设备。

本申请第一方面提供一种一种对话机器人的测试方法，包括步骤：

获取测试用例，并解析测试用例得到标准语句及标准答复；

对标准语句进行扩展，得到若干扩展语句；

生成输入语句，并将输入语句输入到对话机器人，其中，输入语句为标准语句及若干扩展语句中的任意一语句；

接收对话机器人的实际答复；

将实际答复与标准答复进行比对，得到测试评价。

在其中一个实施例中，所述对标准语句进行扩展，得到若干扩展语句的步骤之后，还包括步骤：

将每个扩展语句与标准答复相对应，并进行绑定。

在其中一个实施例中，所述生成输入语句，并将输入语句输入到对话机器人的步骤，具体包括：

生成输入语句；

将输入语句输入到对话机器人；

将输入语句及与输入语句对应的标准答复发送到预设比较装置进行存储。

在其中一个实施例中，所述接收对话机器人的实际答复的步骤具体包括：

接收对话机器人的实际答复，并将实际答复与输入语句对应记录并存储到预设存储装置。

在其中一个实施例中，所述将实际答复与标准答复进行比对，得到测试评价的步骤，具体包括：

预设比较装置从预设存储装置获取实际答复；

根据输入语句将实际答复与标准答复关联；

将关联的实际答复与标准答复进行比对，得到测试评价。

将标准答复与实际答复先比对是否是同一条语句；

若是，则判定对话机器人答复正确；

若否，判断标准答复与实际答复的相似度，当相似度大于等于预设阈值时，判定对话机器人答复正确，小于预设阈值时，判定对话机器人答复错误；

记录判定结果。

本申请第二方面提供一种对话机器人的测试系统，包括如下部件：

交互语句生成部件，用于获取测试用例，并解析测试用例得到标准语句及标准答复；

交互语句生成部件还用于对标准语句进行扩展，得到若干扩展语句；

交互语句生成部件还用于生成输入语句，并将输入语句输入到对话机器人；

答复信息记录部件，用于接收对话机器人的实际答复；

答复信息比对部件，用于将实际答复与标准答复进行比对，得到测试评价。

在其中一个实施例中，交互语句生成部件包括如下子部件：

解析子部件，用于获取测试用例，并解析测试用例得到标准语句及标准答复；

扩展子部件，用于对标准语句进行扩展，得到若干扩展语句；

输入语句生成子部件，用于生成输入语句，并将输入语句输入到对话机器人；及

发送子部件，用于输入语句及与输入语句对应的标准答复发送到答复信息比对部件进行存储。

在其中一个实施例中，答复信息记录部件包括如下子部件：

接收子部件，用于接收对话机器人的实际答复；

存储子部件，用于记录并存储实际答复与输入语句；

答复信息比对部件包括如下子部件：

实际答复获取子部件，用于从存储子部件获取实际答复；

关联子部件，用于根据输入语句将实际答复与标准答复关联；

比对子部件，将标准答复与实际答复先比对是否是同一条语句，若是，则判定对话机器人答复正确；还用于判断标准答复与实际答复的相似度，当相似度大于等于预设阈值时，判定对话机器人答复正确，小于预设阈值时，判定对话机器人答复错误。

通过对标准语句进行扩展，得到多个扩展语句，多个扩展语句均对应一标准答复，相当于对测试用例进行了扩展，将一个对同一个提问，扩展出多种不同的提问话术，模拟了同一提问在不同用户中的不同的提问，提升了模拟交互的智能性，能够测试更高AI水平的对话机器人。

本申请第三方面提供一种机器可读存储介质，其上存储有计算机程序，其中所述计算机程序在由处理器执行时实现上述任一所述的对话机器人的测试方法。

本申请第四方面提供一种计算机设备，包括：处理器；存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行上述任一项所述的对话机器人的测试方法。

附图说明

图1为本申请一实施例的对话机器人的测试方法的流程图；

图2为本申请另一实施例的对话机器人的测试方法的流程图；

图3为本申请又一实施例的对话机器人的测试方法的流程图；

图4为本申请又一实施例的对话机器人的测试方法的流程图；

图5为本申请又一实施例的对话机器人的测试方法的流程图；

图6为本申请又一实施例的对话机器人的测试方法的流程图；

图7为本申请又一实施例的对话机器人的测试方法的流程图；

图8为本申请一实施例的对话机器人的测试系统的框架结构图；

图9为本申请另一实施例的对话机器人的测试系统的框架结构图；

图10为本申请又一实施例的对话机器人的测试系统的框架结构图；

图11为本申请一实施例的对话机器人的测试系统的测试流程示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施方式及实施方式中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本申请。

本申请各实施例的对话机器人的测试方法，通过对标准语句进行扩展，能够模拟用户在真实情况下的多样化的问询语句，从而实现更好的测试效果。

请参阅图1，示例性的示出了本申请一实施例的一种对话机器人的测试方法的流程示意图，测试方法包括如下步骤：

S10：获取测试用例，并解析测试用例得到标准语句及标准答复；

在对对话机器人进行测试前，可以准备若干完整的对话流程，每个对话流程即为一个测试用例，一个完整的对话流程至少包括提问(Q)及回答(A)。测试用例可由人工设计提问，并给出对应的答复，在测试时，以测试用例提供的答复作为参考，进行测试评价。

将测试用例输入到一个预设的部件中，例如，定义为交互语句生成部件，交互语句生成部件在接收到测试用例后，对测试用例进行解析，得到至少一提问(Q)及至少一回答(A)，并将提问作为标准语句，将回答作为标准答复。测试用例通常可以包括一提问及一回答，交互语句生成部件根据预设的逻辑区分提问及回答，即可得到标准语句及标准答复。

可以理解，在某些特定场景下，前后承接的连续提问更有利于测试对话机器人对用户意图的理解，因此，测试用例也可以包括多个提问及多个回答，每个提问均对应一回答，此时，可以根据测试用例的输入顺序来确定提问及与提问对应的回答，如，将提问后紧接着的回答作为该提问的回答，或者，交互语句生成部件在确定若干个提问及若干个回答后，根据提问及回答的输入顺序，确定与提问对应的回答，换句话说，将最接近提问的回答作为与该提问对应的回答。以此确定多个标准语句及多个标准答复。

S20：对标准语句进行扩展，得到若干扩展语句；

交互语句生成部件解析测试用例，得到标准语句以及与标准语句对应的标准答复后，可以对标准语句进行扩展，得到若干扩展语句，同时利用扩展语句进行测试，可以用不同的表述测试对话机器人，更接近实际的对话场景。

具体来说，可以将标准语句输入到知识图谱中，知识图谱结合对话文本数据库对标准语句进行扩展，生成与标准语句相对应的若干扩展语句。具体来说，在进行扩展时，可以进行同义词替换扩展、缩写补全扩展、句式转换扩展等，例如句式转换扩展可以包括疑问句与肯定句转换、把字句与被字句转换。在银行场景下，以提问为“我要开卡”为例，进行同义词替换扩展可以得到扩展语句1“我要办卡”，再进行缩写补全后可以得到扩展语句2“我要办理银行卡”，进行句式转换扩展时，转换为疑问句得到扩展语句3“怎么开卡？”、怎么办卡？”、“怎么办理银行卡？”

通过对标准语句进行扩展，得到多个扩展语句，多个扩展语句均对应一标准答复，相当于对测试用例进行了扩展，对同一个提问，扩展出多种不同的提问话术，模拟了同一提问在不同用户中的不同的提问。

S30：生成输入语句，并将输入语句输入到对话机器人，其中，输入语句为标准语句及若干扩展语句中的任意一语句；

在对标准语句进行扩展后，得到一个标准语句以及若干个扩展语句，交互语句生成部件根据标准语句及扩展语句确定输入语句，将输入语句作为输入到对话机器人的测试语句。例如，可以从标准语句及若干扩展语句中任意选择一句作为输入语句，将输入语句输入到对话机器人中，模拟用户与对话机器人进行交互。

S40：接收对话机器人的实际答复；

对话机器人接收到输入语句后，根据自身的工作程序，给出一个对应的答复，即为实际答复，并将实际答复反馈到测试系统。测试系统接收对话机器人的实际答复，此时，模拟交互过程结束。

S50：将实际答复与标准答复进行比对，得到测试评价。

对话机器人在模拟交互的过程中，会提供一实际答复，实际答复为对话机器人的测试结果。在给出的测试用例中，提供有标准答复，将实际答复与人工提供的标准答复进行比对，即可判定对话机器人是否答复正确。

请参阅图2，在一个或多个实施例中，步骤S20：对标准语句进行扩展，得到若干扩展语句，之后，还包括步骤：

S21：将每个扩展语句与标准答复相对应，并进行绑定。

在对标准语句进行扩展得到若干个扩展语句后，标准语句及若干个扩展语句对应于同一标准答复，为了便于后期的比对处理，将每个扩展语句均与标准答复进行绑定，例如，以键值对的形式将扩展语句与标准答复绑定。

可以理解，也可以将标准语句与标准答复以键值对的形式进行绑定。

请参阅图3，在一个或多个实施例中，步骤S30：生成输入语句，并将输入语句输入到对话机器人，具体包括：

S301：生成输入语句；

S303：将输入语句输入到对话机器人；

S305：将输入语句及与输入语句对应的标准答复发送到预设比较装置进行存储。

交互语句生成部件根据标准语句以及扩展语句确定输入语句后，即生成了输入语句，随后，交互语句生成部件将标准语句输入到对话机器人中，模拟用户与对话机器人进行交互。

交互语句生成部件在将标准语句输入到对话机器人的同时，也可以将输入语句以及与输入语句对应的标准答复发送到一个预设比较装置进行存储，对话机器人反馈的实际答复也反馈到该预设比较装置，以便于将标准答复和实际答复进行比较。当然，交互语句生成部件也可以再将输入语句发送到对话机器人之后，再将输入语句以及标准答复发送到预设比较装置进行存储。

请参阅图4，在一个或多个实施例中，步骤S40：接收对话机器人的实际答复，具体可以是：

步骤S41：接收对话机器人的实际答复，并将实际答复与输入语句对应记录并存储到预设存储装置。

测试系统可以访问对话机器人，以获取对话机器人的实际答复。或者，对话机器人可以将答复主动的反馈给测试系统，以便于测试系统的评价测试。

在一些实施例中，对话机器人在向测试系统反馈信息时，反馈一个完整的对话流程，即同时反馈提问及答复，测试系统可以预设一个存储装置，将对话机器人反馈的提问及答复一一记录并存储。由于对话机器人同时反馈提问及答复，测试系统在接收到对话机器人的提问时，即可识别提问，同时，在后续的比对时，可以通过提问确定实际答复和与之比较的标准答复。

将实际答复及输入语句进行记录并存储的方式，将模拟交互的过程与比对过程区分成两个相互独立的阶段，使得对对话机器人的测试可以连续进行，而无需在比对完成后，再进行下一个测试用例的测试。

请参阅图5，在一个或多个实施例中，步骤S50：将实际答复与标准答复进行比对，得到测试评价，可以包括如下子步骤：

S501：预设比较装置从预设存储装置获取实际答复；

S503：根据输入语句将实际答复与标准答复关联；

S505：将关联的实际答复与标准答复进行比对，得到测试评价。

对话机器人反馈的实际答复存储在预设存储装置中，即完成了模拟交互的过程。预设存储装置在记录并存储实际答复时，一并存储输入语句，并存储在预设存储装置中。

模拟交互完成后，即进入到测试评价环节，预设比较装置从预设存储装置中读取实际答复，同时一并读取输入语句，由于输入语句选自标准语句、扩展语句，因而，在读取输入语句时，测试系统可以识别输入语句，并找到与该输入语句对应的标准答复，例如，根据键值对确定对应的标准的答复。预设比较装置在进行比较前已存储有输入语句及与输入语句对应的标准答复，因此，在预设比较装置在从预设存储装置读取实际答复时，可以再输入语句对应的标准答复和实际答复之间建立关联关系，从而预设比较装置进行比对，得到测试评价。

请参阅图6，在具体的实施例中，步骤S505：将实际答复与标准答复进行比对，得到测试评价的步骤，可以包括如下子步骤：

S5051：将标准答复与实际答复先比对是否是同一条语句；

S5053：若是，则判定对话机器人答复正确；

S5055：记录判定结果。

标准答复与实际答复为同一语句，即说明实际答复与标准答复完全相同，则对话机器人答复正确。

在一些实施例中，为了进行灵活的评价测试，S5053：若是，则判定对话机器人答复正确的步骤之后，还可以包括如下子步骤：

S5054：判断标准答复与实际答复的相似度，当相似度大于等于预设阈值时，判定对话机器人答复正确，小于预设阈值时，判定对话机器人答复错误；

在一些实际的交互场景中，同一提问的回答可能每时每刻都在发生变化，例如，当提问为“今天天气如何？”时，对话机器人通常会通过一个气象接口从气象局获取数据，给出类似于“今天的天气晴朗，气温20℃”的实际答复，然而，气象局的数据更新频率较为频繁，气温更是在实时变化，因此，若以实际答复与标准答复为同一语句作为标准来判定答复正确，则显然对于类似的问题较难通过，也不符合实际需求。因此，可以通过判断标准答复与实际答复的相似度，来判定对话机器人的答复是否正确。当相似度大于等于预设阈值时，即可认为答复正确，比如，实际答复为“今天的天气有雨，气温18℃”，即可判定对提问“今天天气如何？”正确答复。通过这样的测试，有利于训练对话系统对同一提问的正确答复的意思相近的答复，也给出答复正确的判断，更接近实际人际交互。

请参阅图7，在一些实施例中，还可以包括步骤：

S60：根据记录的判定结果计算测试结果。

在进行若干个测试用例的测试后，测试系统可以进行测试结果计算，例如，计算对话机器人的答复准确率、精确率、召回率、IOU、kappa系数等。

具体的，记录的判定结果有正类答复和负类答复，定义TP为将正类答复记录为正类数，TN为将负类答复记录为负类数，FP为将正类答复记录为负类数，FN为将负类答复记录为正类数。

准确率：指分类正确的样本占总样本个数的比例，计算公式为：

准确率(accuracy)＝(TP+TN)/(TP+FN+FP+TN)。

精确率：指分类正确的正样本个数占分类器判定为正样本的样本个数的比例，计算公式为：

精确率(precision)＝TP/(TP+FP)。

召回率：指分类正确的正样本个数占真正的正样本个数的比例，计算公式为：

召回率(recall)＝TP/(TP+FN)。

IOU(Intersection-over-Union，交并比)：目标检测中使用的一个概念，是产生的候选框与原标记框的交叠率，在这里引用为正类数与负类数的交并比，计算公式为：

IOU＝TP/(TP+FP+FN)。

根据计算的测试结果可以生成预先定义的各种图表。

上述对话机器人的测试方法，通过对标准语句进行扩展，得到多个扩展语句，多个扩展语句均对应一标准答复，相当于对测试用例进行了扩展，将一个对同一个提问，扩展出多种不同的提问话术，模拟了同一提问在不同用户中的不同的提问，提升了模拟交互的智能性，能够测试更高AI水平的对话机器人。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

请参阅图8，示例性的示出了本申请一实施例的对话机器人的测试系统10的框架结构图，对话机器人的测试系统10包括如下部件：

交互语句生成部件110，用于获取测试用例，并解析测试用例得到标准语句及标准答复；

交互语句生成部件110还用于对标准语句进行扩展，得到若干扩展语句；

交互语句生成部件110还用于生成输入语句，并将输入语句输入到对话机器人；

答复信息记录部件120，用于接收对话机器人的实际答复；

答复信息比对部件130，用于将实际答复与标准答复进行比对，得到测试评价。

请参阅图9，交互语句生成部件110可以包括如下子部件：

解析子部件111，用于获取测试用例，并解析测试用例得到标准语句及标准答复；

扩展子部件113，用于对标准语句进行扩展，得到若干扩展语句；

输入语句生成子部件115，用于生成输入语句，并将输入语句输入到对话机器人。

在一些实施例中，交互语句生成部件110还可以包括：

绑定子部件117，用于将每个扩展语句与标准答复相对应，并进行绑定。

在一些实施例中，交互语句生成部件110还用于输入语句及与输入语句对应的标准答复发送到答复信息比对部件130进行存储。

例如，交互语句生成部件110还可以包括：

发送子部件119，用于输入语句及与输入语句对应的标准答复发送到答复信息比对部件130进行存储。

交互语句生成部件110在将标准语句输入到对话机器人的同时，也可以将输入语句以及与输入语句对应的标准答复发送到答复信息比对部件130进行存储，对话机器人反馈的实际答复也反馈到答复信息比对部件130，以便于将标准答复和实际答复进行比较。当然，交互语句生成部件110也可以再将输入语句发送到对话机器人之后，再将输入语句以及标准答复发送到答复信息比对部件130进行存储。

请参阅图10，答复信息记录部件120可以包括如下子部件：

接收子部件121，用于接收对话机器人的实际答复；

存储子部件123，用于记录并存储实际答复与输入语句。

请参阅图10，答复信息比对部件130可以包括如下子部件：

实际答复获取子部件131，用于从存储子部件123获取实际答复；

关联子部件133，用于根据输入语句将实际答复与标准答复关联；

比对子部件135，用于将关联的实际答复与标准答复进行比对，得到测试评价。

具体来说，比对子部件135将标准答复与实际答复先比对是否是同一条语句，若是，则判定对话机器人答复正确。

在一个或多个实施例中，比对子部件135还用于判断标准答复与实际答复的相似度，当相似度大于等于预设阈值时，判定对话机器人答复正确，小于预设阈值时，判定对话机器人答复错误。

答复信息比对部件130可以包括记录子部件137，记录子部件137用于记录判定结果。

请参阅图10，在一个或多个实施例中，对话机器人的测试系统10还可以包括：

测试结果计算部件140，用于根据记录的判定结果计算测试结果。

计算测试结果具体可以使计算准确率、精确率、召回率、IOU、kappa系数等。

请参阅图11，图11以“Q：我要开卡；A：请带齐相关证件后在自助机上办理”这一测试用例说明了测试系统的工作原理。

测试用例输入到交互语句生成部件，交互语句生成部件对标准语句“Q：我要开卡”进行扩展后，得到多个扩展语句“我想开卡”、“怎么开卡”、“我要办理银行卡”，并将扩展语句分别和标准答复“A：请带齐相关证件后在自助机上办理”关联。交互语句从标准语句、多个扩展语句中选择一个语句作为输入语句，例如选择“怎么开卡”作为输入语句输入到对话机器人，交互语句生成部件在确定输入语句后，将输入语句以及对应的标准答复发送到答复信息比对模块，答复信息比对部件存储输入语句以及标准答复。对话机器人在受到输入语句后，给出对应的答复，答复信息记录部件访问对话机器人并获取实际答复，将实际答复以及输入语句记录并存储。答复信息比对部件从答复信息记录部件获取实际答复，根据输入语句在实际答复以及标准答复之间建立关联关系，再进行比对，先比对是否同意语句，然后再比对相似度，从而判定对话机器人是否答复正确。判定结果输入到测试结果计算部件，进行测试结果计算。

本申请一实施例还提供一种机器可读存储介质，其上存储有计算机程序，其中所述计算机程序在由处理器执行时实现上述任一实施例所述的对话机器人的测试方法。

所述系统/计算机装置集成的部件/模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施方式方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述各个方法实施方式的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请还提供一种计算机设备，包括：处理器；存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行上述任一实施例所述的对话机器人的测试方法。

在本申请所提供的几个具体实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施方式仅仅是示意性的，例如，所述部件的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本申请各个实施例中的各功能模块/部件可以集成在相同处理模块/部件中，也可以是各个模块/部件单独物理存在，也可以两个或两个以上模块/部件集成在相同模块/部件中。上述集成的模块/部件既可以采用硬件的形式实现，也可以采用硬件加软件功能模块/部件的形式实现。

对于本领域技术人员而言，显然本申请实施例不限于上述示范性实施例的细节，而且在不背离本申请实施例的精神或基本特征的情况下，能够以其他的具体形式实现本申请实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对话机器人的测试方法，其特征在于，包括步骤：

获取测试用例，并解析测试用例得到标准语句及标准答复；

对标准语句进行扩展，得到若干扩展语句；

接收对话机器人的实际答复；

将实际答复与标准答复进行比对，得到测试评价。

2.根据权利要求1所述的对话机器人的测试方法，其特征在于，所述对标准语句进行扩展，得到若干扩展语句的步骤之后，还包括步骤：

将每个扩展语句与标准答复相对应，并进行绑定。

3.根据权利要求1所述的对话机器人的测试方法，其特征在于，所述生成输入语句，并将输入语句输入到对话机器人的步骤，具体包括：

生成输入语句；

将输入语句输入到对话机器人；

4.根据权利要求3所述的对话机器人的测试方法，其特征在于，所述接收对话机器人的实际答复的步骤具体包括：

5.根据权利要求4所述的对话机器人的测试方法，其特征在于，所述将实际答复与标准答复进行比对，得到测试评价的步骤，具体包括：

预设比较装置从预设存储装置获取实际答复；

根据输入语句将实际答复与标准答复关联；

将关联的实际答复与标准答复进行比对，得到测试评价。

6.根据权利要求1所述的对话机器人的测试方法，其特征在于，所述将实际答复与标准答复进行比对，得到测试评价的步骤，具体包括：

将标准答复与实际答复先比对是否是同一条语句；

若是，则判定对话机器人答复正确；

记录判定结果。

7.一种对话机器人的测试系统，其特征在于，包括如下部件：

答复信息记录部件，用于接收对话机器人的实际答复；

8.根据权利要求7所述的对话机器人的测试系统，其特征在于，交互语句生成部件包括如下子部件：

9.一种机器可读存储介质，其上存储有计算机程序，其中所述计算机程序在由处理器执行时实现权利要求1-6任一项所述的对话机器人的测试方法。

10.一种计算机设备，其特征在于，包括：处理器；存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的对话机器人的测试方法。