CN111198823A

CN111198823A - 一种多轮会话的测试方法、装置、设备和介质

Info

Publication number: CN111198823A
Application number: CN202010027612.5A
Authority: CN
Inventors: 骆丰魁; 苏少炜; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-05-26

Abstract

本申请公开了一种多轮会话的测试方法、装置、设备和介质，属于测试技术领域，该方法包括，获取包括多个待测试语句的测试样本；将测试样本划分为至少一个测试列表；根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域；确定测试列表中每个待测试语句对应的回复语句的测试话题领域；分别确定每一待测试语句的目标话题领域与相应的测试话题领域之间的第一匹配度；根据第一匹配度，确定相应的测试结果。这样，将类别为多轮会话的多个待测试语句保持在相同的目标话题领域，通过目标话题领域判断通过会话处理程序获得的测试话题领域是否正确，提高了会话处理程序测试的精确度。

Description

一种多轮会话的测试方法、装置、设备和介质

技术领域

本申请涉及测试技术领域，尤其涉及一种多轮会话的测试方法、装置、设备和介质。

背景技术

随着自然语言处理技术的发展，通常可以通过会话处理程序采用自然语言处理技术对语句进行语言处理，获得会话处理结果。其中，会话处理结果至少包括语句对应的回复语句的测试话题领域。在优化会话处理程序时，通常需要根据获得的会话处理结果以及期望的会话处理结果对会话处理程序进行测试。

现有技术下，对会话处理程序进行测试时，通常分别根据每一语句确定相应的回复语句的测试话题领域，并根据该语句对应的回复语句的测试话题领域与目标话题领域之间的匹配度，获得会话处理程序的测试结果。

但是，采用这种方式，会话处理程序的测试结果的精确度较低。

发明内容

本申请实施例提供一种多轮会话的测试的方法、装置、设备和介质，用以在会话处理程序进行测试时，提高测试结果的精确度。

一方面，提供一种多轮会话的测试方法，包括：

获取测试样本，其中，测试样本包括多个待测试语句；

将测试样本划分为至少一个测试列表，每个测试列表设置有表征会话特征的类别；会话特征为多轮会话或单轮会话；

根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域；

确定测试列表中每个待测试语句对应的回复语句的测试话题领域；

分别确定每一待测试语句的目标话题领域与相应的测试话题领域之间的第一匹配度；

根据第一匹配度，确定相应的测试结果。

较佳的，将测试样本划分为至少一个测试列表，包括：

分别获取每一待测试语句的类别，每个待测试语句设置有表征会话特征的类别；会话特征为多轮会话或单轮会话；

将类别为单轮会话的待测试语句划分至类别为单轮会话的测试列表中；

将类别为多轮会话的待测试语句，按照待测试语句的顺序，划分到至少一个类别为多轮会话的测试列表中。

较佳的，根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域，包括：

当测试列表的类别为单轮会话时，分别针对测试列表中包含的每一待测试语句，根据待测试语句中包含的关键词，确定相应的目标话题领域；

当测试列表的类别为多轮会话时，从测试列表中筛选出符合预设领域条件的目标语句，并根据目标语句中包含的关键词，确定测试列表中各待测试语句的目标话题领域。

较佳的，根据目标语句中包含的关键词，确定测试列表中各待测试语句的目标话题领域，包括：

根据目标语句中包含的关键词，确定目标语句的目标话题领域；

将目标语句的目标话题领域，确定为测试列表中每一待测试语句的目标话题领域。

较佳的，确定测试列表中每个待测试语句对应的回复语句的测试话题领域，包括：

根据预设的会话处理算法，分别对每一待测试语句进行会话处理，获得相应的回复语句，以及回复语句的测试话题领域。

较佳的，根据第一匹配度，确定相应的测试结果，包括：

分别针对每一待测试语句，若待测试语句对应的第一匹配度符合第一预设匹配条件，则确定相应会话处理结果正确，否则，确定相应的会话处理结果错误。

较佳的，进一步包括：

将至少一个测试列表存储至指定类型的数据库中。

一方面，提供一种多轮会话的测试装置，包括：

获取单元，用于获取测试样本，其中，测试样本包括多个待测试语句；

划分单元，用于将测试样本划分为至少一个测试列表，每个测试列表设置有表征会话特征的类别；会话特征为多轮会话或单轮会话；

第一确定单元，用于根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域；

第二确定单元，用于确定测试列表中每个待测试语句对应的回复语句的测试话题领域；

匹配单元，用于分别确定每一待测试语句的目标话题领域与相应的测试话题领域之间的第一匹配度；

测试单元，用于根据第一匹配度，确定相应的测试结果。

较佳的，划分单元用于：

较佳的，第一确定单元用于：

较佳的，第二确定单元用于：

较佳的，匹配单元用于：

较佳的，划分单元还用于：

将至少一个测试列表存储至指定类型的数据库中。

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述任一种多轮会话的测试方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种多轮会话的测试方法的步骤。

本申请实施例提供的一种多轮会话的测试方法、装置、设备和介质中，获取包括多个待测试语句的测试样本；将测试样本划分为至少一个测试列表；根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域；确定测试列表中每个待测试语句对应的回复语句的测试话题领域；分别确定每一待测试语句的目标话题领域与相应的测试话题领域之间的第一匹配度；根据第一匹配度，确定相应的测试结果。这样，将类别为多轮会话的多个待测试语句保持在相同的目标话题领域，通过目标话题领域判断通过会话处理程序获得的测试话题领域是否正确，提高了会话处理程序测试的精确度。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例方式中一种多轮会话的测试方法的实施流程图；

图2为本申请实施例方式中一种多轮会话的测试方法的详细实施流程图；

图3为本申请实施例方式中一种目标话题领域确定方法的详细实施流程图；

图4为本申请实施例方式中一种多轮会话的测试装置的结构示意图；

图5为本申请实施例方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了在对会话处理结果进行测试，提高测试结果的精确度，本申请实施例提供了一种多轮会话的测试方法、装置、设备和介质。

参阅图1所示，为本申请提供的一种多轮会话的测试方法的实施流程图。

该方法的具体实施流程如下：

步骤100：控制设备获取测试样本。

具体的，测试样本包括多个待测试语句，待测试语句为按照会话顺序获取的多个语句。

可选的，一个待测试语句可以为一个询问的语句，控制设备可以为终端设备或服务器等。

例如，测试样本中包括的各待测试语句为：语句(query)1为：北京今天的天气怎么样。query2为：明天呢。query3为：这个周六呢。query4为：播放莫文蔚的阴天。

步骤101：控制设备获取每一待测试语句对应设置的类别。

其中，每一待测试语句对应设置有表征会话特征的类别，会话特征为多轮会话或单轮会话。

一种实施方式中，若获取的类别标识为第一预设标识，则确定待测试语句对应设置的类别为多轮会话。若获取的类别标识为第二预设标识，则确定待测试语句对应设置的类别为单轮会话。

进一步地，由于控制设备可能没有为待测试语句设置相应的类别标识，则获取的类别标识为空。当获取的类别标识为空时，也确定待测试语句对应设置的类别为单轮会话。

实际应用中，第一预设标识和第二预设标识均可以根据实际应用场景进行设置，在此不做限制。例如，第一预设标识为1，第二预设标识为0。

这样，就可以根据预先设置的类别，将待测试语句分为不同类型的语句。

步骤102：控制设备根据待测试语句对应设置的类别，将测试样本划分为至少一个测试列表。

具体的，执行步骤102时，可以采用以下步骤：

控制设备将类别为单轮会话的待测试语句划分至类别为单轮会话的测试列表中。控制设备将类别为多轮会话的待测试语句，按照待测试语句的顺序，划分到至少一个类别为多轮会话的测试列表中。

其中，单轮会话的测试列表中包含的待测试语句的类别为单轮会话，并且单轮会话的测试列表中可以包含一个或多个待测试语句，在此不再赘述。

其中，类别为多轮会话的测试列表中包含的待测试语句的类别均为多轮会话，且类别为多轮会话的测试列表中包含的待测试语句的会话顺序可以为连续的，也可以为不连续的，在此不作限制。

一种实施方式中，控制设备按照各待测试语句的会话顺序，根据类别为单轮会话的待测试语句，将类别为多轮会话的待测试语句划分，获得至少一个类别为多轮会话的测试列表，并将类别为单轮会话的待测试语句，划分至类别为单轮会话的测试列表中。

也就是说，控制设备按照各待测试语句的会话顺序，依次将每两个类别为单轮会话的待测试语句之间的类别为多轮会话的一个或多个待测试语句，添加到类别为多轮会话的测试列表中，并将类别为单轮会话的待测试语句，划分至类别为单轮会话的测试列表中。以及，若测试样本中的第一个待测试语句的类别为多轮会话，则将测试样本中第一个类别为单轮会话的待测试语句之前的待测试语句划分至类别为多轮会话的测试列表。若测试样本中的最后一个会话的类别为多轮会话，则将测试样本中最后一个类别为单轮会话的待测试语句之后的待测试语句划分到类别为多轮会话的测试列表。

一种实施方式中，划分测试列表时，可以采用以下步骤：

S1020：将测试样本中的第一个待测试语句确定为首个待测试语句。

S1021：判断首个待测试语句的类别是否为多轮会话，若是，则执行S1022，否则，执行S1025。

S1022：创建包含首个待测试语句并且类别为多轮会话的第一测试列表。

S1023：判断下一个待测试语句的类别是否为多轮会话，若是，则执行S1024，否则，执行S1025。

S1024：将上述下一个待测试语句添加到第一测试列表中，执行S1023。

S1025：将上述下一个待测试语句添加到类别为单轮会话的第二测试列表中，并将上述下一个待测试语句的下一个待测试语句确定为首个待测试语句，执行S1021。

也就是说，将测试样本中的第一个待测试语句，以及上一个待测试语句的类别为单轮会话的待测试语句，均确定为首个待测试语句。

这样，就可以根据待测试语句的类别，将各待测试语句进行划分，获得类别为多轮会话的测试列表和类别为单轮会话的测试列表。

进一步地，为提高数据处理速度，减少耗费的内存空间，以及通过内存进行存取耗费的时间成本，提高数据处理效率，控制设备还可以将获得的测试列表存储至指定类型的数据库中。可选的，指定类型可以为缓存中间件(Redis)。

一种实施方式中，将类别为多轮会话的测试列表和类别为单轮会话的测试列表均存储至指定类型的数据库中。

一种实施方式中，针对获得的测试列表，当确定测试列表的类别为多轮会话时，将该测试列表存储至指定类型的数据库中。

进一步地，在后续的步骤中，根据测试列表获得测试结果后，还可以删除测试列表，以节省存储空间，有效利用系统资源。

实际应用中，可以根据实际应用场景，对测试列表的存储以及删除方式进行调整，在此不作限制。

步骤103：控制设备根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域。

具体的，执行步骤103时，控制设备可以采用以下两种方式：

第一种方式为：当测试列表的类别为单轮会话时，分别针对测试列表中包含的每一待测试语句，根据待测试语句中包含的关键词，确定相应的目标话题领域。

第二种方式为：当测试列表的类别为多轮会话时，从测试列表中筛选出符合预设领域条件的目标语句，并根据目标语句中包含的关键词，确定测试列表中各待测试语句的目标话题领域。

其中，符合预设领域条件的目标语句可以根据实际应用场景进行设置，如目标语句可以为测试列表中第一个待测试语句或最后一个待测试语句，在此不作限制。

一种实施方式中，根据目标语句中包含的关键词，确定测试列表中各待测试语句的目标话题领域时，采用以下步骤：

控制设备根据目标语句中包含的关键词，确定目标语句的目标话题领域，并将目标语句的目标话题领域，确定为测试列表中每一待测试语句的目标话题领域。

例如，假设类别标识＝1表示类别为多轮会话，类别标识＝0，表示类别为单轮会话。各待测试语句为：query1为：北京今天的天气怎么样。对应的类别标识＝1。query1为目标语句。query2为：明天呢。对应的类别标识＝1。query3为：这个周六呢。对应的类别标识＝1。query4为：播放莫文蔚的阴天。对应的类别标识＝1。Query5为：播放莫文蔚的阴天。对应的类别标识＝0。Query6为：北京今天的天气怎么样。对应的类别标识＝0。

根据上述各query的类别，获得包含query1-query 4的测试列表。由于query1为测试列表的目标语句，对应的目标话题领域为气象，则确定query1-query 4对应的目标话题领域均为气象。Query5的类别为单轮会话，即作为没有上下文联系的query进行处理，对应的目标话题领域为音乐。Query6的类别为单轮会话，也作为没有上下文联系的query来处理，对应的目标话题领域为气象。

需要说明的是，控制设备采用预设的关键词提取方法，提取待测试语句中的关键词。

其中，关键词提取方法可以采用文本排列(TextRank)算法以及文档主题生成模型(Latent Dirichlet Allocation，LDA)等方式，也可以采用其它关键词提取方式，在此不作限制。

控制设备确定待测试语句的目标话题领域时，可以采用以下两种方式：

第一种方式为：针对包含一个关键词的待测试语句，将相应关键词对应设置的目标话题领域，作为相应的待测试语句的目标话题领域。

第二种方式为：针对包含至少两个关键词的待测试语句，分别获取待测试语句中每一关键词对应设置的目标话题领域，并将按照预设筛选条件从获取的各目标话题领域中筛选出的目标话题领域确定为相应待测试语句的目标话题领域。

需要说明的是，控制设备预先建立各关键词与目标话题领域之间的对应关系。

例如，query为：今天的天气怎么样，提取的关键词为天气，对应的目标话题领域为气象。

其中，分别针对每一待测试语句，将按照预设筛选条件从获取的各目标话题领域中筛选出的目标话题领域确定为相应待测试语句的目标话题领域时，控制设备可以采用以下两种方式：

方式1：获取待测试语句的每一目标话题领域对应的关键词数量，并将各关键词数量中的最大关键词数量对应的目标话题领域确定为相应待测试语句的目标话题领域。

例如，query为：播放莫文蔚的阴天，提取的关键词为播放、莫文蔚、阴天以及莫文蔚的阴天。播放、莫文蔚以及莫文蔚的阴天三个关键词对应的目标话题领域均为音乐，阴天对应的目标话题领域为气象。则控制设备将关键词数量最多的音乐目标话题领域确定为query的目标话题领域。

方式2：获取待测试语句的每一目标话题领域对应设置的优先级，并将各优先级中的最大优先级对应的目标话题领域确定为待测试语句的目标话题领域。

其中，控制设备预先分别针对每一目标话题领域设置相应的优先级。

这样，就可以根据每一目标话题领域对应的关键词数量或目标话题领域对应设置的优先级确定的预设筛选条件，确定待测试语句的目标话题领域。其中，预设筛选条件也可以采用其它条件筛选，在此不作限制。

这样，就可以根据测试列表的类别，确定相应待测试语句中的目标话题领域。

步骤104：控制设备确定测试列表中每个待测试语句对应的回复语句的测试话题领域。

具体的，控制设备采用会话处理程序对测试列表中的每个待测试语句进行处理，获得每个待测试语句对应的回复语句的测试话题领域。

步骤105：控制设备分别确定每一待测试语句的目标话题领域与相应的测试话题领域之间的第一匹配度。

步骤106：控制设备根据第一匹配度，确定相应的测试结果。

具体的，控制设备分别针对每一待测试语句，若待测试语句对应的第一匹配度符合第一预设匹配条件，则确定相应会话处理结果正确，否则，确定相应的会话处理结果错误。

进一步地，确定测试结果时，控制设备还可以采用以下步骤：

S1061：获取采用会话处理程序对测试列表中的每个待测试语句进行处理后，还获得的分析结果。

其中，会话处理程序是根据自然语言处理技术编写的，实际应用中，自然语言处理技术可以根据实际应用场景进行设置，如自然语言处理(Natural Language Processing，NLP)，在此不做限制。

其中，采用会话处理程序对测试列表中的每个待测试语句进行处理，获得会话处理结果，会话处理结果至少包括目标话题领域，还可以包括分析结果。分析结果可以包括但不限于：query、回复语句(answer)以及参数(parameters)。参数可以为标题(title)以及标签(tag)等。

例如，询问“北京今天的天气怎么样”。控制设备获得包含分析结果和目标话题领域的会话处理结果为：query：北京今天的天气怎么样，目标话题领域：气象，answer：11月12号，星期二，北京市阴。最高温20摄氏度，最低温5摄氏度。PM二点五值为65，属于良。今天白天不太热也不太冷，风力不大，相信您在这样的天气条件下，应会感到比较清爽和舒适。

S1062：分别针对每一待测试语句，若第一匹配度符合第一预设匹配条件，并且待测试语句的分析结果与获取的相应期望分析结果之间的第二匹配度符合第二预设匹配条件，则确定会话处理结果正确，否则，确定会话处理结果错误。

可选的，第一预设匹配条件可以为第一匹配度大于第一预设匹配阈值。第二预设匹配条件可以为匹配度大于第二预设匹配阈值。

例如，第一预设匹配条件和第二预设匹配条件均为匹配度为完全匹配。则当待测试语句的第一匹配度和第二匹配度均为完全匹配时，确定会话处理结果正确。当待测试语句的第一匹配度表示不完全匹配或者第二匹配度表示不完全匹配时，确定会话处理结果错误。

实际应用中，第一预设匹配条件、第二预设匹配条件、第一预设匹配阈值以及第二预设匹配阈值均可以根据实际应用场景进行设置，在此不作限制。

这样，就可以将类别为多轮会话的多个待测试语句保持在相同的目标话题领域，通过目标话题领域判断通过会话处理程序获得的测试话题领域是否正确，提高了会话处理程序测试的精确度。进一步地，还可以通过类别解除多轮会话的限制，操作步骤简单，便于实现，不会影响类别为单轮会话的待测试语句的分析，提高了处理效率。

下面采用一个具体的应用场景对上述实施例进行进一步详细说明。参阅图2所示，为本申请提供的一种多轮会话的测试方法的详细实施流程图。该方法的具体实施流程如下：

步骤200：控制设备获取测试样本中的首个待测试语句。

步骤201：控制设备提取首个待测试语句中包含的关键词。

步骤202：控制设备根据提取的关键词，确定首个待测试语句对应的目标话题领域。

步骤203：控制设备判断首个待测试语句对应设置的类别是否表示多轮会话，若是，则执行步骤204，否则，执行步骤205。

步骤204：控制设备确定非首个待测试语句的目标话题领域。

具体的，首个待测试语句为第一个待测试语句，非首个待测试语句为第一个待测试语句之外的待测试语句，控制设备分别针对每一非首个待测试语句，控制设备执行以下步骤，直至确定非首个待测试语句的类别表示单轮会话：

判断该非首个待测试语句的类别是否表示多轮会话，若是，则将该非首个待测试语句添加到包含首个待测试语句并且类别为多轮会话的测试列表中，以及将首个待测试语句对应的目标话题领域，作为该测试列表中每一待测试语句的目标话题领域，否则，将该非首个待测试语句添加到类别为单轮会话的测试列表中，并提取该非首个待测试语句中包含的关键词，并根据提取的关键词，确定该非首个待测试语句的目标话题领域。

也就是说，执行步骤204时还可以采用以下步骤：

S2041：当首个待测试语句对应设置的类别表示多轮会话时，控制设备按照会话顺序，依次针对每一非首个待测试语句执行以下步骤，直至确定非首个待测试语句的类别表示单轮会话：当非首个待测试语句的类别表示多轮会话时，将首个待测试语句对应的目标话题领域，作为非首个待测试语句的目标话题领域。

S2042：控制设备将该非首个待测试语句添加到类别为单轮会话的测试列表中，并提取类别表示单轮会话的非首个待测试语句中包含的关键词。控制设备根据提取的关键词对应设置的目标话题领域，确定该非首个待测试语句的目标话题领域。

步骤205：控制设备确定待测试语句对应的回复语句的测试话题领域。

步骤206：控制设备分别根据每一待测试语句的目标话题领域与相应测试话题领域之间的第一匹配度，获得测试结果。

进一步地，若仍存在未测试的待测试语句，则将上述类别为单轮会话的待测试语句的下一个待测试语句确定为首个待测试语句，执行步骤201。

参阅图3所示，为一种目标话题领域确定方法的实施流程图，该方法的具体实施流程如下：

步骤300：控制设备提取首个待测试语句中的关键词，并根据提取的关键词，确定首个待测试语句对应的目标话题领域。

步骤301：控制设备创建测试列表，并将首个待测试语句添加到测试列表中。

步骤302：控制设备判断首个待测试语句对应设置的类别是否表示多轮会话，若是，则执行步骤303，否则，执行步骤309。

步骤303：控制设备将测试列表的类别设置为多轮会话。

进一步地，控制设备还可以将类别为多轮会话的测试列表存储至指定类型的数据库中。

可选的，测试列表可以存储在Redis中。

步骤304：控制设备判断下一个待测试语句的类别是否表示多轮会话，若是，则执行步骤305，否则，执行步骤307。

步骤305：控制设备将该待测试语句添加到测试列表中。

步骤306：控制设备将首个待测试语句对应的目标话题领域，作为测试列表中每一待测试语句的目标话题领域，执行步骤304。

步骤307：控制设备删除测试列表，并提取该待测试语句中包含的关键词。

具体的，控制设备将上述测试列表从指定类型的数据库中的删除。

步骤308：控制设备根据提取的关键词，确定该待测试语句的目标话题领域。

步骤309：控制设备将该待测试语句的下一个待测试语句确定为首个待测试语句，执行步骤300。

进一步地，控制设备还可以将测试列表的类别设置为单轮会话。

基于同一发明构思，本申请实施例中还提供了一种多轮会话的测试装置，由于上述装置及设备解决问题的原理与一种多轮会话的测试方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，其为本申请实施例提供的一种多轮会话的测试装置的结构示意图，包括：

获取单元401，用于获取测试样本，其中，测试样本包括多个待测试语句；

划分单元402，用于将测试样本划分为至少一个测试列表，每个测试列表设置有表征会话特征的类别；会话特征为多轮会话或单轮会话；

第一确定单元403，用于根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域；

第二确定单元404，用于确定测试列表中每个待测试语句对应的回复语句的测试话题领域；

匹配单元405，用于分别确定每一待测试语句的目标话题领域与相应的测试话题领域之间的第一匹配度；

测试单元406，用于根据第一匹配度，确定相应的测试结果。

较佳的，划分单元402用于：

较佳的，第一确定单元403用于：

较佳的，第二确定单元404用于：

较佳的，匹配单元405用于：

较佳的，划分单元402还用于：

将至少一个测试列表存储至指定类型的数据库中。

获取包括多个待测试语句的测试样本；将测试样本划分为至少一个测试列表；根据测试列表的类别，确定测试列表中包含的待测试语句的目标话题领域；确定测试列表中每个待测试语句对应的回复语句的测试话题领域；分别确定每一待测试语句的目标话题领域与相应的测试话题领域之间的第一匹配度；根据第一匹配度，确定相应的测试结果。这样，将类别为多轮会话的多个待测试语句保持在相同的目标话题领域，通过目标话题领域判断通过会话处理程序获得的测试话题领域是否正确，提高了会话处理程序测试的精确度。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

基于上述实施例，参阅图5所示，本申请实施例中，一种控制设备的结构示意图。

本申请实施例提供了一种控制设备，该控制设备可以包括处理器5010(CenterProcessing Unit，CPU)、存储器5020，还可以包括输入设备5030和输出设备5040等，输入设备5030可以包括键盘、鼠标、触摸屏等，输出设备5050可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器5020可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器5010提供存储器5020中存储的程序指令和数据。在本申请实施例中，存储器5020可以用于存储本申请实施例中测试的程序。

处理器5010通过调用存储器5020存储的程序指令，处理器5010用于执行图1所示的实施例提供的一种多轮会话的测试方法。

本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的测试的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多轮会话的测试方法，其特征在于，包括：

获取测试样本，其中，所述测试样本包括多个待测试语句；

将所述测试样本划分为至少一个测试列表，每个测试列表设置有表征会话特征的类别；所述会话特征为多轮会话或单轮会话；

根据所述测试列表的类别，确定所述测试列表中包含的待测试语句的目标话题领域；

确定所述测试列表中每个待测试语句对应的回复语句的测试话题领域；

根据所述第一匹配度，确定相应的测试结果。

2.如权利要求1所述的方法，其特征在于，将所述测试样本划分为至少一个测试列表，包括：

分别获取每一待测试语句的类别，每个待测试语句设置有表征会话特征的类别；所述会话特征为多轮会话或单轮会话；

3.如权利要求1所述的方法，其特征在于，根据所述测试列表的类别，确定所述测试列表中包含的待测试语句的目标话题领域，包括：

当所述测试列表的类别为单轮会话时，分别针对所述测试列表中包含的每一待测试语句，根据所述待测试语句中包含的关键词，确定相应的目标话题领域；

当所述测试列表的类别为多轮会话时，从所述测试列表中筛选出符合预设领域条件的目标语句，并根据所述目标语句中包含的关键词，确定所述测试列表中各待测试语句的目标话题领域。

4.如权利要求3所述的方法，其特征在于，根据所述目标语句中包含的关键词，确定所述测试列表中各待测试语句的目标话题领域，包括：

根据所述目标语句中包含的关键词，确定所述目标语句的目标话题领域；

将所述目标语句的目标话题领域，确定为所述测试列表中每一待测试语句的目标话题领域。

5.如权利要求1-4任一项所述的方法，其特征在于，确定所述测试列表中每个待测试语句对应的回复语句的测试话题领域，包括：

6.如权利要求5所述的方法，其特征在于，根据所述第一匹配度，确定相应的测试结果，包括：

分别针对每一待测试语句，若所述待测试语句对应的第一匹配度符合第一预设匹配条件，则确定相应会话处理结果正确，否则，确定相应的会话处理结果错误。

7.如权利要求1-4任一项所述的方法，其特征在于，进一步包括：

将所述至少一个测试列表存储至指定类型的数据库中。

8.一种多轮会话的测试装置，其特征在于，包括：

获取单元，用于获取测试样本，其中，所述测试样本包括多个待测试语句；

划分单元，用于将所述测试样本划分为至少一个测试列表，每个测试列表设置有表征会话特征的类别；所述会话特征为多轮会话或单轮会话；

第一确定单元，用于根据所述测试列表的类别，确定所述测试列表中包含的待测试语句的目标话题领域；

第二确定单元，用于确定所述测试列表中每个待测试语句对应的回复语句的测试话题领域；

测试单元，用于根据所述第一匹配度，确定相应的测试结果。

9.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1～7任一所述方法的步骤。