CN112256576B

CN112256576B - 人机对话语料测试方法、装置、设备及存储介质

Info

Publication number: CN112256576B
Application number: CN202011141134.7A
Authority: CN
Inventors: 田晓姣; 肖雨晴; 李成杰; 高预皓; 李新琨
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-09-29
Anticipated expiration: 2040-10-22
Also published as: CN112256576A

Abstract

本发明涉及研发管理领域，公开了一种人机对话语料测试方法、装置、设备及存储介质，可应用于医院导航机器人中，所述方法包括：选择问答引擎模型并上传提测语料集；根据提测语料集生成模型评测集并由问答引擎模型进行评测，得到加语料前的第一模型评测结果；更新问答引擎模型索引以及意图识别索引后，再由更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果；根据第一、二模型评测结果，对问答引擎模型进行模型效果评估；若模型效果评估通过后，基于问答引擎模型对提测语料集进行语料测试，否则重新训练问答引擎模型。本发明能够检测新语料发布后对已有语料问答效果的影响以及新语料是否应答生效，为新语料的发布提供了评价依据。

Description

人机对话语料测试方法、装置、设备及存储介质

技术领域

本发明涉及研发管理领域，尤其涉及一种人机对话语料测试方法、装置、设备及存储介质。

背景技术

随着人工智能技术的快速发展，在客服业务中的人机对话需求也越来越高，人机对话不仅能够降低人工成本，同时不受工作时间限制，从而大幅提升企业的客服水平与质量。

现有人机对话通常需要训练智能问答引擎模型，用于通过检索语料库获取与用户问最匹配的问题的答案。语料是人机对话的重要组成部分，为提升人机对话的智能程度，通常需要对构建的语料进行测试。传统的语料测试涉及到多个测试环节，且各测试环节均需要测试人员手动完成，因此测试过程非常繁琐且效率低下，占用大量人力和时间成本，而且每个测试环节都需要依赖上一测试环节完成后才能进行，等待时间长，对测试效率产生很大影响。

发明内容

本发明的主要目的在于解决现有人机对话语料测试过程操作繁琐，导致测试时间长且成本高，进而影响测试效率的技术问题。

本发明第一方面提供了一种人机对话语料测试方法，所述人机对话语料测试方法包括：

选择待测试的问答引擎模型，并上传提测语料集；

判断所述提测语料集的语料条数是否超过预置阈值；

若所述提测语料集的语料条数超过预置阈值，则生成模型评测集，并根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果；

根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引，并根据所述模型评测集，对更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果；

根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估；

若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型。

可选的，在本发明第一方面的第一种实现方式中，所述若所述提测语料集的语料条数超过预置阈值，则生成模型评测集包括：

若所述提测语料集的语料条数超过预置阈值，则异步调用预置评测集生成脚本，离线拉取最近的预置时间段内的线上问答日志；

统计所述线上问答日志中各用户提问出现的频次，并参照预置的高中低频次比例，抽取所述线上问答日志中对应数量的用户提问作为模型评测集，所述频次包括：低频次、中频次和高频次。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果包括：

异步调用预置模型评测脚本，依次获取所述模型评测集中的用户提问；

将所述用户提问输入当前问答引擎模型，输出应答结果，并将各用户提问与对应的应答结果作为加语料前的第一模型评测结果；

所述根据所述模型评测集，对更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果包括：

将所述用户提问输入更新索引后的问答引擎模型，输出应答结果，并将各用户提问与对应的应答结果作为加语料后的第二模型评测结果。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引包括：

调用预置问答引擎索引更新接口，读取新增的所述提测语料集，生成全量新索引并异步替换旧索引，以更新所述问答引擎模型索引；

异步调用预置意图识别索引更新脚本，读取新增的所述提测语料集，生成新的意图识别索引文件并保存；

调用预置意图识别索引更新接口，读取所述意图识别索引文件并异步替换旧的意图识别索引文件，以更新意图识别索引。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估包括：

异步调用预置模型效果评估脚本，读取加语料前后的所述第一模型评测结果和所述第二模型评测结果并生成diff文件；

基于所述diff文件，统计所述第一模型评测结果和所述第二模型评测结果中同一个问题对应答案不同的个数M；

计算个数M与所述模型评测集中的总问题个数N的比值k，并将比值k作为diff值；

将所述第一模型评测结果和所述第二模型评测结果中具有不同答案的用户提问以及所述diff值记录到所述diff文件中；

从所述diff文件中读取所述diff值，并判断所述diff值是否小于预置评估阈值；

若所述diff值小于预置评估阈值，则确定模型效果评估通过，否则不通过。

可选的，在本发明第一方面的第五种实现方式中，所述基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果包括：

异步调用预置语料测试脚本，将所述提测语料集中各条语料依次输入所述问答引擎模型，输出各条语料对应的应答结果；

将所述各条语料对应的应答结果与所述各条语料对应的答案进行比对，并根据比对的结果，生成本次语料测试对应的准确率文件和badcase文件。

可选的，在本发明第一方面的第六种实现方式中，在所述若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型之后，还包括：

从所述准确率文件中提取相关数据，并按照预置模板格式生成测试报告；

返回所述测试报告，并页面显示测试关键数据以及所述badcase文件的下载链接，其中，所述测试关键数据包括：提测语料集文件名和对应的语料测试准确率。

本发明第二方面还提供一种人机对话语料测试装置，所述人机对话语料测试装置包括：

上传模块，用于选择待测试的问答引擎模型，并上传提测语料集；

判断模块，用于判断所述提测语料集的语料条数是否超过预置阈值；

第一模型评测模块，用于若所述提测语料集的语料条数超过预置阈值，则生成模型评测集，并根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果；

第二模型评测模块，用于根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引，并根据所述模型评测集，对更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果；

模型效果评估模块，用于根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估；

语料测试模块，用于若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型。

可选的，在本发明第二方面的第一种实现方式中，所述第一模型评测模块包括：

评测集生成单元，用于若所述提测语料集的语料条数超过预置阈值，则异步调用预置评测集生成脚本，离线拉取最近的预置时间段内的线上问答日志；统计所述线上问答日志中各用户提问出现的频次，并参照预置的高中低频次比例，抽取所述线上问答日志中对应数量的用户提问作为模型评测集，所述频次包括：低频次、中频次和高频次。

可选的，在本发明第二方面的第二种实现方式中，所述第一模型评测模块还包括：

第一模型评测单元，用于异步调用预置模型评测脚本，依次获取所述模型评测集中的用户提问；将所述用户提问输入当前问答引擎模型，输出应答结果，并将各用户提问与对应的应答结果作为加语料前的第一模型评测结果；

所述第二模型评测模块包括：

第二模型评测单元，用于异步调用预置模型评测脚本，依次获取所述模型评测集中的用户提问；将所述用户提问输入更新索引后的问答引擎模型，输出应答结果，并将各用户提问与对应的应答结果作为加语料后的第二模型评测结果。

可选的，在本发明第二方面的第三种实现方式中，所述第二模型评测模块还包括：

索引更新单元，用于调用预置问答引擎索引更新接口，读取新增的所述提测语料集，生成全量新索引并异步替换旧索引，以更新所述问答引擎模型索引；异步调用预置意图识别索引更新脚本，读取新增的所述提测语料集，生成新的意图识别索引文件并保存；调用预置意图识别索引更新接口，读取所述意图识别索引文件并异步替换旧的意图识别索引文件，以更新意图识别索引。

可选的，在本发明第二方面的第四种实现方式中，所述模型效果评估模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述语料测试模块还用于：

可选的，在本发明第二方面的第六种实现方式中，所述人机对话语料测试装置还包括：

报告输出模块，用于从所述准确率文件中提取相关数据，并按照预置模板格式生成测试报告；返回所述测试报告，并页面显示测试关键数据以及所述badcase文件的下载链接，其中，所述测试关键数据包括：提测语料集文件名和对应的语料测试准确率。

本发明第三方面提供了一种人机对话语料测试设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述人机对话语料测试设备执行上述的人机对话语料测试方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的人机对话语料测试方法。

本发明进行语料测试前，先选择问答引擎模型并上传提测语料集，根据提测语料集生成模型评测集；然后在问答引擎模型索引更新前和更新后分别对模型评测集进行评测，得到第一模型评测结果和第二模型评测结果；然后再根据第一、二模型评测结果，对问答引擎模型进行模型效果评估；若模型效果评估通过，则最后再基于问答引擎模型对提测语料集进行语料测试，否则重新训练问答引擎模型。本发明实现了语料全流程自动化测试，无需测试人员手工介入，同时本实施例实现了对模型问答效果的自动评估，缩短了测试周期。本实施例的语料测试方法能够检测新语料发布后对已有语料问答效果的影响以及新语料是否应答生效，为新语料的发布提供了评价依据。

附图说明

图1为本发明实施例中人机对话语料测试方法的第一个实施例示意图；

图2为本发明实施例中人机对话语料测试方法的第二个实施例示意图；

图3为本发明实施例中人机对话语料测试方法的第三个实施例示意图；

图4为本发明实施例中人机对话语料测试方法的第四个实施例示意图；

图5为本发明实施例中人机对话语料测试装置的一个实施例示意图；

图6为本发明实施例中人机对话语料测试设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种人机对话语料测试方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中人机对话语料测试方法的第一个实施例包括：

101、选择待测试的问答引擎模型，并上传提测语料集；

可以理解的是，本发明的执行主体可以为人机对话语料测试装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，问答引擎模型是一种人机对话模型，输入问题即可给出对应答案，可以在具体应用程序中部署为机器人，进而提供人机对话服务。本实施例提供问答引擎模型的配置功能，测试人员通过配置页面即可对问答引擎模型进行相关配置。比如，根据不同的应用场景或者部署应用的不同，可以对问答引擎模型进行命名，可以设置各问答引擎模型的ID号、标签等信息。

本实施例中，提测语料集中包含有测试人员发布的多条新增语料，语料类似问答机器人的知识大脑，在进行人机对话时，机器人通过语义识别模型检索预设的问答库中跟用户问匹配得分最高的问题，将该问题答案作为机器人答案。

本实施例中，语料测试主要是用于测试机器人(也即问答引擎模型)给出的所有语料的答案都与问答库中对应问题的实际答案是否一致，目的是保证机器人意图识别正确，且检索到的答案正确，语料测试的重点是：测试新语料是否应答生效以及新语料发布后对已有语料问答效果的影响。

102、判断所述提测语料集的语料条数是否超过预置阈值；

本实施例中，考虑到提测的语料条数过多的话，可能会对问答引擎模型的问答效果产生负面影响，比如会影响答案的准确率。因此，若提测的语料条数过多的话，需要对问答引擎模型进行问答效果评估。本实施例中优选以1000条语料作为判断是否进行问答效果评估的判断条件。若超过预置阈值，则需要对问答引擎模型进行问答效果评估。其中，阈值可以根据实际需要进行修改，阈值越小，则表示进入问答效果评估的条件越严格。

本实施例中，若提测语料集的语料条数未超过预置阈值，则认为对模型的问答效果影响不大，因而无需进行模型效果评估，可直接使用问答引擎模型，对提测语料集进行语料测试。

103、若所述提测语料集的语料条数超过预置阈值，则生成模型评测集，并根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果；

本实施例中，若提测语料集的语料条数超过预置阈值，则确定当前需要对问答引擎模型进行问答效果评估，而进行问答效果评估需要先获得模型评测集。本实施例对于模型评测集的生成方式不限。可以是由测试人员预先配置，也可以是根据预置的生成规则生成。

本实施例中，在生成模型评测集后，即可对当前问答引擎模型进行问答效果的评测。模型评测集中包含有多个用户提问，将各用户提问输入问答引擎模型，输出对应答案，该答案即为对当前问答引擎模型进行问答效果评测的结果，也即为加语料前的第一模型评测结果。其中，加语料前和加语料后的区别在于：是否有基于提测语料，对问答引擎模型进行索引更新以及意图识别索引更新，如有，则表示处于加语料后，如没有，则表示处于加语料前。

104、根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引，并根据所述模型评测集，对更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果；

本实施例中，对问答引擎模型进行问答效果评估的目的是确保新发布的语料对线上已有的问答效果不产生负面影响，因为用户提问在已有的问答库中能找到合适的答案，如果新增语料后导致原来的用户提问错误地匹配到新语料，造成答案错误，则认为当前问答引擎模型的问答效果评估不通过，需要重新训练问答引擎模型。

因此，本实施例中，为便于对语料更新前后的问答引擎模型的问答效果进行评估，因此，需要使用提测语料集，更新问答引擎模型索引以及意图识别索引后，再次对更新索引后的问答引擎模型进行问答效果评测，得到加语料后的第二模型评测结果。

本实施例中，由于引入了新语料，因此需要对问答引擎模型进行索引更新以及对意图识别索引进行更新，本实施例对于索引更新方式不限。

105、根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估；

本实施例中，在分别对加语料前的问答引擎模型和加语料后的问答引擎模型进行问答效果评测，并得到对应的模型评测结果后，还需进一步对模型评测结果进行比对，并将比对结果作为模型问答效果的评估结果。本实施例优选使用diff值进行模型问答效果评价。

106、若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型。

本实施例中，若针对加语料前后的问答引擎模型效果评测通过，则说明本次新增加的语料不影响问答引擎模型的问答效果，因此可进一步对本次新增语料(即提测语料集)进行语料测试，以对语料中的提问与答案进行验证。而若模型效果评估不通过，则说明新增语料后，使得当前问答引擎模型的问答效果受到影响，也即当前问答引擎模型不能对新增语料做出正确答复，因此，需要重新训练问答引擎模型，待训练出新的问答引擎模型后，再继续进行新增语料的问答效果评估与测试。

本实施例提供的人机对话语料自动化测试方法，实现了语料全流程自动化测试，无需测试人员手工介入，同时本实施例实现了对模型问答效果的自动评估，缩短了测试周期。此外，本发明提供的语料效果评估功能主要应用于两个方面：一是当业务人员提出要更新一批语料，例如有新的产品上线，问答机器人需要补充关于该产品的标准问答类知识时，系统能够对新语料进行例行效果评估，确保新语料上线后当前问答引擎模型仍能满足已有的问答效果；二是当更新问答引擎模型后，可对新的问答引擎模型进行模型效果评估。本实施例的语料测试方法能够检测新语料发布后对已有语料问答效果的影响以及新语料是否应答生效，为新语料的发布提供了评价依据。

请参阅图2，本发明实施例中人机对话语料测试方法的第二个实施例包括：

201、选择待测试的问答引擎模型，并上传提测语料集；

202、判断所述提测语料集的语料条数是否超过预置阈值；

203、若所述提测语料集的语料条数超过预置阈值，则异步调用预置评测集生成脚本，离线拉取最近的预置时间段内的线上问答日志；

204、统计所述线上问答日志中各用户提问出现的频次，并参照预置的高中低频次比例，抽取所述线上问答日志中对应数量的用户提问作为模型评测集，所述频次包括：低频次、中频次和高频次；

本实施例中，如果提测语料集中语料条数超过预置阈值，比如1000条，则有可能会对模型问答效果产生影响，因此，需要生成模型评测集，以用于对模型问答效果进行评估。

本实施例中，优选使用线上的用户提问作为模型评测集。模型评测集指用于评测新增语料对线上已有问答效果的影响所用的测试数据集。

本实施例优选采用脚本方式完成模型评测集的生成，具体处理过程如下：

首先，离线拉取最近一段时间内的线上问答日志，比如拉取最近一个月的线上问答日志；

其次，对线上问答日志中的用户提问进行频次统计，例如自定义频次1为低频次，频次2-99为中频次，频次大于99则为高频次；比如，日志中，问题A出现了1次，则定义为低频次问题；问题B出现了5次，则定义为中频次问题；问题C出现了200次，则定义为高频次问题。

第三，按照预先设定的高中低频次比例，从线上问答日志中对应抽取用户提问作为模型评测集，比如，设定高中低频次比例为1：2：1，如果抽取的低频次问题为10个，则中频次问题为20个，高频次问题为10个，也即模型评测集由上述10个低频次问题、20个中频次问题以及10个高频次问题构成。

205、异步调用预置模型评测脚本，依次获取所述模型评测集中的用户提问；

206、将所述用户提问输入当前问答引擎模型，输出应答结果，并将各用户提问与对应的应答结果作为加语料前的第一模型评测结果；

207、调用预置问答引擎索引更新接口，读取新增的所述提测语料集，生成全量新索引并异步替换旧索引，以更新所述问答引擎模型索引；

208、异步调用预置意图识别索引更新脚本，读取新增的所述提测语料集，生成新的意图识别索引文件并保存；

209、调用预置意图识别索引更新接口，读取所述意图识别索引文件并异步替换旧的意图识别索引文件，以更新意图识别索引；

索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。

本实施例中，问答引擎模型索引用于建立问答库中问题与答案之间的映射关系，意图识别索引用于建立语料与意图之间的映射关系。由于新增了语料，因此，为保证问答引擎模型能够正确识别新增语料中的问题并给出对应答案，因而需要进行问答引擎模型索引更新以及意图识别索引更新。

本实施例中，意图识别索引是一个文本文件，存的内容是所有语料和对应的意图，用户与机器人对话是先通过一系列意图识别渠道综合得分排序识别到用户意图，然后根据意图分发给对应子机器人处理，人机对话的实现需要保证意图分给问答引擎模型，才能调用问答子机器人检索答案，意图识别渠道通过解析意图识别索引文件可以保证文件中意图为问答引擎模型的语料一定能分发给对应问答子机器人，从而保证提问与答案的正确。

210、异步调用预置模型评测脚本，依次获取所述模型评测集中的用户提问；

211、将所述用户提问输入更新索引后的问答引擎模型，输出应答结果，并将各用户提问与对应的应答结果作为加语料后的第二模型评测结果；

本实施例中，优选采用脚本方式完成模型问答评测，具体处理过程如下：

首先，在问答引擎模型索引更新之前，先对问答引擎模型进行一次问答评测，具体将生成的模型评测集中用户提问依次输入问答引擎模型中进行处理，并将输出的应答结果和对应提问作为本次加语料前的第一模型评测结果。

其次，在问答引擎模型索引更新之后，再对问答引擎模型进行一次问答评测，评测方式与前一次相同，将本次得到的各应答结果作为加语料后的第二模型评测结果。

本实施例中，模型评测结果是指使用生成的模型评测集中的用户提问依次请求机器人问答接口，得到机器人给出的回答。其中，生成加语料前的模型评测结果是为了记录加语料前，机器人问答引擎对该评测集的应答结果，从而与加语料后机器人对同一套评测集的应答结果进行对比，以对问答引擎模型的问答效果进行评估。

212、根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估；

213、若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型。

请参阅图3，本发明实施例中人机对话语料测试方法的第三个实施例包括：

301、选择待测试的问答引擎模型，并上传提测语料集；

302、判断所述提测语料集的语料条数是否超过预置阈值；

303、若所述提测语料集的语料条数超过预置阈值，则生成模型评测集，并根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果；

304、根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引，并根据所述模型评测集，对更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果；

305、异步调用预置模型效果评估脚本，读取加语料前后的所述第一模型评测结果和所述第二模型评测结果并生成diff文件；

306、基于所述diff文件，统计所述第一模型评测结果和所述第二模型评测结果中同一个问题对应答案不同的个数M；

307、计算个数M与所述模型评测集中的总问题个数N的比值k，并将比值k作为diff值；

308、将所述第一模型评测结果和所述第二模型评测结果中具有不同答案的用户提问以及所述diff值记录到所述diff文件中；

309、从所述diff文件中读取所述diff值，并判断所述diff值是否小于预置评估阈值；

310、若所述diff值小于预置评估阈值，则确定模型效果评估通过，否则不通过；

311、若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型。

本实施例中，第一模型评测结果和第二模型评测结果中存储有模型评测集中的各用户提问以及对应的应答结果，使用diff命令逐行比较两个文件内容，并输出文件差异，得到diff文件。本实施例优选采用脚本方式完成模型效果评估，具体处理过程如下：

先读取加语料前后的模型评测结果文件并生成diff文件，然后根据diff文件的内容，将同一个问题对应答案不同的个数M占评测集总问题个数N的比值k作为diff值，并记录产生不同答案的具体用户提问，记录到diff文件中。

本实施例中优选1％作为模型效果评估的阈值。该阈值具体由测试人员根据评测经验给出，可视具体情况调整，阈值越低，对评测效果要求越严格。若diff值小于评估阈值，则确定模型评估不通过，需要重新训练问答引擎模型。

请参阅图4，本发明实施例中人机对话语料测试方法的第四个实施例包括：

401、选择待测试的问答引擎模型，并上传提测语料集；

402、判断所述提测语料集的语料条数是否超过预置阈值；

403、若所述提测语料集的语料条数超过预置阈值，则生成模型评测集，并根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果；

404、根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引，并根据所述模型评测集，对更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果；

405、根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估；

406、若模型效果评估通过，则异步调用预置语料测试脚本，将所述提测语料集中各条语料依次输入所述问答引擎模型，输出各条语料对应的应答结果；

407、将所述各条语料对应的应答结果与所述各条语料对应的答案进行比对，并根据比对的结果，生成本次语料测试对应的准确率文件和badcase文件。

本实施例中，当新增加的语料通过模型效果评估后，即可对新增加的语料进行测试。问答引擎模型通过模型效果评估，这说明模型能够适应新增加的语料，也即新增加的语料(也即提测语料集)不会对模型应答效果产生不良影响。

本实施例中，语料测试主要测试语料中的提问与应答是否对应。通过异步调用预置语料测试脚本，将提测语料集中各条语料依次输入问答引擎模型进行处理，问答引擎模型再输出各条语料对应的应答结果；然后，再将问答引擎模型给出的应答结果与语料中预先设置的答案进行比对，若比对结果相同，则该条语料通过测试，语料测试结果正确，否则该条语料测试结果错误。

本实施例中，在进行比对时，进一步根据比对的结果，生成本次语料测试对应的准确率文件和badcase文件。每次新增语料可能来自不同的问答库导出的多个语料文件，准确率文件记录的是不同的语料文件的语料测试正确率，正确率统计的是正确答案的问题数占总问题数的比例，从而方便直观得到本次语料测试的总结果，优选准确率文件中记录有提测的语料集文件名、测试的总语料条数、测试成功的语料条数以及测试失败的语料条数、测试准确率；badcase(坏例)文件记录的是应答错误的用户提问和问答引擎模型给出的实际答案，从而方便分析badcase并针对性解决。

可选的，在一实施例中，在完成语料测试之后，进一步从所述准确率文件中提取相关数据，并按照预置模板格式生成测试报告；

本实施例中，在完成语料测试后，先从准确率文件中提取相关数据，比如提取测试时间、提测语料集文件名、测试语料条数和语料测试准确率，并按照预置模板格式，生成测试报告。对于测试报告模板的设置不限。

需要说明的是，为便于测试人员快速了解测试结果，在返回测试报告的同时，在页面显示测试关键数据，优选至少显示测语料集文件名和对应的语料测试准确率。此外，本实施例中还进一步在页面显示badcase文件的下载链接，以便测试人员能够根据实际需要下载坏例。

上面对本发明实施例中人机对话语料测试方法进行了描述，下面对本发明实施例中人机对话语料测试装置进行描述，请参阅图5，本发明实施例中人机对话语料测试装置一个实施例包括：

上传模块501，用于选择待测试的问答引擎模型，并上传提测语料集；

判断模块502，用于判断所述提测语料集的语料条数是否超过预置阈值；

第一模型评测模块503，用于若所述提测语料集的语料条数超过预置阈值，则生成模型评测集，并根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果；

第二模型评测模块504，用于根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引，并根据所述模型评测集，对更新索引后的问答引擎模型进行评测，得到加语料后的第二模型评测结果；

模型效果评估模块505，用于根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估；

语料测试模块506，用于若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型。

可选的，在一实施例中，所述第一模型评测模块503包括：

可选的，在一实施例中，所述第一模型评测模块503还包括：

所述第二模型评测模块504包括：

可选的，在一实施例中，所述第二模型评测模块504还包括：

可选的，在一实施例中，所述模型效果评估模块505具体用于：

可选的，在一实施例中，所述语料测试模块506还用于：

可选的，在一实施例中，所述人机对话语料测试装置还包括：

上面图5从模块化功能实体的角度对本发明实施例中的人机对话语料测试装置进行详细描述，下面从硬件处理的角度对本发明实施例中人机对话语料测试设备进行详细描述。

图6是本发明实施例提供的一种人机对话语料测试设备的结构示意图，该人机对话语料测试设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对人机对话语料测试设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在人机对话语料测试设备500上执行存储介质530中的一系列指令操作。

人机对话语料测试设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的人机对话语料测试设备结构并不构成对人机对话语料测试设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种人机对话语料测试设备，所述人机对话语料测试设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述人机对话语料测试方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述人机对话语料测试方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人机对话语料测试方法，其特征在于，所述人机对话语料测试方法包括：

选择待测试的问答引擎模型，并上传提测语料集；

判断所述提测语料集的语料条数是否超过预置阈值；

若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型；

所述根据所述第一模型评测结果和所述第二模型评测结果，对所述问答引擎模型进行模型效果评估包括：

2.根据权利要求1所述的人机对话语料测试方法，其特征在于，所述若所述提测语料集的语料条数超过预置阈值，则生成模型评测集包括：

3.根据权利要求2所述的人机对话语料测试方法，其特征在于，所述根据所述模型评测集，对当前问答引擎模型进行评测，得到加语料前的第一模型评测结果包括：

4.根据权利要求1所述的人机对话语料测试方法，其特征在于，所述根据所述提测语料集，更新所述问答引擎模型索引以及意图识别索引包括：

5.根据权利要求1所述的人机对话语料测试方法，其特征在于，所述基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果包括：

6.根据权利要求5所述的人机对话语料测试方法，其特征在于，在所述若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型之后，还包括：

7.一种人机对话语料测试装置，其特征在于，所述人机对话语料测试装置包括：

语料测试模块，用于若模型效果评估通过，则基于所述问答引擎模型，对所述提测语料集进行语料测试，生成语料测试结果，否则重新训练所述问答引擎模型；

所述模型效果评估模块，具体用于异步调用预置模型效果评估脚本，读取加语料前后的所述第一模型评测结果和所述第二模型评测结果并生成diff文件；

8.一种人机对话语料测试设备，其特征在于，所述人机对话语料测试设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述人机对话语料测试设备执行如权利要求1-6中任意一项所述的人机对话语料测试方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述的人机对话语料测试方法。