CN112487140A

CN112487140A - 问答对话评测方法、装置、设备及存储介质

Info

Publication number: CN112487140A
Application number: CN202011353086.8A
Authority: CN
Inventors: 梁翠贞
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-12
Also published as: WO2022110637A1

Abstract

本发明涉及人工智能技术领域，公开了一种问答对话评测方法、装置、设备及存储介质。该方法基于场景信息收集语料，形成基础测试集；根据预置数据处理规则，将基础测试集划分为基础回归测试集和用户问回归测试集；提取基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合；基于特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集；基于对基础测试集进行快速的语料增强，并通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，大大减少的人工测试和标注成本，为对话机器人提供对特定场景形成测试结论提供了可能。此外，本发明还涉及区块链技术，所有测试集可存储于区块链中。

Description

问答对话评测方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种问答对话评测方法、装置、设备及存储介质。

背景技术

随着智能控制技术的发展，对话机器人已作为人工智能技术的重要应用，已经广泛应用于各类具体场景，比如客服、私人助理、知识问答、陪聊等。目前，对话机器人按照用途可分为任务型和非任务型，不同用途的对话机器人的实现技术不太相同。

目前，虽然将对话机器人应用到了各种场景实现无人接触的操作，但是其对话机器人的对话精准度还是需要不断的进行语料更新训练才能提高精准度，对此，则需要使用到模型来测评，但是对于特定场景的就比较难了，由于语料积累尚少，普通的通用语料不能满足模型评测的需求，而通用的语料评测集一般只适用用通用的领域意图识别，无法为特定场景模型调优和业务回归测试提供测试结论，从而导致利用当前技术指标来评价系统的回复质量不够准确。

发明内容

本发明的主要目的是解决现有的对话机器人无法为特定场景模型调优和业务回归测试提供测试结论的技术问题。

本发明第一方面提供了一种问答对话评测方法，所述问答对话评测方法包括：

确定当前对话的场景信息，并基于所述场景信息收集语料，形成基础测试集；

根据预置数据处理规则，将所述基础测试集划分为基础回归测试集和用户问回归测试集；

提取所述基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合；

基于所述特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集，其中所述多维度包括场景维度、业务领域维度和用户常用问维度中的至少一种；

基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果；

根据所述案例测试结果进行坏案例的分析，输出评测结果。

可选地，在本发明第一方面的第一种实现方式中，所述确定当前对话的场景信息，并基于所述场景信息收集语料，形成基础测试集包括：

获取对话机器人兼容的所有场景的场景信息，基于所述场景信息调取所述对话机器人中的语料文本，其中所述语料文本包括用户日志和业务语料；

提取所述用户日志中记录的用户触发的对话标签，基于所述对话标签对所述业务语料进行聚类，得到不同场景下的基础测试集。

可选地，在本发明第一方面的第二种实现方式中，所述数据处理规则包括数据筛选、预处理和统一格式化，所述根据预置数据处理规则，将所述基础测试集划分为基础回归测试集和用户问回归测试集包括：

获取所述业务语料中的携带用户标识的有效对话标签；

根据所述有效对话标签判断对应的业务语料是否有效，并记录判断的结果；

基于判断的结果，将所述基础测试集中无效的业务语料剔除，并根据所述用户日志中的对话标签筛选出测试语料和用户问语料，生成测试语料集和用户问语料集；

根据预设的基础测试数据和用户问测试数据对应的数据格式，分别对测试语料集和用户问语料集进行格式化处理，得到基础回归测试集和用户问回归测试集。

可选地，在本发明第一方面的第三种实现方式中，所述提取所述基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合包括：

采用keyword工具依次对基础回归测试集和用户问回归测试集中的业务语料进行关键词的提取，得到基础数据特征关键词集和用户问关键词集，并确定两个关键词集中每个关键词对应的特征向量；

统计每个业务语料中包含的特征向量的数量，基于所述数量确定所述业务语料的质量，并分别对所述基础回归测试集合和用户问回归测试集中的业务语料进行排序，选择两个测试集中排序靠前的N个业务语料对应的特征向量；

基于所述N个业务语料对应的特征向量挑选出对应的特定特征，形成特征数据集合。

可选地，在本发明第一方面的第四种实现方式中，在所述基于所述N个业务语料对应的特征向量挑选出对应的特定特征，形成特征数据集合之后，还包括：

提取所述用户日志中所记录的用户在问答对话过程中的对话操作信息，其中，所述对话操作信息至少包括以下中的一种：首次点击问答搜索的时间间隔、最后一次点击与初次问答搜索的时间间隔、用户更改用户问后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似用户问进行搜索、在搜索结果中翻页的次数；

根据所述对话操作信息，将所述N个业务语料对应的特征向量进行归一化后构成所述特征数据集合。

可选地，在本发明第一方面的第五种实现方式中，所述基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果包括：

若所述评测数据集为用户问测试集时，从所述用户问测试集中随机挑选M个用户问输入至评测模型中进行用户问的评分和答案的匹配预测，得到预测结果；

统计所述预测结果中分别被预测为正类和负类的用户问的数量，并基于所述数量计算所述评测模型的预测指标，其中，所述预测指标包括准确率、精确率、召回率和纠错率中的至少一种。

本发明第二方面提供了一种问答对话评测装置，所述问答对话评测装置法包括：

采集模块，用于确定当前对话的场景信息，并基于所述场景信息收集语料，形成基础测试集；

划分模块，用于根据预置数据处理规则，将所述基础测试集划分为基础回归测试集和用户问回归测试集；

提取模块，用于提取所述基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合；

挖掘模块，用于基于所述特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集，其中所述多维度包括场景维度、业务领域维度和用户常用问维度中的至少一种；

测试模块，用于基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果；

分析模块，用于根据所述案例测试结果进行坏案例的分析，输出评测结果。

可选地，在本发明第二方面的第一种实现方式中，所述采集模块包括：

采集单元，用于获取对话机器人兼容的所有场景的场景信息，基于所述场景信息调取所述对话机器人中的语料文本，其中所述语料文本包括用户日志和业务语料；

聚类单元，用于提取所述用户日志中记录的用户触发的对话标签，基于所述对话标签对所述业务语料进行聚类，得到不同场景下的基础测试集。

可选地，在本发明第二方面的第二种实现方式中，所述划分模块包括：

获取单元，用于获取所述业务语料中的携带用户标识的有效对话标签；

判断单元，用于根据所述有效对话标签判断对应的业务语料是否有效，并记录判断的结果；

筛选单元，用于基于判断的结果，将所述基础测试集中无效的业务语料剔除，并根据所述用户日志中的对话标签筛选出测试语料和用户问语料，生成测试语料集和用户问语料集；

格式处理单元，用于根据预设的基础测试数据和用户问测试数据对应的数据格式，分别对测试语料集和用户问语料集进行格式化处理，得到基础回归测试集和用户问回归测试集。

可选地，在本发明第二方面的第三种实现方式中，所述提取模块包括：

提取单元，用于采用keyword工具依次对基础回归测试集和用户问回归测试集中的业务语料进行关键词的提取，得到基础数据特征关键词集和用户问关键词集，并确定两个关键词集中每个关键词对应的特征向量；

统计单元，用于统计每个业务语料中包含的特征向量的数量，基于所述数量确定所述业务语料的质量，并分别对所述基础回归测试集合和用户问回归测试集中的业务语料进行排序，选择两个测试集中排序靠前的N个业务语料对应的特征向量；

集合生成单元，用于基于所述N个业务语料对应的特征向量挑选出对应的特定特征，形成特征数据集合。

可选地，在本发明第二方面的第四种实现方式中，所述问答对话测评装置还包括归一处理模块，其具体用于：

可选地，在本发明第二方面的第五种实现方式中，所述测试模块包括：

匹配单元，用于在所述评测数据集为用户问测试集时，从所述用户问测试集中随机挑选M个用户问输入至评测模型中进行用户问的评分和答案的匹配预测，得到预测结果；

计算单元，用于统计所述预测结果中分别被预测为正类和负类的用户问的数量，并基于所述数量计算所述评测模型的预测指标，其中，所述预测指标包括准确率、精确率、召回率和纠错率中的至少一种。

本发明第三方面提供了一种问答对话评测设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述问答对话评测设备执行上述的问答对话评测方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的问答对话评测方法。

本发明提供的技术方案中，提出了一种基于数据挖掘和测试进行坏案例(badcase)分析来对话机器人的问答对话评测的方案，该方案主要是通过数据分析和挖掘，对基础测试集进行快速的语料增强，并通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，大大减少的人工测试和标注成本，输出模型的问答准确率等指标，并哪个badcase为模型调优提供依据。

附图说明

图1为本发明实施例中问答对话评测方法的第一个实施例示意图；

图2为本发明实施例中问答对话评测方法的第二个实施例示意图；

图3为本发明实施例中问答对话评测方法的第三个实施例示意图；

图4为本发明实施例中问答对话评测方法的第四个实施例示意图；

图5为本发明实施例中数据清理和分析流程示意图；

图6为本发明实施例中日志挖掘和测试流程示意图；

图7为本发明实施例中版本diff和badcase挖掘流程示意图；

图8为本发明实施例中测评模型的结构示意图；

图9为本发明实施例中测评的原理示意图；

图10为本发明实施例中问答对话评测装置的一个实施例示意图；

图11为本发明实施例中问答对话评测装置的另一个实施例示意图；

图12为本发明实施例中问答对话评测设备的一个实施例示意图。

具体实施方式

针对于现有的问答对话评测设备的话术提取方法，本申请提出了一种评测方法，可以数据分析和挖掘，对基础测试集进行快速的语料增强，并通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，大大减少的人工测试和标注成本，输出模型的问答准确率等指标，并哪个badcase为模型调优提供依据。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中问答对话评测方法的第一个实施例包括：

101、确定当前对话的场景信息，并基于场景信息收集语料，形成基础测试集；

在该步骤中，对于场景信息的提取，在实际应用中，是基于用户在对话机器人的输入界面上输入的指令来获取，例如用户在需要进行问答对话训练或者是使用规划机器人进行智能业务办理的操作时，用户通过该在对话机器人的输入模块上输入对应的业务信息或者是训练场景，对话机器人基于输入的触控指令分析出对应的选择项目，即是用户选择的对话场景。

然后，启动对话机器人对该场景的问答对话的话术评测程序/流程，采集对应场景下的历史语料数据，并对历史语料数据进行筛选和清洗处理，在实际应用中，这里的筛选和清洗处理，根据场景信息挑选出在指定时间范围内的所有历史数据，然后根据预先设置的停词表对每条语料数据进行去停词处理，得到清洁版的语料数据，最后将清洁版的语料数据组合成该场景的基础测试集。

在实际应用中，这里基础测试集还可以是根据用户日志和业务语料来提取，具体的:

第一步，获取大量文本问答对话语料，具体是可以是从对话机器人的后台数据库中获取，其中每一个文档由一个唯一的id和对话形式的文本构成，在对话文本中约定“0”表示客服，“1”是客户；

第二步，首先经过预处理模块，完成短句过滤、分词和去停用词处理，或者加入业务相关的专有名词替换处理等；

第三步，然后抽取所有文档的“1”句子，即客户提问部分，逐句输入到Solr，一个句子作为Solr内部的一个文档，并且附带该句子所在对话文档的id；为了和另一个Solr区分开来，把此Solr标记为SolrB；

第四步，把全部的对话文本处理成一个字符串，并保留了“0”和“1”的部分，把此字符串输入的Solr中备用，称为SolrA；至此，预处理工作完成，SolrB中存储了所以待处理案例中的客户文本句子，SolrA中存储了所以待处理案例的全部文本；

第五步，从问答模板中逐个取出问答对，Q1代表客户提问句子，A1代表客服回答句子；

第六步，基于问答对生成基础测试集。

102、根据预置数据处理规则，将基础测试集划分为基础回归测试集和用户问回归测试集；

在本实施例中，所述数据处理规则包括数据筛选、预处理和统一格式化，基于该数据筛选、预处理和统一格式化三个流程的处理后，将基础测试集分为基础回归测试集和用户问回归测试集，其具体实现步骤如下：

获取所述业务语料中的携带用户标识的有效对话标签；

在实际应用中，这里的问答对话主要是以FAQ搜索问答为主，当然其也可以是实时对话，而对于FAQ搜索问答的情况，其用户问回归测试集的提取，具体是通过从用户日志中提取到用户在使用对话机器人时操作记录，基于该操作记录挑选出所述基础测试集中的点击事件、非点击事件、测试案例以及业务案例，然后依次对上述的事件和案例进行排序，这里的排序具体是按照所搜记录的频率来排序，最后从排序的选择topA的数量组成用户问测试集，并对用户问测试集进行回归处理，得到最终的用户问回归测试集。

同理，对于基础回归测试集的提取操作与用户问回归测试集的操作相同，而不同的是用户问回归测试集是以用户的选择操作为基础，而基础回归测试集是以客户咨询为基础进行的提取，具体包括做售前咨询、售后咨询以及异议处理等等。

103、提取基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合；

在本实施例中，在提取所述特定特征时，具体是分别以不同的测试集为样本，采用降维的方式进行处理，该降维方法具体是设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的分析方法。具体的实现流程包括以下步骤：

(1)分别以基础回归测试集和用户问回归测试集作为特征提取的样本，然后将样本生成特征向量矩阵，分别包括基础矩阵和用户问矩阵；

(2)先计算每一列特征的平均值，然后每一维度都需要减去该列的特征平均值；

(3)计算特征的协方差矩阵；

(4)针对协方差矩阵进行特征值和特征向量的计算；

(5)对计算得到的特征值进行从大到小的排序；

(6)取出前K个特征向量和特征值，并进行回退，即得到了降维后的特征矩阵；

最后，基于该特征矩阵提取两测试集中的特定特征，从而组成特征数据集合。

104、基于特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集；

在本实施例中，所述多维度包括场景维度、业务领域维度和用户常用问维度中的至少一种。在该步骤中，一般基于历史数据来得到的特征数据集合，基于该特征数据集合进行挖掘扩展出更多的特征语料，具体的包括同音、词性相似等角度进行处理。

在实际应用中，其挖掘流程具体流程包括：

首先确定特定特征的词性，基于词性从词典中查找到相似的特征词；

然后计算该特征词与特定特征之间的距离，以及相似度；

基于该相似度和距离来选择符合条件的特征词，并将选择的特征词更新至特征数据集合中；

最后根据更新后的特征数据集合进行向量的转换，并进行相互的组合，形成完整用户问或者是基础测试数据的句子向量，基于句子向量生成评测数据，直到组合次数到达阈值后，将所有的测评数据组合得到测评数据集。

105、基于自动化测试框架，将评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果；

这里的测试包括精准度、准确度、安全性等等指标的测试，在本实施例中，在将所述评测数据集输入到了评测模型后，通过评测模型会生成一个问答对话文本，基于该问答对话文本进行标准问和标准答案的匹配，得到匹配结果，在实际应用中，该匹配结果包括用户问与标准问的匹配度、模型基于用户问输出的答案是否属于基础回归测试集中的答案或者是与所述基础回归测试集的答案的距离是否满足预设值。

在实际应用中，在进行测试的过程中，具体包括三大流程，分别是训练、测试和验证；每个流程具体实现步骤为：

首先，将评测数据集中的训练数据输入得到自动化测试框架中进行深度学习，形成测试流程模型；在实际应用中，所述自动化测试框架可以采用以下几种方式中的任一种：

基于该模型控制所述评测数据集中的测试输入到评测模型进行模型的评测，得到评测的参数；根据所述参数计算出对话机器人的问答对话的精准度、准确度等指标；

最后，基于计算出的指标进行验证操作，具体的该验证可以理解为是将测试输出的对话文本与标准文本进行比对分析。

106、根据案例测试结果进行坏案例的分析，输出评测结果。

在该步骤中，具体的分析过程包括：确定评测数据的测评对象，并基于所述测评对象确定坏案例badcase响应；从所述评测对象的对话机器人中的对话语料中拉取badcase响应的用户日志；从所拉取的用户日志中定位分析出产生badcase响应的原因类型。

进一步的，所述从所述评测对象的运行日志中拉取badcase响应的日志内容包括：根据预定的产生badcase响应的各原因类型，从评测对象的运行日志中筛选各原因类型相应的日志内容；所述从所拉取的日志内容中定位分析出产生badcase响应的原因类型包括：分析各原因类型对应的执行逻辑的合理性，定位出不合理的执行逻辑；确定不合理的执行逻辑相应的原因类型，以定位到产生badcase响应的原因类型。

在实际应用中，所述确定所述评测对象的badcase响应包括：从所述评测对象的各评测响应的标注结果中，确定表示badcase的评测响应；和/或，将所述评测对象在响应一评测词的过程中的逻辑输出结果，与预定逻辑输出结果进行比对，若比对结果不一致，则确定所述评测对象对该评测词的评测响应为badcase响应；和/或，获取用户反馈的评测对象的badcase响应。

基于上述的处理后，将badcase响应的原因类型和对比结果，对测试过程中产生的各badcase响应的原因类型进行提单记录，形成所述评测任务的问题详单；所述问题详单至少记录有各badcase响应产生的原因类型的标题、说明、评测上下文、在评测对象的运行日志中相应的日志信息。

通过对上述方法的实施例，基于对基础测试集进行快速的语料增强，并通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，大大减少的人工测试和标注成本，同时还为对话机器人为特定场景模型调优和业务回归测试提供测试结论提供了可能。

请参阅图2，本发明实施例中问答对话评测方法的第二个实施例包括：

201、获取对话机器人兼容的所有场景的场景信息，基于场景信息调取所述对话机器人中的用户日志和业务语料；

该步骤中，所述场景信息包括医疗、保险等对话场景下的业务类型的标识信息，在实际应用中，其业务语料的获取可以是指从一个语料库中获取，个该语料库中包含有各种各样场景下的业务数据，通过获取当前对话机器人中的配置信息，基于该配置信息可以识别出其可以实现的业务对话，从而确定对应的场景信息，然后根据场景信息来对语料库中的语料数据进行分类，从而得到不同类型的业务语料。当然，这里还包括选择获取对应的用户日志，这里的用户日志可以理解为是用户在对话机器人上的操作信息。

202、提取用户日志中记录的用户触发的对话标签，基于对话标签对业务语料进行聚类，得到不同场景下的基础测试集；

在本实施例中，上述基础测试集中包含有至少一个场景的语料，而对于只有一个场景的语料时，至于场景信息的获取可有可无，而在收集语料时，直接采集对话机器人中的用户日志和缓存在缓存器或者服务器中的业务语料，该业务语料指的是客户或者业务员在对话机器人上搜索的问题和输出的答案以及最后选择的答案等等记录文本数据。

在本实施例中，在对话机器人在完成一个对话或者业务后，其会在将整个对话记录在日志中，并增加对话标签，用于标注该对话的业务场景或者是办理业务的类型。

在对话机器人启动了问答对话的评测后，根据场景信息来获取基础测试集时，直接根据用户日志来提取即可。

当然，若需要通过对多个业务场景的问答情况进行评测时，则需要根据场景信息来逐一区分基础测试集。

203、获取业务语料中的携带用户标识的有效对话标签；

204、根据有效对话标签判断对应的业务语料是否有效，并记录判断的结果；

205、基于判断的结果，将基础测试集中无效的业务语料剔除，并根据用户日志中的对话标签筛选出测试语料和用户问语料，生成测试语料集和用户问语料集；

206、根据预设的基础测试数据和用户问测试数据对应的数据格式，分别对测试语料集和用户问语料集进行格式化处理，得到基础回归测试集和用户问回归测试集。

207、提取基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合；

208、基于特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集；

该步骤中，所述多维度包括场景维度、业务领域维度和用户常用问维度中的至少一种。

209、基于自动化测试框架，将评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果；

210、根据案例测试结果进行坏案例的分析，输出评测结果。

在本实施例中，基于当前的对话场景来选择对应的语料，并提取基础回归测试集和用户问回归测试集，根据两测试集来进行特征提取和特征语料的挖掘，以解决特定场景中语料不足的问题，并且基于挖掘后的特征语料生成评测数据集，将评测数据集输入到评测模型中，以实现对对话机器人的问答对话的精准度等指标的评测。

请参阅图3，本发明实施例中问答对话评测方法的第三个实施例包括：

301、确定当前对话的场景信息，并基于场景信息收集语料，形成基础测试集；

302、根据预置数据处理规则，将基础测试集划分为基础回归测试集和用户问回归测试集；

303、采用keyword工具依次对基础回归测试集和用户问回归测试集中的业务语料进行关键词的提取，得到基础数据特征关键词集和用户问关键词集，并确定两个关键词集中每个关键词对应的特征向量；

304、统计每个业务语料中包含的特征向量的数量，基于数量确定所述业务语料的质量，并分别对所述基础回归测试集合和用户问回归测试集中的业务语料进行排序，选择两个测试集中排序靠前的N个业务语料对应的特征向量；

在实际应用中，所述关键词的提取包括：

利用汉语分词工具对所述基础回归测试集中的语料进行分词，并通过预设的停词表对分词后的语料词语进行过滤，得到基础回归测试集的分词集合；

通过PMI算法，计算所述分词集合中各分词的词频，并基于所述词频确定每个分词的概率；

根据所述概率提取出所述基础回归测试集的至少一个关键词，形成关键词集合。

同理，对于用户问回归测试集的关键词提取，其实现步骤与基础回归测试集的步骤相同。

在本实施例中，不管是基础回归测试集和用户问回归测试集，其中都会存在一些停词语的使用，而这些停词语在对话中，并不能指代任何语义，停词语实际上是用于表示句子的陈述语气和情感，而在实际的语义检索和理解过程中，这些词语是需要被删除的，比如标点符号、语气词等，而这些词时被定义在停词表中，在将测试集完整分词处理后，得到分词集合，停词语也会被单独划分为一个词，因此需要通过遍历上文文本序列中是否存在与所述停词表中一致的词，若存在，则将其中从分词集合中剔除，从而得到有效的分词集合。

305、基于N个业务语料对应的特征向量挑选出对应的特定特征，形成特征数据集合。

306、基于特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集；

307、基于自动化测试框架，将评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果；

308、根据案例测试结果进行坏案例的分析，输出评测结果。

在本实施例中，在所述基于所述N个业务语料对应的特征向量挑选出对应的特定特征，形成特征数据集合之后，还包括：

在实际应用中，当用户在使用对话机器人进行问答对话的训练或者是上线实现业务处理后，对话机器人记录用户在使用对话机器人时，在显示界面上的所有操作，例如，当用户在查询某个保险业务时，通过在对话机器人的显示界面上选择待查询的保险业务，并基于该保险业务进行问答的搜索，下面以“如何购买e生保”为例进行说明：

首先基于上述的分词原理对“如何购买e生保”进行分词，优选的，使用PMI来关键词的分词提取，其中PMI是用来抽取关键词的一种方法，将用户问中的两两相邻的字进行前后的相互组合，并计算其出现的概率，基于该概率选择较大的若干个来作为该用户问的关键词，并且以这些关键词，根据用户的对话操作信息进行搜索，获取对应的语料，并对获取到的语料使用PMI进行特定特征的提取，并基于特定特征进行向量化，根据特征向量进行后续的特征挖掘，以扩充了语料的多样化，解决了现有技术中，由于语料的缺乏而导致无法为特定场景模型调优和业务回归测试提供测试结论的问题。

进一步的，基于上述的流程实现了对问答对话的测试后，对测试结果进行分析，具体的测试和分析原理可以如下：

所述基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果包括：

在本实施例中，对于为了便于比对分析，在将评测数据集输入模型中测试之前，还包括对每个评测数据进行标准，标注为正类(Positive)或者负类(Negetive)，比如现在要预测用户意图是不是：咨询平安福投保条件，“是”则表示为正类，“不是”则表示为负类。

TP(True Positive)：被预测成了正类的正类，即正确预测的正类；

FP(False Positive)：被预测成了正类的负类；

TN(True Negetive)：被预测成了负类的负类，即正确预测的负类；

FN(False Negetive)：被预测成了负类的正类；

一、准确率(Accuracy)；

准确率跟正类负类没多大关系，表示在预测结果中，正确预测的数量/样本总数。

二、精确率(Precision)；

在预测结果中，正确预测的正类数/预测为正类的数量:TP/(TP+FP)；

三、召回率(Recall)；

在预测结果中，正确预测的正类数/原本即为正类的数量:TP/(TP+FN)；

进一步的，在得到上述的测试结果后，基于测试结果输出最后的评测结果，该评测结果主要反映的是对话机器人在进行问答对话过程中，可能存在的坏案例的分析结果，具体的可以通过计算用户日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase，重合度低于预设第二重合度阈值的，确定搜索引擎对该query存在badcase，所述第一重合度阈值大于或等于第二重合度阈值；或者，判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase，否则确定搜索引擎对该query存在badcase；或者，判断同一用户在该query之后查询的query是否与该query相关联，如果是，则确定搜索引擎对该query存在badcase，否则确定搜索引擎对该query不存在badcase。

本实施例在上述实施例的基础上，基于对基础测试集进行快速的语料增强，并通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，这样不仅实现了数据分析和挖掘，对基础测试集进行快速的语料增强，还通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，大大减少的人工测试和标注成本，输出模型的问答准确率等指标，并哪个badcase为模型调优提供依据。

基于上述提供的方式来实现对对话机器人上的问答对话进行问答效果的测评，既可以实现对对话机器人的对话的优化，也实现了测试结论的数据，对此，下面从具体的应用流程和模型架构进行详细说明，请参阅图4-9，本发明实施例中问答对话评测方法的第四个实施例包括：

401、测试集采集；

该步骤中，其采集测试集指的是收集来自用户日志、业务语料获得不同业务场景下的测试集，其包括基础测试集和用户测试集。

402、数据清理；

具体的，这里的数据清理可以理解为是对基础测试集进行筛选、预处理，并做统一格式化处理，获取各个场景下基础回归测试集和top用户问回归测试集。

在实际应用中，如图5所示，其实现流程包括：

获取所述业务语料中的携带用户标识的有效对话标签；

403、数据分析；

该步骤中，若获取到的测试集包括了多个场景的数据是，需要对不同场景的数据集进行分析，分类用户和机器人对话的常用特征数据集合。

404、数据整合；

具体的，根据数据分析结果，获取及测试集中的场景化特征词典，例如场景关键字、保险专业名词、用户常用问同义词，同音字、语气词、纠错词等词典。

具体的，该步骤的实现原理还可利用图6-7中的原理来实现，具体的采用keyword工具依次对基础回归测试集和用户问回归测试集中的业务语料进行关键词的提取，得到基础数据特征关键词集和用户问关键词集，并确定两个关键词集中每个关键词对应的特征向量；

405、生成评测集；

在实际应用中，基于各场景下基础测试集和数据挖掘的特征词典，生成各场景下的评测集集合，该评测集主要包括用户输入场景、原始问、用户问、预期匹配问，预期返回标准问，预期答案，以及接口的其他一些输入参数。

406、对评测集进行自动化测试，得到用户问应答测评结果.

该步骤中，该测评结果包括：准确率、精准率、召回率、错误率、得分等指标结果，做版本diff以及版本问答效果回归测试，提供badcase提供给算法工程师进行调优。

具体的是，基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果，其中所述评测模型同时集成了多种功能的处理，如图8所示，其包括评测集的获取和处理、模型的评估功能、模型的安全测试、算法鲁棒性等等。对应的利用测评模型进行对问答对话效果的测评原理如图9所示。

综上，该评测方法，可以数据分析和挖掘，对基础测试集进行快速的语料增强，并通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，大大减少的人工测试和标注成本，输出模型的问答准确率等指标，并哪个badcase为模型调优提供依据。

上面对本发明实施例中问答对话评测方法进行了描述，下面对本发明实施例中问答对话评测装置进行描述，请参阅图10，本发明实施例中问答对话评测装置的第一个实施例包括：

采集模块1010，用于确定当前对话的场景信息，并基于所述场景信息收集语料，形成基础测试集；

划分模块1020，用于根据预置数据处理规则，将所述基础测试集划分为基础回归测试集和用户问回归测试集；

提取模块1030，用于提取所述基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合；

挖掘模块1040，用于基于所述特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集，其中所述多维度包括场景维度、业务领域维度和用户常用问维度中的至少一种；

测试模块1050，用于基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果；

分析模块1060，用于根据所述案例测试结果进行坏案例的分析，输出评测结果。

在本实施例中，所述问答对话评测装置运行上述问答对话评测方法，该方法通过确定当前对话的场景信息，并基于所述场景信息收集语料，形成基础测试集；根据预置数据处理规则，将所述基础测试集划分为基础回归测试集和用户问回归测试集；提取所述基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合；基于所述特征数据集合中的每个特定特征进行多维度的特征语料挖掘，得到评测数据集；基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果；根据所述案例测试结果进行坏案例的分析，输出评测结果。基于对基础测试集进行快速的语料增强，并通过自动化测试框架，完成了对话机器人的faq问答效果进行自动化测试和结果校验，大大减少的人工测试和标注成本，同时还为对话机器人为特定场景模型调优和业务回归测试提供测试结论提供了可能。

请参阅图11，本发明实施例中问答对话评测装置的第二个实施例，该问答对话评测装置具体包括：

可选地，所述采集模块1010包括：

采集单元1011，用于获取对话机器人兼容的所有场景的场景信息，基于所述场景信息调取所述对话机器人中的语料文本，其中所述语料文本包括用户日志和业务语料；

聚类单元1012，用于提取所述用户日志中记录的用户触发的对话标签，基于所述对话标签对所述业务语料进行聚类，得到不同场景下的基础测试集。

可选地，所述划分模块1020包括：

获取单元1021，用于获取所述业务语料中的携带用户标识的有效对话标签；

判断单元1022，用于根据所述有效对话标签判断对应的业务语料是否有效，并记录判断的结果；

筛选单元1023，用于基于判断的结果，将所述基础测试集中无效的业务语料剔除，并根据所述用户日志中的对话标签筛选出测试语料和用户问语料，生成测试语料集和用户问语料集；

格式处理单元1024，用于根据预设的基础测试数据和用户问测试数据对应的数据格式，分别对测试语料集和用户问语料集进行格式化处理，得到基础回归测试集和用户问回归测试集。

可选地，所述提取模块1030包括：

提取单元1031，用于采用keyword工具依次对基础回归测试集和用户问回归测试集中的业务语料进行关键词的提取，得到基础数据特征关键词集和用户问关键词集，并确定两个关键词集中每个关键词对应的特征向量；

统计单元1032，用于统计每个业务语料中包含的特征向量的数量，基于所述数量确定所述业务语料的质量，并分别对所述基础回归测试集合和用户问回归测试集中的业务语料进行排序，选择两个测试集中排序靠前的N个业务语料对应的特征向量；

集合生成单元1033，用于基于所述N个业务语料对应的特征向量挑选出对应的特定特征，形成特征数据集合。

其中，所述问答对话测评装置还包括归一处理模块1070，其具体用于：

可选地，所述测试模块1050包括：

匹配单元1051，用于在所述评测数据集为用户问测试集时，从所述用户问测试集中随机挑选M个用户问输入至评测模型中进行用户问的评分和答案的匹配预测，得到预测结果；

计算单元1052，用于统计所述预测结果中分别被预测为正类和负类的用户问的数量，并基于所述数量计算所述评测模型的预测指标，其中，所述预测指标包括准确率、精确率、召回率和纠错率中的至少一种。

上面图10和图11从模块化功能实体的角度对本发明实施例中的问答对话评测装置进行详细描述，下面从硬件处理的角度对本发明实施例中问答对话评测设备进行详细描述，而问答对话评测装置可以插件的形式设置与所述问答对话评测设备种实现对话术的识别。

图12是本发明实施例提供的一种问答对话评测设备的结构示意图，该问答对话评测设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对问答对话评测设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在问答对话评测设备800上执行存储介质830中的一系列指令操作,以实现上述问答对话评测方法的步骤。

问答对话评测设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的问答对话评测设备结构并不构成对本申请提供的问答对话评测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述各实施例提供的问答对话评测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种问答对话评测方法，其特征在于，所述问答对话评测方法包括：

根据所述案例测试结果进行坏案例的分析，输出评测结果。

2.根据权利要求1所述的问答对话评测方法，其特征在于，所述确定当前对话的场景信息，并基于所述场景信息收集语料，形成基础测试集包括：

3.根据权利要求2所述的问答对话评测方法，其特征在于，所述数据处理规则包括数据筛选、预处理和统一格式化，所述根据预置数据处理规则，将所述基础测试集划分为基础回归测试集和用户问回归测试集包括：

获取所述业务语料中的携带用户标识的有效对话标签；

4.根据权利要求1所述的问答对话评测方法，其特征在于，所述提取所述基础回归测试集和用户问回归测试集中的特定特征，得到特征数据集合包括：

5.根据权利要求4所述的问答对话评测方法，其特征在于，在所述基于所述N个业务语料对应的特征向量挑选出对应的特定特征，形成特征数据集合之后，还包括：

6.根据权利要求1-5任一项所述的问答对话评测方法，其特征在于，所述基于自动化测试框架，将所述评测数据集输入至预置评测模型进行问答对话的测试，得到案例测试结果包括：

7.一种问答对话评测装置，其特征在于，所述问答对话评测装置包括：

8.根据权利要求7所述的问答对话评测装置，其特征在于，所述测试模块包括：

9.一种问答对话评测设备，其特征在于，所述问答对话评测设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述问答对话评测设备执行如权利要求1-6中任一项所述的问答对话评测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的问答对话评测方法。