CN112667792B

CN112667792B - 人机对话数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112667792B
Application number: CN202011596194.8A
Authority: CN
Inventors: 夏海兵; 郭月月; 肖建恩; 王福海; 张文锋; 梁万山
Original assignee: Zhaolian Consumer Finance Co ltd
Current assignee: Zhaolian Consumer Finance Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2024-03-22
Anticipated expiration: 2040-12-29
Also published as: CN112667792A

Abstract

本申请涉及一种人机对话数据处理方法、装置、计算机设备和存储介质。方法包括：获取人机对话数据；对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征；根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分；根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分；将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分；根据沟通流畅度得分、会话逻辑得分、以及客户反馈得分，计算综合得分，当综合得分满足坏例条件时，确定人机对话数据为坏例数据。采用本方法能够提高人机对话质检效率。

Description

人机对话数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及通信技术领域，特别是涉及一种人机对话数据处理方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了越来越多的人机互动场景。比如，可通过AI(Artificial Intelligence，人工智能)机器人自动与客户进行电话沟通。在这种场景下，为了保障AI机器人的服务质量，常常需要人工对AI机器人的沟通案例进行质检。为了质检AI机器人的沟通能力，AI质检员需从众多的沟通案例中随机抽取少部分进行质检，发现沟通不流畅的bad case(坏例)，并分析bad case原因，从而帮助提升AI机器人的沟通能力。

然而，这种质检方式虽然可以在一定程度上有所帮助，但需要耗费大量的人力和时间。比如，每个AI质检员每天只能质检100多通录音，其中bad case更是寥寥无几。这就存在质检效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高人机对话质检效率的人机对话数据处理方法、装置、计算机设备和存储介质。

一种人机对话数据处理方法，所述方法包括：

获取人机对话数据；所述人机对话数据中包括用户会话和机器人会话；

对所述人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征；

根据所述意图类别和话术特征，确定与所述人机对话数据对应的沟通流畅度得分；

根据所述人机对话中的机器人会话所对应的话术阶段，确定与所述人机对话数据对应的会话逻辑得分；

将所述人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据所述比较结果确定与所述人机对话数据对应的客户反馈得分；

根据所述沟通流畅度得分、所述会话逻辑得分、以及所述客户反馈得分，计算综合得分，当所述综合得分满足坏例条件时，确定所述人机对话数据为坏例数据。

在其中一个实施例中，所述对所述人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，包括：

确定所述用户会话中的多个用户语句；

通过预训练的语义识别模型，分别对所述用户会话中的每个用户语句进行意图分析，输出各用户语句分别对应的意图类别；

通过预训练的特征提取模型，分别对所述用户会话中的每个用户语句进行特征提取，输出各用户语句分别对应的话术特征。

在其中一个实施例中，所述根据所述意图类别和话术特征，确定与所述人机对话数据对应的沟通流畅度得分，包括：

对所述用户会话中的每个用户语句按照相应的语句时序进行遍历；

对于遍历至的当前用户语句，将所述当前用户语句的意图类别分别与在语句时序上相邻的两个在后用户语句的意图类别进行相似比较，将所述当前用户语句的话术特征分别与在语句时序上相邻的两个在后用户语句的话术特征进行相似比较，得到与所述当前用户语句对应的沟通流畅度得分；

当所述当前用户语句的沟通流程度得分小于预设阈值时，则从所述当前用户语句之后的第二个用户语句开始继续遍历，以得到对应的沟通流畅度得分，否则从所述当前用户语句之后的第一个用户语句开始继续遍历，以得到对应的沟通流畅度得分，直至遍历至所述用户会话中的最后一个用户语句；

根据所述用户会话中各用户语句分别对应的沟通流畅度得分，计算得到与所述人机对话数据对应的沟通流畅度得分。

在其中一个实施例中，所述根据所述人机对话中的机器人会话所对应的话术阶段，确定与所述人机对话数据对应的会话逻辑得分，包括：

确定所述人机对话中出现过的多个话术阶段、以及各个话术阶段分别出现的阶段时序；

当根据所述阶段时序，确定所述多个话术阶段中存在违反话术阶段流转规则的异常话术阶段时，根据所述异常话术阶段的数量对所述人机对话进行评分，得到对应的会话逻辑得分。

在其中一个实施例中，所述将所述人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据所述比较结果确定与所述人机对话数据对应的客户反馈得分，包括：

获取预设反馈话术集合，所述预设反馈话术集合中包括有至少一个预设反馈话术；

对于遍历至的当前会话语句，将所述当前用户语句与预设反馈话术集合中的每个预设反馈话术分别进行匹配处理；

当所述预设反馈话术集合中存在与所述当前用户语句相匹配的预设反馈话术时，确定所述当前用户语句为异常用户语句；

根据遍历的所有用户语句中异常用户语句的数量，确定与所述人机对话数据对应的客户反馈得分。

在其中一个实施例中，所述根据所述沟通流畅度得分、所述会话逻辑得分、以及所述客户反馈得分，计算综合得分，当所述综合得分满足坏例条件时，确定所述人机对话数据为坏例数据，包括：

对所述沟通流畅度得分、所述会话逻辑得分、以及所述客户反馈得分进行加权求和处理，得到综合得分；

当所述综合得分小于预设分值阈值时，确定所述人机对话数据为坏例数据。

在其中一个实施例中，所述方法还包括：

获取预设时间周期内通过智能机器人产生的全量人机对话数据中的坏例数据集合；

根据所述坏例数据集合，对所述智能机器人所对应的会话逻辑和会话话术、以及用于实现所述智能机器人运行的模型和系统中的至少一种进行调整更新。

一种人机对话数据处理装置，所述装置包括：

获取模块，用于获取人机对话数据；所述人机对话数据中包括用户会话和机器人会话；

会话处理模块，用于对所述人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征；

确定模块，用于根据所述意图类别和话术特征，确定与所述人机对话数据对应的沟通流畅度得分；

所述确定模块，还用于根据所述人机对话中的机器人会话所对应的话术阶段，确定与所述人机对话数据对应的会话逻辑得分；

所述确定模块，还用于将所述人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据所述比较结果确定与所述人机对话数据对应的客户反馈得分；

所述确定模块，还用于根据所述沟通流畅度得分、所述会话逻辑得分、以及所述客户反馈得分，计算综合得分，当所述综合得分满足坏例条件时，确定所述人机对话数据为坏例数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述人机对话数据处理方法、装置、计算机设备和存储介质，对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，进而可根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分。此外，还可根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分。并且，还将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分。这样可从沟通流畅维度、会话逻辑维度、以及客户反馈维度这三个维度分别对机器人会话进行评价，从而结合这三个维度的综合得分，来判别该述人机对话数据是否为坏例数据。这样，可通过自动化的方式，对全量的人机对话进行各个角度的全面质检，可以保障质检质量。并且这样自动化地进行机器质检，无需质检员人为进行评价，可以大大提高人机对话质检的效率。

附图说明

图1为一个实施例中人机对话数据处理方法的应用环境图；

图2为一个实施例中人机对话数据处理方法的流程示意图；

图3为一个具体实施例中人机对话数据处理方法的流程示意图；

图4为一个实施例中人机对话数据处理装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人机对话数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102和服务器104可分别单独用于执行本申请提供的人机对话数据处理方法；终端102和服务器104也可用于协同执行本申请提供的人机对话数据处理方法。比如，服务器可从各个终端处获取人机对话数据；人机对话数据中包括用户会话和机器人会话；对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征；根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分；根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分；将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分；根据沟通流畅度得分、会话逻辑得分、以及客户反馈得分，计算综合得分，当综合得分满足坏例条件时，确定人机对话数据为坏例数据。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种人机对话数据处理方法，以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤S202，获取人机对话数据；人机对话数据中包括用户会话和机器人会话。

其中，人机对话数据是智能机器人与客户在对话间产生的数据，具体包括用户会话和机器人会话。其中，智能机器人具体可以是电话机器人、客服机器人或销售机器人等AI机器人。用户会话是指客户说的话，机器人会话指智能机器人说的话。

具体地，智能机器人可通过外呼或接听的方式与客户之间建立语音会话，进而与客户间进行正常的语音通话。智能机器人可采集在语音通话过程中所产生的人机对话数据并传输至计算机设备进行处理。

在其中一个实施例中，智能机器人与客户间的对话具体可以是围绕某个应用场景的对话，比如，是基于银行贷款催收的对话、或者是物品买卖交易对话、还可以是信息咨询对话，或者是信息采集对话等等，本申请实施例对此不作限定。

步骤S204，对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征。

具体地，计算机设备可通过预先训练好的语义识别模型对用户会话进行意图分析，得到对应的意图类别。计算机设备可通过预先训练好的特征提取模型对用户会话进行特征提取，得到对应的话术特征。

需要说明的是，语义识别模型也可称作意图识别模型，具体可以是神经网络模型。该语义识别模型可通过对应的训练数据预先训练得到。在其中一个实施例中，计算机设备可通过标记有意图类别的样本会话进行有监督的训练，得到训练好的语义识别模型，使得该语义识别模型具有意图类别识别的功能。

特征提取模型是用于进行特征提取的模型，具体可以是某个功能模型中的特征提取网络。计算机设备可预先训练某个具有特征提取网络的功能模型，在训练好后直接将其中的特征提取网络单独作为特征提取模型，用于本申请中对用户会话进行特征提取。

在其中一个实施例中，步骤S204，也就是对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，包括：确定用户会话中的多个用户语句；通过预训练的语义识别模型，分别对用户会话中的每个用户语句进行意图分析，输出各用户语句分别对应的意图类别；通过预训练的特征提取模型，分别对用户会话中的每个用户语句进行特征提取，输出各用户语句分别对应的话术特征。

具体地，在一段人机对话数据中，通常会包括客户与智能机器人之间有来有往的语音对话，也就是说，人机对话数据中的用户会话中通常都会包括多个用户语句。那么对于每个用户语句，计算机设备均可通过预训练的语义识别模型，对用户会话中的每个用户语句进行意图分析，输出各用户语句分别对应的意图类别。计算机设备可通过预训练的特征提取模型，分别对用户会话中的每个用户语句进行特征提取，输出各用户语句分别对应的话术特征。这样，后续在进行处理时，就可基于每个用户语句进行单独的分析处理评分，使得评分更为准确和有效。

在一个实施例中，该特征提取模型具体可以是孪生网络模型，可以一次对至少两个用户语句进行特征提取。当然，该特征提取模型还可以是ESIM(Enhanced SequentialInference Model，增强序列推理模型)、BiMPM(Bilateral Multi-perspective Matching，双向多角度匹配模型)、ABCNN(attention CNN模型)、DIIN(Densely InteractiveInference Network，密集交互模型)、DRCN(Densely-connected Recurrent and Co-attentive Information，一种文本匹配模型)等模型，本申请实施例对此不作限定。

步骤S206，根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分。

具体地，计算机设备可用户会话所对应的根据意图类别和话术特征，对用户会话进行分析，从而确定与人机对话数据对应的沟通流畅度得分。

在其中一个实施例中，步骤S206，也就是根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分，包括：对用户会话中的每个用户语句按照相应的语句时序进行遍历；对于遍历至的当前用户语句，将当前用户语句的意图类别分别与在语句时序上相邻的两个在后用户语句的意图类别进行相似比较，将当前用户语句的话术特征分别与在语句时序上相邻的两个在后用户语句的话术特征进行相似比较，得到与当前用户语句对应的沟通流畅度得分；当当前用户语句的沟通流程度得分小于预设阈值时，则从当前用户语句之后的第二个用户语句开始继续遍历，以得到对应的沟通流畅度得分，否则从当前用户语句之后的第一个用户语句开始继续遍历，以得到对应的沟通流畅度得分，直至遍历至用户会话中的最后一个用户语句；根据用户会话中各用户语句分别对应的沟通流畅度得分，计算得到与人机对话数据对应的沟通流畅度得分。

具体地，计算机设备可对用户会话中的每个用户语句按照相应的语句时序进行遍历。对于遍历至的当前用户语句，将当前用户语句的意图类别分别与在语句时序上相邻的两个在后用户语句的意图类别进行相似比较，如果意图类别相同则记第一值，如果意图类别不同则记第二值。其中，第一值具体可以是-1；第二值具体可以是0；或者，第一值可以是0；第二值可以是+1等，本申请实施例对此不作限定。对于遍历至的当前用户语句，计算机设备还可将当前用户语句的话术特征分别与在语句时序上相邻的两个在后用户语句的话术特征进行相似比较，如果话术特征间的相似度大于预设的相似度阈值则记第一值；否则，则记第二值。进而，计算机设备可统计与该当前用户语句对应的得分，得到与当前用户语句对应的沟通流畅度得分。

在当前用户语句的沟通流程度得分小于预设阈值时，则从当前用户语句之后的第二个用户语句开始继续遍历，也就是跳过一句用户语句，从而得到遍历至的用户语句所对应的沟通流畅度得分。否则对当前用户语句之后的第一个用户语句进行遍历，以得到遍历至的用户语句所对应的沟通流畅度得分。这样按照语句时序依次进行遍历，并计算累计各个用户语句所对应的沟通流畅度得分，直至遍历至用户会话中的最后一个用户语句，最终累计得到与该人机对话数据对应的沟通流畅度得分。

需要说明的是，当某一句用户语句对应的沟通流畅度得分小于预设阈值，则说明该用户语句与其在后的两个用户语句的相似度非常高，基本可认为是重复的内容，为了提高处理效率，在往后遍历时可进行跳过遍历。

还需要说明的是，当某一句用户语句对应的沟通流畅度得分小于预设阈值，则说明该用户语句与其在后的两个用户语句的相似度非常高，基本可认为是重复的内容，那么此时就从侧面反映出该智能机器人在沟通流畅度上不够好，因而相应的沟通流畅度的得分就会比较低。如果某一句用户语句对应的沟通流畅度得分大于预设阈值，则说明该用户语句与其在后的两个用户语句基本不相似，也就是说，用户并没有在做重复的复述，说明该智能机器人在沟通流畅度上比较好，相应的沟通流畅度的得分就会比较高。

举例说明，对于当前用户语句t，判断当前用户语句t与用户语句t+1、用户语句t+2的话术的意图相同度和特征相似度，确定当前评分score1_t。具体可以是两者都满足，评分-2，满足其一，评分-1，都不满足评分0，故评分共0、-1、-2、-3、-4等5种情况。进而计算沟通流畅度得到all_score1_t＝all_score1_t-1+score1_t。判断当前时序是否为最后话术时序。是，则获取总评分all_score1；否，判断评分是否小于-3，若小于-3则令t＝t+2，反之令t＝t+1，再次重复进行对当前遍历至的用户语句进行评分处理。

上述实施例中，将每个用户语句与其在后的两个用户语句的意图类别和话术特征进行比较，可以判别用户是否在连续的重复相同的内容，从而从侧面反映出智能机器人在进行沟通时的流畅度的情况，从而可以基于连续的用户语句之间的相关性，计算得到人机对话数据所对应的沟通流畅度得分。

步骤S208，根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分。

其中，话术阶段是不同的流程节点阶段，比如对于在金融业务场景下，进行金融信息收集时，其对应的话术阶段通常包括身份核实阶段、协商阶段、和信息收集阶段。而对于身份核实阶段又可对应有是否本人，是否第三方等情况。可以理解，对于一个完整的人机对话过程而言，智能机器人必然会基于预先设置好的话术流转阶段进行相应各个阶段的对话。比如在身份核实阶段沟通完成后，会进行协商阶段，而此时如果智能机器人再次进行身份核实则很显然违背了上述的话术流转规则，是需要进行调整的。

具体地，计算机设备可基于人机对话中机器人会话的会话内容，确定智能机器人当前所处的话术阶段。按照各个话术阶段的一个阶段时序，来判断智能机器人在对话的过程中，是存在违反话术阶段流转规则的情况发生，如果存在则会进行扣分，或者获取一个较低的得分，从而得到与人机对话数据对应的会话逻辑得分。

在其中一个实施例中，步骤S208，也就是根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分，包括：确定人机对话中出现过的多个话术阶段、以及各个话术阶段分别出现的阶段时序；当根据阶段时序，确定多个话术阶段中存在违反话术阶段流转规则的异常话术阶段时，根据异常话术阶段的数量对人机对话进行评分，得到对应的会话逻辑得分。

其中，话术阶段流转规则是预先设置的话术阶段流转顺序，比如从A话术阶段可以进入到B话术阶段，但是从B话术阶段不能再次进入到A话术阶段等。具体地，计算机设备可确定人机对话中出现过的多个话术阶段、以及各个话术阶段分别出现的阶段时序。当根据已经发生的话术阶段的阶段时序，确定多个话术阶段中存在违反话术阶段流转规则的异常话术阶段时，根据异常话术阶段的数量对人机对话进行评分，得到对应的会话逻辑得分。

举例说明，步骤1)判断智能机器人的当前话术阶段是否违反话术阶段流转规则的异常话术阶段(比如再次出现已完成的话术阶段)，确定当前评分score2：再次出现，评分-4，否则评分0。步骤2)计算总评分all_score2＝all_score2+score2。步骤3)判断当前时序是否为最后话术时序；是，获取总评分all_score2；否，令t＝t+1，返回步骤1)进行下一个话术阶段的判断。

上述实施例中，根据多个话术阶段中存在违反话术阶段流转规则的异常话术阶段的数量，来进行相应的会话逻辑得分，可以对会话逻辑进行量化操作，准确方便。

步骤S210，将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分。

在一个实施例中，计算机设备可预先收集预设反馈话术集合，预设反馈话术集合中的每个预设反馈话术都是表征用户体验不好的负面的反馈话术，比如，“听不懂吗”、“名字念错了”、“不是的”等。

具体地，计算机设备可将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果。该比较结果具体可以是相似度值。进而，计算机设备可根据相似度值来确定对应的人机对话数据对应的客户反馈得分。

在其中一个实施例中，将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分，包括：获取预设反馈话术集合，预设反馈话术集合中包括有至少一个预设反馈话术；对用户会话中的每个用户语句按照相应的语句时序进行遍历；对于遍历至的当前会话语句，将当前用户语句与预设反馈话术集合中的每个预设反馈话术分别进行匹配处理；当预设反馈话术集合中存在与当前用户语句相匹配的预设反馈话术时，确定当前用户语句为异常用户语句；根据遍历的所有用户语句中异常用户语句的数量，确定与人机对话数据对应的客户反馈得分。

具体地，计算机设备可获取预设反馈话术集合，进而对用户会话中的每个用户语句按照相应的语句时序进行遍历。对于遍历至的当前会话语句，将当前用户语句与预设反馈话术集合中的每个预设反馈话术分别进行匹配处理。当预设反馈话术集合中存在与当前用户语句相匹配的预设反馈话术时，确定当前用户语句为异常用户语句。其中，匹配处理具体可以是进行相似度计算，在当前用户语句与某个预设反馈话术间的相似度超过了预设的阈值，则可认为匹配上了。

进而，计算机设备可根据遍历的所有用户语句中异常用户语句的数量，确定与人机对话数据对应的客户反馈得分。

举例说明，步骤1)计算机设备可使用jaccard相似(一种相似度计算算法)判断时序t用户语句与预设反馈话术间的相似度，确定当前评分score3：存在相似话术，评分-4，否则评分0；步骤2)计算总评分all_score3＝all_score3+score3；步骤3)判断当前时序是否为最后话术时序。是，获取总评分all_score3；否，令t＝t+1，回到步骤1)。

需要说明的是，计算机设备还可采用其他的相似度计算算法进行计算，比如BoW(Bag of words，词袋)、VSM(Vector space model，向量空间模型)、TF-IDF(TermFrequency-Inverse Document Frequency，词频-逆向文本频率指数)、BM25(一种检索算法)、SimHash(一种相似度计算的算法)等算法，本申请实施例对此不作限定。

步骤S212，根据沟通流畅度得分、会话逻辑得分、以及客户反馈得分，计算综合得分，当综合得分满足坏例条件时，确定人机对话数据为坏例数据。

具体地，计算机设备可对沟通流畅度得分、会话逻辑得分、以及客户反馈得分进行加权求和处理，得到综合得分。可以理解，该加权系数具体都可以是1，或者是不同的加权系数。进而当综合得分小于预设分值阈值时，计算机设备可确定人机对话数据为坏例数据。

在一个实施例中，计算机设备可通过以下公式计算综合得分：all_score＝all_score1+all_score2+all_score3。进而判断all_score<阈值，如果是，输出bad case及其评分；否则，则认为该人机对数数据为正常案例。

上述人机对话数据处理方法，对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，进而可根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分。此外，还可根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分。并且，还将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分。这样可从沟通流畅维度、会话逻辑维度、以及客户反馈维度这三个维度分别对机器人会话进行评价，从而结合这三个维度的综合得分，来判别该述人机对话数据是否为坏例数据。这样，可通过自动化的方式，对全量的人机对话进行各个角度的全面质检，可以保障质检质量。并且这样自动化地进行机器质检，无需质检员人为进行评价，可以大大提高人机对话质检的效率。

在一个实施例中，该人机对话数据处理方法还包括对智能机器人所对应的会话逻辑和会话话术进行调整更新的步骤，该步骤具体包括：获取预设时间周期内通过智能机器人产生的全量人机对话数据中的坏例数据集合；根据坏例数据集合，对智能机器人所对应的会话逻辑和会话话术、以及用于实现所述智能机器人运行的模型和系统中的至少一种进行调整更新。

具体地，计算机设备可对预设时间周期内的大量的人机对话数据进行前述实施例中的处理，从而从中识别出坏例数据。进而对收集的坏例数据集合中的每个坏例数据在各个维度上的得分情况进行分析，找出智能机器人需要进行改善的方向，从而进行有针对性的改进。比如，具体可以从而对智能机器人所对应的会话逻辑和会话话术进行调整更新。还可以对用于实现智能机器人运行的模型和系统进行调整更新，使得调整后的智能机器人的会话逻辑和会话设计更合理，使得调整后的模型和系统更优化。

在一个实施例中，本申请中的人机对话数据处理方法可对模型原因、流程原因、工程原因等，都能进行准确的识别并进行有针对性的改进。

上述实施例中，通过预设时间周期内质检出的坏例数据进行分析，从而有针对性的对智能机器人的会话逻辑和会话话术进行调整更新，使得智能机器人可以更好的与客户进行合理地、正确的会话，提升了智能机器人的会话效果。

参考图3，在一个具体的实施例中，该人机对话数据处理方法具体包括以下三个部分的内容：①沟通流畅度：通过语义识别模型和语义匹配模型交叉判断客户会话内容是否重复(一般由意图无法识别、意图识别错误导致的)；②会话逻辑错误：判断节点是否回流(也就是是否出现了违反话术阶段流转规则的话术阶段)，来判断AI机器人与客户沟通是否流畅；③客户反馈：通过相似度算法识别客户特殊意图(如“听不懂吗”、“名字念错了”)。

下面对这三个方面进行分别的阐述：

第一部分，在沟通流畅度方面，具体包括以下步骤：

首先对人机对话按照时间先后顺序重新排序。

1-1)使用训练好的语义识别模型识别每个用户语句的意图类别；

1-2)使用训练好的孪生网络算法提取每个用户语句的话术特征；

1-3)判断时序t与t+1、t+2人的话术的意图相同度和特征相似度，确定当前评分score1：两者都满足，评分-2，满足其一，评分-1，都不满足评分0，故评分共0、-1、-2、-3、-4等情况；

1-4)计算总评分all_score1＝all_score1+score1；

1-5)判断当前时序是否为最后话术时序。是，则获取总评分all_score1；否，判断评分是否小于-3，若小于-3则令t＝t+2，反之令t＝t+1，回到步骤1-3)。

第二部分，在会话逻辑方面，具体包括以下步骤：

2-1)判断机器人的话术阶段是否再次出现已完成的话术阶段，确定当前评分score2：再次出现，评分-4，否则评分0；

2-2)计算总评分all_score2＝all_score2+score2；

2-3)判断当前时序是否为最后话术时序。是，获取总评分all_score2；否，令t＝t+1，回到步骤2-1)。

第三部分，在客户主动反馈方面，具体包括以下步骤：

3-1)使用jaccard相似判断时序t用户语句与客户主动反馈话术相似度，确定当前评分score3：存在相似话术，评分-4，否则评分0；

3-2)计算总评分all_score3＝all_score3+score3；

3-3)判断当前时序是否为最后话术时序。是，获取总评分all_score3；否，令t＝t+1，回到步骤3-1)。

当三个维度的分数都计算完成，计算机设备可计算总评分all_score＝all_score1+all_score2+all_score3；判断all_score<阈值。是，输出bad case及其评分。

上述实施例中，通过沟通流畅度、会话逻辑是否正确、客户主动反馈组成的沟通评估算法，有效提高了case质检速度和覆盖率，并且提升了bad case的召回率和精确率，既提高了人机对话数据的质检效率，又提高了人机对话数据的质检效果。通过bad case算法对通话进行深度分析，对每日全量百万通AI通话进行自动质检，并给每通对话相应的badcase评分，可以实现全量质检。并且，还可实现质检场景全覆盖。对于质检员能发现的问题，本申请中的人机对话数据处理方法都能发现，比如模型原因、流程原因、工程原因等，都能进行准确的识别。其中，模型问题比如，模型识别误判，意图识别出错；流程问题比兔基于流程树，即到了某一流程会流转到下一个流程，可能出现流程错误，导致对话不流畅；工程原因，噪音，环境音，电话录音，嘈杂，导致语音识别不准确。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种人机对话数据处理装置400，包括：获取模块401、会话处理模块402和确定模块403，其中：

获取模块401，用于获取人机对话数据；人机对话数据中包括用户会话和机器人会话。

会话处理模块402，用于对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征。

确定模块403，用于根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分。

确定模块403，还用于根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分。

确定模块403，还用于将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分。

确定模块403，还用于根据沟通流畅度得分、会话逻辑得分、以及客户反馈得分，计算综合得分，当综合得分满足坏例条件时，确定人机对话数据为坏例数据。

在其中一个实施例中，会话处理模块402，还用于确定用户会话中的多个用户语句；通过预训练的语义识别模型，分别对用户会话中的每个用户语句进行意图分析，输出各用户语句分别对应的意图类别；通过预训练的特征提取模型，分别对用户会话中的每个用户语句进行特征提取，输出各用户语句分别对应的话术特征。

在其中一个实施例中，确定模块，还用于对用户会话中的每个用户语句按照相应的语句时序进行遍历；对于遍历至的当前用户语句，将当前用户语句的意图类别分别与在语句时序上相邻的两个在后用户语句的意图类别进行相似比较，将当前用户语句的话术特征分别与在语句时序上相邻的两个在后用户语句的话术特征进行相似比较，得到与当前用户语句对应的沟通流畅度得分；当当前用户语句的沟通流程度得分小于预设阈值时，则从当前用户语句之后的第二个用户语句开始继续遍历，以得到对应的沟通流畅度得分，否则从当前用户语句之后的第一个用户语句开始继续遍历，以得到对应的沟通流畅度得分，直至遍历至用户会话中的最后一个用户语句；根据用户会话中各用户语句分别对应的沟通流畅度得分，计算得到与人机对话数据对应的沟通流畅度得分。

在其中一个实施例中，确定模块403，还用于确定人机对话中出现过的多个话术阶段、以及各个话术阶段分别出现的阶段时序；当根据阶段时序，确定多个话术阶段中存在违反话术阶段流转规则的异常话术阶段时，根据异常话术阶段的数量对人机对话进行评分，得到对应的会话逻辑得分。

在其中一个实施例中，确定模块403，还用于获取预设反馈话术集合，预设反馈话术集合中包括有至少一个预设反馈话术；对用户会话中的每个用户语句按照相应的语句时序进行遍历；对于遍历至的当前会话语句，将当前用户语句与预设反馈话术集合中的每个预设反馈话术分别进行匹配处理；当预设反馈话术集合中存在与当前用户语句相匹配的预设反馈话术时，确定当前用户语句为异常用户语句；根据遍历的所有用户语句中异常用户语句的数量，确定与人机对话数据对应的客户反馈得分。

在其中一个实施例中，确定模块403，还用于对沟通流畅度得分、会话逻辑得分、以及客户反馈得分进行加权求和处理，得到综合得分；当综合得分小于预设分值阈值时，确定人机对话数据为坏例数据。

在一个实施例中，该装置还包括调整模块，用于获取预设时间周期内通过智能机器人产生的全量人机对话数据中的坏例数据集合；根据坏例数据集合，对智能机器人所对应的会话逻辑和会话话术、以及用于实现所述智能机器人运行的模型和系统中的至少一种进行调整更新。

上述人机对话数据处理装置，对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，进而可根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分。此外，还可根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分。并且，还将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分。这样可从沟通流畅维度、会话逻辑维度、以及客户反馈维度这三个维度分别对机器人会话进行评价，从而结合这三个维度的综合得分，来判别该述人机对话数据是否为坏例数据。这样，可通过自动化的方式，对全量的人机对话进行各个角度的全面质检，可以保障质检质量。并且这样自动化地进行机器质检，无需质检员人为进行评价，可以大大提高人机对话质检的效率。

关于人机对话数据处理装置的具体限定可以参见上文中对于人机对话数据处理方法的限定，在此不再赘述。上述人机对话数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人机对话数据处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取人机对话数据；人机对话数据中包括用户会话和机器人会话；对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征；根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分；根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分；将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分；根据沟通流畅度得分、会话逻辑得分、以及客户反馈得分，计算综合得分，当综合得分满足坏例条件时，确定人机对话数据为坏例数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：确定用户会话中的多个用户语句；通过预训练的语义识别模型，分别对用户会话中的每个用户语句进行意图分析，输出各用户语句分别对应的意图类别；通过预训练的特征提取模型，分别对用户会话中的每个用户语句进行特征提取，输出各用户语句分别对应的话术特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对用户会话中的每个用户语句按照相应的语句时序进行遍历；对于遍历至的当前用户语句，将当前用户语句的意图类别分别与在语句时序上相邻的两个在后用户语句的意图类别进行相似比较，将当前用户语句的话术特征分别与在语句时序上相邻的两个在后用户语句的话术特征进行相似比较，得到与当前用户语句对应的沟通流畅度得分；当当前用户语句的沟通流程度得分小于预设阈值时，则从当前用户语句之后的第二个用户语句开始继续遍历，以得到对应的沟通流畅度得分，否则从当前用户语句之后的第一个用户语句开始继续遍历，以得到对应的沟通流畅度得分，直至遍历至用户会话中的最后一个用户语句；根据用户会话中各用户语句分别对应的沟通流畅度得分，计算得到与人机对话数据对应的沟通流畅度得分。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：确定人机对话中出现过的多个话术阶段、以及各个话术阶段分别出现的阶段时序；当根据阶段时序，确定多个话术阶段中存在违反话术阶段流转规则的异常话术阶段时，根据异常话术阶段的数量对人机对话进行评分，得到对应的会话逻辑得分。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预设反馈话术集合，预设反馈话术集合中包括有至少一个预设反馈话术；对用户会话中的每个用户语句按照相应的语句时序进行遍历；对于遍历至的当前会话语句，将当前用户语句与预设反馈话术集合中的每个预设反馈话术分别进行匹配处理；当预设反馈话术集合中存在与当前用户语句相匹配的预设反馈话术时，确定当前用户语句为异常用户语句；根据遍历的所有用户语句中异常用户语句的数量，确定与人机对话数据对应的客户反馈得分。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对沟通流畅度得分、会话逻辑得分、以及客户反馈得分进行加权求和处理，得到综合得分；当综合得分小于预设分值阈值时，确定人机对话数据为坏例数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预设时间周期内通过智能机器人产生的全量人机对话数据中的坏例数据集合；根据坏例数据集合，对智能机器人所对应的会话逻辑和会话话术、以及用于实现所述智能机器人运行的模型和系统中的至少一种进行调整更新。

上述人计算机设备，对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，进而可根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分。此外，还可根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分。并且，还将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分。这样可从沟通流畅维度、会话逻辑维度、以及客户反馈维度这三个维度分别对机器人会话进行评价，从而结合这三个维度的综合得分，来判别该述人机对话数据是否为坏例数据。这样，可通过自动化的方式，对全量的人机对话进行各个角度的全面质检，可以保障质检质量。并且这样自动化地进行机器质检，无需质检员人为进行评价，可以大大提高人机对话质检的效率。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取人机对话数据；人机对话数据中包括用户会话和机器人会话；对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征；根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分；根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分；将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分；根据沟通流畅度得分、会话逻辑得分、以及客户反馈得分，计算综合得分，当综合得分满足坏例条件时，确定人机对话数据为坏例数据。

上述存储介质，对人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，进而可根据意图类别和话术特征，确定与人机对话数据对应的沟通流畅度得分。此外，还可根据人机对话中的机器人会话所对应的话术阶段，确定与人机对话数据对应的会话逻辑得分。并且，还将人机对话中的用户会话与预设反馈话术进行比较，得到比较结果，并根据比较结果确定与人机对话数据对应的客户反馈得分。这样可从沟通流畅维度、会话逻辑维度、以及客户反馈维度这三个维度分别对机器人会话进行评价，从而结合这三个维度的综合得分，来判别该述人机对话数据是否为坏例数据。这样，可通过自动化的方式，对全量的人机对话进行各个角度的全面质检，可以保障质检质量。并且这样自动化地进行机器质检，无需质检员人为进行评价，可以大大提高人机对话质检的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人机对话数据处理方法，其特征在于，所述方法包括：

获取人机对话数据；所述人机对话数据中包括用户会话和机器人会话；所述用户会话包括多个用户语句；

将每个用户语句与两个在后用户语句的意图类别和话术特征进行比较，以确定连续的用户语句之间的相关性，根据连续的用户语句之间的相关性，确定与所述人机对话数据对应的沟通流畅度得分；

确定所述人机对话数据中的机器人会话所对应的多个话术阶段，根据多个话术阶段中存在违反话术阶段流转规则的异常话术阶段的数量，确定与所述人机对话数据对应的会话逻辑得分；

将所述人机对话数据中的用户会话与预设反馈话术进行比较，得到比较结果，并根据所述比较结果确定用户会话中的异常用户语句，根据异常用户语句的数量确定与所述人机对话数据对应的客户反馈得分；

2.根据权利要求1所述的方法，其特征在于，所述对所述人机对话数据中的用户会话分别进行意图分析和特征提取，得到对应的意图类别和话术特征，包括：

确定所述用户会话中的多个用户语句；

3.根据权利要求1所述的方法，其特征在于，所述将每个用户语句与两个在后用户语句的意图类别和话术特征进行比较，以确定连续的用户语句之间的相关性，根据连续的用户语句之间的相关性，确定与所述人机对话数据对应的沟通流畅度得分，包括：

当所述当前用户语句的沟通流畅度得分小于预设阈值时，则从所述当前用户语句之后的第二个用户语句开始继续遍历，以得到对应的沟通流畅度得分，否则从所述当前用户语句之后的第一个用户语句开始继续遍历，以得到对应的沟通流畅度得分，直至遍历至所述用户会话中的最后一个用户语句；

4.根据权利要求1所述的方法，其特征在于，所述确定所述人机对话数据中的机器人会话所对应的多个话术阶段，根据多个话术阶段中存在违反话术阶段流转规则的异常话术阶段的数量，确定与所述人机对话数据对应的会话逻辑得分，包括：

确定所述人机对话数据中出现过的多个话术阶段、以及各个话术阶段分别出现的阶段时序；

当根据所述阶段时序，确定所述多个话术阶段中存在违反话术阶段流转规则的异常话术阶段时，根据所述异常话术阶段的数量对所述人机对话数据进行评分，得到对应的会话逻辑得分。

5.根据权利要求1所述的方法，其特征在于，所述将所述人机对话数据中的用户会话与预设反馈话术进行比较，得到比较结果，并根据所述比较结果确定用户会话中的异常用户语句，根据异常用户语句的数量确定与所述人机对话数据对应的客户反馈得分，包括：

对于遍历至的当前用户语句，将所述当前用户语句与预设反馈话术集合中的每个预设反馈话术分别进行匹配处理；

6.根据权利要求1所述的方法，其特征在于，所述根据所述沟通流畅度得分、所述会话逻辑得分、以及所述客户反馈得分，计算综合得分，当所述综合得分满足坏例条件时，确定所述人机对话数据为坏例数据，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

8.一种人机对话数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取人机对话数据；所述人机对话数据中包括用户会话和机器人会话；所述用户会话包括多个用户语句；

确定模块，用于将每个用户语句与两个在后用户语句的意图类别和话术特征进行比较，以确定连续的用户语句之间的相关性，根据连续的用户语句之间的相关性，确定与所述人机对话数据对应的沟通流畅度得分；

所述确定模块，还用于确定所述人机对话数据中的机器人会话所对应的多个话术阶段，根据多个话术阶段中存在违反话术阶段流转规则的异常话术阶段的数量，确定与所述人机对话数据对应的会话逻辑得分；

所述确定模块，还用于将所述人机对话数据中的用户会话与预设反馈话术进行比较，得到比较结果，并根据所述比较结果确定用户会话中的异常用户语句，根据异常用户语句的数量确定与所述人机对话数据对应的客户反馈得分；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。