CN112580367B

CN112580367B - 一种话务质检方法及装置

Info

Publication number: CN112580367B
Application number: CN202011538859.XA
Authority: CN
Inventors: 唐波; 孙腾; 邵云飞; 张卫强; 范云涛; 张海伟
Original assignee: Tsinghua University; Weichai Power Co Ltd
Current assignee: Tsinghua University; Weichai Power Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2023-10-27
Anticipated expiration: 2040-12-23
Also published as: CN112580367A

Abstract

本发明公开了一种话务质检方法及装置，可以获得客户与客服的通话音频数据，对通话音频数据进行语音识别，获得至少一条对话文本，对话文本包括客户部分文本和客服部分文本，将一条对话文本输入至训练好的语义向量提取器中，获得语义向量提取器输出的客户文本语义向量和客服文本语义向量，将客户文本语义向量和客服文本语义向量进行拼接，获得上下文相关语义向量，将获得的上下文相关语义向量输入至训练好的话务质检模型中，获得话务质检模型输出的一条对话文本的话务质检结果。本发明可以对所有的待检话务工单进行全面质检，有效提高质检效率，避免对质检人员的人力消耗，避免对质检不合格话务工单的遗漏。

Description

一种话务质检方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种话务质检方法及装置。

背景技术

随着数据处理技术的发展，话务质检技术不断提高。

当前，企业为监测客服对客户的服务质量，会选用质检人员对客服对客户的语音服务过程进行话务质检。具体的，质检人员可以对话务工单对应的语音服务过程进行人工质检。其中，话务工单可以是客服话务所产生的工单，每条话务工单均可以对应客服对客户的一次语音服务。

但是，当待检话务工单的数量过多时，质检人员由于人力有限而无法对所有的待检话务工单进行全面地质检，可能导致对质检不合格的话务工单的遗漏。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的话务质检方法及装置，技术方案如下：

一种话务质检方法，包括：

获得客户与客服的通话音频数据；

对所述通话音频数据进行语音识别，获得至少一条对话文本，所述对话文本包括客户部分文本和客服部分文本；

将一条所述对话文本输入至训练好的语义向量提取器中，获得语义向量提取器输出的客户文本语义向量和客服文本语义向量；

将所述客户文本语义向量和所述客服文本语义向量进行拼接，获得上下文相关语义向量；

将获得的所述上下文相关语义向量输入至训练好的话务质检模型中，获得所述话务质检模型输出的一条所述对话文本的话务质检结果。

可选的，所述方法还包括：

根据所述话务质检模型输出的各条所述对话文本的话务质检结果，确定整体质检结果。

可选的，所述通话音频数据为双声道数据，其中，所述双声道数据包括客户声道的音频数据和客服声道的音频数据；所述对所述通话音频数据进行语音识别，包括：

分别对所述客户声道的音频数据和所述客服声道的音频数据进行语音识别；

所述获得至少一条对话文本，包括：

将对所述客户声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客户部分文本；

将对所述客服声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客服部分文本。

可选的，所述语义向量提取器是经序列到序列学习获得的机器学习模型，所述语义向量提取器的训练样本为人工标注的对话文本；

所述语义向量提取器包括编码网络和解码网络，所述语义向量提取器在进行训练时，所述编码网络的输入数据为人工标注的对话文本，所述编码网络的输出数据为文本语义向量，所述解码网络的输入数据为所述编码网络输出的文本语义向量，所述解码网络的输出数据为对话文本，训练目标为所述编码网络的输入数据与所述解码网络的输出数据的交叉熵最小；

所述获得语义向量提取器输出的客户文本语义向量和客服文本语义向量，包括：

获得所述语义向量提取器的编码网络输出的客户文本语义向量和客服文本语义向量。

可选的，所述编码网络与所述解码网络的网络结构均为递归神经网络。

可选的，所述递归神经网络是单元数为256的循环门控网络，所述客户文本语义向量和所述客服文本语义向量均为256维语义向量。

可选的，所述话务质检模型为深度回归模型，所述话务质检结果包括服务质量评价分数，所述话务质检模型的训练样本为人工标注服务质量评价分数的上下文相关语义向量；

所述获得所述话务质检模型输出的一条所述对话文本的话务质检结果，包括：

获得所述话务质检模型输出的一条所述对话文本的服务质量评价分数。

可选的，所述话务质检模型在训练时，训练目标为所述话务质检模型输出的服务质量评价分数与人工标注的服务质量评价分数的均方差误差最小。

一种话务质检装置，包括：第一获得单元、第二获得单元、第三获得单元、第四获得单元和第五获得单元，其中：

所述第一获得单元，被配置为执行：获得客户与客服的通话音频数据；

所述第二获得单元，被配置为执行：对所述通话音频数据进行语音识别，获得至少一条对话文本，所述对话文本包括客户部分文本和客服部分文本；

所述第三获得单元，被配置为执行：将一条所述对话文本输入至训练好的语义向量提取器中，获得语义向量提取器输出的客户文本语义向量和客服文本语义向量；

所述第四获得单元，被配置为执行：将所述客户文本语义向量和所述客服文本语义向量进行拼接，获得上下文相关语义向量；

所述第五获得单元，被配置为执行：将获得的所述上下文相关语义向量输入至训练好的话务质检模型中，获得所述话务质检模型输出的一条所述对话文本的话务质检结果。

可选的，所述装置还包括：第一确定单元；

所述第一确定单元，被配置为执行：根据所述话务质检模型输出的各条所述对话文本的话务质检结果，确定整体质检结果。

可选的，所述通话音频数据为双声道数据，其中，所述双声道数据包括客户声道的音频数据和客服声道的音频数据；所述第二获得单元，被配置为执行：

分别对所述客户声道的音频数据和所述客服声道的音频数据进行语音识别，将对所述客户声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客户部分文本，将对所述客服声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客服部分文本。

所述第三获得单元，被配置为执行：将一条所述对话文本输入至训练好的语义向量提取器中，获得所述语义向量提取器的编码网络输出的客户文本语义向量和客服文本语义向量。

所述话务质检模型为深度回归模型，所述话务质检结果包括服务质量评价分数，所述话务质检模型的训练样本为人工标注服务质量评价分数的上下文相关语义向量；

所述第五获得单元，被配置为执行：将获得的所述上下文相关语义向量输入至训练好的话务质检模型中，获得所述话务质检模型输出的一条所述对话文本的服务质量评价分数。

所述话务质检模型在训练时，训练目标为所述话务质检模型输出的服务质量评价分数与人工标注的服务质量评价分数的均方差误差最小。

本发明提供的话务质检方法及装置，可以获得客户与客服的通话音频数据，对通话音频数据进行语音识别，获得至少一条对话文本，对话文本包括客户部分文本和客服部分文本，将一条对话文本输入至训练好的语义向量提取器中，获得语义向量提取器输出的客户文本语义向量和客服文本语义向量，将客户文本语义向量和客服文本语义向量进行拼接，获得上下文相关语义向量，将获得的上下文相关语义向量输入至训练好的话务质检模型中，获得话务质检模型输出的一条对话文本的话务质检结果。本发明可以对所有的待检话务工单进行全面质检，有效提高质检效率，避免对质检人员的人力消耗，避免对质检不合格话务工单的遗漏，且在质检过程中，本发明可以避免质检人员的主观质检问题，使用相同的质检方式和质检标准对所有的待检话务工单进行话务质检，有效保证了质检标准的一致性，提高质检准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提出的一种话务质检方法的流程图；

图2示出了本发明实施例提出的一种语义向量提取器的结构示意图；

图3示出了本发明实施例提出的另一种话务质检方法的流程图；

图4示出了本发明实施例提出的另一种话务质检方法的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本实施例提出了一种话务质检方法，该方法可以包括以下步骤：

S101、获得客户与客服的通话音频数据；

其中，通话音频数据可以包括客服音频数据和客户音频数据。

其中，通话音频数据可以是实时的音频数据，也可以是录制的音频数据。

需要说明的是，当通话音频数据为实时的音频数据时，本发明可以实时的对客服对客户的语音服务过程进行话务质检，提高质检速率；当通过音频数据为录制的音频数据时，本发明可以在收集多份通过音频数据后，统一对多份通话音频数据进行话务质检，提高质检效率。

S102、对通话音频数据进行语音识别，获得至少一条对话文本，对话文本包括客户部分文本和客服部分文本；

其中，一条对话文本可以是客服与客户进行一次对话所对应的文本，可以包括有客服部分文本和相邻的客户部分文本。比如，在第一对话文本中，客服部分文本为“您好，企业客服，请问有什么可以帮您”，客户部分文本为“您好，我发动机故障，启动不了，需要怎么处理？”。

可以理解的是，同一条对话文本中的客户部分文本和客服部分文本均可以是一句或多句文本。

具体的，当一条对话文本中包括一句客户部分文本和一句客服部分文本时，对话文本中的客户部分文本和客服部分文本均为一句完整的文本。此时，一条对话文本可以是包括一句客服部分文本和相邻的一句客户部分文本(及客服部分文本的上一句客户部分文本或下一句客户部分文本)，本发明对此不做限定。

需要说明的是，本发明可以对客服与客户的语音通话过程进行时间标注，记录语音通话过程中客服音频数据与客户音频数据的出现时间。可选的，本发明可以按照音频数据的出现时间，确定属于同一条对话音频数据的客服音频数据和客户音频数据，之后可以分别对同一条对话音频数据中的客服音频数据和客户音频数据分别进行语音识别，以获得同一条对话文本中的客服部分文本和客户部分文本。

可选的，本发明也可以按照音频数据出现时间的先后顺序，对客服与客户的通话音频数据进行整体的语音识别，获得相应的整体文本，之后本发明可以在整体文本中确定一条或多条对话文本，并分别确定各条对话文本中的客服部分文本和客户部分文本。

可选的，本发明也可以先行分别对通话音频数据中的客服音频数据和客户音频数据进行语音识别，获得标注有出现时间的各条客服部分文本和客户部分文本，之后根据出现时间的先后顺序，确定属于同一条对话文本中的客服部分文本和客户部分文本。

需要说明的是，在同一条对话文本中，客服部分文本对应的音频数据的出现时间可以是在客户部分文本所对应的音频数据之前，客服部分文本对应的音频数据的出现时间也可以是在客户部分文本所对应的音频数据之后，本发明对此不做限定。

具体的，本发明可以使用现有的语音识别声学模型及语言模型对音频数据进行语音识别，获得相应的文本。在实际应用中，本发明可以由人工对通话音频数据进行文本标注，使用经文本标注的通过音频数据作为训练样本，对语音识别声学模型及语言模型进行机器学习，优化模型性能。其中，文本标注可以包括对通话音频数据进行文本转写和标注通话音频数据的起始时间等。

S103、将一条对话文本输入至训练好的语义向量提取器中，获得语义向量提取器输出的客户文本语义向量和客服文本语义向量；

具体的，本发明可以将分别将同一条对话文本中的客服部分文本和客服部分文本分别输入至语义向量提取器中，获得语义向量提取器根据客户部分文本输出的客户文本语义向量，获得语义向量提取器根据客服部分文本输出的客服文本语义向量。

可以理解的是，当一条对话文本中的客服部分文本和客户部分文本均为一句文本时，客服部分文本对应的客户文本语义向量可以为句子级语义文本向量，客户部分文本对应的客户文本语义向量可以为句子级语义文本向量。

其中，语义向量提取器可以是经机器学习训练好的模型。

可选的，语义向量提取器是经序列到序列学习获得的机器学习模型，语义向量提取器的训练样本为人工标注的对话文本。语义向量提取器包括编码网络和解码网络，语义向量提取器在进行训练时，编码网络的输入数据为人工标注的对话文本，编码网络的输出数据为文本语义向量，解码网络的输入数据为编码网络输出的文本语义向量，解码网络的输出数据为对话文本，训练目标为编码网络的输入数据与解码网络的输出数据的交叉熵最小。此时，步骤S103可以具体包括：

获得语义向量提取器的编码网络输出的客户文本语义向量和客服文本语义向量。

其中，人工标注的对话文本可以是人为对语音数据进行语音识别出的对话文本。本发明可以使用对话文本中的客服部分文本和/或客户部分文本作为训练样本，对语义向量提取器进行训练。

其中，本发明可以使用损失函数对语义向量提取器进行训练，调整语义向量提取器中的网络相关参数，使得输入编码网络的文本数据与解码网络的输出的文本数据间的交叉熵最小。

可选的，编码网络与解码网络的网络结构均可以为递归神经网络。

为更好的对语义向量提取器的结构进行介绍，本发明提出图2所示的一种语义向量提取器的结构进行说明。

在图2中，“你好”、“企业”和“客服”为经由人工进行语义标注的一条对话文本中的客服部分文本，本发明将标注好的“你好”、“企业”和“客服”输入至编码网络，在编码网络中，“你好”、“企业”和“客服”分别经Embedding输入至相应的递归神经网络，之后编码网络输出相应的语义向量至解码网络，本发明可以输入开始指令至解码网络，使得语义向量经相应的递归神经网络和Embedding，之后编码网络输出“你好”、“企业”和“客服”。

其中，当对话文本中客服部分文本和客户部分文本均为一个句子时，语义向量提取器可以为句级别的语义向量提取器。

需要说明的是，本发明也可以通过自编码结构来获得客户部分文本对应的语义向量和客服部分文本对应的语义向量。本发明对于获得客户部分文本对应的语义向量和客服部分文本对应的语义向量所使用的方式不做限定。

S104、将客户文本语义向量和客服文本语义向量进行拼接，获得上下文相关语义向量；

具体的，本发明可以将同一条对话文本中客服部分文本对应的客服文本语义向量，以及客户部分文本对应的客户文本语义向量进行顺序拼接，以获得上下文相关语义向量。

具体的，上下文相关语义向量可以是客服文本语义向量与相邻的客户文本语义向量的拼接。

其中，本发明在将客服文本语义向量与客户文本语义向量进行顺序拼接时，客服文本语义向量在前，客户文本语义向量在后，或者客服文本语义向量在后，客户文本语义向量在前，本发明对此不做限定。

可选的，上述递归神经网络可以是单元数为256的循环门控网络，客户文本语义向量和客服文本语义向量均可以为256维语义向量。

其中，当上述递归神经网络为单元数为256的循环门控网络，语义向量提取器输出的客户语义向量和客服语义向量均可以是256维的语义向量，此时，由客户语义向量和客服语义向量拼接得到的上下文相关语义向量可以是512维的语义向量。

S105、将获得的上下文相关语义向量输入至训练好的话务质检模型中，获得话务质检模型输出的一条对话文本的话务质检结果。

其中，话务质检模型可以是经机器学习获得的模型。

需要说明的是，本实施例中的话务质检模型可以用于对客服服务质量进行定量评价，也可以用于对客服服务质量进行定性评价。

其中，当话务质检模型用于对客服服务质量进行定量评价时，本发明将一条对话文本对应的上下文相关语义向量输入至话务质检模型后，可以获得话务质检模型输出的客服服务质量评价分数。

其中，当话务质检模型用于对客服服务质量进行定性评价时，本发明将一条对话文本对应的上下文相关语义向量输入至话务质检模型后，可以获得话务质检模型输出的对话文本属于有效沟通或无效沟通的质检结果。需要说明的是，当质检结果为有效沟通时，本发明可以确定客服为用户提供了有助于解决问题的实质服务；当质检结果为无效沟通时，本发明可以确定客服向用户提供了与问题不相关或者不具有帮助性的服务内容。

还需要说明的是，本发明对于话务质检模型进行定性评价时输出的质检结果的类别不做限定，比如，上述定性评价的质检结果的类别还可以包括：主动服务、服务良好、被动服务、含辱骂性语言和表达不清楚。

可选的，在本实施例提出的其它话务质检方法中，图1所示方法还可以包括步骤S106，其中：

S106、根据话务质检模型输出的各条对话文本的话务质检结果，确定整体质检结果。

可以理解的是，本发明可以将根据通话音频数据获得的各条对话文本分别输入至话务质检模型，根据话务质检模型输出的对各条对话文本的话务质检结果，确定对客服与客户的语音通话过程的质检结果。

需要说明的是，本发明可以使用图1所示方法对客服与客户的通话音频数据中的各条对话文本进行质检，根据各条对话文本的质检结果确定对通话音频数据的质检结果。

具体的，当话务质检模型用于对客服服务质量进行定量评价时，本发明在获得话务质检模型输出的对各条对话文本的客服服务质量评价分数后，对各条对话文本的客服服务质量评价分数进行平均值计算，将计算出的平均值即确定为对客服与客户的通话音频数据的客服服务质量评价分数。当然，本发明也可以使用其它计算方式，来根据各条对话文本的客服服务质量评价分数计算对通话音频数据的客服服务质量评价分数，比如加权计算方式，本发明对此不做限定。

具体的，当话务质检模型用于对客服服务质量进行定性评价时，本发明可以在获得话务质检模型输出的各条对话文本的质检结果后，根据各类别质检结果的个数来确定对通话音频数据的质检结果。比如，在包括有十条对话文本的通话音频数据中，如果八条对话文本的质检结果为有效沟通，有效沟通的占比超过预设阈值(如70％)，则本发明可以确定通话音频数据的质检结果为有效沟通。

需要说明的是，本发明使用图1所示方法可以对客服与客户间的通话音频数据进行智能化的话务质检。当待检话务工单数量过多时，本发明可以使用图1所示方法对所有的待检话务工单进行全面质检，有效提高了质检效率，避免对质检人员的人力消耗，避免对质检不合格话务工单的遗漏，且在质检过程中，本发明可以避免质检人员的主观质检问题，使用相同的质检方式和质检标准对所有的待检话务工单进行话务质检，有效保证了质检标准的一致性，提高质检准确率。

本发明提出的话务质检方法，可以获得客户与客服的通话音频数据，对通话音频数据进行语音识别，获得至少一条对话文本，对话文本包括客户部分文本和客服部分文本，将一条对话文本输入至训练好的语义向量提取器中，获得语义向量提取器输出的客户文本语义向量和客服文本语义向量，将客户文本语义向量和客服文本语义向量进行拼接，获得上下文相关语义向量，将获得的上下文相关语义向量输入至训练好的话务质检模型中，获得话务质检模型输出的一条对话文本的话务质检结果。本发明可以对所有的待检话务工单进行全面质检，有效提高质检效率，避免对质检人员的人力消耗，避免对质检不合格话务工单的遗漏，且在质检过程中，本发明可以避免质检人员的主观质检问题，使用相同的质检方式和质检标准对所有的待检话务工单进行话务质检，有效保证了质检标准的一致性，提高质检准确率。

基于图1所示步骤，本实施例还提出另一种话务质检方法。在该方法中，通话音频数据为双声道数据，其中，双声道数据包括客户声道的音频数据和客服声道的音频数据。

此时，步骤S102可以包括：

分别对客户声道的音频数据和客服声道的音频数据进行语音识别；

将对客户声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客户部分文本；

将对客服声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客服部分文本。

需要说明的是，双声道数据可以包括左声道数据和右声道数据，其中一个声道数据可以为客户声道的音频数据，另一个声道数据可以为客服声道的音频数据。

具体的，本发明可以将客户声道的音频数据进行语音识别而获得的文本确定为某条对话文本中的客户部分文本，将客服声道的音频数据进行语音识别而获得的文本确定为某条对话文本中的客服部分文本。

本实施例提出的话务质检方法，使用双声道方式来分别对客户音频数据和客服音频数据进行标识，可以提高语音识别效率，保证对客户音频数据和客服音频数据的识别准确性，从而提高话务质检效率和保证话务质检的准确性。

基于图1所示的步骤，本实施例提出另一种话务质检方法，如图3所示。在该方法中，话务质检模型为深度回归模型，话务质检结果包括服务质量评价分数，话务质检模型的训练样本为人工标注服务质量评价分数的上下文相关语义向量。此时，图1中的步骤S105具体为步骤S201，其中：

S201、将获得的上下文相关语义向量输入至训练好的话务质检模型中，获得话务质检模型输出的一条对话文本的服务质量评价分数。

其中，当话务质检模型的话务质检结果包括服务质量评价分数时，话务质检模型可以是用于对客服服务质量进行定量评价的模型，即客服服务质量评价模型。

需要说明的是，本发明可以使用人工标注有服务质量评价分数的上下文相关语义向量作为模型的训练样本。具体的，在进行人工标注时，本发明而可以由相关技术人员使用相应的服务质量评价规则，对对话文本进行服务质量的评分，之后使用评分标注对相应的该对话文本对应的上下文相关语义向量进行标注。

其中，服务质量评价规则可以由技术人员根据实际情况进行制定，本发明对此不做限定。可选的，本发明可以由技术人员设定服务质量评价规则的相关扣分标准，如表1所示：

表1扣分标准表

可选的，本发明可以按照服务质量评价规则的扣分标准对客服与客户间的对话文本进行服务质量的评分，如表2和表3所示的评分示例：

表2评分示例

在表2中，客服在对客户的语音服务过程中，表述存在推诿的情况，按照上述表1的扣分标准，本发明可以由技术人员将客服的服务质量评分设置为10分。

表3评分示例

在表3中，客服在对客户的语音服务过程中遵循了对客户的礼仪，未具有相关扣分项，按照上述表1的扣分标准，本发明可以由技术人员将客服的服务质量评分设置为100分。

可以理解的是，本发明也可以使用机器标注的方式，使得机器可以按照服务质量评分规则，比如按照上述扣分表来对对话文本进行自动标注，进一步减少人力消耗，提高标注效率。相应的，本发明也可以使用机器标注的方式对上下文相关语义向量进行标注。

可选的，话务质检模型在训练时，训练目标为话务质检模型输出的服务质量评价分数与人工标注的服务质量评价分数的均方差误差最小。

具体的，本发明在对话务质检模型进行训练后，可以使用人工标注好的上下文相关语义向量作为验证样本，对话务质检模型的性能进行验证。当验证结果不合格时，本发明可以再对话务质检模型进行训练。

可以理解的是，本发明可以使用话务质检模型，对客服与客户的通话音频数据中的多条对话文本进行质检，并可以根据话务质检模型输出的对各条对话文本的服务质量评价分数进行计算，确定通话音频数据的整体服务质量评价分数。

其中，本发明对于如何根据各条对话文本的服务质量评价分数来确定整体服务质量评价分数所采取的计算方式不做限定。比如，本发明可以使用平均运算或加权平均运算等方式，来根据各条对话文本的服务质量评价分数，确定通话音频数据的整体服务质量评价分数；再比如，本发明也可以先行在各条对话文本的服务质量评价分数中，去除最高值和最低值后再进行平均运算；再比如，本发明也可以直接将各条对话文本中的最低服务质量评价分数确定为通话音频数据的整体服务质量评价分数。

需要说明的是，服务质量评价分数越高，本发明可以确定客服服务质量越良好。本发明可以设定第一分数阈值，当对话文本的服务质量评价分数超过该分数阈值时，本发明可以确定客服在对话文本中的服务质量合格；当对话文本的服务质量评价分数不超过该分数阈值时，本发明可以确定客服在对话文本中的服务质量不合格。

可以理解的是，本发明可以同样设定第二分数阈值，当通话音频数据的整体服务质量评价分数超过该分数阈值时，本发明可以确定客服在与客户的通话音频数据中的整体服务质量合格；当通话音频数据的整体服务质量评价分数不超过该分数阈值时，本发明可以确定客服在与客户的通话音频数据中的整体服务质量不合格。其中，第一分数阈值与第二分数阈值可以由技术人员根据实际情况制定，本发明对此不做限定。

本实施例提出的话务质检方法，可以用于对客服与客户的通话音频数据进行服务质量评价，有效提高服务质量评价效率，避免质检人员的人力消耗，提高服务质量评价的准确性。

基于图1所示步骤，本实施例提出一种话务质检装置，如图4所示，该装置可以包括：第一获得单元101、第二获得单元102、第三获得单元103、第四获得单元104和第五获得单元105，其中：

第一获得单元101，被配置为执行：获得客户与客服的通话音频数据；

第二获得单元102，被配置为执行：对通话音频数据进行语音识别，获得至少一条对话文本，对话文本包括客户部分文本和客服部分文本；

第三获得单元103，被配置为执行：将一条对话文本输入至训练好的语义向量提取器中，获得语义向量提取器输出的客户文本语义向量和客服文本语义向量；

可选的，语义向量提取器是经序列到序列学习获得的机器学习模型，语义向量提取器的训练样本为人工标注的对话文本。语义向量提取器包括编码网络和解码网络，语义向量提取器在进行训练时，编码网络的输入数据为人工标注的对话文本，编码网络的输出数据为文本语义向量，解码网络的输入数据为编码网络输出的文本语义向量，解码网络的输出数据为对话文本，训练目标为编码网络的输入数据与解码网络的输出数据的交叉熵最小。此时，第三获得单元103，被配置为执行：

将一条对话文本输入至训练好的语义向量提取器中，获得语义向量提取器的编码网络输出的客户文本语义向量和客服文本语义向量。

第四获得单元104，被配置为执行：将客户文本语义向量和客服文本语义向量进行拼接，获得上下文相关语义向量；

第五获得单元105，被配置为执行：将获得的上下文相关语义向量输入至训练好的话务质检模型中，获得话务质检模型输出的一条对话文本的话务质检结果。

可选的，在本实施例提出的其它话务质检装置中，还可以包括：第一确定单元；

第一确定单元，被配置为执行：根据话务质检模型输出的各条对话文本的话务质检结果，确定整体质检结果。

本发明提出的话务质检装置，可以对所有的待检话务工单进行全面质检，有效提高质检效率，避免对质检人员的人力消耗，避免对质检不合格话务工单的遗漏，且在质检过程中，本发明可以避免质检人员的主观质检问题，使用相同的质检方式和质检标准对所有的待检话务工单进行话务质检，有效保证了质检标准的一致性，提高质检准确率。

基于图4所示结构示意图，本实施例还提出另一种话务质检装置。在该装置中，通话音频数据可以为双声道数据，其中，双声道数据可以包括客户声道的音频数据和客服声道的音频数据。第二获得单元102，被配置为执行：

分别对客户声道的音频数据和客服声道的音频数据进行语音识别，将对客户声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客户部分文本，将对客服声道的音频数据进行语音识别所识别出的文本确定为至少一条对话文本中的客服部分文本。

本实施例提出的话务质检装置，使用双声道方式来分别对客户音频数据和客服音频数据进行标识，可以提高语音识别效率，保证对客户音频数据和客服音频数据的识别准确性，从而提高话务质检效率和保证话务质检的准确性。

基于图4所示的结构示意图，本实施例提出另一种话务质检装置，在该装置中，话务质检模型可以为深度回归模型，话务质检结果可以包括服务质量评价分数，话务质检模型的训练样本可以为人工标注服务质量评价分数的上下文相关语义向量。此时，第五获得单元105，被配置为执行：将获得的上下文相关语义向量输入至训练好的话务质检模型中，获得话务质检模型输出的一条对话文本的服务质量评价分数。

本实施例提出的话务质检装置，可以用于对客服与客户的通话音频数据进行服务质量评价，有效提高服务质量评价效率，避免质检人员的人力消耗，提高服务质量评价的准确性。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种话务质检方法，其特征在于，包括：

获得客户与客服的通话音频数据；

使用经文本标注的通话音频数据作为训练样本，通过所述训练样本对语义向量提取器进行训练；所述语义向量提取器包括编码网络和解码网络；当所述语义向量提取器进行训练时，训练目标为所述编码网络的输入数据与所述解码网络的输出数据的交叉熵的最小值；

将一条所述对话文本输入至训练好的语义向量提取器中，获得所述语义向量提取器输出的客户文本语义向量和客服文本语义向量；

其中，所述将所述客户文本语义向量和所述客服文本语义向量进行拼接，获得上下文相关语义向量，包括：将所述客服文本语义向量与相邻的所述客户文本语义向量拼接，得到所述上下文相关语义向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述通话音频数据为双声道数据，其中，所述双声道数据包括客户声道的音频数据和客服声道的音频数据；所述对所述通话音频数据进行语音识别，包括：

所述获得至少一条对话文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述语义向量提取器是经序列到序列学习获得的机器学习模型，所述语义向量提取器的训练样本为人工标注的对话文本；

5.根据权利要求4所述的方法，其特征在于，所述编码网络与所述解码网络的网络结构均为递归神经网络。

6.根据权利要求5所述的方法，其特征在于，所述递归神经网络是单元数为256的循环门控网络，所述客户文本语义向量和所述客服文本语义向量均为256维语义向量。

7.根据权利要求1所述的方法，其特征在于，所述话务质检模型为深度回归模型，所述话务质检结果包括服务质量评价分数，所述话务质检模型的训练样本为人工标注服务质量评价分数的上下文相关语义向量；

8.根据权利要求7所述的方法，其特征在于，所述话务质检模型在训练时，训练目标为所述话务质检模型输出的服务质量评价分数与人工标注的服务质量评价分数的均方差误差最小。

9.一种话务质检装置，其特征在于，包括：第一获得单元、第二获得单元、第三获得单元、第四获得单元和第五获得单元，其中：

所述第一获得单元，还被配置为执行：使用经文本标注的通话音频数据作为训练样本，通过所述训练样本对语义向量提取器进行训练；所述语义向量提取器包括编码网络和解码网络；当所述语义向量提取器进行训练时，训练目标为所述编码网络的输入数据与所述解码网络的输出数据的交叉熵的最小值；

所述第三获得单元，被配置为执行：将一条所述对话文本输入至训练好的语义向量提取器中获得所述语义向量提取器输出的客户文本语义向量和客服文本语义向量；

所述第四获得单元，被配置为执行：将所述客户文本语义向量和所述客服文本语义向量进行拼接，获得上下文相关语义向量；其中，所述将所述客户文本语义向量和所述客服文本语义向量进行拼接，获得上下文相关语义向量，包括：将所述客服文本语义向量与相邻的所述客户文本语义向量拼接，得到所述上下文相关语义向量；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：第一确定单元；