CN114051076A

CN114051076A - 一种客服智能质检方法、装置及存储介质

Info

Publication number: CN114051076A
Application number: CN202111287831.8A
Authority: CN
Inventors: 王国伟; 朱红坤; 贺光华; 李奇隆
Original assignee: Chongqing Chuannan Environmental Protection Technology Co ltd
Current assignee: Chongqing Chuannan Environmental Protection Technology Co ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-15

Abstract

本发明公开了一种客服智能质检方法、装置及存储介质。方法包括：获取客服语音数据；将客服语音数据输入语音关键词检测模型获得语音关键词检测结果，包括：S1,获取客服语音数据的第一声学特征;S2，对第一声学特征进行第一二维卷积、最大池化、第一激活函数处理；S3，将处理结果输入多头注意力机制进行关键词捕获，对关键词进行处理获得语音关键词检测结果；将客服语音数据输入语音情绪检测模型获得语音情绪检测结果，包括：A，构建三通道特征图；B，对特征图进行第二二维卷积、批规范化处理；C，获得语音情绪检测结果。同时进行语音关键词检测和语音情绪检测，实现了多任务并行检测，通过综合两者检测结果提高质检精度。

Description

一种客服智能质检方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种客服智能质检方法、装置及存储介质。

背景技术

客服通话质检任务可以被视为语音情绪识别中的一种，从模型的角度来说是通过分类任务模型对客户表达的内容进行快速分类，同时对客服的服务质量进行等级评定。客服质检可有效快速地检测出用户表达的内容中，是否表达了不满、满意和无情绪三种感受，也可以检测出客服的服务态度，措词等是否规范。

由于庞大的语音数据，传统语音服务质检工作存在人工抽检效率低、准确性较低、全面性较差、语音转写开销大等问题。现阶段出现了许多机器学习、深度学习的方法用于客服语音智能质检。现有技术中客服语音智能质检的准确度交底，并且大多都是单一的基于语音转文本的质检方法，质检精度低，即使对语音数据进行监测，任务之间都是互不相干的进行之间，这样的质检方式往往获取的特征单一，模型的精度受限。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种客服智能质检方法、装置及存储介质。

为了实现本发明的上述目的，根据本发明的第一方面，本发明提供了一种客服智能质检方法，包括：获取客服语音数据；将所述客服语音数据输入语音关键词检测模型获得语音关键词检测结果，和/或，将所述客服语音数据输入语音情绪检测模型获得语音情绪检测结果；所述将所述客服语音数据输入语音关键词检测模型获得语音关键词检测结果，具体包括：步骤S1,获取所述客服语音数据的第一声学特征;步骤S2，对所述第一声学特征进行第一二维卷积处理、最大池化处理、第一激活函数处理；步骤S3，通过第一线性层将步骤S2的处理结果输入多头注意力机制进行关键词捕获，通过第二线性层对捕获的关键词进行处理获得语音关键词检测结果；所述将所述客服语音数据输入语音情绪检测模型获得语音情绪检测结果，具体包括：步骤A，获取所述客服语音数据的第二声学特征、所述第二声学特征的一阶差分、所述第二声学特征的二阶差分，构建三个通道分别为第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分的特征图；步骤B，对所述特征图进行第二二维卷积处理、批规范化处理；步骤C，通过第三线性层对步骤B的处理结果进行处理获得语音情绪检测结果。

上述技术方案：直接对客服的语音数据进行监测，能够很好的捕获的客服的情急情绪，不需要转换为文本，避免了引入转换误差，提高了客服质量检测精度。语音关键词检测模型在进行语音关键词检测过程中，通过多头注意力机制能够捕获全局的语音信息表达让模型更加注意关键词的特征，进而提高语音关键词的检测精度。语音情绪检测模型在进行语音情绪检测过程中，对第二声学特征进行维度扩展，扩展出第二声学特征的一阶差分、第二声学特征的二阶差分，将一维的第二声学特征转换为三通道的特征图，这样利用特征图来进行后续处理，能够获得更好的声学特征，使得情绪检测结果更准确。上述方案还公开了同时进行语音关键词检测和语音情绪检测，两者同时检测，实现了多任务并行检测，通过综合两者检测结果能够提高质检精度。

在本发明一种优选实施方式中，当将所述客服语音数据输入语音关键词检测模型获得语音关键词检测结果的步骤和将所述客服语音数据输入语音情绪检测模型获得语音情绪检测结果的步骤同时存在时，将步骤S3替换为：将所述步骤S2的处理结果输入双向长短期记忆网络单元进行语义捕获；将步骤C替换为：将步骤B的处理结果和步骤S3中双向长短期记忆网络单元捕获的语义进行融合获得第一融合特征，将第一融合特征通过第三线性层处理后获得语音情绪检测结果；在步骤S3之后还包括步骤S4，所述步骤S4为：将多头注意力机制捕获的关键词与第一融合特征进行融合获得第二融合特征，将第二融合特征通过第二线性层处理后获得语音关键词检测结果。

上述技术方案：语音关键词检测和语音情绪检测两者交叉，两个并行的检测步骤中能够共享部分数据，对应的模型能够共享部分权重，能够进一步地提升质检精度。

为了实现本发明的上述目的，根据本发明的第二方面，本发明提供了一种客服智能质检装置，包括客服语音数据获取模块，以及语音质检模型模块，所述语音质检模型模块包括语音关键词检测模型模块和/或语音情绪检测模型模块；所述语音关键词检测模型模块包括依次连接的第一声学特征获取单元、第一二维卷积模块、第一线性层、多头注意力机制单元和第二线性层；所述第一声学特征获取单元获取所述客服语音数据的第一声学特征，所述第一二维卷积模块对所述第一声学特征进行第一二维卷积处理、最大池化处理、激活函数处理，通过第一线性层将第一二维卷积模块的处理结果输入多头注意力机制单元进行关键词捕获，第二线性层对捕获的关键词进行处理获得语音关键词检测结果；所述语音情绪检测模型模块包括依次连接的第二声学特征获取单元、第二二维卷积模块和第三线性层；第二声学特征获取单元获取所述客服语音数据的第二声学特征、所述第二声学特征的一阶差分、所述第二声学特征的二阶差分，并构建三个通道分别为第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分的特征图；第二二维卷积模块对所述特征图进行第二二维卷积处理、批规范化处理，第二二维卷积模块的输出结果通过第三线性层处理后获得语音情绪检测结果。

上述技术方案：该装置直接对客服的语音数据进行监测，能够很好的捕获的客服的情急情绪，不需要转换为文本，避免了引入转换误差，提高了客服质量检测精度。语音关键词检测模型在进行语音关键词检测过程中，通过多头注意力机制能够捕获全局的语音信息表达让模型更加注意关键词的特征，进而提高语音关键词的检测精度。语音情绪检测模型在进行语音情绪检测过程中，对第二声学特征进行维度扩展，扩展出第二声学特征的一阶差分、第二声学特征的二阶差分，将一维的第二声学特征转换为三通道的特征图，这样利用特征图来进行后续处理，能够获得更好的声学特征，使得情绪检测结果更准确。上述方案还公开了同时进行语音关键词检测和语音情绪检测，两者同时检测，实现了多任务并行检测，通过综合两者检测结果能够提高质检精度。

在本发明一种优选实施方式中，所述语音质检模型模块还包括用于训练的CTC损失计算模块、第一损失计算模块、第二损失计算模块和参数调整模块；语音质检模型的训练过程包括：获取语音训练样本，为语音训练样本设置关键词标签和情绪标签，所述关键词标签包括必用语标签、禁用语标签、礼貌用语标签，所述服务必用语标签、禁用语标签、礼貌用语标签和情绪标签均有两种取值，两种取值分别代表异常和正常；并行地对语音关键词检测模型和语音情绪检测模型进行训练；在训练过程中，CTC损失计算模块用于计算第一线性层输出的音素序列与预先从语音训练样本中提取的音素序列之间的误差，第一损失计算模块用于计算第二线性层输出的语音关键词检测结果与关键词标签之间的误差，第二损失计算模块用于计算第三线性层输出的语音情绪检测结果与情绪标签之间的误差，所述参数调整模块根据CTC损失计算模块、第一损失计算模块和第二损失计算模块的输出结果调整第一二维卷积模块、第二二维卷积模块、双向长短期记忆网络单元、多头注意力机制单元中至少一者的模型参数。

上述技术方案：实现了语音关键词检测模型和语音情绪检测模型并行的多任务联合训练，能够同时捕获声学和时序上的特征表达，使得模型之间可共享部分权重，使得模型能够学习到一些单个模型无法学习到的特征信息，能够适应多种应用场景，避免多种方言导致单文本质检的较大误差，将基于CTC与注意力机制的残差记忆网络用于语音质检的模型，可以使现阶段的模型精度提升一个台阶，进一步提高检测精度。

为了实现本发明的上述目的，根据本发明的第三方面，本发明提供了一种客服智能质检方法，包括步骤一，以及步骤二和/或步骤三；步骤一，获取客户语音数据和客服语音数据，将所述客户语音数据转成客户文本数据，将所述客服语音数据转成客服文本数据；步骤二，基于深度学习获取所述客户文本数据的情绪分类结果，记为客户情绪分类结果，并行地，提取所述客服文本数据的情绪分类结果，记为客服情绪分类结果；融合客户情绪分类结果和客服情绪分类结果，将融合后的结果通过第四线性层和第二激活函数处理后获得文本情绪检测结果；步骤三，对所述客户文本数据进行关键词检测获得客户关键词检测结果，对所述客服文本数据进行关键词检测获得客服关键词检测结果，融合客户关键词检测结果和客服关键词检测结果获得文本关键词检测结果。

上述技术方案：公开了一种基于文本的客服质检方法，该质检方法采用多任务模式并行对客户文本和客服文本进行情绪和/或关键词进行检测，并且最终输出的文本情绪检测结果融合了客户情绪分类结果和客服情绪分类结果，最终输出的文本关键词检测结果融合了客户关键词分类结果和客服关键词分类结果，这样有助于提高客户质检精度，同时可以综合文本情绪检测结果和文本关键词检测结果，这样能够进一步提高质检精度。

在本发明一种优选实施方式中，在步骤一中，获取客户语音数据和客服语音数据的过程包括：获取原始音频数据，从原始音频数据中分离出客户音频数据和客服音频数据；分别对客户音频数据和客服音频数据进行格式转换和采样率转换获得客户语音数据和客服语音数据。

上述技术方案：实现了对单轨（单通道）原始音频数据中的客户和客服的音频数据分离，由于单轨方式的音频数据需要的存储空间更小，这样能够节省大量的存储资源。

为了实现本发明的上述目的，根据本发明的第四方面，本发明提供了一种客服智能质检装置，包括：数据获取模块，用于获取客户语音数据和客服语音数据；文本转换模块，将所述客户语音数据转成客户文本数据，将所述客服语音数据转成客服文本数据；文本情绪检测模块和/或文本关键词检测模块；所述文本情绪检测模块执行：基于深度学习获取所述客户文本数据的情绪分类结果，记为客户情绪分类结果，并行地，提取所述客服文本数据的情绪分类结果，记为客服情绪分类结果；融合客户情绪分类结果和客服情绪分类结果，将融合后的结果通过第四线性层和第二激活函数处理后获得文本情绪检测结果；所述文本关键词检测模块执行：对所述客户文本数据进行关键词检测获得客户关键词检测结果，对所述客服文本数据进行关键词检测获得客服关键词检测结果，融合客户关键词检测结果和客服关键词检测结果获得文本关键词检测结果。

上述技术方案：公开了一种基于文本的客服质检装置，该装置采用多任务模式并行对客户文本和客服文本进行情绪和/或关键词进行检测，并且最终输出的文本情绪检测结果融合了客户情绪分类结果和客服情绪分类结果，最终输出的文本关键词检测结果融合了客户关键词分类结果和客服关键词分类结果，这样有助于提高客户质检精度，同时可以综合文本情绪检测结果和文本关键词检测结果，这样能够进一步提高质检精度。

为了实现本发明的上述目的，根据本发明的第五方面，本发明提供了一种客服智能质检方法，包括：获取客服语音数据，并按照本发明第一方面所述的客服智能质检方法获取语音关键词检测结果和语音情绪检测结果；获取客服语音数据和客户语音数据，并按照本发明第三方面所述的客服智能质检方法获取文本关键词检测结果和文本情绪检测结果；对语音关键词检测结果和文本关键词检测结果进行融合获得最终关键词检测结果，对语音情绪检测结果和文本情绪检测结果进行融合获得最终情绪检测结果。

上述技术方案：该质检方法，能够同时进行语音检测和文本检测，最终输出的检测结果为两者的融合值，结合了语音和文本两种模态数据进行全方面的综合质检，不仅能够很好的捕获情绪上的特征也能捕获语义上的特征，还具有很强的鲁棒性，足以克服训练过程中出现的各种噪声数据和突发情况准确率更高。

为了实现本发明的上述目的，根据本发明的第六方面，本发明提供了一种计算机可读的存储介质，存储有计算机程序，所述计算机程序被执行时，执行本发明第一方面所述的客服智能质检方法，或者执行本发明第三方面所述的客服智能质检方法，或者执行本发明第五方面所述的客服智能质检方法。

上述技术方案：该存储介质存储的计算程序执行时，能够同时进行语音检测和文本检测，最终输出的检测结果为两者的融合值，结合了语音和文本两种模态数据进行全方面的综合质检，不仅能够很好的捕获情绪上的特征也能捕获语义上的特征，还具有很强的鲁棒性，足以克服训练过程中出现的各种噪声数据和突发情况准确率更高。

附图说明

图1是本发明提供的第一种客服智能质检装置在一具体实施方式中的执行示意图；

图2是本发明提供的第二种客服智能质检装置在一具体实施方式中的执行示意图；

图3是本发明提供的第七种客服智能质检方法在一具体实施方式中的流程示意图；

图4是在一具体实施方式中步骤702中融合过程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“ 下 ”、“ 前 ”、“ 后 ”、“ 左 ”、“ 右 ”、“ 竖直”、“ 水平 ”、“顶 ”、“底 ”“ 内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明公开了第一种客服智能质检方法，在一种优选实施方式中，该客户智能质检方法包括：

步骤100，获取客服语音数据；

步骤101，将客服语音数据输入语音关键词检测模型获得语音关键词检测结果，具体包括：

步骤S1,获取客服语音数据的第一声学特征;第一声学特征优选但不限于为梅尔频谱特征或梅尔频谱特征取对数的结果。具体的，在原始音频数据中以每25ms组成帧长，以滑动窗口般每次移动10ms，获取80维的第一声学特征（可为梅尔频谱特征取对数，即logfilter bank特征）。

步骤S2，对第一声学特征进行第一二维卷积处理、最大池化处理、第一激活函数处理；优选的，包括8次微微卷积，每次卷积运算后面接上0.05到0.2的dropout（神经网络的丢弃率），优选的，为0.1的dropout，这样以便能够简单有效的防止过拟合。优选的，每两个卷积运算后进行一次最大池化处理。第一激活函数优选但不限于为RELU激活函数。

步骤S3，通过第一线性层将步骤S2的处理结果输入多头注意力机制（MultiHead-Attention）进行关键词捕获，通过第二线性层对捕获的关键词进行处理获得语音关键词检测结果。第二线性层根据获得的关键词映射出关键词标签并输出，关键词标签包括必用语标签、禁用语标签、礼貌用语标签三者中至少一个，服务必用语标签、禁用语标签、礼貌用语标签均有两种取值，两种取值分别代表异常和正常。

在本实施方式中，优选的，客服语音数据的获取过程为：从硬件存储介质中直接拿到数据，包括各个场景客服接听电话的原始8k采样率的音频数据；拿到数据后，对数据进行相应的数据处理:第一步是对单双轨语音的分离，由于质检数据在某些场景下是单声道(下称单轨)的音频数据，也就是客服和客户是在同一个声道，这样的语音数据不能直接通过代码去分离，只能通过机器学习或者深度学习的方法分离出客服音频数据；对获取的音频数据的格式及采样率进行转换，因为电话语音通常是8k，并且数据的格式已经被压缩成为mp3，这里编写基于librosa库的代码进行格式转换为wav格式，进一步的，将wav格式数据上采样到16k，再基于VAD(voice activity detection)的进行静音段切除、部分噪声去除。

本发明公开了第二种客服智能质检方法，在一种优选实施方式中，该客户智能质检方法包括：

步骤200，获取客服语音数据；

步骤201，将客服语音数据输入语音情绪检测模型获得语音情绪检测结果，具体包括：

步骤A，获取客服语音数据的第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分，构建三维的特征图，特征图的三个通道分别为第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分，这样进行了维度扩展，能够更好的捕捉到声学特征。第二声学特征优选但不限于为梅尔倒谱系数。

步骤B，对特征图进行第二二维卷积处理、批规范化处理；优选的，包括多个依次连接的二维卷积，在每个二维卷积后加上一个批规范化层（BatchNormal）。

步骤C，通过第三线性层对步骤B的处理结果进行处理获得语音情绪检测结果。第三线性层将步骤B的处理结果映射到对应的情绪标签并输出，情绪标签有两种取值，两种取值分别代表异常和正常。

本发明公开了第三种客服智能质检方法，在一种优选实施方式中，该客户智能质检方法包括：

步骤300，获取客服语音数据；

步骤301，将客服语音数据输入语音关键词检测模型获得语音关键词检测结果，具体包括：

步骤S1,获取客服语音数据的第一声学特征;

步骤S2，对第一声学特征进行第一二维卷积处理、最大池化处理、第一激活函数处理；

步骤S3，通过第一线性层将步骤S2的处理结果输入多头注意力机制进行关键词捕获，通过第二线性层对捕获的关键词进行处理获得语音关键词检测结果。

步骤302，将客服语音数据输入语音情绪检测模型获得语音情绪检测结果，具体包括：

步骤A，获取客服语音数据的第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分，构建三个通道分别为第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分的特征图；

步骤B，对特征图进行第二二维卷积处理、批规范化处理；

步骤C，通过第三线性层对步骤B的处理结果进行处理获得语音情绪检测结果。

在本实施方式中，步骤301和步骤302可并行执行。

在本实施方式的一种应用场景中，优选的，可将语音情感检测结果和语音关键词检测结果融合后作为最终客服质检评分，优选的，融合方式可采用平均值融合，或者加权平均融合。

在本发明的一种优选实施方式中，在公开的第三种客服智能质检方法中：将步骤S3替换为：将步骤S2的处理结果输入双向长短期记忆网络单元（BiLSTM）进行语义捕获；

将步骤C替换为：将步骤B的处理结果和步骤S3中双向长短期记忆网络单元捕获的语义进行融合获得第一融合特征，将第一融合特征通过第三线性层处理后获得语音情绪检测结果；融合的方式优选但不限于为在指定维度数值相加，如，将步骤B的处理结果和双向长短期记忆网络单元捕获的语义均为二维向量，那么融合的过程可为在第二维数值相加。

在步骤S3之后还包括步骤S4，步骤S4为：将多头注意力机制捕获的关键词与第一融合特征进行融合获得第二融合特征，将第二融合特征通过第二线性层处理后获得语音关键词检测结果。融合的方式可参照步骤C中的融合方式，在此不再赘述。

本发明提供第一种客服智能质检装置，在一种优选实施方式中，如图1所示，该客户智能质检装置包括客服语音数据获取模块，以及语音质检模型模块，语音质检模型模块包括语音关键词检测模型模块和/或语音情绪检测模型模块；具体的，语音质检模型模块包括语音关键词检测模型模块，或者语音质检模型模块包括语音情绪检测模型模块，或者语音质检模型模块包括语音情绪检测模型模块和语音关键词检测模型模块。

在本实施方式中，语音关键词检测模型模块包括依次连接的第一声学特征获取单元、第一二维卷积模块、第一线性层、多头注意力机制单元和第二线性层；第一声学特征获取单元获取客服语音数据的第一声学特征，第一二维卷积模块对第一声学特征进行第一二维卷积处理、最大池化处理、激活函数处理，通过第一线性层将第一二维卷积模块的处理结果输入多头注意力机制单元进行关键词捕获，第二线性层对捕获的关键词进行处理获得语音关键词检测结果。优选的，第一二维卷积模块总共包括M个二维卷积，M为正整数，优选为8，二维卷积的卷积核大小为30，并且每个二维卷积后面接上0.1的dropout，再经过relu激活函数，每两个卷积后面接上核大小为2的最大池化层。

在本实施方式中，语音情绪检测模型模块包括依次连接的第二声学特征获取单元、第二二维卷积模块和第三线性层；第二声学特征获取单元获取客服语音数据的第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分，并构建三个通道分别为第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分的特征图；第二二维卷积模块对特征图进行第二二维卷积处理、批规范化处理，第二二维卷积模块的输出结果通过第三线性层处理后获得语音情绪检测结果。优选的，第二二维卷积模块是基于VGG16修改得来，具体的，删除了VGG16最后一层，并且在每一层后面加上了批规范化层BatchNormal。

在一种优选实施方式中，语音关键词检测模型模块和语音情绪检测模型模块两者对客服语音数据进行并行处理；

语音关键词检测模型模块还包括双向长短期记忆网络单元、第二融合单元，双向长短期记忆网络单元对第一二维卷积模块的输出结果进行语义捕获；

语音情绪检测模型模块还包括第一融合单元，第一融合单元将双向长短期记忆网络单元输出的语义与第二二维卷积模块的输出结果进行融合并将融合结果输出至第三线性层；

第二融合单元对第一融合单元的输出结果与多头注意力机制单元的输出结果进行融合并将融合结果输入至第二线性层。

在一种优选实施方式中，语音质检模型模块还包括用于训练的CTC损失计算模块(connectionist temporal classification, 基于神经网络的时序类分类,简称CTC)、第一损失计算模块、第二损失计算模块和参数调整模块。这里CTC的作用是强制与预先从语音训练样本中提取的音素序列对齐，使得我们的音频特征更贴近文字序列，而多头注意力机制是为了捕获全局的语音信息表达，让模型更加注意关键词的特征。

在本实施方式中，语音质检模型的训练过程包括：

步骤Ⅰ,获取语音训练样本，为语音训练样本设置关键词标签和情绪标签，关键词标签包括必用语标签、禁用语标签、礼貌用语标签，服务必用语标签、禁用语标签、礼貌用语标签和情绪标签均有两种取值，两种取值分别代表异常和正常；由于人工的标注数据有限，故利用了市面上公开的普通话数据集融合实际场景的语音数据进行训练，最后达到了可以在工业上使用的字错误率。

步骤Ⅱ,并行地对语音关键词检测模型和语音情绪检测模型进行训练；在训练过程中，CTC损失计算模块用于计算第一线性层输出的音素序列与预先从语音训练样本中提取的音素序列之间的误差，可记为CTCLoss，第一损失计算模块用于计算第二线性层输出的语音关键词检测结果与关键词标签之间的误差，第二损失计算模块用于计算第三线性层输出的语音情绪检测结果与情绪标签之间的误差，参数调整模块根据CTC损失计算模块、第一损失计算模块和第二损失计算模块的输出结果调整第一二维卷积模块、第二二维卷积模块、双向长短期记忆网络单元、多头注意力机制单元中至少一者的模型参数。模型参数优选但不限于包括线性层的Linear.weight、bias 等参数，二维卷积模块的tensor等。

在本实施方式中，由于现有技术都是单一的基于语音转文本的质检方法，并且任务之间都是互不相干的进行质检，这样的质检方式往往获取的特征单一，模型的精度受限。本发明提出的基于语音的多任务联合训练方式，能够同时捕获声学和时序上的特征表达，模型之间共享权重，可以使现阶段的模型精度提升一个台阶。

在本实施方式中，优选的，第一损失计算模块和第二损失计算模块均为计算交叉熵损失，计算的损失结果可分别记为CELoss1和CELoss2。优选的，参数调整模块将将CTCLoss和CELoss1、CELoss2相加当做最后的损失函数值LOSS进行反向传播调节模型参数。LOSS= CTCLoss+CELoss1+ CELoss2。

在本实施方式中，优选的，还包括模型迭代更新步骤，在模型迭代更新阶段，迭代更新需要配合人工的复检，也就是在生成质检报告后，先由人工复检去绩效数据库和录音数据库中检查模型是否评分合理，如果不合理，则进行相应修改并反馈给模型，让模型基于评判错误的数据带上正确的标签再进行训练，不断的迭代优化模型参数，提升模型精度。

本发明公开了第四种客服智能质检方法，在一种优选实施方式中，该客户智能质检方法包括：

步骤400，获取客户语音数据和客服语音数据，将客户语音数据转成客户文本数据，将客服语音数据转成客服文本数据；优选的，语音转文本采用Conformer模型。

步骤401，基于深度学习获取客户文本数据的情绪分类结果，记为客户情绪分类结果，并行地，提取客服文本数据的情绪分类结果，记为客服情绪分类结果；融合客户情绪分类结果和客服情绪分类结果，将融合后的结果通过第四线性层和第二激活函数处理后获得文本情绪检测结果。深度学习优选但不限于采用现有的BERT情感分类模型。可配置两个BERT情感分类模型，一个用于获取客户文本数据的情绪分类结果，另一个用于提取客服文本数据的情绪分类结果。

在本实施方式中，优选的，步骤400中，获取客户语音数据和客服语音数据的过程包括：

步骤4001，获取原始音频数据，从原始音频数据中分离出客户音频数据和客服音频数据；优选的，使用了全卷积时域音频分离网络（Conv-TasNet）模型进行客户和客服的语音数据分离，利用了部分双声道的数据作为训练样本，在模型训练完毕后，就可以利用训练后的全卷积时域音频分离网络（Conv-TasNet）模型来分离单轨的语音，只需要保存单轨的数据，从而节省了大量的存储资源。

步骤4001，分别对客户音频数据和客服音频数据进行格式转换和采样率转换获得客户语音数据和客服语音数据。

本发明公开了第五种客服智能质检方法，在一种优选实施方式中，该客户智能质检方法包括：

步骤500，获取客户语音数据和客服语音数据，将客户语音数据转成客户文本数据，将客服语音数据转成客服文本数据；

步骤501，对客户文本数据进行关键词检测获得客户关键词检测结果，对客服文本数据进行关键词检测获得客服关键词检测结果，融合客户关键词检测结果和客服关键词检测结果获得文本关键词检测结果。基于文本的关键词检测方法优选但不限于采用现有的音型码匹配算法，在此不再赘述。

本发明公开了第六种客服智能质检方法，在一种优选实施方式中，该客户智能质检方法包括：

步骤600，获取客户语音数据和客服语音数据，将客户语音数据转成客户文本数据，将客服语音数据转成客服文本数据；

步骤601，基于深度学习获取客户文本数据的情绪分类结果，记为客户情绪分类结果，并行地，提取客服文本数据的情绪分类结果，记为客服情绪分类结果；融合客户情绪分类结果和客服情绪分类结果，将融合后的结果通过第四线性层和第二激活函数处理后获得文本情绪检测结果；优选的，融合方式可采用平均值融合，或者加权平均融合，加权平均融合中客户的权值较低，这样能够更准确评估客服质量。

步骤602，对客户文本数据进行关键词检测获得客户关键词检测结果，对客服文本数据进行关键词检测获得客服关键词检测结果，融合客户关键词检测结果和客服关键词检测结果获得文本关键词检测结果。优选的，融合方式可采用平均值融合，或者加权平均融合，加权平均融合中客户的权值较低，这样能够更准确评估客服质量。

本发明公开了第二种客服智能质检装置，在一种优选实施方式中，如图2所示，该装置包括：

数据获取模块，用于获取客户语音数据和客服语音数据；

文本转换模块，将客户语音数据转成客户文本数据，将客服语音数据转成客服文本数据；

文本情绪检测模块和/或文本关键词检测模块；

文本情绪检测模块执行：基于深度学习获取客户文本数据的情绪分类结果，记为客户情绪分类结果，并行地，提取客服文本数据的情绪分类结果，记为客服情绪分类结果；融合客户情绪分类结果和客服情绪分类结果，将融合后的结果通过第四线性层和第二激活函数处理后获得文本情绪检测结果；

文本关键词检测模块执行：对客户文本数据进行关键词检测获得客户关键词检测结果，对客服文本数据进行关键词检测获得客服关键词检测结果，融合客户关键词检测结果和客服关键词检测结果获得文本关键词检测结果。

本发明公开了第七种客服智能质检方法，在一种优选实施方式中，如图3所示，该客户智能质检方法包括：

步骤700，获取客服语音数据，并按照本发明提供的第三种客服智能质检方法获取语音关键词检测结果和语音情绪检测结果；

步骤701，获取客服语音数据和客户语音数据，并按照本发明第六种客服智能质检方法获取文本关键词检测结果和文本情绪检测结果；

步骤702，对语音关键词检测结果和文本关键词检测结果进行融合获得最终关键词检测结果，对语音情绪检测结果和文本情绪检测结果进行融合获得最终情绪检测结果。优选的，还包括质检报告生成步骤。

在本实施方式中，优选的，具体融合过程如图4所示，语音关键词检测结果和文本关键词检测结果进行加权平均，语音情绪检测结果和文本情绪检测结果进行加权平均，根据两个加权平均得分生成质检报告。质检报告生成步骤中，在线或离线质检阶段配合了前后端的开发，制作相应的web端应用并提供了批量质检的编程接口供后续调用。在质检过程中可以实时的生成报告反馈到指定ID的邮箱或者钉钉，同时将质检的各类评分和对应客服id录入绩效数据库用于考核。

对于基于文本的质检技术而言，现阶段的技术在语音转文本后通常只有语义上的表示从而丢失了声学上的特征表达，不能很好的捕获到客服和坐席的实际情绪，故本发明在最后客服评分阶段综合了语音和文本同时质检的方法，不仅能够很好的捕获情绪上的特征也能捕获语义上的特征，还具有很强的鲁棒性，足以克服训练过程中出现的各种噪声数据和突发情况。

本发明结合了语音和文本两种模态数据进行全方面的综合质检，使得模型的鲁棒性更强，准确率更高。就精度而言，采用了两种任务联合训练的方法，对于不同的场景选用不同的特征表示，并且模型之间共享部分权重，使得模型能够学习到一些单个模型无法学习到的特征信息，能够使用多种应用场景，避免多种方言导致单文本质检的较大误差。就模型方法而言，本发明的质检模型具有很强的创新性，就基线模型比较，达到了近20%的准确率提升。

本发明还公开了一种计算机可读的存储介质，存储有计算机程序，在一种优选实施方式中，该计算机程序被执行时，执行本发明第一、二、三种客服智能质检方法，或者执行本发明第四、五、六种客服智能质检方法，或者本发明第七种客服智能质检方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种客服智能质检方法，其特征在于，包括：

获取客服语音数据；

将所述客服语音数据输入语音关键词检测模型获得语音关键词检测结果，和/或，将所述客服语音数据输入语音情绪检测模型获得语音情绪检测结果；

所述将所述客服语音数据输入语音关键词检测模型获得语音关键词检测结果，具体包括：

步骤S1,获取所述客服语音数据的第一声学特征;

步骤S2，对所述第一声学特征进行第一二维卷积处理、最大池化处理、第一激活函数处理；

步骤S3，通过第一线性层将步骤S2的处理结果输入多头注意力机制进行关键词捕获，通过第二线性层对捕获的关键词进行处理获得语音关键词检测结果；

所述将所述客服语音数据输入语音情绪检测模型获得语音情绪检测结果，具体包括：

步骤A，获取所述客服语音数据的第二声学特征、所述第二声学特征的一阶差分、所述第二声学特征的二阶差分，构建三个通道分别为第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分的特征图；

步骤B，对所述特征图进行第二二维卷积处理、批规范化处理；

2.如权利要求1所述的客服智能质检方法，其特征在于，当将所述客服语音数据输入语音关键词检测模型获得语音关键词检测结果的步骤和将所述客服语音数据输入语音情绪检测模型获得语音情绪检测结果的步骤同时存在时，将步骤S3替换为：

将所述步骤S2的处理结果输入双向长短期记忆网络单元进行语义捕获；将步骤C替换为：

将步骤B的处理结果和步骤S3中双向长短期记忆网络单元捕获的语义进行融合获得第一融合特征，将第一融合特征通过第三线性层处理后获得语音情绪检测结果；

在步骤S3之后还包括步骤S4，所述步骤S4为：将多头注意力机制捕获的关键词与第一融合特征进行融合获得第二融合特征，将第二融合特征通过第二线性层处理后获得语音关键词检测结果。

3.一种客服智能质检装置，其特征在于，包括客服语音数据获取模块，以及语音质检模型模块，所述语音质检模型模块包括语音关键词检测模型模块和/或语音情绪检测模型模块；

所述语音关键词检测模型模块包括依次连接的第一声学特征获取单元、第一二维卷积模块、第一线性层、多头注意力机制单元和第二线性层；所述第一声学特征获取单元获取所述客服语音数据的第一声学特征，所述第一二维卷积模块对所述第一声学特征进行第一二维卷积处理、最大池化处理、激活函数处理，通过第一线性层将第一二维卷积模块的处理结果输入多头注意力机制单元进行关键词捕获，第二线性层对捕获的关键词进行处理获得语音关键词检测结果；

所述语音情绪检测模型模块包括依次连接的第二声学特征获取单元、第二二维卷积模块和第三线性层；第二声学特征获取单元获取所述客服语音数据的第二声学特征、所述第二声学特征的一阶差分、所述第二声学特征的二阶差分，并构建三个通道分别为第二声学特征、第二声学特征的一阶差分、第二声学特征的二阶差分的特征图；第二二维卷积模块对所述特征图进行第二二维卷积处理、批规范化处理，第二二维卷积模块的输出结果通过第三线性层处理后获得语音情绪检测结果。

4.如权利要求3所述的客服智能质检装置，其特征在于，所述语音关键词检测模型模块和语音情绪检测模型模块两者对客服语音数据进行并行处理；

所述语音关键词检测模型模块还包括双向长短期记忆网络单元、第二融合单元，所述双向长短期记忆网络单元对第一二维卷积模块的输出结果进行语义捕获；

所述语音情绪检测模型模块还包括第一融合单元，所述第一融合单元将双向长短期记忆网络单元输出的语义与第二二维卷积模块的输出结果进行融合并将融合结果输出至第三线性层；

所述第二融合单元对第一融合单元的输出结果与多头注意力机制单元的输出结果进行融合并将融合结果输入至第二线性层。

5.如权利要求4所述的客服智能质检装置，其特征在于，所述语音质检模型模块还包括用于训练的CTC损失计算模块、第一损失计算模块、第二损失计算模块和参数调整模块；

语音质检模型的训练过程包括：

获取语音训练样本，为语音训练样本设置关键词标签和情绪标签，所述关键词标签包括必用语标签、禁用语标签、礼貌用语标签，所述服务必用语标签、禁用语标签、礼貌用语标签和情绪标签均有两种取值，两种取值分别代表异常和正常；

并行地对语音关键词检测模型和语音情绪检测模型进行训练；

在训练过程中，CTC损失计算模块用于计算第一线性层输出的音素序列与预先从语音训练样本中提取的音素序列之间的误差，第一损失计算模块用于计算第二线性层输出的语音关键词检测结果与关键词标签之间的误差，第二损失计算模块用于计算第三线性层输出的语音情绪检测结果与情绪标签之间的误差，所述参数调整模块根据CTC损失计算模块、第一损失计算模块和第二损失计算模块的输出结果调整第一二维卷积模块、第二二维卷积模块、双向长短期记忆网络单元、多头注意力机制单元中至少一者的模型参数。

6.一种客服智能质检方法，其特征在于，包括步骤一，以及步骤二和/或步骤三；

步骤一，获取客户语音数据和客服语音数据，将所述客户语音数据转成客户文本数据，将所述客服语音数据转成客服文本数据；

步骤二，基于深度学习获取所述客户文本数据的情绪分类结果，记为客户情绪分类结果，并行地，提取所述客服文本数据的情绪分类结果，记为客服情绪分类结果；融合客户情绪分类结果和客服情绪分类结果，将融合后的结果通过第四线性层和第二激活函数处理后获得文本情绪检测结果；

步骤三，对所述客户文本数据进行关键词检测获得客户关键词检测结果，对所述客服文本数据进行关键词检测获得客服关键词检测结果，融合客户关键词检测结果和客服关键词检测结果获得文本关键词检测结果。

7.如权利要求6所述的客服智能质检方法，其特征在于，在步骤一中，获取客户语音数据和客服语音数据的过程包括：

获取原始音频数据，从原始音频数据中分离出客户音频数据和客服音频数据；

分别对客户音频数据和客服音频数据进行格式转换和采样率转换获得客户语音数据和客服语音数据。

8.一种客服智能质检装置，其特征在于，包括：

数据获取模块，用于获取客户语音数据和客服语音数据；

文本转换模块，将所述客户语音数据转成客户文本数据，将所述客服语音数据转成客服文本数据；

文本情绪检测模块和/或文本关键词检测模块；

所述文本情绪检测模块执行：基于深度学习获取所述客户文本数据的情绪分类结果，记为客户情绪分类结果，并行地，提取所述客服文本数据的情绪分类结果，记为客服情绪分类结果；融合客户情绪分类结果和客服情绪分类结果，将融合后的结果通过第四线性层和第二激活函数处理后获得文本情绪检测结果；

所述文本关键词检测模块执行：对所述客户文本数据进行关键词检测获得客户关键词检测结果，对所述客服文本数据进行关键词检测获得客服关键词检测结果，融合客户关键词检测结果和客服关键词检测结果获得文本关键词检测结果。

9.一种客服智能质检方法，其特征在于，包括：

获取客服语音数据，并按照权利要求1或2所述的客服智能质检方法获取语音关键词检测结果和语音情绪检测结果；

获取客服语音数据和客户语音数据，并按照权利要求6或7所述的客服智能质检方法获取文本关键词检测结果和文本情绪检测结果；

对语音关键词检测结果和文本关键词检测结果进行融合获得最终关键词检测结果，对语音情绪检测结果和文本情绪检测结果进行融合获得最终情绪检测结果。

10.一种计算机可读的存储介质，存储有计算机程序，其特征在于，所述计算机程序被执行时，执行权利要求1或2所述的客服智能质检方法，或者执行权利要求6或7所述的客服智能质检方法，或者执行权利要求9所述的客服智能质检方法。