CN114974311A

CN114974311A - 一种语音质检方法、装置、电子设备

Info

Publication number: CN114974311A
Application number: CN202210706610.8A
Authority: CN
Inventors: 苏立伟; 陈海燕; 覃浩; 康峰; 叶慧萍; 刘振华; 梁瑞莹; 谭火超
Original assignee: Guangdong Power Grid Co Ltd; Customer Service Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Customer Service Center of Guangdong Power Grid Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-08-30

Abstract

本申请实施例提供一种语音质检方法、装置、电子设备，其中，方法包括：获取多个呼叫语音通话；基于所述呼叫语音通话获取所述呼叫语音通话中的客户语音；根据所述客户语音确定所述客户的情绪变化得分；基于所述客户的情绪变化得分、确定所述呼叫语音通话的质量。通过对客户的情绪变化得分进行检测，能够在投诉情景下确定客服人员是否对投诉人员进行了有效地安抚，是否解决了用户的需求。

Description

一种语音质检方法、装置、电子设备

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种语音质检方法、装置、电子设备。

背景技术

传统的人工客服语音质检通过设置统一的抽检率，根据抽检率对每个客服人员的通话录音随机进行抽查，以确定客服人员的通话质量。但是，目前的语音质检方法不适用于投诉目的。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音质检方法、装置、电子设备，能够适用于投诉场景。

第一方面，本申请实施例提供了一种语音质检方法，包括：

获取呼叫语音通话；

获取所述呼叫语音通话中的客户语音；

根据所述客户语音确定客户的情绪变化得分；

基于所述客户的情绪变化得分确定所述呼叫语音通话的质量。

在上述实现过程中，考虑到在投诉场景下，现有技术中直接对整段语音进行情绪识别的方法并不适用，容易出现两种极端的情况，情绪得分过高或者情绪得分过低，从而质检准确率不高，本申请实施例提出根据客户语音确定用户的情绪变化得分，基于所述客户的情绪变化得分，确定呼叫语音通话的质量。通过对客户的情绪变化得分进行检测，能够在投诉情景下确定客服人员是否对投诉人员进行了有效地安抚，是否解决了用户的需求。

进一步地，在所述获取多个呼叫语音通话的步骤之前，还包括：

存储多个呼叫语音通话；

识别所述多个呼叫语音通话的投诉目的；

基于多个所述投诉目的对所述多个呼叫语音通话进行分类；

所述基于所述客户的情绪变化得分确定所述呼叫语音通话的质量的步骤，包括：

基于所述客户的情绪变化得分确定不同投诉目的对应的所述呼叫语音通话的质量。

在上述实现过程中，事先将多个呼叫语音通话进行存储，识别多个呼叫语音通话的投诉目的，根据多个投诉目的将呼叫语音通话进行分类，分别识别多个语音中客户的情绪变化得分，确定不同投诉目的下呼叫语音通话的质量，可以基于不同的投诉目的提高客服人员提高解决用户问题的能力。

进一步地，所述方法还包括：

获取评论信息；

基于所述评论信息确定多个热点词汇；

在所述获取多个呼叫语音通话的步骤之后，包括：

根据所述热点词汇在所述多个呼叫语音通话中筛选出关于所述热点词汇的呼叫语音通话。

在上述实现过程中，考虑到现有现在的企业服务会设置相关的论坛、信息，用户可以在论坛、信息上发表评论，因此，本申请实施例提出了基于评论信息确定多个热点词汇；根据热点词汇在多个呼叫语音通话中筛选出关于所述热点词汇的呼叫语音通话，可以实现提高对用户的情绪监控以及客服人员针对热点问题的应对能力。

进一步地，所述基于所述评论信息确定多个热点词汇的步骤，包括：

生成基于所述评论信息的字符串；

构建第一列表，所述第一列表中存储有多个指针，所述多个指针分别指向所述字符串中的多个子串；

基于所述多个子串的长度对所述第一列表进行升序排序，得到排序后的第一列表；

根据所述排序后的第一列表构建相邻子串的相同最长左子串的第二列表，所述第二列表中的元素包括所述第一列表中相邻的第一字符串和第二字符串的相同最长字符串；

基于所述第一列表和所述第二列表获取高频字符串集合；

基于预设策略度对所述高频字符串集合进行过滤，得到热点词汇集合，所述热点词汇集合包括所述多个热点词汇。

在上述实现过程中，本申请实施例提供了一种获取热点词汇的方法，基于上述构建方法，可以基于评论信息快速获取评论信息中的热点词汇。

进一步地，所述根据所述客户语音确定所述客户的情绪变化得分的步骤，包括：

将所述客户语音进行拆分，得到多个客户子语音；

获取每个所述客户子语音对应的声谱图；

根据所述声谱图获取每个所述客户子语音的时域特征和频域特征；

将每个所述时域特征和所述频域特征进行融合，得到多个融合特征；

将每个所述融合特征输入循环神经网络，得到每个所述客户子语音对应的情绪得分；

根据每个所述客户子语音对应的情绪得分，得到所述客户的情绪变化得分。

在上述实现过程中，与现有技术直接对声音的强度进行识别的方式不同，本申请实施例首先基于语音识别语音的时域特征和频域特征，得到多个融合特征，得到多个客户子语音对应的情绪得分，基于每个所述客户子语音对应的情绪变化得分，得多所述客户的情绪变化得分。

进一步地，所述根据所述声谱图获取每个所述客户子语音的时域特征和频域特征的步骤，包括：

利用预先训练好的第一卷积神经网络和第二卷积神经网络对所述声谱图进行处理，得到时域特征向量和频域特征向量；

所述将每个所述时域特征和所述频域特征进行融合，得到多个融合特征的步骤，包括：

获取所述时域特征向量和频域特征向量分别对应的权重值；

将所述时域特征向量和所述频域特征向量分别和其对应的权重值相乘后相加，得到融合特征向量。

在上述实现过程中，考虑到时域特征以及频域特征对识别结果具有不同的影响程度，因此，首先使用预先训练好的第一卷积神经网络和第二卷积神经网络对声谱图进行处理，得到时域特征向量和频域特征向量；获取时域特征向量和频域特征向量对应的权重值，将将时域特征向量和频域特征向量分别和其对应的权重值相乘后相加，得到融合特征向量。基于上述实施方式，能够提高语音质检的准确度。

进一步地，所述将所述客户语音进行拆分，得到多个客户子语音的步骤，包括：

将所述客户语音转换成语音文本；

确定所述语音文本中每个句子的起始时间点和结束时间点；

基于多个所述起始时间点和多个所述结束时间点将所述客户语音拆分为多个客户子语音；

每个所述客户子语音至少包含一个句子。

在上述实现过程中，为了使分离出来的多个客户子语音中具有完整的句子，本申请实施例首先将客户语音转换成语音文本，基于语音文本确定多个语音文本的起始时间点和结束时间点，基于多个起始时间点和结束时间点将所述客户语音拆分为多个客户子语音。

进一步地，所述循环神经网络中不包括归一化层。

在上述实现过程中，现有的神经网络中会配置一个或多个归一化层，但是，在投诉场景中，语音时间较端，时域特征和频域特征进行归一化后损失的信息会影响识别效果，因此，循环神经网络中不包括归一化层。

第二方面，本申请实施例提供了一种语音质检装置，包括：

呼叫语音通话获取模块，用于获取多个呼叫语音通话；

客户语音获取模块，用于基于所述呼叫语音通话获取所述呼叫语音通话中的客户语音；

得分获取模块，用于根据所述客户语音确定所述客户的情绪变化得分；

质量获取模块，用于基于所述客户的情绪变化得分、确定所述呼叫语音通话的质量。

第三方面，本申请实施例提供的一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。

本申请公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本申请公开的上述技术即可得知。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的语音质检的流程示意图；

图2为本申请实施例提供的语音质检装置的结构图；

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

参见图1，本申请实施例提供一种语音质检方法，包括：

S1：获取呼叫语音通话；

S2：基于呼叫语音通话获取呼叫语音通话中的客户语音；

S3：根据客户语音确定客户的情绪变化得分；

S4：基于客户的情绪变化得分、确定呼叫语音通话的质量。

在上述实现过程中，考虑到在投诉场景下，现有技术中直接对整段语音进行情绪识别的方法并不适用，容易出现两种极端的情况，情绪得分过高或者情绪得分过低，从而质检准确率不高，本申请实施例提出根据客户语音确定用户的情绪变化得分，基于客户的情绪变化得分，确定呼叫语音通话的质量。通过对客户的情绪变化得分进行检测，能够确定客服人员是否对投诉人员进行了有效地安抚，是否解决了用户的需求。

在一种可能的实施方式中，S1之前，还包括：

存储多个呼叫语音通话；

识别多个呼叫语音通话的投诉目的；

基于多个投诉目的对多个呼叫语音通话进行分类；

S4包括：基于客户的情绪变化得分确定不同投诉目的对应的呼叫语音通话的质量。

在一种可能的实施方式中，方法还包括：

获取评论信息；

基于评论信息确定多个热点词汇；

在获取呼叫语音通话的步骤之前，包括：

根据热点词汇在多个呼叫语音通话中筛选出关于热点词汇的呼叫语音通话。

示例性地，比如在用户社区可能在某一段时间内会对某一个问题进行反馈，基于此，可以获取客服人员针对该问题的应对能力。

筛选的过程通常是将呼叫语音通话转换为语音文本，根据语音文本进行进一步地筛选，能够提高筛选的准确率。

在上述实现过程中，考虑到现有现在的企业服务会设置相关的论坛、信息，用户可以在论坛、信息上发表评论，因此，本申请实施例提出了基于评论信息确定多个热点词汇；根据热点词汇在多个呼叫语音通话中筛选出关于热点词汇的呼叫语音通话，可以实现提高对用户的情绪监控以及客服人员针对热点问题的应对能力。

进一步地，可以针对多个热点词汇对应的呼叫语音通话选取优秀的客服人员对应的呼叫语音通话，对其他客服人员进行培训。

在一种可能的实施方式中，基于评论信息确定多个热点词汇的步骤，包括：

生成基于评论信息的字符串；

构建第一列表，第一列表中存储有多个指针，多个指针分别指向字符串中的多个子串；

基于多个子串的长度对第一列表进行升序排序，得到排序后的第一列表；

根据排序后的第一列表构建相邻子串的相同最长左子串的第二列表，第二列表中的元素包括第一列表中相邻的第一字符串和第二字符串相同最长字符串；

其中，相同最长字符串是从第一字符串和第二字符串的第一个字符起始进行计算的。

基于第一列表和第二列表获取高频字符串集合；

基于预设策略度对高频字符串集合进行过滤，得到热点词汇集合，热点词汇集合包括多个热点词汇。

示例性地，评论信息C以Unicode编码，每个字符占2字节空间。如果评论信息C包括m个字符，则需要2m字节的存储空间。用Ci表示C中第i个字符。接着构造一个长为m的第一列表。第一列表的每一项Pi保存一个指向C中子串Si的指针。第一列表中的第i个元素Pi指向的子串Si定义为从Pi所指字符Ci到C中最后一个字符Cm中的m-i+1个字符所组成的字符串。这样S1，S2，…，Sm的串长依次递减，最后一个子串Sm只包括一个字符Cm。第一列表构建好以后就可以根据第一列表项所指的子串对第一列表进行升序排序，在使用快速排序算法的情况下排序时间复杂度为O(nlogn)。在已排序的第一列表的基础上构建记录相邻子串相同最长左子串长度的第二列表。第二列表与第一列表大小相同，第二列表中的表项Li记录排序后相邻子串Spi-1和Spi相同最长左子串长度，即从串首开始相同字符的个数(L1＝0)。例如:若Pi指向的子串Spi＝“用户登录入口点击无效”，Pi-1指向的子串Spi-1＝“用户登录入口点不进去”，则Li＝6。在构建好第一列表和第二列表之后，可进行串频统计。经过串频统计之后，还可以筛选出具有一定长度的词汇，具有一定长度的词汇组成字符串集合Ω。Ω中仍包含许多“垃圾”不宜都用来作为候选短语串。可以进一步对Ω中的集合进行过滤，比如和预先整理的库中的词汇进行碰撞筛选。

基于此，可以实现实时对用户社区进行监控，每隔预设时间段获取一次热点词汇，将评分较高的案例推送给其他客服人员进行学习。

在一种可能的实施方式中，根据客户语音确定客户的情绪变化得分的步骤，包括：

将客户语音进行拆分，得到多个客户子语音；

获取每个客户子语音对应的声谱图；

根据声谱图获取每个客户子语音的时域特征和频域特征；

将每个时域特征和频域特征进行融合，得到多个融合特征；

将每个融合特征输入循环神经网络，得到每个客户子语音对应的情绪得分；

根据每个客户子语音对应的情绪得分，得到客户的情绪变化得分。

在上述实现过程中，与现有技术直接对声音的强度进行识别的方式不同，本申请实施例首先基于语音识别语音的时域特征和频域特征，得到多个融合特征，得到多个客户子语音对应的情绪得分，基于每个客户子语音对应的情绪变化得分，得多客户的情绪变化得分。

在一种可能的实施方式中，根据声谱图获取每个客户子语音的时域特征和频域特征的步骤，包括：

利用预先训练好的第一卷积神经网络和第二卷积神经网络对声谱图进行处理，得到时域特征向量和频域特征向量；

将每个时域特征和频域特征进行融合，得到多个融合特征的步骤，包括：

获取时域特征向量和频域特征向量分别对应的权重值；

将时域特征向量和频域特征向量分别和其对应的权重值相乘后相加，得到融合特征向量。

在一种可能的实施方式中，将客户语音进行拆分，得到多个客户子语音的步骤，包括：

将客户语音转换成语音文本；

确定语音文本中每个句子的起始时间点和结束时间点；

基于多个起始时间点和多个结束时间点将客户语音拆分为多个客户子语音；

每个客户子语音至少包含一个句子。

在上述实现过程中，为了使分离出来的多个客户子语音中具有完整的句子，本申请实施例首先将客户语音转换成语音文本，基于语音文本确定多个语音文本的起始时间点和结束时间点，基于多个起始时间点和结束时间点将客户语音拆分为多个客户子语音。

在一种可能的实施方式中，循环神经网络中不包括归一化层。

实施例2

参见图2，本申请实施例提供一种语音质检装置，包括：

呼叫语音通话获取模块1，用于获取呼叫语音通话；

客户语音获取模块2，用于获取呼叫语音通话中的客户语音；

得分获取模块3，用于根据客户语音确定客户的情绪变化得分；

质量获取模块4，用于基于客户的情绪变化得分确定呼叫语音通话的质量。

在一种可能的实施方式中，呼叫语音通话获取模块1还用于存储多个呼叫语音通话；识别多个呼叫语音通话的投诉目的；基于多个投诉目的对多个呼叫语音通话进行分类

质量获取模块4还用于基于客户的情绪变化得分确定不同投诉目的对应的呼叫语音通话的质量。

在一种可能的实施方式中，装置还包括评论信息获取模块，用于获取评论信息；基于评论信息确定多个热点词汇；在获取多个呼叫语音通话的步骤之后，包括：根据热点词汇在多个呼叫语音通话中筛选出关于热点词汇的呼叫语音通话。

在一种可能的实施方式中，评论信息获取模块还用于基于评论信息确定多个热点词汇的步骤，包括：生成基于评论信息的字符串；构建第一列表，第一列表中存储有多个指针，多个指针分别指向字符串中的多个子串；基于多个子串的长度对第一列表进行升序排序，得到排序后的第一列表；根据排序后的第一列表构建相邻子串的相同最长左子串的第二列表，第二列表中的元素包括第一列表中相邻的第一字符串和第二字符串从第一个字符起始的相同最长字符串；基于第一列表和第二列表获取高频字符串集合；基于预设策略度对高频字符串集合进行过滤，得到热点词汇集合，热点词汇集合包括多个热点词汇。

在一种可能的实施方式中，得分获取模块3还用于将客户语音进行拆分，得到多个客户子语音；获取每个客户子语音对应的声谱图；根据声谱图获取每个客户子语音的时域特征和频域特征；将每个时域特征和频域特征进行融合，得到多个融合特征；将每个融合特征输入循环神经网络，得到每个客户子语音对应的情绪得分；根据每个客户子语音对应的情绪得分，得到客户的情绪变化得分。

在一种可能的实施方式中，得分获取模块3还用于将客户语音转换成语音文本；确定语音文本中每个句子的起始时间点和结束时间点；基于多个起始时间点和多个结束时间点将客户语音拆分多个客户子语音；每个客户子语音至少包含一个句子。

本申请还提供一种电子设备，请参见图3，图3为本申请实施例提供的一种电子设备的结构框图。电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中，通信总线34用于实现这些组件直接的连接通信。其中，本申请实施例中电子设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片，具有信号的处理能力。

上述的处理器31可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。

存储器33可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。存储器33中存储有计算机可读取指令，当计算机可读取指令由处理器31执行时，电子设备可以执行上述方法实施例涉及的各个步骤。

可选地，电子设备还可以包括存储控制器、输入输出单元。

存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线34实现电性连接。处理器31用于执行存储器33中存储的可执行模块，例如电子设备包括的软件功能模块或计算机程序。

输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是，但不限于，鼠标和键盘等。

可以理解，图3所示的结构仅为示意，电子设备还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当指令在计算机上运行时，计算机程序被处理器执行时实现方法实施例的方法，为避免重复，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语音质检方法，其特征在于，包括：

获取呼叫语音通话；

获取所述呼叫语音通话中的客户语音；

根据所述客户语音确定客户的情绪变化得分；

2.根据权利要求1所述的语音质检方法，其特征在于，在所述获取呼叫语音通话的步骤之前，还包括：

存储多个呼叫语音通话；

识别所述多个呼叫语音通话的投诉目的；

基于多个所述投诉目的对所述多个呼叫语音通话进行分类；

3.根据权利要求2所述的语音质检方法，其特征在于，所述方法还包括：

获取评论信息；

基于所述评论信息确定多个热点词汇；

在所述获取呼叫语音通话的步骤之前，包括：

4.根据权利要求3所述的语音质检方法，其特征在于，所述基于所述评论信息确定多个热点词汇的步骤，包括：

生成基于所述评论信息的字符串；

基于所述第一列表和所述第二列表获取高频字符串集合；

5.根据权利要求1所述的语音质检方法，其特征在于，所述根据所述客户语音确定所述客户的情绪变化得分的步骤，包括：

将所述客户语音进行拆分，得到多个客户子语音；

获取每个所述客户子语音对应的声谱图；

6.根据权利要求5所述的语音质检方法，其特征在于，所述根据所述声谱图获取每个所述客户子语音的时域特征和频域特征的步骤，包括：

获取所述时域特征向量和频域特征向量分别对应的权重值；

7.根据权利要求5所述的语音质检方法，其特征在于，所述将所述客户语音进行拆分，得到多个客户子语音的步骤，包括：

将所述客户语音转换成语音文本；

确定所述语音文本中每个句子的起始时间点和结束时间点；

每个所述客户子语音至少包含一个句子。

8.根据权利要求5所述的语音质检方法，其特征在于，

所述循环神经网络中不包括归一化层。

9.一种语音质检装置，其特征在于，包括：

呼叫语音通话获取模块，用于获取多个呼叫语音通话；

10.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的语音质检方法的步骤。