CN113055537A

CN113055537A - 客服人员的语音质检方法、装置、设备及存储介质

Info

Publication number: CN113055537A
Application number: CN202110393830.5A
Authority: CN
Inventors: 蔡骏翔; 徐宇
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-06-29

Abstract

本发明涉及人工智能领域，公开了客服人员的语音质检方法、装置、设备及存储介质，用于提高对客服人员语音的评分准确率，从而提高对客服人员语音质检的全面性和准确率。客服人员的语音质检方法包括：获取客服人员的语音文件，所述语音文件为一组完整的语音对话；对所述语音文件进行声音识别，得到声音向量和语境向量；基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

Description

客服人员的语音质检方法、装置、设备及存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种客服人员的语音质检方法、装置、设备及存储介质。

背景技术

随着生活水平的提高，很多人对客服服务质量的要求也相应的提高，因此，很多企业对客服人员的语音对话有一定的质检要求，即服务质量的评估，比较常见的质检方式是采集客服人员的语音对话进行打分，得到的分数为该客服人员这一场语音对应的质检结果。

在现有技术中，质检的方法通常为将语音转换为文本数据，然后结合文本数据进行评分，由于没有结合语境同时进行评分，导致评分的准确率较低，从而导致对客服人员语音的质检不全面且不准确。

发明内容

本发明提供了一种客服人员的语音质检方法、装置、设备及存储介质，用于提高对客服人员语音的评分准确率，从而提高对客服人员语音质检的全面性和准确率。

本发明第一方面提供了一种客服人员的语音质检方法，包括：获取客服人员的语音文件，所述语音文件为一组完整的语音对话；对所述语音文件进行声音识别，得到声音向量和语境向量；基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

可选的，在本发明第一方面的第一种实现方式中，所述对所述语音文件进行声音识别，得到声音向量和语境向量包括：对所述语音文件进行主成分分析，生成主成分语音文件；将所述语音文件输入预先训练好的无监督深度学习网络中进行识别，生成声音向量和语境向量。

可选的，在本发明第一方面的第二种实现方式中，所述基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据包括：将所述声音向量输入预先训练好的语言模型中，结合预置的声学模型进行文本识别，生成文本数据；将所述声音向量和所述语境向量输入预先训练好的声纹识别模型中进行声纹识别，生成至少两个声纹特征。

可选的，在本发明第一方面的第三种实现方式中，所述基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果包括：根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成语义分数；根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成关键信息对分数；基于所述语义分数和所述关键信息对分数进行计算，生成目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成语义分数包括：对所述语境向量、所述文本数据和所述至少两个声纹特征进行过滤，生成过滤后的语境向量、过滤后的文本数据和过滤后的至少两个声纹特征；将所述过滤后的语境向量、所述过滤后的文本数据和所述过滤后的至少两个声纹特征输入预先训练好的语义模型中进行计算，生成语义分数。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成关键信息对分数包括：基于所述文本数据进行领域匹配，得到目标问答领域；基于所述目标问答领域，在预置的模型库中进行查找，得到目标意图识别模型；将所述过滤后的语境向量、所述过滤后的文本数据和所述过滤后的至少两个声纹特征输入所述目标意图识别模型中进行计算，生成关键信息对分数。

本发明第二方面提供了一种客服人员的语音质检装置，包括：获取模块，用于获取客服人员的语音文件，所述语音文件为一组完整的语音对话；第一识别模块，用于对所述语音文件进行声音识别，得到声音向量和语境向量；第二识别模块，用于基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；计算模块，用于基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

可选的，在本发明第二方面的第一种实现方式中，所述第一识别模块还可以具体用于：对所述语音文件进行主成分分析，生成主成分语音文件；将所述语音文件输入预先训练好的无监督深度学习网络中进行识别，生成声音向量和语境向量。

可选的，在本发明第二方面的第二种实现方式中，所述第二识别模块还可以具体用于：将所述声音向量输入预先训练好的语言模型中，结合预置的声学模型进行文本识别，生成文本数据；将所述声音向量和所述语境向量输入预先训练好的声纹识别模型中进行声纹识别，生成至少两个声纹特征。

可选的，在本发明第二方面的第三种实现方式中，所述计算模块包括：语义分数计算单元，用于根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成语义分数；信息对分数计算单元，用于根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成关键信息对分数；综合分数计算单元，用于基于所述语义分数和所述关键信息对分数进行计算，生成目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

可选的，在本发明第二方面的第四种实现方式中，所述语义分数计算单元还可以用于：对所述语境向量、所述文本数据和所述至少两个声纹特征进行过滤，生成过滤后的语境向量、过滤后的文本数据和过滤后的至少两个声纹特征；将所述过滤后的语境向量、所述过滤后的文本数据和所述过滤后的至少两个声纹特征输入预先训练好的语义模型中进行计算，生成语义分数。

可选的，在本发明第二方面的第五种实现方式中，所述信息对分数计算单元还可以具体用于：基于所述文本数据进行领域匹配，得到目标问答领域；基于所述目标问答领域，在预置的模型库中进行查找，得到目标意图识别模型；将所述过滤后的语境向量、所述过滤后的文本数据和所述过滤后的至少两个声纹特征输入所述目标意图识别模型中进行计算，生成关键信息对分数。

本发明第三方面提供了一种客服人员的语音质检设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述客服人员的语音质检设备执行上述的客服人员的语音质检方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的客服人员的语音质检方法。

本发明提供的技术方案中，获取客服人员的语音文件，所述语音文件为一组完整的语音对话；对所述语音文件进行声音识别，得到声音向量和语境向量；基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。本发明实施例中，将语音文件识别为至少两个声纹特征和文本数据，然后基于至少两个声纹特征和文本数据从语义层面和关键信息对层面对客服人员的语音数据进行评分，以完成对客服人员语音的质检，提高了评分的准确率，从而提高了对客服人员语音质检的全面性和准确率。

附图说明

图1为本发明实施例中客服人员的语音质检方法的一个实施例示意图；

图2为本发明实施例中客服人员的语音质检方法的另一个实施例示意图；

图3为本发明实施例中客服人员的语音质检装置的一个实施例示意图；

图4为本发明实施例中客服人员的语音质检装置的另一个实施例示意图；

图5为本发明实施例中客服人员的语音质检设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种客服人员的语音质检方法、装置、设备及存储介质，用于提高对客服人员语音的评分准确率，从而提高对客服人员语音质检的全面性和准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中客服人员的语音质检方法的一个实施例包括：

101、获取客服人员的语音文件，语音文件为一组完整的语音对话；

服务器获取客服人员的语音文件，需要说明的是，语音文件是一组完整的语音对话，即客服人员和用户之间的一组完整对话。

当需要对客服人员的语音文件进行质检时，服务器随机获取该客服人员的某一段语音文件，或者指定获取该客服人员的某一段语音文件，但是语音文件为一段完整的语音对话。语音文件是通过终端录音而保存到存储器的文件，一段完整的语音对话，指的是客服人员在接通电话的时刻到客服人员挂断电话的时刻之间的对话，例如客服人员在10：02接起电话，在10:04分挂掉电话，10:02-10:04之间的对话为一段完整的语音对话，即该客服人员的一个语音文件。

可以理解的是，本发明的执行主体可以为客服人员的语音质检装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、对语音文件进行声音识别，得到声音向量和语境向量；

服务器在获取到语音文件之后，对语音文件进行声音识别，从而得到声音向量和语境向量。

服务器在获取客服人员的语音文件之后，还需要对语音文件进行声音识别。本实施例中声音识别的过程可以理解为对语音文件进行预处理的过程，即对语音文件进行数据降维，从而去除噪声和不重要的特征，只保留语音文件中最重要的一些特征，从而得到声音向量和语境向量。在实施本步骤之后，得到声音向量和语境向量，基于声音向量和语境向量进行后续的计算，能够有效的提升数据处理的速度，降低算法的时间计算成本。

需要说明的是，在本实施例中，需要首先将语音文件进行向量化，此时得到的向量化后的语音文件可能是768维的向量，在得到向量化后的语音文件之后，将768维的向量压缩至128维的向量，然后再对压缩后的向量进行识别，生成声音向量和语境向量。

103、基于声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；

服务器根据声音向量和语境向量进行声纹识别和文字识别，从而生成至少两个声纹特征和文本数据。

在本实施例中，涉及到两个识别模型，进行声纹识别时，用到了声纹识别模型，将声音向量和语境向量输入声纹识别模型中，即可生成至少两个声纹特征。进行文本识别时，用到了文本识别模型，将声音向量和语境向量输入文本识别模型中，即可生成文本数据。

由于在一段对话中，会涉及到两个人及以上的声音，因此服务器需要将不同人的声音识别出来，用到的方法为声纹识别，将说话者A的声音识别为声音1，将说话者2的声音识别为声音2，与此用时，还将声音向量结合语境向量识别为文本数据。

104、基于语境向量、至少两个声纹特征和文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，目标综合分数用于表示客服人员的语音质检结果。

服务器分别在语义层面和关键信息对层面基于语境向量、至少两个声纹特征和文本数据进行分数计算，从而得到用于标识客服语音质检结果的目标综合分数。

需要说明的是，在本实施例中结合两个层面对客服语音进行质检，一个是从语义层面对客服语音进行质检，一个是从关键信息对层面对客服语音进行质检，将两个层面的质检结果进行整合，从而生成用于标识客服人员的语音质检结果。其中，从语义层面对客服语音进行质检时，需要用到语义的评分模型进行质检，从关键信息对层面对客服语音进行质检时，需要用到关键信息对的评分模型进行质检。

本发明实施例中，将语音文件识别为至少两个声纹特征和文本数据，然后基于至少两个声纹特征和文本数据从语义层面和关键信息对层面对客服人员的语音数据进行评分，以完成对客服人员语音的质检，提高了评分的准确率，从而提高了对客服人员语音质检的全面性和准确率。

请参阅图2，本发明实施例中客服人员的语音质检方法的另一个实施例包括：

201、获取客服人员的语音文件，语音文件为一组完整的语音对话；

202、对语音文件进行声音识别，得到声音向量和语境向量；

具体的，服务器对语音文件进行主成分分析，生成主成分语音文件；然后服务器将语音文件输入预先训练好的无监督深度学习网络中进行识别，生成声音向量和语境向量。

在本实施例中，服务器需要对语音文件进行主成分分析，采用主成分分析方法(Principal Component Analysis，PCA)进行分析。在进行主成分分析之前，首先将语音文件进行向量化，得到向量化后的语音文件，然后对向量化后的语音文件进行识别主成分分析，生成主成分语音文件，此时的主成分语音文件以向量的形式存在。在本实施例中，主要采用奇异值分解算法实现主成分分析，具体过程为：向量化后的语音文件进行去平均值处理，即每一位特征值减去各自的平均值，生成去平均值后的语音文件；然后基于去平均值后的语音文件计算协方差矩阵，然后调用奇异值分解算法计算协方差矩阵的特征值和特征向量；按从小到大的顺序对特征值进行排序，并提取其中数值较大的多个特征值作为多个目标特征值；将多个目标特征值对应的特征向量分别作为列向量组成特征向量矩阵；将向量化后的语音文件转换到以特征向量矩阵构建的空间中，从而生成主成分语音文件。

服务器将主成分语音文件输入余弦训练好的无监督深度学习网络中进行识别，生成声音向量和语境向量。识别的过程为：将主成分语音文件输入该学习网络的第一神经网络层中，生成第一声音特征向量和第一语境特征向量；将第一声音特征向量和第一语境特征向量输入第二神经网络层中，生成第二声音特征向量和第二语境特征向量，按照此种方式，将每一神经网络层的输出作为下一神经网络层的输入进行卷积，经过最后一层神经网络层的计算，生成声音向量和语境向量。

203、基于声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；

具体的，服务器将声音向量输入预先训练好的语言模型中，结合预置的声学模型进行文本识别，生成文本数据；服务器将声音向量和语境向量输入预先训练好的声纹识别模型中进行声纹识别，生成至少两个声纹特征。

服务器将声音向量输入预先训练好的语言模型中，结合预置的声学模型进行文本识别，从而生成文本数据，需要说明的是，由于文本识别的过程为现有技术，因此不做过多说明。与此同时，服务器将声音向量和语境向量输入预先训练好的声纹识别模型中进行声纹识别，具体过程为：基于声音向量和语境向量提取每一帧梅尔频谱，得到多帧梅尔频谱；然后将多帧梅尔频谱输入预先训练好的声纹识别模型中，得到每一帧梅尔频谱对应的概率参数，得到多个概率参数，然后对多个概率参数进行正则化，生成多个正则化的概率参数，将属于同一个标签的概率参数对应的子声音向量和子语境向量相加起来，生成至少两个声纹特征。

需要说明的是，声音向量包括多个子声音向量、语境向量也对应的包括多个子语境向量，服务器就是按照不同的子声音向量和对应的子语境向量提取每一帧对应的梅尔频谱，再基于多个概率参数和将属于同一个标签的概率参数对应的子声音向量和子语境向量进行累加，从而生成至少两个声纹特征。

204、根据语境向量、至少两个声纹特征和文本数据进行分数计算，生成语义分数；

服务器对语境向量、至少两个声纹特征和文本数据进行分数计算，生成语义分数。

具体的，服务器对语境向量、文本数据和至少两个声纹特征进行过滤，生成过滤后的语境向量、过滤后的文本数据和过滤后的至少两个声纹特征；服务器将过滤后的语境向量、过滤后的文本数据和过滤后的至少两个声纹特征输入预先训练好的语义模型中进行计算，生成语义分数。

服务器首先过滤掉重复出现单词对应的第一目标文本数据，以及与第一目标文本数据对应的语境向量和声纹特征，与此同时，服务器还过滤掉出现次数过少单词对应的第二目标文本向量，以及与第二目标文本向量对应的语境向量和对应的声纹特征，从而得到过滤后的语境向量、过滤后的文本数据预计过滤后的至少两个声纹特征；服务器在标准知识库中基于过滤后的至少两个声纹特征、过滤后的文本数据和过滤后的语境向量查询相匹配的目标答案句子对，然后将该目标答案句子对、过滤后的至少两个声纹特征、过滤后的文本数据和过滤后的语境向量输入预先训练好的语义模型中进行概率计算，生成相似度匹配值，即语义分数。

205、根据语境向量、至少两个声纹特征和文本数据进行分数计算，生成关键信息对分数；

服务器对语境向量、至少两个声纹特征和文本数据进行分数计算，从而得到关键信息对分数。

具体的，服务器基于文本数据进行领域匹配，得到目标问答领域；服务器基于目标问答领域，在对应的模型库中进行查找，得到目标意图识别模型；服务器将过滤后的语境向量、过滤后的文本数据和过滤后的至少两个声纹特征输入目标意图识别模型中进行计算，生成关键信息对分数。

服务器首先基于文本数据在预置的领域库中进行领域匹配，得到目标领域，然后在该目标领域中基于文本数据查询对应的目标意图识别算法模型，然后将步骤204中用到的目标答案句子对输入该目标意图识别算法模型中，得到目标关键信息对；再将过滤后的语境向量、过滤后的文本数据和过滤后的至少两个声纹特征输入该目标意图识别算法模型中进行计算，得到客服关键信息对，计算目标关键信息对和客服关键信息对之间的信息对相似度，从而得到关键信息对评分。

206、基于语义分数和关键信息对分数进行计算，生成目标综合分数，目标综合分数用于表示客服人员的语音质检结果。

服务器结合语义分数和关键信息对分数进行综合分数的计算，生成用于表示客服人员的语音质检结果的目标综合分数。

在本实施例中，服务器基于语义分数和关键信息对分数求平均值，得到目标综合分数，该目标综合分数表示客服人员的语音质检结果。在其他实施例中，还可以结合其他权重参数对语义评分和关键信息对评分进行目标综合评分的计算，本方案对此不作具体限定。

上面对本发明实施例中客服人员的语音质检方法进行了描述，下面对本发明实施例中客服人员的语音质检装置进行描述，请参阅图3，本发明实施例中客服人员的语音质检装置一个实施例包括：

获取模块301，用于获取客服人员的语音文件，所述语音文件为一组完整的语音对话；

第一识别模块302，用于对所述语音文件进行声音识别，得到声音向量和语境向量；

第二识别模块303，用于基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；

计算模块304，用于基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

请参阅图4，本发明实施例中客服人员的语音质检装置的另一个实施例包括：

可选的，所述第一识别模块302还可以具体用于：

对所述语音文件进行主成分分析，生成主成分语音文件；

将所述语音文件输入预先训练好的无监督深度学习网络中进行识别，生成声音向量和语境向量。

可选的，所述第二识别模块303还可以具体用于：

将所述声音向量输入预先训练好的语言模型中，结合预置的声学模型进行文本识别，生成文本数据；

将所述声音向量和所述语境向量输入预先训练好的声纹识别模型中进行声纹识别，生成至少两个声纹特征。

可选的，所述计算模块304包括：

语义分数计算单元3041，用于根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成语义分数；

信息对分数计算单元3042，用于根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成关键信息对分数；

综合分数计算单元3043，用于基于所述语义分数和所述关键信息对分数进行计算，生成目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

可选的，所述语义分数计算单元3041还可以用于：

对所述语境向量、所述文本数据和所述至少两个声纹特征进行过滤，生成过滤后的语境向量、过滤后的文本数据和过滤后的至少两个声纹特征；

将所述过滤后的语境向量、所述过滤后的文本数据和所述过滤后的至少两个声纹特征输入预先训练好的语义模型中进行计算，生成语义分数。

可选的，所述信息对分数计算单元3042还可以具体用于：

基于所述文本数据进行领域匹配，得到目标问答领域；

基于所述目标问答领域，在预置的模型库中进行查找，得到目标意图识别模型；

将所述过滤后的语境向量、所述过滤后的文本数据和所述过滤后的至少两个声纹特征输入所述目标意图识别模型中进行计算，生成关键信息对分数。

上面图3和图4从模块化功能实体的角度对本发明实施例中的客服人员的语音质检装置进行详细描述，下面从硬件处理的角度对本发明实施例中客服人员的语音质检设备进行详细描述。

图5是本发明实施例提供的一种客服人员的语音质检设备的结构示意图，该客服人员的语音质检设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对客服人员的语音质检设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在客服人员的语音质检设备500上执行存储介质530中的一系列指令操作。

客服人员的语音质检设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的客服人员的语音质检设备结构并不构成对客服人员的语音质检设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种客服人员的语音质检设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述客服人员的语音质检方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述客服人员的语音质检方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种客服人员的语音质检方法，其特征在于，所述客服人员的语音质检方法包括：

获取客服人员的语音文件，所述语音文件为一组完整的语音对话；

对所述语音文件进行声音识别，得到声音向量和语境向量；

基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；

基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

2.根据权利要求1所述的客服人员的语音质检方法，其特征在于，所述对所述语音文件进行声音识别，得到声音向量和语境向量包括：

对所述语音文件进行主成分分析，生成主成分语音文件；

3.根据权利要求1所述的客服人员的语音质检方法，其特征在于，所述基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据包括：

4.根据权利要求1所述的客服人员的语音质检方法，其特征在于，所述基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果包括：

根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成语义分数；

根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成关键信息对分数；

基于所述语义分数和所述关键信息对分数进行计算，生成目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

5.根据权利要求4所述的客服人员的语音质检方法，其特征在于，所述根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成语义分数包括：

6.根据权利要求5所述的客服人员的语音质检方法，其特征在于，所述根据所述语境向量、所述至少两个声纹特征和所述文本数据进行分数计算，生成关键信息对分数包括：

基于所述文本数据进行领域匹配，得到目标问答领域；

7.一种客服人员的语音质检装置，其特征在于，所述客服人员的语音质检装置包括：

获取模块，用于获取客服人员的语音文件，所述语音文件为一组完整的语音对话；

第一识别模块，用于对所述语音文件进行声音识别，得到声音向量和语境向量；

第二识别模块，用于基于所述声音向量和语境向量进行识别，生成至少两个声纹特征和文本数据；

计算模块，用于基于所述语境向量、所述至少两个声纹特征和所述文本数据在语义层面和关键信息对层面进行分数计算，得到目标综合分数，所述目标综合分数用于表示客服人员的语音质检结果。

8.根据权利要求7所述的客服人员的语音质检装置，其特征在于，所述第一识别模块还可以具体用于：

对所述语音文件进行主成分分析，生成主成分语音文件；

9.一种客服人员的语音质检设备，其特征在于，所述客服人员的语音质检设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述客服人员的语音质检设备执行如权利要求1-6中任意一项所述的客服人员的语音质检方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述客服人员的语音质检方法。