CN111522916B

CN111522916B - 一种语音服务质量检测方法、模型训练方法及装置

Info

Publication number: CN111522916B
Application number: CN202010312316.XA
Authority: CN
Inventors: 席泽西; 赵立军
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2021-03-09
Anticipated expiration: 2040-04-20
Also published as: CN111522916A

Abstract

本发明提供一种语音服务质量检测方法、模型训练方法及装置，该方法包括：将待检测的语音转换为文本；确定所述文本中每个词对应的词向量；将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层。通过本发明提供的语音服务质量检测方法，基于质量检测模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

Description

一种语音服务质量检测方法、模型训练方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音服务质量检测方法、模型训练方法及装置。

背景技术

随着语音技术的不断发展，语音服务变得越来越普遍，例如，服务提供方可以基于客服呼叫中心为用户提供语音服务，或者通过语音机器人为用户提供语音服务等。为了进一步提高为用户提供语音服务的质量，对语音服务进行质量检测十分必要。以基于客服呼叫中心为用户提供语音服务为例，可以检测客服接听用户电话时态度是否礼貌、是否正确核实用户身份、是否正确复述通话结果、是否正确回复用户咨询问题等。

目前，主要是通过正则匹配方法或是模型法对语音服务进行质量检测，其中，模型法是指通过传统模型或深度学习模型提取对话语音中的语义信息特征，训练分类模型以预测质检结果。然而，实际情况中语音服务的质检项往往数量较多，这样需要针对每个质检项分别训练一个分类模型，不仅需要较长的训练时间，还会导致基于多个质检项进行语音服务质量检测时所需的计算资源较多。

发明内容

本发明实施例提供一种语音服务质量检测方法、模型训练方法及装置，以解决现有技术中基于多个质检项进行语音服务质量检测时所需的计算资源较多的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音服务质量检测方法。该方法包括：

将待检测的语音转换为文本；

确定所述文本中每个词对应的词向量；

将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层，所述N个全连接层用于基于所述编码层输出的语义特征向量输出所述N个质检项的质检结果，N为大于1的整数。

第二方面，本发明实施例还提供一种模型训练方法。该方法包括：

获取M个语音样本，其中，所述M个语音样本中每个语音样本均标注有 N个分类标签，所述N个分类标签与N个质检项一一对应，M和N均为大于 1的整数；

分别将所述M个语音样本中的每个语音样本转换为文本，得到M个文本；

分别确定所述M个文本中每个文本的每个词对应的词向量；

根据所述M个文本中每个文本的每个词对应的词向量，训练质量检测模型；

其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层。

第三方面，本发明实施例还提供一种语音服务质量检测装置。该语音服务质量检测装置包括：

第一转换模块，用于将待检测的语音转换为文本；

第一确定模块，用于确定所述文本中每个词对应的词向量；

输入模块，用于将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

第四方面，本发明实施例还提供一种模型训练装置。该模型训练装置包括：

第二获取模块，用于获取M个语音样本，其中，所述M个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，M和N均为大于1的整数；

第二转换模块，用于分别将所述M个语音样本中的每个语音样本转换为文本，得到M个文本；

第三确定模块，用于分别确定所述M个文本中每个文本的每个词对应的词向量；

训练模块，用于根据所述M个文本中每个文本的每个词对应的词向量，训练质量检测模型；

第五方面，本发明实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面提供的语音服务质量检测方法的步骤，或者实现上述第二方面提供的模型训练方法的步骤。

第六方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的语音服务质量检测方法的步骤，或者实现上述第二方面提供的模型训练方法的步骤。

本发明实施例中，通过将待检测的语音转换为文本；确定所述文本中每个词对应的词向量；将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果。由于基于预先训练的一个质量检测模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音服务质量检测方法的流程图；

图2是本发明实施例提供的对词系列中预设比例的词进行掩码的示意图；

图3是本发明实施例提供的BERT模型的输入向量的示意图；

图4是本发明实施例提供的质量检测模型的示意图；

图5是本发明实施例提供的模型训练方法的流程图；

图6是本发明实施例提供的一种语音服务质量检测装置的结构图；

图7是本发明实施例提供的一种模型训练装置的结构图；

图8是本发明实施提供的另一种语音服务质量检测装置的结构图；

图9是本发明实施提供的另一种模型训练装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音服务质量检测方法。参见图1，图1是本发明实施例提供的语音服务质量检测方法的流程图，如图1所示，包括以下步骤：

步骤101、将待检测的语音转换为文本。

本实施例中，上述待检测的语音可以是客服和客户之间对话的语音，或是语音机器人和用户之间对话的语音等。在该步骤中，可以通过自动语音识别 (Automatic SpeechRecognition，ASR)技术将待检测的语音转换为文本。

步骤102、确定所述文本中每个词对应的词向量。

该步骤中，可以先对上述文本进行分词，得到所述文本中的每个词，例如，可以调用结巴分词工具对上述文本进行分词；再确定所述文本中每个词对应的词向量，具体地，可以基于统计方法或者基于语音模型确定每个词对应的词向量。

例如，上述基于统计方法确定每个词对应的词向量可以包括基于共现矩阵或奇异值分解确定每个词对应的词向量；上述基于语音模型确定每个词对应的词向量可以包括基于Word2Vec模型、ELMo模型或者BERT(Bidirectional Encoder Representations fromTransformers，双向变换器的编码器)模型等确定每个词对应的词向量。

步骤103、将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

本实施例中，上述编码层可以包括循环神经网络(Recurrent Neural Network，RNN)或者长短期记忆(Long Short-Term Memory，LSTM)网络等。优选地，所述编码层可以为双向长短期记忆(Bidirectional Long Short-Term Memory，BiLSTM)网络。上述编码层可基于输入的词向量输出语义特征向量。上述N个全连接层与N个质检项一一对应，上述N个全连接层中每个全连接层可以基于编码层输出的语义特征向量，分别输出该全连接层对应的质检项的质检结果。

实际应用中，基于一个质检项对语音服务质量进行质检可被看作为一个二分类问题(也即将被分类对象划分为两个类别中的一个)，基于多个质检项对语音服务质量进行质检可被看作为多个二分类问题，本实施例可以在训练上述质量检测模型的过程中对每个语音样本标注N个分类标签，N个分类标签与N 个质检项一一对应，这样通过质量检测模型的N个全连接层可以输出对应于N 个质检项的分类结果，也即N个质检结果。

例如，N为4，4个质检项分别为接听用户电话时态度是否礼貌、是否正确核实用户身份、是否正确复述通话结果以及是否正确回复用户咨询问题，则 4个全连接层输出的4个分类结果分别表示上述4个质检项的质检结果。

本发明实施例的语音服务质量检测方法，通过将待检测的语音转换为文本；确定所述文本中每个词对应的词向量；将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果。由于基于预先训练的一个质量检测模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

可选地，所述方法还可以包括：

获取所述语音对应的语音对象的特征信息；

根据所述语音对象的特征信息生成所述语音对象的特征向量；

其中，所述N个全连接层用于基于所述编码层输出的语义特征向量和所述语音对象的特征向量输出所述N个质检项的质检结果。

本实施例中，若上述语音为客服和客户之间对话的语音，则上述语音对应的语音对象可以包括客服和客户中的至少一个，上述语音对象的特征信息可以包括客服和客户中的至少一个的特征信息。例如，若上述语音为客服a和客户 b之间对话的语音，则上述语音对应的语音对象可以包括客服a和客户b中的至少一项，上述语音对象的特征信息可以包括客服a和客户b中的至少一个的特征信息。

以金融领域的语音服务为例，在上述语音对象包括客服的情况下，客服的特征信息可以包括但不限于客服的入职时间信息、年龄信息、历史服务质量信息等中的一项或多项；在上述语音对象包括客户的情况下，客户的特征信息可以包括但不限于客户的逾期等级、客户所购买产品的等级、客户是否主动挂机等中的一项或多项，其中，上述逾期等级可以是根据逾期时长划分的等级。

本实施例中，可以将语音对象的特征向量和编码层输出的语义特征向量进行拼接，并将拼接得到的向量输入全连接层，以通过全连接层输出质检结果。由于融合了语音对象的特征向量和语义特征向量进行语音服务质量检测，可以提高语音服务质量检测结果的准确性。

可选地，所述质量检测模型还包括N个注意力层，所述N个注意力层与所述N个全连接层一一对应，所述编码层输出的语义特征向量分别经由所述N 个注意力层中每个注意力层处理后输入所述每个注意力层对应的全连接层。

相应地，上述N个全连接层中每个全连接层可以分别基于其对应的注意力层输出的特征向量，也即经由该注意力层处理后的语义特征向量，输出该全连接层对应的质检项的质检结果。

本实施例中，上述注意力层也即Atttention层。上述N个注意力层中的每个注意力层均可以基于注意力机制，针对其对应的质检项为编码层在各个编码时间步输出的语义特征向量分配权重，使每个质检项更关注与其相关的关键语义信息，进而可以提高所得到的质检结果的准确性。

可选地，上述步骤102，也即所述确定所述文本中每个词对应的词向量，可以包括：

对所述文本进行分词，得到词序列；

基于预先训练的BERT模型确定所述词序列中每个词对应的词向量；

其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述 MLM任务用于对用于训练的词序列中的预设比例的词进行掩码处理并预测被掩码处理的词。

本实施例中，上述预设比例可以根据实际情况进行合理设置，例如，上述预设比例可以为15％、20％等。优选地，上述预设比例为15％。

上述BERT模型的训练任务可以包括掩码语言模型(Masked Language Model，MLM)任务和下一句预测(Next Sentence Prediction，NSP)任务，或者上述BERT模型的训练任务仅包括MLM任务。其中，上述MLM任务用于对用于训练的词序列中的预设比例的词进行掩码处理并预测被掩码处理的词，如图2所示。上述NSP任务用于预测句子对关系。

本实施例在BERT模型的训练过程中基于词的粒度进行掩码处理，相比于现有技术中基于字的粒度进行掩码处理，可以提升BERT模型的语义理解能力，进而基于该BERT模型可以得到语义更准确且更适用于质检任务的词向量。

优选地，上述BERT模型的训练任务可以仅包括MLM任务，这样可以在保证BERT模型的精度的同时，节省训练时间。

可选地，所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量之前，所述方法还可以包括：

确定所述词序列中每个词对应的初始词向量、类别向量和位置向量，其中，所述类别向量用于表示所述词对应的语音对象，所述位置向量用于表示所述词在所述词序列中的相对位置；

分别将所述词序列中每个词对应的初始向量、类别向量和位置向量进行叠加，得到所述每个词对应的目标向量；

所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量，包括：

将所述每个词对应的目标向量输入所述BERT模型，得到所述词序列中每个词对应的词向量。

本实施例中，词序列中的每个词可以称为一个Token，上述每个词对应的初始向量也可以称为词嵌入(即Token embedding)，可以是指每个词的初始化的向量。上述每个词对应的类别向量也可以称为分段嵌入(即Segment embedding)，用于表示每个词对应的语音对象，例如，客服或者客户。上述每个词对应的位置向量也可以称为位置嵌入(即Positionembedding)，用于表示所述每个词在所述词序列中的相对位置。上述每个词对应的目标向量(也可以称为每个词的输入向量)可以为上述每个词对应的初始向量、类别向量和位置向量叠加得到的向量。

例如，如图3所示，输入如下词序列：您要咨询什么[sep]没有扣款成功[sep]好的您稍等，其中，[sep]为分隔符，可以分别得到该词序列中各个词对应的词嵌入、分段嵌入和位置嵌入，将每个词对应的词嵌入、分段嵌入和位置嵌入叠加即可以得到BERT模型的输入向量。

以下结合图4对本发明实施例提供的语音服务质量检测方法进行说明：

参见图4，质量检测模型包括依次连接的BiLSTM网络、N个注意力层和 N个全连接层，BiLSTM网络的输入端与BERT模型的输出端连接。

BERT模型基于输入的词序列输出该词序列中各个词对应的词向量，其中，输入BERT模型的词序列为待检测的语音转化的文本分词得到的。BiLSTM网络可以基于各个词对应的词向量在各个编码时间步输出语义特征向量(也可以称为隐藏状态)。

N个注意力层中的每个注意力层可以分别基于其对应的质检项，为 BiLSTM网络在各个编码时间步输出的语义特征向量分配权重，使得每个质检项可以更关注与其相关的关键语义信息。

N个全连接层中的每个全连接层基于其对应的注意力层输出的特征向量和待检测的语音对应的语音对象的特征向量拼接得到的向量，输出该全连接层对应的质检项的质检结果。其中，上述语音对象的特征向量可以是基于语音对象的特征信息生成的向量。

由上可知，本发明实施例可以基于大规模的对话语料训练BERT模型，从而基于该BERT模型可以得到语义更准确且更适用于质检任务的词向量。通过共享BERT输出的词向量和BiLSTM网络输出的语义特征向量，可以减少模型参数，降低过拟合风险。通过拼接注意力层输出的文本特征向量和语音对象的特征向量后输入全连接层，可以实现深度学习文本语义和先验知识的融合，进而可以提高质量检测模型的准确率。

本发明实施例还提供了一种模型训练方法，上述实施例的质量检测模型可以是基于本发明实施例提供的模型训练方法训练得到的模型。

参见图5，图5是本发明实施例提供的模型训练方法的流程图，如图5所示，包括以下步骤：

步骤501、获取M个语音样本，其中，所述M个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，M和 N均为大于1的整数。

本实施例中，上述M个语音样本可以是收集的客服和客户之间的对话录音，或是收集的语音机器人和用户之间的对话录音。上述N个分类标签中的每个分类标签分别用于指示其对应的质检项的质检结果，例如，若分类标签a 对应的质检项为是否正确核实用户身份，则分类标签a用于指示正确核实用户身份或者未正确核实用户身份；若分类标签b对应的质检项为是否正确回复用户咨询问题，则分类标签b用于指示正确回复用户咨询问题或者未正确回复用户咨询问题。

步骤502、分别将所述M个语音样本中的每个语音样本转换为文本，得到M个文本。

在该步骤中，可以通过ASR技术分别将M个语音样本中的每个语音样本转换为文本，得到M个文本。

步骤503、分别确定所述M个文本中每个文本的每个词对应的词向量。

该步骤中，可以先对上述每个文本进行分词，得到所述每个文本中的每个词，例如，可以调用结巴分词工具对上述每个文本进行分词；再确定所述每个文本中每个词对应的词向量，具体地，可以基于统计方法或者基于语音模型确定每个词对应的词向量。

例如，上述基于统计方法确定每个词对应的词向量可以包括基于共现矩阵或奇异值分解确定每个词对应的词向量；上述基于语音模型确定每个词对应的词向量可以包括基于Word2Vec模型、ELMo模型或者BERT模型等确定每个词对应的词向量。

优选地，可以基于BERT模型确定每个词对应的词向量，其中，所述BERT 模型的训练任务包括MLM任务，所述MLM任务用于对训练的词序列中的每个词序列中预设比例的词进行掩码处理并预测被掩码处理的词。

由于上述BERT模型在训练过程中基于词的粒度进行掩码处理，相比于现有技术中基于字的粒度进行掩码处理，可以提升BERT模型的语义理解能力，从而基于上述BERT模型可以得到语义更准确且更适用于质检任务的词向量。

步骤504 、根据所述M个文本中每个文本的每个词对应的词向量，训练质量检测模型；

本实施例中，上述编码层可以包括RNN或者LSTM网络等。优选地，所述编码层可以为BiLSTM网络。

上述编码层可基于输入的词向量输出语义特征向量。上述N个全连接层与N个质检项一一对应，上述N个全连接层中每个全连接层可以基于编码层输出的语义特征向量，分别输出该全连接层对应的质检项的质检结果，也可以称为分类结果。

可选地，所述质量检测模型还可以包括N个注意力层，所述N个注意力层与所述N个全连接层一一对应，所述编码层输出的语义特征向量分别经由所述N个注意力层中每个注意力层处理后输入所述每个注意力层对应的全连接层。

相应地，上述N个全连接层中每个全连接层可以分别基于其对应的注意力层输出的特征向量，也即经由注意力层处理后的语义特征向量，输出该全连接层对应的质检项的质检结果。

本实施例中，上述N个注意力层中的每个注意力层均可以基于注意力机制，针对其对应的质检项为编码层在各个编码时间步输出的语义特征向量分配权重，使每个质检项更关注与其相关的关键语义信息，进而可以提高所得到的质检结果的准确性。

本发明实施例提供的模型训练方法，获取M个语音样本，其中，所述M 个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N 个质检项一一对应，M和N均为大于1的整数；分别将所述M个语音样本中的每个语音样本转换为文本，得到M个文本；分别确定所述M个文本中每个文本的每个词对应的词向量；根据所述M个文本中每个文本的每个词对应的词向量，训练质量检测模型；其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层。由于共享词向量和编码层输出的语义特征向量，可以减少模型参数，降低过拟合风险。

可选地，所述方法还可以包括：

获取所述M个语音样本中每个语音样本对应的语音对象的特征信息；

分别根据所述每个语音样本对应的语音对象的特征信息，生成所述每个语音样本对应的语音对象的特征向量；

所述根据所述M个文本中每个文本的每个词对应的词向量，训练质量检测模型，包括：

根据所述每个文本的每个词对应的词向量和所述每个语音样本对应的语音对象的特征向量，训练质量检测模型。

本实施例中，若上述语音样本为客服和客户之间对话的语音，则上述语音样本对应的语音对象可以包括客服和客户中的至少一个，上述语音对象的特征信息可以包括客服和客户中的至少一个的特征信息。例如，若上述语音样本为客服a和客户b之间对话的语音，则上述语音样本对应的语音对象可以包括客服a和客户b中的至少一项，上述语音对象的特征信息可以包括客服a和客户 b中的至少一个的特征信息。

可选地，在上述质量检测模型训练过程中，可以将质量检测模型的注意力层输出的特征向量和语音对象的特征向量拼接后输入至质量检测模型的全连接层，以通过全连接层输出分类结果。

本实施例由于融合了语音对象的特征向量和语义特征向量进行质量检测模型训练，可以提高训练得到的质量检测模型的准确性。

参见图6，图6是本发明实施例提供的一种语音服务质量检测装置的结构图。如图6所示，语音服务质量检测装置600包括：

第一转换模块601，用于将待检测的语音转换为文本；

第一确定模块602，用于确定所述文本中每个词对应的词向量；

输入模块603，用于将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

可选地，所述装置还包括：

第一获取模块，用于获取所述语音对应的语音对象的特征信息；

第一生成模块，用于根据所述语音对象的特征信息生成所述语音对象的特征向量；

可选地，所述第一确定模块，包括：

分词单元，用于对所述文本进行分词，得到词序列；

确定单元，用于基于预先训练的BERT模型确定所述词序列中每个词对应的词向量；

可选地，所述装置还包括：

第二确定模块，用于所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量之前，确定所述词序列中每个词对应的初始词向量、类别向量和位置向量，其中，所述类别向量用于表示所述词对应的语音对象，所述位置向量用于表示所述词在所述词序列中的相对位置；

叠加模块，用于分别将所述词序列中每个词对应的初始向量、类别向量和位置向量进行叠加，得到所述每个词对应的目标向量；

所述确定单元具体用于：

可选地，所述编码层为双向长短期记忆网络。

本发明实施例提供的语音服务质量检测装置600能够实现上述语音服务质量检测方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的语音服务质量检测装置600，第一转换模块601，用于将待检测的语音转换为文本；第一确定模块602，用于确定所述文本中每个词对应的词向量；输入模块603，用于将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层，所述N个全连接层用于基于所述编码层输出的语义特征向量输出所述N个质检项的质检结果，N为大于1的整数。由于基于预先训练的一个质量检测模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

参见图7，图7是本发明实施例提供的一种模型训练装置的结构图。如图 7所示，模型训练装置700包括：

第二获取模块701，用于获取M个语音样本，其中，所述M个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，M和N均为大于1的整数；

第二转换模块702，用于分别将所述M个语音样本中的每个语音样本转换为文本，得到M个文本；

第三确定模块703，用于分别确定所述M个文本中每个文本的每个词对应的词向量；

训练模块704，用于根据所述M个文本中每个文本的每个词对应的词向量，训练质量检测模型；

可选地，所述装置还包括：

第三获取模块，用于获取所述M个语音样本中每个语音样本对应的语音对象的特征信息；

第二生成模块，用于分别根据所述每个语音样本对应的语音对象的特征信息，生成所述每个语音样本对应的语音对象的特征向量；

所述训练模块具体用于：

本发明实施例提供的模型训练装置700能够实现上述模型训练方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的模型训练装置700，第二获取模块701，用于获取M个语音样本，其中，所述M个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，M和N均为大于1的整数；第二转换模块702，用于分别将所述M个语音样本中的每个语音样本转换为文本，得到M个文本；第三确定模块703，用于分别确定所述M个文本中每个文本的每个词对应的词向量；训练模块704，用于根据所述M个文本中每个文本的每个词对应的词向量，训练质量检测模型；其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层。由于共享词向量和编码层输出的语义特征向量，可以减少模型参数，降低过拟合风险。

参见图8，图8是本发明实施提供的另一种语音服务质量检测装置的结构图，如图8所示，语音服务质量检测装置800包括：处理器801、存储器802 及存储在所述存储器802上并可在所述处理器上运行的计算机程序，语音服务质量检测装置800中的各个组件通过总线接口803耦合在一起，所述计算机程序被所述处理器801执行时实现如下步骤：

将待检测的语音转换为文本；

确定所述文本中每个词对应的词向量；

应理解的是，本发明实施例中，上述处理器801能够实现上述语音服务质量检测方法实施例的各个过程，为避免重复，这里不再赘述。

参见图9，图9是本发明实施提供的另一种模型训练装置的结构图，如图 9所示，模型训练装置900包括：处理器901、存储器902及存储在所述存储器902上并可在所述处理器上运行的计算机程序，模型训练装置900中的各个组件通过总线接口903耦合在一起，所述计算机程序被所述处理器901执行时实现如下步骤：

分别确定所述M个文本中每个文本的每个词对应的词向量；

应理解的是，本发明实施例中，上述处理器901能够实现上述模型训练方法实施例的各个过程，为避免重复，这里不再赘述。

本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音服务质量检测方法实施例的各个过程，或者实现上述模型训练方法实施例的各个过程且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音服务质量检测方法实施例的各个过程，或者实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器 (Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音服务质量检测方法，其特征在于，包括：

将待检测的语音转换为文本；

确定所述文本中每个词对应的词向量；

所述方法还包括：

获取所述语音对应的语音对象的特征信息；

根据所述语音对象的特征信息生成所述语音对象的特征向量；其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层，所述N个全连接层用于基于所述编码层输出的语义特征向量和所述语音对象的特征向量输出所述N个质检项的质检结果，N为大于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述质量检测模型还包括N个注意力层，所述N个注意力层与所述N个全连接层一一对应，所述编码层输出的语义特征向量分别经由所述N个注意力层中每个注意力层处理后输入所述每个注意力层对应的全连接层。

3.根据权利要求1所述的方法，其特征在于，所述确定所述文本中每个词对应的词向量，包括：

对所述文本进行分词，得到词序列；

其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述MLM任务用于对用于训练的词序列中的预设比例的词进行掩码处理并预测被掩码处理的词。

4.根据权利要求3所述的方法，其特征在于，所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量之前，所述方法还包括：

5.一种模型训练方法，其特征在于，包括：

获取M个语音样本，其中，所述M个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，M和N均为大于1的整数；

分别确定所述M个文本中每个文本的每个词对应的词向量；

所述方法还包括：

根据所述每个文本的每个词对应的词向量和所述每个语音样本对应的语音对象的特征向量，训练质量检测模型；

6.一种语音服务质量检测装置，其特征在于，包括：

第一转换模块，用于将待检测的语音转换为文本；

第一确定模块，用于确定所述文本中每个词对应的词向量；

所述装置还包括：

其中，所述质量检测模型包括编码层和N个全连接层，所述编码层输出的语义特征向量输入所述N个全连接层，所述N个全连接层用于基于所述编码层输出的语义特征向量和所述语音对象的特征向量输出所述N个质检项的质检结果，N为大于1的整数。

7.一种模型训练装置，其特征在于，包括：

所述装置还包括：

所述训练模块具体用于：

8.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音服务质量检测方法的步骤，或者实现如权利要求5所述的模型训练方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语音服务质量检测方法的步骤，或者实现如权利要求5所述的模型训练方法的步骤。