CN111538809A

CN111538809A - 一种语音服务质量检测方法、模型训练方法及装置

Info

Publication number: CN111538809A
Application number: CN202010312295.1A
Authority: CN
Inventors: 席泽西; 赵立军
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-14
Anticipated expiration: 2040-04-20
Also published as: CN111538809B

Abstract

本发明提供一种语音服务质量检测方法、模型训练方法及装置，该语音服务质量检测方法包括：将待检测的语音转换为文本；确定所述文本中每个词对应的词向量；将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；其中，所述质量检测模型包括序列到序列模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应。通过本发明提供的语音服务质量检测方法，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

Description

一种语音服务质量检测方法、模型训练方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音服务质量检测方法、模型训练方法及装置。

背景技术

随着语音技术的不断发展，语音服务变得越来越普遍，例如，服务提供方可以基于客服呼叫中心为用户提供语音服务，或者通过语音机器人为用户提供语音服务等。为了进一步提高为用户提供语音服务的质量，对语音服务进行质量检测十分必要。以基于客服呼叫中心为用户提供语音服务为例，可以检测客服接听用户电话时态度是否礼貌、是否正确核实用户身份、是否正确复述通话结果、是否正确回复用户咨询问题等。

目前，主要是通过正则匹配方法或是模型法对语音服务进行质量检测，其中，模型法是指通过传统模型或深度学习模型提取语音中的语义信息特征，训练分类模型以预测质检结果。然而，实际情况中语音服务的质检项往往数量较多，这样需要针对每个质检项分别训练一个分类模型，不仅需要较长的训练时间，还会导致基于多个质检项进行语音服务质量检测时所需的计算资源较多。

发明内容

本发明实施例提供一种语音服务质量检测方法、模型训练方法及装置，以解决现有技术中基于多个质检项进行语音服务质量检测时所需的计算资源较多的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音服务质量检测方法。该方法包括：

将待检测的语音转换为文本；

确定所述文本中每个词对应的词向量；

将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

其中，所述质量检测模型包括序列到序列模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层，所述N个softmax层用于输出所述N个质检项的质检结果，N为大于1的整数。

第二方面，本发明实施例还提供一种模型训练方法。该方法包括：

获取L个语音样本，其中，所述L个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，L和N均为大于1的整数；

分别将所述L个语音样本中的每个语音样本转换为文本，得到L个文本；

分别确定所述L个文本中每个文本的每个词对应的词向量；

根据所述L个文本中每个文本的每个词对应的词向量训练质量检测模型；

其中，所述质量检测模型包括序列到序列模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层。

第三方面，本发明实施例还提供一种模型训练方法。该方法包括：

获取K个语音样本，K为大于1的整数；

将所述K个语音样本转换为文本，得到K个文本；

分别对所述K个文本中的每个文本进行分词，得到K个词序列；

根据所述K个词序列训练BERT模型；其中，在训练所述BERT模型的过程中对所述K个词序列中每个词序列中预设比例的词进行掩码处理。

第四方面，本发明实施例还提供一种语音服务质量检测装置。该语音服务质量检测装置包括：

第一转换模块，用于将待检测的语音转换为文本；

第一确定模块，用于确定所述文本中每个词对应的词向量；

输入模块，用于将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

第五方面，本发明实施例还提供一种模型训练装置。该模型训练装置包括：

第一获取模块，用于获取L个语音样本，其中，所述L个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，L和N均为大于1的整数；

第二转换模块，用于分别将所述L个语音样本中的每个语音样本转换为文本，得到L个文本；

第三确定模块，用于分别确定所述L个文本中每个文本的每个词对应的词向量；

第一训练模块，用于根据所述L个文本中每个文本的每个词对应的词向量训练质量检测模型；

第六方面，本发明实施例还提供一种模型训练装置。该模型训练装置包括：

第二获取模块，用于获取K个语音样本，K为大于1的整数；

第三转换模块，用于将所述K个语音样本转换为文本，得到K个文本；

分词模块，用于分别对所述K个文本中的每个文本进行分词，得到K个词序列；

第二训练模块，用于根据所述K个词序列训练BERT模型；其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述MLM任务用于对所述K个词序列中的每个词序列中预设比例的词进行掩码处理并预测被掩码处理的词。

第七方面，本发明实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面提供的语音服务质量检测方法的步骤，或者实现上述第二方面提供的模型训练方法的步骤，或者实现上述第三方面提供的模型训练方法的步骤。

第八方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的语音服务质量检测方法的步骤，或者实现上述第二方面提供的模型训练方法的步骤，或者实现上述第三方面提供的模型训练方法的步骤。

本发明实施例中，通过将待检测的语音转换为文本；确定所述文本中每个词对应的词向量；将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果。由于基于预先训练的一个质量检测模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音服务质量检测方法的流程图；

图2是本发明实施例提供的BERT模型的输入向量的示意图；

图3是本发明实施例提供的Seq2Seq模型的示意图；

图4是本发明实施例提供的一种模型训练方法的流程图；

图5是本发明实施例提供的另一种模型训练方法的流程图；

图6是本发明实施例提供的对词系列中预设比例的词进行掩码的示意图；

图7是本发明实施例提供的一种语音服务质量检测装置的结构图；

图8是本发明实施例提供的一种模型训练装置的结构图；

图9是本发明实施例提供的另一种模型训练装置的结构图；

图10是本发明实施提供的另一种语音服务质量检测装置的结构图；

图11是本发明实施提供的另一种模型训练装置的结构图；

图12是本发明实施提供的另一种模型训练装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音服务质量检测方法。参见图1，图1是本发明实施例提供的语音服务质量检测方法的流程图，如图1所示，包括以下步骤：

步骤101、将待检测的语音转换为文本。

本实施例中，上述待检测的语音可以是客服和客户之间对话的语音，或是语音机器人和用户之间对话的语音等。在该步骤中，可以通过自动语音识别(Automatic SpeechRecognition，ASR)技术将待检测的语音转换为文本。

步骤102、确定所述文本中每个词对应的词向量。

该步骤中，可以先对上述文本进行分词，得到所述文本中的每个词，例如，可以调用结巴分词工具对上述文本进行分词；再确定所述文本中每个词对应的词向量，具体地，可以基于统计方法或者基于语音模型确定每个词对应的词向量。

例如，上述基于统计方法确定每个词对应的词向量可以包括基于共现矩阵或奇异值分解确定每个词对应的词向量；上述基于语音模型确定每个词对应的词向量可以包括基于Word2Vec模型、ELMo模型或者BERT(Bidirectional Encoder Representations fromTransformers，双向变换器的编码器)模型等确定每个词对应的词向量。

步骤103、将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

其中，所述质量检测模型包括序列到序列(Sequence to Sequence，简称为Seq2Seq)模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层，所述N个softmax层用于输出所述N个质检项的质检结果，N为大于1的整数。

本实施例中，上述编码层可以包括循环神经网络(Recurrent Neural Network，RNN)或者长短期记忆(Long Short-Term Memory，LSTM)网络等，上述解码层可以包括RNN、LSTM网络或者门控循环单元(Gated Recurrent Unit，GRU)网络等。

上述编码层可基于输入的词向量输出编码结果，例如语义特征向量。上述解码层可基于输入的编码结果(例如语义特征向量)输出N个解码结果(也可称为隐状态)。上述N个softmax层中每个softmax层用于基于在其对应的解码时间步输出的解码结果输出质检结果。

实际应用中，基于一个质检项对语音服务质量进行质检可被看作为一个二分类问题(也即将被分类对象划分为两个类别中的一个)，基于多个质检项对语音服务质量进行质检可被看作为多个二分类问题，本实施例可以在训练上述Seq2Seq模型的过程中对每个语音样本标注N个分类标签，N个分类标签与N个质检项一一对应，这样通过Seq2Seq模型的N个softmax层可以输出对应于N个质检项的分类结果，也即N个质检结果。

例如，N为4，4个质检项分别为接听用户电话时态度是否礼貌、是否正确核实用户身份、是否正确复述通话结果以及是否正确回复用户咨询问题，则4个softmax层输出的4个分类结果分别表示上述4个质检项的质检结果。

本发明实施例提供的语音服务质量检测方法，通过将待检测的语音转换为文本；确定所述文本中每个词对应的词向量；将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果。由于基于预先训练的一个质量检测模型(Seq2Seq模型)即可实现对语音服务过程中的语音进行N个质检项的质量检测，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

可选地，所述N个解码时间步中存在S个目标解码时间步，所述目标解码时间步基于所述编码层输出的编码结果、所述目标解码时间步的前一解码时间步输出的解码结果和所述目标解码时间步的前一解码时间步对应的softmax层输出的质检结果进行解码，S为大于0且小于N的整数。

本实施例中，N个解码时间步存在S个解码时间步在解码时结合其前一解码时间步对应的softmax层输出的质检结果进行解码，由于在确定某一些质检项的质检结果的过程中需要考虑其他质检项的质检结果，这样可以加强Seq2Seq模型对质检项之间相关性的学习，进而可以提高所得到的质检结果的准确性。

优选地，S的取值为N-1。也即上述N个解码时间步中除第一个解码时间步之外，剩下的每个解码时间步均在解码时结合其前一解码时间步对应的softmax层输出的质检结果进行解码，可以进一步提高所得到的质检结果的准确性。

可选地，所述序列到序列模型还包括注意力层，所述编码层输出的编码结果经由所述注意力层处理后输入所述解码层。

本实施例中，上述注意力层也即Atttention层，其中，上述注意力层可以基于注意力机制，针对各质检项为编码层在各个编码时间步输出的编码结果(例如语义特征向量)分配不同的权重，使每个质检项更关注与其相关的关键语义信息，进而可以提高所得到的质检结果的准确性。

可选地，所述编码层可以为双向长短期记忆(Bidirectional Long Short-TermMemory，BiLSTM)网络，所述解码层可以为GRU。

可选地，上述步骤102，也即所述确定所述文本中每个词对应的词向量，可以包括：

对所述文本进行分词，得到词序列；

基于预先训练的BERT模型确定所述词序列中每个词对应的词向量；

其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述MLM任务用于对用于训练的词序列中的预设比例的词进行掩码处理并预测被掩码处理的词。

本实施例中，上述预设比例可以根据实际情况进行合理设置，例如，上述预设比例可以为15％、20％等。优选地，上述预设比例为15％。

上述BERT模型的训练任务可以包括掩码语言模型(Masked Language Model，MLM)任务和下一句预测(Next Sentence Prediction，NSP)任务，或者上述BERT模型的训练任务仅包括MLM任务。其中，上述MLM任务用于对用于训练的词序列中的预设比例的词进行掩码处理并预测被掩码处理的词，上述NSP任务用于预测句子对关系。

本实施例在BERT模型的训练过程中基于词的粒度进行掩码处理，相比于现有技术中基于字的粒度进行掩码处理，可以提升BERT模型的语义理解能力，进而基于该BERT模型可以得到语义更准确且更适用于质检任务的词向量。

优选地，上述BERT模型的训练任务可以仅包括MLM任务，这样可以在保证BERT模型的精度的同时，节省训练时间。

可选地，所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量之前，所述方法还可以包括：

确定所述词序列中每个词对应的初始向量、类别向量和位置向量，其中，所述类别向量用于表示所述每个词对应的语音对象，所述位置向量用于表示所述每个词在所述词序列中的相对位置；

分别将所述词序列中每个词对应的初始向量、类别向量和位置向量进行叠加，得到所述每个词对应的目标向量；

所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量，可以包括：

将所述每个词对应的目标向量输入所述BERT模型，得到所述词序列中每个词对应的词向量。

本实施例中，词序列中的每个词可以称为一个Token，上述每个词对应的初始向量也可以称为词嵌入(即Token embedding)，可以是指每个词的初始化的向量。上述每个词对应的类别向量也可以称为分段嵌入(即Segment embedding)，用于表示每个词对应的语音对象，例如，客服或者客户。上述每个词对应的位置向量也可以称为位置嵌入(即Positionembedding)，用于表示所述每个词在所述词序列中的相对位置。上述每个词对应的目标向量(也可以称为每个词的输入向量)可以为上述每个词对应的初始向量、类别向量和位置向量叠加得到的向量。

例如，如图2所示，输入如下词序列：您要咨询什么[sep]没有扣款成功[sep]好的您稍等，其中，[sep]为分隔符，可以分别得到该词序列中各个词对应的词嵌入、分段嵌入和位置嵌入，将每个词对应的词嵌入、分段嵌入和位置嵌入叠加即可以得到BERT模型的输入向量。

以下结合图3对本发明实施例提供的语音服务质量检测方法进行说明：

参见图3，Seq2Seq模型包括依次连接的BiLSTM网络、注意力层、GRU网络和N个softmax层，BiLSTM网络的输入端与BERT模型的输出端连接。BERT模型基于输入的词序列(也即x₀至x_m)输出词序列中各个词对应的词向量。

BiLSTM网络基于各个词对应的词向量进行语义提取，输出M个语义特征向量。注意力层针对各质检项为BiLSTM网络输出的M个语义特征向量分配不同的权重，得到N个特征向量(也即c₀至c_n)。

GRU网络基于N个特征向量进行N步解码(也即s₀至s_n)，其中，N个解码时间步中的每个解码时间步的解码结果输入该解码时间步对应的softmax层，以通过softmax层输出该解码时间步对应的质检项的质检结果(也即y₀至y_n)。需要说明的是，每个解码时间步基于其对应的语义特征向量、其前一解码时间步的解码结果以及其前一解码时间步对应的softmax层输出的质检结果进行解码。

由上可知，本发明实施例可以基于大规模的对话语料训练BERT模型，从而得到语义更准确且更适用于质检任务的词向量。通过Seq2Seq模型将语音服务质量检测转化为序列预测问题，通过Seq2Seq模型的编码层提取文本语义信息，Seq2Seq模型的解码层挖掘各个质检项间的相关性，得到质检结果序列，不仅可以实现基于一个Seq2Seq模型对语音服务进行多个质检项的检测，还可以提高语音服务质量检测的准确性和效率。

本发明实施例还提供了一种模型训练方法，上述实施例的Seq2Seq模型可以是基于本发明实施例提供的模型训练方法训练得到的模型。参见图4，图4是本发明实施例提供一种的模型训练方法的流程图，如图4所示，包括以下步骤：

步骤401、获取L个语音样本，其中，所述L个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，L和N均为大于1的整数。

本实施例中，上述L个语音样本可以是收集的客服和客户之间的对话录音，或是收集的语音机器人和用户之间的对话录音。上述N个分类标签中的每个分类标签分别用于指示其对应的质检项的质检结果，例如，若分类标签a对应的质检项为是否正确核实用户身份，则分类标签a用于指示正确核实用户身份或者未正确核实用户身份；若分类标签b对应的质检项为是否正确回复用户咨询问题，则分类标签b用于指示正确回复用户咨询问题或者未正确回复用户咨询问题。

步骤402、分别将所述L个语音样本中的每个语音样本转换为文本，得到L个文本。

在该步骤中，可以通过ASR技术分别将L个语音样本中的每个语音样本转换为文本，得到L个文本。

步骤403、分别确定所述L个文本中每个文本的每个词对应的词向量。

该步骤中，可以先对上述每个文本进行分词，得到所述每个文本中的每个词，例如，可以调用结巴分词工具对上述每个文本进行分词；再确定所述每个文本中每个词对应的词向量，具体地，可以基于统计方法或者基于语音模型确定每个词对应的词向量。

例如，上述基于统计方法确定每个词对应的词向量可以包括基于共现矩阵或奇异值分解确定每个词对应的词向量；上述基于语音模型确定每个词对应的词向量可以包括基于Word2Vec模型、ELMo模型或者BERT模型等确定每个词对应的词向量。

优选地，可以基于BERT模型确定每个词对应的词向量，其中，所述BERT模型的训练任务包括MLM任务，所述MLM任务用于对K个词序列中的每个词序列中预设比例的词进行掩码处理并预测被掩码处理的词，所述K个词序列为对用于所述BERT模型训练的K个语音样本转化得到的K个文本进行分词得到。

由于上述BERT模型在训练过程中基于词的粒度进行掩码处理，相比于现有技术中基于字的粒度进行掩码处理，可以提升BERT模型的语义理解能力，从而基于上述BERT模型可以得到语义更准确且更适用于质检任务的词向量。

步骤404、根据所述L个文本中每个文本的每个词对应的词向量训练质量检测模型；其中，所述质量检测模型包括序列到序列模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层。

本实施例中，上述编码层可以包括RNN或者LSTM网络等，上述解码层可以包括RNN、LSTM网络或者GRU网络等。优选地，所述编码层可以为BiLSTM网络，所述解码层可以为GRU。

上述编码层可基于输入的词向量输出编码结果，例如语义特征向量。上述解码层可基于输入的编码结果(例如，语义特征向量)输出N个解码结果。上述N个softmax层中每个softmax层用于基于在其对应的解码时间步输出的解码结果输出分类结果，也即质检结果。

本发明实施例提供的模型训练方法，通过获取L个语音样本，其中，所述L个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，L和N均为大于1的整数；分别将所述L个语音样本中的每个语音样本转换为文本，得到L个文本；分别确定所述L个文本中每个文本的每个词对应的词向量；根据所述L个文本中每个文本的每个词对应的词向量训练质量检测模型；其中，所述质量检测模型包括序列到序列模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层，这样训练得到的Seq2Seq模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，相比于现有技术中针对每个质检项分别训练一个分类模型，不仅可以减少模型训练时间，还可以减少模型所需占用的空间。

本实施例在Seq2Seq模型训练过程中，存在S个解码时间步在解码时结合其前一解码时间步对应的softmax层输出的质检结果对应的分类标签(也即期望值)进行解码，这样可以加强Seq2Seq模型对质检项之间相关性的学习，进而可以提高所得到的质检结果的准确性。

本实施例中，上述注意力层也即Atttention层，其中，上述注意力层可以基于注意力机制，针对各质检项为编码层输出的M个编码结果(例如语义特征向量)分配不同的权重，使每个质检项更关注与其相关的关键语义信息，进而可以提高所得到的质检结果的准确性。其中，上述M可以是编码层输入的词向量的个数。

可选地，参见图3，所述Seq2Seq模型可以包括依次连接的BiLSTM网络、注意力层、GRU网络和N个softmax层，BiLSTM网络的输入端与BERT模型的输出端连接，其中，GRU网络包括N个解码时间步，N个解码时间步与N个softmax层一一对应，上述N个softmax层用于输出N个质检项对应的质检结果。

本发明实施例还提供了一种模型训练方法，上述实施例的BERT模型可以是基于本发明实施例提供的模型训练方法训练得到的模型。参见图5，图5是本发明实施例提供的另一种模型训练方法的流程图，如图5所示，包括以下步骤：

步骤501、获取K个语音样本，K为大于1的整数。

本实施例中，上述K个语音样本可以是收集的客服和客户之间的对话录音，或是收集的语音机器人和用户之间的对话录音。

步骤502、分别将所述K个语音样本中的每个语音样本转换为文本，得到K个文本。

在该步骤中，可以通过ASR技术分别将K个语音样本中的每个语音样本转换为文本，得到K个文本。

步骤503、分别对所述K个文本中的每个文本进行分词，得到K个词序列。

例如，可以调用结巴分词工具对上述K个文本中的每个文本进行分词，得到K个词序列。

步骤504、根据所述K个词序列训练BERT模型；其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述MLM任务用于对所述K个词序列中的每个词序列中预设比例的词进行掩码处理并预测被掩码处理的词。

本实施例中，上述BERT模型的训练任务可以包括MLM任务和NSP任务，或者上述BERT模型的训练任务仅包括MLM任务。其中，上述MLM任务用于对K个词序列中的每个词序列中预设比例的词进行掩码(即Mask)处理并预测被掩码处理的词，如图6所示。上述NSP任务用于预测句子对关系。

需要说明的是，上述预设比例可以根据实际情况进行合理设置，例如，15％、20％等。优选地，上述预设比例为15％。

本发明实施例提供的模型训练方法，由于在BERT模型的MLM任务中基于词的粒度进行掩码处理，相比于现有技术中基于字的粒度进行掩码处理，可以提升BERT模型的语义理解能力，进而使得基于该BERT模型可以得到语义更准确且更适用于质检任务的词向量。

可选地，所述根据所述K个词序列训练BERT模型之前，所述方法还可以包括：

确定所述K个词序列中的每个词序列中每个词对应的初始向量、类别向量和位置向量，其中，所述类别向量用于表示所述每个词对应的语音对象，所述位置向量用于表示所述每个词在其所属的词序列中的相对位置；

分别将所述每个词对应的初始向量、类别向量和位置向量进行叠加，得到所述每个词对应的目标向量；

所述根据所述K个词序列训练BERT模型，包括：

根据所述每个词对应的目标向量训练BERT模型。

本实施例中，词序列中的每个词可以称为一个Token，上述每个词对应的初始向量也可以称为词嵌入(即Token embedding)，可以是指每个词的初始化的向量。上述每个词对应的类别向量也可以称为分段嵌入(即Segment embedding)，用于表示每个词对应的语音对象，例如，客服或者客户。上述每个词对应的位置向量也可以称为位置嵌入(即Positionembedding)，用于表示所述每个词位在其所属的词序列中的相对位置。上述每个词对应的目标向量(也可以称为每个词的输入向量)可以为上述每个词对应的初始向量、类别向量和位置向量叠加得到的向量。

参见图7，图7是本发明实施例提供的一种语音服务质量检测装置的结构图。如图7所示，语音服务质量检测装置700包括：

第一转换模块701，用于将待检测的语音转换为文本；

第一确定模块702，用于确定所述文本中每个词对应的词向量；

输入模块703，用于将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；

其中，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层，所述N个softmax层用于输出所述N个质检项的质检结果，N为大于1的整数。

可选地，S的取值为N-1。

可选地，所述第一确定模块，包括：

分词单元，用于对所述文本进行分词，得到词序列；

确定单元，用于基于预先训练的BERT模型确定所述词序列中每个词对应的词向量，其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述MLM任务用于对用于训练的词序列中的预设比例的词进行掩码处理并预测被掩码处理的词。

可选地，所述装置还包括：

第二确定模块，用于所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量之前，确定所述词序列中每个词对应的初始向量、类别向量和位置向量，其中，所述类别向量用于表示所述每个词对应的语音对象，所述位置向量用于表示所述每个词在所述词序列中的相对位置；

叠加模块，用于分别将所述词序列中每个词对应的初始向量、类别向量和位置向量进行叠加，得到所述每个词对应的目标向量；

所述确定单元具体用于：

可选地，所述编码层为双向长短期记忆网络，所述解码层为门控循环单元网络。

本发明实施例提供的语音服务质量检测装置700能够实现上述语音服务质量检测方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的语音服务质量检测装置700，第一转换模块701，用于将待检测的语音转换为文本；第一确定模块702，用于确定所述文本中每个词对应的词向量；输入模块703，用于将所述每个词对应的词向量输入预先训练的质量检测模型，得到所述语音对应的N个质检项的质检结果；其中，所述质量检测模型包括序列到序列模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层，所述N个softmax层用于输出所述N个质检项的质检结果，N为大于1的整数。由于基于预先训练的一个Seq2Seq模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，不仅可以提高语音服务质量检测的效率，还可以减少基于多个质检项进行语音服务质量检测时所需的计算资源。

参见图8，图8是本发明实施例提供的一种模型训练装置的结构图。如图8所示，模型训练装置800包括：

第一获取模块801，用于获取L个语音样本，其中，所述L个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，L和N均为大于1的整数；

第二转换模块802，用于分别将所述L个语音样本中的每个语音样本转换为文本，得到L个文本；

第三确定模块803，用于分别确定所述L个文本中每个文本的每个词对应的词向量；

第一训练模块804，用于根据所述L个文本中每个文本的每个词对应的词向量训练质量检测模型；

本发明实施例提供的模型训练装置800能够实现上述模型训练方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的模型训练装置800，第一获取模块801，用于获取L个语音样本，其中，所述L个语音样本中每个语音样本均标注有N个分类标签，所述N个分类标签与N个质检项一一对应，L和N均为大于1的整数；第二转换模块802，用于分别将所述L个语音样本中的每个语音样本转换为文本，得到L个文本；第三确定模块803，用于分别确定所述L个文本中每个文本的每个词对应的词向量；第一训练模块804，用于根据所述L个文本中每个文本的每个词对应的词向量训练质量检测模型；其中，所述质量检测模型包括序列到序列模型，所述序列到序列模型包括编码层、解码层和N个softmax层，所述解码层包括N个解码时间步，所述N个解码时间步与所述N个softmax层一一对应，所述编码层输出的编码结果输入所述解码层，所述解码层的N个解码时间步中每个解码时间步输出的解码结果分别输入所述每个解码时间步对应的softmax层。这样训练得到的Seq2Seq模型即可实现对语音服务过程中的语音进行N个质检项的质量检测，相比于现有技术中针对每个质检项分别训练一个分类模型，不仅可以减少模型训练时间，还可以减少模型所需占用的空间。

参见图9，图9是本发明实施例提供的另一种模型训练装置的结构图。如图9所示，模型训练装置900包括：

第二获取模块901，用于获取K个语音样本，K为大于1的整数；

第三转换模块902，用于将所述K个语音样本转换为文本，得到K个文本；

分词模块903，用于分别对所述K个文本中的每个文本进行分词，得到K个词序列；

第二训练模块904，用于根据所述K个词序列训练BERT模型；其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述MLM任务用于对所述K个词序列中的每个词序列中预设比例的词进行掩码处理并预测被掩码处理的词。

本发明实施例提供的模型训练装置900能够实现上述模型训练方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的模型训练装置900，第二获取模块901，用于获取K个语音样本，K为大于1的整数；第三转换模块902，用于将所述K个语音样本转换为文本，得到K个文本；分词模块903，用于分别对所述K个文本中的每个文本进行分词，得到K个词序列；第二训练模块904，用于根据所述K个词序列训练BERT模型；其中，在训练所述BERT模型的过程中对所述K个词序列中每个词序列中预设比例的词进行掩码处理。由于在BERT模型的MLM任务中基于词的粒度进行掩码处理，相比于现有技术中基于字的粒度进行掩码处理，可以提升BERT模型的语义理解能力，进而使得基于该BERT模型可以得到语义更准确且更适用于质检任务的词向量。

参见图10，图10是本发明实施提供的另一种语音服务质量检测装置的结构图，如图10所示，语音服务质量检测装置1000包括：处理器1001、存储器1002及存储在所述存储器1002上并可在所述处理器上运行的计算机程序，数据发送装置1000中的各个组件通过总线接口1003耦合在一起，所述计算机程序被所述处理器1001执行时实现如下步骤：

将待检测的语音转换为文本；

确定所述文本中每个词对应的词向量；

应理解的是，本发明实施例中，上述处理器1001能够实现上述语音服务质量检测方法实施例的各个过程，为避免重复，这里不再赘述。

参见图11，图11是本发明实施提供的另一种模型训练装置的结构图，如图11所示，模型训练装置1100包括：处理器1101、存储器1102及存储在所述存储器1102上并可在所述处理器上运行的计算机程序，数据发送装置1100中的各个组件通过总线接口1103耦合在一起，所述计算机程序被所述处理器1101执行时实现如下步骤：

分别确定所述L个文本中每个文本的每个词对应的词向量；

应理解的是，本发明实施例中，上述处理器1101能够实现上述模型训练方法实施例的各个过程，为避免重复，这里不再赘述。

参见图12，图12是本发明实施提供的另一种模型训练装置的结构图，如图12所示，模型训练装置1200包括：处理器1201、存储器1202及存储在所述存储器1202上并可在所述处理器上运行的计算机程序，数据发送装置1200中的各个组件通过总线接口1203耦合在一起，所述计算机程序被所述处理器1201执行时实现如下步骤：

获取K个语音样本，K为大于1的整数；

将所述K个语音样本转换为文本，得到K个文本；

根据所述K个词序列训练BERT模型；其中，所述BERT模型的训练任务包括掩码语言模型MLM任务，所述MLM任务用于对所述K个词序列中的每个词序列中预设比例的词进行掩码处理并预测被掩码处理的词。

应理解的是，本发明实施例中，上述处理器1201能够实现上述模型训练方法实施例的各个过程，为避免重复，这里不再赘述。

本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音服务质量检测方法实施例的各个过程，或者实现上述模型训练方法实施例的各个过程且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音服务质量检测方法实施例的各个过程，或者实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音服务质量检测方法，其特征在于，包括：

将待检测的语音转换为文本；

确定所述文本中每个词对应的词向量；

2.根据权利要求1所述的方法，其特征在于，所述N个解码时间步中存在S个目标解码时间步，所述目标解码时间步基于所述编码层输出的编码结果、所述目标解码时间步的前一解码时间步输出的解码结果和所述目标解码时间步的前一解码时间步对应的softmax层输出的质检结果进行解码，S为大于0且小于N的整数。

3.根据权利要求2所述的方法，其特征在于，S的取值为N-1。

4.根据权利要求1所述的方法，其特征在于，所述序列到序列模型还包括注意力层，所述编码层输出的编码结果经由所述注意力层处理后输入所述解码层。

5.根据权利要求1所述的方法，其特征在于，所述确定所述文本中每个词对应的词向量，包括：

对所述文本进行分词，得到词序列；

6.根据权利要求5所述的方法，其特征在于，所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量之前，所述方法还包括：

所述基于预先训练的BERT模型确定所述词序列中每个词对应的词向量，包括：

7.一种模型训练方法，其特征在于，包括：

分别确定所述L个文本中每个文本的每个词对应的词向量；

8.根据权利要求7所述的方法，其特征在于，所述N个解码时间步中存在S个目标解码时间步，所述目标解码时间步基于所述编码层输出的编码结果、所述目标解码时间步的前一解码时间步输出的解码结果和所述目标解码时间步的前一解码时间步对应的softmax层输出的质检结果进行解码，S为大于0且小于N的整数。

9.一种模型训练方法，其特征在于，包括：

获取K个语音样本，K为大于1的整数；

将所述K个语音样本转换为文本，得到K个文本；

10.一种语音服务质量检测装置，其特征在于，包括：

第一转换模块，用于将待检测的语音转换为文本；

第一确定模块，用于确定所述文本中每个词对应的词向量；

11.一种模型训练装置，其特征在于，包括：

12.一种模型训练装置，其特征在于，包括：

第二获取模块，用于获取K个语音样本，K为大于1的整数；

第二训练模块，用于根据所述K个词序列训练BERT模型；其中，在训练所述BERT模型的过程中对所述K个词序列中每个词序列中预设比例的词进行掩码处理。

13.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音服务质量检测方法的步骤，或者实现如权利要求7至8中任一项所述的模型训练方法的步骤，或者实现如权利要求9所述的模型训练方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音服务质量检测方法的步骤，或者实现如权利要求7至8中任一项所述的模型训练方法的步骤，或者实现如权利要求9所述的模型训练方法的步骤。