CN113903358B

CN113903358B - 语音质检方法、可读存储介质及计算机程序产品

Info

Publication number: CN113903358B
Application number: CN202111202033.0A
Authority: CN
Inventors: 汤志远; 李先刚; 郑善福
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-11-04
Anticipated expiration: 2041-10-15
Also published as: CN113903358A

Abstract

本发明实施例提出语音质检方法、可读存储介质及计算机程序产品。方法包括：将待质检的语音片段转录成文本序列，对所述文本序列进行文本编码，得到所述语音片段对应的文本特征序列；对所述语音片段进行语音编码，得到所述语音片段对应的语音特征序列；对所述文本特征序列和所述语音特征序列进行融合，得到融合特征序列；将所述融合特征序列输入深度神经网络模型进行计算，得到融合特征的隐空间表征序列；将所述融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，分别得到所述语音片段对应的文本，以及所述语音片段对应的文本中每个词的质检结果。本发明实施例提高了语音质检的质量。

Description

语音质检方法、可读存储介质及计算机程序产品

技术领域

本发明实施例涉及语音质检方法、可读存储介质及计算机程序产品。

背景技术

语音质检广泛应用于各种涉及语音交互的场景，如客服系统、直播等，其目标在于对语音中各种违法违规的语句进行检测，也可对说话人所展现的不良情绪或态度进行检测，以便进一步处理和防患。

当前的语音质检方法通常包括两个阶段：阶段一，使用语音识别系统获取语音对应的文本；阶段二、根据收集的违法违规词汇表，对阶段一获取到的文本进行检索。

上述语音质检方法的缺点如下：

仅使用了语音对应的文本结果，并未有效利用语音中包含的丰富的副语言信息，比如情绪、语气等。然而，副语言信息可有效提高语音质检水平，一方面，由于语音环境复杂多样，语音识别系统并不能保证转录的文本完全正确，这使得后续基于文本的分析不能得到保障，而进一步考虑副语言信息可进行一定的弥补；另一方面，副语言信息与说话人的情绪、态度等状态直接相关，对副语言信息的分析可进一步提高语音质检质量。

发明内容

本发明实施例提出语音质检方法、可读存储介质及计算机程序产品，以提高语音质检的质量。

本发明实施例的技术方案是这样实现的：

一种语音质检方法，该方法包括：

将待质检的语音片段转录成文本序列，对所述文本序列进行文本编码，得到所述语音片段对应的文本特征序列；对所述语音片段进行语音编码，得到所述语音片段对应的语音特征序列；

对所述文本特征序列和所述语音特征序列进行融合，得到融合特征序列；

将所述融合特征序列输入深度神经网络模型进行计算，得到融合特征的隐空间表征序列；

将所述融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，分别得到所述语音片段对应的文本以及所述语音片段对应的文本中每个词的质检结果。

所述将待质检的语音片段转录成文本序列，包括：

将待质检的语音片段输入语音识别模型进行计算，所述语音识别模型的输出即为所述语音片段对应的文本序列；

所述语音识别模型通过如下方式得到：

将预先采集的语音片段样本依次输入待训练的语音识别模型进行学习，将每个语音片段样本对应的模型的实际输出文本序列与期望输出文本序列进行比对，根据比对结果，调整模型参数，直至模型收敛，其中，语音片段样本对应的模型的期望输出文本序列为该语音片段样本对应的准确文本序列。

所述语音识别模型为：基于Transformer的模型，或者基于卷积增强的Transformer的模型，或者深度神经网络-隐马尔可夫模型。

所述对所述文本序列进行文本编码，得到所述语音片段对应的文本特征序列，包括：

将所述文本序列输入文本编码模型进行计算，所述文本编码模型的预先选定的一个或多个隐层输出的隐空间向量序列即为所述语音片段对应的文本特征序列；

所述文本编码模型通过如下方式得到：

对预先采集的每个文本序列样本分别进行如下预处理：随机屏蔽一个或多个词；将预处理后的每个文本序列样本依次输入到文本编码模型进行学习；将预处理后的每个文本序列样本对应的模型的实际输出文本特征序列与期望输出文本特征序列进行比对；根据比对结果，调整模型参数，直至模型收敛，其中，预处理后的每个文本序列样本对应的模型的期望输出文本特征序列为预处理前的该文本序列样本。

所述文本编码模型为：基于Transformers的双向编码表征模型，或者生成式预训练Transformer模型。

所述对所述语音片段进行语音编码，得到所述语音片段对应的语音特征序列，包括：

将所述语音片段输入语音编码模型进行计算，所述语音编码模型的预先选定的一个或多个隐层输出的隐空间向量序列即为所述语音片段对应的语音特征序列；

所述语音编码模型通过如下方式得到：

对预先采集的每个语音片段样本分别进行如下预处理：随机屏蔽一帧或多帧；将预处理后的每个语音片段样本依次输入到语音编码模型进行学习；将预处理后的每个语音片段样本对应的模型的实际输出语音特征序列与期望输出语音特征序列进行比对，根据比对结果，调整模型参数，直至模型收敛，其中，预处理后的每个语音片段样本对应的模型的期望输出语音特征序列为预处理前的该语音片段样本；

或者，所述语音编码模型通过如下方式得到：

对于预先采集的每个语音片段样本，将该语音片段样本的前m帧输入到语音编码模型进行学习；将每个语音片段样本的前m帧对应的模型的实际输出语音特征序列与期望输出语音特征序列进行比对，根据比对结果，调整模型参数，直至模型收敛，其中，每个语音片段样本的前m帧对应的模型的期望输出语音特征序列为该语音片段样本的第m+1帧至第n帧；m为大于1的整数，n为该语音片段样本的总帧数，n≥m+1。

所述对所述文本特征序列和所述语音特征序列进行融合，得到融合特征序列，包括：

对所述文本特征序列和所述语音特征序列进行拼接或者叠加。

所述将待质检的语音片段转录成文本序列，包括：

对所述待质检的语音片段进行预特征提取，将提取到的语音预特征序列转录成文本序列；

或/和，所述对所述语音片段进行语音编码，包括：

对所述待质检的语音片段进行预特征提取，对提取到的语音预特征序列进行语音编码。

所述深度神经网络模型、所述文本预测模型和所述词级质检模型通过如下方式得到：

预先采集多个语音片段样本，并计算得到每个语音片段样本对应的融合特征序列；将每个语音片段样本对应的融合特征序列依次输入深度神经网络模型进行计算，将深度神经网络模型的预先选定的一个或多个隐层输出的隐空间向量序列作为融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，将文本预测模型实际输出的文本与期望输出文本进行比对，以及将词级质检模型的实际输出的词级质检结果与期望输出的词级质检结果进行比对，根据该两个比对结果，调整深度神经网络模型、文本预测模型和词级质检模型的模型参数，直至这三个模型都收敛。

所述将所述融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，分别得到所述语音片段对应的文本以及所述语音片段对应的文本中每个词的质检结果，包括：

将所述融合特征的隐空间表征序列分别输入到文本预测模型、词级质检模型和句级质检模型，分别得到所述语音片段对应的文本、所述语音片段对应的文本中每个词的质检结果以及所述语音片段对应的文本中的每个句子的质检结果。

所述深度神经网络模型、所述文本预测模型、所述词级质检模型和所述句级质检模型通过如下方式得到：

预先采集多个语音片段样本，并计算得到每个语音片段样本对应的融合特征序列；将每个语音片段样本对应的融合特征序列依次输入深度神经网络模型进行计算；将深度神经网络模型的预先选定的一个或多个隐层输出的隐空间向量序列作为融合特征的隐空间表征序列分别输入到文本预测模型、词级质检模型和句级质检模型；将文本预测模型实际输出的文本与期望输出文本进行比对，将词级质检模型的实际输出的词级质检结果与期望输出的词级质检结果进行比对，以及将句级质检模型的实际输出的句级质检结果与期望输出的句级质检结果进行比对；根据该三个比对结果，调整深度神经网络模型、文本预测模型、词级质检模型和句级质检模型的模型参数，直至这四个模型都收敛。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的语音质检方法的步骤。

一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上任一项所述的语音质检方法的步骤。

本发明实施例中，针对待质检的语音片段，同时使用两种模态信息，即语音信号本身以及语音对应的文本内容，并使用特征融合方法将二者进行融合，形成互补，然后采用融合特征进行质检，从而有效提高了语音质检的质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音质检方法流程图；

图2为本发明另一实施例提供的语音质检方法流程图；

图3为本发明实施例提供的语音质检装置的结构示意图；

图4为本发明实施例提供的一种电子设备的示例性结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明实施例提出一种语音质检方法，该方法中，将待质检的语音片段转录成文本序列，对该文本序列进行文本编码，得到该语音片段对应的文本特征序列；对该语音片段进行语音编码，得到该语音片段对应的语音特征序列；对该文本特征序列和该语音特征序列进行融合，得到融合特征序列；将该融合特征序列输入深度神经网络模型进行计算，得到融合特征的隐空间表征序列；将该融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，分别得到该语音片段对应的文本以及该语音片段对应的文本中每个词的质检结果。本发明实施例中，针对待质检的语音片段，同时使用两种模态信息，即语音信号本身以及语音对应的文本内容，并使用特征融合方法将二者进行融合，形成互补，然后采用融合特征进行质检，从而有效提高了语音质检的质量。

图1为本发明一实施例提供的语音质检方法流程图，其具体步骤如下：

步骤101：将待质检的语音片段转录成文本序列，对该文本序列进行文本编码，得到该语音片段对应的文本特征序列；对该语音片段进行语音编码，得到该语音片段对应的语音特征序列。

步骤102：对该文本特征序列和该语音特征序列进行融合，得到融合特征序列。

一可选实施例中，本步骤中，对该文本特征序列和该语音特征序列进行融合可为：对该文本特征序列和该语音特征序列进行拼接或者叠加。

步骤103：将该融合特征序列输入深度神经网络模型进行计算，得到融合特征的隐空间表征序列。

步骤104：将该融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，分别得到该语音片段对应的文本以及该语音片段对应的文本中每个词的质检结果。

一可选实施例中，步骤101中，将待质检的语音片段转录成文本序列，包括：将待质检的语音片段输入语音识别模型进行计算，该语音识别模型的输出即为该语音片段对应的文本序列；

其中，语音识别模型通过如下方式得到：将预先采集的语音片段样本依次输入待训练的语音识别模型进行学习，将每个语音片段样本对应的模型的实际输出文本序列与期望输出文本序列进行比对，根据比对结果，调整模型参数，直至模型收敛，语音片段样本对应的模型的期望输出文本序列为该语音片段样本对应的准确文本序列，收敛的模型即为该待质检的语音片段输入的模型。

一可选实施例中，语音识别模型为：基于Transformer的模型，或者基于Conformer(Convolution-augmented Transformer，基于卷积增强的Transformer)的模型，或者DNN-HMM((Deep Neural Networks-Hidden Markov Mode，深度神经网络-隐马尔可夫模型)。

根据语音识别模型的实际需要，可先对每个语音片段样本进行预特征提取，然后将提取到的语音预特征输入到待训练的语音识别模型进行学习。

对应地，步骤101中，将待质检的语音片段输入语音识别模型进行计算，包括：对待质检的语音片段进行预特征提取，然后将提取到的语音预特征序列输入到语音识别模型进行计算。

其中，语音预特征可以为：MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)或者FBank(Filter Bank，滤波器组)特征。

一可选实施例中，步骤101中，对该文本序列进行文本编码，得到该语音片段对应的文本特征序列，包括：将该文本序列输入文本编码模型进行计算，该文本编码模型的预先选定的一个或多个隐层输出的隐空间向量序列即为该语音片段对应的文本特征序列；

该文本编码模型通过如下方式得到：对预先采集的每个文本序列样本分别进行如下预处理：随机屏蔽一个或多个词；将预处理后的每个文本序列样本依次输入到文本编码模型进行学习；将预处理后的每个文本序列样本对应的模型的实际输出文本特征序列与期望输出文本特征序列进行比对，根据比对结果，调整模型参数，直至模型收敛，其中，预处理后的每个文本序列样本对应的模型的期望输出文本特征序列为预处理前的该文本序列样本。

一可选实施例中，文本编码模型为：BERT(Bidirectional EncoderRepresentations from Transformers，基于Transformers的双向编码表征)模型，或者GPT-3(Generative Pre-trained Transformer 3，第三代生成式预训练Transformer)模型。

一可选实施例中，步骤101中，对该语音片段进行语音编码，得到该语音片段对应的语音特征序列，包括：将该语音片段输入语音编码模型进行计算，该语音编码模型的预先选定的一个或多个隐层输出的隐空间向量序列即为该语音片段对应的语音特征序列；

其中，语音编码模型通过如下方式得到：对预先采集的每个语音片段样本分别进行如下预处理：随机屏蔽一帧或多帧；将预处理后的每个语音片段样本依次输入到语音编码模型进行学习；将预处理后的每个语音片段样本对应的模型的实际输出语音特征序列与期望输出语音特征序列进行比对，根据比对结果，调整模型参数，直至模型收敛，其中，预处理后的每个语音片段样本对应的模型的期望输出语音特征序列为预处理前的该语音片段样本；

或者，语音编码模型通过如下方式得到：对于预先采集的每个语音片段样本，将该语音片段样本的前m帧输入到语音编码模型进行学习；将每个语音片段样本的前m帧对应的模型的实际输出语音特征序列与期望输出语音特征序列进行比对，根据比对结果，调整模型参数，直至模型收敛，其中，每个语音片段样本的前m帧对应的模型的期望输出语音特征序列为该语音片段样本的第m+1帧至第n帧；m为大于1的整数，n为该语音片段样本的总帧数，n≥m+1。

一可选实施例中，语音编码模型为wav2vec(音频转换为向量)模型。

根据语音编码模型的实际需要，可先对每个语音片段样本进行预特征提取，然后将提取到的语音预特征序列输入到待训练的语音编码模型进行学习。

对应地，步骤101中，将待质检的语音片段输入语音编码模型进行计算，包括：对待质检的语音片段进行预特征提取，然后将提取到的语音预特征序列输入到语音编码模型进行计算。

其中，语音预特征可以为：MFCC或者FBank特征。

一可选实施例中，深度神经网络模型、文本预测模型和词级质检模型通过如下方式得到：预先采集多个语音片段样本，并计算得到每个语音片段样本对应的融合特征序列；将每个语音片段样本对应的融合特征序列依次输入深度神经网络模型进行计算，将深度神经网络模型的预先选定的一个或多个隐层输出的隐空间向量序列作为融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，将文本预测模型实际输出的文本与期望输出文本进行比对，以及将词级质检模型的实际输出的词级质检结果与期望输出的词级质检结果进行比对，根据该两个比对结果，调整深度神经网络模型、文本预测模型和词级质检模型的模型参数，直至这三个模型都收敛。

考虑到：在实际应用中，有些情况下还需要得知每个句子的质检结果，针对该需求，给出如下解决方案：

将融合特征的隐空间表征序列分别输入到文本预测模型、词级质检模型和句级质检模型，分别得到语音片段对应的文本、语音片段对应的文本中每个词的质检结果以及语音片段对应的文本中的每个句子的质检结果。

其中，深度神经网络模型、文本预测模型、词级质检模型和所述句级质检模型通过如下方式得到：预先采集多个语音片段样本，并计算得到每个语音片段样本对应的融合特征序列；将每个语音片段样本对应的融合特征序列依次输入深度神经网络模型进行计算；将深度神经网络模型的预先选定的一个或多个隐层输出的隐空间向量序列作为融合特征的隐空间表征序列分别输入到文本预测模型、词级质检模型和句级质检模型；将文本预测模型实际输出的文本与期望输出文本进行比对，将词级质检模型的实际输出的词级质检结果与期望输出的词级质检结果进行比对，以及将句级质检模型的实际输出的句级质检结果与期望输出的句级质检结果进行比对；根据该三个比对结果，调整深度神经网络模型、文本预测模型、词级质检模型和句级质检模型的模型参数，直至这四个模型都收敛。

图2为本发明另一实施例提供的语音质检方法流程图，其具体步骤如下：

步骤201：对待质检的语音片段进行预特征提取，得到语音预特征序列。

语音预特征可以为：MFCC或者FBank特征。

一个语音片段通常为一句话。

在对待质检的语音片段进行预特征提取之前，还可对该语音片段进行去噪、去混淆、或回声消除等处理。

步骤202：将步骤201得到的语音预特征序列分别输入到语音识别模型和语音编码模型进行计算，将语音识别模型输出的序列作为语音片段对应的文本序列，将语音编码模型预先选定的一个或多个隐层输出的隐空间向量序列作为语音片段对应的语音特征序列。

语音识别模型和语音编码模型都为预先训练好的。

语音识别模型可以为：基于Transformer的模型，或者基于Conformer的模型，或者DNN-HMM。

语音编码模型可以为：wav2vec模型。

语音编码模型输出的语音片段对应的语音特征序列为：由多个向量组成的向量组。语音特征序列的长度，即向量组中包含的向量数可设定为固定长度，或者设定为与语音编码模型的输入序列长度相同。若语音编码模型预先选定的一个或多个隐层输出的隐空间向量序列的长度与设定长度不同，则可通过均值或池化等方式将隐空间向量序列的长度转换为设定长度。

通常，语音编码模型预先选定的一个或多个隐层为语音编码模型的最后一个或多个隐层。

步骤203：将步骤202得到的语音片段对应的文本序列输入到文本编码模型进行计算，将文本编码模型的预先选定的一个或多个隐层输出的隐空间向量作为语音片段对应的文本特征序列。

文本编码模型为预先训练好的。

文本编码模型可以为：BERT模型，或者GPT-3模型。

文本编码模型输出的语音片段对应的文本特征序列为：由多个向量组成的向量组。文本特征序列的长度，即向量组中包含的向量数可设定为固定长度，或者设定为与文本编码模型的输入序列长度相同。若文本编码模型预先选定的一个或多个隐层输出的隐空间向量序列的长度与设定长度不同，则可通过均值或池化等方式将隐空间向量序列的长度转换为设定长度。

通常，文本编码模型预先选定的一个或多个隐层为文本编码模型的最后一个或多个隐层。

步骤204：将步骤202得到的语音片段对应的语音特征序列和步骤203得到的语音片段对应的文本特征序列进行融合，得到语音片段的融合特征序列。

本步骤中的“进行融合”可为：进行拼接或者叠加。

步骤205：将步骤204得到的融合特征序列输入到深度神经网络模型进行计算。

深度神经网络模型为预先训练好的。深度神经网络模型可以为：全连接神经网络模型、卷积神经网络模型、或者基于Transformer的模型。

步骤206：将深度神经网络模型的预先选定的一个或多个隐层输出的隐空间向量序列作为融合特征的隐空间表征序列，将融合特征的隐空间表征序列分别输入到文本预测模型、词级质检模型和句级质检模型进行计算，则分别得到步骤201中的语音片段对应的文本、词级质检结果和句级质检结果。

文本预测模型、词级质检模型和句级质检模型是预先训练好的，且，深度神经网络模型、文本预测模型、词级质检模型和句级质检模型是一起训练的。

文本预测模型可以为：全连接神经网络模型、卷积神经网络模型、或者基于Transformer的模型。

词级质检模型可以为：全连接神经网络模型、卷积神经网络模型、或者基于Transformer的模型。

句级质检模型可以为：全连接神经网络模型、卷积神经网络模型、或者基于Transformer的模型。

文本预测模型的输出节点个数为预先设定的词表长度。词表长度即词表中包含的词的总数，词表包含了所有可能的词。即，每个输出节点对应词表中的一个词。

文本预测模型每个时步仅预测出一个词，该词对应的输出节点的输出值为相对其他节点最大。

当文本预测模型输出一个词时，对应地，词级质检模型输出该词的质检结果。质检结果用于表示是否违法或违规标志，通常，当质检结果大于某一阈值时表示通过质检，当质检结果不大于该阈值时，表示未通过质检。

当文本预测模块输出终止符时，句级质检结果输出该语音片段的质检结果。

在实际应用中，可根据需要只进行词级质检或句级质检，或者同时进行词级质检和句级质检。

图3为本发明实施例提供的语音质检装置的结构示意图，该装置主要包括：语音转录模块31、文本编码模块32、语音编码模块33、特征融合模块34、深度神经网络模块35、文本预测模块36和词级质检模块37，其中：

语音转录模块31，用于将待质检的语音片段转录成文本序列，将文本序列输出到文本编码模块32。

文本编码模块32，用于对语音转录模块31输入的文本序列进行文本编码，得到语音片段对应的文本特征序列，将文本特征序列输出到特征融合模块34。

语音编码模块33，用于对待质检的语音片段进行语音编码，得到语音片段对应的语音特征序列，将语音特征序列输出到特征融合模块34。

特征融合模块34，用于对文本编码模块32输入的文本特征序列和语音编码模块33输入的语音特征序列进行融合，得到融合特征序列，将融合特征序列输出到深度神经网络模块35。

深度神经网络模块35，用于采用深度神经网络模型对特征融合模块34输入的融合特征序列进行计算，得到融合特征的隐空间表征序列，将融合特征的隐空间表征序列分别输出到文本预测模块36和词级质检模块37。

文本预测模块36，用于采用文本预测模型对深度神经网络模块35输入的融合特征的隐空间表征序列进行计算，得到语音片段对应的文本。

词级质检模块37，用于采用词级质检模型对深度神经网络模块35输入的融合特征的隐空间表征序列进行计算，得到语音片段对应的文本中每个词的质检结果。

一可选实施例中，语音转录模块31将待质检的语音片段转录成文本序列，包括：将待质检的语音片段输入语音识别模型进行计算，语音识别模型的输出即为语音片段对应的文本序列；

其中，语音识别模型通过如下方式得到：将预先采集的语音片段样本依次输入待训练的语音识别模型进行学习，将每个语音片段样本对应的模型的实际输出文本序列与期望输出文本序列进行比对，根据比对结果，调整模型参数，直至模型收敛。

一可选实施例中，语音转录模块31采用的语音识别模型为：基于Transformer的模型，或者基于Conformer的模型，或者DNN-HMM模型。

一可选实施例中，文本编码模块32对语音转录模块31输入的文本序列进行文本编码，得到语音片段对应的文本特征序列，包括：将文本序列输入文本编码模型进行计算，文本编码模型的预先选定的一个或多个隐层输出的隐空间向量序列即为语音片段对应的文本特征序列；

其中，文本编码模型通过如下方式得到：对预先采集的每个文本序列样本分别进行如下预处理：随机屏蔽一个或多个词；将预处理后的每个文本序列样本依次输入到文本编码模型进行学习；将预处理后的每个文本序列样本对应的模型的实际输出文本特征序列与期望输出文本特征序列进行比对；根据比对结果，调整模型参数，直至模型收敛，其中，预处理后的每个文本序列样本对应的模型的期望输出文本特征序列为预处理前的该文本序列样本。

一可选实施例中，文本编码模块32采用的文本编码模型为：BERT模型，或者GPT-3模型。

一可选实施例中，语音编码模块33对待质检的语音片段进行语音编码，得到语音片段对应的语音特征序列，包括：将待质检的语音片段输入语音编码模型进行计算，语音编码模型的预先选定的一个或多个隐层输出的隐空间向量序列即为语音片段对应的语音特征序列；

一可选实施例中，语音编码模块33采用的语音编码模型为wav2vec模型。

一可选实施例中，特征融合模块34对文本编码模块32输入的文本特征序列和语音编码模块33输入的语音特征序列进行融合，包括：对文本特征序列和语音特征序列进行拼接或者叠加。

一可选实施例中，语音转录模块31将待质检的语音片段转录成文本序列，包括：对待质检的语音片段进行预特征提取，将提取到的语音预特征序列转录成文本序列。

一可选实施例中，语音编码模块33对待质检的语音片段进行语音编码，包括：对待质检的语音片段进行预特征提取，对提取到的语音预特征序列进行语音编码。

一可选实施例中，深度神经网络模块35采用的深度神经网络模型、文本预测模块36采用的文本预测模型和词级质检模块37采用的词级质检模型通过如下方式得到：预先采集多个语音片段样本，并计算得到每个语音片段样本对应的融合特征序列；将每个语音片段样本对应的融合特征序列依次输入深度神经网络模型进行计算，将深度神经网络模型的预先选定的一个或多个隐层输出的隐空间向量序列作为融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，将文本预测模型实际输出的文本与期望输出文本进行比对，以及将词级质检模型的实际输出的词级质检结果与期望输出的词级质检结果进行比对，根据该两个比对结果，调整深度神经网络模型、文本预测模型和词级质检模型的模型参数，直至这三个模型都收敛。

一可选实施例中，上述装置进一步包括：句级质检模块38，且，

深度神经网络模块35进一步，将融合特征的隐空间表征序列输出到句级质检模块38；

句级质检模块38，用于采用句级质检模型对深度神经网络模块35输入的融合特征的隐空间表征序列进行计算，得到语音片段对应的文本中每个句子的质检结果。

其中，深度神经网络模块35采用的深度神经网络模型、文本预测模块36采用的文本预测模型、词级质检模块37采用的词级质检模型和句级质检模块38采用的句级质检模型通过如下方式得到：预先采集多个语音片段样本，并计算得到每个语音片段样本对应的融合特征序列；将每个语音片段样本对应的融合特征序列依次输入深度神经网络模型进行计算；将深度神经网络模型的预先选定的一个或多个隐层输出的隐空间向量序列作为融合特征的隐空间表征序列分别输入到文本预测模型、词级质检模型和句级质检模型；将文本预测模型实际输出的文本与期望输出文本进行比对，将词级质检模型的实际输出的词级质检结果与期望输出的词级质检结果进行比对，以及将句级质检模型的实际输出的句级质检结果与期望输出的句级质检结果进行比对；根据该三个比对结果，调整深度神经网络模型、文本预测模型、词级质检模型和句级质检模型的模型参数，直至这四个模型都收敛。

本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上任一实施例所述的语音质检方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述语音质检方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例各设备/装置/系统所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。其中，在计算机可读存储介质中存储指令，其存储的指令在由处理器执行时可执行如上语音质检方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

如图4所示，本发明实施例还提供一种电子设备。如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器41、一个或一个以上计算机可读存储介质的存储器42以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器42的程序时，可以实现上述语音质检方法。

具体的，实际应用中，该电子设备还可以包括电源43、输入输出单元44等部件。本领域技术人员可以理解，图4中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器41是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器42内的软件程序和/或模块，以及调用存储在存储器42内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器42可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器41通过运行存储在存储器42的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器42可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器42还可以包括存储器控制器，以提供处理器41对存储器42的访问。

该电子设备还包括给各个部件供电的电源43，可以通过电源管理系统与处理器41逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源43还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入输出单元44，该输入单元输出44可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出44还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种语音质检方法，其特征在于，该方法包括：

将待质检的语音片段转录成文本序列，对所述文本序列进行文本编码，得到所述语音片段对应的文本特征序列；

对所述语音片段进行语音编码，得到所述语音片段对应的语音特征序列；

2.根据权利要求1所述的方法，其特征在于，所述将待质检的语音片段转录成文本序列，包括：

所述语音识别模型通过如下方式得到：

3.根据权利要求2所述的方法，其特征在于，所述语音识别模型为：基于Transformer的模型，或者基于卷积增强的Transformer的模型，或者深度神经网络-隐马尔可夫模型。

4.根据权利要求1所述的方法，其特征在于，所述对所述文本序列进行文本编码，得到所述语音片段对应的文本特征序列，包括：

所述文本编码模型通过如下方式得到：

5.根据权利要求4所述的方法，其特征在于，所述文本编码模型为：基于Transformers的双向编码表征模型，或者生成式预训练Transformer模型。

6.根据权利要求1所述的方法，其特征在于，所述对所述语音片段进行语音编码，得到所述语音片段对应的语音特征序列，包括：

所述语音编码模型通过如下方式得到：

或者，所述语音编码模型通过如下方式得到：

7.根据权利要求1所述的方法，其特征在于，所述对所述文本特征序列和所述语音特征序列进行融合，得到融合特征序列，包括：

8.根据权利要求1所述的方法，其特征在于，所述将待质检的语音片段转录成文本序列，包括：

或/和，所述对所述语音片段进行语音编码，包括：

9.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型、所述文本预测模型和所述词级质检模型通过如下方式得到：

10.根据权利要求1所述的方法，其特征在于，所述将所述融合特征的隐空间表征序列分别输入到文本预测模型和词级质检模型，分别得到所述语音片段对应的文本以及所述语音片段对应的文本中每个词的质检结果，包括：

11.根据权利要求10所述的方法，其特征在于，所述深度神经网络模型、所述文本预测模型、所述词级质检模型和所述句级质检模型通过如下方式得到：

12.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至11中任一项所述的语音质检方法的步骤。