CN114724589A

CN114724589A - 语音质检的方法、装置、电子设备和存储介质

Info

Publication number: CN114724589A
Application number: CN202210395836.0A
Authority: CN
Inventors: 何梦中; 李秀林
Original assignee: Databaker Beijng Technology Co ltd
Current assignee: Databaker Beijng Technology Co ltd
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-08

Abstract

本发明实施例提供了一种语音质检的方法、装置、电子设备和存储介质。该方法包括：获取待质检的音频信号；提取音频信号的第一语音特征和第二语音特征，其中第二语音特征包括频谱信息；对第一语音特征进行编码，以获得第一语音特征的时域表示；对第二语音特征进行编码，以获得频谱信息的频域表示；合并时域表示和频域表示，以作为编码输出数据；将编码输出数据进行解码；基于解码结果，确定音频信号的分数。由此，避免了背景噪声对语音质检的干扰，显著提高了语音质检的准确性。

Description

语音质检的方法、装置、电子设备和存储介质

技术领域

本发明涉及语音分析和处理领域，更具体地涉及一种语音质检的方法、装置、电子设备和存储介质。

背景技术

近年来，伴随神经网络技术的进步，语音技术逐渐成熟，被应用到各行业。例如，由于神经网络基本依靠数据驱动，所以催生了众多数据公司。数据公司找专职人员录音后，需要对语音进行质检。依靠人力进行语音质检会浪费巨大的时间、精力、财力，依靠技术进行自动质检迫在眉睫。

目前语音质检技术通常通过标准文字对比来确定音频信号的准确性。具体地，首先，提取待质检的音频信号的单一声学特征；然后基于该声学特征确定音频信号相对于标准文字的正常发音之间的差异，进而确定质检结果。该质检结果的准确性难以保证。

所以，亟要一种新的语音质检的技术，可以解决上述问题。

发明内容

考虑到上述问题而提出了本发明。

根据本发明一个方面，提供了一种语音质检的方法。该方法包括：

获取待质检的音频信号；

提取所述音频信号的第一语音特征和第二语音特征，其中所述第二语音特征包括频谱信息；

对所述第一语音特征进行编码，以获得所述第一语音特征的时域表示；

对所述第二语音特征进行编码，以获得所述频谱信息的频域表示；

合并所述时域表示和所述频域表示，以作为编码输出数据；

将所述编码输出数据进行解码；

基于解码结果，确定所述音频信号的分数。

示例性地，所述将所述编码输出数据进行解码包括：

将所述编码输出数据输入解码器，以利用所述解码器基于语音字典确定所述音频信号中的语音帧发音为所述语音字典中的每个字的概率，其中，所述语音字典中包括多组字，每组字包括分别与多个不同质量的语音对应的、同一字的不同变体；

基于解码结果确定所述音频信号的分数包括：

基于所确定的概率，确定所述音频信号中的语音帧所实际对应的字；

基于所述音频信号中的语音帧所实际对应的字，确定语音帧所对应的分数；

基于语音帧所对应的分数，确定所述音频信号的分数。

示例性地，所述解码器包括并联的第一解码器和第二解码器，

所述将所述编码输出数据输入解码器，以利用所述解码器基于所述语音字典确定所述音频信号中的语音帧发音为所述语音字典中的每个字的概率，包括：

将所述编码输出数据输入所述第一解码器，以确定语音帧与所述语音字典中的每个字分别对应的第一概率；

将所述编码输出数据输入所述第二解码器，以确定语音帧与所述语音字典中的每个字分别对应的第二概率；

所述基于所确定的概率确定所述音频信号中的语音帧所实际对应的字包括：

基于所述第一概率和所述第二概率确定所述音频信号中的语音帧所实际对应的字。

示例性地，所述基于所述第一概率和所述第二概率确定所述音频信号中的语音帧所实际对应的字，包括：

对于所述语音字典中的每个字，基于以下公式计算语音帧与该字对应的字概率P_w，P_w＝a*P_ctc+(1-a)*P_att其中，a表示语音帧与该字对应的第一概率的权重，P_ctc表示语音帧与该字对应的第一概率，P_att表示语音帧与该字对应的第二概率；

比较所述语音字典中每个字的字概率，以确定最大的字概率所对应的字并将所确定的字作为与语音帧实际对应的字。

示例性地，所述语音字典中的每组字中的不同字对应不同的分数段，所述确定语音帧所对应的分数包括：

基于所述音频信号中的语音帧所实际对应的字，确定语音帧所对应的分数段；以及

基于语音帧与该语音帧所实际对应的字对应的概率，确定该语音帧对应的分数。

示例性地，所述方法还包括：

将待定音频信号和对应的标准文本输入语音评测系统，以获得所述语音评测系统针对所述待定音频信号的评测质量；

基于所述评测质量，确定所述语音字典中的多组字，以获得所述语音字典。

示例性地，在所述基于解码结果确定所述音频信号的分数之前，所述方法还包括：

获取测评音频信号；

提取所述测评音频信号的第一语音特征和第二语音特征，其中所述第二语音特征包括频谱信息；

对所述测评音频信号的第一语音特征进行编码，以获得所述测评音频信号的第一语音特征的时域表示；

对所述测评音频信号的第二语音特征进行编码，以获得所述测评音频信号的频谱信息的频域表示；

合并所述测评音频信号的第一语音特征的时域表示和所述测评音频信号的频谱信息的频域表示，以作为所述测评音频信号的编码输出数据；

将所述测评音频信号的编码输出数据进行解码；

基于解码结果，确定所述测评音频信号的基础分数；

接收所述测评音频信号的理想分数；

基于所述测评音频信号的基础分数和理想分数，拟合基础分数与理想分数之间的关系；

所述基于解码结果确定所述音频信号的分数包括：

基于所述解码结果确定所述音频信号的基础分数；

基于所述音频信号的基础分数和所拟合的关系，确定所述音频信号的实际分数。

示例性地，所述提取所述音频信号的第一语音特征包括：

提取所述音频信号的声学特征；

确定所述音频信号的能量信息；

基于所述声学特征和所述能量信息确定所述音频信号的第一语音特征。

示例性地，对于所述音频信号的每一帧，该帧的所述声学特征用N维特征向量表示，所述能量信息用能量数值表示，

所述基于所述声学特征和所述能量信息确定该帧的第一语音特征包括：

将所述能量数值附加在所述N维特征向量的第一个元素之前或者最后一个元素之后，以将所获得的N+1维特征向量作为该帧的第一语音特征。

示例性地，所述时域表示用第一特征向量表示，所述频域表示用第二特征向量表示，

所述合并所述时域表示和所述频域表示包括：

将所述第一特征向量和所述第二特征向量进行连接操作，以获得所述第一特征向量和第二特征向量的连接向量作为所述编码输出数据。

根据本发明另一方面，还提供了一种语音质检的装置，包括：

获取模块，用于获取待质检的音频信号；

特征提取模块，用于提取所述音频信号的第一语音特征和第二语音特征，其中所述第二语音特征包括频谱信息；

第一编码模块，用于对所述第一语音特征进行编码，以获得所述第一语音特征的时域表示；

第二编码模块，用于对所述第二语音特征进行编码，以获得所述频谱信息的频域表示；

合并模块，用于合并所述时域表示和所述频域表示，以作为编码输出数据；

解码模块，用于将所述编码输出数据进行解码；

评分模块，用于基于解码结果，确定所述音频信号的分数。

根据本发明的又一方面，还提供了一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的语音质检的方法。

根据本发明的再一方面，还提供了一种存储介质，在存储介质上存储了程序指令，程序指令在运行时用于执行如上所述的语音质检的方法。

在上述技术方案中，基于音频信号的第一语音特征和第二语音特征进行语音质检，其中，第二语音特征中包括音频信号的频谱信息。由此，综合考量了音频信号中的各个频率的声音，包括有效语音和噪声，避免了背景噪声对语音质检的干扰，显著提高了语音质检的准确性，特别是对于背景噪声大，语谱图脏乱等情况。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明一个实施例的语音质检方法的示意性流程图；

图2示出了根据本发明一个实施例的提取音频信号的第一语音特征的示意性流程图；

图3示出了根据本发明一个实施例的基于解码结果确定音频信号的分数的示意性流程图；

图4示出了根据本发明一个实施例的对语音字典进行建模的示意流程图；

图5示出了根据本发明一个实施例的确定用于调整基础分数的基础分数与理想分数之间的拟合关系的示意性流程图；

图6示出了根据本发明一个实施例的语音质检的装置的示意性框图；

图7示出了根据本发明一个实施例的电子设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

如前所述现有的语音质检系统的质检准确性难以得到保证。特别是在一些应用场景中，音频信号的背景噪声较大，进而导致音频信号的语谱图脏乱。这会严重干扰质检操作，造成质检分数偏低。

为了解决上述问题，根据本发明一个实施例，提供了一种语音质检方法。图1示出了根据本发明一个实施例的语音质检方法100的示意性流程图。如图 1所示，该语音质检方法100可以包括以下步骤。

步骤S110，获取待质检的音频信号。

示例性地，该待质检的音频信号可以是利用电子设备的声音采集设备(例如麦克风)采集的语音，并通过模拟/数字转换电路进行转换，以将模拟信号即待质检语音转换为电子设备能识别和处理的数字信号即音频信号。由此，音频信号对应于待质检语音。替代地，也可以通过数据传输技术自其他设备或存储介质获取其中预先存储的待质检的音频信号。

步骤S120，提取步骤S110中所获取的音频信号的第一语音特征和第二语音特征。

优选地，可以对音频信号进行预处理。预处理可以包括去噪声、分帧等操作。例如，首先针对一个音频信号进行滤波与采样，由此减小除人体发声以外的其他频率和/或50赫兹电流频率的信号的干扰。此外，还可以对音频信号进行分帧处理。分帧处理是指将音频信号切分为多个小段，由此获得多个语音帧的操作，其中每一段称为一“帧”，帧长一般取为10～30ms。例如，20毫秒。分帧处理后的每一帧的音频信号具有短时平稳的特性。

示例性地，针对预处理后的音频信号可以进行特征提取操作。可以将音频信号分为很多帧，针对每个语音帧，分别提取该语音帧的第一语音特征和第二语音特征。语音帧的语音特征可以用N维向量表示，例如256或512维。第一语音特征可以包括音频信号的声学信息。例如，第一语音特征可以包括梅尔频率倒谱系数(MFCC)特征、梅尔标度滤波器组(Filter Banks)声学特征以及感知线性预测系数(PLP)特征等。第二语音特征包括音频信号的频谱信息。每个语音帧都对应于一个频谱，频谱表示频率与能量的关系。音频信号中的每一帧可以认为是从各个不同的平稳信号波形中截取出来的，各帧的短时频谱就是各个平稳信号波形频谱的近似。可以对语音帧的数据进行傅里叶变换(FFT)，即短时傅里叶变换，由此提取音频信号的频谱信息。

在本申请的实施例中并未对两种语音特征的提取方法进行任何限定，任何现有的或未来的可以实现语音特征提取的技术均在本申请的保护范围之内。示例性而非限制性地，可以直接从KALDI开源代码中调用用于提取相应的语音特征的代码。

步骤S130，对步骤S120中所提取的第一语音特征进行编码，以获得第一语音特征的时域表示。

示例性地，可以利用各种适合的编码器来对第一语音特征进行编码，以获得其时域表示。该时域表示可以捕捉第一语音特征沿时域的特点。可选地，可以利用循环神经网络来实现该编码器。循环神经网络能够综合音频信号中的不同帧的语音特征，使得基于当前帧的信息估测其他帧(先前帧和/或随后帧)的信息成为可能。循环神经网络的神经元间连接构成有向图，通过将状态在自身网络中循环传递，循环神经网络可以接收广泛的时间序列输入。根据本发明的实施例，该时间序列是音频信号中每个语音帧的第一语音特征。对于多个语音帧中的每个语音帧来说，将该语音帧的第一语音特征输入到循环神经网络中，循环神经网络可以建立其与采集时间不同的先前语音帧和/或随后语音帧之间的关联，由此输出第一语音特征的时域表示。

可选地，通过步骤S130的编码操作，可以将音频信号的第一语音特征进行降维。如前所述，一个语音帧的语音特征可以用一个向量表示。所以，音频信号的第一语音特征可以是一个矩阵，其行数是音频信号中的帧数，其列数是特征的维度，例如256。通过该编码操作，可以将该第一语音特征编码为一个向量，该向量即第一语音特征的时域表示。

步骤S140，对步骤S120中所提取的第二语音特征进行编码，以获得频谱信息的频域表示。

示例性地，可以利用各种适合的编码器来对第二语音特征进行编码，以获得其频域表示。该频域表示可以捕捉第二语音特征沿频域的特点。可选地，可以利用卷积神经网络(CNN)来实现该编码器。卷积神经网络具有强大的学习能力。可以通过训练操作，使其能够通过对第二语音特征进行编码，从而获得频谱信息的频域表示。

类似地，通过步骤S140的编码操作，可以将音频信号的第二语音特征进行降维。将表示音频信号的第二语音特征的矩阵编码为一个向量，即频谱信息的频域表示。

步骤S150，合并步骤130和步骤S140所获取的时域表示和频域表示，以作为编码输出数据。由此，编码的输出综合了第一语音特征的时域表示和频谱信息的频域表示二者的信息。换言之，其即能够反映音频信号的声学特点，还能够反映音频信号的频域特点。

步骤S160，将步骤S150获得的编码输出数据进行解码。

如前所述，将合并了第一语音特征的时域表示和第二语音特征的频域表示两者的连接向量作为编码输出数据。在此步骤中，将编码输出数据进行解码，以确定音频信号的各个语音帧分别对应不同字的概率。例如，将编码输出数据送入连接时序分类模型(CTC)中，以由CTC输出语音帧对应各个字的概率。假设语音字典中，共包括25000个字。在此，对于语音帧，可以输出一个维度是25000的向量，向量中的每个元素表示语音帧与语音字典中的相应的字对应的概率。例如，向量中的第一个元素表示语音帧与语音字典中的第一个字对应的概率，向量中的第二个元素表示语音帧与语音字典中的第二个字对应的概率，以此类推。

步骤S170，基于步骤S160中的解码结果，确定音频信号的分数。

在步骤S160中，确定了音频信号中的各个帧分别与不同字对应的概率。在此步骤S170中，可以基于该概率确定音频信号的分数。示例性地，假设对于某个语音帧来说，与其他字相比，其与“标”字对应的概率最大。可以根据与“标”字对应的概率确定该语音帧的分数。类似地，确定音频信号中的每个语音帧的分数。根据每个语音帧的分数，确定音频信号的分数。例如，将所有语音帧的分数求平均值，以作为音频信号的分数。

如前所述，在步骤S120中提取了音频信号的第一语音特征和第二语音特征。图2示出了根据本发明一个实施例的提取音频信号的第一语音特征的示意性流程图。如图2所示，提取音频信号的第一语音特征可以具体包括以下步骤。

步骤S121，提取音频信号的声学特征。

该声学特征可以是表示语音声学特性的物理量，其可以是例如MFCC特征、梅尔标度滤波器组声学特征以及PLP特征等。本领域普通技术人员可以理解，可以基于任何现有的或未来研发的特征提取技术实现该步骤S210，为了简洁，在此不再赘述。

步骤S122，确定音频信号的能量信息。

音频信号的语音帧的能量信息可以表示语音帧的音量。在该实施例中，考虑到如果说话人的语音声音过小，将导致该语音难以被听清楚，其分数应该较低；如果说话人的语音声音过大，有截幅，分数同样应该较低。示例性地，音频信号的每个语音帧的能量信息可以用一个能量数值来表示。

步骤S123，基于声学特征和能量信息确定音频信号的第一语音特征。

在此步骤中，综合步骤S121所提取的音频信号的声学特征和步骤S122所确定的音频信号的能量信息，由此来获得第一语音特征。由此，第一语音特征融合了声学特征和能量信息。

上述获得第一语音特征的方式，考虑到音频信号的能量信息对其质量的影响，基于此第一语音特征进行音频信号的语音质检准确性更高。

示例性地，对于音频信号的每一帧，该帧的声学特征用N维特征向量表示，能量信息用能量数值表示。在上述步骤S123中，可以将能量数值附加在N维特征向量的第一个元素之前或者最后一个元素之后，以将所获得的N+1维特征向量作为该帧的第一语音特征。

例如，以MFCC特征为示例进行描述。首先对音频信号进行预加重，分帧，加窗，以及快速傅里叶变换得到每组帧的频谱信息。然后计算功率谱，将得到的功率谱通过三角带通滤波器，滤波输出的结果利用梅尔域与线性频率的关系式转为对数形式。最后进行离散余弦变换，得到MFCC特征。该MFCC特征可以用一个N维向量表示。可以直接将能量数值附加在该N维向量的最后一个元素之后，以构成用N+1维向量表示的第一语音特征。具体地，假设MFCC特征表示为M＝[m₁,m₂,…,m_N]，能量数值表示为E，则第一语音特征F可以表示为 F＝[m₁,m₂,…,m_N,E]。

替代地，可以分别对声学特征和能量信息进行加权，然后再将加权后的声学特征和能量信息融合，以确定第一语音特征。例如，根据不同的应用场景，可以让声学特征的第一权重比能量信息的第二权重更大。在执行相应的加权操作后，将经加权的能量信息附加在经加权的声学特征的头或尾，以确定第一语音特征。

该技术方案通过直接将能量数值附加在声学特征的头或尾的方式获取第一语音特征，不仅保证了质检结果的准确性，而且容易实现。

示例性地，步骤S130获得的时域表示用第一特征向量表示，步骤S140获得的频域表示用第二特征向量表示，步骤S150合并时域表示和频域表示包括以下步骤。将第一特征向量和第二特征向量进行连接操作，以获得第一特征向量和第二特征向量的连接向量。将该连接向量作为合并后的编码输出数据。具体地，假设第一特征向量表示为Ve₁＝[s1₁,s1₂,…,s1_k]，第二特征向量表示为 Ve₂＝[s2₁,s2₂,…,s2_l]，则连接向量为Ve＝[s1₁,s1₂,…,s1_k,s2₁,s2₂,…,s2_l]。其中，第一特征向量的维度是k，第二特征向量表示的维度是l，连接向量的维度是k+l。

该技术方案通过连接操作将第一特征向量和第二特征向量合并在一起，以获取编码输出数据，不仅保证了质检结果的准确性，而且容易实现。

示例性地，步骤S160对编码输出数据进行解码可以包括以下步骤：步骤 S161，将编码输出数据输入编码器，以利用编码器基于语音字典确定音频信号中的语音帧发音为语音字典中的每个字的概率。语音字典中包括多组字，每组字包括分别与多个不同质量的语音对应的、同一字的不同变体。换言之，语音字典中可以包括很多字，这些字成组出现。每组字对应同一个字的不同变体。一个字的不同变体分别与该字的不同质量的一个语音相对应。在一个具体实施例中，语音字典中有5000个不同字，每个字对应有五个变体。例如，对于“标”字，其具有不同变体：“标1”、“标2”、“标3”、“标4”和“标5”，这些字的变体分别对应于越来越接近于“标”字的普通话发音的语音，即语音质量越来越好。由此，语音字典中实际包含的字为5000*5＝25000个。

可以理解，上述语音字典中的每个组中的字的变体的个数可以根据具体应用场景来设置成不同。例如，对于质检粒度要求比较宽松的场景，每个组中可以包括较少的变体；否则，反之。由此，可以灵活地调整语音质检的粒度，提高用户体验。

如步骤S161所述，利用解码器将上述步骤S150中所得到的连接向量 Ve＝[s1₁,s1₂,…,s1_k,s2₁,s2₂,…,s2_l]进行解码，解码结果将得到音频信号中语音帧发音对应的各个字的概率。具体地，在上述语音字典中有25000个字的情况中，针对音频信号中的语音帧，解码器可以输出一个25000维的向量。该向量中的每个元素分别表示该语音帧与该元素对应的字对应的概率。例如，语音字典中的第1000个字是“标2”，则该25000维向量中的第1000个元素，表示该语音帧发音为“标2”对应的语音的概率。

在已经确定了音频信号中的语音帧发音为语音字典中的每个字的概率之后，可以执行步骤S170基于解码结果确定音频信号的分数。图3示出了根据本发明一个实施例的步骤S170基于解码结果确定音频信号的分数的示意性流程图。如图3所示，步骤S170可以包括以下步骤。

步骤S171，基于所确定的概率，确定音频信号中的语音帧所实际对应的字。

基于步骤S161确定的语音字典中的每个字的概率，可以认为最大概率所对应的字为音频信号中的语音帧所实际对应的字。仍以上述具有25000个字的语音字典为例，假设解码器输出的25000维的向量中，第1000个元素的数值 0.8最大。如前所述，语音字典中的第1000个字是“标2”，则该语音帧所实际对应的字即为“标2”。

步骤S172，基于音频信号中的语音帧所实际对应的字，确定语音帧所对应的分数。在上述语音字典中，语音字典中的每组字包括分别与多个不同质量的语音对应的，同一字的不同变体。因此，可以根据所确定的语音帧所实际对应的字确定语音帧的分数。

在一个示例中，对于每组字来说，由于每个字分别对应不同语音质量，所以每个字可以分别对应一个不同分数。具体地，上述“标1”、“标2”、“标3”、“标 4”和“标5”可以分别对应分数20、40、60、80、100。在上述语音帧实际对应的字为“标2”的示例中，可以根据“标2”确定该语音帧所对应的分数为40。

在一个替代示例中，对于每组字来说，每个字可以分别对应一个不同的分数段。具体地，上述“标1”、“标2”、“标3”、“标4”和“标5”可以分别对应分数段0-20、21-40、41-60、61-80、81-100。该步骤S172可以包括：首先，基于音频信号中的语音帧所实际对应的字，确定语音帧所对应的分数段。在上述语音帧实际对应的字为“标2”的示例中，可以根据“标2”确定该语音帧所对应的分数段为21-40。然后，基于语音帧与该语音帧所实际对应的字对应的概率，确定该语音帧对应的分数。语音帧与该字对应的概率越高，则该语音帧的分数越高；否则，反之。示例性地，假设语音帧与该字对应的概率为100％，则该语音帧的分数可以取分数段中的最高分。语音帧与该字对应的概率低于40％，则该语音帧的分数可以取分数段中的最低分。在上述示例中，语音帧与“标2”对应的概率为80％，则语音帧的分数可以取35分。

该方案中，基于音频信号中的语音帧所实际对应的字以及与该字对应的概率二者来确定语音帧的分数，结果更准确。进而，可以使该语音质检方法所确定的音频信号的分数更准确。

步骤S173，基于语音帧所对应的分数，确定音频信号的分数。

示例性地，可以将音频信号中的所有语音帧所分别对应的分数相加并求均值，将所计算的均值作为该音频信号的分数。

现有的语音质检基本依靠两种方式实现：1.依靠语音识别2.依靠语音评测。其均单纯通过文字对比来确定语音的准确性，对文本的依赖性强。该技术对于语音质量的问题检测有局限。此外，上述现有的语音质检方法不仅需要利用多个复杂模型，难以统一优化；而且需要强制对齐操作，计算量大，耗时较长。最后，如果没有标准文本的情况下，需要辅助的语音识别系统，进一步增加了任务量。最后，因为整个语音质检系统的架构如此复杂，所以导致语音质检的准确性难以保证。而上述技术方案无需强制对齐的操作，无需语言模型、声学模型等众多复杂的模块组合在一起，比较简洁，出了问题更容易优化；此外，无需对照文本即可给出质量结果，将原来自由评测场景下的识别文本后进行打分，合并成了一个阶段，使得工具更轻量级，减少了工具间的耦合。最后，上述方案可以完美解决重读的问题。如果用户读的文本具有叠字的话，例如“栩栩如生”，上述方案针对叠字中的每个字会给出其质量评分。由此避免多个重复结果直接影响到最终的分数，造成质检质量下降的问题。

示例性地，上述解码器包括并联的第一解码器和第二解码器，第一解码器和第二解码器可以是不同的解码器。步骤S161将编码输出数据输入解码器，以利用解码器确定音频信号中的语音帧发音为语音字典中的每个字的概率，包括：将编码输出数据输入第一解码器，以确定语音帧与语音字典中的每个字分别对应的第一概率；将编码输出数据输入第二解码器，以确定语音帧与语音字典中的每个字分别对应的第二概率。第一解码器可以是CTC模型，第二解码器可以是注意力(Attention)模型。Attention模型通过对输入序列不同部分的权重计算，实现能够对输入序列不同部分采用不同程度的注意力的功能。在前述语音字典中有25000个字的情况中，针对音频信号中的语音帧，第一解码器和第二解码器可以分别输出一个25000维的向量，以分别作为第一概率和第二概率。 CTC模型具有独立性假设，而Attention模型具有前后依赖的特性；同时， Attention模型时间上不能保证顺序，但是CTC模型可以保证。由此，整体上， CTC模型和Attention模型而后者相互弥补，是较完美的组合。

上述步骤S171基于所确定的概率确定音频信号中的语音帧所实际对应的字包括：基于第一概率和第二概率确定音频信号中的语音帧所实际对应的字。

示例性地，可以基于表示第一概率的向量和表示第二概率的向量中的对应元素来确定与该元素对应的字的概率。在上述语音字典中的第1000个字是“标 2”的示例中，基于表示第一概率的向量中的第1000个元素0.8和表示第二概率的向量中的第1000个元素0.7，可以确定语音帧与“标2”对应的概率。在一个示例中，可以将二者平均，则确定语音帧与“标2”对应的概率是0.75。基于第一概率和第二概率确定了音频信号中的语音帧与语音字典中的各个字对应的概率之后，可以从中确定语音帧所实际对应的字，例如最大概率所对应的字。

在另一个示例中，上述步骤基于第一概率和第二概率确定音频信号中的语音帧所实际对应的字，包括：首先，对于语音字典中的每个字，基于以下公式计算语音帧与该字对应的字概率P_w，P_w＝a*P_ctc+(1-a)*P_att其中，a表示语音帧与该字对应的第一概率的权重，P_ctc表示语音帧与该字对应的第一概率，P_att表示语音帧与该字对应的第二概率。其中a的取值可以根据第一编码器和第二编码器的重要性而定。在上述CTC模型和Attention模型相结合的示例中，a可以取值为0.3至0.5之间的任意数。对于上述示例，与“标2”对应的字概率为：0.3*0.8+0.7*0.7＝0.73。然后，比较语音字典中每个字的字概率，以确定最大的字概率所对应的字并将所确定的字作为与语音帧实际对应的字。与“标2”类似地，可以根据两个解码器分别输出的向量，计算语音帧与语音字典中的每个字对应的字概率，然后比较全部字的字概率，从而将最大的字概率所对应的字作为语音帧实际对应的字。

利用两个不同的解码器来完成编码输出数据的解码。不同的编码器各具所长，由此，能够获得更准确的解码数据，进而获得更准确的语音质检结果。此外，上述基于公式计算语音字典中每个字的概率的方案，字概率的计算结果更准确，由此所确定的质检质量可信度更高。

可以理解，对于上述方案中的各个模型，可以在一个统一的架构下进行训练。利用经标注的训练数据，对整个语音质检系统进行训练。该训练数据可以是利用现有的语音质检系统进行标注的。

示例性地，本发明实施例提供的语音质检方法还可以包括利用语音评测系统获得上述语音字典的步骤。图4示出了根据本发明一个实施例的对语音字典进行建模的示意流程图。如图4所示，首先，将待定音频信号和对应的标准文本输入语音评测系统，以获得语音评测系统针对待定音频信号的评测质量。该语音评测系统可以是任何传统的语音评测系统。语音评测系统可以用于通过将待定音频信号的发音与该音频信号的标准文本的正确发音进行比较，从而获得该音频信号的评测质量。具体地，语音评测系统可以对音频信号进行特征提取、前向计算、强制对齐、打分四个操作，确定音频信号中的每个字的分数。然后，基于所获得的评测质量，确定语音字典中的多组字，以获得语音字典。在上一步骤中，通过对不同质量的音频信号进行评测，可以获得其中各自的评测质量。基于这些不同质量的音频信号，可以确定语音字典中的字，其中每组字中不同变体的语音质量不一。

上述方案中利用语音评测系统获得语音字典，对各个质量的语音进行归档，在保证语音评测质量的前提下，大大减少了人力、财力的消耗。

示例性地，上述步骤S170确定音频信号的分数中可以对基于步骤S160的解码结果确定的分数进行调整，从而获得音频信号的更准确的实际分数。图5 示出了根据本发明一个实施例的确定用于调整基础分数的基础分数与理想分数之间的拟合关系的示意性流程图。如图5所示，确定基础分数与理想分数之间拟合关系可以包括以下步骤。

步骤S510，获取测评音频信号。

步骤S520，提取测评音频信号的第一语音特征和第二语音特征，其中第二语音特征包括频谱信息。

步骤S530，对测评音频信号的第一语音特征进行编码，以获得测评音频信号的第一语音特征的时域表示。

步骤S540，对测评音频信号的第二语音特征进行编码，以获得测评音频信号的频谱信息的频域表示。

步骤S550，合并测评音频信号的第一语音特征的时域表示和测评音频信号的频谱信息的频域表示，以作为测评音频信号的编码输出数据。

步骤S560，将测评音频信号的编码输出数据进行解码。

步骤S570，基于解码结果，确定测评音频信号的基础分数。

上述步骤S510至步骤S570分别与步骤S110至步骤S170类似，前文已经对步骤S110至步骤S170进行详细描述，为了简洁在此不再赘述。

步骤S580，接收测评音频信号的理想分数。

示例性地，可以由语音专家为测评音频信号进行人工打分，以作为音频信号的理想分数。

步骤S590，基于测评音频信号的基础分数和理想分数，拟合基础分数与理想分数之间的关系。

在具有大量的测评音频信号的情况下，可以对基础分数与理想分数进行参数拟合，从而确定基础分数与理想分数之间的函数关系。该拟合操作可以利用机器学习来实现。

在确定了基础分数与理想分数之间的关系之后，上述步骤S170可以包括以下步骤：首先，基于解码结果确定音频信号的基础分数。该过程如前面示例中所详细阐述的，为了简洁，在此不再赘述。然后，基于音频信号的基础分数和步骤S590所拟合获得的基础分数与理想分数之间的关系，确定音频信号的实际分数。在已经确定音频信号的某个基础分数的基础上，基于上述拟合关系，可以确定音频信号的实际分数。

由此，所确定实际分数更接近于音频信号的理想分数，提高了语音评测的准确性。

根据本发明的另一方面，提供一种语音质检的装置。图6示出了根据本发明一个实施例的语音质检的装置600的示意性框图。如图6所示，语音评测装置600可以包括以下模块。

获取模块610，用于获取待质检的音频信号。

特征提取模块620，用于提取音频信号的第一语音特征和第二语音特征，其中第二语音特征包括频谱信息。

第一编码模块630，用于对第一语音特征进行编码，以获得第一语音特征的时域表示。

第二编码模块640，用于对第二语音特征进行编码，以获得频谱信息的频域表示。

合并模块650，用于合并时域表示和频域表示，以作为编码输出数据。

解码模块660，用于将编码输出数据进行解码。

评分模块670，用于基于解码结果，确定音频信号的分数。

需要说明的是，装置的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

根据本发明的又一方面，还提供了一种电子设备。图7示出了根据本发明一个实施例的电子设备700的示意性框图。如图7所示，电子设备700可以包括处理器710和存储器720。其中，存储器720中存储有计算机程序指令，计算机程序指令被处理器710运行时用于执行如前文所述的语音质检方法。

根据本发明的再一方面，还提供了一种存储介质。在存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的语音质检方法的相应步骤，并且用于实现根据本发明实施例的语音唤醒装置和设备中的相应模块。所述存储介质例如可以包括平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器 (EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语音质检的装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音质检的方法，其特征在于，包括：

获取待质检的音频信号；

合并所述时域表示和所述频域表示，以作为编码输出数据；

将所述编码输出数据进行解码；

基于解码结果，确定所述音频信号的分数。

2.如权利要求1所述的方法，其中，

所述将所述编码输出数据进行解码包括：

基于解码结果确定所述音频信号的分数包括：

基于语音帧所对应的分数，确定所述音频信号的分数。

3.如权利要求2所述的方法，其中，所述解码器包括并联的第一解码器和第二解码器，

4.如权利要求3所述的方法，其中，所述基于所述第一概率和所述第二概率确定所述音频信号中的语音帧所实际对应的字，包括：

5.如权利要求1至4任一项所述的方法，其中，所述语音字典中的每组字中的不同字对应不同的分数段，所述确定语音帧所对应的分数包括：

6.如权利要求1至5任一项所述的方法，其中，所述方法还包括：

7.如权利要求1至6任一项所述的方法，其中，

在所述基于解码结果确定所述音频信号的分数之前，所述方法还包括：