CN111862989A

CN111862989A - 一种声学特征处理方法和装置

Info

Publication number: CN111862989A
Application number: CN202010486083.5A
Authority: CN
Inventors: 汪法兵; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-10-30
Anticipated expiration: 2040-06-01
Also published as: CN111862989B

Abstract

本发明提供了一种声学特征处理方法和装置，涉及语音识别技术领域。本发明提供的声学特征处理方法和装置，通过根据待识别的语音中提取的声学特征，绘制二维语谱图，并通过对所述二维语谱图对应的梯度信息进行加权计算，得到目标掩模函数，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图，最后根据所述目标语谱图确定所述语音对应的目标声学特征。本发明能够抑制所述声学特征中的噪声特征，从而提高声纹识别的准确率和效率。

Description

一种声学特征处理方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种声学特征处理方法和装置。

背景技术

随着社会的发展以及电子设备的普及，人们对语音质量的要求越来越高。其中，声纹识别技术作为人工智能领域的重要组成部分，在信息安全、防伪鉴别、公安司法等领域具有越来越重要的地位。

所述声纹识别也称说话人识别，是利用计算机，根据语音自动判断说话人身份的生物特征识别技术。具体的，通常基于GMM-UBM(Gaussian mixture model-UniversalBackground Model，混合高斯模型-通用背景模型)或者GMM-IVECTOR模型或者深度神经网络模型来实现所述声纹识别技术，其具体步骤包括：1、采集原始语音；2、对所述原始语音进行VAD(Voice Activity Detection，语音活动检测)检测，以检出所述原始语音对应的音频；3、从所述音频中提取声学特征，如MFCC(Mel-scale FrequencyCepstralCoefficients，梅尔倒谱系数)、PLP(Perceptual LinearPredictive，感知线性预测系数)、FBANK(Filter bank，滤波器组)特征等；4、从所述声学特征中提取深层次的声纹特征，如ivector特征、xvector特征；5、最后利用所述声纹特征实现声纹识别。

在实际应用中，所述声学特征极易受到环境中的噪声干扰，从而导致提取的所述声纹特征中包含噪声特征，影响后续声纹识别的准确率和效率，导致声纹识别技术的性能严重下降。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种声学特征处理方法和装置。

依据本发明的第一方面，提供了一种声学特征处理方法，该方法包括：

从待识别的语音中提取声学特征；

根据所述声学特征，绘制二维语谱图；

确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；

对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；

利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；

根据所述目标语谱图，确定所述语音对应的目标声学特征。

依据本发明的第二方面，提供了一种声学特征处理装置，该装置包括：

提取模块，用于从待识别的语音中提取声学特征；

绘制模块，用于根据所述声学特征，绘制二维语谱图；

确定梯度信息模块，用于确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；

加权计算模块，用于对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；

乘积计算模块，用于利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；

确定目标声学特征模块，用于根据所述目标语谱图，确定所述语音对应的目标声学特征。

本发明实施例提供的一种声学特征处理方法和装置，通过根据待识别的语音中提取的声学特征，绘制二维语谱图，并通过对所述二维语谱图对应的梯度信息进行加权计算，得到目标掩模函数，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图，最后根据所述目标语谱图确定所述语音对应的目标声学特征。因此，本发明能够利用语音特征和噪声特征在时间方向和频率方向变化率不同的特性，通过对所述声学特征对应的梯度信息进行时间方向和梯度方向上的加权计算，增强所述声学特征中的语音特征，抑制所述声学特征中的噪声特征，提高声纹识别的准确率和效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种声学特征处理方法的步骤流程图；

图2是本发明实施例提供的一种声学特征处理装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

方法实施例

现有技术中通常从待识别的语音中提取声学特征，再从所述声学特征中提取声纹特征，以进行声纹识别。在实际应用中，所述声学特征极易受到环境中的噪声干扰，从而导致提取的所述声纹特征中包含噪声特征，影响后续声纹识别的准确率和效率，导致声纹识别技术的性能严重下降。本发明通过增强所述声学特征中的语音特征并抑制所述声学特征中的噪声特征，从而提高后续声纹识别的准确率和效率。

图1是本发明实施例提供的一种声学特征处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101，从待识别的语音中提取声学特征；

步骤102，根据所述声学特征，绘制二维语谱图；

步骤103，确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；

步骤104，对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；

步骤105，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；

步骤106，根据所述目标语谱图，确定所述语音对应的目标声学特征。

所述语音是人的发音器官发出的具有一定社会意义的声音。通常情况下，可以将语音信号当成一种短时平稳信号来处理，即，语音信号的相关特征参数的分布规律在短时间内是一致的，所述短时间一般范围在10到30毫秒内。因此，在对所述语音信号进行特征提取的过程中，会有一个20ms左右的时间窗，以这个窗为单位在语音信号上进行滑动，每一个时间窗都可以提取出一个能够表征这个时间窗内语音信号的特征，该过程称为声学特征提取。所述声学特征能够准确表征出这个时间窗内的语音信号的相关信息。

本发明实施例中，从待识别的语音中提取声学特征的步骤可以包括：通过对所述待识别语音进行VAD检测，得到所述待识别语音对应的音频，再从所述音频中提取声学特征。可以理解，本发明对提取所述声学特征的方式不作限制。

所述声学特征能够包括音质、音强、音高、音长四个物理量的所有声学表现。需要说明的是，因为所述声学特征极易受到环境中的噪声干扰，因此所述声学特征中包含语音特征还包括噪声特征，所述语音特征指语音信号的相关信息。所述声学特征能够作为声纹特征矢量，因此能够基于所述声学特征进行声纹识别任务。

根据所述声学特征，绘制二维语谱图，通常所述二维语谱图的横坐标是时间，纵坐标是频率，表示为(t，f)。所述语谱图，即，语音频谱图，所述二维语谱图能够反映所述待识别的语音信号的频谱随时间改变而变换的关系。

可以将所述二维语谱图看成二维离散函数，对所述二维离散函数求导，即可得到梯度信息。所述梯度表示某一函数在某点处的方向导数沿该方向取的值，即，在该点处沿着该方向的函数变化率。所述变化率即可体现所述声学特征在时间方向与频率方向的变化关系。

具体的，所述语音特征具有典型的语谱图结构，从图像的角度分析，表现为具有典型的纹理，所述语音特征在所述二维语谱图上表现为在时间方向的变化相对于频率方向的变化要慢；所述噪声特征是非结构性的，从图像的角度分析，没有典型的纹理结构，所述噪声特征在所述二维语谱图上表现为在时间方向的变化相对于频率方向的变化要快。因此，本发明利用所述语音特征和所述噪声特征在时间方向和频率方向变化率的不同，实现增强所述声学特征中的语音特征，抑制所述声学特征中的噪声特征。

所述加权计算指根据所述语音特征和所述噪声特征在时间方向和频率方向变化率的大小不同的特性，利用不同的预设加权系数对所述二维语谱图的梯度信息进行加权计算，得到目标掩模函数。所述目标掩模函数用于对所述二维语谱图进行区域提取、区域屏蔽、结构特征提取等操作，具体的，利用所述目标掩模函数与所述二维语谱图进行乘积计算，可以得到目标语谱图，根据所述目标语谱图，能够确定所述语音对应的目标声学特征。

本发明实施例中，通过根据待识别的语音中提取的声学特征，绘制二维语谱图，并通过对所述二维语谱图对应的梯度信息进行加权计算，得到目标掩模函数，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图，最后根据所述目标语谱图确定所述语音对应的目标声学特征。因此，本发明能够利用所述语音特征和所述噪声特征在时间方向和频率方向变化率不同的特性，增强所述声学特征中的语音特征，抑制所述声学特征中的噪声特征，提高声纹识别的鲁棒性，提高后续声纹识别的准确率和效率。

在本发明的一种可选实施例中，步骤103所述确定所述二维语谱图对应的梯度信息，包括：

利用梯度算子中的时间方向矩阵和频率方向矩阵分别与所述二维语谱图进行卷积计算，得到所述二维语谱图对应的时间方向梯度信息和频率方向梯度信息。

所述梯度算子是边缘检测的一种方法，所述梯度算子包括拉普拉斯算子、索贝尔算子等等。为便于描述，本发明实施例中所述梯度算子以索贝尔sobel算子为例，可以理解，本发明实施例对所述梯度算子不加以限制。其中，所述索贝尔算子包含两组矩阵，具体如下所示：

所述A矩阵为时间方向矩阵，所述B矩阵为频率方向矩阵。

利用所述时间方向矩阵和频率方向矩阵分别与所述二维语谱图进行卷积计算，得到所述二维语谱图对应的时间方向梯度信息和频率方向梯度信息，具体如下所示：

其中，t表示时间方向，f表示频率方向，S表示二维语谱图，G_t表示时间方向梯度信息，G_f表示频率方向梯度信息，通过上述方程(3)至(4)可以计算得到所述二维语谱图对应的时间方向梯度信息和频率方向梯度信息。

在本发明的一种可选实施例中，步骤104所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算之前，所述方法还包括：

确定所述时间方向梯度信息对应的时间方向加权系数，以及频率方向梯度信息对应的频率方向加权系数。

根据所述语音特征在时间方向的变化相对于频率方向的变化要慢，所述噪声特征在时间方向的变化相对于频率方向的变化要快的特性，通过确定所述时间方向梯度信息对应的时间方向加权系数，以及频率方向梯度信息对应的频率方向加权系数，能够调整所述二维语谱图的梯度信息。所述调整具体表现为调整所述梯度信息对应的函数变化率的大小，即，改变所述二维语谱图中时间方向和频率方向的变化关系。

所述时间方向加权系数和频率方向加权系数根据本领域技术人员的业务需要进行设置，本发明不作限制。

在本发明的一种可选实施例中，所述频率方向加权系数大于所述时间方向加权系数。

通常所述加权系数在(0，1)之间，根据所述语音特征和噪声特征的特性，设置所述频率方向加权系数大于所述时间方向加权系数。通过所述设置可以加强所述二维语谱图在频率方向的梯度信息，从而增强所述语音特征，抑制所述噪声特征。

可选的，步骤104所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数，包括：

通过所述时间方向加权系数和所述频率方向加权系数，对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标掩模函数。

可选的，所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标掩模函数，包括：

步骤S1，对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标梯度函数；

步骤S2，根据预设阈值拟合所述目标梯度函数，得到目标掩模函数。

具体如下所示：

其中，w₁表示时间方向加权系数，w₂表示频率方向加权系数，w₂>w₁。所述G[t，f]表示目标梯度函数。

进一步地，对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合后，可以通过硬判决的方式，根据预设阈值拟合所述加权融合后的目标梯度函数，以得到目标掩模函数。所述硬判决指对梯度高于所述预设阈值的掩模取值1，对梯度低于所述预设阈值的掩模取值为0。具体如下所示：

mask(G)＝1,G＞thr (6)

mask(G)＝0,G＜thr (7)

其中，所述thr表示预设阈值，所述预设阈值为本领域技术人员根据业务需要进行预先设置，本发明对所述预设阈值的取值不作限制。通过所述硬判决可以进一步抑制噪声特征，得到目标掩模函数。

所述目标掩模函数可以表示为mask(G)函数，将所述mask(G)函数与所述二维语谱图进行乘积计算，得到目标语谱图，具体如下所示：

S'＝S×mask(G) (8)

其中，所述S'表示目标语谱图。

从所述目标语谱图中确定所述语音对应的目标声学特征，所述目标声学特征即为增强语音特征以及抑制噪声特征之后的声学特征。将所述目标声学特征输入至声纹识别系统中，所述声纹识别系统如GMM-UBM模型或神经网络模型，进行声纹识别，能够提高所述声纹识别系统的鲁棒性，提高所述声纹识别的准确率和效率。

综上所述，本发明实施例提供的声学特征处理方法，通过根据待识别的语音中提取的声学特征，绘制二维语谱图，并通过对所述二维语谱图对应的梯度信息进行加权计算，得到目标掩模函数，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图，最后根据所述目标语谱图确定所述语音对应的目标声学特征。因此，本发明能够利用所述语音特征和所述噪声特征在时间方向和频率方向变化率不同的特性，通过对所述声学特征对应的梯度信息进行时间方向和梯度方向加权计算的方式，抑制所述声学特征中的噪声特征，从而减小噪声环境对所述声学特征的影响，提高声纹识别的准确率和效率。

装置实施例

图2是本发明实施例提供的一种声学特征处理装置的结构框图，如图2所示，该装置可以包括：

提取模块201，用于从待识别的语音中提取声学特征。

绘制模块202，用于根据所述声学特征，绘制二维语谱图。

确定梯度信息模块203，用于确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息。

加权计算模块204，用于对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数。

乘积计算模块205，用于利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图。

确定目标声学特征模块206，用于根据所述目标语谱图，确定所述语音对应的目标声学特征。

可选的，所述确定梯度信息模块203，包括：

确定梯度信息子模块，用于利用梯度算子中的时间方向矩阵和频率方向矩阵分别与所述二维语谱图进行卷积计算，得到所述二维语谱图对应的时间方向梯度信息和频率方向梯度信息。

可选的，所述装置还包括：

确定加权系数模块，用于确定所述时间方向梯度信息对应的时间方向加权系数，以及频率方向梯度信息对应的频率方向加权系数。

可选的，所述加权计算模块204，包括：

加权融合子模块，用于通过所述时间方向加权系数和所述频率方向加权系数，对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标掩模函数。

可选的，所述频率方向加权系数大于所述时间方向加权系数。

可选的，所述加权融合子模块，包括：

加权融合单元，用于对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标梯度函数；

拟合单元，用于根据预设阈值拟合所述加权融合后的目标梯度函数，得到目标掩模函数。

综上所述，本发明实施例提供的声学特征处理装置，通过根据待识别的语音中提取的声学特征，绘制二维语谱图，并通过对所述二维语谱图对应的梯度信息进行加权计算，得到目标掩模函数，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图，最后根据所述目标语谱图确定所述语音对应的目标声学特征。因此，本发明能够利用所述语音特征和所述噪声特征在时间方向和频率方向变化率不同的特性，通过对所述声学特征对应的梯度信息进行时间方向和梯度方向加权计算的方式，抑制所述声学特征中的噪声特征，从而减小噪声环境对声学特征的影响，提高声纹识别的准确率和效率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种声学特征处理方法，其特征在于，所述方法包括：

从待识别的语音中提取声学特征；

根据所述声学特征，绘制二维语谱图；

根据所述目标语谱图，确定所述语音对应的目标声学特征。

2.根据权利要求1所述的方法，其特征在于，所述确定所述二维语谱图对应的梯度信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算之前，所述方法还包括：

确定所述时间方向梯度信息对应的时间方向加权系数，以及频率方向梯度信息对应的频率方向加权系数；

所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数，包括：

4.根据权利要求3所述的方法，其特征在于，所述频率方向加权系数大于所述时间方向加权系数。

5.根据权利要求3所述的方法，其特征在于，所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标掩模函数，包括：

对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标梯度函数；

根据预设阈值拟合所述目标梯度函数，得到目标掩模函数。

6.一种声学特征处理装置，其特征在于，所述装置包括：

提取模块，用于从待识别的语音中提取声学特征；

绘制模块，用于根据所述声学特征，绘制二维语谱图；

7.根据权利要求6所述的装置，其特征在于，所述确定梯度信息模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

确定加权系数模块，用于确定所述时间方向梯度信息对应的时间方向加权系数，以及频率方向梯度信息对应的频率方向加权系数；

所述加权计算模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述频率方向加权系数大于所述时间方向加权系数。

10.根据权利要求8所述的装置，其特征在于，所述加权融合子模块，包括：

拟合单元，用于根据预设阈值拟合所述目标梯度函数，得到目标掩模函数。