CN105679312B

CN105679312B - 一种噪声环境下声纹识别的语音特征处理方法

Info

Publication number: CN105679312B
Application number: CN201610125032.3A
Authority: CN
Inventors: 张毅; 谢延义; 徐晓东; 萧红; 罗久飞; 黄超; 王可佳; 倪雷
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2019-09-10
Anticipated expiration: 2036-03-04
Also published as: CN105679312A

Abstract

本发明请求保护一种噪声环境下声纹识别的语音信号特征处理方法，包括步骤：(1)根据语音信号的特点对其进行信号的前期处理，包括语音信号的预加重，端点检测和加窗函数的选择；(2)估算发声个体的基音周期，并以此为依据对语音信号进行谱平滑处理，得到新的谱包络，计算通过梅尔滤波器的能量，最终通过离散余弦变换(DCT)计算得到梅尔平滑系数(SFCC)。(3)结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法对SFCC进行后处理，得到回归平衡参数(MVDA)；目的是通过平滑谱包络去除个体发声的不稳定因素和通过后处理算法去除环境噪声的影响，最终降低声纹识别的误识率。

Description

一种噪声环境下声纹识别的语音特征处理方法

技术领域

本发明涉及语音信号处理领域，提出一种基于基音特性和噪声特性的语音特征提取方法。

背景技术

随着语音科学与信息通信技术的发展，作为更加便捷的身份验证技术，声纹识别技术取得了显著的进步。语言作为人类最基础的自然属性之一，是人类之间信息传递最直接便捷的方式。作为个体的人的发声器官不仅与先天因素有关，而且受后天发育环境等因素的影响较大，因此语音有十分显著的个体色彩。这种个体上的特点同时衍生了一个科学研究热点——声纹识别。当一个个体在说话人时，所产生的语音与个体的发声习惯、发声器官等因素有关，这些因素是相对稳定的，一般情况下差异较小，因此个体之间的声纹图谱都存在差异。因此人的声音可以作为人的身份标识，是一个相对稳定的生命信号。声纹识别就是将人的发声特性作为标识，对人的身份进行验证的一项科学技术。

语音信号中的基音周期是语音的一大特性，它描述了语音激励源的一个特征。但由于人的基音周期的范围很宽，且同一个体在不同的情感环境中发音的基音周期也不相同，加之基音周期还会受到发音音调的影响，因此将基音作为声纹特征是比较困难的事情，而且基音也会通过影响语音特征参数，影响声纹识别的结果。因此本发明的谱包络平滑法正是基于这一特性，去除了基音的影响。

鲁棒性是声纹识别技术的关键，一个训练好的声纹识别系统通常需要在各种日常的环境下工作。声学模型只使用语音样本库中的数据进行训练，而语音的采集通常在低噪声的环境下，往往很难与多种噪声环境相匹配，环境噪声造成的特征扭曲降低了声纹识别的鲁棒性。环境噪声根据其特性可以分为加性噪声和减性噪声两种，如何有效的去除这两种噪声的干扰是关键所在。语音特征的后处理算法在前期特征的基础上进行处理，不仅减小了算法的复杂性，而且有利于提高语音的声纹特性。

发明内容

针对以上现有技术的不足，提出了一种方法。本发明的技术方案如下：一种噪声环境下声纹识别的语音特征处理方法，该方法包括以下几个步骤：

步骤1：获取噪声环境下的语音信号，根据语音的特点对信号进行前期处理，包括预加重处理，加窗处理和端点检测；

步骤2：估算发声个体的基音周期，并以此为依据对语音信号进行谱平滑处理，得到新的谱包络，计算通过梅尔滤波器的能量，最终通过DCT倒谱计算得到中间信号SFCC；

步骤3：结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的SFCC进行后处理，得到最终语音特征MVDA。

进一步的，步骤1对信号进行前期处理，具体为：步骤A1：根据口腔的辐射响应接近于一阶高通函数的特性，采用的预加重滤波器为x′(n)＝x(n)-a*x(n-1)，公式中a是常数，x(n)为原信号，x′(n)为预加重信号，n为时域内语音的采样点。

步骤A2：采用汉明窗对语音信号进行加窗处理；

步骤A3：采用短时平均能量和短时平均过零率的双门限法对语音信号进行端点检测。

进一步的，所述步骤2，具体步骤如下：

步骤B1：首先利用倒谱法基音检测估算每一帧语音的基音周期；

步骤B2：对每一帧信号进行快速傅里叶变换，计算谱线能量；

步骤B3：对得到的能量谱求其谱包络，利用谱包络平滑函数对谱包络进行平滑处理；

步骤B4：计算通过Mel滤波器组的能量，计算DCT倒谱得到SFCC。

进一步的，所述步骤B3利用谱包络平滑函数对谱包络进行平滑处理具体为：对于一帧语音信号，首先通过在步骤B1中求得的基音频率w₀；根据基音频率w₀的频域数据X[w]，在信号区间[w₀/2,3w₀/2]内找到波峰A₁及其对应的频率w₁₁；同样在信号区间[w₀/2+w₁₁,3w₀/ 2+w₁₁]内找到波峰A₂及其对应的频率w₁₂；循环此步骤依次发现{[A_k,w_1k]},k＝1,2,...，一直找到频域信号的末端；同样根据其频域数据X[w]，在信号区间[w₀/2,3w₀/2]内找到波峰B₁及其对应的频率w₂₁；同样在信号区间[w₀/2+w₂₁,3w₀/2+w₂₁]内找到波峰B₂及其对应的频率w₂₂；循环此步骤依次发现{[B_k,w_2k]},k＝1,2,...，一直找到频域信号的末端；根据A_k和B_k求得二者的中间值C_k及其对应的频率w_k；根据两个相邻的中间值插值重新估算谱线能量，公式为得到新的能量谱包络。

进一步的，所述步骤3，结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的SFCC进行后处理，具体步骤如下：

步骤C1：利用均值消减法对语音信号特征进行处理，用C^(τ)表示第τ帧语音信号的特征，则均值消减表示为表示经步骤C1后得到的语音信号，其中μ是根据样本数据估计的均值项；

步骤C2：利用方差归一化法对步骤C1均值消减后的语音信号特征进行处理；方差归一化法表示为其中是均值消减和方差归一化之后的特征，σ²[d]是SFCC第d维的估计方差；

步骤C3：利用时间序列滤波法对步骤C2方差归一后的语音信号特征进行处理；其中是均值消减、方差归一化和时间序列滤波之后的特征，K代表时间序列的宽度，m为其最大宽度；

步骤C4：利用加权自回归移动平均滤波法对语音信号特征进行处理，

其中是MVDA滤波之后的特征，m代表加权自回归移动平均滤波法深度和权重，m＝1时表示没加权自回归移动平均滤波处理，这里T为给定语句中的帧数。

进一步的，所述步骤B1：首先利用倒谱法基音检测估算每一帧语音的基音周期具体为；

已知基音频率范围为40～600Hz之间，当采样频率为f_s时，在到频率域上40Hz对应的基因周期样值点P_max＝f_s/40，而600Hz对应的基音周期样值点为P_min＝f_s/600，所以在计算出倒谱后，就在到频率为P_min和P_max之间寻找倒谱函数的最大值，倒谱函数最大值对应的样点数就是该i帧语音信号的基音周期T₀(i)。

进一步的，所述步骤B2对每一帧信号进行快速傅里叶变换，计算谱线能量具体为；

当假设语音信号序列为x(n)，对应的傅里叶变换为X(w)＝FT[x(n)]，则序列为倒谱，FT和FT-¹分别表示傅里叶变换和傅里叶逆变换，根据语音的特性，x(n)是由声门脉冲激励u(n)经声道响应υ(n)滤波而得到，可以表示为x(n)＝u(n)*υ(n)，设这三个量的倒谱分别为及则可得到看出和是相对分离的，因而可行倒谱分离恢复u(n)，从中求出基音周期。

本发明的优点及有益效果如下：

本发明是针对声纹识别中，语音信号特征的个体因素和环境因素，提出了一种有效去除基音和噪声干扰的特征处理方法，保证声纹识别的灵敏性和准确性。具体优点是：(1)对语音信号进行预处理，针对噪声环境特性选取合适的预加重方法、加窗分帧方法和端点检测方法，降低了噪声对语音预处理造成的误差，保证了声纹识别的系统性能；(2)在特征提取时，通过对语音信号进行谱平滑处理，得到更能代表声纹特性的谱包络，弱化了基音周期的不稳定性；(3)在后处理算法中，利用MVDA滤波法去除卷积噪声和加性噪声影响，同时保证了语音系统的灵敏性。

本发明所有语音特征处理步骤，都采取了针对声纹特性的方法，综合考虑了声纹识别的外部噪声环境和发声个体自身的不稳定因素，在保证声纹识别系统的同时，降低了算法的复杂性，保证了声纹识别的灵敏性。

附图说明

图1是本发明提供优选实施例能量谱包络图；

图2：谱包络平滑法流程图；

图3：MVDA处理法流程图。

具体实施方式

以下结合附图，对本发明作进一步说明：

如图1所示，假设语音信号为x(n)。

步骤1：采用的预加重滤波器x′(n)＝x(n)-ax(n-1)，其中a取常数0.95，对语音信号进行预处理；采用汉明窗对语音信号进行加窗处理；首先根据短时能量包络线选取一个较大的阈值T₁(根据语音信号能量统计，设为9.58)进行粗判，高于该阈值确定为语音信号，语音信号的起止点位于该阈值与短时能量包络交点所对应时间点之外。在平均能量上确定一个较低的阈值T₂(根据语音信号能量统计，设为5.56)，并从T₁的交点分别往信号的两侧搜索，找到与T₂的交点就是短时能量判定的语音信号起止点。以短时过零率为准向语音信号两侧寻找，找到低于设定过零率阈值T₃(根据语音短时过零率统计，设为7.56)的点即为语音信号的起止点。根据两级判决的结果各取起点和终点的中间值作为最后的起止点。步骤2：首先利用倒谱法基音检测估算每一帧语音的基音周期。当采样频率为f_s＝8000Hz时，在到频率域上40Hz对应的基因周期样值点P_max＝f_s/40，而600Hz对应的基音周期样值点为P_min＝f_s/600。所以在计算出倒谱后，就在到频率为P_min和P_max之间寻找倒谱函数的最大值，倒谱函数最大值对应的样点数就是该i帧语音信号的基音周期T₀(i)。接着计算谱线能量E(w)＝[X(w)]²。利用谱包络平滑函数对谱包络进行平滑处理，如图2。对于一帧语音信号，首先求得基音频率w₀；根据其频域数据E[w]，在信号区间[w₀/2,3w₀/2]内找到波峰A₁及其对应的频率w₁₁；同样在信号区间[w₀/2+w₁₁,3w₀/2+w₁₁]内找到波峰A₂及其对应的频率w₁₂；循环此步骤依次发现{[A_k,w_1k]},k＝1,2,...，一直找到信号的末端，频率为4000Hz时；同样根据其频域数据E[w]，在信号区间[w₀/2,3w₀/2]内找到波峰B₁及其对应的频率w₂₁；同样在信号区间[w₀/2+w₂₁,3w₀/2+w₂₁]内找到波峰B₂及其对应的频率w₂₂；循环此步骤依次发现{[B_k,w_2k]},k＝1,2,...，一直找到信号的末端，频率为4000Hz时；根据A_k和B_k求得二者的中间值C_k及其对应的频率w_k；根据两个相邻的中间值插重新估算谱线能量，公式为得到新的能量谱包络，得第i帧的能量谱为C_i。根据Mel滤波器的频率响应H_m(k)，其中M为Mel滤波器个数，N为语音信号的帧长。最后对S(i,m)做DCT变换求得特征参数SFCC，如图2。

步骤3：SFCC参数的MVDA滤波，步骤如图3。利用均值消减法对语音信号特征进行处理，用C^(τ)表示第τ帧语音信号的特征，则均值消减表示为其中μ是根据样本数据估计的均值项。利用方差归一化法对语音信号特征进行处理。方差归一化法表示为其中是均值消减和方差归一化之后的特征，σ²[d]是SFCC第d维的估计方差。利用时间序列滤波法对语音信号特征进行处理。时间序列滤波法表示为其中是均值消减、方差归一化和时间序列滤波之后的特征，K代表时间序列的宽度，m为其最大宽度。利用加权自回归移动平均滤波法对语音信号特征进行处理。根据语音信号的低频强高频弱的特性，构建并加权自回归移动平均滤波法表示为：

其中是MVDA滤波之后的特征，m代表加权自回归移动平均滤波法深度和权重，特殊情况m＝1表示没加权自回归移动平均滤波处理。这里T为给定语句中的帧数。得到最终的特征参数

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种噪声环境下声纹识别的语音特征处理方法，其特征在于，该方法包括以下几个步骤：

步骤2：估算发声个体的基音周期，并以此为依据对语音信号进行谱平滑处理，得到新的谱包络，计算通过梅尔滤波器的能量，最终通过DCT倒谱计算得到特征参数SFCC；

步骤3：结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的特征参数SFCC进行后处理，其中利用时间序列滤波法为：对方差归一化后的语音信号特征进行处理，其中，τ表示帧数，是均值消减、方差归一化和时间序列滤波之后的特征，k代表时间序列的宽度，w为时间序列最大宽度，是均值消减和方差归一化之后的特征，得到最终语音特征MVDA。

2.根据权利要求1所示的噪声环境下声纹识别的语音特征处理方法，其特征在于，步骤1对信号进行前期处理，具体为：步骤A1：根据口腔的辐射响应接近于一阶高通函数的特性，采用的预加重滤波器为x′(n)＝x(n)-a*x(n-1)，公式中a是常数，x(n)为原信号，x′(n)为预加重信号，n为时域内语音的采样点；

步骤A2：采用汉明窗对语音信号进行加窗处理；

3.根据权利要求1或2所示的噪声环境下声纹识别的语音特征处理方法，其特征在于，所述步骤2，具体步骤如下：

步骤B1：首先利用倒谱法基音检测估算每一帧语音的基音周期T₀(i)；

步骤B4：计算通过梅尔滤波器组的能量，计算DCT倒谱得到SFCC。

4.根据权利要求3所示的噪声环境下声纹识别的语音特征处理方法，其特征在于，所示步骤B3利用谱包络平滑函数对谱包络进行平滑处理具体为：对于一帧语音信号，首先通过在步骤B1中求得的基音频率w₀；根据基音频率w₀的频域数据X[w]，在信号区间[w₀/2,3w₀/2]内找到波峰A₁及其对应的频率w₁₁；同样在信号区间[w₀/2+w₁₁,3w₀/2+w₁₁]内找到波峰A₂及其对应的频率w₁₂；循环此步骤依次发现{[A_k,w_1k]},k＝1,2,...，一直找到频域信号的末端；同样根据其频域数据X[w]，在信号区间[w₀/2,3w₀/2]内找到波峰B₁及其对应的频率w₂₁；同样在信号区间[w₀/2+w₂₁,3w₀/2+w₂₁]内找到波峰B₂及其对应的频率w₂₂；循环此步骤依次发现{[B_k,w_2k]},k＝1,2,...，一直找到频域信号的末端；根据A_k和B_k求得二者的中间值C_k及其对应的频率w_k；根据两个相邻的中间值插值重新估算谱线能量，公式为w表示时间序列最大宽度，得到新的能量谱包络。

5.根据权利要求1所示的噪声环境下声纹识别的语音特征处理方法，其特征在于，所述步骤3，结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的SFCC进行后处理，具体步骤如下：

步骤C2：利用方差归一化法对步骤C1均值消减后的语音信号特征进行处理；方差归一化法表示为其中是第d维均值消减之后的特征，σ²[d]是SFCC第d维的估计方差；

步骤C3：利用时间序列滤波法对步骤C2方差归一后的语音信号特征进行处理；其中是均值消减、方差归一化和时间序列滤波之后的特征，k代表时间序列的宽度，w为时间序列的最大宽度；

其中是MVDA滤波之后的特征，m代表加权自回归移动平均滤波法深度和权重，m＝1时表示没加权自回归移动平均滤波处理， C^(τ)[d]表示第d维特征，μ[d]表示均值，这里T为给定语句中的帧数。

6.根据权利要求3所示的噪声环境下声纹识别的语音特征处理方法，其特征在于，所述步骤B1：首先利用倒谱法基音检测估算每一帧语音的基音周期具体为；

已知基音频率范围为40～600Hz之间，当采样频率为f_s时，在到频率域上40Hz对应的基音周期样值点P_max＝f_s/40，而600Hz对应的基音周期样值点为P_min＝f_s/600，所以在计算出倒谱后，就在到频率为P_min和P_max之间寻找倒谱函数的最大值，倒谱函数最大值对应的样点数就是i帧语音信号的基音周期T₀(i)。

7.根据权利要求3所示的噪声环境下声纹识别的语音特征处理方法，其特征在于，所述步骤B2对每一帧信号进行快速傅里叶变换，计算谱线能量具体为；当假设语音信号序列为x(n)，n为时域内语音的采样点，对应的傅里叶变换为X(w)＝FT[x(n)]，则序列为倒谱，w为时间序列的最大宽度，FT和FT^-1分别表示傅里叶变换和傅里叶逆变换，根据语音的特性，x(n)是由声门脉冲激励u(n)经声道响应υ(n)滤波而得到，表示为x(n)＝u(n)*υ(n)，*表示滤波，设这三个量的倒谱分别为及则可得到看出和是相对分离的，因而可行倒谱分离从恢复u(n)，从中求出基音周期。