CN110010150A

CN110010150A - 基于多分辨率的听觉感知语音特征参数提取方法

Info

Publication number: CN110010150A
Application number: CN201910297406.3A
Authority: CN
Inventors: 林琳; 孙晓颖; 陈建; 刘璐; 于帆; 王知强; 张骞; 武艺
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-12

Abstract

本发明涉及一种基于多分辨率的听觉感知语音特征参数提取方法，属于语音信号处理领域。以噪声环境下单通道输入语音信号为研究对象，通过对输入信号进行时频表示，在不同分辨率下提取基于自适应压缩滤波器组的对数耳蜗谱特征，并联合各分辨率特征及其动态参数，使用ARMA模型对特征进行平滑处理，来进一步提高语音分离性能。优点在于：采用掩蔽作为分离目标，特征参数的有效性对分离效果的影响，为提高分离后语音的可懂度提供了一个重要的理论依据；利用自适应压缩滤波器组对输入信号进行滤波，在不同分辨率下，提取每通道的对数耳蜗谱特征，并联合各分辨率特征及其动态参数，更好地提高分离特征的语音感知能力，进而提高语音分离的性能。

Description

基于多分辨率的听觉感知语音特征参数提取方法

技术领域

本发明涉及语音信号处理领域，特别是对噪声环境下的语音信号，在进行基于掩蔽的单声道语音分离时所使用的一种语音特征参数提取方法。

背景技术

单声道语音分离是从单麦克风记录的数据中，从背景干扰下提取目标说话人的语音。基于掩蔽的单声道语音分离技术通过提取混合带噪语音的特征参数，对分离目标语音的掩码进行估计，从而实现目标语音的分离。好的语音特征参数能够提高分离目标语音的可懂度，在语音分离的应用领域，比如助听器的设计、移动通信等领域中十分重要。

目前，在单声道语音分离的特征的研究中，《一种语音分离方法及装置》CN108962276A使用当前分离信号与P个分离信号中除当前分离信号之外的其他分离信号之间的交叉残留系数，进行后续的分离。《一种基于时间延迟直方图的语音分离方法》CN108269583A提取数字声音信号的频谱；利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图，抽取显著峰值作为时间延迟的估计值；提出一种基于时间延迟直方图的语音分离方法。《一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法》CN107845389A提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法，采用多分辨率听觉倒谱系数(MR-GFCC)作为分离特征。近年来，已经有很多能够表示语音感知特性的特征被应用到语音分离中，并取得了很好的分离性能。目前，语音分离中使用的听觉特征包括梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测系数PLP(Perceptual linear prediction)、RASRA-PLP特征(Relative spectral transformPLP)、Gammatone倒谱系数GFCC(Gammatone frequency cepstral coefficient)、Gammatone特征GF(Gammatone Feature)、幅度调制谱AMS(Amplitude modulationspectrogram)、基于基音的特征等。这些特征之间既存在互补性也存在冗余性，它们通常组合在一起使用。但是在信噪比较低的条件下，其实现的语音分离系统性能还是不尽人意。因此，如何提取一个好的听觉语音感知特征，提高分离目标语音的语音可懂度，进而提高语音分离系统性能，成为当前单声道语音分离领域研究的一个热点问题。

发明内容

本发明提供一种基于多分辨率的听觉感知语音特征参数提取方法，以噪声环境下单通道输入语音信号为研究对象，通过对输入信号进行时频表示，在不同分辨率下提取基于自适应压缩Gammachirp滤波器组的对数耳蜗谱特征，并联合各分辨率特征及其动态参数，使用ARMA模型(Auto-regressive and moving average model)对特征进行平滑处理，来进一步提高语音分离性能。

本发明采取的技术方案是，包括下列步骤：

(1)、语音信号的预处理

语音信号的预处理过程包括将输入信号、采样率调整为Fs、端点检测、对输入数据幅度进行规整、预加重，得到预处理后信号xx(n),n＝1,2,...N，其中N为输入信号长度；

(2)、对预处理后的信号xx(n),n＝1,2,...N进行自适应压缩Gammachirp听觉滤波器组滤波，得到M通道的滤波信号xGc(i,j),i＝1,...,M,j＝1,...,N，其中M为自适应压缩Gammachirp听觉滤波器组的滤波器个数，N为输入信号长度，具体步骤：

1)计算每个通道的pGC(passive Gammachirp)滤波器频率响应g_c(i,t),i＝1,...,M

其中，时间t>0，a为振幅；阶次n₁与参数b₁是定义Gamma函数分布情况的参数，c₁为啁啾因子(chirp factor)；φ₁是初始相位，f_r1是pGC滤波器的中心频率，其按照ERB的关系，在给定频率范围之内分布，ERB(f_r1)是中心频率为f_r1的听觉滤波器等效矩形带宽的值，由下式计算得到；

ERB(f_r1)＝24.7+0.108f_r1 (2)

2)利用每个通道的频率响应g_c(i,t),i＝1,...,M对输入信号xx(n),n＝1,2,...N进行滤波，得到每个通道滤波后信号s₁(i,j),i＝1,...,M,j＝1,...,N；

3)采用四个二阶IIR滤波器的级联近似实现HP-AF滤波器，在Z平面第k个IIR滤波器的频率响应为：

其中：

r_k＝exp{-p₁(p₀/p₄)^k-1·2πbERB(f_r2)/F_s} (4)

△f_r＝(p₀·p₄)^k-1·p₂·c₂·b₂·ERB(f_r2) (5)

式中F_s是信号的采样率，系数p₀、p₁、p₂、p₃、p₄由下面公式得到：

p₀＝2,p₄＝1.0724

p₁＝1.7818·(1-0.0791·b₂)·(1-0.1655·|c₂|) (8)

p₂＝0.5689·(1-0.1621·b₂)·(1-0.0857·|c₂|) (9)

p₃＝0.2523·(1-0.0244·b₂)·(1+0.0574·|c₂|) (10)

其中，f_r2是HP-AF滤波器的中心频率，它依赖于被动Gammachirp滤波器对信号的响应输出，可以定义为：

f_r2＝f_ratL×f_p1 (11)

其中：

f_ratL＝f_ratL ⁽⁰⁾+f_ratL ⁽¹⁾×P_gcp (12)

f_p1＝f_r1+c₁b₁ERB(f_r1)/n₁ (13)

HP-AF滤波器的中心频率f_r2可以由频率比率f_ratL和被动Gammachirp滤波器的峰值频率f_p1的乘积计算得到，其中，f_ratL ⁽⁰⁾和f_ratL ⁽¹⁾为常数，P_gcp是被动Gammachirp滤波器输出的总强度，被用来控制高通非对称函数HP-AF的位置；

4)对pGC滤波后信号s₁(i,j),i＝1,...,M,j＝1,...,N进行HP-AF滤波器，得到输出信号s₂(i,j),i＝1,...,M,j＝1,...,N；

5)强度估计，设第i通道pGC和HP-AF在强度估计路径中的输出分别是s₁(i,j)和s₂(i,j)，那么估计的线性等级和可以定义为：

其中△j是通道位移；△t是采样时间；τ_L是指数式衰减的半衰期，控制强度P_c(i,j)定义为线性强度的加权和，单位为分贝；

其中w_L、v_1L、v_2L是加权参数，a_RL是参数a的参考强度，单位是分贝；

6)利用控制强度P_c(i,j)对高通非对称滤波器HP-AF的频率比率进行自适应计算，得到强度自适应的频率比率f_rat；

f_rat＝f_ratL ⁽⁰⁾+f_ratL ⁽¹⁾×P_c(i,j) (18)

其中f_ratL ⁽⁰⁾和f_ratL ⁽¹⁾为常数；

7)利用高通非对称滤波器HP-AF对信号s₂(i,j),i＝1,...,M,j＝1,...,N进行滤波，得到最终的滤波信号xGc(i,j),i＝1,...,M,j＝1,...,N，这里使用的高通非对称滤波器HP-AF滤波器参数的取值与前面强度估计时参数的设置基本相同，唯一不同的就是强度估计过程中的频率比率f_ratL是强度独立的；在这里滤波过程中的频率比率f_rat，它是主要的强度自适应参数；

(3)、计算不同分辨率下的耳蜗谱

根据设定的不同帧长，对M通道的滤波信号xGc(i,j),i＝1,...M,j＝1,...,N，计算每通道每帧信号的功率谱，提取不同分辨率下的对数耳蜗谱特征WCGc_ARMA；

1)分别采用两种不同的帧长nF1和nF2点，帧移为nShift点，对每通道滤波后的信号进行分帧，并分别计算每通道每帧信号的功率谱，取对数，得到两种分辨率条件下的对数耳蜗谱，CGc1和CGc2，两个对数耳蜗谱均为M*Q的矩阵，其中Q表示对每通道信号进行分帧后得到的帧数，可由下式计算得到：

Q＝floor(N/nshift) (19)

其中，floor表示向下取整；

2)得到的对数耳蜗谱CGc1和CGc2，分别应用大小为nF3*nF3、nF4*nF4的矩形窗，对数耳蜗谱CGc1和CGc2进行平均滤波，利用矩形窗内所有数据的平均值代替中心点的数值，如果窗移超出了耳蜗谱矩阵范围，则补零处理，这样就可以分别得到两个特征参数CGc3、CGc4；

3)将所有分辨率条件下的对数耳蜗谱进行组合，得到不同分辨率下的组合参数CGc＝[CGc1；CGc2；CGc3；CGc4]，其中CGc是一个大小为4M*Q矩阵；

4)、对组合参数CGc计算一阶、二阶动态参数，得到动态参数del、ddel，将CGc、del、ddel，进行参数组合，得到静态动态组合参数WCGc＝[CGc；del；ddel]，WCGc为一个大小12M*Q的矩阵；

5)、利用ARMA平滑滤波器对静态动态组合参数WCGc进行平滑滤波，得到多分辨率的听觉感知特征参数

其中，C(m)是WCGc第m帧的特征向量，是多分辨率的听觉感知特征参数的WCGc_ARMA第m帧经过滤波后的特征向量，P为ARMA平滑滤波器的阶数；这里P取2。

本发明的优点在于：

1、本发明提供了一种噪声环境下单声道语音分离中基于多分辨率的听觉感知语音特征参数提取方法，其研究的重点在于噪声环境下单声道语音分离时，采用掩蔽作为分离目标，特征参数的有效性对分离效果的影响，为提高分离后语音的可懂度提供了一个重要的理论依据。

2、本发明对输入带噪的语音信号进行时频表示，利用自适应压缩Gammachirp滤波器组对输入信号进行滤波，在不同分辨率下，提取每通道的对数耳蜗谱特征，并联合各分辨率特征及其动态参数，更好地提高分离特征的语音感知能力，进而提高语音分离的性能。

3、本发明采用ARMA模型(Auto-regressive and moving average model)对提取出的多分辨率的组合特征进行平滑处理，来进一步提高语音分离性能。

附图说明

图1是本发明的多分辨率听觉感知语音特征参数提取算法总体流程图；

图2是本发明的预处理算法流程图；

图3是本发明的自适应压缩Gammachirp滤波器结构图；

图4是本发明的不同分辨率耳蜗谱计算的流程图。

具体实施方式

总体流程如图1所示，包括下列步骤：

(1)、语音信号的预处理

语音信号的预处理流程如图2所示，该流程包括：语音信号的预处理包括将输入信号、采样率调整为Fs、端点检测、对输入数据幅度进行规整、预加重。这里，采用能量检测法进行端点检测；F_s取16000Hz，如果信号的采样率不等于F_s，则需要将信号重新采样至F_s；预加重系数为0.95，设输入信号为x(n),n＝1,2,...N，其中N为信号长度，则输入信号的幅度按照如下两个公式进行调整，得到预处理后的信号xx(n),n＝1,2,...N：

xx(n)＝αx(n)

(2)、对预处理后的信号xx(n),n＝1,2,...N进行自适应压缩Gammachirp听觉滤波器组滤波，得到M通道的滤波信号xGc(i,j),i＝1,...,M,j＝1,...,N，其中M为自适应压缩Gammachirp听觉滤波器组的滤波器个数，N为输入信号长度。具体步骤：

其中，时间t>0，a为振幅，这里取a＝1；阶次n₁与参数b₁是定义Gamma函数分布情况的参数，c₁为啁啾因子(chirp factor)，这里n₁＝4、b₁＝1.81、c₁＝-2.96；φ₁是初始相位，通常取φ₁＝0。f_r1是pGC滤波器的中心频率，其按照ERB的关系，在50Hz到8000Hz之间分布，ERB(f_r1)是中心频率为f_r1的听觉滤波器等效矩形带宽的值，由下式计算得到：

ERB(f_r1)＝24.7+0.108f_r1 2)

其中

r_k＝exp{-p₁(p₀/p₄)^k-1·2πbERB(f_r2)/F_s} (4)

△f_r＝(p₀·p₄)^k-1·p₂·c₂·b₂·ERB(f_r2) (5)

式中F_s是信号的采样率，取F_s＝16000Hz，系数p₀、p₁、p₂、p₃、p₄由下面公式得到：

p₀＝2,p₄＝1.0724

p₁＝1.7818·(1-0.0791·b₂)·(1-0.1655·|c₂|) (8)

p₂＝0.5689·(1-0.1621·b₂)·(1-0.0857·|c₂|) (9)

p₃＝0.2523·(1-0.0244·b₂)·(1+0.0574·|c₂|) (10)

其中，b₂＝2.17、c₂＝2.2，f_r2是HP-AF滤波器的中心频率，它依赖于被动Gammachirp滤波器对信号的响应输出，可以定义为

f_r2＝f_ratL×f_p1 (11)

其中

f_ratL＝f_ratL ⁽⁰⁾+f_ratL ⁽¹⁾×P_gcp (12)

f_p1＝f_r1+c₁b₁ERB(f_r1)/n₁ (13)

HP-AF滤波器的中心频率f_r2可以由频率比率f_ratL和被动Gammachirp滤波器的峰值频率f_p1的乘积计算得到。其中，f_ratL ⁽⁰⁾和f_ratL ⁽¹⁾为常数，文中取f_ratL ⁽⁰⁾＝0.466，f_ratL ⁽¹⁾＝0.0109，P_gcp是被动Gammachirp滤波器输出的总强度，被用来控制高通非对称函数HP-AF的位置，这里取50；

其中△j是通道位移，取△j＝3；△t是采样时间，取△t为16s；τ_L是指数式衰减的半衰期，这里τ_L取0.5s，控制强度P_c(i,j)定义为线性强度的加权和，单位为分贝；

6)利用控制强度P_c(i,j)对高通非对称滤波器HP-AF的频率比率进行自适应计算，得到强度自适应的频率比率f_rat：

f_rat＝f_ratL ⁽⁰⁾+f_ratL ⁽¹⁾×P_c(i,j) (18)

其中f_ratL ⁽⁰⁾和f_ratL ⁽¹⁾为常数，文中取f_ratL ⁽⁰⁾＝0.466，f_ratL ⁽¹⁾＝0.0109；

(3)、计算不同分辨率下的耳蜗谱，具体算法过程如图4所示；

根据设定的不同帧长，对步骤(2)得到M通道的滤波信号xc(i,j),i＝1,...M,j＝1,...,N，计算每通道每帧信号的功率谱，提取不同分辨率下的对数耳蜗谱特征WCGc_ARMA；

1)分别采用两种不同的帧长nF1和nF2点，帧移为nShift点，对每通道滤波后的信号进行分帧，并分别计算每通道每帧信号的功率谱，取对数，得到两种分辨率条件下的对数耳蜗谱，CGc1和CGc2。两个对数耳蜗谱均为M*Q的矩阵，其中Q表示对每通道信号进行分帧后得到的帧数。

Q＝floor(N/nshift) (19)

其中，floor表示向下取整，这里nF1＝320，nF1＝3200，nShift取160；

2)得到的对数耳蜗谱CGc1和CGc2，分别应用大小为nF3*nF3、nF4*nF4的矩形窗，对数耳蜗谱CGc1和CGc2进行平均滤波，利用矩形窗内所有数据的平均值代替中心点的数值，如果窗移超出了耳蜗谱矩阵范围，则补零处理。这样就可以分别得到两个特征参数CGc3、CGc4，这里nF3＝11，nF4＝23；

其中C(m)是WCGc第m帧的特征向量，是多分辨率的听觉感知特征参数的WCGc_ARMA第m帧经过滤波后的特征向量，P为ARMA平滑滤波器的阶数，这里P取2。

Claims

1.一种基于多分辨率的听觉感知语音特征参数提取方法，其特征在于：包括下列步骤：

(1)、语音信号的预处理

(2)、对预处理后的信号xx(n),n＝1,2,...N进行自适应压缩Gammachirp听觉滤波器组滤波，得到M通道的滤波信号xGc(i,j),i＝1,...,M,j＝1,...,N，其中M为自适应压缩Gammachirp听觉滤波器组的滤波器个数，N为输入信号长度；

(3)、计算不同分辨率下的耳蜗谱

根据设定的不同帧长，对M通道的滤波信号xGc(i,j),i＝1,...M,j＝1,...,N，计算每通道每帧信号的功率谱，提取不同分辨率下的对数耳蜗谱特征WCGc_ARMA；得到多分辨率的听觉感知特征参数

其中，C(m)是WCGc第m帧的特征向量，是多分辨率的听觉感知特征参数的WCGc_ARMA第m帧经过滤波后的特征向量，P为ARMA平滑滤波器的阶数。

2.根据权利要求1所述的一种基于多分辨率的听觉感知语音特征参数提取方法，其特征在于：步骤(2)的具体步骤如下：

ERB(f_r1)＝24.7+0.108f_r1 (2)

其中：

r_k＝exp{-p₁(p₀/p₄)^k-1·2πbERB(f_r2)/F_s} (4)

△f_r＝(p₀·p₄)^k-1·p₂·c₂·b₂·ERB(f_r2) (5)

p₀＝2,p₄＝1.0724

p₁＝1.7818·(1-0.0791·b₂)·(1-0.1655·|c₂|) (8)

p₂＝0.5689·(1-0.1621·b₂)·(1-0.0857·|c₂|) (9)

p₃＝0.2523·(1-0.0244·b₂)·(1+0.0574·|c₂|) (10)

f_r2＝f_ratL×f_p1 (11)

其中：

f_ratL＝f_ratL ⁽⁰⁾+f_ratL ⁽¹⁾×P_gcp (12)

f_p1＝f_r1+c₁b₁ERB(f_r1)/n₁ (13)

f_rat＝f_ratL ⁽⁰⁾+f_ratL ⁽¹⁾×P_c(i,j) (18)

其中f_ratL ⁽⁰⁾和f_ratL ⁽¹⁾为常数；

7)利用高通非对称滤波器HP-AF对信号s₂(i,j),i＝1,...,M,j＝1,...,N进行滤波，得到最终的滤波信号xGc(i,j),i＝1,...,M,j＝1,...,N，这里使用的高通非对称滤波器HP-AF滤波器参数的取值与前面强度估计时参数的设置基本相同，唯一不同的就是强度估计过程中的频率比率f_ratL是强度独立的；在这里滤波过程中的频率比率f_rat，它是主要的强度自适应参数。

3.根据权利要求1所述的一种基于多分辨率的听觉感知语音特征参数提取方法，其特征在于：步骤(3)的具体步骤如下：

Q＝floor(N/nshift) (19)

其中，floor表示向下取整；

4.根据权利要求3所述的一种基于多分辨率的听觉感知语音特征参数提取方法，其特征在于：步骤5)中P取2。