CN110010150A - 基于多分辨率的听觉感知语音特征参数提取方法 - Google Patents
基于多分辨率的听觉感知语音特征参数提取方法 Download PDFInfo
- Publication number
- CN110010150A CN110010150A CN201910297406.3A CN201910297406A CN110010150A CN 110010150 A CN110010150 A CN 110010150A CN 201910297406 A CN201910297406 A CN 201910297406A CN 110010150 A CN110010150 A CN 110010150A
- Authority
- CN
- China
- Prior art keywords
- signal
- parameter
- filter
- ratl
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000008447 perception Effects 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 36
- 210000003477 cochlea Anatomy 0.000 claims abstract description 28
- 241001123248 Arma Species 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 241000237858 Gastropoda Species 0.000 claims 1
- 230000006978 adaptation Effects 0.000 claims 1
- 238000000926 separation method Methods 0.000 abstract description 27
- 238000011160 research Methods 0.000 abstract description 5
- 230000000873 masking effect Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明涉及一种基于多分辨率的听觉感知语音特征参数提取方法,属于语音信号处理领域。以噪声环境下单通道输入语音信号为研究对象,通过对输入信号进行时频表示,在不同分辨率下提取基于自适应压缩滤波器组的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,使用ARMA模型对特征进行平滑处理,来进一步提高语音分离性能。优点在于:采用掩蔽作为分离目标,特征参数的有效性对分离效果的影响,为提高分离后语音的可懂度提供了一个重要的理论依据;利用自适应压缩滤波器组对输入信号进行滤波,在不同分辨率下,提取每通道的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,更好地提高分离特征的语音感知能力,进而提高语音分离的性能。
Description
技术领域
本发明涉及语音信号处理领域,特别是对噪声环境下的语音信号,在进行基于掩蔽的单声道语音分离时所使用的一种语音特征参数提取方法。
背景技术
单声道语音分离是从单麦克风记录的数据中,从背景干扰下提取目标说话人的语音。基于掩蔽的单声道语音分离技术通过提取混合带噪语音的特征参数,对分离目标语音的掩码进行估计,从而实现目标语音的分离。好的语音特征参数能够提高分离目标语音的可懂度,在语音分离的应用领域,比如助听器的设计、移动通信等领域中十分重要。
目前,在单声道语音分离的特征的研究中,《一种语音分离方法及装置》CN108962276A使用当前分离信号与P个分离信号中除当前分离信号之外的其他分离信号之间的交叉残留系数,进行后续的分离。《一种基于时间延迟直方图的语音分离方法》CN108269583A提取数字声音信号的频谱;利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;提出一种基于时间延迟直方图的语音分离方法。《一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法》CN107845389A提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法,采用多分辨率听觉倒谱系数(MR-GFCC)作为分离特征。近年来,已经有很多能够表示语音感知特性的特征被应用到语音分离中,并取得了很好的分离性能。目前,语音分离中使用的听觉特征包括梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测系数PLP(Perceptual linear prediction)、RASRA-PLP特征(Relative spectral transformPLP)、Gammatone倒谱系数GFCC(Gammatone frequency cepstral coefficient)、Gammatone特征GF(Gammatone Feature)、幅度调制谱AMS(Amplitude modulationspectrogram)、基于基音的特征等。这些特征之间既存在互补性也存在冗余性,它们通常组合在一起使用。但是在信噪比较低的条件下,其实现的语音分离系统性能还是不尽人意。因此,如何提取一个好的听觉语音感知特征,提高分离目标语音的语音可懂度,进而提高语音分离系统性能,成为当前单声道语音分离领域研究的一个热点问题。
发明内容
本发明提供一种基于多分辨率的听觉感知语音特征参数提取方法,以噪声环境下单通道输入语音信号为研究对象,通过对输入信号进行时频表示,在不同分辨率下提取基于自适应压缩Gammachirp滤波器组的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,使用ARMA模型(Auto-regressive and moving average model)对特征进行平滑处理,来进一步提高语音分离性能。
本发明采取的技术方案是,包括下列步骤:
(1)、语音信号的预处理
语音信号的预处理过程包括将输入信号、采样率调整为Fs、端点检测、对输入数据幅度进行规整、预加重,得到预处理后信号xx(n),n=1,2,...N,其中N为输入信号长度;
(2)、对预处理后的信号xx(n),n=1,2,...N进行自适应压缩Gammachirp听觉滤波器组滤波,得到M通道的滤波信号xGc(i,j),i=1,...,M,j=1,...,N,其中M为自适应压缩Gammachirp听觉滤波器组的滤波器个数,N为输入信号长度,具体步骤:
1)计算每个通道的pGC(passive Gammachirp)滤波器频率响应gc(i,t),i=1,...,M
其中,时间t>0,a为振幅;阶次n1与参数b1是定义Gamma函数分布情况的参数,c1为啁啾因子(chirp factor);φ1是初始相位,fr1是pGC滤波器的中心频率,其按照ERB的关系,在给定频率范围之内分布,ERB(fr1)是中心频率为fr1的听觉滤波器等效矩形带宽的值,由下式计算得到;
ERB(fr1)=24.7+0.108fr1 (2)
2)利用每个通道的频率响应gc(i,t),i=1,...,M对输入信号xx(n),n=1,2,...N进行滤波,得到每个通道滤波后信号s1(i,j),i=1,...,M,j=1,...,N;
3)采用四个二阶IIR滤波器的级联近似实现HP-AF滤波器,在Z平面第k个IIR滤波器的频率响应为:
其中:
rk=exp{-p1(p0/p4)k-1·2πbERB(fr2)/Fs} (4)
△fr=(p0·p4)k-1·p2·c2·b2·ERB(fr2) (5)
式中Fs是信号的采样率,系数p0、p1、p2、p3、p4由下面公式得到:
p0=2,p4=1.0724
p1=1.7818·(1-0.0791·b2)·(1-0.1655·|c2|) (8)
p2=0.5689·(1-0.1621·b2)·(1-0.0857·|c2|) (9)
p3=0.2523·(1-0.0244·b2)·(1+0.0574·|c2|) (10)
其中,fr2是HP-AF滤波器的中心频率,它依赖于被动Gammachirp滤波器对信号的响应输出,可以定义为:
fr2=fratL×fp1 (11)
其中:
fratL=fratL (0)+fratL (1)×Pgcp (12)
fp1=fr1+c1b1ERB(fr1)/n1 (13)
HP-AF滤波器的中心频率fr2可以由频率比率fratL和被动Gammachirp滤波器的峰值频率fp1的乘积计算得到,其中,fratL (0)和fratL (1)为常数,Pgcp是被动Gammachirp滤波器输出的总强度,被用来控制高通非对称函数HP-AF的位置;
4)对pGC滤波后信号s1(i,j),i=1,...,M,j=1,...,N进行HP-AF滤波器,得到输出信号s2(i,j),i=1,...,M,j=1,...,N;
5)强度估计,设第i通道pGC和HP-AF在强度估计路径中的输出分别是s1(i,j)和s2(i,j),那么估计的线性等级和可以定义为:
其中△j是通道位移;△t是采样时间;τL是指数式衰减的半衰期,控制强度Pc(i,j)定义为线性强度的加权和,单位为分贝;
其中wL、v1L、v2L是加权参数,aRL是参数a的参考强度,单位是分贝;
6)利用控制强度Pc(i,j)对高通非对称滤波器HP-AF的频率比率进行自适应计算,得到强度自适应的频率比率frat;
frat=fratL (0)+fratL (1)×Pc(i,j) (18)
其中fratL (0)和fratL (1)为常数;
7)利用高通非对称滤波器HP-AF对信号s2(i,j),i=1,...,M,j=1,...,N进行滤波,得到最终的滤波信号xGc(i,j),i=1,...,M,j=1,...,N,这里使用的高通非对称滤波器HP-AF滤波器参数的取值与前面强度估计时参数的设置基本相同,唯一不同的就是强度估计过程中的频率比率fratL是强度独立的;在这里滤波过程中的频率比率frat,它是主要的强度自适应参数;
(3)、计算不同分辨率下的耳蜗谱
根据设定的不同帧长,对M通道的滤波信号xGc(i,j),i=1,...M,j=1,...,N,计算每通道每帧信号的功率谱,提取不同分辨率下的对数耳蜗谱特征WCGc_ARMA;
1)分别采用两种不同的帧长nF1和nF2点,帧移为nShift点,对每通道滤波后的信号进行分帧,并分别计算每通道每帧信号的功率谱,取对数,得到两种分辨率条件下的对数耳蜗谱,CGc1和CGc2,两个对数耳蜗谱均为M*Q的矩阵,其中Q表示对每通道信号进行分帧后得到的帧数,可由下式计算得到:
Q=floor(N/nshift) (19)
其中,floor表示向下取整;
2)得到的对数耳蜗谱CGc1和CGc2,分别应用大小为nF3*nF3、nF4*nF4的矩形窗,对数耳蜗谱CGc1和CGc2进行平均滤波,利用矩形窗内所有数据的平均值代替中心点的数值,如果窗移超出了耳蜗谱矩阵范围,则补零处理,这样就可以分别得到两个特征参数CGc3、CGc4;
3)将所有分辨率条件下的对数耳蜗谱进行组合,得到不同分辨率下的组合参数CGc=[CGc1;CGc2;CGc3;CGc4],其中CGc是一个大小为4M*Q矩阵;
4)、对组合参数CGc计算一阶、二阶动态参数,得到动态参数del、ddel,将CGc、del、ddel,进行参数组合,得到静态动态组合参数WCGc=[CGc;del;ddel],WCGc为一个大小12M*Q的矩阵;
5)、利用ARMA平滑滤波器对静态动态组合参数WCGc进行平滑滤波,得到多分辨率的听觉感知特征参数
其中,C(m)是WCGc第m帧的特征向量,是多分辨率的听觉感知特征参数的WCGc_ARMA第m帧经过滤波后的特征向量,P为ARMA平滑滤波器的阶数;这里P取2。
本发明的优点在于:
1、本发明提供了一种噪声环境下单声道语音分离中基于多分辨率的听觉感知语音特征参数提取方法,其研究的重点在于噪声环境下单声道语音分离时,采用掩蔽作为分离目标,特征参数的有效性对分离效果的影响,为提高分离后语音的可懂度提供了一个重要的理论依据。
2、本发明对输入带噪的语音信号进行时频表示,利用自适应压缩Gammachirp滤波器组对输入信号进行滤波,在不同分辨率下,提取每通道的对数耳蜗谱特征,并联合各分辨率特征及其动态参数,更好地提高分离特征的语音感知能力,进而提高语音分离的性能。
3、本发明采用ARMA模型(Auto-regressive and moving average model)对提取出的多分辨率的组合特征进行平滑处理,来进一步提高语音分离性能。
附图说明
图1是本发明的多分辨率听觉感知语音特征参数提取算法总体流程图;
图2是本发明的预处理算法流程图;
图3是本发明的自适应压缩Gammachirp滤波器结构图;
图4是本发明的不同分辨率耳蜗谱计算的流程图。
具体实施方式
总体流程如图1所示,包括下列步骤:
(1)、语音信号的预处理
语音信号的预处理流程如图2所示,该流程包括:语音信号的预处理包括将输入信号、采样率调整为Fs、端点检测、对输入数据幅度进行规整、预加重。这里,采用能量检测法进行端点检测;Fs取16000Hz,如果信号的采样率不等于Fs,则需要将信号重新采样至Fs;预加重系数为0.95,设输入信号为x(n),n=1,2,...N,其中N为信号长度,则输入信号的幅度按照如下两个公式进行调整,得到预处理后的信号xx(n),n=1,2,...N:
xx(n)=αx(n)
(2)、对预处理后的信号xx(n),n=1,2,...N进行自适应压缩Gammachirp听觉滤波器组滤波,得到M通道的滤波信号xGc(i,j),i=1,...,M,j=1,...,N,其中M为自适应压缩Gammachirp听觉滤波器组的滤波器个数,N为输入信号长度。具体步骤:
1)计算每个通道的pGC(passive Gammachirp)滤波器频率响应gc(i,t),i=1,...,M
其中,时间t>0,a为振幅,这里取a=1;阶次n1与参数b1是定义Gamma函数分布情况的参数,c1为啁啾因子(chirp factor),这里n1=4、b1=1.81、c1=-2.96;φ1是初始相位,通常取φ1=0。fr1是pGC滤波器的中心频率,其按照ERB的关系,在50Hz到8000Hz之间分布,ERB(fr1)是中心频率为fr1的听觉滤波器等效矩形带宽的值,由下式计算得到:
ERB(fr1)=24.7+0.108fr1 2)
2)利用每个通道的频率响应gc(i,t),i=1,...,M对输入信号xx(n),n=1,2,...N进行滤波,得到每个通道滤波后信号s1(i,j),i=1,...,M,j=1,...,N;
3)采用四个二阶IIR滤波器的级联近似实现HP-AF滤波器,在Z平面第k个IIR滤波器的频率响应为:
其中
rk=exp{-p1(p0/p4)k-1·2πbERB(fr2)/Fs} (4)
△fr=(p0·p4)k-1·p2·c2·b2·ERB(fr2) (5)
式中Fs是信号的采样率,取Fs=16000Hz,系数p0、p1、p2、p3、p4由下面公式得到:
p0=2,p4=1.0724
p1=1.7818·(1-0.0791·b2)·(1-0.1655·|c2|) (8)
p2=0.5689·(1-0.1621·b2)·(1-0.0857·|c2|) (9)
p3=0.2523·(1-0.0244·b2)·(1+0.0574·|c2|) (10)
其中,b2=2.17、c2=2.2,fr2是HP-AF滤波器的中心频率,它依赖于被动Gammachirp滤波器对信号的响应输出,可以定义为
fr2=fratL×fp1 (11)
其中
fratL=fratL (0)+fratL (1)×Pgcp (12)
fp1=fr1+c1b1ERB(fr1)/n1 (13)
HP-AF滤波器的中心频率fr2可以由频率比率fratL和被动Gammachirp滤波器的峰值频率fp1的乘积计算得到。其中,fratL (0)和fratL (1)为常数,文中取fratL (0)=0.466,fratL (1)=0.0109,Pgcp是被动Gammachirp滤波器输出的总强度,被用来控制高通非对称函数HP-AF的位置,这里取50;
4)对pGC滤波后信号s1(i,j),i=1,...,M,j=1,...,N进行HP-AF滤波器,得到输出信号s2(i,j),i=1,...,M,j=1,...,N;
5)强度估计,设第i通道pGC和HP-AF在强度估计路径中的输出分别是s1(i,j)和s2(i,j),那么估计的线性等级和可以定义为:
其中△j是通道位移,取△j=3;△t是采样时间,取△t为16s;τL是指数式衰减的半衰期,这里τL取0.5s,控制强度Pc(i,j)定义为线性强度的加权和,单位为分贝;
其中wL、v1L、v2L是加权参数,aRL是参数a的参考强度,单位是分贝;
6)利用控制强度Pc(i,j)对高通非对称滤波器HP-AF的频率比率进行自适应计算,得到强度自适应的频率比率frat:
frat=fratL (0)+fratL (1)×Pc(i,j) (18)
其中fratL (0)和fratL (1)为常数,文中取fratL (0)=0.466,fratL (1)=0.0109;
7)利用高通非对称滤波器HP-AF对信号s2(i,j),i=1,...,M,j=1,...,N进行滤波,得到最终的滤波信号xGc(i,j),i=1,...,M,j=1,...,N,这里使用的高通非对称滤波器HP-AF滤波器参数的取值与前面强度估计时参数的设置基本相同,唯一不同的就是强度估计过程中的频率比率fratL是强度独立的;在这里滤波过程中的频率比率frat,它是主要的强度自适应参数;
(3)、计算不同分辨率下的耳蜗谱,具体算法过程如图4所示;
根据设定的不同帧长,对步骤(2)得到M通道的滤波信号xc(i,j),i=1,...M,j=1,...,N,计算每通道每帧信号的功率谱,提取不同分辨率下的对数耳蜗谱特征WCGc_ARMA;
1)分别采用两种不同的帧长nF1和nF2点,帧移为nShift点,对每通道滤波后的信号进行分帧,并分别计算每通道每帧信号的功率谱,取对数,得到两种分辨率条件下的对数耳蜗谱,CGc1和CGc2。两个对数耳蜗谱均为M*Q的矩阵,其中Q表示对每通道信号进行分帧后得到的帧数。
Q=floor(N/nshift) (19)
其中,floor表示向下取整,这里nF1=320,nF1=3200,nShift取160;
2)得到的对数耳蜗谱CGc1和CGc2,分别应用大小为nF3*nF3、nF4*nF4的矩形窗,对数耳蜗谱CGc1和CGc2进行平均滤波,利用矩形窗内所有数据的平均值代替中心点的数值,如果窗移超出了耳蜗谱矩阵范围,则补零处理。这样就可以分别得到两个特征参数CGc3、CGc4,这里nF3=11,nF4=23;
3)将所有分辨率条件下的对数耳蜗谱进行组合,得到不同分辨率下的组合参数CGc=[CGc1;CGc2;CGc3;CGc4],其中CGc是一个大小为4M*Q矩阵;
4)、对组合参数CGc计算一阶、二阶动态参数,得到动态参数del、ddel,将CGc、del、ddel,进行参数组合,得到静态动态组合参数WCGc=[CGc;del;ddel],WCGc为一个大小12M*Q的矩阵;
5)、利用ARMA平滑滤波器对静态动态组合参数WCGc进行平滑滤波,得到多分辨率的听觉感知特征参数
其中C(m)是WCGc第m帧的特征向量,是多分辨率的听觉感知特征参数的WCGc_ARMA第m帧经过滤波后的特征向量,P为ARMA平滑滤波器的阶数,这里P取2。
Claims (4)
1.一种基于多分辨率的听觉感知语音特征参数提取方法,其特征在于:包括下列步骤:
(1)、语音信号的预处理
语音信号的预处理过程包括将输入信号、采样率调整为Fs、端点检测、对输入数据幅度进行规整、预加重,得到预处理后信号xx(n),n=1,2,...N,其中N为输入信号长度;
(2)、对预处理后的信号xx(n),n=1,2,...N进行自适应压缩Gammachirp听觉滤波器组滤波,得到M通道的滤波信号xGc(i,j),i=1,...,M,j=1,...,N,其中M为自适应压缩Gammachirp听觉滤波器组的滤波器个数,N为输入信号长度;
(3)、计算不同分辨率下的耳蜗谱
根据设定的不同帧长,对M通道的滤波信号xGc(i,j),i=1,...M,j=1,...,N,计算每通道每帧信号的功率谱,提取不同分辨率下的对数耳蜗谱特征WCGc_ARMA;得到多分辨率的听觉感知特征参数
其中,C(m)是WCGc第m帧的特征向量,是多分辨率的听觉感知特征参数的WCGc_ARMA第m帧经过滤波后的特征向量,P为ARMA平滑滤波器的阶数。
2.根据权利要求1所述的一种基于多分辨率的听觉感知语音特征参数提取方法,其特征在于:步骤(2)的具体步骤如下:
1)计算每个通道的pGC(passive Gammachirp)滤波器频率响应gc(i,t),i=1,...,M
其中,时间t>0,a为振幅;阶次n1与参数b1是定义Gamma函数分布情况的参数,c1为啁啾因子(chirp factor);φ1是初始相位,fr1是pGC滤波器的中心频率,其按照ERB的关系,在给定频率范围之内分布,ERB(fr1)是中心频率为fr1的听觉滤波器等效矩形带宽的值,由下式计算得到;
ERB(fr1)=24.7+0.108fr1 (2)
2)利用每个通道的频率响应gc(i,t),i=1,...,M对输入信号xx(n),n=1,2,...N进行滤波,得到每个通道滤波后信号s1(i,j),i=1,...,M,j=1,...,N;
3)采用四个二阶IIR滤波器的级联近似实现HP-AF滤波器,在Z平面第k个IIR滤波器的频率响应为:
其中:
rk=exp{-p1(p0/p4)k-1·2πbERB(fr2)/Fs} (4)
△fr=(p0·p4)k-1·p2·c2·b2·ERB(fr2) (5)
式中Fs是信号的采样率,系数p0、p1、p2、p3、p4由下面公式得到:
p0=2,p4=1.0724
p1=1.7818·(1-0.0791·b2)·(1-0.1655·|c2|) (8)
p2=0.5689·(1-0.1621·b2)·(1-0.0857·|c2|) (9)
p3=0.2523·(1-0.0244·b2)·(1+0.0574·|c2|) (10)
其中,fr2是HP-AF滤波器的中心频率,它依赖于被动Gammachirp滤波器对信号的响应输出,可以定义为:
fr2=fratL×fp1 (11)
其中:
fratL=fratL (0)+fratL (1)×Pgcp (12)
fp1=fr1+c1b1ERB(fr1)/n1 (13)
HP-AF滤波器的中心频率fr2可以由频率比率fratL和被动Gammachirp滤波器的峰值频率fp1的乘积计算得到,其中,fratL (0)和fratL (1)为常数,Pgcp是被动Gammachirp滤波器输出的总强度,被用来控制高通非对称函数HP-AF的位置;
4)对pGC滤波后信号s1(i,j),i=1,...,M,j=1,...,N进行HP-AF滤波器,得到输出信号s2(i,j),i=1,...,M,j=1,...,N;
5)强度估计,设第i通道pGC和HP-AF在强度估计路径中的输出分别是s1(i,j)和s2(i,j),那么估计的线性等级和可以定义为:
其中△j是通道位移;△t是采样时间;τL是指数式衰减的半衰期,控制强度Pc(i,j)定义为线性强度的加权和,单位为分贝;
其中wL、v1L、v2L是加权参数,aRL是参数a的参考强度,单位是分贝;
6)利用控制强度Pc(i,j)对高通非对称滤波器HP-AF的频率比率进行自适应计算,得到强度自适应的频率比率frat;
frat=fratL (0)+fratL (1)×Pc(i,j) (18)
其中fratL (0)和fratL (1)为常数;
7)利用高通非对称滤波器HP-AF对信号s2(i,j),i=1,...,M,j=1,...,N进行滤波,得到最终的滤波信号xGc(i,j),i=1,...,M,j=1,...,N,这里使用的高通非对称滤波器HP-AF滤波器参数的取值与前面强度估计时参数的设置基本相同,唯一不同的就是强度估计过程中的频率比率fratL是强度独立的;在这里滤波过程中的频率比率frat,它是主要的强度自适应参数。
3.根据权利要求1所述的一种基于多分辨率的听觉感知语音特征参数提取方法,其特征在于:步骤(3)的具体步骤如下:
1)分别采用两种不同的帧长nF1和nF2点,帧移为nShift点,对每通道滤波后的信号进行分帧,并分别计算每通道每帧信号的功率谱,取对数,得到两种分辨率条件下的对数耳蜗谱,CGc1和CGc2,两个对数耳蜗谱均为M*Q的矩阵,其中Q表示对每通道信号进行分帧后得到的帧数,可由下式计算得到:
Q=floor(N/nshift) (19)
其中,floor表示向下取整;
2)得到的对数耳蜗谱CGc1和CGc2,分别应用大小为nF3*nF3、nF4*nF4的矩形窗,对数耳蜗谱CGc1和CGc2进行平均滤波,利用矩形窗内所有数据的平均值代替中心点的数值,如果窗移超出了耳蜗谱矩阵范围,则补零处理,这样就可以分别得到两个特征参数CGc3、CGc4;
3)将所有分辨率条件下的对数耳蜗谱进行组合,得到不同分辨率下的组合参数CGc=[CGc1;CGc2;CGc3;CGc4],其中CGc是一个大小为4M*Q矩阵;
4)、对组合参数CGc计算一阶、二阶动态参数,得到动态参数del、ddel,将CGc、del、ddel,进行参数组合,得到静态动态组合参数WCGc=[CGc;del;ddel],WCGc为一个大小12M*Q的矩阵;
5)、利用ARMA平滑滤波器对静态动态组合参数WCGc进行平滑滤波,得到多分辨率的听觉感知特征参数
其中,C(m)是WCGc第m帧的特征向量,是多分辨率的听觉感知特征参数的WCGc_ARMA第m帧经过滤波后的特征向量,P为ARMA平滑滤波器的阶数。
4.根据权利要求3所述的一种基于多分辨率的听觉感知语音特征参数提取方法,其特征在于:步骤5)中P取2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297406.3A CN110010150A (zh) | 2019-04-15 | 2019-04-15 | 基于多分辨率的听觉感知语音特征参数提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297406.3A CN110010150A (zh) | 2019-04-15 | 2019-04-15 | 基于多分辨率的听觉感知语音特征参数提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110010150A true CN110010150A (zh) | 2019-07-12 |
Family
ID=67171747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910297406.3A Pending CN110010150A (zh) | 2019-04-15 | 2019-04-15 | 基于多分辨率的听觉感知语音特征参数提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010150A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508500A (zh) * | 2020-04-17 | 2020-08-07 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN113393850A (zh) * | 2021-05-25 | 2021-09-14 | 西北工业大学 | 一种用于端到端时域声源分离系统的参数化听觉滤波器组 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486711A (zh) * | 2014-12-03 | 2015-04-01 | 山东大学 | 用于数字助听器的低复杂度可调滤波器组及其工作方法 |
CN106653004A (zh) * | 2016-12-26 | 2017-05-10 | 苏州大学 | 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
-
2019
- 2019-04-15 CN CN201910297406.3A patent/CN110010150A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486711A (zh) * | 2014-12-03 | 2015-04-01 | 山东大学 | 用于数字助听器的低复杂度可调滤波器组及其工作方法 |
CN106653004A (zh) * | 2016-12-26 | 2017-05-10 | 苏州大学 | 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
Non-Patent Citations (5)
Title |
---|
JITONG CHEN,等: "A Feature Study for Classification-Based Speech Separation at Low Signal-to-Noise Ratios", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
李如玮,等: "基于深度学习的听觉倒谱系数语音增强算法", 《华中科技大学学报(自然科学版)》 * |
林琳,等: "基于鲁棒听觉特征的说话人识别", 《电子学报》 * |
王玥: "说话人识别中语音特征参数提取方法的研究", 《中国博士论文全文数据库 信息科技辑》 * |
罗元,等: "基于伽马啁啾滤波器组的听觉特征提取算法", 《信息与控制》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508500A (zh) * | 2020-04-17 | 2020-08-07 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN111508500B (zh) * | 2020-04-17 | 2023-08-29 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN113393850A (zh) * | 2021-05-25 | 2021-09-14 | 西北工业大学 | 一种用于端到端时域声源分离系统的参数化听觉滤波器组 |
CN113393850B (zh) * | 2021-05-25 | 2024-01-19 | 西北工业大学 | 一种用于端到端时域声源分离系统的参数化听觉滤波器组 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
Stern et al. | Hearing is believing: Biologically inspired methods for robust automatic speech recognition | |
EP2594090B1 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
CN102157156B (zh) | 一种单通道语音增强的方法和系统 | |
CN110970053A (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
CN105741849A (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
JP2003520469A (ja) | 雑音低減装置及び方法 | |
CN103778920A (zh) | 数字助听器中语音增强和频响补偿相融合方法 | |
CN102984634A (zh) | 一种数字助听器非等宽子带自动增益控制方法 | |
US5806022A (en) | Method and system for performing speech recognition | |
CN106340303A (zh) | 一种基于时间频率域的语音降噪方法 | |
CN103325381A (zh) | 一种基于模糊隶属函数的语音分离方法 | |
CN105931649A (zh) | 基于频谱分析的超低时延音频处理方法与系统 | |
CN109961799A (zh) | 一种基于迭代维纳滤波的助听器多通道语音增强算法 | |
DE102008031150B3 (de) | Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät | |
US6701291B2 (en) | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis | |
CN110010150A (zh) | 基于多分辨率的听觉感知语音特征参数提取方法 | |
Keshavarzi et al. | Comparison of effects on subjective intelligibility and quality of speech in babble for two algorithms: A deep recurrent neural network and spectral subtraction | |
Hüwel et al. | Hearing aid research data set for acoustic environment recognition | |
US20220329953A1 (en) | Hearing device with end-to-end neural network | |
CN110931034B (zh) | 一种送话拾音麦克风内置型耳机的拾音降噪方法 | |
CN116168719A (zh) | 一种基于语境分析的声音增益调节方法及系统 | |
JP3916834B2 (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
CN111491245B (zh) | 基于循环神经网络的数字助听器声场识别算法及实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190712 |
|
WD01 | Invention patent application deemed withdrawn after publication |