CN106653004B - 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 - Google Patents

感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 Download PDF

Info

Publication number
CN106653004B
CN106653004B CN201611221640.0A CN201611221640A CN106653004B CN 106653004 B CN106653004 B CN 106653004B CN 201611221640 A CN201611221640 A CN 201611221640A CN 106653004 B CN106653004 B CN 106653004B
Authority
CN
China
Prior art keywords
filter
frequency
voice
cochlea
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201611221640.0A
Other languages
English (en)
Other versions
CN106653004A (zh
Inventor
吴迪
陶智
赵鹤鸣
肖仲喆
张晓俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201611221640.0A priority Critical patent/CN106653004B/zh
Publication of CN106653004A publication Critical patent/CN106653004A/zh
Application granted granted Critical
Publication of CN106653004B publication Critical patent/CN106653004B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Abstract

本发明公开了感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其包括以下步骤:先构建符合耳蜗基底膜行波冲激响应及非线性频率分布的耳蜗滤波器组;再对语音进行基于听觉感知特性的语音增强以及二维增强,并通过对连续分布的纯净语音语谱结构进行二维边界检测,得到感知语谱结构规整参数PSN;最后通过感知语谱结构规整参数PSN在时域中进一步规整所有由耳蜗滤波器组输出的耳蜗滤波系数,提取感知语谱规整耳蜗滤波系数PSNCC特征参数。本发明所提取的PSNCC特征参数从时‑频域两个方面提高了特征参数的鲁棒性能,进而提高了低信噪比的噪声环境下说话人识别系统的识别率。

Description

感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种感知语谱规整耳蜗滤波系数的说话人识别特征提取方法。
背景技术
特征提取是说话人识别中第一个重要的组成部分。一般来说,成功的前端特征参数应该为分类或识别携带足够有判断力的信息,适合后端建模,且其关于声学环境的变化应该是具有相当的鲁棒性。然而,不同的操作模式下要想取得令人满意的系统性能仍存在问题,尤其是当听觉训练环境和测试环境严重不匹配时。低信噪比环境下的特征参数的鲁棒性能有待于进一步提高,来解决这种失配。
最常见的特征之一是线性预测倒谱系数(Linear Prediction CepstralCoefficients,LPCC)。LPCC特征获得的语音共振峰来模拟人类声道,能够在纯净的环境中很好的工作。然而,一个基于听觉变换的特征表明,LPCC特征在嘈杂的环境中表现出明显的失真现象。另外一个常用的特征参数是美尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC),其中快速傅里叶变换用于生成线性频谱,一组带通滤波器沿着美尔频率刻度被放置在快速傅里叶变换输出上。然而将三角形状的带通滤波器放置在Mel弯曲的频率分布中并不适合噪声环境,由此产生的MFCC参数的噪声鲁棒性较差。伽马通滤波器利用人耳的听觉特性,可以部分的解决三角滤波器鲁棒性较差的问题,由此产生的伽马通滤波器倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC),在噪声环境中的识别率更高。然而GFCC的伽马通滤波器采用预先定好的中心频率以及设定好的滤波器形状。因此它的滤波器不能进行调整来拟合心理声学实验中的人耳滤波器中心频率和形状,从而限定了GFCC进一步提高鲁棒性的能力。
耳蜗中的基底膜(Basilar Membrane,BM)行波(Traveling Wave,TW)和其脉冲响应已经被观察和记录,而BM调整和听觉滤波器也得到研究。许多电子和数学模型已被明确的用来模拟行波、听觉滤波器和BM频率响应。得益于对耳蜗数学模型的研究,在此基础之上的特征提取方法,在频域里模拟人类外围的听觉系统,来达到更好的噪声鲁棒性性能。然而,这种方法并未有考虑时域中不同的噪声对特征参数的影响,统一的把所有时域信号全作为语音信号进行处理,因此在某些噪声中,这种方法有待于进一步研究。
事实上,时域中的语音分布并不是均匀的,如何从时频域中同时提高特征参数的鲁棒性,说话人识别技术中有待解决的关键问题之一。作为语音识别和说话人识别的基础,正确有效的语音活性检测,可以大大提高说话人识别系统和语音识别系统的识别率。在实验室高信噪比环境下,传统的语音活性检测算法可以很好地检测出语音端点。然而在低信噪比环境下,大多数算法的性能均急剧下降。近年来,很多学者对噪声环境下的语音活性检测进行了研究。Ganapathiraju等人(A.Ganapathiraju,et al.“Comparison of Energy-Based Endpoint Detectors for Speech Signal Processing,”In Proc.IEEEPublications,pp.500-503,1996)采用短时能量和短时过零率相结合的方法(Energy andZero-Crossing Rate,EZCR)进行语音活性检测的研究。这种方法相对于传统的能量方法,端点检测具有更好的鲁棒性。然而这种方法无法在更低信噪比的环境下发挥作用。ZhangXueying等人(XY Zhang,et al.“A Speech Endpoint Detection Method Based onWavelet Coefficient Variance and Sub-Band Amplitude Variance,”In Proc.IEEEICICIC,pp.105-109,2006)提出了一种利用小波系数(Wavelet Coefficient,WC)的方法,利用小波分析的方法进行语音活性检测,由于该方法能够在各尺度分析信号,所以能够在一定程度上区分出语音段和噪声段。Wu Bing Fei等人(BF Wu,KC Wang.“Robust EndpointDetection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropyin Adverse Environments,”IEEE Transactions on Speech and Audio Processing,vol.13,no.5,pp.762-775,2005)把自适应子带谱熵(Adaptive Band-PartitioningSpectral,ABSE)的方法用于语音活性检测。该方法可以很好的区分语音的子带信号与噪声,并在含有噪声的环境下取得了较好的正确率。Li Qi等人(Q.Li,et al.“A Robustreal-time endpoint detector with energy normalization for A SR in adverseenvironments,”In Proc.International Conference on Acoustics Speech and SignalProcessing,pp.574-577,2001)借鉴图像处理中最优化边缘检测的方法用于语音活性检测,在不同信噪比的情况下不需要调整门限。
然而,以上这些方法在低信噪比环境下,都无法得到较高的检测正确率。而且,仅仅检测活性语音并对所有语音同等对待,限制了语音特征参数的鲁棒性的进一步提高。语音特征参数的提取,应该针对语音中鲁棒性较强的部分,从而使说话人识别系统获得更高的识别率。
针对以上特征提取过程在时-频域存在的问题,本文提出一种感知语谱规整耳蜗滤波系数(PSNCC,Perception Spectrogram Norm Cochlea-Filter Coefficient)的说话人识别特征提取方法,获得时-频域鲁棒性更好的PSNCC特征(参数),从而在低信噪比条件下提高说话人识别系统的识别率。
发明内容
解决的技术问题:为了解决传统特征参数在频域里的处理方法鲁棒性不强,造成说话人识别的识别率在信噪比降低时急剧下降,以及目前的特征参数更多的关注频域处理来获得鲁棒性提高,忽略了特征提取过程是一个完整的时-频域过程,提出一种感知语谱规整耳蜗滤波系数的说话人识别特征提取方法。
技术方案:
感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,包括以下步骤:
步骤S1、基于耳蜗基底膜的行波及其脉冲响应,在频域中构建符合人耳心理声学实验的耳蜗滤波器,并在Bark尺度上拓展为非线性分布的耳蜗滤波器组;
步骤S2、对含噪语音进行基于听觉感知特性的语音增强以及一个时-频域的二维增强,并通过对连续分布的纯净语音语谱结构进行二维边界检测,得到感知语谱结构规整参数PSN,其用fPSN(m)表示;
步骤S3、由步骤S1中的耳蜗滤波器组的输出获得耳蜗滤波系数Co(m,l),然后由步骤S2中的感知语谱结构规整参数PSN在时域中进一步规整所有耳蜗滤波系数Co(m,l),提取感知语谱规整耳蜗滤波系数PSNCC特征参数;
所述PSNCC特征参数的具体提取步骤为:
采用了针对语音连续性分布特点的检测方法,以此来区别对待鲁棒性较强的语音分布和噪声的分布,具体方法如下:
1)首先提取语音的PSN参数;
2)确定PSN参数fPSN(m)大于阈值a并且连续分布的帧数con(m)大于b帧的语音段,并把此段作为检测到的鲁棒语音段;
PSNCC特征参数PSNCC(m,l)由下式提取:
进一步的,所述步骤S1的具体步骤为:
步骤S11、耳蜗滤波器的约束条件
耳蜗中基底膜的冲激响应用公式filter(PnSN)表示,该公式需要满足下列条件:
1)和为0:
其中n代表离散时间;
2)能量有限:
3)满足
其中fs为采样频率,ω是数字角频率;
4)filter(n)向两端逐渐递减至零;
5)filter(n)有一个主要的中心频率且其频率响应是一个钟形的带通滤波器;
满足以上条件能够使滤波器的响应更符合心理声学实验中的结果;
步骤S12、耳蜗滤波器的时域响应
(a)假定x(t)是一个能量有限可积的连续信号,则x(t)和某一滤波器通道的基底膜行波bmc,τ(t)的关系表示为:
其中,c是尺度变量,τ为时间位移变量,是用于积分的临时时间变量,而:
filterc,τ(t)即为某一耳蜗滤波器通道的冲激响应;
其中,用来限制能量,使能量归一化,从而保证所有频带的滤波器能量相等,由此得到:
其中,c为用来控制函数尺度的尺度变量,τ为时间位移变量;
filter(t)是耳蜗滤波器函数或耳蜗冲激响应函数,其在连续时间系统中,由下式定义:
其中,α,β为滤波器的频率响应参数,用于调整滤波器的频率响应;u(t)是单位阶跃信号;因此滤波器组中每个滤波器通道的冲激响应表示为:
其中,fl是耳蜗滤波器组最低中心频率;
(b)对离散信号x(n)而言,时间并不是连续的,而此时第i个耳蜗滤波器输出的行波表示为:
其中,n、m表示离散时间,此处m是用于离散卷积的临时时间变量,
而各滤波器通道的响应能量相等,即为:
在离散域中,耳蜗滤波器的脉冲响应用如下公式表示:
此式中α>0,β>0,这里u(n)是单位阶跃序列,即当n≥0时,u(n)=1,当n≤0,u(n)=0;τ为时间位移变量;考虑θ值时,主要让其满足上述约束条件;ci为控制当前滤波器中心频率的尺度变量,是由50Hz和当前滤波器的中心频率的比值决定:
其中,I为总的滤波器通道数;
步骤S13、耳蜗滤波器的离散频域响应
对于N个点的耳蜗滤波器通道,耳蜗滤波器的脉冲响应的傅里叶变换为:
其中,ω是数字角频率;在频域内进一步离散化为第i个耳蜗滤波器通道的离散频率响应:
对离散时间信号而言,耳蜗滤波器的输出为:
其中,此处α,β为滤波器通道的频率响应参数,用于调整滤波器的频率响应;此处m是用于离散卷积的临时时间变量;
进一步的,所述步骤S3中获得耳蜗响应的耳蜗滤波系数Co(m,l)的具体步骤为:
步骤S31、获得耳蜗对数频谱Sm(i)
首先,将耳蜗毛细胞输出函数定义为:
其中是耳蜗滤波器组的输出,且是通过对基底膜行波的离散频谱做反傅里叶变换而求得;基底膜行波的离散频谱由下式求出:
其中,k为离散频率,X(k)为耳蜗输入信号x(n)的频谱,是第i个耳蜗滤波器通道的离散频率响应;其次,把每个频段和当前频带的中心频率联系起来,用如下方程表示:
其中,ci为控制当前滤波器中心频率的尺度变量,在这里用其代表不同的耳蜗滤波器通道。把所有可用的耳蜗滤波器通道组成耳蜗滤波器通道集合C=c2,c3,...,c17
然后,对其进行对数能量的处理,得到第i个耳蜗滤波器通道的耳蜗对数频谱S(i),对于第m帧的耳蜗对数频谱Sm(i),其由下式得出:
其中,m是帧数,M是总帧数,i是耳蜗滤波器组的滤波器通道号,I是耳蜗滤波器组中滤波器的数量;
步骤S32、获得耳蜗响应的耳蜗滤波系数Co(m,l)
对耳蜗对数频谱Sm(i)进行离散余弦变换,得到第m帧第l阶的耳蜗滤波系数Co(m,l),其具体如下式:
其中,m是帧数,l是阶数,M是总帧数,i是耳蜗滤波器组的滤波器通道号,I是耳蜗滤波器组中滤波器的数量。
进一步的,所述步骤S2的具体步骤为:
步骤S21、基于听觉感知特性的语音增强
语音增强系统包括:对低信噪比语音进行加窗分帧、噪声谱估计、FFT变换、掩蔽阈值的计算、减参数、谱相减和叠接相加反变换后得到增强后的语音;所述噪声谱估计采用基于约束方差频谱平滑和最小值跟踪的噪声功率谱估计方法;
所述掩蔽阈值的计算具体为:
(1)Bark阈功率谱Bi
语音信号x(n)经过快速傅立叶变换(FFT)变成频域信号X(k),信号功率谱为:
P(k)=Re2X(k)+Im2X(k)
Bark功率谱为:
其中Bi表示第i段Bark频带的能量,bli表示第i段最低的频率,bhi表示第i段最高的频率。
(2)扩散Bark域功率谱Ci
引入扩散函数Sij,它是一个矩阵,满足条件:
abs(j-i)≤25
Sij定义式如下:
其中,Δ=i-j,i,j=1,2,···imax表示两个频带的频带号之差;
(3)掩蔽能量的偏移函数Oi及掩蔽阈值Ti的计算
Oi=a(14.5+i)+(1-a)5.5
a取值在0和1之间,其值由语音含量决定;Ti是第i段Bark频带的掩蔽阈值,将其改称为Tb(k),其中b的含义与前面的i相同;
和安静听阈的阈值:
Tq(f)=3.64(f/1000)-0.8-6.5exp((-0.6(f/1000-3.3)2)+10-3(f/1000)4
相比较,取其最大值T(k)=max(Tb(k),Tq(k)),作为最终拟合的掩蔽阈值;其中Tq(k)为Tq(f)相应的Bark掩蔽曲线,f是频率;
所述谱相减和减参数的调节具体为:
谱相减算法采用的增益函数如下:
其中,D(k)为含噪语音中的噪声频谱,Y(k)为含噪语音的频谱,γ为频谱指数,α、β为减参数;本发明采用功率谱相减算法,所以γ=2;
首先计算每一帧语音的不同Bark域的噪声掩蔽阈值,然后根据噪声掩蔽阈值得到自适应的减参数α、β:若掩蔽阈值较高,残留噪声会很自然地被掩蔽而使人耳听不见,在这种情况下,减参数取它们的最小值;掩蔽阈值较低时,残留噪声对人耳的影响很大,有必要去减少它;对于每一帧m,掩蔽阈值Tm(k)的最小值与每帧的减参数αm(k)和βm(k)的最大值有关,减参数的应用有如下关系式:
其中,Tm(k)min和Tm(k)max分别为Tm(k)的最小值和最大值,αmin,βmin和αmax,βmax分别是参数αm(k)、βm(k)的最小值和最大值;当Tm(k)=Tm(k)min时,αm(k)=αmax;当Tm(k)=Tm(k)max时,αm(k)=αmin;式中Tm(k)min和Tm(k)max分别是逐帧得到的掩蔽阈值的最小值和最大值;
步骤S22、语音的二维增强
针对残留噪声的语谱结构和纯净语音的语谱结构之间的不同,对上述增强后的语音进行二维增强,其具体包括二维噪声腐蚀算法和二维语音膨胀算法:
a、二维噪声腐蚀算法
对语音语谱的二维噪声腐蚀算法的具体过程如下:
对增强后的语音进行短时傅立叶变换,每一帧的频谱Xm(k)由下式计算:
xm(n)是第m帧语音信号,Xm(k)是第m帧语音信号的频谱;N为帧的长度和短时傅立叶变换点数;w(n)是Hamming窗;每帧的语音信号功率谱表示为:
X(m,k)=|Xm(k)|2,
X(m,k)即定义为语音信号的语谱;
对X(m,k)的二维噪声腐蚀被定义为:
Y(m,k)=min{X(m+m',k+k')-b(m',k')|(m+m'),(k+k')∈DX;m',k'∈Db}
其中b(m',k')是结构元素,DX是X(m,k)的定义域,Db是b(m',k')的定义域;平移参数(m+m'),(k+k')必须在X(m,k)的定义域内,且m',k'必须在b(m',k')的定义域之内;
针对能量较弱的残留噪声语谱的结构形态,二维噪声腐蚀算法的结构元素b(m',k')被定义为下式:
这样的结构元素b(m',k')比较接近能量较弱的残留噪声的语谱结构。因此用结构元素b(m',k')对语谱进行二维噪声腐蚀,可以在一定程度上削弱这种噪声;
b、二维语音膨胀算法
针对二维噪声腐蚀的结果Y(m,k),二维语音膨胀算法Z(m,k)由下式定义:
Z(m,k)=max{Y(m+m',k+k')+c(m',k')|(m+m'),(k+k')∈DY;m',k'∈DC}
其中c(m',k')是结构元素,DY是Y(m,k)的定义域,DC是c(m',k')的定义域;
二维语音膨胀算法中的结构元素c(m',k')被定义为如下形状:
c(m',k')=[1 1 1 1]
这里的c(m',k')是水平的沿着时间方向伸展的结构元素。所有跟它相似的结构,都将得到增强。由于纯净语音的语谱结构通常在时间上是连续分布的,它类似于c(m',k'),因此纯净语音的结构得到加强。而能量较强的残留噪声的语谱结构,通常是大的圆点或方点状,它的结构被相对削弱;
步骤S23、二维边界检测
连续二维信号的边界能够用一阶导数确定的梯度表示;用以下公式中的邻域模型逼近语音二维增强的结果Z(m,k)的梯度;
Z5是此邻域模型的中心点;而中心邻域的梯度,由下式表示:
Gm和Gk分别由下式确定:
Gm=(Z7+2Z8+Z9)-(Z1+2Z2+Z3)
Gk=(Z3+2Z6+Z9)-(Z1+2Z4+Z7)
g(m,k)即为Z(m,k)的边界,其描述含噪语音语谱中的语音信号连续分布的边界信息;
步骤S24、得到感知语谱结构规整参数PSN
在语谱每一帧的频率轴上对所有的边界g(m,k)进行加权求和,使低频区域得到更高的权重,从而得到感知语谱结构规整参数PSN,
提出感知语谱规整参数PSN如下式:
其中,fPSN(m)是第m帧的PSN参数,M是总帧数。
进一步的,所述步骤S3中PSNCC特征参数具体提取步骤为:
采用了针对语音连续性分布特点的检测方法,以此来区别对待鲁棒性较强的语音分布和噪声的分布,具体方法如下:
1)首先提取语音的PSN参数;
2)确定PSN参数fPSN(m)大于阈值a并且连续分布的帧数con(m)大于b帧的语音段,并把此段作为检测到的鲁棒语音段;
PSNCC特征参数由下式提取:
其中,PSNCC(m,l)即为感知语谱规整耳蜗滤波系数,其由一系列耳蜗滤波系数和零系数组成;所述零系数是由感知语谱规整参数规整后的结果,不参与识别的过程,其代表耳蜗滤波系数中鲁棒性较差的部分。
进一步的,所述步骤S12中耳蜗滤波器的脉冲响应中α和β的取值分别为:α=3,β=0.2;在α=3,β=0.2,时,所设计的滤波器更符合心理声学模型实验中的滤波器响应。
进一步的,所述PSNCC特征参数提取公式中a和b的取值分别为:a=0.5,b=15;经实验测试,当a=0.5,b=15时,提取的特征参数的性能较好。
进一步的,所述步骤S21中减参数αm(k)和βm(k)的应用关系式中各个参数的取值如下:
有益效果:
1、本发明基于耳蜗听觉特性构建了耳蜗滤波器组,该方法模仿基底膜的刺激响应及其非线性频率分布特征,对噪声具有一定的鲁棒性优势;使特征参数的提取过程在频域中拟合心理声学实验结果从而提高特征参数的鲁棒性;
2、本发明基于语音信号与噪声信号在时-频域二维空间的不同特征,并结合基于听觉感知特性的语音增强算法,提取出感知语谱规整参数PSN(Perception SpectrogramNorm),并将其用于说话认识别的特征提取;由PSN参数fPSN(m)提取的特征可以很好的体现出语音中鲁棒性较强的部分,对噪声具有很好的鲁棒性;
3、本发明基于耳蜗听觉特性和感知语谱规整的特征参数提取算法,旨在模拟人类外围听觉系统,并通过时域中的感知语谱规整提高特征的鲁棒性,提取出鲁棒性更高的PSNCC特征参数;
4、本发明在频域里使用符合人耳耳蜗听觉特性的耳蜗滤波器组来产生耳蜗滤波系数,在时域里使用感知语谱规整参数来提高特征参数的时域鲁棒性,从而在时-频域中都利用了人耳的感知特性,在时-频域两个方面共同提高了特征参数的鲁棒性能,进而提高了低信噪比的噪声环境下说话人识别系统的识别率;实验结果表明,在-10dB到20dB信噪比的条件下,本发明提出的PSNCC特征参数,在所有实验噪声中的平均识别率,分别比BL特征参数,GFCC特征参数和AT特征参数高出26.6%,22.2%以及18.5%,显示出PSNCC特征参数对不同噪声都具有相对较好的鲁棒性;
5、本发明构建符合耳蜗基底膜行波冲激响应及非线性频率分布的耳蜗滤波器组,其还可以运用于很多新的应用上,例如语音识别,降噪和去噪算法,语音和音乐的合成,音频编码等。
附图说明
图1为Bark尺度的20组耳蜗滤波器的脉冲响应;
图2为耳蜗滤波器组的频率响应;
图3为图2中耳蜗滤波器组的换算为分贝的频率响应;
图4为基于听觉感知特性的语音增强系统;
图5为白噪声下不同滤波器组通道和信噪比下的PSNCC特征参数的平均识别率;
图6为一段语音的阶数为12的PSNCC特征参数。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,包括以下步骤:
步骤S1、基于耳蜗基底膜的行波及其脉冲响应,在频域中构建符合人耳心理声学实验的耳蜗滤波器,并在Bark尺度上拓展为非线性分布的耳蜗滤波器组;
步骤S2、对语音进行基于听觉感知特性的语音增强以及对含噪语音进行时-频域的二维增强,并通过对连续分布的纯净语音语谱结构进行二维边界检测,得到感知语谱结构规整参数PSN;
步骤S3、由步骤S1中的耳蜗滤波器组的输出获得耳蜗滤波系数Co(m,l),然后由步骤S2中的感知语谱结构规整参数PSN在时域中进一步规整所有耳蜗滤波系数Co(m,l),提取感知语谱规整耳蜗滤波系数PSNCC特征参数。
下面对PSNCC特征参数的提取步骤进行具体详细说明:
步骤S1、构建耳蜗滤波器组
基于耳蜗的基底膜的行波及其脉冲响应,设计一个耳蜗滤波器组,从而模拟人耳的听觉滤波特性。
步骤S11、耳蜗滤波器的约束条件
当声音进入人耳时,通过由3根小骨头的中耳将外耳的声能转换为机械能。当声音经过中耳最后一根骨头——镫骨向前移动时,将在耳蜗内部震荡起来,并在基底膜上产生行波TW。耳蜗中基底膜的冲激响应可以用公式filter(n)表示,该公式需要满足下列条件:
1)和为0:
其中n代表离散时间;
2)能量有限:
3)满足
其中fs为采样频率,ω是数字角频率;
4)如在基底膜的心理声学实验中情况一样,其向两端逐渐递减至零;
5)其有一个主要的中心频率且其频率响应是一个钟形的带通滤波器;
满足以上条件可以使滤波器的响应更符合心理声学实验中的结果。
步骤S12、耳蜗滤波器的时域响应
假定x(t)是一个能量有限可积的连续信号,则x(t)和某一滤波器通道的基底膜行波bmc,τ(t)的关系可以表示为:
其中,c是尺度变量,τ为时间位移变量,是用于积分的临时时间变量,而:
filterc,τ(t)即为某一耳蜗滤波器通道的冲激响应。
注意用来限制能量,使能量归一化,从而保证所有频带的滤波器能量相等,由此我们可以得到:
其中,c是用来控制函数的尺度的,也可称其为扩张变量。改变因子c,我们可以变换滤波器的中心频率。而时间位移变量则由τ来控制。若尺度变量c已经给定,则我们可以通过改变τ来使得滤波器函数filter(t)在时间轴上平移。
filter(t)是一个典型的耳蜗滤波器函数或者说是耳蜗冲激响应函数,其在连续时间系统中,由下式定义:
其中,α,β为滤波器的频率响应参数,用于调整滤波器的频率响应;u(t)是单位阶跃信号;因此滤波器组中每个滤波器通道的冲激响应可表示为:
其中,fl是耳蜗滤波器组最低中心频率。
而对离散信号x(n)而言,时间并不是连续的,而此时第i个耳蜗滤波器输出的行波可表示为:
其中,n、m表示离散时间,此处m是用于离散卷积的临时时间变量,
而各滤波器通道的响应能量相等,即为
在离散域中,提出的耳蜗滤波器的脉冲响应用如下公式表示:
此式中α>0,β>0,这里u(n)是单位阶跃序列,即当n≥0时,u(n)=1,当n≤0,u(n)=0。考虑θ值时,主要注意让其满足约束条件。τ作为时间位移变量,而ci作为控制当前滤波器中心频率的尺度变量,是由50Hz和当前滤波器的中心频率的比值决定:
其中I为总的滤波器通道数。在α=3,β=0.2,时,所设计的滤波器更符合心理声学模型实验中的滤波器响应。我们截取20组Bark尺度作为中心频率的耳蜗滤波器的脉冲响应如图1所示,中心频率分别是(Hz):50;150;250;350;450;570;700;840;1000;1170;1370;1600;1850;2150;2500;2900;3400;4000;4800;5800。
步骤S13、耳蜗滤波器的离散频域响应
对于N个点的耳蜗滤波器通道,其傅里叶变换为:
其中,ω是数字角频率;在频域内进一步离散化为第i个耳蜗滤波器通道的离散频率响应:
对离散时间信号而言,耳蜗滤波器的输出为:
其中,α,β为滤波器通道的频率响应参数,用于调整滤波器的频率响应;此处m是用于离散卷积的临时时间变量;
求其傅里叶变换:
对其作离散傅里叶变换,可以得到基底膜行波的离散频谱,如下:
从耳蜗滤波器组的脉冲响应图可以看出,最低阶耳蜗滤波器,也就是第一组滤波器的脉冲响应几乎为零,因此我们使用的耳蜗滤波器组排除第一组中心频率为50Hz的滤波器。而本发明中使用的信号为8kHz的采样率,第18到20组滤波器超出了采样定理的范围。因此,在α=3,β=0.2时,本发明截取第2到第17组耳蜗滤波器的频率响应图,其频率响应如图2和图3所示。
步骤S2、得到感知语谱结构规整参数PSN
时域中的语音分布并不是均匀的,如何从时频域中同时提高特征参数的鲁棒性,说话人识别技术中有待解决的关键问题之一。作为语音识别和说话人识别的基础,正确有效的语音活性检测,可以大大提高说话人识别系统和语音识别系统的识别率。然而现有的方法在低信噪比环境下,都无法得到较高的语音活性检测正确率。而且,仅仅检测活性语音并对所有语音同等对待,限制了语音特征参数的鲁棒性的进一步提高。语音特征参数的提取,应该针对语音中鲁棒性较强的部分,从而使说话人识别系统获得更高的识别率。
针对以上问题,基于语音信号与噪声信号在时-频域二维空间的不同特征,并结合基于听觉感知特性的语音增强算法,提出感知语谱规整参数PSN(Perception SpectrogramNorm),并将其用于鲁棒语音检测。首先,对低信噪比语音进行基于听觉掩蔽特性的语音增强。与传统的语音增强算法相比,这种方法更有效地保留住人耳可感知的语音成分。在此基础之上,在二维层面中考虑纯净语音语谱在时间轴上的连续分布特性,对含噪语音进行二维增强,使语音的语谱结构更进一步突显出来,同时抑制了噪声的语谱结构。最后,寻找出连续分布的纯净语音语谱结构的二维边界,并提出PSN参数,并将之用于提取PSNCC特征参数。
步骤S21、基于听觉感知特性的语音增强
低信噪比环境下,大多数语音活性检测算法无法很好地检测出语音端点,甚至完全失效。而人类却可以在噪音较强的环境中识别出语音段。在噪音环境下,人耳的听觉感知特性起到了重要的作用。采用人耳听觉感知特性中的听觉掩蔽特性,可以在一定程度上抑制噪声而更多的保留语音成分。本文提出的PSN参数,先采用基于听觉掩蔽特性的语音增强,在保护语音的基础上尽可能的抑制噪声。这种语音增强方法,最重要的是计算掩蔽阈值。掩蔽阈值的计算以及语音增强系统如下:
(1)Bark阈功率谱Bi
语音信号x(n)经过快速傅立叶变换(FFT)变成频域信号X(k),信号功率谱为:
P(k)=Re2X(k)+Im2X(k) (19)
Bark功率谱为:
其中Bi表示第i段Bark频带的能量,bli表示第i段最低的频率,bhi表示第i段最高的频率。
(2)扩散Bark域功率谱Ci
引入扩散函数Sij,它是一个矩阵,满足条件:
abs(j-i)≤25 (21)
Sij定义式如下:
Δ=i-j,i,j=1,2,···imax表示两个频带的频带号之差。
(3)掩蔽能量的偏移函数Oi及掩蔽阈值Ti的计算
Oi=a(14.5+i)+(1-a)5.5 (24)
a取值在0和1之间,由语音含量决定。Ti是第i段Bark频带的掩蔽阈值,将其改称为Tb(k),其中b的含义与前面的i相同。
和安静听阈的阈值:
Tq(f)=3.64(f/1000)-0.8-6.5exp((-0.6(f/1000-3.3)2)+10-3(f/1000)4 (26)
相比较,取其最大值T(k)=max(Tb(k),Tq(k)),作为最终拟合的掩蔽阈值。其中Tq(k)为Tq(f)相应的Bark掩蔽曲线,f是频率。
(4)谱相减和减参数的调节
谱相减算法采用的增益函数如下:
其中,D(k)为含噪语音中的噪声频谱,Y(k)为含噪语音的频谱。γ为频谱指数,本发明采用功率谱相减算法,所以γ=2。
首先计算每一帧语音的不同Bark域的噪声掩蔽阈值,然后根据噪声掩蔽阈值得到自适应的减参数α、β:若掩蔽阈值较高,残留噪声会很自然地被掩蔽而使人耳听不见,在这种情况下,减参数取它们的最小值;掩蔽阈值较低时,残留噪声对人耳的影响很大,有必要去减少它。对于每一帧m,掩蔽阈值Tm(k)的最小值与每帧的减参数αm(k)和βm(k)的最大值有关。减参数的应用有如下关系式:
其中,Tm(k)min和Tm(k)max分别为Tm(k)的最小值和最大值。αmin,βmin和αmax,βmax分别是参数αm(k)、βm(k)的最小值和最大值。当Tm(k)=Tm(k)min时,αm(k)=αmax;当Tm(k)=Tm(k)max时,αm(k)=αmin。式中Tm(k)min和Tm(k)max分别是逐帧得到的掩蔽阈值的最小值和最大值。实验中,我们对各个参数的取值如下:
(5)实时噪声功率谱估计
语音增强需要实时性特别高的噪声谱估计方法。采用基于约束方差频谱平滑和最小值跟踪的噪声功率谱估计方法。该算法的核心是约束方差的平滑滤波器,它控制了短时平滑功率谱的方差,使得对最小值的跟踪更为准确。该方法估计的噪声谱能及时追踪噪声突变,不产生明显噪声谱延时,且精确度优于其它方法估计的噪声谱。
(6)语音增强系统
语音增强系统包括:对低信噪比语音进行加窗分帧、噪声谱估计、FFT变换、掩蔽阈值的计算、减参数、谱相减和叠接相加反变换后得到增强后的语音;语音增强系统如图4所示。
步骤S22、语音的二维增强
低信噪比的语音经过语音增强之后,由于谱相减的作用,噪声和语音同时被衰减。然而,由于语音中浊音段含有能量较高的共振峰等结构,在二维时-频域中,语音语谱的低频区域即使在噪声干扰下,还是具有较高的信噪比。并且这些含有较高语音能量的结构在时间上通常是连续分布的。因此,只要我们在语音信号二维的语谱中,找到这些连续分布的高能量区域,并且由此找出相连的清音段,就可以得到语音的起始和终止端点。边界检测,在我们的方法中是个寻找连续分布二维数据结构的算法。
然而,不论低信噪比的语音信号是否经过语音增强,噪声(经过语音增强后为残留音乐噪声)都将在边界检测中,留下噪声语谱结构的边界。纯净语音的语谱结构将被噪声的语谱结构干扰混淆,这将对寻找纯净语音的语谱结构产生极大的干扰作用。因此,在求取语音端点之前,针对残留噪声的语谱结构和纯净语音的语谱结构之间的不同,对语音进行二维增强,包括二维噪声腐蚀算法和二维语音膨胀算法。
a、二维噪声腐蚀算法
在二维数据的增强处理算法中,腐蚀算法可以减弱或消除特定的二维结构。我们发现,在语音增强之后的语音语谱中,能量较弱的残留噪声,通常都是随机分布的。而且它们具有较小的尺寸和能量。这些结构虽然较弱,但仍然干扰求取纯净语音的语谱结构边界。针对以上特点,提出二维噪声腐蚀算法,用于削弱这样的二维结构。
对语音语谱的二维噪声腐蚀算法,由以下过程决定。首先,对增强后的语音进行短时傅立叶变换,每一帧的频谱Xm(k)由下式计算:
xm(n)是第m帧语音信号,Xm(k)是第m帧语音信号的频谱。N为帧的长度和短时傅立叶变换点数。w(n)是Hamming窗。每帧的语音信号功率谱可以表示为:
X(m,k)即定义为语音信号的语谱。
对X(m,k)的二维噪声腐蚀被定义为:
其中b(m',k')是结构元素,DX是X(m,k)的定义域,Db是b(m',k')的定义域。平移参数(m+m'),(k+k')必须在X(m,k)的定义域内,且m',k'必须在b(m',k')的定义域之内。对信号进行二维噪声腐蚀,作用是双重的:(1)如果所有元素都为正,则输出的信号趋向于比原始信号更弱;(2)输入的语谱信号中,噪声语谱结构如果和结构元素类似,则它将被削弱,削弱的程度取决于噪声的语谱结构形状以及结构元素的形状。
在语音的语谱结构中,腐蚀算法同时削弱噪声和语音。提出的二维噪声腐蚀算法的目的,就是能够相对更多地削弱噪声,而更好地保留语音。针对能量较弱的残留噪声语谱的结构形态,二维噪声腐蚀算法的结构元素b(m',k')被定义为下式:
这样的结构元素b(m',k')比较接近能量较弱的残留噪声的语谱结构。因此用结构元素b(m',k')对语谱进行二维噪声腐蚀,可以在一定程度上削弱这种噪声。
b、二维语音膨胀算法
语音经过二维噪声腐蚀算法,能量较弱的残留噪声被很好的抑制。然而,由于能量较强的残留噪声和纯净语音之间,在能量上有近似性,如果过度地腐蚀,将会同时削弱纯净语音的二维结构。膨胀算法可以使和结构元素相似的二维语谱结构得到增强,不相似的二维语谱结构被相对削弱。因此,针对能量较强的残留噪声和纯净语音结构之间的不同,提出二维语音膨胀算法。把结构元素定义为与连续分布的纯净语音相似的结构。这样就可以相对的抑制这种噪声结构。
针对二维噪声腐蚀的结果Y(m,k),二维语音膨胀算法Z(m,k)由下式定义:
其中c(m',k')是结构元素,DY是Y(m,k)的定义域,DC是c(m',k')的定义域。从理论上讲,可以认为结构元素在语谱中的所有位置平移,结构元素的值与二维信号的值相加,并且计算最大值。对语音信号进行二维语音膨胀是双重作用的:(1)如果所有元素都为正,则输出的信号趋向于比原始信号更强;(2)输入的语谱信号中,某种结构是否被相对增强,取决于膨胀所用的结构元素的值和形状。
膨胀算法,在增强语音结构的同时,也会增强相应的噪声结构。提出的二维语音膨胀算法的目的是,尽量的增强语音结构,而相对抑制噪音结构。纯净语音信号浊音的语谱结构通常都是沿着时间轴伸展的长条形,而能量较强的残留噪声的语谱结构通常都是大小不一的正方形或圆形。因此,把结构元素定义为沿着时间轴伸展的长条形状,以此来增强所有类似结构,同时可以相对削弱结构不同的噪声结构。
所以,二维语音膨胀算法中的结构元素c(m',k')被定义为如下形状:
c(m',k')=[1 1 1 1] (35)
这里的c(m',k')是水平的沿着时间方向伸展的结构元素。所有跟它相似的结构,都将得到增强。由于纯净语音的语谱结构通常在时间上是连续分布的,它类似于c(m',k'),因此纯净语音的结构得到加强。而能量较强的残留噪声的语谱结构,通常是大的圆点或方点状,它的结构被相对削弱了。
步骤S23、二维边界检测
在二维层面上考虑纯净语音语谱在时间轴上的连续分布特性,对含噪语音进行二维增强,使语音的语谱结构,更进一步突显出来,同时抑制了噪声的语谱结构。之后,将寻找出纯净语音连续分布的语谱结构边界,并提出感知语谱规整参数PSN用于端点检测。
对于PSN来讲,要首先求解出语谱结构的边界信息。边界检测是求解二维结构边界的重要方法。连续二维信号的边界可以用一阶导数确定的梯度表示。本文用公式(36)中的邻域模型逼近语音二维增强的结果Z(m,k)的梯度。
Z5是此邻域模型的中心点。而中心邻域的梯度,可以由下式表示:
Gm和Gk由公式(39)和公式(40)确定:
Gm=(Z7+2Z8+Z9)-(Z1+2Z2+Z3) (38)
Gk=(Z3+2Z6+Z9)-(Z1+2Z4+Z7) (39)
g(m,k)即为Z(m,k)的边界,它可以描述含噪语音语谱中的语音信号连续分布的边界信息。
步骤S24、感知语谱结构规整参数PSN的提取
通过对g(m,k)和语音语谱的分析,我们发现在低信噪比的环境下,语音高频区域的信号及语谱特征都被噪声掩蔽掉,而在低频区域,语音浊音段的语谱结构仍然相对噪声有很高的能量,具有可求解的语谱边界。而且越往低频处,这种现象越明显。这是因为语音浊音段的能量主要集中在中低频前几个共振峰处。因此,在求得了语音语谱的边界g(m,k)之后,在语谱每一帧的频率轴上对所有的g(m,k)进行加权求和,使低频区域得到更高的权重,从而得到感知语谱结构规整参数PSN。
提出感知语谱规整参数PSN如下式:
其中fPSN(m)是第m帧的PSN参数,M是总帧数。PSN参数fPSN(m)可以很好的体现出语音中鲁棒性较强的部分,对噪声具有很好的鲁棒性。
步骤S3、PSNCC特征参数的提取
在人耳中还有其他活动。神经活动中,耳蜗机械运动是内毛细胞充当它的传感器,耳蜗上下移动时,盖膜与耳蜗间就会有剪切运动,这时那些能够产生神经信号的毛细胞就会有最大位移。值得注意的是,毛细胞只有与耳蜗运动同方向是才能有神经信号产生,不同方向时,神经元就不会输出。以下是毛细胞输出函数:
其中bm(ci,τ)是耳蜗滤波器组的输出,且是通过对基底膜行波的离散频谱(公式(18))做反傅里叶变换而求得。
接下来,我们把每个频段和当前频带的中心频率联系起来,用如下方程表示:
此处的目的是使滤波器的响应时间能剔除某些响应时间较长或响应时间较短的耳蜗滤波器(如第1个滤波器通道)。其中,ci为控制当前滤波器中心频率的尺度变量,在这里用其代表不同的耳蜗滤波器通道。把所有可用的耳蜗滤波器通道组成耳蜗滤波器通道集合C,在实验中,C=c2,c3,...,c17
随后对毛细胞输出的频谱进行对数能量的处理,就可以得到第i个耳蜗滤波器通道的耳蜗对数频谱S(i),对于第m帧的耳蜗对数频谱Sm(i),由下式得出:
得到对数频谱后,进行离散余弦变换,可以得到第m帧第l阶的耳蜗滤波系数,如下式:
其中,i是耳蜗滤波器组的滤波器通道号,I是耳蜗滤波器组中滤波器的数量。
下面用PSN在时域中规整Co(m,l),从而提高特征参数的时域鲁棒性并提取出PSNCC特征参数。
通过实验发现,语音段中间的清音可以被很好的识别成语音段(PSN参数大于阈值0.5)。这是由于,一个语音单词中间的清音通常比较短,而采用的是重叠50%的帧移方法。这种方法可以把单词中间的清音和旁边的浊音联合起来进行语谱分析,从而在此清音帧中体现出旁边浊音帧的信息。
然而,随着信噪比的降低,特别是低于0dB时,语音段起始处的清音的PSN区分特性减弱(数值较小),而噪声也会产生较高的PSN数值。若单纯以某一固定阈值进行划分,检测到的并不一定是鲁棒性较强的语音。然而,噪声产生的较高数值的PSN并不会持续分布。因此采用了针对语音连续性分布特点的检测方法,以此来区别对待鲁棒性较强的语音分布和噪声的分布。具体方法如下:
(1)首先提取语音的PSN参数;
(2)确定PSN参数fPSN(m)大于阈值a并且连续分布的帧数con(m)大于b帧的语音段,并把此段作为检测到的鲁棒语音段。
特征参数由下式提取:
PSNCC(m,l)为感知语谱规整耳蜗滤波系数,它由一系列耳蜗滤波系数和零系数组成。其中的零系数是由感知语谱规整参数规整后的结果,不参与识别的过程,它代表耳蜗滤波系数中鲁棒性较差的部分。经过感知语谱规整,PSNCC(n)含有相对更多的鲁棒参数。经过实验测试,当a=0.5,b=15时,提取的特征参数的性能较好。
提取出的PSNCC特征参数,使用了符合人耳耳蜗频率特性的耳蜗滤波器组来生成参数,并由感知语谱规整参数提取出鲁棒性更高的特征。PSNCC特征参数是结合了频域和时域处理的一种鲁棒性特征参数。
以下为各种特征参数的实验仿真及其结果、分析。
(一)实验设置
1、数据库
实验的语音采用TIMIT语音数据库中,dr1库New England地区和dr5库Southern地区共39个说话人的语音作为实验用语音,所以本发明提出的模型中的参数S=39。TIMIT语音数据库中的所有语音为16k采样率16bit量化。每个说话人为10个短语音。
噪音选择NoiseX_92噪音数据库中的White噪声,Pink噪音和F16噪声作为环境噪声。NoiseX_92噪音数据库中的噪音为8k采样率8bit量化位数。为了考察提出的方法在现实环境中的表现,我们还对比了一个现实中录制的吹风机噪声,16k采样,16bit量化。
2、语音基本参数的设置
由于使用的语音数据库和噪音数据库的采样率不匹配,因此我们把所有的语音及噪音全部使用8k采样率和8bit量化位数。
帧长选则128点,帧移64点,每帧长16ms,帧移8ms。
加噪程序使用最新的语音工具箱voicebox中的v_addnoise函数实现不同信噪比的含噪语音。函数参数m='eE',即使用能量作为信噪比的计算单位。我们主要研究信噪比较低的情况,因此信噪比选择从-10dB到20dB的范围。
3、模型设置及训练识别设置
说话人识别系统的训练和识别模型采用32阶的GMM模型。所有实验均使用32阶GMM模型。训练使用每个说话人的6段语音,识别使用另外4段语音。
(二)基线语音特征参数和对比语音特征参数
1、基线语音特征参数
为了对比各种方法的性能,实验统一使用采用16阶MFCC参数作为基线参数(BL),从而对比各种参数的相对鲁棒性。Mel滤波器通道为24,可以涵盖4kHz以内的频率。
2、对比语音特征参数
本发明使用同样借鉴了人耳听觉特性的伽马通滤波器倒谱系数特征参数(GFCC),和也采用了听觉特性的听觉变换提取的特征参数(用“AT”表示)作为对比的特征参数,从而比较各个特征参数之间的鲁棒性区别。
(三)滤波器通道的选择
所有的实验参数设定以后,为了得到鲁棒性最好的特征参数,需要对新参数的滤波器通道和特征参数的阶数做出确定。我们以白噪声作为测试噪声,通过对不同信噪比下不同滤波器通道的选择,来确定最终的滤波器阶数,在实验过程中,特征参数的阶数设置为滤波器组中所有通道数目之和,如图5为PSNCC特征参数在不同滤波器组通道和信噪比下的平均识别率。
考虑到更多的滤波器可以涵盖更多的语音信息,我们设定提出的感知语谱规整耳蜗滤波器系数的下限滤波器通道为第2阶滤波器,上限为第13阶滤波器通道。特征参数的阶数设定为12阶,所提出的PSNCC特征参数如图6所示,其中,Z轴坐标为特征参数的值,X轴坐标为语音的帧,Y轴坐标为特征参数的阶数。
(四)实验结果及分析
在不同噪声和信噪比下,四种不同的特征参数的说话人识别的识别率的实验结果如表1-表4所示:
表1在白噪声下的识别率表
表2在Pink噪声下的识别率表
表3在F16战斗机舱噪声下的识别率表
表4在现实中吹风机噪声下的识别率表
以上四种噪声中的实验结果表明,在各种噪声下,本发明提出的PSNCC特征参数对比BL特征参数和另外两种对比特征参数,识别率均有较大提高。在所有信噪比条件下,本发明提出的PSNCC特征参数在所有实验噪声中的平均识别率,分别比BL特征参数,GFCC特征参数和基于听觉变换的AT特征参数高出26.6%,22.2%以及18.5%。而在-10dB到10dB的低信噪比环境下,PSNCC特征参数在所有实验噪声中的平均识别率,分别比另外三种对比的特征参数高出27.8%,24.1%以及18.1%。对平均识别率而言,在低信噪比环境下,基线特征参数的鲁棒性最差,而本发明提出的PSNCC特征参数比两外两个对比特征参数也更具鲁棒性。
通过以上测试结果可知,在White噪声、Pink噪声和F16噪声的测试环境下,在-10dB到10dB的低信噪比条件下,相对基线特征参数和各个对比特征参数,本发明提出的特征参数均获得了较好识别率,反映出本发明提出的PSNCC特征参数在低信噪比环境下具有更好的噪声鲁棒性。
为了测试真实环境中模型的性能,最后一种测试噪声是在实验室录制的一段吹风机产生的噪声,这种噪声的非平稳性进一步加强。在这种环境下,本发明提出的PSNCC特征参数的识别率仍然高于其它三种模型,鲁棒性最好,平均识别率分别提高10.6%,7.3%和24.9%。本发明提出的PSNCC特征参数,在-10dB到15dB的信噪比环境下,获得了最高的识别率。
不同的噪声和信噪比对不同的模型识别结果有较大影响。基线特征参数在所有测试噪声中的鲁棒性均较差。AT特征参数在White噪声和Pink噪声中表现很好,但在F16噪声中鲁棒性相对降低,在吹风机噪声中鲁棒性最差。GFCC特征参数在各种噪声中都获得了比基线特征参数相对较高的识别率。这四种不同的噪声中,提出的特征参数在F16噪声中表现最好,获得了56.4%的平均识别率,说明本发明提出的PSNCC特征参数具有较好的频率特性和时间特性。而从总体的识别率而言,提出的PSNCC特征参数,在各种噪声的低信噪比环境下,均更具有鲁棒性。这是因为,提出的PSNCC特征参数,用一个耳蜗滤波器组把语音信号分解成多个频段,频率响应呈现一个钟形,而是不是一个三角形状,更加平滑。而且在频谱中,滤波器的形状可以通过改变参数而调整(伽马通滤波器组是不可调的),而且滤波器的中心频率可以修正到各个刻度中,如Mel,Bark或对数尺度中。而感知语谱规整的特征提取方法,利用人耳的感知特性,在时域里进一步提取出较强的鲁棒性特征。而实验结果证明,这种PSNCC特征参数对非平稳性较强噪声,也具有较好的鲁棒性。
在实验中,为了比对各种特征参数的真实鲁棒性能,并未对各个模型使用语音增强的处理。另外,关于算法的复杂度,做一下说明。我们使用的是thinkpadx230笔记本,2.4G双核CPU和8G内存,64位操作系统。模型训练时,提取39人每人6段的训练语音共234段语音的语音特征参数,PSNCC特征参数共使用53.76秒,平均每段语音提取语音特征参数使用0.23秒CPU时间,MFCC共使用4.55秒,平均每段语音提取语音特征参数使用0.02秒CPU时间。而在识别时,提取39人每人4段的训练语音共156段语音的语音特征参数,PSNCC共使用41.86秒(包含加噪程序),平均每段语音提取语音特征参数使用0.27秒CPU时间,MFCC共使用21.56秒(包含加噪程序),平均每段语音提取语音特征参数使用0.14秒CPU时间。可以看出PSNCC特征参数的提取时间比基线特征参数高出不少。然而,本发明使用的语音段,平均每段3到4秒,因此,本发明提出的PSNCC特征参数的提取时间平均为0.27秒,仍然具有实时性。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,包括以下步骤:
步骤S1、基于耳蜗基底膜的行波及其脉冲响应,在频域中构建符合人耳心理声学实验的耳蜗滤波器,并在Bark尺度上拓展为非线性分布的耳蜗滤波器组;
步骤S2、对含噪语音进行基于听觉感知特性的语音增强以及一个时-频域的二维增强,并通过对连续分布的纯净语音语谱结构进行二维边界检测,得到感知语谱结构规整参数PSN,其用fPSN(m)表示;
步骤S3、由步骤S1中的耳蜗滤波器组的输出bmci,τ(n)获得耳蜗滤波系数Co(m,l),然后由步骤S2中的感知语谱结构规整参数PSN在时域中进一步规整所有耳蜗滤波系数Co(m,l),提取感知语谱规整耳蜗滤波系数PSNCC特征参数;
所述PSNCC特征参数的具体提取步骤为:
采用了针对语音连续性分布特点的检测方法,以此来区别对待鲁棒性较强的语音分布和噪声的分布,具体方法如下:
1)首先提取语音的PSN参数;
2)确定PSN参数fPSN(m)大于阈值a并且连续分布的帧数con(m)大于b帧的语音段,并把此段作为检测到的鲁棒语音段;
PSNCC特征参数PSNCC(m,l)由下式提取:
2.根据权利要求1所述的感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,所述步骤S1的具体步骤为:
步骤S11、耳蜗滤波器的约束条件
耳蜗中基底膜的冲激响应用公式filter(n)表示,该公式需要满足下列条件:
1)和为0:
其中n代表离散时间;
2)能量有限:
3)满足
其中fs是采样频率,ω是数字角频率;
4)filter(n)向两端逐渐递减至零;
5)filter(n)有一个主要的中心频率且其频率响应是一个钟形的带通滤波器;
满足以上条件能够使滤波器的响应更符合心理声学实验中的结果;
步骤S12、耳蜗滤波器的时域响应
(a)假定x(t)是一个能量有限可积的连续信号,则x(t)和某一滤波器通道的基底膜行波bmc,τ(t)的关系用卷积积分来表示:
其中,c是尺度变量,τ为时间位移变量,是用于积分的临时时间变量,而:
filterc,τ(t)即为某一耳蜗滤波器通道的冲激响应;
其中,用来限制能量,使能量归一化,从而保证所有频带的滤波器能量相等,由此得到:
其中,c为用来控制函数尺度的尺度变量,τ为时间位移变量;
filter(t)是耳蜗滤波器函数或耳蜗冲激响应函数,其在连续时间系统中,由下式定义:
其中,此处α,β为滤波器的频率响应参数,用于调整滤波器的频率响应;u(t)是单位阶跃信号,因此滤波器组中每个滤波器通道的冲激响应表示为:
其中,fl是耳蜗滤波器组最低中心频率;
(b)对离散信号x(n)而言,时间并不是连续的,而此时第i个耳蜗滤波器输出的行波表示为:
其中,n、m表示离散时间,此处m是用于离散卷积的临时时间变量,
而各滤波器通道的响应能量相等,即为:
在离散域中,耳蜗滤波器的脉冲响应用如下公式表示:
此式中α>0,β>0,这里u(n)是单位阶跃序列,即当n≥0时,u(n)=1,当n≤0,u(n)=0;τ为时间位移变量;考虑θ值时,主要让其满足上述约束条件;ci为控制当前滤波器中心频率的尺度变量,是由50Hz和当前滤波器的中心频率的比值决定:
其中,I为总的滤波器通道数;
步骤S13、耳蜗滤波器的离散频域响应
对于N个点的耳蜗滤波器通道,耳蜗滤波器的脉冲响应的傅里叶变换为:
其中,ω是数字角频率;在频域内进一步离散化为第i个耳蜗滤波器通道的离散频率响应:
对离散时间信号而言,耳蜗滤波器的输出为:
其中,此处α,β为滤波器通道的频率响应参数,用于调整滤波器的频率响应;此处m是用于离散卷积的临时时间变量。
3.根据权利要求2所述的感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,所述步骤S3中获得耳蜗响应的耳蜗滤波系数Co(m,l)的具体步骤为:
步骤S31、获得耳蜗对数频谱Sm(i)
首先,将耳蜗毛细胞输出函数定义为:
其中是耳蜗滤波器组的输出,且是通过对基底膜行波的离散频谱做反傅里叶变换而求得;基底膜行波的离散频谱由下式求出:
其中,k为离散频率,X(k)为耳蜗输入信号x(n)的频谱,是第i个耳蜗滤波器通道的离散频率响应;
其次,把每个频段和当前频带的中心频率联系起来,用如下方程表示:
其中,ci为控制当前滤波器中心频率的尺度变量,在这里用其代表不同的耳蜗滤波器通道;把所有能够用的耳蜗滤波器通道组成耳蜗滤波器通道集合C=c2,c3,...,c17
然后,对其进行对数能量的处理,得到第i个耳蜗滤波器通道的耳蜗对数频谱S(i),对于第m帧的耳蜗对数频谱Sm(i),其由下式得出:
其中,m是帧数,M是总帧数,i是耳蜗滤波器组的滤波器通道号,I是耳蜗滤波器组中滤波器的数量;
步骤S32、获得耳蜗响应的耳蜗滤波系数Co(m,l)
对耳蜗对数频谱Sm(i)进行离散余弦变换,得到第m帧第l阶的耳蜗滤波系数Co(m,l),其具体如下式:
其中,m是帧数,l是阶数,M是总帧数,i是耳蜗滤波器组的滤波器通道号,I是耳蜗滤波器组中滤波器的数量。
4.根据权利要求1或2或3所述的感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,所述步骤S2的具体步骤为:
步骤S21、基于听觉感知特性的语音增强
语音增强系统包括:对低信噪比语音进行加窗分帧、噪声谱估计、FFT变换、掩蔽阈值的计算、减参数、谱相减和叠接相加反变换后得到增强后的语音;所述噪声谱估计采用基于约束方差频谱平滑和最小值跟踪的噪声功率谱估计方法;
所述掩蔽阈值的计算具体为:
(1)Bark阈功率谱Bi
语音信号x(n)经过快速傅立叶变换(FFT)变成频域信号X(k),信号功率谱为:
P(k)=Re2 X(k)+Im2 X(k)
Bark功率谱为:
其中Bi表示第i段Bark频带的能量,bli表示第i段最低的频率,bhi表示第i段最高的频率;
(2)扩散Bark域功率谱Ci
引入扩散函数Sij,它是一个矩阵,满足条件:
abs(j-i)≤25
Sij定义式如下:
其中,Δ=i-j,i,j=1,2,···imax表示两个频带的频带号之差;
(3)掩蔽能量的偏移函数Oi及掩蔽阈值Ti的计算
Oi=a(14.5+i)+(1-a)5.5
a取值在0和1之间,其值由语音含量决定;Ti是第i段Bark频带的掩蔽阈值,将其改称为Tb(k),其中b的含义与前面的i相同;
和安静听阈的阈值:
Tq(f)=3.64(f/1000)-0.8-6.5exp((-0.6(f/1000-3.3)2)+10-3(f/1000)4
相比较,取其最大值T(k)=max(Tb(k),Tq(k)),作为最终拟合的掩蔽阈值;其中Tq(k)为Tq(f)相应的Bark掩蔽曲线,f是频率;
所述谱相减和减参数的调节具体为:
谱相减算法采用的增益函数如下:
其中,D(k)为含噪语音中的噪声频谱,Y(k)为含噪语音的频谱,γ为频谱指数,α、β为减参数;
根据掩蔽阈值得到自适应的减参数α、β;对于每一帧m,掩蔽阈值Tm(k)的最小值与每帧的减参数αm(k)和βm(k)的最大值有关,减参数的应用有如下关系式:
其中,Tm(k)min和Tm(k)max分别为Tm(k)的最小值和最大值,αmin,βmin和αmax,βmax分别是参数αm(k)、βm(k)的最小值和最大值;当Tm(k)=Tm(k)min时,αm(k)=αmax;当Tm(k)=Tm(k)max时,αm(k)=αmin;式中Tm(k)min和Tm(k)max分别是逐帧得到的掩蔽阈值的最小值和最大值;
步骤S22、语音的二维增强
针对残留噪声的语谱结构和纯净语音的语谱结构之间的不同,对上述增强后的语音进行二维增强,其具体包括二维噪声腐蚀算法和二维语音膨胀算法:
a、二维噪声腐蚀算法
对语音语谱的二维噪声腐蚀算法的具体过程如下:
对增强后的语音进行短时傅立叶变换,每一帧的频谱Xm(k)由下式计算:
xm(n)是第m帧语音信号,Xm(k)是第m帧语音信号的频谱;N为帧的长度和短时傅立叶变换点数;w(n)是Hamming窗;每帧的语音信号功率谱表示为:
X(m,k)=|Xm(k)|2,
X(m,k)即定义为语音信号的语谱;
对X(m,k)的二维噪声腐蚀被定义为:
Y(m,k)=min{X(m+m',k+k')-b(m',k')|(m+m'),(k+k')∈DX;m',k'∈Db}
其中b(m',k')是结构元素,DX是X(m,k)的定义域,Db是b(m',k')的定义域;平移参数(m+m'),(k+k')必须在X(m,k)的定义域内,且m',k'必须在b(m',k')的定义域之内;
针对能量较弱的残留噪声语谱的结构形态,二维噪声腐蚀算法的结构元素b(m',k')被定义为下式:
b、二维语音膨胀算法
针对二维噪声腐蚀的结果Y(m,k),二维语音膨胀算法Z(m,k)由下式定义:
Z(m,k)=max{Y(m+m',k+k')+c(m',k')|(m+m'),(k+k')∈DY;m',k'∈DC}
其中c(m',k')是结构元素,DY是Y(m,k)的定义域,DC是c(m',k')的定义域;
二维语音膨胀算法中的结构元素c(m',k')被定义为如下形状:
c(m',k')=[1 1 1 1];
步骤S23、二维边界检测
连续二维信号的边界能够用一阶导数确定的梯度表示;用以下公式中的邻域模型逼近语音二维增强的结果Z(m,k)的梯度;
Z5是此邻域模型的中心点;而中心邻域的梯度,由下式表示:
Gm和Gk分别由下式确定:
Gm=(Z7+2Z8+Z9)-(Z1+2Z2+Z3)
Gk=(Z3+2Z6+Z9)-(Z1+2Z4+Z7)
g(m,k)即为Z(m,k)的边界,其描述含噪语音语谱中的语音信号连续分布的边界信息;
步骤S24、得到感知语谱结构规整参数PSN
在语谱每一帧的频率轴上对所有的边界g(m,k)进行加权求和,使低频区域得到更高的权重,从而得到感知语谱结构规整参数PSN,
提出感知语谱规整参数PSN如下式:
其中,fPSN(m)是第m帧的PSN参数,M是总帧数。
5.根据权利要求4所述的感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,所述步骤S3中PSNCC特征参数具体提取步骤为:
采用了针对语音连续性分布特点的检测方法,以此来区别对待鲁棒性较强的语音分布和噪声的分布,具体方法如下:
1)首先提取语音的PSN参数;
2)确定PSN参数fPSN(m)大于阈值a并且连续分布的帧数con(m)大于b帧的语音段,并把此段作为检测到的鲁棒语音段;
PSNCC特征参数由下式提取:
其中,PSNCC(m,l)即为感知语谱规整耳蜗滤波系数,其由一系列耳蜗滤波系数和零系数组成;所述零系数是由感知语谱规整参数规整后的结果,不参与识别的过程,其代表耳蜗滤波系数中鲁棒性较差的部分。
6.根据权利要求2所述的感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,所述步骤S12中耳蜗滤波器的脉冲响应中α和β的取值分别为:α=3,β=0.2。
7.根据权利要求5所述的感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,所述PSNCC特征参数提取公式中a和b的取值分别为:a=0.5,b=15。
8.根据权利要求4所述的感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其特征在于,所述步骤S21中减参数αm(k)和βm(k)的应用关系式中各个参数的取值如下:
CN201611221640.0A 2016-12-26 2016-12-26 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 Expired - Fee Related CN106653004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611221640.0A CN106653004B (zh) 2016-12-26 2016-12-26 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611221640.0A CN106653004B (zh) 2016-12-26 2016-12-26 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法

Publications (2)

Publication Number Publication Date
CN106653004A CN106653004A (zh) 2017-05-10
CN106653004B true CN106653004B (zh) 2019-07-26

Family

ID=58831404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611221640.0A Expired - Fee Related CN106653004B (zh) 2016-12-26 2016-12-26 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法

Country Status (1)

Country Link
CN (1) CN106653004B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767859B (zh) * 2017-11-10 2020-10-20 吉林大学 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN110010150A (zh) * 2019-04-15 2019-07-12 吉林大学 基于多分辨率的听觉感知语音特征参数提取方法
CN110081917B (zh) * 2019-04-16 2021-07-16 河南顺博建筑智能化工程有限公司 子弹消耗量的自动统计设备
CN111510837B (zh) * 2020-04-23 2023-05-30 武汉立江科学仪器有限责任公司 一种助听器听力康复方法、康复系统、存储介质及助听器
CN112863517B (zh) * 2021-01-19 2023-01-06 苏州大学 基于感知谱收敛率的语音识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199387A1 (en) * 2000-07-31 2004-10-07 Wang Avery Li-Chun Method and system for purchasing pre-recorded music
CN1550001A (zh) * 2002-07-01 2004-11-24 朗迅科技公司 用于语音质量评估的听觉发音分析
CN101727896A (zh) * 2009-12-08 2010-06-09 中华电信股份有限公司 以感知参数为基础的客观语音质量估测方法
CN102405495A (zh) * 2009-03-11 2012-04-04 谷歌公司 使用稀疏特征对信息检索进行音频分类
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN104170009A (zh) * 2012-02-27 2014-11-26 弗兰霍菲尔运输应用研究公司 感知音频编解码器中的谐波信号的相位相干性控制
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199387A1 (en) * 2000-07-31 2004-10-07 Wang Avery Li-Chun Method and system for purchasing pre-recorded music
CN1550001A (zh) * 2002-07-01 2004-11-24 朗迅科技公司 用于语音质量评估的听觉发音分析
CN102405495A (zh) * 2009-03-11 2012-04-04 谷歌公司 使用稀疏特征对信息检索进行音频分类
CN101727896A (zh) * 2009-12-08 2010-06-09 中华电信股份有限公司 以感知参数为基础的客观语音质量估测方法
CN104170009A (zh) * 2012-02-27 2014-11-26 弗兰霍菲尔运输应用研究公司 感知音频编解码器中的谐波信号的相位相干性控制
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
"Music mood tracking based on HCS";Zhongzhe Xiao ,Di Wu;《2012 IEEE 11th International Conference on Signal Processing》;20121225;全文 *
"Speech emotion recognition cross language families: Mandarin vs. western languages";Zhongzhe Xiao;《2016 International Conference on Progress in Informatics and Computing》;20161225;全文 *
"Speech endpoint detection in noisy environment using Spectrogram Boundary Factor";Di Wu;《2016 9th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics》;20161017;全文 *
"一种BARK子波变换的电子耳蜗语音增强算法";黄雅婷;《计算机工程与应用》;20081231;第44卷(第5期);全文 *
"基于Mel子带的鲁棒性说话人识别系统";张庆芳;《苏州大学学报(工科版)》;20070831;第27卷(第4期);全文 *
"基于听觉特性及语谱特性的语音增强";吴迪;《万方数据》;20070725;全文 *
"采用多特征组合优化的语音特征参数研究";张晓俊;《通信技术》;20121231;第45卷(第12期);全文 *
Di Wu;Heming Zhao."Perception auditory factor for speaker recognition in noisy environment".《2016 12th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery 》.2016, *

Also Published As

Publication number Publication date
CN106653004A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
Han et al. Learning spectral mapping for speech dereverberation and denoising
CN106653004B (zh) 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
Strope et al. A model of dynamic auditory perception and its application to robust word recognition
Stern et al. Hearing is believing: Biologically inspired methods for robust automatic speech recognition
EP2984649B1 (en) Extraction of acoustic relative excitation features
Ibrahim et al. Preprocessing technique in automatic speech recognition for human computer interaction: an overview
Sehr et al. Towards a better understanding of the effect of reverberation on speech recognition performance
Liang et al. Real-time speech enhancement algorithm based on attention LSTM
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
GROZDIĆ et al. Comparison of Cepstral Normalization Techniques in Whispered Speech Recognition.
Hsu et al. Voice activity detection based on frequency modulation of harmonics
Marković et al. Application of teager energy operator on linear and mel scales for whispered speech recognition
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
Guzewich et al. Improving Speaker Verification for Reverberant Conditions with Deep Neural Network Dereverberation Processing.
Kim et al. Speech recognition using hidden markov models in embedded platform
Chougule et al. Channel robust MFCCs for continuous speech speaker recognition
Dai et al. An improved model of masking effects for robust speech recognition system
Shu-Guang et al. Isolated word recognition in reverberant environments
Zhu et al. Maximum likelihood sub-band adaptation for robust speech recognition
Abdallah et al. Improved closed set text independent speaker identification system using Gammachirp Filterbank in noisy environments
Bawa et al. Spectral-Warping Based Noise-Robust Enhanced Children ASR System
Barlaskar et al. Study on the varying degree of speaker identity information reflected across the different MFCCs
Font Multi-microphone signal processing for automatic speech recognition in meeting rooms
Huang et al. Speaker independent recognition on OLLO French corpus by using different features
Wang et al. A voice activity detection algorithm with sub-band detection based on time-frequency characteristics of mandarin

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190726

Termination date: 20211226

CF01 Termination of patent right due to non-payment of annual fee