CN104538029A

CN104538029A - 基于语音增强和改进pnsc的鲁棒语音识别方法及系统

Info

Publication number: CN104538029A
Application number: CN201410781769.1A
Authority: CN
Inventors: 张毅; 罗元; 刘想德; 林海波; 徐晓东; 胡豁生
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2015-04-22

Abstract

本发明涉及一种基于语音增强和改进PNSC的鲁棒语音识别方法及系统，通过麦克风获取语音信号，对语音信号进行预处理后，对其进行语音增强和特征提取，在信号空间，运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强；在特征空间，运用改进感知非均匀谱压缩的特征提取算法更加准确提取语音信号的特征值，用动态时间规整算法训练和识别语音信号，将语音识别结果转换成智能轮椅的底层驱动指令，调用相应的控制函数，驱动智能轮椅按照语音信号进行运动。本发明所述的方法和系统提高了系统在噪声环境下的识别率，实现了对智能轮椅的精确控制，达到用户与智能轮椅之间语音交互的目的，此方法对于特定人语音识别系统具有较好的通用性。

Description

基于语音增强和改进PNSC的鲁棒语音识别方法及系统

技术领域

本发明属于鲁棒语音识别控制技术领域，涉及一种基于语音增强和改进PNSC的鲁棒语音识别方法及系统。

背景技术

随着社会的发展和人类文明程度的提高，对老年人、残疾人的服务需求会日益增加，他们需要运用现代高新技术来改善他们的生活质量和生活自由度。世界人口老龄化的进程正在加快，另外由于各种交通事故、天灾人祸和种种疾病，每年均有成千上万的人丧失一种或多种能力(如行走、动手能力等)，这种社会现实促进了无障碍技术在助老、助残方面的应用。因此，无障碍技术成为国内外科技人员研究的热点。

无障碍技术是借助先进的科学技术为老年人和残障人士提供有效的辅助手段，使他们能够重新融入社会。人机交互技术是无障碍技术的重要研究内容之一。人机交互技术根据采用控制模式的不同可以分为两类：第一，通过硬件实施操作完成人机交互，如操作鼠标、键盘、操纵杆等。这种控制方式容易操作，但是并不适用于失去上肢或上肢存在缺陷的人群；第二，采用模式识别技术，利用人体自身的器官，如手、腕部、头部和脑电等完成人机交互。具体说来是通过语音识别、手势识别、头部运动、腕部运动、肌电信号和脑电信号(EEG)等来完成对电子设备的控制。这种人机交互方式具有非接触性，交互过程也比较直观，并且适用范围更广。因此，基于语音识别的无障碍技术具有潜在的研究价值和意义。

语音识别研究是多门学科交叉的研究，语言交流是人与人之间最有效、最直接，也是最方便和快捷的交流方式，同时是人机交互的重要交流方式。语音识别作为人机交互的常用方法，具有巨大的优势。目前绝大多数的语音识别系统都只能在低噪声的环境下使用。虽然在安静环境下语音控制智能轮椅能达到比较好的效果，但是在噪声环境下不能达到预期的要求，因此鲁棒语音识别的研究是当前语音识别研究的前沿，具有重要的理论和实际应用价值，对于推动语音识别系统走向市场化应用具有重要的意义。

智能轮椅作为一种代步工具，主要是为老年人和残障人士提供服务。它融合了多种技术，如自主导航、避障和人机交互等技术。传统意义上的智能轮椅是通过手动操纵杆来完成对运动的控制，但是并不适用于上肢不便的用户，因此应用的人群范围受到了限制。随着科技的迅猛发展，基于模式识别的新型控制技术已经在智能轮椅上得到了广泛应用，如手势、头部运动、肌电信号和基于脑电信号的BCI技术等。基于鲁棒语音识别技术的智能轮椅控制能给许许多多的残障人带来了方便，使他们能够参加正常的社交活动。智能轮椅作为人机交互的一个应用平台，融合了机器人研究领域的多种技术，具有十分广泛的应用前景。

发明内容

本发明针对现有语音识别在噪声环境下识别效果不理想，在信号空间，针对传统的谱减法语音增强存在“音乐噪声”的缺点，提出将听觉掩蔽效应和先验信噪比相结合的语音增强算法；在特征空间，针对感知非均匀谱压缩(Perceptually Non-uniform Spectral,PNSC)的特征提取算法无法更加准确地提取带噪声语音信号的特征值问题，提出改进感知非均匀谱压缩的特征提取算法。

为达到上述目的，本发明提供如下技术方案：

一种基于语音增强和改进PNSC的鲁棒语音识别方法，通过麦克风获取语音信号，对语音信号进行预处理后，对其进行语音增强和特征提取，在信号空间，运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强；在特征空间，运用改进感知非均匀谱压缩的特征提取算法更加准确提取语音信号的特征值，用动态时间规整算法训练和识别语音信号，将语音识别结果转换成智能轮椅的底层驱动指令，调用相应的控制函数，驱动智能轮椅按照语音信号进行运动。

进一步，所述基于改进的PNSC特征提取算法是将每一帧语音信号的功率谱或者子带能量进行压缩，对其压缩因子进行改进，然后通过相应的算法提取语音信号的特征值。

本发明还提供了一种基于语音增强和改进PNSC的鲁棒语音识别系统，该系统包括麦克风、电脑、无线通信模块、智能轮椅本体；麦克风作为整个语音控制系统的输入；电脑作为整个语音控制系统的上位机，用于处理语音信号；无线通信模块用于上位机和下位机之间的通信；智能轮椅是语音控制系统的下位机，用于完成相应的控制动作；通过麦克风获取语音信号，对语音信号进行预处理后，对其进行语音增强和特征提取，在信号空间，运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强；在特征空间，运用改进感知非均匀谱压缩的特征提取算法更加准确提取语音信号的特征值，用动态时间规整算法训练和识别语音信号，将语音识别结果转换成智能轮椅的底层驱动指令，调用相应的控制函数，驱动智能轮椅按照语音信号进行运动。

本发明的有益效果在于：本发明在信号空间与特征空间提出相应的鲁棒语音识别算法，提高了系统在噪声环境下的识别率，用于智能轮椅语音控制系统中的语音识别，实现了对智能轮椅的精确控制，达到用户与智能轮椅之间语音交互的目的，此方法对于特定人语音识别系统具有较好的通用性。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为智能轮椅语音识别原理框图；

图2为基于听觉掩蔽效应和先验信噪比的语音增强原理图；

图3为基于改进PNSC特征提取原理图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明提供了一种智能轮椅语音识别控制系统，该系统包括：麦克风、笔记本电脑一台、无线通信模块、智能轮椅本体。麦克风类作为整个语音控制系统的输入；笔记本电脑作为整个语音控制系统的上位机，用于处理语音信号；无线通信模块用于上位机和下位机之间的通信；智能轮椅是语音控制系统的下位机，用于完成相应的控制动作。

智能轮椅识别系统的实现过程如图1所示，首先输入的语音信号要进行预处理，包括语音的预加重滤波、加窗分帧处理与双门限端点检测等。其次，语音信号经过预处理后，接下来很重要的一环就是特征参数的提取，然后，在训练阶段，将特征参数进行一定的处理后，为每个命令词得到一个模板，保存为模板库。在识别阶段，语音信号经过相同的方法得到语音参数，生成测试模板，与模板库中的参考模板进行匹配，将匹配相似度最高的参考模板作为识别结果。图2为基于听觉掩蔽效应和先验信噪比的语音增强原理图，图3为基于改进PNSC特征提取原理图。

具体来说：

为了提高语音识别在噪声环境下的识别性能，主要可以通过以下两方面进行研究，分别为：通过降噪算法减少噪声对语音信号前端预处理的影响，使训练时的语音特征与识别时的语音特征尽可能匹配；在提取语音信号特征值时，通过相应的特征提取算法减少训练时语音模型的特征值与识别时语音模型的特征值之间的不匹配，能直接识别带噪声的语音信号。目前鲁棒语音识别技术主要研究方向分为三类，分别为：基于信号空间的鲁棒语音识别技术、基于特征空间的鲁棒语音识别技术和基于模型空间的鲁棒语音识别技术。

①基于听觉掩蔽效应和先验信噪比的语音增强

设s(t)为纯净语音信号，n(t)为噪声信号，y(t)为带噪声的语音信号。那么，带噪声的语音信号可表示为：

y(t)＝s(t)+n(t) (1)

经过快速傅里叶变换，结果如下式：

Y_k＝S_k+N_k (2)

其功率谱密度为：

{| Y_{k} |}^{2} = {| S_{k} |}^{2} + {| N_{k} |}^{2} + S_{k} N_{k}^{*} + S_{k}^{*} N_{k} - - - (3)

由于语音信号与噪声是相互独立的，并且N_k为零均值的高斯分布，所以其可简化为：

E[|Y_k|²]＝E[|S_k|²]+E[|N_k|²] (4)

每一帧的语音具有短时平稳性，其可表示为：

|Y_k|²＝|S_k|²+λ_n(k) (5)

λ_n(k)为无语音信号时|N_k|²的统计平均值，由此可得到原始语音信号的估计：

| {\hat{S}}_{k} | = {[{| Y_{k} |}^{2} - {| N_{k} |}^{2}]}^{\frac{1}{2}} = {[{| Y_{k} |}^{2} - λ_{n} (k)]}^{\frac{1}{2}} - - - (6)

将其写成增益形式为：

| {\hat{S}}_{k} | = G_{k} | Y_{k} | - - - (7)

G_k＝(1-1/γ_k)^1/2 (8)

其中γ_k为后验信噪比，其如下式所示：

γ_k＝|Y_k|²/λ_n(k) (9)

先验信噪比估计是根据谱减法可以用线性时变滤波器形式表示，即|Y_k|乘以增益函数G_k，将式(6)转换成式(10)所示：

| {\hat{S}}_{k} | = G_{k} | Y_{k} |, 0 \leq G_{k} \leq 1 - - - (10)

增益函数可以通过先验信噪比表示，如式(11)所示：

G (k, i) = \sqrt{\frac{{SNR}_{prio} (k, i)}{{SNR}_{post} (k, i)}} - - - (11)

式中的先验信噪比可以通过“Decision-Directed”法进行估计得到。如式(12)所示。

式中，SNR_post(k,i)为：

SNR_post(k,i)＝1+SNR_prio(k,i) (13)

式中i为当前帧，i-1为前一帧，为前一帧的估计结果，η为调节系数，一般在0.8～1之间。

听觉掩蔽阈值的计算需要分别计算临界带宽的功率谱、扩展临界带宽的功率谱和噪声掩蔽扩展门限。最后将计算得到的噪声掩蔽扩展门限与人耳听觉的绝对门限比较，取其中两者最大的一个作为听觉掩蔽阈值。

根据式(14)可以计算语音信号的临界带宽个数。

Z＝26.18f/(1960+f)-0.53 (14)

式中，Z为临界带宽个数，f为频率。

把每个临界带宽内语音信号的功率谱求和即可得到每个临界带宽的功率谱。设P(k)为信号快速傅里叶变换的功率谱，则每个临界带宽的功率谱为：

B_{i} = Σ_{{k = l}_{i}}^{h_{i}} P (k) - - - (15)

式中，l_i为临界带宽i的最小频率，h_i为临界带宽i的最大频率，i从1到i_max，语音信号的采样频率决定i_max。

由于各个临界带之间存在掩蔽效应，并且这种掩蔽效应随着临界带距离的增大而减弱。用一种扩展形式来表示临界带之间的相互掩蔽作用，所以将临界带宽功率谱转换为扩展临界带宽功率谱。

用扩展函数SF_ij来估计不同临界带宽之间的掩蔽效应，如式(16)所示。

{SF}_{ij} = 15.81 + 7.5 (i - j + 0.747) - 17.5 {(1 + {(i - j + 0.747)}^{2})}^{\frac{1}{2}} - - - (16)

通过每个临界带宽的功率谱与扩展函数的卷积计算得到扩展临界带宽的功率谱，如式(17)所示。

C_i＝SF_ij*B_j (17)

其中，C_i为第i个扩展临界带宽的功率谱

研究表明存在两种噪声掩蔽阈值是纯音掩蔽噪声和噪声掩蔽纯音。为了确定带噪声语音信号是类似纯音还是类似噪声，其通过谱平坦测度(Spectral Flatness Measure,SFM)来确定。

SFM (i) = {10 \log}_{10} \frac{{Gm}_{i}}{{Am}_{i}} - - - (18)

其中，Gm_i是第i个扩展临界宽带功率的几何平均，Am_i是第i个扩展临界宽带功率的算术平均。

{Gm}_{i} = {(Π_{{k = l}_{i}}^{h_{i}} P (k))}^{\frac{1}{h_{i} - l_{i} + 1}} - - - (19)

{Am}_{i} = \frac{1}{h_{i} - l_{i} + 1} [Σ_{{k = l}_{i}}^{h_{i}} P (k)] - - - (20)

根据SFM来产生参数α，该参数表明功率谱为浊音的程度，即：

α = \min (\frac{SFM (i)}{{SFM}_{\max}}, 1) - - - (21)

其中SFM_max＝-60dB。当SFM(i)＝0dB时，α＝0表示完全是噪声；当SFM(i)＝-60dB时，α＝1表示完全是纯音。实际的语音信号既不完全是噪声，也不完全是纯音，所以α介于0到1之间。

根据语音频谱的清音与浊音特性产生的门限偏移量表示式(22)所示：

O_i＝α_i×(14.5+i)+(1-α_i)×5.5 (22)

由此可得到扩展噪声掩蔽阈值为：

{TSF}_{i} = 10^{\log_{10} (C_{i}) - (O_{i} / 10)} - - - (23)

噪声的掩蔽阈值通过阈值归一化，并通过绝对听阈值进行比较得到，如式(24)所示。

T_{i} = \max {T_{abs} (i), \frac{{TSF}_{i}}{Σ_{j = 1}^{i_{\max}} {SF}_{ij}}} - - - (24)

其中绝对听阈值T_abs(i)由非线性函数求得：

T_{abs} (i) = 3.64 \times {(f / 1000)}^{0.8} - 6.5 e^{- 0.6 {(f / 1000 - 3.3)}^{2}} + 10^{- 3} \times {(f / 1000)}^{4} - - - (25)

得到听觉掩蔽阈值后，通过下式计算得到自适应的谱减法系数。

\frac{T_{\max} - T_{i}}{α (k) - α_{\min}} = \frac{T_{i} - T_{\min}}{α_{\max} - α (k)} - - - (26)

\frac{T_{\max} - T_{i}}{β (k) - β_{\min}} = \frac{T_{i} - T_{\min}}{β_{\max} - β (k)} - - - (27)

其中T_i为Bark频率段的听觉掩蔽阈值，T_max和T_min是每一帧的听觉掩蔽阈值的最大值和最小值。

式(10)中的增益函数可以通过Berouti等人提出的算法得到，如下式所示。

其中γ＝2。

②基于改进PNSC特征提取算法

经过计算得到语音信号的功率谱或者子带能量后，压缩后所得到为：

{\tilde{P}}_{k} = {(P_{k} + 1)}^{α (k)} - 1 - - - (29)

其中上式中的加一是为了保证关于α(k)的增函数，减一是对加一的补偿。

感知非均匀谱压缩技术的核心是压缩因子，压缩因子α(k)为：

α (k) = \{\begin{matrix} {Ae}^{- λk} + A_{0} & 0 \leq k \leq N / 2 \\ {Ae}^{- λ (N - k)} + A_{0} & N / 2 + 1 \leq k \leq N - 1 \end{matrix} - - - (30)

式中A₀,A和λ是由目标语音每帧的能量得到，其中0＜A＜1-A₀，λ是依赖帧能量如式(31)所示：

λ = (λ_{u} - λ_{l}) (1 - \frac{1}{1 + e^{- (&PartialD; - μ) / σ}}) + λ_{l} - - - (31)

式中μ和σ是一句话中所有帧的能量的均值和方差，λ_u和λ_l是指数衰减曲线的上限和下限。λ的使用保证了压缩曲线朝高频点或段递减。

一般情况是A₀作为常数来处理，现对其进行相应的改进。指数衰减曲线的定义，如式(32)和式(33)所示：

A = \frac{1 - A_{0}}{1 + e^{- (&PartialD; - μ) / σ}} - - - (32)

A_{0} = (0.3 - A_{\min}) (\frac{1}{1 + e^{- (&PartialD; - μ) / σ}}) + A_{\min} - - - (33)

式(33)中A_min是A₀的最小值。

同时，由公式(30)可知α(k)是在A₀和1之间，它随着频率的增大而减小，最终收敛于A₀。当频率为高频带或频点时，就得到较小的压缩因子α(k)，即对语音信号的功率谱进行较大的压缩。同时，具有不同特性的语音信号(如：宽带语音到窄带语音的语音信号)也可以用α(k)与λ进行处理。

在人类听觉的声调—响度转化过程中，心理生理学实验研究结果表明人耳听觉指数律的指数α(k)对1kHz的音调在0.3左右变化，它随着宽带的增加其数值将减少，反之亦然，所以式(33)选择0.3。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于语音增强和改进PNSC的鲁棒语音识别方法，其特征在于：通过麦克风获取语音信号，对语音信号进行预处理后，对其进行语音增强和特征提取，在信号空间，运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强；在特征空间，运用改进感知非均匀谱压缩的特征提取算法更加准确提取语音信号的特征值，用动态时间规整算法训练和识别语音信号，将语音识别结果转换成智能轮椅的底层驱动指令，调用相应的控制函数，驱动智能轮椅按照语音信号进行运动。

2.根据权利要求1所述的一种基于语音增强和改进PNSC的鲁棒语音识别方法，其特征在于：所述基于改进的PNSC特征提取算法是将每一帧语音信号的功率谱或者子带能量进行压缩，对其压缩因子进行改进，然后通过相应的算法提取语音信号的特征值。

3.一种基于语音增强和改进PNSC的鲁棒语音识别系统，其特征在于：该系统包括麦克风、电脑、无线通信模块、智能轮椅本体；麦克风作为整个语音控制系统的输入；电脑作为整个语音控制系统的上位机，用于处理语音信号；无线通信模块用于上位机和下位机之间的通信；智能轮椅是语音控制系统的下位机，用于完成相应的控制动作；通过麦克风获取语音信号，对语音信号进行预处理后，对其进行语音增强和特征提取，在信号空间，运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强；在特征空间，运用改进感知非均匀谱压缩的特征提取算法更加准确提取语音信号的特征值，用动态时间规整算法训练和识别语音信号，将语音识别结果转换成智能轮椅的底层驱动指令，调用相应的控制函数，驱动智能轮椅按照语音信号进行运动。