CN103824564A - 一种电动轮椅语音识别过程中的语音增强方法 - Google Patents

一种电动轮椅语音识别过程中的语音增强方法 Download PDF

Info

Publication number
CN103824564A
CN103824564A CN201410099003.5A CN201410099003A CN103824564A CN 103824564 A CN103824564 A CN 103824564A CN 201410099003 A CN201410099003 A CN 201410099003A CN 103824564 A CN103824564 A CN 103824564A
Authority
CN
China
Prior art keywords
noise
spectrum
electric wheelchair
formula
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410099003.5A
Other languages
English (en)
Inventor
金会庆
宋扬
金来
章志达
魏晶
张毅
刘想德
徐晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHENQING INDUSTRY Co Ltd
Original Assignee
SHANGHAI SHENQING INDUSTRY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI SHENQING INDUSTRY Co Ltd filed Critical SHANGHAI SHENQING INDUSTRY Co Ltd
Priority to CN201410099003.5A priority Critical patent/CN103824564A/zh
Publication of CN103824564A publication Critical patent/CN103824564A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明涉及电动轮椅语音识别过程中的语音增强方法,该增强方法在信号空间,运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强,克服了在智能轮椅鲁棒语音识别在噪声环境中识别率偏低的问题。本发明的方法对于特定人语音识别系统具有较好的通用性,其用于电动轮椅语音控制系统中的语音识别,能够提高系统在噪声环境下的识别率,实现了对电动轮椅的精确控制,达到用户与电动轮椅之间语音交互的目的。

Description

一种电动轮椅语音识别过程中的语音增强方法
技术领域
本发明涉及语音控制领域,具体涉及到语音识别技术在电动轮椅中的应用。
背景技术
随着社会的发展和人类文明程度的提高,对老年人、残疾人的服务需求会日益增加,他们需要运用现代高新技术来改善他们的生活质量和生活自由度。世界人口老龄化的进程正在加快,另外由于各种交通事故、天灾人祸和种种疾病,每年均有成千上万的人丧失一种或多种能力(如行走、动手能力等),这种社会现实促进了无障碍技术在助老、助残方面的应用。因此,无障碍技术成为国内外科技人员研究的热点。
无障碍技术是借助先进的科学技术为老年人和残障人士提供有效的辅助手段,使他们能够重新融入社会。人机交互技术是无障碍技术的重要研究内容之一。人机交互技术根据采用控制模式的不同可以分为两类:第一,通过硬件实施操作完成人机交互,如操作鼠标、键盘、操纵杆等。这种控制方式容易操作,但是并不适用于失去上肢或上肢存在缺陷的人群;第二,采用模式识别技术,利用人体自身的器官,如手、腕部、头部和脑电等完成人机交互。具体说来是通过语音识别、手势识别、头部运动、腕部运动、肌电信号和脑电信号(EEG)等来完成对电子设备的控制。这种人机交互方式具有非接触性,交互过程也比较直观,并且适用范围更广。因此,基于语音识别的无障碍技术具有潜在的研究价值和意义。
语音识别研究是多门学科交叉的研究,语言交流是人与人之间最有效、最直接,也是最方便和快捷的交流方式,同时是人机交互的重要交流方式。语音识别作为人机交互的常用方法,具有巨大的优势。目前绝大多数的语音识别系统都只能在低噪声的环境下使用。虽然在安静环境下语音控制电动轮椅能达到比较好的效果,但是在噪声环境下不能达到预期的要求,因此鲁棒语音识别的研究是当前语音识别研究的前沿,具有重要的理论和实际应用价值,对于推动语音识别系统走向市场化应用具有重要的意义。
电动轮椅作为一种代步工具,主要是为老年人和残障人士提供服务。它融合了多种技术,如自主导航、避障和人机交互等技术。传统意义上的电动轮椅是通过手动操纵杆来完成对运动的控制,但是并不适用于上肢不便的用户,因此应用的人群范围受到了限制。随着科技的迅猛发展,基于模式识别的新型控制技术已经在电动轮椅上得到了广泛应用,如手势、头部运动、肌电信号和基于脑电信号的BCI技术等。基于鲁棒语音识别技术的电动轮椅控制能给许许多多的残障人带来了方便,使他们能够参加正常的社交活动。电动轮椅作为人机交互的一个应用平台,融合了机器人研究领域的多种技术,具有十分广泛的应用前景。
发明内容
本发明所要解决的技术问题针对现有语音识别在噪声环境下识别效果不理想的困境,提供一种基于语音增强的电动轮椅控制系统。本发明要用于电动轮椅语音控制系统中的语音识别,能够提高系统在噪声环境下的识别率,实现了对电动轮椅的精确控制,达到用户与电动轮椅之间语音交互的目的。
为了达到上述发明目的,本发明专利提供的技术方案如下:
一种电动轮椅语音识别过程中的语音增强方法,所述电动轮椅语音识别过程包括有输入语音信号预处理、特征参数提取、训练阶段中处理特征参数为每个命令词得到一个模块保存为模板库、识别阶段中先得到语音参数生成测试模板,该测试模板与模板库中的参考模板匹配,将匹配相似度最好的参考模块作为识别结果,其特征在于,所述的语音增强方法包括如下步骤:
第一步,对带噪声的输入语音信号进行预处理、分帧以及快速傅里叶变换算法,得到带噪声语音信号的频谱;
第二步,计算每一帧带噪声语音信号的先验信噪比,通过谱减法得到较为纯净的语音信号;
第三步,通过听觉掩蔽效应计算噪声掩蔽门限,得到噪声掩蔽门限后计算自适应的谱减系数;
第四步,进行第二次谱减,得到纯净语音信号的频谱;
第五步,通过逆快速傅里叶变换,得到增强后的语音信号。
在计算先验信噪比时,根据谱减法可以用线性时变滤波器形式表示,即                                               
Figure 2014100990035100002DEST_PATH_IMAGE002
乘以增益函数
Figure 2014100990035100002DEST_PATH_IMAGE004
,如式(1)所示:
                           (1)
增益函数可以通过先验信噪比表示,如式(2)所示:
Figure 2014100990035100002DEST_PATH_IMAGE008
                             (2)
式中的先验信噪比可以通过“直接判决”法进行估计得到,如式(3)所示:
Figure 2014100990035100002DEST_PATH_IMAGE010
    (3)
式中,
Figure 2014100990035100002DEST_PATH_IMAGE012
为:
Figure 2014100990035100002DEST_PATH_IMAGE014
                         (4)
式中
Figure 2014100990035100002DEST_PATH_IMAGE016
为当前帧,
Figure 2014100990035100002DEST_PATH_IMAGE018
为前一帧,为前一帧的估计结果,
Figure 2014100990035100002DEST_PATH_IMAGE022
为调节系数,0.8< < 1。
上述第三步计算基于人耳掩蔽效应的听觉掩蔽阈值时,需要先划定临界带宽,该临界带宽是当纯音信号的功率等于该噪声信号的功率时,纯音信号刚好被人耳听到的临界状态的频率宽度,该临界宽度为实验测得的常数。
上述听觉掩蔽阈值的计算过程如下:先分别计算临界带宽的功率谱、扩展临界带宽的功率谱和噪声掩蔽扩展门限,再将计算得到的噪声掩蔽扩展门限与人耳听觉的绝对门限比较,取两者最大的一个作为听觉掩蔽阈值。
在本发明电动轮椅语音识别过程中的语音增强方法中,临界带宽个数的计算,
Figure 2014100990035100002DEST_PATH_IMAGE024
                         (5)
式中,
Figure 2014100990035100002DEST_PATH_IMAGE026
为临界带宽个数,
Figure DEST_PATH_IMAGE028
为频率。
在本发明电动轮椅语音识别过程中的语音增强方法中,把每个临界带宽内语音信号的功率谱求和即可得到每个临界带宽的功率谱,设
Figure DEST_PATH_IMAGE030
为信号快速傅里叶变换的功率谱,则每个临界带宽的功率谱为:
Figure DEST_PATH_IMAGE032
                                      (6)
式中,为临界带宽的最小频率,
Figure DEST_PATH_IMAGE036
为临界带宽
Figure DEST_PATH_IMAGE016AA
的最大频率,
Figure DEST_PATH_IMAGE016AAA
从1到
Figure DEST_PATH_IMAGE038
,语音信号的采样频率决定
Figure DEST_PATH_IMAGE038A
由于各个临界带之间存在掩蔽效应,并且这种掩蔽效应随着临界带距离的增大而减弱。用一种扩展形式来表示临界带之间的相互掩蔽作用,所以将临界带宽功率谱转换为扩展临界带宽功率谱。将临界带宽功率谱转换为扩展临界带宽功率谱,用扩展函数
Figure DEST_PATH_IMAGE040
来估计不同临界带宽之间的掩蔽效应,如式(7)所示:
Figure DEST_PATH_IMAGE042
         (7)
通过每个临界带宽的功率谱与扩展函数的卷积计算得到扩展临界带宽的功率谱,如式(8)所示:
Figure DEST_PATH_IMAGE044
                                        (8)
其中,
Figure DEST_PATH_IMAGE046
为第
Figure DEST_PATH_IMAGE016AAAA
个扩展临界带宽的功率谱。
研究表明存在两种噪声掩蔽阈值是纯音掩蔽噪声和噪声掩蔽纯音,在本发明电动轮椅语音识别过程中的语音增强方法中,确定带噪声语音信号是类似纯音还是类似噪声,其通过谱平坦测度(Spectral Flatness Measure, SFM)来确定:
Figure DEST_PATH_IMAGE048
                                   (9)
其中,
Figure DEST_PATH_IMAGE050
是第
Figure DEST_PATH_IMAGE016AAAAA
个扩展临界宽带功率的几何平均,是第
Figure DEST_PATH_IMAGE016AAAAAA
个扩展临界宽带功率的算术平均,
                                   (10)
Figure DEST_PATH_IMAGE056
                                 (11)
根据SFM来产生参数
Figure DEST_PATH_IMAGE058
,该参数表明功率谱为浊音的程度,即:
Figure DEST_PATH_IMAGE060
                                    (12)
其中
Figure DEST_PATH_IMAGE062
,当
Figure DEST_PATH_IMAGE064
时,
Figure DEST_PATH_IMAGE066
表示完全是噪声;当
Figure DEST_PATH_IMAGE068
时,
Figure DEST_PATH_IMAGE070
表示完全是纯音,实际的语音信号既不完全是噪声,也不完全是纯音,所以
Figure DEST_PATH_IMAGE058A
介于0到1之间。
在本发明电动轮椅语音识别过程中的语音增强方法中,根据语音频谱的清音与浊音特性产生的门限偏移量表示式(13)所示:
Figure DEST_PATH_IMAGE072
                            (13)
由此可得到扩展噪声掩蔽阈值为:
Figure DEST_PATH_IMAGE074
                                    (14)
噪声的掩蔽阈值通过阈值归一化,并通过绝对听阈值进行比较得到,如式(15)所示:
Figure DEST_PATH_IMAGE076
                               (15)
其中绝对听阈值
Figure DEST_PATH_IMAGE078
由非线性函数求得:
Figure DEST_PATH_IMAGE080
     (16)
在本发明电动轮椅语音识别过程中的语音增强方法中,所述第三步中自适应的谱减法系数计算,得到听觉掩蔽阈值后,通过下式计算得到自适应的谱减法系数:
Figure DEST_PATH_IMAGE082
                               (17)
Figure DEST_PATH_IMAGE084
                               (18)
其中
Figure DEST_PATH_IMAGE086
为Bark频率段的听觉掩蔽阈值,
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE090
是每一帧的听觉掩蔽阈值的最大值和最小值;
通过下式计算得到自适应的谱减系数:
               (19)
Figure DEST_PATH_IMAGE094
              (20)
其中
Figure DEST_PATH_IMAGE096
Figure DEST_PATH_IMAGE098
Figure DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE102
,其为通过大量实验得到的经验常数值;
式(1)中的增益函数如下算法得到:
Figure DEST_PATH_IMAGE104
         (21)
其中
Figure DEST_PATH_IMAGE106
基于上述技术方案,本发明专利在应用中取得了如下技术效果:
本发明电动轮椅语音识别过程中的语音增强方法在信号空间与特征空间提出相应的鲁棒语音识别算法,提高了系统在噪声环境下的识别率,用于电动轮椅语音控制系统中的语音识别,实现了对电动轮椅的精确控制,达到用户与电动轮椅之间语音交互的目的。
附图说明
图1本发明电动轮椅语音识别过程中的语音增强方法中的语音识别原理框图。
图2 本发明电动轮椅语音识别过程中的语音增强方法中基于听觉掩蔽效应和先验信噪比的语音增强的原理图。
具体实施方式
下面我们结合附图和具体的实施例来对本发明的基于语音增强的电动轮椅控制系统和控制方法做进一步的详细阐述,以求更为清楚明了地理解本发明的组成结构和工作原理,但不能以此来限制本发明的保护范围。
本发明的目的是设计出一个电动轮椅语音识别控制系统,该系统包括:麦克风、基于微处理器操作平台、RS-232串口通信模块、电动轮椅本体。麦克风类作为整个语音控制系统的输入;微处理器作为整个语音控制系统的上位机,用于处理语音信号;无线通信模块用于上位机和下位机之间的通信;电动轮椅是语音控制系统的下位机,用于完成相应的控制动作。
电动轮椅语音识别的工作原理如图1所示,首先输入的语音信号要进行预处理,包括语音的预加重滤波、加窗分帧处理与双门限端点检测;其次,语音信号经过预处理后,接下来很重要的一环就是特征参数的提取;然后,在训练阶段,将特征参数进行一定的处理后,为每个命令词得到一个模板,保存为模板库;在识别阶段,语音信号经过相同的方法得到语音参数,生成测试模板,与模板库中的参考模板进行匹配,将匹配相似度最高的参考模板作为识别结果。
如图2所示,在对语音进行识别时,首先对带噪声的语音信号进行预处理、分帧以及快速傅里叶变换(FFT)算法;然后,计算每一帧带噪声语音信号的先验信噪比通过谱减法得到较为纯净的语音信号;再次,通过听觉掩蔽效应计算噪声掩蔽门限,得到噪声掩蔽门限后计算自适应的谱减系数,然后进行第二次谱减得到纯净语音信号的频谱;最后通过逆快速傅里叶变换(IFFT)得到增强后的语音信号。
在本发明的语音增强方法中,具体来说,上述语音增强过程的算法包括如下内容:
设定
Figure DEST_PATH_IMAGE108
为纯净语音信号,
Figure DEST_PATH_IMAGE110
为噪声信号,
Figure DEST_PATH_IMAGE112
为带噪声的语音信号。那么,带噪声的语音信号可表示为: 
Figure DEST_PATH_IMAGE114
 ,经过快速傅里叶变换,结果为 :
Figure DEST_PATH_IMAGE116
,其功率谱密度为:  
Figure DEST_PATH_IMAGE118
 ,
由于语音信号与噪声是相互独立的,并且为零均值的高斯分布,所以其可简化为:
Figure DEST_PATH_IMAGE122
每一帧的语音具有短时平稳性,其可表示为:  ,                       
Figure DEST_PATH_IMAGE126
为无语音信号时
Figure DEST_PATH_IMAGE128
的统计平均值,由此可得到原始语音信号的估计: 
Figure DEST_PATH_IMAGE130
 ,将其写成增益形式为:
Figure DEST_PATH_IMAGE132
 , 
Figure DEST_PATH_IMAGE134
 ,其中
Figure DEST_PATH_IMAGE136
为后验信噪比,其如下式所示:   
Figure DEST_PATH_IMAGE138
 。
1. 计算先验信噪比,根据谱减法可以用线性时变滤波器形式表示,即
Figure 2014100990035100002DEST_PATH_IMAGE002A
乘以增益函数
Figure DEST_PATH_IMAGE004A
,如式(1)所示:
Figure DEST_PATH_IMAGE006A
                             (1)
增益函数可以通过先验信噪比表示,如式(2)所示:
Figure DEST_PATH_IMAGE008A
                              (2)
式中的先验信噪比可以通过“Decision-Directed”法进行估计得到。如式(3)所示。
    (3)
式中,
Figure DEST_PATH_IMAGE012A
为:
Figure DEST_PATH_IMAGE014A
                         (4)
式中为当前帧,
Figure DEST_PATH_IMAGE018A
为前一帧,
Figure DEST_PATH_IMAGE020A
为前一帧的估计结果,为调节系数,一般在0.8~1之间。
2. 人耳听觉掩蔽效应及掩蔽阈值计算,人耳听觉掩蔽效应是在一个很强的声音信号附近,弱的声音信号将不会被人耳听到,或者是声音
Figure DEST_PATH_IMAGE140
的出现会使声音
Figure DEST_PATH_IMAGE142
能被人耳听到的听觉阈值增大的现象。因此,
Figure DEST_PATH_IMAGE142A
是被掩蔽声,
Figure DEST_PATH_IMAGE140A
是掩蔽声。因为在耳蜗基底膜上,频率高的信号的传递距离小于频率低的信号传递的距离,所以,低频信号容易掩蔽高频信号。
纯音信号被人耳感知受到噪声信号的影响,即噪声信号掩蔽纯音信号。达到更好地显现人耳听觉掩蔽效应,需要划定临界带宽。具有一定频带宽度以纯音信号的中心频率的连续噪声信号能掩蔽该纯音信号。临界带宽是当纯音信号的功率等于该噪声信号的功率时,纯音信号刚好被人耳听到的临界状态的频率宽度,其可以通过实验测得。在临界带宽的定义中,需要定义一个特殊的心理声学单位—Bark。1Bark对应一个临界带宽的宽度。表1给出了通过实验得出的24个临界带宽的中心频率、编号和频率范围。
听觉掩蔽阈值的计算需要分别计算临界带宽的功率谱、扩展临界带宽的功率谱和噪声掩蔽扩展门限。最后将计算得到的噪声掩蔽扩展门限与人耳听觉的绝对门限比较,取其中两者最大的一个作为听觉掩蔽阈值。
根据式(5)可以计算语音信号的临界带宽个数。
                        (5)
式中,
Figure 2014100990035100002DEST_PATH_IMAGE026A
为临界带宽个数,为频率。
把每个临界带宽内语音信号的功率谱求和即可得到每个临界带宽的功率谱。设
Figure DEST_PATH_IMAGE030A
为信号快速傅里叶变换的功率谱,则每个临界带宽的功率谱为:
Figure DEST_PATH_IMAGE032A
                           (6)
表1 临界带宽划分表
Figure DEST_PATH_IMAGE144
上述公式(6)中,
Figure DEST_PATH_IMAGE034A
为临界带宽
Figure DEST_PATH_IMAGE016AAAAAAAA
的最小频率,
Figure DEST_PATH_IMAGE036A
为临界带宽
Figure DEST_PATH_IMAGE016AAAAAAAAA
的最大频率,从1到
Figure DEST_PATH_IMAGE038AA
,语音信号的采样频率决定
Figure DEST_PATH_IMAGE038AAA
由于各个临界带之间存在掩蔽效应,并且这种掩蔽效应随着临界带距离的增大而减弱。用一种扩展形式来表示临界带之间的相互掩蔽作用,所以将临界带宽功率谱转换为扩展临界带宽功率谱。
用扩展函数
Figure DEST_PATH_IMAGE040A
来估计不同临界带宽之间的掩蔽效应,如式(7)所示。
Figure DEST_PATH_IMAGE042A
      (7)
通过每个临界带宽的功率谱与扩展函数的卷积计算得到扩展临界带宽的功率谱,如式(8)所示。
Figure DEST_PATH_IMAGE044A
                                     (8)
其中,
Figure DEST_PATH_IMAGE046A
为第
Figure DEST_PATH_IMAGE016AAAAAAAAAAA
个扩展临界带宽的功率谱。
研究表明存在两种噪声掩蔽阈值是纯音掩蔽噪声和噪声掩蔽纯音。为了确定带噪声语音信号是类似纯音还是类似噪声,其通过谱平坦测度(Spectral Flatness Measure, SFM)来确定。
Figure DEST_PATH_IMAGE048A
                      (9)
其中,是第
Figure DEST_PATH_IMAGE016AAAAAAAAAAAA
个扩展临界宽带功率的几何平均,
Figure DEST_PATH_IMAGE052A
是第
Figure DEST_PATH_IMAGE016AAAAAAAAAAAAA
个扩展临界宽带功率的算术平均。
                       (10)
Figure DEST_PATH_IMAGE056A
                     (11)
根据SFM来产生参数
Figure DEST_PATH_IMAGE058AA
,该参数表明功率谱为浊音的程度,即:
Figure DEST_PATH_IMAGE060A
                        (12)
其中
Figure DEST_PATH_IMAGE062A
。当时,
Figure DEST_PATH_IMAGE066A
表示完全是噪声;当
Figure DEST_PATH_IMAGE068A
时,
Figure DEST_PATH_IMAGE070A
表示完全是纯音。实际的语音信号既不完全是噪声,也不完全是纯音,所以
Figure DEST_PATH_IMAGE058AAA
介于0到1之间。
根据语音频谱的清音与浊音特性产生的门限偏移量表示式(13)所示:
Figure DEST_PATH_IMAGE072A
                 (13)
由此可得到扩展噪声掩蔽阈值为:
Figure DEST_PATH_IMAGE074A
                        (14)
噪声的掩蔽阈值通过阈值归一化,并通过绝对听阈值进行比较得到,如式(15)所示。
Figure DEST_PATH_IMAGE076A
                    (15)
其中绝对听阈值
Figure DEST_PATH_IMAGE078A
由非线性函数求得:
Figure DEST_PATH_IMAGE080A
   (16),
噪声掩蔽扩展门限与人耳听觉的绝对门限比较,取其中两者最大的一个作为听觉掩蔽阈值。
3. 自适应的谱减法系数计算,得到听觉掩蔽阈值后,通过下式计算得到自适应的谱减法系数。
                     (17)
Figure DEST_PATH_IMAGE084A
                     (18)
其中
Figure DEST_PATH_IMAGE086A
为Bark频率段的听觉掩蔽阈值,
Figure DEST_PATH_IMAGE088A
Figure DEST_PATH_IMAGE090A
是每一帧的听觉掩蔽阈值的最大值和最小值。
通过计算得到自适应的谱减系数,如下式:
Figure DEST_PATH_IMAGE092A
               (19)
Figure DEST_PATH_IMAGE094A
               (20)
其中
Figure DEST_PATH_IMAGE096A
Figure DEST_PATH_IMAGE098A
Figure DEST_PATH_IMAGE100A
,通过大量实验得到的经验值。利用上述得到的谱减系数求得增益函数,代入式(1)中,将上一次谱减之后得到的功率谱与增益相乘,得到纯净的语音信号。
最后,通过逆快速傅里叶变换(IFFT)得到增强后的语音信号。
上述式(1)中的增益函数可以通过Berouti等人提出的算法得到,如下式所示。
Figure DEST_PATH_IMAGE104A
         (21)
其中
上述语音信号的语音增强,谱减法的改进有很多种,如自适应和听觉掩蔽等,而本发明的语音增强将先验信噪比和听觉掩蔽结合的方法是之前没有运用的语音增强算法,由此通过本发明的语音增强算法对语音信号进行增强处理。基于改进感知非均匀谱压缩的特征提取算法是将每一帧语音信号的功率谱或者子带能量进行压缩,对其压缩因子进行改进,然后通过相应的算法提取语音信号的特征值。
在电动轮椅鲁棒语音识别方法在操作中,先由麦克风获取语音信号,对语音信号进行预处理后,对其进行语音增强和特征提取,在信号空间,运用听觉掩蔽效应和先验信噪比相结合的语音增强算法进行增强;在特征空间,运用改进感知非均匀谱压缩的特征提取算法更加准确提取语音信号的特征值,用动态时间规整算法训练和识别语音信号,将语音识别结果转换成电动轮椅的底层驱动指令,调用相应的控制函数,驱动电动轮椅按照语音信号进行运动。

Claims (10)

1.一种电动轮椅语音识别过程中的语音增强方法,所述电动轮椅语音识别过程包括有输入语音信号预处理、特征参数提取、训练阶段中处理特征参数为每个命令词得到一个模块保存为模板库、识别阶段中先得到语音参数生成测试模板,该测试模板与模板库中的参考模板匹配,将匹配相似度最好的参考模块作为识别结果,其特征在于,所述的语音增强方法包括如下步骤:
第一步,对带噪声的输入语音信号进行预处理、分帧以及快速傅里叶变换,得到带噪音语音信号的频谱;
第二步,计算每一帧带噪声语音信号的先验信噪比,通过第一次谱减法,得到较为纯净的语音信号频谱;
第三步,通过听觉掩蔽效应计算噪声掩蔽门限,得到噪声掩蔽门限后计算自适应的谱减系数;
第四步,进行第二次谱减法,得到纯净的语音信号频谱;
第五步,通过逆快速傅里叶变换,得到增强后的语音信号。
2.根据权利要求1所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,所述第二步中的计算先验信噪比时,根据谱减法用线性时变滤波器形式表示,即                                                
Figure 913937DEST_PATH_IMAGE002
乘以增益函数
Figure 831077DEST_PATH_IMAGE004
,如式(1)所示:
                           (1)
增益函数可以通过先验信噪比表示,如式(2)所示:
Figure 566876DEST_PATH_IMAGE008
                             (2)
式中的先验信噪比可以通过“直接判决”法进行估计得到,如式(3)所示:
Figure 443565DEST_PATH_IMAGE010
    (3)
式中,为:
Figure 595378DEST_PATH_IMAGE014
                        (4)
式中
Figure 856595DEST_PATH_IMAGE016
为当前帧,
Figure 89255DEST_PATH_IMAGE018
为前一帧,
Figure 82619DEST_PATH_IMAGE020
为前一帧的估计结果,
Figure 899265DEST_PATH_IMAGE022
为调节系数,0.8<
Figure 698594DEST_PATH_IMAGE022
 < 1。
3.根据权利要求1所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,所述第三步中计算基于人耳掩蔽效应的听觉掩蔽阈值时需先划定临界带宽,该临界带宽是当纯音信号的功率等于该噪声信号的功率时,纯音信号刚好被人耳听到的临界状态的频率宽度,该临界宽度为实验测得的常数。
4.根据权利要求3所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,所述听觉掩蔽阈值的计算过程如下:先分别计算临界带宽的功率谱、扩展临界带宽的功率谱和噪声掩蔽扩展门限,再将计算得到的噪声掩蔽扩展门限与人耳听觉的绝对门限比较,取两者最大的一个作为听觉掩蔽阈值。
5.根据权利要求4所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,临界带宽个数的计算,
Figure 221979DEST_PATH_IMAGE024
                         (5)
式中,为临界带宽个数,
Figure 955766DEST_PATH_IMAGE028
为频率。
6.根据权利要求5所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,把每个临界带宽内语音信号的功率谱求和即可得到每个临界带宽的功率谱,设
Figure 791741DEST_PATH_IMAGE030
为信号快速傅里叶变换的功率谱,则每个临界带宽的功率谱为:
Figure 435212DEST_PATH_IMAGE032
                                      (6)
式中,
Figure 832696DEST_PATH_IMAGE034
为临界带宽
Figure 561617DEST_PATH_IMAGE016
的最小频率,
Figure 640432DEST_PATH_IMAGE036
为临界带宽
Figure DEST_PATH_IMAGE037
的最大频率,从1到
Figure DEST_PATH_IMAGE039
,语音信号的采样频率决定
Figure 34690DEST_PATH_IMAGE039
7.根据权利要求5所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,将临界带宽功率谱转换为扩展临界带宽功率谱,用扩展函数
Figure DEST_PATH_IMAGE041
来估计不同临界带宽之间的掩蔽效应,如式(7)所示:
Figure DEST_PATH_IMAGE043
         (7)
通过每个临界带宽的功率谱与扩展函数的卷积计算得到扩展临界带宽的功率谱,如式(8)所示:
Figure DEST_PATH_IMAGE045
                                        (8)
其中,
Figure DEST_PATH_IMAGE047
为第
Figure 673744DEST_PATH_IMAGE016
个扩展临界带宽的功率谱。
8.根据权利要求5所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,确定带噪声语音信号是类似纯音还是类似噪声,其通过谱平坦测度(Spectral Flatness Measure, SFM)来确定:
Figure DEST_PATH_IMAGE049
                                   (9)
其中,
Figure DEST_PATH_IMAGE051
是第
Figure 179418DEST_PATH_IMAGE016
个扩展临界宽带功率的几何平均,
Figure DEST_PATH_IMAGE053
是第个扩展临界宽带功率的算术平均,
                                   (10)
Figure DEST_PATH_IMAGE057
                                 (11)
根据SFM来产生参数
Figure DEST_PATH_IMAGE059
,该参数表明功率谱为浊音的程度,即:
Figure DEST_PATH_IMAGE061
                                    (12)
其中
Figure DEST_PATH_IMAGE063
,当
Figure DEST_PATH_IMAGE065
时,表示完全是噪声;当
Figure DEST_PATH_IMAGE069
时,
Figure DEST_PATH_IMAGE071
表示完全是纯音,实际的语音信号既不完全是噪声,也不完全是纯音,所以
Figure 349816DEST_PATH_IMAGE072
介于0到1之间。
9.根据权利要求8所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,
根据语音频谱的清音与浊音特性产生的门限偏移量表示式(13)所示:
Figure 787751DEST_PATH_IMAGE074
                            (13)
由此可得到扩展噪声掩蔽阈值为:
Figure 208368DEST_PATH_IMAGE076
                                    (14)
噪声的掩蔽阈值通过阈值归一化,并通过绝对听阈值进行比较得到,如式(15)所示:
Figure 743255DEST_PATH_IMAGE078
                               (15)
其中绝对听阈值
Figure 856704DEST_PATH_IMAGE080
由非线性函数求得:
Figure 366224DEST_PATH_IMAGE082
  (16)。
10.根据权利要求9所述的一种电动轮椅语音识别过程中的语音增强方法,其特征在于,所述第三步中自适应的谱减法系数计算,得到听觉掩蔽阈值后,通过下式计算得到自适应的谱减法系数:
Figure 590532DEST_PATH_IMAGE084
                               (17)
                               (18)
其中为Bark频率段的听觉掩蔽阈值,
Figure 473541DEST_PATH_IMAGE090
Figure 501539DEST_PATH_IMAGE092
是每一帧的听觉掩蔽阈值的最大值和最小值;
通过下式计算得到自适应的谱减系数:
Figure 745439DEST_PATH_IMAGE094
               (19)
Figure 498894DEST_PATH_IMAGE096
              (20)
其中
Figure 398717DEST_PATH_IMAGE098
Figure 27144DEST_PATH_IMAGE100
Figure 328812DEST_PATH_IMAGE102
,其为通过大量实验得到的经验常数值;
式(1)中的增益函数如下算法得到:
Figure DEST_PATH_IMAGE105
         (21)
其中 
Figure DEST_PATH_IMAGE107
CN201410099003.5A 2014-03-17 2014-03-17 一种电动轮椅语音识别过程中的语音增强方法 Pending CN103824564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410099003.5A CN103824564A (zh) 2014-03-17 2014-03-17 一种电动轮椅语音识别过程中的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410099003.5A CN103824564A (zh) 2014-03-17 2014-03-17 一种电动轮椅语音识别过程中的语音增强方法

Publications (1)

Publication Number Publication Date
CN103824564A true CN103824564A (zh) 2014-05-28

Family

ID=50759586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410099003.5A Pending CN103824564A (zh) 2014-03-17 2014-03-17 一种电动轮椅语音识别过程中的语音增强方法

Country Status (1)

Country Link
CN (1) CN103824564A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104103272A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 语音识别方法、装置和蓝牙耳机
CN104538029A (zh) * 2014-12-16 2015-04-22 重庆邮电大学 基于语音增强和改进pnsc的鲁棒语音识别方法及系统
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN105575403A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
CN109727605A (zh) * 2018-12-29 2019-05-07 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN110634500A (zh) * 2019-10-14 2019-12-31 达闼科技成都有限公司 一种先验信噪比的计算方法、电子设备及存储介质
CN110855281A (zh) * 2019-10-30 2020-02-28 重庆瑞坤科技发展股份有限公司 一种智能语音识别开关面板
CN113470697A (zh) * 2021-06-24 2021-10-01 中国科学院声学研究所南海研究站 一种野外声音采集与存储设备及声音处理方法
CN113808441A (zh) * 2021-08-03 2021-12-17 郑州科技学院 便携式外语单词练习器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262424A1 (en) * 2009-04-10 2010-10-14 Hai Li Method of Eliminating Background Noise and a Device Using the Same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262424A1 (en) * 2009-04-10 2010-10-14 Hai Li Method of Eliminating Background Noise and a Device Using the Same

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
万义龙 等: "一种基于几何谱减法和听觉掩蔽效应的语音增强方法", 《微电子学与计算机》 *
刘淑华: "低信噪比下的语音增强技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
戴亮: "非平稳噪声环境下的语音增强算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李艳花: "基于特征提取的智能轮椅语音识别控制技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
楼侃: "基于DSP的语音信号环境噪声降噪处理技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
沈晓东 等: "一种基于谱减的语音增强算法改进", 《软件导刊》 *
申艳红 等: "一种基于听觉掩蔽的语音增强方法", 《成都信息工程学院学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104103272A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 语音识别方法、装置和蓝牙耳机
CN104103272B (zh) * 2014-07-15 2017-10-10 无锡中感微电子股份有限公司 语音识别方法、装置和蓝牙耳机
CN104538029A (zh) * 2014-12-16 2015-04-22 重庆邮电大学 基于语音增强和改进pnsc的鲁棒语音识别方法及系统
CN105575403A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN109727605A (zh) * 2018-12-29 2019-05-07 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN110634500A (zh) * 2019-10-14 2019-12-31 达闼科技成都有限公司 一种先验信噪比的计算方法、电子设备及存储介质
CN110634500B (zh) * 2019-10-14 2022-05-31 达闼机器人股份有限公司 一种先验信噪比的计算方法、电子设备及存储介质
CN110855281A (zh) * 2019-10-30 2020-02-28 重庆瑞坤科技发展股份有限公司 一种智能语音识别开关面板
CN113470697A (zh) * 2021-06-24 2021-10-01 中国科学院声学研究所南海研究站 一种野外声音采集与存储设备及声音处理方法
CN113808441A (zh) * 2021-08-03 2021-12-17 郑州科技学院 便携式外语单词练习器

Similar Documents

Publication Publication Date Title
CN103824564A (zh) 一种电动轮椅语音识别过程中的语音增强方法
US11373672B2 (en) Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN107886967B (zh) 一种深度双向门递归神经网络的骨导语音增强方法
Stern et al. Hearing is believing: Biologically inspired methods for robust automatic speech recognition
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN109410976A (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN103778920A (zh) 数字助听器中语音增强和频响补偿相融合方法
CN106057210B (zh) 双耳间距下基于频点选择的快速语音盲源分离方法
Bao et al. A new ratio mask representation for CASA-based speech enhancement
Koning et al. Speech onset enhancement improves intelligibility in adverse listening conditions for cochlear implant users
Jangjit et al. A new wavelet denoising method for noise threshold
Mowlaee et al. On phase importance in parameter estimation in single-channel speech enhancement
Liang et al. The optimal ratio time-frequency mask for speech separation in terms of the signal-to-noise ratio
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Dash et al. Mitigating information interruptions by COVID-19 face masks: a three-stage speech enhancement scheme
Paikrao et al. Consumer Personalized Gesture Recognition in UAV Based Industry 5.0 Applications
Lun et al. Wavelet based speech presence probability estimator for speech enhancement
Hsu et al. Spectro-temporal subband wiener filter for speech enhancement
CN106128480B (zh) 一种对带噪语音进行语音活动检测的方法
CN104538029A (zh) 基于语音增强和改进pnsc的鲁棒语音识别方法及系统
Suresh et al. Computer-aided interpreter for hearing and speech impaired
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
Bao et al. Noise masking method based on an effective ratio mask estimation in Gammatone channels
Sun et al. Enhancement of Chinese speech based on nonlinear dynamics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 200031 Xuhui District Fuxing Road, Shanghai, building B, room 1199, No. 2106

Applicant after: Song Yang

Applicant after: Jin Huiqing

Applicant after: Shanghai Shenqing Industry Co., Ltd.

Applicant after: Jin Lai

Address before: 201203 Shanghai City Songtao road Pudong New Area Zhangjiang hi tech park, 489 block C No. 2

Applicant before: Shanghai Shenqing Industry Co., Ltd.

Applicant before: Jin Huiqing

Applicant before: Song Yang

Applicant before: Jin Lai

CB03 Change of inventor or designer information

Inventor after: Song Yang

Inventor after: Jin Huiqing

Inventor after: Jin Lai

Inventor after: Zhang Zhida

Inventor after: Wei Jing

Inventor after: Zhang Yi

Inventor after: Liu Xiangde

Inventor after: Xu Xiaodong

Inventor before: Jin Huiqing

Inventor before: Song Yang

Inventor before: Jin Lai

Inventor before: Zhang Zhida

Inventor before: Wei Jing

Inventor before: Zhang Yi

Inventor before: Liu Xiangde

Inventor before: Xu Xiaodong

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SHENQING INDUSTRIAL CO., LTD., SHANGHAI TO: SONG YANG

Free format text: CORRECT: INVENTOR; FROM: JIN HUIQING SONG YANG JIN LAI ZHANG ZHIDA WEI JING ZHANG YI LIU XIANGDE XU XIAODONG TO: SONG YANG JIN HUIQING JIN LAI ZHANG ZHIDA WEI JING ZHANG YI LIU XIANGDE XU XIAODONG

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140528