CN101593522A - 一种全频域数字助听方法和设备 - Google Patents

一种全频域数字助听方法和设备 Download PDF

Info

Publication number
CN101593522A
CN101593522A CNA2009100885786A CN200910088578A CN101593522A CN 101593522 A CN101593522 A CN 101593522A CN A2009100885786 A CNA2009100885786 A CN A2009100885786A CN 200910088578 A CN200910088578 A CN 200910088578A CN 101593522 A CN101593522 A CN 101593522A
Authority
CN
China
Prior art keywords
signal
voice
frequency
frame
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100885786A
Other languages
English (en)
Other versions
CN101593522B (zh
Inventor
梁维谦
翁海波
夭淼
董明
易安希
刘国旗
刘润生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2009100885786A priority Critical patent/CN101593522B/zh
Publication of CN101593522A publication Critical patent/CN101593522A/zh
Application granted granted Critical
Publication of CN101593522B publication Critical patent/CN101593522B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供了一种全频域数字助听方法,方法包括:获取前后双麦克风的输入语音信号,并进行分帧和傅里叶变换,以及进行语音场景类别的识别;当为带噪语音时,对分帧语音频域信号进行噪声检测并进行双麦克风波束形成处理、风噪声处理以及其它噪声抑制,然后进行频域动态范围压缩,以及声学反馈抑制;最后,进行反傅里叶变换和重叠相加得到输出语音信号。本发明实施例还提供了一种全频域数字助听设备。通过本发明实施例提供的方案,解决了目前数字助听器侧重于单纯解决听力障碍某一方面,而没有综合考虑影响使用效果各方面因素的问题,同时本发明实施例提供了全频域的数字助听方案,具有处理速度快,占用资源少,能耗低等优点。

Description

一种全频域数字助听方法和设备
技术领域
本发明涉及数字信号处理和医疗设备领域,特别涉及一种全频域数字助听方法和设备。
背景技术
声音是人类交流的一种重要手段,然而由于先天和后天的原因,一些人的听力受到损伤,成为耳聋患者。其中,数字助听器作为听力康复的最重要的手段,给听力障碍患者带来一个动听的世界,同时也是人们高质量生活的一个重要标志。
传统的模拟助听器通常使用线性放大电路,由于技术的限制,存在静态噪音、啸叫、体积大、功耗高等缺点,不能得到令人满意的效果。数字助听器则很好地克服了这些问题。但是由于人耳的听力障碍原因不同,语音环境千差万别,导致数字助听器的设计非常复杂。目前存在的数字助听器大都侧重于解决某一种因素导致的听力障碍问题,难以面面俱到,考虑到使用者的特殊情况。
同时,目前数字助听器大都是在时域对语音信号进行处理,虽有部分助听器在系统的某一部分采用频域处理的方式,但尚未有全频域处理的数字助听技术。而全频域的数字助听技术在处理速度,功耗,听感等方面能提供更加让人满意的效果。
发明内容
为了解决目前数字助听器侧重于单纯解决听力障碍某一方面,而没有综合考虑影响使用效果各方面因素的问题,同时提高处理速度,减少占用资源,降低能耗,本发明实施例提供了一种全频域数字助听方法和设备。
本发明实施例提供了一种全频域数字助听方法,所述方法包括:
获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;
将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
对双麦克风波束形成的语音信号进行风噪声处理;
将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
对补偿后的语音信号进行声学反馈抑制;
对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,所述对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号,包括:
对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
将加窗后的每帧语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,所述对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别,包括:
提取分帧语音频域信号的语音特征;
对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
进一步地,所述提取分帧语音频域信号的语音特征,包括:
对加窗后的分帧语音频域信号计算功率谱;
将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
进一步地,所述对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别,包括:
对分帧语音频域信号加载场景模型;
根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
根据计算得到的概率,判别所述分帧信号的语音场景类别。
其中,所述将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理,包括:
分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极性方向性图;
根据得到的两个固定极性方向性图,计算得到自适应增益;
根据自适应增益和两个固定极性方向性图,得到双麦克风波束形成的语音信号。
其中,所述对双麦克风波束形成的语音信号进行风噪声处理,包括:
将后麦克风的分帧语音频域信号进行延时;
计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,所述将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号,包括:
提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
计算每个子带的谱减因子;
根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
其中,所述对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号,包括:
在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
根据所述信号声压级进行插值运算得到输出声压级;
根据所述信号声压级和所述输出声压级,计算得到增益;
根据得到的增益,计算分帧信号的频域滤波增益系数;
对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,所述对补偿后的语音信号进行声学反馈抑制,包括:
计算听力补偿后的语音信号的自相关信号;
根据所述自相关信号计算自相关信号的过零率;
根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
本发明实施例提供了一种全频域数字助听设备,所述设备包括:
分帧模块,用于获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
场景识别模块,用于对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
语音检测模块,用于当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;
双麦克风波束模块,用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
风噪声处理模块,用于对双麦克风波束形成的语音信号进行风噪声处理;
语音噪声抑制模块,用于将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
频域动态范围压缩模块,用于对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
声学反馈模块,用于对补偿后的语音信号进行声学反馈抑制;
输出模块,用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,所述分帧模块,包括:
分帧加窗单元,用于对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
傅里叶变换单元,用于将加窗后的每帧语音信号进行补零,并对补零后的语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,所述场景识别模块,包括:
提取特征单元,用于提取分帧语音频域信号的语音特征;
识别单元,用于对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
进一步地,所述提取特征单元,包括:
功率谱计算子单元,用于对加窗后的分帧语音频域信号计算功率谱;
三角窗滤波子单元,用于将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
映射子单元,用于将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
进一步地,所述识别单元,包括:
加载模型子单元,用于对分帧语音频域信号加载场景模型;
计算概率子单元,用于根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
判别子单元,用于根据计算得到的概率,判别所述分帧信号的语音场景类别。
其中,所述双麦克风波束模块,包括:
第一延时单元,用于分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
第一处理单元,用于根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极型方向性图;
自适应增益单元,用于根据得到的两个固定极型方向性图,计算得到自适应增益;
双麦克风波束单元,用于根据自适应增益和两个固定极型方向性图,得到双麦克风波束形成的语音信号。
其中,所述风噪声处理模块,包括:
第二延时单元,用于将后麦克风的分帧语音频域信号进行延时;
第二处理单元,用于计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
风噪声抑制增益单元,用于根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
第三处理单元,用于在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,所述语音噪声抑制模块,包括:
提取单元,用于提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
划分单元,用于将噪声幅度和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
第四处理单元,用于计算每个子带的谱减因子,并根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
第五处理单元,用于根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
其中,所述频域动态范围压缩模块,包括:
信号声压级单元,用于在已测定患者在特定频率处的听力损失情况后,计算特定频率处的信号声压级;
输出声压级单元,用于根据所述信号声压级进行插值运算得到输出声压级;
频域滤波增益系数单元,用于根据所述信号声压级和所述输出声压级,得到增益,并根据得到的增益,计算分帧信号的频域滤波增益系数;
补偿单元,用于对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,所述声学反馈模块,包括:
自相关信号单元,用于计算听力补偿后的语音信号的自相关信号;
过零率单元,用于根据所述自相关信号计算自相关信号的过零率;
中心频率单元,用于根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
声学反馈抑制单元,用于根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
本发明实施例通过提供一种全频域数字助听方法和设备,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
附图说明
图1是本发明实施例1提供的方法流程示意图;
图2是本发明实施例2提供的方法流程示意图;
图3是本发明实施例2提供的场景识别流程示意图;
图4是本发明实施例2提供的双麦克风波束形成流程示意图;
图5是本发明实施例2提供的风噪声消除流程示意图;
图6是本发明实施例2提供的噪声抑制流程示意图;
图7是本发明实施例2提供的听力补偿流程示意图;
图8是本发明实施例2提供的听力损伤者在特定频率的听力损失情况示意图;
图9是本发明实施例2提供的反馈消除流程示意图;
图10是本发明实施例3提供的设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式做进一步地详细描述。
实施例1
本发明实施例提供了一种全频域数字助听方法,参见图1,该方法包括:
101:获取前后双麦克风的输入语音信号,对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
102:对分帧语音频域信号进行语音场景的识别,得到输入语音信号的语音场景类别;
103:当输入语音信号的语音场景为带噪语音时,对分帧语音频域信号进行语音检测,判断分帧语音频域信号中每一帧是语音帧还是噪声帧;
104:将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
105:对双麦克风波束形成的语音信号进行风噪声处理;
106:将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
107:对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
108:对补偿后的语音信号进行声学反馈抑制;
109:对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号,包括:
对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
将加窗后的每帧语音信号进行补零,并对补零后的语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,对分帧语音频域信号进行语音场景的识别,得到输入语音信号的语音场景类别,包括:
提取分帧语音频域信号的语音特征;
对提取语音特征后的分帧语音频域信号进行场景识别,判断得到输入语音信号的语音场景类别。
进一步地,提取分帧语音频域信号的语音特征,包括:
对分帧频域语音信号计算功率谱;
将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到加权倒谱系数,作为提取到的语音特征。
进一步地,对提取语音特征后的分帧语音频域信号进行场景识别,判断得到输入语音信号的语音场景类别,包括:
对分帧语音频域信号加载场景模型;
根据提取的语音特征,计算各个场景模型下分帧信号的概率;
根据计算得到的概率,判别分帧信号的语音场景类别。
其中,将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理,包括:
分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极型方向性图;
根据得到的两个固定极型方向性图,计算得到自适应增益;
根据自适应增益和两个固定极型方向性图,得到双麦克风波束形成的语音信号。
其中,对双麦克风波束形成的语音信号进行风噪声处理,包括:
将后麦克风的分帧语音频域信号进行延时;
计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
根据归一化互相关系数,得到分帧信号的风噪声抑制增益;
在低频率点上,将风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号,包括:
提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
计算每个子带的谱减因子;
根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
其中,对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号,包括:
在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
根据信号声压级进行插值运算得到输出声压级;
根据信号声压级和输出声压级,计算得到增益;
根据得到的增益,计算分帧信号的频域滤波增益系数;
对频域滤波增益系数和特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,对补偿后的语音信号进行声学反馈抑制,包括:
计算听力补偿后的语音信号的自相关信号;
根据自相关信号计算自相关信号的过零率;
根据自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
根据中心频率设计陷波器,将补偿后的语音信号通过陷波器进行声学反馈抑制。
本发明实施例通过提供的全频域数字助听方法,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
实施例2
为了解决目前数字助听器侧重于单纯解决听力障碍某一方面,而没有综合考虑影响使用效果各方面因素的问题,同时提高处理速度,减少占用资源,降低能耗,本发明实施例提供了一种全频域数字助听方法,除特殊说明外,本发明实施例的所有处理均在频域进行,参见图2,具体实现过程如下:
201:对输入语音信号进行缓存分帧加窗以及FFT(Fast Fourier transform,快速傅立叶变换)计算,具体实现过程如下:
201a:对输入语音信号进行缓存分帧加窗,并对分帧后的语音信号补零;
其中,本发明实施例中对输入语音信号进行缓存分帧的帧长为4ms,帧叠为2ms;分帧之后对信号进行加窗,本发明实例中采用hamming窗,也可以根据实际需要选用Hanning窗、升余弦窗等,本发明实施例对此不作限制。为了在频域实现对信号的滤波操作,本发明实施例将加窗后的每帧信号补0。
201b:对补零后的语音信号进行FFT运算。
其中,由于输入的语音信号样点值均为实数,因此其FFT变换之后的频谱是对称的,可使用实数FFT变换仅将对称部分的一半返回,加上一个0频率点,这样相对于普通的FFT,在以后的处理过程中,可以节省一半的运算量。
经过步骤201处理,将前后两个麦克风采集到的信号进行分帧加窗,并对各帧进行补零和FFT运算,得到F和B两个数组,分别表示前后两个麦克风采集到的语音信号的各个频率点。
202:对输入语音信号进行缓存分帧加窗以及FFT计算后,进行语音场景的识别,具体实现过程如下:
本发明实施例采用基于GMM(Gaussian mixture model,高斯混合模型)的方法,利用语音信号的MFCC(Mel-Frequency Cepstral Coficients,Mel频率倒谱系数)参数,通过训练和识别两个过程,实现对语音信号的语音场景的识别。本发明实例中将数字助听器的使用场景分为带噪语音、纯净语音、噪声和音乐四种,也可以根据实际需要,将语音场景进一步细化,划分更多语音场景,本发明实施例对此不作限制。下面参见图3,对该部分的具体实现进行说明:
202a:对经过步骤201处理得到的频域语音信号进行声学特征提取,具体实现过程如下:
1)计算功率谱:对经过步骤201处理得到的频域语音信号计算功率谱。
| X ( k ) | 2 = | &Sigma; n = 0 N - 1 x ( n ) e - j 2 &pi;nk / N | 2 , 0 &le; k < N - - - ( 1 )
2)三角窗滤波器组:用一组Mel频标上均匀分布的三角窗滤波器,对频域语音信号的功率谱滤波。Mel频标频率fmel与线性频率fHz之间的关系如式(2)所示:
f mel = 1127 ln ( 1 + f Hz 700 ) - - - ( 2 )
利用式(2)将FFT变换后的线性频率映射到Mel频率上,并在Mel频率上进行均匀分为M个频带,则第m个Mel分段频率fmel m的表达式为
f mel m = 1127 &CenterDot; ( m + 1 ) &CenterDot; ln ( 1 + F S / 2 700 ) M , m = 0 , . . . ( M - 1 ) - - - ( 3 )
其中FS是信号的采样频率。
再将Mel分段频率映射到线性频率:
f Hz m = 700 &CenterDot; ( exp ( f mel m 1127 ) - 1 ) , m = 0 , . . . ( M - 1 ) - - - ( 4 )
其中fHz m表示第m个Mel分段频率对应的线性频率,计算Mel滤波器组在各线性频点上的抽头系数:
Figure A20091008857800202
其中Hm(k)表示第m个Mel滤波器在第k个线性频点上的抽头系数,fHz k表示第k个频点的频率值。
则第m个Mel滤波器输出的子带能量A(m)为:
A ( m ) = &Sigma; k = 1 N / 2 H m ( k ) &CenterDot; | X ( k ) | 2 , m = 0 , . . . ( M - 1 ) - - - ( 6 )
3)取对数:对步骤2)的三角窗滤波器组的输出求取自然对数得到对数功率谱特征ln(A(m)),m=0...(M-1)。
4)DCT(Discrete Cosine Transformation,离散余弦变换):去除各维信号之间的相关性,将信号映射到低维空间。DCT的表达式为:
c ~ ( r ) = &alpha; ( r ) &Sigma; m = 1 M ln ( A ( m ) ) cos ( ( 2 m + 1 ) r&pi; 2 M ) , r = 0 , . . . , ( M - 1 ) - - - ( 7 )
&alpha; ( 0 ) = 1 M , &alpha; ( r ) = 2 M , r = 1 , . . . , ( M - 1 ) - - - ( 8 )
其中,
Figure A20091008857800206
表示DCT变换后得到的第r维倒谱系数。
5)谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。本发明实施例采用的加权函数的表达式为:
W r = 1 + M 2 sin ( &pi; ( r + 1 ) M ) , r = 0 , . . . , ( M - 1 ) - - - ( 9 )
则第r维谱加权倒谱系数为:
c ^ ( r ) = W r &CenterDot; c ~ ( r ) - - - ( 10 )
其中,一般在对语音号处理流程以前还需要执行步骤202a的过程,通过对语音信号进行声学特征提取,训练得到各个语音场景模型,以便使得在对输入语音号处理时,对输入语音信号加载各个场景模型,实现对输入语音信号的语音场景的识别。
经过上述步骤1)-步骤5),完成了对输入语音信号的特征提取的过程,下面在对输入的语音信号进行场景的识别。
202b:对提取特征后的输入语音信号进行场景识别,具体过程如下:
1)加载场景模型(此模型通过步骤202a训练得到):每个场景模型为含M个分量的GMM模型:λ={Ci,μi,∑i},i=1,2…,M。其中,Ci为分量加权系数,满足 &Sigma; i = 1 M C i = 1 , 每个分量的均值矢量μi及其协方差阵∑i
2)取特征:利用步骤202a中的步骤5)提取的特征,取前12维形成待识别特征,即取12维MFCC作为待识别语音的特征矢量x。
3)计算概率:对于每个场景模型λ,GMM忽略语音帧之间的事件关系,用一个混合高斯概率密度函数来描述一个场景语音的特征矢量分布,此混合高斯概率密度函数为:
p ( x | &lambda; ) = &Sigma; i = 1 M C i b i ( x ) - - - ( 11 )
其中,对于每个高斯概率密度函数:
b i ( x ) = 1 ( 2 &pi; ) D / 2 | &Sigma; i | 1 / 2 exp { - 1 2 ( x - &mu; i ) &prime; &Sigma; i - 1 ( x - &mu; i ) } - - - ( 12 )
对p(x|λ)求对数,以便于对连续帧的混合高斯概率密度函数进行累加运算:
P(xtn)=ln(p(xtn))                               (13)
其中,xt为第t帧的语音特征,λn为第n个场景的模型参数。
4)累加概率:重复进行步骤2)和步骤.3),得到连续的T帧语音的混合高斯概率密度函数对数。对P(xtn)进行累加运算:
P ( X | &lambda; n ) = &Sigma; t = 1 T P ( x t | &lambda; n ) - - - ( 14 )
P(X|λn)是该连续T帧语音为第n个场景的概率度量。
5)识别结果:对于N个场景(本发明实施例中以4个场景为例),由上述4)步得到P(X|λn),n=1…,...,N:
n * = arg max 1 < n < N P ( X | &lambda; n ) - - - ( 15 )
则语音段X属于第n*个场景。
其中,本发明实例中将数字助听器的使用场景分为带噪语音、纯净语音、噪声和音乐四种,经过步骤202b判断后,如果输入语音信号的使用场景判断为带噪语音,则继续执行后续步骤,如果输入语音信号的使用场景判断为纯净语音或者噪声或者音乐,则直接执行步骤207。另外,由于输入语音信号为前后双麦克风输入的两路语音信号,所以只需对其中的一路语音信号进行步骤202,判断出语音信号的使用场景,另一路语音信号的使用场景相同。
203:对判断为带噪语音的语音信号进行VAD语音检测,具体实现过程如下:
其中,此部分的VAD语音检测以语音信号的能量为基础,判断当前的一帧为语音帧还是噪声帧,该部分以前麦克采集到的语音信号F为处理对象,该部分的输出结果vad是双麦克风波束形成和噪声抑制两部分自动更新的控制信号。其原理如下:
首先假设语音信号的前9帧为噪声,进行噪声能量的初始化,其输出vad=0,表示这些帧为噪声帧。将前9帧的输入信号能量求和,在第10帧的时候,对前10帧的噪声能量进行平均,得到每帧的平均噪声能量数组noise_pow。当前输入信号的能量数组为noisy_pow。需要说明的是,噪声能量noise_pow和语音能量noisy_pow都是数组,数组元素对应于语音信号FFT运算后得到的各个频率点。通过以下准则来判断当前帧为噪声还是语音:
数组rti=noisy_pow./noise_pow-10log(noisy_pow./noise_pow)-1其中的点除符号“./”表示数组中对应元素间进行除法操作。
判断因子judgevalue等于数组rti中各值的平均值,如果judgevalue大于预先设定的阈值则判断当前帧为语音帧,value=1;否则,value=0,当前帧为噪声帧。
后麦克风的VAD语音检测结果与前麦克风相同。
204:对VAD语音检测后的语音信号进行处理,形成双麦克风波束的语音信号,参见图4,双麦克风波束形成部分的实施例图:
图4中,所示F和B分别表示前麦克和后麦克频域信号数组。此部分的处理过程如下:
204a:首先对F和B进行频域的延时处理,延时后的信号分别用F_delay和B_delay表示,延时时间为d/c。其中d表示前后两个麦克风之间的距离,c表示语音信号在空气中的传播速度。
F_delay(k)=F(k)*exp(-j*2π*FS*k*delay/EXTENDFRM)(16)
其中,delay=d/c,k=0,1,...,K-1,K表示数组F中的长度。
B_delay的计算方法与F_delay相同。
204b:将F、B、F_delay、B_delay组合起来形成两个固定极型心形方向性图。其中X对应的cardioid方向性图,其零向指向180度方向(与前麦克风相反的方向),而Y对应的cardioid方向性图的零向指向0度方向(即由前麦克风指向后麦克风的方向)。
X(k)=F(k)-B_delay(k)(17)
Y(k)=B(k)-F_delay(k)
其中,k表示第k个频率点。
204c:根据VAD检测的结果和历史信息控制自适应增益GAIN的更新RXY和RYY分别表示X、Y的互相关及Y的自相关。
if vad==0(噪声帧进行更新)
    RXY(t)=RXY(t)·α+RXY(t-1)·(1-α)
    RYY(t)=RYY(t)·α+RYY(t-1)·(1-α)
else
    RXY和RYY保持不变
其中,α为更新因子。
然后,由RXY和RYY求得自适应增益GAIN=RXY/RYY
204d:由自适应增益GAIN和X、Y两个零向方向相反的cardioid型方向性图,得到自动跟踪消除主噪声方向的麦克风波束:
fbf(k)=X(k)-GAIN*Y(k)           (18)
205:对步骤204形成的双麦克风波束的语音信号进行风噪声抑制,参见图5,具体过程如下:
本发明实施例中对于风噪声采用相关的方法进行抑制,其中为了避免对语音信号质量的过度损害,只在风噪声集中的低频部分进行风噪声抑制的处理。本发明实施例中仅对1kHz以下的频率进行风噪声抑制的处理,其实现方式如图5所示:
205a:将后麦克风一帧频域信号进行延时得到B_delay,计算各频率点上一帧前麦克风频域信号F和得到的B_delay之间的互相关,如下式:
cross_corr(k)=F(k)*B_delay(k)                    (19)
其中,k表示第k个频率点。
然后,计算F各频率点的能量:power(k)=|F(k)|2
205b:将各频率点的互相关对前麦克风的能量进行归一化,得到归一化互相关系数:norm_cross(k)=cross_corr(k)/power(k)。根据归一化互相关系数判断风噪声是否存在,如果norm_cross(k)>0.8,则认为频率点k处,两个麦克风采集到的信号具有较大的相关性,应是语音信号,风噪声不存在,此处的风噪声抑制增益suppr_gain(k)设置为1;否则,认为风噪声存在,ssuppr_gain(k)设置为0.1。
205c:在1kHz以下,将得到的各频率点处的风噪声抑制增益suppr_gain(k)与相应频点处的麦克风波束形成之后的结果相乘,便得到经过风噪声抑制后的语音信号,如图5所示。
206:经过步骤205风噪声抑制后,对语音信号中的噪声进行抑制,得到增强后的语音信号,具体实现过程如下:
本步骤采用多子带谱减的方法对语音信号中的噪声进行抑制,以达到抑制噪声,增强语音的目的。该步骤的实施例图参见图6,下面对具体实现过程进行详细说明:
其中,本步骤对噪声进行抑制的处理,通过下式实现
Figure A20091008857800241
其中k表示第k个频率点,n和m分别表示第i个频带的下限和上限,
Figure A20091008857800242
表示增强后的语音信号能量,|Y(k)|2表示平滑后的待处理语音能量,
Figure A20091008857800243
表示估计的噪声能量,αi表示第i个子带的过减因子,δi表示第i子带附加的子带谱减因子。以上各量值的计算及具体含义在下面说明。
206a:提取语音信号的的幅度和相位,并对带噪语音的幅度进行预处理。
首先,提取输入语音信号Y(k)的幅度信息和相位信息,其中幅度信息用来进行噪声抑制的处理,相位信息用来配合增强后的语音信号谱恢复出增强后的语音信号X(k)。
然后,对带噪语音的幅度进行如下的预处理:
| Y &OverBar; j ( k ) | = &Sigma; m = 0 4 W 4 - m | Y j - m ( k ) | - - - ( 21 )
其中,|Yj(k)|表示第j帧预处理之后的语音幅度,|Yj-m(k)|m=0,1,2,3,4表示当前输入帧以及当前帧之前4帧的语音幅度,而W=[0.09 0.09 0.25 0.25 0.32]表示预处理加权系数。对带噪语音谱进行预处理之后能够降低其变化波动,因而能有效地减少残余噪声,提高语音质量。
206b:将带噪语音谱分成Q个子带,并分别计算每个子带的过减因子。
其中,第i个子带的过减因子由下式计算得到:
&alpha; i = 4.75 SNR i < - 5 4 - 0.15 * SNR i - 5 &le; SNR i &le; 20 1 SNR i > 20 - - - ( 22 )
每个子带的信噪比由下式得到
SNR i = 10 log 10 ( &Sigma; k = n m | Y &OverBar; i ( k ) | 2 &Sigma; k = n m | D ^ i ( k ) | 2 ) - - - ( 23 )
206c:在各子带内将噪声谱从带噪语音谱中减去,得到增强后的语音谱。
按照
Figure A20091008857800254
n≤k≤m得到增强后的语音谱。其中,噪声谱的更新受VAD部分检测结果的控制:如果vad=0,即当前帧为噪声帧,则进行噪声谱的更新,更新规则为
Figure A20091008857800255
进行谱减计算时,其中的第i个附加子带谱减因子δi的计算如下:
&delta; i = 1 f i &le; 1 kHz 2.5 1 kHz < f i &le; FS 2 - 2 kHz 1.5 f i > FS 2 - 2 kHz - - - ( 24 )
206d:对增强后的语音信号谱进行后处理,并结合带噪语音的相位信息,得到增强后的语音信号各频率点的值。
为了避免预处理后的语音谱减去噪声谱出现负值,将增强后的语音谱进行
如下处理:
Figure A20091008857800261
其中,β=0.002
此外,为了进一步消除音乐噪声,将带噪语音的一部分加到增强后的语音上: | X &OverBar; &OverBar; i ( k ) | 2 = | X ^ i ( k ) | 2 + 0.05 * | Y &OverBar; i ( k ) | 2 .
根据带噪语音的相位信息和
Figure A20091008857800263
便可以求出增强后的语音信号各频率点的值:
fns i ( k ) = | X &OverBar; &OverBar; i ( k ) | 2 * ( cos ( phase ( k ) ) + j * sin ( phase ( k ) ) - - - ( 26 )
其中,fnsi(k)表示第i帧增强后的语音信号第k个频点的值;phase(k)表示带噪语音第k个频点的相位,j表示虚部单位。
至此,便得到增强后的语音信号,以供进一步处理使用。
207:对增强后的语音信号,进行频域动态范围压缩,得到补偿后的语音信号;
本发明实施例中根据听力损伤患者的听力测量结果,采用频域补偿的方法实现语音动态范围的压缩,该步骤的处理流程图如图7所示。但在本发明实施例中,由于图7中分帧、FFT、IFFT、重叠相加等部分由其它模块完成,因此在本发明实施例中该步骤包括求声压级、求滤波增益和滤波三个过程。假定L为FFT的运算长度,FS为信号抽样频率,该步骤的具体实施方法如下:
207a:首先测定患者在特定频率处fk的听力损失情况,其中fk=(k/L)·FS,通过选定k值来确定频率fk
其中,以NCH表示一共选择的通道个数,通道个数选择得越多,患者的听力损失情况就会反应得越准确,由此带来的计算量也越大。假定选择k=0,4,8,12....L/2,共计NCH个。参见图8,听力损伤者在特定频率处的听力损失情况大致反应了患者的整个听力损失情况。
207b:前一模块输入到此模块的信号表示为framedata_f。其中,由特定的频率fk的频域表示framedata_f,求得此频处的信号声压级spl_in。声压级的计算公式为: spl = 20 log ( abs ( x ( k ) ) 2 &CenterDot; 10 - 5 ) .
207c:求增益gain:由此声压级通过插值运算得到输出声压级spl_out,并得到此频率处的滤波增益gain_dB。滤波增益gain_dB=spl_out-spl_in。插值方法根据配听测试中患者听觉效果可以选取linear、cubic等方法,本发明实施例对此不作限制。
207d:求滤波系数coeffs:其他频率处的滤波增益通过插值运算求得,这样就求出了当前帧的频域滤波增益系数coeffs。
207e:滤波:频域信号framedata在频域直接乘滤波系数coeffs,对输入帧进行滤波得到补偿后的频域信号framedata_f_processed。
208:对补偿后的频域信号进行声学反馈抑制,具体过程如下:
本发明实施例中采用自适应陷波器的方法,对数字助听器中存在的语音啸叫进行抑制。其中,本步骤中包括两个部分:啸叫检测和自适应陷波器,参见图9:陷波器放在了动态压扩模块之后,这样做主要的考虑是动态压扩和陷波器之间的作用相互抵消,若将陷波器放在前面,则陷波部分会被动态压扩模块检测出并补偿,则失去反馈消除的作用。
208a:陷波器设计:
陷波器的传输函数可如下所示:
H ( Z - 1 ) = G &CenterDot; 1 - 2 cos ( &omega; o ) Z - 1 + Z - 2 1 - 2 G cos ( &omega; o ) Z - 1 + ( 2 cos ( &omega; o ) - 1 ) Z - 2 - - - ( 27 )
G = 1 1 + tan ( BW / 2 )
其中,主要参数包括中心频率ωo和3dB带宽BW,中心频率是指陷波器所在位置,由啸叫检测模块给出,3dB带宽指增益下降到峰值-3dB的带宽。
208b:啸叫检测部分:
对经过动态范围压缩处理的频域信号
Figure A20091008857800273
计算功率谱,并变换到时域得到自相关信号:
Corr ( n ) = IFFT ( X ~ ( k ) &CenterDot; X ~ ( k ) &prime; ) - - - ( 28 )
其中
Figure A20091008857800275
表示
Figure A20091008857800276
的共轭。
计算自相关信号的过零率:
ZCR=0;
if Corr(n)·Corr(n-1)<0                            (29)
   ZCR=ZCR+1
计算啸叫所在频段的中心频率:
&omega; o = FS &CenterDot; ZCR 2 N - - - ( 30 )
其中,FS为采样率,ZCR为过零率,N为自相关信号的点数。当ωo大于预先设定的阈值,即判断发生啸叫。
209:对经过声学反馈消除后的输出的语音信号进行反FFT运算及重叠相加,得到输出信号。
其中,对声学反馈消除部分的输出,进行反FFT运算,并进行重叠相加,即可得到整个助听器的输出;将该输出经过一个模拟的放大器放大之后,即是佩戴助听器的听力患者所听到的声音。
本发明实施例提供的全频域数字助听方法,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
实施例3
本发明实施例提供了一种全频域数字助听设备,参见图10,该设备包括:
分帧模块301,用于获取前后双麦克风的输入语音信号,对输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
场景识别模块302,用于对分帧语音频域信号进行语音场景的识别,得到输入语音信号的语音场景类别;
语音检测模块303,用于当输入语音信号的语音场景为带噪语音时,对分帧语音频域信号进行语音检测,判断分帧语音频域信号中每一帧是语音帧还是噪声帧;
双麦克风波束模块304,用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
风噪声处理模块305,用于对双麦克风波束形成的语音信号进行风噪声处理;
语音噪声抑制模块306,用于将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
频域动态范围压缩模块307,用于对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
声学反馈模块308,用于对补偿后的语音信号进行声学反馈抑制;
输出模块309,用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
其中,分帧模块301,包括:
分帧加窗单元,用于对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
傅里叶变换单元,用于将加窗后的每帧语音信号进行补零,并对补零后的语音信号进行傅里叶变换,得到分帧语音频域信号。
其中,场景识别模块302,包括:
提取特征单元,用于提取分帧语音频域信号的语音特征;
识别单元,用于对提取语音特征后的分帧语音频域信号进行场景识别,判断得到输入语音信号的语音场景类别。
进一步地,提取特征单元,包括:
对分帧语音频域信号进行快速傅里叶变换,得到语音信号的功率谱;
三角窗滤波子单元,用于将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
映射子单元,用于将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
进一步地,识别单元,包括:
加载模型子单元,用于对分帧语音频域信号加载场景模型;
计算概率子单元,用于根据提取的语音特征,计算场景模型下分帧信号的概率;
判别子单元,用于根据计算得到的概率,判别分帧信号的语音场景类别。
其中,语音检测模块303,包括:
第一延时单元,用于分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
第一处理单元,用于根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极型方向性图;
自适应增益单元,用于根据得到的两个固定极型方向性图,计算得到自适应增益;
双麦克风波束单元,用于根据自适应增益和两个固定极型方向性图,得到双麦克风波束形成的语音信号。
其中,风噪声处理模块305,包括:
第二延时单元,用于将后麦克风的分帧语音频域信号进行延时;
第二处理单元,用于计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
风噪声抑制增益单元,用于根据归一化互相关系数,得到分帧信号的风噪声抑制增益;
第三处理单元,用于在低频率点上,将风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
其中,语音噪声抑制模块306,包括:
提取单元,用于提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
划分单元,用于将噪声谱和语音谱分为多个子带,并分别计算每个子带的过减因子;
第四处理单元,用于计算每个子带的谱减因子,并根据过减因子、谱减因子、带噪语音谱和噪声谱,计算得到增强后的语音谱;
第五处理单元,用于根据相位,对增强后的语音谱进行后处理,得到增强后的语音信号各个频点的值。
其中,频域动态范围压缩模块307,包括:
信号声压级单元,用于在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
输出声压级单元,用于根据信号声压级进行插值运算得到输出声压级;
频域滤波增益系数单元,用于根据信号声压级和输出声压级,得到增益,并根据得到的增益,计算分帧信号的频域滤波增益系数;
补偿单元,用于对频域滤波增益系数和增强后的频域语音信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
其中,声学反馈模块308,包括:
自相关信号单元,用于计算听力补偿后的频域语音信号的自相关信号;
过零率单元,用于根据自相关信号计算自相关信号过零率;
中心频率单元,用于根据自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
声学反馈抑制单元,用于根据中心频率设计陷波器,将补偿后的语音信号通过陷波器进行声学反馈抑制。
本发明实施例提供的全频域数字助听设备,解决了目前数字助听器侧重于解决某一种因素导致的听力障碍问题,而没有考虑到使用者的各种特殊情况的问题,提高了数字助听技术的处理速度,降低了功耗,为患者提供了更加让人满意的效果。
本发明实施例可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,例如,嵌入式设备的硬盘、缓存或光盘中。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1、一种全频域数字助听方法,其特征在于,所述方法包括:
获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;
将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
对双麦克风波束形成的语音信号进行风噪声处理;
将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
对补偿后的语音信号进行声学反馈抑制;
对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
2、如权利要求1所述的方法,其特征在于,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号,包括:
对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
将加窗后的每帧语音信号进行傅里叶变换,得到分帧语音频域信号。
3、如权利要求1所述的方法,其特征在于,对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别,包括:
提取分帧语音频域信号的语音特征;
对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
4、如权利要求3所述的方法,其特征在于,所述提取分帧语音频域信号的语音特征,包括:
对加窗后的分帧语音频域信号计算功率谱;
将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
5、如权利要求3或4所述的方法,其特征在于,所述对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别,包括:
对分帧语音频域信号加载场景模型;
根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
根据计算得到的概率,判别所述分帧信号的语音场景类别。
6、如权利要求1所述的方法,其特征在于,所述将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理,包括:
分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极性方向性图;
根据得到的两个固定极性方向性图,计算得到自适应增益;
根据自适应增益和两个固定极性方向性图,得到双麦克风波束形成的语音信号。
7、如权利要求1所述的方法,其特征在于,所述对双麦克风波束形成的语音信号进行风噪声处理,包括:
将后麦克风的分帧语音频域信号进行延时;
计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
8、如权利要求1所述的方法,其特征在于,所述将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号,包括:
提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
计算每个子带的谱减因子;
根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱,计算得到增强后的语音幅度谱;
根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
9、如权利要求1所述的方法,其特征在于,所述对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号,包括:
在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
根据所述信号声压级进行插值运算得到输出声压级;
根据所述信号声压级和所述输出声压级,计算得到增益;
根据得到的增益,计算分帧信号的频域滤波增益系数;
对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
10、如权利要求1所述的方法,其特征在于,所述对补偿后的语音信号进行声学反馈抑制,包括:
计算经过听力补偿后的语音信号的自相关信号;
根据所述自相关信号计算自相关信号的过零率;
根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
11、一种全频域数字助听设备,其特征在于,所述设备包括:
分帧模块,用于获取前后双麦克风的输入语音信号,对所述输入语音信号进行分帧,并对分帧后的输入语音信号进行傅里叶变换,得到分帧语音频域信号;
场景识别模块,用于对所述分帧语音频域信号进行语音场景的识别,得到所述输入语音信号的语音场景类别;
语音检测模块,用于当所述输入语音信号的语音场景为带噪语音时,对所述分帧语音频域信号进行语音检测,判断所述分帧语音频域信号中每一帧是语音帧还是噪声帧;
双麦克风波束模块,用于将经过语音检测后的分帧语音频域信号进行双麦克风波束形成处理;
风噪声处理模块,用于对双麦克风波束形成的语音信号进行风噪声处理;
语音噪声抑制模块,用于将经过风噪声处理的语音信号进行其它噪声抑制,得到增强后的语音信号;
频域动态范围压缩模块,用于对增强后的语音信号进行频域动态范围压缩,得到补偿后的语音信号;
声学反馈模块,用于对补偿后的语音信号进行声学反馈抑制;
输出模块,用于对经过声学反馈抑制后的语音信号分别进行反傅里叶变换和重叠相加得到输出语音信号。
12、如权利要求11所述的设备,其特征在于,所述分帧模块,包括:
分帧加窗单元,用于对输入语音信号进行缓存分帧,并对分帧后的语音信号加窗;
傅里叶变换单元,用于将加窗后的每帧语音信号进行傅里叶变换,得到分帧语音频域信号。
13、如权利要求11所述的设备,其特征在于,所述场景识别模块,包括:
提取特征单元,用于提取分帧语音频域信号的语音特征;
识别单元,用于对提取语音特征后的分帧语音频域信号进行场景识别,判断得到所述输入语音信号的语音场景类别。
14、如权利要求13所述的设备,其特征在于,所述提取特征单元,包括:
功率谱计算子单元,用于对加窗后的分帧语音频域信号计算功率谱;
三角窗滤波子单元,用于将语音信号的功率谱经过三角窗滤波器组进行滤波,并对滤波后的语音信号的功率谱取对数,得到对数功率谱;
映射子单元,用于将对数功率谱映射到低维空间,并对映射后的功率谱进行谱加权,得到谱加权倒谱系数,作为提取到的语音特征。
15、如权利要求13或14所述的设备,其特征在于,所述识别单元,包括:
加载模型子单元,用于对分帧语音频域信号加载场景模型;
计算概率子单元,用于根据提取的语音特征,计算所述场景模型下所述分帧信号的概率;
判别子单元,用于根据计算得到的概率,判别所述分帧信号的语音场景类别。
16、如权利要求11所述的设备,其特征在于,所述双麦克风波束模块,包括:
第一延时单元,用于分别对前后麦克风经过语音检测后的分帧语音频域信号进行延时处理;
第一处理单元,用于根据前后两个分帧信号、前后两个延时后的分帧信号,得到两个固定极性方向性图;
自适应增益单元,用于根据得到的两个固定极性方向性图,计算得到自适应增益;
双麦克风波束单元,用于根据自适应增益和两个固定极性方向性图,得到双麦克风波束形成的语音信号。
17、如权利要求11所述的设备,其特征在于,所述风噪声处理模块,包括:
第二延时单元,用于将后麦克风的分帧语音频域信号进行延时;
第二处理单元,用于计算前麦克风的分帧语音频域信号与延时后的后麦克风的分帧语音频域信号的归一化互相关系数;
风噪声抑制增益单元,用于根据所述归一化互相关系数,得到分帧信号的风噪声抑制增益;
第三处理单元,用于在低频率点上,将所述风噪声抑制增益与麦克风波束的语音信号求乘积,得到经过风噪声处理后的语音信号。
18、如权利要求11所述的设备,其特征在于,所述语音噪声抑制模块,包括:
提取单元,用于提取经过风噪声处理的语音信号的幅度和相位,并对幅度进行预处理;
划分单元,用于将噪声幅度谱和语音幅度谱分为多个子带,并分别计算每个子带的过减因子;
第四处理单元,用于计算每个子带的谱减因子,并根据过减因子、谱减因子、带噪语音幅度谱和噪声幅度谱谱,计算得到增强后的语音幅度谱;
第五处理单元,用于根据相位,对增强后的语音幅度谱进行后处理,得到增强后的频域语音信号。
19、如权利要求11所述的设备,其特征在于,所述频域动态范围压缩模块,包括:
信号声压级单元,用于在已测定患者在特定频率处的听力损失情况后,计算特定频率信号处的信号声压级;
输出声压级单元,用于根据所述信号声压级进行插值运算得到输出声压级;
频域滤波增益系数单元,用于根据所述信号声压级和所述输出声压级,得到增益,并根据得到的增益,计算分帧信号的频域滤波增益系数;
补偿单元,用于对所述频域滤波增益系数和所述特定频率信号求积,并将求积后的结果滤波,得到补偿后的频域信号。
20、如权利要求11所述的设备,其特征在于,所述声学反馈模块,包括:
自相关信号单元,用于计算听力补偿后的语音信号的自相关信号;
过零率单元,用于根据所述自相关信号计算自相关信号的过零率;
中心频率单元,用于根据所述自相关信号过零率、信号的采样率以及自相关信号的点数,计算啸叫所在频段的中心频率;
声学反馈抑制单元,用于根据所述中心频率设计陷波器,将补偿后的语音信号通过所述陷波器进行声学反馈抑制。
CN2009100885786A 2009-07-08 2009-07-08 一种全频域数字助听方法和设备 Expired - Fee Related CN101593522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100885786A CN101593522B (zh) 2009-07-08 2009-07-08 一种全频域数字助听方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100885786A CN101593522B (zh) 2009-07-08 2009-07-08 一种全频域数字助听方法和设备

Publications (2)

Publication Number Publication Date
CN101593522A true CN101593522A (zh) 2009-12-02
CN101593522B CN101593522B (zh) 2011-09-14

Family

ID=41408138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100885786A Expired - Fee Related CN101593522B (zh) 2009-07-08 2009-07-08 一种全频域数字助听方法和设备

Country Status (1)

Country Link
CN (1) CN101593522B (zh)

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901602A (zh) * 2010-07-09 2010-12-01 中国科学院声学研究所 一种利用受损听力的听阈进行降噪的方法
CN102256200A (zh) * 2010-05-19 2011-11-23 上海聪维声学技术有限公司 全数字助听器的基于wola滤波器组的信号处理方法
CN103380628A (zh) * 2011-02-22 2013-10-30 索尼公司 音频处理装置、音频处理方法和程序
CN103475986A (zh) * 2013-09-02 2013-12-25 南京邮电大学 基于多分辨率小波的数字助听器语音增强方法
CN103761974A (zh) * 2014-01-28 2014-04-30 上海力声特医学科技有限公司 一种人工耳蜗
CN103916805A (zh) * 2012-12-28 2014-07-09 Gn瑞声达A/S 助听器
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
CN104092936A (zh) * 2014-06-12 2014-10-08 小米科技有限责任公司 自动对焦方法及装置
CN104424953A (zh) * 2013-09-11 2015-03-18 华为技术有限公司 语音信号处理方法与装置
CN104918182A (zh) * 2015-04-08 2015-09-16 长江大学 啸叫检测与抑制系统
CN105513598A (zh) * 2016-01-14 2016-04-20 宁波大学 一种基于频域信息量分布的回放语音检测方法
CN105706466A (zh) * 2013-11-07 2016-06-22 Gn瑞声达 A/S 具有概率性的听力损失补偿的助听器
CN105761657A (zh) * 2016-05-11 2016-07-13 梁辉 一种采用彩色点阵显示音乐频谱或动画的方法和系统
CN105825864A (zh) * 2016-05-19 2016-08-03 南京奇音石信息技术有限公司 基于过零率指标的双端说话检测与回声消除方法
CN105872910A (zh) * 2016-03-23 2016-08-17 成都普创通信技术股份有限公司 一种音频信号啸叫检测方法
CN105898662A (zh) * 2015-02-13 2016-08-24 奥迪康有限公司 配对传声器单元和包括配对传声器单元的听力系统
CN105989838A (zh) * 2015-01-30 2016-10-05 展讯通信(上海)有限公司 语音识别方法及装置
WO2017000776A1 (zh) * 2015-06-30 2017-01-05 芋头科技(杭州)有限公司 一种机器人室内噪声控制系统
CN106504758A (zh) * 2016-10-25 2017-03-15 大连理工大学 混音器及混音方法
CN106537939A (zh) * 2014-07-08 2017-03-22 唯听助听器公司 优化助听器系统中的参数的方法和助听器系统
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
CN106910511A (zh) * 2016-06-28 2017-06-30 阿里巴巴集团控股有限公司 一种语音去噪方法和装置
CN107257528A (zh) * 2017-06-14 2017-10-17 山东浪潮云服务信息科技有限公司 一种基于加权谱熵的啸叫检测方法
CN107393533A (zh) * 2017-07-28 2017-11-24 韦德永 一种通过语音控制跑步机的装置
WO2018107874A1 (zh) * 2016-12-16 2018-06-21 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置
US20180220243A1 (en) * 2015-10-05 2018-08-02 Widex A/S Hearing aid system and a method of operating a hearing aid system
CN109215688A (zh) * 2018-10-10 2019-01-15 麦片科技(深圳)有限公司 同场景音频处理方法、装置、计算机可读存储介质及系统
CN109511070A (zh) * 2018-11-10 2019-03-22 东莞市华睿电子科技有限公司 一种助听器声音处理方法
CN110115049A (zh) * 2016-12-27 2019-08-09 大北欧听力公司 基于记录对象声音的声音信号建模
CN110430316A (zh) * 2019-06-25 2019-11-08 努比亚技术有限公司 一种语音降噪方法、移动终端及计算机可读存储介质
CN110473568A (zh) * 2019-08-08 2019-11-19 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN110691312A (zh) * 2018-07-05 2020-01-14 塞舌尔商元鼎音讯股份有限公司 降低接触助听器所产生噪音的方法及双耳助听器
CN110786022A (zh) * 2018-11-14 2020-02-11 深圳市大疆创新科技有限公司 基于多麦克风的风噪处理方法、装置、系统及存储介质
CN112037806A (zh) * 2020-08-07 2020-12-04 中科新声(苏州)科技有限公司 一种检测风噪的方法和检测风噪声的设备
CN112534500A (zh) * 2018-07-26 2021-03-19 Med-El电气医疗器械有限公司 用于听力植入物的神经网络音频场景分类器
CN112954569A (zh) * 2021-02-20 2021-06-11 深圳市智听科技有限公司 多核助听芯片、助听方法及助听器
CN113132882A (zh) * 2021-04-16 2021-07-16 深圳木芯科技有限公司 多动态范围压扩方法和系统
CN113168843A (zh) * 2018-11-21 2021-07-23 深圳市欢太科技有限公司 音频处理方法、装置、存储介质及电子设备
CN113409041A (zh) * 2020-03-17 2021-09-17 华为技术有限公司 一种电子卡的选取方法、装置、终端以及存储介质
WO2021189979A1 (zh) * 2020-10-26 2021-09-30 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
CN113473314A (zh) * 2020-03-31 2021-10-01 华为技术有限公司 音频信号处理方法以及相关设备
CN114023307A (zh) * 2022-01-05 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 声音信号处理方法、语音识别方法、电子设备和存储介质
WO2022027700A1 (zh) * 2020-08-07 2022-02-10 中科新声(苏州)科技有限公司 一种抗风噪的方法
CN114640937A (zh) * 2022-05-18 2022-06-17 深圳市听多多科技有限公司 一种基于穿戴设备系统的助听功能实现方法及穿戴设备
CN116367063A (zh) * 2023-04-23 2023-06-30 郑州大学 一种基于嵌入式的骨传导助听设备及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1703494A1 (en) * 2005-03-17 2006-09-20 Emma Mixed Signal C.V. Listening device
DK2495996T3 (da) * 2007-12-11 2019-07-22 Oticon As Fremgangsmåde til at måle kritisk forstærkning på et høreapparat

Cited By (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256200A (zh) * 2010-05-19 2011-11-23 上海聪维声学技术有限公司 全数字助听器的基于wola滤波器组的信号处理方法
CN101901602A (zh) * 2010-07-09 2010-12-01 中国科学院声学研究所 一种利用受损听力的听阈进行降噪的方法
CN101901602B (zh) * 2010-07-09 2012-09-05 中国科学院声学研究所 一种利用受损听力的听阈进行降噪的方法
CN103380628A (zh) * 2011-02-22 2013-10-30 索尼公司 音频处理装置、音频处理方法和程序
CN103916805A (zh) * 2012-12-28 2014-07-09 Gn瑞声达A/S 助听器
CN103916805B (zh) * 2012-12-28 2017-08-04 Gn瑞声达A/S 助听器
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
CN103475986A (zh) * 2013-09-02 2013-12-25 南京邮电大学 基于多分辨率小波的数字助听器语音增强方法
US9922663B2 (en) 2013-09-11 2018-03-20 Huawei Technologies Co., Ltd. Voice signal processing method and apparatus
CN104424953A (zh) * 2013-09-11 2015-03-18 华为技术有限公司 语音信号处理方法与装置
WO2015035785A1 (zh) * 2013-09-11 2015-03-19 华为技术有限公司 语音信号处理方法与装置
CN105706466B (zh) * 2013-11-07 2019-05-14 Gn瑞声达 A/S 具有概率性的听力损失补偿的助听器
CN105706466A (zh) * 2013-11-07 2016-06-22 Gn瑞声达 A/S 具有概率性的听力损失补偿的助听器
CN103761974A (zh) * 2014-01-28 2014-04-30 上海力声特医学科技有限公司 一种人工耳蜗
CN103761974B (zh) * 2014-01-28 2017-01-25 上海力声特医学科技有限公司 一种人工耳蜗
CN104092936A (zh) * 2014-06-12 2014-10-08 小米科技有限责任公司 自动对焦方法及装置
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
CN106537939A (zh) * 2014-07-08 2017-03-22 唯听助听器公司 优化助听器系统中的参数的方法和助听器系统
CN106537939B (zh) * 2014-07-08 2020-03-20 唯听助听器公司 优化助听器系统中的参数的方法和助听器系统
CN105989838A (zh) * 2015-01-30 2016-10-05 展讯通信(上海)有限公司 语音识别方法及装置
CN105989838B (zh) * 2015-01-30 2019-09-06 展讯通信(上海)有限公司 语音识别方法及装置
CN105898662B (zh) * 2015-02-13 2020-07-17 奥迪康有限公司 配对传声器单元和包括配对传声器单元的听力系统
CN105898662A (zh) * 2015-02-13 2016-08-24 奥迪康有限公司 配对传声器单元和包括配对传声器单元的听力系统
CN104918182B (zh) * 2015-04-08 2018-03-09 长江大学 啸叫检测与抑制系统
CN104918182A (zh) * 2015-04-08 2015-09-16 长江大学 啸叫检测与抑制系统
WO2017000776A1 (zh) * 2015-06-30 2017-01-05 芋头科技(杭州)有限公司 一种机器人室内噪声控制系统
US10631105B2 (en) * 2015-10-05 2020-04-21 Widex A/S Hearing aid system and a method of operating a hearing aid system
US20180220243A1 (en) * 2015-10-05 2018-08-02 Widex A/S Hearing aid system and a method of operating a hearing aid system
CN105513598B (zh) * 2016-01-14 2019-04-23 宁波大学 一种基于频域信息量分布的回放语音检测方法
CN105513598A (zh) * 2016-01-14 2016-04-20 宁波大学 一种基于频域信息量分布的回放语音检测方法
CN105872910A (zh) * 2016-03-23 2016-08-17 成都普创通信技术股份有限公司 一种音频信号啸叫检测方法
CN105761657A (zh) * 2016-05-11 2016-07-13 梁辉 一种采用彩色点阵显示音乐频谱或动画的方法和系统
CN105825864B (zh) * 2016-05-19 2019-10-25 深圳永顺智信息科技有限公司 基于过零率指标的双端说话检测与回声消除方法
CN105825864A (zh) * 2016-05-19 2016-08-03 南京奇音石信息技术有限公司 基于过零率指标的双端说话检测与回声消除方法
CN106910511B (zh) * 2016-06-28 2020-08-14 阿里巴巴集团控股有限公司 一种语音去噪方法和装置
CN106910511A (zh) * 2016-06-28 2017-06-30 阿里巴巴集团控股有限公司 一种语音去噪方法和装置
CN106504758A (zh) * 2016-10-25 2017-03-15 大连理工大学 混音器及混音方法
CN106504758B (zh) * 2016-10-25 2019-07-16 大连理工大学 混音器及混音方法
WO2018107874A1 (zh) * 2016-12-16 2018-06-21 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置
CN110115049A (zh) * 2016-12-27 2019-08-09 大北欧听力公司 基于记录对象声音的声音信号建模
US11140495B2 (en) 2016-12-27 2021-10-05 Gn Hearing A/S Sound signal modelling based on recorded object sound
CN110115049B (zh) * 2016-12-27 2022-07-01 大北欧听力公司 基于记录对象声音的声音信号建模
CN107257528A (zh) * 2017-06-14 2017-10-17 山东浪潮云服务信息科技有限公司 一种基于加权谱熵的啸叫检测方法
CN107393533A (zh) * 2017-07-28 2017-11-24 韦德永 一种通过语音控制跑步机的装置
CN110691312A (zh) * 2018-07-05 2020-01-14 塞舌尔商元鼎音讯股份有限公司 降低接触助听器所产生噪音的方法及双耳助听器
CN112534500A (zh) * 2018-07-26 2021-03-19 Med-El电气医疗器械有限公司 用于听力植入物的神经网络音频场景分类器
CN109215688B (zh) * 2018-10-10 2020-12-22 麦片科技(深圳)有限公司 同场景音频处理方法、装置、计算机可读存储介质及系统
CN109215688A (zh) * 2018-10-10 2019-01-15 麦片科技(深圳)有限公司 同场景音频处理方法、装置、计算机可读存储介质及系统
CN109511070A (zh) * 2018-11-10 2019-03-22 东莞市华睿电子科技有限公司 一种助听器声音处理方法
CN110786022A (zh) * 2018-11-14 2020-02-11 深圳市大疆创新科技有限公司 基于多麦克风的风噪处理方法、装置、系统及存储介质
CN113168843B (zh) * 2018-11-21 2022-04-22 深圳市欢太科技有限公司 音频处理方法、装置、存储介质及电子设备
CN113168843A (zh) * 2018-11-21 2021-07-23 深圳市欢太科技有限公司 音频处理方法、装置、存储介质及电子设备
CN110430316A (zh) * 2019-06-25 2019-11-08 努比亚技术有限公司 一种语音降噪方法、移动终端及计算机可读存储介质
CN110473568A (zh) * 2019-08-08 2019-11-19 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN110473568B (zh) * 2019-08-08 2022-01-07 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN113409041B (zh) * 2020-03-17 2023-08-04 华为技术有限公司 一种电子卡的选取方法、装置、终端以及存储介质
CN113409041A (zh) * 2020-03-17 2021-09-17 华为技术有限公司 一种电子卡的选取方法、装置、终端以及存储介质
CN113473314A (zh) * 2020-03-31 2021-10-01 华为技术有限公司 音频信号处理方法以及相关设备
CN112037806B (zh) * 2020-08-07 2023-10-31 中科新声(苏州)科技有限公司 一种检测风噪的方法和检测风噪声的设备
CN112037806A (zh) * 2020-08-07 2020-12-04 中科新声(苏州)科技有限公司 一种检测风噪的方法和检测风噪声的设备
WO2022027699A1 (zh) * 2020-08-07 2022-02-10 中科新声(苏州)科技有限公司 一种检测风噪的方法和检测风噪声的设备
WO2022027700A1 (zh) * 2020-08-07 2022-02-10 中科新声(苏州)科技有限公司 一种抗风噪的方法
WO2021189979A1 (zh) * 2020-10-26 2021-09-30 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
CN112954569A (zh) * 2021-02-20 2021-06-11 深圳市智听科技有限公司 多核助听芯片、助听方法及助听器
CN113132882B (zh) * 2021-04-16 2022-10-28 深圳木芯科技有限公司 多动态范围压扩方法和系统
CN113132882A (zh) * 2021-04-16 2021-07-16 深圳木芯科技有限公司 多动态范围压扩方法和系统
CN114023307A (zh) * 2022-01-05 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 声音信号处理方法、语音识别方法、电子设备和存储介质
CN114640937B (zh) * 2022-05-18 2022-09-02 深圳市听多多科技有限公司 一种基于穿戴设备系统的助听功能实现方法及穿戴设备
CN114640937A (zh) * 2022-05-18 2022-06-17 深圳市听多多科技有限公司 一种基于穿戴设备系统的助听功能实现方法及穿戴设备
US11818546B2 (en) 2022-05-18 2023-11-14 Shenzhen Tingduoduo Technology Co., Ltd. Hearing aid function realization method based on wearable device system and wearable device
CN116367063A (zh) * 2023-04-23 2023-06-30 郑州大学 一种基于嵌入式的骨传导助听设备及系统
CN116367063B (zh) * 2023-04-23 2023-11-14 郑州大学 一种基于嵌入式的骨传导助听设备及系统

Also Published As

Publication number Publication date
CN101593522B (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN101593522B (zh) 一种全频域数字助听方法和设备
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
US10475443B2 (en) Relative excitation features for speech recognition
Jeub et al. A binaural room impulse response database for the evaluation of dereverberation algorithms
CN103026407B (zh) 带宽扩展器
US8504360B2 (en) Automatic sound recognition based on binary time frequency units
Yegnanarayana et al. Processing of reverberant speech for time-delay estimation
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
CN101430882B (zh) 一种抑制风噪声的方法及装置
EP2905780A1 (en) Voiced sound pattern detection
US9384759B2 (en) Voice activity detection and pitch estimation
US20130096914A1 (en) System And Method For Utilizing Inter-Microphone Level Differences For Speech Enhancement
US20240079021A1 (en) Voice enhancement method, apparatus and system, and computer-readable storage medium
CN109215677A (zh) 一种适用于语音和音频的风噪检测和抑制方法和装置
GB2398913A (en) Noise estimation in speech recognition
Ganapathy et al. Temporal envelope compensation for robust phoneme recognition using modulation spectrum
US9437213B2 (en) Voice signal enhancement
KR101581885B1 (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
CN113168843B (zh) 音频处理方法、装置、存储介质及电子设备
Sivasankaran et al. Analyzing the impact of speaker localization errors on speech separation for automatic speech recognition
Sose et al. Sound Source Separation Using Neural Network
CN102222507B (zh) 一种适用于汉语语言的听力损失补偿方法及设备
Ganapathy et al. Auditory motivated front-end for noisy speech using spectro-temporal modulation filtering
Petrick et al. Robust front end processing for speech recognition in reverberant environments: Utilization of speech characteristics
Kajita et al. A binaural speech processing method using subband-cross correlation analysis for noise robust recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110914

Termination date: 20180708

CF01 Termination of patent right due to non-payment of annual fee