CN102256201A - 用于助听器的自动环境识别方法 - Google Patents
用于助听器的自动环境识别方法 Download PDFInfo
- Publication number
- CN102256201A CN102256201A CN2010101783180A CN201010178318A CN102256201A CN 102256201 A CN102256201 A CN 102256201A CN 2010101783180 A CN2010101783180 A CN 2010101783180A CN 201010178318 A CN201010178318 A CN 201010178318A CN 102256201 A CN102256201 A CN 102256201A
- Authority
- CN
- China
- Prior art keywords
- hearing aids
- recognition methods
- environment recognition
- data
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本发明的用于助听器的自动环境识别方法,先对助听器的麦克风接入的信号以预设的采样频率进行采样,以形成连续的多帧数据,然后将所述多帧信号的每一帧通过一预设点数的汉明窗后进行离散傅里叶变换,再将经过离散傅里叶变换的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理,以获得预设个数的MEL频谱点,再对预设个数的MEL频谱点进行取对数和离散余弦反变换以获得隐马尔可夫模型系数,最后以所获得的隐马尔可夫模型系数作为特征,采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型,通过Viterbi算法记录单个路径上的最高概率,以找到最佳状态序列,进而判断麦克风接入的信号所来自的环境。
Description
技术领域
本发明涉及一种环境识别方法,特别涉及一种用于助听器的自动环境识别方法。
背景技术
相比于模拟助听器,数字助听器因能完成复杂而灵活的调节,而广受听力障碍人士的喜爱。考虑到使用者可能处在不同的场景,如安静的环境、吵闹的大街、或者音乐会现场等,现有的各类数字助听器研发人员针对不同的环境设计了相应场景下的最优参数,使用者可以根据不同场景手动选择不同的参数,以获得较佳听觉效果。通常,数字助听器都采用小型纽扣电池进行供电,所以其内置的数字处理器主频在2MHz左右,需要完成信号分析与合成、噪声抑制、反馈抑制、动态压缩等功能,因此数字处理器的冗余处理能力极为有限。
而对于听觉本就存在障碍的助听器使用者,自身往往难以很好的分辨不同的场景,因此,如何在现有处理能力有限的助听器数字处理器基础上,增加对环境的自动识别功能,实已为本领域技术人员亟待解决的技术课题。
发明内容
本发明的目的在于提供一种用于助听器的自动环境识别方法,以自动识别语音、音乐和汽车噪声等环境。
为了达到上述目的及其他目的,本发明提供的用于助听器的自动环境识别方法,包括步骤:1)对助听器的麦克风接入的信号以预设的采样频率进行采样,以形成连续的多帧数据;2)将所述多帧信号的每一帧通过一预设点数的汉明窗;3)对经过加窗处理的帧数据进行离散傅里叶变换;4)将经过离散傅里叶变换的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理,以获得预设个数的MEL频谱点;5)对预设个数的MEL频谱点进行取对数和离散余弦反变换以获得隐马尔可夫模型系数;以及6)以所获得的隐马尔可夫模型系数作为特征,采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型,通过Viterbi算法记录单个路径上的最高概率,以找到最佳状态序列,进而判断麦克风接入的信号所来自的环境,其中,每个发散状态对应的高斯概率分布和传输矩阵预先设置。
其中,离散傅里叶变换和离散余弦反变换由助听器内置的傅里叶变换辅助处理器完成;:Viterbi算法由助听器内置的20bit、双累加器数字信号处理器完成。
较佳的,每个发散状态对应的高斯概率分布和传输矩阵可在计算机上通过反复训练预先得到。
较佳的,汉明窗的预设点数为128点。
较佳的,所述多帧数据的前后帧之间有重叠。
综上所述,本发明的用于助听器的自动环境识别方法采用隐马尔可夫模型,借助Viterbi算法即可实现对助听器环境的有效识别。
附图说明
图1为本发明的用于助听器的自动环境识别方法所采用的硬件结构示意图。
图2为本发明的用于助听器的自动环境识别方法的流程图。
图3为本发明的用于助听器的自动环境识别方法的采用的汉明窗示意图。
图4为本发明的用于助听器的自动环境识别方法的经过三角MEL加权滤波器组后数据示意图。
图5为本发明的用于助听器的自动环境识别方法采用的隐马尔可夫模型示意图。
具体实施方式
本发明的用于助听器的自动环境识别方法可用于如图1所示的助听器结构中,即助听器内置有20bit、双累加器数字信号处理器(DSP)和离散傅立叶变换加速辅助处理器。
请参阅图2,本发明的用于助听器的自动环境识别方法至少包括以下步骤;
第一步,对助听器的麦克风接入的信号以预设的采样频率进行采样,以形成连续的多帧数据。在本实施例中,采用16KHz的采样频率进行采样,每帧的长度为8ms,帧与帧之间有4ms的重叠,此过程在内置的20bit、双累加器数字信号处理器中完成。
第二步,将所述多帧信号的每一帧通过一预设点数的汉明窗,例如,通过一个128点的汉明窗处理,如图3所示,其为128点的汉明窗示意图,此过程在内置的20bit、双累加器数字信号处理器(DSP)中完成。
第三步,DSP将经过加窗处理的帧数据送入助听器内置的傅里叶变换(FFT)加速辅助处理器进行离散傅里叶变换,即按照式:进行处理,其中,xn为帧数据,Xk为频域值。
第四步,FFT加速辅助处理器将经过离散傅里叶变换的数据再送入DSP中,DSP将送入的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理,以获得预设个数的MEL频谱点(即MEL频率复倒谱系数,MFCC),其中,MEL频谱计算公式为:s[k]是能量谱,N是FFT的长度,l是加权滤波器组的个数,如图4所示,其为经过三角、MEL加权滤波组后的数据示意图。
第五步,对预设个数的MEL频谱点进行取对数和离散余弦反变换(IDCT)以获得隐马尔可夫模型(HMM)系数。在本实施例中,DSP对预设个数的MEL频谱点取基-2对数后,再把对数处理后的数据送入FFT辅助处理器中进行IDCT,随后FFT辅助处理器输出前4阶数据(即MFCC)给DSP,以便其作环境识别。
第六步,根据所获得的隐马尔可夫模型系数,采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型,通过Viterbi算法记录单个路径上的最高概率,以找到最佳状态序列,进而判断麦克风接入的信号所来自的环境,其中,每个发散状态对应的高斯概率分布和传输矩阵预先设置。如图5所示,HMM模型包括一个起始状态S1,3个发散状态S2、S3、S4和一个结束状态S5,每个发散状态对应于单混合、多元高斯概率分布,由平均响亮和协方差对角矩阵来表示,每个传输矩阵定义了不同状态间的传输概率。高斯概率分布和传输矩阵可以在计算机上通过反复训练得到。
在实时系统上,Viterbi算法用来分类。DSP逐帧计算出对数似然,并且计算出与之最相似的模型以及得到这个观察特征向量的状态。Viterbi算法通过记录单个路径上最高概率,可以找到最佳状态序列。如果定义:O1 O2...Ot是观测序列,q1 q2...qt是状态,λ表示模型,δt(i)表示在时刻t,前t个观察为O1 O2...Ot且结束状态为δi的概率最高的一条路径,由此,Viterbi算法可以通过如下递归得到:
初始化:
δ1(i)=πi bi(Ot),1≤i≤N
ψ1(i)=0
递归:
结束;
最后通过反向跟踪,就可以获得路径:
这样,根据获得的路径,即可判断助听器所接入的信号属于哪个环境,即属于语音、音乐、或汽车噪声环境等。
由于对数似然在时间上单调递减的,所以DSP在进行定点运算中,会发生下溢,所以,在计算时,先把似然值减去每帧所给出的模型的最大似然值,如此,最大对数似然为0。此外,在高斯分布计算中,变量的动态范围很大,为得到最好的数值精度,可先在计算机上仿真出每个变量的动态范围,以便确定每个变量的最优的定点表示。
综上所述,本发明的用于助听器的自动环境识别方法通过DSP和FFT加速辅助处理器并行工作,采用HMM模型的优化算法,可获得对语音、音乐和汽车噪声环境的准确识别,在功耗小于0.3mW的情况下,准确率高于90%。
上述实施例仅列示性说明本发明的原理及功效,而非用于限制本发明。任何熟悉此项技术的人员均可在不违背本发明的精神及范围下,对上述实施例进行修改。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (6)
1.一种用于助听器的自动环境识别方法,其特征在于包括步骤:
1)对助听器的麦克风接入的信号以预设的采样频率进行采样,以形成连续的多帧数据;
2)将所述多帧信号的每一帧通过一预设点数的汉明窗;
3)对经过加窗处理的帧数据进行离散傅里叶变换;
4)将经过离散傅里叶变换的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理,以获得预设个数的MEL频谱点;
5)对预设个数的MEL频谱点进行取对数和离散余弦反变换以获得隐马尔可夫模型系数;
6)以所获得的隐马尔可夫模型系数作为特征,采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型,通过Viterbi算法记录单个路径上的最高概率,以找到最佳状态序列,进而判断麦克风接入的信号所来自的环境,其中,每个发散状态对应的高斯概率分布和传输矩阵预先设置。
2.如权利要求1所述的用于助听器的自动环境识别方法,其特征在于:离散傅里叶变换和离散余弦反变换由助听器内置的傅里叶变换辅助处理器完成。
3.如权利要求1所述的用于助听器的自动环境识别方法,其特征在于:每个发散状态对应的高斯概率分布和传输矩阵在计算机上通过反复训练而得到。
4.如权利要求1所述的用于助听器的自动环境识别方法,其特征在于:Viterbi算法由助听器内置的20bit、双累加器数字信号处理器完成。
5.如权利要求1所述的用于助听器的自动环境识别方法,其特征在于:汉明窗的预设点数为128点。
6.如权利要求1所述的用于助听器的自动环境识别方法,其特征在于:所述多帧数据的前后帧之间有重叠。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101783180A CN102256201A (zh) | 2010-05-19 | 2010-05-19 | 用于助听器的自动环境识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101783180A CN102256201A (zh) | 2010-05-19 | 2010-05-19 | 用于助听器的自动环境识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102256201A true CN102256201A (zh) | 2011-11-23 |
Family
ID=44983134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101783180A Pending CN102256201A (zh) | 2010-05-19 | 2010-05-19 | 用于助听器的自动环境识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102256201A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107037262A (zh) * | 2017-04-25 | 2017-08-11 | 成都玖锦科技有限公司 | 一种大数据频谱分析系统及其方法 |
CN108370478A (zh) * | 2015-11-24 | 2018-08-03 | 索诺瓦公司 | 操作助听器的方法和根据这样的方法操作的助听器 |
CN111901737A (zh) * | 2020-08-07 | 2020-11-06 | 浙江大学 | 一种基于智能终端的助听器参数自适应方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864806A (en) * | 1996-05-06 | 1999-01-26 | France Telecom | Decision-directed frame-synchronous adaptive equalization filtering of a speech signal by implementing a hidden markov model |
WO2001076321A1 (en) * | 2000-04-04 | 2001-10-11 | Gn Resound A/S | A hearing prosthesis with automatic classification of the listening environment |
WO2003036618A1 (en) * | 2001-10-22 | 2003-05-01 | Dspfactory Ltd. | Method and system for real-time speech recognition |
-
2010
- 2010-05-19 CN CN2010101783180A patent/CN102256201A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864806A (en) * | 1996-05-06 | 1999-01-26 | France Telecom | Decision-directed frame-synchronous adaptive equalization filtering of a speech signal by implementing a hidden markov model |
WO2001076321A1 (en) * | 2000-04-04 | 2001-10-11 | Gn Resound A/S | A hearing prosthesis with automatic classification of the listening environment |
WO2003036618A1 (en) * | 2001-10-22 | 2003-05-01 | Dspfactory Ltd. | Method and system for real-time speech recognition |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108370478A (zh) * | 2015-11-24 | 2018-08-03 | 索诺瓦公司 | 操作助听器的方法和根据这样的方法操作的助听器 |
CN107037262A (zh) * | 2017-04-25 | 2017-08-11 | 成都玖锦科技有限公司 | 一种大数据频谱分析系统及其方法 |
CN111901737A (zh) * | 2020-08-07 | 2020-11-06 | 浙江大学 | 一种基于智能终端的助听器参数自适应方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634497B (zh) | 降噪方法、装置、终端设备及存储介质 | |
EP3309782B1 (en) | Method, device and system for noise suppression | |
CN103236260B (zh) | 语音识别系统 | |
US20240079021A1 (en) | Voice enhancement method, apparatus and system, and computer-readable storage medium | |
CN109584896A (zh) | 一种语音芯片及电子设备 | |
CN109192200B (zh) | 一种语音识别方法 | |
CN106875938A (zh) | 一种改进的非线性自适应语音端点检测方法 | |
US20100094622A1 (en) | Feature normalization for speech and audio processing | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
CN104485103A (zh) | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 | |
CN105355199A (zh) | 一种基于gmm噪声估计的模型组合语音识别方法 | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN111739562B (zh) | 一种基于数据选择性和高斯混合模型的语音活动检测方法 | |
Shi et al. | Fusion feature extraction based on auditory and energy for noise-robust speech recognition | |
CN102256201A (zh) | 用于助听器的自动环境识别方法 | |
CN113705418A (zh) | 基于mfcc和hmm的次声信号识别方法、系统和设备 | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
CN111261192A (zh) | 一种基于lstm网络的音频检测方法、电子设备及存储介质 | |
CN108022588B (zh) | 一种基于双特征模型的鲁棒语音识别方法 | |
Pardede et al. | Generalized-log spectral mean normalization for speech recognition | |
CN103778914A (zh) | 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置 | |
Panda | A fast approach to psychoacoustic model compensation for robust speaker recognition in additive noise. | |
Pan et al. | Application of hidden Markov models in speech command recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20111123 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |