CN102256201A

CN102256201A - 用于助听器的自动环境识别方法

Info

Publication number: CN102256201A
Application number: CN2010101783180A
Authority: CN
Inventors: 曹瑜镠
Original assignee: SHANGHAI CONGWEI ACOUSTICS TECHNOLOGY CO LTD
Current assignee: SHANGHAI CONGWEI ACOUSTICS TECHNOLOGY CO LTD
Priority date: 2010-05-19
Filing date: 2010-05-19
Publication date: 2011-11-23

Abstract

本发明的用于助听器的自动环境识别方法，先对助听器的麦克风接入的信号以预设的采样频率进行采样，以形成连续的多帧数据，然后将所述多帧信号的每一帧通过一预设点数的汉明窗后进行离散傅里叶变换，再将经过离散傅里叶变换的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理，以获得预设个数的MEL频谱点，再对预设个数的MEL频谱点进行取对数和离散余弦反变换以获得隐马尔可夫模型系数，最后以所获得的隐马尔可夫模型系数作为特征，采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型，通过Viterbi算法记录单个路径上的最高概率，以找到最佳状态序列，进而判断麦克风接入的信号所来自的环境。

Description

用于助听器的自动环境识别方法

技术领域

本发明涉及一种环境识别方法，特别涉及一种用于助听器的自动环境识别方法。

背景技术

相比于模拟助听器，数字助听器因能完成复杂而灵活的调节，而广受听力障碍人士的喜爱。考虑到使用者可能处在不同的场景，如安静的环境、吵闹的大街、或者音乐会现场等，现有的各类数字助听器研发人员针对不同的环境设计了相应场景下的最优参数，使用者可以根据不同场景手动选择不同的参数，以获得较佳听觉效果。通常，数字助听器都采用小型纽扣电池进行供电，所以其内置的数字处理器主频在2MHz左右，需要完成信号分析与合成、噪声抑制、反馈抑制、动态压缩等功能，因此数字处理器的冗余处理能力极为有限。

而对于听觉本就存在障碍的助听器使用者，自身往往难以很好的分辨不同的场景，因此，如何在现有处理能力有限的助听器数字处理器基础上，增加对环境的自动识别功能，实已为本领域技术人员亟待解决的技术课题。

发明内容

本发明的目的在于提供一种用于助听器的自动环境识别方法，以自动识别语音、音乐和汽车噪声等环境。

为了达到上述目的及其他目的，本发明提供的用于助听器的自动环境识别方法，包括步骤：1)对助听器的麦克风接入的信号以预设的采样频率进行采样，以形成连续的多帧数据；2)将所述多帧信号的每一帧通过一预设点数的汉明窗；3)对经过加窗处理的帧数据进行离散傅里叶变换；4)将经过离散傅里叶变换的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理，以获得预设个数的MEL频谱点；5)对预设个数的MEL频谱点进行取对数和离散余弦反变换以获得隐马尔可夫模型系数；以及6)以所获得的隐马尔可夫模型系数作为特征，采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型，通过Viterbi算法记录单个路径上的最高概率，以找到最佳状态序列，进而判断麦克风接入的信号所来自的环境，其中，每个发散状态对应的高斯概率分布和传输矩阵预先设置。

其中，离散傅里叶变换和离散余弦反变换由助听器内置的傅里叶变换辅助处理器完成；：Viterbi算法由助听器内置的20bit、双累加器数字信号处理器完成。

较佳的，每个发散状态对应的高斯概率分布和传输矩阵可在计算机上通过反复训练预先得到。

较佳的，汉明窗的预设点数为128点。

较佳的，所述多帧数据的前后帧之间有重叠。

综上所述，本发明的用于助听器的自动环境识别方法采用隐马尔可夫模型，借助Viterbi算法即可实现对助听器环境的有效识别。

附图说明

图1为本发明的用于助听器的自动环境识别方法所采用的硬件结构示意图。

图2为本发明的用于助听器的自动环境识别方法的流程图。

图3为本发明的用于助听器的自动环境识别方法的采用的汉明窗示意图。

图4为本发明的用于助听器的自动环境识别方法的经过三角MEL加权滤波器组后数据示意图。

图5为本发明的用于助听器的自动环境识别方法采用的隐马尔可夫模型示意图。

具体实施方式

本发明的用于助听器的自动环境识别方法可用于如图1所示的助听器结构中，即助听器内置有20bit、双累加器数字信号处理器(DSP)和离散傅立叶变换加速辅助处理器。

请参阅图2，本发明的用于助听器的自动环境识别方法至少包括以下步骤；

第一步，对助听器的麦克风接入的信号以预设的采样频率进行采样，以形成连续的多帧数据。在本实施例中，采用16KHz的采样频率进行采样，每帧的长度为8ms，帧与帧之间有4ms的重叠，此过程在内置的20bit、双累加器数字信号处理器中完成。

第二步，将所述多帧信号的每一帧通过一预设点数的汉明窗，例如，通过一个128点的汉明窗处理，如图3所示，其为128点的汉明窗示意图，此过程在内置的20bit、双累加器数字信号处理器(DSP)中完成。

第三步，DSP将经过加窗处理的帧数据送入助听器内置的傅里叶变换(FFT)加速辅助处理器进行离散傅里叶变换，即按照式：进行处理，其中，x_n为帧数据，X_k为频域值。

第四步，FFT加速辅助处理器将经过离散傅里叶变换的数据再送入DSP中，DSP将送入的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理，以获得预设个数的MEL频谱点(即MEL频率复倒谱系数，MFCC)，其中，MEL频谱计算公式为：

s[k]是能量谱，N是FFT的长度，l是加权滤波器组的个数，如图4所示，其为经过三角、MEL加权滤波组后的数据示意图。

第五步，对预设个数的MEL频谱点进行取对数和离散余弦反变换(IDCT)以获得隐马尔可夫模型(HMM)系数。在本实施例中，DSP对预设个数的MEL频谱点取基-2对数后，再把对数处理后的数据送入FFT辅助处理器中进行IDCT，随后FFT辅助处理器输出前4阶数据(即MFCC)给DSP，以便其作环境识别。

第六步，根据所获得的隐马尔可夫模型系数，采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型，通过Viterbi算法记录单个路径上的最高概率，以找到最佳状态序列，进而判断麦克风接入的信号所来自的环境，其中，每个发散状态对应的高斯概率分布和传输矩阵预先设置。如图5所示，HMM模型包括一个起始状态S1，3个发散状态S2、S3、S4和一个结束状态S5，每个发散状态对应于单混合、多元高斯概率分布，由平均响亮和协方差对角矩阵来表示，每个传输矩阵定义了不同状态间的传输概率。高斯概率分布和传输矩阵可以在计算机上通过反复训练得到。

在实时系统上，Viterbi算法用来分类。DSP逐帧计算出对数似然，并且计算出与之最相似的模型以及得到这个观察特征向量的状态。Viterbi算法通过记录单个路径上最高概率，可以找到最佳状态序列。如果定义：

O₁ O₂...O_t是观测序列，q₁ q₂...q_t是状态，λ表示模型，δ_t(i)表示在时刻t，前t个观察为O₁ O₂...O_t且结束状态为δ_i的概率最高的一条路径，由此，Viterbi算法可以通过如下递归得到：

初始化：

δ₁(i)＝π_i b_i(O_t)，1≤i≤N

ψ₁(i)＝0

递归：

δ_{t} (j) = \max_{1 \leq i \leq N} [δ_{t - 1} (i) a_{ij}] b_{j} (O_{t}), 2 \leq t \leq T, 1 \leq j \leq N

ψ_{t} (j) = \arg \max_{1 \leq i \leq N} [δ_{t - 1} (i) a_{ij}], 2 \leq t \leq T, 1 \leq j \leq N

结束；

P^{*} = \max_{1 \leq i \leq N} [δ_{T} (i)]

q_{T}^{*} = \arg \max_{1 \leq i \leq N} [δ_{T} (i)]

最后通过反向跟踪，就可以获得路径：

q_{t}^{*} = ψ_{t + 1} (q_{t + 1}^{*}), t = T - 1, T - 2 . . . . . . 1

这样，根据获得的路径，即可判断助听器所接入的信号属于哪个环境，即属于语音、音乐、或汽车噪声环境等。

由于对数似然在时间上单调递减的，所以DSP在进行定点运算中，会发生下溢，所以，在计算时，先把似然值减去每帧所给出的模型的最大似然值，如此，最大对数似然为0。此外，在高斯分布计算中，变量的动态范围很大，为得到最好的数值精度，可先在计算机上仿真出每个变量的动态范围，以便确定每个变量的最优的定点表示。

综上所述，本发明的用于助听器的自动环境识别方法通过DSP和FFT加速辅助处理器并行工作，采用HMM模型的优化算法，可获得对语音、音乐和汽车噪声环境的准确识别，在功耗小于0.3mW的情况下，准确率高于90％。

上述实施例仅列示性说明本发明的原理及功效，而非用于限制本发明。任何熟悉此项技术的人员均可在不违背本发明的精神及范围下，对上述实施例进行修改。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种用于助听器的自动环境识别方法，其特征在于包括步骤：

1)对助听器的麦克风接入的信号以预设的采样频率进行采样，以形成连续的多帧数据；

2)将所述多帧信号的每一帧通过一预设点数的汉明窗；

3)对经过加窗处理的帧数据进行离散傅里叶变换；

4)将经过离散傅里叶变换的数据的能量谱进行包括三角重叠窗、预设组数的三角MEL加权滤波器组在内的处理，以获得预设个数的MEL频谱点；

5)对预设个数的MEL频谱点进行取对数和离散余弦反变换以获得隐马尔可夫模型系数；

6)以所获得的隐马尔可夫模型系数作为特征，采用包含一个起始状态、一个结束状态和3个发散状态的隐马尔可夫模型，通过Viterbi算法记录单个路径上的最高概率，以找到最佳状态序列，进而判断麦克风接入的信号所来自的环境，其中，每个发散状态对应的高斯概率分布和传输矩阵预先设置。

2.如权利要求1所述的用于助听器的自动环境识别方法，其特征在于：离散傅里叶变换和离散余弦反变换由助听器内置的傅里叶变换辅助处理器完成。

3.如权利要求1所述的用于助听器的自动环境识别方法，其特征在于：每个发散状态对应的高斯概率分布和传输矩阵在计算机上通过反复训练而得到。

4.如权利要求1所述的用于助听器的自动环境识别方法，其特征在于：Viterbi算法由助听器内置的20bit、双累加器数字信号处理器完成。

5.如权利要求1所述的用于助听器的自动环境识别方法，其特征在于：汉明窗的预设点数为128点。

6.如权利要求1所述的用于助听器的自动环境识别方法，其特征在于：所述多帧数据的前后帧之间有重叠。