CN111491245B

CN111491245B - 基于循环神经网络的数字助听器声场识别算法及实现方法

Info

Publication number: CN111491245B
Application number: CN202010173180.9A
Authority: CN
Inventors: 陈霏; 韩悦
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2022-03-04
Anticipated expiration: 2040-03-13
Also published as: CN111491245A

Abstract

本发明公开一种基于循环神经网络的数字助听器声场识别算法及硬件实现方法。该数字助听器声场识别算法是通过全相位滤波器组对音频进行滤波分析，该滤波器组按人耳听觉特征将输入音频划分为16通道，然后对音频进行计算提取16维特征值；将16维特征值输入至三层循环神经网络进行特征分类，得到声场环境分类的结果；根据不同的声场环境相应地调整助听器的特性参数。本发明提通过对音频信号按照人耳听觉特征划分的Bark频标进行通道分解，对当前声场环境提取音频特征值，然后对提取的音频特征值进行分类从而识别出当前声场环境的类别，然后控制助听器根据当前声场环境调整适宜的助听模式，从而提高了言语可懂度和舒适度，达到更适宜的听力改善效果。

Description

基于循环神经网络的数字助听器声场识别算法及实现方法

技术领域

本发明涉及数字信号处理技术领域，特别是涉及一种基于循环神经网络的数字助听器声场识别算法及硬件实现方法。

背景技术

除人工耳蜗和临床手术外，助听器在医学界被广泛认为是有效改善听力的便携生物医学设备，是听障患者听力干预和康复最有效的手段之一，但目前助听器的普及率并不高，在助听器使用者的反馈情况来看，有62.3％的助听器用户对助听器效果是不满意的，其中主要原因之一是助听器会增加背景噪声，复杂多样的声音环境会使得助听器的性能出现很大的偏差，声源复杂的噪声环境下，助听器的啸叫和放大后的噪声容易给佩戴者造成强烈的不适感，难以分辨和理解各种声音。

现代数字助听器允许用户手动切换不同的助听模式，例如可以调整麦克风，降噪级别，啸叫抑制等。但是，助听器使用者通常无法快速准确地根据当前声学环境切换到最适合的程序，并且由于老年人是助听器用户的主要人群，辨别声场环境再寻找合适的助听器调整程序有一定难度。

发明内容

本发明的目的是旨在解决现有助听器在不同的声学环境中助听效果差异大等问题，以期提高助听器的助听效果，而提供一种基于循环神经网络的数字助听器声场识别算法及硬件实现方法，其具有自动场景分类功能，可实时地对周围的声场环境进行分类判别，即通过识别助听器用户当前所在的声场环境，自动感测当前的声场状况并自动切换到最佳拟合程序，使得助听器可以根据当前声场环境调整适宜的助听模式，极大地改善助听器的实用性；且声场识别算法效率高，计算复杂度低，易于硬件实现。

为实现本发明的目的所采用的技术方案是：

一种基于循环神经网络的数字助听器声场识别算法，包括步骤：

S1.通过全相位滤波器组对音频进行滤波分析，该滤波器组按人耳听觉特征将输入音频划分为16通道，然后对音频进行计算提取16维特征值；

S2.将16维特征值输入至三层循环神经网络进行特征分类，得到声场环境分类的结果；

S3.根据不同的声场环境相应地调整助听器的特性参数。

本发明提出的基于循环神经网络的数字助听器声场识别方法，通过对音频信号按照人耳听觉特征划分的Bark频标进行通道分解，对当前声场环境提取音频特征值，然后对提取的音频特征值进行分类从而识别出当前声场环境的类别，然后控制助听器根据当前声场环境调整适宜的助听模式，从而提高了言语可懂度和舒适度，达到更适宜的听力改善效果。

附图说明

图1是16通道幅度响应曲线；

图2是音频经滤波器组滤波后16通道频谱图；

图3是原音频频谱图；

图4是滤波器组处理后频谱图；

图5是原音频和滤波器组处理后音频的互相关值；

图6是声场识别系统的整体框图；

图7是单个滤波器硬件设计图；

图8是全连接层计算单元的结构图；

图9是GRU层计算单元的结构图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明通过全相位滤波器组对音频进行滤波分析，该滤波器组按人耳听觉特征将输入音频划分为16通道，然后对音频进行计算提取16维特征值，并将特征值输入至三层循环神经网络进行特征分类，最后得到声场分类的结果；根据不同的声场环境相应地调整助听器的特性参数，从而提高言语可懂度和舒适度，达到更适宜的听力改善效果。

本发明基于循环神经网络的数字助听器声场识别算法，分为特征提取和特征识别两个部分，按照如下步骤进行处理，即完成声场环境的分类识别：

第一部分：特征提取

步骤1.样本分段：以f_s＝16kHz的采样速率对音频采样，获得L个样点,然后对其分段处理，生成各子分段,x(k-N+1,k-N+2,…,k+N-1),其中N＝256，k＝N,N+1,…,L-N,x包含2N-1个样点。

步骤2.确定长度为N的目标频率向量H：Bark频标是临界频带的计量单位，其拟合公式为zf＝26.81/(1+(1960/f))-0.53，式中zf表示临界频带，单位为Bark，f表示频率，单位为Hz。设定人耳听域范围为50Hz至8000Hz，根据bark域转换公式即可确定bark域范围；对bark域进行通道数量的均分得到一系列bark域等距点，再由Bark域的最小频率可以得到bark域各频带范围；根据逆变换公式f＝((bark+0.53)*1960)/(26.28-bark)计算线性频频带分布，进而可以确定滤波器组的频率向量H。对于16通道256阶滤波器组，H为16×256的特征向量。

步骤3计算滤波器系数向量hi：对频率向量H进行IFFT得到hi＝[h(0)h(1)…h(N-1)]^T，i＝1,2,…,16.按照FIR滤波器构造方式将hi扩展为长度2N-1的系数，即hi＝[hi(0),hi(1),,,,hi(N-1),hi(1),…,hi(N-1)].

步骤4双窗全相位滤波处理：用长度为N的前窗f、后窗b进行卷积得到卷积窗win，

win(k)＝b(k)*f(-k),k＝-N-1,…,N-1，这里前窗与后窗都使用汉明窗，然后对卷积窗进行归一化处理：w(k)＝win(k)/max(win(k)),k＝-N+1,…,N-1；

步骤5计算滤波器组抽头系数h1i：将步骤4得到的卷积窗w(k)与步骤3得到得到滤波器系数向量hi相乘，即h(k)＝hi×w(k),i＝1,…,16,k＝-N+1,…,N-1,取前256个系数作为抽头系数h1i，即h1i＝[h(0),h(1),,,,h(N-1)]。

步骤6滤波输出计算：将步骤1的2N-1个分段样本x按抽头系数相等的样本点进行相加，即x＝[x(k-N+1,k-N+2,…,k-1)+x(k+1,k+2,…,k+N-1),x(k)+0],k＝N,N+1,…,L-N，其中x(k)为2N-1的中间点，不与其他序列点对称，因此加0，然后将x与步骤5得到的抽头系数h1i进行相乘累加，即得到一个通道滤波器的输出。

对于序列长度为L的音频数据，经过16通道滤波器组处理后将输出16×L的音频数据。

步骤7特征值计算：对步骤6得到的序列长为L的16通道音频分段进行特征值计算，每段时长为50ms，对于16kHz采样率，50ms对应得音频的序列点数为l＝800，对该序列求能量均方值，并取对数，作为16维的特征值。设单个通道的输出语音为yi(n)，特征值为mi，则有

第二部分：特征识别

步骤1全连接层：将第一部分特征提取得到的16维特征值输入第一层神经网络，该层为全连接层，激活函数为relu，节点数为16。训练完毕的全连接层提供16×16维权值，以及16个节点的偏置值，则经过第一层全连接层处理后的输出为：

步骤2GRU层：第一层全连接层16节点输出值q_i入到第二层神经网络，该层为GRU层，激活函数为sigmoid和tanh，节点数为16。训练完毕的GRU层提供权值和偏置值，GRU层处理的计算过程为：

h_i(t)＝(1-z_i(t))×h_i(t-1)+z_i(t)×h′_i(t)

步骤3全连接层：将GRU层输出值输入至第三层神经网络，该层为全连接层，激活函数为softmax，节点数为5，最后输出对应的声场类型。其计算过程为：

至此完成了全部的特征提取和特征识别过程。

实验验证

为验证全相位滤波器组的滤波与合成性能，基于MATLAB进行了仿真实验。图1-2是全相位滤波器组的16通道频率响应图。

输入实际语音对全相位滤波器组进行测试，实验所用的语音信号是一段时长约为7s的音频信号。音频采样频率为f_s＝16kHz，采样总长度L＝124800，图为该语音经过滤波器组分解后的输出波形。

为测试经过全相位滤波器组处理的音频信号是否失真，将滤波器组合成的音频信号与输入的原音频信号进行互相关计算，下图为合成语音的频率响应图及互相关值的计算结果，原音频和滤波器组处理后音频互相关值达到了0.99584，因此无论从语谱图还是互相关值上来看，经过全相位滤波器组处理的音频是几乎没有失真的。请参阅图3-4所示。

为测试该声场识别系统的识别率，录制了五种声场环境的音频，分别为家中安静环境(小声交谈，睡眠等)，家中嘈杂环境(如吸尘器，抽油烟机打开)，马路嘈杂环境，食堂餐厅嘈杂环境，其他环境(超市，商场，地铁等)，采样率为16kHz。将采集到的音频数据经过设计的声场识别系统进行声场分类处理，经测其识别率达到了94.7％。

基于上述的处理方法，下面对实施本发明的硬件予以简单说明。

图6是声场识别系统的整体框图，分为16通道全相位滤波器组模块和三层RNN模块。采用的硬件描述语言(HDL)是verilog语言。

全相位滤波器组部分为输入模块，滤波计算模块，参数模块，控制模块，合成输出模块，特征值计算模块共6个模块。

输入模块：的作用是对输入的音频数据进行缓存，对于256阶的全相位滤波器组来说，由于256个序列点的抽头系数是中心对称的，即h(n)＝h(256-n)，将抽头系数相等的序列点进行相加之和再乘相同的抽头系数h，这样就可以节省乘法器的使用量，因此在进行加法计算之前设计了256个移位寄存器对输入音频进行缓存，然后根据控制模块输出的地址，通过数据选择器选择系数相等的序列点输入滤波计算模块进行计算。

参数模块：参数模块中存储全相位滤波器组16个通道的抽头系数，本设计中抽头系数位宽为18位，滤波器组的阶数为256，每两个音频数据点对应的抽头系数相同，因此一共有16×128＝2048个抽头系数存储在参数RAM中。

计算模块：考虑到数字助听器的功耗及IC面积限制，计算模块在硬件设计过程中需要考虑优化的设计方法。本设计中选择了4个全相位滤波器并行的计算结构，完成16个通道需要复用4次该结构。对于16kHz采样率，音频数据输入周期为T1＝1/16k＝62500ns，系统的工作时钟频率为10MHz，完成一次4通道的计算所需的时间为1/10M×130＝13000ns，完成16通道的计算所需时间为13000×4＝52000ns，因此这种设计能够满足时序要求。资源上需要8个加法器和4个乘法器，与并行计算方式相比节省了面积，与串行计算方法相比缩短了时间。单个滤波器结构简单，如图7所示，一个对系数相同的输入数据进行相加的加法器adder，完成相加结果与滤波器组抽头系数相乘的乘法器mul，以及最后进行累加的加法器adder。在两个加法器之后都插入了一级寄存器register进行流水线设计。

控制模块：控制模块是完成计算的关键，控制模块负责向输入音频模块和参数模块提供读地址，同时控制着输入音频和抽头次数的读取，也负责向输出模块提供写地址并控制输出模块的写入。

合成输出模块：全相位滤波组的合成十分简单，只需将各通道输出语音相加即可。

特征值计算输出模块：对全相位滤波器组输出的16通道音频进行特征值计算。对于10ms的帧长，音频序列点共有10ms/(1/16k)＝160个，对160个数据求平方并相加，最后取对数。本设计中求平方和取对数运算使用了查找表。

三层循环神经网络模块分为参数模块，控制模块和全连接层计算模块和GRU层计算模块5个模块。

三层RNN的参数模块内存储着三层神经网络计算所需的所有权值和偏置参数。这些参数由在Tensorflow平台将三层RNN训练完毕后得到，硬件实现时存储在RAM内，在RNN进行计算时根据提供的地址向计算模块提供对应的权值和偏置参数。

第一层全连接层和第三层全连接层的计算单元相同，如图8所示，其硬件设计十分简单，仅需一个乘法器和一个加法器，在乘法器和加法器之后都插入了一级寄存器进行流水线设计。GRU层的计算单元如图9所示，由于GRU所涉及的乘法运算量较全连接层更多，这里设计了两个乘法器与一个加法器的结构，同样在乘法器和加法器之后分别插入一级寄存器进行流水线设计。

三层RNN模块中的控制模块最为关键，该控制模块控制参数模块的读取，负责向参数模块提供计算模块所需参数的地址，同时负责计算单元的计算使能，累加次数控制及清零控制。

本发明提出的基于循环神经网络的数字助听器声场识别算法及硬件实现方法，可以产生如下有益效果：

1.所设计的全相位滤波器组能够对音频进行滤波分析与合成，并且效果良好，经过该滤波器组处理的音频与原输入音频相比几乎没有失真。由于助听器中一系列的算法处理包括动态压扩，听力补偿，噪声消除和啸叫抑制等都是在滤波器组滤波分析后的各通道上进行的，因此该滤波器组除了用于声场识别的特征提取之外，还可以在助听器中作为专用的音频分析与合成滤波器组。

2.所设计的三层循环神经网络结构简单，节点数少，易于硬件实现并且节约资源，同时比常用的传统分类器相比的识别率更高。

3.应用在助听器中可自动实时地判断出当前助听器用户所在的声场环境，助听器可根据声场类别相应改变听力补偿、降噪参数等，使其自动调整到更加适宜的助听模式，提高言语可懂度和舒适度，让助听器用户得到更好的使用体验。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于循环神经网络的数字助听器声场识别算法，其特征在于，包括步骤：

步骤S1的具体步骤如下：

S11.样本分段：

以一定的采样速率对音频采样，获得L个样点，然后分段处理，生成各个子分段X(k-N+1,k-N+2,…,k+N-1),其中N＝256，k＝N,N+1,…,L-N,X包含2N-1个样点；

S12.确定长度为N的目标频率向量H；

根据bark域转换公式确定bark域范围，对bark域进行通道数量均分得到一系列bark域等距点，再由Bark域最小频率得到bark域各频带范围；根据逆变换公式f＝((bark+0.53)*1960)/(26.28-bark)计算线性频带分布，进而确定滤波器组的频率向量H；

S13.计算滤波器系数向量hi；

对频率向量H进行IFFT得到hi＝[h(0)h(1)…h(N-1)]^T，i＝1,2,…,16.按照FIR滤波器构造方式将hi扩展为长度2N-1的系数，即hi＝[hi(0),hi(1),…,hi(N-1),hi(1),…,hi(N-1)]；

S14.双窗全相位滤波处理：

用长度为N的前窗f、后窗b进行卷积得到卷积窗win,然后对卷积窗win归一化处理，w(m)＝win(m)/max(win(m)),m＝-N+1,…,N-1；

S15.计算滤波器组抽头系数h1i：将卷积窗w(k)与滤波器系数向量hi相乘，取前256个系数作为抽头系数h1i，h1i＝[h(0),h(1),…,h(N-1)]；

S16.滤波输出计算：

将2N-1个X按抽头系数相等的样本点进行相加，然后将X与滤波器组抽头系数h1i进行相乘累加，即得到一个通道滤波器的输出；对于序列长度为L的音频数据，经过16通道滤波器组处理后输出16×L的音频数据；一个通道滤波器的输出为

S17.特征值计算：对序列长为L的16通道音频分段进行特征值计算，得到16维特征值；

式中，y_i(n)为单个通道的输出语音，x_i为特征值；

步骤S2的具体步骤如下：

S21.将得到的16维特征值x_i输入第一层神经网络，该层为全连接层，激活函数为relu，节点数为16；训练完毕的全连接层提供16×16维权值以及16个节点的偏置值，则经过第一层全连接层处理后的输出为：

S22.将第一层全连接层16节点输出值q_i入到第二层神经网络，该层为GRU层，激活函数为sigmoid和tanh，节点数为16；训练完毕的GRU层提供权值和偏置值，GRU层处理的计算过程为：

h_i(t)＝(1-z_i(t))×h_i(t-1)+z_i(t)×h′_i(t)

式中，w表示权值，b表示偏置值，

S23.将上一步的GRU层输出值输入至第三层神经网络，该层为全连接层，激活函数为softmax，节点数为5，最后输出对应的声场类型；其计算过程为：

S3.根据不同的声场环境相应地调整助听器的特性参数。

2.基于循环神经网络的数字助听器声场识别算法的硬件实现方法，其特征在于，包括：

设置全相位滤波器组进行特征提取的提取，以及设置由三层循环神经网络模块构成的特征识别模块以进行特征的识别；

所述全相位滤波器分为输入模块，参数模块，滤波计算模块，控制模块，合成输出模块，特征值计算模块；

输入模块，用于对输入的音频数据进行缓存，然后根据控制模块输出的地址，通过数据选择器选择系数相等的序列点输入滤波计算模块进行计算；

参数模块，用于存储全相位滤波器组16个通道的抽头系数；

渗滤计算模块，采用4个全相位滤波器并行的计算结构，完成16个通道需要复用4次该结构；单个滤波器包括一个对系数相同的输入数据进行相加的加法器，完成相加结果与滤波器组抽头系数相乘的乘法器以及最后进行累加的加法器；在两个加法器之后都插入了一级寄存器进行流水线设计；

控制模块，用于负责向输入音频模块和参数模块提供读地址，同时控制着输入音频和抽头次数的读取，也负责向输出模块提供写地址并控制输出模块的写入；

合成输出模块，用于将各通道输出语音相加合成后输出；

特征值计算输出模块，用于对全相位滤波器组输出的16通道音频进行特征值计算；

所述特征识别模块分为特征识别参数模块，特征识别控制模块、第一全连接层计算模块、GRU层计算模块、第二全连接层计算模块；

特征识别模块的三层RNN的参数模块内存储着三层神经网络计算所需的所有权值和偏置参数，所述参数由在Tensorflow平台将三层RNN训练完毕后得到，硬件实现时存储在RAM内，在RNN进行计算时根据提供的地址向计算模块提供对应的权值和偏置参数；

第一层全连接层计算模块和第二层全连接层计算模块的计算单元相同，包括一个乘法器和一个加法器，在乘法器和加法器之后都插入了一级寄存器进行流水线设计；所述GRU层计算模块，包括两个乘法器与一个加法器，在乘法器和加法器之后分别插入一级寄存器进行流水线设计；

该特征识别控制模块，用于控制特征识别参数模块的读取，负责向特征识别参数模块提供计算模块所需参数的地址，同时负责计算模块的计算使能，累加次数控制及清零控制。