CN112908353A

CN112908353A - 用于助听器的边缘计算与云计算相结合的语音增强方法

Info

Publication number: CN112908353A
Application number: CN202110149675.2A
Authority: CN
Inventors: 陈霏; 郎标
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-04

Abstract

本发明公开一种用于助听器的边缘计算与云计算相结合的语音增强方法，包括步骤：利用纯净语音数据与噪声数据，根据不同信噪比合成带噪语音，形成云计算用的语音数据；利用云计算用的语音数据训练神经网络，通过不断优化网络结构与网络各层参数，得到语音增强网络；将得到的语音增强网络应用于边缘设备助听器中进行边缘计算，获取实时语音预处理，输入语音增强网络，得到增益，然后将增益与带噪语音数据相运算，得到增强后的语音数据。本发明将云计算与边缘计算相结合，实现了数字助听器的语音增强。

Description

用于助听器的边缘计算与云计算相结合的语音增强方法

技术领域

本发明属于助听器噪声消除算法以及音频信号处理技术领域，具体涉及用于助听器的边缘计算与云计算相结合的语音增强方法。

背景技术

听力损失是现今常见的几种慢性疾病之一，尤其多发于老年人。我国是世界上听力残疾人数最多的国家。据统计，我国的听力残疾人约2780万人，占全国残疾人的30％以上，而佩戴助听器是现阶段除药物治疗外最主要的治疗方式。

在助听器的使用过程中，会处于各种不同的环境中，助听器不可避免地会受到周边语音环境的影响，使得用户听到的语音信号的清晰度下降，极大地影响了助听器助听的功能。传统的助听器语音增强算法难以应对生活中较为常见的非平稳噪声,因此助听器的语音增强功能至关重要。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种用于助听器的边缘计算与云计算相结合的语音增强方法，将云计算与边缘计算相结合，用于数字助听器的语音增强。

为实现本发明的目的所采用的技术方案是：

一种用于助听器的边缘计算与云计算相结合的语音增强方法，包括步骤：

利用纯净语音数据与噪声数据，根据不同信噪比合成带噪语音，形成云计算用的语音数据；

利用云计算用的语音数据训练神经网络，通过不断优化网络结构与网络各层参数，得到语音增强网络；

将得到的语音增强网络应用于边缘设备助听器中进行边缘计算，获取实时语音预处理，输入语音增强网络，得到增益，然后将增益与带噪语音数据相运算，与带噪语音的相位进行波形重构输出增强后的语音数据。

其中，利用语音数据训练神经网络的数据处理方法如下：

对语音数据特征提取，包括对语音数据分帧、加窗处理，得到语音数据分帧、加窗后的时域采样点数据；对时域采样点数据进行梅尔通道数划分；

计算每个梅尔通道语音数据的对数能量与增益，并作为神经网络的输入与输出，对所述神经网络进行训练。

其中，所述增益的计算方法如下：

G＝(Es/Ey)^1/2

其中，G为增益，Es为纯净语音的能量，Ey为带噪语音的能量，y(t)为带噪语音的幅度，s(t)为纯净语音的幅度，y(t)为带噪语音的幅度,N为语音数据的长度。

其中，所述梅尔通道数根据以下方法划分：

mi＝2840*i/n，

其中，n为总通道数；

Fs>＝2fmax，

其中，Fs为信号的采样率，语音最大频率fmax为8KHz；

m＝1127Ln(1+f/700)，

其中，f为语音频率，m为对应的音高，梅尔范围为0-2840Mel，将该梅尔范围按照频段数平均划分，得到梅尔边界向量[0,m1,m2....mi,2840]。

其中，所述增强后语音数据获取公式如下：

S(t)＝G·y(t)

其中，G为增益，y(t)为带噪语音数据。

本发明将边缘计算与云计算结合起来，由于分别训练不同噪声环境下的网络，因此可做到环境自适应，即不同环境下采用相同的网络结构，不同的网络参数，然后交由边缘端的神经网络处理，得出输出增益值，以便助听器进行语音降噪、语音识别等进一步语音处理。本发明还可记录边缘端接收到的语音进行上传到云端，有助于进一步改良网络的性能。

附图说明

图1是本发明用于助听器的边缘计算与云计算相结合的语音增强方法的整体流程图。

图2是本发明所用的云计算与边缘计算的系统结构示意图。

图3是本发明的云计算结构示意图。

图4是本发明的边缘计算结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

本发明利用云计算平台构建一种计算力更强、处理复杂性更高的云训练平台，以解决现有助听器计算力不足、处理能力弱等问题，此外，将边缘计算应用于助听器，边缘计算将云训练效果最优秀的方法应用于助听器，其复杂性低，更加适用于助听器这样的实时处理设备。

本发明用于助听器的边缘计算与云计算相结合的语音增强方法，其是通过将助听器接收到的语音信号进行预处理后，交由云端发送给边缘端的RNN循环神经网络进行运算，从而得出语音的增益值。

如图1所示，本发明用于助听器的边缘计算与云计算相结合的语音增强方法，包括以下步骤：

利用云计算用的语音数据RNN循环训练神经网络，通过不断优化网络结构与网络各层参数，得到语音增强网络；

将得到的语音增强网络应用于边缘设备助听器中进行边缘计算，边缘端获取助听器收集到实时语音预处理，输入RNN语音增强网络(即训练好的RNN循环训练神经网络)，得到增益，然后将增益与带噪语音数据相运算进行后处理，之后再将提取带噪语音的特征数据与带噪语音的相位进行波形重构，输出增强后的语音数据。

使用时，将助听器收集到的语音数据预处理，提取特征后，输入到RNN循环训练神经网络计算相应的增益输出到，然后将增益与带噪语音数据相运算进行后处理，之后再将提取带噪语音的特征数据与带噪语音的相位进行波形重构，输出增强后的语音数据。

本发明中，在云端是将语音数据经过预处理的特征提取后作为RNN循环神经网络的输入，语音的增益为输出，对RNN神经网络进行训练，并将训练完成后的RNN神经网络应用于数字助听器中。

本发明中，所述的带噪语音数据，是由助听器所采集后传送云端以实现云计算使用。

其中，利用语音数据RNN循环训练神经网络的数据处理方法如下：

本发明中，所述的助听器处于助听模式时，所述的助听器将不再依靠云计算，而是依赖于边缘计算，通过将助听器收集到的带噪语音数据作为输入，经过相应的特征提取的步骤，便能经过RNN循环神经网络算出增益，利用后处理，即将增益值与带噪语音数据相乘，与带噪语音的相位进行波形重构输出增强后的语音。其中，使用带噪语音的相位进行波形重构的原因是人耳对于相位信息的表现不敏感。

其中，所述的增益(Gain)的计算方法如下：

G＝(Es/Ey)^1/2

其中，G为增益，Es为纯净语音的能量，Ey为带噪语音的能量，s(t)为纯净语音的幅度，y(t)为带噪语音的幅度,N为语音数据的长度。

其中，所述梅尔通道数根据以下方法划分：

mi＝2840*i/n，

其中，n为总通道数；

Fs>＝2fmax，

其中，Fs为信号的采样率，语音最大频率fmax为8KHz；

m＝1127Ln(1+f/700)，

其中，所述增强后语音数据获取公式如下：

S(t)＝G·y(t)

其中，G为增益，y(t)为带噪语音数据。

图2是本发明用于语音增强的云计算与边缘计算的系统结构示意图。如图2所示，由云计算进行网络的搭建与训练，之后发送给边缘计算；而边缘计算利用网络结构进行相应的语音增强，并把接受到的带噪语音数据发送到云端，便于网络的优化。

图3是本发明用于语音增强的云计算结构示意图。如图3所示，神经网络分为输入层、隐藏层、输出层三层。云计算分为两个过程：前向传播与反向传播；表达式如下：

Y＝activation(w*x+b)，

式中，w为神经网络隐藏层的权重，b为偏置，activation为所使用的激活函数，Y为前向传播的输出。反向传播即利用损失函数的导数来来寻找其最优值，损失函数越小，表明训练的网络性能越优秀。

图4所示是本发明用于语音增强的边缘计算结构示意图。如图4所示，即带噪语音输入到预先训练好的网络中，计算出增强的语音增益。相比于云计算，边缘计算的复杂度明显更低、所需计算力更小，能够用于实时的助听器系统中。

本发明将边缘计算与云计算运用于助听器语音增强算法中,由于将复杂的网络训练运用在云端，避免了高复杂度，使得算法具有低复杂性、实时性强的优势，此外，本发明采用环境自适应的语音增强，即分别训练不同噪声环境下的网络，这样可以大大提高语音增强的准确率，大大提升助听器使用者的使用体验。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.用于助听器的边缘计算与云计算相结合的语音增强方法，包括步骤：

2.根据权利要求1所述用于助听器的边缘计算与云计算相结合的语音增强方法，其特征在于，利用语音数据训练神经网络的数据处理方法如下：

3.根据权利要求2所述用于助听器的边缘计算与云计算相结合的语音增强方法，其特征在于，所述增益的计算方法如下：

G＝(Es/Ey)^1/2

4.根据权利要求2所述用于助听器的边缘计算与云计算相结合的语音增强方法，其特征在于，所述梅尔通道数根据以下方法划分：

mi＝2840*i/n，

其中，n为总通道数；

Fs>＝2fmax，

其中，Fs为信号的采样率，语音最大频率fmax为8KHz；

m＝1127Ln(1+f/700)，

5.根据权利要求1所述用于助听器的边缘计算与云计算相结合的语音增强方法，其特征在于，所述增强后语音数据获取公式如下：

S(t)＝G·y(t)

其中，G为增益，y(t)为带噪语音数据。