CN109121057A

CN109121057A - 一种智能助听的方法及其系统

Info

Publication number: CN109121057A
Application number: CN201811001803.3A
Authority: CN
Inventors: 陈赤榕; 李彦涛
Original assignee: Beijing Lintong Technology Co Ltd
Current assignee: Beijing Lintong Technology Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-01
Anticipated expiration: 2038-08-30
Also published as: CN109121057B

Abstract

本发明公开了智能助听的方法及其系统，涉及计算机技术领域。该方法的一具体实施方式包括：获取采集的语音数据，采用频域消除回音；根据消除了回音的语音数据，提取噪音数据进行噪音分类学习以获得噪音分类结果；根据噪音分类结果，对消除了回音的语音数据进行噪音抑制处理，以获得降噪后的语音数据并播放。该实施方式能够解决现有技术中助听器用户体验差、成本高的问题。

Description

一种智能助听的方法及其系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种智能助听的方法及其系统。

背景技术

传统的助听器是一种微型可穿戴设备，人们通常把这些带入耳内，以帮助听力的改进。传统定义上的助听器主要包含的元件有：传声器(microphone，音译为麦克风)、放大器(ampl ifier)、受话器(receiver，耳机)、电池、各种音量、音调控制旋钮等电声学器件组成。其中放大器(amplifier)是最核心部分，用来处理声音信号，包括降噪、回音抑制、动态增益等音学算法功能。传统的降噪耳机和助听器原理相仿，通过物理降噪，隔离人耳和噪音环境，如外包式耳机或是入耳式耳机，通过降噪、放大等算法，在不影响正常交流的情况下，避免噪音对听力的影响。其中，传统助听器和降噪耳机的算法部分是使用DSP微型芯片实现。另外，两个耳朵是两个单独系统，可以单耳配助听器。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

首先，传统助听器的算法部分是使用DSP微型芯片实现，但是由于体积和重量的限制，其功率有限，很多精准的算法因为计算能力而无法实现，噪音无法被有效消除，导致了助听器在放大语音同时，将噪音也放大了，这是验配助听器后患者普遍不适应的主要原因之一。而且，传统助听器采用的封闭模式，降噪算法是普适性的，无法针对不同噪音环境调整，因此算法没有针对性、复杂度高，效果局限性较大。

其次，传统助听器采用固化的程序，无法针对多种场景进行开发，例如在户内患者需要听清楚语音，对于高频音乐没有要求，而在户外为了安全对于各种自然声音如汽车鸣笛等有要求。

再者，传统助听器采用双耳分别处理，处理的延时和相位的变化，破坏了声音的定位和平衡。

另外，由于患者的听力是动态变化的，因此每间隔一段时间，患者需要到医院调整助听器配置，其过程复杂也使得患者不能很高频度的根据自己的变化调整设备，目前新设备出现了支持手机验配过程，但是手机测听误差较大，过程也很复杂。还有，受到体积和重量的限制，处理DSP需要严格控制功耗，这推高了系统成本。同时，DSP系统是将听力处理算法软件固化在硬件上，无法升级。当产品的升级换代时，原有的助听器被废弃掉，用户不得不购买新的助听器，带来了客户的费用的提高。

发明内容

有鉴于此，本发明实施例提供一种智能助听的方法及其系统，能够解决现有技术中针对助听器的上述问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种智能助听的方法，包括获取采集的语音数据，采用频域消除回音；根据消除了回音的语音数据，提取噪音数据进行噪音分类学习以获得噪音分类结果；根据噪音分类结果，对消除了回音的语音数据进行噪音抑制处理，以获得降噪后的语音数据并播放。

可选地，还包括：

将降噪后的语音数据经过自动增益的处理，传递给放大器处理以进行语音播放。

可选地，还包括：

在预设的各个频点进行测听，以获得在各个频段上的增益值；

将各个频段上的增益值传递给放大器，以作为补偿的输入参数。

可选地，采用自适应滤波NLMS的MDF频域进行回音的消除。

可选地，所述提取噪音数据，包括：

对消除了回音的语音数据使用VAD算法，将没有语音部分数据作为噪音提取出来。

可选地，所述噪音分类学习、噪音抑制处理以及自动增益都采用的是RNN GRU模型。

可选地，噪音数据通过RNN GRU模型的噪音分类学习获得噪音分类标签。

可选地，采用RNN GRU模型实现噪音抑制处理是通过语音和噪音分离算法来实现，并且把理想二值掩蔽作为计算目标。

可选地，采用RNN GRU模型自动增益处理的输入包括倒谱系数、长时间能量最大值、过零率和信号的相位群，进而输出频谱上的增益值。

另外，根据本发明实施例的一个方面，提供了一种智能助听的系统，包括客户端包括测试模块和实时语音处理系统，实时语音处理系统通过回音抑制模块、噪音场景选择模块、噪音抑制模块、自动增益控制模块和分频放大器实现；后台系统包括噪音特征学习、噪音抑制学习和智能增益学习，依次对应的分别为客户端的噪音场景选择模块、噪音抑制模块、自动增益控制模块提供基于RNN GRU模型的数据处理。

根据本发明实施例的另一个方面，还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一智能助听实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一智能助听实施例所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：本发明采用利用手机计算能力替代传统助听器的DSP计算，极大降低助听器的获得成本，也利用手机的通信能力，通过联系远程的互联网上的数据中心的计算资源，使用人工智能来自动区分场景和使用针对性的智能降噪算法。同时，通过提供即时测听能力，抵消硬件设备引入的测量误差，让助听能力不再严重依赖标准的助听测试，极大方便助听患者调整适应。另外，双耳的数据都通过一个计算中心，也使得方位和平衡问题解决成为可能。

还值得说明的是，本发明中所涉及的算法流程可以采用后台学习，前台客户端做实时处理的方式，其中实现在手机上实施客户端的计算，也可将客户端的算法主体实现在有计算能力的计算机和其他设备上。例如：降噪算法，目前实现在手机上，也可将算法主体实现在有计算能力的通讯设备上。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例应用于客户端的智能助听的方法的主要流程的示意图；

图2是根据本发明实施例应用于后台系统的智能助听的方法的主要流程的示意图；

图3是根据本发明实施例智能助听的系统的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

作为实施例，本发明利用客户端(例如：手机)的计算能力，以及利用耳机(例如：手机的耳机、蓝牙耳机以及专门的双麦克风的耳机)，来完成传统的助听器的工作，同样的也能够成为降噪耳机来使用。

为了克服传统助听器的噪音和放大问题，本发明引入了人工智能(AI)算法，降低终端算法复杂度的同时，提高声音质量，降低噪音。

值得说明的是，可以使用手机耳机(包括有线耳机、无线蓝牙耳机、专门制作的左右耳带麦克风的可入耳的专门降噪耳机)，作为声音的采集源和输出设备，通常的有线耳机，可以达到120dB的输出功率，而蓝牙耳机的输出功率较低，也能够达到100dB左右，一般助听在85dB以上，需要使用人工耳蜗来实现，因此普通耳机作为助听器的物理条件是满足的。

并且，本发明声音的处理可以利用手机技术能力来实现，由于支持双耳采集同步，使用了更多更有效的算法，包括，噪音分类算法，噪音抑制算法和自动增益算法。例如：前述的算法可以由互联网后台服务器支持，通过深度学习来实现，手机使用后台分布技术的学习输出结果，结合手机应用，完成实时语音处理。

还需要说明的是，本发明可以但不仅限于能够应用于助听器和降噪耳机等场景中，例如：可以替代传统的“传声器(microphone，音译为麦克风)、放大器(amplifier)、受话器(receiver，耳机)”的基于DSP芯片制造的3-in-1的助听器。

图1是根据本发明实施例的智能助听的方法的主要流程的示意图，应用于客户端，所述智能助听的方法可以包括：

步骤S101，获取采集的语音数据，采用频域消除回音。

较佳地，采用自适应滤波NLMS的MDF频域实现回音的消除，进而能够有效降低运算量。其中，NLMS为归一化LMS(normalized LMS)算法。而所述的MDF为延时多频域算法。

进一步地，回音抑制的输入是采集到的语音数据，和24bar频段的能量谱数据，回音抑制输出的是消除回音后的语音数据和24bar频段的能量谱。

值得说明的是，在具体的实施例中音频采集数据是一个16bits的双字节整数，因此采集到的语音数据格式如下：

shortpcm[FRAME_SIZE]；

这里FRAME_SIZE是10ms的采样数乘以通道数，对于16000采样率，双声道是320，STFFT是两个帧即20ms语音数据做一次，STFFT输出的是复数，STFFT结果同样是FRAME_SIZE个，因此结果是：

shortfft[FRAME_SIZE][2]

通过对STFFT结果取复数的绝对值平方，得到每个频点的能量谱值，为：

int32_t ps[FRAME_SIZE]

对能量谱ps使用bark滤波器，得到双声道24bark频段的能量谱：

int32_t bps[48]；

同样的，对能量谱ps使用mel滤波器，得到双声道32mel频段的能量谱：

int32_t melps[64]；

对melps做dct变换，即得到mel到普系数：

int32_t mffc[64]。

上述计算的语音数据用于后续处理，其后续处理都是使用定点算法，以降低计算量。

步骤S102，根据消除了回音的语音数据，提取噪音数据以发送至后台系统。

在实施例中，对语音数据提取噪音，递交给后台系统学习以进行噪音分类学习。

较佳地，对消除了回音的语音数据使用VAD算法，将没有语音部分数据作为噪音提取出来，递交给后台系统进行噪音分类学习。具体地，后台系统采用的是监督学习，输入的是噪音的倒谱系数，输出是标签。

进一步地，噪音分类学习的输入是噪音的倒谱系数，取单声道160个，同时，后台系统采用的是RNN GRU模型，所述RNN GRU模型是隐含输入数据，而输出的是噪音环境即选择的噪音环境的标签，如户内、户外以及用户添加的各种标签。其中，RNN GRU模型是循环神经网络中的门控循环神经网络。

需要说明的是，由于使用场景的变化是小概率、低频度的，因此在初始进入时，根据前30s的噪音数据进行噪音分类学习，其后基本保持不变，只有当持续大于一分钟以上，噪音分类结果固定在一个确定值。如果噪音分类结果的场景变化，并提示用户场景改变。场景改变可以支持系统基于环境噪音分析所做的自动切换模式，也支持人工干预选择场景模式。

步骤S103，接收后台系统的噪音分类结果，对消除了回音的语音数据进行噪音抑制处理，以获得降噪后的语音数据。

在实施例中，本发明的噪音抑制处理采用的是人声和噪音分离的深度学习模型，分辨噪音和人声的特征，从而分离出人声，达到降噪的目的。

需要说明的是，在进行噪音抑制处理的时候需要将语音数据发送至后台系统使用训练好的RNN GRU模型，来计算理想二值掩蔽，分离语音和噪音。较佳地，在后台系统使用训练好的RNN GRU模型时噪音抑制的输入，包括了语音数据的能量谱(ps)，频率尺度(bark)和梅尔频谱(mel)能量谱、梅尔倒谱特征(melps)以及梅尔频率倒谱系数(mfcc)，通过RNN GRU模型计算，输出的是每个频率的信噪比，根据信噪比确定IBM(理想二值掩码)的数值，即如果频率上噪音比语音能量大(信噪比小于1)则IBM值为0，否则IBM值为1。进一步地，通过将IBM值乘以能量谱ps值，则获得各个频率在降噪后的能量值。

步骤S104，将降噪后的语音数据经过自动增益的处理，发送给放大器。

在实施例中，降噪后的语音数据经过自动增益的处理时包含两个部分，一方面是采集语音增益的处理，该增益是通过学习产生的，对于不同特征的语音，增益目标值不同。听力学指出，声音中95％以上的能量是元音能量，辅音能量小于5％，但是对语音理解的贡献，辅音占到95％，即5％能量对理解语音的比重占到95％，提高语言理解是助听器的主要目标，传统助听器受资源制约，不能够针对性放大，这里自动增益，根据输入语音的特征，做针对性的增益，目标是提升语言理解能力。另一方面是自动增益对自己声音做衰减，通过学习，自动分离自己声音和其它对话者的声音，避免因为自己声音过大导致饱和，或者压低了对方的声音。

进一步地，在将降噪后的语音数据进行自动增益处理时可以通过将降噪后的语音数据递交至后台系统，后台系统通过使用训练好的RNN GRU模型，计算目标增益的大小，计算结果是每个频带的增益值，并将每个频带的增益值返回给客户端。

步骤S105，通过放大器处理后进行语音播放。

优选地，采用了多频道放大器，例如24频带分频放大器。具体地：基于频域通过线性插值，计算出24频段每个频段的增益，作用到离散傅里叶变换的数值上，通过逆傅里叶变换，最终到达处理后的语音通过播音系统播放，即输出至左右声道。

在另一个实施例中，在进行语音播放之前，还可以对用户的听力进行测试，以获得用户听力在各个频段上的受损情况，进而做出补偿。具体的实施过程包括：

根据听力测听要求，按照1000Hz，2000Hz，4000Hz，6000Hz，8000Hz，500Hz，250Hz，125Hz顺序进行频点测试，在每个频点上按照下面公式产生音频数据：

V[i]＝65535×sin(2π×i×F÷S)

其中，i是采样序号，从0开始。F为所述的测试频点。S是采样率，其与播放系统支持的采样率有关，例如手机最高能够支持48000，按照这个采样率获得的是16位的语音数据，左右声道分别测试。

在进行测试时，初始化语音的音量以20dB为初始值进行测试，调整音量直至用户刚刚能够听到为该频率的增益值。按照前述方式，可以得到左右声道的每个频点的听力增益值。值得说明的是，试听时的dB值越高，在该频点上的增益就越高。最后，获得的每个频段的增益值传递给多频道放大器，作为补偿的输入参数。

也就是说，在通过放大器处理进行语音播放时，可以将测试得到的各个频率的增益值和自动增益获得的每个频带的增益值作为放大器的输入。

另外，相较于传统助听器的放大配置，根据听力患者的测试结果，换算成多通道放大器的每个放大器的放大系数，由于不同麦克风和喇叭的硬件对不同的频率响应都不相同，因此需要采用测试系统的标准值，来调整不同的助听器，其中误差要靠测听师靠经验来消除，也导致了许多使用者的不适。本发明的听力测试，自带测听，可以随时测试，并且测听和助听这两大功能是在同一终端设备上一体进行的，直接包含设备的影响作为听力基线的一部分，测听结果无需做系统校准，因此能够更适配患者的听力情况，为听力患者提供了及时服务，省去了定期到医院调整的麻烦。

根据上面所述的各种实施例，本发明所述的智能助听方法颠覆了传统助听器，引入终端和云端，最重要的是将封闭的传统助听器与互联网打通，新的技术和计算能力可以被带入到助听器中。进一步来说，本发明所述的智能助听方法将语音信号的处理从一个小的特制的DSP芯片上，移到终端和云端，计算技术和能力可以大幅度提高，新的算法被引进，特别是AI技术。从用户而言，相应的噪音处理效果等也大幅度改善。并且，用户的使用场景和参数可以随时调整。同时，本发明所述的智能助听方法可以大幅度降低成本，大幅度提高效率。

还值得说明的是，通过上面所述的方法可以实现本发明的助听功能，而本发明的上述方法还可以应用于降噪耳机，只不过不需要进行步骤S104和S105，直接将降噪后的语音数据通过播音系统播放。

图2是根据本发明实施例的智能助听的方法的主要流程的示意图，应用于后台系统(例如服务器)，所述智能助听的方法可以包括：

步骤S201，接收客户端发送的噪音数据，通过噪音分类学习模型获得噪音分类结果。

在实施例中，在根据噪音数据通过噪音分类学习模型进行噪音分类时，可以基于短时傅立叶变换的特征，在16KHz的采样率下，用50％的重叠的320个采样点(20ms)的汉明窗得到短时傅立叶变换系数，之后取前160个系数，取绝对值(取得的绝对值就是语音数据的能量谱ps值)，然后开三次方，并将其规范化到零均值、一方差，以作为噪音分类学习模型的输入值。

而噪音分类学习模型处理后的输出值是类型值即标签，在噪音分类学习模型初始化时，噪音类型有户内和户外之分，还可以进一步地建立更细化的场景，如火车站、飞机场、咖啡厅、街道、景区等等。需要说明的是，可以对噪音分类学习模型持续学习，优化户内和户外场景的噪音处理，对于特定场景，数据积累到一定程度便可以增加场景。

较佳地，噪音分类学习模型使用Keras构架，后端使用的是Tensorflow，支持分布式计算，实现3层RNN GRU模型。

RNN GRU模型数据的结构如下：

其中，nb_inputs是输入的数据个数，nb_neurons是输出的数据个数。bias、input_weights和recurrent_weights分别是基础值、输入的权重、递归权重值。activation是处理函数，目前支持0是tanh，1是sigmod，2是relu。GRU模型的计算可以简单理解成为：output＝activation(input)*input_weights+status*recurrent_weights+bias

其中，status是上次的输出值，初始化值是全0值。

步骤S202，根据噪音分类结果，对接收的语音数据进行噪音抑制处理，以获得降噪后的语音数据。

在实施例中，噪音抑制是通过语音和噪音分离算法来实现的，并且把理想二值掩蔽作为计算目标。较佳地，采用RNN GRU模型实现噪音抑制处理。其中，在训练RNN GRU模型用于噪音抑制的时候，把理想二值掩蔽作为训练目标，而测试时再用训练好的RNN GRU模型来预测理想二值掩蔽，使用的输入特征是语音短时傅里叶变换的振幅谱。

进一步地，在RNN GRU模型用于噪音抑制的时候，按照监督学习模式，RNN GRU模型的输入基于短时傅立叶变换的特征，在16KHz的采样率下，用50％的重叠的320个采样点(20ms)的汉明窗得到短时傅立叶变换系数，之后取前160个系数，取绝对值(取得的绝对值就是语音数据的能量谱ps值)，然后开三次方，并将其规范化到零均值、一方差。最后再向前扩展两帧，每帧的特征包含160x3＝480维，作为噪音抑制的输入。其中，所述的向前扩展两帧是指取前面的两帧计算结果。

而RNN GRU模型的输出是掩码函数，相当使用原始信号(处理前的语音信号)的幅度乘以每个频点上的语音信号增益，就是语音频谱。噪音频谱是原始信号幅度减去语音信号幅度。其中，所述的语音信号幅度是指频谱的幅度值，可以通过FFT变化后的复数取模得到。

需要说明的是，可以在客户端根据语音数据进行噪音抑制RNN GRU模型的输入计算。

在一个具体的实施例中，可以通过如下过程训练RNN GRU模型，以获得最终用于噪音抑制处理的RNN GRU模型：

初始化学习数据，噪音来源不同环境录制的噪音数据，语音使用讯飞TTS生成语音。然后，循环混合噪音和语音，其中混合语音和噪音的信噪比在-10～20db之间随机产生。之后将混合后的噪音和语音作为原始数据进行增益，计算出输出信号各个频率段上的信噪比，作为目标函数。

训练的噪音数据按照录制标签分类，由于标签继承了户内、户外属性，噪音数据还要在户内、户外场景训练。在训练时每种分类标签都会产生一个RNN GRU模型，其模型数据包含一下数据：

DenseLayerinptut_layer；

GRULayer gru_layer1；

GRULayer gru_layer2；

GRULayer gru_layer3；

DenseLayeroutput_layer；

这些数据连同噪音标签作为RNN GRU模型数据输出给客户端使用，客户端按照场景选择标签，加载相应模型数据剔除噪音。

步骤S203，对降噪后的语音数据进行自动增益，以获得增益后的语音数据。

在实施例中，对降噪后的语音数据进行自动增益时，也是采用RNN GRU模型。采用RNN GRU模型自动增益的输入包括倒谱系数、长时间能量最大值LTSE、过零率和信号的相位群。其中，LTSE计算采用的是连续5帧信号在每个频率上的最大值，过零率是信号经过0点的采样个数和总采样数比较，相位群是相位在每个频率上的值乘以频率值，即160个频点的相位乘以其序号数。

为了减少维度，将LTSE累加再乘以过零率，这样输入信号的维度为160(倒谱)+1(LTSE*过零率)+160(相位群)，321个输入数据。

另外，采用RNN GRU模型自动增益的输出是频谱上的增益值。值得说明的是，在训练自动增益RNN GRU模型的时候其输出的增益值可以通过如下方式确定：

对录制语音使用VAD分段，使用语音识别得到文字，按照文字TTS生成新的语音，计算录制语音的短时能量和生成语音的短时能量，通过每个能量峰值的比较，设定每一段语音的目标能量值。其训练结果，即自动增益RNN GRU模型包含以下数据：

DenseLayerinptut_layer；

GRULayer gru_layer1；

GRULayer gru_layer2；

GRULayer gru_layer3；

DenseLayeroutput_layer。

需要说明的是，自动增益主要针对对话模式下，自己声音较大导致传统AGC的增益问题，使用学习模式，按照声音特征放大到特定目标，而不是按照当前声音大小决定增益，避免自己声音放大到很大，来不及尽快降低下来，尽量保证会话中非己方的声音的清楚。

还值得说明的是，训练好的噪音分类学习模型、用于噪音抑制处理的RNN GRU模型以及用于自动增益的RNN GRU模型，可以设置在客户端进行使用，也可以设置在后台系统进行使用。如果是设置在后台系统则例如步骤S201至步骤S203，如果是设置在客户端使用则后台系统只对三种模型进行训练，然后将训练好的模型发送至客户端。

作为本发明另一方面的实施例，提出了一种智能助听的系统，如图3所示，其包括客户端和后台系统，而所述的客户端可以包括测试模块和实时语音处理系统，而所述的后台系统包括噪音特征学习、噪音抑制学习和智能增益学习这三个深度学习系统。客户端会将原始数据记录下来，让用户选择提交录音到后台系统，后台系统可以分离出语音中的噪音和声音，用于机器学习系统持续学习，改善系统性能。

值得说明的是，如果所述智能助听系统应用于降噪耳机上，则客户端只包括实时语音处理系统。

进一步地，实时语音处理系统包括了回音抑制模块(Echo Cancellation)、噪音场景选择模块、噪音抑制模块、自动增益控制模块和分频放大器。测试模块测试结果作为分频放大器(例如采用24频带的分频放大器)的输入，进而调整按频带放大的放大系数。另外，所述的噪音场景选择模块、噪音抑制模块和自动增益控制模块，是基于后台系统学习结果来支持实时语音处理。

值得说明的是，如果所述实时语音处理系统应用于降噪耳机中则只包括回音抑制模块、噪音场景选择模块和噪音抑制模块。

另外，进一步地，后台系统可以采用RNN神经网络学习系统，其单元采用GRU(GatedRecurrent Unit)来实现，噪音和声音特征采用的是语音的倒谱(cepstrum)系数，学习的结果分别是噪音分类标签、分类噪音抑制的频谱系数和自己声音特征的概率系数，在实时系统，计算倒谱系数后，使用机器学习算法，计算出相应的输出值进行处理语音数据，交给24频段放大器放大，然后播放。

值得说明的是，所述智能助听的系统能够实现替代传统助听器的DSP计算能力，增强了计算和互联网通信能力，让AI技术使用成为可能。通过提供即时测听和误差抵消方法，不需要做声音测试值的绝对偏差校准，用户可以自行调节声音的参数、使用场景，使得随时测听和使用变成持续服务。AI学习模型建立在后台服务器进行，前台AI使用仅仅限于使用培训结果，降低了计算量，使得实时语音使用AI。下载AI模型数据，包括但不限于噪音分类、噪音抑制和自动增益控制，其后台培训可以持续进行，客户端可以不断下载新的模型数据，实现持续改善的目的。

作为本发明又一实施例，后台系统还可以包括噪音管理、声音管理和测试数据管理。其中，所述的噪音管理可以对接收的噪音数据收集、存储和管理，因为噪音数据种类可能就有几千种，数据量也非常大。例如：包括文件上传、打标签，修改标签等，基本是数据和关系的维护。而后台系统的声音管理可以针对接收到的不同用户的语音数据进行管理，因为每一个用户的语音数据的特征都是不一样的，需要分别对其进行处理，同时也是需要对每一个用户处理前的语音数据和处理后的语音数据进行存储的。另外，后台系统包括的测试数据管理可以是管理每个用户自己声音测试报告，即用户的跟踪数据。例如：随着年龄的增加，每个用户听力能力也随之变化，听力变化后声音处理的增益值也需要相应调整，同时听力曲线的变化会要触发相应的健康关注和护理。

根据上面所述的各种实施例，本发明所述智能助听系统是将互联网服务和人工智能引入到传统的助听器行业，改善行业的服务能力，助听器的运行，即客户端，可以脱离后台独立运行，即在没有网络时，机器学习模型数据已经在客户端，则能够支持手机客户端的正常运行，确保智能助听系统正常工作。进而，对于患者可以不完全依赖网络，只要定期更新、或者在生活场景改变前，下载相应的模型，则可以脱离网络使用，这样就能即享受持续改善的服务，也能够摆脱对网络的强依赖。

需要说明的是，在本发明所述智能助听的系统的具体实施内容，在上面所述智能助听的方法中已经详细说明了，故在此重复内容不再说明。

图4示出了可以应用本发明实施例的智能助听方法或智能助听系统的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的智能助听方法一般由服务器405执行，相应地，智能助听装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括测试模块和实时语音处理系统。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取采集的语音数据，采用频域消除回音；根据消除了回音的语音数据，提取噪音数据进行噪音分类学习以获得噪音分类结果；根据噪音分类结果，对消除了回音的语音数据进行噪音抑制处理，以获得降噪后的语音数据并播放。

根据本发明实施例的技术方案，能够解决现有技术中助听器用户体验差、成本高的问题。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种智能助听的方法，其特征在于，包括：

获取采集的语音数据，采用频域消除回音；

根据消除了回音的语音数据，提取噪音数据进行噪音分类学习以获得噪音分类结果；

根据噪音分类结果，对消除了回音的语音数据进行噪音抑制处理，以获得降噪后的语音数据并播放。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，采用自适应滤波NLMS的MDF频域进行回音的消除。

5.根据权利要求1所述的方法，其特征在于，所述提取噪音数据，包括：

6.根据权利要求1－5任一所述的方法，其特征在于，所述噪音分类学习、噪音抑制处理以及自动增益都采用的是RNN GRU模型。

7.根据权利要求6所述的方法，其特征在于，噪音数据通过RNNGRU模型的噪音分类学习获得噪音分类标签。

8.根据权利要求6所述的方法，其特征在于，采用RNN GRU模型实现噪音抑制处理是通过语音和噪音分离算法来实现，并且把理想二值掩蔽作为计算目标。

9.根据权利要求6所述的方法，其特征在于，采用RNN GRU模型自动增益处理的输入包括倒谱系数、长时间能量最大值、过零率和信号的相位群，进而输出频谱上的增益值。

10.一种智能助听的系统，其特征在于，包括：

客户端包括测试模块和实时语音处理系统，实时语音处理系统通过回音抑制模块、噪音场景选择模块、噪音抑制模块、自动增益控制模块和分频放大器实现；

后台系统包括噪音特征学习、噪音抑制学习和智能增益学习，依次对应的分别为客户端的噪音场景选择模块、噪音抑制模块、自动增益控制模块提供基于RNN GRU模型的数据处理。