CN112634923B

CN112634923B - 基于指挥调度系统的音频回声消除方法、设备、存储介质

Info

Publication number: CN112634923B
Application number: CN202011474507.2A
Authority: CN
Inventors: 王锐; 牛晓华; 邓玉龙; 王娟; 王宇; 费宏伟; 庄东; 陈建锋
Original assignee: Guangzhou Panocom Communication System Co ltd
Current assignee: Guangzhou Panocom Communication System Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-11-19
Anticipated expiration: 2040-12-14
Also published as: CN112634923A

Abstract

本发明公开了一种基于指挥调度系统的音频回声消除方法、设备、存储介质，包括以下步骤：接收音频数据，并通过远端扬声器播放所述音频数据；将远端扬声器接收到的音频数据作为原始信号；远端麦克风接收远端扬声器播放的音频数据，并将其检测到的回声音频数据作为反馈信号；对原始信号与反馈信号进行切割与预处理；将经过预处理的原始信号作为长短时记忆神经网络模型的输入，经预处理的反馈信号作为长短时记忆神经网络模型的输出，长短时记忆神经网络模型的输出作为估计回声，估计回声与反馈信号的差值作为损失函数，训练长短时记忆神经网络模型，得到模拟回声路径，从而得到模拟回声函数；根据模拟回声函数在通话过程中消除音频数据的回声。

Description

基于指挥调度系统的音频回声消除方法、设备、存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及基于指挥调度系统的音频回声消除方法、电子设备、存储介质。

背景技术

调度话音终端技术和通信技术的快速发展，为高清语音技术提供了强有力的支持。当前，多家品牌的调度话音终端已经采用G.722以及一些高品质音频组件，世界各地大量的运营商推出了基于G.722宽带标准的高清语音服务。高清语音技术在移动通话中可为用户提供良好的体验，也为技术人员带来了巨大的挑战。

移动通话过程中，回声是影响语音通话质量的重要因素，有效的回声消除技术将大大提高语音通话质量。回声的产生主要分为两种：电路回声和声学回声。电路回声是语音信号在线路传输过程中，由于二四线耦合的不匹配引起的；声学回声根据传输途径可以分为直接回声和间接回声两部分，其中，直接回声是由于调度话音终端扬声器音量大或密封不严，且同时麦克风灵敏度高，直接拾取到扬声器播放的声音而产生，间接回声是由于扬声器播放的声音经过环境的作用又被麦克风拾取而产生。用户在使用调度话音终端设备时，会由于当前所处环境、通信信号强弱等因素而产生不同的模拟回声函数，从而产生不同的回声消除函数。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于指挥调度系统的音频回声消除的方法，让用户在使用调度话音终端设备进行通话时拥有良好的用户体验。

本发明的目的之二在于提供一种电子设备，执行上述基于指挥调度系统的音频回声消除的方法，让用户在使用调度话音终端设备进行通话时拥有良好的用户体验。

本发明的目的之三在于提供一种存储介质，执行上述基于指挥调度系统的音频回声消除的方法，让用户在使用调度话音终端设备进行通话时拥有良好的用户体验。

本发明的目的之一采用如下技术方案实现：

基于指挥调度系统的音频回声消除方法，包括以下步骤：

步骤S1、接收音频数据，并通过远端扬声器播放所述音频数据；

步骤S2、将所述远端扬声器接收到的音频数据作为原始信号；调度话音终端设备的远端麦克风接收所述远端扬声器播放的音频数据，并将其检测到的回声音频数据作为反馈信号；

步骤S3、对原始信号与反馈信号进行切割与预处理；

步骤S4、将经过预处理的原始信号作为长短时记忆神经网络模型的输入，经预处理的反馈信号作为长短时记忆神经网络模型的输出，所述长短时记忆神经网络模型的输出作为估计回声，所述估计回声与反馈信号的差值作为损失函数，训练长短时记忆神经网络模型，得到模拟回声路径，从而得到模拟回声函数；

步骤S5、根据所述模拟回声函数在通话过程中消除音频数据的回声。

进一步地，所述步骤S3包括以下步骤：

步骤S31、对所述原始信号与反馈信号切割成多个短时间序列信号；

步骤S32、计算每个短时间序列信号的振幅，将所述原始信号的短时间序列及其振幅作为长短时记忆神经网络模型的输入，将所述反馈信号的短时间序列及其振幅作为长短时记忆神经网络模型的者输出。

进一步地，所述步骤S4包括以下步骤：

步骤S41、将预处理的原始信号作为长短时记忆神经网络模型模型的输入，将所述原始信号对应的反馈信号的短时间序列信号作为长短时记忆神经网络模型模型的输出，训练所述长短时记忆神经网络模型；

步骤S42、所述长短时记忆神经网络的输出作为估计回声，估计回声与所述反馈信号的差值作为长短时记忆神经网络模型的损失函数；

步骤S43、应用梯度下降法最小化损失函数，优化长短时训练记忆神经网络的权重，得到最终的模拟回声函数。

进一步地，所述步骤S4中通过自适应滤波器对原始信号进行处理与学习，优化长短时训练记忆神经网络的权重。

进一步地，所述自适应滤波器通过最小均方误差算法、归一化均方误差算法和/或归一化子带自适应滤波器算法实现自适应。

进一步地，所述损失函数为

其中，原始信号为x(n)，真实回声路径为ω(n)，反馈信号y(n)＝ω^T(n)x(n)，估计回声则为

进一步地，所述步骤S5中根据所述模拟回声函数在通话过程中消除音频数据的回声具体为：

根据以下公式消除音频数据的回声：

其中，语音信号为v(n)，反馈信号为y(n)，估计回声为

进一步地，所述调度话音终端设备为具有语音通话功能的终端，且所述调度话音终端设备包括远端麦克风及远端扬声器。

本发明的目的之二采用如下技术方案实现：

一种电子设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任一所述基于指挥调度系统的音频回声消除方法。

本发明的目的之三采用如下技术方案实现：

一种存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上任一所述基于指挥调度系统的音频回声消除方法。

相比现有技术，本发明的有益效果在于：

本发明公开了基于指挥调度系统的音频回声消除方法、电子设备、存储介质，可以在不同的环境下快速生成对应当前环境下的神经网络模型，及时有效的进行自适应的回声消除处理，同时由于长短时记忆神经网络的特殊性，可以将历史样本信息保存并应用学习。在人工智能技术的辅助下，大大提高语音通话的质量。

附图说明

图1为本发明所提供实施例一的流程示意图；

图2为本发明所提供实施例一的声学回声的产生路径示意图；

图3为本发明所提供实施例一的回声消除的基本原理示意图；

图4为本发明所提供实施例一的长短时记忆神经网络模型的示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1～4所示，本申请提供了一种基于指挥调度系统的音频回声消除的方法，可用用于调度话音终端设备中，对音频信号进行处理，提高语音通话的质量。调度话音终端设备是指具有语音通话功能的终端，如智能手机、平板电脑等。所述调度话音终端包括了麦克风、扬声器及处理器。所述麦克风用于接收音频数据，所述扬声器则用于接收麦克风传输的音频数据并播放。所述处理器则用于处理音频信号并执行本方法。所述调度话音终端设备还可以设置有存储器、电源、蓝牙模组或者wifi模组等，以适应多种需求。

具体的，本方法包括以下步骤：

步骤S1、接收音频数据，并通过远端扬声器播放所述音频数据；。所述音频数据是由一调度话音终端设备的麦克风采集音频数据，并通过网络传输至另一调度话音终端设备。近端调度话音终端设备的麦克风在采集到音频数据后，将该音频数据的语音信号转换为电信号，通过网络通信传递至远端的调度话音终端设备。在远端的调度话音终端设备接收到所述音频数据后，则进行播放。

步骤S2、将所述远端扬声器接收到的音频数据作为原始信号；调度话音终端设备的远端麦克风接收所述远端扬声器播放的音频数据，并将其检测到的回声音频数据作为反馈信号。远端扬声器在播放的过程中，音频数据会经过直接反馈与间接反馈被远端麦克风吸收。因此，将远端扬声器接收到的音频数据作为原始信号。直接反馈产生的回声是远端扬声器播放的声音直接被远端麦克风接收，主要与远端麦克风和远端扬声器的位置有关。间接反馈产生的回声是远端扬声器播放的声音经过环境作用(如墙壁反射等)再被远端麦克风接收，主要与终端在通话时所处的环境有关。因此，经过直接反馈与间接反馈产生的回声叠加后被远端麦克风检测到的回声音频数据，即为反馈信号。

步骤S3、对原始信号与反馈信号进行切割与预处理；具体的，由于在调度话音终端设备内处理器记录的原始信号与反馈信号均为时间序列数据。为训练处效果良好的神经网络模型，样本数据通常越多越好。但是由于时效性的要求，必须在短时间内必须在短时间内快速获取大量样本数据以用于神经网络的训练。因此还包括以下步骤：

步骤S32、计算每个短时间序列信号的振幅，将所述原始信号的短时间序列及其振幅作为长短时记忆神经网络模型(LSTM)的输入，将所述反馈信号的短时间序列及其振幅作为长短时记忆神经网络模型的者输出。。

步骤S4、将经过预处理的原始信号作为长短时记忆神经网络模型的输入，经预处理的反馈信号作为长短时记忆神经网络模型的输出，所述长短时记忆神经网络模型的输出作为估计回声，所述估计回声与反馈信号的差值作为损失函数，训练长短时记忆神经网络模型，得到模拟回声路径，从而得到模拟回声函数

步骤S41、将预处理的原始信号作为长短时记忆神经网络模型模型的输入，将所述原始信号对应的反馈信号的短时间序列信号作为长短时记忆神经网络模型模型的输出，训练所述长短时记忆神经网络模型。

步骤S42、所述长短时训练记忆神经网络的输出作为估计回声，估计回声与所述反馈信号的差值作为长短时训练记忆神经网络的损失函数。

将上述经过预处理的原始信号作为样本，用于训练长短时记忆神经网络模型。长短时记忆神经网络是一种反馈神经网络，适用于时间序列敏感的问题和任务，具有长时记忆功能，可以学习长期依赖信息，普遍用于自主语音识别。

在回声消除技术中，自适应滤波器对原始信号进行处理和不停学习，在不同的环境下不断调整其权值向量，估计一个近似的回声路径以模拟真实回声路径，在多次迭代后使结果收敛，实现自适应滤波。为了使自适应滤波器具有更强的稳定性，一般选取横向的有限冲激响应滤波器(FIR)。

经典的自适应滤波算法包括最小均方误差算法(Least Mean Error，LMS)、归一化最小均方误差算法(Normalized Least Mean Error，NLMS)和归一化的子带自适应滤波器算法(Normalized Sub-band Adaptive Filter，NSAF)以及一些相关的变步长的变体算法，采用传统的数学递归计算方式来实现自适应。

从回声消除的原理来看，长短时记忆神经网络具有同样的功能，且具备多个优点。首先，长短时记忆神经网络模型适用于时间序列数据；其次，长短时记忆神经网络模型对小样本友好，收敛速度快；另外，长短时记忆神经网络模型的递归结构可以很好地实现自适应滤波，并且其长短时记忆的功能可以增强自适应滤波器的稳定性。

综上，本发明利用长短时记忆神经网络作为自适应滤波器进行回声消除，该方法的原理如图3所示。原始信号为x(n)，假设真实回声路径为ω(n)，则反馈信号y(n)＝ω^T(n)x(n)，其中ω^T(n)为所述真实回声路径ω(n)的转置。通过梯度下降法不断训练长短时记忆神经网络修正神经网络权重以模拟真实回声路径，该权重即为所述模拟回声路径

估计回声则为

其中

为所述模拟回声路径

的转置。误差

误差e(n)作为神经网络的损失函数，应用梯度下降法最小化损失函数，用于不断优化神经网络的权重，该权重即为模拟回声路径

如图4所示。最终从训练好的神经网络可以得到最终模拟回声函数

步骤S5、根据所述模拟回声函数在通话过程中，消除音频数据的回声。

在实施中，当进行语音通话时，远端用户讲话的语音信号v(n)、反馈信号y(n)被远端麦克风同时检测到，如果不进行回声消除，近端用户将在听到远端用户语音的同时听到自己的语音回声，大大影响用户体验。在进行回声消除时，采用步骤S4生成的模拟回声路径

进行回声消除，依据以下公式：

其中，语音信号为V(n)，反馈信号为y(n)，估计回声为

实现回声的消除。

本发明公开了基于指挥调度系统的音频回声消除方法，可以在不同的环境下快速生成对应当前环境下的神经网络模型，及时有效的进行自适应的回声消除处理，同时由于长短时记忆神经网络的特殊性，可以将历史样本信息保存并应用学习。在人工智能技术的辅助下，大大提高语音通话的质量。

基于相同的发明构思，另外，本发明还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前述基于指挥调度系统的音频回声消除方法的步骤。

其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可议介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等，如实施例二。

实施例二

基于相同的发明构思，本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中的程序，所述程序被配置成由处理器执行，处理器执行所述程序时实现上述的基于指挥调度系统的音频回声消除方法的步骤。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.基于指挥调度系统的音频回声消除方法，其特征在于，包括以下步骤：

步骤S3、对原始信号与反馈信号进行切割与预处理；

2.如权利要求1所述的基于指挥调度系统的音频回声消除方法，其特征在于，所述步骤S3包括以下步骤：

步骤S32、计算每个短时间序列信号的振幅，将所述原始信号的短时间序列及其振幅作为长短时记忆神经网络模型的输入，将所述反馈信号的短时间序列及其振幅作为长短时记忆神经网络模型的输出。

3.如权利要求2所述的基于指挥调度系统的音频回声消除方法，其特征在于，所述步骤S4包括以下步骤：

步骤S41、将预处理的原始信号作为长短时记忆神经网络模型的输入，将所述原始信号对应的反馈信号的短时间序列信号作为长短时记忆神经网络模型的输出，训练所述长短时记忆神经网络模型；

步骤S43、应用梯度下降法最小化损失函数，优化长短时训练记忆神经网络模型的权重，得到最终的模拟回声函数。

4.如权利要求3所述的基于指挥调度系统的音频回声消除方法，其特征在于，所述步骤S4中通过自适应滤波器对原始信号进行处理与学习，优化长短时训练记忆神经网络的权重。

5.如权利要求4所述的基于指挥调度系统的音频回声消除方法，其特征在于，所述自适应滤波器通过最小均方误差算法、归一化均方误差算法和/或归一化子带自适应滤波器算法实现自适应。

6.如权利要求4所述的基于指挥调度系统的音频回声消除方法，其特征在于，所述损失函数为

其中，原始信号为x(n)，真实回声路径为ω(n)，反馈信号y(n)为y(n)＝ω^T(n)x(n)，模拟回声路径为

估计回声则为

7.如权利要求1所述的基于指挥调度系统的音频回声消除方法，其特征在于，所述步骤S5中根据所述模拟回声函数在通话过程中消除音频数据的回声具体为：

根据以下公式消除音频数据的回声：

其中，语音信号为v(n)，反馈信号为y(n)，估计回声为

8.如权利要求1所述的基于指挥调度系统的音频回声消除方法，其特征在于，所述调度话音终端设备为具有语音通话功能的终端，且所述调度话音终端设备包括远端麦克风及远端扬声器。

9.一种设备，其特征在于，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1～8任一所述基于指挥调度系统的音频回声消除方法。

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现权利要求1～8任一所述基于指挥调度系统的音频回声消除方法。