CN117649854A

CN117649854A - 一种非线性回声消除方法及装置

Info

Publication number: CN117649854A
Application number: CN202311644796.XA
Authority: CN
Inventors: 刘德建; 钟诗俊; 陈明宇; 何龙翔; 陈宏�
Original assignee: Fujian Tianquan Educational Technology Ltd
Current assignee: Fujian Tianquan Educational Technology Ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-05

Abstract

本发明公开一种非线性回声消除方法及装置，通过接收近端语音信号以及远端语音信息生成音频信号后，将深度学习语音状态鉴别模型计算音频信号对应的语音概率值与自适应滤波器计算音频信号对应的残余回声能量相结合对非线性回声消除，以及将音频信号划分为不同的子带信号，并分别计算子带信号的能量值得到子带信号能量比，当根据语音概率值以及子带信号能量比遍历判断音频信号中存在非线性回声时，根据残余回声能量估计值修正所述残余回声能量，并根据修正的所述残余回声能量计算得到非线性回声抑制因子，实现对音频信号的滤波，解决拾音设备扬声器导致的非线性回声以及设备自带回声算法性能不佳导致部分非线性回声的残留问题，从而提升通话体验。

Description

一种非线性回声消除方法及装置

技术领域

本发明涉及语音通信技术领域，特别是涉及一种非线性回声消除方法及装置。

背景技术

随着互联网即时通讯技术的快速发展，近年来会议系统的应用成为远程工作不可或缺的一部分。系统须确保良好的通话质量才能为用户提供高效且愉快的使用体验。

其中，通话过程中出现漏回声而引起的问题是影响用户体验的主要来源之一。传统的线性回声消除算法采用自适应滤波对回声路径脉冲响应进行模拟，但是随着小型低成本设备在视频会议中的广泛使用，这些设备中的放大器或者扬声器使得回声路径带有明显非线性特征。导致传统的自适应滤波器无法消除这种非线性回声，且回声路径的非线性也会限制线性自适应滤波器的性能，干扰回声脉冲响应的最佳估计，导致语音信号的感知质量下降。

为解决上述问题，通过采用配合自带回声处理能力的拾音硬件设备来提高回声消除的质量。传统的非线性回声消除算法，主要是依赖自适应线性滤波器计算得到残余回声估计，并通过信回比等指标获得非线性回声抑制因子。但由于不同设备厂家回声算法性能参差不齐，导致经过部分设备自带回声消除算法处理后的回声信号只残留部分非线性回声特征。此时自适应线性滤波器将失效，无法获取正确的残余回声估计，导致非线性回声抑制模块无法计算正确的抑制因子。

现有技术中也有方法基于深度学习实现非线性回声抑制。通过依靠深度学习模型强大的特征学习能力，通过精心设计的训练数据集完成对非线性回声的抑制。但基于深度学习的非线性回声抑制模型依赖于特定的训练数据集泛化性能差。使用经过人工精心收集和设计训练数据，并依靠深度学习强大的特征学习能力，虽然能解决某款拾音设备导致所残留的非线性回声问题。但是，该方案为采集大量的特定训练数据集，需要耗费大量的人力物力；同时，由于其需要收集特定的、与回声相关的数据，而对于回声场景的数据集较为稀缺，导致方案普适性较差。此外，基于深度学习的非线性回声抑制一般都需要较为复杂的模型，确保在对非线性回声抑制的同时不损伤正常的语音。因此，模型往往需要较高的性能开销，导致很多中低端设备上无法正常使用。

发明内容

本发明所要解决的技术问题是：提供一种非线性回声消除方法及装置，解决拾音设备扬声器导致的非线性回声以及设备自带回声算法性能不佳导致部分非线性回声残留的问题。

为了解决上述技术问题，本发明采用的技术方案为：

一种非线性回声消除方法，包括：

接收近端语音信号以及远端语音信息，生成音频信号；

基于深度学习语音状态鉴别模型计算所述音频信号对应的语音概率值；

基于线性自适应滤波器计算所述音频信号对应的残余回声能量；

将所述音频信号划分为不同的子带信号，并分别计算所述子带信号的能量值得到子带信号能量比；

根据所述语音概率值以及子带信号能量比遍历判断所述音频信号中的每一帧语音信号是否存在非线性回声，若是，则获取目标帧语音信号前预设帧数的语音信号的信号能量均值作为残余回声能量估计值；

根据所述残余回声能量估计值修正所述残余回声能量，并根据修正的所述残余回声能量计算得到非线性回声抑制因子；

根据所述非线性回声抑制因子对所述音频信号进行滤波，并输出滤波音频。

为了解决上述技术问题，本发明采用的另一技术方案为：

一种非线性回声消除装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种非线性回声消除方法中的各个步骤。

本发明的有益效果在于：通过将深度学习语音状态鉴别模型与自适应滤波器相结合对非线性回声消除，当基于语音概率值以及子带信号能量比判断音频信号中存在非线性回声后，再通过残余回声能量估计值修正残余回声能量并计算得到非线性回声抑制因子，实现对音频信号的滤波，解决拾音设备扬声器导致的非线性回声以及设备自带回声算法性能不佳导致部分非线性回声残留的问题，从而提升用户的通话体验。

附图说明

图1为本发明实施例中的一种非线性回声消除方法的步骤流程图；

图2为本发明实施例中的一种非线性回声消除方法中基于深度学习语音状态识别模型的音频信号处理步骤流程图；

图3为本发明实施例中的一种非线性回声消除方法中自适应滤波器的音频信号处理步骤流程图；

图4为本发明实施例中的一种非线性回声消除方法中子带能量计算的步骤流程图；

图5为本发明实施例中的一种非线性回声消除装置的结构示意图；

图6为本发明实施例中的一种非线性回声消除装置中非线性回声抑制模块的步骤流程图；

图7为本发明实施例中的一种非线性回声消除装置的步骤流程图；

图8为基于线性回声消除方法处理后的非线性回声消除效果图；

图9为基于线性回声消除方法处理后的拾音设备自带回声算法残留回声信号消除效果图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，一种非线性回声消除方法，包括：

接收近端语音信号以及远端语音信息，生成音频信号；

由上述描述可知，本发明的有益效果在于：通过将深度学习语音状态鉴别模型与自适应滤波器相结合对非线性回声消除，当基于语音概率值以及子带信号能量比判断音频信号中存在非线性回声后，再通过残余回声能量估计值修正残余回声能量并计算得到非线性回声抑制因子，实现对音频信号的滤波，解决拾音设备扬声器导致的非线性回声以及设备自带回声算法性能不佳导致部分非线性回声残留的问题，从而提升用户的通话体验。

进一步地，所述基于深度学习语音状态鉴别模型计算所述音频信号对应的语音概率值包括：

提取所述音频信号中的时域信号，并将所述时域信号转化成梅尔谱音频信号；

通过所述深度学习语音状态鉴别模型提取所述梅尔谱信号中的特征信号，并通过所述深度学习语音状态鉴别模型根据所述特征信号计算返回所述音频信号对应的语音概率值。

由上述描述可知，通过提取音频信号中的时域信号并将其转化成梅尔谱音频信号，不仅能够降低模型运行的开销，而且梅尔谱音频信号的特征更适合语音状态鉴别任务，从而提高模型判别精度。

进一步地，所述基于线性自适应滤波器计算所述音频信号对应的残余回声能量包括：

将所述音频信号通过傅里叶变化转换为频域信号；

基于广义互相关的时延估计算法得到所述频域信号对齐后的参考频域信号；

获取滤波器的模拟回声脉冲响应最佳值；

根据所述模拟回声脉冲响应最佳值以及参考频域信号得到线性回声估计值；

根据所述线性回声估计值以及频域信号得到所述残余回声能量。

由上述描述可知，将音频信号通过傅里叶变化转换为频域信号，并通过广义互相关的时延估计算法和自适应滤波器模拟回声路径等方式对频域信号进行处理，能够有效的模拟回声脉冲响应，得到较为精确的线性回声估计值，使得后续过程中能够有效的去除回声。

进一步地，所述根据所述线性回声估计值以及频域信号得到所述残余回声能量包括：

根据所述线性回声估计值以及频域信号得到误差信号；

根据所述误差信号以及频域信号计算得到误差信号功率谱密度、频域信号功率谱密度以及互功率谱密度；

根据所述误差信号、误差信号功率谱密度、频域信号功率谱密度以及互功率谱密度得到所述残余回声能量，具体的：

R(m)＝E(m)W(m)；

其中，R(m)为残余回声能量；E(m)为误差信号；Y(m)为频域信号；为线性回声估计值；S_ye(m)为互功率谱密度；S_yy(m)为频域信号功率谱密度；S_ee(m)为误差信号功率谱密度。

由上述描述可知，通过误差信号、误差信号功率谱密度、频域信号功率谱密度以及互功率谱密度能够计算残余回声能量，从而得到精确的残余回声能量，提高后续对音频信号的处理效果。

进一步地，所述将所述音频信号划分为不同的子带信号，并分别计算所述子带信号的能量值得到子带信号能量比包括：

将所述音频信号通过傅里叶变化转换为频域信号；

根据信号频率的高低将所述频域信号分为高频子带信号、中频子带信号以及低频子带信号；

分别计算所述高频子带信号、中频子带信号以及低频子带信号对应的能量信息，并根据所述能量信息得到所述子带信号能量比。

由上述描述可知，通过将音频信号划分高频子带信号、中频子带信号以及低频子带信号，并分别计算子带信号相应的能量信息，从而能够根据不同的子带能量信息判断子带信号中是否存在拾音设备残留的非线性回声，提高对音频信号中残留回声信号的判断精度。

进一步地，所述根据修正的所述残余回声能量计算得到非线性回声抑制因子包括：

根据所述残余回声能量计算所述目标帧语音信号的信回比值；

将所述信回比值作为维纳滤波参数，并计算获得所述目标帧语音信号对应的所述非线性回声抑制因子。

由上述描述可知，基于残余回声能量计算语音信号的信回比值，再通过信回比值得到非线性回声抑制因子，从而实现通过非线性回声抑制因子对音频信号进行滤波。

进一步地，所述根据所述语音概率值以及子带信号能量比遍历判断所述音频信号中的每一帧语音信号是否存在非线性回声包括：

获取第一阈值以及第二阈值；

判断所述语音概率值是否小于所述第一阈值，若是，则判断所示子带信号能量比是否小于所述第二阈值，若是，则为所述存在非线性回声。

由上述描述可知，依次通过语音概率值与第一阈值进行对比，以及通过子带信号能量比与第二阈值进行对比，基于二次判断提高对回声的判断精确度。

进一步地，所述获取目标帧语音信号前预设帧数的语音信号能量均值作为残余回声能量估计值包括：

若所述目标帧语音信号不存在前预设帧数的语音信号，则获取初始能量值，根据所述初始能量值得到所述残余回声能量估计值，则获取所述目标帧语音信号后预设帧数的语音信号的信号能量均值作为残余回声能量估计值。

由上述描述可知，当不存在前预设帧数的帧语音信号时，获取后预设帧数的帧语音信号的信号能量均值作为残余回声能量估计值，避免无法对存在回声的前几帧信号进行处理，导致回声消除不彻底的问题。

本发明提供的非线性回声消除方法及装置能够应用于即时通讯类产品中，如包括但不限于视频会议、K歌、直播和语聊房等场景中所使用的语音产品，以下通过具体实施方式进行说明：

实施例一

请参照图1，一种非线性回声消除方法，包括：

S1、接收近端语音信号以及远端语音信息，生成音频信号；

S2、基于深度学习语音状态识别模型(Artificial IntelligenceVoice ActivityDetector，AI-VAD)计算所述音频信号对应的语音概率值；同时，深度学习语音状态识别模型仅对是否是人声进行检测，因此数据集只需要普通的人声相关的数据集；与现有技术中需要特定回声数据进行训练相比，可以节省大量的人力和物力成本，并且具有更好的普适性，具体的：

请参照图2，S21、提取所述音频信号中的时域信号，并将所述时域信号转化成梅尔谱音频信号；如通过短时傅里叶变换和梅尔标度滤波器组，将输入的时域音频信号转换成梅尔谱音频信号；

S22、通过所述深度学习语音状态识别模型提取所述梅尔谱信号中的特征信号，即将所述梅尔谱信号将作为所述深度学习语音状态鉴别模型的输入数据，通过所述深度学习语音状态识别模型对每帧音频序列进行鉴别性特征提取，特征提取通过所述深度学习语音状态鉴别模型黑盒操作实现；随后通过所述深度学习语音状态鉴别模型根据所述特征信号计算并返回所述音频信号对应的语音概率值；即所述深度学习语音状态鉴别模型基于学习到的权重值推理得到所述语音概率值；

S23、基于所述语音概率值对当前音频信号进行判断；如语音概率值低于第一阈值，则认为当前音频信号为非语音，即属于拾音设备自带算法导致的回声残留信号；反之则认为当前音频信号为正常语音信号。

S3、基于线性自适应滤波器计算所述音频信号对应的残余回声能量，包括：

请参照图3，S31、将所述音频信号通过傅里叶变化转换为频域信号；如获取时域输入参考信号x(n)，并将时域输入参考信号x(n)与麦克风采集信号d(n)(即音频信号)通过傅里叶变换转换为频域信号X(m)和Y(m)；

S32、基于广义互相关的时延估计算法得到所述频域信号对齐后的参考频域信号；即得到对齐后的参考频域信号X′(m)；

S33、获取滤波器的模拟回声脉冲响应最佳值，具体的：计算FIR(Finite ImpulseResponse，有限长单位冲激响应)滤波器的模拟回声脉冲响应最佳值尽可能拟合真实回声路径的传递函数H(n)；

S34、根据所述模拟回声脉冲响应最佳值以及参考频域信号得到线性回声估计值，具体的：由公式得到线性回声估计值/>

S35、根据所述线性回声估计值以及频域信号得到所述残余回声能量，具体的：

S351、根据所述线性回声估计值以及频域信号得到误差信号，具体的：利用公式计算得到包含残留回声R(m)的输出误差信号E(m)；

S352、根据所述误差信号以及频域信号计算得到误差信号功率谱密度、频域信号功率谱密度以及互功率谱密度；即得到互功率谱密度S_ye(m)、频域信号功率谱密度S_yy(m)以及误差信号功率谱密度S_ee(m)；

S353、根据所述误差信号、误差信号功率谱密度、频域信号功率谱密度以及互功率谱密度得到所述残余回声能量，其计算公式如下：

R(m)＝E(m)W(m)；

其中，R(m)为残余回声能量。

S4、将所述音频信号划分为不同的子带信号，并分别计算所述子带信号的能量值得到子带信号能量比，具体的：

请参照图4，S41、将所述音频信号通过傅里叶变化转换为频域信号；该步骤与步骤S31的处理方式相同，在实际过程中只需进行一次处理后，再分别对其进行子带信号处理以及自适应滤波器处理；

S42、根据信号频率的高低将所述频域信号分为高频子带信号、中频子带信号以及低频子带信号；

S43、分别计算所述高频子带信号、中频子带信号以及低频子带信号对应的能量信息，并根据所述能量信息得到所述子带信号能量比；可将高频子带信号、中频子带信号以及低频子带信号对应的能量信息分别与对应的能量阈值进行比较，从而辅助判断是否存在拾音设备自带算法残留的非线性回声信号。

S5、根据所述语音概率值以及子带信号能量比遍历判断所述音频信号中的每一帧语音信号是否存在非线性回声，若是，则获取目标帧语音信号前预设帧数的语音信号的信号能量均值作为残余回声能量估计值；如在一具体的实施例中，当AI-VAD判断其语音概率值小于第一阈值，同时，子带信号能量比小于第二阈值，则判断当前帧为非语音帧(存在非线性回声)时，随后将当前的残余回声能量估计值设置为对应时延帧处的前10帧历史参考信号能量均值作为残余回声能量估计值；若所述目标帧语音信号不存在前预设帧数的语音信号，则获取初始能量值，根据所述初始能量值得到所述残余回声能量估计值；例如，初始能量值为0；当前目标帧是第首帧(第1帧)时，则前10帧的平均能量值为0(默认有10帧能量为0)；当前目标是第7帧时，则前10帧的平均能量为前6帧平均值(默认有4帧能量为0)；当前目标帧是第11帧，则前10帧的平均能量就是前10帧。

S6、根据所述残余回声能量估计值修正所述残余回声能量，并根据修正的所述残余回声能量计算得到非线性回声抑制因子，具体的：

根据所述残余回声能量计算所述目标帧语音信号的信回比值；将所述信回比值作为维纳滤波参数，并计算获得所述目标帧语音信号对应的所述非线性回声抑制因子。

S7、根据所述非线性回声抑制因子对所述音频信号进行滤波，并输出滤波音频。

实施例二

请参照图5，一种非线性回声消除装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如实施例一所述的一种非线性回声消除方法中的各个步骤，具体的：该装置包括AI-VAD语音状态检测模块、自适应滤波器的线性回声能量估计模块、子带能量计算模块以及非线性回声抑制模块；

其中，AI-VAD语音状态检测模块用于对远近端语音状态进行计算并输出存在语音的语音概率值；同时，AI-VAD语音状态检测模块输出的语音概率值将作为非线性回声抑制模块的输入数据，在解决拾音设备自带回声算法处理后引起回声信号残留的抑制场景起到重要的作用。

自适应滤波器的线性回声能量估计模块用于通过自适应滤波器计算获取模拟回声脉冲响应的最佳值，再计算线性回声能量估计值并获得残余回声估计(残余回声能量)，并将计算得到的残余回声能量作为非线性回声抑制的重要参考输入数据，即将残余回声能量R(m)作为非线性回声抑制模块的输入值。

子带能量计算模块用于将频域信号划分为不同的子带，以及计算不同子带的能量值，并将不同子带的能量比值作为非线性回声抑制模块的输入数据，作为音频信号是否为拾音设备回声消除算法残留的辅助判断条件。

请参照图6，非线性回声抑制模块用于使用AI-VAD语音状态检测模块、自适应滤波器的线性回声能量估计模块以及子带能量计算模块三个模块计算结果作为信回比的计算条件，并通过计算得到正确的非线性回声抑制因子，完成对非线性回声的抑制效果。

请参照图7，首先根据AI-VAD语音状态检测模块和子带能量计算模块的计算结果值，作为当前帧是否存在回声以及当前帧如果是回声帧是否是拾音设备处理后残留的回声信号的初步判断依据；并根据判断结果调整自适应滤波器的线性回声能量估计模块计算得到的残余回声能量；其次，使用修正的残余回声能量计算当前信号帧的信回比；最后，将信回比值作为维纳滤波参数，计算获得对应的非线性回声抑制因子，由此完成对非线性回声的抑制效果，请参照图8以及图9，为经过本实施例中方法处理的后信号示意图。

本实施例提供具体的应用场景对本装置的应用进行说明：

场景一：

同学A和同学B属于异地办公，因工作需要双方通过视频会议进行沟通交流；当双方至少有一方开启扬声器的情况下，双方通话将产生回声信号；假设B同学处于扬声器状态下，当B同学将作为接收端，A同学的声音将从扬声器中播放出来；在B同学听到A同学的声音时，麦克风也将同步采集到这些语音；如果此时在B同学所在的接收端不能消除掉A同学的声音，则A同学播放的音频中将包含A同学自己的声音，A同学将会听到自己刚说过的话；如消除回声信号的效果较差，则A同学将不断重复的听到自己的刚说过的话，这将导致通话无法正常进行。通过本实施例中的方法及装置，可以在B同学端将数据发送给A同学前调用本实施例中的方法，通过使用该方法将B同学麦克风采集的信号中消除A同学的回声信号，并保持B同学语音的完整度和清晰度。

综上所述，本发明提供的一种非线性回声消除方法及装置，通过基于深度学习的语音状态检测结合自适应滤波器的回声消除框架，实现针对拾音设备扬声器导致的非线性回声以及设备自带回声算法性能不佳导致部分非线性回声残留的消除。通过将深度学习语音状态鉴别模型与自适应滤波器相结合对非线性回声消除，当基于语音概率值以及子带信号能量比判断音频信号中存在非线性回声后，再通过残余回声能量计算得到非线性回声抑制因子，实现对音频信号的滤波，解决拾音设备自带回声算法性能不佳导致无法消除非线性回声的问题，从而提升用户的通话体验。同时，该方法对非线性回声的消除，无论低中高端机型都可以使用且不需要针对不同机型进行适配，具有较好的泛化性，从而在方法上线后可以节省音频工程师大量的机型适配和调参时间。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种非线性回声消除方法，其特征在于，包括：

接收近端语音信号以及远端语音信息，生成音频信号；

2.根据权利要求1所述的一种非线性回声消除方法，其特征在于，所述基于深度学习语音状态鉴别模型计算所述音频信号对应的语音概率值包括：

通过所述深度学习语音状态鉴别模型提取所述梅尔谱信号中的特征信号，并通过所述深度学习语音状态鉴别模型根据所述特征信号计算并返回所述音频信号对应的语音概率值。

3.根据权利要求1所述的一种非线性回声消除方法，其特征在于，所述基于线性自适应滤波器计算所述音频信号对应的残余回声能量包括：

将所述音频信号通过傅里叶变化转换为频域信号；

获取滤波器的模拟回声脉冲响应最佳值；

4.根据权利要求3所述的一种非线性回声消除方法，其特征在于，所述根据所述线性回声估计值以及频域信号得到所述残余回声能量包括：

根据所述线性回声估计值以及频域信号得到误差信号；

根据所述误差信号、误差信号功率谱密度、频域信号功率谱密度以及互功率谱密度得到所述残余回声能量。

5.根据权利要求4所述的一种非线性回声消除方法，其特征在于，所述根据所述误差信号、误差信号功率谱密度、频域信号功率谱密度以及互功率谱密度得到所述残余回声能量包括：

R(m)＝E(m)W(m)；

6.根据权利要求1所述的一种非线性回声消除方法，其特征在于，所述将所述音频信号划分为不同的子带信号，并分别计算所述子带信号的能量值得到子带信号能量比包括：

将所述音频信号通过傅里叶变化转换为频域信号；

7.根据权利要求1所述的一种非线性回声消除方法，其特征在于，所述根据修正的所述残余回声能量计算得到非线性回声抑制因子包括：

8.根据权利要求1所述的一种非线性回声消除方法，其特征在于，所述根据所述语音概率值以及子带信号能量比遍历判断所述音频信号中的每一帧语音信号是否存在非线性回声包括：

获取第一阈值以及第二阈值；

9.根据权利要求1所述的一种非线性回声消除方法，其特征在于，所述获取目标帧语音信号前预设帧数的语音信号的信号能量均值作为残余回声能量估计值包括：

若所述目标帧语音信号不存在前预设帧数的语音信号，则获取初始能量值，根据所述初始能量值得到所述残余回声能量估计值。

10.一种非线性回声消除装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述的一种非线性回声消除方法中的各个步骤。