CN110246515B

CN110246515B - 回声的消除方法、装置、存储介质及电子装置

Info

Publication number: CN110246515B
Application number: CN201910656350.6A
Authority: CN
Inventors: 朱睿; 李岳鹏; 商世东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2023-10-24
Anticipated expiration: 2039-07-19
Also published as: CN110246515A

Abstract

本发明公开了一种回声的消除方法、装置、存储介质及电子装置。其中，该方法包括：获取第一设备接收到的第一音频数据；根据非线性回声特征信息估计第一音频数据所对应的非线性回声数据，并估计第一音频数据所对应的线性回声数据，其中，非线性回声特征信息用于指示第一设备所具有的非线性回声特征；获取第一设备对第一音频信号以及第二音频信号进行采集得到的第二音频数据；从第二音频数据中消除非线性回声数据和线性回声数据，得到目标音频数据；向发送第一音频数据的第二设备发送目标音频数据。本发明解决了消除回声的效率较低的技术问题。

Description

回声的消除方法、装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种回声的消除方法、装置、存储介质及电子装置。

背景技术

随着技术的发展，人们可以通过种类丰富的小型移动终端设备进行语音通话，包括：手机，笔记本电脑，智能音箱，智能手表等。通话设备的小型化，多样化给语音通信系统中不可或缺的回声抵消器设计带来挑战。目前的回声抵消器只能预测回声路径中的线性部分，对于非线性回声，主要通过经验值去设计非线性回声过滤器。通话设备小型化多样化后，带来两个主要问题：首先，非线性回声成分增加，对回声抵消器的回声抑制能力带来挑战。其次，非线性回声成分随具体设备而改变，用固定参数的非线性回声过滤器去处理无法获得好的效果。这些问题对语音通信类软件的回声抵消器设计带来了挑战，由于语音通信类软件不了解底层终端设备的信息，软件发布上线后，会出现针对某些设备运行正常，而对另外一些设备无法正常运行的状况。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种回声的消除方法、装置、存储介质及电子装置，以至少解决消除回声的效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种回声的消除方法，包括：

获取第一设备接收到的第一音频数据；

根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据，并估计所述第一音频数据所对应的线性回声数据，其中，所述非线性回声特征信息用于指示所述第一设备所具有的非线性回声特征；

获取所述第一设备对第一音频信号以及第二音频信号进行采集得到的第二音频数据，其中，所述第一音频信号是所述第一设备播放所述第一音频数据所形成的音频信号，所述第二音频信号是目标对象输出的目标语音所形成的音频信号；

从所述第二音频数据中消除所述非线性回声数据和所述线性回声数据，得到目标音频数据，其中，所述目标音频数据用于表示所述目标语音；

向发送所述第一音频数据的第二设备发送所述目标音频数据。

根据本发明实施例的另一方面，还提供了一种回声的消除装置，包括：

第一获取模块，用于获取第一设备接收到的第一音频数据；

估计模块，用于根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据，并估计所述第一音频数据所对应的线性回声数据，其中，所述非线性回声特征信息用于指示所述第一设备所具有的非线性回声特征；

第二获取模块，用于获取所述第一设备对第一音频信号以及第二音频信号进行采集得到的第二音频数据，其中，所述第一音频信号是所述第一设备播放所述第一音频数据所形成的音频信号，所述第二音频信号是目标对象输出的目标语音所形成的音频信号；

消除模块，用于从所述第二音频数据中消除所述非线性回声数据和所述线性回声数据，得到目标音频数据，其中，所述目标音频数据用于表示所述目标语音；

发送模块，用于向发送所述第一音频数据的第二设备发送所述目标音频数据。

可选地，播放模块包括：

第一显示单元，用于在所述第一设备上进行音频数据交互的过程中，在所述第一设备上显示的音频数据交互界面上显示第一控件；

第二显示单元，用于在检测到对所述第一控件执行的第一选择操作的情况下，在所述第一设备上显示设置界面，其中，所述设置界面上显示有第二控件；

播放单元，用于在检测到对所述第二控件执行的第二选择操作的情况下，通过所述第一设备播放所述测试音频数据。

根据本发明实施例的另一方面，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本发明实施例中，采用获取第一设备接收到的第一音频数据；根据非线性回声特征信息估计第一音频数据所对应的非线性回声数据，并估计第一音频数据所对应的线性回声数据，其中，非线性回声特征信息用于指示第一设备所具有的非线性回声特征；获取第一设备对第一音频信号以及第二音频信号进行采集得到的第二音频数据，其中，所述第一音频信号是所述第一设备播放所述第一音频数据所形成的音频信号，所述第二音频信号是目标对象输出的目标语音所形成的音频信号；从第二音频数据中消除非线性回声数据和线性回声数据，得到目标音频数据，其中，目标音频数据用于表示目标语音；向发送第一音频数据的第二设备发送目标音频数据的方式，对于通过第一设备接收到的第一音频数据，根据第一设备所具有的非线性回声特征对其非线性回声数据进行估计，从而使得估计出的非线性回声数据符合第一设备的特征，非线性回声数据与第一设备采集的第二音频数据中产生非线性回声的部分更加吻合，从而使得消除线性回声和非线性回声后的目标音频数据能够所表示的目标语音更加纯净，第二设备收到的目标音频数据中包括的第一音频数据的成分更加的减少，从而实现了提高回声消除效率的技术效果，进而解决了消除回声的效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的回声的消除方法的示意图；

图2是根据本发明实施例的一种可选的回声的消除方法的应用环境示意图；

图3是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图一；

图4是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图二；

图5是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图三；

图6是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图四；

图7是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图五；

图8是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图六；

图9是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图七；

图10是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图八；

图11是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图九；

图12是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图十；

图13是根据本发明可选的实施方式的一种可选的回声的消除方法的示意图十一；

图14是根据本发明实施例的一种可选的回声的消除装置的示意图；

图15是根据本发明实施例的一种可选的回声的消除方法的应用场景示意图一；

图16是根据本发明实施例的一种可选的回声的消除方法的应用场景示意图二；

图17是根据本发明实施例的一种可选的回声的消除方法的应用场景示意图三；以及

图18是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种回声的消除方法，如图1所示，该方法包括：

S102，获取第一设备接收到的第一音频数据；

S104，根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据，并估计所述第一音频数据所对应的线性回声数据，其中，所述非线性回声特征信息用于指示所述第一设备所具有的非线性回声特征；

S106，获取所述第一设备对第一音频信号以及第二音频信号进行采集得到的第二音频数据，其中，所述第一音频信号是所述第一设备播放所述第一音频数据所形成的音频信号，所述第二音频信号是目标对象输出的目标语音所形成的音频信号；

S108，从所述第二音频数据中消除所述非线性回声数据和所述线性回声数据，得到目标音频数据，其中，所述目标音频数据用于表示所述目标语音；

S110，向发送所述第一音频数据的第二设备发送所述目标音频数据。

可选地，在本实施例中，上述回声的消除方法可以应用于如图2所示的第一设备202和第二设备204所构成的硬件环境中。如图2所示，第一设备202上安装有语音交互应用206，第二设备204上安装有语音交互应用208，语音交互应用206获取第一设备202接收到的第一音频数据，根据非线性回声特征信息估计第一音频数据所对应的非线性回声数据，并估计第一音频数据所对应的线性回声数据，其中，非线性回声特征信息用于指示第一设备202所具有的非线性回声特征。语音交互应用206获取第一设备202对第一音频信号以及第二音频信号进行采集得到的第二音频数据，其中，第一音频信号是第一设备202播放第一音频数据所形成的音频信号，第二音频信号是目标对象200输出的目标语音所形成的音频信号。语音交互应用206从第二音频数据中消除非线性回声数据和线性回声数据，得到目标音频数据，其中，目标音频数据用于表示目标语音；语音交互应用206向发送第一音频数据的第二设备204发送目标音频数据。

第二设备204接收到目标音频数据后将其传输给语音交互应用208，语音交互应用208对目标音频数据进行与上述描述的过程类似的处理，在此不再赘述，从而在语音交互应用206与语音交互应用208进行语音交互的过程中对回声进行消除。

可选地，在本实施例中，上述回声的消除方法可以但不限于应用于语音交互的场景中。其中，上述设备上可以但不限于安装了各种类型的具有语音交互功能的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、办公类应用、多媒体应用、直播应用等。具体的，可以但不限于应用于在上述即时通讯应用中消除语音中回声数据的场景中，或还可以但不限于应用于在上述办公类应用中消除语音中回声数据的场景中，以提高消除回声的效率。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，第一音频数据是第二设备发送的，由第一设备接收到的音频数据。比如：在远程会议的过程中，与会的其中一方的发言内容被第二设备采集到，通过网络连接等形式传输给第一设备。第一设备通过天线等接收装置接收到该发言内容即为第一音频数据。

可选地，在本实施例中，非线性回声特征可以但不限于包括：幅度特征和谐波失真特征等等。比如：同一个音频数据经过不同的设备播放后可能会产生不同的幅度失真和谐波失真，20dB的音频数据经过设备1播放后可能变成25dB，经过设备2播放后可能变为27dB。谐波的波形可能产生不同程度的变形。

可选地，在本实施例中，通过第一设备的扬声器等装置播放第一音频信号，从而使得目标对象能够听到位于第二设备处的对象所输出的语音，同时通过第一设备的话筒等装置来采集位于第一设备处的目标对象输出的目标语音，采集到的第二音频数据中既包括播放第一音频数据所形成的第一音频信号，又包括目标语音所形成的第二音频信号。

可选地，在本实施例中，从第二音频数据中消除预先估计出的非线性回声数据和线性回声数据后得到了目标音频数据，该目标音频数据即为较为纯净的目标语音，也就是目标对象希望传输给位于第二设备处的对象的内容。消除了位于第二设备处的对象传输来的第一音频数据在播放过程中产生的回声数据，从而使得发送到第二设备进行播放的目标音频数据不会造成回声现象。

可选地，在本实施例中，第二设备接收到目标音频数据后播放该目标语音数据，同时采集位于第二设备处的对象传输的语音，采用同样的方式进行回声的消除，再将消除回声后的数据发送给第一设备，从而实现第一设备与第二设备之间清晰的语音交互过程。

在一个可选的实施方式中，如图3所示，第一设备上安装有会议应用1，第二设备上安装有会议应用2，应用1获取第一设备接收到的第一音频数据“现在开始开会”，根据非线性回声特征信息估计第一音频数据“现在开始开会”所对应的非线性回声数据，并估计第一音频数据“现在开始开会”所对应的线性回声数据，其中，非线性回声特征信息用于指示第一设备所具有的非线性回声特征。会议应用1获取第一设备对第一设备播放第一音频数据“现在开始开会”所形成的第一音频信号以及与会者1输出的目标语音“请同事1讲话”所形成的第二音频信号进行采集得到的第二音频数据。会议应用1从第二音频数据中消除非线性回声数据和线性回声数据，得到目标音频数据，其中，目标音频数据用于表示目标语音“请同事1讲话”。会议应用1向第二设备发送目标音频数据。

第二设备接收到目标音频数据后将其传输给会议应用2，会议应用2对目标音频数据进行与上述描述的过程类似的处理，在此不再赘述，从而在会议应用1与会议应用2进行语音交互的过程中对回声进行消除。

可见，通过上述步骤，对于通过第一设备接收到的第一音频数据，根据第一设备所具有的非线性回声特征对其非线性回声数据进行估计，从而使得估计出的非线性回声数据符合第一设备的特征，非线性回声数据与第一设备采集的第二音频数据中产生非线性回声的部分更加吻合，从而使得消除线性回声和非线性回声后的目标音频数据能够所表示的目标语音更加纯净，第二设备收到的目标音频数据中包括的第一音频数据的成分更加的减少，从而实现了提高回声消除效率的技术效果，进而解决了消除回声的效率较低的技术问题。

作为一种可选的方案，在根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据之前，还包括：

S1，通过所述第一设备播放测试音频数据；

S2，获取播放所述测试音频数据所形成的测试音频信号；

S3，确定第一音频特征和第二音频特征之间的对应关系，其中，所述第一音频特征为所述测试音频数据所具有的音频特征，所述第二音频特征为所述测试音频信号所具有的音频特征，所述非线性回声特征信息包括具有对应关系的所述第一音频特征和所述第二音频特征。

可选地，在本实施例中，在估计线性回声和非线性回声之前，对第一设备的非线性回声特征进行检测，从而使得估计出的非线性回声数据能够符合该第一设备的非线性回声特征。

可选地，在本实施例中，测试音频数据可以但不限于是第一设备中预先存储的用于对第一设备的非线性回声特征进行检测的音频数据。比如：测试音频数据可以但不限于是幅度已知的音频、谐波失真特征已知的音频，或者，测试音频数据可以但不限于是幅度未知的音频、谐波失真特征未知的音频，其播放前的幅度、谐波失真特征可以由第一设备进行检测。

作为一种可选的方案，确定所述第一音频特征和所述第二音频特征之间的对应关系包括：

S1，确定第一幅度特征和第二幅度特征之间的对应关系，其中，所述测试音频数据包括扫幅信号，所述扫幅信号为幅度从第一幅度线性衰减至第二幅度的白噪声，所述第一幅度特征为所述扫幅信号所具有的幅度特征，所述第二幅度特征为所述测试音频信号所具有的幅度特征；

S2，确定第一谐波失真特征和第二谐波失真特征之间的对应关系，其中，所述测试音频数据包括扫频信号，所述扫频信号为单频信号，所述第一谐波失真特征为所述扫频信号所具有的谐波失真特征，所述第二谐波失真特征为所述测试音频信号所具有的谐波失真特征。

可选地，在本实施例中，测试音频数据可以但不限于包括扫幅信号，该扫幅信号为幅度从第一幅度线性衰减至第二幅度的白噪声。如图4所示，为扫幅信号的时域波形，如图5所示，为扫幅信号的语谱图，使用扫幅信号确定第一设备的幅度失真特征。

例如：如图6所示，测试音频数据为幅度从-10dB线性衰减至-70dB的白噪声。通过不同的设备(设备A和设备B)播放该测试音频数据，采集到的数据产生了不同的幅度失真。比如：通过设备A播放的-60dB的音频，采集到的数据为-40dB的音频。

可选地，在本实施例中，测试音频数据包括扫频信号，该扫频信号可以但不限于为单频信号。例如：正弦信号，方波信号等等，如图7所示，为扫频信号的时域波形，如图8所示，为扫频信号的语谱图。使用扫频信号确定第一设备的谐波失真特征，如图9所示，为正弦电压谐波失真的波形和方波电压谐波失真的波形。

作为一种可选的方案，根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据，并估计所述第一音频数据所对应的线性回声数据包括：

S1，根据具有对应关系的所述第一幅度特征和所述第二幅度特征模拟所述第一音频数据的幅度非线性失真，得到幅度非线性失真数据；

S2，估计所述幅度非线性失真数据所对应的所述线性回声数据；

S3，根据具有对应关系的所述第一谐波失真特征和所述第二谐波失真特征以及所述第二音频数据估计所述第一音频数据所对应的所述非线性回声数据。

可选地，在本实施例中，根据具有对应关系的第一幅度特征和第二幅度特征模拟第一音频数据的幅度非线性失真，从而得到幅度非线性失真数据。比如：根据第一幅度特征和第二幅度特征之间的对应关系来调整第一音频数据中各个数据的幅度。如图6中所示的设备A的幅度失真特征，对于通过设备A接收到的第一音频数据，将其中幅度为-60dB的数据调整为幅度为-40dB。将其中幅度为-50dB的数据调整为幅度为-30dB。即将幅度为横轴上数值的数据调整为幅度为纵轴上的对应数值。

在一个可选的实施方式中，如图10所示，回声的消除过程包括如下步骤：

步骤1，基于标准测试音源(即上述测试音频数据)的非线性特征预测。标准测试音源包括用于预测幅度非线性失真的扫幅信号以及用于预测谐波失真的扫频信号。扫幅信号为幅度从0dB线性衰减至-90dB的白噪声，用于测试设备在不同输入幅度下的幅度失真表现。扫频信号为频率从1Hz至20kHz增加的单频信号，主要测试设备在不同输入频率下的谐波失真表现。

基于标准测试音源的特征预测过程包括：开启自动校准检测后，终端设备播放和采集标准测试音源。利用幅度非线性预测模块601估计幅度非线性失真，利用非线性谐波失真预测模块602估计谐波失真。

步骤二，基于幅度非线性预测结果确定幅度非线性模拟器参数。在自动校准测试中，利用幅度非线性预测器601获取用于指导幅度非线性模拟器的参数，幅度非线性模拟器模块603从幅度非线性预测器模块601接收预测特征并固化。在后续语音通信中持续生效。

步骤三，基于谐波失真预测结果设计非线性回声估计与抑制模块中谐波失真模拟器的参数。在自动校准测试中，利用非线性谐波失真系数估计模块602获取用于指导非线性回声估计与抑制模块604的参数，幅度非线性模拟器模块604从非线性谐波失真系数估计模块602接收预测特征并固化。在后续语音通信中持续生效。

作为一种可选的方案，从所述第二音频数据中消除所述非线性回声数据和所述线性回声数据，得到目标音频数据包括：

S1，从所述第二音频数据中消除所述线性回声数据，得到第三音频数据；

S2，从所述第三音频数据中消除所述非线性回声数据，得到所述目标音频数据。

在上述可选的实施方式中，还包括步骤四，参考信号(即上述第一音频数据)经过幅度非线性模拟模块，模拟终端设备对于播放信号的幅度非线性失真。在自动校准测试完成后，模块603和604的系数固化。模块601，602，以及606停止工作，进入语音通信过程，如图11所示，设备接收到远端语音后，传给扬声器进行播放，于此同时，作为参考信号，送入幅度非线性模拟模块603，模拟终端设备的幅度非线性失真，提升自适应线性回声估计器605的收敛速度。

步骤五，进行线性回声估计和消除。经过幅度非线性模拟的参考信号，送入自适应线性回声估计器605，估计并消除线性回声。

步骤六，进行非线性回声抑制。线性回声估计器后的信号，输送给非线性估计与抑制器604，去除谐波失真等非线性回声。得到去除回声后的纯净近端语音(即目标音频数据)送给远端。

S1，检测所述测试音频信号中所包括的除所述测试音频数据之外的其他音频数据的音量；

S2，在检测到所述其他音频数据的音量小于或者等于目标音量的情况下，确定所述第一音频特征和所述第二音频特征之间的对应关系；

其中，在检测到所述其他音频数据的音量大于所述目标音量的情况下，重新通过所述第一设备播放所述测试音频数据，并获取播放所述测试音频数据所形成的所述测试音频信号，直至检测到所述其他音频数据的音量小于或者等于所述目标音量。

可选地，在本实施例中，在对第一设备所具有的非线性回声特征进行确定的过程中，还可以对噪声(即测试音频信号中所包括的除所述测试音频数据之外的其他音频数据)的强度进行检测，如果噪声强度过大(即其他音频数据的音量大于目标音量)，则重新播放测试音频数据，并进行采集。如果噪声强度较小(即其他音频数据的音量小于或者等于目标音量)，则进行测试音频信号的采集和第一音频特征和第二音频特征之间对应关系的确定。

例如，在上述实施方式中，如图10所示，在自动校准测试中，利用幅度非线性预测器601获取用于指导幅度非线性模拟器的参数，同时获取近端语音及噪声监测模块606的检测结果。近端语音及噪声监测模块606的功能是判断现场是否存在终端播放设备以外的其他声源，包括说话人声，嘈杂的背景声等。如果模块606判断存在近端语音或者环境噪声过大，则模块601所得预测参数不可取，提示用户重新进行自动校准测试。如果模块606判断不存在近端语音或噪声，则认为当前环境达标，预测结果可接受。模块603幅度非线性模拟器从模块601接受预测特征并固化。在后续语音通信中持续生效。

此外，在自动校准测试中，利用非线性谐波失真系数估计模块621获取用于指导非线性回声估计与抑制模块604的参数，同时获取近端语音及噪声监测模块606的检测结果。近端语音及噪声监测模块606的主要功能是判断现场是否存在终端播放设备以外的其他声源，包括说话人声，嘈杂的背景声等。如果模块606判断存在近端语音或者环境噪声过大，则模块602所得预测参数不可取，提示用户重新进行自动校准测试。如果模块606判断不存在近端语音或噪声，则认为当前环境达标，预测结果可接受。模块604幅度非线性模拟器从模块602接受预测特征并固化。在后续语音通信中持续生效。

作为一种可选的方案，通过所述第一设备播放所述测试音频数据包括：

S1，在所述第一设备上进行音频数据交互的过程中，在所述第一设备上显示的音频数据交互界面上显示第一控件；

S2，在检测到对所述第一控件执行的第一选择操作的情况下，在所述第一设备上显示设置界面，其中，所述设置界面上显示有第二控件；

S3，在检测到对所述第二控件执行的第二选择操作的情况下，通过所述第一设备播放所述测试音频数据。

可选地，在本实施例中，第一控件可以但不限于是用于进入设置界面的控件，设置界面上显示的第二控件可以但不限于是用于启动非线性失真特征测试功能的控件。

可选地，在本实施例中，第一选择操作可以但不限于包括：点击操作、触摸操作、滑动操作等等用于触发第一控件的操作。

可选地，在本实施例中，第二选择操作可以但不限于包括：点击操作、触摸操作、滑动操作等等用于触发第二控件的操作。

在一个可选的实施方式中，以会议APP为例，在应用中，用户进入会议，打开麦克风，开始发言，如图12所示。此时用户发言声音会被麦克风采集到，线上其他用户的声音经过设备播放后，也会被麦克风采集，导致线上其他用户听到自己发言的声音，也就是回声。回声抵消器内置于APP中，可以消除麦克风采集到的其他用户的回声，只保留本地用户发言的声音，提升会议体验。点击图12所示主界面中设置按钮，进入图13所示的设置界面，点击自动校准栏的开始测试按键，启动非线性预测功能，系统播放标准测试音源，并自动分析幅度非线性失真和谐波失真。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述回声的消除方法的回声的消除装置，如图14所示，该装置包括：

第一获取模块1402，用于获取第一设备接收到的第一音频数据；

估计模块1404，用于根据非线性回声特征信息估计第一音频数据所对应的非线性回声数据，并估计第一音频数据所对应的线性回声数据，其中，非线性回声特征信息用于指示第一设备所具有的非线性回声特征；

第二获取模块1406，用于获取第一设备对第一音频信号以及第二音频信号进行采集得到的第二音频数据，其中，第一音频信号是第一设备播放第一音频数据所形成的音频信号，第二音频信号是目标对象输出的目标语音所形成的音频信号；

消除模块1408，用于从第二音频数据中消除非线性回声数据和线性回声数据，得到目标音频数据，其中，目标音频数据用于表示目标语音；

发送模块1410，用于向发送第一音频数据的第二设备发送目标音频数据。

可选地，上述装置还包括：

播放模块，用于在根据非线性回声特征信息估计第一音频数据所对应的非线性回声数据之前，通过第一设备播放测试音频数据；

第三获取模块，用于获取播放测试音频数据所形成的测试音频信号；

确定模块，用于确定第一音频特征和第二音频特征之间的对应关系，其中，第一音频特征为测试音频数据所具有的音频特征，第二音频特征为测试音频信号所具有的音频特征，非线性回声特征信息包括具有对应关系的第一音频特征和第二音频特征。

可选地，确定模块包括：

第一确定单元，用于确定第一幅度特征和第二幅度特征之间的对应关系，其中，测试音频数据包括扫幅信号，扫幅信号为幅度从第一幅度线性衰减至第二幅度的白噪声，第一幅度特征为扫幅信号所具有的幅度特征，第二幅度特征为测试音频信号所具有的幅度特征；

第二确定单元，用于确定第一谐波失真特征和第二谐波失真特征之间的对应关系，其中，测试音频数据包括扫频信号，扫频信号为单频信号，第一谐波失真特征为扫频信号所具有的谐波失真特征，第二谐波失真特征为测试音频信号所具有的谐波失真特征。

可选地，估计模块包括：

模拟单元，用于根据具有对应关系的第一幅度特征和第二幅度特征模拟第一音频数据的幅度非线性失真，得到幅度非线性失真数据；

第一估计单元，用于估计幅度非线性失真数据所对应的线性回声数据；

第二估计单元，用于根据具有对应关系的第一谐波失真特征和第二谐波失真特征以及第二音频数据估计第一音频数据所对应的非线性回声数据。

可选地，消除模块包括：

第一消除单元，用于从第二音频数据中消除线性回声数据，得到第三音频数据；

第二消除单元，用于从第三音频数据中消除非线性回声数据，得到目标音频数据。

可选地，确定模块包括：

检测单元，用于检测测试音频信号中所包括的除测试音频数据之外的其他音频数据的音量；

确定单元，用于在检测到其他音频数据的音量小于或者等于目标音量的情况下，确定第一音频特征和第二音频特征之间的对应关系；

其中，在检测到其他音频数据的音量大于目标音量的情况下，重新通过第一设备播放测试音频数据，并获取播放测试音频数据所形成的测试音频信号，直至检测到其他音频数据的音量小于或者等于目标音量。

可选地，播放模块包括：

第一显示单元，用于在第一设备上进行音频数据交互的过程中，在第一设备上显示的音频数据交互界面上显示第一控件；

第二显示单元，用于在检测到对第一控件执行的第一选择操作的情况下，在第一设备上显示设置界面，其中，设置界面上显示有第二控件；

播放单元，用于在检测到对第二控件执行的第二选择操作的情况下，通过第一设备播放测试音频数据。

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。

作为一种可选的实施例，上述回声的消除方法可以但不限于应用于如图15所示的用户A与用户B通过会议APP进行语音交互的场景中。本场景提供了一种预测语音通信系统终端设备非线性特征的方法，并利用预测到的非线性特征自动设计非线性模拟器，一方面，优化参考信号，使参考信号更接近麦克风所采集的带有非线性失真的回声信号，降低幅度非线性失真导致的回声泄漏；另一方面，优化非线性回声过滤器谐波生成模块参数，使得生成的谐波更接近设备产生的实际谐波，降低非线性谐波失真导致的双讲(双讲：近端人讲话，同时远端人讲话或者播放游戏音效)剪切。最终实现回声抵消器性能的提升。

引起语音通信终端设备非线性的因素很多，本场景中主要涉及以下两种主要的非线性特性的预测：

1、幅度非线性失真，指一个系统输出信号幅度的变化与输入信号幅度的变化不成线性关系，描述系统对输入信号幅度的损伤。

2、谐波失真，指一个系统输出信号包含输入信号中没有的谐波成分，改变了输入信号的频谱，描述系统对输入信号频率成分的损伤。

在特征预测过程中，通过一个预设的自动校准流程，自动化地预测上述两种非线性特性，这里在线预测指不需要依赖其他设备，且无须将通话设备置于特殊软硬件环境，用户打开语音通信APP正常使用，系统自动预测出期望特性。

在本场景中，以用户A为近端用户，用户B为远端用户为例。用户A进入会议，打开麦克风，开始发言，此时用户A发言声音会被麦克风采集到，线上的用户B的声音经过设备播放后，也会被麦克风采集，导致线上的用户B听到自己发言的声音，也就是回声。回声抵消器内置于APP中，可以消除麦克风采集到的其他用户的回声，只保留本地用户发言的声音，提升会议体验。用户A点击会议主界面中设置按钮，进入设置界面，点击自动校准栏的开始测试按键，启动非线性预测功能，系统播放标准测试音源，并自动分析幅度非线性失真和谐波失真。

在本场景中，通过预测和模拟终端播放设备的特定非线性特征，优化参考信号与非线性回声估计器，提升回声抵消器的整体性能。首先，通过预测和模拟采集播放设备的幅度非线性失真，使得参考信号更接近设备采集到回声，提升了自适应线性回声估计器滤波器的收敛速度，增强回声抑制能力，从而降低回声泄漏出现的概率。在面对回声能量突变的场景下，减小回声泄漏的概率。回声突变的场景常见于游戏音效，K歌直播等大音量播放场景。如图16所示，给出降低回声泄漏概率的示例，其中(a)是麦克风采集声音的时域波形，(b)是非线性模拟开启和关闭的情况下，回波损耗增益(ERLE)的值，(c)是非线性模拟开启和关闭的情况下，自适应线性回声估计残留回声时域波形。可见，在本场景中(开启非线性模拟后)可以有效降低回声泄漏的能量，在回声能量突然变化处，如97s位置，收益尤为显著。接着，通过预测和模拟采集播放设备的谐波失真，使得非线性估计器的谐波失真仿真模块系数设置更接近实际终端设备的谐波失真情况，降低了双讲剪切出现的概率。如图17所示，给出了降低双讲剪切概率的示例，其中，(a)是麦克风采集声音的时域波形，(b)是扬声器播放参考信号的时域波形，(c)是非线性模拟关闭的情况下，回声抵消器的输出，(d)是非线性模拟开启的情况下，回声抵消器的输出。在回声能量过大时，例如32s至47s，系统非线性谐波失真严重，开启谐波失真仿真后的回声抵消器可以更好的保护近端说话的人声，降低人声的双讲剪切概率。

根据本发明实施例的又一个方面，还提供了一种用于实施上述回声的消除的电子装置，如图18所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1802、存储器1804、传感器1806、编码器1808以及传输装置1810，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取第一设备接收到的第一音频数据；

S2，根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据，并估计所述第一音频数据所对应的线性回声数据，其中，所述非线性回声特征信息用于指示所述第一设备所具有的非线性回声特征；

S3，获取所述第一设备对第一音频信号以及第二音频信号进行采集得到的第二音频数据，其中，所述第一音频信号是所述第一设备播放所述第一音频数据所形成的音频信号，所述第二音频信号是目标对象输出的目标语音所形成的音频信号；

S4，从所述第二音频数据中消除所述非线性回声数据和所述线性回声数据，得到目标音频数据，其中，所述目标音频数据用于表示所述目标语音；

S5，向发送所述第一音频数据的第二设备发送所述目标音频数据。

可选地，本领域普通技术人员可以理解，图18所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图18其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图18中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图18所示不同的配置。

其中，存储器1804可用于存储软件程序以及模块，如本发明实施例中的回声的消除方法和装置对应的程序指令/模块，处理器1802通过运行存储在存储器1804内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器1804可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1804可进一步包括相对于处理器1802远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1810用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1810包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1810为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1804用于存储应用程序。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取第一设备接收到的第一音频数据；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种回声的消除方法，其特征在于，包括：

获取第一设备接收到的第一音频数据；

通过所述第一设备播放测试音频数据；

获取播放所述测试音频数据所形成的测试音频信号；

确定第一音频特征和第二音频特征之间的对应关系，其中，所述第一音频特征为所述测试音频数据所具有的音频特征，所述第二音频特征为所述测试音频信号所具有的音频特征，非线性回声特征信息包括具有对应关系的所述第一音频特征和所述第二音频特征；

根据所述非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据，并估计所述第一音频数据所对应的线性回声数据，其中，所述非线性回声特征信息用于指示所述第一设备所具有的非线性回声特征；

2.根据权利要求1所述的方法，其特征在于，确定所述第一音频特征和所述第二音频特征之间的对应关系包括：

确定第一幅度特征和第二幅度特征之间的对应关系，其中，所述测试音频数据包括扫幅信号，所述扫幅信号为幅度从第一幅度线性衰减至第二幅度的白噪声，所述第一幅度特征为所述扫幅信号所具有的幅度特征，所述第二幅度特征为所述测试音频信号所具有的幅度特征；

确定第一谐波失真特征和第二谐波失真特征之间的对应关系，其中，所述测试音频数据包括扫频信号，所述扫频信号为单频信号，所述第一谐波失真特征为所述扫频信号所具有的谐波失真特征，所述第二谐波失真特征为所述测试音频信号所具有的谐波失真特征。

3.根据权利要求2所述的方法，其特征在于，根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据，并估计所述第一音频数据所对应的线性回声数据包括：

根据具有对应关系的所述第一幅度特征和所述第二幅度特征模拟所述第一音频数据的幅度非线性失真，得到幅度非线性失真数据；

估计所述幅度非线性失真数据所对应的所述线性回声数据；

根据具有对应关系的所述第一谐波失真特征和所述第二谐波失真特征以及所述第二音频数据估计所述第一音频数据所对应的所述非线性回声数据。

4.根据权利要求1所述的方法，其特征在于，从所述第二音频数据中消除所述非线性回声数据和所述线性回声数据，得到目标音频数据包括：

从所述第二音频数据中消除所述线性回声数据，得到第三音频数据；

从所述第三音频数据中消除所述非线性回声数据，得到所述目标音频数据。

5.根据权利要求1所述的方法，其特征在于，确定所述第一音频特征和所述第二音频特征之间的对应关系包括：

检测所述测试音频信号中所包括的除所述测试音频数据之外的其他音频数据的音量；

在检测到所述其他音频数据的音量小于或者等于目标音量的情况下，确定所述第一音频特征和所述第二音频特征之间的对应关系；

6.根据权利要求1所述的方法，其特征在于，通过所述第一设备播放所述测试音频数据包括：

在所述第一设备上进行音频数据交互的过程中，在所述第一设备上显示的音频数据交互界面上显示第一控件；

在检测到对所述第一控件执行的第一选择操作的情况下，在所述第一设备上显示设置界面，其中，所述设置界面上显示有第二控件；

在检测到对所述第二控件执行的第二选择操作的情况下，通过所述第一设备播放所述测试音频数据。

7.一种回声的消除装置，其特征在于，包括：

第一获取模块，用于获取第一设备接收到的第一音频数据；

播放模块，用于在根据非线性回声特征信息估计所述第一音频数据所对应的非线性回声数据之前，通过所述第一设备播放测试音频数据；

第三获取模块，用于获取播放所述测试音频数据所形成的测试音频信号；

确定模块，用于确定第一音频特征和第二音频特征之间的对应关系，其中，所述第一音频特征为所述测试音频数据所具有的音频特征，所述第二音频特征为所述测试音频信号所具有的音频特征，所述非线性回声特征信息包括具有对应关系的所述第一音频特征和所述第二音频特征；

8.根据权利要求7所述的装置，其特征在于，确定模块包括：

第一确定单元，用于确定第一幅度特征和第二幅度特征之间的对应关系，其中，所述测试音频数据包括扫幅信号，所述扫幅信号为幅度从第一幅度线性衰减至第二幅度的白噪声，所述第一幅度特征为所述扫幅信号所具有的幅度特征，所述第二幅度特征为所述测试音频信号所具有的幅度特征；

第二确定单元，用于确定第一谐波失真特征和第二谐波失真特征之间的对应关系，其中，所述测试音频数据包括扫频信号，所述扫频信号为单频信号，所述第一谐波失真特征为所述扫频信号所具有的谐波失真特征，所述第二谐波失真特征为所述测试音频信号所具有的谐波失真特征。

9.根据权利要求8所述的装置，其特征在于，估计模块包括：

模拟单元，用于根据具有对应关系的所述第一幅度特征和所述第二幅度特征模拟所述第一音频数据的幅度非线性失真，得到幅度非线性失真数据；

第一估计单元，用于估计所述幅度非线性失真数据所对应的所述线性回声数据；

第二估计单元，用于根据具有对应关系的所述第一谐波失真特征和所述第二谐波失真特征以及所述第二音频数据估计所述第一音频数据所对应的所述非线性回声数据。

10.根据权利要求7所述的装置，其特征在于，消除模块包括：

第一消除单元，用于从所述第二音频数据中消除所述线性回声数据，得到第三音频数据；

第二消除单元，用于从所述第三音频数据中消除所述非线性回声数据，得到所述目标音频数据。

11.根据权利要求7所述的装置，其特征在于，确定模块包括：

检测单元，用于检测所述测试音频信号中所包括的除所述测试音频数据之外的其他音频数据的音量；

确定单元，用于在检测到所述其他音频数据的音量小于或者等于目标音量的情况下，确定所述第一音频特征和所述第二音频特征之间的对应关系；

12.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。