CN114143668A

CN114143668A - 音频信号处理、混响检测和会议方法、设备及存储介质

Info

Publication number: CN114143668A
Application number: CN202010922873.3A
Authority: CN
Inventors: 杜秉聰; 冯津伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2022-03-04

Abstract

本申请实施例提供一种音频信号处理、混响检测和会议方法、设备及存储介质。在本申请实施例中，引入终端设备所处环境的混响参数，利用混响参数和由扬声器播放的引起回波噪声的信号，对麦克风采集到的信号进行回波抑制，从而得到抑制回波噪声后的信号，有利于达到更好的回声消除性能，提高麦克风采集到的信号质量。

Description

音频信号处理、混响检测和会议方法、设备及存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频信号处理、混响检测和会议方法、设备及存储介质。

背景技术

在音视频通信系统中，本端设备通常具有扬声器和麦克风，其中扬声器播放的声音在经过多个传播路径后可产生回波噪声，该回波噪声最终被本端麦克风重新拾音并会传输给对端，导致对端说话者可以听到自己的说话的回声。

现有技术通常采用自适应滤波的方法来消除音视频通信系统的回波噪声，但是自适应滤波的方法消除回波噪声效果不太理想。因此，如何对音视频通信系统的回波噪声进行消除是亟需解决的问题。

发明内容

本申请的多个方面提供一种音频信号处理、混响检测和会议方法、设备及存储介质，用以达到更好的回声消除性能，提高麦克风采集到的信号质量。

本申请实施例提供一种会议方法，包括：获取本端会议设备所在会议场景内的混响参数，本端会议设备包括扬声器和麦克风；会议过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，回波噪声由扬声器播放的声音信号产生；根据混响参数和扬声器播放的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端会议设备。

本申请实施例还提供一种远程通信方法，包括：获取本端通信设备所在场景内的混响参数，本端通信设备包括扬声器和麦克风；在远程通信过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，回波噪声由扬声器播放的声音信号产生；根据混响参数和扬声器播放的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端通信设备。

本申请实施例还提供一种音频信号处理方法，适用于终端设备，终端设备包括扬声器和麦克风，该方法包括：获取终端设备所处环境中的混响参数，其中，终端设备中扬声器播放的信号在环境中可产生回波噪声；获取终端设备中麦克风采集到的混合信号，混合信号至少包括目标信号和第一回波噪声，第一回波噪声由扬声器播放的第一信号产生；根据混响参数和第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号。

本申请实施例还提供一种混响检测方法，适用于终端设备，终端设备包括扬声器和麦克风，该方法包括：利用麦克风在回波噪声采集条件下采集终端设备所处环境中的回波噪声，回波噪声由扬声器播放的信号在环境中产生；对回波噪声进行线性滤波，得到回波噪声的残留噪声；根据回波噪声及其残留噪声，计算终端设备所处环境中的混响参数。

本申请实施例还提供一种测试方法，适用于云端设备，包括：向音视频通信系统中的终端设备发送测试信号，以供终端设备利用其扬声器在所处环境中播放测试信号；接收终端设备返回的由其麦克风采集到的回波噪声，回波噪声由测试信号在环境中产生；对回波噪声进行线性滤波，得到回波噪声的残留噪声，并根据回波噪声及其残留噪声，计算环境中的混响参数；将混响参数发送给终端设备，以供终端设备对其待发送的信号和/或待播放的信号进行优化。

本申请实施例还提供一种音频信号处理方法，适用于终端设备，终端设备包括扬声器和麦克风，该方法包括：获取终端设备所处环境中的混响参数；利用混响参数对下行播放链路上的播放参数进行优化；利用优化后的播放参数对扬声器待播放的信号进行处理；以及利用扬声器播放处理后的信号。

本申请实施例还提供一种终端设备，包括：扬声器、麦克风、存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以用于：获取终端设备所处环境中的混响参数，其中，扬声器播放的信号在环境中可产生回波噪声；以及获取麦克风采集到的混合信号，混合信号至少包括目标信号和第一回波噪声，第一回波噪声由扬声器播放的第一信号产生；根据混响参数和第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号。

本申请实施例还提供一种终端设备，包括：扬声器、存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以用于：获取终端设备所处环境中的混响参数；利用混响参数对下行播放链路上的播放参数进行优化；利用优化后的播放参数对扬声器待播放的信号进行处理；以及利用扬声器播放处理后的信号。

本申请实施例还提供一种会议设备，包括：扬声器、麦克风、存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以用于：获取本端会议设备所在会议场景内的混响参数；在会议过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，回波噪声由扬声器播放的声音信号产生；根据混响参数和扬声器播放的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端会议设备。

本申请实施例还提供一种终端设备，包括：扬声器、麦克风、存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以用于：获取本端通信设备所在场景内的混响参数；在远程通信过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，回波噪声由扬声器播放的声音信号产生；根据混响参数和扬声器播放的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端通信设备。

本申请实施例还提供一种云端设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以用于：向音视频通信系统中的终端设备发送测试信号，以供终端设备利用其扬声器在所处环境中播放测试信号；接收终端设备返回的由其麦克风采集到的回波噪声，回波噪声由测试信号在环境中产生；对回波噪声进行线性滤波，得到回波噪声的残留噪声，并根据回波噪声及其残留噪声，计算环境中的混响参数；将混响参数发送给终端设备，以供终端设备对其待发送的信号和/或待播放的信号进行优化。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现本申请各实施例提供的方法中的步骤。

在本申请实施例中，引入终端设备所处环境的混响参数，利用混响参数和由扬声器播放的引起回波噪声的信号，对麦克风采集到的信号进行回波抑制，从而得到抑制回波噪声后的信号，有利于达到更好的回声消除性能，提高麦克风采集到的信号质量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种混响检测方法的流程示意图；

图2a为本申请示例性实施例提供的一种回波噪声的传递函数的示意图；

图2b为本申请示例性实施例提供的一种基于自适应滤波器对回波噪声进行线性滤波的过程的示意图；

图3为本申请示例性实施例提供的一种音频信号处理方法的流程示意图；

图4为本申请示例性实施例提供的一种对混合信号进行回波抑制的过程的示意图；

图5为本申请示例性实施例提供的另一种音频信号处理方法的流程示意图；

图6为本申请示例性实施例提供的一种会议系统的结构示意图；

图7为本申请示例性实施例提供的一种会议方法的流程示意图；

图8a为本申请示例性实施例提供的一种用户A和用户B通过终端设备进行音频交流的场景示意图；

图8b为本申请示例性实施例提供的一种远程通信方法的流程示意图；

图8c为本申请示例性实施例提供的一种音视频通信系统的结构示意图；

图8d为本申请示例性实施例提供的另一种音视频通信系统的结构示意图；

图8e为本申请示例性实施例提供的一种测试方法的流程示意图；

图9为本申请示例性实施例提供的一种终端设备的结构示意图；

图10为本申请示例性实施例提供的另一种终端设备的结构示意图；

图11为本申请示例性实施例提供的一种会议设备的结构示意图；

图12为本申请示例性实施例提供的一种云端设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对本申请各实施例进行详细介绍之前，先进行如下说明：本申请下述实施例提供的各种方法适用于任何具有扬声器和麦克风的终端设备，换句话说适用于任何具备音频信号输入输出功能的终端设备，例如可以是音频设备、视频设备、音视频一体机或音视频会议设备等等。具体地，终端设备可以是具有音频信号输入输出功能的电视机、笔记本电脑、平板电脑、台式电脑、手机、音箱、自助服务机器人以及各种会议终端等，但不限于这些。

在本申请各实施例中，终端设备通常会处于一定环境中，终端设备所处环境可以是室内环境，也可以是室外环境。室内环境可以是会议室、电影院、房间、商场、超市、体育场馆、临时搭建的录音棚等各种封闭或半封闭的空间环境。室外环境是与室内环境对应的空间环境，例如可以是体育场、广场或者公园等。

无论终端设备处于哪种环境中，在使用过程中，都会因为周围环境中存在的墙壁、天花板、地面等障碍物而发生反射，这种现象为混响现象。终端设备所处环境中的混响程度对人的听音效果有重要影响。因为终端设备所处环境中存在混响现象，终端设备中由扬声器播放出的声音信号因反射可能在经过一个或多个传播路径后又会回到终端设备侧，被终端设备中的麦克风重新拾取，从而给麦克风真正需要拾取的目标信号造成一定干扰，即产生回声现象。

如果终端设备应用于通信系统中，例如本端用户使用终端设备与对端打电话，或者，本端用户使用终端设备与对端进行音频或视频通信(例如与对端语音或视频聊天，或者与对端语音或视频会议)，那么扬声器播放的声音信号来自对端，来自对端的声音信号被扬声器播放之后在终端设备所处环境中经一个或多个传播路径后又会回到终端设备侧，被终端设备中的麦克风重新拾取，如果不加以抑制，来自对端的声音信号又会被传输至对端，这样对端就会听到自己的声音，即产生所谓的声学回声(Acoustic Echo)。

无论是哪种回声，如果回声超出合理范围，都会使终端设备所处环境(如会议室或房间)内的频率传输特性变坏，同时也会产生较大的再生混响干扰，给麦克风需要采集的目标信号造成严重干扰，影响信号质量。在本申请下述实施例中，将各种回声(如普通回声或声学回声)，统称为回波噪声。

在本申请实施例中，可以采用声学回波抵消器(Acoustic Echo Canceller，AEC)技术，来抵消音频、视频或音视频通信过程中以及其它应用场景中由于麦克风接收到扬声器播放出的信号而导致的回波噪声。虽然AEC技术发展了几十年，但AEC的性能(即抵消回波的效果)并不理想，如何提高AEC的性能依然是个行业难题。本申请实施例的发明人经过不断研究和分析发现：AEC的性能在很大程度上取决于应用场景，例如，房间的混响程度，并由此提出在AEC过程中融入混响程度这个因子，结合混响程度对麦克风采集到的信号进行AEC处理，达到更好的回波消除性能。鉴于此，在本申请下述实施例中，提供了一种自动检测终端设备所处环境中混响程度的混响检测方法，同时还给出了混响程度这个因子在AEC过程中和/或在下行播放链路优化过程中的应用。在本申请下述实施例中，有关AEC的实现过程既可以采用硬件芯片实现，也可以采用软件方案实现。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种混响检测方法的流程示意图。如图1所示，该方法包括：

11、利用终端设备中的麦克风在回波噪声采集条件下采集终端设备所处环境中的回波噪声，该回波噪声由终端设备中的扬声器播放出的信号产生；

12、对麦克风采集到的回波噪声进行线性滤波，得到回波噪声的残留噪声；

13、根据回波噪声及其残留噪声，计算终端设备所处环境中的混响参数。

在本实施例中，可以通过回波噪声来检测终端设备所处环境中的混响参数。具体地，在终端设备所处环境中创造回波噪声采集条件，回波噪声采集条件是一种能够让麦克风清晰采集到由扬声器播放的信号所产生的回波噪声的环境条件，通常是相对比较安静的环境条件，在该环境条件下尽量做到没有本端其它声源的信号，而仅有扬声器播放的信号。基于此，可以利用麦克风在回波噪声采集条件下采集终端设备所处环境中的回波噪声，该回波噪声是由终端设备中扬声器播放的信号在所述环境中经多次反射产生的。进一步，对回波噪声进行线性滤波，得到回波噪声的残留噪声；根据回波噪声及其残留噪声，计算终端设备所处环境中的混响参数。其中，混响参数用来描述终端设备所处环境内声音信号衰减快慢的程度，即该混响参数是对终端设备所处环境中混响程度的体现。可选地，混响参数可以用混响时间(Reverberation Time 60dB，RT60)来表示，RT60表示声音衰减60dB所用的时间。RT60越大，表示在当前环境产生的声音信号越久才会消失。

在本实施例中，并不限定利用麦克风在回波噪声采集条件下采集终端设备所处环境中的回波噪声的实施方式。在一可选实施例中，在终端设备所处环境中，要求自终端设备开始以及在开机后指定时间内保持相对安静，以创造回波噪声采集条件，其中，扬声器在开机期间以及开机后指定时间内会播放开机声音信号，开机声音信号被播放后在该环境中经多次反射后会到达麦克风形成回波噪声，在该情况下，麦克风在终端设备开机后指定时间内采集的噪声信号主要为回波噪声，因此可以获取麦克风在终端设备开机后指定时间内采集的噪声信号作为回波噪声。其中，指定时间可以是开机后的1s、2s、5s等，可以根据应用需求灵活设定。在又一可选实施例中，有一些应用场景，用户可以使用终端设备与对端用户进行语音交互，例如通过终端设备上的即时通信应用与对端用户进行语音或视频通信，或者通过终端设备给对端用户拨打电话等。在这些应用场景中，为保证通信或通话质量，终端设备通常处于相对安静的环境(相当于回波噪声采集条件)中，且本端用户与对端用户通常会交替说话或发言，在本端用户未说话的时间间隙内，一般是对端用户在说话，此时对端用户的声音信号会经过网络传输到达本端并经由扬声器播放出来，扬声器播放的对端用户的声音信号在终端设备所处环境中经多次反射后会到达麦克风形成回波噪声，在该情况下，麦克风在本端用户未说话的时间间隙内采集的噪声信号主要为回波噪声，因此可以获取麦克风在本端用户未说话的时间间隙内采集的噪声信号作为回波噪声。

在本实施例中，通过对终端设备所处环境中产生回波噪声的传递函数进行了分析和研究发现，因该环境的混响特征引起的回波噪声可分为直达声(Direct path)、早期混响(Early Reflection)与后期混响(Late Reverberation)三个部分。其中，终端设备所处环境中产生回波噪声的传递函数如图2a所示，在该图中，横轴表示时间；纵轴表示信号幅度。在这三个部分中，直达声和早期混响是可以通过线性滤波进行模拟的，在实际应用中，可以对麦克风采集到的信号进行线性滤波，这样基本上可以抑制掉直达声和早期混响；但是线性滤波是无法模拟环境中的后期混响的，而且后期混响的成份会影响到线性滤波的收敛效果，因此在不同环境下因为混响程度的不同，线性滤波的表现不同，也就是说通过分析线性滤波器的表现可以间接地反映出环境中的混响程序，尤其是后期混响的程度。鉴于该研究结果，在本申请实施例中，利用线性滤波器对麦克风在终端设备所处环境中采集到的回波噪声的线性滤波效果，来表征终端设备所处环境中的混响程度。

具体地，在获取到麦克风在回波噪声采集条件下采集到的回波噪声之后，进一步，对回波噪声进行线性滤波，得到回波噪声的残留噪声。在本实施例中，并不限定对回波噪声进行线性滤波的实施方式。可选地，可以采用自适应滤波器(或者称为线性滤波器)对回波噪声进行线性滤波。如图2b所示，基于自适应滤波器对回波噪声进行线性滤波的过程包括：将扬声器所播放的引起该回波噪声的信号(例如开机声音信号或对端用户的声音信号)输入到自适应滤波器，在自适应滤波器内利用不同的自适应滤波算法调整滤波器的权值向量，估计一个近似的回波噪声；进一步，利用估计出的近似的回波噪声与麦克风采集到的回波噪声进行抵消，可以得到回波噪声的残留噪声。其中，常用的自适应算法包括：最小均方误差算法、最小二乘算法、迫零算法以及最陡下降算法等。

在本实施例中，根据回波噪声及其残留噪声定义对麦克风在终端设备所处环境中采集到的回波噪声的线性滤波效果，也就是定义了终端设备所处环境中的混响程度，并计算出表示混响程序的混响参数，但并不限定根据回波噪声及其残留噪声，计算混响参数的实施方式。在本申请一些可选实施例中，通过回音往返损耗增强(Echo Return LossEnhancement，ERLE)参数来表征环境中的混响参数。具体地，根据回波噪声及其残留噪声，计算终端设备所处环境的混响参数的过程包括：根据回波噪声及其残留噪声的功率值，计算ERLE参数；根据ERLE参数，查询预先配置的ERLE参数与混响参数的对应关系，得到当前所处环境的混响参数。进一步可选地，可以计算回波噪声的功率与残留噪声的功率的比值作为ERLE参数。其中，ERLE参数值越高，表示回波噪声的残留噪声越小，也即线性滤波的性能越好，也就说明环境中的混响程度相对越简单。

在本实施例中，可以预先配置终端设备在其所处环境中的ERLE参数与其所处环境的混响参数之间的对应关系。其中，在同一环境中，根据终端设备的不同，获取到的ERLE参数是不同的，但同一环境下混响参数(如RT60)是相同的，因此，对同一环境而言，可以针对不同终端设备，预先配置ERLE参数与混响参数的对应关系。具体地，以上述终端设备所处环境为例，可以将上述终端设备部署在该环境中，利用前述方法获取ERLE参数，即利用麦克风在回波噪声采集条件下采集终端设备所处环境中的回波噪声，对回波噪声进行线性滤波，得到回波噪声的残留噪声；计算回波噪声的功率与其残留噪声的功率的比值作为ERLE参数；与此同时，测试该环境条件下的混响参数，进而配置该终端设备在该环境中的ERLE参数与混响参数的对应关系。其中，可以采用专用的测试设备，如声级计，测试环境条件下的混响参数，如RT60。

在此说明，本实施例提供的混响检测方法，可以在终端设备开机时执行一次，在得到终端设备所处环境中的混响参数后，可以在续过程中一直使用该混响参数；或者，也可以间隔性地执行，在每次得到终端设备所处环境中的混响参数之后，可以持续使用该混响参数直至下一次计算出新的混响参数为止。无论是哪种执行方式，整个混响检测过程中，无需线下校准，打开终端设备即可自适应的计算终端设备所处环境的混响参数，效率较高，且用户无感，有利于提高用户体验。

在本申请实施例中，并不限定上述混响检测方法的应用场景，例如可以应用在建筑领域，通过计算出的混响参数评估音乐厅、礼堂或者剧院等建筑物的声学特性。当然，除了使用混响参数评估各种建筑物的声学特性之外，在本申请下述实施例中，为混响参数提供了新的应用场景，即将混响参数应用到AEC过程中和/或将混响参数用来优化音视频播放场景中的下行播放链路。需要说明的是，在下面实施例中所使用的混响参数可以采用前述实施例提供的混响检测方法得到，也可以采用其它方法得到，对此不做限定。下面对混响参数在AEC过程中和下行播放链路优化过程中的应用分别进行详细说明。

图3为本申请示例性实施例提供的一种音频信号处理方法的流程示意图，该方法适用于任何具有扬声器和麦克风的终端设备，如图3所示，该方法包括：

31、获取终端设备所处环境中的混响参数，其中，终端设备中扬声器播放的信号在终端设备所处环境中可产生回波噪声；

32、获取终端设备中麦克风采集到的混合信号，该混合信号至少包括目标信号和第一回波噪声，第一回波噪声由扬声器播放的第一信号在所述环境中产生；

33、根据混响参数和产生第一回波噪声的第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号。

在本实施例中，终端设备具有扬声器和麦克风，在使用过程中，可以利用麦克风采集外部声源的声音信号，利用扬声器向外播放接收到的声音信号或者利用扬声器播放由终端设备内部产生的一些声音信号，例如开机声音信号或麦克风采集到的声音信号。

在实际应用中，由于终端设备所处环境中存在混响现象，麦克风采集到的信号一般是混合信号，该混合信号不仅包括麦克风实际需要采集的目标信号，还包括由扬声器播放的信号在该环境中产生的回波噪声。其中，麦克风真正需要采集的目标信号可能是噪声信号，例如白噪声，也可能是本端声源发出的有用信号，例如本端用户的声音信号，或者本端其它设备播放的声音信号等。在本实施例中，为了便于描述和区分，将麦克风在实际应用中采集到的回波噪声称为第一回波噪声，将扬声器播放的产生第一回波噪声的信号称为第一信号。

为了对麦克风采集到的混合信号进行回波抑制，在本实施例中，还会获取终端设备所处环境中的混响参数，该混响参数可表征该环境中的混响程度。通常，可以在麦克风采集混合信号之前，获取终端设备所处环境中的混响参数。

在本实施例中，并不限定获取终端设备所处环境中的混响参数的实施方式。在一可选实施例中，可以基于倒谱滤波估计终端设备当前所处环境的混响参数，首先用内置的扬声器发出1000Hz的激励信号；其次，对麦克风接收的音频信号做快速傅里叶变换，对数运算和离散余弦变换，得到混响信号的倒谱参数；然后，对倒谱参数进行滤波，从混响信号的倒谱参数中分离出房间滤波器的倒谱参数；最后，通过逆离散余弦变换，指数变换和快速傅里叶逆变换，得到房间的混响参数。在又一可选实施例中，可以采用前述实施例提供的混响检测方法来获取终端设备所处环境中的混响参数。关于利用混响检测方法获取终端设备所处环境中的混响参数的实施方式，可参见前述实施例，在此不再赘述。

在本实施例中，可以根据混响参数和产生第一回波噪声的第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号。在本实施例中，并不限定根据混响参数和第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号的实施方式。可选地，一种具体实施方式包括：根据第一信号对混合信号进行线性滤波，以得到中间信号，中间信号包括目标信号和第一回波噪声的残留噪声；根据混响参数和第一信号对中间信号进行非线性滤波，以滤除第一回波噪声的残留噪声得到目标信号。可选地，可以采用自适应滤波器，对对混合信号进行线性滤波。

进一步可选地，一种根据混响参数和第一信号对中间信号进行非线性滤波的实施方式包括：根据混响参数和第一信号，预估第一信号在终端设备所处环境中产生的后期混响噪声，后期混响噪声为非线性噪声；利用预估的后期混响噪声对中间信号进行非线性滤波，以滤除第一回波噪声的残留噪声得到目标信号。

进一步可选地，经过线性滤波后得到的第一回波噪声的残留噪声中除了包含后期混响噪声(即非线性部分)，可能还包含第一回波噪声的线性残留部分。基于此，在根据混响参数和第一信号对中间信号进行非线性滤波之前，还可以对中间信号进行去估计，以滤除第一回波噪声的残留噪声中的线性残留噪声。

下面结合图4，对根据混响参数和第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号的过程进行详细说明。

假设扬声器播放的第一信号为x(n)，h(n)为扬声器到麦克风之间的传递函数，第一信号x(n)经过扬声器到达麦克风之后变为第一回波噪声d(n)，其中，d(n)＝x(n)*h(n)；麦克风采集到的混合信号y(n)除了包括第一回波噪声d(n)之外，还包括噪声信号n(n)和目标信号s(n)，即y(n)＝d(n)+n(n)+s(n)，在本实施例中，目标信号s(n)是非噪声信号。

如图4所示，将第一信号x(n)输入至线性滤波器(如自适应滤波器)进行线性预估，得到对第一回波噪声d(n)的估计信号d^(n)，用d^(n)去抵消第一回波噪声d(n)，得到中间信号e(n)＝e_u(n)+n(n)+s(n)，其中，e_u(n)＝d(n)-d^(n)。

对于第一回波噪声来说，其主要分为三个部分：直达声、早期混响和后期混响。线性滤波器无法模拟终端设备所处环境的后期混响，因此，第一回波噪声在经过线性滤波后得到的残留信号中包含非线性残留部分(即后期混响部分)，可选地，还可以包含线性残留部分。即第一回波噪声的残留噪声可表示为：e_u(n)＝e_uLinear(n)+e_uReverb(n)，其中，e_uReverb(n)为后期混响，e_uLinear(n)为线性残留部分。对于中间信号中混有的第一回波噪声的线性残留部分，可以在进行非线性滤波之前，使用去估计的方式过滤。对于中间信号中混有的第一回波噪声的非线性残留部分(即，后期混响)，可以根据混响参数和第一信号对中间信号进行非线性滤波，以滤除第一回波噪声的残留噪声(主要是指该残留噪声中的非线性残留部分，亦即后期混响)得到目标信号。

具体地，如图4所示，可以将混响参数和第一信号输入后期混响预估模块中，利用混响参数预估第一信号在终端设备所处环境中产生的后期混响噪声，进而将后期混响预估模块预估得到的后期混响噪声输入非线性滤波器中，在非线性滤波器中利用预估的后期混响噪声对中间信号进行非线性滤波，以滤除第一回波噪声的非线性残留部分得到目标信号。其中，在非线性滤波器中，可以利用后期混响预估模块预估得到的后期混响噪声与中间信号中混有的第一回波噪声信号的非线性残留部分相抵消，达到抑制第一回波噪声的目的，从而得到目标信号。

可选地，上述非线性滤波可以采用维纳滤波的方式实现。其中，维纳滤波在本实施例中的应用原理为：非线性滤波的传递函数h_Re(n)，传递函数对应的频响函数为：

其中，

表示估计的残留噪声的功率谱密度，S_ee(Ω，n)表示残留噪声、噪声信号以及目标信号的功率谱密度。若残留噪声中的后期混响以及线性残留部分均为独立的平稳随机过程，则估计的残留噪声的功率谱密度可以表示为线性残留部分的功率谱密度和后期混响的功率谱密度之和，即

其中，残留噪声的的方式估算

根据维纳滤波的自适应算法，例如最小均方误差算法、最小二乘算法、迫零算法以及最陡下降算法等，动态调整

的值，使得非线性滤波对残留噪声的抑制效果达到最优。

其中，在得到目标信号之后，对目标信号的处理具体可视应用需求而定，对此不做限定。可选地，在得到目标信号之后，可以发送目标信号，即将目标信号发送出去，例如可以是发送给对端设备。或者，在得到目标信号之后，也可以将目标信号送入扬声器，利用扬声器重新播放该目标信号。

在本实施例中，引入本端终端设备所处环境的混响参数，利用混响参数和扬声器播放的信号，对麦克风采集到的混合信号进行回波抑制，从而得到抑制回波噪声后的信号，有利于达到更好的回声消除性能，提高麦克风采集到的信号质量。进一步，在音视频通信场景中，在得到抑制回波噪声后的信号之后，还可以将该信号发送至对端设备，可提高本端与对端的通信质量，提高用户体验。再者，该方法不需要线下校准，打开终端设备就可以使用，可以动态自适应的利用混响参数对回波噪声进行抑制，提高了用户的体验感。

本申请实施例的发明人研究发现：终端设备所处环境(例如房间或会议室)中的混响参数不仅影响麦克风的拾音效果，而且还会影响到扬声器放音的听感，如果混响严重会导致扬声器播放出来的声音经过环境的多次反射，不同反射的信号在人耳叠加导致无法听清楚。基于此，本申请还提供一种基于混响参数的下行链路优化方法。在本申请实施例中，下行链路是指声音信号从到达终端设备到通过终端设备中的扬声器播放出去所经过的信号链路。

图5为本申请示例性实施例提供的另一种音频信号处理方法的流程示意图，如图5所示，该方法包括：

51、获取终端设备所处环境中的混响参数；

52、利用混响参数对下行播放链路上的播放参数进行优化；

53、利用优化后的播放参数对扬声器待播放的信号进行处理；

54、利用终端设备中的扬声器播放处理后的信号。

在本实施例中，可以在对下行播放链路上的播放参数进行优化之前，获取终端设备所处环境中的混响参数。可选地，如果终端设备处于一些变化相对较小的环境中，考虑到该环境中的混响参数不会变化或变化微乎其微(该变化可忽略不计)，则可以执行一次获取混响参数的操作，在后续可以重复使用该混响参数对下行播放链路上的播放参数进行优化，但不限于此。可选地，如果终端设备处于一些动态变化的环境中，考虑到环境变化其混响参数也会动态变化，则可以根据环境的变化，动态执行获取混响参数的操作，并在每次重新获取混响参数之后，利用新获取的混响参数对下行播放链路上的播放参数进行优化。

在本实施例中，并不限定获取终端设备所处环境中的混响参数的实施方式。其中，每次获取混响参数的实施方式可参见前述实施例中的描述，在此不再赘述。

在本申请实施例中，并不限定利用混响参数对下行播放链路上的播放参数进行优化的具体实施方式，具体可根据下行播放链路上具体有哪些播放参数而定。在一些可选实施例中，下行播放链路上包括均衡器、限幅器以及增益模块中的至少一种。均衡器、限幅器以及增益放大器可以采用软件方式实现，也可以采用硬件方式实现，对此不作限定。其中，均衡器可调节声音信号中各种频率成分的电信号的放大量，通过对各种不同频率的电信号的调节来补偿扬声器和声场的缺陷；限幅器可以把输出信号幅度限定在一定的范围内，亦即当输入电压超过或低于某一参考值后，输出电压将被限制在某一电平(称作限幅电平)，且再不随输入电压变化；增益放大器用于把输入信号的电压放大。

基于上述，在一可选实施例中，利用混响参数对下行播放链路上的播放参数进行优化，包括以下至少一种：利用混响参数对下行播放链路上均衡器的均衡参数进行优化；利用混响参数对下行播放链路上限幅器的限幅参数进行优化；利用混响参数对下行播放链路上的增益参数进行动态范围调整(Dynamic Range Control，DRC)。

在本实施例中，利用混响参数对下行播放链路上均衡器的均衡参数进行优化，是根据混响参数适应性调整下行播放链路上均衡器的均衡参数的过程。可选地，混响较为严重的频带可能是高频频带，基于此，一种利用混响参数对下行播放链路上均衡器的均衡参数进行优化的实施方式，包括：在混响参数大于设定混响参数阈值时，说明终端设备所处环境中的混响程度较为严重，则可以增大第一频带内的幅度均衡参数，并减小第二频带内的幅度均衡参数；其中，第一频带的下限频率值大于设定的第一阈值，第二频带的上限频率值小于设定的第二阈值，第二阈值小于或等于第一阈值。简单来说，第一频带是相对的高频范围，第二频带是相对的低频范围。这样，对于高频范围内的声音信号，均衡器会加大对这部分声音信号的放大量；对于低频范围内的声音信号，均衡器会降低对这部分声音信号的放大量。这可以保证高频信号的声音质量，提高用户的听音效果。

在本实施例中，利用混响参数对下行播放链路上限幅器的限幅参数进行优化，是根据混响参数适应性调整下行播放链路上限幅器的限幅参数的过程。可选地，一种利用混响参数对下行播放链路上限幅器的限幅参数进行优化的实施方式，包括：在混响参数大于设定混响参数阈值时，说明终端设备所处环境中的混响程度较为严重，则可以增大限幅器中的第一电压门限，并降低限幅器中的第二电压门限；其中，第一电压门限大于第二电压门限。其中，第一电压门限和第二电压门限是指限幅器调整输出信号电压的参考值。例如，当输入声音信号的电压大于第一电压门限或者小于第二电压门限时，限幅器可以将输出电压限制在某一电压(称为限幅电压)。这可以保证声音质量，提高用户的听音效果。

在本实施例中，利用混响参数对下行播放链路上的增益参数进行DRC，是根据混响参数适应性调整下行播放链路上增益参数的过程。可选地，混响较为严重的频带可能是高频频带，基于此，一种利用混响参数对下行播放链路上的增益参数进行DRC的实施方式，包括：在混响参数大于设定混响参数阈值时，增大第一频带内的增益参数，减小第二频带内的增益参数；关于第一频带和第二频带的定义参见上文，在此不再赘述。简单来看，对于高频范围内的声音信号，可加大对这部分声音信号的电压增益；对于低频范围内的声音信号，可降低对这部分声音信号的电压增益。这可以保证高频信号的声音质量，提高用户的听音效果。

在此说明，本申请上述实施例提供的各种音频信号处理方法，可以应用在涉及音频信号输入输出的各种场景中。例如，可以应用在至少两个用户通过终端设备打电话的应用场景中，或者可以应用在至少两个用户通过终端设备进行音频聊天或视频聊天的应用场景中，还可以应用在程会议场景中。其中，远程会议可以是纯音频的音频会议，也可以是带有音频和视频的音视频会议。下面以音频或音视频会议为例，对本申请上述实施例提供的方法进行示例性说明。

在本实施例中，如图6所示，提供一种会议系统600，包括本端会议室601和对端会议室602。本端会议室内布置有至少一台会议设备603，对端会议室内部署有至少一台会议设备604。本端会议设备603与对端会议设备604之间可以通过互联网通信连接。其中，本端会议设备603和对端会议设备604均包括麦克风605和扬声器606。进一步可选地，本端会议设备603和对端会议设备604还可以包括显示屏、输入设备等其它组件。在本实施例中，并不对会议设备的实现形态进行限定，例如可以是智能手机、笔记本电脑、台式电脑、会议电话、视频会议终端或者音视频一体机，也可以是包括会议话筒、会议音箱、投影仪等设备在内的会议子系统等。

在会议开始之前，上述会议系统需要部署好，可选地，可以是提前部署好的，也可以是临时部署的。另外，在会议开始之前，也可以预先测试得到本端会议设备的ERLE参数与本端会议室内的混响参数之间的对应关系。基于上述会议系统，本申请实施例还提供一种会议方法，该会议方法主要从本端进行描述，对于对端可采用与本端类似或相同的方式参与会议。如图7所示，该方法包括：

71、获取本端会议设备所在会议场景内的混响参数，本端会议设备包括扬声器和麦克风。

可选地，可以会议系统部署好之后，且在会议开始之前，在本端会议场景(即本端会议室)内创造回波噪声采集条件，例如相对安静的环境，开启本端会议设备，此时本端会议设备中的扬声器会向外播放开机声音信号，开机声音信号是本端会议设备都具有的一种系统启动音效。如果开机声音信号正常，说明本端会议设备正常。此时，该开机声音信号在本端会议室内会产生回波噪声，该回波噪声可被本端会议设备中的麦克风采集到，由于开机期间本端会议室内相对安静，故麦克风采集到的噪声信号主要是该回波噪声。麦克风可以将该回波噪声送入本端会议设备的处理器中，由处理器对该回波噪声进行线性滤波，得到该回波噪声的残留噪声；之后，计算该回波噪声的功率与其残留噪声的功率的比值，得到可表征线性滤波性能的ERLE参数；进而，通过该ERLE参数查询预先获取的本端会议设备的ERLE参数与本端会议室内的混响参数之间的对应关系，得到本端会议室内的混响参数。

或者，

在会议开始之后，本端用户与对端用户交替发言，在本端用户未发言但对端用户发言的时间间隙内，对端的声音信号会经过经本端会议设备与对端会议设备之间的传输链路被传输至本端会议设备，本端会议设备中的扬声器会将来自对端的声音信号播放出去；其中，被扬声器播放的来自对端的声音信号会在本端会议室内产生回波噪声，该回波噪声会被本端会议设备中的麦克风采集到，由于此时，本端用户并未发言，所以麦克风采集到的信号主要是回波噪声。此时，麦克风可以将采集到的回波噪声送入本端会议设备的处理器中，由处理器对该回波噪声进行线性滤波，得到该回波噪声的残留噪声；之后，计算该回波噪声的功率与其残留噪声的功率的比值，得到可表征线性滤波性能的ERLE参数；进而，通过该ERLE参数查询预先获取的本端会议设备的ERLE参数与本端会议室内的混响参数之间的对应关系，得到本端会议室内的混响参数。

72、在会议过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，回波噪声由扬声器播放的对端的声音信号产生。

在实际会议过程中，可以利用本端会议设备中的麦克风采集本端的声音信号，其中，麦克风采集到的声音信号中混有回波噪声，回波噪声是扬声器播放的对端的声音信号产生。

可选地，在本端会议设备中的麦克风采集本端的声音信号之前，有可能接收对端会议设备传输的来自对端的声音信号，如果接收到来自对端的声音信号，本端会议设备中的扬声器会播放来自对端的声音信号。在该情况下，麦克风采集到的回波噪声主要是由扬声器播放的来自对端的声音信号在本端会议室内产生的。

73、根据混响参数和对端的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端会议设备。

在麦克风采集到声音信号之后，本端会议设备需要将麦克风采集到的声音信号传输至对端会议设备，进而由对端会议设备通过其扬声器将该声音信号播放给对端用户。在将麦克风采集到的声音信号传输至对端之前，可以根据混响参数和对端的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端会议设备，这样可以提高传输给对端设备的声音质量，避免对端用户听到自己声音的回波，提高会议中的通话质量，提高用户的会议体验。

在一可选实施例中，本端会议设备和对端会议设备均为音视频设备，音视频设备是指同时支持音频和视频的设备，例如可以是手机、笔记本电脑、音视频一体机或带摄像头的会议设备等。在该实施例中，在会议过程中，本端会议设备在通过麦克风采集本端声音信号的过程中，还可以通过其摄像头采集本端的视频画面；进一步，在将经过回波抑制后的声音信号传输给对端会议设备的过程中，可一并将本端音视频设备采集到的本端的视频画面传输给对端会议设备，由对端会议设备同时将本端的声音信号和视频画面一并播放给对端用户。同理，对端会议设备也会同时采集对端的声音信号和对端的视频画面，并一并传输至本端会议设备，由本端会议设备同时将对端的声音信号和视频画面一并播放给本端用户。

其中，关于根据混响参数和对端的声音信号，对麦克风采集到的声音信号进行回波抑制的详细过程，可参见前述实施例，在此不再赘述。

在一可选实施例中，如图7所示，本实施例的方法还包括：

74、利用混响参数对本端会议设备中下行播放链路上的播放参数进行优化；

75、每当接收到对端会议设备发送的来自对端的声音信号时，利用优化后的播放参数对来自对端的声音信号进行优化处理；

76、利用本端会议设备中的扬声器播放优化处理后的来自对端的声音信号。

在本实施例中，在获得本端会议室内混响参数的情况下，还可以利用该混响参数对本端会议设备中下行播放链路上的播放参数进行优化。可选地，利用混响参数对本端会议设备中下行播放链路上的播放参数进行优化，包括以下至少一种：利用混响参数对下行播放链路上均衡器(Equalizer)的均衡参数进行优化；利用混响参数对下行播放链路上限幅器(Limiter)的限幅参数进行优化；利用混响参数对下行播放链路上的增益参数进行DRC。关于各优化方式的详细描述，可参见前述实施例，在此不再赘述。

在本实施例中，可以根据本端会议室内的混响参数，动态调整下行播放链路上均衡器、限幅器等模块，可将来自对端的声音信号中混响严重的频带稍作抑制或限制，解决混响较为严重的频带上的声音信号被播放出来后经过多次反射在人耳叠加导致无法听清楚的问题，有利于改善本端用户的听感。

当然，除了上述会议场景之外，如图8a所示，在用户A和用户B通过手机拨打电话或用户A和用户B通过手机、笔记本电脑或平板电脑等终端设备上的即时通讯软件进行在线视频或语音的场景中，尤其是在开启免提的情况下，在每端的设备中一方面可以采用混响参数对麦克风采集到的本端声音信号进行回波抑制，另一方面可以以采用混响参数对下行播放链路上的播放参数进行优化，从而改善播放出来的对端用户的声音质量，提供双方之间的通话质量，提高用户感受。

无论是上述会议场景，还是用户通过手机拨打电话或者通过手机、笔记本电脑或者平板电脑等终端设备进行在线视频或语音的场景，均可概括为音视频通信场景。基于音视频通信场景，本申请实施例还提供一种远程通信方法，如图8b所示，该方法包括：

81b、获取本端通信设备所在场景内的混响参数，本端通信设备包括扬声器和麦克风；

82b、在远程通信过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，该回波噪声由扬声器播放的声音信号产生；

83b、根据混响参数和扬声器播放的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端通信设备。

除了上述会议场景、用户通过手机拨打电话或者通过手机、笔记本电脑或者平板电脑等终端设备进行在线视频或语音的场景，音视频通信场景还包括在线教育场景、在线医疗场景、在线聊天场景等。例如，在线教育场景中，教师可以通过终端设备为学生直播讲课，学生可以通过终端设备对老师提出的问题进行应答，在此过程中，可以在教师一侧的终端设备(简称为教师终端)中应用图8b所示的远程通信方法(此时本端通信设备即为教师终端)，也可以在学生一侧的终端设备(简称学生终端)中应用图8b所示的远程通信方法(此时本端通信设备即为学生终端)，可以提高在线教育系统的通话质量，提高学生的听课体验感。再例如，在线医疗系统中，医生开通了在线语音或视频的咨询或问诊服务，患者可以就自己的问题进行询问，医生对患者的问题进行解答，并给出就诊建议，在整个过程中，医生和患者需要通过终端设备进行语音或者视频交流，在此过程中，可以在医生一侧的终端设备(简称医生终端)中应用图8b所示的远程通信方法(此时本端通信设备即为医生终端)，也可以在患者一侧的终端设备(简称患者终端)中应用图8b所示的远程通信方法(此时本端通信设备即为患者终端)，可以提高在线医疗系统的通话质量，提高患者咨询体验感，促进在线医疗的发展和广泛应用。又例如，在线聊天系统中，用户通过终端设备进行语音或者视频进行聊天，可以在在线聊天系统中进行在线聊天的各段用户终端侧应用图8b所示的远程通信方法(此时本端通信设备即为聊天用户的终端)，用以提高聊天质量和用户体验感。

在上述各实施例中，音视频通信系统中通过终端设备获取所在环境中的混响参数，并根据该混响参数对待发送的信号进行回波抑制，提高待发送信号的信号质量，或者也可以根据混响参数对下行播放链路进行优化。除此之外，还可以利用云端设备获取混响参数，并提供给终端设备，以供终端设备根据混响参数对待发送的信号进行回波抑制，和/或，根据混响参数给出优化参数，利用优化参数去优化下行链路。基于此，本实施例还提供一种音视频通信系统，如图8c所示，该音视频通信系统包括：本端终端设备801c、对端终端设备802c以及云端设备803c。

其中，本端终端设备801c和对端终端设备802c均包括麦克风804c和扬声器805c。进一步可选地，本端终端设备801c和对端终端设备802c还可以包括显示屏、输入设备等其它组件。在本实施例中，并不对云端设备803c进行限定，例如云端设备803c可以是音视频通信系统中的服务端设备，如图8c所示；或者云端设备803c可以是独立于音视频通信系统中服务端设备806c的云端设备，如图8d所示。另外，云端设备803c可以是一台或多台。

在云端设备803c是音视频通信系统中的服务端设备的情况下，云端设备803c分别与本端终端设备801c和对端终端设备802c进行通信连接，也即本端终端设备801c与对端终端设备802c可以基于云端设备803c进行通信。云端设备803c一方面可以提供通信管控、策略控制、编解码、加解密或压缩等服务，另一方面将本端终端设备801c的音视频内容提供给对端终端设备802c，或者将对端终端设备802c的音视频内容提供给本端终端设备801c。除此之外，云端设备803c还可以根据本端终端设备801c或者对端终端设备802c采集到的回波噪声，计算得到相应终端设备所处环境的混响参数，并将该混响参数提供给相应的终端设备。

在云端设备803c独立于音视频通信系统中服务端设备806c的情况下，如图8d所示，由服务端设备提供通信管控、策略控制、编解码、加解密或压缩等服务，以及负责将本端终端设备801c的音视频内容提供给对端终端设备802c，或者将对端终端设备802c的音视频内容提供给本端终端设备801c。云端设备803c负责根据本端终端设备801c或者对端终端设备802c采集到的回波噪声，计算得到相应终端设备所处环境的混响参数，并将该混响参数提供给相应的终端设备。

无论上述哪种情况，本实施例的云端设备可以提供一种测试方法，无论是本端终端设备801c还是对端终端设备802c，在上述测试方法中的作用是一样的，因此，为了便于描述，在后文测试方法中将本端终端设备801c和对端终端设备802c统称为终端设备。如图8e所示，该方法包括：

81e、向音视频通信系统中的终端设备发送测试信号，以供终端设备利用其扬声器在所处环境中播放测试信号；

82e、接收终端设备返回的由其麦克风采集到的回波噪声，回波噪声由测试信号在环境中产生；

83e、对回波噪声进行线性滤波，得到回波噪声的残留噪声，并根据回波噪声及其残留噪声，计算环境中的混响参数；

84e、将混响参数发送给终端设备，以供终端设备对其待发送的信号和/或待播放的信号进行优化。

在本实施例中，测试信号可以是一段可以在终端设备的扬声器播放的音频内容。为了便于终端设备采集回波噪声，在本实施例中，终端设备可以在回波噪声采集条件下播放测试信号，采集回波噪声并发送给云端设备。

在本实施例中，云端设备接收到终端设备发送的回波噪声后，可以对回波噪声进行线性滤波，得到回波噪声的残留噪声，并根据回波噪声及其残留噪声，计算环境中的混响参数。关于根据回波噪声计算环境中的混响参数的实施方式，可参见前述实施例，在此不再赘述。

在本实施例中，云端设备计算出混响参数后，将混响参数提供给终端设备，以供终端设备对待发送的信号和/或待播放的信号进行优化。其中，待发送的信号指的是终端设备通过其麦克风采集到且需要发送给另一终端设备的信号，例如可以是终端设备侧用户说话的声音。例如，终端设备可以利用混响参数对待发送的信号进行回波抑制，提高待发送信号的信号质量，提高对端收听到的声音质量，提高用户的体验感。待播放的信号指的是终端设需要通过扬声器往外播放的信号(可以是终端设备自身的信号，也可以是来自对端的信号)。例如，终端设备在扬声器播放之前，通过混响参数对待播放的信号进行优化，例如，利用混响参数对下行播放链路上均衡器的均衡参数进行优化；利用混响参数对下行播放链路上限幅器的限幅参数进行优化；利用混响参数对下行播放链路上的增益参数进行DRC等；之后，利用扬声器将经过均衡、限幅和/或增益处理后的信号播放出去，提高音质。需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤11至步骤13的执行主体可以为设备A；又比如，步骤11和12的执行主体可以为设备A，步骤13的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如11、12等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图9为本申请示例性实施例提供的一种终端设备的结构示意图。如图9所示，该终端设备包括：扬声器91、麦克风92、存储器94和处理器95。

存储器94，用于存储计算机程序，并可被配置为存储其它各种数据以支持在终端设备上的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

处理器95，与存储器94耦合，用于执行存储器94中的计算机程序，以用于：获取终端设备所处环境中的混响参数，其中，扬声器91播放的信号在环境中可产生回波噪声；以及获取麦克风92采集到的混合信号，混合信号至少包括目标信号和第一回波噪声，第一回波噪声由扬声器91播放的第一信号产生；根据混响参数和第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号。

在一可选实施例中，处理器95还用于：发送目标信号；或者，利用扬声器播放目标信号。例如，在一些测试场景中，需要本端麦克风采集目标信号，再由本端扬声器播放出去，此时在得到目标信号之后，可利用本端扬声器播放目标信号，完成整个音频回路的性能测试。

在一可选实施例中，处理器95在获取终端设备所处环境中的混响参数时，具体用于：获取麦克风在回波噪声采集条件下采集的第二回波噪声，第二回波噪声由扬声器播放的第二信号产生；对第二回波噪声进行线性滤波，得到第二回波噪声的残留噪声；根据第二回波噪声及其残留噪声，计算终端设备所处环境中的混响参数。

在一可选实施例中，处理器95在获取麦克风在回波噪声采集条件下采集的第二回波噪声时，具体用于：获取麦克风在终端设备开机后指定时间内采集到的信号作为第二回波噪声；其中，扬声器在开机后指定时间内播放开机声音信号；或者，获取麦克风在本端用户未说话的时间间隙内采集的信号作为第二回波噪声，其中，扬声器在本端用户未说话的时间间隙内播放对端用户的声音信号。

在一可选实施例中，处理器95在根据第二回波噪声及其残留噪声，计算终端设备所处环境中的混响参数时，具体用于：根据第二回波噪声及其残留噪声的功率值，计算终端设备所处环境中的ERLE参数；根据ERLE参数，查询预先配置的ERLE参数与混响参数的对应关系，得到终端设备所处环境中的混响参数。

在一可选实施例中，处理器95在根据混响参数和第一信号，对混合信号进行回波抑制，以得到抑制第一回波噪声后的目标信号时，具体用于：根据第一信号对混合信号进行线性滤波，以得到中间信号，中间信号包括目标信号和第一回波噪声的残留噪声；根据混响参数和第一信号对中间信号进行非线性滤波，以滤除第一回波噪声的残留噪声得到目标信号。

在一可选实施例中，处理器95在根据混响参数和第一信号对中间信号进行非线性滤波，以滤除第一回波噪声的残留噪声得到目标信号时，具体用于：根据混响参数和第一信号，预估第一信号在终端设备所处环境中产生的后期混响噪声，后期混响噪声为非线性噪声；利用预估的后期混响噪声对中间信号进行非线性滤波，以滤除第一回波噪声的残留噪声得到目标信号。

在一可选实施例中，在根据混响参数和第一信号对中间信号进行非线性滤波之前，处理器95还用于：对中间信号进行去估计，以滤除第一回波噪声的残留噪声中的线性残留噪声。

在一可选实施例中，处理器95还用于：利用混响参数对下行播放链路上的播放参数进行优化；利用优化后的播放参数对扬声器待播放的信号进行处理；以及利用扬声器91播放处理后的信号。

在一可选实施例中，处理器95在利用混响参数对下行播放链路上的播放参数进行优化时，具体用于执行以下至少一种：利用混响参数对下行播放链路上均衡器的均衡参数进行优化；利用混响参数对下行播放链路上限幅器的限幅参数进行优化；利用混响参数对下行播放链路上的增益参数进行DRC。

在一可选实施例中，处理器95在利用混响参数对下行播放链路上均衡器的均衡参数进行优化时，具体用于：在混响参数大于设定混响参数阈值时，增大第一频带内的幅度均衡参数，并减小第二频带内的幅度均衡参数；其中，第一频带的下限频率值大于设定的第一阈值，第二频带的上限频率值小于设定的第二阈值，第二阈值小于或等于第一阈值。

在一可选实施例中，处理器95在利用混响参数对下行播放链路上限幅器的限幅参数进行优化时，具体用于：在混响参数大于设定混响参数阈值时，增大限幅器中的第一电压门限，并降低限幅器中的第二电压门限；其中，第一电压门限大于第二电压门限。

在一可选实施例中，处理器95在利用混响参数对下行播放链路上的增益参数进行DRC时，具体用于：在混响参数大于设定混响参数阈值时，增大第一频带内的增益参数，减小第二频带内的增益参数；其中，第一频带的下限频率值大于设定的第一阈值，第二频带的上限频率值小于设定的第二阈值，第二阈值小于或等于第一阈值。

在一可选实施例中，终端设备为音视频一体机、音频设备、视频设备或音视频会议设备。

在一可选实施例中，终端设备所处环境为室内环境。室内环境可以是会议室、电影院、房间、商场、超市、体育场馆、临时搭建的录音棚等各种封闭或半封闭的空间环境。

进一步，如图9所示，该终端设备还包括：通信组件96、显示器97、电源组件98等其它组件。图9中仅示意性给出部分组件，并不意味着终端设备只包括图9所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述音频信号处理方法和混响检测方法实施例中可由终端设备执行的各步骤。

本申请实施例还提供一种终端设备，该终端设备可以作为音视频通信系统中的通信设备实现，在作为通信设备实现的时候，其实现结构与图9所示终端设备的实现结构相同或类似，可参照图9所示终端设备的结构实现。本实施例提供的通信设备与图9所示实施例中终端设备的区别主要在于：处理器执行存储器中存储的计算机程序所实现的功能不同。对本实施例提供的通信设备来说，其处理器执行存储器中存储的计算机程序，可用于：获取本端通信设备所在场景内的混响参数，本端通信设备包括扬声器和麦克风；在远程通信过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，回波噪声由扬声器播放的声音信号产生；根据混响参数和扬声器播放的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端通信设备。

在一可选实施例中，本端通信设备为在线教育系统中的学生终端或教师终端；或者，本端通信设备为在线医疗系统中的患者终端或者医生终端；或者，本端通信设备为在线聊天系统中的用户终端。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述图8b所示方法实施例中可由终端设备执行的各步骤。

图10为本申请示例性实施例提供的另一种终端设备的结构示意图。如图10所示，该终端设备包括：扬声器1001、存储器1004和处理器1005。

存储器1004，用于存储计算机程序，并可被配置为存储其它各种数据以支持在终端设备上的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

处理器1005，与存储器1004耦合，用于执行存储器1004中的计算机程序，以用于：获取终端设备所处环境中的混响参数；利用混响参数对下行播放链路上的播放参数进行优化；利用优化后的播放参数对扬声器待播放的信号进行处理；以及利用扬声器1001播放处理后的信号。

在一可选实施例中，处理器1005在利用混响参数对下行播放链路上的播放参数进行优化时，具体用于执行以下至少一种：利用混响参数对下行播放链路上均衡器的均衡参数进行优化；利用混响参数对下行播放链路上限幅器的限幅参数进行优化；利用混响参数对下行播放链路上的增益参数进行DRC。

在一可选实施例中，处理器1005在利用混响参数对下行播放链路上均衡器的均衡参数进行优化时，具体用于：在混响参数大于设定混响参数阈值时，增大第一频带内的幅度均衡参数，并减小第二频带内的幅度均衡参数；其中，第一频带的下限频率值大于设定的第一阈值，第二频带的上限频率值小于设定的第二阈值，第二阈值小于或等于第一阈值。

在一可选实施例中，处理器1005在利用混响参数对下行播放链路上限幅器的限幅参数进行优化时，具体用于：在混响参数大于设定混响参数阈值时，增大限幅器中的第一电压门限，并降低限幅器中的第二电压门限；其中，第一电压门限大于第二电压门限。

在一可选实施例中，处理器1005在利用混响参数对下行播放链路上的增益参数进行DRC时，具体用于：在混响参数大于设定混响参数阈值时，增大第一频带内的增益参数，减小第二频带内的增益参数；其中，第一频带的下限频率值大于设定的第一阈值，第二频带的上限频率值小于设定的第二阈值，第二阈值小于或等于第一阈值。

进一步，如图10所示，该终端设备还包括：通信组件1006、显示器1007、电源组件1008、麦克风1009等其它组件。图10中仅示意性给出部分组件，并不意味着终端设备只包括图10所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述音频信号处理方法实施例中可由终端设备执行的各步骤。

在一可选实施例中，本申请上述实施例提供的终端设备可实现为会议设备。其中，图11为本申请示例性实施例提供的一种会议设备的结构示意图。如图11所示，该会议设备包括：扬声器1101、麦克风1102、存储器1104和处理器1105。

存储器1104，用于存储计算机程序，并可被配置为存储其它各种数据以支持在会议设备上的操作。这些数据的示例包括用于在会议设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

处理器1105，与存储器1104耦合，用于执行存储器1104中的计算机程序，以用于：获取本端会议设备所在会议场景内的混响参数；在会议过程中，利用麦克风采集本端的声音信号，麦克风采集到的声音信号中混有回波噪声，回波噪声由扬声器播放的声音信号产生；根据混响参数和扬声器播放的声音信号，对麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端会议设备。

在一可选实施例中，在利用麦克风采集本端的声音信号之前，处理器1105还用于：接收对端会议设备传输的来自对端的声音信号，并利用扬声器播放来自对端的声音信号，回波噪声由扬声器播放的来自对端的声音信号产生。

在一可选实施例中，本端会议设备和对端会议设备为音视频设备，处理器1105还用于：在采集本端声音信号的过程中采集本端的视频画面，以及在将经过回波抑制后的声音信号传输给对端会议设备的过程中，一并将采集到的本端的视频画面传输给对端会议设备。

进一步，如图11所示，该会议设备还包括：通信组件1106、显示器1107、电源组件1108等其它组件。图11中仅示意性给出部分组件，并不意味着会议设备只包括图11所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述会议方法实施例中可由会议设备执行的各步骤。

图12为本申请示例性实施例提供的一种云端设备的结构示意图。如图12所示，该云端设备包括：存储器1204和处理器1205。

存储器1204，用于存储计算机程序，并可被配置为存储其它各种数据以支持在云端设备上的操作。这些数据的示例包括用于在云端设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

处理器1205，与存储器1204耦合，用于执行存储器1204中的计算机程序，以用于：向音视频通信系统中的终端设备发送测试信号，以供终端设备利用其扬声器在所处环境中播放测试信号；接收终端设备返回的由其麦克风采集到的回波噪声，回波噪声由测试信号在环境中产生；对回波噪声进行线性滤波，得到回波噪声的残留噪声，并根据回波噪声及其残留噪声，计算环境中的混响参数；将混响参数发送给终端设备，以供终端设备对其待发送的信号和/或待播放的信号进行优化。

在一可选实施例中，云端设备可以是音视频通信系统中的服务端设备，或者是独立于音视频通信系统中服务端设备的云端设备。

进一步，如图12所示，该云端设备还包括：通信组件1206、电源组件1208等其它组件。图12中仅示意性给出部分组件，并不意味着云端设备只包括图12所示组件。

上述图9-12中的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述图9-12中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图9-11中的显示器包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图9-12中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种会议方法，其特征在于，包括：

获取本端会议设备所在会议场景内的混响参数，所述本端会议设备包括扬声器和麦克风；

在会议过程中，利用麦克风采集本端的声音信号，所述麦克风采集到的声音信号中混有回波噪声，所述回波噪声由扬声器播放的声音信号产生；

根据所述混响参数和所述扬声器播放的声音信号，对所述麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端会议设备。

2.根据权利要求1所述的方法，其特征在于，在利用麦克风采集本端的声音信号之前，还包括：

接收对端会议设备传输的来自对端的声音信号，并利用扬声器播放来自对端的声音信号，所述回波噪声由扬声器播放的来自对端的声音信号产生。

3.根据权利要求1或2所述的方法，其特征在于，本端会议设备和对端会议设备为音视频设备，则所述方法还包括：

在采集本端声音信号的过程中采集本端的视频画面，以及在将经过回波抑制后的声音信号传输给对端会议设备的过程中，一并将采集到的本端的视频画面传输给对端会议设备。

4.一种远程通信方法，其特征在于，包括：

获取本端通信设备所在场景内的混响参数，所述本端通信设备包括扬声器和麦克风；

在远程通信过程中，利用麦克风采集本端的声音信号，所述麦克风采集到的声音信号中混有回波噪声，所述回波噪声由扬声器播放的声音信号产生；

根据所述混响参数和所述扬声器播放的声音信号，对所述麦克风采集到的声音信号进行回波抑制，并将经过回波抑制后的声音信号传输给对端通信设备。

5.根据权利要求4所述的方法，其特征在于，本端通信设备为在线教育系统中的学生终端或教师终端；

或者，

本端通信设备为在线医疗系统中的患者终端或者医生终端；

或者，

本端通信设备为在线聊天系统中的用户终端。

6.一种音频信号处理方法，适用于终端设备，所述终端设备包括扬声器和麦克风，其特征在于，所述方法包括：

获取终端设备所处环境中的混响参数，其中，所述终端设备中扬声器播放的信号在所述环境中可产生回波噪声；

获取终端设备中麦克风采集到的混合信号，所述混合信号至少包括目标信号和第一回波噪声，所述第一回波噪声由扬声器播放的第一信号产生；

根据所述混响参数和所述第一信号，对所述混合信号进行回波抑制，以得到抑制所述第一回波噪声后的目标信号。

7.根据权利要求6所述的方法，其特征在于，还包括：发送所述目标信号；或者，利用所述扬声器播放所述目标信号。

8.根据权利要求6所述的方法，其特征在于，获取终端设备所处环境中的混响参数，包括：

获取麦克风在回波噪声采集条件下采集的第二回波噪声，所述第二回波噪声由扬声器播放的第二信号产生；

对所述第二回波噪声进行线性滤波，得到所述第二回波噪声的残留噪声；

根据所述第二回波噪声及其残留噪声，计算终端设备所处环境中的混响参数。

9.根据权利要求8所述的方法，其特征在于，获取麦克风在回波噪声采集条件下采集的第二回波噪声，包括：

获取麦克风在终端设备开机后指定时间内采集到的信号作为第二回波噪声；其中，所述扬声器在开机后指定时间内播放开机声音信号；

或者，

获取麦克风在本端用户未说话的时间间隙内采集的信号作为第二回波噪声，其中，所述扬声器在本端用户未说话的时间间隙内播放对端用户的声音信号。

10.根据权利要求8所述的方法，其特征在于，根据所述第二回波噪声及其残留噪声，计算终端设备所处环境中的混响参数，包括：

根据所述第二回波噪声及其残留噪声的功率值，计算终端设备所处环境中的回音往返损耗增强ERLE参数；

根据所述ERLE参数，查询预先配置的ERLE参数与混响参数的对应关系，得到终端设备所处环境中的混响参数。

11.根据权利要求6所述的方法，其特征在于，根据所述混响参数和所述第一信号，对所述混合信号进行回波抑制，以得到抑制所述第一回波噪声后的目标信号，包括：

根据所述第一信号对所述混合信号进行线性滤波，以得到中间信号，所述中间信号包括目标信号和所述第一回波噪声的残留噪声；

根据所述混响参数和所述第一信号对所述中间信号进行非线性滤波，以滤除所述第一回波噪声的残留噪声得到所述目标信号。

12.根据权利要求11所述的方法，其特征在于，根据所述混响参数和所述第一信号对所述中间信号进行非线性滤波，以滤除所述第一回波噪声的残留噪声得到所述目标信号，包括：

根据所述混响参数和所述第一信号，预估所述第一信号在所述终端设备所处环境中产生的后期混响噪声，所述后期混响噪声为非线性噪声；

利用预估的后期混响噪声对所述中间信号进行非线性滤波，以滤除所述第一回波噪声的残留噪声得到所述目标信号。

13.根据权利要求12所述的方法，其特征在于，在根据所述混响参数和所述第一信号对所述中间信号进行非线性滤波之前，还包括：

对所述中间信号进行去估计，以滤除所述第一回波噪声的残留噪声中的线性残留噪声。

14.根据权利要求6-13任一项所述的方法，其特征在于，还包括：

利用所述混响参数对下行播放链路上的播放参数进行优化；

利用优化后的播放参数对扬声器待播放的信号进行处理；以及

利用所述扬声器播放处理后的信号。

15.根据权利要求14所述的方法，其特征在于，利用所述混响参数对下行播放链路上的播放参数进行优化，包括以下至少一种：

利用所述混响参数对下行播放链路上均衡器的均衡参数进行优化；

利用所述混响参数对下行播放链路上限幅器的限幅参数进行优化；

利用所述混响参数对下行播放链路上的增益参数进行动态范围调整DRC。

16.根据权利要求15所述的方法，其特征在于，利用所述混响参数对下行播放链路上均衡器的均衡参数进行优化，包括：

在所述混响参数大于设定混响参数阈值时，增大第一频带内的幅度均衡参数，并减小第二频带内的幅度均衡参数；

其中，所述第一频带的下限频率值大于设定的第一阈值，所述第二频带的上限频率值小于设定的第二阈值，所述第二阈值小于或等于所述第一阈值。

17.根据权利要求15所述的方法，其特征在于，利用所述混响参数对下行播放链路上限幅器的限幅参数进行优化，包括：

在所述混响参数大于设定混响参数阈值时，增大限幅器中的第一电压门限，并降低限幅器中的第二电压门限；其中，第一电压门限大于第二电压门限。

18.根据权利要求15所述的方法，其特征在于，利用所述混响参数对下行播放链路上的增益参数进行DRC，包括：

在所述混响参数大于设定混响参数阈值时，增大第一频带内的增益参数，减小第二频带内的增益参数；

19.根据权利要求6-13任一项所述的方法，其特征在于，终端设备所处环境为室内环境。

20.一种混响检测方法，适用于终端设备，所述终端设备包括扬声器和麦克风，其特征在于，所述方法包括：

利用麦克风在回波噪声采集条件下采集终端设备所处环境中的回波噪声，所述回波噪声由扬声器播放的信号在所述环境中产生；

对所述回波噪声进行线性滤波，得到所述回波噪声的残留噪声；

根据所述回波噪声及其残留噪声，计算所述终端设备所处环境中的混响参数。

21.根据权利要求20所述的方法，其特征在于，利用麦克风在回波噪声采集条件下采集终端设备所处环境中的回波噪声，包括：

获取麦克风在终端设备开机后指定时间内采集的噪声信号作为回波噪声；其中，所述扬声器在开机后指定时间内播放开机声音信号；

或者，

获取麦克风在本端用户未说话的时间间隙内采集的噪声信号作为回波噪声，其中，所述扬声器在本端用户未说话的时间间隙内播放对端用户的声音信号。

22.根据权利要求21所述的方法，其特征在于，根据所述回波噪声及其残留噪声，计算所述终端设备所处环境中的混响参数，包括：

根据所述回波噪声及其残留噪声的功率值，计算所述终端设备所处环境中的回音往返损耗增强ERLE参数；

根据所述ERLE参数，查询预先配置的ERLE参数与混响参数的对应关系，得到所述终端设备所处环境的混响参数。

23.一种测试方法，适用于云端设备，其特征在于，包括：

向音视频通信系统中的终端设备发送测试信号，以供所述终端设备利用其扬声器在所处环境中播放所述测试信号；

接收所述终端设备返回的由其麦克风采集到的回波噪声，所述回波噪声由所述测试信号在所述环境中产生；

对所述回波噪声进行线性滤波，得到所述回波噪声的残留噪声，并根据所述回波噪声及其残留噪声，计算所述环境中的混响参数；

将所述混响参数发送给所述终端设备，以供所述终端设备对其待发送的信号和/或待播放的信号进行优化。

24.根据权利要求23所述的方法，其特征在于，所述云端设备是音视频通信系统中的服务端设备，或者是独立于音视频通信系统中服务端设备的云端设备。

25.一种音频信号处理方法，适用于终端设备，所述终端设备包括扬声器和麦克风，其特征在于，所述方法包括：

获取终端设备所处环境中的混响参数；

利用所述混响参数对下行播放链路上的播放参数进行优化；

利用所述扬声器播放处理后的信号。

26.根据权利要求25所述的方法，其特征在于，利用所述混响参数对下行播放链路上的播放参数进行优化，包括以下至少一种：

27.一种终端设备，其特征在于，包括：扬声器、麦克风、存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，与所述存储器耦合，用于执行所述计算机程序，以用于：

获取终端设备所处环境中的混响参数，其中，所述扬声器播放的信号在所述环境中可产生回波噪声；以及

获取所述麦克风采集到的混合信号，所述混合信号至少包括目标信号和第一回波噪声，所述第一回波噪声由扬声器播放的第一信号产生；

28.根据权利要求27所述的终端设备，其特征在于，所述处理器在获取终端设备所处环境中的混响参数时，具体用于：

29.根据权利要求28所述的终端设备，其特征在于，所述终端设备为音视频一体机、音频设备、视频设备或音视频会议设备。

30.一种终端设备，其特征在于，包括：扬声器、存储器和处理器；

所述存储器，用于存储计算机程序；

获取终端设备所处环境中的混响参数；

利用所述混响参数对下行播放链路上的播放参数进行优化；

利用所述扬声器播放处理后的信号。

31.一种会议设备，其特征在于，包括：扬声器、麦克风、存储器和处理器；

所述存储器，用于存储计算机程序；

获取本端会议设备所在会议场景内的混响参数；

32.一种终端设备，其特征在于，包括：扬声器、麦克风、存储器和处理器；

所述存储器，用于存储计算机程序；

获取本端通信设备所在场景内的混响参数；

33.一种云端设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

34.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-26任一项所述方法中的步骤。