CN109379501B

CN109379501B - 一种用于回声消除的滤波方法及装置、设备、介质

Info

Publication number: CN109379501B
Application number: CN201811540805.XA
Authority: CN
Inventors: 郭晖; 张楠赓
Original assignee: Canaan Bright Sight Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2021-12-21
Anticipated expiration: 2038-12-17
Also published as: CN109379501A

Abstract

本申请公开了一种用于回声消除的滤波方法及装置、设备、介质。该方法多轮地迭代执行，该方法至少包括：获取本轮的远端音频数据和近端音频数据，并对本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块；根据本轮的自适应回声消除参数，估计对本轮的多个远端频域音频块分别的响应；根据本轮的近端音频数据和该分别的响应，确定对本轮的近端音频数据的滤波结果；其中，本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。本申请对远端音频数据主动分块，并据此对近端音频数据自适应滤波，能够比较有效地消除远端与近端的双方或者多方进行语音通讯时产生的回声，有助于保证语音通讯质量。

Description

一种用于回声消除的滤波方法及装置、设备、介质

技术领域

本申请涉及语音通讯技术领域，尤其涉及一种用于回声消除的滤波方法及装置、设备、介质。

背景技术

语音通讯是一种较为常见的用户间交互场景，比如，两个用户之间通过手机通话、多个用户之间通过电话会议终端进行远程会议。在这类语音通讯场景下，对于任何一端的用户而言，往往既需要自己向对端发出语音，也需要接听对端向自己发出的语音，任意用户本地这端可以称为近端，该用户的对端可以称为远端。

用户一般通过手机或者电话会议终端等设备提供的麦克风，向对端发出语音，通过这些设备提供的听筒或者音箱，接听对方向自己发出的语音。但是，听筒或者音箱放音时，会导致回声产生，即一端说话后，通过对端的听筒或者音箱放音，然后又被对端的麦克风采集回传产生回声。如果不对回声进行处理，将会影响语音通讯质量，严重时可能形成震荡，产生啸叫。

在现有技术中，往往对语音信号进行延迟求差以消除回声。

但是，麦克风、听筒或者音箱的失真，以及房间混淆往往导致现有方案的回声消除效果较差。

发明内容

本申请实施例提供一种用于回声消除的滤波方法及装置、设备、介质，用以解决现有技术中的如下技术问题：麦克风、听筒或者音箱的失真，以及房间混淆往往导致现有方案的回声消除效果较差。

本申请实施例采用下述技术方案：

一种用于回声消除的滤波方法，所述方法多轮地迭代执行，所述方法包括：

获取本轮的远端音频数据和近端音频数据，并对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块；

根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应；

根据所述本轮的近端音频数据和所述分别的响应，确定对所述本轮的近端音频数据的滤波结果；

其中，所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。

可选地，所述对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，包括：

按照指定的步进长度和块长度，通过在所述本轮的远端音频数据上步进的方式进行时域分块，得到本轮的多个远端时域音频块；

对所述本轮的多个远端时域音频块分别进行傅里叶变换，得到本轮的多个远端频域音频块；

其中，相邻的远端时域音频块之间存在部分重叠。

可选地，所述方法还包括：

根据所述本轮的自适应回声消除参数和远端音频数据的能量，以及本轮的其他相关数据，对所述本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数；

其中，所述其他相关数据包括以下至少一种：所述滤波结果、所述分别的响应。

可选地，所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。

可选地，所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果；

所述根据所述本轮的自适应回声消除参数和远端音频数据的能量，以及本轮的其他相关数据，对所述本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数，包括：

根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量，以及所述分别的响应，生成参数更新项或者参数更新系数；

利用所述参数更新项或者参数更新系数，对所述本轮的自适应回声消除参数进行更新，得到下轮的自适应回声消除参数。

可选地，所述本轮的远端音频数据记作F，F为包含2k个元素的向量，相应地表示长度为2k的所述本轮的远端音频数据，F_i为F的第i个元素，所述本轮的近端音频数据的长度为k；

所述本轮的多个远端频域音频块中的第i个远端频域音频块记作X_i，包括：FFT(F_i,F_i+1,...,F_i+k-1)，其中，FFT表示快速傅里叶变换。

可选地，所述根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应，包括：

分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块，执行：

根据本轮的自适应回声消除参数所包括的所述比例系数，对该远端频域音频块的幅值进行处理，得到频域中间处理结果；

对所述频域中间处理结果进行反傅里叶变换，并根据所述反傅里叶变换结果，估计对该远端频域音频块的响应。

可选地，按照如下公式，估计对所述本轮的多个远端频域音频块分别的响应：

其中，X_i表示所述本轮的多个远端频域音频块中的第i个远端频域音频块，a为包含k个元素的向量，表示所述本轮的自适应回声消除参数，a_j为a的第j个元素，IFFT表示快速反傅里叶变换，real表示取复数的实数部分的函数，

表示对所述第i个远端频域音频块的响应。

可选地，所述本轮的远端音频数据的能量按照公式P＝mean(F)²·2k计算得到；

其中，P表示所述本轮的远端音频数据的能量，F为包含2k个元素的向量，相应地表示长度为2k的所述本轮的远端音频数据，mean表示对所有元素求平均值的函数。

可选地，所述参数更新项包括

所述利用所述参数更新项，对所述本轮的自适应回声消除参数进行更新，得到下轮的自适应回声消除参数，包括：

按照如下公式更新得到下轮的自适应回声消除参数：

其中，X_i表示所述本轮的多个远端频域音频块中的第i个远端频域音频块，所述多个远端频域音频块为k个远端频域音频块，P表示所述本轮的远端音频数据的能量，N为包含k个元素的向量，相应地表示长度为k的所述本轮的近端音频数据，N_i为N的第i个元素，

表示对所述第i个远端频域音频块的响应，a、a'为包含k个元素的向量，分别表示本轮和下轮的自适应回声消除参数，a_i为a的第i个元素，a_i'为a'的第i个元素，FFT表示快速傅里叶变换。

可选地，所述滤波结果包括

其中，N表示所述本轮的近端音频数据，

表示由对所述本轮的多个远端频域音频块分别的响应构成的本轮的总响应。

可选地，所述远端音频数据是从远端至近端的音频输出端采集得到的，所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。

一种用于回声消除的滤波装置，所述装置对其动作多轮地迭代执行，所述装置包括：

分块模块，获取本轮的远端音频数据和近端音频数据，并对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块；

估计模块，根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应；

确定模块，根据所述本轮的近端音频数据和所述分别的响应，确定对所述本轮的近端音频数据的滤波结果；

可选地，所述分块模块对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，包括：

所述分块模块按照指定的步进长度和块长度，通过在所述本轮的远端音频数据上步进的方式进行时域分块，得到本轮的多个远端时域音频块；

其中，相邻的远端时域音频块之间存在部分重叠。

可选地，所述装置还包括：

更新模块，根据所述本轮的自适应回声消除参数和远端音频数据的能量，以及本轮的其他相关数据，对所述本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数；

所述更新模块根据所述本轮的自适应回声消除参数和远端音频数据的能量，以及本轮的其他相关数据，对所述本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数，包括：

所述更新模块根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量，以及所述分别的响应，生成参数更新项或者参数更新系数；

可选地，所述估计模块根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应，包括：

所述估计模块分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块，执行：

可选地，所述估计模块按照如下公式，估计对所述本轮的多个远端频域音频块分别的响应：

表示对所述第i个远端频域音频块的响应。

可选地，所述参数更新项包括

所述更新模块利用所述参数更新项，对所述本轮的自适应回声消除参数进行更新，得到下轮的自适应回声消除参数，包括：

所述更新模块按照如下公式更新得到下轮的自适应回声消除参数：

可选地，所述滤波结果包括

其中，N表示所述本轮的近端音频数据，

一种用于回声消除的滤波设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够多轮地迭代执行：

一种用于回声消除的滤波非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为多轮地迭代执行：

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：对远端音频数据主动分块，并据此对近端音频数据自适应滤波，能够比较有效地消除远端与近端的双方或者多方进行语音通讯时产生的回声，从而有助于保证语音通讯质量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的一些实施例提供的远端与近端进行语音通讯时产生回声的一种原理示意图；

图2为本申请的一些实施例提供的一种用于回声消除的滤波方法的流程示意图；

图3为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波装置的结构示意图；

图4为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解背景技术，本申请的一些实施例提供了远端与近端进行语音通讯时产生回声的一种原理示意图，如图1所示。

在图1中，远端用户从远端发送语音给近端，近端接收到远端语音后通过近端的听筒或者音箱对远端语音进行播放，近端用户在近端通过麦克风也发送语音给远端，但是，该麦克风不仅会采集到近端用户语音，还会采集到近端的听筒或者音箱所播放的语音(即对远端语音有响应)，从而导致远端用户收听近端用户语音时，同时也会收到自己之前语音的回声，影响了用户体验。而本申请的方案通过在近端的麦克风或者其后端处理模块(比如，智能手机上的麦克风所连接的语音滤波模块等)对所采集的音频进行频域分块的自适应滤波处理，可以比较有效地消除回声。

下面对本申请的方案进行详细说明。

图2为本申请的一些实施例提供的一种用于回声消除的滤波方法的流程示意图。在该流程中，从设备角度而言，执行主体可以是一个或者多个通讯设备，比如，智能手机、会议电话机、家用座机等，更具体地可以是处于这些设备中麦克风或者其后端的功能模块，从程序角度而言，执行主体相应地可以是搭载于这些通讯设备上的程序，比如，多方会议电话应用、语音滤波模块等。该流程可以多轮地迭代执行，每轮分别处理一定长度的语音，从而实现持续地进行语音处理，每轮处理时可以参考之前一轮或者多轮处理时所使用的参数或者得到的处理结果，进行本轮的处理。

图2中的流程可以包括以下步骤：

S202：获取本轮的远端音频数据和近端音频数据，并对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块。

在本申请的一些实施例中，远端音频数据可以是从远端至近端的音频输出端采集得到的。具体地，远端音频数据可以采集自近端的听筒或者音箱，可以直接通过音频在近端空气传播的方式采集，比如，将听筒或者音箱播放出来的音频进行采集；或者，也可以从向听筒或者音箱输入音频的音源端直接将音频分接出来，这种情况所采集的音频可以不经过近端空气传播。

近端音频数据是从近端至远端的音频输入端采集得到的。具体地，近端音频数据可以采集自近端的麦克风，近端音频数据包含了近端的用户向麦克风发出的语音，以及麦克风或者其后端对远端音频数据的响应，响应包含了所要消除的回声(若不消除，则远端的用户会收听到该回声)，除此之外，近端音频数据还可以包括一些环境噪音等。

在本申请的一些实施例中，在每轮可以分别根据本轮的远端音频数据，对本轮近端音频数据进行滤波处理。每轮的远端音频数据和近端音频数据的长度可以是多样的，两者之间的长度配合也可以是多样的，两者的时间可以同步也可以不同步。比如，每轮的近端音频数据的长度为k(k为大于或者等于1的整数，可以表示k个单位长度，单位长度可以根据需求自定义)，而每轮的远端音频数据的长度为2k。

在本申请的一些实施例中，远端音频数据、近端音频数据通常是对音源数据进行采样、量化等处理后得到的离散数字信号，比如，按照16位二进制位数量化得到的离散数字信号；或者也可以是时域连续的信号，比如，模拟音频信号。远端音频数据、近端音频数据可以是时域音频信号，其幅值可以表示音频振幅或者能量等参数。

在本申请的一些实施例中，可以主动对本轮的远端音频数据进行频域分块，频域分块的方式可以是多样的，比如，先对远端音频数据进行时域分块，再将时域块从时域转换至频域，或者先将对远端音频数据从时域转换至频域，再进行分块。分块的具体方式也可以是多样的，比如，部分重叠地依次分块，或者直接不重叠地将远端音频数据均匀分块，等等。

所分出的每个远端频域音频块可以分别对应本轮的一部分近端音频数据，可以综合地考虑这个远端频域音频块的情况，对其对应的该一部分近端音频数据进行滤波处理，以提高滤波结果的可靠性。尤其对于部分重叠地依次分块的方式，在这种情况下，相邻的块部分相同，有直接的相关性，这使得针对各部分近端音频数据分别进行滤波处理时，不仅当前对应的块会影响对该部分近端音频的滤波结果，而且其相邻的块也会影响该滤波结果，如此有利于平衡误差，降低局部误差给整体带来的不利影响，得到相对可靠的对本轮的近端音频数据整体的滤波结果。

S204：根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应，其中，所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。

在本申请的一些实施例中，每轮都可以使用本轮的一个或者多个自适应回声消除参数，进行滤波处理。

自适应回声消除参数可以用于估计远端音频数据本身与远端音频数据给近端音频数据所带来的影响之间的关系，这种影响可以用对远端音频数据的响应来表示。一般地，远端音频数据本身不直接等于对远端音频数据的响应，因为近端空气传播过程，以及听筒、音箱、麦克风的失真情况都会使远端音频数据产生变化(比如，能量的衰减、频谱的偏移等)，可以综合考虑至少部分这类变化，以估计对本轮的远端音频数据的响应。

自适应回声消除参数的具体形式可以是多样的，比如，幅值的系数、加减的调节项、对数转换逻辑等。

在本申请的一些实施例中，远端音频数据可能实时变化的，从而也会导致回声相应地变化，为了更有效地消除回声，可以采用自适应回声消除参数，而非固定不变的回声消除参数。这里的“自适应”可以指根据之前至少一轮和/或本轮的诸如振幅、能量、频谱等参数的实际情况进行自适应，以得到适合本轮使用的回声消除参数。

以能量为例，本轮的自适应回声消除参数比如可以根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到，如此，使得一段时间内持续地回声消除处理之间相关性提高，有助于减少局部误差。当然，所依据的数据可以不仅包括这些，比如，还可以根据远端音频数据的响应、远端音频数据的频谱等数据更新得到。更新时所采用的计算公式也可以是多样的，后面会举例进行说明。自适应回声消除参数初始时的值可以根据需要设定，比如设定为0或者其他常数，比如，小于1的正数等。

在本申请的一些实施例中，已经对远端音频数据进行了主动分块，相应地，可以分别估计对每个远端频域音频块的响应，以分别用于对本轮的一部分近端音频数据进行滤波处理。

S206：根据所述本轮的近端音频数据和所述分别的响应，确定对所述本轮的近端音频数据的滤波结果。

在本申请的一些实施例中，可以将本轮的响应从近端音频数据中滤除，得到滤波结果；当然，为了满足对滤波结果的更高要求，还可以进行更多处理，比如，滤除白噪声、滤除高频毛刺等，再得到滤波结果。

在本申请的一些实施例中，针对各远端频域音频块，可以利用其对应的响应，分别对一部分近端音频数据进行滤波，得到对各部分近端音频数据分别的滤波结果。可以对滤波后的各部分近端音频数据进行组合，得到本轮完整的滤波结果。

通过图2的方法，对远端音频数据主动分块，并据此对近端音频数据自适应滤波，能够比较有效地消除远端与近端的双方或者多方进行语音通讯时产生的回声，从而有助于保证语音通讯质量。

基于图2的方法，本申请的一些实施例还提供了该方法的一些具体实施方案，以及扩展方案，下面进行说明。

在本申请的一些实施例中，可以采用先对远端音频数据进行时域分块，再将时域块从时域转换至频域的频域分块方式。进一步地，可以采用部分重叠地依次分块的方式对远端音频数据进行时域分块，具体比如通过步进或者滑窗等手段分块，如此便于程序实现，效率也较高。

以通过步进手段分块为例，对于步骤S202，对本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，可以包括：按照指定的步进长度和块长度，通过在本轮的远端音频数据上步进的方式进行时域分块，得到本轮的多个远端时域音频块；对本轮的多个远端时域音频块分别进行傅里叶变换，得到本轮的多个远端频域音频块；其中，相邻的远端时域音频块之间可以存在部分重叠(在这种情况下，步进长度小于块长度)。步进长度、块长度可以是固定的，也可以是按照一定策略动态变化的。为了提高计算速度，可以采用快速傅里叶变换对远端时域音频块进行变换，得到相应的远端频域音频块。

假定本轮的远端音频数据记作F，F为包含2k个元素的向量，相应地表示长度为2k的本轮的远端音频数据，F_i为F的第i个元素，本轮的近端音频数据的长度为k。比如，可以设置步进长度为1，块长度为k(假定该例中k大于1)，则对F划分出k个远端频域音频块，将其中的第i个远端频域音频块记作X_i，X_i包括FFT(F_i,F_i+1,...,F_i+k-1)，FFT表示快速傅里叶变换，可以看到，X_i是由对应的远端时域音频块变换得到的，该远端时域音频块依次包含F_i,F_i+1,...,F_i+k-1，可以相应地以向量或者矩阵形式表示，当然，若具体的划分方案发生变化，则X_i中包含的内容也可能相应变化。本申请中定义的参数在各实施例中可以通用，简明起见，不对这些参数的定义重复说明。

在本申请的一些实施例中，对之后至少一轮的自适应回声消除参数的计算时刻并不做具体限定，取决于计算自适应回声消除参数所需依据的数据是否已经齐备，在这些数据齐备后的某一时刻，则可以更新自适应回声消除参数。比如，假定本轮的其他相关数据包括上述的滤波结果和分别的响应中的至少一种，并将其也作为自适应回声消除参数所依据的数据，则在本轮的远端音频数据的能量以及本轮的其他相关数据已经齐备后(可以是立即，也可以是一段时间后)，可以据此对本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数。

在本申请的一些实施例中，前面已经提到，自适应回声消除参数的具体形式可以是多样的。自适应回声消除参数比如可以包括针对其对应轮的多个远端频域音频块的幅值的比例系数，在这种情况下，可以使用该比例系数，通过进行乘法运算，来估计对本轮的多个远端频域音频块分别的响应，这种方式的优点在于，可以使得远端音频数据与对应的响应被尽量地近似为简单的线性关系，从而有助于减少计算量。自适应回声消除参数比如还可以包括针对其对应轮的多个远端频域音频块的加减的调节项，可以使用该调节项，通过进行加减法运算，来估计对本轮的多个远端频域音频块分别的响应。

以比例系数为例，假定自适应回声消除参数具体表示为由多个幅值比例系数构成的向量，且该分别的响应为时域响应，对于步骤S204，根据本轮的自适应回声消除参数，估计对本轮的多个远端频域音频块分别的响应，可以包括：

分别针对本轮的多个远端频域音频块中的每个远端频域音频块，执行：根据本轮的自适应回声消除参数所包括的上述的比例系数，对该远端频域音频块的幅值进行处理，得到频域中间处理结果；对频域中间处理结果进行反傅里叶变换，并根据反傅里叶变换结果，估计对该远端频域音频块的响应。

例如，可以按照如下公式，估计对本轮的多个远端频域音频块分别的响应：

其中，a为包含k个元素的向量，表示本轮的自适应回声消除参数，第一轮的自适应回声消除参数比如为0，a_j为a的第j个元素，IFFT表示快速反傅里叶变换，real表示取复数的实数部分的函数，

表示对第i个远端频域音频块的响应。

在本申请的一些实施例中，对于步骤S206，滤波结果可以包括多个远端频域音频块分别对应的部分滤波结果；相应地，根据本轮的自适应回声消除参数和远端音频数据的能量，以及本轮的其他相关数据，对本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数，比如可以包括：

根据上述的分别对应的部分滤波结果、本轮的远端音频数据的能量，以及上述的分别的响应，生成参数更新项或者参数更新系数；利用参数更新项或者参数更新系数，对本轮的自适应回声消除参数进行更新，得到下轮的自适应回声消除参数。

在本申请的一些实施例中，一般地，可以用音频声波的平均能流密度(即单位时间流经某处单位面积介质的能量的平均值的多少)，来表示音频的能量，在这种情况下，本轮的远端音频数据的能量比如可以按照公式

计算得到；其中，P表示所计算得到的本轮的远端音频数据的能量，ρ表示传播介质密度，ω表示音频频率，u表示音频波速。

为了减少计算量，也可以近似地计算能量，比如，直接用振幅的平方值近似地计算能量。比如，本轮的远端音频数据的能量可以按照公式

计算得到，或者按照公式P＝mean(F)²·2k计算得到，mean表示对所有元素求平均值的函数。

在本申请的一些实施例中，假定利用参数更新项来更新自适应回声消除参数。比如，参数更新项可以包括

在这里，X_i ^*表示求X_i的共轭转置，

与X_i ^*之间的乘积运算是频域的乘积运算，相当于对应的时域的卷积运算，

能够反映本轮的一部分远端音频数据对其对应的一部分近端音频数据所带来的混响能量误差；利用参数更新项，对本轮的自适应回声消除参数进行更新，得到下轮的自适应回声消除参数，比如可以包括：

按照如下公式更新得到下轮的自适应回声消除参数：

其中，N为包含k个元素的向量，相应地表示长度为k的本轮的近端音频数据，N_i为N的第i个元素，

表示对第i个远端频域音频块的响应，a、a'为包含k个元素的向量，分别表示本轮和下轮的自适应回声消除参数，a_i为a的第i个元素，a_i'为a'的第i个元素。

在本申请的一些实施例中，假定将本轮的响应从近端音频数据中滤除，直接得到滤波结果，如此，有助于减少计算量，降低语音通讯双方所感受到的声音延迟。在这种情况下，对本轮的近端音频数据的滤波结果可以包括

表示由对本轮的多个远端频域音频块分别的响应构成的本轮的总响应。

需要说明的是，上面列举的一些公式反映了本申请方案的思想，但是并非是唯一实施形式，基于本申请方案的思想，能够得到更多的类似公式替代上面的公式。

基于同样的思路，本申请的一些实施例还提供了上述方法对应的装置、设备和非易失性计算机存储介质。

图3为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波装置的结构示意图，该装置对其动作多轮地迭代执行，该装置包括：

分块模块301，获取本轮的远端音频数据和近端音频数据，并对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块；

估计模块302，根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应；

确定模块303，根据所述本轮的近端音频数据和所述分别的响应，确定对所述本轮的近端音频数据的滤波结果；

可选地，所述分块模块301对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，包括：

所述分块模块301按照指定的步进长度和块长度，通过在所述本轮的远端音频数据上步进的方式进行时域分块，得到本轮的多个远端时域音频块；

其中，相邻的远端时域音频块之间存在部分重叠。

可选地，所述装置还包括：

更新模块304，根据所述本轮的自适应回声消除参数和远端音频数据的能量，以及本轮的其他相关数据，对所述本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数；

所述更新模块304根据所述本轮的自适应回声消除参数和远端音频数据的能量，以及本轮的其他相关数据，对所述本轮的自适应回声消除参数进行更新，得到之后至少一轮的自适应回声消除参数，包括：

所述更新模块304根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量，以及所述分别的响应，生成参数更新项或者参数更新系数；

可选地，所述估计模块302根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应，包括：

所述估计模块302分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块，执行：

可选地，所述估计模块302按照如下公式，估计对所述本轮的多个远端频域音频块分别的响应：

表示对所述第i个远端频域音频块的响应。

可选地，所述参数更新项包括

所述更新模块304利用所述参数更新项，对所述本轮的自适应回声消除参数进行更新，得到下轮的自适应回声消除参数，包括：

所述更新模块304按照如下公式更新得到下轮的自适应回声消除参数：

可选地，所述滤波结果包括

其中，N表示所述本轮的近端音频数据，

图4为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波设备的结构示意图，该设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波非易失性计算机存储介质，存储有计算机可执行指令，该计算机可执行指令设置为多轮地迭代执行：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备和介质与方法是一一对应的，因此，装置、设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述装置、设备和介质的有益技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于回声消除的滤波方法，其特征在于，所述方法多轮地迭代执行，所述方法包括：

获取本轮的远端音频数据和近端音频数据，并对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，每轮的远端音频数据和近端音频数据的长度不同步；

根据所述本轮的近端音频数据和所述分别的响应，确定对所述本轮的近端音频数据的滤波结果，所述滤波结果包括：多个远端频域音频块分别对应的部分滤波结果，即本轮的近端音频数据与对本轮的多个远端时域音频块分别的响应构成的总响应之差；

其中，所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量、所述多个远端频域音频块分别对应的部分滤波结果、所述分别的响应更新得到的。

2.如权利要求1所述的方法，其特征在于，所述对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，包括：

其中，相邻的远端时域音频块之间存在部分重叠。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。

5.如权利要求3所述的方法，其特征在于，所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果；

6.如权利要求2所述的方法，其特征在于，所述本轮的远端音频数据记作F，F为包含2k个元素的向量，相应地表示长度为2k的所述本轮的远端音频数据，F_i为F的第i个元素，所述本轮的近端音频数据的长度为k；

7.如权利要求4所述的方法，其特征在于，所述根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应，包括：

8.如权利要求7所述的方法，其特征在于，按照如下公式，估计对所述本轮的多个远端频域音频块分别的响应：

表示对所述第i个远端频域音频块的响应。

9.如权利要求3所述的方法，其特征在于，所述本轮的远端音频数据的能量按照公式P＝mean(F)²·2k计算得到；

10.如权利要求5所述的方法，其特征在于，所述参数更新项包括

按照如下公式更新得到下轮的自适应回声消除参数：

11.如权利要求1所述的方法，其特征在于，所述滤波结果包括

其中，N表示所述本轮的近端音频数据，

12.如权利要求1～11任一项所述的方法，其特征在于，所述远端音频数据是从远端至近端的音频输出端采集得到的，所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。

13.一种用于回声消除的滤波装置，其特征在于，所述装置对其动作多轮地迭代执行，所述装置包括：

分块模块，获取本轮的远端音频数据和近端音频数据，并对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，每轮的远端音频数据和近端音频数据的长度不同步；

确定模块，根据所述本轮的近端音频数据和所述分别的响应，确定对所述本轮的近端音频数据的滤波结果，所述滤波结果包括：多个远端频域音频块分别对应的部分滤波结果，即本轮的近端音频数据与对本轮的多个远端时域音频块分别的响应构成的总响应之差；

其中，所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数、远端音频数据的能量、所述多个远端频域音频块分别对应的部分滤波结果、所述分别的响应更新得到的。

14.如权利要求13所述的装置，其特征在于，所述分块模块对所述本轮的远端音频数据进行频域分块，得到本轮的多个远端频域音频块，包括：

其中，相邻的远端时域音频块之间存在部分重叠。

15.如权利要求13所述的装置，其特征在于，所述装置还包括：

16.如权利要求13所述的装置，其特征在于，所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。

17.如权利要求15所述的装置，其特征在于，所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果；

18.如权利要求14所述的装置，其特征在于，所述本轮的远端音频数据记作F，F为包含2k个元素的向量，相应地表示长度为2k的所述本轮的远端音频数据，F_i为F的第i个元素，所述本轮的近端音频数据的长度为k；

19.如权利要求16所述的装置，其特征在于，所述估计模块根据本轮的自适应回声消除参数，估计对所述本轮的多个远端频域音频块分别的响应，包括：

20.如权利要求19所述的装置，其特征在于，所述估计模块按照如下公式，估计对所述本轮的多个远端频域音频块分别的响应：

表示对所述第i个远端频域音频块的响应。

21.如权利要求15所述的装置，其特征在于，所述本轮的远端音频数据的能量按照公式P＝mean(F)²·2k计算得到；

22.如权利要求17所述的装置，其特征在于，所述参数更新项包括

23.如权利要求13所述的装置，其特征在于，所述滤波结果包括

其中，N表示所述本轮的近端音频数据，

24.如权利要求13～23任一项所述的装置，其特征在于，所述远端音频数据是从远端至近端的音频输出端采集得到的，所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。

25.一种用于回声消除的滤波设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

26.一种用于回声消除的滤波非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为多轮地迭代执行：