CN116705045A

CN116705045A - 回声消除方法、装置、计算机设备和存储介质

Info

Publication number: CN116705045A
Application number: CN202310995773.7A
Authority: CN
Inventors: 高毅; 陈静聪; 李斌; 罗程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-09-05
Anticipated expiration: 2043-08-09
Also published as: CN116705045B

Abstract

本申请涉及一种回声消除方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取当前帧序的回声预测信号帧和残差信号帧；根据当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及当前帧序的残差信号帧在多个频点处的差分功率谱，确定回声泄露系数；根据回声泄露系数对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据；确定当前帧序的近端音频帧，并确定频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度；根据频谱相关度对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。采用本方法能够消除回声。

Description

回声消除方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种回声消除方法、装置、计算机设备和存储介质。

背景技术

随着网络技术的发展，越来越多的用户开始采用网络进行语音实时通话。目前的数字设备通话过程中，例如手机、PC等，特备是在免提状态下，远端说话人的声音传送到近端之后，会被送到喇叭播放。送到喇叭之前的信号一般称为远端音频信号。喇叭播放出来的声音通过空气传播之后进入近端的麦克风就形成声学回声。为了使得进入近端麦克风的声学回声不会被传回到远端，因此在近端需要进行回声消除。

目前，主要是预测出回声信号，并将近端麦克风接收到的近端音频与预测出的回声信号相减，以对近端音频中的回声进行消除。然而，将近端麦克风接收到的近端音频与预测出的回声信号相减的方式无法消除全部的声学回声，远端依旧能够接收到没有消除干净的残留回声，从而降低了语音通话的通话质量。

发明内容

基于此，有必要针对上述技术问题，提供一种能够消除残留回声的回声消除方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种回声消除方法，所述方法包括：

获取当前帧序的回声预测信号帧和残差信号帧；所述回声预测信号帧，是基于传输至音频播放器的远端音频帧预测得到的声学回声信号帧；所述残差信号帧，是对音频接收器采集环境声得到的近端音频帧进行第一回声消除处理得到的信号帧，所述环境声包括所述音频播放器播放形成的声音；

根据所述当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及所述当前帧序的残差信号帧在所述多个频点处的差分功率谱，确定回声泄露系数；每种所述差分功率谱，表征相邻两帧信号帧在相应频点处的功率谱之间的差异；所述回声泄露系数表征进行第一回声消除处理过程中回声被消除的程度；

根据所述回声泄露系数对所述当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据；

确定当前帧序的近端音频帧，并确定所述频谱估计数据与所述当前帧序的近端音频帧的频谱之间的频谱相关度；

根据所述频谱相关度对所述经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

第二方面，本申请还提供了一种回声消除装置，所述装置包括：

信号帧获取模块，用于获取当前帧序的回声预测信号帧和残差信号帧；所述回声预测信号帧，是基于传输至音频播放器的远端音频帧预测得到的声学回声信号帧；所述残差信号帧，是对音频接收器采集环境声得到的近端音频帧进行第一回声消除处理得到的信号帧，所述环境声包括所述音频播放器播放形成的声音；

回声泄露系数确定模块，用于根据所述当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及所述当前帧序的残差信号帧在所述多个频点处的差分功率谱，确定回声泄露系数；每种所述差分功率谱，表征相邻两帧信号帧在相应频点处的功率谱之间的差异；所述回声泄露系数表征进行第一回声消除处理过程中回声被消除的程度；

目标音频帧生成模块，用于根据所述回声泄露系数对所述当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据；确定当前帧序的近端音频帧，并确定所述频谱估计数据与所述当前帧序的近端音频帧的频谱之间的频谱相关度；根据所述频谱相关度对所述经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

在其中一个实施例中，所述回声泄露系数确定模块还包括差分功率谱确定模块，用于确定位于所述当前帧序的回声预测信号帧之前的前一个回声预测信号帧；确定多个频点；所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；确定所述当前帧序的回声预测信号帧在所述频点处的功率谱，以及确定所述前一个回声预测信号帧在所述频点处的功率谱；根据所述当前帧序的回声预测信号帧在所述频点处的功率谱与所述前一个回声预测信号帧在所述频点处的功率谱之间的差异，确定所述当前帧序的回声预测信号帧在所述频点处的差分功率谱。

在其中一个实施例中，所述回声泄露系数确定模块还包括差分功率谱确定模块，用于确定位于所述当前帧序的残差信号帧之前的前一个残差信号帧；确定多个频点；所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；确定所述当前帧序的残差信号帧在所述频点处的功率谱，以及确定所述前一个残差信号帧在所述频点处的功率谱；根据所述当前帧序的残差信号帧在所述频点处的功率谱与所述前一个残差信号帧在所述频点处的功率谱之间的差异，确定所述当前帧序的残差信号帧在所述频点处的差分功率谱。

在其中一个实施例中，所述回声泄露系数确定模块还包括系数确定模块，用于根据所述当前帧序的回声预测信号帧在所述多个频点处的差分功率谱和所述当前帧序的残差信号帧在所述多个频点处的差分功率谱，确定所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述多个频点处的互相关谱；每个所述互相关谱，表征所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在相应频点处的相关度；根据所述当前帧序的回声预测信号帧在所述多个频点处的差分功率谱，确定所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱；每个所述自相关谱表征当前帧序的回声信号帧在相应频点处的能量；根据所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述多个频点处的互相关谱，以及所述当前帧序的回声预测信号帧在多个频点处的自相关谱，确定回声泄露系数。

在其中一个实施例中，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述系数确定模块还用于将所述当前帧序的回声预测信号帧在所述频点处的功率谱与所述当前帧序的残差信号帧在所述频点处的功率谱进行融合，得到所述当前帧序的回声预测信号帧与当前帧序的残差信号帧在所述频点处的初始互相关谱；获取前一个回声预测信号帧与前一个残差信号帧在所述频点处的互相关谱，及获取与所述当前帧序的回声预测信号帧对应的平滑系数值；根据所述平滑系数值，以及所述前一个回声预测信号帧与前一个残差信号帧在所述频点处的互相关谱，对所述初始互相关谱进行平滑处理，得到所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述频点处的互相关谱。

在其中一个实施例中，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述系数确定模块还用于将所述当前帧序的回声预测信号帧在所述频点处的功率谱与所述当前帧序的回声预测信号帧在所述频点处的功率谱进行融合，得到所述当前帧序的回声预测信号帧在所述频点处的初始自相关谱；获取前一个回声预测信号帧在所述频点处的自相关谱，以及获取与所述当前帧序的回声预测信号帧对应的平滑系数值；根据所述平滑系数值和所述前一个回声预测信号帧在所述频点处的自相关谱，对所述初始自相关谱进行平滑处理，得到所述当前帧序的回声预测信号帧在所述频点处的自相关谱。

在其中一个实施例中，所述系数确定模块还用于确定所述当前帧序的回声预测信号帧的第一能量，以及确定所述当前帧序的残差信号帧的第二能量；确定所述第一能量与所述第二能量的能量比值；在所述能量比值小于预设能量比值阈值的情况下，将所述能量比值与预设的回声泄露系数的学习率进行融合，得到与所述当前帧序的回声预测信号帧对应的平滑系数值；在所述能量比值大于或等于所述预设能量比值阈值的情况下，将所述预设能量比值阈值与所述预设的回声泄露系数的学习率进行融合，得到与所述当前帧序的回声预测信号帧对应的平滑系数值。

在其中一个实施例中，所述系数确定模块还用于将所述当前帧序的回声预测信号帧在所述多个频点处的互相关谱进行叠加，得到与所述当前帧序的回声预测信号帧对应的叠加互相关谱；将所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱进行叠加，得到与所述当前帧序的回声预测信号帧对应的叠加自相关谱；将所述叠加互相关谱与所述叠加自相关谱的比值，作为回声泄露系数。

在其中一个实施例中，所述目标音频帧生成模块还包括第二回声消除模块，用于根据所述回声泄露系数和所述当前帧序的回声预测信号帧在所述多个频点处的能量，确定所述当前帧序的残差信号帧中的残留回声信号在所述多个频点处的功率谱；根据所述残留回声信号在所述多个频点处的功率谱，确定当前帧序的所述多个频点各自对应的第一频谱增益；根据当前帧序的所述多个频点各自对应的第一频谱增益，对所述当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据。

在其中一个实施例中，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述第二回声消除模块还用于确定当前帧序的近端音频帧，并确定所述当前帧序的近端音频帧在所述频点处的功率谱；根据所述当前帧序的近端音频帧在所述频点处的功率谱，以及所述残留回声信号在频点处的功率谱，确定与当前帧序的频点对应的后验信噪比；根据与所述当前帧序的频点对应的后验信噪比和预设的估计阈值，确定与所述当前帧序的频点对应的先验信噪比；根据与所述当前帧序的频点对应的先验信噪比，确定与所述当前帧序的频点对应的第一频谱增益。

在其中一个实施例中，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述经第二回声消除处理的当前帧序的残差信号帧的频谱估计数据，包括所述经第二回声消除处理的当前帧序的残差信号帧在所述多个频点各自对应的频谱估计值；所述第二回声消除模块还用于确定所述当前帧序的残差信号帧在所述多个频点处的频谱值；将与所述当前帧序的频点对应的第一频谱增益，与所述当前帧序的残差信号帧在频点处的频谱值进行融合，得到经第二回声消除处理的残差信号帧在所述频点处的频谱估计值。

在其中一个实施例中，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述频谱估计数据与所述当前帧序的近端音频帧的频谱之间的频谱相关度，包括多个互相关谱密度；所述目标音频帧生成模块还包括第三回声消除模块，用于确定所述当前帧序的近端音频帧在所述多个频点处的频谱值；将所述经第二回声消除处理的当前帧序的残差信号帧在频点处的频谱估计值，与所述当前帧序的近端音频帧在所述频点处的频谱值进行融合，得到所述频谱估计数据与所述当前帧序的近端音频帧在频点处的初始互相关谱密度；对所述初始互相关谱密度进行平滑处理，得到所述频谱估计数据与所述当前帧序的近端音频帧在频点处的互相关谱密度。

在其中一个实施例中，所述第三回声消除模块还用于根据所述当前帧序的回声预测信号帧在所述多个频点处的频谱值，确定所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱密度；根据所述当前帧序的近端音频帧在所述多个频点处的频谱值，确定所述当前帧序的近端音频帧在所述多个频点处的自相关谱密度；根据所述频谱相关度、所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱密度、所述当前帧序的近端音频帧在所述多个频点处的自相关谱密度，对所述经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

在其中一个实施例中，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述频谱估计数据与所述当前帧序的近端音频帧的频谱之间的频谱相关度，包括多个互相关谱密度；所述第三回声消除模块还用于将所述当前帧序的回声预测信号帧在所述频点处的自相关谱密度，与所述当前帧序的近端音频信号帧在所述频点处的自相关谱密度进行融合，得到与所述当前帧序的频点对应的融合自相关密度谱；根据所述频谱估计数据与所述当前帧序的近端音频帧在所述频点处的互相关谱密度，以及与所述当前帧序的频点对应的融合自相关密度谱，确定与当前帧序的频点对应的第二频谱增益；将所述与当前帧序的频点对应的第二频谱增益，与所述经第二回声消除处理的残差信号帧在频点处的频谱值进行融合，得到待生成的目标音频帧在频点处的频谱估计值；根据待生成的目标音频帧在所述多个频点处的频谱估计值，确定所述回声路径中消除了回声的目标音频帧。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的任一种回声消除方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的任一种回声消除方法中的步骤。

第五方面，本申请还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的任一种回声消除方法中的步骤。

上述回声消除方法、装置、计算机设备、存储介质和计算机程序产品，通过获取当前帧序的回声预测信号帧和残差信号帧，可确定当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及确定当前帧序的残差信号帧在多个频点处的差分功率谱。通过得到差分功率谱，可基于差分功率谱确定表征回声被消除程度的回声泄露系数，从而基于该回声泄露系数调整对当前帧序的残差信号帧中的回声的抑制程度，以实现对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计。通过得到频谱估计数据，可确定频谱估计数据与当前帧序的近端音频帧的频谱之间的相关性度，在相关度越高时，则表征近端音频帧越有可能是回声，因此，可基于该相关度调整对经第二回声消除处理的残差信号帧中的回声的抑制程度，以实现对经第二回声消除处理的残差信号帧进行第三回声消除处理，从而得到目标音频帧。由于本申请可通过第二回声消除处理和第三回声消除处理，对残差信号帧中的回声进行进一步地消除，因此，相比于传统方案，本申请可通过第二回声消除处理和第三回声消除处理进一步减少远端接收到的残留回声，进而大大提升了语音通话的通话质量。

此外，由于第二回声消除处理对近端语音损伤较小，并且已经抑制了大多数残留回声，第三回声消除处理利用相关度更容易对回声和近端语音进行区分，进而在进一步抑制残留回声的同时能较好的保留近端语音。

附图说明

图1为一个实施例中回声消除方法的应用环境图；

图2为一个实施例中回声消除方法的流程示意图；

图3为一个实施例中回声路径的示意图；

图4为一个实施例中回声预测信号帧的频谱图；

图5为一个实施例中第二回声消除处理的整体框架示意图；

图6为另一个实施例中第二回声消除处理的整体框架示意图；

图7为一个实施例中第三回声消除处理的整体框架示意图；

图8为另一个实施例中第三回声消除处理的整体框架示意图；

图9为一个具体实施例中回声消除方法的流程示意图；

图10为一个实施例中回声消除装置的结构框图；

图11为另一个实施例中回声消除装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中描述对回声消除方法的应用环境图。参照图1，该回声消除方法应用于回声消除系统。回声消除系统包括第一终端102和第二终端104，第一终端102包括音频播放器102-1和音频接收器102-2。第二终端104包括音频播放器104-1和音频接收器104-2。第一终端102获取回声预测信号和残差信号。其中，回声预测信号为基于传输至音频播放器102-1的远端音频预测得到的声学回声信号，该远端音频为第二终端104对音频接收器104-2采集的声音进行处理后，发送至第一终端102的音频；残差信号帧是根据回声预测信号与音频接收器102-2采集的近端音频之间的差异确定得到的。当获取得到回声预测信号和残差信号时，第一终端102基于回声预测信号对残差信号中的残留回声进行消除，以得到未包括回声的目标音频，并将目标音频传输至第二终端104，以使第二终端104中的音频播放器104-1进行播放。

其中，第一终端102和第二终端104可以但不限于是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视。音频播放器102-1和音频播放器104-1具体可以是硬件设备或者软件模块，能实现声音的播放，包括但不限于是喇叭、音响等用于将音频帧转换为声音播放的电子设备。音频接收器102-2和音频接收器104-2具体可以是硬件设备或者软件模块，能采集声音，包括但不限于是麦克风、无线话筒等用以采集声音，并将采集的声音转换为对应音频帧的电子设备。

本申请涉及人工智能领域，比如，本申请可通过人工智能的方式自动确定差分功率谱。人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

需要说明的是，本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。除非上下文另外清楚地指出，否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。本申请各实施例中提及的“多个”或“多份”等的数量均指代“至少两个”的数量，比如，“多个”指“至少两个”，“多份”指“至少两份”。

在一个实施例中，如图2所示，提供了一种回声消除方法，以该方法应用于终端为例进行说明，终端可为图1中的第一终端或者第二终端。回声消除方法包括以下步骤：

步骤202，获取当前帧序的回声预测信号帧和残差信号帧；回声预测信号帧，是基于传输至音频播放器的远端音频帧预测得到的声学回声信号帧；残差信号帧，是对音频接收器采集环境声得到的近端音频帧进行第一回声消除处理得到的信号帧，环境声包括音频播放器播放形成的声音。

其中，参考图3，由于远端说话人的声音传送到近端之后，会被送到音频播放器播放。送到音频播放器之前的信号一般称为远端音频信号。音频播放器播放出来的声音通过空气传播之后进入近端的音频接收器后就形成声学回声，因此，音频播放器和音频接收器可形成一条回声路径。音频播放器用于将传输至近端的音频帧转换成声音播放，音频接收器用于采集声音并将采集的声音转换成对应的音频帧。回声预测信号帧为通过线性滤波器对传输至音频播放器的远端音频帧进行回声预测而得到的信号帧，也即回声预测信号帧为基于线性滤波器预测得到的声学回声信号帧。

比如，参考图3，远端说话人的声音传送到近端之后，会被送到音频播放器进行播放，送到音频播放器之前的信号就称为回声消除的远端音频信号，远端音频信号中的音频帧就为远端音频帧。可将远端音频信号输入至线性滤波器中进行处理，以得到预测的回声信号，预测的回声信号中的音频帧即为回声预测信号帧。音频接收器接收到的信号称作近端音频信号，由于进入音频接收器的声音除了声学回声之外，还可能有近端的说话人声，因此，近端音频信号中可包含回声信号和人声。当将近端音频信号减去与回声预测信号时，即可得到残差信号，其中，将近端音频信号减去与回声预测信号即为上述的第一回声消除处理。残差信号中的音频帧即为残差信号帧。容易理解地，该残差信号中可包括近端的说话人声，还可能包括有没有消除干净的残留回声信号。因此，本申请主要是对残差信号中的没有消除干净的残留回声信号进行消除。图3示出了一个实施例中回声路径的示意图。

具体地，当需要对回声进行消除时，终端可获取当前帧序的回声预测信号帧和当前帧序的残差信号帧。比如，可获取回声预测信号帧和残差信号帧。其中，为第个信号帧。

步骤204，根据当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及当前帧序的残差信号帧在多个频点处的差分功率谱，确定回声泄露系数；每种差分功率谱，表征相邻两帧信号帧在相应频点处的功率谱之间的差异；回声泄露系数表征进行第一回声消除处理过程中回声被消除的程度。

其中，由于将近端音频减去回声预测信号以得到残差信号可认为是第一回声消除处理过程，但是，在此过程中，可能有部分回声未被消除，因此，残差信号中可能会残留有残留回声，而回声泄露系数即表征在这一过程中回声的泄露程度。当回声泄露系数越大，则表征回声越可能没有得到充分消除，此时残留回声信号中的残留回声就越多。功率谱是指单位频带内的信号功率。差分功率谱是指相邻两帧信号在相应频点处的功率谱之间的差异。

具体地，终端可确定当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及确定当前帧序的残差信号帧在多个频点处的差分功率谱。比如，多个频点包括频点，i 为小于或等于M的正整数，M为所述多个频点的总数，在当前帧序为时，终端可确定当前帧序的回声预测信号帧在频点处的差分功率谱，以及可确定当前帧序的残差信号帧在频点处的差分功率谱。其中，频点是指绝对频率值。进一步地，当获取得到当前帧序的回声预测信号帧在多个频点处的差分功率谱和当前帧序的残差信号帧在多个频点处的差分功率谱时，终端可基于获取得到当前帧序的回声预测信号帧在多个频点处的差分功率谱和当前帧序的残差信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧与残差信号帧之间的相似度，从而基于相似度确定回声泄露系数。

在其中一个实施例中，针对多个频点中的每个频点，终端可确定当前帧序的回声预测信号帧在当前频点处的差分功率谱，以及确定当前帧序的残差信号帧在当前频点处的差分功率谱，将当前帧序的回声预测信号帧在当前频点处的差分功率谱称作第一差分功率谱，将当前帧序的残差信号帧在当前频点处的差分功率谱称作第二差分功率谱。终端确定第一差分功率谱与第二差分功率谱之间的相关度，并将该相关度称作与当前频点对应的差分功率谱相关度。当得到多个频点各自对应的差分功率谱相关度，终端即可根据多个频点各自对应的差分功率谱相关度，确定当前帧序的回声预测信号帧与当前帧序的残差信号帧之间的相似度，从而基于相似度确定回声泄露系数。

步骤206，根据回声泄露系数对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据。

具体地，由于回声泄露系数表征进行第一回声消除处理时回声被消除的程度，当回声泄露系数越高则表征回声泄露的程度越大，第一回声消除处理过程中回声越可有能没有得到充分消除，残差信号帧中残留的回声信号也就越多，因此，可通过回声泄露系数对当前帧序的残差信号帧进行第二回声消除处理，从而当回声泄露系数越大时，可基于回声泄露系数增加对当前帧序的残差信号帧中的回声的抑制程度，以得到经第二回声消除处理的残差信号帧的频谱估计数据。其中，频谱估计数据是指估计的频谱数据，其为基于一组有限数据来描述信号功率在频域上的分布。

步骤208，确定当前帧序的近端音频帧，并确定频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度。

具体地，终端确定当前帧序的近端音频帧。其中，当前帧序的近端音频帧可为用以得到当前帧序的残差信号帧的近端音频帧。比如，在当前帧序的残差信号帧为，且时，当前帧序的近端音频帧即为。进一步地，终端可确定经第二回声消除处理的残差信号帧的频谱估计数据与当前帧序的近端音频帧的频谱之间的相关度。其中，若经第二回声消除处理的残差信号帧的频谱估计数据与当前帧序的近端音频帧的频谱之间的相关度越高，则近端音频帧越有可能是回声，因此，可增加回声的抑制程度。

步骤210，根据频谱相关度对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

具体地，由于经第二回声消除处理的残差信号帧的频谱估计数据与当前帧序的近端音频帧的频谱之间的相关度越高，则近端音频帧越有可能是回声，因此，可通过该相关度，调整对经第二回声消除处理的残差信号帧中的回声的抑制程度，也即，可通过该相关性对经第二回声消除处理的残差信号帧进行第三回声消除处理，从而使得当相关度越高时，增加对经第二回声消除处理的残差信号帧中的回声的抑制程度，以消除经第二回声消除处理的残差信号帧中的回声，得到消除了回声的目标音频帧。进一步地，当得到消除了回声的目标音频帧时，终端可将该目标音频帧发送至对端终端，以使对端终端播放该目标音频帧。

容易理解地，终端可通过上述方法，依次对残差信号中的各残差信号帧进行处理，以得到相应的目标音频帧。

上述回声消除方法中，通过获取当前帧序的回声预测信号帧和残差信号帧，可确定当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及确定当前帧序的残差信号帧在多个频点处的差分功率谱。通过得到差分功率谱，可基于差分功率谱确定表征回声被消除程度的回声泄露系数，从而基于该回声泄露系数调整对当前帧序的残差信号帧中的回声的抑制程度，以实现对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计。通过得到频谱估计数据，可确定频谱估计数据与当前帧序的近端音频帧的频谱之间的相关性度，在相关度越高时，则表征近端音频帧越有可能是回声，因此，可基于该相关度调整对经第二回声消除处理的残差信号帧中的回声的抑制程度，以实现对经第二回声消除处理的残差信号帧进行第三回声消除处理，从而得到目标音频帧。由于本申请可通过第二回声消除处理和第三回声消除处理，对残差信号帧中的回声进行进一步地消除，因此，相比于传统方案，本申请可通过第二回声消除处理和第三回声消除处理进一步减少远端接收到的残留回声，进而大大提升了语音通话的通话质量。

在其中一个实施例中，当前帧序的回声预测信号帧在多个频点处的差分功率谱的确定步骤包括：确定位于当前帧序的回声预测信号帧之前的前一个回声预测信号帧；确定多个频点；多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；确定当前帧序的回声预测信号帧在频点处的功率谱，以及确定前一个回声预测信号帧在频点处的功率谱；根据当前帧序的回声预测信号帧在频点处的功率谱与前一个回声预测信号帧在频点处的功率谱之间的差异，确定当前帧序的回声预测信号帧在频点处的差分功率谱。

具体地，确定回声预测信号中位于当前帧序的回声预测信号帧之前的前一个回声预测信号帧。比如，在当前帧序的回声预测信号帧为时，前一个回声预测信号帧即为。终端确定多个频点，例如，多个频点可包括频点，i为小于或等于M的正整数，M为所述多个频点的总数。终端可确定当前帧序的回声信号帧在频点处的频谱值，从而基于当前帧序的回声预测信号帧在频点处的频谱值确定当前帧序的回声预测信号帧在频点处的功率谱。比如，当前帧序的回声预测信号帧在频点处的频谱值为时，当前帧序的回声预测信号帧在频点处的功率谱即为。相应的，终端确定前一帧回声信号帧在频点处的频谱值，从而基于前一帧回声预测信号帧在频点处的频谱值确定前一帧回声预测信号帧在频点处的功率谱。比如，前一帧回声预测信号帧在频点处的频谱值为时，前一帧回声预测信号帧在频点处的功率谱即为。

进一步地，终端可将当前帧序的回声预测信号帧在频点处的功率谱，减去前一个回声预测信号帧在频点处的功率谱，得到回声预测信号帧的功率谱差值，并将该回声预测信号帧的功率谱差值作为当前帧序的回声预测信号帧在频点处的差分功率谱。如此，终端可针对多个频点中的每个频点，均按照上述方式进行处理，从而得到当前帧序的回声预测信号帧在多个频点处的差分功率谱。

在其中一个实施例中，当将当前帧序的回声预测信号帧在频点处的功率谱，减去前一个回声预测信号帧在频点处的功率谱，以得到回声预测信号帧的功率谱差值时，为了减小随机误差以及去除数据噪声，终端还可获取前一个回声预测信号帧在频点处的差分功率谱，并通过前一个回声预测信号帧在频点处的差分功率谱，对回声预测信号帧的功率谱差值进行平滑处理，从而得到当前帧序的回声预测信号帧在频点处的差分功率谱。

在其中一个实施例中，终端可通过下述公式确定当前帧序的回声预测信号帧在频点处的差分功率谱：

其中，为平滑因子，取值0至1之间；为前一个回声预测信号在频点处的差分功率谱；为当前帧序的回声预测信号帧在频点处的功率谱；为前一个回声预测信号帧在频点处的功率谱。

在其中一个实施例中，当前帧序的回声预测信号帧的频谱图可参考图4，假设对于回声预测信号帧而言，频点所对应的频率为，所对应的幅值为，将进行平方，得到；对于回声预测信号帧而言，频点所对应的频率为Ω，Ω所对应的幅值为，将进行平方，得到之后，将与相减，得到回声预测信号帧的功率谱差值。图4示出了一个实施例中回声预测信号帧的频谱图。

上述实施例中，通过确定相邻两帧回声预测信号帧在同一频点处的功率谱，可基于确定的功率谱准确定在该频点处的差分功率谱，使得后可基于准确确定的差分功率谱确定回声泄露系数。

在其中一个实施例中，当前帧序的残差信号帧在多个频点处的差分功率谱的确定步骤包括：确定位于当前帧序的残差信号帧之前的前一个残差信号帧；确定多个频点；多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；确定当前帧序的残差信号帧在频点处的功率谱，以及确定前一个残差信号帧在频点处的功率谱；根据当前帧序的残差信号帧在频点处的功率谱与前一个残差信号帧在频点处的功率谱之间的差异，确定当前帧序的残差信号帧在频点处的差分功率谱。

具体地，确定残差信号中位于当前帧序的残差信号帧之前的前一个残差信号帧。比如，在当前帧序的残差信号帧为时，前一个残差信号帧即为。终端确定多个频点，例如，多个频点可包括频点，i为小于或等于M的正整数，M为所述多个频点的总数。终端可确定当前帧序的回声信号帧在频点处的频谱值，从而基于当前帧序的残差信号帧在频点处的频谱值确定当前帧序的残差信号帧在频点处的功率谱。比如，当前帧序的残差信号帧在频点处的频谱值为时，当前帧序的残差信号帧在频点处的功率谱即为。相应的，终端确定前一帧残差信号帧在频点处的频谱值，从而基于前一帧残差信号帧在频点处的频谱值确定前一帧残差信号帧在频点处的功率谱。比如，前一帧残差信号帧在频点处的频谱值为时，前一帧回声预测信号帧在频点处的功率谱即为。

进一步地，终端可将当前帧序的残差信号帧在频点处的功率谱，减去前一个残差信号帧在频点处的功率谱，得到残差信号帧的功率谱差值，并将该残差信号帧的功率谱差值作为当前帧序的残差信号帧在频点处的差分功率谱。如此，终端可针对多个频点中的每个频点，均按照上述方式进行处理，从而得到当前帧序的残差信号帧在多个频点处的差分功率谱。

在其中一个实施例中，当将当前帧序的残差信号帧在频点处的功率谱，减去前一个残差信号帧在频点处的功率谱，以得到残差信号帧的功率谱差值时，为了减小随机误差以及去除数据噪声，终端还可获取前一个残差信号帧在频点处的差分功率谱，并通过前一个残差信号帧在频点处的差分功率谱，对残差信号帧的功率谱差值进行平滑处理，从而得到当前帧序的残差信号帧在频点处的差分功率谱。

在其中一个实施例中，终端可通过下述公式确定当前帧序的残差信号帧在频点处的差分功率谱：

其中，为平滑因子，取值0至1之间；为前一个残差信号帧在频点处的差分功率谱；为当前帧序的残差信号帧在频点处的功率谱；为前一个残差信号帧在频点处的功率谱。

上述实施例中，通过确定相邻两帧残差信号帧在同一频点处的功率谱，可基于确定的功率谱准确定在该频点处的差分功率谱，使得后可基于准确确定的差分功率谱确定回声泄露系数。

在其中一个实施例中，根据当前帧序的回声预测信号帧在多个频点处的差分功率谱和当前帧序的残差信号帧在多个频点处的差分功率谱，确定回声泄露系数，包括：根据当前帧序的回声预测信号帧在多个频点处的差分功率谱和当前帧序的残差信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧与当前帧序的残差信号帧在多个频点处的互相关谱；互相关谱表征当前帧序的回声预测信号帧与当前帧序的残差信号帧在相应频点处的相关性；根据当前帧序的回声预测信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧在多个频点处的自相关谱；自相关谱表征当前帧序的回声信号帧在相应频点处的能量；根当前帧序的回声预测信号帧与当前帧序的残差信号帧在多个频点处的互相关谱，以及当前帧序的回声预测信号帧在多个频点处的自相关谱，确定回声泄露系数。

具体地，当得到当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及得到当前帧序的残差信号帧在多个频点处的差分功率谱后，可基于确定的差分功率谱，确定当前帧序的回声预测信号帧和当前帧序的残差信号帧在多个频点处的互相关谱。互相关谱表征当前帧序的回声预测信号帧与当前帧序的残差信号帧在相应频点处的相关性，相关性越高，则表征两者越相似。为了描述方便，下述将当前帧序的回声预测信号帧和当前帧序的残差信号帧在多个频点处的互相关谱，称作当前帧序的回声预测信号帧在多个频点处的互相关谱。

进一步地，终端还可基于确定的差分功率谱，确定当前帧序的回声预测信号帧与当前帧序的回声预测信号帧在多个频点处的自相关谱。自相关谱表征当前帧序的回声预测信号帧与当前帧序的回声预测信号帧在相应频点处的相关性，也即表征自己与自己的相关性，但是，自己跟自己长得一样，所以通常自相关谱也就代表是相应频点处的能量。为了描述方便，下述将当前帧序的回声预测信号帧与当前帧序的回声预测信号帧在多个频点处的自相关谱，称作当前帧序的回声预测信号帧在多个频点处的自相关谱。终端根据当前帧序的回声预测信号帧在多个频点处的互相关谱和自相关谱，确定回声泄露系数。

本实施例中，由于回声泄露系数是根据互相关谱和自相关谱确定得到的，确定互相关谱的目的在于确定当前帧序的回声预测信号帧的频谱与当前帧序的残差信号帧的频谱之间的互相关性，当互相关性越高，则当前帧序的残差信号帧就越有可能是回声。确定自相关谱的目的在于基于自相关谱去除当前帧序的回声预测信号的能量大小对于互相关性的影响，使得基于互相关性所确定的回声泄露系数能够更为准确。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；根据当前帧序的回声预测信号帧在多个频点处的差分功率谱和当前帧序的残差信号帧在多个频点处的差分功率谱确定所述当前帧序的回声预测信号帧与当前帧序的残差信号帧在所述多个频点处的互相关谱，包括：将当前帧序的回声预测信号帧在频点处的功率谱与当前帧序的残差信号帧在频点处的功率谱进行融合，得到当前帧序的回声预测信号帧与当前帧序的残差信号帧在频点处的初始互相关谱；获取前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱、和与当前帧序的回声预测信号帧对应的平滑系数值；根据平滑系数值、和前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱，对初始互相关谱进行平滑处理，得到当前帧序的回声预测信号帧与当前帧序的残差信号帧在频点处的互相关谱。

具体地，对于多个频点中的每个频点，终端均按照下述方式确定互相关谱。例如，对于频点，终端将当前帧序的回声预测信号帧在频点处的功率谱与当前帧序的残差信号帧在频点处的功率谱进行融合，例如，进行相乘处理，以得到当前帧序的回声预测信号帧在频点处的初始互相关谱。进一步地，终端获取前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱，以及获取与当前帧序的回声预测信号帧相对应的平滑系数，基于前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱和与当前帧序的回声预测信号帧相对应的平滑系数值，对当前帧序的回声预测信号帧与当前帧序的残差信号帧在频点处的初始互相关谱进行平滑处理。其中，前一个回声预测信号帧为前一个帧序的回声预测信号帧；前一个残差信号帧为前一个帧序的残差信号帧。比如，终端可基于获取得到的平滑系数确定初始互相关谱和前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱各自对应的权重，比如，终端可将与前一个回声预测信号帧相对应的平滑系数作为初始互相关谱的权重，将1减去该平滑系数作为前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱的权重，进而终端基于确定的权重对初始互相关谱和前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱进行加权求和处理，以得到当前帧序的回声预测信号帧与当前帧序的残差信号帧在频点处的互相关谱。

在其中一个实施例中，终端可通过下述公式确定互相关谱：

其中，表征第帧；表征与第帧回声预测信号帧相对应的平滑系数；为与第帧的频点对应的互相关谱，也即表征第帧回声预测信号帧与第帧残差信号帧在频点处的互相关谱；表征与第帧的频点对应的互相关谱，也即表征第帧回声预测信号帧与第帧残差信号帧在频点处的互相关谱；表征第帧回声预测信号帧在频点处的功率谱；表征第帧残差信号帧在频点处的功率谱。

上述实施例中，通过平滑系数对初始互相关谱进行平滑处理，可以减小随机误差以及去除数据噪声，使得各互相关谱之间的变化能够更为平滑。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；根据当前帧序的回声预测信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧在多个频点处的自相关谱，包括：将当前帧序的回声预测信号帧在频点处的功率谱与当前帧序的回声预测信号帧在频点处的功率谱进行融合，得到当前帧序的回声预测信号帧在频点处的初始自相关谱；获取前一个回声预测信号帧在频点处的自相关谱和与当前帧序的回声预测信号帧对应的平滑系数值；根据平滑系数值和前一个回声预测信号帧在频点处的自相关谱，对当前帧序的回声预测信号帧在频点处的自相关融合功率谱进行平滑处理，得到当前帧序的回声预测信号帧在频点的自相关谱。

具体地，对于多个频点中的每个频点，终端均按照下述方式确定自相关谱。例如，对于频点，终端将当前帧序的回声预测信号帧在频点处的功率谱与当前帧序的回声预测信号帧在频点处的功率谱进行融合，例如，进行相乘处理，以得到当前帧序的回声预测信号帧在频点处的初始自相关谱。进一步地，终端获取前一个回声预测信号帧在频点处的自相关谱，以及获取与当前帧序的回声预测信号帧相对应的平滑系数，基于前一个回声预测信号帧在频点处的自相关谱和与当前帧序的回声预测信号帧相对应的平滑系数，对当前帧序的回声预测信号帧在频点处的初始自相关谱进行平滑处理。比如，终端可基于获取得到的平滑系数确定初始自相关谱和前一个回声预测信号帧在频点处的自相关谱各自对应的权重，比如，终端可将与前一个回声预测信号帧相对应的平滑系数作为初始自相关谱的权重，将1减去该平滑系数作为前一个回声预测信号帧在频点处的自相关谱的权重，进而终端基于确定的权重对初始自相关谱和前一个回声预测信号帧在频点处的自相关谱进行加权求和处理，以得到当前帧序的回声预测信号帧在频点处的自相关谱。其中，当前帧序的回声预测信号帧在频点处的自相关谱表征当前帧序的回声预测信号帧与当前帧序的回声预测信号帧在频点处的相关性。

在其中一个实施例中，终端可通过下述公式确定自相关谱：

其中，表征第帧；表征与第帧回声预测信号帧相对应的平滑系数；为第帧在频点处的自相关谱；表征第帧在频点处的自相关谱；表征第帧回声预测信号帧在频点处的功率谱。

上述实施例中，通过平滑系数对初始自相关谱进行平滑处理，可以减小随机误差以及去除数据噪声，使得各自关谱之间的变化能够更为平滑。

在其中一个实施例中，与当前帧序的回声预测信号帧对应的平滑系数值的确定步骤包括：确定当前帧序的回声预测信号帧的第一能量，及确定当前帧序的残差信号帧的第二能量；确定第一能量与第二能量的能量比值；在能量比值小于预设能量比值阈值的情况下，将能量比值与预设的回声泄露系数的学习率进行融合，得到与当前帧序的回声预测信号帧对应的平滑系数值；在能量比值大于或等于预设能量比值阈值的情况下，将预设能量比值阈值与预设的回声泄露系数的学习率进行融合，得到与当前帧序的回声预测信号帧对应的平滑系数值。

具体地，终端可确定当前帧序的回声预测信号帧的能量，记作第一能量，以及确定当前帧序的残差信号帧的能量，记作第二能量。终端将第一能量除以第二能量，得到第一能量与第二能量之间的能量比值。终端获取预设能量比值阈值，并判断能量比值与预设能量比值阈值之间的大小，在能量比值小于预设能量比值阈值的情况下，此时，终端将能量比值与预设的回声泄露系数的学习率进行融合，以得到与当前帧序的回声预测信号帧对应的平滑系数值。比如，终端将能量比值乘以预设的回声泄露系数的学习率，得到与当前帧序的回声预测信号帧对应的平滑系数值。

在能量比值大于或等于预设能量比值阈值的情况下，此时终端将预设能量比值阈值与预设的回声泄露系数的学习率进行融合，得到与当前帧序的回声预测信号帧对应的平滑系数值。比如，终端将预设能量比值阈值乘以预设的回声泄露系数的学习率，得到与当前帧序的回声预测信号帧对应的平滑系数值。

在其中一个实施例中，终端可通过下述公式确定与第帧回声预测信号帧相对应的平滑系数：

其中，为第帧回声预测信号帧的能量；为第帧残差信号帧的能量；1 为预设能量比值阈值；为回声泄露系数的学习率，其为常量。

在其中一个实施例中，根据当前帧序的回声预测信号帧在多个频点处的互相关谱及当前帧序的回声预测信号帧在多个频点处的自相关谱，确定回声泄露系数，包括：将当前帧序的回声预测信号帧与当前帧序的残差信号帧在多个频点处的互相关谱进行叠加，得到与当前帧序的回声预测信号帧对应的叠加互相关谱；将当前帧序的回声预测信号帧在多个频点处的自相关谱进行叠加，得到与当前帧序的回声预测信号帧对应的叠加自相关谱；将叠加互相关谱与叠加自相关谱的比值，作为回声泄露系数。

具体地，当得到当前帧序的回声预测信号帧在多个频点处的互相关谱和当前帧序的回声预测信号帧在多个频点处的自相关谱时，终端可将当前帧序的回声预测信号帧在多个频点处的互相关谱进行叠加，以得到与当前帧序的回声预测信号帧对应的叠加互相关谱。进一步地，终端还可将当前帧序的回声预测信号帧在多个频点处的自相关谱进行叠加，以得到与当前帧序的回声预测信号帧对应的叠加自相关谱。终端将叠加互相关谱除以叠加自相关谱，以得到叠加互相关谱与叠加自相关谱的比值，并将该比值作为回声泄露系数。

在其中一个实施例中，终端可通过下述公式确定回声泄露系数：

其中，表征帧回声预测信号帧在频点处的互相关谱；表征帧回声预测信号帧在频点处的自相关谱。

上述实施例中，把平滑后的能量用来做分母可起到归一化的作用，也就是去除回声预测信号帧的能量大小对于互相关性的影响，从而使得所确定的回声泄露系数能够更为准确。

在其中一个实施例中，根据回声泄露系数对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据，包括：根据回声泄露系数和当前帧序的回声预测信号帧在多个频点处的能量，确定当前帧序的残差信号帧中的残留回声信号在多个频点处的功率谱；根据残留回声信号在多个频点处的功率谱，确定当前帧序的多个频点各自对应的第一频谱增益；根据当前帧序的多个频点各自对应的第一频谱增益，对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据。

具体地，由于回声泄露系数表征的是近端音频帧执行第一回声消除处理后回声被抑制的程度，且残差信号帧为对近端音频帧执行第一回声消除处理后得到的信号帧，因此，回声泄露系数也可表征残差信号帧中残留回声信号的残留程度。其中，残留回声信号是指残差信号帧中的回声信号。由于回声泄露系数可表征残差信号帧中残留回声信号的残留程度，因此，当确定与当前帧序的回声预测信号帧对应的回声泄露系数时，即可基于该回声泄露系数来确定当前正帧序的残差信号帧中的残留回声信号在多个频点处的功率谱。

进一步地，终端根据残留回声信号在多个频点处的功率谱，确定当前帧序的多个频点各自对应的第一频谱增益。其中，增益是指放大信号的能力，第一频谱增益是指频谱放大的能力。当得到当前帧序的多个频点各自对应的第一频谱增益时，可将当前帧序的多个频点各自对应的第一频谱增益共同看成是一个频域维也纳滤波器，从而基于该频域维也纳滤波器滤除当前帧序的残差信号帧中的回声，得到经第二回声消除处理的残差信号帧的频谱估计数据。

本实施例中，通过得到当前帧序的多个频点各自对应的第一频谱增益，可将当前帧序的各频点各自对应的第一频谱增益共同作为一个增益函数，从而基于该增益函数实现基于语音增强的回声去除方法。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；根据残留回声信号在多个频点处的功率谱，确定当前帧序的多个频点各自对应的第一频谱增益，包括：确定当前帧序的近端音频帧，并确定当前帧序的近端音频帧在频点处的功率谱；根据当前帧序的近端音频帧在频点处的功率谱，以及残留回声信号在频点处的功率谱，确定与当前帧序的频点对应的后验信噪比；根据与当前帧序的频点对应的后验信噪比估计和预设的估计阈值，确定与当前帧序的频点对应的先验信噪比；根据与当前帧序的频点对应的先验信噪比，确定与当前帧序的频点对应的第一频谱增益。

具体地，本申请在进行回声消除的过程中，实际上是把回声消除的过程视为一个线性时不变系统，当带回声语音通过这个系统时，在均方误差最小化标准下，使得系统的输出与期望的纯净不带回声语音信号最接近的过程。基于上述基准，并根据频域维也纳滤波方法，可确定基于先验信噪比和后验信噪比能够确定一个频域维也纳滤波器，也即能够确定第一频谱增益。其中，先验信噪比是指信号没有被回声干扰的信噪比，其表征没有回声的纯净信号功率的期望。后验信噪比是指信号引入回声后的信噪比。至此，对频域维也纳滤波器的求解变成了求解信号的先后验信噪比的过程。

在其中一个实施例中，对于多个频点中的每个频点，终端均根据下述方式确定与当前帧序的相应频点对应的后验信噪比。当需要确定后验信噪比时，终端确定当前帧序的近端音频帧，并确定当前帧序的近端音频帧在频点处的功率谱，终端将当前帧序的近端音频帧在频点处的功率谱除以当前帧序的残差信号帧中的残留回声信号在频点处的功率谱，得到功率谱比值，基于该功率谱比值，确定与当前帧序的频点对应的后验信噪比。比如，可对该功率谱比值进行数据平滑处理，得到与当前帧序的频点对应的后验信噪比。当前帧序在近端音频帧在频点处的功率谱表征引入回声后的信号，当前帧序的残差信号帧中的残留回声信号在频点处的功率谱表征回声信号，因此，将当前帧序的近端音频帧在频点处的功率谱除以残留回声信号在频点处的功率谱，可得到表征信号引入回声后的信噪比，也即可得到相应的后验信噪比。

在其中一个实施例中，对于多个频点中的每个频点，终端均根据下述方式确定与当前帧序的相应频点对应的先验信噪比。当需要确定先验信噪比时，终端将上述方式得到的当前帧序在频点处的后验信噪比减去1，得到与当前帧序的频点对应的减值后验信噪比。终端判断与当前帧序的频点对应的减值后验信噪比与预设的估计阈值之间的大小，并在与当前帧序的频点对应的减值后验信噪比大于预设的估计阈值时，表征当前帧序的近端音频帧中的回声较少，此时，终端将与当前帧序的频点对应的后验信噪比，作为与当前帧序的频点对应的先验信噪比；在与当前帧序的频点对应的减值后验信噪比小于或等于预设的估计阈值时，表征当前帧序的近端音频帧近似于回声，此时，终端将预设的估计阈值作为与当前帧序的频点对应的先验信噪比。

在其中一个实施例中，可通过下述公式确定与第帧的频点对应的后验信噪比：

其中，b为平滑系数；为与第帧的对应的后验信噪比，为第帧近端音频帧在频点处的功率谱，为第帧残差信号帧中的残留回声信号在频点处的功率谱。

在其中一个实施例中，可通过下述公式确定与第帧的频点对应的先验信噪比：

其中，0为预设的估计阈值；为与第帧的对应的后验信噪比。

在其中一个实施例中，可通过下述公式确定与第帧的频点对应的第一频谱增益：

其中，为与第帧的频点对应的先验信噪比。

上述实施例中，通过得到各频点各自对应的第一频谱增益，可综合各频点各自对应的第一频谱增益得到一个频域维也纳滤波器，从而可基于该频域维也纳滤波器去除残差信号中的回声，得到去除了回声的信号。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；经第二回声消除处理的当前帧序的残差信号帧的频谱估计数据，包括经第二回声消除处理的当前帧序的残差信号帧在多个频点各自对应的频谱估计值；根据当前帧序的多个频点各自对应的第一频谱增益，对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据，包括：确定当前帧序的残差信号帧在多个频点处的频谱值；将与当前帧序的频点对应的第一频谱增益，与当前帧序的残差信号帧在频点处的频谱值进行融合，得到经第二回声消除处理的残差信号帧在频点处的频谱估计值。

具体地，当确定当前帧序的多个频点各自对应的第一频谱增益时，对于当前帧序的频点，终端可将与当前帧序的频点对应的第一频谱增益乘以当前帧序的残差信号帧在频点处的频谱值，得到经第二回声消除处理的残差信号帧在频点处的频谱估计值。其中，频谱值为频谱图中，频点所对应的幅值。相应的频谱估计为估计的幅值。

在其中一个实施例中，终端可通过下述公式，确定经第二回声消除处理的残差信号帧在频点处的频谱估计值：

其中，为与第帧的频点对应的第一频谱增益；为当前帧序的残差信号帧的频谱值。

在其中一个实施例中，参考图5，图5示出了一个实施例中第二回声消除处理的整体框架示意图。当上述的第二回声消除处理过程可称作一级后滤波过程，当得到当前帧序的残差信号帧和当前帧序的回声预测信号帧，即可基于一级后滤波模块来对当前帧序的残差信号帧进行第二回声消除处理。

在其中一个实施例中，参考图6，图6示出了另一个实施例中第二回声消除处理的整体框架示意图。当获取得到当前帧序的残差信号帧时，终端可对当前帧序的残差信号帧中的回声进行估计，得到残留回声信号，并基于残留回声信号确定后验信噪比。基于后验信噪比确定先验信噪比，从而基于先验信噪比确定第一频谱增益，基于所确定的第一频谱增益来得到去除了回声的增强音频。

在其中一个实施例中，第一频谱增益还可以采用包括但不限于频域维纳滤波增益计算、基于最小均方误差（MMSE）的增益计算、基于最大似然估计的增益计算等方式。

上述实施例中，通过对当前帧序的残差信号帧进行第二回声消除处理，可消除当前帧序的残差信号帧中的大部分回声。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度，包括多个互相关谱密度；确定频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度，包括：确定当前帧序的近端音频帧在多个频点处的频谱值；将经第二回声消除处理的当前帧序的残差信号帧在频点处的频谱估计值，与当前帧序的近端音频帧在频点处的频谱值进行融合，得到频谱估计数据与当前帧序的近端音频帧在频点处的初始互相关谱密度；对初始互相关谱密度进行平滑处理，得到频谱估计数据与当前帧序的近端音频帧在频点处的互相关谱密度。

具体地，当消除了当前帧序的残差信号帧中的大部分回声之后，也即得到经第二回声消除处理的残差信号帧之后，终端还可确定经第二回声消除处理的残差信号帧与当前帧序的近端音频帧之间的相关性，从而基于该相关性区分回声和近端音频，进而在进一步抑制残留回声的同时能较好的保留近端音频。

经第二回声消除处理的残差信号帧与当前帧序的近端音频帧之间的相关性具体可为频谱相关度。当需要确定经第二回声消除处理的残差信号帧与当前帧序的近端音频帧之间的相关性具体可为频谱相关度时，终端可确定当前帧序的近端音频帧在多个频点处的频谱值。对于多个频点中的每个频点，终端均按照下述方法进行处理。终端将当前帧序的近端音频帧在频点处的频谱值与当前帧序的近端音频帧在频点处的频谱值进行融合平滑处理，得到与当前帧序的频点对应的互相关谱密度，也即得到频谱估计数据与当前帧序的近端音频帧在频点处的互相关谱密度；综合当前帧序的各频点各自对应的互相关谱密度，得到经第二回声消除处理的残差信号帧的频谱估计数据与当前帧序的近端音频帧之间的频谱相关度。

在其中一个实施例中，终端可根据下述公式确定经第二回声消除处理的残差信号帧的频谱估计数据与当前帧序的近端音频帧之间在频点处的互相关谱密度，也即与当前帧序的频点对应的互相关谱密度：

其中，代表上述经第二回声消除处理的残差信号帧在频点处的频谱估计值的共轭复数；代表第帧近端音频帧在频点处的频谱值；c为平滑系数值。

在其中一个实施例中，根据频谱相关度对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧，包括：根据当前帧序的回声预测信号帧在多个频点处的频谱值，确定当前帧序的回声预测信号帧在多个频点处的自相关谱密度；根据当前帧序的近端音频帧在多个频点处的频谱值，确定当前帧序的近端音频帧在多个频点处的自相关谱密度；根据频谱相关度、当前帧序的回声预测信号帧在多个频点处的自相关谱密度、当前帧序的近端音频帧在多个频点处的自相关谱密度，对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

具体地，终端在得到频谱相关性之后，还可以基于加权维纳滤波频谱增益算法，并根据频谱相关性，确定加权维纳滤波频谱增益，从而基于加权维纳滤波频谱增益来对经第二回声消除处理的残差信号帧进行第三回声消除处理。当需要得到加权维纳滤波频谱增益时，终端可将确定当前帧序的回声预测信号帧在多个频点处的自相关谱密度，以及确定当前帧序的近端音频帧在多个频点处的自相关谱密度，并根据频谱相关性、当前帧序的回声预测信号帧在多个频点处的自相关谱密度、当前帧序的近端音频帧在多个频点处的自相关谱密度，确定多个频点各自对应的加权维纳滤波频谱增益，从而使得后续可基于多个频点各自对应的加权维纳滤波频谱增益，来对经第二回声消除处理的残差信号帧进行第三回声消除处理。

在其中一个实施例中，终端可通过下述公式确定第帧回声预测信号帧在频点处的自相关谱密度：

其中，为第帧回声预测信号帧在频点处频谱值；为第帧回声预测信号帧在频点处频谱值的共轭复数；c为平滑系数值。

在其中一个实施例中，终端可通过下述公式确定第帧近端音频帧在频点处的自相关谱密度：

其中，为第帧近端音频帧在频点处频谱值；为第帧近端音频帧在频点处频谱值的共轭复数；c为平滑系数值。

其中，谱密度表征信号在频域内每个频率分量的能量分布情况，通常表示为功率谱密度或能量谱密度。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度包括多个互相关谱密度；根据频谱相关度、当前帧序的回声预测信号帧在多个频点处的自相关谱密度、当前帧序的近端音频帧在多个频点处的自相关谱密度，对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧，包括：将当前帧序的回声预测信号帧在频点处的自相关谱密度，与当前帧序的近端音频信号帧在频点处的自相关谱密度进行融合，得到与当前帧序的频点对应的融合自相关密度谱；根据频谱估计数据与当前帧序的近端音频帧在频点处的互相关谱密度、和与当前帧序的频点对应的融合自相关密度谱，确定与当前帧序的频点对应的第二频谱增益；将与当前帧序的频点对应的第二频谱增益，与经第二回声消除处理的残差信号帧在频点处的频谱值进行融合，得到待生成的目标音频帧在频点处的频谱估计值；根据待生成的目标音频帧在多个频点处的频谱估计值，确定回声路径中消除了回声的目标音频帧。

具体地，终端可将当前帧序的回声预测信号帧在频点处的自相关谱密度，乘以当前帧序的近端音频信号帧在频点处的自相关谱密度，得到与当前帧序的频点对应的融合自相关密度谱，并将频谱估计数据与当前帧序的近端音频帧在频点处的互相关谱密度除以与当前帧序的频点对应的融合自相关密度谱，得到与当前帧序的频点对应的加权维纳滤波频谱增益，也即得到与当前帧序的频点对应的第二频谱增益。终端将与当前帧序的频点对应的第二频谱增益乘以经第二回声消除处理的残差信号帧在频点处的频谱值，得到待生成的目标音频帧在频点处的频谱估计值。当得到待生成的目标音频帧在各频点处的频谱估计值，便可对各频谱估计值进行傅里叶逆变换，从而得到目标音频帧。

在其中一个实施例中，终端可通过下述公式确定与第帧的频点对应的第二频谱增益：

其中，为与第帧的频点对应的互相关谱密度；为第帧回声预测信号帧在频点处的自相关谱密度；为第帧近端音频信号帧在频点处的自相关谱密度；g为常数。

在其中一个实施例中，终端可通过下述公式确定待生成的目标音频帧在频点处的频谱估计值；

其中，为与第帧的频点对应的第二频谱增益；为经第二回声消除处理的残差信号帧在频点处的频谱值。

在其中一个实施例中，参考图7，图7示出了一个实施例中第三回声消除处理的整体框架示意图。当上述的第三回声消除处理过程可称作二级后滤波过程，当得到经第二回声消除处理的当前帧序的残差信号帧时，即可基于二级后滤波模块来对经第二回声消除处理的当前帧序的残差信号帧进行进一步地回声消除处理。

在其中一个实施例中，参考图8，图8示出了另一个实施例中第三回声消除处理的整体框架示意图。当获取得到经第二回声消除处理的当前帧序的残差信号帧时，终端可对经第二回声消除处理的当前帧序的残差信号帧与当前帧序的近端音频帧进行相关性估计，并基于估计的相关性确定第二频谱增益，基于所确定的第二频谱增益来得到去除了回声的目标音频。

上述实施例中，通过确定当前帧序的各频点各自对应的融合自相关密度谱、当前帧序的各频点各自对应的互相关谱密度，可基于融合自相关密度谱和互相关谱密度准确确定第二频谱增益，从而可基于第二频谱增益去除回声。由于本申请可进行三次回声消除处理，因此，本申请可大大消除近端音频中的回声，从而使得远端用户可以接收到纯净的无回声的音频，如此，大大提升了通话质量。

在其中一个实施例中，在计算二级后滤波模块实施例中，除了考虑第帧近端音频帧的频谱值和第帧经第二回声消除处理的残差信号帧的频谱值的相关性（又称作互相关谱密度）之外，还可以考虑第帧近端音频帧的频谱值和第帧远端音频帧的频谱值之间的相关性（又称作互相关谱密度），进而综合决定第二频谱增益。比如将和的相关和和之间的相关进行加权求和，以得到最终的与第帧的频点对应的互相关谱密度，从而基于该最终的互相关谱密度来确定第二频谱增益。

在其中一个实施中，参考图9，提供了一个具体实施例中回声消除方法：

步骤902，获取当前帧序的回声预测信号帧和残差信号帧。

步骤904，确定位于当前帧序的回声预测信号帧之前的前一个回声预测信号帧；确定当前帧序的回声预测信号帧在多个频点处的功率谱，以及确定前一个回声预测信号帧在多个频点处的功率谱；根据当前帧序的回声预测信号帧在多个频点处的功率谱和前一个回声预测信号帧在多个频点处的功率谱，确定当前帧序的回声预测信号帧在多个频点处的差分功率谱。

步骤906，确定位于当前帧序的残差信号帧之前的前一个残差信号帧；确定当前帧序的残差信号帧在多个频点处的功率谱，以及确定前一个残差信号帧在多个频点处的功率谱；根据当前帧序的残差信号帧在多个频点处的功率谱与前一个残差信号帧在多个频点处的功率谱，确定当前帧序的残差信号帧在多个频点处的差分功率谱。

步骤908，根据当前帧序的回声预测信号帧在多个频点处的差分功率谱和当前帧序的残差信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧在多个频点处的互相关谱；每个互相关谱表征当前帧序的回声预测信号帧与当前帧序的残差信号帧在相应频点处的相关度。

步骤910，根据当前帧序的回声预测信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧在多个频点处的自相关谱；根据当前帧序的回声预测信号帧中的多个频点各自对应的互相关谱及当前帧序的回声预测信号帧在多个频点处的自相关谱，确定回声泄露系数。

步骤912，根据回声泄露系数和当前帧序的回声预测信号帧在多个频点处的能量，确定当前帧序的残差信号帧中的残留回声信号在多个频点处的功率谱。

步骤914，根据残留回声信号在多个频点处的功率谱，确定当前帧序的多个频点各自对应的第一频谱增益；根据当前帧序的多个频点各自对应的第一频谱增益，对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据。

步骤916，确定当前帧序的近端音频帧，并确定频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度。

步骤918，根据当前帧序的回声预测信号帧在多个频点处的频谱值，确定当前帧序的回声预测信号帧在多个频点处的自相关谱密度；根据当前帧序的近端音频帧在多个频点处的频谱值，确定当前帧序的近端音频帧在多个频点处的自相关谱密度。

步骤920，根据频谱相关度、当前帧序的回声预测信号帧在多个频点处的自相关谱密度、当前帧序的近端音频帧在多个频点处的自相关谱密度，对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到目标音频帧。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供一种应用场景，该应用场景应用上述的回声消除方法。具体地，该回声消除方法在该应用场景的应用如下：

当远端用户通过第二终端中的即时通信应用与近端用户进行语音通信时，第二终端即可将远端用户的音频发送至近端用户的第一终端，从而第一终端可基于接收到的远端音频帧预测得到回声预测信号帧。第一终端可通过本机中的音频接收器采集得到近端音频帧，并基于近端音频帧和回声预测信号帧，通过上述回声消除方法对近端音频帧中的回声进行消除，得到目标音频帧，之后，将目标音频帧发送至第二终端，以使远端用户能够接收到消除了回声的音频，大大提升了语音通话的通话质量。

本申请还提供另一种应用场景，该应用场景应用上述的回声消除方法。具体地，该回声消除方法在该应用场景的应用如下：

当多个远端用户通过各自的第二终端与近端用户进行语音会议时，第二终端可将远端用户的音频发送至近端用户的第一终端，从而第一终端可对远端用户的音频进行播放，在播放的过程中，近端用户也可能处于发言状态，因此，第一终端中的话筒可能采集到包括有远端用户语音以及近端用户语音的近端音频。第一终端可按照上述方式，对近端音频中的远端用户的语音进行消除，以得到仅包括近端用户语音的目标音频，并将目标音频发送至各第二终端。如此，各第二终端的喇叭便可对仅包含近端用户语音的目标音频进行播放，从而实现远端用户与近端用户之间的语音会议。由于远端用户接到的是消除了回声的目标音频，因此，减少了远端用户因收听到自身的语音而导致语音通话质量不佳的概率，进而大大提升了语音会议的会议质量。

上述应用场景仅为示意性的说明，可以理解，本申请各实施例所提供的回声消除方法的应用不局限于上述场景。例如，不限于是基于即时通信应用的音频通话、视频通话等等。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的回声消除方法的回声消除装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个回声消除装置实施例中的具体限定可以参见上文中对于回声消除方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种回声消除装置1000，包括：信号帧获取模块1002、回声泄露系数确定模块1004和目标音频帧生成模块1006，其中：

信号帧获取模块1002，用于获取当前帧序的回声预测信号帧和残差信号帧；回声预测信号帧，是基于传输至音频播放器的远端音频帧预测得到的声学回声信号帧；残差信号帧，是对音频接收器采集环境声得到的近端音频帧进行第一回声消除处理得到的信号帧，环境声包括音频播放器播放形成的声音。

回声泄露系数确定模块1004，用于根据当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及当前帧序的残差信号帧在多个频点处的差分功率谱，确定回声泄露系数；每种差分功率谱，表征相邻两帧信号帧在相应频点处的功率谱之间的差异；回声泄露系数表征进行第一回声消除处理过程中回声被消除的程度。

目标音频帧生成模块1006，用于根据回声泄露系数对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据；确定当前帧序的近端音频帧，并确定频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度；根据频谱相关度对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

在其中一个实施例中，参考图11，回声泄露系数确定模块1004还包括差分功率谱确定模块1041，用于确定位于当前帧序的回声预测信号帧之前的前一个回声预测信号帧；确定多个频点；多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；确定当前帧序的回声预测信号帧在频点处的功率谱，以及确定前一个回声预测信号帧在频点处的功率谱；根据当前帧序的回声预测信号帧在频点处的功率谱与前一个回声预测信号帧在频点处的功率谱之间的差异，确定当前帧序的回声预测信号帧在频点处的差分功率谱。

在其中一个实施例中，差分功率谱确定模块1041还用于确定位于当前帧序的残差信号帧之前的前一个残差信号帧；确定多个频点；多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；确定当前帧序的残差信号帧在频点处的功率谱，以及确定前一个残差信号帧在频点处的功率谱；根据当前帧序的残差信号帧在频点处的功率谱与前一个残差信号帧在频点处的功率谱之间的差异，确定当前帧序的残差信号帧在频点处的差分功率谱。

在其中一个实施例中，回声泄露系数确定模块1004还包括系数确定模块1042，用于根据当前帧序的回声预测信号帧在多个频点处的差分功率谱和当前帧序的残差信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧在多个频点处的互相关谱；每个互相关谱表征当前帧序的回声预测信号帧与当前帧序的残差信号帧在相应频点处的相关度；根据当前帧序的回声预测信号帧在多个频点处的差分功率谱，确定当前帧序的回声预测信号帧在多个频点处的自相关谱；自相关谱表征当前帧序的回声信号帧在相应频点处的能量；根据当前帧序的回声预测信号帧在多个频点处的互相关谱及当前帧序的回声预测信号帧在多个频点处的自相关谱，确定回声泄露系数。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；系数确定模块1042还用于将当前帧序的回声预测信号帧在频点处的功率谱与当前帧序的残差信号帧在频点处的功率谱进行融合，得到当前帧序的回声预测信号帧与当前帧序的残差信号帧在频点处的初始互相关谱；获取前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱，及获取与当前帧序的回声预测信号帧对应的平滑系数值；根据平滑系数值，以及前一个回声预测信号帧与前一个残差信号帧在频点处的互相关谱，对初始互相关谱进行平滑处理，得到当前帧序的回声预测信号帧与当前帧序的残差信号帧在频点处的互相关谱。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；系数确定模块1042还用于将当前帧序的回声预测信号帧在频点处的功率谱与当前帧序的回声预测信号帧在频点处的功率谱进行融合，得到当前帧序的回声预测信号帧在频点处的初始自相关谱；获取前一个回声预测信号帧在频点处的自相关谱，以及获取与当前帧序的回声预测信号帧对应的平滑系数值；根据平滑系数值和前一个回声预测信号帧在频点处的自相关谱，对初始自相关谱进行平滑处理，得到当前帧序的回声预测信号帧在频点处的自相关谱。

在其中一个实施例中，系数确定模块1042还用于确定当前帧序的回声预测信号帧的第一能量，以及确定当前帧序的残差信号帧的第二能量；确定第一能量与第二能量的能量比值；在能量比值小于预设能量比值阈值的情况下，将能量比值与预设的回声泄露系数的学习率进行融合，得到与当前帧序的回声预测信号帧对应的平滑系数值；在能量比值大于或等于预设能量比值阈值的情况下，将预设能量比值阈值与预设的回声泄露系数的学习率进行融合，得到与当前帧序的回声预测信号帧对应的平滑系数值。

在其中一个实施例中，系数确定模块1042还用于将当前帧序的回声预测信号帧在多个频点处的互相关谱进行叠加，得到与当前帧序的回声预测信号帧对应的叠加互相关谱；将当前帧序的回声预测信号帧在多个频点处的自相关谱进行叠加，得到与当前帧序的回声预测信号帧对应的叠加自相关谱；将叠加互相关谱与叠加自相关谱的比值，作为回声泄露系数。

在其中一个实施例中，目标音频帧生成模块1006还包括第二回声消除模块1061，用于根据回声泄露系数和当前帧序的回声预测信号帧在多个频点处的能量，确定当前帧序的残差信号帧中的残留回声信号在多个频点处的功率谱；根据残留回声信号在多个频点处的功率谱，确定当前帧序的多个频点各自对应的第一频谱增益；根据当前帧序的多个频点各自对应的第一频谱增益，对当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；第二回声消除模块1061还用于确定当前帧序的近端音频帧，并确定当前帧序的近端音频帧在频点处的功率谱；根据当前帧序的近端音频帧在频点处的功率谱，以及残留回声信号在频点处的功率谱，确定与当前帧序的频点对应的后验信噪比；根据与当前帧序的频点对应的后验信噪比和预设的估计阈值，确定与当前帧序的频点对应的先验信噪比；根据与当前帧序的频点对应的先验信噪比，确定与当前帧序的频点对应的第一频谱增益。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；频谱相关度包括频谱包括多个互相关谱密度；第二回声消除模块1061还用于确定当前帧序的残差信号帧在多个频点处的频谱值；将与当前帧序的频点对应的第一频谱增益，与当前帧序的残差信号帧在频点处的频谱值进行融合，得到经第二回声消除处理的残差信号帧在频点处的频谱估计值。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度，包括当前帧序的多个频点各自对应的互相关谱密度；目标音频帧生成模块1006还包括第三回声消除模块1062，用于确定当前帧序的近端音频帧在多个频点处的频谱值；将经第二回声消除处理的当前帧序的残差信号帧在频点处的频谱估计值，与当前帧序的近端音频帧在频点处的频谱值进行融合，得到频谱估计数据与当前帧序的近端音频帧在频点处的初始互相关谱密度；对初始互相关谱密度进行平滑处理，得到频谱估计数据与当前帧序的近端音频帧在频点处的互相关谱密度。

在其中一个实施例中，第三回声消除模块1062还用于根据当前帧序的回声预测信号帧在多个频点处的频谱值，确定当前帧序的回声预测信号帧在多个频点处的自相关谱密度；根据当前帧序的近端音频帧在多个频点处的频谱值，确定当前帧序的近端音频帧在多个频点处的自相关谱密度；根据频谱相关度、当前帧序的回声预测信号帧在多个频点处的自相关谱密度、当前帧序的近端音频帧在多个频点处的自相关谱密度，对经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

在其中一个实施例中，多个频点包括频点，i为小于或等于M的正整数，M为多个频点的总数；频谱估计数据与当前帧序的近端音频帧的频谱之间的频谱相关度，包括当前帧序的多个频点各自对应的互相关谱密度；第三回声消除模块1062还用于将当前帧序的回声预测信号帧在频点处的自相关谱密度，与当前帧序的近端音频信号帧在频点处的自相关谱密度进行融合，得到与当前帧序的频点对应的融合自相关密度谱；根据频谱估计数据与当前帧序的近端音频帧在频点处的互相关谱密度，以及与当前帧序的频点对应的融合自相关密度谱，确定与当前帧序的频点对应的第二频谱增益；将与当前帧序的频点对应的第二频谱增益，与经第二回声消除处理的残差信号帧在频点处的频谱值进行融合，得到待生成的目标音频帧在频点处的频谱估计值；根据待生成的目标音频帧在多个频点处的频谱估计值，确定回声路径中消除了回声的目标音频帧。

上述回声消除装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种回声消除方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种回声消除方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述当前帧序的回声预测信号帧在多个频点处的差分功率谱的确定步骤包括：

确定位于所述当前帧序的回声预测信号帧之前的前一个回声预测信号帧；

确定多个频点；所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；

确定所述当前帧序的回声预测信号帧在所述频点处的功率谱，以及确定所述前一个回声预测信号帧在所述频点/>处的功率谱；

根据所述当前帧序的回声预测信号帧在所述频点处的功率谱与所述前一个回声预测信号帧在所述频点/>处的功率谱之间的差异，确定所述当前帧序的回声预测信号帧在所述频点/>处的差分功率谱。

3.根据权利要求1所述的方法，其特征在于，所述当前帧序的残差信号帧在多个频点处的差分功率谱的确定步骤包括：

确定位于所述当前帧序的残差信号帧之前的前一个残差信号帧；

确定所述当前帧序的残差信号帧在所述频点处的功率谱，以及确定所述前一个残差信号帧在所述频点/>处的功率谱；

根据所述当前帧序的残差信号帧在所述频点处的功率谱与所述前一个残差信号帧在所述频点/>处的功率谱之间的差异，确定所述当前帧序的残差信号帧在所述频点/>处的差分功率谱。

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前帧序的回声预测信号帧在多个频点处的差分功率谱，以及所述当前帧序的残差信号帧在所述多个频点处的差分功率谱，确定回声泄露系数，包括：

根据所述当前帧序的回声预测信号帧在所述多个频点处的差分功率谱和所述当前帧序的残差信号帧在所述多个频点处的差分功率谱，确定所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述多个频点处的互相关谱；每个所述互相关谱，表征所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在相应频点处的相关度；

根据所述当前帧序的回声预测信号帧在所述多个频点处的差分功率谱，确定所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱；每个所述自相关谱表征当前帧序的回声信号帧在相应频点处的能量；

根据所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述多个频点处的互相关谱，以及所述当前帧序的回声预测信号帧在多个频点处的自相关谱，确定回声泄露系数。

5.根据权利要求4所述的方法，其特征在于，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；

所述根据所述当前帧序的回声预测信号帧在所述多个频点处的差分功率谱和所述当前帧序的残差信号帧在所述多个频点处的差分功率谱，确定所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述多个频点处的互相关谱，包括：

将所述当前帧序的回声预测信号帧在所述频点处的功率谱与所述当前帧序的残差信号帧在所述频点/>处的功率谱进行融合，得到所述当前帧序的回声预测信号帧与当前帧序的残差信号帧在所述频点/>处的初始互相关谱；

获取前一个回声预测信号帧与前一个残差信号帧在所述频点处的互相关谱，及获取与所述当前帧序的回声预测信号帧对应的平滑系数值；

根据所述平滑系数值，以及所述前一个回声预测信号帧与前一个残差信号帧在所述频点处的互相关谱，对所述初始互相关谱进行平滑处理，得到所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述频点/>处的互相关谱。

6.根据权利要求4所述的方法，其特征在于，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述根据所述当前帧序的回声预测信号帧在所述多个频点处的差分功率谱，确定所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱，包括：

将所述当前帧序的回声预测信号帧在所述频点处的功率谱与所述当前帧序的回声预测信号帧在所述频点/>处的功率谱进行融合，得到所述当前帧序的回声预测信号帧在所述频点/>处的初始自相关谱；

获取前一个回声预测信号帧在所述频点处的自相关谱，以及获取与所述当前帧序的回声预测信号帧对应的平滑系数值；

根据所述平滑系数值和所述前一个回声预测信号帧在所述频点处的自相关谱，对所述初始自相关谱进行平滑处理，得到所述当前帧序的回声预测信号帧在所述频点/>处的自相关谱。

7.根据权利要求5至6任一项所述的方法，其特征在于，与所述当前帧序的回声预测信号帧对应的平滑系数值的确定步骤包括：

确定所述当前帧序的回声预测信号帧的第一能量，以及确定所述当前帧序的残差信号帧的第二能量；

确定所述第一能量与所述第二能量的能量比值；

在所述能量比值小于预设能量比值阈值的情况下，将所述能量比值与预设的回声泄露系数的学习率进行融合，得到与所述当前帧序的回声预测信号帧对应的平滑系数值；

在所述能量比值大于或等于所述预设能量比值阈值的情况下，将所述预设能量比值阈值与所述预设的回声泄露系数的学习率进行融合，得到与所述当前帧序的回声预测信号帧对应的平滑系数值。

8.根据权利要求4所述的方法，其特征在于，所述根据所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述多个频点处的互相关谱，以及所述当前帧序的回声预测信号帧在多个频点处的自相关谱，确定回声泄露系数，包括：

将所述当前帧序的回声预测信号帧与所述当前帧序的残差信号帧在所述多个频点处的互相关谱进行叠加，得到与所述当前帧序的回声预测信号帧对应的叠加互相关谱；

将所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱进行叠加，得到与所述当前帧序的回声预测信号帧对应的叠加自相关谱；

将所述叠加互相关谱与所述叠加自相关谱的比值，作为回声泄露系数。

9.根据权利要求1所述的方法，其特征在于，所述根据所述回声泄露系数对所述当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据，包括：

根据所述回声泄露系数和所述当前帧序的回声预测信号帧在所述多个频点处的能量，确定所述当前帧序的残差信号帧中的残留回声信号在所述多个频点处的功率谱；

根据所述残留回声信号在所述多个频点处的功率谱，确定当前帧序的所述多个频点各自对应的第一频谱增益；

根据当前帧序的所述多个频点各自对应的第一频谱增益，对所述当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据。

10.根据权利要求9所述的方法，其特征在于，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；

所述根据所述残留回声信号在所述多个频点处的功率谱，确定当前帧序的所述多个频点各自对应的第一频谱增益，包括：

确定当前帧序的近端音频帧，并确定所述当前帧序的近端音频帧在所述频点处的功率谱；

根据所述当前帧序的近端音频帧在所述频点处的功率谱，以及所述残留回声信号在频点/>处的功率谱，确定与当前帧序的频点/>对应的后验信噪比；

根据与所述当前帧序的频点对应的后验信噪比和预设的估计阈值，确定与所述当前帧序的频点/>对应的先验信噪比；

根据与所述当前帧序的频点对应的先验信噪比，确定与所述当前帧序的频点/>对应的第一频谱增益。

11.根据权利要求9所述的方法，其特征在于，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；

所述经第二回声消除处理的当前帧序的残差信号帧的频谱估计数据，包括所述经第二回声消除处理的当前帧序的残差信号帧在所述多个频点各自对应的频谱估计值；

所述根据当前帧序的所述多个频点各自对应的第一频谱增益，对所述当前帧序的残差信号帧进行第二回声消除处理，得到经第二回声消除处理的残差信号帧的频谱估计数据，包括：

确定所述当前帧序的残差信号帧在所述多个频点处的频谱值；

将与所述当前帧序的频点对应的第一频谱增益，与所述当前帧序的残差信号帧在频点/>处的频谱值进行融合，得到经第二回声消除处理的残差信号帧在所述频点/>处的频谱估计值。

12.根据权利要求1所述的方法，其特征在于，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述频谱估计数据与所述当前帧序的近端音频帧的频谱之间的频谱相关度包括多个互相关谱密度；

所述确定所述频谱估计数据与所述当前帧序的近端音频帧的频谱之间的频谱相关度，包括：

确定所述当前帧序的近端音频帧在所述多个频点处的频谱值；

将所述经第二回声消除处理的当前帧序的残差信号帧在频点处的频谱估计值，与所述当前帧序的近端音频帧在所述频点/>处的频谱值进行融合，得到所述频谱估计数据与所述当前帧序的近端音频帧在频点/>处的初始互相关谱密度；

对所述初始互相关谱密度进行平滑处理，得到所述频谱估计数据与所述当前帧序的近端音频帧在频点处的互相关谱密度。

13.根据权利要求1所述的方法，其特征在于，所述根据所述频谱相关度对所述经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧，包括：

根据所述当前帧序的回声预测信号帧在所述多个频点处的频谱值，确定所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱密度；

根据所述当前帧序的近端音频帧在所述多个频点处的频谱值，确定所述当前帧序的近端音频帧在所述多个频点处的自相关谱密度；

根据所述频谱相关度、所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱密度、所述当前帧序的近端音频帧在所述多个频点处的自相关谱密度，对所述经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧。

14.根据权利要求13所述的方法，其特征在于，所述多个频点包括频点，i为小于或等于M的正整数，M为所述多个频点的总数；所述频谱相关度包括多个互相关谱密度；

所述根据所述频谱相关度、所述当前帧序的回声预测信号帧在所述多个频点处的自相关谱密度、所述当前帧序的近端音频帧在所述多个频点处的自相关谱密度，对所述经第二回声消除处理的残差信号帧进行第三回声消除处理，得到消除了回声的目标音频帧，包括：

将所述当前帧序的回声预测信号帧在所述频点处的自相关谱密度，与所述当前帧序的近端音频信号帧在所述频点/>处的自相关谱密度进行融合，得到与所述当前帧序的频点对应的融合自相关密度谱；

根据所述频谱估计数据与所述当前帧序的近端音频帧在所述频点处的互相关谱密度，以及与所述当前帧序的频点/>对应的融合自相关密度谱，确定与当前帧序的频点/>对应的第二频谱增益；

将所述与当前帧序的频点对应的第二频谱增益，与所述经第二回声消除处理的残差信号帧在频点/>处的频谱值进行融合，得到待生成的目标音频帧在频点/>处的频谱估计值；

根据待生成的目标音频帧在所述多个频点处的频谱估计值，确定所述回声路径中消除了回声的目标音频帧。

15.一种回声消除装置，其特征在于，所述装置包括：

16.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

18.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。