CN113724722A

CN113724722A - 回声延迟估计方法、装置、存储介质和计算设备

Info

Publication number: CN113724722A
Application number: CN202110951190.5A
Authority: CN
Inventors: 骆耀东; 阮良; 陈功; 陈丽
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-11-30
Anticipated expiration: 2041-08-18
Also published as: CN113724722B

Abstract

本公开的实施方式提供了一种回声延迟估计方法，该方法包括：获取音频数据流中的目标音频帧，以及所述目标音频帧之前的多个音频帧的回声延迟；针对所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧对应的第一待输出回声延迟；其中，所述待输出回声延迟，为表征所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值；基于与所述目标音频帧对应的第一待输出回声延迟，为所述目标音频帧确定回声延迟。

Description

回声延迟估计方法、装置、存储介质和计算设备

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及一种回声延迟估计方法、装置、存储介质以及计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在RTC(Real-Time Communication)实时通讯场景中，远端(说话端)的音频信号在近端(受话端)常常存在反馈路径，导致近端采集到的音频信号经过网络传输后会传回远端，使得远端说话者能够听到自身的说话声，严重影响实时通讯场景的音频体验。

回声消除(AEC，Acoustic Echo Cancellation)技术，是一种在实时通讯场景中，消除回声的技术。利用回声消除技术在进行回声消除处理时，能够处理的回声延迟的数值范围(通常用毫秒计数)通常是有限的，只能够有效处理处于一定数值范围内的回声延迟。当回声延迟的数值过大时则会对回声消除处理的性能造成极大地减弱。因此，在采用回声消除技术消除音频信号的回声之前，准确估计出音频信号的回声延迟，则变的非常有意义。

发明内容

在本公开实施方式的第一方面中，提供了一种回声延迟估计方法，包括：

获取音频数据流中的目标音频帧，以及所述目标音频帧之前的多个音频帧的回声延迟；

针对所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧对应的第一待输出回声延迟；其中，所述待输出回声延迟，为表征所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值；

基于与所述目标音频帧对应的待输出回声延迟，为所述目标音频帧确定回声延迟。

在本公开的一个实施例中，所述方法还包括：

针对所述目标音频帧的上一音频帧和所述上一音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧的上一音频帧对应的第二待输出回声延迟。

在本公开的一个实施例中，针对所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧对应的第一待输出回声延迟，包括：

统计所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟对应的回声延迟数值中，各个回声延迟数值的出现次数，并将出现次数最多的第一回声延迟数值对应的回声延迟，确定为与所述目标音频帧对应的第一待输出回声延迟；

针对所述目标音频帧的上一音频帧和所述上一音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧的上一音频帧对应的第二待输出回声延迟，包括：

统计所述目标音频帧的上一音频帧和所述上一音频帧之前的多个音频帧的回声延迟对应的回声延迟数值中，各个回声延迟数值的出现次数，并将出现次数最多的第二回声延迟数值对应的回声延迟，确定为与所述目标音频帧的上一音频帧对应的第二待输出回声延迟。

在本公开的一个实施例中，基于与所述目标音频帧对应的待输出回声延迟，为所述目标音频帧确定回声延迟，包括：

确定与所述第一回声延迟数值对应的第一出现次数是否大于与所述第二回声延迟数值对应的第二出现次数；

如果所述第一出现次数大于所述第二出现次数，将所述第一待输出回声延迟，确定为与所述目标音频帧对应的回声延迟；

如果所述第一出现次数不大于所述第二出现次数，将所述第二待输出回声延迟，确定为与所述目标音频帧对应的回声延迟。

在本公开的一个实施例中，如果所述第一出现次数大于所述第二出现次数，将所述第一待输出回声延迟，确定为与所述目标音频帧对应的回声延迟，包括：

如果所述第一出现次数大于所述第二出现次数，进一步确定所述第一回声延迟数值是否大于预设的有效阈值；如果是，将所述第一待输出回声延迟，确定为与所述目标音频帧对应的回声延迟。

在本公开的一个实施例中，所述预设的有效阈值为隶属于预设的有效阈值区间中的阈值；其中，所述音频数据流中的各个音频帧分别对应所述有效阈值区间中不同的有效阈值；所述音频数据流中的各个音频帧对应的有效阈值的数值大小依次递增。

在本公开的一个实施例中，所述回声延迟包括声学回声延迟；所述有效阈值区间包括基于所述音频数据流对应的播放空间的混响效果预估出的声学回声延迟的数值范围。

在本公开的一个实施例中，所述方法还包括：

在预设的存储空间中缓存所述第二出现次数；

确定所述第一回声延迟数值对应的第一出现次数是否大于所述第二回声延迟数值对应的第二出现次数，包括：

读取所述预设的存储空间中缓存的所述第二出现次数；

将所述第一回声延迟数值对应的第一出现次数与读取到的所述第二出现次数进行比较，以确定所述第一回声延迟数值对应的第一出现次数是否大于所述第二回声延迟数值对应的第二出现次数。

在本公开的一个实施例中，所述方法还包括：

如果所述第一出现次数大于所述第二出现次数，将所述预设的存储空间中缓存的所述第二出现次数更新为所述第一出现次数。

在本公开的一个实施例中，所述方法还包括：

响应于为所述目标音频帧确定出的回声延迟，基于确定出的回声延迟对所述目标音频帧进行回声消除处理。在本公开实施方式的第二方面中，提供一种回声延迟估计装置，包括：

获取模块，获取音频数据流中的目标音频帧，以及所述目标音频帧之前的多个音频帧的回声延迟；

统计模块，针对所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧对应的第一待输出回声延迟；其中，所述待输出回声延迟，为表征所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值；

确定模块，基于与所述目标音频帧对应的待输出回声延迟，为所述目标音频帧确定回声延迟。

在本公开的一个实施例中，所述获取模块进一步：

在本公开的一个实施例中，统计模块：

在本公开的一个实施例中，所述确定模块：

在本公开的一个实施例中，所述确定模块进一步：

在本公开的一个实施例中，所述预设的有效阈值为隶属于预设的有效阈值区间的阈值；其中，所述音频数据流中的各个音频帧分别对应隶属于所述有效阈值区间的不同有效阈值；所述音频数据流中的各个音频帧对应的有效阈值的数值大小依次递增。

在本公开的一个实施例中，所述装置还包括：

缓存模块，在预设的存储空间中缓存所述第二出现次数；

所述确定模块进一步：

读取所述预设的存储空间中缓存的所述第二出现次数；

在本公开的一个实施例中，所述装置还包括：

更新模块，如果所述第一出现次数大于所述第二出现次数，将所述预设的存储空间中缓存的所述第二出现次数更新为所述第一出现次数。

在本公开的一个实施例中，所述装置还包括：

消除模块，响应于为所述目标音频帧确定出的回声延迟，基于确定出的回声延迟对所述目标音频帧进行回声消除处理。

在本公开以上的实施方式，至少具有如下的有益效果：

通过对目标音频帧，以及目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到一个能够表征该目标音频帧和该目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值，再基于该稳定性数值为该目标音频帧确定回声延迟，可以避免由于目标音频帧以及目标音频帧之前的多个音频帧的回声延迟存在波动，而导致估计出的回声延迟偏离实际水平，进而可以提高回声延迟估计的准确度和鲁棒性。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开实施方式的一种回声延迟估计方法的流程图；

图2示意性地示出了根据本公开实施方式的另一种回声延迟估计方法的流程图；

图3示意性地示出了根据本公开实施方式的一种回声延迟估计装置的框图；

图4示意性地示出了根据本公开实施方式的一种计算设备的硬件架构图；

图5示意性地示出了根据本公开实施方式的一种应用于回声延迟估计方法的软件产品的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种回声延迟估计方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的术语表示如下：

RTC：Real-Time Communication的缩写，是指实时通讯，一种在用户终端之间进行实时的信息收发的通讯方式。

AEC：Acoustic Echo Cancellation的缩写，是指回声消除技术，一种用于消除在实时通信系统中的回声(Echo)信号的技术；例如，常见的回声消除技术包括基于自适应滤波器的回声消除技术。

近端信号：是指实时通讯过程中，受话端的音频输入设备采集到的音频信号。

远端信号：是指实时通讯过程中，说话端通过网络传输至受话端的音频信号。

回声：是指实时通讯过程中，因回声路径的存在，导致受话端采集到与远端信号相关的音频信号，而造成的远端说话者能够听到自身的说话声的回声效果。

其中，实时通讯过程中的回声，按照成因，通常分为声学回声和电学回声。声学回声，是指当受话端和说话端位于同一个播放空间时，由于播放空间自身存在的混响效果，导致受话端的麦克风采集到的说话端扬声器播放的音频信号造成的回声。而电学回声，是指受话端和说话端之间在进行远程的实时通讯时，由于音频信号的传输电路中存在阻抗不匹配的问题，而引起的电路回声。

回声延迟：近端信号与远端信号的时间延迟。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

应用场景总览

基于自适应滤波器的回声消除技术，是一种常用的回声消除技术手段。自适应回声消除的基本思想是，通过自适应滤波器估计回音路径的特征参数，产生一个模拟的回音路径，得出该模拟的回音路径的模拟回音信号，再从接收到的音频信号中减去该模拟回音信号，实现回音抵消。

采用基于自适应滤波器的回声消除技术，虽然对于回声消除有良好的效果，但自适应滤波器能够处理的数值范围通常是有限的，只能够有效处理处于一定数值范围内的回声延迟。当回声延迟的数值过大时则会对回声消除处理的性能造成极大地减弱。

因此，在实际应用中，在基于自适应滤波器进行回声消除处理之前，通常需要预先估计出音频信号的回声延迟，再基于估计出的回声延迟对远端音频信号与近端音频信号进行一次时间对齐，将远端音频信号与近端音频信号的回声延迟降低到一个小的数值范围之内，然后再基于自适应滤波器对音频信号进行回声消除，从而可以最大程度的避免回声延迟的数值过大对自适应滤波器的回声消除处理的性能造成削弱。

可见，在回声消除的应用场景中，提前预估出回声延迟的数值范围，有助于提升回声消除处理的性能。

发明概述

目前业界通用的回声延迟估计的方案，存在输出的回声延迟上下波动，偏离实际水平的问题。

有鉴于此，本公开在业界通用的回声延迟估计的方案的基础上，提供一种能够确保输出的回声延迟始终处于一个稳定的水平的回声延迟估计方案。

本说明书的核心技术构思在于：

在业界通用的回声延迟估计的方案的基础上，引入针对音频帧的统计分析机制，在采用业界通用的回声延迟估计方案估计出音频数据流中的目标音频帧的回声延迟后，通过对该目标音频帧和该目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到一个能够表征该目标音频帧和该目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值，再基于该稳定性数值来为该目标音频帧确定最终的回声延迟。

通过这种方式，可以避免由于目标音频帧以及目标音频帧之前的多个音频帧的回声延迟存在波动，而导致估计出的回声延迟偏离实际水平，进而可以提高回声延迟估计的准确度和鲁棒性。

示例性方法

下面将通过具体的实施例对本说明书的技术构思进行详细描述。

请参见图1，图1是一示例性实施例提供的一种回声延迟估计方法的流程图。所述方法可以应用于音频播放设备；例如，以下示出的步骤可以以软件的形式运行在音频播放设备上，来对该音频播放设备在用户的实时通讯过程中所播放的音频数据流中的音频帧进行回归延迟估计处理。

所述方法执行以下步骤：

步骤101，获取音频数据流中的目标音频帧，以及所述目标音频帧之前的多个音频帧的回声延迟。

在音频播放设备上，可以搭载用于对音频数据流进行回声延迟处理的算法软件。当用户在进行实时通讯过程中，音频播放设备可以通过搭载的上述算法软件，对播放的音频数据流中的音频帧实时的进行回声延迟估计，并基于估计出的回声延迟，实时的进行回声消除，从而确保用户在实时通讯过程中，能够得到一个良好的音频通话效果。

音频播放设备通过搭载的算法软件，估计出音频数据流中的目标音频帧的回声延迟后，可以获取算法软件输出的该目标音频帧的回声延迟，以及该目标音频帧之前的M个音频帧的回声延迟。

步骤102，针对所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧对应的第一待输出回声延迟；其中，所述待输出回声延迟，为表征所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值；

在获取到目标音频帧和目标音频帧之前的M个音频帧的回声延迟之后，可以进一步针对该目标音频帧和该目标音频帧之前的M个音频帧的回声延迟进行统计分析，得到一个与上述目标音频帧对应的待输出的回声延迟。

相应的，在针对目标音频帧的上一音频帧进行回声延迟估计时，具体也可以获取该目标音频帧的上一音频帧和该上一音频帧之前的M个音频帧的回声延迟，并针对该上一音频帧和该上一音频帧之前的M个音频帧的回声延迟进行统计分析，得到一个与上述目标音频帧的上一音频帧对应的待输出的回声延迟。

其中，需要说明的是，上述待输出的回声延迟，具体可以是一个采用统计学的方法统计出的，能够表征连续的若干音频帧的回声延迟处于稳定性水平的稳定性数值，在本公开中不进行特别限定。

在示出的一种实施方式中，上述稳定性数值，具体可以是连续的若干音频帧的回声延迟对应的回声延迟数值中，出现次数最多的回声延迟数值。当然，除了可以是连续的若干音频帧的回声延迟对应的回声延迟数值中，出现次数最多的回声延迟数值以外，在实际应用中，具体也可以是其他类型的统计指标；例如，可以是该连续的若干音频帧的回声延迟对应的回声延迟数值的平均值，在本公开中不再一一列举

步骤103，基于与所述目标音频帧对应的第一待输出回声延迟，为所述目标音频帧确定回声延迟。

在基于与上述目标音频帧对应的第一待输出回声延迟，为上述目标音频帧确定回声延迟时，具体可以直接将该第一待输出回声延迟设置为该目标音频帧的回声延迟，也可以将该第一待输出回声延迟作为参数，为该目标音频帧计算出一个回声延迟，再将计算出的该回声延迟确定为该目标音频帧的回声延迟。

在示出的一种实施方式中，可以通过将统计出的与上述目标音频帧的第一待输出回声延迟对应的第一回声延迟数值的出现次数(在以下实施例中记为第一出现次数)，与统计出的与上述目标音频帧的第二待输出回声延迟对应的出现次数(在以下实施例中记为第二出现次数)进行比较，来为上述目标音频帧确定最终的回声延迟。

在这种情况下，可以确定上述第一待输出回声延迟对应的第一回声延迟数值的第一出现次数是否大于上述第二回声延迟数值对应的第二出现次数；如果上述第一出现次数大于上述第二出现次数，此时可以将上述第一待输出回声延迟，确定为与上述目标音频帧对应的最终的回声延迟进行输出。如果上述第一出现次数不大于上述第二出现次数，此时可以将上述第二待输出回声延迟，确定为与上述目标音频帧对应的最终的回声延迟进行输出。

在以上技术方案中，通过对目标音频帧，以及目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到一个能够表征该目标音频帧和该目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值，再基于该稳定性数值为该目标音频帧确定回声延迟，可以避免由于目标音频帧以及目标音频帧之前的多个音频帧的回声延迟存在波动，而导致估计出的回声延迟偏离实际水平，进而可以提高回声延迟估计的准确度和鲁棒性。

请参见图2，图2是一示例性实施例提供的一种回声延迟估计方法的流程图。所述方法仍然可以应用于音频播放设备。

所述方法执行以下步骤：

步骤201，获取音频数据流中的目标音频帧，以及所述目标音频帧之前的多个音频帧的回声延迟；

上述音频数据流，可以包括用户在进行实时通讯过程中，受话端和说话端之间通过通讯网络实时传输的音频数据流。

其中，需要说明的是，上述音频数据流，可以是用户在进行实时语音通讯过程中，受话端和说话端之间通过通讯网络实时传输的音频流，也可以是用户在进行实时视频通讯过程中，从通讯网络实时传输的视频流中分离出的，与视频数据一起同步传输的音频流。

在音频播放设备上，可以搭载用于对音频数据流进行回声延迟处理的算法软件。

其中，音频播放设备搭载的进行回升延迟处理的算法软件，具体可以包括用于对音频数据流进行回声延迟估计的算法软件，还可以包括用于对音频数据流进行回声消除的算法软件。当然，在实际应用中，这两种算法软件，也可以整合成同一种算法在音频播放设备上运行，在本公开中不进行特别限定。

当用户在进行实时通讯过程中，音频播放设备可以通过搭载的上述算法软件，对播放的音频数据流中的音频帧实时的进行回声延迟估计，并基于估计出的回声延迟，实时的进行回声消除，从而确保用户在实时通讯过程中，能够得到一个良好的音频通话效果。

音频播放设备通过搭载的算法软件，估计出音频数据流中的目标音频帧的回声延迟后，可以获取算法软件输出的该目标音频帧的回声延迟；同时，还可以获取该目标音频帧之前的M个音频帧的回声延迟；也即，获取该目标音频帧之前的若干连续的音频帧(包含该目标音频帧)的回声延迟。

其中，M具体可以是一个大于1的任意的数值，在本公开不进行特别限定，在实际应用中，可以灵活的进行设置。

在一个例子中，音频播放设备通过搭载的算法软件，实时的对音频数据流中的音频帧进行回声延迟估计的过程中，可以将估计出的回声延迟在音频播放设备搭载的存储空间中进行缓存起来，从而在获取该目标音频帧以及该目标音频帧之前的M个音频帧的回声延迟时，具体可以直接从缓存中读取对应的回声延迟的估计结果即可。

当然，在实际应用中，音频播放设备也可以通过搭载的算法软件，对该目标音频帧之前的M个音频帧重新进行回声延迟估计，来获取该M个音频帧的回声延迟。

在实际应用中，音频播放设备通过搭载的算法软件，对音频信号进行回声延迟估计时，通常可以采用以下示出的两种方案：

方案1：基于自适应滤波器的回声延迟估计方案(此时上述算法软件具体可以是一个搭载了自适应滤波器的算法软件)

基于自适应滤波器对音频信号进行回声延迟估计，与基于自适应滤波器对音频信号进行回声消除的方案的基本思想相似，都需要通过自适应滤波器估计回音路径的特征参数，产生一个模拟的回音路径，得出该模拟的回音路径的模拟回音信号。

但不同的是，基于自适应滤波器对音频信号进行回声消除的方案中，在得出模拟回音信号之后，可以从接收到的音频信号中减去该模拟回音信号，来实现回音抵消。而基于自适应滤波器对音频信号进行回声延迟估计的方案，则是基于该模拟回音信号的采样频率，来预估音频信号的延迟回声。

在该方案中，首先会对第n帧远端信号x(n)和近端信号d(n)作降采样处理，记降采样后的第n帧远端信号为x(n)，第n帧近端信号为d(n)，采样频率为f_s。接着可以使用一个N阶的自适应滤波器h(n)对x(n)作滤波操作得到输出信号y(n)。

其中，x(n)＝[x(n–N+1),x(n–N+2),…,x(n)]；h(n)＝[h_n(0),h_n(1),…,h_n(N–1)]；h(n)表示第n帧的滤波器。N表示自适应滤波器的长度；h_n(i)为第n帧自适应滤波器第i阶的系数。

之后，可以采用自适滤波器所支持的迭代算法(例如梯度下降算法)，迭代执行以下过程对h(n)进行更新，直到将第n帧的滤波器的误差信号e(n)的均方值调整到最小：

计算y(n)与d(n)之间的误差信号e(n)；其中，

需要说明的是，在上述公式中*表示卷积计算。

在得到y(n)与d(n)之间的误差信号e(n)后，将第n帧自适应滤波器更新为h(n)＝h(n-1)+μe(n)x(n)，其中μ为迭代步长。

最后，设n_max为h(n)中绝对值最大项的索引，则第n帧估计的回声延迟t_delay(n)＝n_max/f_s。

方案2：基于互相关函数的回声延迟估计方案(此时上述算法软件具体可以是一个搭载了互相关函数的算法软件)

基于互相关函数对音频信号进行回声延迟估计的方案中，采用的是互相关函数来预估音频信号的回声延迟。

在该方案中，首先也会对第n帧远端信号x和近端信号d作降采样处理，记降采样后的第n帧远端信号为x'，第n帧近端信号为d'，采样频率为f_s。而后可以计算x'和d'的k阶归一化互相关函数R_x'd'。

其中，

m∈[0，N])，N为计算互相关的长度。设R_x'd'中绝对值最大的一项为R_x'd'(m_max)，x'的采样频率为f_s，则回声延迟t_delay＝m_max/f_s。

需要补充说明的是，上述两种回声延迟估计的方案，虽然是目前较为通用的延迟估计方案，但在一些较复杂的回声场景中，估计出的回声延迟的准确性较差，输出的估计回声延迟可能存在上下波动，从而导致估计出的回声延迟偏离实际水平；

例如，以声学回声的延迟估计的场景为例，假设实时通信系统的受话端和说话端处于一个混响效果比较强的房间内，由于该房间内的回声延迟可能会发生剧烈的波动，因此在这种场景下按照上述两种方案进行回声延迟估计则可能导致输出的回声延迟，也存在上下波动，从而导致估计出的回声延迟偏离实际水平。

步骤202，统计所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟对应的回声延迟数值中，各个回声延迟数值的出现次数，并将出现次数最多的第一回声延迟数值对应的回声延迟，确定为与所述目标音频帧对应的第一待输出回声延迟；

在示出的一种实施方式中，上述稳定性数值，具体可以是连续的若干音频帧的回声延迟对应的回声延迟数值中，出现次数最多的回声延迟数值。

在这种情况下，在针对上述目标音频帧进行回声延迟估计时，可以统计上述目标音频帧和上述目标音频帧之前的多个音频帧的回声延迟对应的回声延迟数值中，各个回声延迟数值的出现次数，并将出现次数最多的回声延迟数值对应的回声延迟，确定为与上述目标音频帧对应的第一待输出回声延迟。

例如，在实现时，可以基于各个回声延迟数值的出现次数，生成与各个回声数值对应的统计直方图，然后将统计直方图中最高的直方图对应的回声延迟确定为与上述目标音频帧对应的第一待输出回声延迟。

在示出的另一种实施方式中，如果上述目标音频帧和上述目标音频帧之前的多个音频帧的回声延迟对应的回声延迟数值中，各个回声延迟数值的出现次数均相等；此时音频播放设备可以跳过该目标音频帧，不再对该目标音频帧进行回声延迟估计，并继续对该目标音频帧的下一音频帧进行回声延迟估计。

相应的，在针对上述目标音频帧的上一音频帧进行回声延迟估计时，也可以统计上述目标音频帧的上一音频帧和上述上一音频帧之前的多个音频帧的回声延迟对应的回声延迟数值中，各个回声延迟数值的出现次数，并将出现次数最多的回声延迟数值对应的回声延迟，确定为与上述目标音频帧的上一音频帧对应的第二待输出回声延迟。

需要说明的是，上述稳定性数值，除了可以是连续的若干音频帧的回声延迟对应的回声延迟数值中，出现次数最多的回声延迟数值以外，在实际应用中，具体也可以是其他类型的统计指标；

例如，可以是该连续的若干音频帧的回声延迟对应的回声延迟数值的平均值，在本公开中不再一一列举。

步骤203，确定与所述第一回声延迟数值对应的第一出现次数是否大于与所述第二回声延迟数值对应的第二出现次数；如果是，将所述第一待输出回声延迟，确定为与所述目标音频帧对应的回声延迟；如果否，将所述第二待输出回声延迟，确定为与所述目标音频帧对应的回声延迟。

在这种情况下，可以确定上述第一待输出回声延迟对应的第一回声延迟数值的第一出现次数是否大于上述第二回声延迟数值对应的第二出现次数；

如果上述第一出现次数大于上述第二出现次数，此时可以将上述第一待输出回声延迟，确定为与上述目标音频帧对应的最终的回声延迟进行输出。

如果上述第一出现次数不大于上述第二出现次数，此时可以将上述第二待输出回声延迟，确定为与上述目标音频帧对应的最终的回声延迟进行输出。

例如，在实现时，在统计出与上述目标音频帧的上一音频帧对应的上述第二待输出回声延迟之后，可以在预设的存储空间中缓存该上述第二出现次数。而在确定上述第一出现次数是否大于上述第二出现次数时，具体可以读取上述预设的存储空间中缓存的上述第二出现次数；再将上述第一次数与上述第二次数进行比较，以确定上述第一次数是否大于上述第二出现次数。

进一步的，如果上述第一出现次数大于上述第二出现次数，还可以将上述预设的存储空间中缓存的上述第二出现次数的取值更新为上述第一出现次数，以备后续使用。

通过这种方式，由于在为目标音频帧确定回声延迟时，参考了对该目标音频帧和其之前的M个音频帧进行统计得到的稳定性数值，因此可以避免目标音频帧以及目标音频帧之前的多个音频帧的回声延迟存在波动，而导致的上述算法软件最终输出的回声延迟偏离实际水平，进而可以提高上述算法软件在进行回声延迟估计时的准确度和鲁棒性。

例如，当上述算法软件采用如前所述的方案1描述的基于自适应滤波器的回声延迟估计方案，或者方案2描述的基于互相关函数的回声延迟估计方案进行回声延迟估计时，如果处于一些较复杂的回声场景(比如混响效果比较强的房间)，输出的估计回声延迟可能存在上下波动。

而在上述算法软件进行回声延迟估计的基础上，进一步引入步骤201-步骤203所公开的参考目标音频帧和其之前的M个音频帧的回声延迟的稳定性水平，为该目标音频帧重新确定输出的回声延迟的技术方案，则相当于可以对算法软件输出的该目标音频帧的回声延迟进行一次修正，从而可以提升算法软件输出的上述目标音频帧的回声延迟的准确度，避免其输出的回声延迟偏离实际水平。

需要补充说明的是，在实际应用中，步骤201-步骤203描述的技术方案可以作为上述算法软件中的算法逻辑的一部分，对算法软件的前置计算过程输出的目标音频帧的延迟回声进行修正，也可以不作为上述算法软件中的算法逻辑的一部分，而作为单独的修正逻辑，对算法软件输出的延迟回声进行修正，在本公开中不进行具体限定。

在示出的一种实施方式中，由于在实际应用中，预估出的延迟回声的数值过小，或者处于一个过小的数值范围，可能会导致后续的回声消除处理时的效果不明显。

因此，如果上述第一回声延迟数值对应的第一次数大于上述第二回声延迟数值对应的第二次数，此时在上述第一待输出回声延迟，最终确定为与上述目标音频帧对应的最终的回声延迟进行输出之前，为了确保该第一回声延迟数值为一个有效的数值，还可以将上述第一回声延迟数值与预设的有效阈值进行比较，来确定该第一回声延迟数值是否大于预设的有效阈值。

如果该第一回声延迟数值大于该预设的有效阈值，表示该第一回声延迟数值为一个有效数值，此时可以再将上述第一待输出回声延迟，确定为与上述目标音频帧对应的回声延迟。

其中，上述预设的有效阈值，具体可以是一个用于衡量回声延迟的数值是否是一个有效数值的阈值，该有效阈值的取值大小，在本公开中不进行特别限定，在实际应用中，可以灵活的进行自定义设置。

在示出的一种实施方式中，上述音频数据流中的各个音频帧对应的有效阈值，具体可以是一个动态递增的阈值。在实现时，可以预先设置一个预设的有效阈值区间，可以从该有效阈值区间中为上述音频数据流中的各个音频帧分别分配依次递增的有效阈值。

也即，与上述目标音频帧对应的有效阈值，具体可以是一个隶属于预设的有效阈值区间中的阈值，可以大于上述目标音频帧的上一音频帧对应的有效阈值。

在这种情况下，上述音频数据流中的各个音频帧可以分别对应上述有效阈值区间中不同的有效阈值；并且，上述音频数据流中的各个音频帧对应的有效阈值的数值大小可以依次递增。

由于音频播放设备会针对上述音频数据流中的各个音频帧实时的进行回声延迟估计，并且实时的基于估计出的回声延迟对各个音频帧进行回声消除；因此，在这种处理机制下，上述音频数据流中的音频帧的回声延迟，通常会按照播放顺序不断的降低。基于此，通过为上述音频数据流中的音频帧设置依次递增的有效阈值，可以不断的提高确定各音频帧对应的回声延迟数值是否有效的评价阈值，有助于提升最终估计出的回声延迟数值的准确度。

其中，需要说明的是，上述预设的有效阈值区间，具体也可以是一个用于衡量回声延迟的数值是否是一个有效数值的阈值区间，该有效阈值区间的取值范围，在本公开中也不进行特别限定，在实际应用中，可以灵活的进行自定义设置。

例如，在示出的一种实施方式中，在声学回声延迟估计的应用场景下，此时上述回声延迟为声学回声延迟，此时上述有效阈值区间具体可以是基于上述音频数据流对应的播放空间的混响效果，预估出的一个声学回声延迟的数值范围。

通过这种方式，可以基于播放空间实际的混响效果，来为上述音频数据流中的音频帧设置依次递增的有效阈值，有助于提升最终估计出的回声延迟数值的准确度。

当基于以上描述的步骤201-步骤203的方案，预估出上述目标音频帧的回声延迟之后，此时音频播放设备可以基于搭载的算法软件，基于预估出的回声延迟，对该目标音频帧进行回声消除处理。

其中，对该目标音频帧进行回声消除处理的具体实施细节，在本公开中不再进行详述，本领域技术人员可以参考相关技术中的记载；

例如，在一个例子中，仍然可以基于自适应滤波器进行回声消除处理，在估计出目标音频帧的回声延迟后，可以基于估计出的回声延迟对远端音频信号与近端音频信号进行一次时间对齐，将远端音频信号与近端音频信号的回声延迟降低到一个小的数值范围之内，然后再基于自适应滤波器对音频信号进行回声消除处理。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的装置。

在本公开的示例性实施例中，还提供一种回声延迟估计回声延迟估计装置。图3示出了上述回声延迟估计装置300的结构示意图，如图3所示，上述回声延迟估计装置300可以包括：获取模块310、统计模块320和确定模块330。其中：

获取模块310，获取音频数据流中的目标音频帧，以及所述目标音频帧之前的多个音频帧的回声延迟；

统计模块320，针对所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧对应的第一待输出回声延迟；其中，所述待输出回声延迟，为表征所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟处于稳定性的稳定性数值；

确定模块330，基于与所述目标音频帧对应的待输出回声延迟，为所述目标音频帧确定回声延迟。

在本公开的一个实施例中，所述获取模块310进一步：

在本公开的一个实施例中，统计模块320：

在本公开的一个实施例中，所述确定模块330：

在本公开的一个实施例中，所述确定模块330进一步：

在本公开的一个实施例中，所述装置300还包括：

缓存模块340，在预设的存储空间中缓存所述第二出现次数；

所述确定模块330进一步：

读取所述预设的存储空间中缓存的所述第二出现次数；

在本公开的一个实施例中，所述装置300还包括：

更新模块350，如果所述第一出现次数大于所述第二出现次数，将所述预设的存储空间中缓存的所述第二出现次数更新为所述第一出现次数。

在本公开的一个实施例中，所述装置300还包括：

消除模块360，响应于为所述目标音频帧确定出的回声延迟，基于确定出的回声延迟对所述目标音频帧进行回声消除处理。

上述回声延迟估计装置300的各个模块的具体细节已经在之前描述回声延迟估计方法流程中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及回声延迟估计装置300的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图4来描述根据本公开的这种实施例的电子设备400。图3显示的电子设备400仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元401、上述至少一个存储单元402、连接不同系统组件(包括存储单元402和处理单元401)的总线403。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元401执行，使得所述处理单元401执行本说明书上述各种实施例的步骤。

存储单元402可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)4021和/或高速缓存存储单元4022，还可以进一步包括只读存储单元(ROM)4023。

存储单元402还可以包括具有一组(至少一个)程序模块4025的程序/使用工具4024，这样的程序模块4025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包含网络环境的现实。

总线403可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备404(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口405进行。并且，电子设备400还可以通过网络适配器406与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器406通过总线403与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。

参考图5所示，描述了根据本公开的实施例的用于实现上述方法的程序产品50，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种回声延迟估计方法，包括：

基于与所述目标音频帧对应的第一待输出回声延迟，为所述目标音频帧确定回声延迟。

2.根据权利要求1所述的方法，所述方法还包括：

3.根据权利要求2所述的方法，针对所述目标音频帧和所述目标音频帧之前的多个音频帧的回声延迟进行统计分析，得到与所述目标音频帧对应的第一待输出回声延迟，包括：

4.根据权利要求3所述的方法，基于与所述目标音频帧对应的待输出回声延迟，为所述目标音频帧确定回声延迟，包括：

5.根据权利要求4所述的方法，如果所述第一出现次数大于所述第二出现次数，将所述第一待输出回声延迟，确定为与所述目标音频帧对应的回声延迟，包括：

6.根据权利要求5所述的方法，所述预设的有效阈值为隶属于预设的有效阈值区间中的阈值；其中，所述音频数据流中的各个音频帧分别对应所述有效阈值区间中不同的有效阈值；所述音频数据流中的各个音频帧对应的有效阈值的数值大小依次递增。

7.根据权利要求6所述的方法，所述回声延迟包括声学回声延迟；所述有效阈值区间包括基于所述音频数据流对应的播放空间的混响效果预估出的声学回声延迟的数值范围。

8.一种回声延迟估计装置，包括：

9.一种存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。

10.一种计算设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-8中任一项所述的方法的步骤。