CN112397082B

CN112397082B - 估计回声延迟的方法、装置、电子设备和存储介质

Info

Publication number: CN112397082B
Application number: CN202011290205.XA
Authority: CN
Inventors: 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2024-05-14
Anticipated expiration: 2040-11-17
Also published as: CN112397082A

Abstract

本公开提供了一种估计回声延迟的方法、装置、电子设备和存储介质，所述方法包括：计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；响应于确定峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟的方法和装置。根据本公开的估计回声延迟的方法和装置能够增强回声延迟估计的鲁棒性，实现抗频响畸变、抗噪声干扰、抗双讲干扰、抗混响干扰等效果。

Description

估计回声延迟的方法、装置、电子设备和存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种用于估计回声延迟的方法、装置、电子设备和存储介质。

背景技术

回声消除(Acoustic Echo Cancellation，AEC)作为实时通讯中重要的技术，是保证音视频体验的关键点。AEC在实际应用中会受到由于系统带来的远端音频信号和近端音频信号的相对回声延迟的不可控影响。为保证系统延迟不影响AEC效果，需要对回声延迟进行估计，并根据估计得到的结果补偿远端音频信号和近端音频信号的相对回声延迟，从而保证AEC的工作效果良好。

相关技术的AEC例如可采用基于时频谱相似度的延迟估计算法、基于广义互相关的延迟估计算法或基于互协方差系数的延迟估计算法来估计回声延迟。基于时频谱相似度的延迟估计算法利用远端音频信号和近端音频信号各个时频点的相似程度找到一个相似度最大的时间延迟，然而该算法仅利用幅度信息判断每个时频点的相似度，不能解决在扬声器频率响应不够平直、噪声干扰较大、双端对讲(Double Talk，DT)情况下的延迟估计。基于广义互相关的延迟估计算法利用加权的互相关系数找到相关性最大的时间点，从而获得相对延迟结果。虽然该方法利用了相位信息，但为获取准确的相关性估计结果，往往需要依赖较长的子序列，计算法复杂度较高，且相关性的容易收到大混响场景的干扰，影响其在高混响情况下的鲁棒性。基于互协方差系数的延迟估计算法计算法远端音频信号和近段信号在时间序列上的互协方差系数，找到该系数的置信峰值以得到相应的时间延迟，但该方法利没有利用音频相位信息，对噪声和非线性的干扰较为敏感，同时扬声器频响不够平直也会影响其判断结果。

发明内容

本公开提供一种估计回声延迟的方法、装置、电子设备和存储介质，以至少解决相关技术中的回声延迟估计的鲁棒性的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种估计回声延迟的方法包括：计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；响应于确定峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟。

根据本公开的第一方面，响应于确定所述多个相干性系数序列的峰值不可靠或与所述多个相干性系数序列的峰值对应的延迟不稳定，使用根据历史统计的先验延迟作为最终的回声延迟。

根据本公开的第一方面，所述计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列包括：对远端音频信号和近端音频信号进行分帧处理和短时傅里叶变换以获得远端频域信号序列Far(n)和近端频域信号序列Near(n)，其中，n为帧编号；根据远端频域信号序列Far(n-m)与近端频域信号序列Near(n)的协方差序列Cov_m(n)、近端频域信号序列Near(n)的自相关序列Var_near(n)以及远端频域信号序列Far(n-m)的自相关序列Var_far(n-m)来计算所述与不同的延迟相应的多个相干性系数序列Coh_m(n)，其中，m指示延迟搜索的帧数，其取值范围为[M，-M]，M是最大延迟搜索帧数。

根据本公开的第一方面，所述检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性包括：从所述多个相干性系数序列中检测峰值大小较高的前L个峰值，其中，L为大于等于2的整数；根据所述L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性。

根据本公开的第一方面，根据所述L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性包括：当以下条件被满足时，确定所述多个相干性系数序列的最高峰值peak1可靠：所述L个峰值中的最高峰值peak1与第二高峰值peak2的大小之比大于第一比例值；所述L个峰值中的最高峰值peak1与所述L个峰值中的其余峰值的平均大小之比超过第二比例值；与所述L个峰值中的最高峰值peak1所对应的延迟相应的远端音频信号的能量值超过预定值。

根据本公开的第一方面，所述第一比例值和第二比例值根据与所述最高峰值peak1所对应的延迟相对于历史统计的先验延迟的取值范围的关系而具有不同值，其中，当最高峰值peak1所对应的延迟在先验延迟的取值范围之内时，所述第一比例值具有第一值，否则，所述第一比例值具有第二值；当最高峰值peak1所对应的延迟在先验延迟的取值范围之内时，所述第二比例值具有第三值，否则，所述第二比例值具有第四值，其中，第一值小于第二值，第三值小于第四值。

根据本公开的第一方面，所述确定与所述多个相干性系数序列的峰值对应的延迟的稳定性包括：确定与所述多个相干性系数序列的峰值对应的延迟保持连续不变的时间；响应于确定与所述多个相干性系数序列的峰值对应的延迟保持连续不变的时间超过阈值，确定所述与峰值对应的延迟达到稳定状态。

根据本公开的第一方面，所述将所述与峰值对应的延迟和根据历史统计的先验延迟之一确定最终的回声延迟包括：响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内，将历史统计的先验延迟确定为最终的回声延迟；响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内超出所述预定范围，将所述与峰值对应的延迟确定为最终的回声延迟。

根据本公开的第一方面，该方法还包括：根据最终的回声延迟调整所述历史统计的先验延迟的序列和取值范围。

根据本公开的第一方面，该方法还包括：在每次关闭执行估计回声延迟的方法的设备时记录调整后的先验延迟的序列和取值范围，并在下次开启执行所述估计回声延迟的方法的设备时将上次关闭时记录的先验延迟的序列和取值范围用作先验延迟的初始值。

根据本公开的第二方面，提供了一种估计回声延迟的装置包括：相干性模块，被配置为计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；可靠性模块，被配置为检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；稳定性模块，被配置为响应于可靠性模块确定所述多个相干性系数序列的峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；延迟确定模块，被配置为响应于稳定性模块确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，将与所述多个相干性系数序列的峰值对应的延迟和先验延迟之一确定为最终的回声延迟。

根据本公开的第二方面，所述延迟确定模块被配置为：响应于可靠性模块确定峰值不可靠或稳定性模块确定与峰值对应的延迟不稳定，使用根据历史统计的先验延迟作为回声延迟。

根据本公开的第二方面，所述相干性模块包括：时频序列生成模块，被配置为对输入的远端音频信号和近端音频信号进行分帧处理和短时傅里叶变换以获得远端频域信号序列Far(n)和近端频域信号序列Near(n)，其中，n为帧编号；相干性系数序列生成模块，被配置为根据远端频域信号序列Far(n-m)与近端频域信号序列Near(n)的协方差序列Cov_m(n)、近端频域信号序列Near(n)的自相关序列Var_near(n)以及远端频域信号序列Far(n-m)的自相关序列Var_far(n-m)来计算所述与不同的延迟相应的多个相干性系数序列，其中，m指示延迟搜索的帧数，其取值范围为[M，-M]，M是最大延迟搜索帧数。

根据本公开的第二方面，所述可靠性模块包括：峰值检测模块，被配置为从所述多个相干性系数序列中检测峰值大小较高的前L个峰值，其中，L为大于等于2的整数；可靠性确定模块，被配置为根据所述L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性。

根据本公开的第二方面，所述可靠性确定模块被配置为在以下条件同时被满足时确定所述多个相干性系数序列的最高峰值peak1可靠：所述L个峰值中的最高峰值peak1与第二高峰值peak2的大小之比大于第一比例值；所述L个峰值中的最高峰值peak1与所述L个峰值中的其余峰值的平均大小之比超过第二比例值；与所述L个峰值中的最高峰值peak1所对应的延迟相应的远端音频信号的能量值超过预定值。

根据本公开的第二方面，所述第一比例值和第二比例值根据最高峰值peak1所对应的延迟相对于历史统计的先验延迟的取值范围的关系而具有不同值，其中，当最高峰值peak1所对应的延迟在先验延迟的取值范围之内时，所述第一比例值具有第一值，否则，所述第一比例值具有第二值；当最高峰值peak1所对应的延迟在先验延迟的取值范围之内时，所述第二比例值具有第三值，否则，所述第二比例值具有第四值，其中，第一值小于第二值，第三值小于第四值。

根据本公开的第二方面，所述稳定性模块包括：连续性时间确定模块，被配置为确定所述与峰值对应的延迟保持连续不变的时间；稳定性确定模块，被配置为响应于确定所述与峰值对应的延迟保持连续不变的时间超过阈值，确定所述与峰值对应的延迟达到稳定状态。

根据本公开的第二方面，所述延迟确定模块被配置为：响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内，将历史统计的先验延迟确定为最终的回声延迟；响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内超出所述预定范围，将所述与峰值对应的延迟确定为最终的回声延迟。

根据本公开的第二方面，该装置还包括：先验延迟模块，被配置为存储所述历史统计的先验延迟，并根据最终的回声延迟调整所述历史统计的先验延迟的序列和取值范围。

根据本公开的第二方面，所述先验延迟模块被配置为在每次关闭所述装置时记录调整后的先验延迟的序列和取值范围，并在下次开启所述装置时将上次关闭时记录的先验延迟的序列和取值范围用作先验延迟的初始值。

根据本公开的第三方面，提供了一种电子设备包括：音频接收装置，被配置为接收声音信号，其中，所述声音信号包括远端音频信号和近端音频信号；回声消除器，被配置为对接收到的声音信号进行回声消除处理，其中，所述回声消除器被配置为：计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；响应于确定峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，将所述与峰值对应的延迟和根据历史统计的先验延迟之一确定最终的回声延迟；使用确定的回声延迟来对接收到的声音信号执行回声消除。

根据本公开的第四方面，提供了一种用于回声消除的方法包括：接收包括远端音频信号和近端音频信号的声音信号；计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；响应于确定峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，将所述与峰值对应的延迟和根据历史统计的先验延迟之一确定最终的回声延迟；使用确定的回声延迟来对声音信号执行回声消除。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的估计回声延迟和消除回声延迟的方法。

根据本公开的第六方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上所述的估计回声延迟和消除回声延迟的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品中的指令被电子设备中的至少一个处理器运行以执行如上所述的估计回声延迟和消除回声延迟的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：结合峰值置信度决策和先验延迟辅助置信机制增强延迟估计的鲁棒性，形成一种抗频响畸变、抗噪声干扰、抗双讲干扰、抗混响干扰的高鲁棒性延迟估计方案。该方案更广泛地利用了信号幅度和相位的信息，利用了完善的峰值置信度机制以及系统延迟先验信息，具有更高的鲁棒性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出应用根据本公开的示例性实施例的估计回声延迟的方法的系统环境的示图。

图2是示出在音频设备中实现回声消除的原理的示意图。

图3是示出根据本公开的示例性实施例的估计回声延迟的方法的示流程图。

图4是示出根据本公开示例性实施例的估计回声延迟的装置的框图。

图5是示出根据本公开示例性实施例的用于消除回声的方法的流程图。

图6是示出根据本公开示例性实施例的用于消除回声的装置的框图。

图7是根据另一示例性实施例示出的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在进行以下说明之前，首先对本公开中使用的一些术语和原理进行说明。

声学回声消除(Acoustic Echo Cancellation，AEC)：通过自适应算法来调整滤波器的迭代更新系数估计出一个期望信号，使得该期望信号逼近经过实际回声路径的回声信号，然后从麦克风采集的混合信号中减去这个模拟回声，达到回声抵消的功能。

短时傅里叶变换(Short Time Fourier Transform，STFT)：STFT是一个用于语音信号处理的通用工具，它定义了一个非常有用的时间和频率分布类，指定了任意信号随时间和频率变化的复数幅度。计算短时傅里叶变换的过程是把一个较长的时间信号分成相同长度的更短的段,在每个更短的段上计算傅里叶变换，即傅里叶频谱。

图1示出了应用根据本公开的示例性实施例的估计回声延迟的方法的系统环境的示图。

如图1所示，本公开所提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端102和终端104与服务器106通过网络进行通信，当终端102为本地终端时，终端104则为远端终端，而当终端104为本地终端时，终端102则为远端终端。具体的，终端102和终端104可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备等中的至少一种，服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

根据本公开的示例性实施例的估计回声延迟的方法，以直播连麦的场景中终端102为本地终端(即主播终端)、终端104为远端终端(即观众终端)为例进行说明。通过主播终端102的音频模块(例如，包括麦克风、音频处理芯片和/或处理器的对应功能部分)采集远端音频信号和近端音频信号并进行缓存。远端音频信号例如可包括由终端102播放的音频信号通过终端102的音频输出装置扩散后所产生的回声信号，而近端音频信号则可包括终端102的用户的说话声或唱歌声等。由于终端102播放的音频信号通过音频输出装置扩散后所产生的回声信号与终端102播放的音频信号之间存在一定的延时，因此，一般会基于延时估计对采集的远端音频信号进行声学回声消除(AEC)处理后再传输远端终端104，以抑制回声。在进行AEC时，需要一种抗频响畸变、抗噪声干扰、抗双讲干扰、抗混响干扰的高鲁棒性延迟估计方案，从而能够实现更好的AEC效果。这里，可在终端102和104的音频模块的AEC模块中执行根据本公开的示例性实施例的估计回声延迟的方法，从而实现应用该方法的AEC。

下面，将参照图2来说明在音频设备中实现回声消除的原理。

具体地，通过如图2所示的由回声消除模块C模拟回声形成的反馈回路对回声信号进行反相处理，从而得到反相处理后的回声信号，进而将反相处理后的线回声信号与外部音频信号叠加。具体的，终端通过扬声器播放接收到的远端音频信号x(k)。经过室内环境的反射，麦克风可采集到由x(k)经过反射后的信号d(k)，同时采集到近端音频信号y(k)＝s(k)+n(k)，其中，s(k)可表示近端的用户语音信号，例如，主播端的说话声或唱歌声，n(k)可表示近端的环境噪声。回声消除模块C根据远端音频信号和近端音频信号产生估计的回声信号以抵消麦克风采集外部音频信号时产生的回声信号，得到消除了回声的信号e(k)。e(k)经过滤波之后形成发送到远端终端104的信号/>回声消除模块C在执行回声消除的时候需要确保回声延迟估计的鲁棒性。

图3是示出根据本公开的示例性实施例的估计回声延迟的方法的示流程图。下面将参照图3来说明根据本公开的示例性实施例的估计回声延迟的方法。

首先，在步骤S310，计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列。

根据本公开的示例性实施例，可对远端音频信号和近端音频信号进行分帧处理和短时傅里叶变换以获得远端频域信号序列Far(n)和近端频域信号序列Near(n)，

Far(n)＝STFT(far(t))

Near(n)＝STFT(near(t))

其中，far(t)和near(t)分别表示远端音频信号和近端音频信号的时域信号，t为时间标记，Far(n)和Near(n)分别表示经过时频变换后的远端频域信号序列和近端频域信号序列，n为帧编号，从1开始计数直到音频输入截止。将以上信号序列分别输入到远端音频信号和近端音频信号的缓存池中，缓存池中的缓存的数据范围由最大搜索的延迟时间决定，最大延迟时间可由M帧表示，M是预先设置的最大延迟搜索帧数，例如可以与1秒中所包括的帧数对应。

在获得了远端频域信号序列Far(n)和近端频域信号序列Near(n)之后，可根据远端频域信号序列Far(n-m)与近端频域信号序列Near(n)的协方差序列Cov_m(n)、近端频域信号序列Near(n)的自相关序列Var_near(n)以及远端频域信号序列Far(n-m)的自相关序列Mar_far(n-m)来计算所述与不同的延迟相应的多个相干性系数序列Coh_m(n)，

其中，Cov_m(n)为n时刻Near(n)和Far(n-m)的协方差：

Cov_m(n)＝Cov_m(n-1)×smoothfactor+Near(n)×Far^*(n)×(1-smoothfartor)

其中smoothfartor为平滑因子，其取值例如可以为0.99；

Var_near(n)和Var_far(n-m)分别为n时刻Near(n)信号序列和Far(n-m)序列信号的自相关序列，其中：

Var_near(n)＝Var_near(n-1)×smoothfactor+Near(n)×Near^*(n)×(1-smoothfartor)

Var_far(n)＝Var_far(n-1)×smoothfactor+Far(n)×Far^*(n)×(1-smoothfartor)

其中m的取值范围是根据最大的延迟搜索帧数M决定的范围，即：

m∈[M，M-1，M-2，......，2，1，0，-1，-2，......，-M+2，-M+1，-M]；

经过计算不同延迟(即，在延迟搜索范围内的每个m值)所对应的相干系数之后得到了与以上2×M+1个延迟对应的相干性系数序列：

Coh_M(n)，Coh_M-1(n)，......，Coh₁(n)，Coh₀(n)，Coh_-1(n)，......，Coh_-M+1(n)，Coh_-M(n)

根据本公开的示例性实施例，可设置以上变量初始值均为1，即：

Cov_m(0)＝1

Var_near(0)＝1

Var_far(0)＝1

另外，若n-m＜0，则不进行计算。

接下来，在步骤S320，检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性。为此，可引入下面的峰值置信度决策过程。

如上所述，在步骤S310生成了2×M+1个相干性系数序列，这些序列中的最高峰值所对应的延迟时间可被认为是最有可能成为远端音频信号和近端音频信号之间的延迟时间。

为了确保该峰值的可靠性，可根据相干性系数序列中的最高峰值相对于其他峰值的突出程度(即，尖锐度)来确定该峰值是否可靠。具体地，根据本公开的示例性实施例，可从在步骤S310获得的相干性系数序列中检测出峰值大小较高的前L个峰值，并根据这L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性。这里，L是大于等于2的整数，并且可以取值为10，因此，检测出的L个峰值分别为：

peak1，peak2，......，peakL

以上的峰值序列为峰值从大到小的排列顺序，并且可根据相关技术的峰值检测方法来检测得到以上的L个峰值，在此不再详细描述。

根据本公开的示例性实施例，当以下条件被满足时，确定所述多个相干性系数序列的最高峰值peak1可靠：

所述L个峰值中的最高峰值peak1与第二高峰值peak2的大小之比大于第一比例值peakRatio，即，

peak1＞peakRatio×peak2；

所述L个峰值中的最高峰值peak1与所述L个峰值中的其余峰值的平均大小之比超过第二比例值meanRatio，即

peak1＞meanRatio×mean(peak2，peak3，......，peakL)；

与所述L个峰值中的最高峰值peak1所对应的延迟DelayCandidate(n)相应的远端音频信号Far(n-DelayCandidat(n))的能量值超过预定值ValidEnergyThreshold，即，

Energy(Far(n-DelayCandidat(n))＞ValidEnergyThreshold

这里，ValidEnergyThreshold可以为-50dBFS。

应理解，以上的判断条件和阈值取值仅是示意，可根据实际情况、统计规律等确定其他合理的判断条件。

根据本公开的示例性实施例，可引入历史统计的先验延迟的范围来确定峰值的可靠性。

例如，可根据最高峰值peak1所对应的延迟DelayCandidate(n)与历史统计的先验延迟序列的取值范围的关系对以上的第一比例值peakRatio和第二比例值meanRatio进行调整，从而使得对于最高峰值peak1的可靠性判断更加准确。

根据本公开的示例性实施例，当最高峰值peak1所对应的延迟DelayCandidate(n)在先验延迟的取值范围[Rr，Rl]之内时，所述第一比例值peakRatio具有第一值peakRatioSoft，否则，所述第一比例值peakRatio具有第二值peakRatioStrict，即，

这里，peakRatioSoft可小于peakRatioStrict，例如，peakRatioSoft可以是1.5，而peakRatioStrict可以是2.0。

根据本公开的示例性实施例，当最高峰值peak1所对应的延迟DelayCandidate(n)在先验延迟的取值范围[Rr，Rl]之内时，所述第二比例值meanRatio可具有第三值，否则，所述第二比例值meanRatio具有第四值，即，

这里，meanRatioSoft可小于meanRatioStrict，例如，meanRatioSoft可以为3.0，meanRatioStrict可以为5.0。

应理解，以上的比例值的取值仅是示意，可根据实际情况、统计规律等确定其他合理的比例值。

接下来，在步骤S330，响应于确定所述多个相干性系数序列的峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性。

根据本公开的示例性实施例，可确定与所述多个相干性系数序列的峰值对应的延迟保持连续不变的时间，并且响应于确定与所述多个相干性系数序列的峰值对应的延迟保持连续不变的时间超过阈值，确定所述与峰值对应的延迟达到稳定状态。

例如，可对与所述多个相干性系数序列的最高峰值peak1对应的延迟DelayCandidate(n)(即，当前时刻n的延迟)的大小进行判断以确定峰值是否达到稳定状态。可根据以下规则来进行判断：

DelayCandidate(n)＝DelayCandidate(n-1)，

StableCounter＝StableCount+1

否则：

StableCounter＝0

也就是说，将最高峰值peak1所对应的当前时刻的延迟与前一时刻的延迟进行比较，如果两者的值相等则计数值加1，如果不相等则将计数值清零。若StableCounter＞Stablethreshold，则判断延迟进入稳定状态，否则判断没有进入稳定状态。这里，可以设置DelayCandidate(0)＝0，稳定阈值Stablethreshold可被预先设置。

然后，在步骤S340，响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟。

根据本公开的示例性实施例，响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内，将历史统计的先验延迟确定为最终的回声延迟；响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内超出所述预定范围，将所述与峰值对应的延迟确定为最终的回声延迟。

例如，可从历史统计的先验延迟的序列DelayHistory(n)中获取上一时刻的稳定延迟DelayHistory(n-1)，即，先验延迟序列在当前时刻n的前一时刻(n-1)的延迟，并根据历史延迟DelayHistory(n-1)和当前延迟DelayCandidate(n)的大小来确定最终的回声延迟Delay：

也就是说，如果当前延迟DelayCandidate(n)的值与对应的历史延迟(即，历史延迟序列中前一时刻的延迟)DelayHistory(n-1)的差值的范围为[-1，+1]，则可使用历史延迟作为最终的回声延迟，而如果差值超出该范围，则可将新的延迟(即，当前延迟DelayCandidate(n))确定为最终的回声延迟。

应理解，以上的根据历史统计的先验延迟和当前延迟确定最终的延迟输出的判断原则仅是示例，本领域的技术人员可根据实际情况、统计规律等确定其他合理的判断原则。

根据本公开的示例性实施例，在步骤S320和S330中，如果确定所述多个相干性系数序列的峰值不可靠或与所述多个相干性系数序列的峰值对应的延迟不稳定，则可使用根据历史统计的先验延迟作为最终的回声延迟。

具体地，响应于在步骤S320确定多个相干性系数序列的峰值不可靠或者在步骤S330确定峰值的状态不稳定，则从先验延迟统计的序列DelayHistory(n)中获取上一时刻的稳定延迟DelayHistory(n-1)作为最终的回声延迟输出，即，Delay＝DelayHistory(n-1)，然后结束当前时刻n的流程，进入针对下一时刻n+1的延迟估计流程。

另外，在确定了当前时刻的回声延迟之后，根据本公开的示例性实施例的方法还可包括：S350，根据确定的回声延迟来调整或更新所述历史统计的先验延迟的序列和取值范围。调整先验延迟的序列和取值范围的方式可如下面的等式所示：

DelayHistory(n)＝Delay

[Rr，Rl]＝[min(Q)，max(Q)]

其中，Q为由历史延迟组成的集合：

Q＝{DelayHistory(n-MaxRange)，DelayHistory(n-MaxRange+1)，......，DelayHistory(n-1)，DelayHistory(n)}

其中MaxRange为需要依赖的最大延迟时间范围。也就是说，可用确定的当前延迟Delay(即，DelayCandidate(n)和DelayHistory(n-1)之一)来更新先验延迟的序列的当前时刻DelayHistory(n)，并根据在当前延迟的预定时间范围内的历史延迟的集合中的最小值和最大值来确定先验延迟序列取值范围[Rr，Rl]。

此外，根据本公开的示例性实施例，在每次关闭执行估计回声延迟的方法的设备时记录调整后的先验延迟的序列和取值范围，并在下次开启执行所述估计回声延迟的方法的设备时将上次关闭时记录的先验延迟的序列和取值范围用作先验延迟的初始值。若设备为初次使用，没有先验延迟的相关数据，则初始化如下：

DelayHistory(n)＝0

[Rr，Rl]＝[-M，M]

如上所述，提出了一种基于信号相干性的AEC系统的回声延迟估计方法，结合峰值置信度决策和先验延迟辅助置信机制增强延迟估计的鲁棒性，形成一种抗频响畸变、抗噪声干扰、抗双讲干扰、抗混响干扰的高鲁棒性延迟估计方案。该方案更广泛地利用了信号幅度和相位的信息，利用了完善的峰值置信度机制以及系统延迟先验信息，具有更高的鲁棒性。

图4是示出根据本公开的示例性实施例的估计回声延迟的装置的框图。

如图4所示，根据本公开的示例性实施例的估计回声延迟的装置400可包括：相干性模块410、可靠性模块420、稳定性模块430和延迟确定模块440。

相干性模型410被配置为计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列。相干性模块410可包括：时频序列生成模块411，被配置为对输入的远端音频信号和近端音频信号进行分帧处理和短时傅里叶变换以获得远端频域信号序列Far(n)和近端频域信号序列Near(n)，其中，n为帧编号；相干性系数序列生成模块413，被配置为根据远端频域信号序列Far(n-m)与近端频域信号序列Near(n)的协方差序列Cov_m(n)、近端频域信号序列Near(n)的自相关序列Var_near(n)以及远端频域信号序列Far(n-m)的自相关序列Var_far(n-m)来计算所述与不同的延迟相应的多个相干性系数序列，其中，m指示延迟搜索的帧数，其取值范围为[M，-M]，M是最大延迟搜索帧数。以上已经参照图3的示例性实施例对计算相干性系数序列的具体过程进行了详细说明，在此不再重复描述。

可靠性模块420被配置为检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性。可靠性模块420可包括：峰值检测模块421，被配置为从所述多个相干性系数序列中检测峰值大小较高的前L个峰值，其中，L为大于等于2的整数；可靠性确定模块423，被配置为根据所述L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性。可靠性确定模块423被配置为在以下条件同时被满足时确定所述多个相干性系数序列的最高峰值peak1可靠：

所述L个峰值中的最高峰值peak1与第二高峰值peak2的大小之比大于第一比例值；

所述L个峰值中的最高峰值peak1与所述L个峰值中的其余峰值的平均大小之比超过第二比例值；

与所述L个峰值中的最高峰值peak1所对应的延迟相应的远端音频信号的能量值超过预定值。

根据本公开的示例性实施例，所述第一比例值和第二比例值根据最高峰值peak1所对应的延迟相对于历史统计的先验延迟的取值范围的关系而具有不同值，其中，当最高峰值peak1所对应的延迟在先验延迟的取值范围之内时，所述第一比例值具有第一值，否则，所述第一比例值具有第二值；当最高峰值peak1所对应的延迟在先验延迟的取值范围之内时，所述第二比例值具有第三值，否则，所述第二比例值具有第四值，其中，第一值小于第二值，第三值小于第四值。

稳定性模块430被配置为响应于可靠性模块确定所述多个相干性系数序列的峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性。稳定性模块430可包括：连续性时间确定模块431，被配置为确定所述与峰值对应的延迟保持连续不变的时间；稳定性确定模块433，被配置为响应于确定所述与峰值对应的延迟保持连续不变的时间超过阈值，确定所述与峰值对应的延迟达到稳定状态。根据本公开的示例性实施例，连续性时间确定模块431可对与所述多个相干性系数序列的最高峰值peak1对应的延迟DelayCandidate(n)的大小进行判断以确定DelayCandidate(n)保持不变的时间，稳定性确定模块433可响应于确定该时间超过稳定阈值而确定与峰值对应的延迟达到稳定状态。

延迟确定模块440被配置为响应于稳定性模块430确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，将与所述多个相干性系数序列的峰值对应的延迟和先验延迟之一确定为最终的回声延迟。具体地，响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内，延迟确定模块440将历史统计的先验延迟确定为最终的回声延迟，响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内超出所述预定范围，延迟确定模块440将所述与峰值对应的延迟确定为最终的回声延迟。另外，响应于可靠性模块420确定峰值不稳定或稳定性模块430确定与峰值对应的延迟不稳定，延迟确定模块440可确定将历史统计的先验延迟确定为最终的回声延迟。

根据本公开的示例性实施例的装置可还包括：先验延迟模块450，被配置为存储历史统计的先验延迟，并根据最终的回声延迟调整所述历史统计的先验延迟的序列和取值范围。先验延迟模块450可被配置为在每次关闭所述装置时记录调整后的先验延迟的序列和取值范围，并在下次开启所述装置时将上次关闭时记录的先验延迟的序列和取值范围用作先验延迟的初始值。

图5示出了根据本公开的示例性实施例的消除回声的方法的流程图。可在需要执行回声消除的终端设备(诸如，主播终端设备)中执行该方法。

如图5所示，首先，在步骤510，接收包括远端音频信号和近端音频信号的声音信号。这里，可通过诸如麦克风的音频接收装置来接收声音信号。音频接收装置可以内置在终端设备中，或者通过有线/无线方式与终端设备连接并将接收的音频信号发送到终端设备中以进行后续处理。

接下来，在步骤520，计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列。

在步骤530，检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性。

在步骤540，响应于确定峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性。

在步骤550，响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟。

以上已经参照图3描述了生成相干性系数序列、确定峰值可靠性、和延迟稳定性的具体过程，在此不再进行详细描述。

最后，在步骤560，使用确定的回声延迟来对声音信号执行回声消除。具体地，参照图2，可从输入的声音信号减去估计的延迟信号，从而执行对声音信号的回声消除。

图6示出了根据本公开的示例性实施例的用于消除回声的设备的框图。

如图6所示，用于消除回声的设备600可包括音频接收装置610和回声消除器620。音频接收装置610被配置为接收声音信号，其中，所述声音信号包括远端音频信号和近端音频信号。音频接收装置610(例如，麦克风)可以内置在设备600中，或者通过有线/无线方式与设备600连接并将接收的音频信号发送到设备600中以进行后续处理。回声消除器620被配置为对接收到的声音信号进行回声消除处理，其中，回声消除器620被配置为：计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；响应于确定峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，将所述与峰值对应的延迟和根据历史统计的先验延迟之一确定最终的回声延迟；使用确定的回声延迟来对接收到的声音信号执行回声消除。

图7是示出根据本公开的示例性实施例的一种用于确定和消除回声延迟的电子设备的结构框图。该电子设备700例如可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本公开的如图3和/图5所示的方法实施例提供的方法。

在一些实施例中，电子设备700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置在电子设备700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位电子设备700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为电子设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置电子设备700的正面、背面或侧面。当电子设备700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在电子设备700的前面板。接近传感器716用于采集用户与电子设备700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对电子设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的确定和消除回声延迟的方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成确定和消除回声延迟方法。

根据本公开的实施例的确定和消除回声延迟的方法、装置、电子设备、计算机可读存储介质能够增强回声延迟估计的鲁棒性，能够实现抗频响畸变、抗噪声干扰、抗双讲干扰、抗混响干扰等效果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种估计回声延迟的方法，其特征在于，包括：

计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；

检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；

响应于确定峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；

响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟，

其中，所述计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列包括：

对远端音频信号和近端音频信号进行分帧处理和短时傅里叶变换以获得远端频域信号序列Far(n)和近端频域信号序列Near(n)，其中，n为帧编号；

根据远端频域信号序列Far(n-m)与近端频域信号序列Near(n)的协方差序列Cov_m(n)、近端频域信号序列Near(n)的自相关序列Var_near(n)以及远端频域信号序列Far(n-m)的自相关序列Var_far(n-m)来计算所述与不同的延迟相应的多个相干性系数序列Coh_m(n)，

其中，m指示延迟搜索的帧数，其取值范围为[M,-M]，M是最大延迟搜索帧数。

2.如权利要求1所述的方法，其特征在于，响应于确定所述多个相干性系数序列的峰值不可靠或与所述多个相干性系数序列的峰值对应的延迟不稳定，使用根据历史统计的先验延迟作为最终的回声延迟。

3.如权利要求1所述的方法，其特征在于，所述检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性包括：

从所述多个相干性系数序列中检测峰值大小较高的前L个峰值，其中，L为大于等于2的整数；

根据所述L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性。

4.如权利要求3所述的方法，其特征在于，根据所述L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性包括：

当以下条件被满足时，确定所述多个相干性系数序列的最高峰值peak1可靠：

所述L个峰值中的最高峰值pek1与第二高峰值peak2的大小之比大于第一比例值；

所述L个峰值中的最高峰值pek1与所述L个峰值中的其余峰值的平均大小之比超过第二比例值；

5.如权利要求4所述的方法，其特征在于，所述第一比例值和第二比例值根据与所述最高峰值peak1所对应的延迟相对于历史统计的先验延迟的取值范围的关系而具有不同值，

其中，当最高峰值pek1所对应的延迟在先验延迟的取值范围之内时，所述第一比例值具有第一值，否则，所述第一比例值具有第二值；

当最高峰值pek1所对应的延迟在先验延迟的取值范围之内时，所述第二比例值具有第三值，否则，所述第二比例值具有第四值，

其中，第一值小于第二值，第三值小于第四值。

6.如权利要求1所述的方法，其特征在于，所述确定与所述多个相干性系数序列的峰值对应的延迟的稳定性包括：

确定与所述多个相干性系数序列的峰值对应的延迟保持连续不变的时间；

响应于确定与所述多个相干性系数序列的峰值对应的延迟保持连续不变的时间超过阈值，确定所述与峰值对应的延迟达到稳定状态。

7.如权利要求1所述的方法，其特征在于，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟包括：

响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内，将历史统计的先验延迟确定为最终的回声延迟；

响应于所述与峰值对应的延迟与历史统计的先验延迟的差值在预定范围之内超出所述预定范围，将所述与峰值对应的延迟确定为最终的回声延迟。

8.如权利要求1所述的方法，其特征在于，还包括：根据最终的回声延迟调整所述历史统计的先验延迟的序列和取值范围。

9.如权利要求8所述的方法，其特征在于，还包括：在每次关闭执行估计回声延迟的方法的设备时记录调整后的先验延迟的序列和取值范围，并在下次开启执行所述估计回声延迟的方法的设备时将上次关闭时记录的先验延迟的序列和取值范围用作先验延迟的初始值。

10.一种估计回声延迟的装置，其特征在于，包括：

相干性模块，被配置为计算远端音频信号和近端音频信号的信号相干性系数以形成与不同的延迟相应的相干性系数序列；

可靠性模块，被配置为检测与不同的延迟相应的多个相干性系数序列的峰值并确定所述多个相干性系数序列的峰值的可靠性；

稳定性模块，被配置为响应于可靠性模块确定所述多个相干性系数序列的峰值可靠，确定与所述多个相干性系数序列的峰值对应的延迟的稳定性；

延迟确定模块，被配置为响应于稳定性模块确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟，

其中，所述相干性模块包括：

时频序列生成模块，被配置为对输入的远端音频信号和近端音频信号进行分帧处理和短时傅里叶变换以获得远端频域信号序列Far(n)和近端频域信号序列Near(n)，其中，n为帧编号；

相干性系数序列生成模块，被配置为根据远端频域信号序列Far(n-m)与近端频域信号序列Near(n)的协方差序列Conv_m(n)、近端频域信号序列Near(n)的自相关序列Var_near(n)以及远端频域信号序列Far(n-m)的自相关序列Var_far(n-m)来计算所述与不同的延迟相应的多个相干性系数序列，其中，m指示延迟搜索的帧数，其取值范围为[M,-M]，M是最大延迟搜索帧数。

11.如权利要求10所述的装置，其特征在于，所述延迟确定模块被配置为：响应于可靠性模块确定峰值不可靠或稳定性模块确定与峰值对应的延迟不稳定，使用根据历史统计的先验延迟作为回声延迟。

12.如权利要求10所述的装置，其特征在于，所述可靠性模块包括：

峰值检测模块，被配置为从所述多个相干性系数序列中检测峰值大小较高的前L个峰值，其中，L为大于等于2的整数；

可靠性确定模块，被配置为根据所述L个峰值中的最高峰值peak1相对于其他峰值的突出程度来确定所述多个相干性系数序列的峰值的可靠性。

13.如权利要求12所述的装置，其特征在于，所述可靠性确定模块被配置为在以下条件同时被满足时确定所述多个相干性系数序列的最高峰值peak1可靠：

14.如权利要求13所述的装置，其特征在于，所述第一比例值和第二比例值根据最高峰值peak1所对应的延迟相对于历史统计的先验延迟的取值范围的关系而具有不同值，

其中，第一值小于第二值，第三值小于第四值。

15.如权利要求10所述的装置，其特征在于，所述稳定性模块包括：

连续性时间确定模块，被配置为确定所述与峰值对应的延迟保持连续不变的时间；

稳定性确定模块，被配置为响应于确定所述与峰值对应的延迟保持连续不变的时间超过阈值，确定所述与峰值对应的延迟达到稳定状态。

16.如权利要求10所述的装置，其特征在于，所述延迟确定模块被配置为：

17.如权利要求10所述的装置，其特征在于，还包括：先验延迟模块，被配置为存储所述历史统计的先验延迟，并根据最终的回声延迟调整所述历史统计的先验延迟的序列和取值范围。

18.如权利要求17所述的装置，其特征在于，所述先验延迟模块被配置为在每次关闭所述装置时记录调整后的先验延迟的序列和取值范围，并在下次开启所述装置时将上次关闭时记录的先验延迟的序列和取值范围用作先验延迟的初始值。

19.一种电子设备，其特征在于，包括：

音频接收装置，被配置为接收声音信号，其中，所述声音信号包括远端音频信号和近端音频信号；

回声消除器，被配置为对接收到的声音信号进行回声消除处理，

其中，所述回声消除器被配置为：

响应于确定与所述多个相干性系数序列的峰值对应的延迟达到稳定状态，根据所述与峰值对应的延迟和历史统计的先验延迟的大小关系确定最终的回声延迟；

使用确定的回声延迟来对接收到的声音信号执行回声消除，

20.一种用于回声消除的方法，其特征在于，包括：

接收包括远端音频信号和近端音频信号的声音信号；

使用确定的回声延迟来对声音信号执行回声消除，

21.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至9以及权利要求20中任一权利要求所述的方法。

22.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至9以及权利要求20中任一权利要求所述的方法。

23.一种计算机程序产品，其特征在于所述计算机程序产品中的指令被电子设备中的至少一个处理器运行以执行如权利要求1到9以及权利要求20中任一权利要求所述的方法。