CN115620740A

CN115620740A - 对回声路径的语音延时估计方法、装置和存储介质

Info

Publication number: CN115620740A
Application number: CN202110783456.XA
Authority: CN
Inventors: 高毅; 罗程; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2023-01-17

Abstract

本申请涉及一种对回声路径的语音延时估计方法、装置、计算机设备和存储介质。所述方法包括：获取回声路径中与接收器对应的接收点处的当前接收音频帧；提取当前接收音频帧的音频指纹，得到当前第一音频特征；获取存储的多个第二音频特征；多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到；将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，基于匹配结果从多个第二音频特征中确定目标第二音频特征；根据目标第二音频特征所对应的存储顺序，确定回声路径的延时。采用本方法能够提升回声路径的延时确定效率。

Description

对回声路径的语音延时估计方法、装置和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种对回声路径的语音延时估计方法、装置和存储介质。

背景技术

随着网络技术的发展，越来越多的用户开始采用网络进行语音实时通话。而影响网络语音通话的关键因素之一就是回声，因此，为了提高网络语音通话时的语音质量，就必须在网络语音通话过程中消除回声。

消除回声的首要步骤就是确定回声路径中的语音延时。传统的语音延时估计方法通常采用互相关法，通过对回声路径中的远端输入信号和近端输入信号进行采样，得到采样结果，然后对采样结果进行互相关运算，得到互相关系数，并根据互相关系数进行语音延时的估计。然而互相关运算的计算量较大，导致回声路径的延时确定效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升回声路径的延时确定效率的对回声路径的语音延时估计方法、装置、计算机设备和存储介质。

一种对回声路径的语音延时估计方法，所述方法包括：

获取回声路径中与接收器对应的接收点处的当前接收音频帧；

提取所述当前接收音频帧的音频指纹，得到当前第一音频特征；

获取存储的多个第二音频特征；所述多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到；

将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，并基于匹配结果从所述多个第二音频特征中确定目标第二音频特征；

根据所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时。

一种对回声路径的语音延时估计装置，所述装置包括：

第一特征获取模块，用于获取回声路径中与接收器对应的接收点处的当前接收音频帧；提取所述当前接收音频帧的音频指纹，得到当前第一音频特征；

第二特征获取模块，用于获取存储的多个第二音频特征；所述多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到；

特征匹配模块，用于将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，并基于匹配结果从所述多个第二音频特征中确定目标第二音频特征；根据所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时。

在一个实施例中，所述第一特征获取模块还包括差分模块，用于将所述当前接收音频帧从时域信号转换为频域信号，得到当前频谱信号；对所述当前频谱信号进行频带划分处理，得到当前子频带序列，并确定所述当前子频带序列中的每个子频带各自对应的子带能量；根据所述当前子频带序列中的每个子频带各自对应的子带能量，确定与所述当前接收音频帧相对应的当前差分能量序列；根据所述当前差分能量序列、以及与历史接收音频帧相对应的历史差分能量序列，确定与所述当前接收音频帧相对应的当前第一音频特征；所述历史接收音频帧为在前一时刻流经所述接收点的音频帧。

在一个实施例中，所述差分模块还用于遍历所述当前子频带序列中的每个子频带，并确定当前遍历至的子频带和下一顺序遍历至的子频带；对所述当前遍历至的子频带的子带能量、及下一顺序遍历至的子频带的子带能量进行第一差分处理，得到与当前遍历至的子频带对应的第一差分能量值；综合所述当前子频带序列中的各子频带分别对应的第一差分能量值，得到当前差分能量序列。

在一个实施例中，所述差分模块还用于对于所述当前差分能量序列中的每个第一差分能量值，均将当前第一差分能量值与历史差分能量序列中具有相同序列位置的第二差分能量值进行第二差分处理，得到目标差分能量序列；根据所述目标差分能量序列，确定与所述当前接收音频帧对应的当前第一音频特征。

在一个实施例中，所述差分模块还用于对于所述目标差分能量序列中的每个目标差分能量值，均对当前目标差分能量值进行二值化处理，得到二值化结果序列；对于所述二值化结果序列中的每个二值化结果，均在当前二值化结果大于预设阈值时，确定与所述当前二值化结果对应的子带特征为第一目标值；在所述当前二值化结果小于或等于预设阈值时，确定与所述当前二值化结果对应的子带特征为第二目标值；综合每个所述二值化结果各自对应的子带特征的目标值，得到与所述当前接收音频帧相对应的当前第一音频特征。

在一个实施例中，所述第二特征获取模块还用于获取流经与所述播放器对应的参考点的参考语音信号；对所述参考语音信号进行分帧处理，得到至少一个参考音频帧；对每个所述参考音频帧均进行特征提取处理，得到各所述参考音频帧各自对应的第二音频特征；按照所述参考音频帧的采集时间由远至近的顺序，将所述各参考音频帧各自对应的第二音频特征存储至特征存储器中。

在一个实施例中，所述特征匹配模块还包括目标特征确定模块，用于将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，得到当前匹配值序列，并确定所述当前匹配值序列中的最高匹配值；将所述多个第二音频特征中具有最高匹配值的第二音频特征，作为目标第二音频特征。

在一个实施例中，所述特征匹配模块还包括延时确定模块，用于将所述最高匹配值在所述匹配值序列中的顺序，作为所述目标第二音频特征所对应的存储顺序；根据所述参考音频帧的帧长、以及所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时。

在一个实施例中，所述目标特征确定模块还用于将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，得到与当前第一音频特征相对应的当前匹配值序列；获取与历史第一音频特征相对应的历史综合匹配值序列；根据所述当前匹配值序列和所述历史综合匹配值序列，得到与所述当前第一音频特征相对应的当前综合匹配值序列，并确定所述当前综合匹配值序列中的最高综合匹配值；将与所述最高综合匹配值相对应的第二音频特征，作为目标第二音频特征。

在一个实施例中，所述目标特征确定模块还用于对于所述当前匹配值序列中的每个匹配值，均将当前匹配值与所述历史综合匹配值序列中具有相同序列位置的历史综合匹配值进行平滑处理，得到所述当前匹配值序列中的每个匹配值各自对应的综合匹配值；根据各所述综合匹配值，得到当前综合匹配值序列。

在一个实施例中，所述延时确定模块还用于将所述最高综合匹配值在所述当前综合匹配值序列中的顺序，作为所述目标第二音频特征所对应的存储顺序；根据参考音频帧的帧长、以及所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时。

在一个实施例中，所述对回声路径的语音延时估计装置还包括回声消除模块，用于根据所述回声路径的延迟时间，对流经所述接收点的接收语音信号和流经所述参考点的参考语音信号进行语音对齐处理；根据语音对齐处理后的接收语音信号和参考语音信号对回声路径中的回声进行消除处理。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上以下步骤：获取回声路径中与接收器对应的接收点处的当前接收音频帧；提取所述当前接收音频帧的音频指纹，得到当前第一音频特征；获取存储的多个第二音频特征；所述多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到；将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，并基于匹配结果从所述多个第二音频特征中确定目标第二音频特征；根据所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时。

上述对回声路径的语音延时估计方法、装置、计算机设备、存储介质和计算机程序，通过获取回声路径中流经接收点的当前接收音频帧时，可对当前接收音频帧进行音频指纹提取处理，得到当前第一音频特征。通过获取多个第二音频特征，可直接将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，得到匹配结果，如此，便能基于匹配结果确定目标第二音频帧，从而可基于目标第二音频特征所对应的存储顺序，确定回声路径延时。相比于传统的对采样结果进行互相关运算，得到互相关系数，并根据互相关系数进行语音延时的估计，本申请仅需进行特征匹配即可确定回声路径的延时，从而大大减少了计算量，提升了回声路径延时的确定效率。

此外，由于不同回声路径所对应的回声环境各不相同，因此，采用互相关法进行回声路径延时估计的稳定性较低。而本申请是基于各音频帧的音频指纹来确定回声路径的延时的，音频指纹是反映音频帧固有特征的信息，其不受回声环境的影响，因此，相比于传统的采用互相关法进行回声路径延时估计，本申请还具有较高的稳性。

附图说明

图1为一个实施例中对回声路径的语音延时估计方法的应用环境图；

图2为一个实施例中对回声路径的语音延时估计方法的流程示意图；

图3为一个实施例中回声路径的示意图；

图4为一个实施例中特征存储器的示意图；

图5为一个实施例中音频指纹提取的示意图；

图6为一个实施例中特征匹配处理的示意图；

图7为一个实施例中匹配值序列的示意图；

图8为一个实施例中综合匹配值序列的示意图；

图9A为一个实施例中当前频谱信号的频谱图；

图9B为一个实施例中当前综合匹配值序列的示意图；

图10为一个实施例中对回声路径的语音延时估计方法的流程示意图；

图11为具体一个实施例中对回声路径的语音延时估计方法流程图；

图12为一个实施例中对回声路径的语音延时估计装置的结构框图；

图13为另一个实施例中对回声路径的语音延时估计装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中描述对回声路径的语音延时估计方法的应用环境图。参照图1，该对回声路径的语音延时估计方法应用于对回声路径的语音延时估计系统100。对回声路径的语音延时估计系统100包括计算机设备102、播放器104和接收器106。计算机设备102获取在预设时间段内，流经与播放器104对应的参考点的多个音频帧，并提取各音频帧的音频特征，得到多个第二音频特征，将多个第二音频特征依次存储于特征存储器。计算机设备102获取在当前时刻流经与接收器106相对应的接收点音频帧，并提取该音频帧的音频特征，得到当前第一音频特征。计算机设备102将当前第一音频特征与特征存储器中的各第二音频特征进行特征匹配处理，得到匹配结果，并根据匹配结果确定回声路径的延时。

其中，计算机设备102具体可以是终端或服务器。终端可以但不限于是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。播放器104具体可以是硬件设备或者软件模块，能实现声音的播放，包括但不限于是喇叭、音响等用于将音频帧转换为声音播放的电子设备。接收器106具体可以是硬件设备或者软件模块，能采集声音，包括但不限于是麦克风、无线话筒等用以采集声音，并将采集的声音转换为对应音频帧的电子设备。

在一个实施例中，如图2所示，提供了一种对回声路径的语音延时估计方法，其中，该回升路径中设置有播放器和接收器，播放器用于将传输至的音频帧转换成声音播放，接收器用于采集声音并将采集的声音转换成对应的音频帧。以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

步骤S202，获取回声路径中与接收器对应的接收点处的当前接收音频帧。

其中，回声路径包括播放器和接收器，当前接收音频帧指的是在当前时刻流经接收器所对应的接收点的音频帧。

在一个实施例中，参考图3，语音信号在送入播放器进行播放之前需要经过参考点，流经参考点的语音信号一般称为参考语音信号。可通过软硬件播放逻辑模块对参考语音信号进行解析，得到解析结果，从而播放器即可基于解析结果进行语音播放。播放的语音可经过空气等介质的传播进入接收器，并通过软硬件采集逻辑模块到达接收点，流经接收点的语音信号一般称之为接收语音信号。语音信号从参考点传输至播放器所经过的时间可称为软硬件播放延时，语音信号从播放器经过空气等传输介质传输至接收器所经过的延时一般称为声学路径延时，语音信号从接收器传输至接收点的延时称为软硬件采集延时。从而计算机设备可通过所搭载的延时估计模块，并采用对回声路径的语音延时估计方法，通过对比参考语音信号和接收语音信号，估计出语音信号从参考点到接收点之间的延时。图3示出了一个实施例中回声路径的示意图。

具体地，当播放器播进行语音播放后，所播放的语音信号即可通过空气等传输介质传输至接收器。其中，语音信号包括有至少一个的音频帧。计算机设备获取在当前时刻流经与接收器相对应的接收点处的音频帧，并将获取得到的音频帧作为当前接收音频帧。其中，音频帧指的是计算机设备可处理且可还原出声音的数据。在一个实施例中，回声路径可主动将当前接收音频帧发送至计算机设备，以使计算机设备基于当前接收音频帧进行后续的处理，计算机设备也可主动从回声路径中获取当前接收音频帧。本实施例在此不做限定。

在一个实施例中，可以理解，回声路径中可能产生回声。比如，参考图3，当图3中的播放器和接收器均处于较小的密闭空间时，播放器所播放的声音会在密闭空间中进行一系列的反射后重复进入接收器，使得接收器重复接收语音信号，如此，便产生了回声。而本申请可通过对回声路径的语音延时估计方法，估计回声路径中的延时，以使后续可基于所估计的延时消除回声路径中的回声。

步骤S204，提取当前接收音频帧的音频指纹，得到当前第一音频特征。

其中，音频指纹指的是反映音频帧固有特征的信息。比如，音频指纹可反映音频帧所对应的频率、能量值或者音频信号在该频域的幅值等，通过对音频指纹的提取，可以得到相应的音频特征。

具体地，当获取得到当前接收音频帧时，计算机设备可提取当前接收音频帧中的音频指纹，得到当前第一音频特征。在一个实施例中，计算机设备可通过预先训练的特征提取机器学习模型提取当前接收音频帧的音频指纹，得到当前第一音频特征。其中，特征提取机器学习模型可通过样本学习具备音频指纹提取能力。特征提取机器学习模型可采用神经网络模型、双路径网络模型(DPN，DualPathNetwork)、支持向量机或者逻辑回归模型等。

在一个实施例中，当获取得到当前接收音频帧时，计算机设备可通过快速傅里叶变换(Fast Fourier Transformation FFT)，将当前接收音频帧从时域转换为频域，得到相应的频谱分布，也即得到当前接收音频帧所对应的当前频谱信号。进一步地，计算机设备可对当前频谱信号进行梅尔频带划分，得到包括有多个子频带的子频带序列，并计算子频带序列中每个子频带各自对应的子带能量。对于子频带序列中的每个子频带，计算机设备均确定当前子频带，并确定与当前子频带相邻、且位于当前子频带之前的前序子频带，以及确定与当前子频带相邻、且位于当前子频带之后的后续子频带，若当前子频带的子带能量大于前序子频带的子带能量、且大于后续子频带的子带能量时，确定当前子频带所对应的子带特征为第一目标值，否则为第二目标值。计算机设备综合各子频带各自对应的子带特征，得到当前接收音频帧的当前第一音频特征。比如，当子频带序列中存储有1号至32号的子频带、第一目标值为1、第二目标值为0时，对于8号子频带，若7号子频带的子带能量以及9号子频带的子带能量均小于8号子频带的子带能量时，即可确定8号子频带的子带特征为1。计算机设备综合各子频带各自对应的子带特征，按照子频带在子频带序列中顺序，将各子频带各自对应的频带特征依次存储于一个32位的整形变量中，并将该整形变量作为当前第一音频特征。

容易理解地，对于子频带序列中的首个子频带和末尾子频带，计算机设备可确定首个子频带的子带特征、以及确定末尾子频带的子带特征为预设值，也可在首个子频带的子带能量大于后续子频带的子带能量时，即确定首个子频带的子带特征为第一目标值，在末尾子频带的子带能量大于前序子频带的子带能量时，确定末尾子频带的子带特征为第一目标值。本实施例在此不做限定。

步骤S206，获取存储的多个第二音频特征；多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到。

具体地，在包括当前时刻在内的预设历史时间段内，计算机设备会对流经参考点的参考音频帧均进行音频指纹提取处理，得到每个参考音频帧各自对应的第二音频特征，并按照各参考音频帧的采集时间的时间顺序，将提取的第二音频特征进行存储，比如，当第1ms时接收到A参考音频帧，在第5ms接收到B音频帧，在第9ms接收到C参考音频帧时，计算机设备将A参考音频帧的第二音频特征存储于特征存储器的首位，将B参考音频帧的第二音频特征存储于特征存储器的第二位，将C参考音频帧的第二音频特征存储于特征存储器的第三位。其中，参考音频帧的时间顺序指的是，考音频帧的采集时间在多个参考音频帧的采集时间中的顺序。

其中，历史时间段指的是以当前时刻为终点的一段历史时间，历史时间段的具体时间长度可根据需求自由设置，比如，可根据一般情况下回声路径的延时来确定预设时间段的时长，从而在后续进行特征匹配时，可以提升匹配成功的概率。当一般情况下，回声路径的延时不会超过4秒时，即可将历史时间段的时间长度设置为4秒，从而在需要进行延时估计时，计算机设备获取以当前时刻为终点的4秒内流经参考点的参考音频帧的第二音频特征。

在一个实施例中，获取存储的多个第二音频特征之前，还包括第二音频特征的存储步骤，第二音频特征的存储步骤还包括：获取流经与播放器对应的参考点的参考语音信号；对参考语音信号进行分帧处理，得到至少一个参考音频帧；对每个参考音频帧均进行特征提取处理，得到各参考音频帧各自对应的第二音频特征；按照参考音频帧的采集时间由远至近的顺序，将各参考音频帧各自对应的第二音频特征存储至特征存储器中。

具体地，计算机设备可实时获取流经参考点的参考语音信号，并对参考语音信号进行分帧处理，得到至少一个参考音频帧。比如，计算机设备可获取在12:00时刻流经参考点的一段参考语音信号，并以10ms为帧长，对该参考语音信号进行分帧处理，得到多个参考音频帧。进一步地，计算机设备可按照上述音频指纹提取方式对各参考音频帧进行音频指纹提取处理，得到每个参考音频帧各自对应的第二音频特征，并按照参考音频帧的采集时间由远至近的顺序，从特征存储器的尾部开始，依次将各参考音频帧各自对应的第二音频特征存储至特征存储器中。其中，特征存储器指的是用以存储第二音频特征的存储空间，其具体可以为一个存储序列。

在其中一个实施例中，特征存储器的大小可固定，也即可预先设置特征存储器的存储大小。比如，参考图4，在上述举例中，当特征存储器的预设存储大小为75，特征存储器中已存储有F(1)至F(75)共75个第二音频特征，且当在12:00:00:000时采集得到A参考音频帧，在12:00:00:010时采集得到B参考音频帧时，计算机设备优先将A参考音频帧的第二音频特征F(76)存储至特征存储器尾部，与此同时，存储于特征存储器的第二音频特征F(1)至F(75)均向头部移动一位，从而第二音频特征F(1)被移出特征存储器，此时特征存储器中存储有第二音频特征F(2)至F(76)。进一步地，计算机设备再将B参考音频帧的第二音频特征F(77)存储于特征存储器，此时特征存储器中存储有第二音频特征F(3)至F(77)。图4示出了一个实施例中特征存储器的示意图。

容易理解地，在特征存储器的存储大小固定，且计算机设备不断地将实时获取的参考音频帧的第二音频特征从尾部存储至特征存储器时，特征存储器所存储的第二音频帧即可为在历史时间段内流经参考点的参考音频帧的第二音频特征。比如，当历史时段的时间长度为750ms，帧长为10ms时，即可确定特征存储器的存储大小为75，从而特征存储器仅能存储距当前时刻起前750ms内流经参考音频帧的第二音频特征。

本实施例中，通过设置特征存储器，可基于特征存储器对第二音频特征进行存储，从而当需要进行语音延时估计时，仅需将当前接收音频帧的当前第一音频特征与特征存储器中的各第二音频特征进行特征匹配处理即可确定延时时间，如此，便提升可回声路径延时的确定效率。

步骤S208，将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，并基于匹配结果从多个第二音频特征中确定目标第二音频特征。

具体地，当获取得到多个第二音频特征时，计算机设备可将当前第一音频特征与每个第二音频特征均进行特征匹配处理，得到匹配结果。比如，计算机设备将当前第一音频特征与每个第二音频特征均进行异或运算，得到当前第一音频特征与每个第二音频特征之间的匹配值，并按照第二音频特征的存储顺序，将各匹配值依次存储于匹配值序列中。比如，计算机设备按照第二音频特征在特征存储器中的存储顺序，依次将各匹配值存储于匹配值序列中。进一步地，计算机设备根据匹配值序列中的各匹配值，从多个第二音频特征中筛选出目标第二音频特征。比如，计算机设备将具有最高匹配值的目第二音频特征作为目标第二音频特征。

在一个实施例中，计算机设备还可基于预先训练的机器学习模型计算当前第一音频特征与每个第二音频特征之间的匹配值，得到相应的匹配结果。

步骤S210，根据目标第二音频特征所对应的存储顺序，确定回声路径的延时。

其中，目标第二音频特征所对应的存储顺序指的是目标第二音频特征在多个第二音频特征中的存储顺序。容易理解地，由于获取的多个第二音频特征是按照各参考音频帧的时间顺序对应存储得到，因此第二音频特征的存储顺序与接收音频帧的时间顺序一致。比如，在历史时间段内依次获取得到参考音频帧1至75，且参考音频帧1所对应的第二音频特征为F(1)，参考音频帧2所对应的第二音频特征为F(2)，依次类推，参考音频帧75所对应的第二音频特征为F(75)，所确定的目标第二音频特征为F(44)时，目标第二音频特征的存储顺序即为倒数第32位，与目标第二音频特征相对应的参考音频帧74的时间顺序也为倒数第32位。

具体地，当获取得到目标第二音频特征时，计算机设备可确定目标第二音频特征所对应的存储顺序，并根据存储顺序以及参考音频帧的帧长，确定回声路径的延时。比如，在上述举例中，当目标第二音频特征的存储顺序为倒数第32位时，计算机设备可将存储顺序减去1后再乘以帧长，得到回声路径的延时。

在一个实施例中，当将第二音频特征存储于特征存储器时，目标第二音频特征的存储顺序即为目标第二音频特征在特征存储器中的顺序。比如，参考图4，当特征存储器中存储有第二音频特征F(3)至F(77)，目标第二音频特征为F(76)时，目标第二音频特征的存储顺序即为正数第74位，倒数第2位。

在一个实施例中，可以预先设置存储顺序与回声路径延时之间的对应关系，从而当确定目标第二音频特征的存储顺序时，即可基于预先设置的对应关系，确定相应的回声路径的延时。例如，可预先设置当存储顺序为倒数第1位时，回声路径的延时为0ms，当存储顺序为倒数第2位时，回声路径的延时为10ms，当存储顺序为倒数第2位时，回声路径的延时为20ms，从而在确定目标第二音频特征的存储顺序为倒数第2位时，确定此时的回声路径的延时为20ms。

上述对回声路径的语音延时估计方法中，通过获取回声路径中流经接收点的当前接收音频帧时，可对当前接收音频帧进行音频指纹提取处理，得到当前第一音频特征。通过获取多个第二音频特征，可直接将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，得到匹配结果，如此，便能基于匹配结果确定目标第二音频帧，从而可基于目标第二音频特征所对应的存储顺序，确定回声路径延时。相比于传统的对采样结果进行互相关运算，得到互相关系数，并根据互相关系数进行语音延时的估计，本申请仅需进行特征匹配即可确定回声路径的延时，从而大大减少了计算量，提升了回声路径延时的确定效率。

在一个实施例中，提取当前接收音频帧的音频指纹，得到当前第一音频特征，包括：将当前接收音频帧从时域信号转换为频域信号，得到当前频谱信号；对当前频谱信号进行频带划分处理，得到当前子频带序列，并确定当前子频带序列中的每个子频带各自对应的子带能量；根据当前子频带序列中的每个子频带各自对应的子带能量，确定与当前接收音频帧相对应的当前差分能量序列；根据当前差分能量序列、以及与历史接收音频帧相对应的历史差分能量序列，确定与当前接收音频帧相对应的当前第一音频特征；历史接收音频帧为在前一时刻流经接收点的音频帧。

具体地，当获取得到当前接收音频帧时，计算机设备可通过快速傅里叶变换，将当前接收音频帧从时域信号转换为频域信号，得到当前接收音频帧所对应的频谱分布，也即得到当前频谱信号。进一步地，计算机设备对当前频谱信号进行频带划分处理，比如，计算机设备对当前频谱信号进行线性划分，得到包含有多个子频带当前子频带序列。其中，划分的子频带数量可根据需求自由设置。比如，可将当前频谱信号划分为M+1个子频带，其中M可为16、32或者64等便于存储和计算的量，从而基于划分得到的M+1个子频带确定的当前第一音频特征可刚好存储于一个整形变量中。比如，当M为32时，基于33个子频带确定的当前第一音频特征刚好可存储于一个32位的整形变量中。

进一步地，计算机设备确定当前子频带序列中的每个子频带各自对应的子带能量，并对当前子带序列中相邻两个子频带的子带能量进行第一差分处理，得到与当前接收音频帧相对应的当前差分能量序列。计算机设备获取与历史接收音频帧相对应的历史差分能量序列，并将当前差分能量序列与历史差分能量序列进行第二差分处理，得到与当前接收音频帧相对应的当前第一音频特征。其中，历史接收音频帧为在当前时刻之前的前一时刻流经接收点的音频帧。容易理解地，计算机设备可实时获取接收音频帧，对于每个实时获取的接收音频帧，计算机设备均会确定与该接收音频相对应的差分能量序列，从而计算机设备可根据相邻两个接收音频帧的差分能量序列，确定相邻两个接收音频帧中的后一个接收音频帧的第一音频特征。

在其中一个实施例中，计算机设备可根据心理声学理论进行梅尔频带划分，得到当前子频带序列。

在其中一个实施例中，对应当前子频带序列中的每个子频带，计算机设备均确定当前子频带所对应的声音片段的平均功率，并基于平均功率确定当前子频带的子带能量。

上述实施例中，由于是综合当前接收音频帧的当前差分能量序列和历史接收音频帧的历史差分能量序列，来确定当前接收音频帧的第一音频特征，使得所确定的第一音频特征可以包含有更为丰富的语音信息，从而使得后续基于第一音频特征所确定的回声路径延时更为准确。

在一个实施例中，根据当前子频带序列中的每个子频带各自对应的子带能量，确定与当前接收音频帧相对应的当前差分能量序列，包括：遍历当前子频带序列中的每个子频带，并确定当前遍历至的子频带和下一顺序遍历至的子频带；对当前遍历至的子频带的子带能量、及下一顺序遍历至的子频带的子带能量进行第一差分处理，得到与当前遍历至的子频带对应的第一差分能量值；综合当前子频带序列中的各子频带分别对应的第一差分能量值，得到当前差分能量序列。

其中，第一差分能量值指的是当前差分能量序列相邻两个子频带的子带能量进行差分处理后，得到的差分结果。第一差分能量值反映了相邻两个子频带的子带能量的变化趋势。

具体地，当获取得到当前子频带序列中的每个子频带各自对应的子带能量时，计算机设备遍历当前子频带序列中的每个子频带，并确定当前遍历至的子频带和下一顺序遍历至的子频带。比如，当遍历至当前子带序列中的首个子频带时，则位于当前子带序列中的第二位的子频带即为下一顺序遍历至的子频带。

进一步地，计算机设备确定当前遍历至的子频带的子带能量，以及确定下一顺序遍历至的子频带的子带能量，并对当前遍历至的子频带的子带能量和下一顺序遍历至的子频带的子带能量进行差分处理，得到与当前遍历至的子频带对应的第一差分能量值。如此迭代，直至计算机设备对当前子频带序列中的每个子频带均遍历一遍，得到各子频带各自对应的第一差分能量值，并按照各子频带的遍历顺序，将各子频带各自对应的第一差分能量值存储于序列中，得到当前差分能量序列。比如，计算机设备将与第一顺序遍历至的子频带相对应的第一差分能量值存储于当前差分能量序列中的第一位，将与第二顺序遍历至的子频带相对应的第一差分能量值存储于当前差分能量序列中的第二位。

值得注意的，对于当前子频带序列中的最后顺序遍历至的子频带，可直接将与最后顺序遍历至的子频带对应的第一差分能量值设置为预设值，比如为0，或者暂停确定与最后顺序遍历至的子频带对应的第一差分能量值。本实施例在此不做限定。

在其中一个实施例中，参考图5，图5示出了一个实施例中音频指纹提取的示意图。对于当前接收音频帧所对应的当前子频带序列，计算机设备均对相邻两个子频带的子带能量进行第一差分处理，得到当前差分能量序列502。

在其中一个实施例中，第一差分处理具体可为差分运算，计算机设备可将下一顺序遍历至的子频带的子带能量与当前遍历至的子频带的子带能量进行差分运算，得到与当前遍历至的子频带对应的第一差分能量值。比如，计算机设备可将当前遍历至的子频带的子带能量，减去下一顺序遍历至的子频带的子带能量，得到与当前遍历至的子频带对应的第一差分能量值。

上述实施例中，通过对当前子频带序列中的相邻两个子频带的子带能量进行第一差分处理，可以基于差分处理结果确定子频带的子带能量在频率维度上的变化趋势，从而后续可基于变化趋势准确确定当前第一音频特征。

在一个实施例中，根据当前差分能量序列、以及与历史接收音频帧相对应的历史差分能量序列，确定与当前接收音频帧相对应的当前第一音频特征，包括：对于当前差分能量序列中的每个第一差分能量值，均将当前第一差分能量值与历史差分能量序列中具有相同序列位置的第二差分能量值进行第二差分处理，得到目标差分能量序列；根据目标差分能量序列，确定与当前接收音频帧对应的当前第一音频特征。

具体地，对于每个在接收点处实时接收到的接收音频帧，计算机设备均会确定每个接收音频帧各自对应的差分能量序列，因此，当生成当前接收音频帧的当前差分能量序列时，计算机设备获取历史接收音频帧的历史差分能量序列。其中，历史差分能量序列中包括有多个第二差分能量值。对于当前差分能量序列中的每个第一差分能量值，计算机设备均确定当前第一差分能量值，并确定历史差分能量序列中的、与当前第一差分能量值具有相同序列位置的当前第二差分能量值，对当前第一差分能量至与当前第二差分能量值进行第二差分处理，得到与当前第一差分能量值相对应的当前目标差分能量值。计算机设备综合各第一差分能量值各自对应的目标差分能量值，得到目标差分能量序列。其中，序列位置反映了序列中各元素的排列顺序，从而第一差分能量值在当前差分能量序列中的序列位置指的是，第一差分能量值在当前差分能量序列中的顺序。目标差分值指的是第一差分能量值与相应第二差分能量值进行差分处理后，得到的差分处理结果，由于第一差分能量值与当前接收音频帧相对应，第二差分能量值与历史接收音频帧相对应，而当前接收音频帧与历史接收音频帧具有不同的采集时间，因此，目标差分值反映了子频带能量在时间维度上的变化趋势。

在其中一个实施例中，第二差分处理具体可以为差分运算，计算机设备将当前第一差分能量值与当前第二差分能量值进行差分运算，得到与当前第一差分能量值相对应的目标差分能量值。比如，计算机设备将当前第一差分能量值，减去当前第二差分能量值，得到与当前第一差分能量值对应的目标差分能量值。

在其中一个实施例中，计算机设备按照第一差分能量值在当前差分能量序列中的顺序，依次将相应的目标差分能量值存储于序列中，得到目标差分能量序列。比如，在当前第一差分能量值位于当前差分能量序列中的首位时，计算机设备将与当前第一差分能量值相对应的目标差分能量值存储于目标差分能量序列中的首位，在当前第一差分能量值位于当前差分能量序列中的第二位时，计算机设备将与当前第一差分能量值相对应的目标差分能量值存储于目标差分能量序列中的第二位。

在其中一个实施例中，参考图5，当计算机设备获取得到当前差分能量序列和历史差分能量序列时，计算机设备将当前差分能量序列中的第一差分能量值与历史差分能量序列中具有相同序列位置的第二差分能量值进行第二差分处理，得到目标差分能量序列504。比如，计算机设备将当前差分能量序列中位于首位的第一差分能量值，与历史差分能量序列中位于首位的第二差分能量值进行第二差分处理，将将当前差分能量序列中位于第二位的第一差分能量值，与历史差分能量序列中位于第二位的第二差分能量值进行第二差分处理。容易理解地，计算机设备可依次将当前差分能量序列中的第一差分能量值与历史差分能量序列中具有相同序列位置的第二差分能量值进行第二差分处理，计算机设备也可同时将当前差分能量序列中的各第一差分能量值与历史差分能量序列中的各第二差分能量值进行第二差分处理。本实施例在此不做限定。

上述实施例中，通过对当前子频带序列中的各子频带各自对应的子带能量进行第一差分处理，可以确定子带能量在频率维度上的变化趋势，通过对当前差分能量序列和历史差分能量序列进行第二差分处理，可以确定子带能量在时间维度上的变化趋势，从而通过第一差分处理和第二差分处理，可以确定当前子频带序列中的各子频带各自对应的子带能量在频率维度和时间维度上的变化趋势，进而后续基于多种维度的变化趋势而确定的第一音频特征可以更为准确。

在一个实施例中，根据目标差分能量序列，确定与当前接收音频帧对应的当前第一音频特征，包括：对于目标差分能量序列中的每个目标差分能量值，均对当前目标差分能量值进行二值化处理，得到二值化结果序列；对于二值化结果序列中的每个二值化结果，均在当前二值化结果大于预设阈值时，确定与当前二值化结果对应的子带特征为第一目标值；在当前二值化结果小于或等于预设阈值时，确定与当前二值化结果对应的子带特征为第二目标值；综合每个二值化结果各自对应的子带特征的目标值，得到与当前接收音频帧相对应的当前第一音频特征。

具体地，对于目标差分能量序列中的每个目标差分能量值，计算机设备均对当前目标差分能量值进行二值化处理，得到与当前目标差分能量值相对应的二值化结果。比如，计算机设备可通过二值化算法，将当前目标差分能量值转换为0或者1，在当前目标差分能量值大于预设差分阈值时，确定与当前目标差分能量值相对应的当前二值化结果为1，在当前目标差分能量值小于或等于预设差分阈值时，确定与当前目标差分能量值相对应的当前二值化结果为0。进一步地，计算机设备按照各目标差分能量值在目标差分能量序列中的顺序，依次将相应的二值化结果存储于序列中，得到二值化结果序列。比如，在当前目标差分能量值位于目标差分能量序列中的首位时，计算机设备将与当前目标差分能量值相对应的当前二值化结果存储于目标差分能量序列中的首位，当前目标差分能量值位于目标差分能量序列中的第二位时，计算机设备将与当前目标差分能量值相对应的当前二值化结果存储于目标差分能量序列中的第二位。

对于二值化序列中的每个二值化结果，计算机设备均确定当前二值化结果是否大于预设阈值，若大于预设阈值，则确定当前二值化结果所对应的子带特征为第一目标值，若小于或等于预设阈值，则确定当前二值化结果所对应的子带特征为第二目标值。依次类推，直至对二值化序列中的每个二值化结果均确定相应的目标值。计算机设备综合每个二值化结果各自对应的子带特征的目标值，得到与当前接收音频帧相对应的当前第一音频特征。

其中，子带特征指的是子频带的特征。由于当前二值化结果与当前目标差分能量值相对应，当前目标差分能量值与当前第一差分能量值相对应，当前第一差分能量值与当前子频带相对应，因此，当前二值化结果也与当前子频带相对应，从而计算机设备可将基于当前二值化结果确定的目标值，作为当前子频带的子带特征。

在其中一个实施例中，预设阈值、第一目标值和第二目标值均可根据需求自由设置，比如，可将预设阈值设置为0，将第一目标值设置为1，将第二目标值设置为0。从而在当前二值化结果大于0时，确定与当前二值化结果对应的子带特征为1，否则，确定与当前二值化结果对应的子带特征为0。通过将二值化结果与0进行对比，可以在二值化结果大于0时，确定子频带的子带能量在频率和时间上都有增加趋势，在二值化结果小于或等于0时，确定子频带的子带能量在频率和时间上不都有增加趋势。

在其中一个实施例中，参考图5，在当前接收音频帧为第N帧时，计算机设备可按照子频带在当前子频带序列的顺序，依次将各子频带各自对应的子带特征存储于与第N帧相对应的整形变量中。比如，当将当前接收音频帧划分为33个子频带时，可基于一个具有32位的整形变量存储各子频带特征，计算机设备可将当前子频带序列中位于首位的子频带的子带特征存放于该整形变量的第一位，将当前子频带序列中位于第二位的子频带的子带特征存放于该整形变量的第二位等。

上述实施例中，通过对进行第一差分处理和第二差分处理，可通过第一差分处理和第二差分处理，确定子频带的子带能量在频率维度和时间维度上的变化趋势，通过将二值化结果与预设阈值进行对比，使得在二值化结果大于预设阈值时，确定子频带的子带能量在频率维度和时间维度上的均具有增加趋势，从而此时，可将子频带的子带特征设置为第一目标值，否则，将子频带的子带特征设置为第二目标值。

在一个实施例中，将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，并基于匹配结果从多个第二音频特征中确定目标第二音频特征，包括：将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，得到当前匹配值序列，并确定当前匹配值序列中的最高匹配值；将多个第二音频特征中具有最高匹配值的第二音频特征，作为目标第二音频特征。

具体地，当获取得到当前接收音频帧的当前第一音频特征，以及多个第二音频特征时，计算机设备可将当前第一音频特征与每个第二音频特征均进行特征匹配处理，得到当前第一音频特征与每个第二音频特征之间的匹配值。计算机设备按照第二音频特征的存储顺序，依次将各匹配值存储于序列中，得到当前匹配值序列，并确定当前匹配值序列中的最高匹配值。进一步地，计算机设备确定具有最高匹配值的第二音频特征，并将具有最高匹配值的第二音频特征作为目标第二音频特征。

在其中一个实施例中，参考图6，计算机设备可将第二音频特征存储于特征存储器中，从而计算机设备将当前第一音频特征与特征存储器中的多个第二音频特征分别进行特征匹配处理，得到如图7所示的当前匹配值序列。比如，特征存储器中存储有F(2)至F(76)共75个第二音频特征时，计算机设备依次将当前第一音频特征E与第二音频特征与F(2)至F(76)进行特征匹配处理，得到如图7所示的匹配值序列，也即得到匹配值S(1)至S(75)。其中，S(1)为当前第一音频特征与第二音频特征F(2)进行特征匹配处理后得到的匹配值，S(2)为当前第一音频特征与第二音频特征F(3)进行特征匹配处理后得到的匹配值，等。图6示出了一个实施例中特征匹配处理的示意图。图7示出了一个实施例中匹配值序列的示意图。

上述实施例中，由于是将具有最高匹配值的第二音频特征作为目标音频特征，使得基于目标音频特征确定的回声路径延时更为准确。

在一个实施例中，根据目标第二音频特征所对应的存储顺序，确定回声路径的延时，包括：将最高匹配值在匹配值序列中的顺序，作为目标第二音频特征所对应的存储顺序；根据参考音频帧的帧长、以及目标第二音频特征所对应的存储顺序，确定回声路径的延时。

具体地，计算机设备确定最高匹配值在匹配值序列中的序列位置，也即确定最高匹配值在匹配值序列中的顺序，将最高匹配值在匹配值序列中的顺序，作为目标第二音频特征所对应的存储顺序。进一步地，计算机设备确定参考音频帧的帧长，根据帧长和目标第二音频特征所对应的存储顺序，确定回声路径的延时。比如，参考图7，在最高匹配值为S(44)时，计算机设备可以认为提取出S(44)的参考音频帧与当前接收音频帧为同一语音帧，也即，计算机设备可以认为提取出S(44)的参考音频帧与当前接收音频帧为在不同时刻流经参考点和接收点的同一语音帧。因此，计算机设备只需确定最高匹配值在匹配值序列中的顺序，即可基于最高匹配值在匹配值序列中的顺序和帧长，确定回声路径的延时。比如，当最高匹配值S(44)在匹配值序列中的顺序为倒数第32位时，可以认为流经参考点的音频帧在经过31个帧长的时长后会流经接收点，此时计算机设备将32减1后再乘以帧长，即可得到延时。

本实施例中，只需对存储顺序和帧长进行简单的运算即可得到相应的延时，相比于传统的基于互相关法确定延时，本申请实施例可大大减少计算量，从而提升回声路径延时的确定效率。

在一个实施例中，将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，并基于匹配结果从多个第二音频特征中确定目标第二音频特征，包括：将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，得到与当前第一音频特征相对应的当前匹配值序列；获取与历史第一音频特征相对应的历史综合匹配值序列；根据当前匹配值序列和历史综合匹配值序列，得到与当前第一音频特征相对应的当前综合匹配值序列，并确定当前综合匹配值序列中的最高综合匹配值；将与最高综合匹配值相对应的第二音频特征，作为目标第二音频特征。

其中，历史综合匹配值序列指的是由多个历史综合匹配值组成的序列，其反映了在历史时刻所获取的匹配值的综合情况。

具体地，为了进一步提升所确定的目标第二音频特征的准确性，计算机设备还可对当前匹配值序列与历史综合匹配值序列进行平滑处理。计算机设备可实时获取接收音频帧，并对接收到的各接收音频帧均进行音频指纹提取处理，得到各接收音频帧各自对应的第一音频特征。计算机设备将各接收音频帧各自对应的第一音频特征分别与多个第二音频特征进行特征匹配处理，得到各第一音频特征各自对应的匹配值序列，基于各第一音频特征各自对应的匹配值序列得到综合匹配值序列。

当获取得到与当前第一音频特征相对应的当前匹配值序列时，计算机设备获取与历史第一音频特征相对应的历史综合匹配值。其中，历史第一音频特征为历史接收音频帧的音频指纹，历史接收音频帧为在当前时刻之前的前一时刻流经接收点的音频帧。进一步地，计算机设备对当前匹配值序列和历史综合匹配值序列进行平滑处理，例如进行指数平滑处理，得到与当前第一音频特征相对应的当前综合匹配值序列。计算机设备确定当前综合匹配值序列中的最高综合匹配值，并将与最高综合匹配值相对应的第二音频特征，作为目标第二音频特征。比如，计算机设备确定最高综合匹配值在当前综合匹配值序列的顺序，将多个第二音频特征中具有相同顺序的第二音频特征作为目标音频特征。也就是说，最高综合匹配值在当前综合匹配值序列的顺序，即为目标音频特征在多个第二音频特征中的存储顺序。

值得注意的，对于首个流经接收点的首个接收音频帧，计算机设备可仅确定与首个接收音频帧相对应的首个匹配值序列，对于第二个流经接收点的第二顺序接收音频帧，计算机设备可确定与第二顺序接收音频帧相对应的第二顺序匹配值序列，并将第二顺序匹配值序列与首个匹配值序列进行平滑处理，得到与第二顺序接收音频帧相对应的第二顺序综合匹配值序列，对于第三个流经接收点的第三顺序接收音频帧，计算机设备可将与第三顺序接收音频帧相对应的第三顺序匹配值序列与第二顺序综合匹配值序列进行平滑处理，得到第三顺序综合匹配值序列。在当前接收音频帧为第三顺序接收音频帧时，相应的历史接收音频帧即为第二顺序接收音频帧，相应的历史综合匹配值序列即为第二顺序综合匹配值序列。

上述实施例中，通过综合当前匹配值序列和历史综合匹配序列来确定目标第二音频特征，使得所确定的目标第二音频特征更为准确。

在一个实施例中，根据当前匹配值序列和历史综合匹配值序列，确定与当前第一音频特征相对应的当前综合匹配值序列，包括：对于当前匹配值序列中的每个匹配值，均将当前匹配值与历史综合匹配值序列中具有相同序列位置的历史综合匹配值进行平滑处理，得到当前匹配值序列中的每个匹配值各自对应的综合匹配值；根据各综合匹配值，得到当前综合匹配值序列。

具体地，对于当前匹配值序列中的每个匹配值，计算机设备确定当前匹配值在匹配值序列中的顺序，也即确定当前匹配值在匹配值序列中的序列位置，并确定历史综合匹配值序列中具有相同序列位置的目标历史综合匹配值，将当前匹配值与目标历史综合匹配值进行平滑处理，得到与当前匹配值相对应的综合匹配值。比如，计算机设备对当前匹配值与目标历史综合匹配值进行加权求和处理，得到与当前匹配值相对应的综合匹配值。

进一步地，计算机设备按照匹配值在当前匹配值序列中的顺序，依次将各匹配值各自对应的综合匹配值存储于序列中，得到当前综合匹配值序列。比如，参考图8，计算机设备可将与匹配值S(1)相对应的综合匹配值Sm(1)存储于当前综合匹配值序列中的第一位，将与匹配值S(2)相对应的综合匹配值Sm(2)存储于当前综合匹配值序列中的第二位，等。图8示出了一个实施例中综合匹配值序列的示意图。

本实施例中，通过对当前匹配值序列中的每个匹配值均进行平滑处理，使得基于平滑处理结果所确定的当前综合匹配值序列更为准确。

在一个实施例中，根据目标第二音频特征所对应的存储顺序，确定回声路径的延时，包括：将最高综合匹配值在当前综合匹配值序列中的顺序，作为目标第二音频特征所对应的存储顺序；根据参考音频帧的帧长、以及目标第二音频特征所对应的存储顺序，确定回声路径的延时。

具体地，计算机设备确定最高综合匹配值在当前综合匹配值序列中的序列位置，也即确定最高综合匹配值在当前综合匹配值序列中的顺序，将最高综合匹配值在当前综合匹配值序列中的顺序，作为目标第二音频特征所对应的存储顺序。进一步地，计算机设备确定参考音频帧的帧长，根据帧长和目标第二音频特征所对应的存储顺序，确定回声路径的延时。比如，参考图8，在最高匹配值为Sm(44)时，计算机设备可以认为与Sm(44)具有相同顺序的参考音频帧与当前接收音频帧为同一语音帧，也即，计算机设备可以认为与Sm(44)的具有相同顺序的参考音频帧，与当前接收音频帧为在不同时刻流经参考点和接收点的同一语音帧，此时，流经参考点的音频帧在经过31个帧长时长后会流经接收点，从而计算机设备将31乘以帧长，得到回声路径的延时。

在其中一个实施例中，参考图9，图9A为一个实施例中当前频谱信号的频谱图。图9B为一个实施例中当前综合匹配值序列的示意图，其中，图9B的纵坐标从上至下依次对应于图8中的Sm(1)至Sm(75)。图9B中的颜色越深，代表综合匹配值越大，因此，可确定具有最深颜色值的综合匹配值为Sm(44)。

上述实施例中，由于是根据目标第二音频特征所对应的存储顺序和帧长，来确定的回声路径的延时，使得所确定的回声路径的延时更为准确。

在一个实施例中，上述方法还包括回声消除步骤，回声消除步骤包括根据回声路径的延迟时间，对流经接收点的接收语音信号和流经参考点的参考语音信号进行语音对齐处理；根据语音对齐处理后的接收语音信号和参考语音信号对回声路径中的回声进行消除处理。

具体地，由于回声路径的延时为音频帧从参考点传输至接收点所需要的时间，因此，计算机设备可根据回声路径的延时，对流经接收点的接收语音信号和流经参考点的参考语音信号进行语音对齐处理，并采用语音自适应回声消除算法(Acoustic EchoChancellor，AEC)对语音对齐处理后的接收语音信号和参考语音信号进行回声消除处理，以消除回声路径中的回声。在其中一个实施例中，计算机设备还可采用语音自适应回声消除算法对语音对齐处理后的接收语音信号和参考语音信号进行处理，以对回声路径中的啸叫进行抑制。

本实施例中，通过对流经接收点的接收语音信号和流经参考点的参考语音信号进行语音对齐处理，可基于语音对齐处理后的语音信号进行回声消除处理，从而实现消除回声路径中的回声的目的。

本申请还提供一种应用场景，该应用场景应用上述的对回声路径的语音延时估计方法。该对回声路径的语音延时估计方法在该应用场景的应用如下：

参考图10，参考点和接收点接收的信号为音频帧，典型的每一音频帧的帧长可以为8ms，也可以是10ms，16ms，20ms等，在此不做限定。相邻两个音频帧可以有重叠的部分。一般语音通讯中参考点和接收点的语音信号采样率通常为16kHz或者32kHz等，以32kHz为例，根据奈奎斯特采样定理，32kHz采样率采集到的语音的有效带宽为16KHz。由于在实际语音通讯系统中，能够有效表征语音的频率范围在300Hz～2kHz左右，因此实际需要的带宽只要略大于2kHz即可。为了减少计算量，S1002计算机设备对流经参考点的参考语音信号进行下采样处理，将参考语音信号的采样频率调整至目标采样频率，比如，调整至5khz，并对下采样后的参考语音信号进行分帧处理，得到参考音频帧。S1004，对流经接收点的接收语音信号进行下采样处理，并对下采样后的接收语音信号进行分帧处理，得到当前接收音频帧。S1006计算机设备对参考语音信号进行音频指纹提取处理，得到第二音频特征，S1008以及对当前接收音频帧进行音频指纹提取处理，得到当前第一音频帧。S1010计算机设备将第二音频特征存储至特征存储器中，S1012并将当前第一音频帧与特征存储器中的第二音频特征进行特征匹配处理，得到匹配结果。S1014计算机设备基于匹配结果确定回声路径的延时。图10示出了一个实施例中，对回声路径的语音延时估计方法的流程示意图。

本申请还另外提供一种应用场景，该应用场景应用上述的对回声路径的语音延时估计方法。具体地，该对回声路径的语音延时估计方法在该应用场景的应用如下：

当位于参考点的A用户与位于接收点的B用户进行视频通话时，计算机设备可采用上述方法确定回声路径中的延时，并根据回声路径的延迟时间，对流经接收点和流经参考点的视频通话信号进行语音对齐处理，将语音对齐处理后的视频通话信号输入至AEC模块，以通过AEC模块消除视频通话中的回声。

上述应用场景仅为示意性的说明，可以理解，本申请各实施例所提供的对回声路径的语音延时估计方法的应用不局限于上述场景。比如，还可将本申请应用于唱歌场景，通过本申请各实施例提供的对回声路径的语音延时估计方法，消除唱歌空间中的回声，比如消除KTV房间中的回声。

在一个具体实施例中，参考图11，提供了一种对回声路径的语音延时估计方法，包括以下步骤：

S1102，获取回声路径中与接收器对应的接收点处的当前接收音频帧，将当前接收音频帧从时域信号转换为频域信号，得到当前频谱信号，对当前频谱信号进行频带划分处理，得到当前子频带序列，并确定当前子频带序列中的每个子频带各自对应的子带能量。

S1104，遍历当前子频带序列中的每个子频带，并确定当前遍历至的子频带和下一顺序遍历至的子频带。

S1106，对当前遍历至的子频带的子带能量、及下一顺序遍历至的子频带的子带能量进行第一差分处理，得到与当前遍历至的子频带对应的第一差分能量值，综合当前子频带序列中的各子频带分别对应的第一差分能量值，得到当前差分能量序列。

S1108，对于当前差分能量序列中的每个第一差分能量值，均将当前第一差分能量值与历史差分能量序列中具有相同序列位置的第二差分能量值进行第二差分处理，得到目标差分能量序列。

S1110，对于目标差分能量序列中的每个目标差分能量值，均对当前目标差分能量值进行二值化处理，得到二值化结果序列。

S1112，对于二值化结果序列中的每个二值化结果，均在当前二值化结果大于预设阈值时，确定与当前二值化结果对应的子带特征为第一目标值，在当前二值化结果小于或等于预设阈值时，确定与当前二值化结果对应的子带特征为第二目标值。

S1114，综合每个二值化结果各自对应的子带特征的目标值，得到与当前接收音频帧相对应的当前第一音频特征。

S1116，获取存储至特征存储器中的多个第二音频特征，并将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，得到与当前第一音频特征相对应的当前匹配值序列。

S1118，获取与历史第一音频特征相对应的历史综合匹配值序列，对于当前匹配值序列中的每个匹配值，均将当前匹配值与历史综合匹配值序列中具有相同序列位置的历史综合匹配值进行平滑处理，得到当前匹配值序列中的每个匹配值各自对应的综合匹配值，根据各综合匹配值，得到当前综合匹配值序列。

S1120，将与最高综合匹配值相对应的第二音频特征，作为目标第二音频特征，将最高综合匹配值在当前综合匹配值序列中的顺序，作为目标第二音频特征所对应的存储顺序。

S1122，根据参考音频帧的帧长、以及目标第二音频特征所对应的存储顺序，确定回声路径的延时。

应该理解的是，虽然图2、图11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种对回声路径的语音延时估计装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：第一特征获取模块1202、第二特征获取模块1204和特征匹配模块1206，其中：

第一特征获取模块1202，用于获取回声路径中与接收器对应的接收点处的当前接收音频帧；提取当前接收音频帧的音频指纹，得到当前第一音频特征。

第二特征获取模块1204，用于获取存储的多个第二音频特征；多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到。

特征匹配模块1206，用于将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，并基于匹配结果从多个第二音频特征中确定目标第二音频特征；根据目标第二音频特征所对应的存储顺序，确定回声路径的延时。

在一个实施例中，参考图13，第一特征获取模块1202还包括差分模块1221，用于将当前接收音频帧从时域信号转换为频域信号，得到当前频谱信号；对当前频谱信号进行频带划分处理，得到当前子频带序列，并确定当前子频带序列中的每个子频带各自对应的子带能量；根据当前子频带序列中的每个子频带各自对应的子带能量，确定与当前接收音频帧相对应的当前差分能量序列；根据当前差分能量序列、以及与历史接收音频帧相对应的历史差分能量序列，确定与当前接收音频帧相对应的当前第一音频特征；历史接收音频帧为在前一时刻流经接收点的音频帧。

在一个实施例中，差分模块1221还用于遍历当前子频带序列中的每个子频带，并确定当前遍历至的子频带和下一顺序遍历至的子频带；对当前遍历至的子频带的子带能量、及下一顺序遍历至的子频带的子带能量进行第一差分处理，得到与当前遍历至的子频带对应的第一差分能量值；综合当前子频带序列中的各子频带分别对应的第一差分能量值，得到当前差分能量序列。

在一个实施例中，差分模块1221还用于对于当前差分能量序列中的每个第一差分能量值，均将当前第一差分能量值与历史差分能量序列中具有相同序列位置的第二差分能量值进行第二差分处理，得到目标差分能量序列；根据目标差分能量序列，确定与当前接收音频帧对应的当前第一音频特征。

在一个实施例中，差分模块1221还用于对于目标差分能量序列中的每个目标差分能量值，均对当前目标差分能量值进行二值化处理，得到二值化结果序列；对于二值化结果序列中的每个二值化结果，均在当前二值化结果大于预设阈值时，确定与当前二值化结果对应的子带特征为第一目标值；在当前二值化结果小于或等于预设阈值时，确定与当前二值化结果对应的子带特征为第二目标值；综合每个二值化结果各自对应的子带特征的目标值，得到与当前接收音频帧相对应的当前第一音频特征。

在一个实施例中，第二特征获取模块1204还用于获取流经与播放器对应的参考点的参考语音信号；对参考语音信号进行分帧处理，得到至少一个参考音频帧；对每个参考音频帧均进行特征提取处理，得到各参考音频帧各自对应的第二音频特征；按照参考音频帧的采集时间由远至近的顺序，将各参考音频帧各自对应的第二音频特征存储至特征存储器中。

在一个实施例中，特征匹配模块1206还包括目标特征确定模块1261，用于将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，得到当前匹配值序列，并确定当前匹配值序列中的最高匹配值；将多个第二音频特征中具有最高匹配值的第二音频特征，作为目标第二音频特征。

在一个实施例中，特征匹配模块1206还包括延时确定模块1262，用于将最高匹配值在匹配值序列中的顺序，作为目标第二音频特征所对应的存储顺序；根据参考音频帧的帧长、以及目标第二音频特征所对应的存储顺序，确定回声路径的延时。

在一个实施例中，目标特征确定模块1261还用于将当前第一音频特征与多个第二音频特征分别进行特征匹配处理，得到与当前第一音频特征相对应的当前匹配值序列；获取与历史第一音频特征相对应的历史综合匹配值序列；根据当前匹配值序列和历史综合匹配值序列，得到与当前第一音频特征相对应的当前综合匹配值序列，并确定当前综合匹配值序列中的最高综合匹配值；将与最高综合匹配值相对应的第二音频特征，作为目标第二音频特征。

在一个实施例中，目标特征确定模块1261还用于对于当前匹配值序列中的每个匹配值，均将当前匹配值与历史综合匹配值序列中具有相同序列位置的历史综合匹配值进行平滑处理，得到当前匹配值序列中的每个匹配值各自对应的综合匹配值；根据各综合匹配值，得到当前综合匹配值序列。

在一个实施例中，延时确定模块1262还用于将最高综合匹配值在当前综合匹配值序列中的顺序，作为目标第二音频特征所对应的存储顺序；根据参考音频帧的帧长、以及目标第二音频特征所对应的存储顺序，确定回声路径的延时。

在一个实施例中，对回声路径的语音延时估计装置1200还包括回声消除模块1208，用于根据回声路径的延迟时间，对流经接收点的接收语音信号和流经参考点的参考语音信号进行语音对齐处理；根据语音对齐处理后的接收语音信号和参考语音信号对回声路径中的回声进行消除处理。

关于对回声路径的语音延时估计装置的具体限定可以参见上文中对于对回声路径的语音延时估计方法的限定，在此不再赘述。上述对回声路径的语音延时估计装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对回声路径的语音延时估计数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对回声路径的语音延时估计方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对回声路径的语音延时估计方法，其特征在于，所述回声路径中设置有播放器和接收器，所述播放器用于将传输至的音频帧转换成声音播放，所述接收器用于采集声音并将采集的声音转换成对应的音频帧，所述方法包括：

获取回声路径中与所述接收器对应的接收点处的当前接收音频帧；

获取存储的多个第二音频特征；所述多个第二音频特征为包括当前时刻在内的历史时间段内，对依次经过与所述播放器对应的参考点的参考音频帧提取音频指纹得到第二音频特征后，按照各参考音频帧的时间顺序对应存储得到；

2.根据权利要求1所述的方法，其特征在于，所述提取所述当前接收音频帧的音频指纹，得到当前第一音频特征，包括：

将所述当前接收音频帧从时域信号转换为频域信号，得到当前频谱信号；

对所述当前频谱信号进行频带划分处理，得到当前子频带序列，并确定所述当前子频带序列中的每个子频带各自对应的子带能量；

根据所述当前子频带序列中的每个子频带各自对应的子带能量，确定与所述当前接收音频帧相对应的当前差分能量序列；

根据所述当前差分能量序列、以及与历史接收音频帧相对应的历史差分能量序列，确定与所述当前接收音频帧相对应的当前第一音频特征；所述历史接收音频帧为在前一时刻流经所述接收点的音频帧。

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前子频带序列中的每个子频带各自对应的子带能量，确定与所述当前接收音频帧相对应的当前差分能量序列，包括：

遍历所述当前子频带序列中的每个子频带，并确定当前遍历至的子频带和下一顺序遍历至的子频带；

对所述当前遍历至的子频带的子带能量、及下一顺序遍历至的子频带的子带能量进行第一差分处理，得到与当前遍历至的子频带对应的第一差分能量值；

综合所述当前子频带序列中的各子频带分别对应的第一差分能量值，得到当前差分能量序列。

4.根据权利要求2所述的方法，其特征在于，所述根据所述当前差分能量序列、以及与历史接收音频帧相对应的历史差分能量序列，确定与所述当前接收音频帧相对应的当前第一音频特征，包括：

对于所述当前差分能量序列中的每个第一差分能量值，均将当前第一差分能量值与历史差分能量序列中具有相同序列位置的第二差分能量值进行第二差分处理，得到目标差分能量序列；

根据所述目标差分能量序列，确定与所述当前接收音频帧对应的当前第一音频特征。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标差分能量序列，确定与所述当前接收音频帧对应的当前第一音频特征，包括：

对于所述目标差分能量序列中的每个目标差分能量值，均对当前目标差分能量值进行二值化处理，得到二值化结果序列；

对于所述二值化结果序列中的每个二值化结果，均在当前二值化结果大于预设阈值时，确定与所述当前二值化结果对应的子带特征为第一目标值；

在所述当前二值化结果小于或等于预设阈值时，确定与所述当前二值化结果对应的子带特征为第二目标值；

综合每个所述二值化结果各自对应的子带特征的目标值，得到与所述当前接收音频帧相对应的当前第一音频特征。

6.根据权利要求1所述的方法，其特征在于，所述获取存储的多个第二音频特征之前，所述方法还包括：

获取流经与所述播放器对应的参考点的参考语音信号；

对所述参考语音信号进行分帧处理，得到至少一个参考音频帧；

对每个所述参考音频帧均进行特征提取处理，得到各所述参考音频帧各自对应的第二音频特征；

按照所述参考音频帧的采集时间由远至近的顺序，将所述各参考音频帧各自对应的第二音频特征存储至特征存储器中。

7.根据权利要求1所述的方法，其特征在于，所述将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，并基于匹配结果从所述多个第二音频特征中确定目标第二音频特征，包括：

将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，得到当前匹配值序列，并确定所述当前匹配值序列中的最高匹配值；

将所述多个第二音频特征中具有最高匹配值的第二音频特征，作为目标第二音频特征。

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时，包括：

将所述最高匹配值在所述匹配值序列中的顺序，作为所述目标第二音频特征所对应的存储顺序；

根据所述参考音频帧的帧长、以及所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时。

9.根据权利要求1所述的方法，其特征在于，所述将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，并基于匹配结果从所述多个第二音频特征中确定目标第二音频特征，包括：

将所述当前第一音频特征与所述多个第二音频特征分别进行特征匹配处理，得到与当前第一音频特征相对应的当前匹配值序列；

获取与历史第一音频特征相对应的历史综合匹配值序列；

根据所述当前匹配值序列和所述历史综合匹配值序列，得到与所述当前第一音频特征相对应的当前综合匹配值序列，并确定所述当前综合匹配值序列中的最高综合匹配值；

将与所述最高综合匹配值相对应的第二音频特征，作为目标第二音频特征。

10.根据权利要求9所述的方法，其特征在于，所述根据所述当前匹配值序列和所述历史综合匹配值序列，确定与所述当前第一音频特征相对应的当前综合匹配值序列，包括：

对于所述当前匹配值序列中的每个匹配值，均将当前匹配值与所述历史综合匹配值序列中具有相同序列位置的历史综合匹配值进行平滑处理，得到所述当前匹配值序列中的每个匹配值各自对应的综合匹配值；

根据各所述综合匹配值，得到当前综合匹配值序列。

11.根据权利要求9所述的方法，其特征在于，所述根据所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时，包括：

将所述最高综合匹配值在所述当前综合匹配值序列中的顺序，作为所述目标第二音频特征所对应的存储顺序；

根据参考音频帧的帧长、以及所述目标第二音频特征所对应的存储顺序，确定所述回声路径的延时。

12.根据权利要求1至11任意一项所述的方法，其特征在于，所述方法还包括：

根据所述回声路径的延迟时间，对流经所述接收点的接收语音信号和流经所述参考点的参考语音信号进行语音对齐处理；

根据语音对齐处理后的接收语音信号和参考语音信号对回声路径中的回声进行消除处理。

13.一种对回声路径的语音延时估计装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。