CN105872275A

CN105872275A - 一种用于回声消除的语音信号时延估计方法及系统

Info

Publication number: CN105872275A
Application number: CN201610169226.3A
Authority: CN
Inventors: 李敬源
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-03-22
Filing date: 2016-03-22
Publication date: 2016-08-17
Anticipated expiration: 2036-03-22
Also published as: CN105872275B

Abstract

本发明公开了一种用于回声消除的语音信号时延估计方法及系统，方法包括：分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，生成对应的远端频域信号和近端频域信号；采用基于人耳掩蔽效应的临界频带分别对远端频域信号、近端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱；分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别进行匹配，生成时延估计结果并输出。本发明基于人耳掩蔽效应统计出远端信号和近端信号的相关性，计算简单，而且能够得到准确的时延估计，为消除回声带来了极大的方便。

Description

一种用于回声消除的语音信号时延估计方法及系统

技术领域

本发明涉及数字语音处理技术领域，尤其涉及一种用于回声消除的语音信号时延估计方法及系统。

背景技术

随着互联网普及和家居智能化水平的提高，以及移动智能终端的广泛应用，网络电话已成为人们常用的通讯方式。回声消除是常用电话和网络电话应用过程中必须解决的问题。

回声分为声学回声和线路回声，线路回声是由线路间匹配耦合引起的，声学回声是在外放的语音通话系统中，扬声器的声音多次反馈到麦克风引起的。声学回声消除，就是要从麦克风收到的语音中消除扬声器发出的声音，得到消除回声后的近端语音。回声消除的模型见图1。在回声消除系统中，扬声器端发出的语音参考信号叫做远端信号，麦克风收到的扬声器发出的声音和语音组合而成的信号叫做近端信号，远端信号发出后，一部分语音直接传送到麦克风端，这部分回声与近端信号时延较小；另一部分信号在有限空间的房间内多次反射后传到近端，这部分回声时延较大。回声消除的过程就是根据远端信号与近端信号的相关性，估算出回声信号，并将回声信号从近端信号中消除，得到纯净的语音。

时延估计是影响声学回声消除效果的关键技术，准确的时延估计可以大大的优化回声的消除效果，通过对远、近端信号进行时延估计和对齐，回声的估计和消除工作才能进一步完成。

目前工业上常用的时延估计算法是应用互相关的方法对时延进行估计。通过求取互相关函数的最大值，其最大值所在位置即对应了两段语音间的时延。但是其假定了信号和噪声以及噪声与噪声之间均严格相互独立，这在客观上是难以实现的，所以在噪声和混响条件下时延估计效果较差，表现较不稳定，影响了用户在通话时的通话质量。

因此，现有技术还有待于改进和发展。

发明内容

鉴于现有技术的不足，本发明目的在于提供一种用于回声消除的语音信号时延估计方法及系统，旨在解决现有技术中用户在通话过程中对回声的时延估计的算法效果差，回声消除效果差的缺陷。

本发明的技术方案如下：

一种用于回声消除的语音信号时延估计方法，其中，方法包括：

A、分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帧、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号；

B、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱；

C、分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。

所述的用于回声消除的语音信号时延估计方法，其中，所述步骤B具体包括：

B1、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；

B2、采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；

B3、分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帧间平滑和帧内平滑。

所述的用于回声消除的语音信号时延估计方法，其中，所述步骤C具体包括：

C1、对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；

C2、获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帧进行异或操作，统计差异点个数，获取当前帧的第一时延估计结果，其中N为自然数；

C3、获取当前帧的近端信号和当前帧对应的第一时延估计结果对应的远端信号的帧，分别进行局部二值特征提取，生成各时刻对应的当前帧的近端信号局部二值特征和当前帧的远端信号局部二值特征；

C4、将当前帧的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帧的第二时延估计结果。

所述的用于回声消除的语音信号时延估计方法，其中，所述步骤C1具体包括：

C11、对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；

C12、对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。

所述的用于回声消除的语音信号时延估计方法，其中，所述步骤C3具体包括：

C31、获取当前帧的近端信号，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中M为自然数；

C32、获取当前帧的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帧，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中M为自然数。

一种用于回声消除的语音信号时延估计系统，其中，系统包括：

信号获取与转换模块，用于分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帧、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号；

信号分解及功率谱获取模块，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱；

时延估计模块，用于分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。

所述的用于回声消除的语音信号时延估计系统，其中，所述信号分解及功率谱获取模块具体包括：

第一信号分解单元，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；

第二信号分解单元，用于采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；

平滑处理单元，用于分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帧间平滑和帧内平滑。

所述的用于回声消除的语音信号时延估计系统，其中，所述时延估计模块具体包括：

第一局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；

第一时延估计单元，用于获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帧进行异或操作，统计差异点个数，获取当前帧的第一时延估计结果，其中N为自然数；

第二局部二值特征生成单元，用于获取当前帧的近端信号和当前帧对应的第一时延估计结果对应的远端信号的帧，分别进行局部二值特征提取，生成各时刻对应的当前帧的近端信号局部二值特征和当前帧的远端信号局部二值特征；

第二时延估计结果，用于将当前帧的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帧的第二时延估计结果。

所述的用于回声消除的语音信号时延估计系统，其中，所述第一局部二值特征生成单元具体包括：

远端频域信号的局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；

近端频域信号的局部二值特征生成单元，用于对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。

所述的用于回声消除的语音信号时延估计系统，其中，所述第二局部二值特征生成单元具体包括：

近端信号局部二值特征生成单元，用于获取当前帧的近端信号，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中M为自然数；

远端信号局部二值特征生成单元，用于获取当前帧的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帧，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中M为自然数。

本发明提供了一种用于回声消除的语音信号时延估计方法及系统，本发明通过利用人耳掩蔽效应及利用了帧间和帧内信号在时域和频域的变化规律统计出远端信号和近端信号的相关性，计算简单，而且能够得到准确的时延估计，为消除回声带来了极大的方便，提升了回声消除的效果，提高了用户网络通话的质量。

附图说明

图1为现有技术中回声消除的模型示意图。

图2为本发明中一种用于回声消除的语音信号时延估计方法的较佳实施例的流程图。

图3为本发明中一种用于回声消除的语音信号时延估计方法的具体应用实施例的临界频带中帧间数据比对结果示意图。

图4为本发明中一种用于回声消除的语音信号时延估计方法的具体应用实施例的临界频带中帧内数据比对结果示意图。

图5为本发明的一种用于回声消除的语音信号时延估计系统的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明还提供了一种用于回声消除的语音信号时延估计方法的较佳实施例的流程图，如图2所示，其中，方法包括：

步骤S100、分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，分别对远端信号和近端信号依次进行分帧、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号。

具体实施时，当用户通过麦克风进行通话时，麦克风接收到的语音信号有远端信号和近端信号。需要预先获取麦克风接收到的近端信号和远端信号。通话可能是普通的电话也可能是网络电话。

如图1所示，远端信号为x(n)，近端信号为d(n)，对这两个信号进行分帧操作，每帧包含10ms数据。分帧后进行FFT快速傅里叶变换和加窗操作，得到分帧后的频域结果远端频域信号X_t(w)和近端频域信号D_t(w)，其中t表示第t帧数据，w表示第w频点。

步骤S200、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱。

具体实施时，人耳掩蔽效应是指人耳对强度较强的某一频率信号反应敏感，对于相对来说较弱的频带反应就比较弱，也就是指某一频率的声音掩蔽其他频率声音的这一现象。各频率的声音对其他频率声音掩蔽的能力不同，所以声音频率与掩蔽效应的曲线是非线性的。从人耳感知的角度对频域进行重新的划分，可以在20Hz～16kHz间分割出24个临界bark频带。本发明首先应用临界bark频带的思想对语音进行频率域的子带划分，这样不仅对每帧需要计算的数据进行压缩，而且选用准则符合人耳听觉效果。临界频率的计算公式如下：

b = 13 * a r c t a n (0.76 * f_{k H z}) + 3.5 * a r c t a n {(\frac{f_{k H z}}{7.5})}^{2} .

进一步地，所述步骤S200具体包括：

步骤S201、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；

步骤S202、采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；

步骤S203、分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帧间平滑和帧内平滑。

具体实施时，对远端频域信号X_t(w)、近端频域信号D_t(w)进行临界bark频带转换，并求取功率谱，得到远端频域信号各临界频点的功率谱X_t(w_b)、近端频域信号各临界频点的功率谱D_t(w_b)，其中w_b∈[1,24]对应临界频点。为防止噪声、突变等对语音变化规律的统计造成影响，导致误判，在对语音变化规律进行统计之前首先对语音进行频域内的平滑预处理操作。因此对远端频域信号各临界频点的功率谱X_t(w_b)、近端频域信号各临界频点的功率谱D_t(w_b)进行帧间平滑，同时进行帧内平滑，以消除突变影响。

步骤S300、分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。

具体实施时，在对远、近端信号进行处理的过程中选择合适的准则来对语音的变化规律进行统计对最终的时延估计准确度影响至关重要。由于远端信号经房间反射叠加语音信号后才得到近端信号，所以两个信号间的强度均值差异较大。我们设计局部二值特征对语音的变化规律进行特征提取，从而消除远、近端语音的信号差异性影响。

如图3所示，对于帧间时延比对，在频域内，每帧信号用24个bark子带的功率谱表示。图3中，当前帧所在的位置记为Val-0，在统计局部二值特征时，首先抽取前后相邻的8帧语音信号，前后相邻的8帧语音信号的位置分别记为Val-1，Val-2，Val-3，Val-4，Val+1，Val+2，Val+3，Val+4，对当前待处理帧Val-0的每个子带功率谱，与其相邻帧内对应的子带功率谱进行大小对比，如果当前帧Val-0功率谱大于对比帧，则记为1，如果当前帧数据小于对比帧，则记为0。最后，按照前4帧到后4帧的顺序，对对比结果的二值数据进行排列，得到8bit特征提取结果，特征提取结果为10110010，这个统计特征即表明当前频带的功率谱对应的帧间变化规律。

如图4所示，对于帧内时延比对，在时域内，每一时刻的信号强度已知，在统计局部二值特征时，首先抽取前后相邻的8个时刻的语音信号，当前时刻的位置记为Val-0，用当前时刻的语音信号强度与相邻8个时刻的语音信号强度进行对比。相邻8个时刻的位置分别记为Val-1，Val-2，Val-3，Val-4，Val+1，Val+2，Val+3，Val+4，如果当前时刻Val-0的信号强度大于对比时刻点，则记为1，如果当前时刻Val-0的信号强度小于对比时刻即记为0。最后按照顺序对8个2进制数据进行排列，得到最终的局部二值特征提取结果，记为10100011。由于这种变化规律是用相对大小比对而得到，所以不受远端、近端信号间的差异性影响，得到的特征提取结果能够用于远、近端信号的关联性比对。

应用局部二值特征对帧内和帧间的信息进行变化规律的特征提取之后，对时延进行估计就变成了对统计的局部二值特征进行匹配。由于局部二值特征的每一位代表的是当前数值与之前某时刻点数值间的变化规律，所以可以用异或的方法对远、近端数据的局部二值特征进行计算，判断某一时刻点远、近端数据相对于之前数据的变化规律是否相符，统计异或后为1的数据位数，即可判断当前时刻远、近端数据变化规律间的差异，从而通过简单的数值计算，得到准确的第二时延估计结果。

进一步地，所述步骤S300具体包括：

步骤S301、对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；

步骤S302、获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帧进行异或操作，统计差异点个数，获取当前帧的第一时延估计结果，其中N为自然数；

步骤S303、获取当前帧的近端信号和当前帧对应的第一时延估计结果对应的远端信号的帧，分别进行局部二值特征提取，生成各时刻对应的当前帧的近端信号局部二值特征和当前帧的远端信号局部二值特征；

步骤S304、将当前帧的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帧的第二时延估计结果。

进一步地，所述步骤S301具体包括：

步骤S311、对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；

步骤S312、对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。

进一步地，所述步骤S303具体包括：

步骤S331、获取当前帧的近端信号，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中M为自然数；

步骤S332、获取当前帧的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帧，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中M为自然数。

具体实施时，对平滑后的临界频点的远端频域信号各临界频点的功率谱X_t(w_b)、近端频域信号各临界频点的功率谱D_t(w_b)进行局部二值特征提取。取其相邻的P帧，P优先为8，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于比对值，取1，若小于比对值取0。对比对结果按序排列，得到各频点的局部二值特征分别记为远端频域信号的各临界频点的局部二值特征X_t1(w_b)_LBP、近端频域信号的各临界频点的局部二值特征D_t2(w_b)_LBP。

获取近端频域信号的各临界频点的局部二值特征D_t2(w_b)_LBP，分别与前N帧的远端频域信号的各临界频点的局部二值特征X_t1(w_b)_LBP，其中N是根据远端信号相对于近端信号的延迟时间而预先设置的。N优选为50，(其中t1∈(-50,0])进行异或，统计结果为1的差异点个数。差异最少的时刻tf为近端频域信号在远端频域信号延迟后的数据帧。该时刻对应了当前帧的第一时延结果，第一时延结果记为x_tf(n)，第一时延结果代表远端频域信号相对于近端频域信号的延迟后的数据帧。

获取当前帧所在的时域信号即近端信号d_t2(n)和第一时延结果估计得到帧的所在的时域信号x_tf(n)，并分别进行局部二值特征提取。分别取其相邻的M个时刻进行比对，即将当前帧的数据按照M个时刻一组分为若干组，M优先为8，若大于比对值，取1，若小于比对值取0。对比对结果按序排列，得到各时刻的局部二值特征，分别记为当前帧在各时刻对应的近端信号局部二值特征x_tf(n)_LBP、各时刻对应的远端信号局部二值特征d_t2(n)_LBP。

令当前帧各时刻对应的远端信号局部二值特征x_tf(n)_LBP，沿时间轴移动一定距离，一定距离为n，其中n∈(-L,L)，L对应当前帧长。分别对移位后的各时刻对应的远端信号局部二值特征x_tf(n_c)_LBP与时刻对应的近端信号局部二值特征d_t2(n)_LBP重合位置的特征进行异或，其中，n_c为移动后对应的距离，统计1的个数并按照重叠区域求均值。差异最少的时刻cf为远端信号与近端信号在当前帧内对应的位置，将该帧所在的时域信号值与近端信号的帧的时间差进行计算，计算结果为当前帧近端信号在远端信号的延迟值，也是远端信号相对于近端信号的第二时延估计结果，第二时延估计结果为从最终的精细化的时延估计结果。

所述步骤S300之后还包括：

步骤S400、根据第二时延估计结果对麦克风接收到的语音进行进行滤波，消除远端信号带来的回声。

具体实施时，回声消除的过程就是根据远端信号与近端信号的相关性，估算出回声信号，并将回声信号从近端信号中消除，得到纯净的语音。利用得到的精细的第二时延估计结果，将远端信号从原麦克风接收的总信号中删除，从而获得清晰的通话过程中的近端信号即通话语音。

由以上方法实施例可知，本发明提供了一种用于回声消除的语音信号时延估计方法，通过远、近端信号分别进行分帧、加窗、FFT变换和临界bark频带帧间信号的功率谱数值变化情况进行统计，对时延进行粗定位，之后在帧内对远、近端信号进行时域内的数值变化统计，进一步对时延进行精细定位，从而得到准确的时延估计结果，更好的进行回声消除，提高了通话质量。

本发明还提供了一种用于回声消除的语音信号时延估计系统的较佳实施例的功能原理框图，如图5所示，其中，系统包括：

信号获取与转换模块100，用于分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帧、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号；具体如上方法实施例所述。

信号分解及功率谱获取模块200，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱；具体如上方法实施例所述。

时延估计模块300，用于分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出；具体如上方法实施例所述。

进一步地实施例中，所述信号分解及功率谱获取模块具体包括：

第一信号分解单元，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；具体如上方法实施例所述。

第二信号分解单元，用于采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；具体如上方法实施例所述。

平滑处理单元，用于分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帧间平滑和帧内平滑；具体如上方法实施例所述。

具体地，所述时延估计模块具体包括：

第一局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；具体如上方法实施例所述。

第一时延估计单元，用于获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帧进行异或操作，统计差异点个数，获取当前帧的第一时延估计结果，其中N为自然数；具体如上方法实施例所述。

第二局部二值特征生成单元，用于获取当前帧的近端信号和当前帧对应的第一时延估计结果对应的远端信号的帧，分别进行局部二值特征提取，生成各时刻对应的当前帧的近端信号局部二值特征和当前帧的远端信号局部二值特征；具体如上方法实施例所述。

第二时延估计结果，用于将当前帧的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帧的第二时延估计结果；具体如上方法实施例所述。

再进一步，所述第一局部二值特征生成单元具体包括：

远端频域信号的局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；具体如上方法实施例所述。

近端频域信号的局部二值特征生成单元，用于对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0，对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数；具体如上方法实施例所述。

进一步的实施例中，所述第二局部二值特征生成单元具体包括：

近端信号局部二值特征生成单元，用于获取当前帧的近端信号，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中M为自然数；具体如上方法实施例所述。

远端信号局部二值特征生成单元，用于获取当前帧的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帧，进行局部二值特征提取，取当前帧相邻的M个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中M为自然数；具体如上方法实施例所述。

综上所述，本发明提供了一种用于回声消除的语音信号时延估计方法及系统，方法包括：分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，生成对应的远端频域信号和近端频域信号；采用基于人耳掩蔽效应的临界频带分别对远端频域信号、近端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱；分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别进行匹配，生成时延估计结果并输出。本发明基于人耳掩蔽效应统计出远端信号和近端信号的相关性，计算简单，而且能够得到准确的时延估计，为消除回声带来了极大的方便。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种用于回声消除的语音信号时延估计方法，其特征在于，方法包括：

2.根据权利要求1所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤B具体包括：

3.根据权利要求2所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤C具体包括：

4.根据权利要求3所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤C1具体包括：

5.根据权利要求4所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤C3具体包括：

6.一种用于回声消除的语音信号时延估计系统，其特征在于，系统包括：

7.根据权利要求6所述的用于回声消除的语音信号时延估计系统，其特征在于，所述信号分解及功率谱获取模块具体包括：

8.根据权利要求7所述的用于回声消除的语音信号时延估计系统，其特征在于，所述时延估计模块具体包括：

9.根据权利要求8所述的用于回声消除的语音信号时延估计系统，其特征在于，所述第一局部二值特征生成单元具体包括：

10.根据权利要求9所述的用于回声消除的语音信号时延估计系统，其特征在于，所述第二局部二值特征生成单元具体包括：