CN115881080B

CN115881080B - 一种语音通信系统中的声反馈处理方法及装置

Info

Publication number: CN115881080B
Application number: CN202310189991.1A
Authority: CN
Inventors: 梁民; 付永强
Original assignee: G Net Cloud Service Co Ltd
Current assignee: G Net Cloud Service Co Ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-26
Anticipated expiration: 2043-03-02
Also published as: CN115881080A

Abstract

本申请公开提供了一种语音通信系统中的声反馈处理方法及装置，涉及声反馈处理技术领域，方法包括：根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，声反馈信号来自与目标用户终端麦克风相邻近的其它用户终端扬声器；将第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，自网络向其它用户终端发送，解决现有技术中啸叫抑制和声音质量难以兼顾的问题。

Description

一种语音通信系统中的声反馈处理方法及装置

技术领域

本发明涉及声反馈处理技术领域，具体涉及一种语音通信系统中的声反馈处理方法及装置。

背景技术

语音通信系统通常存在两类声学反馈现象，详见如图1所示，其中第一类声学反馈是用户终端扬声器播放信号反馈到其本身麦克风的回声，例如通信网络远端用户终端D的语音信号s_D(n)，通过网络送至近端用户终端A的扬声器播放时会反馈耦合到该用户终端本身的麦克风；第二类声学反馈是用户终端近旁的其它用户终端扬声器播放的信号也会反馈到该用户终端的本身麦克风，例如近端用户终端A近旁的用户终端B扬声器播放其接收到的上述远端语音信号s_D(n)时，也会反馈耦合到近端用户终端A的麦克风。这两类声学反馈均会导致语音通信系统不能可靠稳定地运行，并引发严重扰人的啸叫（Howling）。

对第一类声学反馈，目前回声抵消器（Acoustic Echo Canceller, AEC）可以较好地将其控制和消除，从而解决了由第一类声学反馈而引发的啸叫问题。而对第二类声学反馈的控制，现有的技术处理方法是，首先检测到源于第二类声学反馈所引发的啸叫频点集，再对这一啸叫频点集应用一组陷波器（Notch Filter Bank，NFB）来进行抑制处理；但该技术解决方案的性能欠佳。

经查阅大量国内外相关文献可知，目前语音通信系统的防啸叫方案大都采用啸叫的检测控制技术，其原理是：会议用户终端首先进行啸叫的检测，在检测到啸叫发生时，会议用户终端对其发送链路信号进行静音（如果该用户端没有发言）或者陷波处理。

不久前，申请人提出了一种称之为自适应啸叫抑制器（Adaptive HolwingSuppressor，AHS）的技术发明专利，用于通信系统的防啸叫处理（专利名称：通信系统啸叫抑制方法和装置，专利号：CN113838474B，发明人：梁民、赵元军），其主要思想是：设计一个（帧）时变线性滤波器对用户终端的麦克风接收信号进行前处理，以便抑制麦克风接收信号中（可能）含有的第二类声学反馈信号；而（帧）时变线性滤波器的系数获取方法是，在频谱子带域根据麦克风接收信号子带谱和估计的声学反馈信号子带谱，应用降噪技术原理来计算一个子带抑制增益函数，然后将该子带增益函数变换为时域的线性（帧）时变滤波器系数。

语音通信系统现有的防啸叫方案大都是基于啸叫检测的控制技术，其核心要求是准确地检测到啸叫现象。由于现有的啸叫检测技术均存在误检问题，那么在误检的情况下，无论是对用户终端后续采用静音处理还是采用陷波处理，都会极大地降低语音通信质量。尽管申请人发明的AHS技术方法无需啸叫检测，因而克服了现行的啸叫检测控制技术的缺陷，但实际应用中发现，在无啸叫的情况下，这一前处理会带来一定程度上的语音听觉失真。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中啸叫抑制性能和语音失真无法兼顾的问题，从而提供一种语音通信系统中的声反馈处理方法及装置。

为解决上述技术问题，本发明公开实施例至少提供一种语音通信系统中的声反馈处理方法及装置。

第一方面，本发明公开实施例提供了一种语音通信系统中的声反馈处理方法，包括：

将目标误差信号转换为目标误差信号短时频谱，所述目标误差信号是目标用户终端麦克风接收的当前时刻麦克风信号经过线性回声抵消处理后生成的；

根据所述目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，所述上一帧时刻参考信号是上一帧时刻目标用户终端语音编码器的输入信号帧；

在对所述目标误差信号短时频谱进行修正处理时，通过所述啸叫抑制增益对所述目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，所述声反馈信号来自与所述目标用户终端麦克风相邻近的其它用户终端扬声器；

把所述第一语音信号短时频谱转化为第一语音信号，经过所述目标用户终端发送链路动态范围控制处理后生成第二语音信号；所述第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。

可选地，在对所述目标误差信号短时频谱进行修正处理之前，所述方法还包括：检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分；若所述目标误差信号短时频谱中含有所述目标声反馈信号频谱成分，则在对所述目标误差信号短时频谱进行修正处理时，通过所述啸叫抑制增益对所述目标误差信号短时频谱中的声反馈信号频谱成分进行抑制。

可选地，所述根据所述目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益包括：将上一帧时刻参考信号转换为上一帧时刻参考信号短时频谱；估计所述上一帧时刻参考信号从所述目标用户终端的语音编码器输入处到所述目标用户终端邻近的其它用户终端扬声器处的帧时延参数；按照所述帧时延参数，对所述上一帧时刻参考信号短时频谱进行帧延时；将所述目标误差信号短时频谱和帧延时后的所述上一帧时刻参考信号短时频谱分别转化为第一听觉频谱包络和第二听觉频谱包络；对所述第二听觉频谱包络进行估计，得到第三听觉频谱包络；在听觉频谱包络域中，基于所述第一听觉频谱包络和所述第三听觉频谱包络计算声反馈信号的听觉频谱包络域抑制增益函数；将所述听觉频谱包络域抑制增益函数转化为短时频谱域的所述啸叫抑制增益。

可选地，所述检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分包括：基于所述目标误差信号短时频谱和帧延时后的所述上一帧时刻参考信号短时频谱计算短时频谱域中所述啸叫抑制增益的全频带平均声反馈抑制增益；利用所述目标误差信号短时频谱和全带平均声反馈抑制增益检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分。

可选地，在所述根据所述目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益的同时，所述方法还包括：基于所述目标误差信号短时频谱计算残留回声抑制增益；基于所述目标误差信号短时频谱计算噪声抑制增益；若所述目标误差信号短时频谱中不含有所述声反馈信号频谱成分，则在对所述目标误差信号短时频谱进行修正处理时，通过所述残留回声抑制增益和所述噪声抑制增益对所述目标误差信号短时频谱进行修正，生成所述第一语音信号短时频谱；若所述目标误差信号短时频谱中含有所述声反馈信号，则对所述目标误差信号短时频谱进行修正处理时，通过所述啸叫抑制增益、所述残留回声抑制增益和所述噪声抑制增益对所述目标误差信号短时频谱进行修正，生成所述第一语音信号短时频谱。

可选地，所述检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分还包括：通过控制切换器的位置状态控制在对所述目标误差信号短时频谱进行修正处理时，是否通过所述啸叫抑制增益对所述目标误差信号短时频谱中的所述声反馈信号频谱成分进行抑制。

可选地，所述方法在所述目标用户终端的发送链路实现。

第二方面，本发明公开实施例还提供一种语音通信系统中的声反馈处理装置，包括：

短时频谱转换模块，用于将目标误差信号转换为目标误差信号短时频谱，所述目标误差信号是目标用户终端麦克风接收的当前时刻麦克风信号经过线性回声抵消处理后生成的；

啸叫抑制增益计算模块，用于根据所述目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，所述上一帧时刻参考信号是上一帧时刻目标用户终端语音编码器的输入信号帧；

啸叫抑制模块，用于在对所述目标误差信号短时频谱进行修正处理时，通过所述啸叫抑制增益对所述目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，所述声反馈信号来自与所述目标用户终端麦克风相邻近的其它用户终端扬声器；

信号发送模块，用于将所述第一语音信号短时频谱转化为第一语音信号，经过所述目标用户终端发送链路动态范围控制处理后生成第二语音信号；所述第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。

第三方面，本发明公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本发明公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本发明的实施例提供的技术方案可以具有以下有益效果：

根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，把第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。该方案在检测到邻近扬声器引发啸叫的目标声反馈信号存在时，自适应地结合上一帧时刻的参考信号对目标声反馈信号进行抑制处理，以实现啸叫抑制，并且，在无啸叫或啸叫源消失场景下，自动旁路，进而实现在抑制语音通信系统啸叫的同时，避免在无啸叫或啸叫源消失情况下因啸叫抑制产生的语音听觉失真。利用目标误差信号短时频谱和全带平均声反馈抑制增益检测目标误差信号短时频谱中是否含有声反馈信号频谱成分，可实时有效而准确地进行啸叫检测，因而避免了现有的啸叫检测控制技术的误检和滞后检测所带来的缺陷。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了啸叫形成过程示意图；

图2示出了本发明公开实施例所提供的一种语音通信系统中的声反馈处理方法流程图；

图3示出了本发明公开实施例所提供的另一种语音通信系统中的声反馈处理方法流程图；

图4示出了本发明公开实施例中的一种啸叫形成过程示意图；

图5示出了本发明公开实施例所提供的又一种语音通信系统中的声反馈处理过程示意图；

图6示出了本发明公开实施例中频域帧延时估计（FDE）的流程示意图；

图7示出了本发明公开实施例中PAFS子模块的功能结构框图；

图8示出了本发明公开实施例中 PAFS子模块算法的流程示意图；

图9示出了本发明公开实施例中包络提取算法的流程示意图；

图10示出了本发明公开实施例中HD子模块啸叫检测的流程示意图；

图11示出了本发明公开实施例所提供的一种语音通信系统中的声反馈处理装置结构示意图；

图12示出了本发明公开实施例所提供的一种计算机设备结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。实施例1

如图2所示，本发明公开实施例所提供的一种语音通信系统中的声反馈处理方法的流程图，该方法包括：

S21：将目标误差信号转换为目标误差信号短时频谱，目标误差信号是目标用户终端麦克风接收的当前时刻麦克风信号经过线性回声抵消处理后生成的；

S22：根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，上一帧时刻参考信号是上一帧时刻目标用户终端语音编码器的输入信号帧；

S23：在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，声反馈信号来自与目标用户终端麦克风相邻近的其它用户终端扬声器；

S24：把第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。

可以理解的是，本实施例提供的技术方案，根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，把第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。该方案自适应地结合上一帧时刻的参考信号对目标声反馈信号进行抑制处理，以实现啸叫抑制，可实时有效而准确地进行啸叫检测，避免了现有的啸叫检测控制技术的误检和滞后检测所带来的缺陷。实施例2

如图3所示，本发明公开实施例所提供的另一种语音通信系统中的声反馈处理方法的流程图，该方法可以在目标用户终端的发送链路实现，具体地，该方法包括：

S31：将目标误差信号转换为目标误差信号短时频谱，目标误差信号是目标用户终端麦克风接收的当前时刻麦克风信号经过线性回声抵消处理后生成的。

S32：根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，基于目标误差信号短时频谱计算残留回声抑制增益，基于目标误差信号短时频谱计算噪声抑制增益，其中，上一帧时刻参考信号是上一帧时刻目标用户终端语音编码器的输入信号帧。

S33：检测目标误差信号短时频谱中是否含有声反馈信号频谱成分，若目标误差信号短时频谱中不含有声反馈信号频谱成分，则执行S34，若目标误差信号短时频谱中含有声反馈信号频谱成分，则执行S35。

具体地，在一些可选实施例中，通过控制切换器的位置状态控制在对目标误差信号短时频谱进行修正处理时，是否通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制。

S34：在对目标误差信号短时频谱进行修正处理时，通过残留回声抑制增益和噪声抑制增益对目标误差信号短时频谱进行修正，生成第一语音信号短时频谱。

S35：在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益、残留回声抑制增益和噪声抑制增益对目标误差信号短时频谱进行修正，生成第一语音信号短时频谱。

S36：把第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。

在一些可选实施例中，S32可以但不限于通过以下过程实现（图中未示出）：

S32-1：将上一帧时刻参考信号转换为上一帧时刻参考信号短时频谱；

S32-2：估计所述上一帧时刻参考信号从所述目标用户终端的语音编码器输入处到所述目标用户终端邻近的其它用户终端扬声器处的帧时延参数；

S32-3：按照所述帧时延参数，对所述上一帧时刻参考信号短时频谱进行帧延时；

S32-4：将所述目标误差信号短时频谱和帧延时后的所述上一帧时刻参考信号短时频谱分别转化为第一听觉频谱包络和第二听觉频谱包络；

S32-5：对所述第二听觉频谱包络进行估计，得到第三听觉频谱包络；

S32-6：在听觉频谱包络域中，基于所述第一听觉频谱包络和所述第三听觉频谱包络计算声反馈信号的听觉频谱包络域抑制增益函数；

S32-7：将所述听觉频谱包络域抑制增益函数转化为短时频谱域的所述啸叫抑制增益。

在一些可选实施例中，S33可以但不限于通过以下过程实现（图中未示出）：

S33-1：基于所述目标误差信号短时频谱和帧延时后的所述上一帧时刻参考信号短时频谱计算短时频谱域中所述啸叫抑制增益的全频带平均声反馈抑制增益；

S33-2：利用所述目标误差信号短时频谱和全带平均声反馈抑制增益检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分。

为了便于读者理解，下面以图1、图4中的语音通信系统近端用户终端A和B为例，对本发明技术方案中涉及的发明构思过程、实施细节及实现原理进行详细说明。

用户终端A的声学反馈信号f(n)是其邻近的用户终端B扬声器输入信号u(n) 通过其扬声器外放后、经空间声学反馈路径h₁ (n)耦合到用户终端A的麦克风而形成的；而用户终端B扬声器输入信号u(n)可视为由用户终端A的（上行）发送链路中语音编码器的输入信号r(n)（参考点A1处的信号）经过其语音编码等后处理和网络传输而送至用户终端B的（下行）接收链路作进一步处理后产生的，将用户终端A的（上行）发送链路中的参考点A1至用户终端B的（下行）接收链路中的参考点B1之传输路径等效为系统函数h₂(n)，那么声学反馈信号f(n)，在忽略语音编解码和扬声器播放等过程引入的非线性条件下，可近似地表述为:

（1），

其中，

是一个有限冲击响应（FIR）滤波器，它近似地表征声学反馈信号f(n) 形成的上述这一混合路径的系统函数，这里/>

代表线性卷积算子（以下均同，不另作说明）；为进一步简化起见，可近似把/>

看作为一个待估的时延参数τ，而其衰减效应可合并至/>

的系数中予以考虑，即/>

，这里δ(·)为单位脉冲函数。

根据声学反馈信号形成的原理模型图4可知，用户终端A麦克风接收信号y(n)在数学上可表述为：

(2)。

这里s(n)是用户A的近端（发话）语音信号，f(n)为来自近旁用户B扬声器的第二类声学反馈信号，d(n)为来自通信网络远端的回声信号，v(n)为近端环境噪声。

由于麦克风接收信号y(n)中的回声信号d(n)和噪声信号v(n)可分别由用户终端（上行）发送链路中现有的AEC和NS模块来处理，故本发明实施例在这里对回声信号d(n)消除和噪声信号v(n)抑制技术不做详细的讨论，仅限于原理性的说明。本发明实施例重点讨论语音通信系统中啸叫自动实时检测和抑制（ARTDSH）处理模块的技术原理。ARTDSH模块的系统结构框图及其在用户终端（上行）发送链路中的集成方案如图5所示，其工作原理可简述如下：

麦克风接收信号y(n)经AEC中的线性回声分量抵消器（LEC）处理后获得的误差信号e(n)，经短时傅里叶变换器（Short-Time Fourier Tranformer，STFT）转化为误差信号短时频谱E(k,t) （这里，k = 1, 2, …, K，是短时频谱的频点索引，K为频点总数，t为时域信号的帧索引，n为时域信号的样本索引，以下均同，不另作说明），该短时频谱一方面送至NS模块来计算相应的环境噪声抑制增益

，同时也与参考信号短时频谱X(k,t)一起送给RES模块来计算残留回声抑制增益/>

；另一方面，E(k,t)还送给ARTDSH模块以计算声学反馈抑制增益/>

。误差信号短时频谱E(k,t)经抑制增益/>

和/>

及ARTDSH输出的抑制增益G(k,t) 联合修订后、并通过STFT逆变换器（Inverse Short-TimeFourier Tranformer，ISTFT）（它包括STFT逆变换和重叠-相加处理，以下均同，不另作说明）而获得修订的时域误差信号/>

。该修订的时域误差信号/>

经DRC模块处理后形成一个拟发送信号r(n)。拟发送信号r(n)一方面输给ARTDSH模块作其参考输入，另一方面输入给用户终端A（上行）发送链路语音编码器。ARTDSH模块分别由1个具有短时频域里通信网络时延估计功能的帧延时器（Delay with Frequency-domain Delay Estimation,DFDE）子模块、1个感知型声学反馈抑制器（Perceptual Acoustic Feedback Suppressor，PAFS）子模块、1个啸叫检测器（Howling Detection，HD）子模块和1个STFT变换器构成，其中DFDE子模块用来估计用户终端A（上行）发送链路中语音编码器输入信号r (n)短时频谱R(k,t)与A的邻近用户终端B扬声器输入信号u(n)短时频谱U(k,t)间的帧时延D、并对短时频谱R(k,t)进行相应的帧延时而产生一个对齐的短时频谱/>

，输给PAFS子模块作为其参考谱；PAFS子模块首先把其输入的误差信号短时频谱E(k,t)和参考短时频谱

转化为听觉频谱包络/>

和/>

(这里/>

为第i个听觉频带的中心频点索引，以下均同，不另作说明)，然后应用自适应滤波技术对来自于用户终端B的相应声学反馈信号听觉频谱包络/>

进行估计，并据此计算出相应的听觉频谱包络域上的抑制增益函/>

，最后将听觉频谱包络域中的抑制增益函数/>

转化为STFT-域中的抑制增益函数/>

，用来参与修订LEC输出的误差信号e (n)的短时频谱E(k,t)，以便抑制来自用户终端B的相应声学反馈信号，而/>

的全频带均值

（这里K为频点索引总数）将输给HD子模块使用；HD子模块根据其输入

和E(k,t) 来对啸叫进行自动实时检测，并输出二元型的啸叫状态指示信号hdFlag(t) ；该指示信号用来控制切换器，在其为“真”时切换器将选通PAFS子模块输出的抑制增益/>

作为ARTDSH输出的抑制增益G(k,t)，否则，切换器则选通抑制增益恒为1的增益源作为ARTDSH输出的抑制增益G(k,t)。下面本发明实施例重点讨论DFDE、PAFS和HD子模块的工作原理。

I. 具有短时频域里通信网络时延估计功能的帧延时器（DFDE）子模块工作原理：

正如上述所言，DFDE子模块工作在STFT-域，用来估计用户终端A（上行）发送链路中语音编码器输入信号r (n)短时频谱R(k,t)与A的邻近用户终端B扬声器输入信号u(n)短时频谱U(k,t)间的帧时延D，并对短时频谱R(k,t)进行相应的帧延时。然而用户终端B扬声器输入信号u(n)对用户终端A而言，却是未知的、并且无法获取。注意到（2）式定义的用户终端A麦克风接收信号y(n)经LEC处理后产生的误差信号e(n)可表示为：

（3），

其中，

为残留回声信号，/>

为回声信号d(n)的估计，s(n)是用户A的近端（发话）语音信号，f(n)为来自近旁用户B扬声器的第二类声学反馈信号，v(n)为近端环境噪声。根据声学反馈信号的形成模型（1），f(n)可近似表示为：

（4），

（这里τ为信号r(n)与u(n)间的时延参数），那么（3）式可进一步表述为：

（5），

由此可见，误差信号e(n)含有待估的时延信息。鉴于这里仅需估计延时参数τ，那么可以把

进一步地近似为：

（6），

这里

为/>

的群延时参数，/>

为/>

的平均衰减因子，δ(·)为单位脉冲函数。

将（6）式代入（5）可得：

（7），

由于信号r(n)是麦克风接收信号y(n)经后续若干线性和非线性处理后产生的，那么信号r(n)（乃至信号

）与s(n)、v(n)和/>

显然统计不相关，将s(n)、v(n) 和

合并在一起视为一个混合信号：

（8），

那么把（8）式代入（7）式可得：

（9），

对（9）进行STFT变换可得：

（10），

其中

，这里/>

为不大于x的最大整数，M为STFT变换时的时域信号帧长度。

鉴于r(n)与

统计不相关，那么R(k,t)与/>

亦统计不相关，于是在STFT-域，E(k,t)与R(k,t)间的帧时域互相关函数/>

可表示为：

（11），

这里

为统计平均算子，conj {·}为复共轭运算符; />

为R(k,t)的自相关函数；k = 0, 1, 2, …, K; p = 0, 1, 2, …, 为信号帧的个数。

（11）式表明：E(k,t)与R(k,t)之间的帧时域互相关函数

比例于R(k,t)的帧时域自相关函数/>

的/>

个帧延时。这便为本发明实施例在短时频谱域中估计通信网路所引入的帧时延参数D提供了理论依据。本发明提出的频域通信网络时延估计（FDE）算法是在STFT-域中运行的，其技术原理简介如下：

设时域信号帧长为M个样本，通信网络引入的最大时延为

个帧长，那么将每帧时域信号r(n)和e(n)分别进行STFT变换，可获得相应的短时频谱E(k,t)和R(k,t)。

定义一个尺度为

的矩阵型缓存区/>

，这里K为短时频谱的频点总数，该缓存区由短时频谱R(k,t)按下述方式来刷新，即：

（12），

那么相应地有：

（13），

定义误差信号的短时频谱E(k,t)与缓存区中每个相应的短时频谱之间的全频带互相干系数为：

（14），

其中，conj {·}为复共轭运算符，|·|为复数取模运算符，p=1, 2, … ,

。

于是，待估的帧时延参数

可由以下的步骤求得：

＜第一步＞首先求取瞬时的帧延时参数

：

（15），

这里

为预置的门限参数，t为信号的时间帧索引。

＜第二步＞对瞬时帧延时参数

进行帧时域平滑处理：

(16)，

其中，

为预置的2个平滑系数。

＜第三步＞对平滑的帧延时参数

取整处理即得待估的帧时延参数/>

：

（17），/>

为不大于/>

的最大整数，

在此基础上再减去一个由声学反馈路径

引入的偏置量/>

，便可获得短时频谱R (k,t)与A的邻近用户终端B扬声器输入信号短时频谱U(k,t)间的帧时延参数D，即：

（18），

关于偏置

的求取与设定，本发明实施例将在感知型声学反馈抑制器（PAFS）子模块中予以讨论。

应当指出的是：在第t帧（15）式无解的情况下，即：

，其瞬时的帧延时参数/>

取为0。

如图6所示，频域通信网络时延估计（FDE）算法流程如下：

1、初始化：预置参数门限值;初始化信号帧索引t = 0;初始化缓存矩阵：Buff(1:K; 1:T_max) = 0。

2、更新信号帧索引：t = t + 1。

3、输入第t帧信号e(n)和r(n)的短时频谱：E(k,t)和R(k,t)。

4、更新缓存矩阵Buff,用R (k,t)按照公式（12）刷新Buff。

5、进行VAD检测。

6、判断VADFlag(t)=1是否成立。

7、若VADFlag(t)=1成立，则计算互相干系数，按(14)式计算E(k,t)与Buff(k,p)间的全频带互相干系数。

8、更新帧时延估计，按(15)-(18)式更新帧时延的估计，若帧时延估计过程未终止，则循环执行上述2-8。

II. 感知型声学反馈抑制器（PAFS）子模块的工作原理：

将（8）式代入（3）式可得：

（19），

对（19）式进行STFT变换可得：

（20）。

上节的分析已表明，信号r(n)与（8）式定义的混合信号

统计不相关；由声学反馈信号f(n)的形成模型（1）可知，f(n)亦与混合信号/>

统计不相关，那么F(k,t)与

也统计不相关。于是一种直观的想法便是将（20）式中F(k,t)视为噪声短时频谱，采用现有的降噪技术来对之进行抑制处理。为此需要对声学反馈信号f(n)短时频谱或其短时功率谱进行有效的估计。既然信号r(n)的短时频谱R(k,t)可资用，并且前述的FDE算法已估计出通信网络引入的帧时延参数D，那么将/>

和E(k,t)分别看作参考短时频谱和输入短时频谱，在短时频域（即STFT域）中应用现有的AEC方法中有限冲击响应（Finite Impulse Response，FIR）自适应滤波技术，可以估计出空间声学反路径的传递函数（即空间声学反路径冲击响应/>

的短时频域表示），进而估计出声学反馈信号短时频谱F(k,t)；据此采用降噪技术中有关思想来计算抑制增益函数，用之来修订输入短时频谱，从而达到抑制声学反馈信号短时频谱F(k,t)的目的。然而现实情况将异常复杂：首先，声学反馈信号存在的场景永远对应于AEC的“双讲”（Double-Talk, DT）场景, 而DT场景是AEC中亟待解决但目前尚未较好解决的问题。其次，由于室内混响的存在，致使用于估计空间声学反馈路径传递函数的自适应FIR滤波器阶数很高（例如对100毫秒的空间声学反馈路径而言，即使为达到-20dB这样较低的估计精度，在采样率为16kHz、信号帧长M=64和STFT变换的窗长/>

情况下, 共需65组阶数为25的复系数FIR滤波器，其待估的复系数总计为1625个），由此便产生很高的计算复杂度。再次，应用短时频域中计算的抑制增益函数来修订输入短时频谱会产生类似于降噪处理技术中的“音乐噪声”（music noise），从而使处理输出的语音有明显的听觉失真。

为此，本发明提出了一种称之为感知型声学反馈抑制器（PAFS）的新技术方法，来消除声学反馈引起的啸叫现象。该方法充分地考虑了人类听觉系统的频率分辨率特性，通过将其输入的误差信号短时频谱E(k,t)和参考短时频谱

转化为能够有效地表征听觉系统频率分辨率特性的听觉频谱包络/>

和/>

（这里/>

为第i个听觉频带中心频点索引，t为信号帧索引），在听觉频谱包络域中，采用作者拥有知识产权并对DT场景具有良好鲁棒性（Roubstness）的FIR自适应滤波学习算法来直接估计声学反馈信号的听觉频谱包络/>

；据此使用W. Etter和G.S. Moschytz提出的自适应频谱幅度扩展（Adaptive Spectral Magnitude Expansion）技术来计算求解声学反馈信号在听觉频谱包络域中的抑制增益函数/>

，该抑制增益函数在人类听觉系统频率分辨率允许的情况下平滑地变化，特别是在较高频率处会非常平滑，从而更少地引入输出语音信号的失真。此外，听觉频谱包络使用了比短时频谱更少的参数来表示，因而PAFS需要估计的参数数量相对于 STFT域应用自适应FIR技术需估的参数数量要少许多，从而降低了计算复杂度。

PAFS子模块的结构如图7所示，它由听觉频谱包络计算器、用于估计声学反馈信号听觉频谱包络的FIR自适应滤波器、听觉频谱包络域抑制增益函数计算器、插值平滑处理器和算数平均处理器构成，其中听觉频谱包络计算器分别把输入的相关信号的短时频谱E(k,t)和

转换为Bark频率尺度下的听觉频谱包络/>

和/>

，这里/>

为第i个听觉频带中心频点索引，t为信号帧索引；FIR自适应滤波器根据其相应的听觉频谱包络输入进行自适应学习，从而估计出声学反馈信号的听觉频谱包络/>

；听觉频谱包络域抑制增益函数计算器将依据听觉频谱包络/>

和/>

计算其相应的抑制增益函数

；插值平滑处理器把听觉频谱包络域中的抑制增益函数/>

通过频域插值平滑处理转变为短时频谱域中（即STFT-域）的抑制增益函数/>

，然后将之输出、并与RES和NS模块产生的抑制增益抑制增益/>

和/>

一起参与对误差信号短时频谱E(k,t)的修订；全频带算术平均处理器计算短时频谱域中抑制增益函数/>

的全频带均值，输给HD子模块使用。以下就听觉频谱包络计算器、用于估计声学反馈信号听觉频谱包络的FIR自适应滤波器和听觉频谱包络域抑制增益函数计算器以及插值平滑处理器的工作原理，分别介绍如下：

II-a. 听觉频谱包络计算器：

在人类听觉系统的早期阶段，声学信号被听觉滤波器组分解为频谱分量，这种滤波器组由带宽不均匀的带通滤波器组成。鉴于滤波器组的输出沿频率轴为非均匀分布，那么听觉滤波器组可以被视为一个从线性频率到扭曲频率（warped frequency）的非线性映射。描述这种映射的常用非线性频率尺度是 Bark 尺度和等效矩形带宽 (ERB) 尺度；随着频率的增加，听觉滤波器组的频率分辨率会降低。在本发明的听觉频谱包络计算中，本发明实施例选用Bark频率尺度。H. Fastl和 E. Zwicker指出，以Bark频率尺度表征的人类听觉系统前24个临界频带，其边界点对应的频率与带宽如表1所示。

表1

；

对任一短时频谱Z(k,t)，根据表1的对应关系，把短时频谱Z(k,t)中的频点索引k进行分组，每组均一一对应于24个听觉临界频带中的一个。记短时频谱域中对应于第i个听觉临界频带的频点索引分组起始和终止的频点索引分别为

和/>

，那么第i个临界频带的听觉频谱包络 />

可以定义为：

(21)，

其中

为第i个听觉临界频带的中心频点索引，t为信号帧索引，|·|为复数取模运算符，/>

为中心频点索引/>

处第i个临界频带的带通滤波器频响函数。

显然听觉频谱包络

为一非负的实数。在本发明的应用中，/>

可近似地取为：

（22）。

由此可得相应的误差信号短时频谱E(k,t)和参考短时频谱R_D(k,t)的听觉频谱包络，它们分别是：

（23），

II-b. 用于估计声学反馈信号听觉频谱包络的FIR自适应滤波器：

对听觉频带

而言，记其FIR的实系数矢量为：

（24），/>

这里T为转置运算符；t为信号帧索引；

为听觉频带i的中心频点索引，i = 1,2, …, I,I为所处理语音信号的听觉频带总个数，它由STFT变换的窗长参数/>

和信号采样频率/>

以及表1中定义的对应关系联合确定；L为听觉频带/>

中FIR的实系数总个数，它由空间声学反馈路径时长/>

(单位为秒)、信号采样频率/>

（单位为赫兹）和信号帧长M（单位为样本）联合确定如下：

，这里/>

表示不小于x的最小整数（25）。

那么参见图5，易知声学反馈信号听觉频谱包络的估计可表示为：

（26），

其中，

（27），

FIR系数矢量

则采用作者提出的、并对DT场景具有良好鲁棒性的（帧）时变正则化因子型NLMS算法（NLMS with Variable Regulization Factor, NLMSVRF）自适应地学习来获得，该NLMSVRF算法在数学上可表述如下：

（28），

这里

（29），

为听觉频谱包络的估计误差；

为预置的学习率参数；/>

为（帧）时变正则化因子，由下述确定：

(30)，

其中，

（31），

这里

为预置的平滑系数，/>

为预置的较小常数。

这里需要说明的是：参考短时频谱

是由短时频谱R(k,t)延时D帧获得的，而时延参数D是前面介绍的FDE算法按（15）-（17）式求得的/>

再减去一个修订值/>

而获得的（参见公式（18））。为了确保FIR的因果性（即参考短时频谱/>

要超前短时频谱E(k,t)中的F(k,t)），本发明实施例建议/>

，这里运算符/>

表示不大于x的最大整数，/>

通常取为0.1~0.2。

II-c. 听觉频谱包络域抑制增益函数计算器：

既然上述FIR自适应滤波器已求出声学反馈信号听觉频谱包络的估计

，而误差信号听觉频谱包络/>

可资用，那么采用自适应频谱幅度扩展技术,可求得如下的瞬时帧听觉频谱包络域中的声学反馈抑制增益函数/>

，即：

（32），

其中，

；α和β分别为一个可调的系数，通过调节α和β，来控制要消除的声学反馈量，根据实际应用可预先设定。采用双斜率限制滤波器对瞬时帧听觉频谱包络域抑制函数/>

进行帧时域平滑处理可得平滑后的听觉频谱包络域声学反馈抑制增益函数/>

，即：

(33)，

其中

和 />

分别为预置的上升和下降时间系数。

II-d. 插值平滑处理器的工作原理：

注意到，听觉频谱包络域的声学反馈抑制增益函数

是相应的短时频谱域抑制增益函数/>

的采样版本。那么通过使用插值算法对（33）式求解的听觉频谱包络域抑制增益函数的估计样本/>

进行频域插值平滑处理，可获得用于修定短时频谱E(k,t)的抑制增益函数/>

。在本发明实施例的应用中，理论与仿真实验研究表明，按照下述公式简单的频域插值方式，可以获得满意的结果：

(34)，

其中

为预设的正整数常量，/>

和/>

分别定义为：

（35），

（36）。

图8示出了PAFS子模块算法实现过程：

1、初始化相关参数和变量；并置信号帧索引，t = 0。

2、更新信号帧索引：t = t + 1。

3、读取输入的短时频谱E(k,t)和

并按(23)式计算其听觉频谱包络

和/>

。

4、根据(26)-(31)式估计声学反馈听觉频谱包络

。/>

5、根据(32)-(33)式计算听觉频谱包络域声学反馈抑制增益函数

。

6、根据(34)-(36)式计算短时频谱域声学反馈抑制增益函数

。

7、计算短时频谱域声学反馈抑制增益函数全频带均值

。

8、输出

和/>

，若处理过程未结束，循环之执行2-8。

III. 啸叫检测器（HD）子模块的工作原理：

现用的啸叫检测器大都基于接收信号的诸如峰值门限功率比（Peak-to-Threshold Power Ratio, PTPR）、峰值平均功率比（Peak-to-Average Power Ratio,PAPR）、峰值谐波功率比（Peak-to-Harmonic Power Ratio, PHPR）和峰值邻近域功率比（Peak-to-Neighboring Power Ratio, PNPR）频域特征参数以及帧间峰值幅度持续性（Interframe Peak Magnitude Persistence, IPMP）与帧间幅度斜率偏离量（InterframeMagnitude Slope Deviation, IMSD）时域特征参数。尽管基于上述的时/频-域特征进行的啸叫检测技术在信噪比（SNR）较高的条件均取得了一定程度上的成功，但低SNR条件下，特别是在诸如钢琴曲和管弦乐包括歌曲等音频信号的干扰环境下，将存在严重的误检现象。为此，本发明提出了一种新的啸叫实时检测方法，以克服和改进现有啸叫检测技术的缺陷。本发明提出的这种啸叫实时检测方法（以下简称为HD子模块）是基于AEC中LEC输出的误差信号短时频谱E(k,t)全频带功率和PAFS子模块输出的短时频谱域抑制增益函数全频带均

来进行的，其工作原理简介如下：

本发明实施例的理论研究与仿真实验均表明，变量

的变化范围与啸叫场景是否存在有着密切的关系：在无啸叫的情况下，变量/>

在不同时间帧t处的取值将在一个较小的范围内波动；而在有啸叫的情况下，变量/>

在不同时间帧t处的取值将在一个较大的范围内波动。那么利用这一特性，可以进行啸叫的实时检测。注意到，变量

取值的波动性可以通过其/>

曲线的上包络/>

和下包络/>

来有效表征，故/>

的波动性在数学上可表述为：

（37）,

其中上包络

和下包络/>

由本发明实施例提出的包络提取算法从

中抽取，该包络提取算法实现的程序流程示意图如图9所示，包括以下过程：

1、初始化：预置参数，初始化相关变量。

，/>

，

t = 0;cnt = 0。

2、更新信号帧索引及其计数器：t = t + 1;cnt = cnt + 1。

3、判断

是否成立。

4、若

不成立，则用第t帧输入更新下如下变量，并输出第t帧包络：

,/>

,

,

。

5、若

成立，则复位信号帧计数器：cnt = 0;用第t帧输入更新如下变量，并输出第t帧包络：

,

,

,

。

如上循环，直至处理过程结束，其中参数

为观测窗口的长度，单位为帧；例如，若观测窗口为2秒的时长，对采样频率为/>

赫兹和帧长为M个样本而言，参数

，/>

为不小于/>

的最小整数。

由（37）式易知，其相对波动性

为：/>

（38）,

定义啸叫检测的第一特征统计变量

为：

（39）,

其中，

为预置的无量纲单位门限参数。

（39）式定义的

，实际上是统计了平均抑制增益/>

的相对波动性连续较大的帧数信息，那么本发明提出的啸叫检测器（HD）的第一判决表达式可表示为：

（40）,

其中，

为预置的第一判决门限参数，单位为帧；/>

子模块的第一判决二元型指示信号。

尽管HD的第一判决表达式能够快速地检测到所发生的啸叫，但在本发明实施例的实际应用中发现，它在诸如钢琴曲和管弦乐包括歌曲等音频信号的干扰环境下也会发生误检现象。为进一步提高HD的可靠性，本发明实施例在HD的第一判决表达式为真的条件下再进行一次额外的判决（即第二判决），尽可能地消除第一判决的误检（或称“虚警”）现象。其具体操作是：对接收到的每帧误差信号短时频谱E(k,t)，计算其全频带瞬时功率

（单位为分贝）:

（41）,

按下式计算其平均功率

：

（42）,

其中，

为预置的平滑系数。

应用图9描述的算法提取

的上包络/>

和下包络/>

，当它们满足下述条件时，立即开始第二判决的工作，即：

（43）,

这里

为预置的参数，单位为分贝（dB）。

HD的第二判决是基于这样的一种考虑：若E(k,t)中含有声学反馈短时频谱F(k,t)，那么

的上包络/>

将是信号帧t的增函数；于是，定义HD第二特征统计变量

为：

（44）,

其中，

为预置参数，单位为dB，（44）式定义的/>

，实际上是统计了

连续递增的帧数信息，因此HD的第二判决表达式可表征为：

（45）,

其中，

为预置的第二判决门限参数，单位为帧；/>

子模块的第二判决二元型指示信号。由此，HD子模块的最终判决指示信号hdFlag(t)为：

（46）,

其中，

为“逻辑与操作”运算符。

综上所述，HD子模块啸叫检测算法实现的程序流程示意图如图10所示，该过程包括：

1、初始化：预置参数

、/>

、/>

、/>

和/>

初始化相关变量cnt=0、

、/>

、/>

、/>

、/>

、/>

。

2、更新信号帧索引及其计数器：t = t + 1; cnt=cnt+1。

3、读取输入的短时频谱域平均抑制增益

并按照图9所示的算法抽取其上包络/>

和下包络/>

。

4、读取输入的短时频谱E(k,t)，按照公式（41）、（42）计算其平均功率

，并按照图9所示算法抽取其上包络/>

和下包络/>

。

5、根据公式（38）-（40）进行第一判决获得

。

6、判断

是否成立。

7、若

成立，则判断/>

是否成立。

8、若

成立，则根据公式（44）-（45）进行第二判决获得

，则根据公式（46）进行最终判决，并输出最终判决指示信号hdFlag(t)。

9、若

不成立，或者若/>

不成立，则直接根据公式（46）进行最终判决，并输出最终判决指示信hdFlag(t)。

循环上述过程，直至需要结束检测。

图10中的，

是(38)式求得的相对波动性变量/>

之预置的判决门限参数，用于计算（39）式定义的HD的第一特征统计变量/>

，而/>

为预置的第一判决门限参数，通过比较第一特征统计变量/>

和第一判决门限参数/>

，即按公式（40），来给出HD的第一判决结果/>

；预置的参数λ是应用公式（42）对误差信号短时频谱E(k,t)全频带瞬时功率/>

进行平滑处理而获得平滑全频带功率/>

的平滑参数，变量

和/>

分别为全频带功率/>

曲线的上包络和下包络；/>

是HD第二判决是否开始工作判断条件（43）式的预设的门限参数，/>

是计算HD的第二特征统计变量

公式（44）中预设的门限参数，而/>

为预置的第二判决门限参数，通过比较第二特征统计变量/>

和第二判决门限参数/>

，即按公式（45），来给出HD的第二判决结果

；在信号帧t时刻HD的最终判决结果hdFlag(t)是其第一判决结果和第二判决结果的逻辑“与”，即公式（46）。

可以理解的是，本实施例提供的技术方案，根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，把第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。该方案在检测到邻近扬声器引发啸叫的目标声反馈信号存在时，自适应地结合上一帧时刻的参考信号对目标声反馈信号进行抑制处理，以实现啸叫抑制，并且，在无啸叫或啸叫源消失场景下，自动旁路，进而实现在抑制语音通信系统啸叫的同时，避免在无啸叫或啸叫源消失情况下因啸叫抑制产生的语音听觉失真。利用目标误差信号短时频谱和全带平均声反馈抑制增益检测目标误差信号短时频谱中是否含有声反馈信号频谱成分，可实时有效而准确地进行啸叫检测，因而避免了现有的啸叫检测控制技术的误检和滞后检测所带来的缺陷。实施例3

如图11所示，本发明实施例还提供一种语音通信系统中的声反馈处理装置，包括：

短时频谱转换模块111，用于将目标误差信号转换为目标误差信号短时频谱，目标误差信号是目标用户终端麦克风接收的当前时刻麦克风信号经过线性回声抵消处理后生成的；

啸叫抑制增益计算模块112，用于根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，上一帧时刻参考信号是上一帧时刻目标用户终端语音编码器的输入信号帧；

啸叫抑制模块113，用于在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，声反馈信号来自与目标用户终端麦克风相邻近的其它用户终端扬声器；

信号发送模块114，用于将第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。

一些可选实施例中，如图11中虚线部分所示，该装置还包括：

检测模块115，用于检测目标误差信号短时频谱中是否含有声反馈信号频谱成分，若目标误差信号短时频谱中含有目标声反馈信号频谱成分，则啸叫抑制模块113在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号进行抑制；

一些可选实施例中，如图11中虚线部分所示，啸叫抑制增益计算模块112可以包括：

转换单元1121，用于将上一帧时刻参考信号转换为上一帧时刻参考信号短时频谱；

参数估计单元1122，用于估计上一帧时刻参考信号从目标用户终端的语音编码器输入处到目标用户终端邻近的其它用户终端扬声器处的帧时延参数；

延时单元1123，用于按照帧时延参数，对上一帧时刻参考信号短时频谱进行帧延时；

包络转化单元1124，用于将目标误差信号短时频谱和帧延时后的上一帧时刻参考信号短时频谱分别转化为第一听觉频谱包络和第二听觉频谱包络；

包络估计单元1125，用于对第二听觉频谱包络进行估计，得到第三听觉频谱包络；

函数计算单元1126，用于在听觉频谱包络域中，基于第一听觉频谱包络和第三听觉频谱包络计算声反馈信号的听觉频谱包络域抑制增益函数；

增益转换单元1127，用于将听觉频谱包络域抑制增益函数转化为短时频谱域的啸叫抑制增益。

一些可选实施例中，如图11中虚线部分所示，检测模块115包括：

增益计算单元1151，用于基于目标误差信号短时频谱和帧延时后的上一帧时刻参考信号短时频谱计算短时频谱域中啸叫抑制增益的全频带平均声反馈抑制增益；

频谱检测单元1152，用于利用目标误差信号短时频谱和全带平均声反馈抑制增益检测目标误差信号短时频谱中是否含有声反馈信号频谱成分。

啸叫抑制增益计算模块112，还用于基于目标误差信号短时频谱计算残留回声抑制增益；基于目标误差信号短时频谱计算噪声抑制增益。若目标误差信号短时频谱中不含有声反馈信号频谱成分，啸叫抑制模块113在对目标误差信号短时频谱进行修正处理时，通过残留回声抑制增益和噪声抑制增益对目标误差信号短时频谱进行修正，生成第一语音信号短时频谱；若目标误差信号短时频谱中含有声反馈信号频谱成分，则啸叫抑制模块113对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益、残留回声抑制增益和噪声抑制增益对目标误差信号短时频谱进行修正，生成第一语音信号短时频谱。

检测模块115，通过控制切换器的位置状态控制在对目标误差信号短时频谱进行修正处理时，是否通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制。

上述装置在目标用户终端的发送链路实现啸叫抑制。

可以理解的是，本实施例提供的技术方案，根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，把第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。该方案在检测到邻近扬声器引发啸叫的目标声反馈信号存在时，自适应地结合上一帧时刻的参考信号对目标声反馈信号进行抑制处理，以实现啸叫抑制，并且，在无啸叫或啸叫源消失场景下，自动旁路，进而实现在抑制语音通信系统啸叫的同时，避免在无啸叫或啸叫源消失情况下因啸叫抑制产生的语音听觉失真。利用目标误差信号短时频谱和全带平均声反馈抑制增益检测目标误差信号短时频谱中是否含有声反馈信号频谱成分，可实时有效而准确地进行啸叫检测，因而避免了现有的啸叫检测控制技术的误检和滞后检测所带来的缺陷。实施例4

基于同一技术构思，本申请实施例还提供了一种计算机设备，包括存储器1和处理器2，如图12所示，所述存储器1存储有计算机程序，所述处理器2执行所述计算机程序时实现上述任一项所述的语音通信系统中的声反馈处理方法。

其中，存储器1至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是语音通信系统中的声反馈处理系统的内部存储单元，例如硬盘。存储器1在另一些实施例中也可以是语音通信系统中的声反馈处理系统的外部存储设备，例如插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器1还可以既包括语音通信系统中的声反馈处理系统的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于语音通信系统中的声反馈处理系统的应用软件及各类数据，例如语音通信系统中的声反馈处理程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。处理器2在一些实施例中可以是一中央处理器（Central Processing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器1中存储的程序代码或处理数据，例如执行语音通信系统中的声反馈处理程序等。

可以理解的是，本实施例提供的技术方案，根据目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益，在对目标误差信号短时频谱进行修正处理时，通过啸叫抑制增益对目标误差信号短时频谱中的声反馈信号频谱成分进行抑制，生成第一语音信号短时频谱，把第一语音信号短时频谱转化为第一语音信号，经过目标用户终端发送链路动态范围控制处理后生成第二语音信号；第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。该方案在检测到邻近扬声器引发啸叫的目标声反馈信号存在时，自适应地结合上一帧时刻的参考信号对目标声反馈信号进行抑制处理，以实现啸叫抑制，并且，在无啸叫或啸叫源消失场景下，自动旁路，进而实现在抑制语音通信系统啸叫的同时，避免在无啸叫或啸叫源消失情况下因啸叫抑制产生的语音听觉失真。利用目标误差信号短时频谱和全带平均声反馈抑制增益检测目标误差信号短时频谱中是否含有声反馈信号频谱成分，可实时有效而准确地进行啸叫检测，因而避免了现有的啸叫检测控制技术的误检和滞后检测所带来的缺陷。

本发明公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的语音通信系统中的声反馈处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本发明公开实施例所提供的语音通信系统中的声反馈处理方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的语音通信系统中的声反馈处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本发明公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software DevelopmentKit，SDK）等等。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容，需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音通信系统中的声反馈处理方法，其特征在于，包括：

2.根据权利要求1所述的语音通信系统中的声反馈处理方法，其特征在于，在对所述目标误差信号短时频谱进行修正处理之前，所述方法还包括：

检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分；

若所述目标误差信号短时频谱中含有所述声反馈信号频谱成分，则在对所述目标误差信号短时频谱进行修正处理时，通过所述啸叫抑制增益对所述目标误差信号短时频谱中的声反馈信号进行抑制。

3.根据权利要求1所述的语音通信系统中的声反馈处理方法，其特征在于，所述根据所述目标误差信号短时频谱和上一帧时刻参考信号帧计算啸叫抑制增益包括：

将上一帧时刻参考信号转换为上一帧时刻参考信号短时频谱；

估计所述上一帧时刻参考信号从所述目标用户终端的语音编码器输入处到所述目标用户终端邻近的其它用户终端扬声器处的帧时延参数；

按照所述帧时延参数，对所述上一帧时刻参考信号短时频谱进行帧延时；

将所述目标误差信号短时频谱和帧延时后的所述上一帧时刻参考信号短时频谱分别转化为第一听觉频谱包络和第二听觉频谱包络；

对所述第二听觉频谱包络进行估计，得到第三听觉频谱包络；

在听觉频谱包络域中，基于所述第一听觉频谱包络和所述第三听觉频谱包络计算声反馈信号的听觉频谱包络域抑制增益函数；

将所述听觉频谱包络域抑制增益函数转化为短时频谱域的所述啸叫抑制增益。

4.根据权利要求3所述的语音通信系统中的声反馈处理方法，其特征在于，所述检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分包括：

基于所述目标误差信号短时频谱和帧延时后的所述上一帧时刻参考信号短时频谱计算短时频谱域中所述啸叫抑制增益的全频带平均声反馈抑制增益；

利用所述目标误差信号短时频谱和全带平均声反馈抑制增益检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分。

5.根据权利要求2所述的语音通信系统中的声反馈处理方法，其特征在于，在所述根据所述目标误差信号短时频谱和上一帧时刻参考信号计算啸叫抑制增益的同时，所述方法还包括：

基于所述目标误差信号短时频谱计算残留回声抑制增益；

基于所述目标误差信号短时频谱计算噪声抑制增益；

若所述目标误差信号短时频谱中不含有所述声反馈信号频谱成分，则在对所述目标误差信号短时频谱进行修正处理时，通过所述残留回声抑制增益和所述噪声抑制增益对所述目标误差信号短时频谱进行修正，生成所述第一语音信号短时频谱；

若所述目标误差信号短时频谱中含有所述声反馈信号，则对所述目标误差信号短时频谱进行修正处理时，通过所述啸叫抑制增益、所述残留回声抑制增益和所述噪声抑制增益对所述目标误差信号短时频谱进行修正，生成所述第一语音信号短时频谱。

6.根据权利要求5所述的语音通信系统中的声反馈处理方法，其特征在于：所述检测所述目标误差信号短时频谱中是否含有所述声反馈信号频谱成分还包括：

通过控制切换器的位置状态控制在对所述目标误差信号短时频谱进行修正处理时，是否通过所述啸叫抑制增益对所述目标误差信号短时频谱中的所述声反馈信号频谱成分进行抑制。

7.根据权利要求6所述的语音通信系统中的声反馈处理方法，其特征在于，所述方法在所述目标用户终端的发送链路实现。

8.一种语音通信系统中的声反馈处理装置，其特征在于，包括：

信号发送模块，用于把所述第一语音信号短时频谱转化为第一语音信号，经过所述目标用户终端发送链路动态范围控制处理后生成第二语音信号；所述第二语音信号经目标用户终端发送链路后续的语音编码器和网络打包处理后，通过网络向其它用户终端发送，所述第二语音信号作为下一帧时刻参考信号参与啸叫抑制增益计算。

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的语音通信系统中的声反馈处理方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7中任一项所述的语音通信系统中的声反馈处理方法。