CN106486135A

CN106486135A - 近端语音检测器

Info

Publication number: CN106486135A
Application number: CN201610751542.1A
Authority: CN
Inventors: S·K·曼尼; G·那玛尼
Original assignee: Imagination Technologies Ltd
Current assignee: Imagination Technologies Ltd
Priority date: 2015-08-27
Filing date: 2016-08-29
Publication date: 2017-03-08
Anticipated expiration: 2036-08-29
Also published as: US20170064087A1; GB2536742B; EP3136700A1; CN106486135B; US10009478B2; GB2536742A; GB201515267D0; EP3136700B1

Abstract

近端语音检测器。一种用于对通信系统处的语音进行分类的近端语音检测器，该通信系统接收来自近端麦克风的麦克风信号和来自远端通信系统的远端信号，该近端语音检测器包括：信号处理器，该信号处理器被构造成将麦克风信号和远端信号变换到频域中；计算单元，该计算单元被构造成形成：表示存在于麦克风信号中的近端语音的近端信号的估计；和麦克风信号与近端信号之间的增益的测度；以及信号分类器，该信号分类器被构造成根据增益的方差的测度和近端信号的方差的测度对通信系统处的语音进行分类。

Description

近端语音检测器

技术领域

本发明涉及近端语音检测器和用于对通信系统处的语音进行分类的方法。

背景技术

在电话中，音频信号(例如，包括语音信号)在近端与远端之间传输。在近端处接收的远端信号可以从扬声器输出。在近端处的麦克风可以用于捕获要传输到远端的近端信号。当在近端处所输出的远端信号中的至少一些被包括在传输回远端的麦克风信号中时，发生“回声”。在该场景中，回声可以被认为远端信号的反射。

图1中例示了示例情景，示出了由远端麦克风捕获且由近端扬声器输出的信号。回声为近端处的扬声器与麦克风之间的声耦合的后果；近端麦克风除了捕获近端扬声器的语音和任何近端背景噪声之外还捕获源于它自己的扬声器的信号。结果为远端扬声器处的回声。在互联网协议电话(VoIP)通信系统中，由于由VoIP通信装置的音频接口引入的固有延迟，回声是特别明显的。

为了从麦克风信号去除不希望的回声并恢复近端语音信号，可以形成对回声的估计并从麦克风信号消除该估计。这种估计通常根据远端语音信号在自适应回声估计滤波器(AEEF)处合成。图2中示出了该结构，在图2中，AEEF 203根据远端信号x形成回声的估计e，然后从麦克风信号m减去204回声信号，以形成真实的近端信号d的估计，从该近端信号消除远端信号的回声。这种回声消除结构的性能依赖于自适应回声估计滤波器(AEEF)的自适应控制。

在特定条件下，例如在麦克风信号中存在近端信号期间，需要冻结AEEF的系数或应用可忽略的步长。在近端信号的存在期间调整AEEF的系数会导致AEEF的发散。可以采用近端语音检测器(NSD)来检测近端语音及其输出的存在，其用于决定什么时候冻结AEEF的系数且防止它们的调整。这保持近端语音存在期间的回声路径建模和回声消除稳定性。近端语音检测器还可以检测双端通话的开始(有时称为双端通话检测器或DTD)。这是因为在双端通话期间，存在近端语音和远端语音这两者，这导致允许AEEF的系数调整时的相同发散问题。图2中示出了关于AEEF的近端语音检测器205的典型结构。

用于近端语音检测器(NSD)的传统算法使用AEEF本身的参数来产生二进制信号，其用于决定AEEF的滤波器系数应被冻结还是可以允许调整，或者(例如，根据回声与近端信号比)确定滤波器的合适步长。由此，这种算法的性能依赖于AEEF的性能。如果AEEF未收敛，则NSD会将回声检测为近端，导致慢收敛速率。在平台中的一些上，由于平台非线性、低回声噪声比(ENR)等，AEEF会从不收敛至其最佳系数集。在这种情况下，NSD在语音呼叫的整个会话期间无法正常工作。

已经提出了对用于近端语音检测器的传统算法的各种改进，其不依赖自适应回声消除器的参数。由D.L.Duttweiler作为“A twelve channel digital echo canceler”,IEEE Transactions on Communications,26(5):647-653,May 1978公开的盖格尔(Geigei)DTD算法已在线回声消除器中被证明是成功的。然而，该算法在用于回声信号与近端信号的不同比下的回声消除器时不总是提供可靠的性能。还提出了基于互相关的方法，诸如V.Das等人的“A new cross correlation based double talk detection algorithmfor nonlinear acoustic echo cancellation”,TENCON 2014IEEE Region10Conference,pages1-6,October 2014,，该方法如具有基于相干性的方法，诸如T.Gansler等人的“A double-talk detector based on coherence”,IEEE Transactionson Communications,44(11):1421-1427,November 1996。然而，这些方案在非线性和双端通话下遭受差的性能。

近来，已提出盲源分离(BSS)技术来执行双端通话期间的回声消除，诸如Y.Sakai和M.T.Akhtar的“The performance of the acoustic echo cancellation using blindsource separation to reduce double-talk interference”,2013InternationalSymposium on Intelligent Signal Processing and Communications Systems(ISPACS),pages 61-66,November 2013。类似地，M.Kanadi等人的“A variable step-size-based ICA method for a fast and robust acoustic echo cancellation systemwithout requiring double-talk detector,2013IEEE China Summit InternationalConference on Signal and Information Processing(ChinaSIP),pages 118-121,July2013提出了用于BSS的独立成分分析(ICA)，其用于使回声和近端从麦克风信号分离。分离的回声然后应用于调整AEEF。因为这些BSS方法基于长块处理，所以它们遭受缓慢的收敛速度和在近端语音检测中的相当大的延迟。另外，为了检测双端通话的时段而对远端信号使用诸如奇异值分解(SVD)的技术在计算上是昂贵的且依赖存在于EEF中的估计误差。

发明内容

根据本发明的第一方面，提供了一种用于对通信系统处的语音进行分类的近端语音检测器，该通信系统接收来自近端麦克风的麦克风信号和来自远端通信系统的远端信号，所述近端语音检测器包括：

信号处理器，该信号处理器被构造成将所述麦克风信号和所述远端信号变换到所述频域中；

计算单元，该计算单元被构造成形成：

表示存在于所述麦克风信号中的近端语音的近端信号的估计；和

所述麦克风信号与所述近端信号之间的增益的测度；

以及

信号分类器，该信号分类器被构造成根据所述增益的方差的测度和所述近端信号的方差的测度对所述通信系统处的语音进行分类。

所述计算单元可以被构造成关于多个频率窗口(frequency bin)中的每一个形成对所述近端信号的所述估计和所述增益的测度，并且所述方差的测度为跨所述频率窗口的方差的测度。

所述信号处理器可以被构造成通过执行短时间傅里叶变换(STFT)来变换所述麦克风信号和所述远端信号。

在所述信号处理器处形成的所述麦克风信号和所述远端信号可以表示所述麦克风信号和所述远端信号在所述频域中的幅度谱。

所述麦克风信号和所述远端信号可以各被表示为帧序列，并且所述近端语音检测器被构造成关于所述序列的各帧形成输出分类。

所述信号处理器可以被构造成还通过执行以下中的一个或更多个来处理所述所接收的麦克风信号和远端信号：所述麦克风信号和所述远端信号的同步；所述麦克风信号和所述远端信号的缩放(scaling)；以及所述麦克风信号和所述远端信号的归一化。

所述信号处理器或计算单元可以被构造成平滑所述远端信号，以保持所述远端信号的所述幅度谱达所述远端信号中的回声混响的长度。

所述计算单元可以被构造成通过根据所述远端信号对所述麦克风信号操作维纳滤波器来形成对所述近端信号的所述估计。

所述计算单元可以被构造成关于各频率窗口估计所述麦克风信号与所述远端信号的比，所述麦克风信号与所述远端信号的所述比用于形成所述麦克风信号与所述近端信号之间的所述增益的测度。

所述计算单元可以被构造成关于各频率窗口、根据所述麦克风信号与所述远端信号的比以及针对之前帧形成的增益的测度来估计所述近端信号与所述远端信号的比。

所述近端信号与所述远端信号的所述比可以包括作为所述麦克风信号与所述远端信号的所述比的半波整流函数的分量。

所述计算单元可以被构造成通过将所述增益的测度应用于所述麦克风信号来形成所述麦克风信号中的近端信号的所述估计。

所述计算单元还可以被构造成关于各帧形成跨所述频率窗口所述增益的所述方差的测度和所述近端信号的所述方差的测度。

所述信号分类器可以被构造成通过将所述增益的所述方差的测度和所述近端信号的方差的测度与相应阈值进行比较来对语音进行分类，所述信号分类器的所述输出分类根据所述方差的测度位于它们各自阈值之上还是之下来选择。

所述阈值可以是针对所述方差的测度预定义的或根据所述麦克风信号和/或远端信号的特性来调整。

近端语音检测器还可以包括能量计算器，该能量计算器被构造成关于所述麦克风信号的一个或更多个帧确定帧能量的测度，所述信号分类器被构造成根据所述帧能量的测度在双端通话与无声之间区分。

根据本发明的第二方面，提供了一种系统，该系统包括：

自适应回声估计滤波器；和

根据前述权利要求任意项所述的近端语音检测器，

其中，所述系统被构造成根据所述近端语音检测器的所述输出冻结或充分减小所述自适应回声估计滤波器的系数的自适应步长。

根据本发明的第三方面，提供了一种用于分类通信系统处的语音的方法，该通信系统接收来自近端麦克风的麦克风信号和来自远端通信系统的远端信号，所述方法包括以下步骤：

将所述麦克风信号和所述远端信号变换到所述频域中；

估计表示存在于所述麦克风信号中的近端语音的近端信号；

形成所述麦克风信号与所述近端信号之间的增益的测度；以及

根据所述增益的方差的测度和所述近端信号的方差的测度分类所述通信系统处的语音。

所述形成增益的测度可以包括，关于各频率窗口：

估计所述麦克风信号与所述远端信号的比；

根据所述麦克风信号与所述远端信号的比以及针对之前帧形成的增益的测度来估计所述近端信号与远端信号的比；以及

根据所述近端信号与远端信号的比确定所述增益的测度。

估计近端信号可以包括，关于各频率窗口，将增益的测度应用于麦克风信号。

所述分类所述通信系统处的语音可以包括：

将所述增益的所述方差的测度和所述近端信号的所述方差的测度与相应阈值进行比较；以及

根据所述方差的测度位于它们各自阈值之上还是之下来选择所述信号分类器的所述输出分类。

计算机程序代码可以被设置为定义近端语音检测器，借此，近端语音检测器可制造。永久计算机可读存储介质可以被设置为上面存储有计算机可读指令，在该计算机可读指令在用于生成集成电路的表现形式的计算机系统处处理时，使得计算机系统生成近端语音检测器的表现形式。

计算机可读代码可以被设置为实施用于分类通信系统处的语音的方法。永久计算机可读存储介质可以被设置为上面存储有计算机可读指令，在该计算机可读指令在处理器处处理时，使得处理器实施用于分类通信系统处的语音的方法。

附图说明

现在将参照附图用示例的方式来描述本发明，附图中：

图1示出了电话中的近端和远端的示例。

图2是被构造成用于自适应回声估计滤波器的近端语音检测器的示意图。

图3是近端语音检测器的示意图。

图4是图3中所示的信号处理器的示意图。

图5是例示了由图3的信号分类器执行的决定处理的流程图。

图6是例示了信号处理器的操作的流程图。

图7是例示了图3的计算单元的操作的流程图。

图8是例示了具有麦克风信号和远端信号的语音内容的方差的增益和所估计近端信号的变化的行为的图表。

图9是例示了具有麦克风信号和远端信号的语音内容的变化的近端语音检测器的输出行为的图表。

具体实施方式

用示例的方式提出以下描述，以使得本领域任意技术人员能够进行并使用本发明。本发明不限于这里所述的实施方式，并且对所公开实施方式的各种修改将对本领域技术人员容易地清晰。

提供了用于对在通信系统处的语音进行分类的近端语音检测器(NSD)和方法。如这里所述的近端语音检测可以用于对任何种类的通信系统中的语音进行分类。语音可以以任何合适的方式来分类，包括，分类为近端、回声/远端、双端通话以及无声中的一个或更多个。如这里所述的近端语音检测器可以用于在任何种类的通信系统中且为了任何目的对语音进行分类；近端语音检测器不需要存在回声消除器，并且这里给出的被构造成与回声消除器一起使用的近端语音检测器的示例仅是为了例示。如这里所述的近端语音检测器可以例如用于对于以下中的一个或更多个在通信系统中分类语音：任何种类的回声消除器(包括基于自适应回声估计滤波器(AEEF)的回声消除器)；ERL估计；以及平台回声消除检测。在这里所述的示例中，NSD被构造成对表示麦克风信号和远端信号的帧流进行操作。在其他示例中，NSD可以被构造成对不由帧流表示的信号进行操作。

图2中在示例性通信系统200处示出了用于对语音进行分类的近端语音检测器，该示例性通信系统200包括麦克风201、扬声器202以及自适应回声估计滤波器(AEEF)203。在该示例中，通信系统200为近端通信系统，并且远端信号BEI从远端通信系统接收——两个通信系统例如可以为运行互联网协议电话(VoIP)软件的智能电话或膝上型电脑，以允许两个系统的用户以图1中所例示的方式彼此通信。

近端通信系统200的扬声器202输出从远端通信系统接收的远端信号208。麦克风201拾取由系统用户发出的近端语音以及背景噪声和远端信号的回声：这些成分一起组成麦克风信号206。如已讨论的，远端信号中的一些将由于扬声器与麦克风之间的声耦合(例如，通过传过其中固定了扬声器和麦克风的系统200的壳体或由于由系统所在地中的表面产生的对扬声器输出的声反射)而被在麦克风201处接收。声耦合在图2中由传递函数h来表示。

为了恢复近端语音信号207，自适应回声估计滤波器203被设置为基于远端信号本身生成对存在于麦克风信号中的远端信号的回声的估计。然后可以从麦克风信号减去204回声的估计e，以形成对近端信号207的估计。如果AEEF 203良好执行且收敛，则回声的估计e将接近于在麦克风201处接收到的真实回声，并且近端信号207将为近端语音的接近表示。

如已说明的，在特定条件下，需要冻结AEEF的系数或应用可忽略的步长，以避免AEEF的发散。近端语音检测器(NSD)205被设置为对通信系统处的语音状况进行分类，以允许通信系统适当控制通信系统的AEEF 203的适应。例如，在图2中所示的结构中，NSD 205向AEEF 203提供指示通信系统处的语音状况的输出。AEEF根据NSD输出可以确定什么时候冻结它的系数。这仅是一个示例。在其他示例中，近端语音检测器205可以为了任何目的处理麦克风信号和远端信号，以形成通信系统处的语音状况的指示。

现在将参照图3至图7用示例的方式描述近端语音检测器205。

图3中示出了近端语音检测器(NSD)205的示意图。NSD接收远端信号x(n)301和麦克风信号m(n)302。信号处理器303被构造成对信号301和302进行操作，以将这些信号转换到频域中，作为经转换的远端信号X(k,l)304和转换后的麦克风信号M(k,l)305。为简洁起见，经转换的远端信号和麦克风信号将简称为远端信号和麦克风信号。信号处理器可以或可以不形成NSD的一部分；在图3中所示的示例中，信号处理器被认为形成NSD的一部分。

NSD对远端信号304和麦克风信号305在频域中操作。NSD的计算单元306被构造成形成参数，基于该参数，信号分类器311确定信号的语音状况并提供指示语音状况的确定结果的输出分类。计算单元可以被构造成形成近端信号Y(k,l)的估计以及麦克风信号与近端信号的估计之间的增益的测度。根据这里所提供的教导，计算单元被构造成形成近端信号的估计的方差和在麦克风信号与近端信号的估计之间的增益的方差的测度。这些方差的测度可以在信号分类器处用于在不同的语音状况之间区分。

现在将描述图3中例示的计算单元的操作。麦克风信号m(n)包括近端语音信号d(n)、背景噪声v(n)以及由于远端信号到麦克风中的耦合而产生的回声信号e(n)。因此，麦克风信号的幅度谱M(k,l)可以根据近端信号的幅度谱D(k,l)、回声信号的幅度谱E(k,l)以及背景噪声信号的幅度谱V(k,l)记为：

M(k，l)＝D(k，l)+E(k，l)+V(k，l) (1)

其中，k表示频率窗口编号(频域被离散地表示为多个频率窗口)，并且l表示帧编号。

计算单元306的增益估计器307被构造成从麦克风信号过滤回声，以形成近端信号Y(k,l)的估计。这可以通过针对各频率窗口估计麦克风信号与近端信号之间的增益的测度来实现。通过将这种增益应用于各频率窗口中的麦克风幅度谱的值，然后可以形成描述该频率窗口中的近端信号的幅度谱的值。

合适的增益函数可以从麦克风信号与远端信号(MFR)的比与近端信号与远端信号(NFR)的比的估计导出。MFR可以以任何合适的方式来估计。平滑远端信号可以是有利的。例如，可以对于远端信号如下形成周期图谱幅度谱

平滑因子β优选地被选为使得周期图谱估计保持远端频谱达麦克风信号中的回声混响长度(如可以由任何合适手段确定的)。使用周期图谱幅度谱代替远端幅度谱提高了NSD的稳定性。平滑后的远端信号的生成可以在信号处理器303或计算单元306处执行；在图3中，在增益估计器307处形成平滑后的远端信号。

然后，MFRγ(k，l)根据和M(k,l)估计如下：

近端信号对NSD 205不可用，但通过关于远端信号和近端信号的特性进行特定假定，可以根据MFR形成NFR的估计。假定为：

1)缩放远端信号以形成回声信号的估计不影响远端信号的频率分量之间的比。

2)存在增益G的测度，该测度应用于麦克风信号的频率窗口，从麦克风信号过滤回声，以产生近端信号。

基于这些假定，近端信号与远端信号的比NFR可以根据从M(k,l)谱减去然后半波整流的近端信号的之前估计帧来估计。在之前估计帧不可用的启动期间，可以使用为零的近端估计来得到为零的NFR的初始值。该方案可以抑制近端信号中在麦克风信号M(k,l)和远端信号中具有相当大幅值的频率。为了形成语音状况的准确且稳定分类，远端缩放(例如，如下所讨论的在信号处理器303处的)和谱减法对麦克风信号影响通常可忽略。NFRξ(k，l)可以对于各频率窗口例如定义为：

ξ(k，l)＝αG(k，l-1)γ(k，l-1)+(1-α)MAX{γ(k，l)-1，0} (4)

NFR的更高值指示麦克风信号中的回声等级低且预期增益G接近于整数。NFR的更低值指示麦克风信号中的回声高且预期增益G对于含有回声的频率窗口接近于零。

麦克风与近端信号之间的合适的增益G测度可以表达为所估计近端与远端比NFR的维纳函数：

增益函数可以通过假定语音特性在帧之间缓慢变化使得G(k,l)≈G(k,l-1)且r(k,l)≈r(k,l-1)来简化。将算式(4)中表达的NFR代入增益函数(5)且为简单起见而忽略编号k和l给出简化的增益函数：

这可以重写为二次函数：

G²(αγ)+G(1+(1-α)(γ-1)-αγ)+(1-α)(γ-1)＝0 (7)

该算式的解为和因为α为常数且增益应为自适应的，所以不是有效解。因此，就γ而言简化增益函数可以表达为：

从算式(8)可以理解，当远端语音不存在或在其他方面麦克风信号中没有回声时，G＝1，并且增益幅度谱的方差将等于麦克风信号的幅度谱的方差。假定背景噪声V(k,l)＝0，则算式(8)还可以使用上面的算式(1)简化为如下：

回声幅度谱E(k,l)可以使用回声路径脉冲响应H(k,l)(例如，图2中所示转换到频域中的脉冲响应h)来建模为HX。因为预期所缩放的远端信号散布回声信号的全部频率，所以根据从M(k,l)谱减去然后半波整流的近端信号的之前估计帧形成的估计增益可以抑制存在于麦克风信号中的回声信号的全部。因此，对于只有回声的时段，可以认为因为近端信号在只有回声的时段中D＝0，于是增益在只有回声的时段中G≈0。

因此，根据上述假定，将理解，增益对于远端信号的幅度谱相当大的频率窗口将接近于零，并且增益对于远端信号的幅度谱可忽略的频率窗口将接近于1。

通过将所估计的增益G应用于麦克风信号的幅度谱M(k,l)，可以形成真实近端信号D(k,l)的估计。表达为幅度谱的近端信号的估计称为Y(k,l)：

Y(k，l)＝G(k，l)M(k，l) (10)

增益G(k,l)修改麦克风信号的幅度谱，以去除麦克风信号中的回声的估计，因此提供近端信号的估计。增益可以通过将各频率窗口的增益值k乘以该各频率窗口中的麦克风信号的幅度来在麦克风信号上运算。这由图3中的乘法器308指示，该乘法器可以或可以不被认为是增益估计器的一部分。

方差计算器310被构造成形成增益G(k,l)和近端信号估计Y(k,l)跨频率窗口的方差的测度。这种方差的测度可以以任何合适的方式来计算，包括作为各个幅度谱的数学方差、对于各个幅度谱的频率窗口表达的值的方差的粗略测度以及作为对于各个幅度谱的频率窗口表达的值的速度的其他测度(例如，标准偏差的测度)。例如，Y(k,l)的方差的测度可以由方差计算器根据以下算式来确定：

方差varY(l)在麦克风信号只有回声的时段内接近于零，在近端语音期间高(通常约等于麦克风信号的幅度谱的方差)，并且该方差在双端通话期间通常具有中间但波动的值。所估计近端信号的方差用于在回声与近端语音时段之间区分。

类似地，G(k,l)的方差的测度可以由方差计算器根据以下算式来确定：

方差varG(l)在近端语音与麦克风信号只有回声的时段这两者内都接近于零，但它在双端通话期间具有相当大的幅度。麦克风信号和远端信号的频率窗口之间的相关的缺乏可能导致双端通话期间的显著增益波动和高方差varG(l)。因此，麦克风与近端信号之间的增益的方差用于识别通信系统200处的双端通信的时段。

NSD 205可以包括其中存储了用于远端信号X(k,l)或麦克风信号M(k,l)以及增益G(k,l)中的一个或更多个的窗口值的窗口存储309。窗口存储可以保持来自多于一个帧的数据，以能够从之前帧向假设增益估计器提供值。增益估计器307和/或方差计算器310可以被构造成从窗口存储读取和/或向窗口存储书写。例如，增益估计器可以被构造成向窗口存储书写的值，并且在计算的当前窗口值时从窗口存储读取用于之前帧的的之前值。

如果远端信号和麦克风信号实质上包括无声或背景噪声，则增益和近端估计可以具有低值。然而，低等级无声或背景噪声信号的随机性质以及麦克风信号与远端信号之间的相关的缺乏可能导致增益和近端估计的方差的显著波动。为了允许可靠区分无声和双端通话，在决策期间还可以使用麦克风信号的帧能量的测度。能量计算器312可以被设置为确定麦克风帧能量的测度。NSD可以或可以不包括能量计算器；在一些平台上，各麦克风的能量测度可以用作预计算的值(例如，由于系统的信号处理器303或另一个单元处的处理)。

麦克风信号的帧中的能量的测度可以以任何合适的方式来计算。例如，麦克风帧能量可以在时域中根据麦克风信号在能量计算器312处确定为：

其中，L为帧的长度。

信号分类器311被构造成基于增益和近端信号的方差的测度且可选地基于麦克风帧能量Pm(l)在不同的语音状况之间区分。信号分类器的输出为输出分类313，该输出分类313可以以任意形式提供，以用于通信系统中或别处。例如，输出分类可以为指示四个语音状况(回声、近端、双端通信以及无声)中的一个的0至3之间的数字。信号分类器可以在近端估计和增益这两者的方差低时识别只有回声的状态。信号分类器可以在近端估计的方差高且增益的方差低时识别近端语音状况。信号分类器可以在近端估计和增益这两者的方差高时识别双端通话状态。

为了将语音状况识别为双端通话，信号分类器还可以检查麦克风帧能量高。当麦克风帧能量低时(并且可选地为近端或增益放长都不低时)，信号分类器可以将无声(即，没有远端或近端语音)识别为通信系统处的语音状况。被认为高的方差和帧能量的特定值依赖于被选择以形成增益和近端方差以及帧能量的方法。可以采用实征取向，以识别用于这些参数的值被认为高/低于的方差和帧能量中的每一个的合适阈值。在一些实施方案中，可以归一化方差和帧能量，以各位于0至1之间。

图5中示出了流程图，该流程图例示了由信号分类器311为了在通信系统200处的不同语音状况之间区分而执行的一组示例性步骤。在接收决策参数501(近端估计方差、增益方差以及麦克风帧能量)时，信号分类器执行一系列检查502、504以及506。各检查分别针对用于近端估计方差、增益方差以及麦克风帧能量的一组阈值T1、T2以及T3来执行。阈值可以在信号分类器处预定义，或者可以根据通信系统200处所接收的远端信号和麦克风信号的特性适应地确定。

检查502验证近端和增益方差是否在它们的各自阈值T1和T2之下和帧能量是否在它的阈值T3之上：如果满足检查，则将语音状况输出为只有回声503。检查504验证近端方差是否在它的各阈值T1之上，增益方差是否在它的各阈值T2之下以及帧能量是否在它的阈值T3之上：如果满足检查，则将语音状况输出为近端语音505。检查506验证近端方差是否在它的各阈值T1之上，增益方差是否在它的各阈值T2之上以及帧能量是否在它的阈值T3之上：如果满足检查，则将语音状况输出为双端通话507。如果检查502、504或506都不满足，则信号分类器将输出分类输出为无声。

为了将帧时段分类为回声、近端语音、双端通话以及无声，上面关于图2、图3以及图5描述的近端语音检测器205对麦克风信号和远端信号逐帧地操作。典型的帧尺寸可以为大约10ms。

使信号处理器303执行远端与麦克风信号之间的同步以确保信号的帧彼此同步可以是有利的。这减轻由于帧处理延迟和回声路径上的延迟而引起的问题。使信号处理器303缩放远端和/或麦克风信号以补偿由回声路径引入的声特性还可以是有利的。

图4中示出了信号处理器303的示例性实施方式。信号处理器对远端时域信号301和麦克风时域信号302进行操作。为了降低由NSD执行的计算的复杂度，信号处理器可以包括被构造成对远端信号和麦克风信号进行降采样的降采样器401。通常，语音信号中的关键频率信息位于300Hz与3500Hz之间，最重要的信息在500Hz与2000Hz之间。降采样器401可以被构造成将远端信号和麦克风信号降采样到大约4kHz，以将关键频率信息维持在达2000Hz，并且放弃更不重要的更高频率分量。

延迟线402可以添加到远端信号路径，以使远端信号与麦克风信号同步。适当的延迟可以以任何合适的方式来识别，例如如美国专利申请2013/0163698所描述。麦克风信号中所捕获的远端信号的回声将受通信系统的扬声器、麦克风以及音频接口的声特性控制，而且将受由远端信号路径上的反射和其他现象所引起的人为现象控制。这些着色的净效果可以应用于远端信号，以估计由于远端信号而存在于麦克风信号中的回声。在图3中，这通过在乘法器403处将远端信号乘以因数λ来实现。因数可以被选择为将远端信号缩放为适于远端信号在麦克风信号中的回声的等级，和/或引入远端信号的频率分量的谐波。依赖于频率的缩放功能可以以表达远端信号对麦克风信号的贡献的任何合适方式来形成，但合适因数λ实际上可以根据例如(回声返回损失)ERL计算器404处形成的ERL的测度以最小的复杂度来确定。对于高正ERL值(例如，12dB)，缩放远端信号以产生回声信号的估计可能导致支配近端信号的回声、近端语音的消除以及可能的双端通话分类，作为回声。对于这种高正值ERL，可以使用低缩放因数(例如，1)。例如，低负值ERL(例如，-12dB)，可以使用高缩放因数(例如，4)。NSD可以用高缩放因数(例如，4)来初始化。使用大于1的缩放因数可以通过使得麦克风信号饱和来模仿存在于远端信号中的回声谐波。

归一化远端信号和麦克风信号可以是有利的。这可以有助于使NSD的复杂度最小化。归一化单元405可以被设置为提供这种信号归一化。这可以根据仅从麦克风信号估计的归一化因数而由归一化单元应用于麦克风信号和远端信号这两者来执行。归一化因数可以被选择为使得当将归一化因数应用能够于麦克风信号时，麦克风信号的功率是一致的。

信号处理器在快速傅里叶变换(FFT)406处将(潜在降采样的、同步的、缩放的以及归一化的)远端信号和麦克风信号变换到频率中。FFT 406可以被构造成使用短时间傅里叶变换(STFT)来执行该变换。因此，信号处理器的输出为一对频域信号：远端信号X(k,l)304和麦克风信号MG(k,l)305。这些信号为近端语音检测器205的计算单元306提供输入。

图6和图7示出了流程图，该流程图分别例示了根据这里所述示例的信号处理器和近端信号检测器的操作。信号处理器对来自通信系统的麦克风的麦克风信号601和从例如远端通信系统接收的远端信号602进行操作。首先，信号处理器将信号603降采样至足以保持语音的关键频率分量的4kHz。降采样的麦克风信号用于估计归一化因数604。降采样的远端信号例如通过将合适的延时插到远端信号路径中来与降采样的麦克风信号同步。远端信号由缩放因数λ来进一步缩放606，以将远端信号的幅度与存在于麦克风信号中的远端信号的回声的预期幅度匹配。

然后，归一化607降采样的麦克风信号和降采样的、同步且缩放的远端信号，以生成时域信号m’(n)和x’(n)。然后，信号处理器被构造成将这些信号转换到频域中608，以形成麦克风信号M(k,l)609和远端信号X(k,l)610。

图7例示了NSD对信号处理器的输出的操作。NSD接收经转换的麦克风信号和远端信号并例如根据上面的算式(3)形成麦克风信号与远端信号的比(MFR)的估计703。然后，NSD例如根据上面的算式(4)从麦克风信号与远端信号的比(MFR)估计705近端与远端信号比(NFR)。该步骤可以根据对于步骤706处的之前帧形成的增益的测度来执行(706：在附图中，增益和MFR经受单采样延迟704，使得基于增益和MFR的之前值计算NFR)。然后，例如根据算式(5)对于706处的帧计算麦克风与近端信号之间的增益的测度。近端信号的估计例如根据算式(10)在乘法器707处由远端信号610和估计的增益来形成。

形成708近端信号的增益和估计的方差，并且该方差用于分类709与NSD关联的通信系统处的语音状况。生成输入分类710，以用于通信系统处(例如，系统的AEEF处)，以使得能够在近端语音和/或双端通话期间冻结AEEF的系数。

如这里所述的近端语音检测器在频域中操作，以分类麦克风信号帧和远端信号帧。NSD独立于自适应回声估计滤波器(AEEF)操作，并且不依赖于AEEF的参数。NSD基于所估计近端信号的幅度谱的方差和麦克风信号与所估计近端信号之间的增益的方差的测度来分类通信系统处的语音。因为NSD独立于AEEF工作，所以提出的NSD可以用于ERL估计、平台AEC检测等或者需要通信系统处语音的分类的任意应用。

NSD可以含蓄或明确地对麦克风信号中的回声建模，以抑制来自麦克风信号的回声并形成近端信号的估计。当所估计的增益接近于最佳时，该增益从麦克风信号大大地去除回声。然而，代替对于回声消除而优化，NSD可以被优化为生成用于语音分类的参数。

图8例示了具有麦克风、远端以及近端信号的变化的决策参数varG(l)和varY(l)的变化。附图中所例示的测试数据以近端语音的时段开始，然后是无声、只有回声的时段，然后是双端通话。在近端语音的时段期间(即，近端活动而远端不活动)，近端方差varY(l)显著，但增益方差varG(l)低。在无声的时段期间，近端方差低，但增益方差波动且具有中间幅度。在只有回声的时段期间(即，远端活动而近端不活动)，近端和增益方差这两者具有低值。因为增益和近端方差参数在近端语音和只有回声的时段期间具有不同的组合，所以增益和近端方差参数允许区分这些语音状况。在双端通话时段期间(即，近端和远端这两者活动)，近端方差和增益方差这两者高。还可以使近端方差和增益方差在无声时段期间都具有高值(即，没有近端或远端语音，但可以有背景噪声)。麦克风帧能量的测度可以用于在双端通话与无声之间区分。

图9中对于图8中所示的测试信号例示了近端信号检测器205的输出。在NSD的该特定实施方案中，NSD的输出对于无声被设置为-0.2，对于只有回声被设置为-0.1，对于近端语音被设置为0，并且对于双端通话被设置为0.1。在其他实施方案中，表示不同语音状况的NSD输出可以以任何方式来表达。从图9可以注意到，NSD基于图8中例示的近端和增益方差参数正确识别近端语音、无声、回声以及双端通话的时段。此外，对于具有10ms长度帧的通信系统，可以实现使用这里所述的NSD在10ms(即，一帧)内检测近端语音的开始。近端语音时段结束的开始可以在20ms内检测。

图8和图9所例示的测试数据根据ITU-T建议P.501来生成，回声信号使用来自ITU-T建议P.340的房间脉冲响应来生成。

在麦克风信号含有独立于任意回声的显著信号能量的许多情况下，能量将是由于在近端处交谈而产生。这种情况在这里被方便地表示为“近端语音”。当然，信号能量可以是由于不同的声音源而产生。这在电话会议或免提操作期间是特别实际的。因此，术语“近端语音”用于提及麦克风信号中不是由于回声而产生的任意显著信号能量。

图2、图3以及图4的通信系统、近端语音检测器以及信号处理器分别被示出为包括若干功能块。这仅是示意性的，并且不旨在限定不同逻辑元件或部件之间的严格划分。各功能块可以以任何合适的方式来设置。

如这里所用的术语软件和程序代码包括用于处理器(例如，CPU和/或GPU)的可执行代码、固件、位元码、编程语言代码(诸如C或OpenCL)以及用于可重构逻辑装置的模块(诸如FPGA)。机器可读代码包括软件/程序代码以及用于定义任意等级(包括寄存器传送级(RTL)、高级电路表示(诸如Verilog或VHDL)以及更低级表示(诸如OASIS和GDSII))的集成电路的硬件表示的代码。

这里所述的算法和方法可以由一个或更多个物理处理单元来执行，该物理处理单元执行使得单元执行算法/方法的软件。物理处理单元或各物理处理单元可以为任何合适的处理器(诸如CPU或GPU(或其核心))或固定功能或可编程硬件。机器可读代码可以以永久形式存储在机器可读介质(诸如集成电路存储器或光或磁存储器)处。机器可读介质可以包括若干存储器，诸如片上存储器、计算机工作存储器以及非易失性存储装置。

申请人在此孤立地公开了这里所述的各独立特征和两个或更多个这种特征的任意组合，达到这种特征或组合能够鉴于本领域技术人员的普通常识整体基于本规范而进行的程度，不管这种特征或特征的组合是否解决这里所公开的任何问题，并且不对权利要求的范围限制。申请人指示，本发明的方面可以由任意这种独立特征或特征组合来组成。鉴于上述描述，对本领域技术人员将显然的是，可以在本发明的范围内进行各种修改。

Claims

1.一种用于对通信系统处的语音进行分类的近端语音检测器，该通信系统接收来自近端麦克风的麦克风信号和来自远端通信系统的远端信号，所述近端语音检测器包括：

信号处理器，该信号处理器被构造成将所述麦克风信号和所述远端信号变换到频域中；

计算单元，该计算单元被构造成形成：

所述麦克风信号与所述近端信号之间的增益的测度；

以及

2.根据权利要求1所述的近端语音检测器，其中，所述计算单元被构造成关于多个频率窗口中的每个形成对所述近端信号的所述估计和所述增益的测度，并且所述方差的测度为跨所述频率窗口的方差的测度。

3.根据权利要求1所述的近端语音检测器，其中，所述信号处理器被构造成通过执行短时间傅里叶变换STFT来变换所述麦克风信号和所述远端信号。

4.根据权利要求1所述的近端语音检测器，其中，在所述信号处理器处形成的所述麦克风信号和所述远端信号表示所述麦克风信号和所述远端信号在所述频域中的幅度谱。

5.根据权利要求1所述的近端语音检测器，其中，所述麦克风信号和所述远端信号各被表示为帧序列，并且所述近端语音检测器被构造成关于所述序列的各帧形成输出分类。

6.根据权利要求1所述的近端语音检测器，其中，所述信号处理器被构造成还通过执行以下中的一个或更多个来处理所述所接收的麦克风信号和远端信号：所述麦克风信号和远端信号的同步；所述麦克风信号和所述远端信号的缩放；以及所述麦克风信号和所述远端信号的归一化。

7.根据权利要求1所述的近端语音检测器，其中，所述信号处理器或所述计算单元被构造成平滑所述远端信号，以保持所述远端信号的所述幅度谱达所述远端信号中的回声混响的长度。

8.根据权利要求1所述的近端语音检测器，其中，所述计算单元被构造成通过根据所述远端信号对所述麦克风信号操作维纳滤波器来形成对所述近端信号的所述估计。

9.根据权利要求1所述的近端语音检测器，其中，所述计算单元被构造成关于各频率窗口估计所述麦克风信号与所述远端信号的比，所述麦克风信号与所述远端信号的所述比用于形成所述麦克风信号与所述近端信号之间的所述增益的测度。

10.根据权利要求9所述的近端语音检测器，其中，所述计算单元被构造成关于各频率窗口、根据所述麦克风信号与所述远端信号的所述比以及针对之前帧形成的增益的测度来估计所述近端信号与所述远端信号的比。

11.根据权利要求10所述的近端语音检测器，其中，所述近端信号与所述远端信号的所述比包括作为所述麦克风信号与所述远端信号的所述比的半波整流函数的分量。

12.根据权利要求10所述的近端语音检测器，其中，所述计算单元被构造成通过将所述增益的测度应用于所述麦克风信号来形成所述麦克风信号中的近端信号的所述估计。

13.根据权利要求1所述的近端语音检测器，其中，所述计算单元还被构造成关于各帧形成跨所述频率窗口所述增益的所述方差的测度和所述近端信号的所述方差的测度。

14.根据权利要求1所述的近端语音检测器，其中，所述信号分类器被构造成通过将所述增益的方差的测度和所述近端信号的所述方差的测度与相应阈值进行比较来对语音进行分类，所述信号分类器的所述输出分类根据所述方差的测度位于它们各自阈值之上还是之下来选择。

15.根据权利要求14所述的近端语音检测器，其中，所述阈值是针对所述方差的测度预定义的或根据所述麦克风信号和/或所述远端信号的特性来调整。

16.根据权利要求1所述的近端语音检测器，所述近端语音检测器还包括能量计算器，该能量计算器被构造成关于所述麦克风信号的一个或更多个帧确定帧能量的测度，所述信号分类器被构造成根据所述帧能量的测度在双端通话与无声之间区分。

17.一种系统，该系统包括：

自适应回声估计滤波器；和

用于对通信系统处的语音进行分类的近端语音检测器，该通信系统接收来自近端麦克风的麦克风信号和来自远端通信系统的远端信号，所述近端语音检测器包括：

计算单元，该计算单元被构造成形成：

所述麦克风信号与所述近端信号之间的增益的测度；

以及

信号分类器，该信号分类器被构造成根据所述增益的方差的测度和所述近端信号的方差的测度对所述通信系统处的语音进行分类；

18.一种用于对通信系统处的语音进行分类的方法，该通信系统接收来自近端麦克风的麦克风信号和来自远端通信系统的远端信号，所述方法包括以下步骤：

将所述麦克风信号和所述远端信号变换到频域中；

估计表示存在于所述麦克风信号中的近端语音的近端信号；

根据所述增益的方差的测度和所述近端信号的方差的测度对所述通信系统处的语音进行分类。

19.根据权利要求18所述的方法，其中，形成增益的测度的步骤包括，关于各频率窗口：

估计所述麦克风信号与所述远端信号的比；

根据所述近端信号与所述远端信号的比确定所述增益的测度。

20.根据权利要求18所述的方法，其中，对所述通信系统处的语音分类的步骤包括：

将所述增益的所述方差的测度和所述近端信号的所述方差的测度与各自阈值进行比较；以及