CN1985301B

CN1985301B - 用于多路重合噪声检测的系统和方法

Info

Publication number: CN1985301B
Application number: CN2005800233513A
Authority: CN
Inventors: 洛拉·拉阿克索南; 佩维·瓦尔弗
Original assignee: Nokia Oyj
Current assignee: Nokia Solutions and Networks Oy
Priority date: 2004-05-25
Filing date: 2005-05-09
Publication date: 2010-12-15
Anticipated expiration: 2025-05-09
Also published as: DE602005024260D1; US8788265B2; CN1985301A; WO2005119649A1; ATE485580T1; EP1751740A1; EP1751740B1; US20050267745A1

Abstract

本发明提供一种方法、设备、系统以及计算机程序，将梯度指数计算为来自在每次方向改变时所接收的帧中的语音信号梯度量值的和；以及如果该梯度指数、能量信息和背景噪声电平超过了预定阈值，或者话音激活检测器算法和声音电平指示了多路重合噪声，则提供该帧包含多路重合噪声的指示。将该梯度指数计算为来自在每次方向改变时所接收的输入信号中的语音信号梯度量值的和。该能量信息测量某值相当高的频度，其基于用该信号的能量除能量的二阶导数的商。

Description

用于多路重合噪声检测的系统和方法

技术领域

本发明涉及用于在电复制的语音信号中改善质量的系统和方法。更特别地，本发明涉及用于多路重合噪声检测的系统和方法。

背景技术

电话可以在许多不同环境中使用。在讲话者(远端)和接听者(近端)周围经常存在一些背景噪声。该背景噪声的类型和电平可以从固定的办公室和车辆的噪声到更多的不固定的街道以及餐馆的噪声而有所变化。许多语音处理算法试图加强真实语音信号并且另一方面减小不希望的背景噪声遮蔽效应，以便改善所感知的音质以及可辨度。对于这些语音增强算法，了解传输链路的任一端出现何种噪声是有用的，这是因为不同的噪声情况需要不同的算法特性。为噪声确切分类是困难的，不过通常根据噪声电平和活动性程度对噪声分类已足够。

电话经常会在嘈杂的环境中使用并且经常会在语音信号中加入一些背景噪声。许多语音增强算法试图通过放大真实语音和衰减背景噪声来改善所传输语音信号的质量和可辨度。为了检测真正包含语音的信号的时隙，已开发了称为话音激活检测(VAD)的算法。这些话音激活检测算法通常将拟语音噪声、交流声也解释为语音，这导致了背景噪声被放大的不希望的情况。为了防止这些情况，需要一种多路重合噪声检测过程，以确定由VAD检测的语音是否是真实语音或只是背景多路重合噪声。

除了使用了VAD信息的算法，其它一些诸如人工带宽扩展(ABE)的语音增强算法则得益于背景噪声分类信息。这些关于背景噪声的信息在不同的噪声条件下可以实现该算法的最佳特性。多路重合噪声的情况通常也包含其它不固定噪声，类似于例如自助餐厅中盘子的叮当声或者纸的沙沙声。根据这种情况，多路重合噪声的概念中也可能包含这些声音，并且在这种情况下，希望多路重合噪声检测器也能够检测出这些声音。

在A.Sugiyama，T.P.Hua，M.Kato，M.Serizawa等人于2002年5月的IEEE声学、语音和信号处理会议录第一卷13-17页所发表的“NoiseSuppression with Synthesis Windowing and Pseudo Noise Injection”一文中，使用了零交叉信息来检测多路重合噪声。如果时域信号零交叉的平均次数超过了一定的阈值，则将该噪声视为多路重合噪声。

因而，需要一种用于检测多路重合噪声的改进技术。进一步地，需要区分语音和背景噪声。更进一步地，需要组合来自用于多路重合噪声检测的单独的检测算法的结果。

发明内容

本发明关注于用于检测多路重合噪声的方法、设备、系统和计算机程序产品。简要地，一个示例性实施方式涉及用于检测多路重合噪声的方法。该方法包括接收包括语音信号的通信信号帧；将梯度指数计算为来自在每次方向改变时所接收的帧中的语音信号梯度量值的和；并且如果该梯度指数、能量信息和背景噪声电平超过了预定阈值，则提供该帧包含多路重合噪声的指示。

另一个示例性的实施方式涉及检测在语音信号中的多路重合噪声的设备或模块。该设备包括与无线网络通信的接口，以及存储于存储器中并被配置为基于噪声的频谱分布检测多路重合噪音的编程的指令。

另一个示例性的实施方式涉及检测在语音信号中的多路重合噪声的设备或模块。该设备包括发送和接收语音信号的接口，以及存储于存储器中并被配置为基于话音激活检测器算法检测多路重合噪音的编程的指令。

此外，另一个示例性的实施方式涉及用于检测多路重合噪声的系统。该系统包括用于接收包括语音信号的通信信号的帧的装置；用于将梯度指数计算为来自在每次方向改变时所接收的帧中的语音信号的梯度的量值的和的装置；以及用于在该梯度指数、能量信息和背景噪声电平超过了预定阈值时，提供该帧包含多路重合噪声的指示的装置。

此外，另一个示例性的实施方式涉及检测多路重合噪声的计算机程序产品。该计算机程序产品包括计算机代码以将梯度指数计算为来自在每次方向改变时所接收的帧中的语音信号的梯度量值的和；以及如果该梯度指数、能量信息和背景噪声电平超过了预定阈值，或者话音激活检测器算法和声音电平指示了多路重合噪声，则提供该帧包含多路重合噪声的指示。

通过查看下面的附图、详细描述以及所附的权利要求，本发明的其它原则性特征和优势对于本领域技术人员而言将变得显而易见。

附图说明

下面，将参照附图描述示例性的实施方式。

图1和图2是示出了多路重合噪声检测算法的示例性的输出的图表。

图3和图4是示出了多路重合噪声检测算法的示例性的输出的图表。

图5和图6是示出了多路重合噪声检测算法的示例性的输出的图表。

图7是示出了结合根据示例性的实施方式的多路重合噪声检测算法而执行的操作的流程图。

图8是示出了根据示例性的实施方式的基于频谱分布的算法而执行的操作的流程图。

图9是示出了根据示例性的实施方式的基于话音激活检测的算法而执行的操作的流程图。

具体实施方式

图1、图2描述了示出对于包含带有多路重合背景噪声的两个句子的VAD算法(图1)和频谱分布算法(图2)的信号输出的图表10和图表20。图1的图表10中的虚线是VAD决策，其中逻辑的1对应于检测到的语音。图1的图表10中的点线是通过基于VAD的多路重合噪声检测算法作出的多路重合声决策。图2的图表20中的点线是通过基于特征的算法作出的多路重合声决策。

图3、图4描述了示出对于包含两个句子的VAD算法(图3)和频谱分布算法(图4)的信号输出的图表30和图表40。图表30示出了基于VAD的检测算法的输出。该图表30展示出该第二个句子几乎完全被错误地检测为多路重合噪声，因为该第二个句子的电平小于该第一个句子的电平。相反，图表40示出了基于噪声的频谱分布的多路重合噪声检测的输出。该图表40展示出没有检测到多路重合噪声。

图5、图6描述了示出对于包含跟随有安静的多路重合噪声的一个句子的VAD算法(图5)和频谱分布算法(图6)的信号输出的图表50和图表60。该图表50示出了基于VAD的检测算法的输出。该图表50展示出检测到该多路重合噪声。相反，该图表60示出了基于噪声的频谱分布的多路重合噪声检测的输出。该图表60展示出由于其低通特性该算法没能检测出多路重合噪声。

因而，当组合基于VAD的算法和频谱分布算法时，或在最适合该所选择的特定算法的情况下分别使用基于VAD的算法和频谱分布算法时，可以更好地检测多路重合噪声。在一个示例性的实施方式中，该两个算法都以10ms的帧来处理输入信号。

一般情况下，话音激活检测(VAD)算法通常将拟语音、交流声解释为语音。由于交流声的电平常常低于真实语音的电平，通过监视所检测到的语音的电平，该基于VAD的多路重合噪声检测算法修正那些由VAD所做出的错误决策。如果输入信号电平突然比起长期估计跌落超过一预定的量(例如5dB，25db＜50dB，等)，则做出多路重合噪声情况的假设。该基于VAD的多路重合噪声检测算法仅检测实际上是话音的交流声的多路重合噪声。

该频谱分布算法基于特征向量，并且其跟随该长期的背景噪声条件。频谱分布算法仅监视噪声的特征而不考虑例如该帧是否包含语音的信息的VAD决策。该多路重合噪声检测基于反应出频率成分的频谱分布的特征，并且因而区分出低频噪声和具有较高频率成分的多路重合噪声。该基于频谱分布的算法将话音的交流声，以及其它非固定噪声检测为多路重合噪声。

由于这些算法在定义和检测噪声上的不同，在一些情况下，将它们能提供的信息进行组合是有利的。如何实现该组合依赖于对多路重合噪声的定义和多路重合噪声检测所需要的精度。举例而言，该频谱分布多路重合噪声决策可以用于对由基于VAD的检测算法所做出的否定或肯定多路重合噪声决策的双重检测。

基于噪声的频谱分布的多路重合噪声检测基于三种特征：基于梯度指数(gradient index)的特征、基于能量信息的特征以及背景噪声电平估计。该能量信息E_i被定义为：

E_{i} = \frac{E [S_{nb}^{''} (n)]}{E [S_{nb} (n)]}

其中S(n)是时域信号，E[S_nb″]是该信号的二阶导数的能量，而E[S_nb]是该信号的能量。对于多路重合噪声检测，重要的信息不是Ei的确切值，而是其值相当高的频度。因而，用于多路重合噪声检测的实际特征不是Ei而是其超过某一阈值的频度。此外，由于对长期趋势感兴趣，Ei的值是否大的信息被过滤。这被实现为使得如果该能量信息的值大于某一阈值，那么该IIR滤波器的输入是1，否则是0。该IIR(无限冲击响应)滤波器形如：

H (z) = \frac{1 - a}{1 - {az}^{- 1}}

其中，a是依赖于能量信息的改变方向的冲击或释放常量。

当该当前语音声音具有诸如举例而言的/s/的高通特征时，该能量信息也具有高值。为从该IIR滤波器的输入中排除这些情况，仅当该帧不被考虑为可能的齿擦音(即，该梯度指数小于预定义阈值)时才更新该IIR滤波的能量信息特征。

梯度指数是用于多路重合噪声检测的另一个特征。在多路重合噪声检测中，用与用于能量信息特征的相同种类的滤波器对梯度指数进行IIR滤波。该背景噪声电平估计可以基于--举例而言--一种被称为最小化统计的方法。

如果三种特征(IIR滤波能量信息，IIR滤波梯度指数和背景噪声电平估计)全部超过了某阈值，那么认为该帧含有多路重合噪声。通过要求这些特征全部超过某阈值，本发明的实施方式能够最小化错误的肯定决策的次数(即，错误地认为一帧包含多路重合噪音的次数)。在至少一个实施方式中，为使得该多路噪声检测算法更加鲁棒，使用15个连续的固定的帧以作出最终决策，即该算法操作于固定噪声模式。在另一方面，从固定噪声模式到多路重合噪声模式的转变仅需要一帧。

话音激活检测器(VAD)算法被用以解释该信号包含语音信号而不仅仅是背景噪声的时间瞬间。这些算法通常将拟语音噪声也解释为语音。然而，这种交流声的电平通常低于实际语音的电平。使用该假设，可以监视被VAD解释为语音的输入信号的电平，并同其长期估计相比较。如果该输入信号电平突然相对其长期估计跌落超过--举例而言--15dB，则做出多路重合噪声情况的假设。在多路重合噪声期间，该长期语音估计保持不变。

如果该实际语音信号的电平突然跌落，该多路重合噪声检测算法被错误地触发。该结果将阻碍该长期语音电平估计的更新。对于这些种类的情况，该算法具有在20-30秒后执行的安全控制。如果短期估计在给定数量的采样中没有达到该长期估计，则该安全控制强制更新该长期估计。该20-30秒的时间段是合理的，因为其为人在电话交谈中保持完全沉默的最大时间，并且，因而应该比该时间更频繁地更新该长期估计。

这两种不同的多路重合噪声检测算法都具有各自的优点和缺点。幸运的是，这些算法通常在不同的情况下失效。由于对多路重合噪声的定义并不准确，并且语音处理算法出于不同的原因而需要该多路重合噪声检测信息，应该如何实施该多路重合噪声检测决策算法的组合应当依赖于实际情况。

图7描述了示出在用于检测多路重合噪声的VAD和频谱分布算法的组合中执行的示例性操作的流程图。此外，依赖于实施方式，可以执行更少的或者不同的操作。在块72中，如果该两个算法之一给出逻辑的1(即，肯定的多路噪声检测)，则检测到多路重合噪声。这种组合应该用于多路重合噪声检测十分重要并且多路重合噪声的概念宽泛的情况。

在块74中如果基于VAD的算法在长的无多路重合声时段之后检测到多路重合声，在作出最终多路重合声决策前，在块76中，检查该频谱分布算法的决策。如果该频谱分布算法也给出逻辑1，则检测到多路重合声，如果该频谱分布算法没有给出逻辑1，则在块78中有控制安全时间的等待时段(例如，20-30秒)。然后在块79中更新长期估计，并在随后作出多路重合声决策。举例而言，如果问题在于错误的多路重合噪声检测，则可以使用该组合。其中，安静的语音被错误地检测为多路重合噪声的情况将被避免。

图8描述了示出在用于检测多路重合噪声的基于频谱分布的算法中执行的示例性的操作的流程图。此外，依赖于实施方式，可以执行更少的或者不同的操作。举例而言，如此处所述，在块80中，接收输入信号，而在块82中，计算梯度指数。在块84中，将该梯度指数与预定的梯度指数阈值相比较。如果该梯度指数没有超过该阈值，则该算法返回到块80并且接收另外的输入信号。如果该梯度指数的确超过了该阈值，则在块86中将该输入信号能量与预定的输入信号能量阈值相比较。如果该输入信号能量没有超过该预定阈值，则该算法返回到块80并接收另外的输入信号。如果该输入信号能量的确超过了该阈值，在块88中将该背景噪声电平与预定背景噪声电平阈值相比较。如果该背景噪声电平没有超过该阈值，则该算法返回到块80并接收另外的输入信号。如果该背景噪声电平的确超过了该阈值，在块89中做出该输入信号包含多路重合噪声的指示。

图9描述了示出在用于检测多路重合噪声的基于VAD的算法中执行的示例性的操作的流程图。此外，依赖于实施方式，可以执行更少的或者不同的操作。在块90，接收输入信号，而在块92，由基于VAD的算法监视该输入信号。在块94，该基于VAD的算法将该输入信号与预定输入信号阈值相比较，并且如果该输入信号电平突然下降到该预定阈值之下，则在块96中做出该输入信号包含多路重合噪声的指示。如果该输入信号没有下降到该预定阈值之下，则该算法返回到块90并接收另外的输入信号。

有利地，根据使用的目的，可以使用该算法中的仅一种或两种以检测多路重合噪声。进一步地，组合该独立的检测算法，通过使用其长处，有助于克服其问题。

该详细的描述列出了用于多路重合噪声检测的方法、设备和系统的示例性实施方式。在前述描述中，为解释的目的，列出了大量的具体细节，以便提供对该发明的完全的理解。然而，显然对于本领域技术人员，可以不借助这些具体细节而实施该示例性的实施方式。在其它实例中，以框图形式展示了结构和设备以便助于该示例性实施方式的描述。

虽然在该图中示出的和上面所描述的示例性实施方式是当前优选的，应该理解仅通过举例的方式提供这些实施例。其它实施例可以包括--举例而言--用于执行该相同操作的不同技术。本发明不限于特定的实施方式，而是可以扩展到仍落入所附权利要求的范围和精神之中的各种修改、组合和改变。

Claims

1.一种用于检测多路重合噪声的方法，所述方法包括：

接收包括语音信号的输入信号；

将梯度指数计算为来自在每次方向改变时所述接收的输入信号中语音信号梯度量值的和；以及

如果所述梯度指数、能量信息和背景噪声电平超过了预定阈值，则提供所述输入信号包含多路重合噪声的指示，所述能量信息是所述输入信号的二阶导数的能量除以所述输入信号的能量。

2.根据权利要求1中所述的方法，进一步包括执行话音激活检测器算法以确定所述输入信号是否包含多路重合噪声。

3.根据权利要求2中所述的方法，其中提供所述输入信号包含多路重合噪声的指示进一步包括基于所述输入信号的声音电平以及所述话音激活检测器算法来确定所述输入信号包含多路重合噪声。

4.根据权利要求1中所述的方法，进一步包括对所述能量信息和所述梯度指数的滤波。

5.根据权利要求4中所述的方法，其中对所述能量信息和所述梯度指数的滤波形如

H (z) = \frac{1 - a}{1 - a z^{- 1}}

其中，a是依赖于所述能量信息的改变方向的冲击或释放常量。

6.根据权利要求4中所述的方法，其中使用无限冲击响应(IIR)滤波器对能量信息和所述梯度指数进行滤波。

7.根据权利要求1中所述的方法，所述方法进一步包括：

使用话音激活检测器算法监视所述输入信号电平；

如果所述输入信号电平下降到预定阈值电平之下，则提供所述输入信号包含多路重合噪声的指示。

8.一种用于检测多路重合噪声的方法，所述方法包括：

接收包括语音信号的输入信号；

将梯度指数计算为来自在每次方向改变时所述接收的输入信号中语音信号梯度量值的和；

使用话音激活检测器算法监视所述输入信号电平；以及

如果所述输入信号电平下降到预定阈值电平之下，或者如果所述梯度指数、能量信息和背景噪声电平超过预定阈值，则提供所述输入信号包含多路重合噪声的指示，所述能量信息是所述输入信号的二阶导数的能量除以所述输入信号的能量。

9.一种检测在语音信号中的多路重合噪声的通信设备，所述设备包括：

与无线网络进行通信的接口；以及

用于基于权利要求1中所述的方法检测多路重合噪音的装置。

10.根据权利要求9中所述的设备，进一步包括用于基于话音激活检测器算法检测多路重合噪声的装置。

11.根据权利要求9中所述的设备，其中所述多路重合噪声检测仅需要语音信号中的一帧。

12.一种在通信网络中检测在语音信号中的多路重合噪声的设备，所述设备包括：

发送和接收语音信号的接口；以及

用于基于权利要求8中所述的方法检测多路重合噪音的装置。

13.根据权利要求12中所述的设备，进一步包括用于基于梯度指数、能量信息以及背景噪声电平超过预定阈值而检测多路重合噪声的装置。

14.根据权利要求13中所述的设备，进一步包括对所述能量信息和所述梯度指数进行滤波。

15.一种用于检测多路重合噪声的系统，所述系统包括：

用于接收包括语音信号的通信信号的装置；

用于将梯度指数计算为来自在每次方向改变时所述接收的通信信号中语音信号梯度量值的和的装置；

用于在所述梯度指数、能量信息和背景噪声电平超过了预定阈值时，提供所述通信信号包含多路重合噪声的指示的装置，所述能量信息是所述输入信号的二阶导数的能量除以所述输入信号的能量。

16.根据权利要求15中所述的系统，进一步包括用于基于所述通信信号的声音电平以及话音激活检测器算法而确定所述通信信号包含多路重合噪声的装置。