CN104021798A

CN104021798A - 用于通过具有可变频谱增益和可动态调制的硬度的算法对音频信号隔音的方法

Info

Publication number: CN104021798A
Application number: CN201410163809.6A
Authority: CN
Inventors: A·布里奥
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2013-02-28
Filing date: 2014-02-28
Publication date: 2014-09-03
Anticipated expiration: 2034-02-28
Also published as: CN104021798B; FR3002679A1; EP2772916B1; EP2772916A1; FR3002679B1; US20140244245A1

Abstract

所述方法包括，在频域中：对每一当前时间帧(y(k))的频谱(Y(k，l))的每一频带，估计(18)信号中的语音存在概率(P(k，l))；按照下述各项计算(16)对每一当前时间帧的每一频带适当的频谱增益(G_OMLSA(k，l))：i)在每一频带中噪声能量的估计，ii)在步骤c1)估计的语音存在概率，以及iii)标量最小增益值(G_min)；和通过在每一频带应用所计算的增益，来选择性地减少噪声(14)。表示隔音硬度参数的标量最小增益值是可在每一连续时间帧动态调制的值(G_min(k))，其是针对当前时间帧按照链接到当前时间帧的全局变量而计算的，其中将增量/减量应用于最小增益的参数量标量值(G_min)。

Description

用于通过具有可变频谱增益和可动态调制的硬度的算法对音频信号隔音的方法

技术领域

本发明涉及在含噪声的环境中的语音处理。

特别是，本发明涉及由旨在含噪声的环境中使用的“免提式”电话设备拾取的语音信号的处理。

背景技术

这样的装置包括一个或若干个麦克风，所述麦克风不仅拾取用户的话音，而且还拾取周围的噪声，其中噪声构成了干扰元素，在某些情况下，噪声可以大到使讲话者的词组难以理解。如果希望实现语音识别技术则情况也是如此，因为很难在高水平噪声中夹杂的词组进行形状识别。

与周围噪声的相联系的困难在汽车中的“免提”装置的情况中是特别带有限制的，而不管它们是以集成了所有信号处理部件和电话通信功能的可移除盒的形式并入到车辆的系统还是的附件中。

的确，麦克风(放置在仪表板处或在乘客室屋顶的上部角)和讲话者(其偏远程度由驱动位置限制)之间的巨大距离导致相对于周围噪声而只能拾取相对低水平的语音，这使得难以提取嵌入在噪声中的有用信号。附加于滚动噪声的永久固定构件，机动车辆典型的非常含噪声的环境具有非平稳的频谱特性，即不可预知地演变为驱动条件的函数的特性：在不平的或鹅卵石路面的滚动、操作中的汽车收音机等。

除了聆听来自耳机插入的设备的音频源(例如音乐)外，当所述设备是用于通信功能、例如“免提”电话功能的组合麦克风/耳机类型的音频耳机时，存在类似的困难。

在这种情况下，需要提供麦克风拾取的所述信号的足够的清晰度，即邻近的讲话者(耳机佩戴者)的语音信号。现在，耳机可在含噪声的环境(地铁、繁华街道、火车等)中使用，使得麦克风不仅拾取耳机佩戴者的语音，而且还拾取了周围的杂散噪声。耳机从噪声中保护了佩戴者，尤其是在耳机是具有从外部隔离耳朵的封闭耳机的型号时、甚至在耳机设置有“有源噪声控制”的功能时情况如此。但远程讲话者(在通信信道的另一端)承受麦克风拾取的杂散噪声，叠加到并干扰邻近讲话者(耳机佩戴者)的语音信号。特别是，对理解语音的所必需的话音的某些共振峰通常被嵌入到日常环境中常遇到的噪声分量中。

发明内容

本发明更具体地涉及单信道选择性隔音技术，即对单个信号操作(与实施多个麦克风的技术相反，所述多个麦克风的信号被明智地结合并且例如通过波束成形类型或其他的技术受到空间或光谱相干性的分析)。然而，只要本发明适用于标量信号，则其以相同针对性适用于通过波束成形技术从几个麦克风重构的信号。

在本情况中，需要操作含噪声的音频信号选择性隔音，所述含噪声的音频信号通常通过由电话设备的单个麦克风采集到的信号进行数字化后而获得。

本发明更具体而言旨在基于在频域中的信号处理(由比在应用傅立叶变换、FFT以后)而添加到降噪改进算法的改进，包括应用按照若干语音存在概率估计器所计算的频谱增益。

更精确地说，来自麦克风的信号y被切割成固定长度的帧，所述帧彼此重叠或没有重叠，并且索引k的每个帧通过FFT调换到频域。所得到的频率信号Y(k，l)也是离散的，其然后由一组索引l的频率“瓣”(bin)(频带)描述，通常为128个正频率瓣。

对每个信号帧，更新多个估计器以确定语音存在的频率概率p(k，l)。如果该概率高时，则认为信号是一种有用的信号(语音)，并因此对于所考虑的瓣保留了频谱增益G(k，l)＝1。在相反的情况下，如果该概率低，则该信号被归类为噪声，从而通过应用远小于1的频谱衰减增益被降低或甚至被抑制。

换句话说，该算法的原理在于计算“频率掩模”并将其应用到有用信号，该频率掩模保留了语音信号的有用信息并消除了寄生噪声信号。特别是这种技术可以由OM-LSA(Optimally Modified-Log Spectral Amplitude，(经最优修订的——Log频谱幅度))的算法来实现，例如在下面那些文献中所描述的：

[1]1. Cohen and B.Berdugo，“Speech Enhancement tor Non-Stationary Noise Environments”，Signal Processing，Vo1.81，No11，pp.2403-2418，Nov.2001；和

[2]I.Cohen，“Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator”，IEEE Signal Processing Letters，Vol.9，No4，pp.113-116，Apr.2002。

US7454010B1还介绍了一个类似的算法，其为了计算频谱增益，考虑到了在当前时间段内存在或不存在语音的信息。

也可以参考WO2007/099222A1(Parrot)，其中描述了一种实现语音存在概率计算的隔音技术。

当然，这种技术的效率在于旨在区分语音和噪声的语音存在概率估计器的模型。

在实际中，这种算法的实现碰到一些缺陷，其中主要两个缺陷是“音乐噪声”和“机器人语音”的出现。

“音乐噪声，的特点是非均匀的残留背景噪声地毯(carpet)，其有利于某些特定频率。噪声音就不再自然，这使得听起来令人不安。这种现象是由于该频率隔音处理是在没有语音和噪声之间鉴频的时间时的相邻频率之间的依赖关系而操作的，因为所述处理没有整合防止两个非常不同的邻近频谱增益的机制。现在，仅在噪声期间，理想地需要均匀的衰减增益以保留噪声音，但在实际中，如果频谱增益是不均质的，则随着频率音符(notes)在较少衰减的频率处的出现，残留的噪声变成“音乐的”，这对应于错误地检测为包含有用信号的瓣。可以注意到，这种现象是更加显著的，因为高衰减增益的应用是经认可的。

当选择运行具有高频谱衰减增益的一个非常激进的降噪时，就会发生“机器人语音，或“金属声音”现象。在语音存在时，被错误地检测为噪声的相应于语音的频率将高度衰减，使声音不自然，甚至完全人工化(声音的“机器人化”)。

这样的算法所包括的参数化因此由被认为是对隔音激进性的一种折衷，从而消除了最大的噪声而没有应用过高频谱衰减增益的不期望影响变得太容易感知。然而，后一个标准被证明是非常主观的，且在相对大的用户组上，它被证明是很难找到可得到一致批准的折衷调整。

为了尽量减少这种缺陷，为通过应用频谱增益进行隔音的技术所固有的是，“OM-LSA”模型提供了用于施加到标识为噪声的区域的衰减增益(表示为对数级，从而所述衰减增益在下文中对应为负值)的下限G_min的固定化，以便防止过多隔音，以限制上述缺陷的出现。然而，这种解决方案不是最佳的：当然，它有助于消除过度降低噪声的不期望的影响，但同时，它也限制了隔音性能。

本发明的问题是补偿这种限制，其方式是，使应用频谱增益(通常根据OM-LSA模型)的噪声降低的系统更高效，同时遵守上述约束，即有效地降低了噪声而不改变语音(语音存在)或噪声(在噪声存在的情况下)的自然的方面。换句话说，建议使算法处理的不良影响不可被远程讲话者感知，同时强烈地衰减噪声。

本发明的基本思想在于：通过在全局时间帧而不再是在单个频率瓣所观察的全局指标来调制频谱增益G_OMLSA的计算——其是在频域中为每一瓣计算出的。

此调制将通过如下方式来操作：将衰减增益——其极限是一个标量，通常被称为“隔音硬度”——的下限G_min的直接转化成时间函数——所述时间函数的值将按照时间描述符(或“全局变量”)来确定，其由所述算法的各种估计器的状态来反映。这些后者将按照按照它们相关性来选择以描述已知隔音硬度G_min的选择可以被优化的已知情况。

此后，按照本例，应用到该对数衰减增益G_min的时间调制可以对应于增量或减量：减量是与降噪的更大硬度相关联(绝对值的较高对数增益)，相反，这个负对数增益的增量与较小绝对值、以及由此与降噪的低硬度相关联。

事实上，可以注意到，在该帧级的观察可能经常使人们有可能纠正算法的某些缺陷，特别是在可能有时错误地将噪声频率检测为语音频率的噪声非常大的区域；从而如果单单检测到噪声帧(在该帧处)，则由于更加均匀的隔音，可以进行更激进的隔音而不由此引入音乐噪声。

相反，在含噪声的语音的时间段内，可以进行更少隔音以便完美地保留语音同时确保残留背景噪声能量的变化是不可感知的。因此我们有一个双杠杆(硬度和均匀性)以根据考虑到情况——单单噪声阶段、或者语音阶段——来将隔音的强度模块化，其中上面情况任一之间的区别是由于时间帧级别的观察造成的：

——在第一实施例中，优化将包括：在合适的方向上调制隔音硬度G_min以便更好地减少在单单噪声阶段的噪声，并且能够更好地保留语音阶段中的语音；

更精确地说，本发明提出了一种通过应用具有可变频谱增益、语音存在概率的函数以对音频信号隔音的方法，以本身已知的方式包括下述连续步骤：

a)生成数字化有噪声的音频信号的连续时间帧；

b)将傅立叶变换应用到在步骤a)中生成的帧，以便为时间帧产生具有多个预定频带的信号频谱；

c)在频域中：

c1)对每个当前时间帧的每个频带，估计语音存在概率；

c3)按照下列各项计算对每个当前时间帧的每个频带合适的频谱增益，i)在每个频带中的噪声能量估计，ii)在步骤c1)估计的语音存在概率，和iii)表示隔音硬度参数的标量最小增益值；

c4)通过在每一频带应用在步骤c3)计算的增益来选择性地降低噪声；

d)将傅立叶逆变换应用到包括在步骤c4)中产生的频带的信号频谱，以为每个频谱递送隔音信号时间帧；和

e)从在步骤d)递送的时间帧中重构隔音音频信号。

本发明的特征是：

——所述标量最小增益值是可以在每一个连续的时间帧被动态地调制的值；并且

——所述方法进一步包括：在计算所述频谱增益步骤c3)之前，以下步骤：

c2)为当前时间帧，按照在当前时间帧针对所有频带观察到的全局值来计算所述可调制的值；和

——所述步骤c2)的计算包括：对于当前时间帧，应用增量/减量，所述增量/减量被加到所述最小增益的参数化的额定值。

在本发明的第一实施例中，全局变量是在时域估计的当前时间帧的信号噪声比。

特别地，可在步骤c2)中通过应用下述关系来计算标量最小增益值：

G_min(k)＝G_min+ΔG_min(SNR_y(k))

k为当前时间帧的索引，

G_min(k)为将应用到当前时间帧的最小增益，

G_min为最小增益的所述参数化额定值，

ΔG_min(k)为加到G_min所述增量/减量，和

SNR_y(k)为当前时间帧的信号噪声比。

在本发明的第二实施例中，全局变量是在当前时间帧估计的平均语音概率。

特别地，可在步骤c2)中通过应用下述关系的应用来计算标量最小增益值：

G_min(k)＝G_min+(P_speech(k)-1)·Δ₁G_min+P_speech(_k)·Δ₂G_min

k为当前时间帧的索引，

G_min(k)为将应用到当前时间帧的最小增益，

G_min为最小增益的所述参数化额定值，

P_speech(k)为在当前时间帧估计的平均语音概率，

Δ₁G_min为在噪声阶段中加到G_min的所述增量/减量，和

Δ₂G_min为在语音阶段中加到G_min的所述增量/减量。

特别地，可以在当前时间帧通过应用下式来估计平均语音概率：

P_{speech} (k) = \frac{1}{N} Σ_{l}^{N} p (k, l)

l为频带的索引，

N为频谱中频带的数目，和

p(k，l)为在当前时间帧的索引l的频带中的语音存在概率。

在本发明的第三个实施例中，全局变量是检测当前时间帧的语音活动的布尔信号，其是通过分析时间帧和/或借助于外部检测器在时域中估计的。

特别地，可在步骤c2)中通过应用下式来估计标量最小增益值：

G_min(k)＝G_min+VAD(k)·ΔG_min

k为当前时间帧的索引，

G_min(k)为将应用到当前时间帧的最小增益，

G_min为最小增益的所述参数化额定值，VAD(k)为检测当前时间帧的语音活动的布尔信号的值，和

ΔG_min为加到G_min所述增量/减量。

附图说明

参考附图，现在将说明本发明装置的示例性实施例，附图中相同的参考数字表示全部附图中相同或功能相似的部件。

图1作为一个功能性方框图示意性地示出了根据现有技术的OM-LSA类型的隔音处理的实现方式。

图2示出了本发明提供的对图1的隔音技术的改进。

具体实施方式

本发明的方法是通过软件手段实施，在附图中由多个对应于由微控制器或数字信号处理器执行的合适的算法的功能块系统化示出。虽然，为了本发明的清楚性，不同的功能表示为独立的模块，但是它们实现由同一软件全部执行的普通部件和实际中相应部件的多个功能。

根据现有技术的OM-LSA隔音算法

作为一个功能性方框图，图1示意性地示出了根据现有技术的OM-LSA类型的隔音处理的实现方式。

数字信号y(n)=x(n)+d(n)包括语音分量x(n)和噪声分量d(n)(n为采样次序)，所述数字信号被切割(方框10)为重叠或不重叠的固定长度的分段或时间帧y(k)(k为帧索引)，通常为以8kHz(窄带电话交换台)采样的信号的256个样本的帧。

然后索引k的每个时间帧通过快速傅里叶变换FFT被调换到频域(框12)：得到的结果也是离散的信号或频谱Y(k，l)其然后由一组频带或频率“瓣”描述(l为瓣指数)，例如128个正频瓣。，为了提供信号对每个瓣合适的频谱增益G＝G_OMLSA(k，l)被应用(框14)到频率信号Y(k，l)：

一方面按照语音存在概率p(k，l)、另一方面按照参数G_min来计算(框16)频谱增益G_OMLSA(k，l)，所述语音存在概率p(k，l)是为每一瓣估计(框18)的频率概率，所述参数G_min是标量最小增益值，通常称为“隔音硬度”。这个参数G_min固定应用到标识为噪声的区域的衰减增益的下限，从而避免了由于应用过高和/或不均匀频谱衰减增益而导致音乐噪声和机器人语音变得过于显著的现象。

所计算的频谱增益G_OMLSA(k，l)为下述形式：

G_{OMLSA} (k, l) = {G (k, l)}^{p (k, l)} \cdot G_{\min}^{1 - p (k, l)}

因此频谱增益和语音存在概率的计算有利地实现为OM-LSA(优化修正的——Log频谱幅度)类型的算法，所述算法如在(上述)文章中描述的：

[2]I Cohen，“Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Arnplitude Estimator”，IEEE Signal Processing Letters，Vol.9，No4，pp.113-116，Apr.2002.

本质上，被称为“LSA(Log频谱幅度)增益”的增益的应用使得可以最小化所估计的信号幅度的对数与原始语音信号的幅度的对数之间的均方距离。该标准表明要进行适应，因为所选择的距离是更好地适应人耳的行为，并从而在定性的角度给出了更好的结果。

在所有的情况下重要的是，通过向噪声非常大的频率分量应用低增益以减少所述分量的能量，同时使那些具有极少含噪声的或完全不含噪声的频率分量保持不变(通过应用等于1的增益)。

为了计算最终增益，“OM-LSA”(优化修正LSA)算法通过用条件语音存在概率或SPP p(k，l)对LSA增益进行加权来改进了LSA增益的计算：当语音存在概率是低的时，应用的噪声减少全部是较高的(即应用的增益全部是较低的)。

语音存在概率p(k，l)是一个参数，该参数可以取从0到100％的若干不同的值。此参数是根据本身已知的技术计算出的，在下文中特别公开了其中的例子：

[3]I.Cohen and B.Berdugo，“Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio”，IEEE International Conference on Acoustics，Speech and Signal Processing ICASSP2003，Hong-Kong，pp.233-236，Apr.2003.

如经常在这个领域中的，所描述的方法目标不是精确识别哪些帧的哪些频率分量中不存在语音，而是给予0和1之间的置信指数，值1表示该语音是绝对不存在的(根据算法)，而值0则表示相反。根据其性质，该指数被同化为语音不存在先验概率，即该语音不存在于所考虑的帧的给定频率分量的概率。它当然是一个非严格的同化，因为即使语音的存在的概率是事先概率，由麦克风拾取的信号在每个时刻具有两个不同状态中的仅仅一个：在所考虑的时刻，它可以要么包括语音，要么不包括语音。然而在实际中，这种同化却给出了良好的结果，这证明了其用处。

还可以参考WO2007/099222A1(Parrot)，其中详细描述了来自于这一原理，实施语音存在概率计算的隔音技术。

所得到的信号即频率掩模G_OMLSA(k，l)已被施加到的有用信号Y(k，l)，此后经历傅立叶逆变换iFFT(框20)，以从频域变换回时域。然后所获得的时间帧组合在一起(框22)，以得到数字化的隔音信号

根据本发明的OM-LSA隔音算法

图2示出了引入刚披露的算法的修改。具有相同附图标记的框对应相同的功能或类似上述公开的功能，正如引用的处理各种信号。

在图1已知的实施例中，表示隔音硬度的最小增益的标量值G_min被或多或少地按照经验来选择，使得声音的劣化依然是稍微可听见的，同时确保噪声的一个可接受的衰减。

然而如在介绍中披露的，期望单单在噪声阶段执行更激进的隔音，而不从而引入音乐噪声；相反，在含噪声的语音的时间段中，可能进行较少隔音以便完美地保留声音，同时确保残留背景噪声能量的变化是不可感知的。

根据该情况(单单的噪声阶段、或者语音阶段)，可能存在调制隔音硬度的双重利益：后者将通过在合适的方向上动态改变G_min标量值来调制，所述合适方向将单单降低噪声且将更好地维护语音阶段中的语音。

为了这个目的，最初恒定的标量值G_min转化(框24)成时间函数G_min(k)，它的值将按照全局变量(也称为“时间描述符”)来确定，即作为全局地在帧处、而不是频率瓣处考虑的变量。这个全局变量可以由已经由算法计算出的一个或若干不同估计器的状态来反映，其将根据情况按照他们的相关性来选择。

特别地，这些估计可以是：i)信号噪声比，ii)平均语音存在概率，和/或iii)语音活动检测。在所有这些例子中，隔音硬度G_min变为估计器定义的时间函数G_min(k)，所述估计器是时间估计器，使得可以描述如下已知情况：期望调制G_min的值以便通过动态修改信号隔音/劣化折衷来影响噪声的降低。

顺便说一句，应当指出的是，为了使硬度的这种动态调制不被收听者感知，应提供一个机制防止G_min(k)的突然变化，例如，通过常规的时间平滑技术。因而避免了硬度G_min(k)的时间突变成为在残留噪声上可听的，而残留噪声例如在滚动条件下的驾驶员的情况下通常是稳定的。

时间描述符：信号噪声比

第一个实施例的出发点是如下观察：安静环境下拾取的语音信号只有一点点，甚至没有，需要进行隔音，并将强大的隔音应用到这样的信号，会迅速导致听觉伪像，而没有从残留噪声的单一观点改善收听的舒适性。相反，含过多噪声的信号可能会迅速变得难以理解，或造成收听的逐渐疲劳；在这种情况下，一个显著隔音的好处将是不容置疑的，即使以言语可听劣化(尽管是合理和受控的)为代价。

换句话说，当未经处理信号是含噪声的时，噪声降低将对有用信号的理解更有益的。

这可以通过按照经处理的信号的当前噪声水平的先验信号噪声比调制硬度参数G_min而被加以考虑：

G_min(k)＝G_min+ΔG_min(SNR_y(k))

G_min(k)是被应用到当前时间帧的最小增益，

G_min是该最小增益的参数化的额定值，

ΔG_min(k)为加到值G_min的递量/减量，和

SNR_y(k)为在时域中评估(框26)的当前帧的信号噪声比，其对应于应用到框24的输入n°①的变量(这样的“输入”为符号化的，且仅仅具有为了示出本发明实施例的各种替换可能性的值)。

时间描述符：平均语音存在概率

另一个用于调制降低硬度的相关准则，可以是对于所考虑的时间帧的语音的存在。

在传统的算法中，当试图增加隔音硬度G_min时，“机器人语音”现象在“音乐噪声，之前出现。因此，似乎是可能和有利的是，通过用语音存在全局指标简单地调制隔音硬度参数，将更大的隔音硬度应用到单单噪声阶段；单单在噪声期间，通过应用更大硬度将减小残留噪声——其是收听疲劳的起因——而没有配对措施，因为在语音阶段的硬度可以保持不变。

由于降噪算法是基于频率语音存在概率的计算，所以容易在帧的级别上基于各种频率概率获得语音存在平均指数，以便从包含有用语音的帧中区分主要由噪声构成的帧。例如可以使用常规的估计器：

P_{speech} (k) = \frac{1}{N} Σ_{l}^{N} p (k, l)

P_speech(k)是在当前时间帧评估的平均语音概率，

N是频谱瓣的数目，和

p(k，l)是当前时间帧的索引l的瓣的语音存在概率。

这个变量P_speech(k)由框28计算并应用在输入n°②框24，其计算将针对给定帧应用的隔音硬度：

G_min(k)＝G_min+(P_speech(k)-1)·Δ₁G_min+P_speech(k)·Δ₂G_min

G_min(k)为将应用到当前时间帧的最小增益，

G_min为最小增益的参数化额定值，和

Δ₁G_min为在噪声阶段中加到G_min的所述增量/减量，和

Δ₂G_min为在语音阶段中加到G_min的所述增量/减量。

上述表达式良好地突出了所呈现的优化的两个互补的作用，即：

——通过在噪声阶段的因子Δ₁G_min增加噪声降低的硬度，从而减少残留噪声，通常Δ₁>0，例如Δ₁＝+6dB；和

——通过在语音阶段的因子Δ₂G_min降低噪声降低的硬度，从而更好地保留语音，通常Δ₂<0，例如Δ₂＝-3dB。

时间描述符：语音活动检测器

在该第三实施方式中，语音活动检测器或VAD(框30)被有利地用于执行与在前面的例子相同类型的硬度调制。这种“完美”检测器提供的二进制信号(语音的不存在对比于存在)，并且可与仅递送以连续方式或由连续的步在0到100％之间变化的语音存在概率的系统相区分，这将引入含噪声的环境中的显著错误检测。

语音活动检测模块只取两个不同的值“0”或“1”，隔音硬度的调制将是离散的：

G_min(k)＝G_min+VAD(k)·ΔG_min

G_min(k)是被应用到当前时间帧的最小增益，

G_min是该最小增益的参数化的额定值，

VAD(k)是在时域评估(框30)并被应用到框24的输入n°③的针对当前时间帧的语音活动检测的布尔信号的值，和

ΔG_min为加到值G_min的递量/减量。

语音活动检测器30可以由不同的方式制造，其中实现的三个例子将在下文中给出。

在第一个例子中，检测是以对麦克风拾取的信号固有的方式基于信号y(k)操作的；该信号的或多或或少的谐波特性的分析使得能够确定话音活动的存在，因为具有高调和性的信号可以以低误差容限被认为是语音信号，并由此对应于语音的存在。

在第二个例子中，语音活动检测器30响应于由相机产生的信号而操作，所述相机例如安装在机动车辆的乘客车厢中并被定向为使得它的视角在任何情况下都面向被认为是邻近讲话者的驾驶者的头部。基于嘴和嘴唇的运动，分析由摄像机递送的信号以确定讲话者是否在讲话，这尤其是在EP2530672A1(Parrot SA)中予以了描述的那样，可参考该文献以获得更多的解释。这种图像分析技术的优点是具有完全独立于声学噪声环境中补充信息。

可用于语音活动检测的传感器的第三个例子是生理传感器，其负责检测讲话者的未受到或者稍微受到周围噪声损害的某些声音振动。这样的传感器可以显着包括加速度计或施加在讲话者的脸颊或太阳穴的压电传感器。它尤其是可以并入到一个组合麦克风/耳机单元的耳机的耳垫，如在EP2518724A1(Parrot SA)所述，可参考该文献以获得更多的细节。

事实上，当一个人发出话音声音(即语音分量，其生产是伴随声带振动)，振动从声带传播到咽和口鼻腔内，在那里被调制、放大并说出。然后口、软腭、咽、鼻窦和鼻腔作为该谐振腔浊音，其壁是弹性的，且它们也振动，这些振动被内部骨传导发输并且在脸颊和太阳穴处是可感知的。

本质上，这些脸颊和太阳穴的振动都具有极少被周围的噪声损坏的特性。事实上，在外界的噪声存在、甚至显著存在时，太阳穴和脸颊的组织几乎没有振动，而不管外部噪声的频谱组成。采集缺乏噪声的这些声音振动的生理传感器给出了表示讲话者发出的话音声音的存在或不存在的信号，从而使得可以良好地鉴别讲话者的语音阶段和沉默阶段。

OM-LSA隔音算法的实施变型

作为一种变型或作为以上所述的补充，——对每一瓣在频域计算的频谱增益可以间接地调制频谱增益G_OMLSA，其方式是用在帧处(而不再在简单特定频率瓣处)观察的全局时间指标加权频率语音存在概率p(k，1)。

在这种情况下，如果单单检测到噪声帧，则可以有利地认为各个频率语音概率应该是零，并且局部频率概率可以用全局数据进行加权，其中这样的全局数据使得可以在帧级下对所遇到的实际情况进行降低(单单噪声阶段/语音阶段)，其中频域中仅有的数据不允许制定所述帧；在单单存在噪声存，这种情况可以减少到均匀的隔音，避免了噪声的任何乐感，这将保持其原有的“粒度”。

换句话说，将在该帧的级别上用全局语音存在概率加权初始频域的语音存在概率：然后在没有语音的情况下试图均匀隔音整个帧(当没有语音时均匀隔音)。

事实上，如上所述，语音存在概率P_speech(k)(计算为频率语音存在概率的算术平均值)在帧的级别上是语音存在的相当可靠的指标。然后可以据此修改 OM-LSA的增益计算的常规表达式：

G_{OMLSA} (k, l) = {G (k, l)}^{p (k, l)} \cdot G_{\min}^{1 - p (k, l)}

即其方式是用在帧处评估的语音存在的全局数据P_glob(k)加权频率语音存在概率：

G_{OMLSA} (k, l) = {G (k, l)}^{p (k, l) \cdot p_{glob} (k)} \cdot G_{\min}^{1 - p (k, l) \cdot p_{glob} (k)}

G_OMLSA(k，l)是要应用到当前时间帧的索引l的瓣的频谱增益，

G(k，l)是要应用到索引l的瓣的次优隔音增益，

p(k，l)是当前时间帧的索引l的瓣的语音存在概率，

P_glob(k)是在当前时间帧评估的全局和阈值语音概率，和

G_min是该频谱增益的参数化的额定值。

时间帧的全局数据p_glob(k)可以显著地按如下方式来评估：

p_{glob} (k) = \frac{1}{P_{seuil}} \cdot \max {P_{speech} (k); P_{seuil}}

P_{speech} (k) = \frac{1}{N} Σ_{l}^{N} p (k, l)

P_seuil是全局语音概率的阈值，和

N是频谱中瓣的数目。

这相当于在常规的表达式中用在存在语音时在时间帧处评估的组合概率p_combine′e(k，l)代替频率概率p(k，l)，所述组合概率P_combine′e(k，l)包括由非频率全局数据P_glob(k)的加权：

G_{OMLSA} (k, l) = {G (k, l)}^{p_{combine' e} (k, l)} \cdot G_{\min}^{1 - p_{combine' e} (k, l)}

p_combine′e(k，l)＝p(k，l).p_glob(k)

换句话说：

——在帧中存在语音时，即，如果P_speech(k)>P_seuil，则OM-LSA增益计算的常规表达式保持不变；

——在帧中不存在语音时，即，如果P_speech(k)<P_seuil，则与此相反，频率概率p(k，l)将反而用低全局概率p_glob(k)加权，其作用是通过降低其值以使概率均匀；

——在特定情况P_speech(k)＝0时，所有的概率将是零且隔音将完全均匀。

全局数据P_glob(k)的评估在图2中由框32示意性表示，其接收作为输入的数据p_seuil(参数化阈值)和P_speech(k，l)(如上所述，数值本身在框28计算)，并作为输出导出应用在框24的输入④的值p_glob(k)。

而且此处，在帧处计算出的全局数据用于细化频率隔音增益的计算，并这是按照所遇情况(语音不存在/存在)的。特别地，所述全局数据使得能够在帧的级别上估计遇到的真实情况(单单语音阶段对比于噪声阶段)，它仅有的频率数据不会允许制定所述帧。当仅噪声存在时，这种情况可以减少到均匀的隔音，这是一个理想的解决方案，因为感知到的残留噪声就会不再被音乐化。

由本发明的算法所获得的结果

如上所述，本发明所基于的主要事实是，该信号隔音/劣化折衷是基于频谱增益的计算(标量最小增益参数的函数和语音存在概率的函数)，所述频谱增益的模型是次优的，并提出了涉及频谱增益计算的这样的元素的时间调制的公式，其成为噪声语音信号的时间相关描述符的函数。

本发明是基于全局数据的利用，以更相关、更适应的方式处理每一频带，使得隔音硬度可按照帧上语音存在而变化(当具有对应风险低时进行更大的隔音)。

在传统的OM-LSA算法中，独立地处理每个频带，并且对于给定的频率，没有集成其他频带的先验知识。现在，观察到整个帧来计算表征该帧的全局指针(在本文中为能够粗略地区分单单噪声阶段和语音阶段的语音存在指标)更宽分析是有用的，且是在频带级别上细化处理的有效方法。

具体地说，在传统的OM-LSA算法中，隔音增益通常被调整到折衷值，其通常为14dB的量级。

本发明的实施使得可以将该增益调整为在8dB(语音存在)和17dB(单单存在噪声)之间动态地变化的值。因此噪声的降低更为强大，并且在经常遇到的情况的主要部分中不存在语音时使得噪声几乎难以察觉(在任何情况下都不音乐化)。即使语音存在，隔音也不修改语音音质，其呈递保持自然。

Claims

1.一种通过应用具有可变频谱增益的算法的对音频信号隔音的方法，所述可变频谱增益是语音存在概率的函数，所述方法包括下述连续的步骤：

a)生成(10)数字化的含噪声的音频信号(y(n))的连续时间帧(y(k))

b)将傅立叶变换(12)应用在步骤a)中生成的帧，以便为每一信号时间帧产生具有多个预定的频带的信号频谱(Y(k，l))；

c)在频域中：

c1)对每一当前时间帧的每一频带，估计(18)语音存在概率(p(k，l))；

c3)按照下列各项计算(16)对每一当前时间帧的每一频带适当的频谱增益(G_OMLSA(k，l))：i)每一频带中的噪声能量的估计，ii)在步骤c1)估计的语音存在概率，以及iii)表示隔音硬度参数的标量最小增益值(G_min)；

c4)通过在每一频带应用在步骤c3)计算的增益，选择性地降低噪声(14)；

d)将傅立叶逆变换(20)应用于包括步骤c4)中产生的每一频带的信号频谱以为每一频谱递送隔音信号时间帧；和

e)从在步骤d)递送的时间帧中重构(22)隔音音频信号；

所述方法的特征在于：

——所述标量最小增益值(G_min)是能够在每一连续时间帧(y(k))处动态调制的值(G_min(k))；和

——在计算所述频谱增益的步骤c3)前，所述方法进一步包括步骤：

c2)为所述当前时间帧(y(k))，按照针对所有频带在当前时间帧观察的全局值(SNR_y(k)；P_speech(k)；VAD(k))来计算(24)所述可调制的值；和

——步骤c2)的所述计算包括对于当前时间帧，应用加到所述最小增益(G_min)的参数化额定值的增量/减量(ΔG_min(k)；Δ₁G_min；Δ₂G_min；ΔG_min)。

2.根据权利要求1的所述方法，其中所述全局变量是在时域评估(26)的当前时间帧的信号噪声比(SNR_y(k))。

3.根据权利要求2的所述方法，其中在步骤c2)通过应用下列关系计算所述标量最小增益值：

G_min(k)＝G_min+ΔG_min(SNR_y(k))

k是当前时间帧的索引，

G_min(k)是将应用到当前时间帧的最小增益，

G_min是最小增益的所述参数化额定值，

ΔG_min(k)为加到G_min所述增量/减量，和

SNR_y(k)为当前时间帧的信号噪声比。

4.根据权利要求1的所述方法，其中所述全局变量是在当前时间帧评估(28)的平均语音概率(P_speech(k))。

5.根据权利要求4的所述方法，其中在步骤c2)通过应用下列关系计算所述标量最小增益值：

G_min(k)＝G_min+(P_speech(k)-1)·Δ₁G_min+P_speech(k)·Δ₂G_min

k是当前时间帧的索引，

G_min(k)是将应用到当前时间帧的最小增益，

G_min是最小增益的所述参数化额定值，

P_speech(k)是在当前时间帧评估的平均语音概率，

Δ₁G_min是在噪声阶段中加到G_min的所述增量/减量，和

Δ₂G_min是在语音阶段中加到G_min的所述增量/减量。

6.根据权利要求4的所述方法，其中通过应用下列关系来在当前时间帧评估所述平均语音概率：

P_{speech} (k) = \frac{1}{N} Σ_{l}^{N} p (k, l)

l是频带的索引，

N为频谱中频带的数目，和

p(k，l)为在当前时间帧的索引l的频带中语音存在概率。

7.根据权利要求1的所述方法，其中所述全局变量是对当前时间帧中的语音活动(VAD(k))检测的布尔信号，所述布尔信号是在时域通过分析时间帧和/或借助于外部检测器而被评估(30)。

8.根据权利要求7的所述方法，其中在步骤c2)通过应用下列关系估计所述标量最小增益值：

G_min(k)＝G_min+VAD(k)·ΔG_min

k是当前时间帧的索引，

G_min(k)是将应用到当前时间帧的最小增益，

G_min是最小增益的所述参数化额定值，

VAD(k)是对当前时间帧的语音活动的检测的布尔信号的值，和

ΔG_min是加到G_min所述增量/减量。