CN101770779A

CN101770779A - 嘈杂的声学信号中的噪声频谱跟踪

Info

Publication number: CN101770779A
Application number: CN200910211644A
Authority: CN
Inventors: R·亨德里克斯; J·延森; U·谢姆斯; R·霍伊施登斯
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2008-09-15
Filing date: 2009-08-25
Publication date: 2010-07-07
Anticipated expiration: 2029-08-25
Also published as: EP2164066A1; EP2164066B1; CN101770779B; US20100067710A1; US8712074B2; DK2164066T3; AU2009203194A1

Abstract

本发明涉及一种评估包括噪声信号部分和目标信号部分的输入声音信号中噪声功率频谱密度PSD的方法及使用该方法的系统。本发明方法包括：步骤d)，向控制路径提供数字化电输入信号并执行：d1)，存储多个时帧的输入信号；d2)，逐帧地对存储的时帧进行时间-频率转换；d3)，为频谱中的每个频率样本导出包括能含量|Y|²的周期图；d4)，对频谱的每个频率样本应用增益函数G；d5)，将频谱划分成N_sb2个子波段；d6)，基于子波段中频率样本的非零噪声能量水平提供子波段中噪声PSD水平的第一评估；d7)，提供子波段中噪声PSD水平的第二改进评估

，

。本发明可提供用于评估由掺杂了声学噪声的目标信号组成的声学信号的噪声PSD的方案。

Description

嘈杂的声学信号中的噪声频谱跟踪

技术领域

本发明涉及声学信号例如语音信号中噪声的识别，利用快速噪声功率频谱密度跟踪。本发明尤其涉及一种评估包括噪声信号部分和目标信号部分的输入听觉信号中的噪声功率频谱密度PSD的方法。

本发明进一步涉及一种用于评估包括噪声信号部分和目标信号部分的输入听觉信号中的噪声功率频谱密度PSD的系统。

本发明进一步涉及根据本发明的系统的应用、一种数据处理系统以及一种计算机可读媒介。

本发明可以在例如收听设备中使用，例如助听器、移动电话、耳机、活动耳塞等。

背景技术

为了提高由数字语音处理器(例如助听器或移动电话)处理的噪杂语音信号的质量并减少听众的疲劳度，通常期望采用噪声消减作为预处理程序。噪声消减方法可以被嵌入在单麦克风配置和多麦克风配置中工作的方法中。

本发明关注单麦克风的噪声消减方法。我们能够找到的这些方法的一个例子是在所谓的完全耳道式(completely in the canal，CIC)助听器。然而，本发明的使用不受限于这些单麦克风噪声消减方法。它同样容易和多麦克风噪声消减技术结合，例如，与波束成形器集合作为后置处理程序。

根据这些噪声消减方法可能会从嘈杂的语音信号中消除噪声，即，评估潜在的干净语音信号。然而，为了达到这个结果需要具有一些有关噪声的知识。通常有必要了解噪声功率频谱密度(PSD)。通常噪声PSD是未知的并且也是随时间变化的(依赖于特殊的环境)，这使得噪声PSD评估成为一个挑战性的问题。

当噪声PSD被错误评估时，将会提供过多或过少的噪声抑制。例如，当实际的噪声水平突然减少而被评估的噪声PSD评估过高时，便会采用过多的抑制，导致结果是语音质量的缺失。另一个方面，当噪声水平突然增加，评估过低的噪声水平将导致噪声抑制太少而导致生成过度的剩余噪声，其再一次降低信号质量并增加了听者的负担。

文献中已经公开了多种从嘈杂的语音信号中评估噪声PSD的方法。在相当固定的噪声条件下使用语音激活检测器(voice activity detector，VAD)[KIM99]可以有效的评估噪声PSD。借助VAD在语音暂停时评估噪声PSD。然而，基于VAD的噪声PAD评估可能会在噪声是不固定时失败并且当噪声水平或频谱变化时导致大的评估误差。噪声PSD评估的可选方案是基于最小化统计(minimum statistics，MS)的方法[Martin2001]。

这些方法不依赖VAD的使用，而是利用在足够长的时间间隔上观察到在特殊频率窗口(bin)嘈杂语音信号的功率水平会到达该噪声功率水平这一事实。该时间间隔的长度提供了一方面MS多快能够追踪到随时间变化的噪声PSD和另一方面对噪声PSD的评估过高的风险之间的权衡。

近来在[Hendriks2008]中公开了一种噪声追踪的方法，其允许当语音是连续出现时评估噪声PSD。尽管在[Hendriks2008]中公开的该方法已经表现出对于非固定噪声条件下的噪声PSD评估是非常有效的并且可以实时地在现代PC上的MATLAB中执行，必需的特征值分解对于极低复杂度约束的应用而言也太复杂了，例如由于功率消耗限制，例如在电池驱动设备中，像助听器。

发明内容

与执行[Martin2001]和[HENDRIKS2008]中描述的方法一样，本发明旨在噪声PSD评估。所提出的方法相比于上述文献中提出的方法的优势在于，利用所提出的方法可以精确地评估噪声PSD，也就是说，当语音存在时，也可以以相对低的计算复杂度评估噪声PSD。

本发明的一个目的是提供一种用于评估声学信号中的噪声PSD，该声学信号掺杂了声学噪声的目标信号组成。

本发明的目的是由附属的权利要求中描述的以及下面描述的发明来实现。

方法：

本发明的目的是通过一种评估包括噪声信号部分和目标信号部分的输入听觉信号中的噪声功率频谱密度PSD的方法来实现的。该方法包括：

d)向控制路径提供数字化的电输入信号并执行：

d1)存储多个时帧的输入信号，每个时帧的输入信号包括预定数量N₂个数字时间样本X_n(n＝1，2，......，N₂)，对应于时帧长度L₂＝N₂/f_s；

d2)逐帧地对对存储的时帧进行时间-频率变换从而提供对应的频率样本频谱Y；

d3)为频谱中的每个频率样本导出包括能含量|Y|²的周期图，该能含量是噪声和目标信号的和的能量；

d4)向频谱的每个频率样本提供增益函数G，从而评估每个频率样本中的噪声能量水平

{| \hat{W} |}^{2} = G \cdot {| Y |}^{2};

d5)将频谱划分成N_sb2个的子波段，每个子波段包括一个预定数量n_sb2个频率样本，并假定噪声PSD水平在子波段上是恒定的；

d6)基于子波段中频率样本的非零评估的噪声能量水平在子波段中提供噪声PSD水平的第一评估

d7)通过将偏置补偿因数B应用到第一次评估，提供子波段中噪声PSD水平的第二改进评估

{| \tilde{N} |}^{2} = B \cdot {| \hat{N} |}^{2} .

这提供用于评估输入听觉信号中噪声频谱密度的算法的优点。

在从时域到频域的变换获得的频率样本的频谱中，该频率样本(例如X)一般是复数，它可以由幅度|X|和相位角arg(X)来描述。

在本文中，位于参数、数字或值例如G或I上方的‘描述符’^和～(即分别为

和

)是为了表示参数G和I的评估。当例如评估参数的绝对值ABS(G)时，这里被写成|G|，绝对值的评估可理想地应该具有除ABS或|.|标记之外的描述符，但是由于印刷上的局限，在以下描述中，不总是这样。然而想要例如

和

代表参数G的绝对值(或幅度)|G|的评估以及幅度平方

的评估(也就是说，即不是G的评估

的绝对值也不是I的评估

的幅度平方)。一般地所提及的参数或数字都是复数。

在一个优选实施例中，该方法进一步包括通过计算当前频谱的子波段以及多个在前频谱的对应子波段中噪声能量水平第二改进评估的加权平均值来提供子波段中噪声PSD水平的进一步改进评估的步骤d8)。这具有减少被评估的噪声PSD的变化的优点。

在一个优选实施例中，存储多个时帧的输入信号的步骤d1)进一步包括提供具有预定重叠的共同数字时间样本的连续帧的步骤d1.1)。

在一个优选实施例中，存储多个时帧的输入信号的步骤d1)进一步包括对每个时帧执行窗函数(windowing function)的步骤d1.2)。这允许控制频谱中的旁瓣(side-lobes)高度和主瓣(main-lobes)宽度之间的权衡。

在一个优选实施例中，存储多个时帧的输入信号的步骤d1)进一步包括在每个时帧的末端附加多个零以提供包括K个时间样本的修正时帧的步骤d1.3)，其适用于快速傅立叶变换方法，该修正时帧被储存来替代未修正时帧。

在一个优选实施例中，时间样本个数K等于2^P，其中p是正整数。这具有可以非常有效地执行实施FFT算法的优点。

在一个优选实施例中，子波段中噪声PSD水平的第一评估是通过求子波段中频率样本的非零评估的噪声能量水平的平均数来获得的，其中平均代表子波段中频率样本的非零评估噪声能量水平的加权平均或几何平均或中值。

在一个优选实施例中，针对若干个子波段执行一个或多个步骤d6)，d7)和d8)，例如针对给定频谱的大多数子波段或所有子波段。在预先知道仅仅是子波段的一个子集合将从这种改进的噪声PSD评估中获益的情况下，这增加了可将所提出的算法步骤应用到子波段的子集合的灵活性。

在一个优选实施例中，针对多个相继的时帧例如连续地(重复)执行该方法的步骤。

在一个优选实施例中，该方法包括步骤

a1)将输入声音信号转换成电输入信号；

a2)以预先确定的样本频率f_s采样所述电输入信号从而提供包括数字时间样本x_n的数字化输入信号；

b)分别在优选相对低的等待时间的信号路径和控制路径中处理所述数字化输入信号。

在一个优选实施例中，该方法包括提供数字化电输入信号到信号路径并执行

c1)存储多个时帧的输入信号，每一个都包括预定数量N₁个数字时间样本x_n(n＝1，2，...，N₁)，其对应于时帧长度L₁＝N₁/f_s；

c2)逐帧地对所存储的时帧执行时间-频率转换从而提供对应的频率样本频谱X；

c5)将该频谱划分为N_sb1个子波段，每个子波段包括预定数量n_sb1个频率样本。

在一个优选实施例中，控制路径的帧长度L₂大于信号路径的帧长度L₁，例如2倍的长度，例如4倍长度，例如8倍长度。这具有在用于噪声PSD评估的频谱中提供更高频率分辨率的优点。

在一个优选实施例中，信号路径N_sb1和控制路径N_sb2的子波段数量是相等的，N_sb1＝N_sb2。这具有针对控制路径中的每个子波段在信号路径中都存在对应子波段的效果。

在一个优选实施例中，信号路径中每个子波段的频率样本数量n_sb1是1。

在一个优选实施例中，涉及信号路径的存储多个时帧的输入信号的步骤c1)进一步包括提供具有预定重叠的共同数字时间样本的的连续帧的步骤c1.1)。

在一个优选实施例中，涉及信号路径的存储多个时帧的输入信号的的步骤c1)进一步包括对每个时帧执行窗函数的步骤c1.2)。这具有允许在频谱中旁瓣的高度和主瓣的宽度之间权衡的效果。

在一个优选实施例中，涉及信号路径的存储多个时帧的输入信号的步骤c1)进一步包括在每个时帧的末端添加多个零以提供包括J个时间样本的修正时帧的步骤c1.3)，其适用于快速傅立叶变换方法，该修正时帧被保存来替换未修正时帧。

在一个优选实施例中，样本数量J等于2^q，其中q是正整数。这具有能够非常有效地执行FFT算法的优点。

在一个优选实施例中，控制路径的信号的时帧或频谱中的样本数量K大于或等于信号路径的信号的时帧或频谱中的样本数量J。

在一个优选实施例中，子波段中噪声PSD水平的第二改进评估

被用于修正信号路径中信号的特征。

在一个优选实施例中，子波段中噪声PSD水平的第二改进评估

被用于通过修改信号路径中的频率依赖增益来补偿人的听觉损失和/或补偿噪声消减。

在一个优选实施例中，子波段中噪声PSD水平的第二改进评估被用于影响信号路径的处理算法的设置。

系统：

此外本发明提供一种用于评估包括噪声信号部分和目标信号部分的输入声音信号中噪声能量频谱密度PSD的系统。

意图通过用对应的结构特征适当地替换，将“用于执行本发明的模式”部分中详细描述的以及在权利要求中的上述方法的过程特征与系统相结合。

本系统包括：

●用于向控制路径提供数字化电输入信号的单元；

●用于存储多个时帧输入信号的装置，其中每一个都包括预定数量N₂个数字时间样本x_n(n＝1，2，...，N₂)，其对应于时帧长度L₂＝N₂/f_s；

●用于逐帧地转换所存储的时帧从而提供对应的频率样本频谱Y的时间-频率转换单元；

●用于针对频谱中的每个频率样本导出包括能含量|Y|²的周期图的第一处理单元，该能含量是噪声信号和目标信号的和的能量；

●用于将增益函数G应用频谱的每个频率样本从而评估每个频率样本中的噪声能量水平

的增益单元，

{| \hat{W} |}^{2} = G \cdot {| Y |}^{2};

●用于将频谱划分为N_sb2个的子波段的第二处理单元，每个子波段包括预定数量n_sb2个频率样本；

●用于基于子波段中频率样本的非零噪声能量水平提供子波段中噪声PSD水平的第一次评估

的第一评估单元，假定该噪声PSD水平在子波段上是恒定的；

●用于通过将偏置补偿因数B应用到第一次评估来提供子波段中噪声PSD水平的第二改进评估

的第二评估单元，

{| \tilde{N} |}^{2} = B \cdot {| \tilde{N} |}^{2} .

该系统的实施例具有对应方法相同的优点。

在一个特殊实施例中，该系统进一步包括第二评估单元，用于通过计算当前频谱的子波段和多个在前频谱的对应子波段中噪声能量水平的第二改进评估以的加权平均值来提供子波段中噪声PSD水平的进一步改进评估。

在一个特殊实施例中，该系统适用于提供，一用于存储多个时帧的输入信号的存储器包括具有预定重叠的共同数字时间样本的连续帧。

在一个特殊实施例中，该系统进一步包括用于对每个时帧执行窗函数的窗单元。

在一个特殊实施例中，该系统进一步包括用于在每个时帧的末端添加多个零以提供包括K个时间样本的修正时帧的添加单元，其适用于快速傅立叶变换方法，并且其中该系统适合于提供将修正时帧存储在存储器中来替代未修正时帧。

在一个特殊实施例中，该系统进一步包括听觉仪器的一个或多个麦克风，该麦克风用来拾取嘈杂的语音或声音信号并将其转换成电输入信号，以及数字化单元，例如模拟-数字转换器，以提供数字化的电输入信号。在一个特殊实施例中，该系统进一步包括输出转换器(例如接收器)，用于提供代表由麦克风拾取的输入语音或声音信号的增强信号。在一个特殊的实施例中，该系统包括用于对输入信号进一步处理的附加处理块，例如用于提供频率依赖增益并且可能提供其他信号处理特征。

在一个特殊实施例中，该系统构成声音控制设备、通讯设备的一部分，例如移动电话或收听设备，例如听觉仪器。

使用：

在用于执行本发明的模式部分中和权利要求中，本发明还提供了上述系统的使用。

在一个优选实施例中，提供在助听器中的使用。在一个实施例中，提供在通信设备例如移动通信设备中的使用，例移动电话。提供在声学上嘈杂的环境中在移动通信设备中的使用。还提供在离线的噪声消减应用中的使用。

在一个优选实施例中，提供在声音控制设备中的使用(声音控制设备是例如可以基于声音或语音输入执行动作或影响决定的设备)。

数据处理系统：

更进一步的方面，在“用于执行发明的模式”的详细说明中以及权利要求中，提供一种数据处理系统，该数据处理系统包括处理器以及程序代码装置，该程序代码装置用于使处理器执行上面所述方法的至少一些步骤。在一个实施例中，该程序代码装置至少包括标识为d1)，d2)，d3)，d4)，d5)，d6)，d7)的步骤。在一个实施例中，该程序代码装置至少包括1-8步骤中的一些，例如这些步骤中的多数，例如在下面的“通用算法”部分中描述的通用算法的步骤1-8中的所有步骤。

计算机可读媒介

更进一步的方面，在“用于执行发明的模式”的详细说明中以及权利要求中，提供一种计算机可读媒介，该计算机可读媒介存储计算机程序，其包括编码装置，用于当在数据处理系统上执行所述计算机程序时使数据处理系统执行上面所述方法的至少一些步骤。在一个实施例中，该程序代码装置至少包括标识为d1)，d2)，d3)，d4)，d5)，d6)，d7)的步骤。在一个实施例中，该程序代码装置至少包括1-8步骤中的一些，例如这些步骤中的多数，例如在下面的部分“通用算法”中描述的通用算法的步骤1-8中的所有步骤。

本发明更多的目标可以通过附属权利要求中以及发明的详细说明中的限定的实施例来实现。

如这里采用的，除非以别的方式清楚地规定了，否则单数形式“一个”以及“这个”意图也包括复数形式(即具有“至少一个”的意思)。还应该理解，术语“包括”、“包含”、“具有”和/或“含有”在说明书中使用时表示表示存在所述的特征、整数、步骤、操作、元件和/或组件，但是不排除存在或附加了一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合。应该理解，当元件被提及为“连接”或“耦合”到另一个元件时，它可以直接被连接或耦合到其他元件，或者也可能存在中间元件，除非以别的方式清楚的规定了。此外，这里使用的“被连接”或“被耦合”可以包括无线连接或耦合。如这里使用的，术语“和/或”包括一个或多个相关联的术语的任何及所有组合。这里公开的任何方法的步骤都不必以公开的确切顺序来执行，除非以别的方式清楚地规定了。

附图的详细描述

下面将结合优选实施例并对照附图更充分地阐述本发明，其中：

图1示出根据本发明用于噪声PSD评估的系统的实施例，

图2示出包括噪声和目标信号部分(例如语音)的数字化输入信号以及分析帧在信号中的时间位置的例子，

图3示出根据本发明用于噪声PSD评估的系统的实施例，其中在信号路径和控制路径中使用不同的频率分辨率，

图4分别示出图3中实施例的信号路径和控制路径的高频和低频分辨率周期图，

图5示出用于确定噪声PSD的图3中的部分系统的框图，以及

图6示出根据本发明实施例的具有噪声PSD评估系统的电子设备例如收听仪器或通信设备的实施例的示意性框图。

所述附图是示意性的且为了清晰而被简化了，并且它们仅仅示出了理解本发明所必须的细节，同时其他细节被省去。自始至终，相同的标号被用于同样的或相应的部分。

通过下面给出的详细说明，本发明的进一步应用范围将变得明显。然而，应当理解的是这些详细描述以及特殊例子尽管说明了示本发明的优选实施例，但是仅仅是通过说明的方式给出的，因为通过该详细说明，在本发明精神和范围内的各种变化和修改对本领域技术人员来说都是显而易见的。

用于执行本发明的模式

图1中概括了所提出的用于噪声PSD评估的一般方案，该图示出在其中可以使用该算法的环境。示出了两个并行的电路径，信号路径(较高的路径，例如助听器的正向路径)以及控制路径(较低的路径，包括噪声PSD评估算法的要素)。为了说明的目的，噪声PSD算法的要素在信号路径环境中示出(噪声PSD算法可以分析并随意修改信号路径的信号)。然而，要注意的是，所提出的方法是独立于信号路径的。另外，所提出的方法不仅仅适用于如这个实例中提出的低延迟应用，也适用于离线应用。

当标准的低等待时间噪声消减系统正常地以短帧划分嘈杂信号以便满足稳定性和低延迟约束时，我们这里提出使用两种可能不同的帧长度。一个被用在信号路径中且可以满足正常的低延迟约束。这些时帧我们称为DTF1分析帧。另一个被用在控制路径中以便评估该噪声PSD。可以尺寸较长地选择这些帧(但不是必须)，因为它们不需要满足低延迟约束。这些时帧我们称为DFT2帧。假定L₁和L₂是样本中DFT1和DFT2分析帧的长度，L₂≤L₁。在图2中示出了DFT1和DFT2分析帧如何位于时域(嘈杂)语音信号中的例子。在图2的顶部示出该嘈杂语音信号。作为例子，图2的底部示出时间帧m，m+1和m+2的DFT1和DFT2分析帧。在这里例子中，DFT2帧长于DFT1帧，并且以相同的速率同步提取DFT1和DFT2分析帧。然而，这不是必须的，因为还可以以较低的速率与DFT1分析帧异步地更新DFT2分析帧。根据能量标准化时间窗将嘈杂语音的两种帧窗口化并利用频谱转换将其转换为频域，例如利用离散傅立叶变换。该时间窗可以是例如标准Hann、Hamming或矩形窗口并用来从信号切割出帧。标准化是必须的，因为用于DFT2帧和DFT1帧的窗可能是不同的并且可能因此会改变能含量。这两种转换可以具有不同的分辨率。更具体来说，利用阶数(order)J≥L₁的频谱转换来转换DFT1分析帧，同时利用阶数K≥L₂的频谱转换来转换DFT2分析帧，其中K≥J。因此，由于K＞J，所以在DFT1和DFT2帧之间分辨率会不同(这种情况中DFT2帧处理了比DFT1帧更高的分辨率，参见下面的实例1)。L₁和L₂可以优选地选择2的整数幂以便容易的使用快速傅立叶变换(FFT)技术并以这种方式减少计算需求。在这种情况中DFT1的每个窗口对应多个称为P的DFT2窗口的子波段。如果J＝K，即，用于DFT1和DFT2帧的频谱转换具有相同的阶数，每个子波段仅由单个DFT2系数组成，即，P＝1。

为了标记方便，我们将属于子波段j的DFT2窗口索引集合表示为B_j。对于DFT1系数我们使用下面的频域表示法

X(j，m)＝Z(j，m)+N(j，m)，j∈{0，...，J-1}

这里X(j，m)、Z(j，m)以及(j，m)分别是嘈杂语音、干净语音以及噪声DFT1系数，DFT1频率窗口具有索引号j，时帧具有索引号m。

对于DFT2系数我们利用相似的频域表示法，即，

Y(k，m)＝S(k，m)+W(k，m)，k∈{0，...，K-1}

这里Y(j，m)、S(j，m)以及W(j，m)分别是嘈杂语音、干净语音以及噪声DFT2系数，DFT2频率窗口具有索引号k，时间帧具有索引号m。

一般算法：

本发明的目的是评估噪声功率频率密度(PSD)，定义为

为了计算它，我们提出下列算法。

该算法在频域操作，且因此第一步是将嘈杂输入信号转换到频域范围。

1.利用阶数K的DFT将(保存的)DFT2分析帧转换到频谱域(上面的步骤d1，d2)。如果分析帧由小于K的时间样本组成，即，L₁＜K，那么在计算DFT之前添加零到信号帧。得到的DFT2系数为

Y(k，m)，k∈{0，...，K-1}

2.计算嘈杂信号的周期图(上面的步骤d3)：

|Y(k，m)|²，k∈{0，...，K-1}

每个嘈杂DFT2周期图|Y(k，m)|²可以包括来自目标信号的信号成份(例如最终感兴趣的语音信号)，并且通常包括来自背景噪声的信号成份。这可能会通过对嘈杂DFT2周期图应用增益来评估每个DFT2窗口中的噪声能量，即，

{| \hat{W} (k, m) |}^{2} = G (k, m) {| Y (k, m) |}^{2} .

增益函数G(k，m)是许多量的函数，例如所谓的后验SNR和先验SNR，参看下面细节。

3.对于每一个子波段j：对子波段中的所有DFT2频率窗口应用增益函数，即，窗口索引k∈Bj，以评估每个频率窗口的噪声能量(上面的步骤d4，d5)：

{| \hat{W} (k, m) |}^{2} = G (k, m) {| Y (k, m) |}^{2} .

所描述的系统的许多实例中，增益函数可以阐述为：

G (k, m) = f σ_{S}^{2} (k, m), σ_{W}^{2} (k, m - 1), | Y {(k, m)}^{2} |,

这里f是任意的函数(下面给出的实例)，其中σ_S ²是语音PSD以及σ_W ²是基于DFT2分析帧的噪声PSD。实践中σ_S ²和σ_W ²一般是未知的且从嘈杂信号中评估。

可能的增益函数的一些例子：

λ_th是任意阈值

●G(k，m)＝ξ(k，m)/(1+ξ(k，m))，

但是其他的函数也是可能的，例如类似于[EpMa84，EpMa85]中公开的增益函数。这些增益函数可以是在前帧中评估的噪声PSD的函数。这可以由索引m-1来表示。图1中，这是由1帧延迟块来表示的。

假定未知的噪声PSD在子波段中是恒定的，该子波段中的噪声PSD水平可以作为之前步骤中计算的评估的(非零的)噪声能量水平的平均数来评估。为了做到这一点，令Ω(j，m)表示具有增益函数G(k，m)＞0的子波段j中的DFT2窗口索引的集合。

4.对于每个子波段j：评估波段中的噪声能量(上面的步骤d6)：

{| \hat{N} (j, m) |}^{2} = \frac{1}{| Ω (j, m) |} \underset{k &Element; Ω (j, m)}{Σ} {| \hat{W} (k, m) |}^{2}

其中|Ω(j，m)|是集合Ω(j，m)的基数。

组合DFT噪声能量水平到子波段噪声水平评估中也可以有其他办法。例如，一个是可以计算子波段上的几何中值，而不是上面给出的算数中值。

在这个步骤中计算的噪声能量水平

可以看作为子波段中噪声PSD的第一评估。然而，在许多情况中，该噪声PSD水平可以被偏置。基于这个理由，偏置补偿因素B(j，m)被应用到评估中以便校正偏置。该偏置补偿因素是应用的增益函数G(k，m)，k∈Bj的函数。例如，它可以是非零的增益值的数量的函数G(k，m)，k∈Bj，其事实上是集合|Ω(j，m)|的基数。

5.对于每个子波段j：在评估的噪声能量上应用偏置补偿(上面的步骤d7)：

{| \tilde{N} (j, m) |}^{2} = B (j, m) {| \hat{N} (j, m) |}^{2},

这里B(j，m)可以依赖于集合|Ω(j，m)|的基数以及应用的增益函数G(k，m)，k∈Bj。

该偏置因素B(j，m)一般依赖于L2和K的选择，且可以是例如在应用之前发现离线，利用[Hendriks08]中略述的“训练过程”。在提出的系统的一个实例中，B(j，m)的值的范围是0.3-1.0。

量

是子波段j中噪声PSD的改进评估。假定噪声PSD随着时间相对缓慢地变化，通过计算评估平均值以及那些在前帧的平均值可以减少评估的变化。这可以利用下面的一阶平滑策略来实现。

6.对于每个子波段j：更新噪声PSD评估(上面的可选步骤d8)：

理想地应该根据关于潜在噪声处理的现有知识来选择该平滑常数，0＜α_j＜1。对于相对固定噪声源，α_j可以选为1，而对于非长不固定的噪声源，可以较低一些。此外，α_j的值也依赖于使用的时间帧的更新速率。对于较高的更新速率α_j可以接近1，而对于较低的更新速率α_j可以较低一些。如果不能获取有关噪声源的具体知识，α_j可以对于所有j选择例如α_j＝0.9。

为了克服在长时间|Ω(j，m)|＝0时噪声PSD更新被完全锁定，可以额外应用一种安全的净解决方案，例如，基于足够长的时间跨度上|X(j，m)|²的最小值。或者，基于|Y(j，m)|²的最小值。

该量

是子波段j中噪声PSD的最终评估。为了能够进行该算法的下一个迭代，子波段j窗口中用于每个DFT2的噪声PSD评估被分配这个值(算术地，在假定真实噪声PSD在子波段内是恒定的情况下这是正确的)。

7.对于每个子波段j：将子波段噪声PSD评估

分布到DFT2窗口：

{\hat{σ}}_{W}^{2} (k, m) = {\hat{σ}}_{N}^{2} (j, m),

对于所有j，k∈Bj。

8.设置m＝m+1并回到步骤1。

实例1(不同分辨率，K＞J)：

在所提出的系统的第一个实例中我们考虑K＞J的情况。令该采样频率f_s＝8kHz，且分别令DFT1和DFT2分析帧具有长度L₁＝64样本和L₂＝640样本。DFT1分析帧和DFT2分析帧的长度然后分别对应于8ms和80ms。DFT2和DFT1的转换阶数在这个实例中分别设置成K＝1024(＝2¹⁰)以及J＝64(2⁶)。

对应于具有索引号为j的子波段的DFT2窗口的索引由下面的索引集合给定

B_j＝{k₁，...，k₂}，这里k₁＝(j-1/2)K/J且k₂＝(j+1/2)K/J，

这里假定K和J是2的整数幂。

在这个例子中，子波段j由P＝17DFT2频谱值组成。

例如，具有索引号为j＝1的子波段由具有索引号为8...24的DFT2窗口组成，且这个波段的中心频率位于索引号为k＝16的DFT2窗口上。

另一个配置可以是L₁＝64样本以及L₂＝512样本。DFT1和DFT2转换的阶数可以分别选择J＝64和K＝512。

算法的步骤3到8描述了如何为每个子波段j评估噪声PSD。在步骤3中增益G被应用到子波段的每个DFT2系数。在步骤4中计算该波段的平均噪声水平之后，步骤5应用了偏置补偿来补偿由采用的增益函数引入的偏置。

图3-5中示出了算法的当前实施例的一个简化使用。在本发明的这个实施例中使用了如图4所示的控制路径比信号路径具有更高的频率分辨率。图4分别示出了图3实施例中信号路径和控制路径的高(顶部)和低(底部)的频率分辨率周期图。控制路径中采用较高的频率分辨率被以便评估信号路径中每个频率波段嘈杂信号的噪声水平。首先，在控制路径中按时帧划分嘈杂信号。然后对于这些时帧进行高阶频谱转换，例如，采用离散傅立叶变换。随后为控制路径信号计算高分辨率的时间周期(对比图4中的顶部曲线)。接着，每个子波段j，评估该嘈杂等级。这会在图5中详细示出，这里应用于当前实施例的算法的步骤3-6(如上面的‘通用算法’部分中描述的)被图示。

图5中我们看到j子波段中高分辨率时间周期被第一次划分。接着对子波段j中的所有窗口使用增益以便降低/移除嘈杂时间周期中的语音能量。这个步骤对应算法步骤3。随后每个子波段的噪声能量被评估(算法步骤4)，在使用偏置补偿以及平滑每个子波段j之后(算法步骤5和6)。因为使用了产生高频率分辨率，可能会更新噪声PSD甚至是当语音以一种信号路径的特殊频率窗口出现时。这种改变噪声PSD的更精确和快速的更新将防止更多或更少的噪声抑制并且能够增加处理的嘈杂语音信号的质量。

算法的当前实施例可以是例如优势地用于助听器以及其他需要噪声PSD评估的处理程序中，在这个实例中给出的K＞J可以获取足够的处理能量。

图3的结构图可以是例如听觉仪器的一部分其中‘额外的处理’程序可以包括用于用户采用的加法，频率相关增益以及其他可能的信号处理特征。输入信号到图3的结构图‘嘈杂时间域语音信号’可以是例如由一个或多个拾取了嘈杂语音或声学信号的听觉仪器的麦克风生成，并将其转换成电子输入信号，其被正确地数字化，例如通过模拟-数字(AD)转换器。图3结构图的输出，‘评估干净的时间域语音信号’可以是例如供给到听觉仪器的输出变频器(例如接收器)用于向用户呈现作为一种加强的信号来代表输入语音或声学信号。收听仪器或通信设备的实施例部分的结构图包括根据图6中示出的本发明实施例的噪声PSD评估系统。该信号路径包括一个麦克风用于拾取嘈杂语音信号并转换成模拟电信号的，一个AD转换器用于转换该模拟电输入信号为数字电输入信号，一个数字信号处理单元(DSP)用于处理数字电输入信号并提供一处理的数字电输出信号，一个数字-模拟转换器用于转换该处理的数字电输出信号为模拟输出信号以及一个接收器用于转换模拟电输出信号为加强语音信号。该DSP包括一个或多个算法用于提供频率相关的输入信号的增益，一般基于输入信号的波段分裂版本。控制路径进一步被示出且由本应用中描述的噪声PSD评估来定义。从信号路径带来输入(这里示出为AD转换器的输出)且它的输出被流入作为DSP的输入(用于修改DSP的一个或多个算法参数或用于释放信号路径的(波段分裂)输入信号中的噪声)))。图6的设备可以表现为例如移动电话或听觉仪器且可以包括其他功能模块(例如反馈取消，无线连接接口，等)。实践中，噪声PSD评估系统和DSP以及其他可能的功能块都可以组成相同的集成电路。

实例2(相同的分辨率，J＝K)

在这个实例中我们考虑K＝J的情况，即，DFT1和DFT2之间的频谱分辨率存在不同。让我们再一次假设样本频率fs＝8kHz，且令DFT1分析帧具有长度为L₁＝64样本以及DFT2分析帧具有长度为L₂＝64样本。DFT2和DFT1转换命令在这个实例中设置为K＝J＝64，即，每个子波段j有一个DFT2窗口k。

为了对每个子波段j评估噪声PSD，可以执行算法描述中的步骤3-8。结合之前的实例一个最大的不同是在步骤4中波段中的平均噪声等级是通过采用一个频谱样本的平均值来计算的，其中，实际上，是该频谱样本值本身。

该算法的当前实施例可以有优势地用于例如需要噪声PSD评估且处理能源是受约束的信号处理应用程序(例如由于能源消耗有限)，使得K＝J或当在先已知时该噪声PSD可以平滑地跨过感兴趣的频率范围。

本发明是根据相关的权利要求的特征来确定的。优选实施例被定义在相关的权利要求中。权利要求中的任何标号对于其范围内都是非限制的。

前述已经示出了一些优选实施例，但是并不是强调本发明被限制于此，在以下权利要求定义的主旨范围内可以由其他方式来执行。

参考文献

[KIM1999]

J.Sohn，N.S.Kim，W.Sung在IEEE Signal Processing Lett.刊登的“A statistical model-based voice activity detection”，第6卷，第1期，1999年1月，第1-3页

[Martin2001]

R.Martin在IEEE Trans.Speech Audio Processing上刊登的“Noise PowerSpectral Density Estimation Based on Optimal Smoothing and MinimumStatistics”，第9卷，第5期，2001年7月，第504-512页

[Hendriks2008]

R.C.Hendriks，J.Jensen和R.Heusdens，在IEEE Trans.Audio Speechand Language Processing上刊登的“Noise Tracking using{DFT}DomainSubspace Decompositions”，2008年3月

[EpMa84]

Y.Ephraim，D.Malah在IEEE Trans.Acoust.Speech Signal Process.上刊登的“speech enhancement using a minimum mean-square error short-timespectral amplitude estimatior”，32(6)，1109-1121，1984。

[EpMa85]

Y.Ephraim，D.Malah在IEEE Trans.Acoust.Speech Signal Process.上刊登的“speech enhancement using a minimum mean-square error log-spectralamplitude estimatior”，32(2)，443-445，1985。

Claims

1.一种评估包括噪声信号部分和目标信号部分的输入声音信号中噪声功率频谱密度PSD的方法，该方法包括：

d)向控制路径提供数字化电输入信号并执行：

d2)逐帧地对所存储的时帧进行时间-频率转换从而提供频率样本的相应频谱Y；

d3)针对频谱中的每个频率样本导出包括能含量|Y|²的周期图，该能含量是所述噪声和目标信号的和的能量；

d4)将增益函数G应用于频谱的每个频率样本，从而评估每个频率样本中的噪声能量水平

{| \hat{W} |}^{2} = G \cdot {| Y |}^{2};

d5)将所述频谱划分成N_sb2个子波段，每个子波段包括预定数量n_sb2个频率样本，并假定噪声PSD水平在子波段上是恒定的；

d6)基于所述子波段中所述频率样本的非零评估噪声能量水平提供子波段中噪声PSD水平的第一评估

d7)通过将偏置补偿因数B应用到所述第一评估，提供子波段中噪声PSD水平的第二改进评估

{| \tilde{N} |}^{2} = B \cdot {| \hat{N} |}^{2} .

2.根据权利要求1的方法，进一步包括通过计算当前波谱的子波段和多个在前频谱的对应子波段中噪声能量水平的第二改进评估的加权平均值来提供子波段中噪声PSD水平的进一步改进评估的步骤d8)。

3.根据权利要求1的方法，其中存储多个时帧的输入信号的步骤d1)进一步包括提供具有预定重叠的共同数字时间样本的连续帧的步骤d1.1)。

4.根据权利要求1的方法，其中存储多个时帧的输入信号帧的步骤d1)进一步包括在每个时帧上执行窗函数的步骤d1.2)

5.根据权利要求1的方法，其中存储多个时帧的输入信号的步骤d1)进一步包括)在每个时帧的末端附加多个零以提供包括K个时间样本的修正时帧的步骤d1.3，其适用于快速傅立叶变换方法，该修正时帧被储存来替代未修正时间帧。

6.根据权利要求5的方法，其中K等于2^p，其中p是正整数。

7.根据权利要求1的方法，其中通过求子波段中频率样本的非零噪声能量水平的平均数来获得子波段中噪声PSD水平的第一评估

其中平均代表子波段中频率样本的非零评估的噪声能量水平的加权平均数或几何平均数或中值。

8.根据权利要求1的方法，其中针对若干个子波段执行步骤d6)、d7)和d8)中的一个或多个，例如针对给定频谱的大多数子波段或所有子波段。

9.针对多个相继时帧例如连续执行根据权利要求1的方法。

10.根据权利要求1的方法包括步骤

a1)将输入的声音信号转换成电输入信号；

a2)以预定的采样频率f_s采样电输入信号从而提供包括数字时间样本x_n的数字化输入信号；

11.根据权利要求10的方法，包括将数字化电输入信号提供给所述信号路径并执行

c1)存储多个时帧的输入信号，其中每个时帧的输入信号包括预定数量N₁个数字时间样本x_n(n＝1，2，...，N₁)，对应于时帧长度L₁＝N₁/f_s；

c5)将所述频谱划分为N_sb1个子波段，每个子波段包括预定数量n_sb1个频率样本。

12.根据权利要求11的方法，其中所述控制路径的帧长度L₂大于所述信号路径的帧长度L₁，例如2倍的长度，例如4倍长度，例如8倍长度。

13.根据权利要求11的方法，其中所述信号路径N_sb1和所述控制路径N_sb2的子波段数量相等，N_sb1＝N_sb2。

14.根据权利要求11的方法，其中所述信号路径的每个子波段的频率样本的数量n_sb1是1。

15.根据权利要求11的方法，其中涉及所述信号路径的存储多个时帧的输入信号的步骤c1)进一步包括提供具有预定重叠的共同数字时间样本的连续帧的步骤c1.1)。

16.根据权利要求11的方法，其中涉及所述信号路径的存储多个时帧的输入信号时帧的步骤c1)进一步包括对每个时帧执行窗函数的步骤c1.2)。

17.根据权利要求11的方法，其中涉及所述信号路径的存储多个时帧的输入信号的步骤c1)进一步包括在每个时帧的末端添加多个零以提供包括J个时间样本的修正时帧的步骤c1.3)，其适用于快速傅立叶变换方法，该修正时帧被保存来替换未修正时帧。

18.根据权利要求17的方法，其中J等于2^q，其中q是正整数。

19.根据权利要求17的方法，其中所述控制路径的信号的时帧或频谱中的样本数量K大于或等于所述信号路径的信号的时帧或频谱中的样本数量J。

20.根据权利要求11的方法，其中子波段中噪声PSD水平的第二改进评估被用于修正所述信号路径中信号的特征。

21.根据权利要求11的方法，其中子波段中噪声PSD水平的第二改进评估

被用于通过修改所述信号路径中的频率依赖增益补偿人的听觉损失和/或噪声消减。

22.根据权利要求11的方法，其中子波段中噪声PSD水平的第二改进评估

被用于影响所述信号路径的处理算法的设置。

23.一种评估包括噪声信号部分和目标信号部分的输入声音信号中噪声功率频谱密度PSD的系统，包括：

●用于向控制路径提供数字化电输入信号的单元；

●用于存储多个时帧的输入信号的存储器，其中每个时帧的输入信号包括预定数量N₂个数字时间样本x_n(n＝1，2，...，N₂)，其对应于时帧长度L₂＝N₂/f_s；

用于为频谱中的每个频率样本导出包括能含量|Y|²的周期图的第一处理单元，该能含量是噪声和目标信号的和的能量；

●一用于对频谱的每个频率样本应用增益函数G的增益单元，从而评估每个频率样本中的噪声能量水平

{| \hat{W} |}^{2} = G \cdot {| Y |}^{2};

●用于将所述频谱划分为N_sb2个子波段的第二处理单元，每个子波段包括预定数量n_sb2个频率样本；

●用于基于子波段中频率样本的非零噪声能量水平提供子波段中噪声PSD水平的第一评估

的第一评估单元，假定该噪声PSD水平在子波段上是恒定的；

●用于通过对所述第一评估应用偏置补偿因素B来提供子波段中噪声PSD水平的第二改进评估

的第二评估单元，

{| \tilde{N} |}^{2} = B \cdot {| \hat{N} |}^{2} .

24.根据权利要求23的系统的使用。

25.一种数据处理系统包括处理器和用于使该处理器执行权利要求1的方法的至少一些步骤的程序代码装置。

26.一种储存计算机程序的计算机可读媒介包括程序代码装置，该程序代码装置用于在数据处理系统上执行所述计算机程序时使所述数据处理系统执行根据权利要求1的方法的至少一些步骤。