CN104902418B

CN104902418B - 用于估计目标和噪声谱方差的多传声器方法

Info

Publication number: CN104902418B
Application number: CN201510103711.6A
Authority: CN
Inventors: J·延森; A·库拉辛斯基
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2014-03-07
Filing date: 2015-03-09
Publication date: 2019-08-16
Anticipated expiration: 2035-03-09
Also published as: DK2916321T3; EP2916321A1; CN104902418A; US20150256956A1; US9723422B2; EP2916321B1

Abstract

本发明公开了用于估计目标和噪声谱方差的多传声器方法，该方法包括：a)提供或接收多个频带和多个时刻时第i个输入单元处的有噪声音频信号y_i(n)的时频表示Y_i(k,m)，i＝1,2,…,M，其中M大于或等于2，k为频带指数，及m为时间指数；b)提供目标信号分量和第一噪声信号分量的特性；及c)将第一噪声信号分量v和目标信号分量x的谱方差或其换算版λ_V,λ_X分别估计为频率指数k和时间指数m的函数，λ_V和λ_X的估计量在最大似然方面共同最佳，基于下述统计假设：a)相应信号y_i(n)、及信号分量x_i(n)和v_i(n)的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)均为零均值、复值高斯分布；b)它们中的每一个跨时间m和频率k统计上独立；及c)X_i(k,m)和V_i(k,m)不相关。

Description

用于估计目标和噪声谱方差的多传声器方法

技术领域

本申请涉及用于估计有噪声(如混响)信号中的相应目标和噪声(如混响)信号分量的谱方差的音频处理方法和音频处理系统，及该音频处理系统的用途。本申请还涉及包括处理器和程序代码的数据处理系统，程序代码使得处理器执行本发明方法的至少部分步骤。

例如，本发明的实施可用在助听装置如助听器、头戴式耳机、耳麦、有源耳朵保护系统、免提电话系统、移动电话等应用中或者用在远程会议系统、广播系统、卡拉OK系统、教室放大系统等系统中。

背景技术

下面的现有技术说明涉及本申请的应用领域之一，即助听器。

已知助听器用户在混响环境如具有硬壁的房间、教堂、讲演厅等中面临理解语音的问题。尽管该用户问题众所周知，但似乎只有为数不多的与该问题有关的助听器信号处理算法。

US2009248403A公开了多传声器系统及消除混响的线性预测模型。WO12159217A1涉及在混响环境中或在除直接声音之外还具有扩散声音的其它环境中提高语音可懂度的技术。US2013343571A1公开了传声器阵列处理系统，其包括配置成减少波束形成剩下的噪声分量(如混响)的自适应波束形成和后滤波。US2010246844A1涉及确定信号分量以减少输入信号中的噪声(如混响)的方法。[Braun&Habets；2013]涉及有噪声环境中的去混响。[Shimitzu et al.；2007]涉及功率谱域中通过对称传声器阵列的各向同性噪声抑制。所描述的方法基于自由场假设确定目标信号的谱方差，其中协方差矩阵圆形对称。

发明内容

撞击在传声器上的混响和有噪声语音信号可分为两个(非必须地，三个)部分：

a)语音信号的直接声音和前几次反射(包括直接声音之后的约50ms脉冲响应)；

b)后混响信号，即比直接声音晚约50ms到达的反射语音信号分量；及非必须地

c)附加噪声分量。

假定附加噪声的信号功率(具体地，输入变换器间协方差矩阵，参见后述)已知。在本发明中，附加噪声的例子为传声器噪声、发动机噪声(如在汽车或飞机中)、大的喧哗噪声(如所谓的“鸡尾酒会噪声”)。

众所周知，大约说来，部分a)有益于语音可懂度，而部分b)和c)对正常听力和听力受损听者而言均降低可懂度。

本发明的主要目标在于使用两个以上传声器将信号功率在线估计为每一信号分量a)和b)的时间和频率的函数(即动态地，在使用音频处理装置如助听装置期间)。所提出的方法与传声器位置和数量无关，也就是说，其可在助听器本地有两个传声器可用的情形下起作用，也可在外部传声器信号如来自对侧助听器或外部装置的传声器信号可用的情形下起作用。

如下面更详细归纳地，该主要想法具有几个潜在的用途：

i)用于在助听器中选择适当的处理方法；

ii)用于通知用户助听器在特定环境中能够何种程度地适当运行；

iii)用于处理信号以减少混响及可选地减少附加噪声，等等。

本发明基于典型目标语音信号和混响声场的空间特性十分不同的事实。具体地，所提出的方法利用混响声场可建模为适当各向同性，即对于特定频率，源自任何方向的混响信号功率(大约)一样。另一方面，目标语音信号的直接部分大致上局限于一个方向。

在本发明的实施例中，提出了用于语音去混响的算法，其使能也在语音存在期间联合估计目标和干扰谱方差。该算法使用最大似然估计(MLE)方法，例如参见[Ye&DeGroat；1995]。我们假定混响的各向同性空间分布及已知讲话者方向。因此，语音和混响的传声器间协方差矩阵的结构已知，在MLE框架中仅估计时变谱方差(这些矩阵的换算因子)。

应注意，本发明中提出的算法也可适用于不同于语音的目标信号及不同于混响的干扰类型。然而，前提条件是干扰的空间分布各向同性，或者已知或已估计该空间分布。

本发明的目标在于提供用于将信号功率估计为混响语音信号的混响部分的时间和频率的函数的方法。本发明的另外的目标在于(相较于现有解决方案)提高有噪声情形下的语音可懂度。本发明的目标还在于提高有噪声情形下的声音质量。

本申请的目标由所附权利要求限定的及下面描述的发明实现。

处理有噪声音频信号的方法

在本申请的一方面，本申请的目标由包括目标信号分量x(n)和第一噪声信号分量v(n)的有噪声音频信号y(n)的处理方法实现，n表示时间，该方法包括：

a)提供或接收多个频带和多个时刻时第i个输入单元处的有噪声音频信号y_i(n)的时频表示Y_i(k,m)，i＝1,2,…,M，其中M大于或等于2，k为频带指数，及m为时间指数；

b)提供目标信号分量和第一噪声信号分量的特性；及

c)将第一噪声信号分量v和目标信号分量x的谱方差或其换算版λ_V,λ_X分别估计为频率指数k和时间指数m的函数，λ_V和λ_X的估计量在最大似然方面共同最佳，基于下述统计假设：a)相应信号y_i(n)、及信号分量x_i(n)和v_i(n)的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)均为零均值、复值高斯分布；b)它们中的每一个跨时间m和频率k统计上独立；及c)X_i(k,m)和V_i(k,m)不相关。

本发明的优点在于其为提高输入语音信号的可懂度提供基础。本发明的另一优点在于有噪声音频信号的信号分量的谱方差的所得估计与输入单元的数量和/或位置无关。

总的来说，“噪声信号分量的特性”(称为“第一”、“第二”或其它)意为噪声信号分量关于空间、频率和/或时间的特性(如与信号能量随时间、频率和空间的变化有关)。这些特性总体上例如可与在不同空间位置(如在输入单元如传声器处)测得的噪声功率谱密度及其跨时间的变化有关。另外或作为备选，其与噪声能量的方向或空间分布有关，即与作为方向的函数撞击在输入单元上的噪声能量的量有关(对于特定频率和时刻)。在重要实施例中，该方法涉及附加噪声的“空间特性”。在实施例中，“噪声信号分量的特性”意为“空间特性”或“空间指纹”。在实施例中，噪声信号分量的“空间特性”或“空间指纹”通过输入单元间(如传声器间)噪声协方差矩阵定义。

在优选实施例中，本发明方法基于空间滤波。在实施例中，目标信号分量和第一噪声信号分量的特性为空间特性。

术语“其换算版”意为“乘以实数”(不同于零)。

在实施例中，噪声信号分量通过(如空间)特性的假设定义。换言之，有噪声音频信号的满足所述假设的分量被视为包括在噪声中(如构成噪声)。通常假定输入单元i处的目标信号分量x_i(n)和噪声信号分量(如v_i(n))不相关。

(可能归一化的)谱方差(或其换算版)λ_V,λ_X通过基于统计模型的最大似然方法确定。在实施例中，最大似然方法的用于分别确定第一噪声信号分量v和目标信号分量x的谱方差λ_V,λ_X的统计模型在于相应信号y_i(n)和信号分量x_i(n)及v_i(n)的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)均为零均值、复值高斯分布，它们中的每一个跨时间m和频率k统计上独立，及X_i(k,m)和V_i(k,m)不相关。在实施例中，λ_V和λ_X的最大似然估计排他地基于所提及的假设。

在本说明书中，术语“共同最佳”意于强调谱方差λ_V,λ_X中的二者均在同一最大似然估计过程中进行估计。

该方法总体上基于噪声信号分量的特性的假设。在实施例中，该方法还基于目标信号分量的特性的假设。在实施例中，目标信号分量的特性包括输入单元相较于目标信号方向的特定空间安排。在实施例中，目标信号分量的特性包括其时间变化(如其调制)、其频率含量(如其随频率的功率电平)等。

在实施例中，有噪声音频信号y_i(n)包括混响信号分量v_i(n)。

在实施例中，有噪声音频信号y_i(n)包括具有目标信号分量和混响信号分量的混响信号。在实施例中，混响信号分量为(第一)噪声信号分量v(n)的主要部分。在实施例中，仅考虑(第一)噪声信号分量v_i(n)的混响信号分量。在实施例中，混响信号分量等于(第一)噪声信号分量v_i(n)。

在实施例中，目标信号分量包括或构成目标语音信号分量x_i(n)。在实施例中，有噪声音频信号y_i(n)为包括目标语音信号分量x_i(n)和第一噪声信号分量v_i(n)的有噪声目标语音信号，换言之，y_i(n)＝x_i(n)+v_i(n),i＝1,2,…,M。在实施例中，有噪声音频信号为包括目标语音信号分量x_i(n)和混响信号分量v_i(n)的混响目标语音信号y_i(n)。

在实施例中，第一噪声信号分量的特性的假设为：第一噪声信号分量v_i(n)实质上空间各向同性。术语“噪声信号分量实质上空间各向同性”意为噪声信号分量“从所有可能的方向均匀地”到达特定输入单元，即“球形各向同性”(例如由于大生产设施中的背景噪声、“鸡尾酒会噪声”、来自房间墙壁的(后期)反射等)。换言之，对于特定频率，源自任何方向的噪声信号功率均一样。在实施例中，“空间各向同性”限于“圆柱形各向同性”。

在实施例中，从目标源传播到听者(输入单元)的目标信号，当其到达听者时，分为第一部分和第二部分。通常，包括直接(未反射)声音分量和前几次反射的第一部分有益于语音可懂度，而包括后期反射的第二部分降低语音可懂度(二者均对正常听力和听力受损听者而言)。在实施例中，第一部分视为目标信号分量x_i，而第二部分v_i取为噪声(混响)信号分量。

在实施例中，第一噪声信号分量v_i(n)由后期混响构成。在本说明书中，术语“后期混响”指包括在脉冲响应的第一波峰已到达所涉及输入单元之后的预定时间Δt_pd到达特定输入单元(如第i个)的声音信号分量的“后期反射”(例如参见图1A-1C)。在实施例中，预定时间Δt_pd大于或等于30ms，如大于或等于40ms，如大于或等于50ms。在实施例中，前述“后期混响”包括已遭受从环境中的表面(如墙壁)三次以上反射的声音分量。“后期混响”由比直接声音(直接声音由实质上未遭受反射的声音分量构成)更晚(晚Δt_pd以上)到达接收装置(即输入单元)(因反射导致的声源和接收装置之间更长的声传播通路)的声音分量构成。

在实施例中，有噪声音频信号y(n)包括目标信号分量x(n)、为混响信号分量v(n)的第一噪声信号分量、和为附加噪声信号分量w(n)的第二噪声信号分量，及其中本发明方法包括提供第二噪声信号分量的特性。换言之，在分别确定目标信号分量x和(第一)噪声信号分量v的谱方差λ_X和λ_V时考虑另外的(知道的)噪声源。

在实施例中，第i个输入单元处的有噪声音频信号y_i(n)包括目标信号分量x_i(n)、混响信号分量v_i(n)和附加噪声分量w_i(n)。

在实施例中，第二噪声信号分量的特性为空间特性。在实施例中，第二噪声信号分量w的特性通过附加噪声的预定输入单元间协方差矩阵C_W表示。

在实施例中，本发明方法包括确定目标信号和噪声信号分量的分开的特性(如空间指纹)。术语“空间指纹”意为特定声学场景的输入单元(如传声器)信号的全收集(包括声学物体如声学反射器等的3D位置)。术语“空间指纹”例如包括所涉及信号源的(如三维)几何(空间)特性，包括其传播的特性。在实施例中，“空间指纹”表示噪声信号(如第一噪声信号)各向同性的声学情形。在实施例中，“空间指纹”由(时变)输入单元间协方差矩阵表示。在实施例中，目标信号的空间指纹实质上限于一个方向。目标和噪声信号的空间特性问题的分开是有利的，因为如果声源空间上分开，即使它们时间和频率重叠，它们也可经空间滤波/波束形成分开。从而如果目标和/或噪声信号的各个特性已知(即先验知识可成为系统的一部分)，则可进行简化。

在实施例中，目标信号的特性(如空间指纹)由视向量d(k,m)表示，其元素(i＝1,2,…,M)定义从目标信号源到M个输入单元中的每一个的(随频率和时间而变的)绝对声学传递函数，或者从第i个输入单元到参考输入单元的相对声学传递函数。视向量d(k,m)为M维向量，第i个元素d_i(k,m)定义从目标信号源到第i个输入单元(如传声器)的声学传递函数。作为备选，第i个元素d_i(k,m)定义从第i个输入单元到参考输入单元ref的相对声学传递函数。对于特定频率k和时间单位m，视向量d_i(k,m)通常为复数。在实施例中，视向量预先确定，例如在离线程序中进行测量(或理论上确定)或者在使用之前或期间进行估计。在实施例中，视向量在离线校准程序中进行估计。如果目标源在相较于输入单元的固定位置(或方向)处，例如如果目标源(假定)在相对于用户(如用户前方)的特定位置(或方向)(即相对于输入单元位于其中的装置(由用户佩戴或携带))，这将会很适宜。

在实施例中，源自特定目标源的功率谱密度在参考输入单元(如参考传声器)处进行测量。在实施例中，源自噪声(具有预定协方差结构，如各向同性分布的噪声)的功率谱密度在参考输入单元(如参考传声器)处进行测量。测量例如在离线程序中进行(在音频处理系统进入正常使用之前)及其结果保存在音频处理系统(的存储器)中。测量优选用处于“正常局部环境”中的音频处理系统进行，例如对于音频处理系统如助听系统，包括一个或多个位于人身体如头部处的装置。从而当测量目标和噪声信号分量的功率谱(“空间指纹”)时，可考虑局部环境的影响。

在实施例中，M个输入单元中的至少一个包括传声器。在实施例中，M个输入单元中的大部分如全部包括传声器。在实施例中，M等于2。在实施例中，M大于或等于3。在实施例中，M个输入单元中的第一个位于音频处理装置(如助听器装置)中。在实施例中，其余输入单元中的至少一个位于距第一输入单元大于音频处理装置(第一输入单元位于其中)的最大外尺寸的距离处。在实施例中，M个输入单元中的第一个位于第一音频处理装置中，及M个输入单元中的第二个位于另一装置中，音频处理装置及另一装置配置成在其间建立通信链路。在实施例中，至少一输入单元包括电极，如用于拾取脑电波信号的电极，如用于拾取与关于输入单元位于其中的目前声学场景的音频信号相关联的信号的EEG电极。在实施例中，至少一输入单元包括无线接收器，用于接收与输入单元位于其中的目前声学场景有关的音频信号。在实施例中，至少一输入单元包括摄像机，用于拾取与输入单元位于其中的目前声学场景有关的图像。在实施例中，至少一输入单元包括振动传感器(如包括加速计)，用于拾取来自身体如人骨(例如颅骨)的振动。

在实施例中，来自输入单元(i＝1,2,…,M)的电输入信号被归一化。这具有各个信号的信号含量可容易比较的优点。在实施例中，音频处理装置包括在运行时连接到电输入的归一化滤波器，该归一化滤波器配置成具有传递函数H_N(f)，其使提供所涉及电输入信号的源可与其它源比较和互换。归一化滤波器优选配置成使能直接比较输入信号和输入信号分量Y_i(k,m)(TF单元或窗口)。归一化例如可补偿两个电输入信号之间的恒定电平差(例如因提供输入信号的两个源输入变换器相对于当前声源的位置引起)。此外，归一化例如使能比较来自不同类型的输入单元的电输入信号，如传声器、机械振动传感器、用于拾取脑电波的电极、或用于在讲话时对用户嘴巴进行读唇的摄像机等。在实施例中，归一化滤波器包括自适应滤波器。

在实施例中，归一化M个电输入信号的方法包括：a)选择参考源输入信号(如该信号假定为最可靠的信号)如信号Y₁；b)对于每一其它源输入信号Y_i,i＝2,…,M，计算相对于参考源输入信号的、随频率的量值差(如对于信号的公共时间段和/或对于跨某一时间求平均的相应信号)；及c)通过乘以(可能复数)校正值而换算每一源。

在实施例中，(第一)噪声信号v的特性(如空间指纹)由噪声信号输入单元间协方差矩阵C_V表示。在实施例中，(噪声)输入单元间协方差矩阵预先确定，如在离线程序中进行测量(或理论上确定)或者在使用之前或期间进行估计。在实施例中，(第一)噪声信号v的特性(如空间指纹)由撞击在输入单元上的噪声的输入单元间协方差矩阵C_V的估计量或者其换算版表示。在实施例中，噪声(如后期混响)的输入单元间协方差矩阵C_V确定为产生于各向同性场的协方差。这可写为C_V(k,m)＝λ_V(k,m)·C_iso(k,m)，其中λ_V(k,m)为(第一)噪声信号分量v的谱方差(或其换算版)，及C_iso(k,m)为各向同性(噪声)场的协方差矩阵(或其换算版)。优选地，谱方差λ_v的可能换算版λ_v’(λ_v’＝k₁·λ_v，及k₁为不同于0的实数)和各向同性场的协方差矩阵C_iso的换算版C_iso’(C_iso’＝k₂·C_iso，及k₂为不同于0的实数)满足关系λ_v’·C_iso’＝λ_v·C_iso(即k₁＝1/k₂)。矩阵C_iso(k,m)例如可在离线程序中进行估计。在实施例中，C_iso(k,m)通过将安装在仿真头上的包括输入单元的音频处理装置或系统(如助听器)暴露于混响声场(如近似为各向同性场)并测量所得的输入单元间(如传声器间)协方差矩阵(～C_iso(k,m))进行估计。[Kjems&Jensen；2012]描述了在多传声器语音配置中进行噪声协方差矩阵估计的各个方面。

目标信号分量和噪声信号分量通常假定为不相关。在该情形下，有噪声音频信号y的输入单元间协方差矩阵C_Y为目标信号x的输入单元间协方差矩阵C_X及第一和非必须地第二噪声信号的输入单元间协方差矩阵C_V,C_w的和。

在实施例中，目标信号分量和第一噪声信号分量的特性分别由视向量d(k,m)(或输入间协方差矩阵d·d ^H)和输入单元间协方差矩阵C_V(～C_iso(k,m))定义。

在实施例中，(纯净)目标信号x的输入单元间协方差矩阵C_X由视向量d和目标信号x的谱方差λ_X确定。这可写为C_X(k,m)＝λ_X(k,m)·d(k,m)·d(k,m)^H，其中λ_X(k,m)为目标信号分量x的谱方差，及d(k,m)为所涉及输入单元设置(i＝1,2,…,M)的(可能归一化的)视向量，及H指厄米转置。谱方差λ_X(k,m)为实数(非负数)，视向量d(k,m)为M(＝输入单元数量)维(或规模)的向量，及协方差矩阵C_X为MxM阶(或度)。

优选地，输入单元间协方差矩阵通过基于最大似然的方法进行估计(例如参见[Kjems&Jensen；2012])。

在实施例中，目标信号x的谱方差λ_X(k,m)(或其换算版)的估计包括使用波束形成器提供滤波器权重w(k,m)，如MVDR波束形成器。MVDR为最小方差无失真响应的缩写，无失真指目标方向保留不受影响，最小方差指来自不同于目标方向的任何其它方向的信号被最大程度地抑制。

在实施例中，MVDR波束形成器基于视向量d(k,m)和各向同性场的预定协方差矩阵C_iso(k,m)，MVDR滤波方法提供滤波器权重w_mvdr(k,m)。协方差矩阵C_iso(k,m)在离线程序中确定。视向量d(k,m)可在离线程序中确定，作为备选，也可在执行该方法的音频处理装置或系统使用期间动态确定。在实施例中，该方法包括估计目标(如语音)信号是否存在或者在特定时间点是否为主(如使用话音活动检测器)。在实施例中，目标信号的空间指纹如视向量在估计目标信号存在或为主时进行更新。

在实施例中，该方法包括基于多次(D次)观察进行有噪声音频信号的输入单元间协方差矩阵的估计。

在实施例中，目标信号分量x和噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)的最大似然估计量分别从输入单元间协方差矩阵C_Y(k,m),C_X(k,m),C_V(k,m)及可选的C_w(k,m)的估计量和视向量d(k,m)得到。在实施例中，视向量d(k,m)和噪声协方差矩阵C_V(k,m)及可选的C_W(k,m)在离线程序中确定。

在实施例中，多输入单元波束形成器用于空间上衰减背景噪声源。许多波束形成器变型控制文献中找到，如最小方差无失真响应(MVDR)波束形成器或广义旁瓣相消器(GSC)波束形成器。

在实施例中，该方法还包括对有噪声音频信号y(n)应用波束形成从而提供波束成形信号及对波束成形信号应用单通道后滤波以抑制来自目标信号方向的噪声信号分量及提供所得的噪声减少的信号。在实施例中，该方法包括对第i(i＝1,2,…,M)个输入单元处的有噪声音频信号y_i(n)的时频表示Y_i(k,m)应用目标消除空间滤波以提供目标消除的信号，其中来自目标信号分量方向的信号分量被衰减，而保留来自其它方向的信号分量不衰减。单通道后滤波过程的目标在于抑制来自目标方向的噪声分量(其尚未被空间滤波过程(如MVDR波束形成过程)抑制)。目标还在于在目标信号存在或为主时及在目标信号不存在时抑制噪声分量。在实施例中，单通道后滤波过程基于每一时频砖(m,k)的目标信噪比的估计量。在实施例中，每一时频砖(m,k)的目标信噪比的估计量从波束成形信号和目标消除的信号确定。在实施例中，应用于有噪声音频信号y(n)的波束形成基于MVDR程序。在实施例中，噪声减少的信号被去混响。

在实施例中，在多通道后滤波过程中应用于波束成形信号的增益值g_sc(k,m)基于目标信号分量x和(第一)噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)的估计量。作为备选，增益值g_sc(k,m)可通过│Y(k,m)│²,λ_X(k,m)和λ_V(k,m)或者两个以上这些参数的组合确定。

计算机可读介质

本申请进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。除了保存在有形介质如磁盘、CD-ROM、DVD、硬盘、或任何其它机器可读的介质上，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

数据处理系统

本申请进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

音频处理系统

本申请还提供用于处理包括目标信号分量x和第一噪声信号分量v的有噪声音频信号y的音频处理系统。该音频处理系统包括：

a)M个输入单元，适于提供或接收多个频带和多个时刻时第i个输入单元处的有噪声音频信号y_i(n)的时频表示Y_i(k,m)，i＝1,2,…,M，其中M大于或等于2，k为频带指数，及m为时间指数；

b)目标信号分量的视向量d(k,m)和第一噪声信号分量的输入单元间协方差矩阵C_v(k,m)或其换算版；

c)用于基于有噪声音频信号y_i(n)的时频表示Y_i(k,m)估计有噪声音频信号的输入单元间协方差矩阵或其换算版的协方差估计单元；及

d)谱方差估计单元，用于基于视向量d(k,m)、输入单元间协方差矩阵C_v(k,m)、及有噪声音频信号的协方差矩阵或其换算版估计目标信号分量x和噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)或其换算版，其中λ_V和λ_X的估计量在最大似然方面共同最佳，基于下述统计假设：a)相应信号y_i(n)、及信号分量x_i(n)和v_i(n)的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)均为零均值、复值高斯分布；b)它们中的每一个跨时间m和频率k统计上独立；及c)X_i(k,m)和V_i(k,m)不相关。

当由对应的结构特征适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的部分或所有过程特征可与本发明系统的实施结合，反之亦然。系统的实施具有与对应方法一样的优点。

在实施例中，有噪声音频信号y(n)包括目标信号分量x(n)、为混响信号分量v(n)的第一噪声信号分量、及为附加噪声信号分量w(n)的第二噪声信号分量，及其中音频处理系统包括附加噪声的预定输入单元间协方差矩阵C_W。

优选地，第二噪声信号分量的协方差矩阵C_w(k,m)(或其换算版)预先定义及例如保存在音频处理系统的可由谱方差估计单元访问的存储器中。

在实施例中，谱方差估计单元配置成基于视向量d(k,m)、第一噪声分量的输入单元间协方差矩阵C_v(k,m)、第二噪声分量的输入单元间协方差矩阵C_W(k,m)、有噪声音频信号的协方差矩阵或其换算版估计目标信号分量x和第一噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)或其换算版，其中λ_V和λ_X的估计量在最大似然方面共同最佳，基于下述统计假设：a)相应信号y_i(n)、及信号分量x_i(n)、v_i(n)、w_i(n)的时频表示Y_i(k,m),X_i(k,m),V_i(k,m)和W_i(k,m)均为零均值、复值高斯分布；b)它们中的每一个跨时间m和频率k统计上独立；及c)X_i(k,m),V_i(k,m)和W_i(k,m)相互不相关。

在实施例中，音频处理系统包括MVDR波束形成器滤波单元以提供用于估计目标信号x的谱方差λ_X(k,m)(或其换算版)的滤波器权重w_mvdr(k,m)，其中滤波器权重w_mvdr(k,m)基于目标信号分量的视向量d(k,m)和第一噪声信号分量的输入单元间协方差矩阵C_v(k,m)，及非必须地基于第二噪声信号分量的输入单元间协方差矩阵C_w(k,m)，或其换算版。优选地，目标信号的视向量d(k,m)(或其换算版)预先定义及例如保存在音频处理系统的可由谱方差估计单元访问的存储器中。优选地，第一噪声信号分量的协方差矩阵C_v(k,m)(或其换算版)预先定义及例如保存在音频处理系统的可由谱方差估计单元访问的存储器中。在实施例中，各向同性场的预先定义的协方差矩阵C_iso(k,m)用作输入单元间协方差矩阵C_v(k,m)的估计量及例如保存在存储器中。

在实施例中，音频处理系统配置成确定当前声学环境中是否存在混响和/或附加噪声。在实施例中，音频处理系统(或与音频处理系统通信的辅助装置)包括用于提供当前混响的测度的传感器或者适于从辅助装置接收该信息。

在实施例中，音频处理装置包括用户接口，配置成使用户能输入关于当前声学环境的信息如是否存在混响和/或附加噪声。

在实施例中，音频处理系统(如包括助听装置例如助听器装置)适于提供随频率而变的增益以补偿用户的听力损失。在实施例中，音频处理系统包括用于增强输入信号并提供处理后的输出信号的信号处理单元。数字助听器的各个方面在[Schaub；2008]中描述。

在实施例中，音频处理系统包括用于将电信号转换为由用户感知为声学信号的刺激的输出变换器。在实施例中，输出变换器包括多个耳蜗植入电极或骨导听力装置的振动器。在实施例中，输出变换器包括用于将刺激作为声学信号提供给用户的接收器(扬声器)。

在实施例中，音频处理系统尤其是输入单元包括用于将输入声音转换为电输入信号的输入变换器。在实施例中，音频处理系统包括定向传声器系统，其适于增强佩戴音频处理系统的用户的局部环境中的多个声源之中的目标声源。在实施例中，定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。

在实施例中，音频处理系统如输入单元包括用于从另一装置如通信装置或另一音频处理系统如助听装置无线接收直接电输入信号的天线和收发器电路。在实施例中，音频处理系统(如包括助听装置)包括用于从另一装置如通信装置或另一音频处理系统(如包括助听装置)接收有线直接电输入信号的(可能标准化的)电接口(例如连接器的形式)。在实施例中，直接电输入信号表示或包括音频信号和/或控制信号和/或信息信号。在实施例中，音频处理系统包括用于对所接收的直接电输入进行解调的解调电路，以提供表示音频信号和/或控制信号的直接电输入信号。总的来说，音频处理系统的发射器和天线及收发器电路建立的无线链路可以是任何类型。在实施例中，无线链路在功率约束条件下使用，例如由于音频处理系统包括便携式(通常电池驱动的)装置。在实施例中，无线链路为基于近场通信的链路，例如基于发射器和接收器部分的天线线圈之间的感应耦合的感应链路。在另一实施例中，无线链路基于远场电磁辐射(例如基于蓝牙或者有关标准或非标准通信方案)。

在实施例中，音频处理系统是或包括便携装置，例如包括本机能源如电池例如可再充电电池的装置。

在实施例中，音频处理系统包括输入变换器(传声器系统和/或直接电输入(如无线接收器))和输出变换器之间的正向或信号通路。在实施例中，信号处理单元位于正向通路中。在实施例中，信号处理单元适于根据用户的特定需要提供随频率而变的增益。在实施例中，音频处理系统包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量、混响等)的功能件的分析通路。在实施例中，分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中，分析通路和/或信号通路的部分或所有信号处理在时域进行。

在实施例中，表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或速率f_s进行采样，f_s例如在从8kHz到40kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的比特数N_s表示声信号在t_n时的值，N_s例如在从1到16比特的范围中。数字样本x具有1/f_s的时间长度，对于f_s＝20kHz，如50μs。在实施例中，多个音频样本按时间帧进行安排。在实施例中，一时间帧包括64个音频数据样本。根据实际应用可使用其它帧长度。

在实施例中，音频处理系统包括模数(AD)转换器以按预定采样速率如20kHz使模拟输入数字化。在实施例中，音频处理系统包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

在实施例中，音频处理系统如传声器单元和/或收发器单元包括用于提供输入信号的时频表示的TF转换单元。在实施例中，时频表示包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。在实施例中，TF转换单元包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。在实施例中，TF转换单元包括用于将时变输入信号转换为频域中的(时变)信号的傅里叶变换单元。在实施例中，音频处理系统考虑的、从最小频率f_min到最大频率f_max的频率范围包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。在实施例中，音频处理系统的正向和/或分析通路的信号拆分为NI个频带，其中NI如大于5，如大于10，如大于50，如大于100，如大于500，其中至少部分个别进行处理。在实施例中，音频处理系统适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

在实施例中，音频处理系统包括用于确定输入信号(如频带电平上的和/或全(宽带)信号的)的电平的电平检测器(LD)。

在特定实施例中，音频处理系统包括话音活动检测器(VAD)，用于确定输入信号是否包括话音信号(在特定时间点)。在本说明书中，话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中，话音检测器单元适于将用户当前的声环境分类为话音或无话音环境。这具有下述优点：包括用户环境中的人类发声(如语音)的电传声器信号的时间段可被识别，因而与仅包括其它声源(如人工产生的噪声)的时间段分离。在实施例中，话音检测器适于将用户自己的话音也检测为话音。作为备选，话音检测器适于在检测话音时排除用户自己的话音。

在实施例中，音频处理系统还包括用于所涉及应用的其它适宜功能，如反馈抑制、压缩等。

在实施例中，音频处理系统包括音频处理装置(如由其组成)，如助听装置、如助听器，如听力仪器，如适于位于用户耳朵处或者完全或部分位于用户耳道中的听力仪器，例如耳机、耳麦、耳朵保护装置或其组合。

在本说明书中，“助听装置”指适于改善、增强和/或保护用户的听觉能力的装置如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵而实现。“助听装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

助听装置可构造成以任何已知的方式进行佩戴，如安排在耳后的单元，具有将辐射的声信号导入耳道的管或具有安排成靠近耳道或位于耳道中的扬声器；整个或部分安排在耳廓和/或耳道中的单元；连到植入颅骨的固定装置的单元、整个或部分植入的单元等。助听装置可包括单一单元或几个彼此电子通信的单元。

更一般地，助听装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户的输出装置。在一些助听装置中，放大器可构成信号处理电路。在一些助听装置中，输出装置可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听装置中，输出装置可包括一个或多个用于提供电信号的输出电极。

在实施例中，音频处理系统包括音频处理装置(如助听装置)和辅助装置。在实施例中，音频处理系统包括音频处理装置和两个以上辅助装置。

在实施例中，音频处理系统适于在音频处理装置和辅助装置之间建立通信链路以使信息(如控制和状态信号，可能音频信号)可在彼此之间交换或从一装置转发给另一装置。

在实施例中，至少一输入单元位于辅助装置中。

在实施例中，至少一有噪声音频信号输入y_i从辅助装置传到音频处理装置的输入单元。

在实施例中，辅助装置是或包括音频网关设备，其适于(如从娱乐装置例如TV或音乐播放器，从电话装置例如移动电话，或从计算机例如PC)接收多个音频信号，及适于选择和/或组合所接收音频信号(或信号组合)中的适当信号以传给音频处理装置。在实施例中，辅助装置是或包括遥控器，用于控制音频处理装置(如助听装置)的功能和运行。在实施例中，遥控器的功能实施在智能电话中，该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(助听装置包括到智能电话的适当无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

在实施例中，辅助装置为另一音频处理装置如助听装置。在实施例中，音频处理系统包括两个助听装置，适于实施双耳听音系统如双耳助听器系统。

用途

此外，本发明提供上面描述的、“具体实施方式”中详细描述的及权利要求中限定的音频处理系统的用途。在实施例中，提供在包括音频分布的系统中的用途。在实施例中，提供在包括一个或多个听力仪器、头戴式耳机、耳麦、有源耳朵保护系统等的系统中的用途，例如在免提电话系统、远程会议系统、广播系统、卡拉OK系统、教室放大系统等中的用途。在实施例中，提供音频处理系统用于输入声音信号或电输入信号的去混响的用途(如净化有噪声的、记录或流传输的信号)。

本申请的另外的目标由从属权利要求和本发明的详细描述中限定的实施方式实现。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

附图说明

本发明将在下面参考附图、结合优选实施方式进行更完全地说明。

图1A示意性地示出了包括位于具有混响的房间中的声源和声音接收器之间的多个声学通路的第一情形；图1B为房间中的声音信号的振幅-时间的示例性图示；及图1C示出了包括位于具有混响和附加噪声的房间中的声源和声音接收器之间的多个声学通路的第二情形。

图2A-2B示意性地示出了时域到时频域的信号转换，其中图2A示出了随时间而变的声音信号(振幅-时间)及其在模数转换器中的采样，图2B示出了在采样信号(短时)傅里叶变换之后所得的时频单元的“分布图”。

图3A-3C示出了根据本发明的音频处理系统的三个示例性实施例的框图，其中示出了所提出的估计语音和噪声谱方差的方案。图3A、3B示出了适于处理混响目标语音信号形式的有噪声音频信号的系统，及图3C示出了适于处理含附加噪声的混响目标语音信号形式的有噪声音频信号的系统。

图4A-4B示出了根据本发明的方法(阴影框)用于计算去混响的单通道后处理步骤的增益值的情形，图4A示出了适于处理混响目标语音信号形式的有噪声音频信号的系统，及图4B示出了适于处理含附加噪声的混响目标语音信号形式的有噪声音频信号的系统。

图5示出了根据本发明的音频处理系统的实施例。

图6示出了根据本发明的音频处理装置的另一实施例。

图7示出了根据本发明的处理有噪声输入信号的方法的流程图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在所有附图中，同样的附图标记用于同样或对应的部分。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域的技术人员来说，从下面的详细描述可显而易见地得出其它实施方式。

具体实施方式

图1A示意性地示出了位于房间中的声源和声音接收器之间的多个声学通路，及图1B为房间中的声音信号的振幅│MAG│与时间之间的关系的示例性图示。

图1A示意性地示出了在示例性场所(房间)中从音频源S到听者L的、经直接传播通路p₀和反射传播通路p₁,p₂,p₃,p₄的声学传播信号。由听者如经听者L佩戴的听音装置接收的所得声学传播信号为五个(可能更多，取决于房间)不同程度延迟和衰减(及可能失真)的贡献额的和。直接传播通路p₀和早期反射传播通路(在此为一次反射p₁)在图1A中用虚线指明，而“后期反射”(在此为二、三和四次反射p₂,p₃,p₄)在图1A中用点线指明。图1B示意性地示出了在听者L处接收的、来自声源S的所得时变声音信号的例子(量值│MAG│[dB]-时间)。在图1B中，指明了定义“后期混响”的预定时间Δt_pd。在本例子中，后期混响为在其由声源S发出之后的时间t_pd到达听者的那些信号分量。换言之，“后期混响”为在脉冲响应的第一波峰p0已到达所涉及输入单元之后的预定时间Δt_pd到达特定输入单元(如第i个)的声音信号分量。在实施例中，预定时间Δt_pd大于或等于30ms，如大于或等于40ms，如大于或等于50ms。在实施例中，前述“后期混响”包括已遭受从环境中的表面(如墙壁)两次以上如三次以上反射的声音分量(图1A-1C中例示为p2,p3,p4,…)。将目标信号分量(图1B中的虚线部分)与(不合需要的)混响(噪声)信号分量(图1B中的点线部分)分开的适当的反射次数和/或适当的预定时间Δt_pd取决于位置(到反射表面的距离和反射表面的性质)及音频源S和听者L之间的距离，音频源和听者之间的距离越小，混响效应越小。

图1C示出了包括位于具有混响和附加噪声AD的房间中的、构成目标信号的声源S和声音接收器L之间的多个声学通路的第二情形。附加声源AD的特性(如输入单元间协方差矩阵C_w)假定已知。

图2A示出了随时间而变的声音信号x(t)(振幅SPL[dB]-时间t)、其在模数转换器中的采样、及帧中时间样本的分组，每一组包括N_s个样本。表明振幅与时间之间的关系的曲线(图2A中的实线)例如可表示由输入变换器如传声器提供的、在由模数转换单元数字化之前的时变模拟电信号。图2B示出了源自图2A的输入信号的傅里叶变换(如离散傅里叶变换DFT)的时频单元的“分布图”，其中特定时频单元(m,k)对应于一个DFT窗口并包括所涉及信号│X│＝量值及)在特定时间帧m和频带k的复值。在下面，特定频带假定包含每一时间帧中的信号的一个值(通常为复值)。作为备选，其可包括一个以上的值。在本说明书中，使用术语“频率范围”及“频带”。频率范围可包括一个或多个频带。图2B的时频分布图示出了对于频带k＝1,2,…,K和时间单位m＝1,2,…,N_M的时频单元(m,k)。每一频带Δf_k在图2B中示为宽度全都相同，但并不必须如此。频带可以为不同的宽度(或作为备选，频道可定义为包含不同数量的均匀频带，例如特定频道的频带数量随频率增加而增加，最低频道例如包括单一频带)。各个时频窗口的时间间隔Δt_m(时间单位)在图2B中示为具有相等大小。尽管在本实施例中假定如此，但并不必须如此。时间单位Δt_m通常等于时间帧中的样本数量N_s(参见图2A)乘以样本的时间长度t_s(t_s＝(1/f_s)，其中f_s为采样频率)。在音频处理系统中，时间单位例如在ms级。

图3A示意性地示出了根据本发明的音频处理装置APD的实施例。该音频处理装置APD包括M个输入单元IU_i,i＝1,2,…,M，每一输入单元适于提供第i(i＝1,2,…,M)个输入单元处的(时变)有噪声输入信号y_i的时频表示Y_i，其中M大于或等于2。有噪声输入信号y_i例如为包括目标语音信号分量x_i和(第一)噪声信号分量v_i的有噪声目标语音信号，噪声信号分量为附加分量且与目标信号(语音信号)实质上不相关，换言之，y_i(n)＝x_i(n)+v_i(n),i＝1,2,…,M，其中n表示时间。在本说明书中，有噪声音频信号假定为包括目标语音信号分量x_i和混响信号分量v_i的混响目标语音信号y_i，如上面结合图1A-1C所述。时频表示Y_i(k,m)包括输入信号在特定频带k(k＝1,2,….K)和时刻m(m＝1,2,….,Nm)的值(通常为复值)。在图3A的实施例中，每一输入单元IU_i包括输入变换器或输入终端IT_i，用于接收有噪声音频信号y_i(如声学信号或电信号)并将其作为电输入信号IN_i提供给分析滤波器组AFB从而提供对应电输入信号IN_i因而有噪声输入信号y_i的时频表示Y_i(k,m)。音频处理装置APD还包括多通道MVDR波束形成器滤波单元(MVDR)以提供包括滤波器权重w_mvdr(k,m)的信号mvdr。滤波器权重w_mvdr(k,m)由MVDR滤波单元从预定视向量d(k,m)(d)(或其换算版)和有噪声输入信号的(第一)噪声信号分量的预定输入单元间协方差矩阵(或其换算版)确定。在实施例中，视向量d和协方差矩阵在离线程序中确定。音频处理装置APD还包括协方差估计单元CovEU，用于基于有噪声音频信号y_i的时频表示Y_i(k,m)估计有噪声输入信号的输入单元间协方差矩阵(或其换算版)。音频处理装置APD还包括谱方差估计单元SVarEU，用于分别估计目标信号分量x和(第一)噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)或其换算版。估计的谱方差λ_X(k,m)和λ_V(k,m)基于MVDR滤波器提供的滤波器权重w_mvdr(k,m)(信号mvdr)、预定目标视向量d和噪声协方差矩阵(或其换算版)、及协方差估计单元CovEU提供的有噪声音频信号的协方差矩阵谱方差估计单元SVarEU配置成使得估计量λ_V和λ_X基于下述统计假设在最大似然方面共同最佳：相应信号y_i(n)、和信号分量x_i(n)及v_i(n)的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)均为零均值、复值高斯分布，它们中的每一个跨时间m和频率k统计上独立，及X_i(k,m)和V_i(k,m)不相关。

在实施例中，M个输入单元IU_i中的至少一个包括输入变换器，如用于将电输入声音转换为电输入信号的传声器(例如参见图3B)。M个输入单元IU_i可全部位于同一物理装置中。作为备选，M个输入单元IU_i中的第一输入单元IU₁位于音频处理装置APD(如助听器装置)中，M个输入单元IU_i中的第二输入单元IU₂位于距第一输入单元大于第一输入单元IU₁位于其中的音频处理装置APD的最大外尺寸的距离处。在实施例中，M个输入单元中的第一输入单元位于第一音频处理装置(如第一助听器装置)中，及M个输入单元中的第二输入单元位于另一装置中，该音频处理装置和另一装置配置成在其间建立通信链路。在实施例中，另一装置为另一音频处理装置(如双耳助听系统的第二助听器装置)。在实施例中，另一装置为或包括音频处理装置的遥控装置，如体现在移动电话如智能电话中。

A、(仅)存在混响的语音信号的语音和后期混响谱方差的双传声器最大似然估计 (图3B、4A)

根据本发明的音频处理装置的另一实施例如图3B中所示，其示出了更具体的实施(但包括与结合图3A所示和所述一样的元件)。图3B示出了用于估计有噪声输入信号的目标语音和混响信号分量的谱方差λ_x,λ_v的音频处理装置APD，其中输入单元的数量M为2，及其中两个输入单元Mic₁,Mic₂中的每一个包括传声器单元Mic_i和分析滤波器组AFB。如图3A中所示，可直接将该描述推及具有2个以上传声器的系统(M>2)。同样，两个传声器可位于同一装置中(如听音装置例如助听装置中)，但作为备选，也可位于不同(物理上分开的)装置中，如两个分开的音频处理装置，例如双耳助听系统的两个分开的助听装置，适于彼此无线通信以使两个传声器信号能在所涉及音频处理装置APD中可用。在优选实施例中，音频处理装置包括至少两个相对靠近地间隔开(在音频处理装置的壳体内)的输入单元及包括一个位于别处如位于另一音频处理装置例如智能电话中的输入单元。

下面将更详细地描述双传声器系统。假定声学场景中存在一个目标扬声器，及到达助听器传声器的信号由上面描述的两个分量a)和b)组成。目标在于估计这两个信号分量在特定频率和时刻的功率。到达第i个传声器的信号可写为：

y_i(n)＝x_i(n)+v_i(n),

其中x_i(n)为传声器处的目标信号分量，及v_i(n)为不合需要的混响分量，假定该混响分量与目标信号x_i(n)不相关及y_i(n)为可观察的混响信号。每一传声器处的混响信号通过分析滤波器组AFB从而得到时频域的信号：

Y_i(k,m)＝X_i(k,m)+V_i(k,m),

其中k为频率指数和m为时间(帧)指数(及i＝1,2)。为方便起见，这些谱系数可被认为是离散傅里叶变换(DFT)系数。

由于对于每一频率指数所有运算均一样，为记法方便，在下面略过频率指数。例如，代替Y_i(k,m)，我们简单地写Y_i(m)。

对于特定频率指数k和时间指数m，每一传声器的有噪声谱系数按向量(由于M＝2，规模为2；通常为规模M)进行收集，T指向量(矩阵)转置：

Y(m)＝[Y₁(m)Y₂(m)]^T,

X(m)＝[X₁(m)X₂(m)]^T,

及

V(m)＝[V₁(m)V₂(m)]^T,

从而

Y(m)＝X(m)+V(m).

对于特定帧指数m和频率指数k(在记法中被消除)，使得d’(m)＝[d’₁(m)d’₂(m)]指其元素d₁’和d₂’表示从目标声源分别到每一传声器Mic₁,Mic₂的(通常复值)声学传递函数的向量(规模为2)。用d’(m)的归一化版运算通常更方便。更具体地，使

d(m)＝d'(m)/d'_i(m)

指其元素d_i(m)(i＝1,2,….,M，在此M＝2)表示从目标源到第i个传声器的相对传递函数的向量。这意味着，该向量中的第i个元素等于1，其余元素描述从另一传声器到该参考传声器的声学传递函数。

这意味着，无噪声传声器向量X(m)(其不能直接观察)可表达为

其中为参考传声器处的目标信号的谱系数。

纯净信号的传声器间协方差矩阵则由下式给出：

C_X(m)＝λ_X(m)d(m)d(m)^H,

其中H指厄米转置。

在实施例中，后期混响的传声器间协方差矩阵建模为产生于各向同性场的协方差：

C_V(m)＝λ_V(m)C_iso,

其中C_iso为后期混响的协方差矩阵，及λ_V(m)为参考传声器处的混响功率，其显然为时变以考虑混响的时变功率电平。

传声器间协方差矩阵由下式给出：

C_Y(m)＝C_X(m)+C_V(m),

因为目标和后期混响信号被假定为不相关。代入来自上面的表达式，得到C_Y(m)的下述表达式：

C_Y(m)＝λ_X(m)d(m)d(m)^H+λ_V(m)C_iso.

在实践中，向量d(m)可在离线校准程序中进行估计(如果假定目标相较于助听器传声器阵列将处于固定位置，即如果用户“用鼻子选择”)，或者其可在线进行估计。

矩阵C_iso优选通过将安装在仿真头上的助听器暴露于混响声场(如近似为各向同性场)并测量所得的传声器间协方差矩阵而离线进行估计。

给出上面的表达式，我们希望找到谱方差λ_X(m)和λ_V(m)的估计量。具体地，可能得到这些数量的最大似然估计量的下述表达式。使

指有噪声传声器间协方差矩阵C_Y(m)的估计量，基于多次(D次)观察。在用于估计传声器间协方差的单元中确定(图3B中的CovEU)。之后，可得到谱方差λ_X(m)和λ_V(m)的下述最大似然(ml)估计量：

其中

I为单位矩阵(向量)，及M＝2为传声器数量。

此外，

其中

为最小方差无失真响应(MVDR)的滤波器权重的向量，例如参见[Haykin；2001]。滤波器权重w_mvdr(m)(图3B中的w_mvdr(m,k))在用于计算滤波器权重的MVDR滤波单元(图3B中的MVDR)中确定。谱方差λ_X(m)和λ_V(m)在用于计算谱方差的单元(图3B中的SVarEU)中进行估计。

上面的两个加框等式构成我们提出的用于将处于混响的目标扬声器的谱方差估计为时间(指数m)和频率(消除的指数k)的函数的方法的实施例。

谱方差λ_X(m)和λ_V(m)具有下面A1和A2部分中例示的几个用途。

A1、直混比估计

比λ_X(m)/λ_V(m)可看作直混比(DRR)的估计量。DRR与到声源的距离相关[Hioka etal.；2011]，及还与语音可懂度有联系。使DRR估计量在助听装置中可用使装置能改变到适宜的处理策略，或者能通知助听装置的用户该装置发现处理条件难满足等。

A2、去混响

在时频域，常见的去混响策略是抑制目标-混响比小的时频砖及保持目标-混响比大的时频砖(或较少抑制这些TF砖)。这样的处理的感知结果为混响已被减少的目标信号。任何这样的系统中的关键是从可用混响信号确定哪些时频砖混响为主及哪些不是这样。图4A示出了使用所提出的估计方法用于去混响的可能方式。

如前所述，混响传声器信号y_i使用分析滤波器组AFB分解为时频表示。所提出的处理有噪声音频信号的方法实施在单元ML_est中(图4A中的阴影框对应于图3A中的ML_est单元)，如结合图3A-3C所述，并应用于滤波器组输出Y₁(m,k),Y₂(m,k)以将谱方差λ_X,ml(m)和λ_V,ml(m)估计为时间m和频率k的函数。假定有噪声传声器信号Y₁(m,k),Y₂(m,k)通过具有向量w(m,k)中收集的权重的线性波束形成器(图4A中的波束形成器w(m,k))。应注意，该波束形成器可以是也可以不是MVDR波束形成器。如果MVDR波束形成器符合需要，则可再次使用所提出方法(图4A的阴影框ML_est内)的MVDR波束形成器权重(例如使用图3A中的单元MVDR)。波束形成器的输出则由下式给出：

其中

及

其中，如前所述，为记法方便，频率指数k已被消除。

我们感兴趣的是进入单通道后处理滤波器的目标分量和后期混响分量的功率的估计量。这些可使用估计的谱方差分别得出：

及

这样，进入单通道后处理滤波器的目标分量和后期混响分量的功率可从谱方差λ_X,ml(m)和λ_V,ml(m)的最大似然估计量及另外可用的数量得到。

之后，单通道后处理滤波器使用估计量λ_X,ml(m)和λ_V,ml(m)得到适当的增益g_SC(m)以应用于波束形成器输出Y(m)。也就是说，g_SC(m)通常可表达为λ_X,ml(m)和λ_V,ml(m)及潜在的其它参数的函数。例如，对于维纳增益函数，我们使(如[Loizou；2013])：

而对于Ephraim-Malah增益函数[Ephraim-Malah；1984]，我们使

许多其它可能的增益函数存在，但它们通常同时为λ_X,ml(m)和λ_V,ml(m)及潜在的其它参数的函数。

最后，增益函数g_SC(m)应用于波束形成器输出Y(m)以导致去混响的时频砖X(m)，即

在图4A的系统的实施例中，波束形成器w(m,k)单元(如MVDR波束形成器)和单通道后处理单元实施为多通道维纳滤波器(MVF)。

B、存在混响和附加噪声的语音信号的语音和后期混响谱方差的双传声器最大似然估计(图3C、4B)

下面的概述说明了根据本发明的、图3C和图4B中所示的音频处理装置的又一实施例。该描述接着上面图3B和图4A的描述，但表示除混响语音之外还假定存在附加噪声的情形。再次地，图3C示出了用于估计有噪声输入信号(在此包括语音、混响和附加噪声)的目标语音和混响信号分量的谱方差λ_x,λ_v的音频处理装置APD，其中输入单元的数量M为2，及其中两个输入单元Mic₁,Mic₂中的每一个包括传声器单元Mic_i和分析滤波器组AFB。可直接将该描述推及具有两个以上传声器(M>2)的系统。

假定声学场景中存在一个目标扬声器，及到达助听器传声器的信号由上面描述的三个分量a)、b)和c)组成。目标在于估计信号分量a)和b)在特定频率和时刻的功率。到达第i个传声器的可观察的混响信号y_i(n)可写为：

y_i(n)＝x_i(n)+v_i(n)+w_i(n)

其中x_i(n)为传声器处的目标信号分量，v_i(n)为不合需要的混响分量，及w_i(n)为附加噪声分量，假定所有分量均彼此相互不相关。每一传声器处的混响信号通过分析滤波器组从而得到时频域的信号：

Y_i(k,m)＝X_i(k,m)+V_i(k,m)+W_i(k,m)

其中k为频率指数和m为时间(帧)指数。为方便起见，这些谱系数可被认为是离散傅里叶变换(DFT)系数。

对于特定频率指数k和时间指数m，每一传声器的有噪声谱系数在向量中进行收集，

Y(m)＝[Y₁(m)Y₂(m)]^T,

X(m)＝[X₁(m)X₂(m)]^T,

V(m)＝[V₁(m)V₂(m)]^T,

及

W(m)＝[W₁(m)W₂(m)]^T

从而

Y(m)＝X(m)+V(m)+W(m)

对于特定帧指数m和频率指数k(在记法中被消除)，使

d'(m)＝[d'₁(m)d'₂(m)]

指从目标声源分别到每一传声器的(通常复值)声学传递函数。用d’(m)的归一化版运算通常更方便。更具体地，使

d(m)＝d'(m)/d'_i(m).

指其元素d_i(m)表示从目标源到第i个传声器的相对传递函数。这意味着，该向量中的第i个元素等于1，其余元素描述从另一传声器到该参考传声器的声学传递函数。

这意味着，无噪声传声器向量X(m)(其不能直接观察)可表达为

其中为参考传声器处的目标信号的谱系数。

纯净信号的传声器间协方差矩阵则由下式给出：

C_X(m)＝λ_X(m)d(m)d(m)^H,

其中H指厄米转置。

将后期混响的传声器间协方差矩阵建模为产生于各向同性场的协方差：

C_V(m)＝λ_V(m)C_iso,

其中C_iso为后期混响的协方差矩阵，归一化为在对应于参考传声器的对角元素处具有为1的值，及λ_V(m)为参考传声器处的混响功率，其显然为时变以考虑混响的时变功率电平。

最后，假定附加噪声的协方差矩阵已知且时不变。在实践中，该矩阵可使用话音活动检测器从语音活动前面的只有噪声的信号区域估计。

有噪声及混响信号的传声器间协方差矩阵由下式给出：

C_Y(m)＝C_X(m)+C_V(m)+C_W,

因为目标、后期混响和噪声被假定为相互不相关。如上面提及的，假定C_W已知和恒定(因此没有时间指数)。代入来自上面的表达式，得到C_Y(m)的下述表达式：

C_Y(m)＝λ_X(m)d(m)d(m)^H+λ_V(m)C_iso+C_W.

矩阵C_iso通过将安装在仿真头上的助听器暴露于混响声场(如近似为各向同性场)并测量所得的传声器间协方差矩阵而离线进行估计。

指有噪声传声器间协方差矩阵C_Y(m)的估计量，基于多次(D次)观察。

B1、特殊情形：无附加噪声(C_W＝0)

首先考虑没有附加噪声存在的情形(C_W＝0)，因为在该情形下，所得的ML估计量特别简单。在实践中，噪声永远不会完全不存在，但下面的结果保持高信噪比，即当C_W相较于C_V(m)小时或者在非常混响的情形下即当C_W相较于C_X(m)小时。

在该情形下，可得到谱方差λ_X(m)和λ_V(m)的下述最大似然估计量：

其中

及M＝2为传声器数量。此外

其中

为最小方差无失真响应(MVDR)的滤波器权重的向量，例如参见[Haykin；2001]。

上面的两个加框等式构成所提出的方法在低附加噪声的特殊情形下的实施例，用于将处于混响的目标扬声器的谱方差估计为时间(指数m)和频率(消除的指数k)的函数，与上面的部分A中提供的结果一样。

B2：一般情形：附加噪声(C_W≠0)

为表达该一般情形下的谱方差λ_X(m)和λ_V(m)的最大似然估计量，需要引入一些另外的记法。

首先，引入由下式给出的MxM-1复值阻塞矩阵B∈C^MxM-1：

[Bd]＝I-d(m)(d(m)^Hd(m))^-1d(m)^H,

即矩阵B由右边矩阵的前M-1列给出。

同样，定义预白化矩阵D∈C^M-1xM-1，其具有性质：

(B^HC_WB)^-1＝D^HD.

矩阵D例如可从上面左边矩阵的楚列斯基分解得到。

在许多情形下，矩阵B和D可从任何时刻m的已知数量进行计算。

为简洁地描述最大似然估计量，需要引入来自先前阻塞和白化域中的部分的信号量。这些量在该新域中用‘指示。我们定义

Y'(m)＝D^HB^HY(m),

及类似地，对于X'(m)、V'(m)和W'(m)。在该阻塞和预白化域中的协方差矩阵由下式给出：

C_Y'(m)＝D^HB^HC_Y(m)BD,

及类似地，对于C_X'(m)、C_iso'(m)、C_W'(m)和应注意，所有这些(方形)协方差矩阵具有M'＝M-1维，其中M为传声器数量。

最后，引入一些另外的记法。使

C_Y'(m)＝UΛ_Y'U^H

指(阻塞和预白化)协方差矩阵C_Y'(m)的特征值分解，其中矩阵U的列为特征向量和对角矩阵的对角元素

Λ_Y'＝diag(λ_y1…λ_yM')

类似地，使

C_iso'＝UΛ_iso'U^H

指(阻塞和预白化)矩阵C_iso'的特征值分解，使得

Λ_iso'＝diag(λ_iso,1,...,λ_iso,M')

为对角特征值矩阵。

此外，使g_m指矩阵的第m个对角元素

之后，可以看出，λ_V的最大似然估计量λ_V,ML可以为多项式(变量λ_V)的根之一：

具体地，λ_V(m)被发现为多项式的正、实根。在大多数情形下，仅有一个这样的根。

目标语音谱方差λ_X(m)的对应最大似然估计量λ_X,ML(m)则可从非阻塞和非预白化域中的量得出：

其中

C_V+W(m)＝λ_V,ML(m)C_iso+C_W.

谱方差λ_X(m)和λ_V(m)具有下面B3和B4部分中例示的几个用途。

B3、直混比估计

B4、去混响—没有(或具有低)附加噪声的特殊情形(C_W＝0)

在该特殊情形下，目标信号被混响干扰，但没有附加噪声。

在时频域，常见的去混响策略是抑制目标-混响比小的时频砖及保持目标-混响比大的时频砖。这样的处理的感知结果为混响已被减少的目标信号。任何这样的系统中的关键是从可用混响信号确定哪些时频砖混响为主及哪些不是这样。图4B示出了使用所提出的估计方法用于去混响的可能方式。

如前所述，混响传声器信号使用分析滤波器组分解为时频表示。所提出的方法(阴影框)应用于滤波器组输出以将谱方差λ_X,ml(m)和λ_V,ml(m)估计为时间和频率的函数。假定有噪声传声器信号通过具有向量w(m,k)中收集的权重的线性波束形成器。该波束形成器可以是也可以不是MVDR波束形成器。如果MVDR波束形成器符合需要，则可再次使用所提出方法(图4B的阴影ML_est框内)的MVDR波束形成器。波束形成器的输出则由下式给出：

其中

及

其中，如前所述，为记法方便，略过频率指数k。

及

这样，进入单通道后处理滤波器的目标分量和后期混响分量的功率可从谱方差λ_X(m)和λ_V(m)的最大似然估计量及另外可用的量得到。

之后，单通道后处理滤波器使用估计量和得到适当的增益g_SC(m)以应用于波束形成器输出也就是说，g_SC(m)通常可表达为和及潜在的其它参数的函数。例如，对于维纳增益函数，我们使(如[Loizou；2013])：

而对于Ephraim-Malah增益函数[Ephraim-Malah；1984]，我们使

许多其它可能的增益函数存在，但它们通常同时为和及潜在的其它参数的函数。

最后，增益函数g_SC(m)应用于波束形成器输出以导致去混响的时频砖即

与上面部分A中公开的一样。

B5、去混响—具有附加噪声的一般情形(C_W≠0)

在该一般情形下，目标信号被混响和附加噪声干扰。与前面部分类似，我们感兴趣的是进入单通道后滤波器的所有信号分量的谱方差。如上所述，目标和混响分量的谱方差可从最大似然估计量得出：

及

此外，进入单通道波束形成器的附加噪声分量的谱方差由下式给出：

λ_W(m)＝E|w(m)^HW(m)|²＝w(m)^HC_Ww(m)

总的来说，单通道后滤波器增益为λ_W(m)及潜在的其它参数的函数。例如，可将全谱干扰定义为混响和噪声方差的和，

则信号-全干扰比将由下式给出：

为此，新版本的维纳增益函数或Ephraim-Malah增益函数可与上面所描述类似地定义。然而，不是仅抑制混响分量，这些新增益函数共同抑制混响和附加噪声分量。

图5示出了根据本发明的音频处理系统APD的实施例。该音频处理系统APD包括与图3A中所示一样的元件：输入单元IU_i,i＝1,2,M，用于将有噪声音频信号y(包括目标信号分量x和第一噪声信号分量v，非必须地，及第二附加噪声信号分量w)的时频表示Y提供给最大似然估计单元ML_est从而分别估计目标信号分量x和第一噪声信号分量v的谱方差λ_X,ml(m)和λ_V,ml(m)(或其换算版)。在图5的实施例中，输入单元UI_i还包括归一化滤波器单元H_i。归一化滤波器单元具有传递函数H_i(k)，其使声源提供可与其它声源比较和互换的所涉及电输入信号。这具有各个有噪声输入信号y_i的信号含量可进行比较的优点。第i个输入单元IU_i(i＝1,2,…,M)包括用于将输入声音信号y_i转换为电输入信号I_i的输入变换器IT_i或用于提供电输入信号I_i的另一输入装置。归一化滤波器H_i(如自适应滤波器)将电输入信号I_i滤波为归一化信号IN_i(如在预定电压范围内)及将归一化时域信号IN_i馈给分析滤波器组AFB，其将有噪声输入信号y_i的时频表示Y_i(m,k)提供给最大似然估计单元ML_est。这使能补偿不匹配的传声器、使用不同种类的传感器(传声器、振动传感器、光学传感器、例如用于感测脑电波的电极等)、补偿传感器的不同定位等。最大似然估计单元ML_est还接收预定目标视向量d和噪声协方差矩阵(或其换算版)从而使能估计谱方差λ_X,ml(m)和λ_V,ml(m)。ML_est单元中的处理在图5中指示为在各个频带k,k＝1,2,…,K中进行，通过前面ML_est框“后面的”记为1-K的实线“阴影框”指示。在有噪声输入信号y_i中存在第二附加噪声分量w_i的实施例中，附加噪声的另一预定噪声协方差矩阵假定提供给最大似然估计单元ML_est。

图6示出了根据本发明的音频处理装置的实施例，其包括与图5的实施例一样的元件，区别在于用于估计谱方差λ_X,ml(m)和λ_V,ml(m)的最大似然估计单元ML_est形成更一般的信号处理单元SPU的一部分，SPU例如还包括结合图4A-4B所述的波束形成器和单通道后滤波和/或利用谱方差λ_X,ml(m)和λ_V,ml(m)(或其换算版)的其它信号处理。信号处理单元SPU包括存储器，目标和噪声信号分量的特性保存于其中，例如预定目标视向量d和第一噪声协方差矩阵(如C_iso)及非必须地第二协方差矩阵C_w(或其换算版)。信号处理单元SPU提供增强的如去混响的信号X(m,k)。信号处理单元SPU例如可配置成对所得的增强信号X应用随频率而变的增益以补偿用户的听力受损。图6的实施例还包括合成滤波器组SFB，用于将增强的时频域信号X(m,k)转换为时域(输出)信号OUT，其可被进一步处理或者如在此一样馈给输出单元OU。输出单元可以是输出变换器，用于将电信号转换为由用户感知为声学信号的刺激。在实施例中，输出变换器包括用于将刺激作为声学信号提供给用户的接收器(扬声器)。作为备选或另外，输出单元OU可包括耳蜗植入听力装置的多个电极或者骨导听力装置的振动器或者用于将所得信号传给另一装置的收发器。图6的音频处理装置实施例可实施助听装置。

图7示出了根据本发明的处理有噪声输入信号的方法的流程图。有噪声音频信号y(n)包括目标信号分量x(n)和第一噪声信号分量v(n)(非必须地，及包括第二附加噪声分量w(n))，n表示时间，该方法包括步骤：

b)将第一噪声信号分量v和目标信号分量x的谱方差或其换算版λ_V,λ_X分别估计为频率指数k和时间指数m的函数，λ_V和λ_X的估计量在最大似然方面共同最佳。

最大似然优化(排他地)基于下述统计假设：

-相应信号y_i(n)、及信号分量x_i(n)和v_i(n)(非必须地，及w_i(n))的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)(非必须地，及W_i(k,m))均为零均值、复值高斯分布；

-它们中的每一个跨时间m和频率k统计上独立；及

-X_i(k,m)和V_i(k,m)(非必须地，及W_i(k,m))相互不相关。

该方法总体上基于目标和噪声信号分量的特性(如空间特性)已知的假设。

关于目标和噪声信号分量的特性的假设例如为：目标信号相对于输入单元的方向已知(固定d)及第一噪声信号分量的空间指纹也已知如各向同性(C_v＝C_iso)。在存在第二附加噪声分量的情形下，假定其输入间协方差矩阵C_w形式的特性已知。

本发明由独立权利要求的特征限定。从属权利要求限定优选实施方式。权利要求中的任何附图标记不限定其对应的范围。

一些优选实施方式已经在前面进行了说明，但是应当强调的是，本发明不受这些实施方式的限制，而是可以权利要求限定的主题内的其它方式实现。

参考文献

·US2009248403A

·WO12159217A1

·US2013343571A1

·US2010246844A1

·[Braun&Habets；2013]S.Braun and E.A.P.Habets,“Dereverberation innoisy environments using reference signals and a miximum likelihoodestimator”,Presented at the 21^st European Signal Processing Conference(EUSIPCO2013),5 pages(EUSIPCO 2013 1569744623).

·[Schaub；2008]Arthur Schaub,“Digital hearing Aids”,ThiemeMedical.Pub.,2008.

·[Haykin；2001]S.Haykin,“Adaptive Filter Theory,”Fourth Edition,Prentice Hall Information and System Sciences Series,2001.

·[Hioka et al.；2011]:Y.Hioka,K.Niwa,S.Sakauchi,K.Furuya,andY.Haneda,“Estimating Direct-to-Reverberant Energy Ratio Using D/R SpatialCorrelation Matrix Model”,IEEE Trans.Audio,Speech,and Language Processing,Vol.19,No.8,Nov.,2011,pp.2374—2384.

·[Loizou；2013]:P.C.Loizou,“Speech Enhancement:Theory and Practice,”Second Edition,February,2013,CRC Press

·[Ephraim-Malah；1984]:Y.Ephraim and D.Malah,“Speech EnhancementUsing a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator,”IEEE Trans.Acoustics,Speech,and Signal Processing,Vol.ASSP-32,No.6,Dec.1984,pp.1109—1121.

·[Kjems&Jensen；2012]U.Kjems,J.Jensen,“Maximum likelihood based noisecovariance matrix estimation for multi-microphone speech enhancement”,20thEuropean Signal Processing Conference(EUSIPCO 2012),pp.295-299,2012.

·[Ye&DeGroat；1995]H.Ye and R.D.DeGroat,“Maximum likelihood DOAestimation and asymptotic Cram′er-Rao bounds for additive unknown colorednoise,”Signal Processing,IEEE Transactions on,vol.43,no.4,pp.938–949,1995.

·[Shimitzu et al.；2007]Hikaru Shimizu,Nobutaka Ono,KyosukeMatsumoto,Shigeki Sagayama,Isotropic noise suppression in the power spectrumdomain by symmetric microphone arrays,2007 IEEE Workshop on Applications ofSignal Processing to Audio and Acoustics,October 21-24,2007,New Paltz,NY,pp.54-57.

Claims

1.包括目标信号分量x(n)和第一噪声信号分量v(n)的有噪声音频信号y(n)的处理方法，n表示时间，所述方法包括：

b)提供所述目标信号分量的特性，所述目标信号分量的特性由视向量d(k,m)表示，其元素i＝1,2,…,M定义从目标信号源到M个输入单元中的每一个的绝对声学传递函数或者定义从第i个输入单元到参考输入单元的相对声学传递函数；或者所述目标信号分量的特性由输入间协方差矩阵d(k,m)·d(k,m)^H表示；及

提供所述第一噪声信号分量的特性，所述第一噪声信号分量的特性由输入单元间协方差矩阵Cv(k,m)或其通过乘以不同于零的实数形成的换算版表示；及

c)将第一噪声信号分量v和目标信号分量x的谱方差或其通过乘以不同于零的实数得到的换算版λ_V,λ_X分别估计为频率指数k和时间指数m的函数，λ_V和λ_X的估计量在最大似然方面共同最佳，共同最佳指谱方差λ_V和λ_X二者均在同一最大似然估计过程中进行估计，基于下述统计假设：c1)相应信号y_i(n)、及信号分量x_i(n)和v_i(n)的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)均为零均值、复值高斯分布；c2)它们中的每一个跨时间m和频率k统计上独立；及c3)X_i(k,m)和V_i(k,m)不相关；及

d)基于估计的谱方差或其换算版处理所述有噪声音频信号以提供噪声减少的信号。

2.根据权利要求1所述的方法，其中有噪声音频信号y_i(n)包括具有目标信号分量和混响信号分量的混响信号。

3.根据权利要求1所述的方法，其中第一噪声信号分量v_i(n)空间上各向同性。

4.根据权利要求1-3任一所述的方法，其中第一噪声信号分量v_i(n)由后期混响构成。

5.根据权利要求1所述的方法，其中第i个输入单元处的有噪声音频信号y_i(n)包括目标信号分量x_i(n)、混响信号分量和附加噪声分量w_i(n)。

6.根据权利要求5所述的方法，其中第二噪声信号分量w的特性由附加噪声的预定输入单元间协方差矩阵C_W表示。

7.根据权利要求1所述的方法，其中基于多次观察得到有噪声音频信号的输入单元间协方差矩阵的估计量。

8.根据权利要求7所述的方法，其中目标信号分量x和噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)的最大似然估计量分别从输入单元间协方差矩阵C_Y(k,m),C_X(k,m),C_V(k,m)的估计量和视向量d(k,m)得到。

9.根据权利要求1所述的方法，包括对有噪声音频信号y(n)应用波束形成从而提供波束成形信号及对波束成形信号应用单通道后滤波以抑制来自目标信号方向的噪声信号分量及提供所得的噪声减少的信号。

10.根据权利要求9所述的方法，其中在单通道后滤波过程中应用于波束成形信号的增益值g_sc(k,m)基于目标信号分量x和第一噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)的估计量。

11.用于处理包括目标信号分量x和第一噪声信号分量v的有噪声音频信号y的音频处理系统，其中所述目标信号分量的特性由视向量d(k,m)表示，其元素i＝1,2,…,M定义从目标信号源到M个输入单元中的每一个的绝对声学传递函数或者定义从第i个输入单元到参考输入单元的相对声学传递函数；或者所述目标信号分量的特性由输入间协方差矩阵d(k,m)·d(k,m)^H表示；及所述第一噪声信号分量的特性由输入单元间协方差矩阵Cv(k,m)或其通过乘以不同于零的实数形成的换算版表示；所述音频处理系统包括：

b)协方差估计单元，用于基于有噪声音频信号y_i(n)的时频表示Y_i(k,m)估计有噪声音频信号的输入单元间协方差矩阵或其通过乘以不同于零的实数形成的换算版；及

c)谱方差估计单元，用于基于视向量d(k,m)、输入单元间协方差矩阵C_v(k,m)、及有噪声音频信号的协方差矩阵或其换算版估计目标信号分量x和第一噪声信号分量v的谱方差λ_X(k,m)和λ_V(k,m)或其通过乘以不同于零的实数形成的换算版，其中λ_V和λ_X的估计量在最大似然方面共同最佳，共同最佳指谱方差λ_V和λ_X二者均在同一最大似然估计过程中进行估计，基于下述统计假设：c1)相应信号y_i(n)、及信号分量x_i(n)和v_i(n)的时频表示Y_i(k,m),X_i(k,m)和V_i(k,m)均为零均值、复值高斯分布；c2)它们中的每一个跨时间m和频率k统计上独立；及c3)X_i(k,m)和V_i(k,m)不相关；及

d)处理单元，用于基于估计的谱方差或其换算版处理所述有噪声音频信号以提供噪声减少的信号。

12.根据权利要求11所述的音频处理系统，包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。