CN103874002B

CN103874002B - 包括非自然信号减少的音频处理装置

Info

Publication number: CN103874002B
Application number: CN201310701497.5A
Authority: CN
Inventors: J·延森; M·S·佩德森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2012-12-18
Filing date: 2013-12-18
Publication date: 2019-04-05
Anticipated expiration: 2033-12-18
Also published as: US9432766B2; CN103874002A; EP2747081A1; US20140177868A1

Abstract

本发明公开了一种包括非自然信号减少的音频处理装置，其包括正向通路和分析通路。正向通路包括用于输送表示音频信号的时变电输入信号的输入单元，电输入信号包括目标信号部分和噪声信号部分；信号处理单元，用于对电输入信号应用处理算法并提供处理后的信号；及用于基于处理后的信号发送输出信号的输出单元；分析通路包括模型单元，包括人听觉系统的感知模型并提供可听性度量；非自然信号识别单元，用于识别由处理算法引入处理后的信号内的非自然信号并提供非自然信号识别度量；及增益控制单元，用于基于来自模型单元和非自然信号识别单元的输入控制由处理算法应用于正向通路的信号的增益。本发明的优点在于针对非自然信号的可听性动态优化降噪。

Description

包括非自然信号减少的音频处理装置

技术领域

本申请涉及音频处理装置，尤其涉及音频处理装置中因处理（如降噪）算法引起的非自然信号（artifact）的识别及涉及音乐噪声的减少。本发明具体涉及包括用于处理音频信号的正向通路的音频处理装置，该处理包括对正向通路的信号应用处理（如降噪）算法。

本发明还涉及前述装置的用途及音频处理装置的运行方法。本发明还涉及包括处理器和程序代码的数据处理系统，程序代码使处理器执行本发明方法的至少部分步骤。

例如，本发明的实施例可用在下述应用中：助听器、头戴式耳机、耳麦、有源耳朵保护系统、免提电话系统、移动电话、远程会议系统、广播系统、卡拉OK系统、教室放大系统等。

背景技术

下面的现有技术说明涉及本申请的应用领域之一，即助听器。

许多目前技术水平的助听器均配置有单通道降噪(SC-NR)算法。在一些现代助听器中，信号在内部表示为时频表示（对于多传声器助听器，其可以是波束形成器或方向算法的输出）。SC-NR算法对每一时频单元应用增益值以减小该信号中的噪声电平。在本申请中，术语“增益”按一般含义使用，包括放大(增益>1)及衰减(增益<1)，根据具体情况而定。然而，在降噪算法中，术语“增益”通常与“衰减”有关。具体地，SC-NR算法估计每一时频系数的信噪比(SNR)并基于该SNR估计量对每一时频单元应用增益值。最后，噪声降低的（及可能放大和压缩的）时域信号通过使噪声降低的信号的时频表示通过合成滤波器组而进行重构。

当对时频单元应用增益时，SC-NR算法总是引入非自然信号，因为其决定基于SNR估计。SNR真值显然观察不到，因为只有有噪声信号可用。这些非自然信号中的部分已知为“音乐噪声”，其在感知上尤其恼人。众所周知，“音乐噪声”的量可通过限制允许SC-NR完成的最大衰减而减少（例如参见EP 2 463 856 A1），换言之，通过应用“不太有攻击性的”降噪算法。下述权衡存在：1）最大衰减越大，降噪越好，但引入音乐非自然信号的风险越高；另一方面，2）较低的最大衰减降低音乐非自然信号的风险，但使降噪不太有效。因此，存在理想的最大衰减。然而，理想的最大衰减取决于输入信号类型、一般SNR、频率等。这样，理想的最大衰减随时间并不固定，而是必须适应变化的情形（在输入信号中反映）。

最近，已提出客观方法用于基于噪声降低的信号本身及初始有噪声的信号估计给定噪声降低的信号中的音乐噪声的量，后者为SC-NR系统的输入（例如参见[Uemura etal.;2012]、[Yu&Fingerscheidt;2012]和[Uemura et al.;2009]）。更具体地，在[Uemuraet al.;2009]中，提出比较有噪声的未处理的信号的特性和噪声降低的信号的特性以确定噪声降低的信号中存在何种程度的音乐噪声。发现信号峰度的变化（实际上，比率）是音乐噪声的鲁棒预测因素。基于该方法，在EP 2 144 233 A2中提出调节降噪算法的参数（如最大衰减）以减少音乐噪声的量（以降低的降噪为代价）。

EP 2 144 233 A2描述了计算噪声指数值的噪声抑制估计装置，其根据声音信号在噪声成分抑制之前或之后的量值的频率分布的峰度变化，噪声指数值表明在频域抑制噪声成分之后出现音乐噪声的程度。反映该降噪算法的控制的示意性框图如图1中所示。

WO2008115445A1涉及基于心理声学模型的语音增强，该心理声学模型能够保留语音的保真度同时足够抑制包括称为“音乐噪声”的处理非自然信号的噪声。

WO2009043066A1涉及在存在背景噪声的情况下增强宽带语音音频信号的方法，尤其涉及基于人听觉系统的掩蔽性质使用子频带处理进行低潜伏时间单通道降噪。WO0152242A1涉及多频带谱减方案，包括多频带滤波体系结构、噪声和信号功率检测、及用于降噪的增益功能。WO9502288A1涉及人音频感知的性质用于执行频谱和时间掩蔽以减小增加到语音信号中的噪声的感知响度。

发明内容

现有技术的基于峰度比的音乐噪声度量的缺点在于其同等地处理每一时频单元而未考虑人听觉系统的各方面（尽管其基本目标是预测噪声降低的信号的感知质量）。更具体地，完全被其它信号成分掩蔽因而对听者完全不可用的时频单元仍然对传统的基于峰度比的度量起作用，从而导致音乐噪声电平的错误预测。

本发明的目标在于提供改进的、用于在音频处理装置中识别和去除非自然信号如音乐噪声的方案。

本申请的目标由所附权利要求限定的及下面描述的发明实现。

音频处理装置

在本申请的一方面，本申请的目标由音频处理装置实现，其包括：

-正向通路，包括：

○用于输送表示音频信号的时变电输入信号的输入单元，该电输入信号包括目标信号部分和噪声信号部分；

○信号处理单元，用于对电输入信号应用处理算法并提供处理后的信号；及

○用于基于处理后的信号发送输出信号的输出单元。

该音频处理装置还包括：

-分析通路，包括：

○模型单元，包括人听觉系统的感知模型并提供可听性度量；

○非自然信号识别单元，用于识别由处理算法引入处理后的信号内的非自然信号并提供非自然信号识别度量；及

○增益控制单元，用于基于来自模型单元和非自然信号识别单元的输入控制由处理算法应用于正向通路的信号的增益。

本发明的优点在于针对非自然信号的可听性而动态优化降噪。

在本说明书中，术语“正向通路”指包括用于提供、传播和处理表示音频信号的输入信号到输出信号的功能件的正向信号通路。

在本说明书中，术语“分析通路”指包括用于分析正向通路的一个或多个信号的功能件并可能基于前述分析的结果控制正向通路的一个或多个功能件的分析信号通路。

在音频处理的上下文中，术语“非自然信号”意为因信号处理（数字化、降噪、压缩等）引起的、在呈现给听者时通常不被感知为自然声音的音频信号部分。非自然信号通常称为音乐噪声，其由所得信号中的随机谱峰值引起。这样的非自然信号听上去像短纯音。音乐噪声例如在[Berouti et al.;1979]、[Cappe;1994]和[Linhard et al.;1997]中描述。

根据本发明，处理（如降噪）算法在给定频率和时间的增益（衰减）仅在所涉及的非自然信号估计听得见时（由心理声学或感知模型如掩蔽模型或可听性模型确定）进行修改。优选地，处理（如降噪）算法的衰减优化成使得在给定频率和时间(k,m)时的噪声衰减最大化同时保持非自然信号（刚好）听不见。人听觉系统的心理声学模型例如在[Fastl&Zwicker,2007]中描述，例如参见“Masking”的第4章61-110页及“Models for Just-Noticeable Variations”的第7.5章194-202页。可听性模型例如可根据语音可懂度度量如语音可懂度指数（SII，标准化为ANSI S3.5-1997）进行定义。

在实施例中，音频处理装置包括用于将时域信号转换为频域信号的时间到时频转换单元。在实施例中，音频处理装置包括用于将时域信号转换为频域信号的时频到时间转换单元。

在实施例中，时频转换单元配置成提供正向通路的信号在多个频带k和多个时刻m的时频表示，k为频带指数及m为时间指数，因而(k,m)确定包括对应于时刻m和频率指数k的信号复值或实值的特定时频区间（bin）或单元。

总的来说，任何可用的用于识别处理算法引入的非自然信号和/或降低引入非自然信号的风险的方法均可使用。例子为识别增益变度的方法，例如用于因应用处理算法引起的增益快速波动。这些方法可包括限制所应用的增益的变化速率，例如检测波动的增益并有选择地降低这些情形下的增益（例如参见EP2463856A1）。

在实施例中，定义关于非自然信号识别度量的值的预定判据，其指明给定TF区间(k,m)中非自然信号的存在。

在实施例中，非自然信号识别单元配置成基于正向通路的一个或多个信号的峰度度量确定非自然信号。尽管也可以使用其它度量。备选度量可基于调制频谱的检测。通过对特定频率区间k的TF单元的量值或量值平方与多个相邻时间帧（滑动窗口包括多个先前的时间帧，例如参见图5，顶部曲线）之间关系的“曲线”进行傅里叶变换，调制频谱可确定为与每一TF区间(k,m)相关联。所得的量值或量值平方–频率的曲线构成调制频谱。给定TF单元的调制频谱中在相对较高频率下的特定峰值可取为非自然信号的指示。非自然信号识别度量可由该频谱的峰值（或所识别峰值附近的频谱集合）定义。

在实施例中，非自然信号识别单元配置成通过比较基于电输入信号或源自其的信号的峰度值和基于处理后的信号的峰度值而确定非自然信号识别度量。

在实施例中，非自然信号识别单元配置成基于输入信号或源自其的信号及处理后的信号的峰度值K_b(k,m)和K_a(k,m)确定非自然信号识别度量。

在统计学中，峰度描述任意（随机）变量X的概率函数的峭度（或“峰陡度”）。峰度K的几种度量存在，例如Pearsons的峰度：

其中μ为X的均值，μ₄为关于该平均值的四阶矩，σ为标准偏差（μ₂为二阶矩并等于方差Var(X)=σ²），及E[·]为·的预期值算子。

n阶矩μ_n由下式定义：

其中P(X)为X的概率密度函数（例如参见[Uemura et al.;2009]）。

在实施例中，非自然信号识别度量AIDM(k,m)包括峰度比K_a(k,m)/K_b(k,m)。在实施例中，预定判据由峰度比K_a(k,m)/K_b(k,m)大于或等于预定阈值AIDM_TH定义。

在实施例中，音频处理装置包括SNR单元，用于基于目标信号部分和/或噪声信号部分的估计量动态估计SNR值。在实施例中，SNR单元配置成确定信噪比的估计量。

在实施例中，音频处理装置包括话音活动检测器（VAD），配置成指示在给定时间点输入音频信号中是否存在人话音（例如分别为“话音”和“无话音”指示）。

在实施例中，音频处理装置如非自然信号识别单元配置成在电输入信号中不存在话音（例如由话音活动检测器指示）的时间跨度期间进行峰度分析。

处理算法优选包括增强当前电输入信号的用户感知的处理步骤。在实施例中，该算法包括压缩算法。在优选实施例中，处理算法包括降噪算法，例如单通道降噪（SC-NR）算法。在实施例中，降噪算法配置成在最小值和最大值之间改变增益。在实施例中，降噪算法配置成根据SNR值改变增益。

可在应用处理算法之前和之后对给定信号确定非自然信号指示度量，前述算法例如为用于降低包括语音的音频信号中的噪声的降噪算法，例如参见图1中的信号x(n)和z(n)，x(n)和z(n)为时变音频信号。优选地，时变信号x(n)和z(n)转换到时频域从而提供信号x(k,m)和z(k,m)，k和m分别为频率和时间指数。具有特定指数k（及任何指数m，如x(k,*)）的信号（x或z）的值表示信号的特定频率或频带。具有特定指数m（及任何指数k，如x(*,m)）的信号（x或z）的值表示信号的特定时间或时间帧。在实施例中，在特定频率和时间(k,m)（在此称为时频（TF）区间或单元）的信号（x或z）的值由复数表示，例如傅里叶变换后的信号的傅里叶系数，如DFT系数（DFT=离散傅里叶变换）或FFT系数（FFT=快速傅里叶变换）。

在实施例中，当确定处理算法的所得增益时，仅考虑正向通路的信号（如x或z）的TF区间的量值（或量值平方）。在实施例中，每一时频区间的能量确定为所涉及TF区间中的信号的量值的平方（│·│²）。

在实施例中，音频处理装置包括用于将表示声信号的模拟电信号转换为数字音频信号的模数（AD）转换器。在实施例中，模拟信号以预定采样频率或速率f_s进行采样，f_s例如在从8kHz到40kHz的范围中（适应应用的特定需要）以在离散的时间点t_n（或n）提供数字样本x_n（或x[n]），每一音频样本通过预定的比特数N_s表示声信号在t_n时的值，N_s例如在从1到16比特的范围中。在实施例中，在某一时间跨度（如100ms或200ms以上）如信号的特定数量N_f的时间帧上对特定频带（指数k）的信号进行分析。在实施例中，采样频率f_s大于16kHz，如等于20kHz（对应于在1/f_s=50μs时间的样本长度）。在实施例中，一时间帧中的样本数为64（对应于在3.2ms时间的帧长）或更多。在实施例中，构成分析时间跨度的（滑动）窗口的时间帧的数量N_f大于20，如大于50。

在实施例中，音频处理装置如非自然信号识别单元配置成确定正向通路的信号的能量的概率密度函数p(k,m)。根据本发明，针对音频处理装置的正向通路的信号在给定频率(k)和时间(m)的能量（量值的平方，│·│²）的概率密度函数确定峰度参数K(k,m)，在所涉及处理算法如降噪算法之前为(K_b(k,m))，之后为(K_a(k,m))。在特定频率k和时刻m的峰度参数K(k,m)基于多个先前的时间帧，例如对应于滑动窗口（例如相对于给定（如目前的）时间帧的N_f个先前的时间帧，例如参见图5）。

可定义基于正向通路的信号的峰度参数K_b(k,m)和K_a(k,m)（例如峰度比K_a(k,m)/K_b(k,m)或差K_a(k,m)-K_b(k,m)，或二者之间的其它函数关系）的非自然信号识别度量AIDM(k,m)。关于非自然信号识别度量的值的预定判据被定义，例如K_a(k,m)/K_b(k,m)≥AIDM_TH。在实施例中，AIDM_TH≥1.2，例如≥1.5。如果预定判据由给定TF区间的非自然信号识别度量满足，则在该频率和时间的非自然信号得以识别。

在实施例中，增益控制单元配置成，如果识别到非自然信号，则修改处理算法（如降噪算法，其中衰减减小）的增益。在实施例中，该修改包括将由处理算法应用的增益减小（即衰减）预定量ΔG（例如消除，即没有衰减，增益=1）。在实施例中，该修改包括将由处理算法应用的增益的减小（衰减）根据非自然信号识别度量的大小逐步修改。在实施例中，衰减随着峰度比增大而减小，反之亦然（即随着峰度比减小而增大）。在实施例中，增益控制单元配置成限制修改速率，例如限制为0.5dB/s和5dB/s之间的值。

在实施例中，感知模型包括掩蔽模型，配置成识别处理后的信号或源自其的信号的给定时频单元的所识别非自然信号被当前信号的其它部分何种程度地掩蔽。

在实施例中，增益控制单元配置成动态修改将由降噪算法应用的增益以使得噪声降低量在不引入音乐噪声（或引入最少音乐噪声）条件下总是在最大水平。

音频处理装置包括输入单元如输入变换器（例如包括传声器系统和/或直接电输入（如无线接收器））和输出单元如输出变换器之间的正向或信号通路。信号处理单元位于该正向通路中。在实施例中，除了处理算法之外，信号处理单元还适于根据用户的特定需要提供随频率而变的增益。音频处理装置包括分析通路，该分析通路包括用于分析输入信号的功能件，包括确定信噪比、峰度值等。在实施例中，分析通路包括用于确定电平、调制、信号类型、声反馈估计量等中的一个或多个的单元。在实施例中，分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中，分析通路和/或信号通路的部分或所有信号处理在时域进行。

在实施例中，音频处理装置包括数模转换器（DA）以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

在实施例中，时间到时频（TF）转换单元包括滤波器组，用于对（时变）输入信号进行滤波并提供多个（时变）输出信号，每一输出信号包括不同的输入信号频率范围。在实施例中，TF转换单元包括傅里叶变换单元，用于将时变输入信号转换为频域中的（时变）信号。在实施例中，音频处理装置考虑的、从最小频率f_min到最大频率f_max的频率范围包括典型的人听频范围20Hz-20kHz的一部分，例如范围20Hz-12kHz的一部分。在实施例中，音频处理装置的正向通路和/或分析通路的信号拆分为NI个频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。在实施例中，音频处理装置适于在NP个不同频道中处理正向通路和/或分析通路的信号（NP≤NI）。频道宽度可均匀或非均匀（例如宽度随频率增加）、重叠或非重叠。

在实施例中，音频处理装置包括频率分析单元，配置成确定正向通路的信号的功率谱，该功率谱例如由功率谱密度PSD(k)表示，k为频率指数，在给定时间点m的功率谱的总功率由给定时间点的所有频率的PSD(k)的和或积分确定。在实施例中频率分析单元配置成基于多个先前的时间帧如对应于滑动窗口的时间帧（例如相对于给定（如目前的）时间帧的N_f个先前的时间帧）确定音频处理装置的正向通路的信号在给定频率(k)和时间(m)的能量（量值的平方，│·│²）的概率密度函数。

在实施例中，音频处理装置包括多个传声器和用于提供定向（或全向）信号的定向单元或波束形成器。每一传声器拾取包围音频处理装置的声场的分开的版本并将电传声器信号馈给定向单元。定向单元将合成输出信号形成为电传声器信号的加权组合（如加权和）。在实施例中，处理算法应用于电传声器信号中的一个或多个。然而，优选地，处理算法应用于从定向单元得到的（定向或全向）信号。

在实施例中，音频处理装置包括声（和/或机械）反馈抑制系统。在实施例中，音频处理装置还包括用于所涉及应用的其它有关功能，如压缩。

在实施例中，音频处理装置包括听音装置，例如助听器，例如听力仪器，如适于位于用户耳朵处或全部或部分位于用户耳道中的听力仪器，或头戴式耳机、耳麦、耳朵保护装置或其组合。

用途

此外，本发明提供上面描述的、“具体实施方式”中详细描述的及权利要求中限定的音频处理装置的用途。在实施例中，提供在包括音频分布的系统中的用途，例如包括彼此足够接近的传声器和扬声器以在用户操作期间导致从扬声器到传声器的反馈的系统。在实施例中，提供在包括一个或多个听力仪器、头戴式耳机、耳麦、有源耳朵保护系统等的系统中的用途，例如免提电话系统、远程会议系统、广播系统、卡拉OK系统、教室放大系统等。

方法

本发明还提供音频处理装置的运行方法，音频处理装置包括用于对音频输入信号应用处理算法的正向通路及用于分析正向通路的信号以控制处理算法的分析通路，该方法包括：

a）输送表示音频信号的时变电输入信号，该电输入信号包括目标信号部分和噪声信号部分；

b）对电输入信号应用处理算法并提供处理后的信号；

c）基于处理后的信号发送输出信号。

该方法还包括：

d）提供人听觉系统的感知模型；

e）识别由处理算法引入处理后的信号内的非自然信号并提供非自然信号识别度量；及

f）基于感知模型和非自然信号识别度量控制由处理算法应用于正向通路的信号的增益。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的音频处理装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

在实施例中，该方法还包括：

-基于目标信号部分和/或噪声信号部分的估计量动态估计SNR值；

-通过比较基于电输入信号或源自其的信号的峰度值和基于处理后的信号的峰度值而确定非自然信号识别度量；

-基于SNR值、非自然信号识别度量及感知模型控制处理算法应用于正向通路的信号的增益。

在实施例中，该方法包括识别输入音频信号中在给定时间点是否存在人话音。在实施例中，该方法包括，峰度的分析仅在电输入信号中不存在话音的时间跨度期间进行。

在实施例中，该方法使得处理算法包括降噪算法，例如单通道降噪（SC-NR）算法。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分（如大部分或所有）步骤。除了保存在有形介质如磁盘、CD-ROM、DVD、硬盘、或任何其它机器可读的介质上，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

数据处理系统

本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分（如大部分或所有）步骤。

音频处理系统

另一方面，本发明提供音频处理系统，包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的音频处理装置及包括辅助装置。

在实施例中，该系统适于在音频处理装置和辅助装置之间建立通信链路以使得信息（如控制和状态信号，可能音频信号）能在期间交换或从一装置转发给另一装置。

在实施例中，辅助装置为或包括音频网关设备，其适于（例如从娱乐装置如TV或音乐播放器、电话装置如移动电话、或计算机如PC）接收多个音频信号并适于选择所接收的音频信号中的适当音频信号（或信号组合）和/或对其进行组合以传给音频处理装置。在实施例中，辅助装置为或包括用于控制音频处理装置的功能和运行的遥控器。

在实施例中，辅助装置为另一音频处理装置。在实施例中，音频处理系统包括适于实施双耳音频处理系统如双耳助听器系统的两个音频处理装置。在优选实施例中，关于处理算法（如降噪算法）的控制的信息例如经特定耳间无线链路（图4中的IA-WLS）在两个音频处理装置（如第一和第二听力仪器）之间交换，因而使能协调控制相应听力仪器的处理算法。具体地，音频处理系统配置成使得关于其中增益应增加（衰减减小）以降低产生听得见的非自然信号的风险的时频区域的增益控制的信息能在两个音频处理装置（如第一和第二听力仪器）之间交换。

本申请的进一步的目标由从属权利要求和本发明的详细描述中限定的实施方式实现。

除非明确指出，在此所用的单数形式的含义均包括复数形式（即具有“至少一”的意思）。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

附图说明

本发明将在下面参考附图、结合优选实施方式进行更完全地说明。

图1示出了现有技术降噪系统。

图2a-2d示出了根据本发明的音频处理装置的四个实施例。

图3a示出了根据本发明的（包括降噪系统的）音频处理装置的实施例。

图3b示出了根据本发明的降噪系统的实施例。

图4示出了根据本发明的双耳音频处理系统的实施例。

图5示出了确定峰度参数的步骤的示意性图示。

图6示出了给定时间点的噪声信号的示意性感知模型（在此为掩蔽模型）及隐含多个示例性非自然信号的出现（在给定时间点）的非自然信号识别度量AIDM。

图7示出了在包括只有噪声的时间段和噪声下语音时间段（通过话音活动检测器分析得到）的特定频带(k_p)中时变输入音频信号的量值│·│的示意性例子。

图8示出了降噪算法应用于给定TF单元的增益G_NR的示意性例子，其为TF单元的估计信噪比SNR的函数。

图9a示意性地示出了，对于所涉及频带k_p，正向通路的处理后的音频信号（在降噪后）的时间段。

图9b示出了在所涉及频带k_p下在只有噪声的时间段的特定时间点识别的非自然信号，并指出了其可听性“a”或不可听性“ia”的估计量。

图9c示出了实施本发明中提出的感知噪声降低方案得到的、由降噪算法应用于音频处理装置的正向通路的信号的特定频带(k_p,m)的最小增益G_NR,min(k,m)。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域的技术人员来说，从下面的详细描述可显而易见地得出其它实施方式。

具体实施方式

图1示出了现有技术降噪系统，例如用于形成音频处理装置如听力仪器的一部分。图1示意性地示出了用于降低输入音频信号x(n)中的噪声并提供增强的输出信号z(n)的降噪系统的部件。指数n为隐含信号的时间差异的时间指数。该降噪系统配置成比较有噪声的（未处理的）输入信号x(n)的特性和降噪后的信号z(n)的特性以确定在降噪后的信号中存在何种程度的音乐噪声。发现信号峰度的变化是音乐噪声的鲁棒预示器。基于该度量，在EP2 144 233 A2中提出调节降噪算法的参数（如最大衰减）以降低音乐噪声的量（以减小的降噪为代价）。时变信号x(n)和z(n)例如为音频处理装置的正向通路的信号。降噪算法（参见图1中的信号处理单元“降噪（即应用增益）”）应用于信号x而导致增强的信号z。该算法可配置成在时域对输入信号x起作用并在时域提供所得信号z。然而，优选地，该降噪算法在频域对信号起作用，例如其中有噪声的输入信号x(n)提供为频带拆分信号（例如，作为时频（TF）区间(k,m)的映射，每一区间确定特定频率k和时间m的信号）。作为备选，时间到时频转换可在降噪单元中执行。所得的信号z(n)可在时域或频域进一步处理，例如通过应用随频率而变的增益以补偿用户的听力损失的增益单元。分析通路由下述部件形成：a）SNR估计单元，用于动态估计TF区间的信噪比；b）峰度比计算单元，用于通过基于信号x(k,m)和z(k,m)比较给定TF区间(k,m)的相应峰度值而确定峰度比K(x)/K(z)；及c）降噪增益计算控制单元，用于基于SNR值和所涉及TF区间(k,m)的非自然信号识别度量控制降噪算法（降噪（即应用增益）单元）应用于正向通路的信号的增益。

图2a-2d示出了根据本发明的音频处理装置的四个实施例。图2a-2b简单地示出了音频处理装置如听音装置LD的基本部件，包括用于接收输入音频信号“输入”和发送增强的输出音频信号“输出”的正向通路。该正向通路包括（如图2a中所示，其为最简单的形式）用于提供表示音频信号的电输入信号的输入单元IU（如输入变换器或电连接点）、用于将处理算法应用于正向通路的信号并提供处理后的输出信号的信号处理单元SPU、及用于发送处理后的输出信号或作为听得见的刺激“输出”呈现给用户和/或给另一单元或装置进行进一步处理的输出单元OU（如输出变换器或电连接点）。在图2b所示的实施例中，信号处理单元SPU被示为包括正向通路中的处理单元ALG并实施包括用于控制处理单元ALG的算法的控制单元CNT的分析通路。控制单元CNT分别在处理单元ALG之前和之后从正向通路接收输入信号。在图2c所示的实施例中，由处理单元SPU实施的正向通路部分被示为还包括用于在时频域将输入信号提供给处理单元ALG和控制单元CNT的分析滤波器组A-FB。作为备选，这样的时间到时频转换可在输入单元IU中或别处执行（例如在输入单元IU前面）以使得正向通路和分析通路的信号在（时）频域进行表示。在图2c的实施例中，正向通路在输出单元OU的前面还包括合成滤波器组S-FB，其使给输出单元OU的信号在时域表示。图2c实施例的控制单元CNT包括增益控制单元GCT，用于确定增益（如衰减或放大）或另一参数并将该增益（或另一参数）应用于处理单元ALG的算法。增益控制单元GCT基于来自非自然信号检测器AID和感知模型PM的输入确定相应增益。音频处理装置的另一实施例（包括与图2c中所示一样的功能件）如图2d中所示，其中处理单元的算法为降噪算法（通过记为处理单元NR指示）。除了增益控制单元GCT、非自然信号识别单元AID和包括感知模型的模型单元PM之外，控制单元CNT还包括话音活动检测器VAD和用于估计信噪比的单元SNR。增益控制单元GCT配置成使其确定特定TF单元(k,m)的增益基于与非自然信号识别单元AID、模型单元PM、话音活动检测器VAD和SNR单元有关的输入。

图3a示出了（包括降噪系统的）音频处理装置的实施例，及图3b示出了根据本发明的降噪系统的实施例。图3a的音频处理装置体现在具有与图2a-2d中所示一样的基本元件的听音装置LD中，即a）输入单元（在此包括多个输入变换器（在此为传声器）M1,…,Mp，每一输入变换器用于拾取输入声场的特定部分，及每一输入变换器均连接到分析滤波器组A-FB，用于提供相应传声器信号IN1,…,INp的时频表示INF1,…,INFp）；b）信号处理单元SPU（在此示为包括分析滤波器组A-FB和合成滤波器组S-FB，用于提供时域输出信号OUT）；及c）包括输出变换器在此为扩音器的输出单元，用于将输出信号作为声音呈现给一个或多个用户。图3a的音频处理装置被示为具有单一扩音器，其例如适合助听器应用，但作为备选，根据应用可包括更大数量的扩音器，例如两个或三个或更多个。多个扩音器例如适合广播系统。

在下面，描述信号处理单元SPU的功能单元。信号处理单元SPU的分析滤波器组A-FB接收时域传声器信号IN1,…,INp并提供p个传声器输入信号的时频表示INF1,…,INFp。输入信号的p个TF表示馈给定向（或波束形成）单元DIR以提供单一合成的定向或全向信号。DIR单元的合成输出信号BFS为输入信号INF1,…,INFp的加权组合（如加权和）。处理算法，在此为降噪算法NR，应用于合成的（定向或全向）信号BFS。降噪后的信号NRS馈给另一处理算法HAG以对信号NRS应用增益，例如随频率和/或电平而变的增益以补偿用户的听力损失和/或补偿环境声场中不想要的声源。另一处理算法HAG的输出AMS馈给合成滤波器组S-FB以转换为时域信号OUT。信号处理单元SPU还包括分析通路，其包括用于控制降噪算法NR的控制单元CNT。控制单元CNT包括结合图2d所示和所述一样的功能件。该控制单元包括话音活动检测器VAD，配置成指示（信号noi）输入音频信号中在给定时间点m、给定频率区域k是否存在人话音。该控制单元CNT配置成仅在输入音频信号的给定TF区间中不存在话音（由话音活动检测器VAD指示）的时间跨度期间执行峰度的分析（由包括峰度计算单元KUR和峰度比较单元KUM的非自然信号识别单元执行（图2d中的AID=图3a中的KUR、KUM、KUR））。换言之，单元KUR、KUM和MOD在识别为包括语音的时间段（例如通过VAD）期间可保持备用。一旦话音存在于遭受降噪算法NR的正向通路信号BFS中，则考虑可能的音乐噪声的影响可忽略。从而节约处理功率。在实施例中，话音活动检测器VAD分析全频带信号（装置LD考虑的全部频率范围）并指示在给定时间点信号中是否存在话音。然而，优选地，话音活动检测器VAD分析时频表示的信号并配置成在每一时频区间(k,m)指示话音成分（如语音）的存在，如图7中示意性所示。在图7的例子中，在特定频带(k=kp)及多个时间单位m₁,m₁+1,…,m₅的量值│·│–时间曲线中，示出了存在语音（和噪声）或只有噪声（无语音），峰度分析（因而搜寻因所应用的降噪算法引起的非自然信号）仅在仅存在噪声（无语音）的时间单位(m₁+1)-m₂和(m₃+1)-m₄中执行。包括人听觉系统的感知模型的模型单元MOD从所述另一处理算法HAG（如在应用增益之后）接收输出信号AMS以决定在给定TF区间(k,m)识别的非自然信号是否听得见（给增益控制单元GNR的信号aud）。这在图6中示为示例性的噪声信号谱（实线）和对应的掩蔽阈值（虚线）的形式。用于分别基于信号BFS（降噪前）和NRS（降噪后）确定峰度值的两个峰度计算单元KUR分别向确定峰度比kr的峰度比较单元KUM提供输入k₁和k₂。单元KUM和KUR与增益控制单元GNR连接（由信号kr、k1和k2上的双箭头指示），以使后者能控制相应峰度值和峰度量的计算，例如仅计算包括仅为噪声的信号成分的TF单元的峰度参数（由从话音活动检测器VAD到增益控制单元GNR的控制信号noi指示）。一旦峰度比较单元KUM指明在TF区间(k,m)中存在非自然信号，由控制信号kr传给增益控制单元GNR，及模型单元MOD指明该非自然信号听得见，经控制信号aud传给增益控制单元GNR，适当减小的衰减（增大的增益）G_NR(k,m)由算法单元NR应用于信号BFS。（最小）降噪增益G_NR,min(k,m)和听得见及听不见的非自然信号的识别之间的关系的示意性例子如图9c中所示。

在图3a的听音装置中描述的降噪系统在图3b中示出并包括正向通路和分析通路，正向通路包括用于增强正向通路的有噪声的输入信号x(n)并提供增强的输出信号z(n)的降噪算法（在图3a和3b中分别记为NR和应用NRG），分析通路包括用于控制降噪算法的控制部分CNT。

正向通路的信号分别在应用降噪算法之前和之后的峰度值K₁(k,m)(K₁=K(x))和K₂(k,m)(K₂=K(z))分别在单元Kurtosis(x)和Kurtosis(z)中针对所涉及TF区间确定。根据本发明，对所涉及信号（K₁(k,m)和K₂(k,m)）在给定频率k和时间m的能量（量值的平方，│·│²）的概率密度函数p确定峰度值K₁(k,m)或K₂(k,m)。在特定频率k和时刻m的峰度参数K(k,m基于多个先前的时间帧如对应于滑动窗口的时间帧（例如相对于给定（如目前的）时间帧的N_f个先前的时间帧，例如参见图6）的能量的概率密度函数p(│·│²)。

非自然信号识别度量AIDM(k,m)，例如包括峰度比KR(k,m)=K₂(k,m)/K₁(k,m)，在“峰度比”单元中基于所确定的峰度值K₁(k,m)和K₂(k,m)进行确定。关于非自然信号识别度量的值的预定判据被定义，例如K₂(k,m)/K₁(k,m)≥AIDM_TH。在实施例中，AIDM_TH≥1.2，例如≥1.5。如果预定判据被给定TF区间的非自然信号识别度量满足，则识别该频率和时间的非自然信号。

相较于结合图1所述的降噪系统，图3b的系统另外包括具有感知模型（如简单的掩蔽模型）的模型单元（图2a-2d中的感知模型单元），其用于识别输出信号z(n)（或z(n)的另一处理后的版本）的给定时频单元(k,m)被何种程度地掩蔽（例如参见图6），因而在所涉及TF单元(k,m)中识别到非自然信号的情形下，峰度比K(z(k,m))/K(x(z,m))（参见单元“峰度比[KR(k,m)]”）应何种程度地影响处理算法应用于信号x(n)(=x(k,m))的增益G_NR(k,m)（参见单元“应用NRG[G_NR(k,m)]”）。增益控制单元“计算NRG”确定该所得的降噪增益（衰减）G_NR(k,m)。给定TF单元(k,m)的所得降噪增益（衰减）G_NR(k,m)基于信号x(n)的估计信噪比SNR(k,m)、话音活动指示NOI(k,m)、所确定的峰度比KR(k,m)、和可听性参数AUD(k,m)进行确定。

该改进的音乐噪声预示器例如可用在听力仪器或其它音频处理的在线降噪系统中，其中降噪系统的参数基于音乐噪声预示器连续更新，使得降噪量在不引入音乐噪声（或音乐噪声最小化）的条件下总是在最大降噪的水平。应用频带特有方案的降噪系统例如在WO2005/086536A1中描述。

图4示出了根据本发明的双耳音频处理系统的实施例。该双耳音频处理系统在此体现为包括适于分别位于用户左耳和右耳之处或之中的第一和第二听力仪器HI-1、HI-2的双耳助听器系统。图4的双耳助听器系统的听力仪器HI-1、HI-2另外适于经无线通信链路如专用耳间（IA）无线链路IA-WLS在其间交换信息。两个听力仪器HI-1、HI-2适于使能交换状态信号，例如包括由特定耳朵处的装置接收的输入信号的特性传给另一只耳朵处的装置。为建立耳间链路，每一听力仪器包括天线和收发器电路（在此由模块IA-Rx/Tx指示）。每一听力仪器HI-1和HI-2为本申请中描述的音频处理装置（例如结合图2a-2d或3a-3b所示和所述）的实施例。在图4的双耳助听器系统中，由听力仪器之一如HI-1的处理单元SPU产生的信号IAx传给另一听力仪器如HI-2，反之亦然。信号IAx（在给定时间点）可仅包括音频信号、仅包括控制信号、或包括音频和控制信号的组合。来自本机及对侧装置的控制信号例如一起用于影响本地装置中的决策或参数设置。控制信号例如可包括为用户增强系统质量的信息，例如改进信号处理，例如执行处理算法。控制信号例如可包括方向信息或与佩戴听力仪器的用户当前的声环境的分类有关的信息、非自然信号的可听性等。在实施例中，音频处理系统还包括音频网关设备，用于接收多个音频信号及用于将至少一所接收的音频信号传给音频处理装置（如听力仪器）。在实施例中，音频处理系统适于使得电话输入信号能经音频网关在音频处理装置中接收。除了用于拾取环境中的声音信号的传声器MIC之外，听力仪器HI-1、HI-2中的每一个还包括天线ANT和收发器电路（模块Rx/Tx）以实施到音频网关或其它音频传输装置如电话的无线接口。输入单元IU配置成选择输入信号INw（来自无线接口）或INm（来自传声器）之一或提供两个信号的混合信号，并将所得的信号作为频带拆分的（时频）信号IFB1-IFBNI呈现给信号处理单元SPU。

在实施例中，该系统配置成在第一和第二听力仪器的每一个中独立控制降噪算法的增益。然而，如果在一只耳朵处“检测到”非自然信号因而衰减减小，而在另一只耳朵处没有，则可能有问题。因而，（在该频率和时间的）增益将在一只耳朵处相对于另一只耳朵增加（由于不太过分的降噪，例如衰减从10dB减小到4dB），在一些情形下，这可能被错误地解释为空间信号因而导致用户混淆。

在优选实施例中，关于降噪的控制的信息例如经耳间无线链路IA-WLS在第一和第二听力仪器之间交换，因而使能协调控制相应听力仪器的降噪算法。具体地，关于其增益应增大（衰减减小）以降低产生听得见的非自然信号的风险的时频区域的增益控制的信息在第一和第二听力仪器之间交换。优选地，在第一和第二听力仪器中应用同样的衰减策略（至少关于在有产生听得见的非自然信号的风险的时频区域中的衰减）。

图5示出了确定峰度参数的步骤的示意性图示。正向通路在处理算法之前和之后的信号（例如，分别为图3b中的信号x和z）按时频表示如x(k,m)提供，k为频率指数及m为时间指数。该时频表示在图5的顶部曲线中示意性示出。特定时频TF区间由指数(k,m)的特定组合确定。两个中间的曲线示意性地示出了噪声信号的量值平方的值在特定频率k_p下在应用处理算法之前和之后的可能时间变化（对于N_f个时间帧）（例如图3b中的信号x和z）。在降噪算法的正常运行模式下，在特定时频区间(k,m)的输入信号x的量值│·│或（如在此所示的）量值平方│·│²的值低于预定阈值N_TH（在只有噪声的时间段期间）可导致该TF区间的信号的预定衰减（如6dB）。对应地，大于阈值N_TH的值可导致无衰减应用于该TF区间的信号。这在两个中间曲线中示出，其中三个（在频率k_p时的高量值TF区间）未被衰减，导致“音乐噪声”。根据本发明，对音频处理装置的正向通路在所涉及处理算法如降噪算法之前(K₁(k_p,m))和之后(K₂(k_p,m))的信号在给定频率k_p和时间m的能量（量值平方，│·│²）概率密度函数确定峰度参数K(k_p,m)。图5的底部曲线示出了从随时间而变的信号的中间曲线提取的信号x和z的示意性概率密度函数p(│·│²)。在特定频率k_p和时刻m的峰度参数K(k_p,m)基于多个先前的时间帧，例如对应于滑动窗口（例如，相对于给定（如目前的）时间帧#m的N_f个先前的时间帧），如图5中的顶部曲线中的实线圈所示，记为“分析窗口”。基于相应底部曲线的峰度值（指示峭度）对降噪后的信号（z，右边曲线）将增加，相较于未处理的信号（x，左边曲线）非自然信号识别度量因而将相当大，及可用作非自然信号的指示器（因而用作音乐噪声风险的指示器）。

然而，应用于输出信号（如降噪后的信号或另外处理后的信号）的掩蔽模型或可听性模型优选用于限定听得见和听不见的非自然信号中的非自然信号。

图6示出了给定时间点的噪声信号的示意性感知模型（在此为掩蔽模型）及隐含多个示例性非自然信号的出现（在给定时间点）的非自然信号识别度量AIDM。图6示出了根据针对本发明音频处理装置拾取的噪声信号的特定频率-量值│·│关系（实线）的掩蔽模型的掩蔽阈值-频率k关系（虚线）。表示掩蔽阈值的曲线低于假设噪声电平的频率范围指示非自然信号听得见的频率（在此k<k_x），而表示掩蔽模型的曲线高于假设噪声电平的频率范围指示非自然信号听不见的频率（在此k>k_x）。

图7示出了在包括只有噪声的时间段和噪声下语音时间段（通过话音活动检测器分析得到）的特定频带k_p中时变输入音频信号的量值│·│的示意性例子。

图8示出了由降噪算法应用于音频处理装置的正向通路的音频信号的特定TF区间(k,m)的合成增益G_NR(SNR(k,m))。音频信号通常包括目标信号（如语音信号）和其它声音成分（称为噪声）的混合。降噪算法的目的在于衰减音频信号的噪声部分（以通常使目标信号“更显著地突出”，从而增加可懂度）。通常，音频信号的（例如在信号的每一频带中的）信噪比SNR的估计量在连续的时刻（例如在每一时间帧中，例如以ms级如3.2ms的时间间隔）进行确定。该估计量例如用于确定由降噪算法应用于音频信号（优选特定频带）的增益（衰减）。由降噪算法应用的增益通常允许在最小值G_NR,min（最大衰减如-10dB）和最大值G_NR,max（最小衰减，如无增益，0dB）之间变化。在实施例中，最小增益G_NR,min应用于相对低信噪比（如低于图8中的SNR₁，指示为“有噪声的信号”）的信号（或频带），及最大增益G_NR,max应用于相对高信噪比（如高于图8中的SNR₂，指示为“优良信号”）的信号（或频带）。在相对低和相对高信噪比之间的中间范围中，由降噪算法应用的增益G_NR随SNR递增而从G_NR,min增加到G_NR,max，例如步进（虚线）或线性（实线），或根据任何其它连续函数，例如参见图8。

优选地，实施本申请中提出的感知降噪方案。当特定TF单元(k,m)的非自然信号识别度量AIDM(k,m)（如峰度比）小于阈值AIDM_TH时，识别到没有引入非自然信号的风险，应用降噪算法的正常运算（如上面结合图8所述，在此示为应用最小增益G_NR,min，即预定最大衰减），例如，如果该TF区间的内容表征为噪声（如通过话音活动检测器（例如参见图9a）和/或通过SNR分析单元和/或通过频率分析单元），使所涉及TF区间的量值衰减预定量如10dB。另一方面，如果度量AIDM(k,m)大于阈值AIDM_TH，则存在引入非自然信号的风险，因而应用降噪算法的修改后的运算（基于感知模型，例如参见图6）。

当不考虑非自然信号时（正常模式），算法ALG假定具有用于确定给定TF区间的增益的特定形式。根据本发明，在使用基于TF区间计算的非自然信号识别度量AIDM即AIDM(k,m)识别非自然信号的情形下，当识别到非自然信号时，提出“正常”增益的修改ΔG_ALG。

在实施例中，ΔG_ALG对于所有k和m值均一样。在实施例中，ΔG_ALG随频率（指数k）而变。在实施例中，ΔG_ALG随非自然信号识别度量AIDM(k,m)而变。

在实施例中，语音或话音活动检测器配置成确定在给定时间的音频信号（或全信号和/或信号的特定时频部分）是否包含语音成分。对于降噪算法，当根据下述方案可识别到非自然信号时，提出“正常”增益（图8中的G_NR）的修改ΔG_NR：

-如果在只有噪声期间检测到非自然信号，G_NR(k,m)=G_NR(k,m-1)+ΔG_NR[dB]（有效地，增加G_NR,min）；

-如果在只有噪声期间未检测到非自然信号G_NR(k,m)=G_NR(k,m-1)-ΔG_NR[dB]，（有效地，减小G_NR,min）；

-如果检测到语音，G_NR(k,m)=G_NR(k,m-1)[dB]（有效地，将G_NR保持在只有噪声期间“达到”的值）；

在G_NR0,min(k,m)≤G_NR(k,m)≤G_NR0,max(k,m)条件下，其中G_NR0,min(k,m)和G_NR0,max(k,m)分别为降噪算法应用的增益G_NR的预定最小和最大值（例如分别为-10dB和0dB）。

优选地，限制修改的变化速率，该变化速率由ΔG_NR和信号的连续时间帧之间的时间间隔t_F确定。在实施例中，根据所涉及应用，时间帧具有0.5ms和30ms之间的持续时间（由一个样本的时间长度（由采样速率f_s确定）和每时间帧的样本数量如2ⁿ确定，n为正整数，例如大于或等于6）。相对短的时间帧使系统具有相对低的潜伏时间（例如在所传输的声音信号用于与图像同步的应用中必要，例如现场图像，如在助听器系统中）。相对较长的时间帧导致较高的系统潜伏时间，但在其它应用如蜂窝电话系统中可接受。

在实施例中，ΔG_NR根据非自然信号识别度量AIDM的大小自适应确定，例如使得AIDM(k,m)越大，ΔG_NR越大（例如与AIDM成正比）。

图9c示出了实施本发明中提出的感知噪声降低方案得到的、由降噪算法应用于音频处理装置的正向通路的信号的特定频带(k_p,m)的最小增益G_NR,min(k,m)。图9a示意性地示出了，对于所涉及频带k_p，正向通路的处理后的音频信号（在降噪后）的时间段。图9b示出了在所涉及频带k_p下在只有噪声的时间段的特定时间点识别的非自然信号，并指出了其可听性“a”或不可听性“ia”的估计量。

通常，“只有噪声”的时间段为具有低信噪比的时间段（参见图8中的指示“有噪声的信号”）。因此，在实践中（在实施例中），由本发明提供的降噪算法的修改为应用于信号的频率成分（TF区间）的最小增益G_NR,min（例如参见图8）的修改（在识别到非自然信号并考虑听得见时）以使降噪不太过分（即增加G_NR,min，=>更小衰减），在实践中，增加最小增益（同时保持最大增益G_NR,max恒定）从而使可用于降噪算法的衰减的动态范围最小化，如图9a-9c中所示。图9c的曲线示出了对于根据本发明的听音装置的正向通路（在特定频率k_p下）的特定时变输入信号（如图9a的曲线所示），G_NR,min(k_p,m)在预定最小值G_NR0,min(k,m)和预定最大值G_NR0,max(k,m)之间的动态范围内的修改（当识别到听得见的非自然信号时）。时变输入信号在特定频率下包括与结合图7所示和所述一样的、只有噪声及（噪声下）语音的交替时间段。图9b的曲线指示在只有噪声的时间段期间（所识别的）非自然信号的出现时间。每一非自然信号通过在特定时间点出现的粗垂直线表示并根据其估计的可听性和不可听性在方框中分别记为“a”或“ia”。在第一有噪声的时间段（在时间指数m₁和m₂之间）中出现的非自然信号由感知模型判断为听得见“a”，如小插图所示（在非自然信号上方，图9b中的左图）。该插图示意性地示出了噪声信号谱、掩蔽阈值（由感知模型确定）及相应时间（所识别的）非自然信号的出现。上述插图中的噪声谱（实线）和掩蔽阈值（虚线）原则上对应于一个特定时刻，但所有三个非自然信号均假定在掩蔽阈值使得所涉及非自然信号听得见的时间点出现。相反，在第二只有噪声的时间段（在时间指数m₃和m₄之间）出现的非自然信号由感知模型判定为听不见“ia”，同样如小插图所示（在非自然信号上方，图9b中的右边部分）。

优选地，步长ΔG_NR和帧时间长度（t_F确定从时间指数m到时间指数m+1的时间单位）配置成，当检测到非自然信号时，使得降噪增益G_NR(k,m)的自适应速率为在正向通路的处理后的信号中产生非自然信号的风险和希望确保积极的降噪之间的折中。在实施例中，选择ΔG_NR和t_F使得G_NR(k,m)的自适应速率在从0.5dB/s到5dB/s的范围中。示例性的5ms的帧长度t_F和2.5dB/s的自适应速率例如导致为0.0125dB的每时间单位步长ΔG_NR(ΔG_NR/t_F=AR)。

本发明由独立权利要求的特征限定。从属权利要求限定优选实施例。权利要求中的任何附图标记不意于限定其范围。

一些优选实施例已经在前面进行了说明，但是应当强调的是，本发明不受这些实施例的限制，而是可以权利要求限定的主题内的其它方式实现。

参考文献

·EP 2 463 856 A1

·[Uemura et al.;2012]Y.Uemura et al.,"Automatic Optimization Schemeof Spectral Subtraction based on Musical Noise Assessment via higher-orderstatistics,"Proc.ICASSP2012.

·[Yu&Fingerscheidt;2012]H.Yu,and T.Fingscheidt,"Black BoxMeasurement of Musical Tones Produced by Noise Reduction Systems,"Proc.ICASSP2012.

·[Uemura et al.;2009]Y.Uemura et al.,"Musical Noise GenerationAnalysis for Nosie Reduction Methods Based on Spectral Subtraction and MMSESTSA Estimation",Proc.ICASSP2009,pp4433-4436.

·EP 2 144 233 A2

·[Berouti et al.;1979]M.Berouti,R.Schwartz and J.Makhoul,“Enhancement of speech corrupted by acoustic noise”Proc IEEE ICASSP,1979,4,pp.208-211.

·[Cappe;1994]Olivier Cappe,"Elimination of the Musical NoisePhenomenon with the Ephraim and Malah Noise Suppressor,"IEEE Trans.on Speechand Audio Proc.,vol.2,No.2,Apr.1994,pp.345-349.

·[Linhard et al.;1997]Klaus Linhard and Heinz Klemm,“Noise reductionwith spectral subtraction and median filtering for suppression of musicaltones,”Proc.of ESCA-NATO Workshop on Robust Speech Recognition for UnknownCommunication Channels,1997,pp159-162.

·[Fastl&Zwicker,2007]H.Fastl,E.Zwicker,Psychoacoustics,Facts andModels,3^rd edition,Springer,2007,ISBN 10 3-540-23159-5.

·WO2005/086536A1

Claims

1.一种音频处理装置，包括：

-用于处理音频信号的正向通路，所述正向通路包括：

○用于输送表示所述音频信号的时变电输入信号的输入单元，所述电输入信号包括目标信号部分和噪声信号部分；

○信号处理单元，用于对所述电输入信号应用包括降噪算法的处理算法并提供处理后的噪声降低的信号；及

○用于基于所述处理后的信号发送输出信号的输出单元；

-分别在所述信号处理单元之前和之后从所述正向通路接收输入信号的控制单元，所述控制单元包括用于分析所述电输入信号的功能件，所述控制单元包括：

○非自然信号识别单元，用于识别由所述处理算法引入所述处理后的噪声降低的信号内的非自然信号，由所述降噪算法引入并由所述非自然信号识别单元识别的非自然信号为音乐噪声，所述非自然信号识别单元还用于提供非自然信号识别度量；

○模型单元，包括人听觉系统的感知模型并提供可听性度量；及

○增益控制单元，用于基于来自所述模型单元和所述非自然信号识别单元的输入控制由所述处理算法应用于所述正向通路的信号的增益，其中所述处理算法在给定频率和时间的增益仅在所涉及的非自然信号被估计听得见时进行修改，其中所涉及的非自然信号是否听得见通过所述感知模型确定。

2.根据权利要求1所述的音频处理装置，包括用于将时域信号转换为频域信号的时间到时频转换单元，其中所述时间到时频转换单元配置成提供正向通路的信号在多个频带k和多个时刻m的时频表示，k为频带指数及m为时间指数，因而(k,m)确定包括对应于时刻m和频率指数k的信号的复值或实值的特定时频区间或单元。

3.根据权利要求1或2所述的音频处理装置，其中定义关于所述非自然信号识别度量的值的、指明给定时频区间(k,m)中存在非自然信号的预定判据。

4.根据权利要求1或2所述的音频处理装置，其中所述非自然信号识别单元配置成基于所述正向通路的一个或多个信号的峰度度量确定非自然信号。

5.根据权利要求1或2所述的音频处理装置，还包括话音活动检测器(VAD)，配置成指示在给定时间点所述输入音频信号中是否存在人话音。

6.根据权利要求5所述的音频处理装置，配置成在所述电输入信号中不存在话音的时间跨度期间进行峰度分析。

7.根据权利要求1或2所述的音频处理装置，其中所述降噪算法为单通道降噪SC-NR算法。

8.根据权利要求1所述的音频处理装置，其中所述增益控制单元配置成在识别到非自然信号时修改所述处理算法的增益。

9.根据权利要求8所述的音频处理装置，其中所述修改包括将计划由所述处理算法应用的增益减小预定量。

10.根据权利要求8或9所述的音频处理装置，其中所述增益控制单元配置成将所述修改的速率限制为0.5dB/s到5dB/s之间的值。

11.根据权利要求1或2所述的音频处理装置，其中所述感知模型包括掩蔽模型，配置成识别所述处理后的信号或源自其的信号的给定时频单元的所识别非自然信号被当前信号的其它部分何种程度地掩蔽。

12.根据权利要求1或2所述的音频处理装置，包括助听器、耳麦、头戴式耳机、耳朵保护装置或者其组合。