CN110036440A

CN110036440A - 用于处理音频信号的装置和方法

Info

Publication number: CN110036440A
Application number: CN201780064337.0A
Authority: CN
Inventors: 安东尼·隆巴德; 伯恩哈德·比泽尔; 德克·马内; 埃德温·马半德; 法比安·库赤; 伊曼纽尔·哈比茨; 保罗·安尼拔勒
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-10-18
Filing date: 2017-10-17
Publication date: 2019-07-19
Anticipated expiration: 2037-10-17
Also published as: US11056128B2; BR112019007785A2; WO2018073253A1; EP3529805B1; ES2845154T3; EP3529805A1; CN110036440B; MX2019004230A; JP6857344B2; JP2019537074A; CA3040201C; US20210233551A1; KR20190065424A; RU2725017C1; EP3312838A1; US20190267022A1; CA3040201A1; US11664040B2; KR102269396B1

Abstract

一种用于处理音频信号的装置，包括音频信号分析器和滤波器。音频信号分析器被配置为分析音频信号以确定用于音频信号的多个频带的多个噪声抑制滤波值，其中分析器被配置为确定噪声抑制滤波值，使得噪声抑制滤波值大于或等于最小噪声抑制滤波值，并且使得最小噪声抑制值取决于音频信号的特征。滤波器被配置用于对音频信号进行滤波，其中基于噪声抑制滤波值来调整滤波器。

Description

用于处理音频信号的装置和方法

技术领域

本发明一般而言涉及音频信号处理。具体而言，本发明涉及自动控制音频信号中言语和噪声电平的技术和方法。

背景技术

全双工言语通信场景在图13中示出，其中近端说话者的语音由一个或数个麦克风捕获并且被发送到经由扬声器或耳机收听捕获的声音的远端扬声器。为了改善远端收听者的收听舒适度和可理解度，可以应用一些音频信号处理技术来移除或至少衰减不期望的声音分量，包括声学回声或背景和传感器噪声，同时保留近端说话者的语音。改善收听舒适度和可理解度的另一个重要方面是将增强的信号的电平调节到远端收听者的舒适电平。无论声音捕获设备的灵敏度如何，并且无论从近端说话者到麦克风的距离如何，这可以提供一致的言语电平。

在这种全双工言语通信场景中，应当使用声学回声抵消、声学回声抑制或两种技术的组合来完全去除偶发回声，例如在[1，2，3]中描述的。相反，诸如背景或传感器噪声之类的更持久的干扰通常只能使用一些降噪方法被衰减到一定量以保持言语质量，例如[4]中所描述的。因此，对于要求苛刻的(即，复杂的或不利的)声学环境，所得到的信号可以包含一些衰减但仍然可听到的噪声分量。自动增益控制的目标是将增强的言语信号的电平带到预定义的和舒适的电平。典型的音频信号处理链在图14中绘出，包括某些或者基于声学回声抵消或者基于声学回声抑制的回声控制、降噪模块和自动增益控制模块。处理链末端的舒适噪声模块生成伪随机噪声，以确保系统输出处的噪声电平令人愉悦且在时间上平滑。例如，在远端活动期间通过回声控制触发舒适噪声注入，例如[5]中所描述的。

此外，在言语通信中，降噪旨在衰减音频信号中存在的一些静止或缓慢时变的背景或传感器噪声，同时保留期望的言语信号。这例如逐帧在频域中执行。例如，对于每个时间帧，表现出低信噪比(SNR)的频谱区域被衰减，而高SNR区域保持不变。此外，如上所述，可以考虑更一般的信号干扰(SIR)比来处理频谱区域。

在[6]中，独立于AGC(＝自动增益控制)增益计算第一NR(＝降噪)滤波器。然后通过根据AGC增益将第一NR滤波器进行缩放来计算第二NR滤波器，即，对于大的AGC增益，NR增益减小(强噪声衰减)，而对于小的AGC增益，NR增益增加(减少的噪声减少)。第二滤波器应用于输入信号。相反，本发明的一个方面是得出同时执行NR和AGC的滤波器。这可以单独提供对言语和噪声电平的完全控制。

在这样的系统中，特别存在的问题是，固定地设置最小噪声抑制滤波值，导致经处理的音频信号的音频质量降低。

关于所描述的处理音频信号的问题，存在对改进的概念的期望，从而提供经处理的音频信号的改善的音频质量。

发明内容

根据本发明的优选实施例创建了一种用于处理音频信号的装置，包括用于分析音频信号以确定音频信号的多个频带的多个噪声抑制滤波值的音频信号分析器，其中分析器被配置为确定噪声抑制滤波值，使得噪声抑制滤波值大于或等于最小噪声抑制滤波值。此外，音频信号分析器被配置为使得最小噪声抑制滤波值取决于音频信号的特征。此外，装置包括用于对音频信号进行滤波的滤波器，其中基于噪声抑制滤波值来调节滤波器。

所描述的实施例提供了提供经处理的音频信号的改善的音频质量的优点。改进是由于用于过滤信号的噪声抑制滤波值，其中噪声抑制滤波值被调节，使得它们大于或等于最小噪声抑制滤波值。以所描述的方式选择噪声抑制滤波值是有利的，从而可以避免由于小噪声抑制滤波值的信号处理引起的信号失真。此外，基于音频信号的特征以灵活的方式执行最小噪声抑制滤波值的选择。例如，可以实现最小噪声抑制滤波值的灵活性，使得当音频信号的特征大时确定小的最小噪声抑制值，或者当音频信号的特征小时可以将最小噪声抑制滤波值设置为大值。由此，可以针对各种潜在的音频信号调节最小噪声抑制滤波器。通过利用所描述的噪声抑制滤波值对音频信号进行滤波，可以获得具有更高质量的音频信号，例如以由于噪音抑制而导致的更恒定的噪声电平为特征。此外，由于滤波器由于灵活的最小噪声抑制滤波值而有效地抑制了噪声，因此可以实现经处理的音频信号的更舒适的收听体验。

而且，所描述的装置对于处理音频信号可以是有利的，从而抑制或衰减不期望的信号分量，例如背景噪声分量，并且保留或增强期望的信号分量。特别地，当例如言语信号被认为是音频信号的期望分量时，所描述的实施例允许保留言语信号。此外，由于不期望的信号分量的减少，言语信号的可理解度可以增加。而且，例如听力受损的收听者可以从通过上述实施例处理后的信号大大受益，因为言语信号的可理解度对于听力受损的人来说是最重要的主题。此外，所描述的实施例使收听者能够获得舒适的收听体验。因为信号的不期望的和分散注意力的分量被衰减或去除。此外，当音频信号例如由麦克风获取并且期望信号分量的能量由于例如到源的麦克风的变化距离、变化的麦克风灵敏度或由源(例如，说话的人)发出的能量的变化的量而变化时，所描述的实施例能够增强期望的信号分量。

根据优选实施例，音频信号分析器被配置为使用基于多个无约束噪声抑制滤波值和最小噪声抑制滤波值的最大值决定来确定噪声抑制滤波值，最小噪声抑制滤波值对于音频信号的多个频带是相等的。如上所述的音频信号分析器可以有利于避免例如由于激进的噪声抑制而引起的言语失真或乐音。例如，当基于SNR(＝信噪比)估计频带的噪声抑制滤波值并且例如采用不可靠的SNR估计器时，指示SNR为0，其中仍存在一些期望的信号分量，频带可能被完全抑制。频带的完全抑制可以导致不期望的伪像，例如当言语实际存在于频带中时的言语失真，或乐音，例如由于噪声整形。此外，所描述的实施例促进对于多个频带相同量的最小噪声抑制。

根据优选实施例，音频信号分析器被配置为从音频信号的帧计算增益值作为音频信号的特征。增益值对于增强音频信号可以是有利的。例如，当音频信号包含具有强变化能量的期望信号分量时，可以将增益值应用于信号以便补偿能量的变化。例如，当期望的信号分量是言语信号时，可理解度可以极大地受益于将增益值应用于音频信号。此外，例如，还可以增加收听舒适度，当通过应用增益值时，实现更恒定的期望信号能量。

根据优选实施例，音频信号分析器被配置为基于预定噪声抑制值和增益值来计算最小噪声抑制滤波值。如前所述计算最小噪声抑制滤波值可以有益于调整最小噪声抑制滤波值，使得虽然可以通过应用增益值来放大音频信号的期望信号分量，但是不期望的信号分量(例如背景噪声)仍然可以被高效地抑制。因此，例如，所描述的优选实施例对于不期望的信号分量的整体系统响应将不会被放大，即，不期望的信号分量将被衰减或不变地通过。

在另一个优选实施例中，音频信号分析器被配置为计算最小噪声抑制滤波值，使得最小噪声抑制滤波值随着增益值的增加而减小。当将增益值应用于音频信号时，所描述的最小噪声抑制滤波值与增益值之间的反比例性可以是有益的。例如，当提供大增益值时，将相应地放大受增益值影响的音频信号的噪声分量。因此，与增益值成比例的减小最小噪声抑制滤波器可以导致由优选实施例实现的恒定的总噪声抑制。

在另一个优选实施例中，音频信号分析器被配置为使用基于预定噪声抑制值以及预定噪声抑制值与增益值的商的最小值决定来计算最小噪声抑制滤波值。使用如上所述的最小值决定可以有益于实现舒适的收听体验，例如当提供小增益值时，预定噪声抑制值与增益值的商是大的。因此，基于这个商的降噪可以导致降低的噪声量不足，而在所述优选实施例中，确保了最小噪声抑制。由此，可以提供舒适的收听体验，因为噪声至少降低到期望的预定量。

在另一个优选实施例中，音频信号分析器被配置为根据第一最小值决定确定最小噪声抑制滤波值，该第一最小值决定取决于预定噪声抑制值和第二最小值决定的结果。第二最小值决定的结果取决于增益值的倒数和最大值决定的结果。最大值决定的结果取决于预定失真限制值的倒数以及预定噪声抑制值与增益值的商。所描述的音频信号分析器的配置可以是有益的，以便减少降噪伪像，例如由于激进的噪声抑制引起的言语失真。特别地，大增益值可以导致预定噪声抑制值与增益值的小商，可能导致接近0的值，因此当作为最小噪声抑制值应用时可能造成信号失真。采用如优选实施例中所述的下限，由估计最小噪声抑制滤波值所涉及的最大值决定执行，避免了这种可能性，从而实现了可能更舒适的收听体验。

在另一个优选实施例中，音频信号分析器被配置为确定最小噪声抑制滤波值，使得其当增益值在0和1之间时等于预定噪声抑制值，或者当增益值大于1时等于预定噪声抑制值与增益值的商。所描述的用于音频信号分析器的配置是有利的，以便提供取决于增益值的灵活最小噪声抑制滤波值，使得大增益值不会降低可实现的降噪。

在另一个优选实施例中，音频信号分析器被配置为确定最小噪声抑制滤波值，使得当增益值在0和1之间时，它等于预定噪声抑制值。否则，当增益值在1和预定噪声抑制值与预定失真限制的乘积之间时，最小噪声抑制滤波值等于预定噪声抑制值与增益值的商。否则，当增益值大于预定噪声抑制值和预定失真限制的乘积并且小于预定失真限制时，最小噪声抑制滤波值等于预定失真限制的倒数值。否则，当增益值大于预定失真限制时，最小噪声抑制滤波值等于增益值的倒数值。如上所述配置的音频信号分析器通过甚至对于大增益值提供更大的最小噪声抑制滤波值而有益于避免言语失真或乐音，从而避免激进的噪声抑制。

在另一个优选实施例中，音频信号分析器被配置为分析音频信号的多个频带中的频带，以确定频带是具有音频信号的第一特征还是音频信号的第二特征，其中第一特征与第二特征不同。此外，音频信号分析器被配置为当已经为频带确定了第二特征时确定噪声抑制滤波值，使得当增益值在0和1之间时噪声抑制滤波值等于预定噪声抑制值和增益值的乘积。否则，当增益值在1和预定噪声抑制值与预定失真限制的乘积之间时，噪声抑制滤波值等于预定噪声抑制值。否则，当增益值大于预定噪声抑制值和预定失真限制的乘积并且小于预定失真限制时，噪声抑制滤波值等于增益值与预定失真限制的商。否则，当增益值大于预定失真限制时，噪声抑制滤波值等于1。当例如第二特征描述音频信号的噪声内容时，如上所述的音频信号分析器可以有益于提供噪声抑制滤波值。第二特征可以是非活动帧或频带，例如语音活动指示帧或频带中不存在语音。在所描述的噪声场景中，整体系统响应不导致噪声的放大。

在另一个优选实施例中，音频信号分析器被配置为针对音频信号的第一帧计算导致第一最小噪声抑制值的第一增益值。此外，音频信号分析器被配置为针对音频信号的第二帧计算导致非平滑的第二最小噪声抑制滤波值的第二增益值，其中第二帧在时间上跟随第一帧。而且，音频信号分析器被配置为使用非平滑的第二最小噪声抑制滤波值和第一最小噪声抑制滤波值来计算第二帧的平滑的最小噪声抑制滤波值。如上所述配置的音频信号分析器可以有益于避免最小噪声抑制滤波值的大波动，从而提供平滑的残余噪声电平，从而避免不舒服的噪声抽吸效应(noise pumping effect)。

在另一个优选实施例中，装置包括第一时频转换器，第一时频转换器提供音频信号的频域表示，该频域表示提供音频信号的多个频带。此外，音频信号分析器被配置为基于音频信号的多个频带中的一个或多个频带和最小噪声抑制值计算音频信号的多个频带中的频带的噪声抑制滤波值。而且，最小噪声抑制滤波值基于对于音频信号的多个频带的每个频带是相等的预定噪声抑制值、或者对于音频信号的多个频带是相等的预定失真限制，以及从音频信号的特征得出的值(该值对于音频信号的多个频带的每个频带是相等的)。从音频信号的特征得出的值可以例如是增益值。此外，如上所述的装置可以有益于基于第一时频转换器提供灵活的频谱分辨率，从而使得能够对音频信号的多个频带中的每个频带进行单独处理。

在另一个优选实施例中，滤波器被配置为通过对频带应用噪声抑制滤波值来修改音频信号的多个频带中的每个频带，以获得第二多个频带。此外，装置包括被配置为从第二多个频带提供时域输出信号的第二时频转换器。如上所述的装置可以有益于在从第二多个频带得出的输出处产生可听音频信号。

在另一个优选实施例中，该装置包括被配置为提供由音频信号分析器提供的噪声抑制滤波值的时域变换的第二时频转换器。此外，滤波器被配置为提供通过对时域变换的噪声抑制滤波值和音频信号进行卷积而获得的输出音频信号。如上所述的装置有利于获得接近实时操作的低延迟系统，因为对于滤波不需要由于基于帧的处理而引起的延迟。

在另一个优选实施例中，音频信号分析器被配置为计算音频信号的振幅信息。此外，音频信号分析器被配置为基于振幅信息(音频信号的特征)和预定目标值来计算增益值，作为音频信号的特征(从其导出的值)，音频信号通过增益值被调节到预定目标值。由于例如音频信号中期望信号分量的能量变化，所提供的增益值可以有利地用于例如将信号放大或衰减到目标值。

在另一个实施例中，音频信号分析器被配置为在计算振幅信息之前利用心理声学滤波器对音频信号进行滤波。而且，心理声学滤波器被配置为表现出用于第一频率范围的第一衰减值、用于第二频率范围的第二衰减值、以及用于第三频率范围的第三衰减值。此外，滤波器被配置为使得第二频率范围在第一频率范围和第三频率范围之间。第一频率范围、第二频率范围和第三频率范围可以被配置为不重叠。此外，滤波器被配置为使得第二衰减值小于第一衰减值和第三衰减值。如上所述，取决于心理声学滤波器的振幅信息的计算可以有益于基于振幅信息提供主观上更合适的增益值的计算。基于心理声学测量计算的增益值，例如dB(A)、dB(B)或dB(C)，在应用于音频信号时可以导致更舒适的收听体验。

在另一个优选实施例中，音频信号分析器包括：语音活动检测单元，提供音频信号的第一帧的第一语音活动信息，以及音频信号的第二帧的第二语音活动信息；以及存储器单元，存储先前的增益值。此外，音频信号分析器被配置为基于根据第二语音活动信息在其中检测到语音的音频信号的第二帧来估计增益值。可替代地，音频信号分析器被配置为当基于第一语音活动信息在第一帧中检测到语音时，如果根据第二语音活动信息在第二帧中没有检测到语音活动，保持第一帧的增益值，其中第二帧在时间上跟随第一帧。如上所述的装置可以有利于避免计算其中不存在感兴趣的信号的音频信号的片段中的增益值，从而避免例如放大不期望的信号分量。

在优选实施例中，音频信号分析器被配置为基于从针对当前帧计算的音频信号的特征得出的值来计算当前帧的最小噪声抑制值。此外，音频信号分析器被配置为分析音频信号以确定从音频信号的特征得出的值。而且，滤波器包括第一滤波器级和第二滤波器级，其中使用从音频信号的特征得出的值(例如，增益值)来调节第一滤波器级。此外，根据噪声抑制滤波值调节第二滤波器级。所描述的优选实施例使得能够实现灵活的滤波器结构，例如第一级可以跟随第二级，因为它们不相互依赖。

在另一个优选实施例中，音频信号分析器被配置为基于从针对第一帧计算的音频信号的特征得出的值来计算第二帧的最小噪声抑制值。此外，滤波器包括第一滤波器级和第二滤波器级，其中根据噪声抑制滤波值调节第一滤波器级，并且其中使用从音频信号的特征得出的值来调节第二滤波器级。而且，音频信号分析器被配置为分析第一滤波器级的输出以确定从音频信号的特征得出的值，其中第二帧在时间上跟随第一帧。如上所述配置的音频信号分析器有益于实现音频信号的灵活和低延迟滤波，因为可以采用先前计算的增益值。

在另一个优选实施例中，音频信号分析器被配置为基于语音活动信息和音频信号确定增益值。可替代地，音频信号分析器被配置为基于语音活动信息和被噪声抑制滤波值过滤之后的音频信号来确定增益值。而且，音频信号分析器被配置为基于音频信号获得语音活动信息。此外，音频信号分析器被配置为基于被滤波器滤波之后的音频信号获得语音活动信息。可替代地，音频信号分析器被配置为使得指示不存在言语的语音活动信息用于减小增益值。如上所述的音频信号分析器在哪个信号用于增益计算或者哪个信号用于语音活动检测方面提供灵活性，并且通过在言语暂停期间减小增益值或甚至在言语暂停期间不应用增益来避免噪声放大。

本发明的实施例提供了一种用于处理音频信号的方法，该方法包括：分析音频信号以确定用于音频信号的多个频带的多个噪声抑制滤波值，确定噪声抑制滤波值，使得噪声抑制滤波值大于或等于最小噪声抑制滤波值，并且使得最小噪声抑制滤波值取决于音频信号的特征；以及基于噪声抑制滤波值对音频信号进行滤波。所描述的方法是有利的，例如，当音频信号的特征用于估计可以应用于音频信号的增益值时。此外，通过取决于增益值适当选择必要的噪声抑制滤波值，可以将灵活的噪声抑制滤波器调节到这个值。由此，可以避免不期望的信号分量的放大，并且可以实现期望分量的保持或增强，从而实现舒适的收听体验。

另一个优选实施例包括具有程序代码的计算机程序，当计算机程序在计算机或微控制器上运行时，该程序代码用于执行所述方法。

此外，方面涉及用于分析音频信号以确定噪声抑制滤波值以及基于噪声抑制滤波值对音频信号进行滤波的装置，其中最小抑制滤波值取决于音频信号的特征。

此外，本发明的实施例涉及用于联合降噪和自动增益控制的装置和方法，其提供自动控制输出信号中的言语信号电平，同时防止噪声电平的任意放大或快速波动的手段。本发明的另外的实施例描述了包括控制机制的装置和方法，以减轻针对大增益值的信号失真，例如AGC(＝自动增益控制)增益。此外，本发明的实施例涉及联合执行NR(＝降噪)和AGC。本发明的另一方面是提供一种用于期望言语分量的自动增益控制机制，同时防止噪声电平的任意放大和不期望波动。

而且，本发明的方面涉及处理音频信号的领域，更具体而言涉及用于自动调节音频信号的电平的方法，例如包含一些期望的言语分量以及一些不期望的噪声分量的音频信号。

此外，本发明的方面涉及用于联合降噪和自动增益控制的实施例，其提供自动控制输出信号中的言语信号电平的手段，同时防止噪声电平的任意放大或快速波动。本发明的方面还包括控制机制，以减轻针对大AGC增益的信号失真。

附图说明

在下文中，将参考附图解释本发明的实施例，其中：

图1示出根据本发明实施例的框图；

图2示出根据图1的装置的实施例的音频信号分析器的框图；

图3示出根据本发明的装置的实施例的框图；

图4示出根据本发明的装置的实施例的框图；

图5示出根据图2的音频信号分析器的滤波值选择级的框图；

图6示出根据图2的音频信号分析器的滤波值选择级的框图；

图7示出根据图2的音频信号分析器的滤波值选择级的框图；

图8示出根据本发明优选实施例的框图；

图9示出根据本发明优选实施例的框图；

图10示出整体系统响应的图；

图11示出独立于增益值的最小噪声抑制滤波值的图；

图12示出信号处理之前和之后的信号的曲线图；

图13示出全双工言语通信场景的框图；

图14示出全双工言语通信场景的接收器或发送器侧的框图；

图15示出根据本发明一个方面的框图；

图16示出根据本发明一个方面的框图；

图17示出根据本发明一个方面的框图；

图18示出根据本发明优选实施例的框图；以及

图19示出根据本发明优选实施例的框图。

具体实施方式

图1描绘根据本发明实施例的用于处理音频信号110的装置100的框图，其中音频信号110可以以频谱表示提供，其中滤波器120根据由音频信号分析器130提供的噪声抑制滤波值被调节。在音频信号分析器中确定130a噪声抑制滤波值，使得它们大于最小噪声抑制滤波值130b'。基于音频信号130c'的特征在130b中确定最小噪声抑制滤波值130b'，该特征在130c中在音频信号分析器130中确定。此外，估计是基于在130d中针对音频信号的多个频带估计的无约束的噪声抑制滤波值130d'。此外，音频信号130c'的特征对于音频信号的多个频带是相等的。基于音频信号110(例如输入音频信号)的功率谱密度(PSD)和包含在音频信号110中的噪声的PSD可以例如根据诸如Wiener滤波器的最佳滤波器来估计无约束噪声抑制滤波值130d'

其中例如m是时间帧索引并且k是频谱子带索引。Wiener滤波器H_NR,Wiener(m,k)从有噪信号中提取如上所述计算的期望信号。在实践中，必须针对Wiener滤波器估计PSD。

通过将音频信号的多个频带(例如输入频谱)与上述滤波器H_NR,Wiener(m,k)相乘，例如在逐帧的基础上，可以在频域中获得增强信号。

通过观察，SNR可以被定义为

用于Wiener滤波器H_NR,Wiener(m,k)的等式可以重新表示为

因此，Wiener滤波器H_NR,Wiener(m,k)对于SNR(m,k)＝0取零值，并对于大SNR值收敛到一，这是在保留期望信号分量的同时衰减噪声的期望行为。可替代地，不同类型的滤波器，如频谱振幅估计器[4]，可以用于估计无约束噪声抑制滤波值。而且，无约束噪声抑制滤波值可以基于启发式函数。

音频信号100可以包括期望的分量，例如言语，以及某些不期望的分量，例如背景噪声。滤波器120由信号分析器130调节，使得例如在用滤波器120对音频信号110进行滤波之后，音频信号110的言语信号分量将更容易理解。此外，在利用滤波器120对音频信号110进行滤波之后，可以抑制音频信号110的不期望分量。充当对无约束噪声抑制滤波值的约束的最小噪声抑制滤波值使得能够实现信号增强并避免言语失真或乐音。

装置100促进增强音频信号110的期望信号分量，同时提供信号增强与噪声抑制之间的折衷。这种折衷的特征在于充当约束的最小噪声抑制滤波值，因为它可以被调节以或者去除更多的不期望的信号分量或减少不期望的信号分量的去除以避免信号失真。

图2示出根据如图1所描绘的装置100的本发明实施例的音频信号分析器130的框图。音频信号分析器130基于音频信号215的多个频带执行无约束噪声抑制滤波值估计210。对于音频信号215的多个频带中的每个频带，在音频信号分析器130中估计无约束噪声抑制滤波值220。此外，基于从音频信号232的特征得出的值(例如，增益值)和预定噪声抑制值234，执行最小噪声抑制值估计230。无约束噪声抑制滤波值220和最小噪声抑制滤波值240用于确定噪声抑制滤波值250。这可以例如通过执行最大值操作来完成，从而获得用于音频信号215的多个频带的多个噪声抑制滤波值260。确保通过最大值操作250获得的噪声抑制滤波值260大于最小噪声抑制滤波值240，从而可以避免噪声抑制滤波值的小值或等于0的值。通过避免噪声抑制滤波值260的小值或等于0的值，可实现的噪声抑制受到最小噪声抑制滤波器240值的限制，从而避免由于激进噪声抑制引起的潜在失真。

图3示出根据本发明优选实施例的装置300的框图。装置300包括音频信号分析器130和滤波器310。此外，装置300包括第一时频转换器320a和第二时频转换器320b。而且，装置300允许在用滤波器310对音频信号110进行滤波之前或之后将增益值应用于音频信号110。这种可选性由开关330a和330b指示。而且，装置300包括另一个开关330c，其使得能够在用滤波器310对音频信号110进行滤波之前或之后计算从音频信号110的特征得出的值(例如，增益值)。此外，音频信号分析器130包括语音活动检测340、心理声学滤波器342和存储器单元346。取决于语音活动检测340的结果，当检测到语音时，基于由心理声学滤波器342过滤的音频信号110，计算348音频信号348a的特征，例如振幅信息。

而且，当语音活动检测340检测到语音时，基于振幅信息348a和目标值计算350新的增益值。此外，当语音活动检测340未检测到语音时，开关352使得能够使用保存在存储器单元346中的旧增益值。相反，当语音活动检测340检测到语音时，存储器346中的旧增益值将被当前帧350a的增益值覆写。

而且，音频信号分析器130被配置为基于音频信号354的多个频带，例如基于Wiener滤波器，计算无约束噪声抑制滤波值356。此外，音频信号分析器130被配置为估计最小噪声抑制滤波值358，其基于预定噪声抑制值g_des 234，例如噪声衰减限制g_des，或预定失真限制358a以及从音频信号的特征得出的值，例如增益值。如果语音活动检测340没有检测到语音活动，那么在当前帧中，对于最小噪声抑制值358c的计算，最小噪声抑制滤波值估计358可以依赖于存储在存储器单元346中的增益值。如果语音在当前帧中是活动的，那么当前增益值可以被用于最小噪声抑制值估计358，通过开关358b促进新旧增益值之间的选择。

在最小噪声抑制滤波值估计358中获得的最小噪声抑制滤波值358c可以经受可选的平滑360。平滑或非平滑的最小噪声抑制滤波值360a(其对于音频信号354的多个频带是相等的)以及通过无约束噪声抑制滤波值估计356获得的多个无约束噪声抑制滤波值356a经受最大值操作362。最大值操作362为音频信号354的多个频带提供噪声抑制滤波值364，用于调节滤波器310。

以其最简单的形式中，应用恒定的最小噪声抑制值。Wiener滤波器H_NR,Wiener(m,k)对于SNR(m,k)＝0取零值，并且对于大SNR值收敛到1，这是衰减音频信号的不期望的信号分量(例如，噪声)同时保留期望的信号分量(例如，言语)的期望行为。可以采用恒定的最小噪声抑制滤波值g_lim＝g_des来避免激进的降噪。因此，噪声抑制滤波值被限制为最大噪声衰减量，如下所示：

G_NR,Wiener(m,k)＝max{H_NR,Wiener(m,k)；g_lim}

＝max{H_NR,Wiener(m,k)；g_des}，

这里针对基于Wiener滤波器的无约束噪声抑制滤波值进行描述，但是也可以相应地应用于以不同方式获得的无约束噪声抑制滤波值H_NR(m,k)。噪声衰减限制g_lim被限定为0≤g_lim≤1。它与滤波器G_NR,Wiener(m,k)的最大噪声衰减对应，其也可以被解释为在言语暂停期间期望的噪声衰减量，即，g_lim＝g_des。它通常在-20dB和-10dB之间选择。由于也可以采用其它滤波规则来代替Wiener滤波器，因此上述等式可以如下一般化：

G_NR(m,k)＝max{H_NR(m,k)；g_des},

其中，基于任意降噪规则，H_NR(m,k)指任意无约束噪声抑制滤波值。

滤波器310向音频信号的每个频带354a-d应用噪声抑制滤波值364a-d的适当值。通过用滤波器310对音频信号354的多个频带进行滤波，获得第二多个频带366。可以用第二时频转换器320b将第二多个频带366变换到时域，从而获得可听信号。

此外，用开关330a和330b指示的、在对音频信号110进行滤波之前或之后与增益值的相乘使得装置300能够补偿音频信号110中期望信号分量的较低电平。此外，与基于时域的卷积相比，装置300通过利用滤波器310对频域中的音频信号110进行滤波而由于频域中的操作节省了功率。

对于给定的AGC增益值G_AGC(m)，作为从音频信号110的特征得出的值，联合NR+AGC任务被认为是滤波问题，其中期望信号不再是音频信号110的期望信号分量，例如，言语信号本身，而是由AGC增益缩放的期望信号分量。例如，得出Wiener滤波器从有噪声的输入信号中提取缩放的期望信号分量，例如言语信号，我们获得以下滤波规则：

如上面针对降噪所描述的，它可以作为Wiener滤波器H_NR,Wiener(m,k)的函数被修订：

H_{NR+AGC,Wiener}(m,k)＝H_NR,Wiener(m,k)G_AGC(m)，

其中G_AGC(m)是增益值，例如AGC比例因子。

如前所述，引入了限制信号失真的噪声衰减限制g_lim＝g_des：

因此，从G_{NR+AGC,Wiener}(m,k)的检查可以看出，联合执行NR和AGC等同于在Wiener滤波器的输出处(或等同地在其输入处)应用AGC比例因子G_AGC(m)，受到最小噪声抑制值，例如，噪声衰减限制，与AGC增益成正比。

而且，上述针对G_{NR+AGC,Wiener}(m,k)的等式可以被一般化到任意最优或启发式过滤规则，从而产生

其中

此外，可以通过以联合方式执行AGC和NR处理来估计最小噪声抑制值以及因此估计噪声抑制滤波值，因为这允许更好地控制在输出处音频信号110的期望信号分量(例如言语)的电平，以及噪声电平。利用VAD(＝语音活动检测)来触发电平估计和增益计算步骤，但是对于每个帧执行NR输出信号和AGC增益的相乘，而不管言语活动如何。根据本发明的一方面，滤波不依赖于固定的最小噪声抑制值，例如，固定的噪声衰减限制。相反，应用从音频信号110的特征得出的值(例如，AGC增益)相依的(以及因此例如时变)最小噪声抑制滤波值(例如，噪声衰减限制产生NR滤波器

其中，作为期望的噪声衰减g_des(0≤g_des≤1)和AGC增益的函数逐帧地调整上标[UC]是指无约束的情况，与后面提出的约束情况形成对比。

根据本发明的方面，依赖增益值的最小噪声抑制滤波值(例如，噪声衰减限制可以根据g_des/G_AGC(m)获得。根据另一方面，最小噪声抑制值(例如，无约束噪声衰减限制)以不同的方式定义，以便在AGC衰减信号(即，G_AGC(m)<1)时获得更好的噪声衰减：

AGC增益不用于作为AGC增益的函数来缩放NR增益。代替地，AGC增益经由最小噪声抑制滤波值(例如，噪声衰减限制)直接包括在NR滤波器设计中。

为了说明使用时变噪声衰减限制而不是固定限制g_lim＝g_des的优点，对于或者由言语(高SNR)或者由噪声(低SNR)主导的时频区域导出整个滤波器的响应

·情况G_AGC(m)≥1

o在由噪声主导的低SNR时频区域中，我们可以假设NR滤波器达到其最小值因此整个系统响应变为：

这表明，无论AGC增益如何，由噪声主导的片段都会按期望的降噪量进行缩放。

o在由言语主导的高SNR时频区域中，我们可以假设NR滤波器使言语大部分保持不变，即，因此总响应变为：

这表明，无论期望的降噪量如何，由言语支配的片段都根据期望通过AGC增益进行缩放。

·情况G_AGC(m)<1

使用与上面相同的推理，我们可以写

这表明言语片段按预期通过AGC增益G_AGC(m)进行缩放，并且噪声至少衰减期望的噪声衰减量g_des。

因此可以看出，根据下式作为期望的噪声衰减和AGC增益的函数来调整噪声衰减限制

提供了对系统输出端处的言语和噪声电平的完全控制，以获得正AGC增益。因此，可以实现一致的言语和噪声电平，并且可以避免噪声抽吸效应，如曲线图1250中所描绘的。

当AGC衰减输入信号时，即G_AGC(m)<1，我们从下式看到

与输入相比，输出端处的噪声没被放大，并且确保最小噪声衰减量。在这种情况下，要注意的是，这引入由时变AGC衰减造成的低电平但时变的本底噪声。但是，在实践中可以假设输入言语电平保持相对恒定。假设VAD可以准确地检测到言语存在，那么AGC增益因此将在收敛后仅缓慢波动，并且系统输出端处的绝对噪声电平将仅缓慢变化，这避免了噪声抽吸效应。

如前所述，最小噪声抑制滤波值360a是作为期望噪声衰减和AGC增益的函数得出的。例如，这可以基于下式实现

这种方案可以为大的AGC增益G_AGC(m)产生任意小的噪声衰减限制。在实践中，当应用激进的降噪时，发生可听的伪像。发生的典型伪像是：

·言语失真，尤其是在言语最弱的高频时，

·乐音，以高度非静止的背景噪声着色为特征。

为了对于大的AGC增益获得不太激进的降噪，即，适度的降噪，以及因此为了减轻降噪伪像，可以对噪声衰减限制施加约束。根据本发明的一个方面，最小噪声抑制滤波值360a被计算为AGC增益G_AGC(m)、预定噪声抑制值g_des 234(例如，期望的噪声衰减量)和失真限制g_DL 358a的函数，从而产生

其中上标[DC]表示失真约束的情况，与上面提到的由上标[UC]表示的情况形成对比。在图7和图9中更详细地说明这种方案。

失真约束情况下的NR滤波器以与前述类似的方式获得，即

这导致执行NR和AGC的整体滤波器：

失真限制g_DL 358a是必须满足g_DL≥1/g_des≥1的常数。它也可以被理解为系统允许的SNR改善量。低g_DL提供良好的抗降噪伪像保护，但代价是噪声的衰减较差。这在曲线图1260中描绘，其中噪声电平随着言语被放大而增加。可以很容易地核实，非常大的失真限制g_DL358a基本上减轻约束并且变得等同于其无约束对应物失真限制通常在15dB和25dB之间选择。

此外，如时间平滑之类的处理工具可以用于或以随着时间的推移平滑噪声衰减限制，即，最小噪声抑制滤波值。

图4说明根据本发明优选实施例的装置400的框图。装置400包括如图3中针对装置300所描述的音频信号分析器130。此外，装置400包括被配置为向音频信号分析器130提供音频信号354的多个频带的第一时频转换器320a。此外，装置400包括被配置为提供噪声抑制滤波值364的时域表示的第二时频转换器320b。第二时频转换器320b提供噪声抑制滤波的时域表示值464。而且，装置400包括滤波器410，根据噪声抑制滤波值的时域表示464来调节滤波器410。

滤波器410被配置为执行音频信号110和噪声抑制滤波值的时域表示464的时域卷积。类似于装置300，装置400提供了基于在用滤波器410滤波之前或在用滤波器410滤波之后(由开关320c指示)的音频信号110在音频信号分析器中应用语音活动检测340的可能性。此外，增益值可以在用滤波器410滤波之前或在用滤波器410滤波之后(由开关330a和330b指示)应用于音频信号。装置400通过其基于时域的滤波提供与如对于装置300描述的频域中的逐帧处理相比较低的延迟。

图5说明音频信号分析器130的噪声抑制滤波值确定。在第一步骤510中，计算预定噪声抑制值g_des 234与增益值G_AGC(m)之间的商，从而确定最小噪声抑制滤波值358c。在下一步骤520中，将无约束噪声抑制滤波值H_NR(m,k)356a各自与最小噪声抑制值进行比较，使得小于最小噪声抑制滤波值358c的无约束噪声抑制滤波值356a的值被设置为最小噪声抑制滤波值358c。这可以通过下式描述：

从而获得噪声抑制滤波值364。所描述的噪声抑制滤波值的下界可以有利于避免由于过于激进的降噪而引起的失真。

图6说明根据本发明优选实施例的音频信号分析器130中的噪声抑制滤波值选择。在第一步骤510中，计算预定噪声抑制值234与增益值之间的商。在下一步骤中，在预定噪声抑制值234与增益值的商和预定噪声抑制值234之间进行最小值决定620。由此，当增益值小时，由于最小值决定将最小噪声抑制滤波值358c的上限界定为预定噪声抑制值234，可以避免大的最小噪声抑制滤波值358c。换句话说，获得最小噪声抑制滤波值358c，其上限由预定噪声抑制值234界定。最小噪声抑制滤波值358c的选择可以归纳为以下等式：

在最后的步骤中，将最小噪声抑制滤波值358c与无约束噪声抑制滤波值356a进行比较，使得基于最大值决定630，获得噪声抑制滤波值364，其下限由最小噪声抑制滤波值358c界定。所描述的估计确保噪声抑制，尽管提供小的增益值G_AGC(m)，从而通过小的增益值获得超过整体信号衰减的降噪。

在图7中，描述根据本发明优选实施例的、在音频信号分析器130中执行的最小噪声抑制滤波值确定。在第一步骤中，计算预定噪声抑制值234与增益值的商。预定噪声抑制值234与增益值之间的商与预定失真限制358a的倒数经受第一最大值决定710。第一最大值决定710的结果关于增益值的倒数705经受第一最小值决定720。此外，第一最小值决定720的结果关于预定的噪声抑制值234经受第二最小值决定730。由此，作为第二最小值决定730的结果，获得最小噪声抑制滤波值358c。这个过程产生所谓的失真约束的最小噪声抑制滤波值，例如，失真约束的噪声衰减限制。为了更好地理解约束的含义，可以修订如下：

如上所述计算的针对噪声衰减限制的更新规则可以等同地用公式表示为

并且在图11中的曲线图中用标记为“失真约束的”的实线示出。

在第二最大值决定740中，将最小噪声抑制滤波值358c与每个个别的无约束噪声抑制滤波值356a进行比较，使得小于最小噪声抑制滤波值358c的无约束噪声抑制值被设置为最小噪声抑制滤波值，从而获得噪声抑制滤波值364。如上所述的噪声抑制滤波值确定有益于避免由于激进的降噪引起的信号失真。

图8说明根据本发明优选实施例的装置800的框图，其提供了具有无约束噪声衰减限制的自动增益控制的联合NR/AGC处理。

装置800包括音频信号分析器830和滤波器820。此外，输入信号被提供给滤波器820并由第一滤波器级822处理以应用降噪。而且，第一滤波器级822的输出被提供给音频信号分析器830和滤波器820的第二滤波器级824，其中应用增益值。

此外，滤波器提供输出信号。第一滤波器级822的输出信号用在音频信号分析器830中以计算语音活动检测840。基于语音活动检测840的结果，做出决定842，以或者转发信号以计算用于基于信号电平和目标电平计算新的AGC增益844的信号电平842，作为音频信号的特征，或者保持旧的AGC收益846。关于是计算新增益还是保持旧增益的决定是基于提供给语音活动检测器840的信号中的言语存在。

然后将确定的增益值提供给第二滤波器级840，在那里将其应用于信号。此外，在音频信号分析器830中使用增益值，用于基于增益值和期望的噪声衰减(即，预定的噪声抑制值234)计算无约束的噪声衰减限制(即，最小噪声抑制滤波值)。此外，使用无约束噪声衰减限制、输入信号和AGC增益，噪声抑制滤波值被确定862并提供给滤波器820的第一滤波器级822。

当AGC触发信号放大(而不是衰减)时，还可以仅在言语时段期间应用AGC增益，类似于图17。然后AGC增益在言语暂停期间暂时降低或直接设置为一。由于在计算噪声衰减限制时考虑了AGC增益，因此即使AGC增益强烈波动，也能保证避免噪声抽吸效应。所描述的方案具有即使对于大的AGC增益也确保降噪的优点。而且，所描述的方案避免了其它方案遭受的噪声抽吸效应，这种效应导致言语开始时的本底噪声的快速增加和言语偏移时的快速减小。

噪声抑制滤波值862的估计可以例如根据图5或如图6中所描述的那样执行。所描述的装置800适于实现预定的噪声抑制并在必要时放大或衰减信号以增加可理解度。

图9图示根据本发明优选实施例的装置900的框图，其中执行在失真约束下具有噪声衰减限制的自动控制的联合NR和AGC处理。可替代地，可以基于未经处理的音频输入信号(即，在应用降噪之前)执行AGC增益的计算。装置900包括与图8中的装置800大部分相同的功能，但是为了估计噪声抑制滤波值862，附加参数(失真限制358a，或者更一般地，预定失真限制)被考虑。装置900尤其适于避免如由于通过(可能是由大AGC增益造成的)小的最小噪声抑制值引入的激进噪声抑制引起的信号失真(如，语音失真或乐音)。

图10示出当系统的输入信号主要表征为噪声时的系统响应的图。换言之，示出了当应用具有约束或无约束噪声衰减限制(分别为实线和虚线)的NR和AGC时作为AGC增益的函数的总噪声响应。

标记为无约束的线例如涉及如在图8中描述的作为本发明优选实施例的装置800中所描述的优选实施例。此外，线“失真约束的”例如涉及在图9中描述的作为本发明优选实施例的装置900。图10中的系统响应以对数值显示，取决于以对数值给出的增益值。图10示出，对于低增益值(小于0dB的增益值)，由于联合降噪和增益控制，实际上针对整体系统响应实现了衰减。当增益值在0dB和预定噪声抑制值与失真限制的乘积之间时，通过无约束和失真约束装置，例如分别是装置800和装置900，同等地实现恒定噪声抑制。当增益值在预定噪声抑制值和预定失真限制的乘积与预定失真限制之间时，失真约束曲线图的整体系统响应增加到0dB，例如线性地增加。此外，当增益值在预定噪声抑制值和预定失真限制的乘积与失真限制之间时，“无约束”标记的曲线图保持恒定在预定噪声抑制值的值处。而且，标记为“失真约束”的曲线图对于大于预定失真限制的增益值保持恒定在0dB。此外，对于大于预定失真限制的增益值，标记为“无约束”的曲线图保持恒定在预定噪声抑制值的值处。换句话说，对于失真约束的情况，对于主要表征为噪声的音频信号，整体系统响应可以写为：

总之，图10用例如涉及装置800的标记为“无约束”的曲线图并用例如涉及装置900的标记为“失真约束”的曲线图描述在输入信号仅以噪声为特征的情况下噪声不被两个装置放大。由此，可以避免不舒适的噪声放大。

图11图示具有两条线的曲线图，一条标记为“无约束”，另一条标记为“失真约束”，其分别涉及如图6或图7中所述的最小噪声抑制滤波值。换句话说，示出了针对受约束和无约束情况(分别为实线和虚线)，作为AGC增益的函数的噪声衰减限制。

最小噪声抑制滤波值例如可以是噪声衰减限制，这里以对数值给出。此外，取决于对数值的增益值描绘曲线图。对于小于0的增益值，标记为“无约束”的曲线图恒定在预定噪声抑制值处。而且，对于大于0dB的增益值，标记为“无约束”的曲线图(例如线性地)减小。而且，标记为“失真约束”的曲线图对于小于0dB的增益值在预定噪声抑制值的值处恒定，并且对于大于0dB且小于预定噪声抑制值和预定失真限制的乘积的增益值(例如，线性地)从预定噪声抑制值减小到预定失真限制的倒数。此外，对于预定噪声抑制值和预定失真限制的乘积与预定失真限制之间的增益值，标记为“失真约束”的曲线图在预定失真限制值的倒数值处保持恒定。此外，对于大于预定失真限制值的增益值，标记为“失真约束”的曲线图(例如线性地)减小。对于失真约束情况，这可以等同地描述为：

为了比较，无约束情况和约束情况分别显示为虚线和实线。可以观察到的是，对于低到中等AGC增益G_AGC(m)≤g_des×g_DL，失真约束噪声衰减限制的行为类似于其无约束对应物。随着AGC增益的增加，下降到1/g_DL并且只要G_AGC(m)≤g_DL，保持在这个水平。因此，仅直到失真限制g_DL，对于AGC增益满足失真约束。在此之上，降噪限制再次开始减小。这是为了确保输出端与输入端相比噪声不会被放大，如果我们对于由低SNR表征的噪声片段得出图10中描绘的整体系统响应这变得明显。在这种情况下，我们可以假设NR滤波器达到最小值因此，总噪声响应可以写为：

其中可以看到总噪声响应随着AGC增益的增加而增加，但仍保持低于一，以确保不会放大噪声。总噪声响应在图10中被表示AGC增益的函数，为实线。为了比较，无约束噪声响应在图10中用虚线表示。

图11图示最小噪声抑制滤波值对增益值的有利依赖性，以使得能够根据所应用的(AGC)增益实现灵活的降噪。此外，标记为“失真约束”的曲线图和标记为“无约束”的曲线图表现出将最小噪声抑制滤波值保持在基本上高于0的能力，因此避免了信号失真。

图12图示在例如用装置100、300、400、800或900进行各种处理之后的信号电平。而且，描绘了NR+AGC(1210)之前和NR/AGC处理(1220、1230、1240、1250、1260)之后的言语和噪声电平。

曲线图1210是音频信号的说明性示例，描述例如音频信号110。此外，曲线图1210示出了随时间的恒定噪声电平以及其中言语处于活动状态的两个阶段。言语在处于活动状态时具有比噪声更高的信号电平，从而产生正信噪比(SNR)。此外，曲线图1210示出了标记为目标电平的虚线，例如，言语信号被假定待调节到目标电平以实现舒适的收听体验。

曲线图1220示出了在通过某种降噪和增益控制(例如某种基本自动增益控制方案)处理之后在曲线图1210中显示的信号。在言语活动期间获得更高的SNR。此外，噪声电平也朝目标电平被放大，从而导致不舒适的噪声放大。

曲线图1230显示在处理之后信号(例如如曲线图1210中所描述的信号)的输出电平，其中例如对于处理，自动增益控制利用语音活动检测来辅助自动增益控制更新。因此，在第一时间间隔中，噪声电平不朝向目标电平被放大，仅在检测到言语活动之后才开始放大。

曲线图1240示出了在信号处理之后信号(例如如图1210中描述的输入信号)的输出电平，其中处理例如包括降噪和自动增益控制，其中自动增益控制利用语音活动检测在仅言语阶段应用自动增益控制。

曲线图1250示出了在信号处理之后输入信号(例如如曲线图1210中所描绘的)的输出电平，其中信号处理例如包括无约束降噪和自动增益控制，如例如图8中针对装置800所描述的。由此，在言语活动的阶段可观察到SNR的大幅增加。此外，噪声电平处于基本恒定的电平并且与曲线图1210相比降低。

曲线图1260示出了在信号处理之后例如如曲线图1210中所描绘的输入信号的输出电平，其中信号处理包括在例如图9中针对装置900描述的失真约束下的联合降噪自动增益控制。与曲线图1210相比，可以获得大的信噪比增加。此外，噪声电平处于基本恒定的电平。而且，失真约束避免了处理的输出中的不舒适的信号失真。

图13图示根据本发明优选实施例的双向全双工言语通信系统1300的框图。该系统包括近端和远端侧，以及其间的传输。此外，近端侧和远端各自包括扬声器和麦克风，以及音频信号处理单元，其中音频信号处理单元可以包括装置100、300、400、800、900中的一个。

在近端侧，人对着麦克风讲话并通过扬声器接收音频信息。此外，在远端侧，另一个人对麦克风说话并且通过扬声器接收从近端侧发送的音频信息，可能同时发生，因为它是全双工系统。系统1300促进舒适的收听体验并改善在近端和远端侧之间发生的言语通信的言语可懂度。尤其是对于其中用户和麦克风之间的距离可以变化的免提场景，所描述的实施例可以适于提高可理解度。

图14图示可以用作言语通信系统(例如，言语通信系统1300)的近端或远端侧的信号处理链路的框图。

图15图示信号处理链的框图，其示出了独立应用NR和AGC处理的基本配置。首先，输入信号经受基于预定噪声抑制值(在这里是期望的噪声衰减)的降噪，降噪后的结果信号用于计算信号电平并基于计算出的信号电平和预定的目标电平计算增益值，例如自动增益控制增益。在下一步骤中，在执行降噪之后，将计算出的增益值(例如，计算出的AGC增益)应用于信号。

自动增益控制可以使用图15中描述并在下面详述的三步过程(例如在逐帧的基础上)应用于降噪模块的输出端：

1.电平计算：在AGC输入端(在这里是降噪(NR)输出)处计算表示为L(m)的信号电平。信号电平的度量可以仅仅是方差。可替代地，可以应用频谱加权来模仿人类听觉系统，从而产生感知响度的度量。

2.增益计算：通过将表示为L(m)的当前输入信号电平与预定义的目标言语电平L_tar(如针对装置300和400作为目标值所描述的)进行比较来得出标量增益。这可以通过下式实现：

其中G_AGC(m)是在帧m处计算的AGC增益，并且β是用于时间平滑AGC增益的遗忘因子(0≤β<1)。

3.增益相乘：最后的步骤包括输入信号与AGC增益相乘。这可以在时域或频域中等效地完成。

当AGC输入电平L(m)低于目标电平L_tar时，上述过程导致输入音频信号的放大。相反，当信号电平L(m)高于目标电平L_tar时，应用一些衰减。因此，AGC增益随时间自动调节，因此是时变的。此外，所描述的增益计算可以部分地或完全地用在所描述的装置300、400、800和900的相应模块中。而且，为了在所提及的装置中使用，也可以应用对所描述的方法的修改，例如基于采用语音活动检测。此外，注意AGC和NR模块之间没有交互，在图15中通过虚水平线进行强调。

例如，当NR滤波后的背景噪声电平低于言语电平时，这种方案的缺点是它造成AGC输入端处测得的电平L(m)减小，这进而造成语音暂停期间AGC增益的增加，然后是言语开始时AGC增益的减小。这种现象在图12中示出，其中曲线图1210示出了输入音频信号(NR之前)中的言语和噪声分量的电平。曲线图1220示出了根据上述过程应用NR和AGC之后的言语和噪声电平。虽然输入端处的言语和噪声电平是恒定的，但我们发现这种方法产生时变的言语电平，这不是AGC的期望行为。而且，它产生时变噪声电平，这导致输出信号中非常令人不愉快的噪声抽吸效应。为了解决这些问题，使用语音活动检测(VAD)，如图3、4、8、9、16和17所解释的。

图16图示用于处理信号的装置的框图，其示出了分离的NR和AGC处理，其中语音活动检测触发增益更新。在第一步骤中，输入信号经受降噪，该降噪基于预定的噪声抑制值，例如期望的噪声衰减。在下一步骤中，经受降噪之后的输入信号用于计算语音活动检测，言语活动决定基于该语音活动检测。当检测到言语时，基于降噪后的输入信号计算信号电平。在另一个步骤中，假设言语活动，基于计算出的信号电平和预定的目标电平确定增益值(例如新的自动增益控制增益)。当语音活动检测未检测到言语时，采用来自前一时刻的增益值。在最后的步骤中，将增益值(或者来自前一时刻的增益值或者从当前时刻计算的增益值)应用于降噪后的信号，从而提供输出信号。

为了避免噪声抽吸效应并提供一致的言语电平，可以应用VAD(＝语音活动检测)以在言语暂停期间绕过增益更新，如图16中所示。假设可以可靠地检测言语活动，那么可以仅在活动言语片段期间调节AGC增益，同时在言语暂停期间保持AGC增益恒定。如曲线图1230中所描绘的，这种方法产生一致的言语电平并避免噪声抽吸效应(收敛后恒定的噪声电平)。但是，对于大的AGC增益，它可能造成绝对噪声电平的显著增加，这在实践中在言语暂停期间变得尤其明显。

图17图示用于信号处理的框图，其类似于图16中描述的框图，具有分离的NR和AGC处理，并且VAD触发整个AGC处理。此外，图17中的框图描述了当没有检测到言语时将增益值设置为1。为了消除言语暂停期间的噪声放大，如曲线图1230中所描绘的，AGC增益仅在言语时段期间应用，如图17中所呈现的(在言语暂停期间应用一相当于不应用AGC增益)。这种方案提供低言语电平并防止在言语暂停期间噪声的放大。但是，它再次导致噪声的时变缩放(参见曲线图1240)，其在实践中被感知为恼人的噪声抽吸效应。

图18图示根据本发明优选实施例的通信系统(例如，图13中描述的言语通信系统1300)的近端或远端侧。远端或近端侧可以用类似的结构实现。因此，仅描述一侧，但是另一个侧也可以获得所有功能。

所考虑的一侧包括用于将音频内容递送给收听者的扬声器1810和用于拾取期望信号(例如，来自讲话的人的言语信号)的麦克风1820。此外，回声控制系统1830基于扬声器信号抑制麦克风信号中的回声。在回声控制1830之后，联合降噪和增益控制1840处理该信号。联合降噪和增益控制1840可以例如由装置100、300、400、800和900实现。

此外，舒适噪声系统1850在联合降噪和增益控制1840之后将舒适噪声应用于信号，以使得能够向远端的用户提供舒适的收听体验，例如当在获取的麦克风信号中不存在期望的信号分量时(即，仅远端活动)。总之，图18中描述的系统提供信号处理，使得例如发送到远端侧的信号提供所发送信号的可理解言语分量并为远端侧用户提供舒适的收听体验。

图19图示根据本发明优选实施例的通信系统的远端侧的框图。图19中的系统包括：扬声器1810，被配置为将音频内容递送到收听者；以及麦克风1820，被配置为使得能够记录例如包含言语内容的音频信号。此外，图19中描述的系统包括用于递送到扬声器1810的信号的联合降噪和增益控制1840。此外，由麦克风1820记录的信号经受回声控制1830和舒适噪声系统1850，回声控制1830基于递送到扬声器1810的信号。回声控制1830和舒适噪声系统1850包括与图18中描述的功能相同的功能。而且，联合降噪和增益控制1840可以例如由装置100、300、400、800或900实现。由此，当递送到扬声器的音频信号包括言语分量时，图19中描述的系统提供可理解的言语信号。此外，由于降噪部分，实现了舒适的收听体验。

另外的实施例依赖于帧序列中的音频信号的处理。音频信号分析器(130；830；930)被配置为分析包括第一帧和在时间上跟随第一帧的第二帧的帧序列中的音频信号，以针对第一帧确定第一多个噪声抑制值，并针对第二帧确定第二多个噪声抑制值。分析器被配置为确定第一多个噪声抑制滤波值，使得第一多个噪声抑制滤波值中的噪声抑制滤波值大于或等于为第一帧确定的第一最小噪声抑制滤波值(130b'；240；358c，360a)，并且使得第一最小噪声抑制滤波值取决于音频信号(130c')的第一帧的第一特征。分析器还被配置为确定第二多个噪声抑制滤波值，使得第二多个噪声抑制滤波值中的噪声抑制滤波值大于或等于为第二帧确定的第二最小噪声抑制滤波值(130b'；240；358c，360a)，并且使得第二最小噪声抑制滤波值取决于音频信号(130c')的第二帧的第二特征。滤波器(120；310；410；820)被配置用于对帧序列中的音频信号进行滤波，其中基于第一多个噪声抑制值调节用于第一帧的第一滤波器，并且其中基于第二多个噪声抑制值调节用于第二帧的第二滤波器。滤波器(120；310；410；820)还被配置为用第一滤波器对音频信号的第一帧进行滤波，并用第二滤波器对音频信号的第二帧进行滤波。

总之，本发明的一些实施例可以在列表中概括。在优选实施例中，首先应用NR并且包括以下步骤：

1.接收音频输入信号。

2.基于在先前时间帧中确定的AGC增益、期望的噪声衰减量以及可选地还基于失真限制来确定噪声衰减限制。

3.基于音频输入信号和噪声衰减限制来确定降噪滤波器。

4.基于目标信号电平、可选的语音活动信息、和音频信号来确定AGC增益

a)音频信号是音频输入信号，或者

b)音频信号是通过将降噪滤波器应用于音频输入信号而获得的降噪音频信号，

可选的语音活动信息用于在言语暂停期间可选地减小AGC增益。

5.通过将先前帧中获得的AGC增益和降噪滤波器应用于音频输入信号来生成输出音频信号。

此外，根据本发明的另一个优选实施例的特征在于，根据以下执行首先应用AGC：

1.接收音频输入信号。

2.基于目标信号电平、可选的语音活动信息、和音频输入信号来确定AGC增益，可选的语音活动信息用于在言语暂停期间可选地减小AGC增益。

3.确定噪声衰减限制

a)基于期望的噪声衰减量和当前AGC增益，或

b)基于期望的噪声衰减量、失真限制和当前AGC增益。

4.基于音频输入信号和噪声衰减限制来确定降噪滤波器。

5.通过将降噪滤波器和当前AGC增益应用于音频输入信号来生成输出音频信号。

虽然已经在框图的上下文中描述了本发明，其中块表示实际或逻辑硬件部件，但是本发明也可以通过计算机实现的方法来实现。在后一种情况下，块表示对应的方法步骤，其中这些步骤代表由对应的逻辑或物理硬件块执行的功能。

虽然已经在装置的上下文中描述了一些方面，但是显然这些方面也表示对应方法的描述，其中块或设备与方法步骤或方法步骤的特征对应。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或项或特征的描述。一些或所有方法步骤可以由(或使用)硬件装置(例如微处理器、可编程计算机或电子电路)执行。在一些实施例中，一些或多个最重要的方法步骤可以由这样的装置执行。

取决于某些实现要求，本发明的实施例可以用硬件或软件实现。可以使用具有存储在其上的电子可读控制信号的数字存储介质来执行该实现，例如软盘、DVD、蓝光、CD、ROM、PROM和EPROM、EEPROM或FLASH存储器，电子可读控制信号与可编程计算机系统协作(或能够与其协作)，使得执行相应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，电子可读控制信号能够与可编程计算机系统协作，使得执行本文所述的方法之一。

一般而言，本发明的实施例可以被实现为具有程序代码的计算机程序产品，该程序代码可操作用于在计算机程序产品在计算机上运行时执行这些方法之一。例如，程序代码可以存储在机器可读载体上。

其它实施例包括存储在机器可读载体上的用于执行本文所述方法之一的计算机程序。

换句话说，本发明性方法的实施例因此是具有程序代码的计算机程序，当计算机程序在计算机上运行时，用于执行本文所述的方法之一。

因此，本发明性方法的另一个实施例是数据载体(或诸如数字存储介质或计算机可读介质之类的非瞬态存储介质)，其包括记录在其上的用于执行本文所述的方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬态的。

因此，本发明性方法的另一个实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。例如，数据流或信号序列可以被配置为经由数据通信连接传送，例如，经由互联网。

另一个实施例包括被配置为或适于执行本文所述的方法之一的处理装置，例如，计算机或可编程逻辑设备。

另一个实施例包括计算机，其上安装有用于执行本文所述方法之一的计算机程序。

根据本发明的另一个实施例包括一种装置或系统，其被配置为将用于执行本文所述方法之一的计算机程序(例如，电子地或光学地)传送到接收器。接收器可以是例如计算机、移动设备、存储器设备等。该装置或系统可以例如包括用于将计算机程序传送到接收器的文件服务器。

在一些实施例中，可编程逻辑设备(例如，现场可编程门阵列)可以用于执行本文所述方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作，以便执行本文所述的方法之一。一般而言，方法优选地由任何硬件装置执行。

上述实施例仅仅用于说明本发明的原理。应当理解的是，本文所述的布置和细节的修改和变化对于本领域技术人员而言将是显而易见的。因此，其意图仅受即将给出的专利权利要求的范围的限制，而不受通过本文实施例的描述和解释所呈现的具体细节的限制。

参考文献

[1]E.和G.Schmidt：“Hands-free telephones-Joint Control of EchoCancellation and Postfiltering”，Signal Processing，卷号：80，期号：11，第2295-2305页，2000年9月。

[2]F.Küch，E.Mabande和G.Enzner，“State-space architecture of thepartitioned-block-based acoustic echo controller”，Proc.IEEE InternationalConference on Acoustics，Speech and Signal Processing(ICASSP)，2014年5月。

[3]A.Favrot，C.Faller，M.Kallinger，F.Küch和M.Schmidt，“Acoustic EchoControl Based on Temporal Fluctuations of Short-Time Spectra”，PProc.International Workshop on Acoustic Echo and Noise Control(IWAENC)，2008年9月。

[4]Y.Ephraim，D.Malah，“Speech enhancement using a minimum mean-squareerror short-time spectral amplitude estimator”，IEEE Trans.Acoust.SpeechSignal Process，第32卷，第1109-1121页，1984年12月。

[5]Guangji Shi和Changxue Ma，“Subband Comfort Noise Insertion for anAcoustic Echo Suppressor”，Proc.133rd Audio Engineering Society Convention，2012年10月。

[6]M.Matsubara，K.Nomoto，“Audio signal processing device and noisesuppression processing method in automatic gain control device”，专利公开No.US2008/0147387 A1。

Claims

1.一种用于处理音频信号(110)的装置(100；300；400；800；900)，包括：

音频信号分析器(130；830；930)，用于分析音频信号以确定用于音频信号(215；354)的多个频带的多个噪声抑制滤波值(260；364，364a-c)，

其中分析器被配置为确定噪声抑制滤波值，使得噪声抑制滤波值大于或等于最小噪声抑制滤波值(130b'；240；358c，360a)，以及使得最小噪声抑制滤波值取决于音频信号(130c')的特征；以及

滤波器(120；310；410；820)，用于对音频信号进行滤波，其中滤波器被基于噪声抑制滤波值进行调节。

2.如权利要求1所述的装置，其中音频信号分析器被配置为使用基于多个无约束噪声抑制滤波值(220；356a)和最小噪声抑制滤波值的最大值决定来确定噪声抑制滤波值，最小噪声抑制滤波值对于音频信号的多个频带是相等的。

3.如权利要求1或2所述的装置，其中音频信号分析器被配置为从音频信号的帧计算增益值作为音频信号的特征。

4.如权利要求3所述的装置，其中音频信号分析器被配置为基于以下计算最小噪声抑制滤波值：

预定噪声抑制值，以及

增益值。

5.如权利要求3或4所述的装置，其中音频信号分析器被配置为计算最小噪声抑制滤波值，使得最小噪声抑制滤波值随着增益值的增加而减小。

6.如权利要求3至5中任一项所述的装置，其中音频信号分析器被配置为使用取决于预定噪声抑制值和预定噪声抑制值与增益值的商的最小值决定来计算最小噪声抑制滤波值。

7.如权利要求3至6中任一项所述的装置，其中音频信号分析器被配置为根据第一最小值决定确定最小噪声抑制滤波值，

第一最小值决定取决于预定噪声抑制值，以及第二最小值决定的结果，

第二最小值决定的结果取决于增益值的倒数，以及最大值决定的结果，

最大值决定的结果取决于预定失真限制值的倒数，以及预定噪声抑制值与增益值的商。

8.如权利要求3至7中任一项所述的装置，其中音频信号分析器被配置为分析音频信号的多个频带中的频带，以确定频带具有音频信号的第一特征还是音频信号的第二特征，其中第一特征与第二特征不同，以及以当确定频带的第二特征时，确定噪声抑制滤波值，

使得当增益值在0和1之间时，噪声抑制滤波值等于预定噪声抑制值和增益值的乘积，或者

使得当增益值在1和预定噪声抑制值与预定失真限制的乘积之间时，噪声抑制滤波值等于预定噪声抑制值，或者

使得当增益值在预定噪声抑制值和预定失真限制的乘积之间时，噪声抑制滤波值等于增益值与预定失真限制的商，或者

使得当增益值大于预定失真限制时，噪声抑制滤波值等于1。

9.如权利要求3至8中任一项所述的装置，其中音频信号分析器被配置为针对音频信号的第一帧计算产生第一最小噪声抑制值的第一增益值，

其中音频信号分析器被配置为针对音频信号的第二帧计算产生非平滑的第二最小噪声抑制滤波值的第二增益值，

其中第二帧在时间上跟随第一帧，

其中音频信号分析器被配置为使用非平滑的第二最小噪声抑制滤波值(358c)和第一最小噪声抑制滤波值来针对第二帧计算平滑的最小噪声抑制滤波值(360a)。

10.如前述权利要求中一项所述的装置，其中装置包括第一时频转换器(320a)，第一时频转换器(320a)提供音频信号的频域表示，所述频域表示提供音频信号的多个频带，以及

其中音频信号分析器被配置为基于以下来计算音频信号的多个频带中的频带的噪声抑制滤波值：

音频信号的多个频带中的一个或多个频带，以及

最小噪声抑制值，其中最小噪声抑制滤波值基于：

对于音频信号的多个频带的每个频带是相等的预定噪声抑制值，或者对于音频信号的多个频带是相等的预定失真限制，以及

从音频信号的特征得出的值，所述值对于音频信号的多个频带中的每个频带是相等的。

11.如前述权利要求中一项所述的装置，其中音频信号分析器被配置为计算音频信号的振幅信息，以及

基于振幅信息和预定目标值计算作为音频信号的特征的增益值，其中通过增益值，音频信号被调节到预定目标值。

12.如权利要求11所述的装置，其中音频信号分析器被配置为在计算振幅信息之前用心理声学滤波器(342)对音频信号进行滤波，

其中心理声学滤波器被配置为包括用于第一频率范围的第一衰减值，以及

用于第二频率范围的第二衰减值，以及

用于第三频率范围的第三衰减值，以及

其中滤波器被配置为使得第二频率范围在第一频率范围和第三频率范围之间，以及

其中滤波器被配置为使得第二衰减值小于第一衰减值和第三衰减值。

13.如权利要求3至12中任一项所述的装置，其中音频信号分析器包括语音活动检测单元(340)以及存储器单元(346)，语音活动检测单元(340)提供音频信号的第一帧的第一语音活动信息，以及音频信号的第二帧的第二语音活动信息，存储器单元(346)存储先前的增益值，以及

其中音频信号分析器被配置为：

基于根据第二语音活动信息在其中检测到语音的音频信号的第二帧估计增益值，或者

当在第一帧中基于第一语音活动信息检测到语音时，如果根据第二语音活动信息在第二帧中没有检测到语音活动，保持第一帧的增益值，

其中第二帧在时间上跟随第一帧。

14.如权利要求1所述的装置，其中音频信号分析器被配置为基于为当前帧计算的从音频信号的特征得出的值来计算用于当前帧的最小噪声抑制值，以及

其中音频信号分析器被配置为分析音频信号，用于确定从音频信号的特征得出的值，以及

其中滤波器包括第一滤波器级和第二滤波器级，以及

其中使用从音频信号的特征得出的值来调节第一滤波器级，以及

其中根据噪声抑制滤波值来调节第二滤波器级。

15.如权利要求1所述的装置，其中音频信号分析器被配置为基于为第一帧计算的从音频信号的特征得出的值来计算用于第二帧的最小噪声抑制值，以及

其中滤波器包括第一滤波器级(822)和第二滤波器级(824)，

其中根据噪声抑制滤波值来调节第一滤波器级，以及

其中使用从音频信号的特征得出的值来调节第二滤波器级，以及

其中音频信号分析器被配置为分析第一滤波器级的输出，用于确定从音频信号的特征得出的值，以及

其中第二帧在时间上跟随第一帧。

16.如权利要求3至15中任一项所述的装置，其中音频信号分析器被配置为基于语音活动信息和音频信号，或者被噪声抑制滤波值滤波后的音频信号和语音活动信息，来确定增益值，以及

其中音频信号分析器被配置为基于音频信号获得语音活动信息，或者其中音频信号分析器被配置为基于被滤波器滤波后的音频信号获得语音活动信息，或者其中音频信号分析器被配置为使得指示不存在言语的语音活动信息被用于减小增益值。

17.如前述权利要求中任一项所述的装置，

其中音频信号分析器(130；830；930)被配置为分析包括第一帧和在时间上跟随第一帧的第二帧的帧序列中的音频信号，以针对第一帧确定第一多个噪声抑制值，并针对第二帧确定第二多个噪声抑制值，

其中分析器被配置为确定第一多个噪声抑制滤波值，使得第一多个噪声抑制滤波值中的噪声抑制滤波值大于或等于为第一帧确定的第一最小噪声抑制滤波值(130b'；240；358c，360a)，并且使得第一最小噪声抑制滤波值取决于音频信号(130c')的第一帧的第一特征；

其中分析器被配置为确定第二多个噪声抑制滤波值，使得第二多个噪声抑制滤波值中的噪声抑制滤波值大于或等于为第二帧确定的第二最小噪声抑制滤波值(130b'；240；358c，360a)，并且使得第二最小噪声抑制滤波值取决于音频信号(130c')的第二帧的第二特征；以及

其中滤波器(120；310；410；820)被配置用于对帧序列中的音频信号进行滤波，其中基于第一多个噪声抑制值来调节用于第一帧的第一滤波器，并且其中基于第二多个噪声抑制值来调节用于第二帧的第二滤波器，

其中滤波器(120；310；410；820)被配置为使用第一滤波器对音频信号的第一帧进行滤波，以及使用第二滤波器对音频信号的第二帧进行滤波。

18.一种用于处理音频信号的方法，包括：

分析音频信号，以确定用于音频信号的多个频带的多个噪声抑制滤波值，

确定噪声抑制滤波值，使得噪声抑制滤波值大于或等于最小噪声抑制滤波值，以及

使得最小噪声抑制滤波值取决于音频信号的特征；以及

基于噪声抑制滤波值对音频信号进行滤波。

19.一种计算机程序，具有当计算机程序在计算机或微控制器上运行时用于执行如权利要求18所述的方法的程序代码。