CN109643555B

CN109643555B - 自动校正包含语音信号的音频信号中的响度级

Info

Publication number: CN109643555B
Application number: CN201680086918.XA
Authority: CN
Inventors: T.明奇; A.亨斯根斯
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2024-01-30
Anticipated expiration: 2036-07-04
Also published as: EP3479378B1; JP6902049B2; KR20190025816A; JP2019525213A; US20190362735A1; KR102622459B1; US10861481B2; EP3479378A1; CN109643555A; WO2018006927A1

Abstract

本发明涉及一种用于对N声道音频输入信号的增益进行调整以便生成N声道音频输出信号的方法，其中所述N声道音频输入信号包括语音输入声道(21)，如果N声道音频输入信号中存在语音信号分量，则语音输入声道中存在该语音信号分量，并且所述N声道音频输入信号包括其他音频输入声道(20)。动态地确定N声道音频输入信号的感知响度，并确定语音输入声道(21)中是否存在语音信号分量。如果情况是这样，则与其他音频输入声道的增益相比，以不同方式对语音输入声道的增益进行调整。

Description

自动校正包含语音信号的音频信号中的响度级

技术领域

本申请涉及一种用于对包含至少两个不同音轨的N声道音频输入信号的增益进行调整的方法，所述至少两个不同音轨具有不同信号水平范围并且包含可能的语音信号分量。此外，为此提供了对应的系统。

背景技术

在本领域中，已知有许多不同的包含音乐和/或语音的音频信号源。音乐信号可以被存储在CD、DVD或任何其他的存储介质上。尤其是随着诸如MPEG的新压缩方案的发展，具有不同的风格和表演者的音频信号被存储在存储介质上，并且可以被组合成要播放给用户的播放列表。尤其是在车辆环境中，乘客感知到的音频信号包含音频信号本身和道路轮胎噪声、空气动力噪声和发动机噪声。不同音频源的不同音频信号常常具有不同的信号和动态压缩水平。常常地，音频输出信号的不同音轨具有由用户感知到的不同信号水平范围，这些不同信号水平范围具有不同的响度级。尤其是在车辆环境中，所接收的音频信号对于用户应该是能感知到的，意味着其必须超过车辆中存在的噪声。同时，总音频信号水平不应超过一定的水平，如果超过该水平则会对用户生成听觉损害或使用户感觉疼痛。

当在车辆环境中播放具有多声道音频的电影时，中心声道播放语音和对话。然而，语音材料的感知响度常常是不够的，使得用户无法正确地感知到对话。

发明内容

因此，存在允许对音频信号中的响度级进行动态自动校正同时维持对音频信号中存在的语音信号的良好感知(特别是在噪声环境中)的需求。

这种需求由独立权利要求的特征满足。在从属权利要求中，描述了本发明的优选实施例。

根据第一方面，提供了一种用于对N声道音频输入信号的增益进行调整以便生成N声道音频输出信号的方法，其中N声道音频输入信号包括语音输入声道，如果N声道音频输入信号中存在语音信号分量，则语音输入声道中存在该语音信号分量。N声道音频输入信号还包括其他音频输入声道。根据所述方法的一个步骤，动态地确定N声道音频输入信号的感知响度。此外，确定语音输入声道中是否存在语音信号分量。如果语音输入声道中存在语音信号分量，则基于N声道音频输入信号的所确定的感知响度，在第一增益控制单元中以第一增益参数来动态地调整其他音频输入声道的增益，使得从第一增益控制单元输出的其他音频输出声道的至少两个连续音轨被限制到预定义的信号水平范围或预定义的响度范围。基于N声道音频输入信号的所确定的响度，在第二增益控制单元中以第二增益参数来动态地调整语音输入声道的增益，使得从第二增益控制单元输出的语音输出声道的至少两个连续音轨被限制到预定义的信号水平范围或响度范围。由此，第二增益参数与第一增益参数不同。

此外，提供了对应的系统，所述系统被配置成对N声道音频输入信号的增益进行调整。系统包括响度确定单元，所述响度确定单元被配置成确定N声道音频输入信号的感知响度。此外，提供了语音检测单元，所述语音检测单元被配置成确定语音输入声道中是否存在语音信号分量。第一增益控制单元被提供和配置成控制其他音频输入声道的增益，并且第二增益控制单元被提供和配置成控制语音输入声道的增益。如果语音输入信号中存在语音信号分量，则第一增益控制单元基于N声道音频输入信号的所确定的感知响度以第一增益参数来动态地调整其他音频输入声道的增益，使得从第一增益控制单元输出的其他音频输出声道的至少两个连续音轨被限制到预定义的信号水平范围或预定义的响度范围。第二增益控制单元基于N声道音频输入信号的所确定的响度以第二增益参数来动态地调整语音输入声道的增益，使得从第二增益控制单元输出的语音输出声道的至少两个连续音轨被限制到预定义的信号水平范围或响度范围。第一增益控制单元和第二增益控制单元确定第一增益和第二增益，使得不同的增益参数是不同的。

与其他音频输入声道的增益相比，语音输入声道的增益有可能增加了更高的量，以便改进语音分量的可懂度。举例说明，第一增益参数和第二增益参数可以被确定为使得语音输入信号的信号水平与语音输出信号的信号水平的比小于其他音频输入声道的信号水平与其他音频输出声道的信号水平的比。换句话说，这意味着，与其他音频输入声道相比，更高的增益被应用于语音输入声道。

另外的示例是第一增益参数和第二增益参数被确定为使得与通过第一增益参数增加的其他音频输入声道的信号水平相比，语音输入信号的信号水平通过第二增益参数增加了更高的量。

如果减小N声道音频输入信号的信号水平以便使信号水平保持在预定义的信号水平范围中，则第一增益参数和第二增益参数有可能被确定为使得与通过第一增益参数减小的其他音频输入声道的信号水平相比，语音输入信号的信号水平通过第二增益参数减小了小的量。

将理解，在不偏离本申请的范围的情况下，上文提到的特征或下文尚待解释的特征不仅可以以所指示的相应组合使用，而且可以以其他组合或独立地使用。除非另有明确提到，否则上文提到的方面实施例的特征可以在其他实施例中彼此组合。

附图说明

当结合附图阅读时，本申请的前述及附加的特征和效果将从以下详细描述中变得显而易见，在附图中，相似的参考数字指代相似的元件。

图1示意性地示出了用于对N声道音频输入信号的增益进行调整的系统。

图2示出了音频分析单元的更详细视图，所述音频分析单元用于确定音频输入信号的响度并检测N声道音频输入信号的语音输入声道中的语音信号分量。

图3示出了音频输入信号与无增益调整的估计响度的示例，包括不同的时间常数以平滑响度，即，对增加的响度的快速反应和在减小的响度级下的延迟反应。

图4示出了图3的音频输入信号的动态水平调节，如应该为自动响度调节进行调节一样，当已知整个信号内容时进行理想地校正。

图5示意性地示出了如何在用于图2的音频分析单元中的语音检测单元中检测语音信号分量。

图6示意性地示出了时间常数到音频信号中的引入，表示从N声道音频输入信号的一个块到另一个块的增益改变。

图7示出了在自动响度调整之前和之后N声道音频输入信号的信号水平，其中信号水平被减小以便保持在定义的信号水平范围内。

图8示出了在自动响度调整之前和之后N声道音频输入信号的信号水平的另一个示例，其中信号水平增加。

图9示出了系统的示意性表示，在该系统中，以与其他信号分量不同的方式来对语音信号分量进行调整。

具体实施方式

下文中，将参考附图来详细描述本发明的实施例。将理解，实施例的以下描述将不从限制意义上来理解。本发明的范围并不旨在由下文所描述的实施例或由将只是被论证地理解的附图来限制。

附图将被视为表示，并且附图中所图示的元件不一定按比例绘制。相反，表示各种元件，使得它们的功能和一般用途变得为本领域技术人员所显而易见。附图中所示或本文中所述的功能块、装置、部件或物理功能单元之间的任何连接或联接均可以通过间接的连接或联接来实施。可以通过有线或无线连接来建立部件之间的联接。此外，可以在硬件、软件、固件或其组合中实施功能块。

在图1中，示出了系统，可以利用该系统对N声道音频输入信号的响度进行调整。N声道音频输入信号可以是5.1.或7.1.音频信号，并且可以被存储在CD或DVD或任何其他存储单元(诸如，硬盘)上。N声道音频输入信号包括语音输入声道21，如果输入信号中存在语音信号分量，则语音输入声道中存在该语音信号分量。在5.1.或7.1.音频信号中，语音输入声道可以是中心声道。此外，N声道音频输入声道包括其他音频输入声道20。

所示的系统包括音频信号分析单元30，在该音频信号分析单元中，尤其使用人类听觉的心理声学定位模型并使用信号统计来确定声道音频输入信号的响度。

在信号分析单元30中，基于人类听觉的心理声学模型和基于信号统计来确定响度。如下文进一步详细描述的，心理声学模型被用于估计响度以用于定位声音，以及被用于确定音频输入信号中是否存在噪声(作为主导因素)，例如在暂停期间或在两个音轨之间。信号统计是用于确定或估计响度以及用于确定音频信号中是否存在具有噪声的暂停的第二基础。举例说明，可以确定娱乐音频信号的信号强度。基于心理声学模型(单独地或与统计信号模型组合)，通过动态地确定自适应时间常数来确定响度调整，如下文将进一步详细描述的。

在图2中，示出了音频信号分析单元30的更详细视图。

在音频信号分析单元30中，N声道音频输入信号可能在缩混单元36中经受缩混。在本示例中，缩混意指在缩混单元中决定N声道音频输入信号中不同声道在信号分析单元30中是否被单独地分析或是否生成某些音频信号组。举例说明，5.1环绕信号的前信号声道可以被一起分组为一个组或前信号声道和中心声道，而后声道或环绕声道被分组为另一个组。因此，在缩混单元中，确定将音频输入信号的不同输入声道处理为什么组或是否单独地处理所有声道。此外，语音输入声道20被馈送到语音检测单元37，在该语音检测单元中，检测语音输入声道中是否存在语音分量。如果N声道音频输入信号中存在语音信号分量(诸如，对话)，则语音输入声道中存在这些语音信号分量。其他音频输入声道20不包括语音信号分量。稍候参考图5来进一步详细解释语音检测单元。

此外，音频信号分析单元包括响度确定单元31，所述响度确定单元估计所接收的音频输入信号的响度。响度确定单元31可以利用本领域中已知的并且如尤其在ITU-RBS1770-1中所描述的方法来确定响度。针对N声道音频输入信号的定位和响度的确定的进一步细节，也参考Wolfgang Hess等人在Audio Engineering Society Convention Paper5864，115^th Convention(2003年10月)中发表的“Acoustical Evaluation of VirtualRooms by Means of Binaural Activity Patterns”、W.Lindemann在Journal ofAcoustic Society of America(1986年12月，第1608页到第1622页，第80(6)卷)中发表的“Extension of a Binaural Cross-Correlation Model by ContralateralInhibition.I.Simulation of Lateralization for Stationary Signals”和ITU-RBS1770-1。然而，应提到，可以使用本领域中已知的用于确定音频信号的响度的任何其他方法。

此外，响度确定单元31可以使用人类听觉的双耳模型，以用于在听到输入信号20和21时确定响度并用于确定所述音频输入信号是否可被用户定位以及被定位在何处。此双耳模型模拟音频输入信号的空间感知，并允许确定音频输入信号是否主要包含噪声或诸如音乐或语音的任何其他输入信号。在本申请中较早提到的文件中或如在EP 1522 868 A1中提到的、在W.Lindemann的文件中或在上文提到的Audio Engineering SocietyConvention Paper 5864中，更详细地描述了对音频输入信号的定位。这种定位技术允许区分噪音和其他声音信号，并有助于在音频输入信号中仅检测到噪声的情况下避免此噪声经过增加的增益被输出。还允许在检测到暂停时重置由时间常数生成单元32生成的自适应时间常数。响度确定单元31使用人类听觉的心理声学模型来估计音频输入信号的响度。对两个连续音轨之间的暂停的检测由暂听检测单元33示意性地示出。

此外，响度确定单元31可以附加地使用统计信号处理，以便估计音频输入信号的响度或检测信号暂停。在音频输入信号的统计分析中，确定了音频输入信号的不同样本的实际信号水平。举例说明，如果输入信号的若干连续样本的信号水平符合高斯分布，则可以推断出所处理的样本包含噪声而不包含其他音频信号。

然后，音频信号分析单元使用响度估计的结果，以用于计算被引入到音频输入信号20和21中的时间常数。在图2中，时间常数的计算由时间常数生成器32象征。时间常数有助于对增益进行调整，如结合图6详细描述的。

音频信号分析单元30还包括增益确定单元35，所述增益确定单元对语音输入声道21和其他音频输入声道20的增益进行调整。响度确定单元31通过发出dB响度等值(dBLEQ)提供了音乐输入信号的某个部分(例如，包含若干样本的块)的响度。增益确定单元35具有预定义的信号水平或任何其他信号水平阈值，所述预定义的信号水平为当输出音频信号时应该满足的信号水平(例如，如图7和图8中在这些图的下部分中示出的-12dB)。在增益确定单元35中，从要获得的平均信号水平中减去所确定的响度，以便计算增益。举例说明，如果所确定的响度对应于-5dB，并且如果目标为-12dB满刻度，则必须相应地通过减小增益来对增益进行调整，以便具有约-12dB的平均信号水平。增益确定单元确定其他音频输入声道20的第一增益参数，并且确定语音输入声道21的第二增益参数。增益确定单元计算用于对增益进行调整的时间常数，如将结合图6解释的。

增益确定单元被配置成使得其以用户可以更好地感知到语音输入声道中存在的对话这样一种方式对语音输入声道和其他音频输入声道的增益进行调整。

举例说明，当整体信号水平增加时，与通过第一增益参数增加的其他音频输入声道的信号水平相比，通过第二增益参数增加的语音输入信号的信号水平可以增加更高的量。换句话说，这意味着：第一增益参数和第二增益参数被确定为使得语音输入信号的信号水平与语音输出信号的信号水平的比小于其他音频输入声道的信号水平与其他音频输出声道的信号水平的比。

然而，当音频信号的总信号水平应减小以便使信号保持在一定范围内时，第一增益参数和第二增益参数可以被确定为使得语音输入信号的信号水平被减小为使得与通过第一增益参数减小的其他音频输入声道的信号水平相比，语音输入信号的信号水平通过第二增益参数减小了更小的量。

在车辆环境中，取决于所使用的车辆，车辆的乘员感知到不同的环境噪声。车辆声音信号包括噪声分量和音频信号分量。噪声信号分量可以归因于道路轮胎噪声、空气动力噪声或发动机噪声。噪声可以具有在60与85dB SPL(信号声压级)之间的值。由于听觉疼痛阈值大约为120dB SPL，所以音频信号分量的范围在20-40dB SPL内。

返回参考图1，音频信号分析单元的语音输入声道的信号输出38和其他音频输入声道的信号输出39被输入到信号控制单元40中。描述呈时间常数形式的增益调整的信号输出38被馈送到增益控制单元44，而信号输出39被馈送到增益控制单元43。其他音频输入声道21被输入到第一延迟元件41。所述延迟元件将其中在信号分析单元中确定增益和检测可能的语音信号分量所需要的延迟引入到输入信号20中。延迟元件有助于确保由信号分析单元30处理的信号实际被对应于音频信号的正确的时间常数控制，正确的时间常数对于该音频信号被确定。以相同的方式，语音输入信号21被馈送到第二延迟单元42，在所述第二延迟单元中，对应的延迟被引入到语音输入信号中。在所示的实施例中，提供了两个不同的延迟单元41和42，然而，由于被引入到信号20和21中的延迟优选地是相同的，所以可以使用单个延迟单元。

此外，信号控制单元40包括用于其他音频输入声道的增益控制单元43和用于语音输入声道21的增益控制单元44。增益控制单元43、44有助于确定由增益确定单元35确定的增益中有多少量实际影响从增益控制单元43输出的其他音频输出声道45的信号输出水平或从增益控制单元44输出的语音输出声道46的信号输出水平。为此，可以提供用户界面(未示出)，在所述用户界面中，用户可以指示由音频信号分析单元30进行的增益校正中有多少百分比被用于输出。如果应输出100％的增益(如组合式输出信号60中存在的)，则如由增益确定单元35确定的值被接管过来。然而，用户也有可能不想要增益调整(例如，在他或她想要在一段音乐中维持响度演化的情况下)。在这个示例中，用户可将增益控制单元43中的增益调整设定为0％，意味着如在单元30中所确定的校正没有被用于输出。在增益控制单元43中，可以确定增益校正的量，例如通过将因子设定在0％与100％之间。如果设定0％的因子，则确定增益而不影响时间常数。

除了用户界面之外或代替用户界面的是，可以提供噪声估计器50，所述噪声估计器估计车辆舱室中的环境噪声。如上文所提到的，车辆速度强烈地影响车辆舱室中的噪声。如果车辆以非常低的速度行驶或处于静止状态，则可以考虑不需要如由增益确定单元确定的增益调整。如果输出信号60根本不应该受到增益确定单元的影响(意味着如在单元30中所确定的校正没有被用于输出)，则增益控制单元可以将因子设定为0％，通过该因子，输出信号受到在单元30中实施的计算的影响。噪声估计器50可以接收车辆速度并且可以访问表格51，在该表格中提供了车辆速度与噪声之间的关系。此表格可以是由车辆制造商设定的预定义表格。一般地，驾驶员应该不能对表格51中给出的值进行调整。然而，表格中给出的值可以例如通过软件工具来改变，利用该软件工具可以调节声音的设定。当车辆速度更高时，环境噪声也可能在80dB(A)。在这个示例中，如果不应超过105dB(A)的阈值，则只有25dB(A)保留下来。在环境噪声为80dB(A)的情况下，音频输出信号的响度可以由如上文所描述的增益确定单元动态地确定。增益确定单元可以基于环境噪声确定在0％与100％之间的因子，此百分比描述了应该将响度调整多少量，如上文所描述的。在所示的实施例中，车辆速度是确定环境噪声的唯一变量。然而，其他因素(诸如，诸如由麦克风(未示出)确定的环境噪声)可以单独地使用或与车辆速度相结合使用。

在图3的上部分中，以满刻度示出了音频输入信号的信号水平，意味着0dB满刻度(0dBFS)被分配给数字域中的最大可能的信号水平，dB满刻度意指相对于满刻度的分贝。如从图3的上部分可以看出，信号水平变化地相当大，并因此使得如由用户感知的对应于信号的响度级也变化地相当大。在图3的下部分中，对应的响度从信号输入水平中被估计出。在建议书ITU-R BS.1770-1(“Algorithms to Measure Audio Program Loudness and to aPeak Audio Level”)中描述了响度估计的一种可能性。在本申请中，可以通过双耳定位模型来估计响度。如果如图3中所示的声音信号在车辆中向用户播放，则音频信号的一些部分可能被感知为处于令人不快的响度，而音频信号的其他部分可能被认为太低而无法被用户正确地感知。在图4中，示出了图3的信号经理想地调节后的水平。举例说明，为了让用户良好地感知到，在范围201中的信号样本应被调整到更低的信号水平，而在范围202中的信号应被调整到更高的信号水平。类似地，范围203中的信号应以强烈地减小的信号水平被输出。

在图4的下部分中，示出了上部分中的经理想地调节后的水平的对应的估计响度。当比较图2的下部分与图4的下部分时，可以推断出，如图4中所示的响度估计值优于如图3中所示的响度估计值。图4的响度估计值可以比图3的响度估计值更好地被感知到。在此达到了并形像化了平滑的、相对恒定的响度。

图5示出了语音检测单元的一部分的更详细视图。语音检测单元必须决定语音输入信号是否包括语音分量。为此，可以在分割单元370中将语音输入信号分离成具有限定的长度的帧(例如，两秒)，并且针对每个帧，在特征提取单元371中计算并提取特征。因此，语音输入信号被分割为帧，并被输入到缓冲器中以进行特征提取，其中针对每个缓冲器内容来实施特征提取。基于所提取的特征，在单元372中实施分类。举例说明，可以计算出平均偏差和标准偏差。最后，在单元373中，实施聚类。在这个聚类单元373中，试图找到每个帧的类别标签以确定特征空间中的聚类中心，然后将每个特征向量分配给最近的中心。作为示例，可以使用K均值算法。

单元371中的所提取的特征可以包括诸如以下各者的特征：总频谱功率、过零率或美尔频率倒谱系数(MFCC)。

应理解，可使用本领域中已知的任何其他方法来检测语音输入信号中的语音信号分量。语音检测应被特别配置成区分歌曲中出现的语音和文字。应只检测出声语言的语音分量，使得与N声道音频输入信号中的其他非语音分量相比，这些分量可以由增益确定淡雅以不同的方式处理。

语音检测单元的输出可以是在0％与100％之间的概率。如果概率高于某个水平，则语音检测单元可以假设语音输入声道中存在语音并因此可以通知增益确定单元，使得与其他音频输入声道相比，后者(增益确定单元)可以以不同的方式来控制语音输入声道。如果语音检测单元假设语音输入声道中不存在语音，则可以以相同的方式对语音输入声道与其他音频输入声道两者进行调整。

在图6中，示出了由不同的时间常数71至73分隔开的语音输出声道46中的一者的不同样本61至63。时间常数71至73指示从一个样本到下一个样本应该如何对响度进行调整。时间常数可以是提升时间常数或下降时间常数。提升时间常数指示从一个样本到下一个样本信号增益如何增加，而下降时间常数指示从一个样本到下一个样本增益减少。时间常数71至73是以提升时间常数可以比下降时间常数迅速得多地被调整这样一种方式确定的。举例说明，如果在两个音轨之间或在一个音轨内确定信号暂停，则不应增加音频信号水平以便避免噪声的放大。当新的音轨开始时，在非常低的信号水平之后可能直接出现高信号水平。因此，必须对响度估计的提升时间常数进行调整，以便避免在新音轨开始时的信号水平被大大增加。与增加相比，在音频信号水平减小的情况下的下降时间常数只允许信号水平更慢地减小。此外，时间常数为自适应时间常数，意味着音轨越长，时间常数反应得越慢。对于提升时间常数和下降时间常数来说，这可能是有效的。平滑后的响度估计还保证了和人类感知响度的方式一样的响度估计。尖峰和凹谷(dip)被人类听觉系统平滑掉。时间常数随着音频音轨的时间增加而更慢地变化这一事实有助于维持音频信号的动态。然而，当达到音乐信号的长运行时间时，对增加的响度的更短的反应时间也保证了对快速信号增加的适当反应。此外，时间常数使得与其他音频输出声道的分量相比以不同的方式对语音输出声道中包括语音的分量进行调整。此外，图6的上部分示出了其他音频输出声道45的不同样本，这些样本由不同的时间常数91至93分隔开。

在图6的下部分中，示出了对于输出信号45和46随时间的推移的增益增加和增益减小。针对音乐样本的第一块64，第一增益被75确定为所示的那样。针对后面的信号块65，确定增加的增益，后面为具有略微减小的增益的信号块66，使得应用如由76象征的增益减小。基于使用时间常数的响度调整，确定每个块的增益，即每个块的目标增益。然后，块n的目标增益实现为从前一个块n-1的目标增益开始的线性斜坡。在下部分中所示的示例中，示出了对于语音输出声道的增益增加和减小，所述语音输出声道包含具有对应的增益95和96的不同样本84至86。假设在块64结束之后检测到语音。此外，假设与其他分量相比应增加语音信号分量，以便提高语音分量的可懂度。当比较增益75与增益95时，可以推断出：与其他音频输出声道45相比，语音输出声道46已得到更强的增加。

如果确定了在一个音轨中或在两个音轨之间有暂停，则可以重置时间常数。在图2的信号分析单元30中实施的暂停检测或音轨检测由暂停检测单元33和音轨检测单元34象征。在图2的实施例中，响度确定单元31、时间常数生成单元32、暂停检测单元33和音轨检测单元34、增益确定单元35、缩混单元36和语音检测单元37被示为分开的单元。然而，对于本领域技术人员来说应清楚，不同的单元可以合并为更少的单元，并且这些单元可以组合成若干个单元或甚至组合成一个单元。此外，信号分析单元可以通过硬件元件或软件或硬件与软件的组合来设计。

在图7中，示出了自动响度调整的第一示例。在图7的上部分中，示出了在响度估计之前的音频输入信号。如从音频输入信号的两个声道可以看出，输入信号覆盖不同的输入水平范围。最大输入水平可为0dB满刻度。在图7的下部分中，示出了在响度估计和增益调整后的音频输出信号19。如从图7的下部分可以看出，平均信号水平被设定为-12dB满刻度。同时，保留了音频信号的动态结构。

在图8中示出了另一个示例，其中输入水平具有-20dB满刻度的最大输入水平。在图8的下部分中，示出了在响度估计和增益调整后的音频输出信号19。再次保留了动态结构，并且平均信号水平再次为-12dB满刻度。如果图7和图8的上部分中所示的输入信号被输出给用户，则用户将必须频繁地调节音量，以便避免信号水平太高而令人不快并且以便针对收听的信号水平太低的音频信号的多个部分进行信号增加。

图9示出了系统400的示意性架构视图。系统400被配置成实施上文结合其他图所讨论的所有步骤。系统400包括界面410，所述界面具有输入单元和输出单元(未详细示出)。提供该界面是为了输出图1中所示的组合式输出信号60。该界面进一步被配置成接收上文结合图1所讨论的不同输入信号20、21。

此外，提供了处理单元420，该处理单元负责系统400的操作。包括一个或多个处理器(例如，数字信号处理器(DSP))的处理单元420可以实施存储在存储器430上的指令，其中存储器可以包括只读存储器、随机存取存储器、大容量存储器等等。此外，存储器可以包括待由处理单元420执行的合适的程序代码，以便实施系统的上述功能，其中与N声道音频输入信号的其他音频输入声道相比，以不同的方式对语音信号分量进行调整，如上文结合图1到图8所讨论的。

通过本申请，由于系统对响度进行了估计并且在输出之前自动地且动态地对齐了增益，用户不再需要频繁的音量调节。此外，对不同分量的增益进行调整，使得N声道信号中存在的语音分量可以被更好地理解。

Claims

1.一种用于对N声道音频输入信号的增益进行调整以便生成N声道音频输出信号的方法，其中所述N声道音频输入信号包括语音输入声道(21)，如果所述N声道音频输入信号中存在语音信号分量，则所述语音输入声道中存在所述语音信号分量，并且所述N声道音频输入信号包括其他音频输入声道(20)，所述方法包括：

- 动态地确定所述N声道音频输入信号的感知响度，

- 确定所述语音输入声道(21)中是否存在语音信号分量，

其中如果所述语音输入声道(21)中存在语音信号分量，

- 基于所述N声道音频输入信号的确定的感知响度，在第一增益控制单元(43)中以第一增益参数(39)来动态地调整所述其他音频输入声道(20)的增益，使得从所述第一增益控制单元(43)输出的其他音频输出声道(45)的至少两个连续音轨被限制到预定义的信号水平范围或预定义的响度范围，

- 基于所述N声道音频输入信号的所述确定的响度，在第二增益控制单元(44)中以第二增益参数(38)来动态地调整所述语音输入声道(21)的增益，使得从所述第二增益控制单元(44)输出的语音输出声道(52)的至少两个连续音轨被限制到所述预定义的信号水平范围或响度范围，其中所述第二增益参数(38)与所述第一增益参数(39)不同,

估计空间中的环境噪声，所述N声道音频输入信号被输出到所述空间，其中考虑到估计的环境噪声，对所述其他音频输入声道和所述语音输入声道的增益进行调整，其中所述N声道音频输入信号输出到车辆的内部，其中估计所述环境噪声包括确定车辆速度和基于确定的车辆速度来确定所述环境噪声，

其中确定所述语音输入声道(21)中是否存在语音信号分量包括以下步骤：

- 将所述语音输入声道分割成音频帧，

- 在每帧的基础上实施特征提取，

- 在特征空间中对提取的特征进行聚类。

2.根据权利要求1所述的方法，其中所述第一增益参数(39)和所述第二增益参数(38)被确定为使得所述语音输入声道(21)的信号水平与所述语音输出声道(52)的信号水平的比小于所述其他音频输入声道(20)的信号水平与所述其他音频输出声道(45)的信号水平的比。

3.根据权利要求1或2所述的方法，其中所述第一增益参数(39)和所述第二增益参数(38)被确定为使得与通过所述第一增益参数(39)增加的所述其他音频输入声道的所述信号水平相比，所述语音输入声道的所述信号水平通过所述第二增益参数(38)增加了更高的量。

4.根据权利要求1或2所述的方法，其中所述第一增益参数(39)和所述第二增益参数(38)被确定为使得与通过所述第一增益参数(39)减小的所述其他音频输入声道的所述信号水平相比，所述语音输入声道(21)的所述信号水平通过所述第二增益参数减小了更小的量。

5.根据权利要求1或2所述的方法，其中针对全部N个声道，整体确定所述N声道音频输入信号的所述感知响度。

6.根据权利要求1或2所述的方法，其中单独地确定单独的组的所述N声道音频输入信号的所述感知响度。

7.根据权利要求1或2所述的方法，其中如果所述语音输入声道中不存在语音信号分量，则以相同的增益对所述其他音频输入声道(20)和所述语音输入声道(21)进行调整。

8.一种系统，其被配置成对N声道音频输入信号的增益进行调整以便生成N声道音频输出信号，其中所述N声道音频输入信号包括语音输入声道(21)，如果所述N声道音频输入信号中存在语音信号分量，则所述语音输入声道中存在所述语音信号分量，并且所述N声道音频输入信号包括其他音频输入声道(20)，所述系统包括：

- 响度确定单元(31)，所述响度确定单元被配置成确定所述N声道音频输入信号的感知响度，

- 语音检测单元(37)，所述语音检测单元被配置成确定所述语音输入声道(21)中是否存在语音信号分量，

- 第一增益控制单元(43)，所述第一增益控制单元被配置成控制所述其他音频输入声道(20)的增益，

- 第二增益控制单元(44)，所述第二增益控制单元被配置成控制所述语音输入声道(21)的增益，

其中如果所述语音检测单元检测到所述语音输入声道中存在语音信号分量，

- 所述第一增益控制单元(43)基于所述N声道音频输入信号的所确定的感知响度以第一增益参数(39)来动态地调整所述其他音频输入声道(20)的所述增益，使得从所述第一增益控制单元(43)输出的其他音频输出声道(45)的至少两个连续音轨被限制到预定义的信号水平范围或预定义的响度范围，

- 所述第二增益控制单元(44)基于所述N声道音频输入信号的所确定的响度以第二增益参数(38)来动态地调整所述语音输入声道(21)的所述增益，使得从所述第二增益控制单元(44)输出的语音输出声道(52)的至少两个连续音轨被限制到所述预定义的信号水平范围或响度范围，其中所述第二增益参数与所述第一增益参数不同,

噪声估计器(50)，所述噪声估计器被配置成估计空间中的环境噪声，所述N声道音频输入信号被输出到所述空间，其中所述第一增益控制单元(43)和所述第二增益控制单元(44)被配置成考虑到估计的环境噪声对所述其他音频输入声道和所述语音输入声道的增益进行调整，其中所述N声道音频输入信号输出到车辆的内部，并且所述噪声估计器被配置成确定车辆速度和基于所确定的车辆速度来确定所述环境噪声；

其中所述语音检测单元(37)被配置成基于包括以下各者的步骤来确定所述语音输入声道中是否存在语音信号分量：

- 将所述语音输入声道分割成音频帧，

- 在每帧的基础上实施特征提取，

- 在特征空间中对提取的特征进行聚类。

9.根据权利要求8所述的系统，其中所述第一增益控制单元(43)和所述第二增益控制单元(44)将所述第一增益参数和所述第二增益参数确定为使得所述语音输入声道(21)的信号水平与所述语音输出声道(52)的信号水平的比小于所述其他音频输入声道(20)的信号水平与所述其他音频输出声道(45)的信号水平的比。

10.根据权利要求8或9所述的系统，其中所述第一增益控制单元(43)和所述第二增益控制单元(44)将所述第一增益参数和所述第二增益参数确定为使得与通过所述第一增益参数增加的所述其他音频输入声道的信号水平相比，所述语音输入声道的信号水平通过所述第二增益参数增加了更高的量。

11.根据权利要求8或9所述的系统，其中所述第一增益控制单元(43)和所述第二增益控制单元(44)将所述第一增益参数和所述第二增益参数确定为使得与通过所述第一增益参数减小的所述其他音频输入声道的信号水平相比，所述语音输入声道(21)的所述信号水平通过所述第二增益参数减小了更小的量。

12.根据权利要求8或9所述的系统，其中所述响度确定单元(31)被配置成针对所有N个声道将所述N声道音频输入信号的所述感知响度一同确定为组合式响度级。

13.根据权利要求8或9所述的系统，其中所述响度确定单元(31)被配置成单独地确定单独的组的所述N声道音频输入信号的所述感知响度。

14.一种系统(400)，其被配置成对N声道音频输入信号的增益进行调整以便生成N声道音频输出信号，其中所述N声道音频输入信号包括语音输入声道，如果所述N声道音频输入信号中存在语音信号分量，则所述语音输入声道中存在所述语音信号分量，并且所述N声道音频输入信号包括其他音频输入声道，所述系统包括：

- 至少一个处理器(420)，

- 存储器(430)，所述存储器包含能够由所述至少一个处理器执行的指令，其中所述系统操作以实施根据权利要求1至7中任一项所述的方法。