CN106797523B

CN106797523B - 音频设备

Info

Publication number: CN106797523B
Application number: CN201580050110.1A
Authority: CN
Inventors: 史蒂文·杰伊·博尼
Original assignee: Shi DiwenJieyiBoni
Current assignee: Shi DiwenJieyiBoni
Priority date: 2014-08-01
Filing date: 2015-07-30
Publication date: 2020-06-19
Anticipated expiration: 2035-07-30
Also published as: CN106797523A; EP3175634A1; US20160037279A1; CA2988540A1; US10362422B2; WO2016019130A1; US20190320279A1; EP3175634B1; US11330385B2

Abstract

一种动态地调整音频和视频信号的音频以改进其整体声音质量和对话清晰度的方法和系统。一些实施例在多声道音频信号的各个声道上使用增益、均衡、音频信号压缩和空间增强(混响)。

Description

音频设备

相关申请

本申请是要求2014年8月1日提交的美国临时申请号62/032,205的权益的延续。上述申请的全部教导通过引用并入本文。

背景技术

目前，用于消费电视的标准连接电缆是高清晰度多媒体接口(HDMI)电缆。通常，HDMI电缆将视频信号以及来自媒体源的立体声和5.1声道音频信号两者传送到回放设备。如果回放设备是仅具有两个扬声器的电视，则电视将利用立体声音频信号。类似地，如果回放设备是5.1声道环绕声系统；它将利用5.1声道音频信号。

发明内容

一个常见的问题是音频信号的对话部分常常是低的，这使得其难以清楚地听到。当前家庭音频系统和回放设备不能有效地增强所选声道上的对话。另一个问题是来自源的立体声信号与5.1声道音频信号相比质量较差。

本方法涉及一种动态地调整音频信号以改善其整体声音质量和对话清晰度的方法和系统。一些实施例在多声道音频信号的各个声道上使用增益、均衡、音频信号压缩和空间增强(混响)。

一个非限制性的实例是包括以下的方法：接收多声道音频信号，分别处理多声道音频信号的每个声道，包括通过调整以下的至少一个来处理多声道音频信号中的至少一个声道：增益、均衡和动态范围，以调整在至少一个声道中的对话信息，并且将经处理的音频声道传递到设备。

附图说明

从下面对附图所示的本发明的示例性实施例的更具体的描述，前述内容将是显而易见的，其中在不同的视图中相同的附图标记表示相同的部分。附图不一定是按比例的，重点在于示出本发明的实施例。

图1A-图1B示出了本发明的一个示例实施例的框图。

图2示出了本发明的第二示例实施例的框图。

图3A-图3D示出了针对级别1对话增强的示例均衡图。

图4A-图4D示出了针对级别2对话增强的示例均衡图。

图5A-图5D示出了针对级别3对话增强的示例均衡图。

具体实施方式

本发明的示例实施例的描述如下。

在本发明的一个实施例中，如图1A和1B所示，在A/V输入端102处以多声道(5.1、7.1等)和立体声音频信号104的形式接收音频信号。数字音频流评估块106分析多声道音频并存储用于整体声级、动态范围和信号布局(其通常被称为平移)的值。数字音频流评估块实时操作，并被配置为连续地更新值。基于3-5秒的平均值计算整体增益水平和动态范围值，并且平移和布局值被即时更新。将整体增益水平值传递到图1B所示的多声道音频混合增益块146，以确保整体输出声级与在设备的输入端处检测到的主声级相同。

平移值被传递到用于增益控制、频率调制和调平/压缩的各个声道处理器。为了确保与原始源材料匹配的一致的平移，这些过程被连续更新。

多声道和立体声音频流分离器108将音频的所有声道分离成用于单独处理的单独声道。在存在多声道音频流(5.1、7.1等)的情况下，立体声终止块112丢弃原始立体声音频流114。在没有多声道音频流存在的情况下，立体声音频流被传递以用于进一步处理，如图2所示。

在多声道音频流存在的情况下，多声道音频流的各个声道首先被传递到增益控制处理器116-1……116-N。如图1A所示，声道122-1……122-6被标记为与用于5.1声道音频信号的左、中、右、左环绕、右环绕和低频效果一致的L(左)、C(中)、R(右)、LS(左环绕)、RS(右环绕)和LFE(低频效果)。但是应当理解，可以设想其他多声道信号。使用由终端用户选择的可变量的预选设置(对话增强级别1、2和3)的各个增益控制处理器操作以增加中央声道的整体声级，同时衰减音频的右声道和左声道的整体声级。为了简单起见，仅讨论左、中和右声道，但是这些概念适用于5.1、7.1和其他信号的其他声道。这被设计为具有使整体信号的对话部分更大且更容易理解的效果。由数字音频流评估块106返回的值(其与音频的平移或空间布局有关)操作以动态地调整多声道音频流的左、中和右声道的增益，以保持如原始混合中所期望的空间布局。整体效果是维持原始信号的对话部分的略微增加的声级，同时略微减小重合音频的声级。与左环绕和右环绕声道相关的增益控制处理器被配置为调整它们各自的声道的声级以维持原始混合的环绕声空间意图。

当中央声道的对话声级通过其单独的增益控制处理器增加时，环绕声道增益控制处理器使用从整体声级的3-5秒平均值导出的值，以将这些声道相对于中央声道保持在一致的声级。与LFE或次低音扬声器声道122-6相关的增益控制处理器116-6使用从数字音频流评估块106、EQ预设块152和音频返回分析块150导出的主声级来调整混合的低频内容的声级。这确保了低频内容不会超过混合，但是在特定收听环境中确实提高了混合的整体声音质量。

接下来，各个音频声道被传递到针对每个声道的单独的平率调制处理器118-1……118-N。中央声道122-2在人类语音的典型范围中接收轻微的频率提升，并且在音频频谱的其余部分上略微减小。例如，提升可以在2850Hz处具有大约1db至3db，具有高达250个周期的Q(带宽)。该提升也能够由用户从预编程的预设中选择。图3A、4A和5A分别示出了针对对话增强的三个级别(级别1、2和3)的中央声道中的提升的示例频率图。与多声道音频流的其他声道相关的频率调制处理器操作以衰减或挖出由中央声道的频率调制处理器提升的相同频率范围。在其他声道上的切割例如可以在1db与3db之间。在图3B-D、4B-D和5B-D中分别示出了示出针对三个级别的对话增强(级别1、2和3)的其他声道中的衰减的示例频率图。这具有清除指定频率范围并且允许与中央声道相关联的音频在不增加整体声级的情况下突出的效果。此外，用于左环绕和右环绕声道的频率调制处理器操作以使用从数字音频流评估块106、EQ预置块152和音频返回分析块150导出的数据，以将那些声道的均衡调整到最佳工作在收听环境中并维持环绕混合的整体效果。类似地，与LFE或次低音扬声器声道122-6相关的频率调制处理器118-6也动态地调整该声道的频率范围以适应收听环境。例如，如果音频返回分析块检测到大于正常的低音响应，它将减少该块中的那些频率。此外，如果预设EQ块携带给定回放系统不能处理低于给定值的频率的信息，则LFE声道的频率调制处理器将切除低于该值的所有频率。这具有允许那些递送系统的扬声器更有效地工作并且不会使过多的LFE材料扭曲(这会降低整体混合以及特别是对话的可理解性)的效果。

在调整各个声道的增益和均衡之后，音频声道被传递到声道特定的调平/压缩处理器120-1……120-N。这些处理器单独地平滑每个声道上的音频信号。与中央声道122-2相关联的调平/压缩处理器120-2操作以非常轻微地压缩该声道的动态范围。例如，中央声道可以以大约1.5-2.5比1的值被压缩。期望的效果是提高最低声级的语音音频，同时稍微减小最响的对话以维持与对话相关的一致的音频电平。左和右声道调平/压缩处理器120-1、120-3被设置为以2.5-3.5比1的示例范围压缩那些声道，以进一步减少那些声道上最响的音频侵入，使得它们不干扰中央声道上的音频。针对左、中央和右声道122-1、122-2、122-3的调平/压缩处理器120-1、120-2、120-3也可以使用在数字音频流评估块中的平移评估处理中导出的值而被动态地控制。这确保了保持原始混合的平移和空间关系。例如，如果电影/视频中的字符移动到画面的左侧，并且原始音频混合通过将字符话音平移到声场的左侧来为此调整，针对左声道122-1的调平/压缩处理器120-1将基于来自数字音频流评估块106的数据自动地将其压缩值调整到与中央声道相同的范围，直到数字音频流评估块返回指示平移事件结束并且对话已经返回到其在多声道混合的中央声道中的公共位置的新值。与左环绕声道和右环绕声道相关的调平/压缩处理器120-4、120-5也响应于从EQ预设块和音频返回分析块导出的数据。基于该数据和在数字音频流评估块中导出的主声级的3-5秒平均整体声级，这些声道在1-3到1的示例性范围中被压缩。

在对多声道混合的独立声道进行单独处理之后，音频声道被重新组合成多声道混合和立体声混合两者。立体声混合由多声道到立体声降混器134创建。多声道到立体声降混器采用5.1或7.1声道的典型组合，并创建降混。用于创建降混的示例过程涉及将中央、左和右声道的声级减小指定量以维持音频的整体表观声级(apparentlevel)，减小和频率限制LFE声道并将LS和RS声道添加到具有减少的整体增益的左和右声道。中央和LFE声道被添加到左和右声道中，保留它们在立体声场中的位置。来自数字音频流评估块的数据用于比较和设置立体声混合的整体主声级。音频流(多声道和降混的立体声音频信号两者)然后被传递到它们各自的混响/空间布局块140、144。

混响/空间布局块140、144的目的是帮助组合整体混合。该处理器向所有声道同时添加分数、等量的混响以合并混合。该过程在范围从例如0到5％的值中被动态地调整。该特定值由来自音频返回分析块150和预设EQ块152的数据确定。在某些情况下，根本不需要混响来合并混合元素。在扩展的高频内容返回到音频返回分析块或映射到预设EQ块的情况下，可以应用少量混响以具有软化高频内容的效果，而不牺牲整体混合的亮度或空气的质量。

实时环境麦克风126操作以连续地对收听环境中的整体声音进行采样。在单个声道处理块之后分析该样本。

来自实时环境麦克风的数据被自动传递到背景噪声检测块128和背景噪声EQ块130。如果环境噪声增加，则处理的混合的整体增益可以由用户设置为增加以自动补偿。例如，如果激活空调或洗碗机，增加收听环境中的整体本底噪声，则将增加整体输出声级以补偿额外的环境噪声。整体补偿声级能够由用户使用大约以下值(0至1、.25至1、.5至1和1至1)进行选择。因此，例如，4db的环境噪声的增加将导致基于用户偏好的0至4db的整体声级的增加。

该过程中的下一步骤是将混合组合回包括多声道和立体声音频元素的单个流，这由多声道和立体声音频流组合器154执行。然后将这些混合传递到主均衡块156，该主均衡块156从音频返回分析块和/或预设EQ块导出其均衡图。

音频返回分析麦克风148收听已知的音频源。该源可以是从音频测试信号到先前分析的节目，例如在理想的收听环境中播放的“星球大战”的前10分钟。

当播放源时，音频返回分析块150将从当前收听环境返回的音频与在理想收听环境中播放的相同信号的频率映射进行比较，并且开发特定的均衡设置以使用户均衡化块156使用户的环境尽可能接近理想的收听环境。在该分析的初始阶段期间，禁用上游处理器，在第一部分的分析之后，基于从分析返回的数据启用和调整上游处理器，以建立用于所有的上游过程的基线设置。这确保了用于改进音频的整体质量和增加对话的易懂性的起点与原始混合的意图一致。

EQ预设块152可以用已知的回放系统EQ图预加载。这些EQ图可以由主均衡块156应用于特定回放系统，以进一步调整整体混合以匹配该回放系统。例如，如果终端用户拥有具有特定EQ图的特定型号的平板电视，则该图可以应用于该用户的设备以调整其均衡以匹配回放系统的限制。EQ预设块152可以与音频返回分析块150结合使用或与音频返回分析块150分开使用。

系统中的最后一个过程自动评估与所有上游过程相关的延迟，该延迟应当是最小的并且以毫秒为单位。从该过程返回的数据用于视频延迟补偿块124中，以确保视频103和音频信号在它们通过A/V输出端158传递回到回放设备时保持完美的同步。

唯立体声处理。图2示出了在多声道(5.1、7.1等)音频不可用于给定节目的情况下的音频处理。使用对于增益控制处理器216-1、216-2、频率调制处理器218-1、218-2和调平/压缩处理器220-1、220-2的专用于立体声内容导出的唯一值，处理立体声混合的左声道和右声道，就好像它们是多声道混合的中央声道一样。

在A/V输入端202处以立体声音频信号204的形式接收音频信号。数字音频流评估块206分析立体声音频信号并存储用于整体声级、动态范围和信号布局(其通常被称为平移)的值。数字音频流评估块206实时操作，并被配置为连续地更新值，并提供具有左声道222-1和右声道222-2特征的唯立体声节目210。基于3-5秒的平均值计算整体增益水平和动态范围值，并且平移和布局值被即时更新。将整体增益水平值传递到立体声混合增益块242，以确保整体输出声级与在设备的输入端处检测到的主声级相同。

通过与多声道混合中相同的方法来保持立体声混合的平移和空间关系。增益控制处理器216-1、216-2、频率调制处理器218-1、18-2和调平/压缩处理器220-1、220-2基于由数字音频流评估块206返回的数据而被动态地调整，以确保正确的平移和空间布局。

此外，使用从音频返回分析块250和EQ预设块252导出的数据来处理立体声或单声道音频以调整回放系统。

实时环境麦克风226操作以连续地对收听环境中的整体声音进行采样。在单个声道处理块之后分析该样本。来自实时环境麦克风的数据被自动传递到背景噪声检测块228和背景噪声EQ块230。

音频返回分析麦克风248收听已知的音频源。使用音频返回分析块250、混响/空间布局块240、预设EQ块252、背景噪声检测块228和主均衡块256来处理立体声混合，来为上游处理器做出的混合调整提供准确的基线。

系统中的最后一个过程自动评估与所有上游过程相关的延迟，该延迟应当是最小的并且以毫秒为单位。从该过程返回的数据用于视频延迟补偿块224中，以确保视频203和音频信号在它们通过A/V输出端258传递回到回放设备时保持完美的同步。

本发明的其他示例实施例可以使用计算机程序产品来配置；例如，可以在用于实现本发明的示例实施例的软件中对控制进行编程。本发明的其他示例实施例可以包括含有可以由处理器执行的指令的非暂时性计算机可读介质，并且该指令当被执行时使得处理器完成本文所描述的方法。应当理解，本文描述的框图和流程图的要素可以在软件、硬件、固件或未来确定的其他类似实现中实现。此外，本文所描述的块和流程图的要素可以以任何方式在软件、硬件或固件中组合或划分。

如果在软件中实现，则软件可以以能够支持本文公开的示例实施例的任何语言编写。软件可以存储在任何形式的计算机可读介质中，诸如随机存取存储器(RAM)、只读存储器(ROM)、光盘只读存储器(CD-ROM)等等。在操作中，通用或专用处理器以本领域公知的方式加载及执行软件。还应当理解，框图和流程图可以包括更多或更少的要素，不同地布置或定向，或者不同地表示。应当理解，实现可以指示图示本发明的实施例的执行的框图、流程图和/或网络图以及框图和流程图的数目。

尽管已经参照本发明的示例性实施例具体示出和描述了本发明，但是本领域技术人员将理解，在不脱离所附权利要求所涵盖的本发明的范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种用于音频信号处理的方法，包括：

接收多声道音频信号，所述多声道音频信号包括中央声道；

处理所述多声道音频信号的每个声道以在所述多声道音频信号的回放时增强所述多声道音频信号中的对话的清晰度，包括：

通过与在人类语音的音频频率范围之外的所述中央声道的信号电平相比提高在人类语音的所述音频频率范围中的所述中央声道的信号电平来调整所述中央声道的均衡，通过所述调整所述中央声道的均衡来处理所述多声道音频信号的所述中央声道，并且

与所述中央声道的所述处理并行地、通过与在人类语音的所述音频频率范围之外的第二声道的信号电平相比衰减在人类语音的所述音频频率范围中的所述第二声道的信号电平，来清除在所述多声道音频信号的所述第二声道中的人类语音的所述音频频率范围；以及

将所处理的音频声道传递到设备。

2.根据权利要求1所述的方法，还包括：将所处理的音频声道降混成两声道音频信号。

3.根据权利要求2所述的方法，还包括：将所述两声道音频信号传递到所述设备。

4.根据权利要求1所述的方法，还包括：延迟视频信号以将所述视频信号与所处理的音频声道同步，以及向所述设备传递所延迟的视频。

5.根据权利要求1所述的方法，还包括：评估所述多声道音频信号以确定整体音频电平，以及使用所述整体音频电平来确保对所处理的音频声道的单位增益。

6.根据权利要求1所述的方法，其中处理所述多声道音频信号的所述中央声道还包括：通过提高所述中央声道的增益来调整所述中央声道的所述增益，以及处理所述多声道音频信号的所述第二声道还包括：通过降低所述第二声道的增益来调整所述第二声道的增益。

7.根据权利要求1所述的方法，其中处理所述多声道音频信号的所述中央声道还包括：通过第一比率来压缩所述中央声道的动态范围。

8.根据权利要求7所述的方法，其中所述第一比率是在1.5比1和2.5比1之间并且包括1.5比1和2.5比1的任何比率。

9.根据权利要求7所述的方法，其中处理所述多声道音频信号的所述第二声道还包括：通过第二比率压缩所述第二声道的动态范围，所述第二比率高于所述第一比率。

10.根据权利要求9所述的方法，其中所述第二比率是不等于所述第一比率的在2.5比1和3.5比1之间并且包括2.5比1和3.5比1的任何比率。

11.根据权利要求9所述的方法，还包括：对所述多声道音频信号执行平移评估处理，并且基于所执行的平移评估处理来调整所述第二声道的动态范围。

12.根据权利要求1所述的方法，还包括：选择多个预定义的不同的调整配置中的一个调整配置以用于处理所述多声道音频信号。

13.根据权利要求1所述的方法，其中所述设备是回放设备。

14.根据权利要求1所述的方法，其中所述设备是存储设备。

15.根据权利要求1所述的方法，其中所述多声道音频信号具有至少三个声道。

16.根据权利要求1所述的方法，其中所述多声道音频信号是5.1声道音频信号。

17.根据权利要求1所述的方法，其中所述多声道音频信号是7.1声道音频信号。

18.根据权利要求1所述的方法，还包括：在收听环境中获取整体声音的样本，分析所述样本以检测环境噪声，以及增加所处理的音频声道的整体增益以补偿环境噪声。

19.根据权利要求18所述的方法，其中用来补偿环境噪声的所处理的音频声道的整体增益的增加量是用户可选的。

20.根据权利要求1所述的方法，还包括：将所述设备的来自已知音频测试信号的输出与所述已知音频测试信号的理想频率图进行比较，以及调整所处理的音频声道的整体均衡以匹配所述理想频率图。

21.根据权利要求1所述的方法，还包括：基于所述设备的已知回放属性来调整所处理的音频声道的整体均衡。

22.一种用于处理音频信号的系统，包括：

输入端，用于接收多声道音频信号，所述多声道音频信号包括中央声道；

多个处理模块，每个处理模块单独地处理所述多声道音频信号的声道以在所述多声道音频信号的回放时增强所述多声道音频信号中的对话的清晰度；

第一处理模块，被配置成通过与在人类语音的音频频率范围之外的所述中央声道的信号电平相比提高在人类语音的所述音频频率范围中的所述中央声道的信号电平来调整所述中央声道的均衡，通过所述调整所述中央声道的均衡来处理所述多声道音频信号的所述中央声道；

第二处理模块，与所述第一处理模块并行地、被配置成通过与在人类语音的所述音频频率范围之外的第二声道的信号电平相比衰减在人类语音的所述音频频率范围中的所述第二声道的信号电平，来清除在所述多声道音频信号的所述第二声道中的人类语音的所述音频频率范围；以及

输出端，用于将所处理的音频声道传递到设备。

23.根据权利要求22所述的系统，还包括：多声道到立体声降混器，用于将所处理的音频声道降混成两声道音频信号。

24.根据权利要求23所述的系统，其中所述输出端将所述两声道音频信号传递到所述设备。

25.根据权利要求22所述的系统，还包括：视频延迟补偿模块，用于延迟视频信号以将所述视频信号与所处理的音频声道同步，并且用于将所延迟的视频传递到所述输出端，其中所述输出端将所延迟的视频传递到所述设备。

26.根据权利要求22所述的系统，还包括：音频流评估模块，用于评估所述多声道音频信号以确定整体音频电平，并使用所述整体音频电平来确保对所处理的音频声道的单位增益。

27.根据权利要求22所述的系统，还包括：

第三处理模块，被配置成通过提高所述中央声道的增益来调整所述中央声道中的所述增益，通过所述调整所述中央声道中的所述增益来处理所述多声道音频信号的所述中央声道；以及

第四处理模块，被配置成通过降低第二声道中的增益来调整所述第二声道中的增益，通过所述调整所述第二声道中的增益来处理所述多声道音频信号的所述第二声道。

28.根据权利要求22所述的系统，还包括：第三处理模块，所述第三处理模块被配置成通过第一比率来压缩所述中央声道的动态范围。

29.根据权利要求28所述的系统，其中所述第一比率是在1.5比1和2.5比1之间并且包括1.5比1和2.5比1的任何比率。

30.根据权利要求28所述的系统，还包括：第四处理模块，所述第四处理模块被配置为通过第二比率来压缩所述第二声道的动态范围，其中所述第二比率高于所述第一比率。

31.根据权利要求30所述的系统，其中所述第二比率是不等于所述第一比率的在2.5比1和3.5比1之间并且包括2.5比1和3.5比1的任何比率。

32.根据权利要求30所述的系统，还包括：数字音频流评估模块，所述数字音频流评估模块被配置成对所述多声道音频信号执行平移评估处理，并且使得所述第四处理模块基于所执行的平移评估处理来调整所述第二声道的动态范围。

33.根据权利要求22所述的系统，还包括：预设模块，所述预设模块被配置成基于用户选择而应用多个预定义的不同的调整配置中的一个调整配置以用于多个处理模块中的每个处理模块。

34.根据权利要求22所述的系统，其中所述设备是回放设备。

35.根据权利要求22所述的系统，其中所述设备是存储设备。

36.根据权利要求22所述的系统，其中所述多声道音频信号具有至少三个声道。

37.根据权利要求22所述的系统，其中所述多声道音频信号是5.1声道音频信号。

38.根据权利要求22所述的系统，其中所述多声道音频信号是7.1声道音频信号。

39.根据权利要求22所述的系统，还包括：

麦克风，用于在收听环境中获取整体声音的样本；

背景噪声检测模块，用于分析所述样本以检测环境噪声；以及

背景噪声均衡模块，用于增加所处理的音频声道的整体增益以补偿环境噪声。

40.根据权利要求39所述的系统，其中用来补偿环境噪声的所处理的音频声道的整体增益的增加量是用户可选的。

41.根据权利要求22所述的系统，还包括：

麦克风，用于收听通过所述设备播放的已知音频测试信号；

音频返回分析模块，用于将通过所述设备播放的已知音频测试信号与所述已知音频测试信号的理想频率图进行比较；以及

主均衡模块，用于调整所处理的音频声道的整体均衡以匹配所述理想频率图。

42.根据权利要求41所述的系统，还包括：均衡预设模块，用于基于所述设备的已知回放属性来存储均衡预设，其中所述均衡预设模块用信号通知所述主均衡模块以调整所处理的音频声道的所述整体均衡以匹配所述均衡预设中的一个均衡预设。