CN103270508B

CN103270508B - 对漫射声音的空间音频编码和再现

Info

Publication number: CN103270508B
Application number: CN201180050198.9A
Authority: CN
Inventors: J-M·卓特; J·D·约翰斯顿; S·R·黑斯廷斯
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2010-09-08
Filing date: 2011-09-08
Publication date: 2016-08-10
Anticipated expiration: 2031-09-08
Also published as: CN103270508A; WO2012033950A1; US20120057715A1; US20120082319A1; US9728181B2; EP2614445A4; JP5956994B2; EP2614445A1; US20150332663A1; EP2614445B1; PL2614445T3; KR101863387B1; US8908874B2; KR20130101522A; JP2013541275A; US9042565B2

Abstract

本发明涉及对漫射声音的空间音频编码和再现，方法和设备通过与由内容产生器控制的并表示漫射的所希望的程度和质量的时间可变的元数据成同步关系地编码、传输或记录“干的”音频轨迹或“茎”来处理多通道音频。与表示漫射并优选地还表示混合和延迟参数的同步的元数据一起压缩和传输音频轨迹。音频茎与漫射元数据的分离促进在接收器处播放的自定义，考虑本地播放环境的特征。

Description

对漫射声音的空间音频编码和再现

交叉引用

本申请要求2010年9月8日提交的美国临时申请No.61/380,975的优先权。

技术领域

一般而言，本发明涉及高保真音频再现，更具体而言，涉及数字音频(特别是编码的或压缩的多通道音频信号)的产生、传输、记录，以及再现。

背景技术

数字音频记录、传输和再现已经利用了若干种介质，诸如标准清晰度DVD、高清晰度光学介质(例如“蓝光光盘”)或磁存储器(硬盘)来记录或向听者传输音频和/或视频信息。还使用更短暂的传输通道，诸如无线、微波、光纤或有线网来传输与接收数字音频。可用于音频和视频传输的增大的带宽已导致各种多通道、压缩的音频格式的广泛采用。在转让给DTS，Inc.的美国专利5974380、5978762和6487535中描述了一种这样的流行的格式(在商标“DTS”环绕声下广泛可用)。

分发到消费者用于家庭观看的音频内容的大部分对应于影院发行的影院特征。音轨在可改变大小的剧场环境中通常针对影院呈现与视图混合。这样的音轨通常假设，听者(坐在剧场)可能靠近一个或多个扬声器，但是远离其它扬声器。对话通常仅局限于正中前面的通道。左/右以及环绕成像被假设的座位的排列以及被影院的大小二者约束。简而言之，影院的音轨由最适合于大影院中的再现的混合构成。

另一方面，家庭听者通常坐在带有被配置为更好地准许令人信服的空间有声图像的较高质量的环绕声扬声器的小房间。家庭影院很小，带有短的混响时间。尽管可以对于家庭以及对于电影院听众发布不同的混合，但是，很少这样做(可能由于经济原因)。对于传统内容，这通常是不可能的，因为原始多轨迹“茎”(原始，未混合的声音文件)可能不可用(或因为难以获得权限)。针对大的和小的房间与视图混合的音响工程师必须一定作出折中。由于各种播放空间的混响特征的差异，向音轨中引入混响或漫射声特别有问题。

此情况对于家庭影院听者，甚至对于已投资了昂贵的环绕声系统的听者，产生低于最佳声音的体验。

Baumgarte等人，在美国专利7583805中，提出了用于基于用于参数编码的通道间关联度线索来对音频信号进行立体声和多通道合成的系统。它们的系统生成从传输的组合的(求和)信号导出的漫射声。它们的系统显然计划用于诸如电信会议之类的低比特速率应用。如前所述的专利公开了使用时间到频率转换技术、滤波器，以及混响来生成以频率域表示的模拟的漫射信号。所公开的技术不会给予混合工程师艺术控制，并适合于基于在记录过程中测量的通道间的一致性，只合成有限范围的模拟的混响信号。所公开的“漫射”信号基于对音频信号的分析测量，而并非人耳朵将自然地解决的适当的类型的“漫射”或“解相关”。在Baumgarte的专利中所公开的混响技术还对计算能力有要求相当高，因此，在比较切实可行的实现中效率低。

发明内容

根据本发明，提供了用于通过与由内容产生器控制的并表示漫射的所希望的程度和质量的时间可变的元数据成同步关系地编码、传输或记录“干的”音频轨迹或“茎”来调节多通道音频的多个实施例。与表示漫射并优选地还表示混合和延迟参数的同步的元数据一起压缩和传输音频轨迹。音频茎与漫射元数据的分离促进在接收器处播放的自定义，考虑本地播放环境的特征。

在本发明的第一方面，提供了一种用于调节编码的数字音频信号的方法，所述音频信号表示声音。该方法包括接收以参数方式表示听音环境中的所述音频信号数据的所希望的呈现的编码的元数据。该元数据包括能够被解码以配置至少一个音频通道中的感觉上的漫射音频效果的至少一个参数。该方法包括利用响应于所述参数配置的所述感觉上的漫射音频效果，处理所述数字音频信号，以产生经过处理的数字音频信号。

在另一个实施例中，提供了一种用于调节用于传输或记录的数字音频输入信号的方法。该方法包括压缩所述数字音频输入信号，以产生编码的数字音频信号。该方法通过响应于用户输入来生成一组元数据来继续，所述元数据组表示要应用于所述数字音频信号的至少一个通道以产生所希望的播放信号的用户可选择的漫射特征。该方法以成同步关系地复用所述编码的数字音频信号和所述元数据组以产生组合的编码的信号结束。

在替换实施例中提供了一种用于编码和再现用于再现的数字化音频信号的方法。该方法包括编码数字化音频信号以产生编码的音频信号。该方法通过对用户输入响应并与所述编码的音频信号成同步关系地编码一组时间可变的呈现参数继续。呈现参数表示可变的感知漫射效果的用户选择。

在本发明的第二方面，提供了利用以数字方式表示的音频数据记录的数据存储介质。记录的数据存储介质包括表示格式化为数据帧的多通道音频信号的压缩的音频数据；以及一组用户选择的，被格式化为传输与所述压缩的音频数据的同步关系的时间可变的呈现参数。呈现参数表示要应用以在播放时修改所述多通道音频信号的时间可变的漫射效果的用户选择。

在另一个实施例中，提供了一种用于调节数字音频信号的可配置的音频漫射处理器，包括被配置为与所述数字音频信号成同步关系地接收呈现参数的参数解码模块。在漫射处理器的优选实施例中，可配置的混响器模块被配置为接收所述数字音频信号并对来自所述参数解码模块的控制响应。混响器模块可动态地重新配置，以响应于来自所述参数解码模块的控制，改变时间衰减常数。

在本发明的第三方面，提供了接收编码的音频信号并产生副本解码的音频信号的方法。编码的音频信号包括表示多通道音频信号的音频数据，以及一组用户选择的，被格式化为传输与所述音频数据的同步关系的时间可变的呈现参数。该方法包括接收所述编码的音频信号和所述呈现参数。该方法通过解码所述编码的音频信号以产生副本音频信号来继续。该方法包括响应于所述呈现参数来配置音频漫射处理器。该方法以利用所述音频漫射处理器来处理所述副本音频信号以产生感觉上漫射的副本音频信号来结束。

在另一个实施例中提供了一种从多通道数字音频信号再现多通道音频声音的方法。该方法包括以感觉上漫射的方式来再现所述多通道音频信号的第一通道。该方法通过以感觉上直接的方式来再现至少一个进一步的通道结束。第一通道可以利用感觉上的漫射效果通过再现之前的数字信号处理来调节。第一通道可以通过以足够复杂的方式引入变化的频率依赖的延迟来调节，以产生漫射显然的声源的心理声学效果。

通过阅读下面参考各个附图对优选实施例的详细描述，本发明的这些及其他特征和优点将对所属领域的技术人员显而易见，其中：

附图说明

图1是带有以符号方式通过框(“框图”)来表示的功能模块的本发明的编码器方面的系统级别的示意图；

图2是带有以符号方式表示的功能模块的本发明的解码器方面的系统级别的示意图；

图3是适用于包装音频的数据格式，控件，以及供本发明使用的元数据的表示；

图4是带有以符号方式表示的功能模块的本发明中所使用的音频漫射处理器的示意图；

图5A是带有以符号方式表示的功能模块的图4的漫射引擎的实施例的示意图；

图5B是带有以符号方式表示的功能模块的图4的漫射引擎的替换实施例的示意图；

图5C是在常规水平扬声器布局中由5通道实用漫射器在听者的耳朵处获得的耳间的相位差(以弧度为单位)与频率(高达400Hz)的示例性声波图表；

图6是带有以符号方式表示的功能模块的图5A中所包括的混响器模块的示意图；

图7是带有以符号方式表示的功能模块的适用于实现图6中的混响器模块的子模块的全通滤波器的示意图；

图8是带有以符号方式表示的功能模块的适用于实现图6中的混响器模块的子模块的反馈梳状滤波器的示意图；

图9是作为简化示例的作为规格化频率的函数的延迟图形，比较了图5A的两个混响器(具有不同的特定参数)；

图10是适用于本发明的解码器方面的关于播放环境的播放环境引擎的示意图；

图11是带有以符号方式表示的某些组件的图，描绘了对计算用于图5A的漫射引擎的增益和延迟矩阵有用的“虚拟麦克风阵列”；

图12是带有以符号方式表示的功能模块的图4的环境引擎的混合引擎的示意图；

图13是根据本发明的编码器方面的方法的过程流程图；

图14是根据本发明的解码器方面的方法的过程流程图。

具体实施方式

引言：

本发明涉及对音频信号(也就是说，表示物理声音的信号)的处理。这些信号通过数字电子信号来表示。在随后的讨论中，可以示出或讨论模拟波形，以示出概念；然而，应该理解，本发明的典型的实施例将在数字字节或字的时间序列的上下文中操作，所述字节或字构成模拟信号或(最终)物理声音的离散逼近。离散的，数字信号对应于周期性地采样的音频波形的数字表示。如在本领域内已知的，必须对于所感兴趣的频率以至少足够满足尼奎斯特采样定理的速率来对波形进行采样。例如，在典型的实施例中，可以使用大致44100样本/秒的采样速率。也可以可另选地使用诸如96khz之类的较高的，过度采样速率。根据已知的原理，应该选择量化方案和比特分辨率来满足特定应用的要求。本发明的技术和设备通常将在若干种通道中相互依赖地应用。例如，它可以用于“环绕”音频系统(具有两个以上通道)的上下文中。

如此处所使用的，“数字音频信号”或“音频信号”不仅仅描述数学抽象，而是表示能够通过机器或设备检测的物理介质实现或携带的信息。此术语包括记录的或传输的信号，并应该被理解为包括通过任何形式的编码(包括脉码调制(PCM)，但不仅限于PCM)来传输。输出或输入，或实际上中间音频信号可以通过各种已知方法中的任何一种来编码或压缩，包括MPEG、ATRAC、AC3，或DTS，Inc.的专有的方法，如美国专利5,974,380；5,978,762；以及6,487,535所描述的。可能需要对计算进行某种修改，以适应该特定压缩或编码方法，如对本领域技术人员显而易见的。

在此说明书中，频繁地使用了单词“引擎”：例如，我们引用“产生引擎”、“环境引擎”以及“混合引擎”。此术语是指任何可编程的或以其他方式配置的电子逻辑和/或算术信号处理模块组，它们被编程或被配置成执行所描述的特定功能。例如，“环境引擎”是，在本发明的一个实施例中，由程序模块控制以执行归属于该“环境引擎”的功能的可编程微处理器。可另选地，在不偏离本发明的范围的情况下，现场可编程门阵列(FPGA)、可编程数字信号处理器(DSP)、专门专用集成电路(ASIC)，或其他等效电路可以用于“引擎”或子进程的任何一个的实现中。

本领域技术人员也将认识到，本发明的合适的实施例可能只需要一个微处理器(虽然带有多个处理器的并行处理将提高性能)。相应地，当在基于处理器实现的上下文中考虑时，图形所示出并且此处所讨论的各种模块可以被理解为表示多个过程或一系列动作。在数字信号处理的技术中已知通过对音频数据的字符串连续地操作来执行混合、滤波，以及其他操作。相应地，本领域技术人员将认识到，如何通过以诸如C或C++之类的符号语言进行编程来实现各种模块，然后，这些模块可以在特定处理器平台上实现。

本发明的系统和方法准许制作者和音响工程师创建将在电影院和家庭播放的单个混合。另外，还可以使用此方法来以诸如DTS 5.1“数字环绕”格式(上文引用的)之类的标准格式来产生反向兼容电影院混合。本发明的系统能区分人的听觉系统(HAS)将检测为直接的，也就是说，从对应于感觉到的声音源的方向到达的声音，以及那些漫射的，也就是说，“围绕”或“环绕”或“包围”听者的声音。理解可以创建只在，例如，听者的一侧或一个方向漫射的声音是十分重要的。在该情况下，直接声音和漫射声音之间的差异是局部化源方向的能力与局部化声音从其中到达的空间的实质性区域的能力。

直接声音，就人的音频系统而言，是带有某种耳间时间延迟(ITD)和耳间声级差(ILD)(这两者都是频率的函数)的在两耳上到达的声音，ITD和ILD两者都表示多个临界频带的频率范围上的一致方向(如Brian C.J.Moore所著的“The Psychology of Hearing”中所述的)。相反，漫射信号将具有“扰乱的”ITD和ILD，因为在ITD和ILD中在频率或时间方面很少有一致性，对应于，例如，环绕的，而不是从单个方向到达的混响的感觉的情况。如在本发明的上下文中所使用的，“漫射声音”是指已通过声交互作用处理或影响以便下列条件中的至少一个，最优选地两者都发生的声音：1)波形的前边沿(在低频时)和高频时的波形包络不会在各种频率同时到达耳朵；以及，2)两个耳朵之间的耳间时间差(ITD)会随着频率显著地变化。在本发明的上下文中“漫射信号”或“感觉上的漫射信号”是指已经以电子方式或以数字方式处理以当向听者再现时产生漫射声音的效果的(通常多通道)音频信号。

在感觉上的漫射声音中，在到达时间和ITD方面的时间变化表现出足够产生漫射声源的心理声学效果的、随着频率的复杂的并且不规则的变化。

根据本发明，漫射信号，优选地，是通过使用下面所描述的简单混响法(优选地，与下面所描述的混合过程相结合)来产生。有产生漫射声音的其他方式，要么只通过信号处理或通过信号处理和从多辐射体扬声器系统(例如，“漫射扬声器”或者一组扬声器)到达两个耳朵的时间。

如此处所使用的“漫射”的概念将不与化学漫射，不产生上文所枚举的心理声学效果的解相关方法，或在其他技术和科学中发生的单词“漫射”的任何其他不相关的使用，相混淆。

如此处所使用的，“传输”或“通过通道传输”意味着可能在不同的时间或位置发生的传输、存储，或记录用于播放的数据的任何方法，包括但不限于，电子传输、光传输、卫星中继、有线或无线通信、诸如因特网或LAN或WAN之类的数据网络的传输，在诸如磁性、光学，或其他形式的持久的介质上记录(包括DVD、“蓝光”光盘等等)。关于这一点，对于传输、存档或者中间存储的记录可以被视为通过通道的传输的实例。

如此处所使用的，“同步”或“成同步关系”意味着在信号或子信号之间保持或暗示时间关系的结构化数据或信号的任何方法。更具体而言，音频数据和元数据之间的同步关系意味着保持或暗示元数据和音频数据(这两者都是随时间变化的或可变的信号)之间的定义的时间同步的任何方法。同步的某些示例性方法包括时域复用(TDMA)、交织、频域复用、带时间戳的数据包、多个索引的可同步的数据子流、同步或异步协议，IP或PPP协议，由蓝光光盘协会所定义的协议或DVD标准、MP3，或其他定义的格式。

如此处所使用的，“接收”或“接收器”应该意味着从传输的信号或从存储介质接收、读取、解码或检索数据的任何方法。

如此处所使用的，“多路分解器”或“解包器”意味着能够被用来解包、多路分解，或将音频信号与诸如呈现参数之类的其他编码的元数据分离的设备或方法，例如，可执行的计算机程序模块。必须记住，除本发明中所使用的音频信号数据和元数据之外，数据结构可以包括表示呈现参数的其他标头数据和元数据。

如此处所使用的，“呈现参数”表示以符号方式或通过概要传达在接收情况下和播放之前记录的或传输的声音计划被修改的方式的一组参数。术语具体地包括表示要在接收器处应用的一个或多个时间可变的混响效果的幅值和质量的用户选择的一组参数，以在播放情况下修改所述多通道音频信号。在优选实施例中，术语还包括其他参数，作为示例，控制一组多个音频通道的混合的一组混合系数。如此处所使用的，“接收器”或“接收器/解码器”从广义上来讲是指能够接收，解码，或再现以任何方式传输或记录的数字音频信号的任何设备。它不仅限于任何有限的意义，例如，音频-视频接收器。

系统概述：

图1示出了根据本发明的用于编码、传输，以及再现音频的系统的系统级别的概述。主体声音102在声环境104中发出，并通过多通道麦克风设备106，转换为数字音频信号。可以理解，可以以已知配置来使用麦克风、模拟-数字转换器、放大器，以及编码设备的某种布局以产生数字化音频。可另选地，或除实况音频之外，模拟或以数字方式记录的音频数据(“轨迹”)可以提供输入音频数据，如用记录设备107所表示的。

在使用本发明的优选模式下，将被操纵的音频源(实况的或记录的)应该以基本上“干”的形式捕捉：换言之，在相对来说非混响的环境中，或者作为直接声音，没有显著的回波。捕捉的音频源一般被称为“茎”。有时，使用所描述的引擎，在提供好的空间感的位置将某些直接茎与“实况”记录的其他信号混合是可以接受的。然而，由于尤其在电影院-(大厅)中呈现这样的声音时的问题，这在电影院中不寻常。对基本上干的茎的使用可使工程师以元数据的形式添加所希望的漫射或混响效果，同时保持音频源轨迹的干的特征，以用于混响电影院中(其中，在没有混合器控制的情况下，某些混响将来自电影院建筑物本身)。

元数据产生引擎108接收音频信号输入(从实况或者记录的源导出的，表示声音)，并在混合工程师110的控制之下处理所述音频信号。工程师110还通过与元数据产生引擎108连接的输入设备109与元数据产生引擎108进行交互。通过用户输入，工程师能够指示与音频信号成同步关系地创建表示艺术用户选择的元数据。例如，混合工程师110通过输入设备109选择将直接/漫射音频特征(由元数据所表示的)匹配到同步的电影场景变化。

此上下文中的“元数据”应该被理解为表示如通过一系列编码的或量化的参数，提取的，参数化的，或概要表示。例如，元数据包括可以在接收器/解码器中从其配置混响器的混响参数的表示。元数据还可以包括其他数据，诸如混合系数和通道间延迟参数。由产生引擎108所生成的元数据将是随着涉及对应音频数据的特定时间间隔的帧元数据以增量或时间“帧”而随时间变化的。

音频数据的随时间变化的流被多通道编码设备112编码或压缩，以与涉及相同时间的对应的元数据成同步关系地产生编码的音频数据。优选地，元数据和编码的音频信号数据两者都被多通道多路复用器114复用为组合的数据格式。可以使用多通道音频压缩的任何已知方法来编码音频数据；但是，在特定实施例中，美国专利_5,974,380；5,978,762；以及6,487,535中所描述的编码方法(DTS 5.1音频)是优选的。也可以使用诸如无损耗或可缩放的编码之类的其他扩展和改善来编码音频数据。多路复用器应该在元数据和对应的音频数据之间保持同步关系，无论通过成帧语法还是通过添加某种其他同步数据。

产生引擎109与如前所述的在先的编码器的不同之处在于，产生引擎108，基于用户输入，产生表示动态音频环境的编码的元数据的随时间变化的流。下面参考图14更具体地描述了执行此的方法。优选地，如此产生的元数据被复用或打包成组合的比特格式或“帧”，并被插入在数据帧的预先定义的“附属数据”字段中，允许向后兼容。可另选地，元数据可以利用某些装置分开地传输，以与主要音频数据传输流同步。

为了准许在产生过程中监听，产生引擎108与监听解码器116对接，该监听解码器116多路分解并解码组合的音频流和元数据，以在扬声器120中再现监听信号。监听扬声器120应该优选地以标准化已知布局排列(诸如对于五通道系统，ITU-R BS775(1993))。对标准化或一致的布局的使用促进混合；可以基于实际环境和标准化或已知的监听环境之间的比较，针对实际听音环境，自定义播放。监听系统(116和120)可使工程师感觉到元数据和编码的音频的效果，如由听者感觉到的那样(如下面参考接收器/解码器所描述的)。基于听觉反馈，工程师能够进行更准确的选择以再现所希望的心理声学效果。此外，混合艺术家还将能够在“电影院”和“家庭影院”设置之间切换，如此能够同时控制两者。

监听解码器116基本上与接收器/解码器相同，如下面更具体参考图2所描述的。

在编码之后，音频数据流通过通信信道130传输，或(等效地)记录在某种介质上(例如，诸如DVD或“蓝光”光盘之类的光盘)。应该理解，为了本公开，记录可以被视为传输的特殊情况。还应该理解，数据可以被进一步编码在各种层中，用于传输或记录，例如，通过添加循环冗余码校验(CRC)或其他错误校正，通过添加进一步的格式化和同步信息，物理通道编码，等等。传输的这些常规方面不会干扰本发明的操作。

接下来参考图2，在传输之后，接收音频数据和元数据(一起“比特流”)，在多路分解器232中分离元数据(例如，通过简单去复用或解包具有预定格式的数据帧)。编码的音频数据由音频解码器236通过与由音频编码器112使用的装置互补的装置解码，并发送到环境引擎240的数据输入。元数据由元数据解码器/解包器238解包，并发送到环境引擎240的控制输入。环境引擎240以由接收到的元数据(该元数据是以动态，随时间变化的方式接收并不时地更新的)控制的方式接收、调节和再混合音频数据。然后，修改的或“呈现的”音频信号从环境引擎输出，并(直接或最终)由听音环境246中的扬声器244再现。

应该理解，可以在此系统中共同或分别控制多个通道，取决于所希望的艺术效果。

下面给出本发明的系统的比较详细的描述，更具体地描述了上文在比较一般化的，系统级别的术语中已引用的组件或子模块的结构和功能。首先描述编码器方面的组件或子模块，接下来是描述接收器/解码器方面的组件或子模块。

元数据产生引擎：

根据本发明的编码方面，在传输或存储之前，由元数据产生引擎108操纵数字音频数据。

根据本发明，元数据产生引擎108可以被实现为专用工作站或在通用计算机上实现，被编程为处理音频和元数据。

本发明的元数据产生引擎108编码足够的元数据，以控制以后对漫射和直接声音的合成(在受控制的混合中)；进一步控制单个茎或混合的混响时间；进一步控制要被合成的模拟的声反射的密度；进一步控制反馈梳状滤波器的计数、长度和增益以及环境引擎中的全通滤波器的计数、长度和增益(下面所描述的)，进一步控制信号的感觉到的方向和距离。可以构想，相对较小的数据空间(例如几个千比特/秒)将用于编码的元数据。

在优选实施例中，元数据还包括混合系数和一组足够表征和控制从N个输入到M个输出通道的映射的延迟，其中，N和M不必相等，任何一个都可以稍大一些。

表1

表1示出了根据本发明生成的示例性元数据。字段al表示“直接呈现”标记：这是对于每一个通道指定要再现通道无需引入合成漫射的选项的代码(例如，以固有的混响记录的通道)。此标记是混合工程师控制的，以指定混合工程师不选择利用漫射效果在接收器处处理的轨迹的用户。例如，在实际的混合情况下，工程师可能遇到不是被记录为“干的”(在没有混响或漫射的情况下)的通道(轨迹或“茎”)。对于这样的茎，需要标记此事实，以便环境引擎可以呈现这样的通道，而不会引入额外的漫射或混响。根据本发明，任何输入通道(茎)，无论是直接的还是漫射的，都可以被标记为用于直接再现。此特征会大大地增强系统的灵活性。如此，本发明的系统允许在直接和漫射输入通道之间分离(以及直接与漫射输出通道独立的分离，如下面所讨论的)。

表示为“X”的字段是为与在先开发的标准化的混响组相关联的激发代码预留的。对应的标准化的混响组存储在解码器/播放设备中，并可以通过查询从存储器中检索，如下面与漫射引擎一起所讨论的。

字段“T60”代表或表示混响衰减参数。在当前技术中，符号“T60”常常用于表示环境中的混响音量下降到低于直接声音的音量60分贝所需的时间。此符号相应地用于此说明书中，但是，应该理解，也可以替代使用混响衰减时间的其他度量。优选地，参数应该涉及衰减时间常数(如在衰减指数函数的指数中那样)，以便衰减可以轻松地以类似于下列公式的形式合成：

Exp(-kt) (公式1)

其中，k是衰减时间常数。可以传输一个以上的T60参数，对应于多个通道、多个茎或多个输出通道，或合成听音空间的感觉到的几何形状。

参数A3-An表示(对于每一个相应的通道)密度值(例如，对应于延迟长度或延迟的样本数目的值)，这些值直接控制漫射引擎将向音频通道应用多少模拟的反射。较小的密度值将产生不太复杂的漫射，如下面与漫射引擎一起比较详细地讨论的。尽管“较低的密度”在音乐设置中一般不适当，但是，当，例如，电影人物正在通过管道在带有硬的(金属、混凝土、石头)墙壁的房间移动时，或在混响应该具有非常“焦急不安的”人物的其他情况下，它十分现实。

参数B1-Bn表示完全地表示环境引擎(下面所讨论的)中的混响模块的配置的“混响设置”值。在一个实施例中，这些值表示编码的计数，分级的长度，以及一个或多个反馈梳状滤波器的增益；以及混响引擎中的Schroeder全通滤波器的计数、长度，以及增益(下面详细地讨论的)。另外，或作为传输参数的替代方案，环境引擎可以具有通过配置文件组织的预先选择的混响值的数据库。在这样的情况下，产生引擎传输以符号方式表示配置文件或从存储的配置文件中选择配置文件的元数据。存储的配置文件通过节省元数据的符号码，提供较小的灵活性，但是更大的压缩。

除涉及混响的元数据之外，产生引擎应该生成并传输进一步的元数据以在解码器处控制混合引擎。再次参考表1，进一步的参数组优选地包括：表示声源的位置(相对于假设的听者以及计划的合成“房间”或“空间”)或麦克风位置的参数；被解码器用来控制再现的通道中的直接/漫射混合物的一组距离参数D1-DN；用于控制音频从解码器到达不同的输出通道的时间点的一组延迟值L1-LN；以及，被解码器用来控制不同的输出通道中的音频的振幅的变化的一组增益值G1-Gn。增益值可以分别地对于音频混合的直接和漫射通道指定，或对于简单情况，整体地指定。

上面指定的混合元数据方便地表示为一系列矩阵，如鉴于本发明的整个系统的输入和输出所认识到的。本发明的系统，最多一般性地，将多个N输入通道映射到M输出通道，其中，N和M不必相等，任何一个更可以稍大一些。可以容易地看出，N x M维的矩阵G足以指定一般的完整的增益值集，以从N输入映射到M输出通道。可以方便地使用类似的N x M矩阵来完全地指定输入-输出延迟和漫射参数。可另选地，可以使用代码的系统来简明地表示比较频繁地使用的混合矩阵。然后，可以通过参考存储的代码本，在解码器中容易地恢复矩阵，在代码本中，每一个代码都与对应的矩阵相关联。

图3示出了适用于传输在时域复用的音频数据和元数据的一般化数据格式。具体而言，此示例格式是转让给DTS，Inc.的美国5974380中所公开的格式的扩展。在300一般性地示出了示例数据帧。优选地，在数据帧的开始处的附近携带帧标头数据302，接下来是被格式化为多个音频子帧304、306、308和310的音频数据。可以使用标头302中的或可选数据字段312中的一个或多个标记来表示可以有利地被包括在数据帧的末端或其附近的元数据扩展314的存在和长度。可以使用其他数据格式；优选地，保持向后兼容，以便根据本发明，可以在解码器上播放传统材料。旧的解码器被编程为忽略扩展字段中的元数据。

根据本发明，压缩的音频和编码的元数据被复用或以其他方式同步，然后记录在机器可读的介质上或通过通信信道传输到接收器/解码器。

使用元数据产生引擎：

从用户的观点来看，使用元数据产生引擎的方法显得简单，类似于已知的工程实践。优选地，元数据产生引擎在图形用户界面(GUI)上显示合成音频环境(“空间”)的表示。GUI可以被编程为与听者位置(例如，在中心处)和房间大小和形状的某种图形表示一起以符号方式显示各种茎或声源的位置、大小，以及漫射。通过使用鼠标或键盘输入设备109，并参考图形用户界面(GUI)，混合工程师从记录的茎中选择对其进行操作的时间间隔。例如，工程师可以从时间索引中选择时间间隔。然后，工程师键入输入，以在所选时间间隔内改变茎的合成声环境。基于所述输入，元数据产生引擎计算适当的元数据，格式化它，并不时地将它传递到多路复用器114，以与对应的音频数据组合。优选地，一组标准化的预设值是可从GUI选择的，对应于频繁地遇到的声环境。然后，从预先存储的查询表中检索对应于预设值的参数，以生成元数据。除标准化的预设值之外，优选地，提供手动控件，熟练的工程师可以使用它们来生成自定义的声模拟。

用户的对混响参数选择通过使用监听系统得到帮助，如上文参考图1所描述的。如此，可以基于来自监听系统116和120的声反馈，选择混响参数，以产生所需的效果。

接收器/解码器：

根据解码器方面，本发明包括用于接收、处理、调节和播放数字音频信号的方法和设备。如上文所讨论的，解码器/播放设备系统包括多路分解器232、音频解码器236、元数据解码器/解包器238、环境引擎240、扬声器或其他输出通道244、听音环境246，优选地，还包括播放环境引擎。

图4中比较详细地示出了解码器/播放设备的功能块。环境引擎240包括与混合引擎404串联的漫射引擎402。在下文中更详细地描述了每一个。必须记住，环境引擎240以多维方式来操作，将N个输入映射到M个输出，其中，N和M是整数(潜在地不相等，其中，任何一个都可以是较大的整数)。

元数据解码器/解包器238以多路复用格式作为输入接收编码的，传输的或记录的数据，并分离为元数据和音频信号数据供输出。音频信号数据被路由到解码器236(作为输入236IN)；元数据被分离成各种字段，并作为控制数据输出到环境引擎240的控制输入。混响参数被发送到漫射引擎402；混合和延迟参数被发送到混合引擎416。

解码器236接收编码的音频信号数据，并通过用于对数据进行编码的方法和设备互补的方法和设备来对它进行解码。解码的音频被组织成适当的通道，并输出到环境引擎240。解码器236的输出以准许混合和滤波操作的任何形式来表示。例如，可以适当地使用线性PCM，对于特定应用，有足够的比特深度。

漫射引擎402从解码器236接收N个通道数字音频输入，将其解码为准许混合和滤波操作的形式。目前优选地，根据本发明的引擎402以允许使用数字滤波器的时域表示来操作。根据本发明，无限脉冲响应(IIR)拓扑强烈地被优选，因为IIR具有更准确地模拟真实的物理声系统(低通正相位分散特性)的分散。

漫射引擎：

漫射引擎402在信号输入端408接收(N通道)信号输入信号；由控制输入406接收解码的并多路分解的元数据。引擎402以由元数据控制的方式以及对元数据有响应地调节输入信号408，以添加混响和延迟，从而，产生直接和漫射音频数据(在多个处理的通道中)。根据本发明，漫射引擎产生中间处理的通道410，包括至少一个“漫射”通道412。包括直接通道414和漫射通道412二者的多个处理的通道410，然后在从元数据解码器/解包器238接收到的混合元数据的控制之下，在混合引擎416中混合，以产生混合的数字音频输出420。具体而言，混合的数字音频输出420提供多个M通道的混合的直接和漫射音频，并在接收到的元数据控制之下被混合。在特定的新颖的实施例中，输出的M个通道可以包括适用于通过专门的“漫射的”扬声器再现的一个或多个专用的“漫射”通道。

现在参考图5A，可以看到漫射引擎402的实施例的更多细节。为清楚起见，只示出了一个音频通道；应该理解，在多通道音频系统中，将并联地使用多个这样的通道。相应地，对于N通道系统(能够并行地处理N个茎)，图5A的通道通路将基本上复制N次。漫射引擎402可以被描述为可配置的，修改的Schroeder-Moorer混响器。与常规Schroeder-Moorer混响器不同，本发明的混响器去除FIR“早反射”步骤，并在反馈路径中添加IIR滤波器。反馈路径中的IIR滤波器在反馈中产生分散以及作为频率的函数创建变化的T60。此特征产生感觉上漫射的效果。

输入节点502处的输入音频通道数据被预滤器504预滤波，并通过D.C.阻止级506去除D.C.分量。预滤器504是5分支FIR低通滤波器，它去除在自然的混响中未发现的高频能量。DC阻止级506是去除15赫兹和以下的能量的IIR高通滤波器。DC阻止级506是必需的，除非可以保证没有DC分量的输入。DC阻止级506的输出通过混响模块(“混响集”508)被馈送。每一个通道的输出通过在缩放模块520中乘以适当的“漫射增益”来缩放。漫射增益是基于作为伴随输入数据的元数据接收到的直接/漫射参数来计算的(参见表1和以上的相关讨论)。然后，利用对应的直接组件对每一个漫射信号通道求和(在求和模块522中)(从输入502前馈和通过直接增益模块524缩放)，以产生输出通道526。

在替换实施例中，配置漫射引擎，以便在应用漫射效果之前，应用漫射增益和延迟以及直接增益和延迟。现在参考图5B，可以看到漫射引擎402的替换实施例的更多细节。为清楚起见，只示出了一个音频通道；应该理解，在多通道音频系统中，将并联地使用多个这样的通道。相应地，对于N通道系统(能够并行地处理N个茎)，图5B的音频通道通路将基本上复制N次。漫射引擎可以被描述为可配置的，实用漫射器，该漫射器使用特定漫射效果以及漫射的程度和每个通道的直接增益和延迟。

音频输入信号408被输入到漫射引擎，并相应地每个通道地应用适当的直接增益和延迟。随后，每个通道地对音频输入信号应用适当的漫射增益和延迟。随后，通过用于每个通道地向音频输出信号应用漫射密度或效果的实用漫射器[UD1-UD3](下面进一步描述的)的库处理音频输入信号408。漫射密度或效果可以是可通过一个或多个元数据参数确定的。

对于每一个音频通道408，有为每一个输出通道定义的不同的延迟和增益贡献组。贡献被定义为直接增益和延迟以及漫射增益和延迟。

随后，来自所有音频输入通道的组合的贡献被实用漫射器的库处理，以便向每一个输入通道应用不同的漫射效果。具体而言，贡献定义直接和漫射增益以及每一个输入通道/输出通道连接的延迟。

一旦被处理，漫射和直接信号412，414被输出到混合引擎416。

混响模块：

每一个混响模块包括混响集(508-524)。根据本发明，优选地实现每一个单个混响集(508-524)，如图6所示。虽然基本上并行地处理多个通道，但是，为清楚起见，只示出了一个通道。由串联的一个或多个Schroeder全通滤波器604处理输入节点602处的输入音频通道数据。示出了串联的两个这样的滤波器604和606，如在优选实施例中，使用两个这样的滤波器。然后，经滤波的信号被拆分成多个并联支路。每一个分支都由反馈梳状滤波器608到620滤波，梳状滤波器的经过滤波的输出在求和节点622上被组合。由元数据解码器/解包器238解码的T60元数据被用来计算反馈梳状滤波器608-620的增益。下面将给出有关计算方法的更多细节。

优选地，从质数组中选择反馈梳状滤波器608-620的长度(级，Z-n)和Schroeder全通滤波器604和606中的样本延迟的数量：由于下列理由：为进行输出漫射，确保环路决不会在时间上一致(这将在这样的重合的时间增强信号)是有利的。质数样本延迟值的使用消除了这样的一致性和增强。在优选实施例中，使用七组全通延迟和七组独立的梳状延迟，提供从默认参数(存储在解码器处)可派生出的高达49种解相关的混响器组合。

在优选实施例中，全通滤波器604和606使用仔细地从质数中选择的延迟，具体而言，在每一个音频通道604和606中使用延迟，以便604和606中的延迟的总和共计为120个样本时段。(有几对质数可用，共计120)。不同的质数对，优选地，用于不同的音频信号通道中，以为再现的音频信号产生ITD中的相异性。反馈梳状滤波器608-620中的每一个都使用范围900取样间隔和以上的延迟，最优选地，在从900到3000样本时段的范围。对如此多的不同的质数的使用导致延迟的非常复杂的特征，作为频率的函数，如下面更全面地所描述的。复合频率与延迟特性通过产生当再现时将引入频率依赖的延迟的声音，产生在感觉上漫射的声音。如此，对于对应的再现的声音，音频波形的前边沿不会在各种频率同时到达耳朵，低频率不会在各种频率同时到达耳朵。

创建漫射声场

在漫射场中，不可能辨别声音来自哪里的方向。

一般而言，漫射声场的典型示例是在房间中混响的声音。漫射的感觉也可以在不混响的声场中遇到(例如，掌声、雨、风噪声，或被一大群嗡嗡叫的昆虫环绕)。

单声道记录可以捕捉混响感(即，声音衰减时间延长的感觉)。然而，再现混响声场的漫射的感觉将需要利用实用漫射器处理这样的单声道记录，或者，更一般而言，使用被设计用于对再现的声音提供漫射的电声再现。

家庭影院中的漫射声再现可以以多种方式来实现。一种方式是实际构建产生漫射感觉的扬声器或扬声器阵列。当这不可行时，还可以产生提供漫射辐射模式的类似于声频干扰条的设备。最后，当所有这些都不可用时，需要通过标准多通道扬声器播放系统呈现，可以使用实用漫射器，以便在直接通路之间产生干扰，该干扰将干扰任何一个到达的一致性达到这种程度以致于会经历漫射感觉。

实用漫射器是打算在扬声器或耳机上产生空间声漫射的感觉的音频处理模块。这可以通过使用各种音频处理算法来实现，这些算法一般解相关或中断扬声器通道信号之间的一致性。

实现实用漫射器的一种方法包括使用最初被设计用于多通道人工混响的算法，配置它们以从单个输入通道或从多种相关联的通道输出多个不相关/不相干的通道(如图6以及所附带的文本所示)。可以修改这样的算法以获得不会产生明显的混响效果的实用漫射器。

实现实用漫射器的第二种方法包括使用最初被设计用于从单声道音频信号模拟在空间上扩展的声源(而不是点源)的算法。可以修改这样的算法以模拟包围的声音(无需创建混响的感觉)。

可以通过使用一组短衰减混响器(T60＝0.5秒或更小)，来简单地实现实用漫射器，每一个衰减混响器都应用于扬声器输出通道中的一个(如图5B所示)。在优选实施例中，这样的实用漫射器被设计成确保，一个模块中的时间延迟，以及多个模块之间的差分时间延迟，随频率以复杂化的方式变化，导致在低频时到达听者的相位的分散，以及在高频率时信号包络的修改。这样的漫射器不是典型的混响器，因为它将具有在频率上大致恒定的T60，以及对于实际“混响的”声音，将不会在其中或本身被使用。

作为示例，图5C绘制了由这样的实用漫射器所创建的耳间相位差。垂直标度是弧度，水平标度是从0Hz到大约400Hz的频域的扇区。水平标度被放大，以便细节是可见的。记住，度量是以弧度为单位，而不是以样本或时间为单位。此图清楚地示出耳间时差如何被严重地混淆。尽管没有示出一个耳朵中的在频率上的时间延迟，但是，它在本质上是类似的，但是，不太复杂。

用于实现实用漫射器的替换的方法包括频域人工混响，如Faller，C所著的“Parametric multichannel audio coding：synthesis of coherence cues”(发表于IEEETrans.on Audio，Speech，and Language Processing，Vol.14，no.1，Jan.2006)所进一步描述的；或使用在时域或在频域中实现的全通滤波器，如在Kendall，G.所著的“Thedecorrelation of audio signals and its impact on spatial imagery”(发表于Computer Music Journal，Vol.19，no.4，Winter 1995)，以及Boueri，M.和Kyriakakis，C.所著的“Audio signal decorrelation based on a critical band approach”(发表于117th AES Convention，Oct.2004)中所进一步描述的。

在从一个或多个干的通道指定漫射的情况下，比较典型的混响系统是十分适当的，使用与实用漫射器相同的引擎，带有创建由内容创建者所需的T60与频率配置文件的简单修改，提供实用漫射以及实际，可感觉到的混响两者是完全可能的。诸如图6所示出的之类的修改的Schroeder-Moorer混响器可以提供由内容创建者所需的严格地实用漫射或者可听的混响。当使用这样的系统时，可以有利地选择用于每一个混响器中的延迟为互质的。(这通过使用与反馈梳状滤波器中的样本延迟类似的，但是互质数的组来容易地实现，不同的对的质数累加为“Schroeder部分”，或1分支全通滤波器中的相同总延迟。)实用漫射也可以利用多通道递归混响算法来实现，诸如在Jot，J.-M.和Chaigne，A.所著的“Digitaldelay networks for designing artificial reverberators”(发表于90th AESConvention，Feb.1991)中所进一步描述的。

全通滤波器：

现在参考图7，示出了适用于实现图6中的Schroeder全通滤波器604和606中的任何一个或两者的全通滤波器。输入节点702处的输入信号与反馈信号(下面所描述的)在求和节点704求和。来自704的输出在分支节点708分叉为正向分支710和延迟分支712。在延迟分支712中，信号被延迟一个样本延迟714。如上文所讨论的，在优选实施例中，优选地选择延迟，以便604和606的延迟共计120个采样时段。(延迟时间基于44.1kHz采样速率——也可以选择其他间隔来缩放到其他采样速率而同时保持相同心理声学效果。)在正向分支712中，正向信号在求和节点720中与相乘的延迟求和，以在722产生经过滤波的输出。分支节点708中的被延迟的信号还在反馈通道被反馈增益模块724相乘，以向输入求和节点704(先前所描述的)提供反馈信号。在典型的滤波器设计中，增益前向和增益反向将被设置为相同值，只是一个必须具有与另一个相反的符号。

反馈梳状滤波器：

图8示出了可用于每一个反馈梳状滤波器(图6中的608-620)的合适的设计。

802处的输入信号在求和节点803与反馈信号(下面所描述的)求和，总和被样本延迟模块804延迟。804的延迟的输出在节点806输出。在反馈通道中，806处的输出被滤波器808滤波，并在增益模块810中乘以反馈增益因子。在优选实施例中，此滤波器应该是如下面所讨论的IIR滤波器。增益模块或放大器810的输出(在节点812)被用作反馈信号，并在803与输入信号求和，如前所述。

某些变量受到图8中的反馈梳状滤波器的控制：a)样本延迟804的长度；b)增益参数g，以便0＜g＜1(在图形中示为增益810)；以及，c)可以有选择地衰减不同的频率(图8中的滤波器808)的IIR滤波器的系数。在根据本发明的梳状滤波器中，这些变量中的一个或优选地多个响应于解码的元数据被控制(解码在#中)。在典型的实施例中，滤波器808应该是低通滤波器，因为自然的混响倾向于强调较低的频率。例如，空气以及许多物理反射器(例如，墙壁、开口。等等)一般充当低通滤波器。一般而言，适当地选择滤波器808(在图1中的元数据引擎108处)，带有特定增益设置，以仿真适合于场景的T60与频率分布图。在很多情况下，可以使用默认系数。对于不太悦耳的设置或特殊效果，混合工程师可以指定其他滤波器值。另外，混合工程师可以通过标准滤波器设计技术，创建新滤波器，以模仿大多任何T60分布图的T60性能。这些可以利用IIR系数的一阶或二阶部分组来指定。

混响器变量的确定：

可以定义就参数“T60”(作为元数据接收到的，并由元数据解码器/解包器238解码的)而言的混响组(图5A中的508-524)。在本领域中使用术语“T60”来表示以秒为单位的衰减60分贝(dB)的声音的混响的时间。例如，在音乐厅，混响的反射要花长达4秒才能衰减60dB；可以描述此大厅为具有“4.0的T60值”。如此处所使用的，使用混响衰减参数或T60来表示一般指数衰减模型的衰减时间的广义量度。不一定仅限于衰减60分贝的时间的测量；可以使用其他衰减时间来等效地指定声音的衰减特征，只要编码器和解码器以持续地互补的方式来使用参数。

为控制混响器的“T60”，元数据解码器计算反馈梳状滤波器增益值的适当的组，然后，将增益值输出到混响器，以设置所述滤波器增益值。增益值越靠近1.0，混响将持续得越长；在增益等于1.0时，混响决不会降低，增益超过1.0时，混响将连续地增大(产生“反馈尖叫声”类型的声音)。根据本发明的特别新颖的实施例，使用公式2来计算反馈梳状滤波器中的每一个的增益值：

其中，音频的采样速率由“fs”给出，而sample_delay是由特定梳状滤波器施加的时间延迟(用已知采样速率fs时的样本数目来表示)。例如，如果我们有带有1777的sample_delay长度的反馈梳状滤波器，并且我们有带有每秒44,100样本的采样速率的输入音频，并且我们需要4.0秒的T60，则可以计算：

在对Schroeder-Moorer混响器的修改中，本发明包括七个并联的反馈梳状滤波器，如上面的图6所示，每一个都带有其值如上所述的那样计算的增益，以便所有七个都具有一致的T60衰减时间；由于互质的sample_delay长度，当求和时，并联的梳状滤波器保持正交，如此混合，以在人听觉系统中产生复杂的，漫射的感觉。

为给予混响器一致的声音，可以在反馈梳状滤波器中的每一个中适当地使用同一个滤波器808。根据本发明，强烈地优选为此用途使用“无限脉冲响应”(IIR)滤波器。默认IIR滤波器被设计成给出类似于空气的自然的低通效果的低通效果。其他默认滤波器可以提供其他效果，诸如“木”、“硬表面”，以及“非常软的”反射特征，以更改不同频率时的T60(其最大值是上面指定的)，以便产生非常不同的环境的感觉。

在本发明的特别新颖的实施例中，IIR滤波器808在接收到的元数据的控制之下是可变的。通过改变IIR滤波器的特征，本发明实现对“频率T60响应”的控制，导致声音的某些频率比其它频率衰减得更快。请注意，混合工程师(使用元数据引擎108)可以规定，用于应用滤波器808的其他参数，以便当它们被视为在艺术上适当时产生不寻常的效果，但这些都在同一个IIR滤波器拓扑内处理。梳子的数量也是由传输的元数据控制的参数。如此，在在声学上具有挑战性的场景中，可以缩小梳子的数量，以提供更“类似于管子的”或“颤动回波”声音质量(在混合工程师的控制下)。

在优选实施例中，在传输的元数据的控制之下，Schroeder全通滤波器的数量也是可变的：给定实施例可以具有零个、一个、两个，或更多。(为清楚起见，图中只示出了两个。)它们引入额外的模拟的反射，并以不可预测的方式更改音频信号的相位。另外，在需要时，Schroeder部分可以提供不寻常的音响效果。

在本发明的优选实施例中，对接收到的元数据(在用户控制下，由元数据产生引擎108预先生成的)的使用通过改变Schroeder全通滤波器的数量，通过改变反馈梳状滤波器的数量，以及通过改变这些滤波器内的参数，来控制此混响器的声音。增大梳状滤波器和全通滤波器的数量将增大混响中的反射的密度。每个通道7个梳状滤波器和2个全通滤波器的默认值已用实验方法被确定以提供适用于模拟音乐厅内的混响的自然的声音混响。当模拟非常简单的混响环境(诸如污水管内部)时，降低梳状滤波器的数量是适当的。因此，提供了(如前面所讨论的)元数据字段“密度”，以指定应该使用多少梳状滤波器。

混响器的完整的设置集定义“reverb_set”。reverb_set，具体而言，由下述所定义：全通滤波器的数量，对于每一个的sample_delay值，以及对于每一个的增益值；以及反馈梳状滤波器的数量，对于每一个的sample_delay值，以及被用作每一个反馈梳状滤波器内的滤波器808的IIR滤波器系数的指定组。

除解包自定义混响组之外，在优选实施例中，元数据解码器/解包器模块238存储带有不同的值的多个预先定义的reverb_sets，但是，带有类似的平均sample_delay值。元数据解码器响应于在传输的音频比特流的元数据字段中接收到的激发代码，从存储的混响组中选择，如上文所讨论的。

全通滤波器(604，606)以及多个各种梳状滤波器(608-620)的组合在每一个通道中产生非常复杂的延迟对频率特征；此外，在不同的通道中使用不同的延迟组还会产生非常复杂的关系，其中：延迟a)对于一个通道内的不同的频率，以及b)在相同或不同的频率的通道之间，变化。当输出到多通道扬声器系统(“环绕声系统”)时，这会(当由元数据指示时)产生带有频率依赖的延迟的情况，以便音频波形的前边沿(或包络，对于高频率)不会在各种频率同时到达耳朵。此外，还因为右耳朵和左耳朵优选地从环绕声布局中的不同的扬声器通道接收声音，因此，由本发明所产生的复杂变化导致包络的前边沿(对于高频率)或低频波形对于不同的频率带有变化的耳间时间延迟地到达耳朵。当再现这样的信号时，这些条件产生“感觉上漫射的”音频信号，最终产生“感觉上漫射的”声音。

图9示出了来自利用全通滤波器和混响组二者的不同组的延迟编程的两个不同的混响器模块的简化的延迟与频率输出特征。在采样时段给出延迟，频率被规范化到尼奎斯特频率。表示了音频频谱的小的部分，并只示出了两个通道。可以看出，曲线902和904在频率上以复杂方式变化。发明人发现，此变化在环绕系统中产生感知漫射的确信的感觉(例如，扩展到7个通道)。

如图9的(简化)图形中所描绘的，本发明的方法和设备在具有多个峰值、谷值、以及弯曲的延迟和频率之间产生复杂和不规则的关系。对于感觉上漫射的效果，这样的特征是合乎需要的。如此，根据本发明的优选实施例，频率依赖的延迟(无论是在一个通道内还是在多个通道之间)是复杂和不规则的本质——足够复杂和不规则，以导致漫射声源的心理声学效果。这不应该与简单和可预测的相位与频率变化(诸如由简单和常规滤波器(诸如低通、带通、滤除等等)产生的那些)相混淆。本发明的延迟与频率特征由跨音频频谱分布的多个极所严生。

通过混合直接和漫射中间信号来模拟距离：

本质上，如果耳朵远离音频源，则只能听到漫射声。随着耳朵越靠近音频源，可以听到某些直接和某些漫射。如果耳朵非常接近于音频源，则只能听到直接音频。声音再现系统可以通过改变直接和漫射音频之间的混合来模拟与音频源的距离。

环境引擎只须“知道”(接收)表示所希望的直接/漫射比率以模拟距离的元数据。更准确地，在本发明的接收器中，接收到的元数据表示所希望的直接/漫射比率，作为叫做“漫射性”的参数。此参数优选地由混合工程师预先设置，如上文参考产生引擎108所描述的。如果没有指定漫射性，但是指定了漫射引擎的使用，那么，默认漫射性值可以适当地被设置为0.5(其表示临界距离(听者听到相等量的直接和漫射声的距离))。

在一个合适的参数表示中，“漫射性”参数d是预定义的范围内变化的元数据，以便0≤d≤1。根据定义，0.0的漫射性值完全是直接的，绝对没有漫射分量；1.0的漫射性值完全地是漫射的，没有直接分量；以及在两者之间，可以使用计算为下列公式的“diffuse_gain”和“direct_gain”值进行混合：

相应地，本发明基于接收到的“漫射性”元数据参数，根据公式3，对于每一个茎，混合漫射和直接分量，以便产生离声源的所希望距离的感知效果。

播放环境引擎：

在本发明的优选的并且特别新颖的实施例中，混合引擎与“播放环境”引擎(图4中的424)进行通信，并从该模块接收大致指定本地播放环境的某些特征的一组参数。如上文所指出的，音频信号以“干的”形式预先记录和编码(没有显著的周围环境或混响)。为在特定本地环境中最佳地再现漫射和直接音频，混合引擎对传输的元数据和一组本地参数作出响应，以改善用于本地播放的混合。

播放环境引擎424测量本地播放环境的特定特征，提取一组参数，并将这些参数传递到本地播放呈现模块。然后，播放环境引擎424计算应该应用于音频信号和漫射信号以产生输出信号的、对增益系数矩阵和一组M输出补偿延迟的修改。

如图10所示，播放环境引擎424提取本地声环境1004的定量测量值。在估计的或提取的变量之中有：房间尺寸、房间容量、本地混响时间、扬声器数量、扬声器布局和几何形状。可以使用许多方法来测量或估计本地环境。最简单是通过小键盘或类似于终端的设备1010提供直接用户输入。也可以使用麦克风1012来向播放环境引擎424提供信号反馈，允许通过已知方法来进行房间测量和校准。

在本发明的优选的，特别新颖的实施例中，播放环境模块和元数据解码引擎向混合引擎提供控制输入。混合引擎，响应于那些控制输入，混合可控制地延迟的音频通道，包括中间，合成漫射通道，以产生被修改以适合本地播放环境的输出音频通道。

基于来自播放环境模块的数据，环境引擎240将使用对于每一个输入的方向和距离数据，对于每一个输出的方向和距离数据，来确定如何将输入混合到输出。每一个输入茎的距离和方向被包括在接收到的元数据中(参见表1)；用于输出的距离和方向由播放环境引擎，通过测量、假设，或以其他方式确定听音环境中的扬声器位置来提供。

各种呈现模型可以被环境引擎240使用。环境引擎的一个合适的实现使用模拟的“虚拟麦克风阵列”作为如图11所示的呈现模型。该仿真假设被置于播放环境的听音中心1104周围的假设的麦克风集群(在1102一般性地示出)，每个输出设备一个麦克风，每一个麦克风都与环境的中心处的尾部对齐，首部被指向相应的输出设备(扬声器1106)；优选地，假设麦克风拾音器与环境的中心等距离地分隔。

使用虚拟麦克风模型来计算将从每一个真实的扬声器(位于真实的播放环境中)在每一个假设的麦克风中产生所需的音量和延迟的矩阵(动态地变化)。显而易见的是，从任何扬声器到特定麦克风的增益，对于已知位置的每一个扬声器，足以计算在麦克风处实现所需的增益所需的输出音量。类似地，知道扬声器位置应该足以定义匹配信号到达时间与模型(通过假设空气中的音速)的任何必需的延迟。如此，呈现模型的用途是定义将再现所需麦克风信号组的一组输出通道增益和延迟，所需麦克风信号组将由假设的麦克风在定义的听音位置产生。优选地，在产生引擎中使用相同或类似的听音位置和虚拟麦克风，如上文所讨论的，以定义所需混合。

在“虚拟麦克风”呈现模型中，使用一组系数Cn来建模虚拟麦克风1102的方向性。通过使用如下所示的公式，可以计算每一个输入相对于每一个虚拟麦克风的增益。某些增益可能非常接近于零(“可忽略的”增益)，在这样的情况下可以忽略对于该虚拟麦克风的该输入。对于具有非可忽略的增益的每一个输入-输出二分体，呈现模型指示混合引擎使用计算出的增益从该输入-输出二分体混合；如果增益是可忽略的，则对于该二分体，不需要执行混合。(混合引擎被给予“mixop”形式的指令，在下面的混合引擎部分对这些指令进行全面的讨论。如果计算出的增益是可忽略的，可以简单地省略mixop。)对于所有虚拟麦克风，虚拟麦克风的麦克风增益系数可以相同，或者也可以不同。系数可以通过任何方便的装置来提供。例如，“播放环境”系统可以通过直接或类似的测量来提供它们。可另选地，数据可以是由用户输入的或预先存储的。对于诸如5.1和7.1之类的标准化扬声器配置，系数将基于标准化麦克风/扬声器设置而被内嵌。

可以使用下列公式来计算音频源(茎)相对于虚拟麦克风呈现模型中的假设的“虚拟”麦克风的增益：

矩阵c_ij、p_ij，以及k_ij表征表示假设的麦克风的方向性增益特征的矩阵。这些可以从真实的麦克风来测量或从模型假设。可以使用简化的假设来简化该矩阵。下标s标识音频茎；下标m标识虚拟麦克风。变量θ表示带下标的对象的水平角(s用于音频茎，m用于虚拟麦克风)。被用来表示(对应的下标对象)的垂直角。

可以从下列公式发现给定茎相对于特定虚拟麦克风的延迟：

t＝x_mx_s+y_my_s+z_mz_s

(公式12)

延迟_sm＝radius_m·t

(公式13)

其中，假设虚拟麦克风落在假设的环上，而radius_m变量表示以毫秒为单位指定的半径(对于介质中的声音，假设在室温和压力下的空气)。利用适当的转换，可以基于播放环境中的实际或近似的扬声器位置，可以从不同的坐标系统测量或计算所有角度和距离。例如，可以使用简单三角关系来基于用如在本领域内已知的笛卡儿坐标(x，y，z)表示的扬声器位置，来计算角度。

给定的特定音频环境将提供特定参数，以指定如何为环境配置漫射引擎。优选地，这些参数将由播放环境引擎240测量或估计，但是，可另选地，可以由用户输入或基于合理的假设预先编程。如果省略这些参数中的任何一个的话，则可以适当地使用默认漫射引擎参数。例如，如果只指定T60，那么，所有其他参数都应该设置为它们的默认值。如果有两个或更多需要由漫射引擎应用混响的输入通道，则它们将被混合在一起，该混合的结果将穿过漫射引擎。然后，漫射引擎的漫射输出可以被视为对混合引擎的另一个可用的输入，且可以生成从漫射引擎的输出混合的mixop。请注意，漫射引擎可以支持多个通道，输入和输出两者都可以定向到漫射引擎内的特定通道或从该特定通道获取。

混合引擎：

混合引擎416作为控制输入从元数据解码器/解包器238接收一组混合系数，优选地，还接收一组延迟。作为信号输入，它从漫射引擎402接收中间信号通道410。根据本发明，输入包括至少一个中间漫射通道412。在特别新颖的实施例中，混合引擎还从播放环境引擎424接收输入，该输入可以被用来根据本地播放环境的特征来修改混合。

如上文(参考产生引擎108)所讨论的，上面指定的混合元数据方便地表示为一系列矩阵，如鉴于本发明的整个系统的输入和输出所认识到的。本发明的系统，最多一般性地，将多个N输入通道映射到M输出通道，其中，N和M不必相等，任何一个更可以稍大一些。可以容易地看出，N x M维的矩阵G足以指定一般的完整的增益值集，以从N输入映射到M输出通道。可以方便地使用类似的N x M矩阵来完全地指定输入-输出延迟和漫射参数。可另选地，可以使用代码的系统来简明地表示比较频繁地使用的混合矩阵。然后，可以通过参考存储的代码本，容易地恢复矩阵，在代码本中，每一个代码都与对应的矩阵相关联。

相应地，为将N个输入混合到M个输出中，对于每一个采样时间，将行(对应于N输入)乘以增益矩阵的第i列(i＝1到M)就足够了。可以使用类似的操作来指定要应用的延迟(N到M映射)，以及对于每一个N到M输出通道映射的直接/漫射混合。可以使用其他表示的方法，包括比较简单的标量和矢量表示(以损失灵活性为代价)。

与常规混合器不同，根据本发明的混合引擎包括至少一个(优选地，多于一个)用于感觉上的漫射处理特别标识的输入茎；更具体而言，环境引擎是可在元数据的控制之下配置的，以便混合引擎可以作为输入接收到感觉上漫射的通道。感觉上漫射的输入通道可以是：a)通过利用根据本发明的感觉上相关的混响器处理一个或多个音频通道所生成的，或b)在自然地混响的声环境中记录的并通过对应的元数据标识为这样的茎。

相应地，如图12所示，混合引擎416接收音频输入的N′个通道，包括中间音频信号1202(N个通道)加1或更多由环境引擎所生成的漫射通道1204。混合引擎416通过在一组混合控制系数(从接收到的元数据解码的)控制之下相乘和求和，以产生一组M输出通道(1210和1212)用于在本地环境中播放，来混合N′个音频输入通道1202和1204。在一个实施例中，专用的漫射输出1212被区分，以便通过专用的，漫射的辐射体扬声器再现。然后，将多个音频通道转换为模拟信号，通过放大器1214放大。经过放大的信号驱动扬声器阵列244。

响应于由元数据解码器/解包器238不时地接收到的元数据，特定混合系数随时间有差异。在优选实施例中，响应于有关本地播放环境的信息，特定混合也变化。优选地，本地播放信息由播放环境模块424所提供，如上文所描述的。

在优选的，新颖的实施例中，混合引擎还将从接收到的元数据解码的指定延迟应用于每一个输入-输出对，优选地，还依赖于播放环境的本地特征。优选情况下，接收到的元数据包括要由混合引擎应用到每一个输入通道/输出通道对的延迟矩阵(然后，由接收器基于本地播放环境进行修改)。

可以通过参考表示为“mixop”的一组参数(对于MIX Operation指令)来以其他语言描述此操作。基于从解码的元数据接收到的控制数据(通过数据路径1216)，以及从播放环境引擎接收到的进一步的参数，混合引擎基于播放环境的呈现模型(表示为模块1220)来计算延迟和增益系数(一起为“mixop”)。

优选地，混合引擎将使用“mixop”来指定要执行的混合。适当地，对于混合到每一个特定输出的每一个特定输入，将生成相应的单个mixop(优选地，包括增益和延迟字段二者)。如此，单个输入可以为每一个输出通道生成mixop。笼统讲，NxM mixop足以从N输入映射到M输出通道。例如，利用7个输出通道播放的7通道输入潜在地为单独的直接通道生成多至49个增益mixop；在本发明的7通道实施例中需要更多，以考虑从漫射引擎402接收到的漫射通道。每一个mixop都指定输入通道、输出通道、延迟以及增益。可任选地，mixop也可以指定要应用的输出滤波器。在优选实施例中，系统允许某些通道被(元数据)标识为“直接呈现”通道。如果这样的通道还设置了diffusion_flag(在元数据中)，则它将不会穿过漫射引擎，而是将输入到混合引擎的漫射输入中。

在典型的系统中，某些输出可以被分开地当作低频效果通道(LFE)处理。被标记为LFE的输出由不是本发明的主题的方法专门地处理。LFE信号可以在单独的专用通道中处理(通过回避漫射引擎和混合引擎)。

本发明的优点在于在编码时直接和漫射音频的分离，接下来是在解码和播放时漫射效果的合成。这种从房间效果中划分直接音频允许在各种播放环境中进行更有效的播放，特别是播放环境不是混合工程师先验地知道的情况下。例如，如果播放环境是小的，在声学上干的工作室，则可以添加漫射效果，以在场景需要它时模拟大影院。

本发明的此优点通过具体示例很好地示出：在一部关于莫扎特的周知的受欢迎的电影中，在维也纳歌剧院中设置了歌剧场景。如果这样的场景通过本发明的方法来传输，则音乐将被记录为“干的”或作为多一些或少一些直接的声音组(在多个通道中)。然后，可以由混合工程师在元数据引擎108中添加元数据，以在播放时需要合成漫射。作为响应，在解码器处，如果播放影院是诸如家庭起居室之类的小的房间，则将添加适当的人工混响。另一方面，如果播放影院是大礼堂，基于本地播放环境，元数据解码器将指示将添加较少的人工混响(以避免过度的混响以及所产生的混浊的效果)。

常规音频传输方案不准许对本地播放的等效调整，因为真实的房间的房间脉冲响应不能通过解卷积逼真地(在实践中)去除。虽然某些系统尝试补偿本地频率响应，但是，这样的系统不会真正地去除混响，不会实际上去除传输的音频信号中存在的混响。相比之下，在各种播放环境中，本发明以在播放时促进合成或适当的漫射效果的与元数据成协调组合地传输直接音频。

直接和漫射输出和扬声器：

在本发明的优选实施例中，音频输出(图2中的243)包括多个音频通道，在其数量方面不同于音频输入通道(茎)的数量。在本发明的解码器的优选的，特别新颖的实施例中，专用的漫射输出应该优选地被路由到专门用于再现漫射声的适当的扬声器。可以有利地使用具有单独的直接和漫射输入通道的组合直接/漫射扬声器，诸如在作为US2009/0060236A1公开的美国专利申请11/847096中所描述的系统。可另选地，通过使用上文所描述的混响方法，漫射感觉可以通过直接音频呈现的5或7个通道的交互，通过使用利用上面指定的混响/漫射系统创建的听音室中的故意的通道之间的干扰来创建。

本发明的方法的特定实施例

在本发明的更特定，切实可行的实施例中，环境引擎240、元数据解码器/解包器238，以及甚至音频解码器236可以在一个或多个通用微处理器上实现，或通过通用微处理器与专门的，可编程的集成的DSP系统来协力实现。这样的系统大多常常是从过程角度描述的。从过程角度来看，容易认识到，图1-12所示出的模块和信号通路对应于由微处理器在软件模块的控制(具体而言，在软件模块的控制之下，包括执行此处所描述的全部音频处理功能所需的指令)之下执行的过程。例如，反馈梳状滤波器容易地由可编程微处理器与存储中间结果的足够的随机存取存储器相结合来实现，如在本领域内已知的。此处所描述的所有模块、引擎，以及组件(除混合工程师以外)可以由专门地编程的计算机类似地实现。可以使用各种数据表示，包括定点运算的任何浮点。

现在参考图13，一般性地示出了接收和解码方法的过程视图。方法通过接收具有多个元数据参数的音频信号从步骤1310开始。在步骤1320中，音频信号被多路分解，以便从音频信号解包编码的元数据，音频信号被分离到规定的音频通道。元数据包括多个呈现参数、混合系数，以及一组延迟，所有的这些都在上面的表1中进一步定义。表1提供了示例性元数据参数，但不打算限制本发明的范围。所属技术领域的专业人员将理解，根据本发明，可以在比特流中携带定义音频信号特征的漫射的其他元数据参数。

该方法通过处理元数据参数以确定滤波哪些音频通道(多个音频通道的)以包括在空间上漫射的效果在步骤1330中继续。通过混响组来处理适当的音频通道，以包括计划的在空间上漫射的效果。在上面的“混响模块”部分讨论了混响组。该方法通过接收定义本地声环境的播放参数在步骤1340中继续。每一个本地声环境都是唯一的，每一个环境都可以以不同的方式影响音频信号的在空间上漫射的效果。考虑本地声环境的特征并补偿当在该环境中播放音频信号时可能自然地发生的任何在空间上漫射的偏离，促进音频信号的播放，如由编码器计划的。

该方法通过基于元数据参数和播放参数来混合滤波的音频通道来在步骤1350中继续。应该理解，一般化的混合包括从全部M输入混合到N个输出加权的贡献中的每一个，其中，N和M分别是输出和输入的数量。混合操作由如上文所描述的一组“mixop”来适当地控制。优选地，也作为混合步骤的一部分(也如上文所描述的)引入一组延迟(基于接收到的元数据)。在步骤1360中，输出音频通道，用于通过一个或多个扬声器播放。

接下来参考图14，一般性地示出了本发明的编码方法方面。在步骤1410中，接收数字音频信号(该信号可以源自捕捉到的实况声音，来自传输的数字信号，或来自记录的文件的播放)。对信号进行压缩或编码(步骤1416)。与音频成同步关系，混合工程师(“用户”)向输入设备输入控制选择(步骤1420)。输入确定或选择所希望的漫射效果和多通道混合。编码引擎产生或计算适合于所需的效果和混合的元数据(步骤1430)。根据本发明的解码方法，通过接收器/解码器解码和处理该音频(上文所描述的，步骤1440)。解码的音频包括所选漫射和混合效果。通过监听系统向混合工程师播放解码的音频，以便他/她可以验证所希望的漫射和混合效果(监听步骤1450)。如果源音频来自于预先记录的源，则工程师将具有重做此过程的选项，直到实现所需的效果。最后，与表示漫射和(优选地)混合特征的元数据成同步关系地传输经过压缩的音频(步骤11460)。优选实施例中的此步骤将包括以用于在机器可读的介质上传输或记录的组合的数据格式将元数据与经过压缩的(多通道)音频流复用。

在另一方面，本发明包括利用通过上文所描述的方法编码的信号记录的机器可读的可记录的介质。在系统方面，本发明还包括根据上文所描述的方法和设备编码、传输(或记录)，以及接收/解码的组合系统。

显而易见的是，可以使用处理器体系结构的各种变体。例如：多个处理器可以用于并行或串行配置中。可以使用专用的“DSP”(数字信号处理器)或数字滤波器设备作为滤波器。可以一起处理音频的多个通道，要么通过复用信号要么通过运行并行处理器实现。可以以各种方式来格式化输入和输出，包括并行、串行、交织，或编码。

尽管示出和描述了本发明的多个说明性实施例，但是，所属领域的技术人员也会想到很多其他变体和替换实施例。这样的变体和替换实施例是可以预期的，并可以在不偏离如所附权利要求书所定义的本发明的精神和范围的情况下，实现它们。

Claims

1.一种用于调节编码的数字音频信号的方法，所述音频信号表示声音，该方法包括下列步骤：

接收包括用于输出多个输出通道的多个源通道的数字音频信号；

接收与所述音频信号相关联的编码的元数据，所述元数据包括指示出至少一个源通道的具有漫射音频效果的所希望的呈现的至少一个漫射参数；

基于所述漫射参数，通过实用漫射器，利用漫射效果来使得所述至少一个源通道的在至少两个输出通道中的贡献解相关；以及

产生所述多个输出通道。

2.如权利要求1所述的方法，其中，所述实用漫射器包括至少一个短路衰减混响器。

3.如权利要求2所述的方法，其中，所述短路衰减混响器被配置为，使得随着时间的推移衰减的度量T60等于0.5秒或更少。

4.如权利要求3所述的方法，其中，所述短路衰减混响器被配置为，使得T60在各频率上是基本上恒定的。

5.如权利要求1所述的方法，其中，所述实用漫射器包括频域人工混响滤波器。

6.如权利要求1所述的方法，还包括：利用时域或频域中的全通滤波器来对所述多个输出通道中的每个输出通道进行滤波。

7.如权利要求1所述的方法，还包括：

解码所接收的元数据，以获得表示所希望的漫射密度的至少第二参数；以及

向所述多个输出通道中的每个输出通道中的组合的贡献应用由所述第二参数表示的所希望的漫射密度。