CN105075117B

CN105075117B - 根据多个音频主干进行自动多声道音乐混合的系统和方法

Info

Publication number: CN105075117B
Application number: CN201480014806.4A
Authority: CN
Inventors: Z·菲左; F·玛尔
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2013-03-15
Filing date: 2014-03-12
Publication date: 2020-02-18
Anticipated expiration: 2034-03-12
Also published as: JP6484605B2; EP2974010B1; US9640163B2; CN105075117A; JP2016523001A; EP2974010A1; US20140270263A1; KR20150131268A; KR102268933B1; WO2014151092A1; EP2974010A4; US11132984B2; HK1214039A1; US20170301330A1

Abstract

公开了用于创建环绕音频混合的自动混合器和方法。规则集合可以被存储在规则库中。规则引擎可以至少部分地基于与多个主干相关联的元数据来选择规则集合的子集。混合矩阵可以根据所选择的规则的子集来混合多个主干以提供三个或者更多个输出声道。

Description

根据多个音频主干进行自动多声道音乐混合的系统和方法

技术领域

本公开涉及音频信号处理，并且具体涉及用于多声道音频信号的自动混合的方法。

背景技术

制作音频录制的处理通常通过捕捉并存储将被组合为最终录制的一个或更多个不同音频对象而开始。在该上下文中，“捕捉”意味着将收听者可以听到的声音转换为可存储的信息。“音频对象”是可以作为一个或更多个模拟信号或者数字数据流而被传送并且可以被存储为模拟录制或者数字数据文件或者其他数据对象的音频信息体。原始或者未经处理的音频对象通常可被称作“音轨”，作为每个音频对象曾事实上被记录在磁性记录带上的物理分离轨道上时的纪念。目前，“音轨”可以被记录在模拟记录带上或者可以被以数字方式记录在数字音频带上或者计算机可读存储介质上。

数字音频工作站(DAW)通常被音频音乐专业人员用来将单独音轨集成为最后交付给最终用户的期望最终音频产品。这些最终音频产品通常被称作“艺术混合”(artisticmixes)。艺术混合的创建需要相当大量的努力和专业知识。此外，艺术混合通常由拥有特定内容的权利的艺术家批准。

术语“主干”(stem)被广泛用来描述音频对象。该术语也被广泛误解，因为“主干”在不同的上下文中通常被给予不同的含义。在电影制作期间，术语“主干”通常指代环绕音频呈现。例如，用于影片音频回放的最终音频通常被称作“发行母带主干(print masterstem)”。对于5.1呈现，发行母带主干由6个音频声道——左前、右前、中央、LFE(低频效果，通常称作超低音音箱)、左后环绕和右后环绕——组成。主干中的每个声道通常包含诸如音乐、对话和效果之类的若干分量的混合。这些原始分量中的每个继而可以由数百个源或者“音轨”创建。使事情更加复杂的是，当电影被混合时，音频呈现中的每个分量被分别“发行”或者记录。在发行母带正被创建的同时，每个主要分量(例如，对话、音乐、效果)也可以被记录或者“发行”到主干。这些被称作“DM&E”或者说对话、音乐和效果主干。这些分量中的每个可以是包含六个音频声道的5.1呈现。当DM &E主干被一起同步播放时，它们听起来与发行母带主干完全一样。 DM&E主干由于各种原因而被创建，外语对话替换是一个常见示例。

在录制音乐制作期间，主干的创建原因和主干的性质在本质上不同于上面描述的影片“主干”。主干创建的主要动机是允许录制音乐被“重新混合”。例如，并非旨在在舞蹈俱乐部中播放的流行歌曲可以被重新混合以便与舞蹈俱乐部音乐更加相容。艺术家及其记录标签也可以由于公共关系原因将主干发布给公众。公众(通常为可以访问数字音频工作站的相当复杂的用户)准备可以为了宣传目的而被发布的重新混合版。歌曲也可以被重新混合以供在诸如非常成功的吉他英雄和摇滚乐队游戏之类的视频游戏中使用。这种游戏依赖于表示单独乐器的主干的存在。在录制音乐制作期间创建的主干通常包含来自不同源的音乐。例如，摇滚歌曲的一组主干可以包括鼓、一个或更多个吉他、贝斯、一个或更多个声乐(vocal)、键盘和打击乐器。

在本专利中，“主干”是通过处理一个或更多个音轨而生成的艺术混合的分量或者子混合。该处理可以通常包括，但是不一定包括，混合多个音轨。处理可以包括以下各项中的一个或更多个：通过放大或者衰减的电平修改；诸如低通滤波、高通滤波或者图形均衡之类的频谱修改；诸如限幅或者压缩之类的动态范围修改；诸如相移或延迟之类的时域修改；噪声、哼声(hum)和反馈抑制；混响；以及其他处理。主干通常在艺术混合的创建期间生成。立体声艺术混合通常由四到八个主干组成。少至两个主干和多于八个主干可以被用于一些混合。每个主干可以包括单个分量或者左分量和右分量。

因为用于将音频内容交付给收听者的最常见技术是紧凑盘和无线电广播，因此多数艺术混合是立体声，也就是说多数艺术混合只有两个声道。在本专利中，“声道”是准备好通过音频再现系统向收听者播放的经完全处理的音频对象。然而，由于家庭影院系统的流行，许多家庭和其他场所具有环绕声多声道音频系统。术语“环绕”要么指的是旨在在二维或三维空间中分布的多于两个扬声器上播放的源素材，要么指的是包括在二维或者三维空间中分布的多于两个扬声器的回放布置。常见的环绕声音格式包括：5.1，其包括五个单独的音频声道加上低频效果(LFE)或者重低音声道；5.0，其包括五个音频声道而没有LFE声道；以及7.1，其包括七个音频声道加上LFE声道。音频内容的环绕混合具有实现更迷人收听者体验的巨大潜力。环绕混合还可以提供更高质量的再现，这是因为音频通过增加数目的扬声器而被再现并且因而可以需要单独声道的更少动态范围压缩和均衡。然而，指定用于多声道再现的另一艺术混合的创建需要有艺术家和混合工程师参与的附加混合会话。环绕艺术混合的成本可能不被内容所有者或者唱片公司批准。

在本专利中，任何将被记录和再现的音频内容将被称作“歌曲”。歌曲例如可以是3分钟流行歌曲、非音乐戏剧事件或者完整交响乐。

附图说明

图1是用于创建艺术混合的传统系统的框图。

图2A是用于分发环绕混合的系统的框图。

图2B是用于分发环绕混合的另一系统的框图。

图2C是用于分发环绕混合的另一系统的框图。

图3是自动混合器的功能框图。

图4是规则库的图形表示。

图5是另一自动混合器的功能框图。

图6是另一规则库的图形表示。

图7是收听环境的图形表示。

图8是用于自动创建环绕混合的处理的流程图。

图9是用于自动创建环绕混合的另一处理的流程图。

在整个本说明书中，在附图中出现的元件被指派了三数字参考指示符，其中最高有效数字是引入该元件的附图编号并且两个最低有效数字是依元件而定的。未被结合附图描述的元件可被假定为具有与先前描述的具有相同参考指示符的元件相同的特性和功能。

具体实施方式

装置的描述

现在参考图1，用于产生艺术混合的系统100可以包括多个音乐家和音乐乐器110A-110F、录音机120和混合器130。音乐家和乐器 110A-110F所产生的声音可以通过诸如麦克风、磁性拾音器和压电拾音器之类的换能器而被转换为电信号。诸如电子键盘之类的一些乐器可以在没有中间换能器的情况下直接产生电信号。在该上下文中，术语“电信号”包括模拟信号和数字数据两者。

这些电信号可以被录音机120记录为多个音轨。每个音轨可以记录由单个音乐家或乐器产生的声音，或者由多个乐器产生的声音。在诸如鼓手打一组鼓之类的一些情况下，由单个音乐家产生的声音可以被多个换能器捕捉。来自多个换能器的电信号可以被记录为相对应的多个音轨或者可以在记录之前被组合为减少数目的音轨。将被组合为艺术混合的各种音轨无需在相同时间或者甚至在相同位置记录。

一旦将被混合的所有音轨已被记录，则音轨可以使用混合器130 而被组合为艺术混合。混合器130的功能元件可以包括音轨处理器 132A-132F和加法器134L和134R。在历史上，音轨处理器和加法器是由对模拟音频信号进行操作的模拟电路实现的。目前，音轨处理器和加法器通常是使用诸如数字信号处理器之类的一个或更多个数字处理器来实现的。当存在两个或更多个个处理器时，在图1中示出的混合器130的功能划分无需与混合器130在多个处理器之间的物理划分相一致。多个功能元件可以被实现在同一处理器内，并且任一功能元件都可以在两个或更多个处理器之间被划分。

每个音轨处理器132A-132F可以处理一个或更多个记录音轨。每个音轨处理器所执行的处理可以包括以下各项中的一些或全部：对多个音轨进行加总或者混合；通过放大或者衰减的电平修改；诸如低通滤波、高通滤波或者图形均衡之类的频谱修改；诸如限幅或者压缩之类的动态范围修改；诸如相移或延迟之类的时域修改；噪声、哼声和反馈抑制；混响；以及其他处理。可以对声乐音轨执行诸如咝声消除和合唱之类的专门处理。可以在使单独音轨混合或者相加之前对其执行诸如电平修改之类的一些处理，并且可以在使多个音轨混合之后执行其他处理。每个音轨处理器132A-132F的输出可以是相应的主干 140A-140F，其中只有主干140A和140F在图1中被标识出。

在图1中的示例中，每个主干140A-140F可以包括左分量和右分量。右加法器134R可以使主干140A-140F的右分量相加以提供立体声艺术混合160的右声道160R。类似地，左加法器134L可以使主干140A-140F的左分量相加以提供立体声艺术混合160的左声道160L。尽管未在图1中示出，但是可以对从左和右加法器134L和134R 输出的信号执行诸如限幅或动态范围压缩之类的附加处理。

每个主干140A-140F可以包括由特定乐器或者乐器和音乐家组产生的声音。主干中包括的该乐器或者乐器和音乐家组在这里将被称作主干的“语音”。语音可以被命名以反映贡献了被处理以生成该主干的音轨的音乐家或者乐器。例如，在图1中，音轨处理器132A的输出可以是“弦乐器”主干，音轨处理器132D的输出可以是“声乐”主干，并且音轨处理器132E的输出可以是“鼓”主干。主干无需被限制为单个类型的乐器，并且单个类型的乐器可以产生多于一个主干。例如，弦乐器110A、萨克斯管110B、钢琴110C和吉他110F可以被记录为单独音轨但是可以被组合为单个“器乐曲”主干。又例如，对于诸如重金属之类的鼓密集型音乐，鼓手110E所产生的声音可以被集成为诸如“踢鼓”主干、“小军鼓和钹”主干和“其他鼓”主干之类的若干主干。这些主干可以具有显著不同的频谱并且在混合期间可以被不同地处理。

在立体声艺术混合160的创建期间生成的主干140A-140F可以被存储。此外，标识主干中的语音、乐器或者音乐家的元数据可以被与每个主干音频对象相关联。关联元数据可以被附加到每个主干音频对象或者可以被单独存储。诸如歌曲的标题、组或者音乐家的名称、歌曲的流派、记录和/或混合日期和其他信息之类的其他元数据可以被附加到主干音频对象中的一些或全部或者被存储作为单独的数据对象。

图2A是用于分发环绕音频混合的传统系统200A的框图。例如可以作为数字音频工作站的艺术混合系统230可以被用来创建立体声艺术混合和环绕艺术混合235两者。立体声艺术混合可以被用于紧凑盘的制作、传统的立体声无线电广播以及其他用途。环绕艺术混合235 可以被用于蓝光制作(例如，蓝光HDTV音乐会录制)和其他用途。环绕艺术混合235还可以通过多声道编码器240来编码并且例如经由因特网或其他网络来分发。

多声道编码器240可以根据MPEG-2(运动图像专家组)标准对环绕艺术混合235进行编码，这允许对针对5.1环绕音频系统具有高达六个声道的音频混合进行编码。多声道编码器240可以根据自由无损音频编码器(FLAC)标准对环绕艺术混合235进行编码，这允许对具有高达八个声道的音频混合进行编码。多声道编码器240可以根据MPEG-2和MPEG-4标准的高级音频编码(AAC)增强对环绕艺术混合235进行编码。AAC允许对具有高达48个声道的音频混合进行编码。多声道编码器240可以根据某一其他标准对环绕艺术混合235 进行编码。

多声道编码器240所产生的编码音频可以通过分发通道242而被传输到兼容的多声道解码器250。分发通道242可以是无线广播、诸如因特网或者有线TV网络之类的网络，或者某一其他分发通道。多声道解码器250可以重新创建或者几乎重新创建环绕艺术混合235的声道以便通过环绕音频系统260呈现给收听者。

如先前描述的，每个立体声艺术混合不一定具有关联的环绕艺术混合。图2B是用于在音频节目的环绕艺术混合不存在的情形下分发环绕音频混合的另一系统200B的框图。在系统200B中，可以由在立体声艺术混合的创建期间形成的主干和元数据232来合成环绕混合。来自艺术混合系统230的主干和元数据232可以被输入到产生环绕混合275的自动环绕混合器270。术语“自动”一般意味着没有操作者参与。一旦操作者已经发起自动环绕混合器270的操作，就可以在没有进一步操作者参与的情况下产生环绕混合275。

环绕混合275可以通过多声道编码器240而被编码并且通过分发通道242而被传输到兼容的多声道解码器250。多声道解码器250可以重新创建或者几乎重新创建环绕混合275的声道以便通过环绕音频系统260呈现给收听者。在系统200B中，由自动环绕混合器270产生的单个环绕混合被分发给所有收听者。

图2C是用于分发环绕音频混合的另一系统200C的框图。在系统200C中，每个收听者可以剪裁适合于其个人偏好和音频系统的定制环绕混合。来自艺术混合系统230的主干和元数据232可以被输入到多声道编码器245，多声道编码器245像多声道编码器240但是能够对主干而非信道(或者除了信道之外还能够对主干)进行编码。

编码主干然后可以经由分发通道242而被传输到兼容的多声道解码器255。多声道解码器255可以重新创建或者几乎重新创建主干和元数据232。自动环绕混合器270可以基于重新创建的主干和元数据来产生环绕混合275。可以针对收听者的偏好和/或收听者的环绕音频系统260的特性来剪裁环绕混合275。

现在参考图3，诸如图2B和图2C中的自动环绕混合器270的自动环绕混合器300可以根据作为创建立体声艺术混合的处理的一部分而被创建的主干来产生多声道环绕混合。自动环绕混合器300可以在不需要录制工程师或艺术家参与的情况下产生多声道环绕混合。在本示例中，自动环绕混合器300接受被标识为主干1至主干6的6个主干。自动混合器可以接受多于六个主干或者少于六个主干。每个主干可以是单声道的或是具有左和右分量的立体声的。在本示例中，自动环绕混合器300输出被标识为输出(Out)1至输出6的六个声道。输出1至输出6可以对应于适用于5.1环绕音频系统的左后、左前、中央、右前、右后和低频效果声道。自动环绕混合器可以输出7.1环绕音频系统的八个声道或者其他数目的声道。

自动环绕混合器300可以包括用于每个输入主干的相应主干处理器310-1至310-6、按照各种比例组合经处理主干以提供输出声道的混合矩阵320，以及用来确定应当如何处理并混合主干的规则引擎 340。

每个主干处理器310-1至310-6可能能够执行诸如以下各项的处理：通过放大或者衰减的电平修改；通过低通滤波、高通滤波和/或图形均衡的频谱修改；通过限幅、压缩或者解压缩的动态范围修改；噪声、哼声和反馈抑制；混响；以及其他处理。主干处理器310-1至310-6 中的一个或更多个可能能够对声乐音轨执行诸如咝声消除和合唱之类的专门处理。主干处理器310-1至310-6中的一个或更多个可以提供经历不同处理的多个输出。例如，主干处理器310-1至310-6中的一个或更多个可以提供相应主干的低频部分以便并入LFE声道和相应主干的高频部分以便并入其他输出声道中的一个或更多个。

输入到自动环绕混合器300的每个主干可能已经作为创建立体声艺术混合的一部分而经历这些处理中的一些或者全部。因此，为了保留立体声艺术混合的总的声音和感觉，主干处理器310-1至310-6 可以执行最小处理。例如，主干处理器所执行的唯一处理可以是向主干中的一些或者全部添加混响和低通滤波以提供LFE声道。

主干处理器310-1至310-6中的每个可以根据由规则引擎340提供的效果参数342来处理相应主干。效果参数342例如可以包括规定衰减或增益的量的数据、将被应用的任何滤波的拐点频率和斜率、均衡系数、压缩或解压缩系数、混响的延迟和相对幅度以及定义将被应用于每个主干的处理的其他参数。

混合矩阵320可以根据由规则引擎提供的混合参数344来组合来自主干处理器310-1至310-6的输出以提供输出声道。例如，混合矩阵320可以根据如下公式来生成每个输出声道：

其中C_j(t)＝时间t处的输出声道j；

S_i＝时间t处的主干处理器i的输出；

a_i，j＝幅度系数

d_i，j＝时间延迟；并且

n＝混合中所使用的主干的数目。

幅度系数a_i，j和时间延迟d_i，j可以被包括在混合参数344中。

规则引擎340可以至少部分地基于与输入主干相关联的元数据来确定效果参数342和混合参数344。元数据可以在立体声艺术混合的创建期间生成并且可以被附加到每个主干对象并且/或者包括在单独数据对象中。元数据例如可以包括每个主干中包含的乐器类型或者语音、节目的流派或者其他定性描述、指示在立体声艺术混合的创建期间对每个主干完成的处理的数据以及其他信息。元数据还可以包括收听者感兴趣但是在环绕混合的创建期间未被使用的描述性素材，诸如节目标题或者艺术家。

当无法与主干一起提供适当的元数据时，可以通过对每个主干的内容的分析来形成包括每个主干的语音和歌曲的流派在内的元数据。例如，每个主干的频谱内容可以被分析以估计什么语音被包含在主干中，并且主干的节奏内容与主干中存在的语音相结合可以允许估计歌曲的流派。

自动环绕混合器300可以被包含到收听者的环绕音频系统中。在这种情况下，规则引擎340可以有权访问指示出将被用来呈现环绕混合的环绕音频系统配置(5.0、5.1、7.1等等)的配置数据。当自动环绕混合器300未被包含到环绕音频系统中时，规则引擎340可以接收例如作为收听者的手动输入的指示出环绕音频系统配置的信息。可以例如通过经由HDMI(高清晰度媒体互连)连接的通信从音频系统自动获得指示出环绕音频系统配置的信息。

规则引擎340可以使用规则库中存储的一组规则来确定效果参数342和混合参数344。在本专利中，术语“规则”包含用来生成效果参数342和混合参数344的逻辑语句、列表数据和其他信息。规则可以被经验主义地形成，也就是说规则可以基于已经创建一个或更多个艺术环绕混合的一个或更多个音响工程师的收集的经验。可以通过收集多个艺术环绕混合的混合参数和效果参数并求其平均值来形成规则。规则库346可以包括用于不同音乐流派的不同规则和用于不同环绕音频系统配置的不同规则。

一般而言，每个规则可以包括条件和如果该条件得到满足则被执行的动作。规则引擎可以评估可用数据(即，元数据和扬声器配置数据)并且确定什么规则条件得到满足。规则引擎340可以随后确定得到满足的规则指示了什么动作、解决动作之间的任何冲突并且使所指示的动作发生(即设置效果参数342和混合参数344)。

在规则库346中存储的规则可以是声明形式的。例如，在规则库 346中存储的规则可以包括“主声乐去到中央声道”。该规则如所述将应用于所有音乐流派和所有环绕音频系统配置。规则中的条件是内在的-规则仅在主声乐主干存在的情况下应用。

更典型的规则可以具有明示的条件。例如，规则库346中存储的规则可以包括“如果音频系统具有超低音音箱，则鼓、打击乐器和贝斯主干的低频分量去到LFE声道，否则鼓、打击乐器和贝斯主干的低频分量被在左前和右前声道之间划分”。规则的明示条件可以包含逻辑表达式(“和”、“或”、“否”等等)。

常见形式的规则可以具有诸如“如果音乐的流派是X并且语音是Y，则...”之类的条件。该类型和其他类型的规则可以被以表格形式存储在规则库346中。例如，如在图4中示出，规则可以被组织为三维表格400，其中三个坐标轴表示主干语音、流派和声道。每个条目410可以包括用于主干语音和流派的特定组合的混合参数(电平和延迟系数)和效果参数。表格400是依5.1环绕音频配置而定的。不同表格可以被存储在用于不同环绕音频配置的规则库中。

例如，表格400的行420在假定对主声乐主干不执行效果处理的情况下实现规则“对于5.1环绕音频系统和该特定流派，主声乐去到中央声道”。又例如，表格400的行430实现规则“对于5.1环绕音频系统和该特定流派，鼓主干的低频分量去到LFE声道并且鼓主干的高频分量被在左前和右前声道之间划分”。

回来参考图3，当规则库346包括表格形式的规则时，规则引擎可以使用元数据和环绕音频配置来从适当表格取回效果参数342和混合参数344。规则引擎340可以仅仅依赖表格式规则，或者可以具有附加规则来处理表格化规则未充分解决的情形。例如，少数的成功摇滚乐队使用两个鼓手，并且许多录制歌曲以两个主唱歌手为特征。这些情形可以通过附加的表格条目来解决或者可以通过诸如“如果两个主干具有相同语音，则使一个向左加权并且使另一个向右加权”之类的附加规则来解决。

规则引擎340还可以接收指示收听者偏好的数据。例如，收听者可被提供用来选择传统混合和诸如无伴奏(只有声乐)混合或“卡拉 OK”混合(主声乐被抑制)之类的非传统混合的选项。非传统混合的选定可以覆盖由规则引擎340选择的混合参数中的一些。

自动环绕混合器300的功能元件可以通过模拟电路、数字电路和 /或执行自动混合器软件程序的一个或更多个处理器来实现。例如，主干处理器310-1至310-6和混合矩阵320可以使用诸如数字信号处理器之类的一个或更多个数字处理器来实现。规则引擎340可以使用通用处理器来实现。当存在两个或者更多处理器时，在图3中示出的自动环绕混合器300的功能划分无需与自动环绕混合器300在多个处理器之间的物理划分相一致。多个功能元件可以被实现在同一处理器内，并且任一功能元件都可以被在两个或更多个处理器之间划分。

现在参考图5，自动环绕混合器500如先前所述可以包括根据效果参数342来处理各个主干的主干处理器310-1至310-6。自动环绕混合器500如先前所述可以包括用来根据混合参数344来组合来自主干处理器310-1至310-6的输出的混合矩阵320。

自动环绕混合器500还可以包括规则引擎540和规则库546。规则引擎540如先前所述可以基于元数据和环绕音频系统配置数据来确定效果参数342。

规则引擎540可以不直接确定混合参数344，而是可以基于规则库546中存储的规则来确定相对语音位置数据548。每个相对语音位置可以指示相应主干的假设源的虚拟舞台上的位置。例如，规则库546 将不包括规则“主声乐去到中央声道”，而是可以包括规则“主唱歌手位于舞台的前中央”。类似规则可以针对各种流派定义其他语音/ 音乐家在虚拟舞台上的位置。

常见形式的规则可以具有诸如“如果音乐的流派是X并且语音是Y，则...”之类的条件。该类型的规则可以被存储在表格形式的规则库546中。例如，如在图6中示出，规则可以被组织为二维表格600，其中坐标轴表示主干语音和流派。每个条目610可以包括用于主干语音和流派的特定组合的位置和效果参数。表格600可以是不依任何特定环绕音频配置而定的。

在先前段落中描述的规则是简单示例。将参考图7来说明更加完整但是仍是示例性的如果设置(set if)规则。图7示出了包括收听者 710和标记为C(中央)、L(左前)、R(右前)、LR(左后)和 RR(右后)的一组扬声器的环境。中央扬声器C按照定义位于相对于收听者710的零度角处。左前和右前扬声器L、R分别位于-30度和+30度的角度处。左后和右后扬声器LR、RR分别位于-110和+110 度的角度处。超低音音箱或者说LFE扬声器未在图7中示出。收听者几乎没有检测极低频声音的方向的能力。因此LFE扬声器的相对位置是不重要的。

用于混合主干的一组规则可以按照从收听者到主干的源的表观角度来表达。以下示例性的一组规则可以提供用于各种流派的歌曲的令人愉悦的环绕混合。规则被用斜体字陈述。

·鼓处于±30°并且混响鼓分量处于±110°。鼓被认为是多数种类的流行音乐的“骨干”。在立体声混合中，鼓通常被均等地放在左和右扬声器之间。在5.1环绕呈现中，存在用来呈现鼓位于围绕收听者的房间内的幻觉的选项。因此鼓主干可以被在左前和右前声道之间划分并且鼓主干可以被混响并衰减并被发送到左后和右后扬声器(±110°)以给予收听者鼓在他们“前面”并且“虚拟房间”的反射在它们后面的印象。

·贝斯被放置在0°-3db处同时对L/R有+1.5db的贡献。贝斯吉他像鼓一样通常在立体声混合中的“幻像中央”(在左和右声道之间被均等划分)处。在5.1混合中，贝斯主干可以按照以下方式跨左、右和中央扬声器展开。贝斯主干将被放置在中央声道中，在电平上被降低-3db，然后以-1.5db被均等地添加到左前和右前扬声器。

·节奏吉他被放置在-60°处。对图7的检查显示不存在处于 -60°处的扬声器。节奏吉他主干可以被在左前扬声器L和左后扬声器LR之间划分以模拟处于-60°处的幻像源。

·键盘被放置在+60°处。键盘主干可以被在右前扬声器L和右后扬声器LR之间划分以模拟处于-60°处的幻像源。

·背景声乐被放置在±90°处。背景声乐主干可以被在左前和右前扬声器L、R与左后和右后扬声器LR、RR之间划分以模拟处于+90°处的幻像源。

·打击乐器被放置在±110°处。打击乐主干可以被在左后和右后扬声器LR、RR之间划分。

·主声乐被放置在0°-3db处同时对L/R有+1.5db的贡献。主声乐通常在典型立体声混合的“幻像中央”中被呈现。通过中央、左和右声道展开主声乐保留了主唱歌手的表观位置但是向呈现添加了丰满度和复杂性。

回来参考图5，当规则库546包括表格形式的规则时，规则引擎 540可以使用元数据和环绕音频配置来从适当表格取回效果参数342 和语音位置数据548。规则引擎540可以完全依赖表格式规则，或者可以具有附加规则来处理表格化规则未充分解决的情形，如先前所述。

规则引擎540还可以接收指示收听者偏好的数据。例如，收听者可被提供用来选择传统混合和诸如无伴奏(只有声乐)混合或卡拉OK混合(主声乐被抑制或者主和背景声乐被抑制)之类的非传统混合的选项。收听者可以具有用来选择“教育的”混合的选项，其中每个主干被发送到单个扬声器声道以允许收听者关注特定乐器。非传统混合的选定可以覆盖由规则引擎540选择的混合参数中的一些。

规则引擎540可以将语音位置数据548提供给协调处理器550。协调处理器550可以接收对相对于语音所位于的虚拟舞台的虚拟收听者位置的收听者选定。例如可以通过提示收听者选择两个或更多个预定备选位置中的一个来做出收听者选定。虚拟收听者位置的可能选择可以包括“在乐队中”(例如，在被语音围绕的虚拟舞台的中央)、“前排中央”和/或“听众中间”。协调处理器550然后可以生成混合参数344，混合参数344使混合矩阵320将经处理主干组合到提供期望的收听者体验的声道中。

协调处理器550还可以接收指示扬声器在环绕音频系统中的相对位置的数据。该数据可以被协调处理器550用来细化混合参数以在至少一定程度上补偿扬声器布置相对于标称扬声器布置(诸如在图7 中示出的扬声器布置)的偏差。例如，协调处理器可以在一定程度上补偿扬声器位置的不对称，诸如左前和右前扬声器未在相对于中央扬声器的对称位置。

自动环绕混合器500的功能元件可以通过模拟电路、数字电路和 /或执行自动混合器软件程序的一个或更多个处理器来实现。例如，主干处理器310-1至310-6和混合矩阵320可以使用诸如数字信号处理器之类的一个或更多个数字处理器来实现。规则引擎540和协调处理器550可以使用一个或更多个通用处理器来实现。当存在两个或者更多处理器时，在图5中示出的自动环绕混合器500的功能划分无需与自动环绕混合器500在多个处理器之间的物理划分相一致。多个功能元件可以被实现在同一处理器内，并且任一功能元件都可以被在两个或更多个处理器之间划分。

处理的描述

现在参考图8，用于提供歌曲的环绕混合的处理800在805处开始并且在895处结束。处理800基于以下假设：首先为歌曲创建立体声艺术混合并且接下来根据在立体声艺术混合的创建期间存储的主干来自动生成多声道环绕混合。

在810处，诸如规则库346和546之类的规则库可以被形成。规则库可以包含用于将主干组合到环绕混合中的规则。可以通过对历史艺术环绕混合的分析、通过累积具有创建艺术环绕混合的经验的录制工程师的一致意见和实践或者以某一其他方式来形成这些规则。规则库可以包含用于不同音乐流派的不同规则和用于不同环绕音频配置的不同规则。规则库中的规则可以被以表格形式表达。规则库不一定是永久的并且例如可以随着时间过去而被扩展以包含新的混合技术和新的音乐流派。

可以在录制第一歌曲和创建第一艺术立体声混合之前、期间或之后准备初始规则库。必须在可以自动生成环绕混合之前形成初始规则库。在810处构造的规则库可以被传送到一个或更多个自动混合系统。例如，规则库可以被包含到每个自动环绕混合系统的硬件中或者可以通过网络而被传输到每个自动环绕混合系统。

可以在815处录制歌曲的音轨。可以通过使用已知技术对来自 815的音轨进行处理和组合而在820处创建艺术立体声混合。艺术立体声混合可以被用于诸如录制CD和无线电广播之类的传统目的。在 820处的艺术立体声混合的创建期间，两个或更多个的主干可以被生成。可以通过处理一个或更多个音轨来生成每个主干。每个主干可以是立体声艺术混合的分量或者子混合。立体声艺术混合通常可以由四到八个主干组成。少至两个主干和多于八个主干可以被用于一些混合。每个主干可以包括单个声道或者左声道和右声道。

在825处，元数据可以与在820处创建的主干相关联。元数据可以在820处的立体声艺术混合的创建期间被生成并且可以被附加到每个主干对象和/或存储为单独数据对象。元数据例如可以包括每个主干的语音(即乐器类型)、歌曲的流派或者其他定性描述、指示在立体声艺术混合的创建期间对每个主干完成的处理的数据以及其他信息。元数据还可以包括收听者感兴趣但是在环绕混合的创建期间未被使用的描述性素材，诸如节目标题或者艺术家。

当无法从820获得适当元数据时，可以在825处从每个主干的内容中提取包括每个主干的语音和歌曲的流派在内的元数据。例如，每个主干的频谱内容可以被分析以估计什么语音被包含在主干中，并且主干的节奏内容与主干中存在的语音相结合可以允许估计歌曲的流派。

在845处，可以通过自动环绕混合处理840获取来自825的主干和元数据。自动环绕混合处理840可以在与820处的立体声混合相同的位置处出现并且可以使用与820处的立体声混合相同的系统。在这种情况下，在845处，自动混合处理可以简单地从存储器取回元数据和主干。自动环绕混合处理840可以在远离立体声混合的一个或更多个位置处出现。在这种情况下，在845处，自动环绕混合处理840可以经由分发通道(未示出)接收主干和关联元数据。分发通道可以是无线广播、诸如因特网或有线TV网络之类的网络或者某一其他分发通道。

在850处，与主干相关联的元数据和环绕音频配置数据可以被用来从规则库中提取可适用的规则。自动环绕混合处理840还可以使用指示目标环绕音频配置(例如，5.0、5.1、7.1)的数据来选择规则。一般而言，每个规则可以定义明示或者内在的条件以及在该条件得到满足的情况下执行的一个或更多个动作。规则可以被表达为逻辑语句。一些或者所有规则可以以表格形式来表达。在850处提取可适用规则可以包括仅选择具有元数据和环绕音频配置数据所满足的条件的规则。在每个规则中定义的动作例如可以包括设置混合参数、效果参数和/或特定主干的相对位置。

在855和860处，所提取的规则可以被用来分别设置混合参数和效果参数。855和860处的动作可以按照任何次序执行或者并行执行。

在865处，主干可以被处理到环绕音频系统的声道中。将主干处理到声道中可以包括根据在870处设置的效果参数对主干中的一些或者全部执行处理。可以执行的处理包括：通过放大或者衰减的电平修改；通过低通滤波、高通滤波和/或图形均衡的频谱修改；通过限幅、压缩或者解压缩的动态范围修改；噪声、哼声和反馈抑制；混响；以及其他处理。此外，可以对声乐主干执行诸如咝声消除和合唱之类的专门处理。主干中的一个或更多个可以被分为经历不同处理的多个分量以便包含在多个声道中。例如，主干中的一个或更多个可以被处理以提供用于并入LFE声道的低频部分和用于并入其他输出声道中的一个或更多个的更高频部分。

在870处，来自865的经处理主干可以被混合到声道中。声道可以被输入到环绕音频系统。可选地，声道也可以被录制以供未来回放。处理800可以在歌曲结束之后在895处结束。

现在参考图9，用于提供歌曲的环绕混合的另一处理900可以在 905处开始并且在995处结束。除了975和980处的动作之外，处理 900类似于处理800。对实质上重复的元件的描述将不会被重复，并且未结合图9描述的任何元件具有与图8中的对应元件相同的功能。

在975处，在850处提取的规则可以被用来定义每个主干的相对语音位置。每个相对语音位置可以指示相应主干的假设源的虚拟舞台上的位置。例如，在850处提取的规则可以是“主唱歌手位于舞台的前中央”。类似规则可以针对各种流派定义其他语音/音乐家在虚拟舞台上的位置。

自动环绕混合处理940可以接收对相对于曾在975处在其上定义语音位置的虚拟舞台的虚拟收听者位置的操作者选定。可以例如通过提示收听者选择两个或更多个预定备选位置中的一个来做出操作者选定。虚拟收听者位置的示例选择包括“在乐队中”(例如，在被语音围绕的虚拟舞台的中央)、“前排中央”和/或“听众中间”。

自动环绕混合处理940还可以接收指示扬声器在环绕音频系统中的相对位置的数据。该数据可以被用来细化混合参数以在至少一定程度上补偿扬声器布置中的不对称，诸如中央扬声器未在左前和右前扬声器之间的中央。

在980处，在975处定义的语音位置可以考虑到选定的虚拟收听者位置和扬声器位置数据(如有的话)而被变换为混合参数。来自980 的混合参数可以在870处被用来将来自865的经处理主干混合到提供期望的收听者体验的声道中。

尽管未在图8或图9中示出，但是自动环绕混合处理840或940 可以接收指示收听者偏好的数据。例如，收听者可被提供用来选择传统混合和诸如无伴奏(只有声乐)混合或“卡拉OK”混合(主声乐被抑制)之类的非传统混合的选项。非传统混合的选定可以覆盖在850 或950处提取的规则中的一些。

结束语

在整个本说明书中，所示出的实施例和示例应当被看作范例，而非对所公开或要求保护的装置和过程的限制。尽管在这里给出的示例中的许多涉及方法动作或系统元件的特定组合，但是应当明白那些动作和那些元件可以被以其他方式组合来完成相同目的。关于流程图，附加的和更少的步骤可以被采用，并且如图所示的步骤可以被组合或者进一步细化以实现在此描述的方法。仅结合一个实施例讨论的动作、元件和特征并非旨在从其他实施例中的类似角色中排除。

这里所使用的“多个”意味着两个或者更多个。这里所使用的一“组”项目可以包括这种项目中的一个或更多个。如在这里使用的，无论是在书面描述还是权利要求中，术语“包含”、“包括”、“携带”、“具有”、“包含”、“涉及”等将被理解为开放式的，即意味着包括但不限于。只有连接短语“由...组成”和“基本由...组成”分别是关于权利要求的闭合或者半闭合连接短语。在权利要求中使用诸如“第一”、“第二”、“第三”等序数词来修改权利要求元件本身不意味着一个权利要求元件较之另一个的任何优先级、优先性或者次序或者方法的动作被执行的时间次序，而是仅仅用作用来使具有某一名称的权利要求元件与具有相同名称(要不是使用序数词)的另一元件相区分以区分权利要求元件的标签。这里所使用的“和/或”意味着列出的项目是备选项，但是备选项也包括列出项目的任何组合。

Claims

1.一种环绕音频系统，包括：

用于创建环绕音频混合的自动混合器，包括：

规则引擎，用来至少部分地基于如下的元数据来选择规则集合的子集，所述元数据指示出多个主干中的每个主干的相应语音和与所述多个主干相关联的流派，其中至少部分地基于元数据来选择规则集合的子集进一步包括：基于所述多个主干中的每个主干的相应语音和与所述多个主干相关联的流派，总体地定义所述多个主干中的每个主干的相应语音在虚拟舞台上的相应语音位置；

混合矩阵，用来根据如下的混合参数来混合所述多个主干以提供三个或者更多个输出声道，所述混合参数是根据所选择的规则的子集、所述多个主干中的每个主干的相应语音和与所述多个主干相关联的流派而确定的；以及

协调处理器，用来将在虚拟舞台上的相应语音位置变换为混合矩阵的混合参数，其中，协调处理器被配置为接收指示出相对于虚拟舞台的收听者位置的数据，并且协调处理器被配置为部分地基于收听者位置将相应语音位置变换为混合参数。

2.如权利要求1所述的系统，还包括：

多声道音频系统，包括用来再现输出声道中的每个输出声道的相应扬声器。

3.如权利要求1所述的系统，其中

规则集合中的每个规则包括一个或更多个条件，以及

如果规则的条件得到满足则将被采取的一个或更多个动作。

4.如权利要求3所述的系统，其中

规则引擎被配置为选择具有元数据所满足的条件的规则。

5.如权利要求3所述的系统，其中

规则引擎被配置为接收指示出环绕音频系统配置的数据，并且

规则引擎被配置为选择具有元数据和环绕音频系统配置所满足的条件的规则。

6.如权利要求3所述的系统，其中

来自规则集合的每个规则中包括的一个或更多个动作包括设置混合矩阵的一个或更多个混合参数。

7.如权利要求6所述的系统，还包括：

主干处理器，用来根据所选择的规则的子集来处理主干中的至少一个主干。

8.如权利要求7所述的系统，其中

来自规则集合的每个规则中包括的一个或更多个动作包括设置主干处理器的一个或更多个效果参数。

9.如权利要求8所述的系统，其中

主干处理器根据所述一个或更多个效果参数来执行放大、衰减、低通滤波、高通滤波、图形均衡、限幅、压缩、相移、噪声、哼声和反馈抑制、混响、咝声消除和合唱中的一个或更多个。

10.如权利要求1所述的系统，其中

协调处理器被配置为接收指示出相对扬声器位置的数据。

11.一种用于自动创建环绕音频混合的方法，包括：

至少部分地基于如下的元数据来选择规则集合的子集，所述元数据指示出多个主干中的每个主干的相应语音和与所述多个主干相关联的流派，其中至少部分地基于元数据来选择规则集合的子集进一步包括：基于所述多个主干中的每个主干的相应语音和与所述多个主干相关联的流派，总体地定义所述多个主干中的每个主干的相应语音在虚拟舞台上的相应语音位置；

根据如下的混合参数来混合所述多个主干以提供三个或者更多输出声道，所述混合参数是根据所选择的规则的子集、所述多个主干中的每个主干的相应语音和与所述多个主干相关联的流派而确定的；

将在虚拟舞台上的相应语音位置变换为混合矩阵的混合参数，该混合矩阵用来根据所选择的规则的子集来混合所述多个主干以提供三个或者更多个输出声道；以及

接收指示出相对于虚拟舞台的收听者位置的数据；

其中将在虚拟舞台上的相应语音位置变换为混合参数部分地基于收听者位置。

12.如权利要求11所述的方法，还包括：

使用包括用于输出声道中的每个输出声道的相应扬声器的多声道音频系统来将输出声道中的每个输出声道转换为可听到的声音。

13.如权利要求11所述的方法，其中

来自规则集合的每个规则包括一个或更多个条件，以及

如果规则的条件得到满足则将被采取的一个或更多个动作。

14.如权利要求13所述的方法，其中，选择规则集合的子集包括：

选择具有元数据所满足的条件的规则。

15.如权利要求13所述的方法，还包括：

接收指示出环绕音频系统配置的数据，其中

选择规则集合的子集包括选择具有元数据和环绕音频系统配置所满足的条件的规则。

16.如权利要求13所述的方法，其中

17.如权利要求16所述的方法，还包括：

根据所选择的规则的子集来处理主干中的至少一个主干。

18.如权利要求13所述的方法，其中

来自规则集合的每个规则中包括的一个或更多个动作包括设置用于处理主干中的至少一个主干的一个或更多个效果参数。

19.如权利要求18所述的方法，其中，处理主干中的至少一个主干包括：

根据所述一个或更多个效果参数的放大、衰减、低通滤波、高通滤波、图形均衡、限幅、压缩、相移、抑制噪声、哼声和反馈、混响、咝声消除和合唱中的一个或更多个。

20.如权利要求11所述的方法，还包括：

接收指示出相对扬声器位置的数据，其中

将在虚拟舞台上的相应语音位置变换为混合参数部分地基于扬声器位置。