CN104520924A

CN104520924A - 指示游戏音频内容的基于对象的音频的编码和呈现

Info

Publication number: CN104520924A
Application number: CN201380041845.9A
Authority: CN
Inventors: S·胡克斯; N·R·特斯恩高斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2012-08-07
Filing date: 2013-08-06
Publication date: 2015-04-15
Anticipated expiration: 2033-08-06
Also published as: EP2883366B1; EP2883366B8; CN104520924B; EP2883366A1; JP6186435B2; JP2015532723A; WO2014025752A1

Abstract

在一些实施例中，一种方法(典型地由游戏控制台执行)用于产生基于对象的音频节目，所述基于对象的音频节目指示游戏音频内容(与玩游戏或者游戏中的事件相关的音频内容，可选地，还有关于该游戏的其他信息)，并且包括至少一个音频对象通道和至少一个扬声器通道。在其他实施例中，游戏控制台被配置为产生这样的基于对象的音频节目。一些实施例实现对象聚类，在所述对象聚类中，将输入对象的音频内容混合以产生至少一个聚类的音频对象，或者将至少一个输入对象的音频内容与扬声器通道音频混合。响应于所述节目，空间呈现系统(例如，在游戏控制台的外部)可以在了解回放扬声器配置的情况下进行操作以产生扬声器馈送，所述扬声器馈送指示所述节目的扬声器和对象通道内容的空间混合。

Description

指示游戏音频内容的基于对象的音频的编码和呈现

相关申请的交叉引用

本申请要求2012年8月7日提交的美国临时专利申请No.61/580,559和2013年7月31日提交的美国临时专利申请No.61/860,357的优先权，这些专利申请的全部内容通过引用并入这里。

技术领域

本发明涉及音频信号处理，并且更特别地，涉及音频数据比特流的编码和呈现(render)，所述音频数据比特流包括至少一个音频对象通道和对象相关元数据以及扬声器通道，并且指示游戏的音频内容。一些实施例是被配置为产生这样的编码的音频数据比特流的游戏控制台。一些实施例产生、解码和/或呈现已知为Dolby Digital(AC-3)或Dolby Digital Plus(Enhanced AC-3或E-AC-3)的格式之一的音频数据。

背景技术

Dolby、Dolby Digital和Dolby Digital Plus是Dolby LaboratoriesLicensing Corporation(杜比实验室特许公司)的商标。杜比实验室提供分别已知为Dolby Digital和Dolby Digital Plus的AC-3和E-AC-3的专有实现。

音频在玩视频游戏的体验中是关键组成，并且随着行业增长，生成游戏声音的技术变得越来越复杂。当代游戏中的游戏声音是使用音频对象生成的，这些音频对象在游戏控制台中经过处理以产生基于扬声器通道的节目(有时称之为基于扬声器通道的“混合”)。包括若干个扬声器通道的混合典型地被编码(例如，被编码为AC-3或E-AC-3比特流)，并且编码的音频被递送到呈现系统。为了实现回放，呈现系统响应于编码的音频所指示的扬声器通道产生扬声器馈送。图1是典型的常规游戏控制台(当代游戏控制台之一)的音频处理元件的框图。

典型地，在常规游戏中听到的声音中的许多声音被存储为单独的单通道文件(除了一些周围环境音轨和音乐音轨之外，这些音轨典型地被存储为2通道或5通道文件)，并且对于这些文件的访问由在玩游戏期间发生的事件触发。在图1中被标记为“音频资源”的音频数据是这样的存储的音频文件的例子。典型的游戏控制台包括音频引擎(例如，图1系统的游戏音频引擎1)，该音频引擎被配置为管理被存储的音频文件的库、监视游戏状态/用户输入、在适当的时间播放音频文件中的适当的一个音频文件、相应地定位所访问的声音(以使得它们在回放期间将被感知为是从适当的位置发出的)、然后最后产生基于扬声器通道的混合(例如，从图1的引擎1输出的5.1扬声器通道PCM音频)。游戏控制台典型地还包括音频混合器(例如，图1系统的游戏控制台音频混合器3)，该音频混合器耦合并且配置为用系统声音、警报、额外的音乐(以及可选地，其他音频内容)增补基于扬声器通道的混合。游戏控制台典型地还包括编码器(例如，图1系统的编码器5)，该编码器耦合并且配置为(实时地)对修改的(混合的)基于扬声器通道的混合(例如，从图1的混合器3输出的5.1扬声器通道PCM)进行编码以产生编码的音频比特流(例如，从图1的编码器5输出的具有AC-3格式的编码的比特流)以用于递送到(典型地，通过S/PDIF链路发送到)呈现系统进行呈现。图1系统的编码器5可以实现为常规的“Dolby Digital Live(杜比数字实时)”编码器，该编码器响应于来自混合器3的5.1扬声器通道PCM音频输出经编码的AC-3比特流。

常常在常规的游戏音频产生期间，当创建基于扬声器通道的混合(例如，从图1的引擎1或混合器3输出的基于扬声器通道的混合，该混合包括扬声器通道，但是不包括任何对象通道，或者从图1的编码器5输出的基于扬声器通道的混合的编码版本，该编码版本也指示扬声器通道，但是不指示任何对象通道)时，原始的基于对象的音频内容(例如，图1系统的音频资源)的大部分空间信息丢失。当最终的回放系统没有准确地呈现基于扬声器通道的混合时，最终的收听者体验也将受损。发明人认识到，希望地是在由游戏控制台产生(并且从该控制台输出以便进行呈现)的编码的音频中不仅包括扬声器通道，而且还包括指示至少一个音频对象(例如，指示响应于在玩游戏期间发生的事件从文件读取的或者以其他方式访问的所存储的音频内容)的至少一个对象通道以及关于至少一个这样的音频对象的描述性信息(元数据)(例如，回放期间作为时间的函数的、每个音频对象的位置轨迹和感知大小)包括在所述编码的音频中。因此，本发明游戏控制台的典型实施例被配置为产生基于对象的音频节目(指示游戏音频内容)，并且典型地还输出该节目以便递送到了解回放系统扬声器配置的外部空间呈现系统(例如，装置)。典型地，用于呈现基于对象的音频节目的空间呈现系统可操作为产生扬声器馈送，这些扬声器馈送指示该节目的扬声器通道和对象通道内容的适当的空间混合。

已知利用高端回放系统(例如，在电影院里)来呈现基于对象的音频节目。例如，作为电影原声音乐的基于对象的音频节目可以指示许多不同的声音元素(音频对象)，这些声音元素对应于屏幕上的图像、对话、噪声和从屏幕上的(或者相对于屏幕的)不同地方发出的声音效果、以及用以创建预期的总体听觉体验的背景音乐和周围环境效果(这些可以由节目的扬声器通道指示)。这样的节目的准确回放要求关于音频对象大小、位置、强度、移动和深度以尽可能接近地对应于内容创建者的意图的方式再现声音。

基于对象的音频节目表示优于常规的基于扬声器通道的音频节目的显著改进，这是因为基于扬声器通道的音频就特定音频对象的空间回放而言比基于对象通道的音频更加受限。基于扬声器通道的音频节目仅由扬声器通道构成(而不由对象通道构成)，并且每个扬声器通道典型地确定在收听环境中的对于特定的单独扬声器的扬声器馈送。

已经提出了用于产生并且呈现基于对象的音频节目的各种方法和系统。在产生基于对象的音频节目期间，典型地假定任意数量的扩音器将用于回放该节目，并且(典型地，在电影院里)将用于回放的扩音器在回放环境中将被安置在任意位置；不一定在(标称)水平平面中或者在产生节目时已知的任何其他预定布置中。典型地，节目中所包括的对象相关元数据指示呈现参数，这些呈现参数用于例如使用三维扬声器阵列在视在空间位置处或者沿着轨迹(在三维体积中)呈现该节目的至少一个对象。例如，节目的对象通道可以具有相应的元数据，该元数据指示在该处对象(由对象通道指示)将被呈现的视在空间位置的三维轨迹。轨迹可以包括“底层”位置(在回放环境的被假定为位于底层上的扬声器子集的平面中，或者在回放环境的另一水平平面中)的序列和“高于底层”位置(每个通过驱动被假定为位于回放环境的至少一个其他水平平面中的扬声器子集而确定)的序列。例如在PCT国际申请No.PCT/US2001/028783中描述了呈现基于对象的音频节目的例子，该申请于2011年9月29日以国际公开No.WO2011/119401A2被公开，并且被转让给本申请的受让人。

基于对象的音频节目的呈现的出现显著地增加了经过处理的音频数据的量和呈现系统必须执行的呈现的复杂度，部分是因为基于对象的音频节目可指示许多对象(每个具有相应的元数据)，并且可针对包括许多扩音器的系统的回放来进行呈现。已经提出了限制基于对象的音频节目中所包括的对象通道的数量以使得预期的呈现系统具有呈现该节目的能力。例如，2012年12月21日提交、发明人姓名为BrettCrockett、Alan Seefeldt、Nicolas Tsingos、Rhonda Wilson和JeroenBreebaart、标题为“Scene Simplification and Object Clustering forRendering Object-based Audio Content”并且已转让给本发明的受让人的美国临时专利申请No.61/745,401描述了用于通过下述方式来如此限制基于对象的音频节目的对象通道的数量，即，对输入对象通道进行聚类以产生包括在该节目中的聚类的对象通道，和/或将输入对象的音频内容与扬声器通道混合以产生包括在该节目中的混合的扬声器通道。

发明内容

在一类实施例中，本发明是一种用于产生基于对象的音频节目的方法(典型地由游戏控制台执行)，所述基于对象的音频节目指示游戏音频内容(与玩游戏或者游戏中的事件相关的音频内容，可选地，还有关于游戏的其他信息)。所述节目包括至少一个音频对象通道和至少一个扬声器通道(例如，扬声器通道集合或“床(bed)”)。每个对象通道指示音频对象或音频对象集合(例如，音频对象的混合或聚类)，并且典型地包括相应的对象相关元数据。扬声器通道的床可以是可包括在常规的基于扬声器通道的广播节目中的类型的扬声器通道的常规混合(例如，5.1通道混合)，所述常规的基于扬声器通道的广播节目不包括对象通道。典型地，所述方法包括以下步骤：产生指示扬声器通道集合和每个所述对象通道的音频数据，并且对该音频数据进行编码以产生基于对象的音频节目。在一些实施例中，基于对象的音频节目是AC-3或E-AC-3比特流。响应于该类典型实施例所产生的基于对象的音频节目，空间呈现系统(例如，游戏控制台的子系统，或者游戏控制台外部的系统)可以产生扬声器馈送，这些扬声器馈送指示每个扬声器通道和每个对象通道的音频内容的混合。设想，本发明方法典型地由游戏控制台执行，并且空间呈现系统典型地在游戏控制台的外部，并且可在了解回放系统扬声器配置的情况下进行操作以产生扬声器馈送，以使得扬声器馈送指示节目的扬声器通道和对象通道内容的适当的空间混合。

在一些实施例中，本发明方法包括以下步骤：

(a)识别输入音频对象集合，所述输入音频对象集合指示将包括在基于对象的音频节目中的游戏音频内容(与玩游戏或者游戏中的事件相关的音频内容，可选地，还有关于该游戏的其他信息)，其中，所述集合由N个输入音频对象构成，并且N大于1；

(b)用缩减的音频对象集合(可选地，还有至少一个混合的扬声器通道)取代输入音频对象集合(例如，通过混合所述集合的至少一个输入音频对象的音频内容)，其中，所述缩减的集合由M个音频对象构成，并且M为小于N的正整数；并且

(c)产生基于对象的音频节目，以使得所述基于对象的音频节目指示所述缩减的音频对象集合，包括仅M个对象通道，并且包括至少一个扬声器通道。

步骤(b)可以包括以下步骤中的一个或两者：

混合输入音频对象中的至少两个的音频内容以产生至少一个聚类的音频对象；或

将输入音频对象中的至少一个的音频内容与扬声器通道的音频内容混合以产生至少一个混合的扬声器通道。

在一些实施例中，步骤(b)包括以下步骤：定义用于与输入音频对象集合的每个输入音频对象相关联的元数据所指示的至少一个参数的误差阈值，并且将所述集合的与如下元数据相关联的每个输入音频对象识别为缩减的音频对象集合中的一个音频对象(因此，混合所述每个输入音频对象的音频内容)，对于该元数据所述至少一个参数超过所述误差阈值。因此，输入音频对象集合基于误差阈值有效地被缩减数量的音频对象(可选地，还有至少一个混合的扬声器通道)取代。缩减数量的音频对象典型地包括分组的(例如，混合的)音频对象的时变聚类，其中，聚类是通过按定义的(例如，预定的)时间间隔或者响应于对象事件来聚集空间上接近的和/或特性上类似的对象而形成的。

本发明的各方面包括一种被配置为(例如，被编程为)实现本发明方法的任何实施例的系统或装置(例如，游戏控制台)、以及(例如，以非暂态的方式)存储用于实现本发明方法或者其步骤的任何实施例的代码的计算机可读介质(例如，盘)。例如，本发明系统可以是或者包括可配置的游戏控制器、或者可编程的通用处理器、数字信号处理器、或微处理器，这些装置被用软件或固件编程和/或以其他方式被配置为对数据执行包括本发明方法或者其步骤的实施例的各种操作中的任何一种操作。这样的通用处理器可以是或者包括计算机系统，该计算机系统包括输入装置、存储器和处理电路系统，该处理电路系统被编程为(和/或以其他方式被配置为)响应于断言(assert)到其的数据而执行本发明方法(或者其步骤)的实施例。

在一类实施例中，本发明是一种被配置为产生基于对象的音频节目的游戏控制台，所述基于对象的音频节目指示至少一个音频对象通道(典型地是对象通道集合)和至少一个扬声器通道(典型地是扬声器通道集合)。每个音频对象通道指示一个对象或一个对象集合(例如，对象的混合或聚类)，并且典型地包括相应的对象相关元数据。扬声器通道集合可以是可以包括在常规的基于扬声器通道的广播节目中的类型的扬声器通道的常规混合(例如，5.1通道混合)，所述常规的基于扬声器通道的广播节目不包括对象通道。响应于游戏控制台的典型实施例所产生的基于对象的音频节目，空间呈现系统(例如，游戏控制台的子系统，或者游戏控制台外部的系统)可以产生扬声器馈送，这些扬声器馈送指示扬声器通道和每个对象通道的音频内容的混合。设想，典型地，空间呈现系统在游戏控制台的外部，并且可以在了解回放系统扬声器配置的情况下进行操作以产生扬声器馈送，以使得扬声器馈送指示节目的扬声器通道和对象通道内容的适当的空间混合。

本发明系统的典型实施例(例如，游戏控制台)被配置为实现用于发送到(或者以另一种方式递送到)外部的呈现系统(例如，装置)的经编码的基于对象的音频比特流的实时创建。本发明游戏控制台的典型实施例被配置为：实时地对所述比特流进行编码，并且在不将所述比特流解码到时域的情况下将对象通道包括在所述比特流中(或者从所述比特流移除对象通道)。

附图说明

图1是常规的游戏控制台的框图。

图2是本发明游戏控制台、以及在该游戏控制台外部的音频节目递送系统(系统15)和呈现系统(子系统17)的实施例的框图。

图3是本发明游戏控制台、以及在该游戏控制台外部的音频节目递送系统(系统15)和呈现系统(子系统17)的另一实施例的框图。

图4是音频对象聚类系统(例如，本发明游戏控制台的实施例的子系统)的实施例的框图。

标记和术语

在包括权利要求书的整个本公开中，表达“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或施加增益)广义地用于表示直接地对信号或数据、或者对信号或数据的处理后的版本(例如，对信号的在执行该操作之前已经经过初步滤波或预处理的版本)执行所述操作。

在包括权利要求书的整个本公开中，表达“系统”广义地用于表示装置、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，包括这样的子系统的系统(例如，响应于多个输入产生X个输出信号的系统，在该系统中，子系统产生所述输入中的M个输入，其他X-M个输入从外部源接收)也可以被称为解码器系统。

在包括权利要求书的整个本公开中，术语“处理器”广义地用于表示可编程为或者可以以其他方式配置为(例如，用软件或固件配置为)对数据(例如，音频、视频或其他图像数据)执行操作的系统或装置。处理器的例子包括现场可编程门阵列(或者其他可配置的集成电路或芯片组)、被编程为和/或以其他方式被配置为对音频或其他声音数据执行流水线处理的数字信号处理器、可编程的通用处理器或计算机、以及可编程的微处理器芯片或芯片组。

在包括权利要求书的整个本公开中，表达“音频视频接收器”(或“AVR”)表示用于例如在家庭影院中控制音频和视频内容的回放的一类消费类电子设备中的接收器。

在包括权利要求书的整个本公开中，表达“条形音箱(soundbar)”表示消费类电子设备(典型地安装在家庭影院系统中)的类型的装置，该装置包括至少一个扬声器(典型地，至少两个扬声器)和用于呈现音频以供每个所包括的扬声器回放(或者供每个所包括的扬声器和条形音箱外部的至少一个附加扬声器回放)的子系统。

在包括权利要求书的整个本公开中，表达“音频处理器”和“音频处理单元”可互换使用，并且在广义上，用于表示被配置为对音频数据进行处理的系统。音频处理单元的例子包括，但不限于，编码器(例如，代码转换器)、解码器、编解码器、预处理系统、后处理系统、以及比特流处理系统(有时被称为比特流处理工具)。

在包括权利要求书的整个本公开中，表达“元数据”(例如，如表达“对状态元数据进行处理”中)是指与相应的音频数据(还包括元数据的比特流的音频内容)分离的不同的数据。元数据与音频数据相关联，并且指示音频数据的至少一种特征或特性(例如，已经对音频数据执行了什么类型的处理或者应对音频数据执行什么类型的处理，或者音频数据所指示的对象的轨迹(trajectory))。将元数据与音频数据相关联是时间同步的。因此，当前的(最近接收的或更新的)元数据可指示相应的音频数据同时具有所指示的特征和/或包括所指示的类型的音频数据处理的结果。

在包括权利要求书的整个本公开中，术语“耦合”用于意指直接的或间接的连接。因此，如果第一装置耦合到第二装置，则连接可以通过直接连接，或者通过经由其他装置和连接的间接连接。

在包括权利要求书的整个本公开中，以下表达具有以下定义：

扬声器和扩音器同义地用于表示任何发声换能器。该定义包括实现为多个换能器(例如，低音扬声器和高音扬声器)的扩音器；

扬声器馈送：将直接应用于扩音器的音频信号，或者将依次应用于放大器和扩音器的音频信号；

通道(或“音频通道”)：单声道音频信号。这样的信号典型地可被以等同于将该信号直接应用于位于所期望的或标称的位置处的扩音器的方式进行呈现。所期望的位置可以是静态的(典型地如同物理扩音器的情况那样)，或者是动态的；

音频节目：一个或多个音频通道的集合(至少一个扬声器通道和/或至少一个对象通道)，并且可选地，还有相关联的元数据(例如，描述所期望的空间音频表现的元数据)；

扬声器通道(或“扬声器馈送通道”)：与(在期望的或标称的位置处的)所指定的扩音器相关联的音频通道，或者与所定义的扬声器配置内的指定的扬声器区域相关联的音频通道。扬声器通道以等同于将音频信号直接应用于(在所期望的或标称的位置处的)所指定的扩音器或者在所指定的扬声器区域中的扬声器的方式进行呈现；

对象通道：指示音频源(有时被称为音频“对象”)发出的声音的音频通道。典型地，对象通道确定参数化音频源描述(例如，指示参数化音频源描述的元数据被包括在对象通道中或者被提供给对象通道)。源描述可以确定源所发出的声音(作为时间的函数)、作为时间的函数的源的视在位置(例如，3D空间坐标)、以及可选地表示源的至少一个附加参数(例如，视在源大小或宽度)；

基于对象的音频节目：包括以下内容的音频节目：一个或多个对象通道的集合(可选地，还包括至少一个扬声器通道)，可选地，还有相关联的元数据(例如，指示发出对象通道所指示的声音的音频对象的轨迹的元数据，或者以其他方式指示对象通道所指示的声音的所期望的空间音频表现的元数据，或者指示作为对象通道所指示的声音源的至少一个音频对象的标识的元数据)；以及

呈现：将音频节目转换为一个或多个扬声器馈送的处理，或者将音频节目转换为一个或多个扬声器馈送以及使用一个或多个扩音器将扬声器馈送转换为声音的处理(在后一种情况下，呈现在本文中有时被称为“通过”扩音器呈现)。可以通过将信号直接应用于在所期望的位置处的物理扩音器来(“在”所期望的位置处)平凡地呈现音频通道，或者可以使用被设计为(对于收听者而言)基本上等同于这样的平凡呈现的各种虚拟化技术之一来呈现一个或多个音频通道。在后一种情况下，每个音频通道可以被转换为将应用于在已知位置(这些已知位置一般不同于所期望的位置)的扩音器的一个或多个扬声器馈送，以使得扩音器响应于馈送发出的声音将被感知为是从所期望的位置发出的。这样的虚拟化技术的例子包括经由头戴式耳机的双耳呈现(例如，使用对于头戴式耳机佩戴者模拟多达7.1通道的环绕声的Dolby Headphone处理)和波场合成。

具体实施方式

将参照图2、图3和图4来描述本发明的游戏控制台(以及该游戏控制台执行的方法)的实施例的例子。

游戏控制台的图2实施例(游戏控制器6)包括游戏音频引擎7、响度管理级9、响度管理级10、基于对象的音频的混合器11、以及实时的基于对象的编码器13，这些元件如所示那样连接。这些元件典型地实现为游戏控制台6的音频处理子系统(或者在游戏控制台6的音频处理子系统中实现)，并且游戏控制台典型地包括图2中未示出的至少一个其他子系统(例如，用于视频游戏数据处理)。编码器13所产生的编码的音频节目(编码的音频比特流)输出到递送子系统15。递送子系统15被配置为存储和/或发送编码的音频节目。

典型地，编码的音频节目被递送系统15递送(例如，发送)到空间呈现系统17。系统17被配置为对编码的音频节目进行解码并且(响应于解码的音频)产生用于驱动回放系统的扬声器的扬声器馈送。

典型地，呈现系统17在与游戏控制台6不同的系统或装置中实现(或者实现为与游戏控制台6不同的系统或装置)。在这样的实施例的例子中，递送系统15可以是HDMI连接，系统17可以在AVR、条形音箱或耳机中实现；或者链路15可以是SPDIF光学连接，系统17可以在老式AVR中实现；或者递送系统15可以是Wifi连接，系统17可以在无线接收器中实现；或者递送系统15可以是Miracast连接，系统17可以在无线接收器中实现；或者递送系统15可以是AirPlay连接，系统17可以在Apple TV系统中实现。

游戏音频引擎7的输入可以包括以下内容中的一个或多个：

音频数据(在图2中被标识为“音频资源”)，其典型地指示所访问的、编码的单通道音频数据文件(或者，可选地，编码的多通道音频数据文件)。这些文件可以存储在可供游戏控制台6访问的存储介质(例如，盘)中，或者可被游戏控制台6以其他方式访问(例如，经由互联网或其他网络)。对音频资源的访问由游戏触发，以使得当前断言到音频引擎7(在玩游戏期间的任何时间)的音频资源是最近被控制台6访问的那些音频资源；

游戏事件数据(其可以指示玩游戏期间的事件，继而可以选择哪些单独的音频数据文件被包括在当前断言到音频引擎7的每个音频资源集合中)；

用户输入数据，其指示玩游戏期间的用户命令(例如，通过耦合到控制台6的控制装置的用户制动而输入)，并且继而可以选择哪些单独的音频数据文件被包括在当前断言到音频引擎7的每个音频资源集合中；以及

语音聊天数据(其指示由一个或多个玩家典型地在玩游戏期间说出的音频)。语音聊天数据可以从外部语音聊天系统(其可以包括耦合到控制台6的麦克风)断言到控制台6。

游戏音频引擎7被配置为管理输入到其的数据、监视游戏状态和用户输入、播放由游戏事件和用户输入确定的音频文件、以及将基于扬声器通道的混合(例如，从如图2中所示的引擎7输出的5.1扬声器通道PCM比特流)和对象通道数据(指示音频对象或音频对象集合以及相应的对象相关元数据)都作为输出断言到响度管理级9。如图2中所指示的，引擎7可以对于输入到其的音频数据实现多普勒、距离和混响处理。

典型地指示在玩游戏期间不由系统事件或用户输入确定的音频内容的系统声音(例如，警报和/或附加音乐以及可选地其他音频内容)分别被断言到响度管理级10。

级9和10均被配置为实现实时响度管理。响度管理优选地独立地应用于来自每个源的音频内容(例如，级9将响度管理独立地应用于从引擎7输出的每个扬声器通道和每个对象通道，级10被配置为将输入到其的每种类型的系统声音看作单独的音频对象并且将响度管理独立地应用于每个这样的对象)。级9因此输出修正的基于扬声器通道的混合和修正的对象通道数据，级10输出修正的附加音频内容。

修正的基于扬声器通道的混合和修正的对象通道数据(从级9输出)以及修正的附加音频内容(从级10输出)被断言到基于对象的音频的混合子系统11。典型地，子系统11将从级10输入到其的每种类型的经响度管理的系统声音看作单独的音频对象。子系统11确定所选的对象集合(以及相应的元数据)和扬声器通道(响应于从级9接收的扬声器通道和对象的音频采样、从级10接收的对象的音频采样、以及从级9和10接收的对象相关元数据)。响应于级11的输出，以及可选地还响应于控制台6所产生的(或者从控制台6的外部源断言的)线性音频内容，编码器13产生指示扬声器通道和对象通道的混合的基于对象的编码的音频节目(编码的音频比特流)，并且将该编码的音频比特流输出到链路15。输入到编码器13的线性音频内容可以是包括一个或多个对象通道和/或一个或多个扬声器通道的基于对象的音频节目(例如，电影或TV节目原声音乐)。编码器13所产生的编码的音频节目的每个扬声器通道可以指示输入到编码器13的扬声器通道之一(或者它可以是一个这样的输入扬声器和其他音频内容的混合)。编码的音频节目的每个对象通道可以指示输入到编码器13的对象之一(或者它可以是两个或更多个这样的对象的音频内容的混合)。

子系统11优选地实现为：确定断言到编码器13的一个所选的对象(以及相应的元数据)和扬声器通道的集合，并且还确定直接断言到外设装置(如图2中所指示)的至少一个其他的所选的对象(以及相应的元数据)和扬声器通道的集合。例如，通过如此实现子系统11，本发明游戏控制台可以操作为：从它发送到外设装置的混合中移除一个或多个对象，并且将每个这样的对象包括在它发送到编码器13的另一个混合中以便进行编码并递送到最终的呈现器。

子系统11典型地被配置为执行对象聚类(在本文中其他地方描述)和对象选择以产生它断言到子系统13(或者一个或多个外设装置)的对象、对象相关元数据、以及扬声器通道音频。子系统11所执行的对象选择可以由用户选择(一个或多个)和/或子系统11已经被编程为或者以其他方式被配置为实现的规则(例如，指示条件和/或约束)来确定。子系统11典型地可操作为：将一个或多个特定对象的音频内容与特定扬声器通道的音频内容混合，产生包括若干个(不超过预定最大数量)对象以及混合的扬声器通道(一个或多个对象的音频内容已经被混合到其中)的输出。子系统11典型地还可操作为：将不同对象的音频内容混合，产生包括若干个(不超过预定的最大数量)对象(其可以包括至少一个混合的对象，这些混合的对象指示输入到子系统11的对象中的一个或多个的音频内容)、典型地还包括扬声器通道的输出。

响应于由子系统11的输出确定的音频内容(以及元数据)，编码器13产生基于对象的音频比特流，以使得基于对象的编码的音频比特流可以被(例如，由系统17)呈现以供回放系统的扬声器(未示出)回放。典型地，编码实现压缩，以使得从编码器13输出的基于对象的节目是压缩的音频比特流。

呈现系统17被配置为：使用与每个所选对象相关联的呈现参数(例如，对象相关元数据值，其可以指示水平和空间位置或轨迹)来将由子系统13所选的(并且包括在从子系统13输出的编码的比特流中的)对象通道确定的音频对象映射到回放系统的可用扬声器通道。这些呈现参数中的至少一些可以由包括在从子系统13输出的编码的比特流中的对象相关元数据确定。呈现系统17还接收包括在从子系统13输出的编码的比特流中的扬声器通道床(即，至少一个扬声器通道)。典型地，呈现系统17是智能混合器，并且被配置为产生用于可用扬声器的扬声器馈送，包括通过下述方式来产生扬声器馈送，即，将一个或多个所选对象映射到若干个单独扬声器通道中的每个，并且将这些对象与扬声器通道床的每个相应的扬声器通道所指示的“床”音频内容混合。

在本发明游戏控制台的简化实施例中，音频对象和扬声器通道(例如，来自图2的游戏音频引擎7或另一游戏音频引擎)被直接传递到基于对象的音频的编码器(例如，图2的编码器13)，而不首先通过游戏控制台音频子系统的其他元件。

在本发明游戏控制台的另一简化实施例中，音频对象和扬声器通道(例如，来自图2的游戏音频引擎7或另一游戏音频引擎)被直接传递到混频子系统(然后，传递到实时的基于对象的音频的编码器)，而不首先通过实时响度管理。图3实施例是这样的简化实施例的例子。图3的游戏控制台16与图2的游戏控制台6相同，除了从控制台16略去了(控制台6的)响度管理级9和10。将不参照图3重复描述图2系统的被包括在图3系统中的元件。在图3实施例中，从游戏音频引擎7输出的音频对象和扬声器通道被直接断言到混合子系统11。

在另一类实施例中，本发明游戏控制台被配置为玩包含与音频对象相应的有限声音库的典型类型的游戏。在游戏的库中的每个声音预先以适合于(作为编码的对象)插入到由控制台在玩游戏期间产生的编码的基于对象的音频节目中的格式编码(即，在它与游戏一起提供给控制台时已经被编码)的情况下，控制台的编码器(例如，图2的编码器13)优选地被配置为对仅扬声器通道(例如，从图2的子系统13输出的那些扬声器通道)和元数据(例如，从图2的子系统13输出的对象描述)进行编码，所述扬声器通道指示游戏音频内容，所述元数据指示从游戏的声音库被访问的并且可选地然后在控制台的混合器或响度管理子系统中被修正的编码的音频对象(但是不对编码的音频对象本身进行编码)。不是对预先编码的对象(或者它们的修正版本)本身进行编码，编码器而是将扬声器通道和元数据(编码器本身对其进行编码)与预先编码的对象(或者它们的修正版本)封装为最后的基于对象的音频节目，该音频节目从游戏控制台输出。

在一些实施例中，本发明游戏控制器被配置为管理耦合到游戏控制台的递送系统(例如，图2的系统15)和/或呈现系统的限制(例如，对这些系统的约束)。例如，在一些实施例中，游戏控制台实现对象聚类处理，该对象聚类处理允许呈现系统(例如，图2的系统17，在一些实施例中，其被实现为音频视频接收器、条形音箱或耳机)向游戏控制台发信号通知呈现系统兼容的音频对象(在断言到呈现系统的编码的音频比特流中)的最大数量，并且在该对象聚类处理中，游戏控制台相应地管理从游戏控制台输出的编码的基于对象的音频比特流中所包括的音频对象的数量。类似地，游戏控制台可以被配置为：响应于关于对于耦合在游戏控制台与预期的呈现系统之间的递送系统的限制(例如，带宽或其他容量约束)的信息，管理它所产生的编码的基于对象的音频比特流中所包括的音频对象的数量(例如，限制这样的对象的最大数量)。游戏控制台优选地包括对象聚类子系统，该对象聚类子系统被配置为管理由游戏控制台在从游戏控制台输出的基于对象的音频节目中编码的对象的数量。例如，本发明游戏控制台的图2实施例的游戏音频引擎7或处理子系统11可以被实现为包括这样的对象聚类子系统。如图2(和图3)中所指示的，呈现系统17可以被配置为将配置数据断言到子系统11(例如，经由递送系统15，但不一定经由递送系统15)。这样的配置数据可以指示呈现系统17兼容的(在断言到呈现系统17的编码的音频比特流中)音频对象的最大数量。响应于该配置数据，(例如，子系统11的)游戏控制台的对象聚类子系统被配置为(根据需要)限制从游戏控制台输出的编码的基于对象的音频节目中所包括的音频对象的数量。

在一个示例性实施例中，如果对象聚类子系统(例如，被包括在图2的子系统11的实现中)被配置为假定(例如，被通知)呈现系统或传输协议在编码的比特流中可以处理不多于32个的音频对象，则对象聚类子系统可以(例如，从图2的子系统9和10)接受任何数量的音频对象，对其执行实时分析，并且使从对象聚类子系统输出的音频对象的(用于包括在图2的编码器13将产生的编码的比特流中的)数量缩减到不大于32的数量。以上引用的标题为“Scene Simplificationand Object Clustering for Rendering Object-based Audio Content”的美国临时专利申请No.61/745,401描述了可以通过本发明的实施例(例如，图4的聚类系统、或者图2或图3的子系统11的实现)实现的对象聚类系统和方法的实施例。

在一些实施例中，本发明游戏控制台的音频处理子系统被配置为向游戏或者游戏控制台的至少一个其他元件(例如，游戏配置子系统)发信号通知可以包括在游戏控制台将产生的编码的音频比特流中的音频对象的最大数量。作为响应，可以管理输出到游戏控制台的音频处理子系统的或者在玩游戏期间被游戏控制台的音频处理子系统访问的音频对象的数量。例如，游戏控制台所产生的基于对象的音频节目可以包括扬声器通道床和音频对象集合两者，并且在玩游戏期间可被访问的对象的最大数量可以通过将某些游戏音频内容混合到床中(在该床被提供给游戏控制台的音频处理子系统之前)、而不是将它作为可单独访问的音频对象提供来进行限制(以便使其不超过最大数量)。这为游戏开发者提供了灵活性。不想处理音频对象管理的那些开发者可以简单地使所有对象在玩游戏期间可供访问(例如，可被图2的游戏音频引擎7访问)，并且依赖于(例如，由图2的子系统11实现的)游戏控制台的对象聚类系统来管理游戏控制台所产生的每个基于对象的音频节目中所包括的音频对象的最大数量。想要认真管理游戏音频混合的那些开发者可以手动地在游戏内管理可访问的音频对象的数量。

在一些实施例中，根据本发明产生的基于对象的音频节目的扬声器通道床是5.1扬声器通道床。在其他实现中，扬声器通道床具有另一种格式(例如，它可以是7.1或9.1扬声器通道床)。

本发明游戏控制台的一些实施例中所包括的对象聚类系统(例如，在图2的游戏音频引擎7或处理子系统11中实现的对象聚类子系统)被配置为对音频对象执行预处理(例如，实现特定效果)。例如，如果与音频对象相关联的对象相关元数据指示该对象指示从大型(例如，非常宽广的)源发出的声音(即，应被呈现为被感知为从大型源发出的声音的声音)，则对象聚类系统可以将对象的音频内容与至少一个扬声器通道混合(从而产生指示从该对象发出的音频内容和其他音频内容的至少一个混合的扬声器通道)，而不是使音频内容作为对象通道被包括在从游戏控制台输出的编码的比特流中。另举一例，如果与音频对象通道相关联的对象相关元数据指示该对象通道指示混响(reverberating)声音(其应被呈现为被感知为从非常大的源发出的声音)，则对象聚类系统可以被配置为执行以下中的任何一个：

将对象通道的音频内容与至少一个扬声器通道混合(从而产生至少一个混合的扬声器通道，这些混合的扬声器通道指示对象通道的音频内容和其他音频内容)，而不是使对象通道的音频内容作为对象通道被包括在从游戏控制台输出的编码的节目中；或者

(例如，通过对对象通道的音频内容执行解相关处理)产生指示声音(其应被呈现为被感知为从小型源发出的声音)的干涩(非混响)版本的“干涩”音频对象，并且使该“干涩”音频对象作为对象通道被包括在从游戏控制台输出的编码的节目中，并且产生指示该声音的“干涩”版本的混响的音频内容(例如，原始混响声音的与原始混响声音的“干涩”版本解相关的部分)，并且将这样的产生的音频内容与至少一个扬声器通道混合(从而产生至少一个混合的扬声器通道，这些混合的扬声器通道指示“干涩”音频对象通道所指示的“干涩”声音的混响)。因此，原始混响声音(指示混响)的解相关部分将被产生，并且将在对象通道的内容的干涩(非混响)部分保持作为音频对象的同时被添加到扬声器通道床。可替代地，可以预先将指示“干涩”声音的混响(即，解相关分量)的音频内容呈现为扬声器馈送的床(或虚拟床)，然后可以将每个这样的床(或虚拟床)看作对象，并且将其与所有其他对象聚类。

常规的游戏音频引擎(例如，图1的音频引擎1)典型地包括具有非常成熟的设计的基于扬声器通道的呈现器。在本发明游戏控制台的优选实施例中，该控制台的游戏音频引擎(例如，图2或图3的引擎7)具有常规设计(或者仅仅在微小的方面与常规的游戏音频引擎不同)，因此避免了完全重新设计控制台的这个子系统的需要。例如，控制台的图3实施例的游戏音频引擎7可以被实现为使断言到其的音频对象通过(或者具有常规设计)，并且图3实施例的子系统11可以被配置为：实现对象聚类(响应于断言到其的音频对象和扬声器通道(包括通过引擎7传递到子系统11的音频对象))，并且输出对象通道集合和扬声器通道床以便被编码为基于对象的音频节目(输出到编码器13)。编码器13所产生的基于对象的节目典型地将包括扬声器通道床以及音频对象和对象相关元数据。本发明游戏控制台的这样的实现将允许游戏开发者假定，控制台将包括以常规的方式产生扬声器通道床的游戏音频引擎，并且控制台还将音频对象和对象相关元数据的集合(与扬声器通道床一起)包括在从游戏控制台输出的编码的基于对象的音频节目中。

在优选实施例中，本发明游戏控制台包括实时编码器(例如，图2的编码器13的实时编码实现)，该实时编码器被配置为接受扬声器通道集合、音频对象集合、以及对象相关元数据。优选地，音频对象和扬声器通道指示通过玩游戏确定的音频内容输出，并且还指示来自控制台中的(或者耦合到控制台的)至少一个其他音频源的音频内容。例如，这样的其他音频源可以是语音聊天系统，该语音聊天系统耦合到游戏控制台，并且被配置为提供语音聊天数据(如图2和图3中指示)，控制台将该语音聊天数据包括在提供给控制台的编码器的扬声器通道和/或对象通道中。

在一些实施例中，本发明游戏控制台被配置为决定非游戏音频(例如，图2和图3中所指示的类型的语音聊天数据和/或系统声音)是被编码为音频对象、还是被混合到一个或多个扬声器通道中。在一些实施例中，游戏控制台被配置为：将对象包括在(例如，将对象注入到)游戏控制台所产生的编码的基于对象的节目中和/或从该节目移除对象(例如，以用于从游戏控制台输出)，而不执行编码节目的全解码、混合和重新编码。例如，游戏控制台可以被配置为(如图2和图3系统那样)：将系统声音(例如，警报)或语音聊天内容作为编码器13所产生的基于对象的音频节目的对象通道包括在编码的基于对象的节目中(以使得当该节目被呈现时，系统声音或语音聊天内容将叠加在该节目的其他音频内容上)，而不执行该节目的解码、混合或重新编码。另举一例，图2或图3系统的编码器13可以被配置为：将基于对象的音频节目的一个或多个对象通道(例如，断言到如图2和图3中所指示的编码器13的、指示线性音频内容的基于对象的音频节目的对象通道，或者断言到编码器13的基于对象的音频节目的一个或多个对象通道的语音聊天内容或系统声音)与在编码器13中产生的编码的基于对象的音频节目(例如，在编码器13中响应于从子系统11接收的对象和扬声器通道内容而产生的节目)组合。例如，语音聊天内容可以与用户可控的特定位置一起作为对象被包括(注入)。在一些实施例中，本发明游戏控制台在不执行编码的节目的全解码、混合和重新编码的情况下将对象注入到游戏控制台所产生的编码的基于对象的节目中(或者从该节目移除对象)是以美国临时专利申请No.61/696,073中所公开的方式中的任何一种执行(或者由该专利申请中所公开的系统或设备中的任何一个执行)的，该专利申请于2012年8月31日提交、标题为“Processing Audio Objects in Principal and SupplementaryEncoded Audio Signals”、发明人名称为Stephen Spencer Hooks和Freddie Sanchez，并且被转让给本发明的受让人，该申请的全部文本和公开内容通过引用并入本文。

在一类实施例中，本发明是一种用于产生基于对象的音频节目的方法(典型地由游戏控制台执行)，所述基于对象的音频节目指示游戏音频内容(与玩游戏或者游戏中的事件相关的音频内容，可选地，还有关于该游戏的其他信息)。所述节目包括至少一个音频对象通道和至少一个扬声器通道(例如，扬声器通道集合或“床”)。每个对象通道指示音频对象或音频对象集合(例如，音频对象的混合或聚类)，并且典型地包括相应的对象相关元数据。扬声器通道床可以是可以被包括在常规的基于扬声器通道的广播节目中的类型的扬声器通道的常规混合(例如，5.1通道混合)，所述常规的基于扬声器通道的广播节目不包括对象通道。

在典型的实施例中，基于对象的音频节目包括至少一个音频对象通道和至少一个扬声器通道，并且所述方法包括以下步骤：

确定至少一个音频对象通道(例如，产生指示每个所述音频对象通道的音频数据)，其中，每个所述音频对象通道指示至少一个音频对象，并且至少一个所述音频对象通道指示游戏音频内容；

确定至少一个扬声器通道(例如，产生指示每个所述扬声器通道的音频数据)，其中，至少一个所述扬声器通道指示游戏音频内容；并且

产生基于对象的音频节目，包括通过对指示每个所述音频对象通道和每个所述扬声器通道的数据进行编码来产生基于对象的音频节目。

典型地，所述方法包括操作游戏控制台来玩游戏的步骤，包括通过访问指示至少一个所述音频对象的数据来玩游戏，并且确定步骤和产生步骤均是在玩游戏期间由游戏控制台执行的。

在一些实施例中，基于对象的音频节目是AC-3或E-AC-3比特流。响应于该类的典型实施例所产生的基于对象的音频节目，空间呈现系统(例如，游戏控制台的子系统、或者游戏控制台外部的系统)可以产生扬声器馈送，这些扬声器馈送指示每个扬声器通道和每个对象通道的音频内容的混合。设想，本发明方法典型地由游戏控制台执行，并且空间呈现系统典型地在游戏控制台的外部，并且可在了解回放系统扬声器配置的情况下进行操作以产生扬声器馈送，以使得这些扬声器馈送指示节目的扬声器通道和对象通道内容的适当的空间混合。

在一些实施例中，本发明方法包括以下步骤：

(a)识别输入音频对象集合，所述输入音频对象指示将包括在基于对象的音频节目中的游戏音频内容(与玩游戏或者游戏中的事件相关的音频内容，可选地，还有关于该游戏的其他信息)，其中，所述集合由N个输入音频对象构成，并且N大于1；

(b)用缩减的音频对象集合(可选地，还有至少一个混合的扬声器通道)取代输入音频对象集合(例如，通过混合所述集合的至少一个音频对象的音频内容)，其中，所述缩减的集合由M个音频对象构成，并且M为小于N的正整数；并且

(c)产生基于对象的音频节目，以使得所述基于对象的音频节目指示缩减的音频对象集合，包括仅M个对象通道，并且包括至少一个扬声器通道。

例如，步骤(a)可以由图2(或图3)的游戏音频引擎7执行，步骤(b)可以由图2(或图3)的音频混合器13执行。

步骤(b)可以包括以下步骤中的一个或两者：

在一些实施例中，步骤(b)包括以下步骤：定义用于与输入音频对象集合的每个音频对象相关联的元数据所指示的至少一个参数的误差阈值，并且将该集合的与如下元数据相关联的每个音频对象识别为缩减音频对象集合中的一个音频对象(因此，混合其音频内容)，对于该元数据所述至少一个参数超过该误差阈值。因此，输入音频对象集合基于误差阈值有效地被缩减数量的音频对象(可选地，还有至少一个混合的扬声器通道)取代。缩减数量的音频对象典型地包括分组的(例如，混合的)音频对象的时变聚类，其中，聚类通过按定义的(例如，预定的)时间间隔或者响应于对象事件将空间上接近的和/或特性类似的对象聚集归类而形成。

在典型的实施例中，本发明方法执行(并且本发明游戏控制台的对象聚类子系统被配置为执行)聚类操作，这些聚类操作缩减(作为基于对象的音频节目的一部分)将递送到呈现系统的单独的音频对象的数量，同时仍然允许该节目包括足够的空间信息以使得(在呈现和回放之后)由对象聚类系统(或步骤)的输入确定的节目内容与由对象聚类系统(或步骤)的输出确定的节目内容之间的感知差异最小。

在本发明的各种实施例中，与基于对象的音频节目的每个对象通道相对应的对象相关元数据定义了相关联的音频对象内容的特性(例如，作为时间的函数的对象空间位置、内容类型、响度等)。一般地，任何实际数量的音频对象(例如，数百个对象)可以通过本发明系统进行处理(以供回放)，并且被包括在所产生的基于对象的音频节目中。为了有助于这些对象(其可以包括大量对象)在宽范围的回放系统和传输介质中的准确回放，本发明方法和游戏控制台可以实现或者包括对象聚类处理或组件，该对象聚类处理或组件使初始数量的原始对象缩减为较少的更可管理的数量的对象(以用于被包括在基于对象的音频节目中)，例如，通过将原始对象组合为更少数量的对象组。聚类处理可以构建对象的聚类(或组)以从原始的单独输入对象的集合生成更少数量的输出聚类(混合的或以其他方式聚类的对象)。典型地，聚类处理或组件对输入对象的对象相关元数据以及音频对象内容本身进行处理以生成缩减数量的对象(例如，聚类的对象)。典型地，对元数据进行分析以确定在任何时刻哪些对象最适合于与其他对象(或者与扬声器通道)组合，然后可以将关于组合的对象的相应的音频波形一起求和以生成替换的或组合的对象。然后将组合的对象组输入到产生基于对象的节目的编码器(例如，图2的编码器13)。

在典型的实施例中，对象聚类方法有助于对象通道和扬声器通道内容在缩减带宽通道或译码系统中的递送和/或呈现，并且使用关于音频对象的信息(包括空间位置、时间属性、内容类型、宽度和/或其他适当的特性中的一个或多个)来动态地对对象进行聚集归类以便缩减包括在输出的音频节目中的对象的数量。该处理可以通过执行以下聚类操作中的一个或两者来缩减节目中所包括的对象的数量：将对象(一个或多个)与至少一个对象聚集归类，和/或将对象(一个或多个)与至少一个扬声器通道聚集归类。可选地，对象可以分布在两个或更多个聚类上。聚类处理典型地利用基于失真的误差度量来确定被聚类的对象的聚类压缩对声音退化之间的最佳权衡，所述失真是由于被聚类的对象的位置、响度或其他特性的变化(由聚类造成)而导致的。聚类处理可以同步地执行，或者它可以是事件驱动的，诸如通过使用听觉场景分析(ASA)和事件边界检测来控制通过聚类的对象简化。在一些实施例中，该处理可以利用端点呈现算法和装置的知识来控制聚类。这样，回放系统的某些特性或性质可以用于通知聚类处理。例如，对于扬声器对头戴式耳机或其他音频驱动器，可使用不同的聚类方案，或者对于无损对有损译码，可使用不同的聚类方案，诸如此类。

在本文中，术语“聚类”和“分组”或“组合”可互换地用于描述用于递送到(例如，发送到)音频回放系统并且在音频回放系统中呈现的对象和/或扬声器通道的缩减音频内容单元(例如，编码的基于对象的音频节目的帧或其他段)中的数据量的组合；术语“压缩”或“缩减”可以用于指的是通过对象和/或扬声器通道的这样的聚类执行音频的场景简化的动作。本文中的术语“聚类”“分组”或“组合”不限于对象或扬声器通道唯一地仅分配到单个聚类。相反，对象或扬声器通道可以通过分布在多于一个的输出扬声器通道或对象聚类上来被聚类(例如，通过使用确定对象或扬声器通道信号对于输出聚类或输出扬声器通道信号的相对贡献的权重或增益矢量)。

图4是音频对象聚类系统(例如，本发明游戏控制台的实施例的子系统)的实施例的示图。如图4中所示，对象处理组件256被配置为执行将描述的场景简化任务。在操作中，组件256读取任意数量的(将被称为“X”个)指示游戏音频内容的输入音频对象252，典型地，还读取相应的对象相关元数据(例如，在玩游戏期间输入到图2的游戏音频引擎7的类型的音频对象文件)，并且读取任意数量的扬声器通道254(也指示游戏音频内容)以及可选地，还读取相关联的扬声器通道床元数据。对象处理组件256执行媒体情报/内容分类、空间失真分析、以及对象选择/聚类来产生指示扬声器通道(一个或多个)和较少数量的输出对象(“Y”个输出对象，其中，Y小于X)的输出。输出对象258可以将新对象(与输入对象相同或等同)和/或对象聚类(例如，输入对象的混合)与相关联的对象/聚类元数据包括在一起。输入对象中的一个或多个可被选择以便下混到一个或多个扬声器通道中。这样的选择的对象(其在图4中被指示为下混对象260)从组件256断言到呈现器266以用于呈现为这样的格式，该格式适合于在元件268中与扬声器通道(一个或多个)262组合(混合)以产生输出扬声器通道(一个或多个)270以及可选地，还有相关联的元数据。输出扬声器通道(一个或多个)270的配置(数量和格式)(例如，典型的用于在典型的家庭回放系统上回放的5.1扬声器通道配置)无需与输入扬声器通道(一个或多个)254的配置匹配，输入扬声器通道的配置例如可以是9.1扬声器通道配置。新扬声器通道元数据可以(在组件256和/或呈现器266中)针对输出扬声器通道(一个或多个)被产生，包括通过组合来自输入扬声器通道(一个或多个)的元数据而被产生。输出扬声器通道(一个或多个)的新音频数据(在元件266和268中)通过将来自至少一个输入扬声器通道和至少一个下混对象260的音频进行组合而产生。

对象处理组件256利用某些处理配置信息272。在实施例中，这些包括输出对象的数量、帧大小和某些媒体情报设置。媒体情报可以包括与对象相关联的一些参数或特性，诸如内容类型(即，对话/音乐/效果/等)、区域(段/分类)、预处理结果、听觉场景分析结果、以及其他类似的信息。

在替代实施例中，通过保持(并且输出)对于所有的原始通道(下混后的对象通道和扬声器通道)的引用以及简化元数据(例如，哪些对象属于哪个聚类、哪些对象将被呈现到床、等等)来推迟(在元件266和268中执行的类型的)音频产生。这对于在游戏控制台(其可以包括组件256)与外部装置或系统(其可以接收组件256的输出)之间分布聚类处理可以是有用的。

与对象258和/或260包括在一起的对象相关元数据可以指示：对象位置、对象大小(例如，宽度)、音频内容类型、响度、呈现模式、控制信号、还有其他可能的元数据类型。元数据定义可以包括定义与每种元数据类型相关联的某些值。当两个或更多个对象在聚类处理期间被组合在一起时，它们各自的元数据元素典型地通过定义的组合方案组合(例如，通过加权平均组合以推导组合的对象的位置和宽度)。关于位置，包含聚类(组成)对象的几何形心可以用于表示取代对象的位置。

组合的对象的响度可以通过对组成对象的响度进行平均值计算或或者求和计算来推导。在实施例中，信号的响度度量表示该信号的感知能量，其是基于频率进行加权的能量的度量。响度因此是与收听者的声音感知相应的空间加权能量。在替代实施例中，代替响度或者与响度一起，所述处理可以使用信号的纯能量(RMS能量)或者信号能量的某一其他度量作为确定对象的重要性的因素。在又一替代实施例中，从聚类的对象的部分响度数据推导组合的对象的响度，其中，部分响度表示根据心理声学原理的对象和床的完整集合的上下文中的对象的(相对)响度。因此，响度元数据类型可以实施为绝对响度、部分响度、或者组合响度元数据定义。对象的部分响度(或者相对重要性)可以作为重要度量用于进行聚类，或者用作在呈现系统不具有足以单独地呈现所有对象的能力的情况下选择性地呈现对象的手段。

对象聚类的一个例子是将空间相关的对象分组，即，组合位于类似的空间位置的对象，其中，空间位置的相似性由基于失真的最大误差阈值定义，所述失真是由于将组成对象移位到由取代聚类所定义的位置而导致的。

第二聚类方案确定何时适合于组合可在空间上不同的音频对象与代表固定空间位置的扬声器通道。这种类型的聚类的例子是，当不存在足以发送最初可表示为在三维空间中遍历的对象的可用带宽时，改为将对象混合到其到水平面上投影中，所述水平面是典型地在该处表示扬声器通道的地方。这使得一个或多个对象可以动态地混合到静态扬声器通道中，从而缩减需要发送的对象的数量。

第三聚类方案使用某些已知的系统特性的先验知识。例如，端点呈现算法和/或回放系统中的再现装置的知识可以用于控制聚类处理。例如，典型的家庭影院配置依赖于位于固定位置上的物理扬声器。这些系统还可以依赖于补偿在房间里一些扬声器的缺失的扬声器虚拟化算法，并且使用给予收听者存在于房间内的虚拟扬声器的算法。如果诸如扬声器的空间多样性和虚拟化算法的精度的信息是已知的，则可以发送缩减数量的对象，因为扬声器配置和虚拟化算法可以向收听者仅提供有限的感知体验。在这种情况下，发送整个扬声器通道床加上对象表示可能浪费带宽，所以某些程度的聚类将是适当的。其他类型的已知信息也可以用于该聚类方案中，诸如用来控制聚类的一个对象或多个对象的内容类型、或者用来控制聚类的一个对象或多个对象的宽度。

第四聚类方案包括使用时间信息来控制对象的动态聚类和解聚类。在一个实施例中，聚类处理按规律间隔或时间段执行(例如，每10毫秒执行一次)。可替代地，可以使用其他时间事件(包括诸如听觉场景分析(ASA)和听觉事件边界检测的技术)来对音频内容进行分析和处理以基于单独对象的持续时间确定最佳的聚类配置。

在实施例中，聚类处理动态地将原始数量的音频对象和扬声器通道分组为目标数量的新的等同的对象和扬声器通道。在最实际的应用中，目标数量远低于原始数量，例如，100个原始输入通道组合为20个或更少个组合组。

在实施例中，聚类处理涉及对每一单独输入(对象或扬声器)通道以及相应的元数据(例如，对象的空间位置)进行分析以推导最小化给定的误差度量的等同数量的输出对象/扬声器通道。在一种实现中，误差度量基于由于移位聚类的对象而导致的空间失真，并且还可以用每个对象随时间的重要性的度量来进行加权。对象的重要性可以封装对象的其他特性，诸如响度、内容类型和其他相关因素。可替代地，这些其他因素可以形成可以与空间误差度量组合的单独的误差度量。

在实施例中，聚类处理用宽度或展度参数支持对象。宽度用于不被呈现为精确定点源、而是被呈现为具有视在空间范围的声音的对象。随着宽度参数增大，呈现的声音变得在空间上更加扩散，因此，其特定位置变为不那么相关。因此有利的是，将宽度包括在聚类失真度量中，以使得随着宽度增大，它更有利于位置误差。

聚类处理典型地基于对象的某些特性和所定义的不能被超过的误差量来将对象组合为聚类。聚类处理典型地动态地重新计算输出对象组以按不同的或周期性的时间间隔不断地构建对象组以基于时间优化对象分组。在一个实施例中，聚类处理对输入对象进行分析，并且按规律的周期性间隔执行聚类，诸如每10毫秒执行一次，或者按任何其他适当的时间段执行聚类。各种输入对象可以在任一时刻存在于不同位置，并且对象可以是不同宽度。聚类处理对输入对象进行分析以形成对象组，这些对象组相对于所定义的最大误差阈值而言在空间上彼此足够接近。在一个时间在由误差阈值限定的距离内彼此隔开的对象可以适合于聚类在一起。

不是周期性地执行聚类，聚类处理而是可以基于与输入对象相关联的触发条件或事件来对对象进行聚类。一种这样的触发条件是用于每个输入对象的开始和停止时间。

本发明的实施例可以用硬件、固件或软件或它们的组合来实现(例如，实现为可编程逻辑阵列)。例如，图2、图3或图4的系统可以用适当编程的(或者以其他方式配置的)硬件或固件来实现，例如，实现为编程的通用处理器、数字信号处理器或微处理器(或者包括这样的适当配置的通用处理器、数字信号处理器或微处理器的游戏控制器)。除非另有说明，否则作为本发明的一部分包括的算法或处理与任何特定的计算机、游戏控制器或其他设备没有内在关系。具体地讲，各种通用机器可以与根据本文中的教导编写的程序一起使用，或者构造更专用的设备(例如，集成电路、或者包括专用电路的游戏控制器)来执行所需的方法步骤可能更方便。因此，本发明可以用在一个或多个可编程计算机系统(例如，实现图2、图3或图4的游戏控制器的计算机系统)上执行的一个或多个计算机程序来实现，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口、以及至少一个输出装置或端口。程序代码应用于输入数据以执行本文中所描述的功能并且产生输出信息。输出信息以已知方式应用于一个或多个输出装置。

每个这样的程序可以用任何期望的计算机语言(包括机器语言、汇编语言、或高级过程式语言、逻辑语言、或者面向对象的程序设计语言)来实现以与计算机系统进行通信。在任何情况下，语言可以是经编译或解释的语言。

例如，当用计算机软件指令序列实现时，本发明的实施例的各种功能和步骤可以用在合适的数字信号处理硬件中运行的多线程软件指令序列来实现，在这种情况下，实施例的各种装置、步骤和功能可以对应于软件指令的部分。

每个这样的计算机程序优选地存储在通用或专用可编程计算机可读的存储介质或装置(例如，固态存储器或介质、或者磁性或光学介质)上或者下载到该存储介质或装置，以便当该存储介质或装置被计算机系统读取以执行本文中所描述的过程时配置和操作计算机。本发明系统还可以实现为用计算机程序配置(即，存储计算机程序)的计算机可读存储介质，其中，如此配置的存储介质使计算机系统以特定的预定义方式进行操作以执行本文中所描述的功能。

虽然已经通过举例就示例性的特定实施例描述了实现，但是要理解本发明的实现不限于所公开的实施例。相反，意图覆盖本领域技术人员显而易见的各种修改和类似的布置。因此，所附权利要求书的范围应被给予最宽泛的解释，以便包含所有这样的修改和类似的布置。

Claims

1.一种用于产生基于对象的音频节目的方法，所述基于对象的音频节目指示游戏音频内容，并且包括至少一个音频对象通道和至少一个扬声器通道，所述方法包括以下步骤：

(a)确定至少一个音频对象通道，其中，每个所述音频对象通道指示至少一个音频对象，并且至少一个所述音频对象通道指示游戏音频内容；

(b)确定至少一个扬声器通道，其中，至少一个所述扬声器通道指示附加游戏音频内容；和

(c)产生基于对象的音频节目，包括通过对指示每个所述音频对象通道和每个所述扬声器通道的数据进行编码来产生基于对象的音频节目。

2.根据权利要求1所述的方法，还包括如下步骤：

操作游戏控制台来玩游戏，包括通过访问指示至少一个所述音频对象的数据来玩游戏，并且

其中，步骤(a)、(b)和(c)由所述游戏控制台在玩游戏期间执行。

3.根据权利要求2所述的方法，其中，步骤(a)和(b)中的至少一个包括以下步骤：

执行对象聚类以响应于输入对象通道集合确定将包括在所述基于对象的音频节目中的缩减数量的音频对象通道。

4.根据权利要求2所述的方法，还包括以下步骤：

将配置数据断言到所述游戏控制台，并且其中，

步骤(a)和(b)中的至少一个包括响应于所述配置数据执行对象聚类以确定将包括在所述基于对象的音频节目中的有限数量的音频对象通道的步骤。

5.根据权利要求2所述的方法，其中，与输入对象通道相关联的对象相关元数据指示所述输入对象通道指示从大型源发出的声音，并且其中，步骤(b)包括响应于所述对象相关元数据执行对象聚类以将所述输入对象通道的音频内容与至少一个输入扬声器通道的音频内容混合以确定至少一个所述扬声器通道的步骤。

6.根据权利要求2所述的方法，其中，与输入对象通道相关联的对象相关元数据指示所述输入对象通道指示混响声音，并且其中，步骤(b)包括响应于所述对象相关元数据执行对象聚类以将所述输入对象通道的音频内容与至少一个输入扬声器通道的音频内容混合以确定至少一个所述扬声器通道的步骤。

7.根据权利要求2所述的方法，其中，与输入对象通道相关联的对象相关元数据指示所述输入对象通道指示混响声音，并且其中，步骤(a)和(b)包括以下步骤：

响应于所述对象相关元数据，确定所述混响声音的干涩版本，并且产生指示所述混响声音的干涩版本的混响的音频内容；

确定指示所述混响声音的干涩版本的一个所述音频对象通道；和

确定指示所述混响声音的干涩版本的混响的至少一个所述扬声器通道。

8.根据权利要求1所述的方法，其中，所述基于对象的音频节目是AC-3或E-AC-3比特流。

9.根据权利要求1所述的方法，还包括以下步骤：

响应于所述基于对象的音频节目，操作空间呈现系统来产生扬声器馈送，所述扬声器馈送指示每个所述扬声器通道和每个所述音频对象通道的音频内容的混合。

10.根据权利要求1所述的方法，其中，步骤(a)包括以下步骤：

(d)识别指示游戏音频内容的输入音频对象集合，其中，所述集合由N个音频对象构成，并且N是正整数；和

(e)用缩减的音频对象集合取代所述输入音频对象集合，其中，所述缩减的集合由M个音频对象构成，并且M为小于N的正整数，并且所述至少一个音频对象通道指示所述缩减的音频对象集合，

并且其中，步骤(c)包括以下步骤：

产生所述基于对象的音频节目，以使得所述基于对象的音频节目指示所述缩减的音频对象集合，并且包括M个对象通道和至少一个扬声器通道。

11.根据权利要求10所述的方法，其中，步骤(e)包括以下步骤：

将所述输入音频对象中的至少两个输入音频对象的音频内容混合以产生至少一个聚类的音频对象。

12.根据权利要求10所述的方法，其中，步骤(e)包括以下步骤：

将所述输入音频对象中的至少一个输入音频对象的音频内容与扬声器通道的音频内容混合以产生至少一个混合的扬声器通道。

13.根据权利要求10所述的方法，其中，步骤(e)包括以下步骤：

定义用于由与所述输入音频对象集合的每个输入音频对象相关联的元数据指示的至少一个参数的误差阈值；和

将所述输入音频对象中的与如下元数据相关联的每个输入音频对象识别为所述缩减音频对象集合中的一个音频对象，对于该元数据，所述至少一个参数超过所述误差阈值。

14.根据权利要求1所述的方法，还包括以下步骤：

响应于所述基于对象的音频节目和指示至少一个附加对象的附加音频内容产生附加的基于对象的音频节目，包括通过在不执行所述基于对象的音频节目的全解码、混合和重新编码的情况下，将所述附加音频内容作为附加的基于对象的音频节目的至少一个附加对象通道包括在所述附加的基于对象的音频节目中来产生所述附加的基于对象的音频节目。

15.一种被配置为产生指示游戏音频内容的基于对象的音频节目的游戏控制台，所述游戏控制台包括：

第一子系统，所述第一子系统被配置为确定至少一个音频对象通道和至少一个扬声器通道，其中，每个所述音频对象通道指示至少一个音频对象，至少一个所述音频对象通道指示游戏音频内容，并且至少一个所述扬声器通道指示附加游戏音频内容；和

编码子系统，所述编码子系统耦合到所述第一子系统，并且被配置为产生基于对象的音频节目，包括通过对指示每个所述音频对象通道和每个所述扬声器通道的数据进行编码来产生基于对象的音频节目。

16.根据权利要求15所述的游戏控制台，其中，所述游戏控制台被配置为玩游戏，包括通过访问指示至少一个所述音频对象的数据来玩游戏，并且其中，所述第一子系统被配置为在玩游戏期间确定每个所述音频对象通道和每个所述扬声器通道，并且所述编码子系统被配置为在玩所述游戏期间产生所述基于对象的音频节目。

17.根据权利要求15所述的游戏控制台，其中，所述第一子系统被配置为执行对象聚类以响应于输入对象通道集合确定将包括在所述基于对象的音频节目中的有限数量的音频对象通道。

18.根据权利要求15所述的游戏控制台，其中，所述第一子系统被配置为执行对象聚类以响应于断言到所述控制台的配置数据确定将包括在所述基于对象的音频节目中的有限数量的音频对象通道。

19.根据权利要求15所述的游戏控制台，其中，与输入对象通道相关联的对象相关元数据指示所述输入对象通道指示从大型源发出的声音，并且其中，所述第一子系统被配置为响应于所述对象相关元数据执行对象聚类以将所述输入对象通道的音频内容与至少一个输入扬声器通道的音频内容混合以确定至少一个所述扬声器通道。

20.根据权利要求15所述的游戏控制台，其中，与输入对象通道相关联的对象相关元数据指示所述输入对象通道指示混响声音，并且其中，所述第一子系统被配置为响应于所述对象相关元数据执行对象聚类以将所述输入对象通道的音频内容与至少一个输入扬声器通道的音频内容混合以确定至少一个所述扬声器通道。

21.根据权利要求15所述的游戏控制台，其中，与输入对象通道相关联的对象相关元数据指示所述输入对象通道指示混响声音，并且其中，所述第一子系统被配置为执行对象聚类，包括通过下述方式来执行对象聚类：

22.根据权利要求15所述的游戏控制台，其中，所述基于对象的音频节目是AC-3或E-AC-3比特流。

23.根据权利要求15所述的游戏控制台，其中，所述第一子系统被配置为：

识别指示游戏音频内容的输入音频对象集合，其中，所述集合由N个音频对象构成，并且N是正整数；和

用缩减的音频对象集合取代所述输入音频对象集合，其中，所述缩减的集合由M个音频对象构成，并且M为小于N的正整数，并且所述至少一个音频对象通道指示所述缩减的音频对象集合，

并且其中，所述编码子系统被配置为产生所述基于对象的音频节目，以使得所述基于对象的音频节目指示所述缩减的音频对象集合，并且包括M个对象通道和至少一个扬声器通道。

24.根据权利要求23所述的游戏控制台，其中，所述第一子系统被配置为将所述输入音频对象中的至少两个输入音频对象的音频内容混合以产生至少一个聚类的音频对象。

25.根据权利要求23所述的游戏控制台，其中，所述第一子系统被配置为将所述输入音频对象中的至少一个输入音频对象的音频内容与扬声器通道的音频内容混合以产生至少一个混合的扬声器通道。

26.根据权利要求23所述的游戏控制台，其中，所述第一子系统被配置为：

确定用于由与所述输入音频对象集合的每个输入音频对象相关联的元数据指示的至少一个参数的误差阈值；和

将所述输入音频对象中的与如下元数据相关联的每个输入音频对象识别为所述缩减的音频对象集合中的一个音频对象，对于该元数据，所述至少一个参数超过所述误差阈值。

27.根据权利要求15所述的游戏控制台，其中，所述编码子系统还被配置为响应于所述基于对象的音频节目和指示至少一个附加对象的附加音频内容产生附加的基于对象的音频节目，包括通过在不执行所述基于对象的音频节目的全解码、混合和重新编码的情况下，将所述附加音频内容作为附加的基于对象的音频节目的至少一个附加对象通道包括在所述附加的基于对象的音频节目中，产生所述附加的基于对象的音频节目。