CN105556598B

CN105556598B - 多通道音频的通道的选择性加水印

Info

Publication number: CN105556598B
Application number: CN201480050441.0A
Authority: CN
Inventors: 多希姆·努尔穆哈诺夫; 斯里巴拉·S·梅赫塔; 迪尔克·耶伦·布里巴尔特
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2013-09-12
Filing date: 2014-09-09
Publication date: 2019-05-17
Anticipated expiration: 2034-09-09
Also published as: WO2015038546A1; US9818415B2; CN105556598A; JP6186513B2; EP3044787A1; JP2016534411A; EP3044787B1; US20160210972A1

Abstract

一种选择多通道音频节目的至少一个片段的通道子集(例如，根据该至少一个片段确定的通道子集)以用于加水印、并且给所选择的通道子集加水印的方法；以及被配置成实现该方法的任意实施方式、或者包括缓冲器的系统或装置，该缓冲器存储由该方法的任意实施方式或其步骤生成的多通道音频节目的至少一个帧或其他片段。一些实施方式在节目创建期间生成加水印元数据，包括通过对多通道节目的片段中包括的音频内容进行分析，确定每个片段的每个通道的至少一个水印适合性值，并且将水印适合性值(或者根据其确定的加水印数据)作为元数据包括在节目中。一些实施方式由重放系统来实现，该重放系统确定要加水印的所选择的通道子集。

Description

多通道音频的通道的选择性加水印

相关申请的交叉引用

本申请要求于2013年9月12日提交的美国临时专利申请号61/877,139的优先权，在此通过引用将其全部内容合并到本文中。

技术领域

本发明涉及音频信号处理，并且更具体地，涉及对多通道音频节目(例如，表示包括至少一个音频对象通道和至少一个扬声器通道的基于对象的音频节目的比特流)的所选择的通道加水印。

背景技术

加水印(取证标记(forensic marking))被用于数码相机中以防止盗版，并且允许对电影内容的非法捕捉或拷贝进行取证追踪，而且还被用于其他环境中。对标记内容的合法修改和违法修改以及标记内容的捕捉(例如，通过移动电话或高质量音频和视频记录装置进行的捕捉)而言，可以嵌入在音频信号和视频信号两者中的水印应当是健壮的。水印通常包括关于何时何地发生了内容的重放的信息。因此，用于剧场用途的加水印通常发生在实际重放期间，剧场中播放的内容的水印通常表示剧场标识数据(剧场“ID”)和重放时间。

给音频节目加水印的复杂度以及由此的经济成本和计算成本会随着要加水印的通道的数量而线性增加。在基于对象的音频节目的呈现和重放(例如，在电影院中)期间，音频内容具有许多通道(例如，对象通道和扬声器通道)，该数量通常远大于(例如，以数量级)在常规的基于扬声器通道的节目的呈现和重放期间出现的数量。此外，通常，与用于常规的基于扬声器通道的节目的重放所使用的数量相比，用于重放的扬声器系统包括数量大得多的扬声器。

常规的是，对包括扬声器通道而不包括对象通道的常规类型的多通道音频节目的一些扬声器通道而非所有扬声器通道加水印。然而，这种类型的常规加水印不测量节目的各个通道的内容以选择应当给哪些通道加水印，并且不基于重放扬声器的配置(例如，扬声器在空间中的布置)或者要被扬声器中的任意扬声器播放的音频内容来选择要给哪些通道加水印。相反，如果节目包括不大于小数量的通道，那么这种类型的常规加水印通常试图给节目的前N个通道(其中，N是与加水印系统的处理限度相符的小数量，例如，N＝8)或者所有通道加水印。但是，在加水印(例如，包括加水印的呈现)期间，根据实际获得的处理速度随机地跳过对一些通道加水印(使得跳过对一些通道加水印，否则，整体处理速度将降到阈值以下)。

发明人已经意识到，对多通道音频节目(或者响应于这样的节目所生成的每个扬声器馈送信号、或者随机确定的扬声器馈送信号子集)的每个单独的通道(或者随机确定的通道子集)加水印(例如，在剧场中进行重放期间)会是不经济且低效的。例如，对表示无声的(或几乎无声的)音频内容的信号加水印一般不会有助于改进的水印恢复。此外，对与其他通道相比相对安静的通道加水印将不会有助于改进的水印恢复。

尽管对于选择性地给任意多通道音频节目的通道加水印而言，本发明的实施方式是有用的，然而对于选择性地给具有许多通道的基于对象的音频节目的通道加水印而言，本发明的很多实施方式尤其有用。

已知使用重放系统(例如，在电影院中)来呈现基于对象的音频节目。作为电影音轨的基于对象的音频节目可以表示与以下内容相对应的很多不同的音频对象：屏幕上的图像、从屏幕上(或者相对于屏幕)的不同地方发出的对话、噪声和音效、以及用以创建期望的整体听觉体验的背景音乐和环境效果(其可以由节目的扬声器通道来表示)。这种节目的精确重放要求以下述方式来再现声音：就音频对象大小、位置、强度、运动和深度而论，该方式尽可能接近地对应于内容创建者所期望的。

在基于对象的音频节目的生成期间，通常假定要被用于呈现的扬声器位于重放环境中的任意位置；不一定位于(标称)水平平面中或在节目生成时已知的任何其他预定布置中。通常，节目中所包括的元数据表示用于在(三维体积中的)表观空间位置(apparentspatial location)处或者沿着轨迹例如使用三维扬声器阵列来呈现节目的至少一个对象的呈现参数。例如，节目的对象通道可以具有表示要呈现(由对象通道表示的)对象的表观空间位置的三维轨迹的相应元数据。轨迹可以包括一系列“地板”位置(在被假定位于重放环境的地板上的扬声器子集的平面中，或者在重放环境的另一水平平面中)以及一系列“地板上方”位置(通过驱动被假定位于重放环境的至少一个其他水平平面中的扬声器子集来确定每个“地板上方”位置)。

相对于传统的基于扬声器通道的音频节目，基于对象的音频节目在很多环境中表现出显著的改进，由于与基于对象通道的音频相比，基于扬声器通道的音频相对于特定音频对象的空间重放受到更多限制。基于扬声器通道的音频节目仅包括扬声器通道(不包括对象通道)，每个扬声器通道通常确定收听环境中的特定的个体扬声器的扬声器馈送。

已经提出了用于生成和呈现基于对象的音频节目的各种方法和系统。在基于对象的音频节目的生成期间，通常假定：任意数量的扬声器可以被用于重放节目，要用于重放(通常，在电影院中)的扬声器可以位于重放环境中的任意位置；不一定位于(标称)水平平面中或者在节目生成时已知的任意其他预定布置中。通常，节目中所包括的对象相关元数据表示用于在(在三维体积中的)表观空间位置处或沿着轨迹例如使用三维扬声器阵列来呈现节目的至少一个对象的呈现参数。例如，节目的对象通道可以具有表示要呈现(由对象通道表示的)对象的表观空间位置的三维轨迹的相应元数据。轨迹可以包括一系列的“地板位置”(在被假定位于重放环境的地板上的扬声器子集的平面中，或者在重放环境的另一水平平面中)以及一系列“地板上方”位置(每一个“地板上方”位置通过驱动被假定位于重放环境的至少一个其他水平平面中的扬声器子集来确定)。例如，在PCT国际申请号PCT/US2001/028783中描述了呈现基于对象音频节目的示例，该申请于2011年9月29日以国际公布号WO 2011/119401 A2公布，并且被转让给本申请的受让人。

发明内容

在一类实施方式中，本发明是用于给多通道音频节目加水印的方法，包括以下步骤：选择节目的至少一个片段的通道子集(例如，根据该至少一个片段确定的通道子集)以用于加水印，以及给通道子集中的每个通道加水印，从而生成加水印通道集合(即，生成表示加水印通道集合的数据)。尽管节目可以包括相当大数量的通道，但是加水印通道集合通常包括小数量的加水印通道(例如，N个通道，其中，1≤N≤16)。在典型实施方式中，选择给哪些通道加水印是基于要被用于重放节目的重放扬声器的配置(例如，在空间中扬声器的布置)，或者基于节目自身(例如，其基于节目中包括的元数据，或者基于由要被至少一个重放扬声器播放的节目的通道所确定的或者被包括在要被至少一个重放扬声器播放的节目的通道中的音频内容的至少一个特征)。在一些实施方式中，节目是基于对象的音频节目(例如，电影音轨)，并且给节目的至少一个音频对象和/或至少一个扬声器通道加水印。在一些实施方式中，呈现系统根据基于对象的音频节目(即，根据节目的至少一个对象通道和/或至少一个扬声器通道)来确定重放扬声器通道集合(每个重放扬声器通道用于由重放系统的不同扬声器进行的重放)，并且给该扬声器通道集合的子集加水印。在一些实施方式中，在响应于节目的通道而生成扬声器馈送之前(例如，通过被配置成接收、解码和呈现节目的解码器或重放系统，或者在要被传送至用于解码和呈现的解码器或重放系统的节目的生成期间)，给所选择的子集加水印。在一些实施方式中，在对节目(例如，表示节目的编码比特流)的编码版本解码之后，而非在响应于解码节目的音频内容生成扬声器馈送之前，(通过呈现系统)给所选择的子集加水印。在一些实施方式中，在节目的呈现期间给所选择的子集加水印(例如，响应于节目的通道来生成扬声器馈送，扬声器馈送对应于节目的通道或者根据节目的通道来确定扬声器馈送，对扬声器馈送集合的所选择子集加水印)。

通常，在重放系统中执行加水印，该重放系统被耦接和配置成对多通道音频节目进行解码和呈现，并且其具有有限的加水印能力(即，重放系统不具有给无限数量的音频节目通道加水印的能力)。

在一些实施方式中，解码器或重放系统(例如，被安装在电影院中)对表示多通道音频节目的编码比特流进行解码，以确定节目的通道(扬声器通道和/或对象通道)或者根据节目所确定的通道(扬声器通道)。给所选择的通道子集加水印(在解码音频的呈现之前或者在解码音频的呈现期间)，使得当节目已经经历了呈现和重放时，可以在重放期间根据从扬声器组发出的声音(例如，通过处理)来确定水印。因此，如果音频被记录(例如，通过蜂窝电话或其他装置非法地被记录)，能够通过对所记录的信号进行处理来检测水印。水印可以表示重放系统ID(例如，电影院ID)和重放时间。

在一些实施方式中，为了进行水印检测以及水印中所嵌入信息的恢复，对所选择的通道子集进行优化。如果在内容创建(例如，节目的编码版本的生成)期间执行通道子集选择，则加水印元数据(表示针对节目的一系列片段中的每个片段的所选择的子集)通常连同节目的音频内容一起被分发(例如，加水印元数据被包括在节目中)。替代地，在解码、呈现或重放期间执行通道子集选择。

期望本发明的方法的典型实施方式以改进的水印检测能力、降低的加水印成本、以及所呈现的加水印音频的改进质量(相对于通过常规加水印能够获得的质量)来提供加水印。通常确定每个实现的特定参数以获得水印恢复的鲁棒性、所呈现的加水印音频的质量、以及水印信息容量之间的可接受的平衡。

在第一类实施方式中，该方法在音频节目创建期间生成加水印元数据(例如，水印适合性值)，包括通过对要包括在多通道音频节目的片段中的音频内容进行分析，以及确定节目的每个片段的每个通道的至少一个水印适合性值(在本文中有时称为“权重”或水印适合性权重)。在典型实施方式中，每个水印适合性值(“WSV”)表示(节目的相关片段中的)的相应通道的内容对于加水印的适合性(例如，WSV可以表示相应的内容的RMS幅值，和/或在给该内容施加水印的情况下水印的可恢复性)。加水印的适合性可以是绝对度量(例如，按照从1至10的尺度)，或者是相对度量(例如，WSV可以表示：与对象通道6相比，扬声器通道10较适合于加水印，而不指定多大程度上较适合，使得在该示例中WSV仅指定相对适合性)。将水印适合性值(或者根据水印适合性值所确定的加水印数据)作为元数据包括在音频节目中(例如，节目的每个通道的每个片段包括表示通道的片段的水印适合性或者是否应当给通道的片段加水印的加水印元数据)。重放系统可以使用加水印元数据检测节目的每个片段的通道中的哪些通道最适合于加水印或者应当给哪些通道加水印。

在第一类的典型实施方式中，重放系统被限制成对要解码和呈现的音频节目的(或根据其所确定的)不多于最大数量(“N”)的通道加水印。对于被解码的音频节目的每个片段，重放系统被配置成：对节目的通道(例如，基于对象的音频节目的扬声器通道音床的每个扬声器通道以及每个对象通道)的加水印适合性值进行比较；并且根据加水印适合性值来识别以下子集：片段的N个最高加权(最适合于加水印)的通道。然后，给每个片段的所识别的N个通道加水印。当对片段完成了加水印时，要呈现的所有通道(包括N个加水印通道)被重新组装(被同步)和呈现(即，响应于包括N个加水印通道的通道全集来生成扬声器馈送)。

本发明的方法的各种实施方式使用不同的方法来确定多通道音频节目的片段的每个通道的水印适合性值(“WSV”)，包括(但不限于)以下方法：

1.根据片段中的通道的音频内容的均方根(RMS)幅值来确定片段的通道的WSV；

2.根据片段中的通道的音频内容的RMS幅值以及与音频内容相对应的元数据(例如，与节目一起传送的元数据)来确定片段的通道的WSV。例如，元数据可以表示要施加给片段中的通道的音频内容的增益(或者增益增大或减小)，并且可以根据乘以这样的增益的片段的通道的RMS幅值来确定WSV；

3.片段被呈现(针对片段根据片段的所有通道来确定扬声器馈送)为其在空间(例如，礼堂)的中心或在空间(例如，礼堂)的中心附近被感知，并且根据所呈现片段的所述通道的RMS幅值来确定所呈现片段的每个通道的WSV。例如，可以使用片段的区域排除元数据(与基于对象的音频节目一起传送)来呈现片段，其中，区域排除元数据表示允许哪些对象通道(以及不允许哪些对象通道)有助于片段的每个扬声器馈送(例如，元数据可以使表示一些对象的音频内容仅被剧场的特定区域中的扬声器重放)。因此，如果元数据表示“排除”区域中的扬声器不应当发出表示“第一”对象的声音，则排除区域中的扬声器的扬声器馈送将不表示第一对象，并且所呈现片段的每个相应通道的WSV将不表示与第一对象相对应的音频内容的RMS幅值(虽然其可以表示与除了第一对象以外的对象相对应的音频内容的RMS幅值)；

4.根据在片段的呈现期间要被驱动以发出表示通道的内容的扬声器的数量(例如，空间中的可用扬声器全集中的、在片段的呈现期间将被驱动以发出表示通道的内容的扬声器的百分比)来至少部分地确定片段的通道的WSV。如果水印分布在多个扬声器中，则一些类型的加水印表现较好。例如，如果对象通道要被呈现为大的或“宽的”对象(通过驱动相对大数量的扬声器)，则可以为片段的该通道分配大的WSV(表示该通道非常适合于加水印)，而如果对象通道要被呈现为小的或“窄的”对象(通过相对小数量的扬声器)，则可以为片段的该通道分配小的WSV(表示该通道不是很适合于加水印)。

5.根据有限频率范围内的通道的音频内容的能量或RMS幅值来确定片段的通道的WSV。加水印算法经常将信息仅嵌入在有限频率范围内。当要使用这样的加水印时，根据与要加水印的频率范围相同的频率范围内的信号能量或RMS幅值来计算WSV会是有用的；

6.使用水印嵌入器来确定片段的通道的WSV。大多数加水印算法实现以下心理声学模型：根据时间和频率来调整水印嵌入强度，以便以对所感知的音频质量的最小影响来提供最大的水印恢复。因此，嵌入器将内在地具有施加给每个信号的加水印强度的度量，并且可以将(用于片段的通道的)该度量用作为(用于片段的通道的)WSV值。

7.使用水印检测器来确定片段的通道的WSV。除了恢复水印以外，大多数加水印检测器还将产生对所提取的信息的精确度或可靠度的测量(例如，假水印概率，其是提取的水印不正确的概率)。可以将这样的测量(由用于片段的通道的水印检测器来确定)用作(用于片段的通道的)WSV值，或者可以使用这样的测量来至少部分地确定用于片段的通道的WSV；

8.使用除了RMS或信号幅值以外的(片段中的通道的音频内容的)至少一个其他特征来确定用于片段的通道的WSV。例如，扩展频谱加水印技术对宽带音频信号表现最佳，而通常对窄带信号表现不佳。带宽、频谱平坦度、或者表示片段中的通道的音频内容的频谱形状的任何其他特征对于估计水印检测处理的鲁棒性而言是有用的，从而其可以被用于至少部分地确定用于片段的通道的WSV；

优选地，用于节目的片段的通道的WSV是(或者可以被处理以确定)有序列表，该有序列表按照加水印的适合性的升序或降序表示通道。以这种方式，可以获得独立于重放系统的加水印能力的最佳的可能的加水印成果。由于音频信号通常实际上是时变的且动态的，所以有序列表优选地是时间相关的(即，对于节目的每个片段来确定有序列表)。

如果加水印系统的能力允许给比“绝对要求的”通道更多的通道加水印，则可以将这样的有序列表划分成必须加水印以确保最小服务质量(例如，水印检测鲁棒性)的第一通道集合(“绝对要求的”通道)的列表，以及可以被用于选择要加水印的附加通道的第二有序列表。

在第二类实施方式中，本发明仅通过重放系统来实现，并且不要求根据本发明的实施方式对生成多通道音频节目(要被加水印和呈现以供重放)的编码系统进行配置(即，编码系统无需识别节目的通道的WSV)。在这些实施方式中，重放系统确定节目的每个片段的通道的WSV。

在第二类的一些实施方式中，重放系统选择根据多通道节目确定的单独扬声器通道的集合的子集以用于加水印。例如，如果节目是包括对象通道以及扬声器通道音床的基于对象的音频节目，则重放系统可以根据节目的对象通道和/或扬声器通道来确定重放扬声器通道集合(每个重放扬声器通道对应于重放扬声器组中的不同扬声器)，然后重放系统选择要加水印的重放扬声器通道子集。用于节目的片段的子集选择可以基于根据节目的片段所确定的每个扬声器通道的RMS幅值。

在第二类的一些实施方式中，重放系统使用重放扬声器(被安装在礼堂或其他重放环境中)的配置来选择要加水印的通道子集，包括通过识别重放环境中的有差异位置(distinct locations)(区域)中的重放扬声器全集的分组(子集)。这些实施方式包括以下步骤：根据节目的通道确定重放扬声器通道集合，每个重放扬声器通道用于重放扬声器中的不同重放扬声器所进行的重放；选择重放扬声器通道集合的子集以用于加水印；给重放扬声器通道集合的子集中的每个通道加水印(从而生成加水印通道集合)，包括通过识别安装在重放环境中的有差异区域中的重放扬声器的分组，使得每个分组由安装在区域中的不同区域中的扬声器组成；识别供每个分组重放的音频内容的加水印适合性；以及根据供分组中的至少一个子集中的每个分组重放的音频内容的加水印适合性来选择重放扬声器通道集合的子集。通常，节目(或节目的片段)的音频内容(例如，对象通道内容和扬声器通道内容)被呈现，从而确定重放扬声器通道集合(每个重放扬声器通道对应于并且表示要由重放扬声器组的不同扬声器重放的内容)，重放系统选择与扬声器的每个分组或者分组的子集中的每个分组相对应的一个重放扬声器通道(或者小数量的重放扬声器通道)(例如，用于驱动每个分组中的一个扬声器的扬声器通道)，并且给每个这样选择的重放扬声器通道加水印。这会产生仅给通常表示特定类型的音频内容的通道加水印，并且可以使得能够实现水印的恢复(以高的成功概率)而不产生大的计算成本。这些实施方式不测量为了加水印所选择的每个通道的音频内容的响度(或其他特征)。替代地，它们假定(重放扬声器通道全集中的)一些重放扬声器通道适合于加水印(例如，很可能表示响亮内容和/或特定类型的内容)并且应当被加水印。通常，仅给被假定为很可能适合于加水印的重放扬声器通道加水印，并且对用于驱动扬声器全集的每个分组中的扬声器的信号加水印。

本发明的方面包括被配置成(例如，被编程成)实现本发明的方法的任意实施方式的系统或装置、包括有(例如，以非暂态方式)存储通过本发明的方法的任意实施方式或其步骤所生成的多通道音频节目的至少一个帧或其他片段的缓冲器的系统或装置、以及(例如，以非暂态方式)存储用于实现本发明的方法的任意实施方式或其步骤的代码的计算机可读介质(例如，磁盘)。例如，本发明的系统可以是，或者包括以下可编程通用处理器、数字信号处理器或微处理：其被使用软件或固件编程为和/或以其他方式配置为对数据执行多种操作中的任意操作，包括本发明的方法的实施方式或其步骤。这样的通用处理器可以是，或者包括以下计算机系统：该计算机系统包括输入装置、存储器以及被编程为(和/或以其他方式被配置为)响应于设定至其的数据来执行本发明的方法的实施方式(或其步骤)的处理电路。

附图说明

图1是包括编码器、传送子系统和解码器的系统的框图。编码器和/或解码器根据本发明的实施方式来配置。

图2是本发明的方法的实施方式的图。

图3是本发明的方法的另一实施方式的图。

图4是本发明的方法的实施方式的图。

图5是扬声器阵列的图，该扬声器阵列中的一些扬声器可以由根据本发明的方法的实施方式生成的加水印信号来驱动。

符号和术语

贯穿包括权利要求在内的本公开内容，“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或施加增益)的表达用于广义地表示对信号或数据、或对信号或数据的经处理版本(例如，在对信号执行操作之前已经经历了初步滤波的信号的版本)直接执行操作。

贯穿包括权利要求在内的本公开内容，表达“系统”用于广义地表示装置、系统或子系统。例如，实现解码器的子系统可以称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入生成X个输出信号的系统，在该系统中，子系统生成M个输入，并且其他X-M个输入从外部源接收)也可以称为解码器系统。

贯穿包括权利要求在内的本公开内容，术语“处理器”用于广义地表示可编程成或以其他方式可配置成(例如，用软件或固件)对数据(例如，音频或视频或其他图像数据)执行操作的系统或装置。处理器的示例包括现场可编程门阵列(或其他可配置的集成电路或芯片组)、被编程成和/或以其他方式配置成对音频或其他声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

贯穿包括权利要求在内的本公开内容，表达“音频处理器”和“音频处理单元”被可交换地使用，并且用于广义地表示被配置成处理音频数据的系统。音频处理单元的示例包括但不限于编码器(例如，转码器)、解码器、编解码器、预处理系统、后处理系统和比特流处理系统(有时被称为比特流处理工具)。

贯穿包括权利要求在内的本公开内容，表达“元数据”(例如，如在表达“处理状态元数据”中)指代与相应音频数据(还包括元数据的比特流的音频内容)分离且不同的数据。元数据与音频数据相关联，并且表示音频数据的至少一个特征或特性(例如，已经对音频数据或者由音频数据所表示的对象的轨迹执行了何种类型的处理或者应当对音频数据或者由音频数据所表示的对象的轨迹执行何种类型的处理)。元数据与音频数据的关联是时间上同步的。因此，当前(最近接收的或更新的)元数据可以表示：相应音频数据同时具有所表示的特征和/或包括所表示类型的音频数据处理的结果。

贯穿包括权利要求在内的本公开内容，术语“耦合”或“被耦合”用于表示直接或间接连接。因此，如果第一装置耦合至第二装置，则该连接可以通过直接连接或者通过经由其他装置和连接的间接连接。

贯穿包括权利要求在内的本公开内容，下面的表达具有下面的定义：

扬声器(speaker)和扬声器(loudspeaker)同义地用于表示任何发声变换器。该定义包括被实现为多个变换器(例如，低频扬声器和高频扬声器)的扬声器；

扬声器馈送：直接施加于扬声器的音频信号，或者施加于串联的放大器和扬声器的音频信号；

通道(或“音频通道”)：单通道音频信号。这样的信号通常可以以如下方式被呈现：该方式等同于将音频信号直接施加于在期望的或标称的位置处的扬声器。期望的位置可以是静态的，如物理扬声器的通常情况，或者可以是动态的；

音频节目：一个或多个音频通道(至少一个扬声器通道和/或至少一个对象通道)的集合，以及可选地还有相关联的元数据(例如，用以描述期望的空间音频表示的元数据)；

扬声器通道(或“扬声器馈送通道”)：与指定的扬声器(在期望或标称的位置处)相关联的音频通道，或者与限定的扬声器配置中的指定的扬声器区相关联的音频通道。以等同于以下的方式来呈现扬声器通道：将音频信号直接施加于指定的扬声器(在期望或标称的位置)或指定的扬声器区内的扬声器；

对象通道：表示由音频源(有时称为音频“对象”)发出的声音的音频通道。通常，对象通道确定参数化的音频源描述(例如，表示参数化的音频源描述的元数据被包括在对象通道中或者被提供以对象通道)。源描述可以确定由源发出的声音(作为时间的函数)、作为时间的函数的源的表观位置(例如，3D空间坐标)、以及可选地表征源的至少一个附加参数(例如，表观源大小或宽度)；

基于对象的音频节目：包括一个或多个对象通道的集合(并且可选地还包括至少一个扬声器通道)的音频节目，以及可选地还有相关联的元数据(例如，表示发出对象通道所表示的声音的音频对象的轨迹的元数据，或者以其他方式表示对象通道所表示的声音的期望的空间音频呈现的元数据，或者表示作为对象通道所表示的声音的源的至少一个音频对象的标识的元数据)；以及

呈现：将音频节目转换成一个或多个扬声器馈送的处理，或者将音频节目转换成一个或多个扬声器馈送并且使用一个或多个扬声器将该扬声器馈送转换成声音的处理(在后一种情况下，有时在本文中呈现被称作“通过”扬声器的呈现)。可以通过将信号直接施加于期望的位置处的物理扬声器来(“在”期望位置)一般地呈现音频通道，或者可以使用多种虚拟化技术之一来呈现一个或多个音频通道，这些虚拟化技术被设计成基本上等同于(对于收听者而言)这种一般呈现。在后者情况下，可以将每个音频通道转换成要施加于通常与期望的位置不同的已知位置处的扬声器的一个或多个扬声器馈送，使得由扬声器响应于馈送而发出的声音可以被感知为从期望位置发出。这样的虚拟化技术的示例包括经由耳机的双耳呈现(例如，使用杜比耳机处理，其为耳机佩戴者模拟多达7.1通道的环绕声音)以及波场合成。

具体实施方式

将参照图1、图2、图3、图4和图5来描述本发明的实施方式的示例。

图1是音频数据处理系统的框图，在该音频数据处理系统中根据本发明的实施方式对该系统的一个或多个元件进行配置。图1的系统包括如图所示耦接在一起的编码器3、传送子系统5和解码器7。虽然在本文中将子系统7称为“解码器”，但是应当理解的是，子系统7通常被实现为重放系统，该重放系统包括解码子系统(被配置成对表示编码多通道音频节目的比特流进行解析和解码)和被配置成实现呈现(包括加水印)以及解码子系统的输出的重放的至少一些步骤的其他子系统。本发明的一些实施方式是不被配置成执行呈现和/或重放的解码器(例如，包括本文中所描述的类型的缓冲存储器的解码器)(并且其通常与单独的呈现和/或重放系统一起来使用)。本发明的一些实施方式是重放系统(例如，包括有解码子系统和被配置成实现呈现(包括加水印)以及解码子系统的输出的重放的至少一些步骤的其他子系统的重放系统)。

编码器3的典型实现被配置成响应于音频数据的多个流以及被提供至编码器3(如图1所示)或由编码器3生成的元数据，来生成基于对象的编码多通道音频节目。表示节目的比特流从编码器3输出至传送子系统5。在其他实现中，编码器3被配置成生成不是基于对象的编码音频节目的多通道音频节目，并且将表示节目的比特流输出至传送子系统5。传送子系统5将由编码器3生成的节目传送至解码器7，用于(由子系统8)进行解码、(由子系统9)进行对象处理，以及(由系统11)进行呈现以供重放系统扬声器(未示出)重放。

编码器3的编码子系统4被配置成对音频数据的多个流进行编码，以生成表示要包括在节目中的通道(扬声器通道以及通常也有对象通道)中的每一个通道的音频内容的编码音频比特流。由子系统4执行的编码通常实现压缩，使得从子系统4输出的编码比特流中的至少一些是压缩音频比特流。

在编码器3的典型实现中，编码器3的加水印元数据生成子系统2被耦接和配置成根据本发明的实施方式生成加水印元数据(例如，水印适合性值(watermark suitabilityvalues))。加水印元数据可以通过本文中所描述的方法中的任意方法来生成。例如，加水印元数据可以通过以下操作来生成：对(由编码器3生成的)多通道音频节目的片段所表示的音频数据进行分析，并且确定节目的每个片段的每个通道的至少一个水印适合性值。在一些实施方式中，根据片段中的通道的音频内容的均方根(RMS)幅值来确定片段的通道的加水印元数据。在一些实施方式中，通过对节目的片段所表示的音频数据以及与音频数据相对应的元数据进行分析来生成加水印元数据。例如，可以根据片段中的通道的音频内容的RMS值并且根据与这样的音频内容相对应的元数据来确定片段的通道的加水印元数据。

在其他实现中，从编码器3中省略加水印元数据生成子系统2，并且在重放系统或解码器中(例如，在解码器7的子系统11的实现中)生成执行本发明的通道选择性加水印的实施方式所需要的任何水印适合性值。

编码器6的格式化级6被耦接和配置成将从子系统4输出的编码音频比特流和相对应的元数据(包括由子系统2生成的加水印元数据)组装成多通道音频节目(即，表示这样的节目的比特流)。

在典型实现中，编码器3包括缓冲器3A，该缓冲器3A存储(例如，以非暂态方式)从级6输出的多通道音频节目(例如，基于对象的音频节目)的至少一个帧或其他片段。该节目从缓冲器3A输出，以被子系统5传送至解码器7。通常，节目是基于对象的音频节目，并且节目的每个片段(或者一些片段中的每一个)包括扬声器通道的音床(a bed of speakerchannels)的音频内容、对象通道集合的音频内容、以及元数据。元数据通常包括对象通道的对象相关元数据，以及对象通道和扬声器通道的加水印元数据(例如，水印适合性值)(在编码器3的加水印元数据生成子系统2生成了这样的加水印元数据的实现中)。

图1的解码器7包括如图所示耦接在一起的解码子系统8、对象处理子系统9以及呈现(和加水印)子系统11。在关于所示系统的变型中，省略了元件中的一个或多个，或者包括另外的音频数据处理单元。在一些实现中，解码器7是或者包括在重放系统(例如，在电影院或者终端用户的家庭影院系统中)中，该重放系统通常包括重放扬声器组(例如，图5中所示的扬声器)。

在一些实现中，根据本发明的实施方式来配置解码器7，以确定由子系统5传送的多通道音频节目(例如，基于对象的多通道音频节目)的通道的水印适合性值。在这些实现中，解码器7通常还被配置成使用这样的水印适合性值对节目的一些通道执行加水印(例如，在子系统11中)。

在一些实现中，一起考虑的解码器7和编码器3被配置成执行本发明的实施方式。在这些实现中，编码器3被配置成确定要传送的多通道音频节目(例如，基于对象的多通道音频节目)的通道的加水印元数据(例如，水印适合性值)，并且将这样的加水印元数据包括在节目中，并且解码器7被配置成识别(解析)节目(其已经被传送至解码器7)的相应通道的加水印元数据(例如，水印适合性值或根据其确定的值)，并且使用水印元数据对所选择的节目的通道执行加水印。

图1的传送子系统5被配置成存储和/或发送(例如，广播)由编码器3生成的节目。在一些实施方式中，子系统5通过广播系统或网络(例如，因特网)实现将多通道音频节目(例如，基于对象的音频节目)传送(例如，发送)至解码器7。在一些其他实施方式中，子系统5将多通道音频节目(例如，基于对象的音频节目)存储在存储介质(例如，磁盘或磁盘组)中，并且解码器7被配置成从存储介质读取节目。

在典型操作中，解码器7的解码子系统8接受(接收或读取)由传送子系统5传送的节目。在典型实现中，子系统8包括缓冲器8A，该缓冲器8A存储(例如，以非暂态方式)被传送至解码器7的基于对象的音频节目的至少一个帧或其他片段(通常包括扬声器通道的音床的音频内容、对象通道的音频内容和元数据)。元数据通常包括节目的对象通道的对象相关元数据，并且还可以包括对于节目的对象通道和扬声器通道根据本发明的实施方式所生成的加水印元数据(例如，水印适合性值)。解码子系统8从缓冲器8A读取节目的每个片段，并且对每个这样的片段进行解码。通常，子系统8对表示节目的比特流进行解析，以识别扬声器通道(例如，扬声器通道的音床)、对象通道和元数据，对扬声器通道进行解码并且将解码扬声器通道和元数据输出至子系统9。子系统8还对所有或一些对象通道进行解码(如果需要)，并且将对象通道(包括任何解码的对象通道)输出至子系统9。

对象处理子系统9被耦接，以(从解码子系统8)接收所传送的节目的解码的扬声器通道和对象通道(包括任何解码的对象通道)的音频样本以及元数据，并且将节目所表示的或者根据节目所确定的对象通道集合(例如，对象通道全集的所选择子集)以及相应的元数据输出至呈现子系统11。通常，子系统9还被配置成将从子系统8输出的解码的扬声器通道，以及与其相对应的元数据无改变地传递通过(pass through)(至子系统11)。子系统9可以被配置成：对被设定(assert)至子系统9的对象通道(和/或元数据)中的至少一些进行处理，以生成对象通道和其设定至子系统11的相应元数据。通常，子系统9被配置成确定所选择的对象通道集合(例如，传送节目的所有对象通道，或者节目的对象通道全集的子集，其中，以默认方式或以另外的方式来确定该子集)，并且将所选择的对象通道以及与所选择的对象通道相对应的元数据输出至子系统11。对象选择可以通过用户选择(如从控制器被设定至子系统9的控制数据所表示的)和/或子系统9已经被编程为或以其他方式被配置为实现的规则(例如，表示条件和/或约束)来确定。

如果根据本发明的典型实施方式对子系统9进行配置，则在典型操作中子系统9的输出包括以下：

表示所传送的节目的扬声器通道音床的音频样本流(以及此外可选地相应元数据，例如扬声器通道的水印适合性值)；以及

表示节目的对象通道(或者根据节目的对象通道例如通过混音所确定的对象通道)的音频样本流以及相应的元数据流(包括对象相关元数据，以及此外可选地对象通道的水印适合性值)。

呈现子系统11被配置成呈现由子系统9的输出确定的音频内容，以供重放扬声器系统(图1中未示出)重放。呈现包括(通常使用从子系统9接收的或由子系统11生成的水印适合性值)对音频内容的所选择通道加水印。子系统11被配置成使用从子系统9输出的呈现参数(例如，对象相关元数据值，其可以表示水平和空间位置或轨迹)，将从子系统9输出的对象通道所确定的音频对象映射至可用的重放扬声器通道。通常，通过从子系统9输出的对象相关元数据来确定至少一些呈现参数。呈现系统11还接收由子系统9传递通过的扬声器通道的音床。通常，子系统11是智能混音器，并且被配置成确定用于可用重放扬声器的扬声器馈送，包括通过将(由子系统9的输出确定的)一个或多个对象映射至许多单独的扬声器通道中的每一个，并且将对象与节目的每个相应的扬声器通道所表示的“音床(bed)”音频内容进行混音。

在一些实施方式中，要被驱动以呈现音频的扬声器被假定位于重放环境中的任意位置；不仅仅位于(标称)水平平面中。在一些这样的情况下，节目中所包括的元数据表示用于在(三维体积中的)任意表观空间位置处使用三维扬声器阵列来呈现节目的至少一个对象的呈现参数。例如，对象通道可以具有表示要呈现(由对象通道表示的)对象的表观空间位置的三维轨迹的相应元数据。轨迹可以包括一系列“地板”位置(在被假定位于重放环境的地板上的扬声器子集的平面中，或者在重放环境的另一水平平面中)以及一系列“地板上方”位置(通过驱动被假定位于重放环境的至少一个其他水平平面中的扬声器子集来确定每个“地板上方”位置)。在这样的情况下，可以根据本发明执行呈现，使得可以驱动扬声器以发出与“音床”音频内容所确定的声音相混合的(由相关对象通道确定的)声音，该声音将被感知为从包括轨迹的三维空间中的一系列对象位置发出。

可选地，数字音频处理(“DAP”)级(例如，许多预定的输出扬声器通道配置中的每个配置的一个级)被耦接至呈现子系统11的输出，以对呈现子系统的输出执行后处理。这样的处理的示例包括智能均衡或扬声器虚拟化处理。

呈现子系统11(或者子系统11之后的DAP级)的输出可以是PCM比特流(其确定用于可用扬声器的扬声器馈送)。

在一类实施方式中，本发明是用于对多通道音频节目加水印的方法，包括以下步骤：选择要加水印的节目的至少一个片段的通道的子集(例如，根据该至少一个片段确定的通道子集)；以及给通道子集中的每个通道加水印。在一些实施方式中，节目是基于对象的音频节目(例如，电影音轨)，并且给该节目的至少一个对象通道和/或至少一个扬声器通道加水印。在一些实施方式中，呈现系统(例如，图1的解码器7的子系统11的实现)根据基于对象的音频节目(即，根据该节目的至少一个对象通道和/或至少一个扬声器通道)来确定重放扬声器通道集合(每个扬声器通道用于通过重放系统的不同扬声器进行重放)，并且给该扬声器通道集合的子集加水印。在一些实施方式中，在响应于节目的通道而生成扬声器馈送之前(例如，通过被配置成接收、解码和呈现节目的解码器，或者在要传送至用于解码和呈现的解码器的节目的生成期间)，给所选择的子集加水印。在一些实施方式中，在对节目的编码版本(例如，表示节目的编码比特流)进行解码之后，而非在响应于解码节目的音频内容而生成扬声器馈送之前，(由呈现子系统)给所选择的子集加水印。在一些实施方式中，在节目的呈现期间给所选择的子集加水印(例如，响应于节目的通道而生成扬声器馈送，扬声器馈送对应于节目的通道或者根据节目的通道确定扬声器馈送，并且给扬声器馈送集合的所选择子集加水印)。

通常，在重放系统中(例如，在图1的解码器7的实现中)执行加水印，该重放系统被耦接和配置成对多通道音频节目进行解码和呈现，并且其具有有限的加水印能力(即，该重放系统不具有给无限数量的音频节目通道加水印的能力)。

在一些实施方式中，解码器(例如，被安装在电影院中)对表示多通道音频节目的编码比特流进行解码，以确定节目的通道(扬声器通道和/或对象通道)、或者根据节目所确定的通道(扬声器通道)。(在解码音频的呈现之前或在解码音频的呈现期间)给所选择的通道子集加水印，使得当节目已经经历呈现和重放时，可以在重放期间根据从扬声器组发出的声音来确定水印(例如，通过处理)。因此，如果音频被记录(例如，由蜂窝电话或其他装置非法地记录)，则能够通过对所记录的信号进行处理来检测水印。水印可以表示重放系统ID(例如，电影院ID)和重放时间。

在一些实施方式中，为了水印检测和水印中所嵌入信息的恢复，对所选择的通道子集进行优化。如果在内容创建(例如，节目的编码版本的生成)期间执行通道子集选择，则加水印元数据(表示节目的一系列片段中的每个片段的所选择子集)通常连同节目的音频内容一起被分发(例如，加水印元数据被包括在节目中)。可替代地，在解码、呈现或重放期间执行通道子集选择。

期望本发明的方法的典型实施方式以改进的水印可检测性、降低的加水印成本以及所呈现的加水印音频的改进质量(相对于通过常规加水印能够获得的质量)来提供加水印。通常确定每个实现的特定参数以获得水印恢复的鲁棒性、所呈现的加水印音频的质量以及水印信息容量之间可接受的平衡。

在第一类实施方式中，本发明的方法在音频节目创建期间(例如，在图1的编码器3的实现的子系统2中)生成加水印元数据(例如，水印适合性值)，包括通过对在多通道音频节目的片段中要包括的音频内容进行分析(例如，对节目的片段中的音频内容进行分析，每个片段具有T分钟的持续时间，其中，T的值基于要使用的加水印算法以及水印恢复所需要的时间量)，以及确定节目的每个片段的每个通道的至少一个水印适合性值(在本文中有时称为“权重”或水印适合性权重)。在典型实施方式中，每个水印适合性值(“WSV”)表示要加水印的(节目的相关片段中的)相应通道的内容的适合性(例如，WSV可以表示相应内容的RMS幅值和/或在给该内容施加水印的情况下水印的可恢复性)。水印适合性值(或者根据水印适合性值确定的加水印数据)作为元数据被包括在音频节目中(例如，节目的每个通道的每个片段包括表示通道的片段的水印适合性或者是否应当给通道的片段加水印的加水印元数据)。重放系统可以使用加水印元数据检测(通常，容易地)节目的每个片段的通道中的哪些通道最适合于加水印或者应当给哪些通道加水印。

在第一类的典型实施方式中，重放系统被限制为对要解码和呈现的音频节目的(或者根据其确定的)不多于最大数量(“N”)的通道加水印。对于被解码的音频节目的每个片段，重放系统被配置成：对节目的通道(例如，基于对象的音频节目的扬声器通道音床的每个扬声器通道以及每个对象通道)的加水印适合性值进行比较；并且根据加水印适合性值来识别以下子集：片段的N个最高加权(最适合于加水印)的通道。然后，给每个片段的所识别的N个通道加水印。当对片段完成了加水印时，要呈现的所有通道(包括N个加水印通道)被重新组装(被同步)和呈现(即，响应于包括N个加水印通道的通道全集而生成扬声器馈送)。

图2是第一类的实施方式的图。如图2所示，生成要被加水印和呈现的多通道节目的处理(“内容创建”处理，其可以通过图1的编码器3的实现来执行)包括以下步骤：

“加权”步骤(50)，其包括根据片段中的通道的内容(片段中的通道的音频内容的RMS幅值)以及可选地还根据与音频内容相对应的元数据来确定节目的片段的每个通道(例如，片段的每个扬声器通道“音床”的每个扬声器通道，以及片段的每个对象通道)的加水印适合性；

步骤(51)，其确定片段的每个通道的水印适合性值(“WSV”)，该水印适合性值将被包括作为用于片段的每个通道的相应音频内容的元数据；

打包步骤(52)，其将片段编码为比特流，该比特流包括使用(在步骤51中确定的)相应WSV以及片段的每个所述通道的原始元数据而打包的片段的每个通道的音频内容的样本(通常，编码样本)。

如图2所示，在步骤52中生成的多通道节目的重放处理(其可以通过图1的解码器7的实现来执行)包括以下步骤：

解包步骤(53)，其包括将节目的片段解析成片段的每个通道的音频内容(以及对表示这样的音频内容的音频样本执行任何需要的解码)、与片段的通道相对应的WSV、以及与片段的通道相对应的其他元数据；

步骤(54)，其对片段的通道的WSV值进行处理，以识别(选择)应当给通道中的哪些通道加水印；

步骤(55)，其对在步骤(54)中选择的片段的每个通道加水印；

步骤(56)，其使片段的每个加水印通道的加水印音频内容与要呈现的片段的每个其他通道的无水印音频内容同步；以及

步骤(57)，其对要呈现的片段的每个通道的经同步的加水印音频内容和无水印音频内容进行呈现，从而生成片段的每个所述通道的扬声器馈送。

1.根据片段中的通道的音频内容的均方根(RMS)幅值来确定片段的通道的WSV(例如，片段的通道的WSV被确定成片段中的通道的音频内容的均方根(RMS)幅值)；

2.根据片段中的通道的音频内容的RMS幅值以及与音频内容相对应的元数据(与节目一起传送)来确定片段的通道的WSV。例如，元数据可以表示要施加给片段中的通道的音频内容的增益(或者增益增大或减小)；

3.片段被呈现(针对片段根据片段的所有通道来确定扬声器馈送)为其在空间(例如，礼堂)的中心或在空间(例如，礼堂)的中心附近被感知，并且根据所呈现的片段的所述通道的RMS幅值来确定(例如，通过图1的解码器7的子系统11的实现，或者通过图1的编码器3的子系统2)所呈现的片段的每个通道的WSV。例如，可以使用片段的区域排除元数据(zoneexclusion metadata)(与基于对象的音频节目一起被传送)来呈现片段，其中，区域排除元数据表示允许哪些对象通道(以及不允许哪些对象通道)有助于(contribute)片段的每个扬声器馈送(例如，元数据可以使表示一些对象的音频内容仅被剧场的特定区域中的扬声器重放)。因此，如果元数据表示“排除”区域中的扬声器不应当发出表示“第一”对象的声音，则排除区域中的扬声器的扬声器馈送将不表示第一对象，并且所呈现的片段的每个相应通道的WSV将不表示与第一对象相对应的音频内容的RMS幅值(虽然其可以表示与除了第一对象以外的对象相对应的音频内容的RMS幅值)；

4.至少部分地根据在片段的呈现期间要被驱动以发出表示通道的内容的扬声器的数量(例如，空间中的可用扬声器全集中的、在片段的呈现期间将被驱动以发出表示通道的内容的扬声器的百分比)，来确定片段的通道的WSV。如果水印分布在多个扬声器中，则一些类型的加水印表现较好。例如，如果对象通道要被呈现为大的或“宽的”对象(通过驱动相对大数量的扬声器)，则可以为片段的该通道分配大的WSV(表示该通道非常适合于加水印)，而如果对象通道要被呈现为小的或“窄的”对象(通过相对小数量的扬声器)，则可以为片段的该通道分配小的WSV(表示通道并不非常适合于加水印)。

5.根据有限频率范围内的通道的音频内容的能量或RMS幅值来确定片段的通道的WSV。加水印算法经常将信息仅嵌入在有限的频率范围内。当要使用这样的加水印时，根据与要加水印的频率范围相同的频率范围内的信号能量或RMS幅值来计算WSV会是有用的；

6.使用水印嵌入器(例如，通过图1的解码器7的子系统11的实施方式来实现)来确定片段的通道的WSV。大多数加水印算法实现以下心理声学模型：根据时间和频率来调整水印嵌入强度，以便以对所感知的音频质量的最小影响来提供最大的水印恢复。因此，嵌入器将内在地具有被施加给每个信号的加水印强度的度量，并且可以将(用于片段的通道的)该度量用作为(用于片段的通道的)WSV值。

7.使用水印检测器(例如，通过图1的解码器7的子系统11的实施方式来实现)来确定用于片段的通道的WSV。除了恢复水印以外，大多数加水印检测器还将产生对所提取的信息的精确度或可靠度的测量(例如，假水印概率，其是所提取的水印不正确的概率)。可以将这样的测量(由用于片段的通道的水印检测器来确定)用作为(用于片段的通道的)WSV值，或者可以使用这样的测量来至少部分地确定用于片段的通道的WSV；

8.使用除了RMS或信号幅值以外的(片段中的通道的音频内容的)至少一个其他特征来确定用于片段的通道的WSV。例如，扩展频谱加水印技术对宽带音频信号表现最佳，但是通常对窄带信号表现不佳。带宽、频谱平坦度、或者表示片段中的通道的音频内容的频谱形状的任何其他特征对于估计水印检测处理的鲁棒性而言是有用的，从而其可以被用于至少部分地确定片段的通道的WSV；

优选地，节目的片段的通道的WSV是(或者可以被处理以确定)有序列表(orderedlist)，该有序列表按照加水印的适合性的升序或降序表示通道。以这种方式，可以获得独立于重放系统的加水印能力的最佳的可能的加水印成果。由于音频信号通常实际上是时变的且动态的，所以有序列表优选地是时间相关的(即，对于节目的每个片段来确定有序列表)。

如果加水印系统的能力允许给比仅仅“绝对要求的”通道更多的通道加水印，则可以将这样的有序列表划分成必须加水印以确保最小服务质量(例如，水印检测鲁棒性)的第一通道集合(“绝对要求的”通道)的列表，以及可以用于选择要加水印的另外的通道的第二有序列表。

在第二类实施方式中，本发明仅通过重放系统(例如，通过图1的解码器7的实现)来实现，并且不要求根据本发明的实施方式对生成多通道音频节目(要被加水印和呈现以供重放)的编码系统进行配置(即，编码系统无需识别节目的通道的WSV)。在这些实施方式中，重放系统例如使用上述方法中的任意方法来确定节目的每个片段的通道的WSV。图3是第二类的这样的实施方式(其可以通过图1的解码器7的实现来执行)的图。

如图3所示，多通道节目的重放处理包括以下步骤：

解包步骤(60)，其包括将节目的片段解析成片段的每个通道的音频内容(以及任何相应的元数据)(并且对表示这样的音频内容的音频样本执行任何需要的解码)；

“加权”步骤(61)，其包括根据片段中的通道的内容(例如，片段中的通道的音频内容的RMS幅值)以及此外可选地根据与音频内容相对应的元数据，来生成表示节目的片段的每个通道(即，片段的每个扬声器通道“音床”中的每个扬声器通道，以及片段的每个对象通道)的加水印适合性的加水印适合性数据；

步骤(62)，其使用加水印适合性数据来选择片段的通道的子集，并且给片段的通道的子集中的每个通道加水印；

步骤(63)，其使片段的每个加水印通道的加水印音频内容与要呈现的片段的每个其他通道的无水印音频内容同步；以及

步骤(64)，其对要呈现的片段的每个通道的经同步的加水印音频内容和无水印音频内容进行呈现，从而生成片段的每个所述通道的扬声器馈送。

在第二类的一些实施方式中，重放系统针对加水印而选择根据多通道节目所确定的单独扬声器通道的集合的子集。例如，如果节目是包括对象通道以及扬声器通道音床的基于对象的音频节目，则重放系统(例如，图1的解码器7的子系统11的实现)可以根据节目的对象通道和/或扬声器通道来确定重放扬声器通道集合(每个重放扬声器通道对应于重放扬声器集合中的不同扬声器)，然后重放系统选择用于加水印的重放扬声器通道子集。用于节目的片段的子集选择可以基于根据节目的片段而确定的每个扬声器通道的RMS幅值，或者其可以基于另外的标准。图4是第二类的这样的实施方式(其可以通过图1的解码器7的实现来执行)的图。

如图4所示，多通道节目的重放处理包括以下步骤：

解包步骤(70)，其包括将节目的片段解析成片段的每个通道的音频内容(以及任何相应的元数据)(并且对表示这样的音频内容的音频样本执行任何需要的解码)；

步骤(71)，其呈现片段的音频内容，从而确定重放扬声器通道集合(每个重放扬声器通道对应于并且表示要由重放扬声器集合中的不同扬声器播放的内容)；

“加权”步骤(72)，其包括生成表示每个重放扬声器通道的加水印适合性的加水印适合性数据；

步骤(73)，其使用加水印适合性数据来选择片段的重放扬声器通道子集，并且给片段的重放扬声器通道子集中的每个通道加水印；以及

步骤(74)，其使片段的重放扬声器通道子集中的每个加水印通道的加水印音频内容与片段的重放扬声器通道子集中的每个其他通道的无水印音频内容同步。

在第二类的一些实施方式中，重放系统使用重放扬声器(被安装在礼堂或其他重放环境中)的配置来选择要加水印的通道子集，包括通过识别重放环境中的有差异位置(区域)中的重放扬声器全集的分组(子集)。这些实施方式包括以下步骤：根据节目的通道确定重放扬声器通道集合，每个重放扬声器通道被通过重放扬声器(每个扬声器可以包括一个或多个变换器)中的不同重放扬声器进行重放；选择该重放扬声器通道集合的子集以用于加水印；对该重放扬声器通道集合的该子集中的每个通道加水印(从而生成加水印通道集合)，包括通过识别被安装在重放环境中的有差异区域中的重放扬声器的分组(groups)，使得每个分组由安装在区域中的不同区域中的扬声器组成；识别供每个分组重放的音频内容的加水印适合性；以及根据供所述分组的至少一个子集中的每个分组重放的音频内容的加水印适合性来选择该重放扬声器通道集合的子集。通常，节目(或节目的片段)的音频内容(例如，对象通道内容和扬声器通道内容)被呈现，从而确定该重放扬声器通道集合(每个重放扬声器通道对应于并且表示要由该重放扬声器集合中的不同扬声器重放的内容)，重放系统选择与扬声器的分组中的每个分组或者分组的子集中的每个分组相对应的一个重放扬声器通道(或者小数量的重放扬声器通道)(例如，用于驱动每个分组中的一个扬声器的扬声器通道)，并且给每个这样选择的重放扬声器通道加水印。这会产生仅给通常表示特定类型的音频内容的通道加水印，并且可以使得能够实现水印的恢复(以高的成功概率)而不产生大的计算成本。这些实施方式不测量为了加水印所选择的每个通道的音频内容的响度(或其他特征)。替代地，它们假定(重放扬声器通道全集中的)一些重放扬声器通道适合于加水印(例如，很可能表示响亮内容和/或特定类型的内容)并且应当被加水印。通常，仅对被假定为很可能适合于加水印的重放扬声器通道加水印，并且对用于驱动扬声器全集的每个分组中的扬声器的信号加水印。将参照图5来描述第二类的这样的实施方式的示例。

图5示出了空间(例如，电影院)中的重放扬声器阵列。扬声器被分成以下分组：左前扬声器(L)、前中扬声器(C)、右前扬声器(R)、左侧扬声器(Lss1、Lss2、Lss3和Lss4)、右侧扬声器(Rss1、Rss2、Rss3和Rss4)、左天花板安装的扬声器(Lts1、Lts2、Lts3和Lts4)、右天花板安装的扬声器(Rts1、Rts2、Rts3和Rts4)、左后(环绕)扬声器(Lrs1和Lrs2)、以及右后(环绕)扬声器(Rrs1和Rrs2)。

假定要被左前扬声器(L)、前中扬声器(C)、右前扬声器(R)、左后扬声器(Lrs1和Lrs2)以及右后扬声器(Rrs1和Rrs2)重放的内容适合于加水印，从而给与这些扬声器中的每一个相对应的重放扬声器通道加水印(例如，通过解码器7的子系统11的实现)。假定要被左侧扬声器(Lss1、Lss2、Lss3和Lss4)和右侧扬声器(Rss1、Rss2、Rss3和Rss4)重放的内容较不适合于加水印，从而给与这两个分组中的每个分组中的仅两个或三个扬声器(即，如图5所示，Lss1、Lss2、Lss3、Rss1和Rss2)相对应的重放扬声器通道加水印(例如，通过解码器7的子系统11的实现)。也假定要被左天花板安装的扬声器(Lts1、Lts2、Lts3和Lts4)和右天花板安装的扬声器(Rts1、Rts2、Rts3和Rts4)重放的内容较不适合于加水印，从而给与这两个分组中的每个分组中的仅两个扬声器(即，如图5所示，Lts1、Lts2、Rts1和Rts2)相对应的重放扬声器通道加水印(例如，通过解码器7的子系统11的实现)。

如果预先确定将仅对最小数量(“M”)的重放扬声器通道进行标记(例如，如在图5中M＝16)，则虽然节目的呈现将生成用于驱动多于“M”个重放扬声器的重放扬声器通道(例如，用于驱动如图5中的23个重放扬声器的23个重放扬声器通道)，但是可以如下来选择要加水印的特定重放扬声器通道：针对每个分组的扬声器的一个重放扬声器通道(例如，如图5所示，L、C、R、Lss1、Lrs1、Rss1、Rrs1、Lts1和Rts1)被选择以用于加水印；然后，只要被加水印的通道的总数不超过“M”(或者在要加水印的通道的总数达到“M”之前)，则每个分组中的另外的重放扬声器通道被选择以用于加水印(例如，如图5所示，Lss2、Lrs2、Rss2、Rrs2、Lts2和Rts2)；等等。因此，在图5示例中，选择一个分组中的第三重放扬声器通道(Lss3)用于加水印，这使得要加水印的通道的总数达到“M”(即，在图5示例中M＝16)。通常，一旦针对重放环境(例如，礼堂)执行了对于要标记的扬声器通道的选择，则无论环境中播放的内容如何，该选择都不会变化(其保持静态)。

根据所使用的加水印技术，经常可以将加水印表述为以下添加处理：在该添加处理中将水印信号添加至音频信号。根据宿主(音频)信号依据电平和频谱特性对水印信号进行调整。同样地，假定使用足够的衰退持续时间(通常大约10ms或更长)，水印可以容易地在一个流(通道)上渐弱而在另一个流(通道)上渐强，而不产生伪声(artifacts)。因此，虽然不那么频繁地执行对要加水印的通道全集的子集的选择(即，对具有大约几十毫秒的持续时间的节目的每个片段执行选择)会是有益的，但是通常可以使用大约几十毫秒的时间粒度来执行对要加水印的通道全集的子集的选择(即，对具有大约几十毫秒的持续时间的节目的每个片段执行选择)。

在内容创作处理期间，(例如，电影制作室中的)内容创建系统通常可以启用或禁用音频加水印。通过在内容创建期间动态地修改加水印属性(即，通过动态地选择要加水印的内容的通道的不同子集)，混音工程师可以影响加水印处理，以确保内容中的关键摘录被加水印或不被加水印(或者经历或多或少可感知的加水印)。

可以以硬件、固件、或软件、或者其组合(例如，如可编程逻辑阵列)实现本发明的实施方式。例如，可以以适当编程(或以其他方式配置)的硬件或固件将图1的编码器3或解码器7或者解码器7的子系统8、9和/或11实现为例如编程的通用处理器、数字信号处理器或微处理器。除非另有指明，否则作为本发明的一部分而被包括的算法或处理并不内在地与任何特定的计算机或其他设备相关。具体地，各种通用机器可以利用根据本文中的教示而编写的程序而被使用，或者可以更方便的是构造更专用的设备(例如，集成电路)来执行所需要的方法步骤。因此，可以以在一个或多个可编程计算机系统(例如，实现图1的编码器3、或解码器7、或者解码器7的子系统8、9和/或11的计算机系统)上运行的一个或多个计算机程序来实现本发明，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口、以及至少一个输出装置或端口。程序代码被应用于输入数据，以执行本文中所描述的功能并生成输出信息。输出信息被以已知的方式应用于一个或多个输出装置。

可以以任何期望的计算机语言(包括机器语言、汇编语言、或高级过程语言、逻辑语言、或面向对象的编程语言)来实现每个这样的程序，以与计算机系统进行通信。在任何情况下，语言可以是编译语言或解释语言。

例如，当由计算机软件指令序列来实现时，本发明的实施方式的各种功能和步骤可以通过在适当的数字信号处理硬件中运行的多线程软件指令序列来实现，在这种情况下，实施方式的各种装置、步骤和功能可以对应于软件指令的部分。

每个这样的计算机程序优选地被存储于或者被下载至能够被通用或专用可编程计算机读取的存储介质或装置(例如，固态存储器或介质，或者磁介质或光介质)，用于当存储介质或装置被计算机系统读取以执行本文所描述的过程时对计算机进行配置和操作。本发明的系统还可以被实现为配置有(即，存储)计算机程序的计算机可读存储介质，其中，这样配置的存储介质使计算机系统以特定和预定义的方式进行操作，以执行本文中所描述的功能。

尽管已经借助于示例并且根据示例性具体实施方式描述了实现，但是应当理解，本发明的实现不限于所公开的实施方式。替代地，如对于本领域技术人员而言将显而易见的，意图覆盖各种修改和相似的布置。因此，所附权利要求的范围应当符合最广泛的解释，以包括所有这样的修改和相似的布置。

Claims

1.一种用于对多通道音频节目加水印的方法，包括以下步骤：

(a)选择所述节目的至少一个片段的通道子集以用于加水印，使得所述子集的选择基于所述节目，或者基于要被用于重放所述节目的重放扬声器的配置；以及

(b)对所述通道子集中的每个通道加水印，从而生成加水印通道集合；

(c)对所述节目的片段中的音频内容进行分析以确定值，所述值表示在所述片段中所述节目的通道的音频内容的加水印适合性，

其中，步骤(c)包括：

确定所述片段中的每个通道的音频内容的均方根幅值的步骤，或者

确定所述片段中的每个通道的有限频率范围内的音频内容的能量或均方根幅值的步骤。

2.根据权利要求1所述的方法，还包括以下步骤：

根据所述节目的通道来确定重放扬声器通道集合，每个所述重放扬声器通道用于安装在重放环境中的扬声器集合中的不同扬声器所进行的重放，其中，在步骤(a)中选择的节目的通道子集是所述重放扬声器通道集合的子集，并且步骤(a)包括以下步骤：

识别被安装在所述重放环境中的有差异区域中的扬声器的分组，使得每个分组由安装在所述区域中的不同区域中的扬声器组成，并且识别供每个所述分组重放的音频内容的加水印适合性；以及

根据供所述分组的至少一个子集中的每个分组重放的音频内容的加水印适合性来选择所述重放扬声器通道集合的子集。

3.根据权利要求1或2所述的方法，还包括以下步骤：

在步骤(a)和步骤(b)之后，响应于所述节目的加水印通道集合以及至少一个无水印通道来生成扬声器馈送。

4.根据权利要求1所述的方法，其中，所述节目包括通道集合，所述方法还包括以下步骤：

呈现所述节目，包括通过响应于所述节目的至少一些通道来生成扬声器馈送，并且其中，步骤(a)包括选择所述扬声器馈送的子集以用于加水印的步骤，并且步骤(b)包括对所述扬声器馈送的子集中的每个扬声器馈送的至少一个片段加水印的步骤。

5.根据权利要求1所述的方法，其中，所述节目是基于对象的音频节目，所述方法包括以下步骤：

根据所述节目的至少一个对象通道和/或至少一个扬声器通道来确定重放扬声器通道集合，每个所述重放扬声器通道用于重放系统的不同扬声器所进行的重放，并且其中，在步骤(a)中选择的通道子集是所述重放扬声器通道集合的子集。

6.根据权利要求1所述的方法，其中，所述节目包括加水印元数据，所述方法包括对解码器进行操作以解码和呈现所述节目的步骤，并且步骤(a)包括使用所述加水印元数据来选择所述通道子集的步骤。

7.根据权利要求6所述的方法，其中，所述加水印元数据是水印适合性值，所述节目的片段的每个所述水印适合性值表示在所述片段中所述节目的相应通道的音频内容的加水印适合性。

8.根据权利要求1所述的方法，还包括以下步骤：

其中，根据在所述片段的重放期间要被驱动以发出表示所述通道的内容的扬声器的数量，至少部分地确定所述片段的至少一个通道的加水印适合性值。

9.一种音频重放系统，包括：

解码子系统，其被耦接和配置成对编码比特流进行解析和解码，以从所述编码比特流中提取表示多通道音频节目的音频数据和元数据；以及

第二子系统，其被耦接和配置成选择所述节目的至少一个片段的通道的子集以用于加水印，并且对表示所述通道子集中的每个通道的数据加水印，从而确定加水印通道集合，其中，所述子集的选择基于所述节目或者基于要被用于重放所述节目的重放扬声器的配置，

其中，所述第二子系统被配置成对所述节目的片段的音频数据进行分析以确定表示在所述片段中所述节目的通道的音频内容的加水印适合性的值，包括通过确定所述片段中的每个通道的音频数据的均方根幅值，或者通过确定所述片段中的每个通道的有限频率范围内的音频数据的能量或均方根幅值，并且所述第二子系统被配置成响应于所述值来选择所述通道子集。

10.根据权利要求9所述的系统，其中，所述第二子系统被配置成根据所述音频数据和所述元数据来确定重放扬声器通道集合，每个所述重放扬声器通道用于安装在重放环境中的扬声器集合中的不同扬声器所进行的重放，并且所述第二子系统被配置成选择所述重放扬声器通道集合的子集作为所述通道子集，包括通过：

识别安装在所述重放环境中的有差异区域中的扬声器的分组，使得每个所述分组由安装在所述区域中的不同区域中的扬声器组成，并且识别供每个所述分组重放的音频内容的加水印适合性；以及

11.根据权利要求9或10所述的系统，其中，所述节目包括通道集合，所述第二子系统被配置成：

呈现所述节目，包括通过响应于所述节目的至少一些通道来生成扬声器馈送；以及

选择所述扬声器馈送的子集以用于加水印，并且对所述扬声器馈送的子集中的每个扬声器馈送的至少一个片段加水印。

12.根据权利要求9所述的系统，其中，所述节目是基于对象的音频节目，所述第二子系统被配置成：根据所述节目的至少一个对象通道和/或至少一个扬声器通道来确定重放扬声器通道集合，每个所述重放扬声器通道用于重放系统的不同扬声器所进行的重放，并且选择所述重放扬声器通道集合的子集作为所述通道子集。

13.根据权利要求9所述的系统，其中，所述节目包括加水印元数据，所述解码子系统被配置成提取所述加水印元数据，所述第二子系统被配置成使用所述加水印元数据来选择所述通道子集以用于加水印。

14.根据权利要求13所述的系统，其中，所述加水印元数据是水印适合性值，所述节目的片段的每个所述加水印适合性值表示在所述片段中所述节目的相应通道的音频内容的加水印适合性。

15.根据权利要求9所述的系统，根据在所述片段的重放期间要被驱动以发出表示所述通道的内容的扬声器的数量来至少部分地确定所述片段的至少一个通道的加水印适合性值。

16.一种被配置成生成比特流的音频编码器，所述比特流表示编码的多通道音频节目，所述编码器包括：

第一子系统，其被耦接和配置成响应于音频内容的流的片段而生成加水印元数据，其中，所述加水印元数据表示每个流的至少一个片段的加水印适合性，或者所述加水印元数据表示是否应当对每个流的至少一个片段执行加水印；以及

第二子系统，其被耦接和配置成生成表示所述编码的多通道音频节目的比特流，包括通过对音频内容的至少一些流进行编码以生成音频内容的编码流，并且将音频内容的每个编码流、音频内容的未被编码的每个流、以及所述加水印元数据包括在所述比特流中，

其中，所述第一子系统被配置成对音频内容的每个流的至少一个片段进行分析，以确定表示所述片段中的每个流的音频内容的加水印适合性的加水印适合性值，包括通过确定所述片段中的所述每个流的音频内容的均方根幅值，或者通过确定所述片段中的每个通道的有限频率范围内的音频内容的能量或均方根幅值，并且所述第一子系统被配置成响应于所述值来选择所述通道子集。

17.根据权利要求16所述的编码器，其中，根据在所述片段的重放期间要被驱动以发出表示所述通道的内容的扬声器的数量来至少部分地确定所述片段的至少一个通道的加水印适合性值。