CN106716525B

CN106716525B - 下混音频信号中的声音对象插入

Info

Publication number: CN106716525B
Application number: CN201580051610.7A
Authority: CN
Inventors: L·J·萨缪森; P·威廉姆斯; C·辛德勒; W·A·席尔德巴赫
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2014-09-25
Filing date: 2015-09-23
Publication date: 2020-10-23
Anticipated expiration: 2035-09-23
Also published as: WO2016049106A1; EP3198594A1; CN106716525A; US20170251321A1; US9883309B2; EP3198594B1

Abstract

描述了一种用于将第一音频信号插入到包括下混信号和相关联的比特流元数据的比特流中的方法。下混信号和相关联的比特流元数据指示包括多个空间多样音频信号的音频节目。下混信号包括至少一个音频声道，比特流元数据包括用于从至少一个声道再现多个空间多样音频信号的上混元数据。该方法包括将第一音频信号与至少一个音频声道混合以生成经修改下混信号。该方法还包括生成包括经修改下混信号和相关联的经修改比特流元数据的输出比特流，经修改下混信号和相关联的经修改比特流元数据指示包括多个经修改空间多样音频信号的经修改音频节目。

Description

下混音频信号中的声音对象插入

相关申请的交叉引用

本申请要求2014年9月25日提交的美国临时专利申请No.62/055,075的优先权，该申请通过引用全文而并入于此。

技术领域

本文件涉及音频处理。具体地说，本文件涉及下混音频信号中的声音对象插入。

背景技术

音频节目可以包括多个音频对象以便增强收听者的收听体验。音频对象可以被定位在3维渲染环境内的随时间变化的位置处。具体地说，音频对象可以被定位在不同高度处，并且渲染环境可以被配置为在不同高度处渲染这样的音频对象。

包括多个音频对象的音频节目的发送可能需要相对较大的带宽。为了减小这样的音频节目的带宽，多个音频对象可以被下混为有限数量的音频声道。举例来说，多个音频对象可以被下混为两个音频声道(例如，立体声下混信号)、5+1音频声道(例如，5.1下混信号)或7+1音频声道(例如，7.1下混信号)。此外，可以提供元数据(在本文中被称为上混元数据或联合对象编码(JOC)元数据)，该元数据提供下混音频信号中所包括的音频对象的参数化描述。具体地说，上混或JOC元数据可以被对应的上混器或解码器用来从下混音频信号得出多个音频对象的重构。

在从编码器(其提供下混信号和JOC元数据)到解码器(其基于下混信号并且基于JOC元数据来重构多个音频对象)的传输链内，可能需要将音频信号(例如，机顶盒的系统声音)插入到包括下混信号和JOC元数据的比特流中。本文件描述了使得能够高效率地且高质量地将一个或多个音频信号插入到这样的下混信号中的方法和系统。

发明内容

根据一方面，描述了一种用于将第一音频信号插入到包括下混信号和相关联的比特流元数据的比特流中的方法。下混信号和相关联的比特流元数据指示包括多个空间多样(spatially diverse)音频信号(例如，音频对象)的音频节目。下混信号包括至少一个音频声道，比特流元数据包括用于从至少一个音频声道再现多个空间多样音频信号的上混元数据。该方法包括将第一音频信号与至少一个音频声道混合以生成包括至少一个经修改音频声道的经修改下混信号。此外，该方法包括对比特流元数据进行修改以生成经修改比特流元数据。另外，该方法包括生成包括经修改下混信号和相关联的经修改比特流元数据的输出比特流，其中，经修改下混信号和相关联的经修改比特流元数据指示包括多个经修改空间多样音频信号的经修改音频节目。

根据另一方面，描述了一种用于将第一音频信号插入到包括下混信号和相关联的比特流元数据的比特流中的方法。下混信号和相关联的比特流元数据指示包括多个空间多样音频信号的音频节目，其中，下混信号包括至少一个音频声道，并且其中，比特流元数据包括用于从至少一个音频声道再现多个空间多样音频信号的上混元数据。该方法包括将第一音频信号与至少一个音频声道混合以生成包括至少一个经修改音频声道的经修改下混信号。此外，该方法包括：丢弃比特流元数据，并且生成包括经修改下混信号的输出比特流，其中，输出比特流不包括比特流元数据。

根据又一方面，描述了一种插入单元，该插入单元被配置为将第一音频信号插入到包括下混信号和相关联的比特流元数据的比特流中。下混信号和相关联的比特流元数据指示包括多个空间多样音频信号的音频节目。下混信号包括至少一个音频声道，比特流元数据包括用于从至少一个音频声道再现多个空间多样音频信号的上混元数据。插入单元被配置为：将第一音频信号与至少一个音频声道混合以生成包括至少一个经修改音频声道的经修改下混信号，并且对比特流元数据进行修改以生成经修改比特流元数据。此外，插入单元被配置为生成包括经修改下混信号和相关联的经修改比特流元数据的输出比特流，其中，经修改下混信号和相关联的经修改比特流元数据指示包括多个经修改空间多样音频信号的经修改音频节目。

根据又一方面，描述了一种插入单元，该插入单元被配置为将第一音频信号插入到包括下混信号和相关联的比特流元数据的比特流中。下混信号和相关联的比特流元数据指示包括多个空间多样音频信号的音频节目，其中，下混信号包括至少一个音频声道，并且其中，比特流元数据包括用于从至少一个音频声道再现多个空间多样音频信号的上混元数据。插入单元被配置为：将第一音频信号与至少一个音频声道混合以生成包括至少一个经修改音频声道的经修改下混信号，并且丢弃比特流元数据。此外，插入单元被配置为生成包括经修改下混信号的输出比特流，其中，输出比特流不包括比特流元数据。

根据又一方面，描述了一种软件程序。该软件程序可以适于在处理器上执行并且适于当在处理器上执行时进行本文件中所概括的方法步骤。

根据另一方面，描述了一种存储介质。该存储介质可以包括软件程序，该软件程序适于在处理器上执行并且适于当在处理器上执行时进行本文件中所概括的方法步骤。

根据又一方面，描述了一种计算机程序产品。该计算机程序可以包括用于当在计算机上执行时进行本文件中所概括的方法步骤的可执行指令。

应注意到，包括如本专利申请中所概括的、本专利申请的优选实施例的方法和系统可以单独使用或者与本文件中所公开的其他方法和系统组合使用。此外，本专利申请中所概括的方法和系统的所有方面可以任意组合。具体地说，权利要求的特征可以以任意方式相互组合。

附图说明

下面以示例性的方式参考附图来解释本发明，其中

图1示出用于多个音频对象的带宽高效率传输的传输链的框图；

图2示出用于将音频信号插入到包括指示多个音频对象的下混音频信号的比特流中的插入单元的框图；以及

图3示出用于将音频信号插入到包括指示多个音频对象的下混音频信号的比特流中的示例方法的流程图。

具体实施方式

如上面所指示的，本文件是针对用于将附加音频信号(在本文中被称为第一音频信号)插入到比特流中的方法和系统，该比特流包括指示多个音频对象的下混音频信号。图1示出了用于包括多个音频对象的音频节目的传输链100的框图。传输链100包括编码器101、插入单元102以及解码器103。编码器101可以例如被定位在视频/音频内容的分发者(distributer)处。视频/音频内容可以被提供给例如用户家里的机顶盒(STB)，其中，STB使得用户能够从分发者的数据库选择特定的视频/音频内容。然后选定的视频/音频内容可以被编码器101发送到STB，然后可以被提供给解码器103，例如，电视机或家庭影院的解码器103。

在选择过程期间，STB可能需要将系统声音插入到当前提供给解码器103的视频/音频内容中。STB可以使用本文件中描述的插入单元102来将音频信号(例如，系统声音)插入到已经被编码器101接收并且将被提供给解码器103的比特流中。

编码器101可以接收包括多个音频对象的音频节目，其中，音频对象包括音频信号110和相关联的对象音频元数据(OAMD)120。OAMD 120通常描述音频信号110的源在3维渲染环境内的随时间变化的位置，而音频信号110包括将被渲染的实际音频数据。因而音频对象是由音频信号110和相关联的OAMD 120的组合定义的。

编码器101被配置为对多个音频对象110、120进行下混以生成下混音频信号111(例如，2声道、5.1声道或7.1声道下混信号)。此外，编码器101提供比特流元数据121，比特流元数据121使得对应的解码器103可以从下混音频信号111重构多个音频对象110、120。为了这个目的，比特流元数据121通常包括多个上混参数(在本文中也被称为联合对象编码(JOC)元数据或上混元数据)。此外，比特流元数据121通常包括多个音频对象110、120的OAMD 120(在本文中也被称为对象元数据)。

下混信号111和比特流元数据121可以被提供给插入单元102，插入单元102被配置为插入一个或多个音频信号130，并且被配置为提供经修改下混信号112和经修改比特流元数据122，使得经修改下混信号112和经修改比特流元数据122包括一个或多个插入音频信号130。一个或多个插入音频信号130可以例如包括STB的系统声音。经修改下混信号112/比特流元数据122可以被提供给解码器103，解码器103从经修改下混信号112/比特流元数据122生成多个经修改音频对象113、123。多个经修改音频对象113、123还包括一个或多个插入音频信号130，使得当多个经修改音频对象113、123在3维渲染环境内被渲染时一个或多个插入音频信号130被感知到。

图2示出了示例插入单元102的框图。插入单元102包括音频混合器205，该音频混合器205被配置为将下混信号111与要被插入的音频信号130混合，以便提供经修改下混信号112。此外，插入单元102包括元数据修改单元204，元数据修改单元204被配置为改动比特流元数据121以提供经修改比特流元数据122。为了这个目的，插入单元102可以包括元数据解码器201以及JOC拆包单元202和OAMD拆包单元203，以将JOC元数据221(即，上混元数据)和OAMD 222(即，对象元数据)提供给元数据修改单元204。元数据修改单元204提供经修改JOC元数据223(即，经修改上混元数据)和经修改OAMD224(即，经修改对象元数据)，经修改JOC元数据223和经修改OAMD224分别在单元206、207中被打包，并且在元数据编码器(coder)208中被编码以提供经修改比特流元数据122。

在本文件中，下混信号111中的系统声音130的插入是在指示多个音频对象110、120的下混信号111的背景下描述的。应注意到，插入方案也适用于指示多声道音频信号的下混信号111。举例来说，两声道下混信号111可以指示5.1声道音频信号。上混/JOC元数据221可以用于从两声道下混信号111重构或解码5.1声道音频信号。

就这一点而论，插入方案一般适用于指示包括多个空间多样音频信号110、120的音频节目的下混信号。下混信号111可以包括至少一个音频声道。此外，上混元数据221可以被提供用来从下混信号111的至少一个音频声道重构多个空间多样音频信号110、120。通常，下混信号111的音频声道的数量N小于音频节目的空间多样音频信号的数量M。因此，音频节目(即，多个空间多样音频信号)通常具有与下混信号111相比提高的空间多样性。

多个空间多样音频信号110、120的示例是如上面所概述的多个音频对象110、120。可替代地或另外地，多个空间多样音频信号110、120可以包括多声道音频信号(例如，5.1或7.1信号)的多个音频声道。

图3示出了用于将第一音频信号130插入到包括下混信号111和相关联的比特流元数据121的比特流中的示例方法300的流程图。举例来说，该比特流是Dolby Digital Plus比特流。方法300可以由插入单元102(例如，包括插入单元102的STB)执行。第一音频信号130可以包括STB的系统声音。

下混信号111和相关联的比特流元数据121指示包括多个空间多样音频信号(例如，音频对象)110、120的音频节目。比特流的格式可以使得音频节目内所包括的空间多样音频信号110、120的数量限于预定的最大数量M(例如，M大于或等于10)。

下混信号111包括至少一个音频声道，例如，单声道信号、立体声信号、5.1多声道信号或7.1多声道信号。就这一点而论，下混信号111可以包括多声道音频信号，该多声道音频信号包括多个音频声道。举例来说，立体声信号包括N＝2个音频声道，5.1信号通常包括N＝5个音频声道(LFE声道通常被单独处理)，7.1信号通常包括N＝7个音频声道。下混信号111的至少一个音频声道可以在下混再现环境内被渲染。下混再现环境可以针对下混信号111提供的空间多样性定制。举例来说，在单声道信号的情况下，下混再现环境可以包括单个扩音器，在多声道音频信号的情况下，下混再现环境可以包括用于多声道音频信号的声道的相应的扩音器。具体地说，多声道音频信号的音频声道可以被分配给这样的下混再现环境内的特定扩音器位置处的扩音器。在特定的示例中，下混再现环境可以是可能不能在不同高度处渲染音频信号的2维再现环境。

比特流元数据121包括上混元数据221(在本文中也被称为JOC元数据)，上混元数据221用于从至少一个音频声道，即，从下混信号111再现音频节目的多个空间多样音频信号110、120。比特流元数据121以及尤其是上混元数据221可以是随时间变化的和/或随频率变化的。具体地说，上混元数据221可以包括沿着时间线改变的一组系数。该组系数可以包括用于下混信号111的不同频率子带的系数子集。就这一点而论，上混元数据221可以定义随时间变化的和随频率变化的上混矩阵，这些上混矩阵用于将下混信号111的不同子带上混到多个重构空间多样音频信号(对应于多个原始空间多样音频信号110、120)的对应的不同子带中。

如上面所概述的，多个空间多样音频信号可以包括或者可以是多个音频对象110、120。比特流元数据121可以包括对象元数据222(在本文中也被称为OAMD)，对象元数据222指示多个音频对象110、120在3维再现环境内的(随时间变化的)位置(例如，坐标)。3维再现环境可以被配置为在不同高度处渲染音频信号/音频对象。为了这个目的，3维再现环境可以包括定位在不同高度处和/或定位在再现环境的天花板处的扩音器。

就这一点而论，下混信号111和比特流元数据121可以提供包括多个空间多样音频信号(例如，音频对象)110、120的音频节目的带宽高效率表示。如上面所指示的，空间多样音频信号的数量M可以高于下混信号111的音频声道的数量N，由此使得比特率可以降低。由于信号/声道的数量减少，下混信号111的空间多样性通常低于音频节目的多个空间多样音频信号110、120。

方法300包括将第一音频信号130与下混信号111的至少一个音频声道混合301以生成包括至少一个经修改音频信号的经修改下混信号112。具体地说，可以将第一音频信号130的音频数据的采样与下混信号111的一个或多个音频声道的采样混合。经修改下混信号112可以适于在下混再现环境(诸如原始多声道音频信号)内渲染。

此外，方法300包括对比特流元数据121进行修改302以生成经修改比特流元数据122。比特流元数据121可以被修改为使得经修改下混信号112和相关联的经修改比特流元数据122指示包括多个经修改空间多样音频信号113、123的经修改音频节目。通过对比特流元数据121进行修改，可以确保将第一音频信号130插入到经修改下混信号112中不会在对应的解码器103处的上混和渲染过程期间生成可听见的伪效。具体地说，比特流元数据121可以被修改为使得在解码器103处重构和渲染多个经修改空间多样音频信号113、123不会导致听得见的伪效。此外，比特流元数据121的修改确保所得的经修改音频节目仍包括有效的空间多样音频信号(尤其是音频对象)113、123。具体地说，解码器103可以在对象渲染模式内连续地操作(即使当系统声音正被插入和渲染时)。就减小听得见的伪效而言，这样的连续操作可以是有益的。

另外，方法300包括生成303包括经修改下混信号112和相关联的经修改比特流元数据122的输出比特流。该输出比特流可以被提供给解码器103以用于解码(即，上混)和渲染。

就这一点而论，可以确保STB的系统声音可以被以高效率的方式、在具有减小的可听到的伪效或者没有可听到的伪效的情况下插入到运行的音频节目中。

可以通过用经修改上混元数据223取代上混元数据221来对比特流元数据121进行修改，使得经修改上混元数据223再现分别与经修改下混信号112的一个或多个经修改音频声道对应的一个或多个经修改空间多样音频信号(例如，音频对象)113、123。具体地说，经修改上混元数据223可以被生成为使得在解码器103处的上混过程期间，经修改下混信号112的一个或多个经修改音频声道被上混为对应的一个或多个经修改空间多样音频信号113、123，其中，一个或多个经修改空间多样音频信号113、123的位置对应于一个或多个经修改音频声道的扩音器位置。

因此，经修改音频声道和经修改空间多样音频信号113、123之间的一对一对应关系可以由经修改上混元数据223提供。经修改上混元数据223可以使得来自多个经修改空间多样音频信号113、123的经修改空间多样音频信号113、123对应于来自一个或多个经修改音频声道的经修改音频声道(根据这样的一一对应关系)。

如果原始音频节目包括M个空间多样音频信号，超过了经修改下混信号112的经修改音频声道的数量N，则多个经修改空间多样音频信号可以被生成为使得超过N的经修改空间多样音频信号(即，M-N个空间多样音频信号)被静音。因此，经修改上混元数据223可以使得未被静音的N个经修改空间多样音频信号113、123对应于经修改下混信号112的N个经修改音频声道。

表1示出了可以包括在经修改上混元数据223内的上混矩阵U的示例系数。在示出的示例中，上混矩阵U是M×5矩阵，该矩阵被配置为从N＝5个声道下混信号X 112提供M个空间多样音频信号(例如，音频对象)Y，因为Y＝UX。该矩阵运算可以在多个频带中的每个频带内进行。在表1中以及在以下描述中，引用音频对象。应注意到，在本文件内，音频对象仅仅是空间多样音频信号的示例。

表1

表1示出了用于经修改5.1下混信号112的示例经修改上混元数据223(即，经修改JOC系数)，这些经修改上混元数据223用于插入第一音频信号130。JOC系数通常适用于不同的频率子带。可以看出，经修改多声道信号的L(左)声道被分配给经修改音频对象1，等等。此外，经修改音频对象6至M在表1的示例中未被使用(或者被静音)(因为用于对象6至M的上混系数被设置为零)。

应注意到，为经修改音频对象N+1一直到M选择上混系数(也被称为JOC系数)存在各种方式。如表1所示，用于这些对象的上混系数可以被设置为零，由此使这些音频对象静音。这提供了用于避免在系统声音回放期间的伪效的可靠且高效率的方式。另一方面，对于不具有升高(elavated)的声道的下混信号，这导致升高的音频内容在系统声音回放期间被静音的效果。换句话说，升高的音频内容“跌落”至2维回放场景。

作为替代方案，可以对音频对象N+1一直到M，保持或衰减(原始)上混元数据221内所包括的原始上混矩阵的原始上混系数(例如，对所有上混系数使用恒定的增益)。其结果是，升高的音频内容可以在系统声音回放期间得以保持。

另一方面，作为修改用于音频对象1至N的上混系数的结果，升高的音频内容被包括到经修改音频对象1至N中。因此，通过保持用于音频对象N+1至M的(可能衰减的)上混系数，音频对象N+1至M的音频内容经由经修改音频对象1至N以及经由原始对象N+1至M被再现两次。这可以引起音频对象的梳状伪效(combing artifacts)和空间错位。

为了克服后面的缺点，只有来自音频对象N+1一直到M的那些具有零高程(elevation)(即，在下混信号111的再现平面内)的音频对象可以被静音，因为在下混信号的水平处的音频对象通过经修改下混信号112而被忠实地再现。相对于下混信号111升高的音频对象N+1一直到M的上混系数可以保持(可能以衰减的方式)。

换句话说，对比特流元数据121进行修改302可以包括识别N个音频声道中没有一个被分配给其的经修改空间多样音频信号113、123，该经修改空间多样音频信号113、123可以在用于渲染经修改下混信号112的下混再现环境内被渲染。此外，可以生成使识别的经修改空间多样音频信号113、123静音的经修改比特流元数据122。通过这样做，可以避免梳状伪效和空间错位。

可替代地或另外地，空间多样音频信号(尤其是对象)N+1一直到M可以通过使用对于这些经修改音频对象的经修改对象元数据224(即，经修改OAMD)而被静音。具体地说，“对象存在”位可以被设置(例如，被设置为零)以便指示对象N+1一直到M不存在。

如上面所指示的，在包括音频对象110、120的音频节目的情况下，比特流元数据121通常包括用于多个音频对象110、120的对象元数据222。音频对象110、120的对象元数据222可以指示音频对象110、120在3维再现环境内的位置(例如，坐标)。就这一点而论，对象元数据222还可以包括关于音频对象110、120的位置的高度信息。另一方面，下混信号111和经修改下混信号112可以是在有限下混再现环境(例如，通常不允许在不同高度处再现音频信号的2维再现环境)内可再现的音频信号。可以通过对对象元数据222进行修改来对比特流元数据121进行修改，以得到经修改比特流元数据122的经修改对象元数据224，使得经修改音频对象113、123的经修改对象元数据224指示经修改音频对象113、123在下混再现环境内的位置。具体地说，(原始)对象元数据222内所包括的高度信息可以被移除或拉平。

具体地说，音频对象110、120的对象元数据222可以被修改为使得对应的经修改对象元数据223指示经修改音频对象113、123在预定高度(例如，地平面)处的位置。对于所有经修改音频对象113、123，预定高度可以是相同的。

经修改下混信号112包括至少一个经修改音频声道。来自至少一个经修改音频声道的经修改音频声道可以被分配给下混再现环境的对应的扩音器位置。示例扩音器位置是L(左)、R(右)、C(中心)、Ls(左环绕)以及Rs(右环绕)。每个经修改音频声道可以被分配给下混再现环境的多个扩音器位置中的不同的一个扩音器位置。经修改音频对象113、123的经修改对象元数据224可以指示下混再现环境的扩音器位置。具体地说，可以使用相关联的经修改对象元数据224将与经修改音频声道对应的经修改音频对象113、123定位在多声道再现环境的扩音器位置处。

如上面所指示的，多个经修改音频对象113、123可以包括用于多个经修改音频声道中的每个经修改音频声道的专用经修改音频对象113、123(例如，如表1所示，用于音频声道1至5的对象1至5)。一个或多个经修改音频声道中的每个可以被分配给下混再现环境的对应的不同的扩音器位置。此外，对于专用经修改音频对象113、123中的每个，经修改对象元数据224可以指示对应的不同的扩音器位置。

	x	y	z
				对象1	0.0	0.0	0.0
对象2	1.0	0.0	0.0
				对象3	0.5	0.0	0.0
对象4	0.0	1.0	0.0
				对象5	1.0	1.0	0.0
对象6	x<sub>6</sub>	y<sub>6</sub>	z<sub>6</sub>
				…	…	…	…
对象M	x<sub>M</sub>	y<sub>M</sub>	z<sub>M</sub>

表2

表2指示了用于5.1经修改下混信号112的示例经修改对象元数据224。可以看出，对象1至5被分配给与5.1再现环境(即，下混再现环境)的扩音器位置对应的特定位置。其他对象6至M的位置可以是未定义的(例如，任意的或不变的)，因为其他对象6至M可以被静音。

下混信号111和经修改下混信号112可以包括N个音频声道，其中N是整数。N可以是一，使得下混信号111、112是单声道信号。可替代地，N可以大于一，使得下混信号111、112是多声道音频信号。可以通过生成经修改比特流元数据122来对比特流元数据121进行修改，经修改比特流元数据122将经修改下混信号112的N个音频声道中的每个音频声道分配给相应的经修改音频对象113、123。

此外，可以生成使N个音频声道中没有一个已经被分配给其的经修改音频对象113、123静音的经修改比特流元数据122。具体地说，经修改比特流元数据122可以被生成为使得所有的剩余的经修改音频对象113、123被静音。

可以进行下混信号111和第一音频信号的一个或多个音频声道的混合以使得第一音频信号130与音频声道中的一个或多个混合以得到经修改下混信号112的一个或多个经修改音频声道。举例来说，一个或多个音频声道可以包括用于下混再现环境的中心位置处的扩音器的中心声道，并且第一音频信号可以(例如，仅)与中心声道混合。可替代地，第一音频信号可以(例如，同样地(equally))与下混信号111的多个音频声道的全部混合。就这一点而论，第一音频信号可以被混合以使得第一音频信号在经修改音频节目内可以被很好地感知到。

总的来说，应注意到，本文中所描述的插入方法300使得可以将第一音频信号高效率地混合到包括下混信号111和相关联的比特流元数据121的比特流中。应注意到，第一音频信号还可以包括多声道音频信号(例如，立体声或5.1信号)。在示例中，下混信号111包括立体声或5.1声道信号。第一音频信号130包括立体声信号。在这样的情况下，第一音频信号130的左声道可以与下混信号111的左声道混合，第一音频信号130的右声道可以与下混信号111的右声道混合。在另一示例中，下混信号111包括5.1声道信号，第一音频信号130也包括5.1声道信号。在这样的情况下，第一音频信号130的声道可以与下混信号111的相应的声道混合。

总的来说，本文件中所描述的插入方法表现出低的计算复杂度，并且提供第一音频信号的很少以至于没有(little to no)可听到的伪效的鲁棒插入。

方法300可以包括检测第一音频信号130将被插入。举例来说，STB可以使用标志来向插入单元102通知系统声音的插入。在插入第一音频信号130之前或者在插入第一音频信号130开始时，可以使比特流元数据121朝向在回放第一音频信号130时将使用的经修改比特流元数据122交叉渐变。具体地说，在回放第一音频信号130期间使用的经修改比特流元数据122可以对应于固定的目标比特流元数据122(尤其是固定的目标上混元数据223)。该目标比特流元数据122在第一音频信号的插入时间段期间可以是固定的(即，不随时间变化的)。可以通过在预定时间间隔将比特流元数据121交叉渐变为目标比特流元数据来对比特流元数据121进行修改。举例来说，可以通过确定(原始)比特流元数据122和目标比特流元数据之间的加权平均值来生成经修改比特流元数据122(尤其是，经修改上混元数据223)，其中，权重在预定时间间隔内朝向目标比特流元数据改变。就这一点而论，使比特流元数据121交叉渐变可以在系统声音开始时进行。通过进行比特流元数据的交叉渐变，可以进一步减小由于插入第一音频信号而导致的听得见的伪效。

方法300可以还包括检测第一音频信号130的插入将被终止。该检测可以基于指示第一音频信号130的插入将被终止的标志(例如，来自STB的标志)来进行。在第一音频信号130的插入终止的情况下，可以生成输出比特流，使得该输出比特流包括下混信号111和相关联的比特流元数据121。换句话说，比特流的修改(以及尤其是比特流元数据121的修改)可以仅在第一音频信号130的插入时间段期间进行。

如上面所指示的，在第一音频信号130插入期间，经修改比特流元数据122可以对应于固定的目标比特流元数据122。在第一音频信号130的插入终止的情况下，可以通过在预定时间间隔将经修改比特流元数据122从目标比特流元数据交叉渐变为比特流元数据121而将比特流元数据121进行修改。再次，这样的交叉渐变可以进一步减小由插入第一音频信号引起的可听到的伪效。

方法300可以包括为第一音频信号130定义第一经修改空间多样音频信号(尤其是第一经修改音频对象)113、123。换句话说，第一音频信号130可以被认为是定位在3维渲染环境内的特定位置处的音频对象。举例来说，可以将第一音频信号分配给3维渲染环境的中心位置。可以将第一音频信号130与下混信号111混合，并且可以将比特流元数据121进行修改，使得经修改音频节目包括作为经修改音频节目的多个经修改音频对象113、123中的一个经修改音频对象的、第一经修改音频对象113、123。

方法300可以还包括基于多个音频对象110、120来确定除第一经修改音频对象113、123之外的多个经修改音频对象113、123。具体地说，可以通过将音频对象110、120拷贝到经修改音频对象113、123(没有修改)来确定除第一经修改音频对象113、123之外的多个经修改音频对象113、123。

可以通过将第一经修改音频对象分配给经修改下混信号112的特定音频声道来进行第一经修改音频对象的插入。此外，可以将用于第一经修改音频对象的经修改对象元数据224添加到经修改比特流元数据122。此外，可以将用于从经修改下混信号112重构第一经修改音频对象的上混系数添加到经修改上混元数据223。就这一点而论，可以通过单独对音频数据和元数据进行处理来进行第一经修改音频对象的插入。具体地说，可以以低计算复杂度来进行第一经修改音频对象的插入。

举例来说，可以将单声道系统声音130混合到下混111、121中。具体地说，可以将系统声音130混合到5.1下混信号111的中心声道中。此外，可以将第一对象(对象1)分配给“系统声音对象”。可以将与系统声音对象相关联的上混系数(即，上混矩阵的第一行)设置为[00 1 0 0](给定典型的5.1声道次序(order)L、R、C、Ls、Rs)。用于系统声音对象的位置OAMD可以设置为x＝0.5，y＝0.0，z＝0.0。

作为对音频数据(即，下混信号111)和元数据(即，比特流元数据121)进行单独处理的替代方案，可以进行音频数据和元数据的组合处理以插入第一音频信号130。通过这样做，可以进一步减小由插入第一音频信号130引起的可听到的伪效(通常是以计算复杂度增加为代价的)。具体地说，可以例如通过使用比特流元数据121对下混信号111进行上混以生成与多个空间多样音频信号110、120对应的多个重构空间多样音频信号(例如，音频对象)来生成经修改音频节目。换句话说，可以对下混信号111和比特流元数据121进行解码。此外，可以基于多个重构空间多样音频信号(例如，通过拷贝重构空间多样音频信号中的一些重构空间多样音频信号)来生成除第一经修改音频对象113、123(其包括第一音频信号130)之外的多个经修改空间多样音频信号113、123。此外，可以对多个经修改空间多样音频信号113、123进行下混(或编码)来生成经修改下混信号112和经修改比特流元数据122。

作为上述插入第一音频信号130以及对比特流元数据121进行修改的方式的替代方案或者除这些方式之外，比特流元数据121可以被修改为使得经修改音频节目指示在降低的渲染水平处的多个空间多样音频信号110、120。具体地说，可以降低渲染水平(例如，在预定时间间隔平滑地降低)，以便提高第一音频信号130在经修改音频节目内的可听性。

可替代地或另外地，对比特流元数据121进行修改302可以包括设置指示输出比特流包括第一音频信号130的事实的标志。通过这样做，对应的解码器103可以被通知输出比特流包括经修改音频节目的事实，其中经修改音频节目包括第一音频信号130(例如，第一音频信号130包括系统声音)。然后可以相应地改动解码器103的处理。

用于将第一音频信号130插入到包括下混信号111和相关联的比特流元数据121的比特流中的替代方法可以包括以下这样的步骤：将第一音频信号130与下混信号111的一个或多个音频声道混合以生成包括一个或多个经修改音频声道的经修改下混信号112。此外，可以丢弃比特流元数据121，并且可以生成(例如，仅)包括经修改下混信号112、而不包括比特流元数据121的输出比特流。通过这样做，输出比特流可以被转换为纯粹的单声道或多声道音频信号的比特流(至少在第一音频信号130的插入时间段期间)。然后解码器103可以从对象渲染模式切换到多声道渲染模式(如果这样的切换机制在解码器103处可用)。鉴于计算复杂度低，这样的插入方案是有益的。但是，对象渲染模式和多声道渲染模式之间的切换可能引起在渲染期间(在切换时刻)的可听到的伪效。

本文件中所描述的方法和系统可以实现为软件、固件和/或硬件。某些组件可以例如实现为在数字信号处理器或微处理器上运行的软件。其他组件可以例如实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以存储在诸如随机存取存储器或光学存储介质之类的介质上。它们可以经由网络(诸如无线电网络、卫星网络、无线网络或有线网络(例如，互联网))传送。使用本文件中所描述的方法和系统的典型设备是用于存储和/或渲染音频信号的便携式电子设备或其他消费者装置。

Claims

1.一种用于将第一音频信号(130)插入到包括下混信号(111)和相关联的比特流元数据(121)的比特流中的方法(300)；其中，下混信号(111)和相关联的比特流元数据(121)指示包括多个空间多样音频信号(110,120)的音频节目；其中，下混信号(111)包括至少一个音频声道；其中，比特流元数据(121)包括用于从至少一个音频声道再现多个空间多样音频信号(110,120)的上混元数据(221)；其中，该方法(300)包括：

-将第一音频信号(130)与下混信号(111)混合(301)以生成包括至少一个经修改音频声道的经修改下混信号(112)；

-对比特流元数据(121)进行修改(302)以生成经修改比特流元数据(122)；以及

-生成(303)包括经修改下混信号(112)和相关联的经修改比特流元数据(122)的输出比特流；其中，经修改下混信号(112)和相关联的经修改比特流元数据(122)指示包括多个经修改空间多样音频信号(113,123)的经修改音频节目，其中

-多个空间多样音频信号(110,120)包括多个音频对象；

-多个经修改空间多样音频信号(113,123)包括多个经修改音频对象；

-比特流元数据(121)包括用于所述多个音频对象的对象元数据(222)；

-音频对象的对象元数据(222)指示音频对象在3维再现环境内的位置；

-下混信号(111)和经修改下混信号(112)能够在下混再现环境内再现；

-对比特流元数据(121)进行修改(302)包括对对象元数据(222)进行修改以得到经修改比特流元数据(122)的经修改对象元数据(224)，使得经修改音频对象的经修改对象元数据(224)指示经修改音频对象在下混再现环境内的位置。

2.根据权利要求1所述的方法(300)，其中，对音频对象的对象元数据(222)进行修改使得对应的经修改对象元数据(223)指示经修改音频对象在3维再现环境内预定高度处的位置。

3.根据权利要求1所述的方法(300)，其中，对比特流元数据(121)进行修改(302)包括用经修改上混元数据(223)取代上混元数据(221)，使得经修改上混元数据(223)再现与经修改下混信号(112)的至少一个经修改音频声道对应的至少一个经修改空间多样音频信号(113,123)。

4.根据权利要求1所述的方法(300)，其中，

-对比特流元数据(121)进行修改(302)包括用经修改上混元数据(223)取代上混元数据(221)；并且其中，经修改上混元数据(223)使得来自多个经修改空间多样音频信号(113,123)的经修改空间多样音频信号(113,123)对应于经修改下混信号(112)的经修改音频声道。

5.根据权利要求1所述的方法(300)，其中，对比特流元数据(121)进行修改(302)包括用经修改上混元数据(223)取代上混元数据(221)；并且其中，经修改上混元数据(223)使得未被静音或衰减的N个经修改空间多样音频信号(113,123)对应于经修改下混信号(112)的N个经修改音频声道。

6.根据权利要求1所述的方法(300)，其中，

-经修改下混信号(112)包括多个经修改音频声道；

-来自多个经修改音频声道的经修改音频声道被分配给下混再现环境的对应的扩音器位置；以及

-经修改音频对象的经修改对象元数据(224)指示下混再现环境的扩音器位置。

7.根据权利要求1所述的方法(300)，其中，

-下混信号(111)和经修改下混信号(112)包括N个音频声道，其中N是整数，N大于或等于1；以及

-对比特流元数据(121)进行修改(302)包括生成经修改比特流元数据(122)，经修改比特流元数据(122)将经修改下混信号(112)的N个音频声道中的每个音频声道分配给相应的经修改空间多样音频信号(113,123)。

8.根据权利要求6所述的方法(300)，其中对比特流元数据(121)进行修改(302)包括，

-识别以下这样的经修改空间多样音频信号：N个音频声道中没有一个已经被分配给该经修改空间多样音频信号，并且该经修改空间多样音频信号能够在用于渲染经修改下混信号(112)的下混再现环境内被渲染；以及

-生成使识别的经修改空间多样音频信号静音的经修改比特流元数据(122)。

9.根据权利要求1所述的方法(300)，其中，

-下混信号(111)包括多个音频声道；以及

-将第一音频信号(130)与多个音频声道中的一个或多个混合以得到经修改下混信号(112)的多个经修改音频声道。

10.根据权利要求1所述的方法(300)，其中，

-下混信号(111)包括立体声或5.1声道信号；

-第一音频信号(130)包括立体声信号；以及

-将第一音频信号(130)的左声道与下混信号(111)的左声道混合，并且将第一音频信号(130)的右声道与下混信号(111)的右声道混合。

11.根据权利要求1所述的方法(300)，其中，

-经修改比特流元数据(122)对应于固定的目标比特流元数据；以及

-对比特流元数据(121)进行修改(302)包括在预定时间间隔将比特流元数据(121)交叉渐变为目标比特流元数据。

12.根据权利要求1所述的方法(300)，其中，该方法(300)还包括：

-检测第一音频信号(130)的插入将被终止；以及

-在第一音频信号(130)的插入终止的情况下，生成输出比特流，使得输出比特流包括下混信号(111)和相关联的比特流元数据(121)。

13.根据权利要求1所述的方法(300)，其中，

-该方法(300)包括定义对于第一音频信号(130)的第一经修改空间多样音频信号(113,123)；以及

-将第一音频信号(130)与下混信号(111)混合，并且对比特流元数据(121)进行修改，使得经修改音频节目包括作为多个经修改空间多样音频信号(113,123)中的一个经修改空间多样音频信号(113,123)的、第一经修改空间多样音频信号(113,123)。

14.根据权利要求10所述的方法(300)，其中，该方法(300)包括基于多个空间多样音频信号(110,120)来确定除第一经修改空间多样音频信号(113,123)之外的多个经修改空间多样音频信号(113,123)。

15.根据权利要求10所述的方法(300)，还包括：

-使用比特流元数据(121)来对下混信号(111)进行上混以生成与多个空间多样音频信号(110,120)对应的多个重构空间多样音频信号；以及

-基于多个重构空间多样音频信号来生成除第一经修改空间多样音频信号(113,123)之外的多个经修改空间多样音频信号(113,123)。

16.根据权利要求1所述的方法(300)，比特流元数据(121)被修改为使得经修改音频节目指示多个空间多样音频信号(110,120)中的在降低的渲染水平处的至少一个空间多样音频信号(110,120)。

17.根据权利要求1所述的方法(300)，其中，对比特流元数据(121)进行修改(302)包括设置指示输出比特流包括第一音频信号(130)的事实的标志。

18.根据权利要求1所述的方法(300)，其中，

-音频节目包括M个空间多样音频信号(110,120)；

-下混信号(111)包括N个音频声道；以及

-N小于M。

19.一种插入单元(102)，被配置为将第一音频信号(130)插入到包括下混信号(111)和相关联的比特流元数据(121)的比特流中；其中，下混信号(111)和相关联的比特流元数据(121)指示包括多个空间多样音频信号(110,120)的音频节目；其中，下混信号(111)包括至少一个音频声道；其中，比特流元数据(121)包括用于从至少一个音频声道再现多个空间多样音频信号(110,120)的上混元数据(221)；其中，插入单元(102)被配置为：

-将第一音频信号(130)与至少一个音频声道混合以生成包括至少一个经修改音频声道的经修改下混信号(112)；

-生成(303)包括经修改下混信号(112)和相关联的经修改比特流元数据(122)的输出比特流；其中，经修改下混信号(112)和相关联的经修改比特流元数据(122)指示包括多个经修改空间多样音频信号(113,123)的经修改音频节目，

其中

-多个空间多样音频信号(110,120)包括多个音频对象；

-比特流元数据(121)包括用于多个音频对象的对象元数据(222)；

并且其中插入单元(102)被配置为

-对对象元数据(222)进行修改以得到经修改比特流元数据(122)的经修改对象元数据(224)，使得经修改音频对象的经修改对象元数据(224)指示经修改音频对象在下混再现环境内的位置。

20.一种非暂时性计算机可读存储介质，包括指令序列，当由一个或多个处理设备执行时，该指令序列使得该一个或多个处理设备执行如权利要求1-18所述的方法。

21.一种设备，包括：

一个或多个处理器；及

存储器，存储当执行时使所述一个或多个处理器执行如权利要求1-18中任一项所述的方法的指令。

22.一种包括用于执行如权利要求1-18中任一项所述的方法的部件的装置。