CN114930876B - 用于从基于声道的音频到基于对象的音频的转换的系统、方法和装置 - Google Patents
用于从基于声道的音频到基于对象的音频的转换的系统、方法和装置 Download PDFInfo
- Publication number
- CN114930876B CN114930876B CN202080092548.7A CN202080092548A CN114930876B CN 114930876 B CN114930876 B CN 114930876B CN 202080092548 A CN202080092548 A CN 202080092548A CN 114930876 B CN114930876 B CN 114930876B
- Authority
- CN
- China
- Prior art keywords
- audio
- channel
- oamd
- bitstream
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims description 96
- 238000009877 rendering Methods 0.000 claims abstract description 34
- 230000011664 signaling Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 abstract description 20
- 230000003068 static effect Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 238000009966 trimming Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 4
- 101100018996 Caenorhabditis elegans lfe-2 gene Proteins 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 101100126625 Caenorhabditis elegans itr-1 gene Proteins 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 238000003304 gavage Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
公开了用于基于声道的音频(CBA)(例如,22.2‑ch音频)到基于对象的音频(OBA)的转换的实施例。转换包括将CBA元数据转换为对象音频元数据(OAMD),以及基于根据OAMD的声道排序约束得到的声道混洗信息对CBA声道进行重新排序。使用OAMD在回放设备中或者在如机顶盒或音频/视频记录器等源设备中渲染具有经重新排序的声道的OBA。在实施例中,CBA元数据包括指示要在元数据的转换中使用的特定OAMD表示的信令。在实施例中,预先计算的OAMD在原生音频比特流(例如,AAC)中传输,以进行传输(例如,通过HDMI)或在源设备中进行渲染。在实施例中,预先计算的OAMD在传输层比特流(例如,ISO BMFF、MPEG4音频比特流)中被传输到回放设备或源设备。
Description
相关申请的交叉引用
本申请要求于2019年12月2日提交的美国临时专利申请号62/942,322以及于2019年12月2日提交的欧洲专利申请号19212906.2的优先权,所述美国临时专利申请和欧洲专利申请两者均通过援引以其全文并入本文。
技术领域
本公开总体上涉及音频信号处理,包括基于声道的音频到基于对象的音频的转换。
背景技术
在基于声道的音频(CBA)编码中,通过将一组音轨与声道配置相关联来将所述一组音轨隐式地指配给特定扩音器。如果回放扬声器配置不同于经编码声道配置,则需要下混音或上混音规范来将音频重新分配给可用扬声器。这种范例是众所周知的,并且在解码端的声道配置可以预先确定或者以合理的确定性假设为2.0、5.X或7.X时发挥作用。然而,随着新扬声器设置的普及,无法对用于回放的扬声器设置做出任何假设。因此,CBA提供的方法不足以适应源扬声器布局与解码端的扬声器布局不匹配的表示。这在试图创作独立于扬声器配置回放良好的内容时带来了挑战。
在基于对象的音频(OBA)编码中,对包括对象音频本质的对象以及包含单独指配的对象属性的元数据应用渲染。属性(例如,x,y,z位置或声道位置)更明确地指定了内容创建者打算如何渲染音频内容(即,他们对如何将本质渲染到扬声器中设置了约束)。因为单个声音元素可以与更丰富的元数据集合相关联,从而赋予元素意义,所以适应再现音频的扬声器配置的方法可以提供关于如何渲染到更少扬声器的更好信息。
存在几种用于传输CBA内容的标准化格式,如ETSI TS 102 366[1]中定义的增强型AC-3(E-AC-3)。为了确保与原有设备的兼容性,联合对象编码(JOC)可以与标准化CBA格式结合使用以传输OBA。JOC以低比特率传递沉浸式音频,这通过使用感知音频编码算法以及参数侧信息传送沉浸式内容的多声道下混音来实现,所述参数侧信息使得能够在解码器中从下混音重建音频对象。在如电视广播等一些应用中,期望将CBA内容表示为OBA内容,使得所述内容与OBA回放设备的安装基础兼容。然而,CBA和OBA的标准化比特流格式并不完全兼容。
发明内容
公开了用于将CBA内容转换为OBA内容的实施例,并且在特定实施例中,将22.2声道内容转换为OBA内容以在OBA兼容的回放设备上回放。
在实施例中,一种方法包括:由音频处理装置的一个或多个处理器接收包括基于声道的音频和相关联的基于声道的音频元数据的比特流;所述一个或多个处理器被配置成:从基于声道的音频元数据中解析信令参数,所述信令参数指示多个不同对象音频元数据(object audio metadata,OAMD)表示中的一个;所述OAMD表示中的每一个将基于声道的音频的一个或多个音频声道映射到一个或多个音频对象;使用由信令参数指示的OAMD表示将基于声道的元数据转换为与一个或多个音频对象相关联的OAMD;基于OAMD的声道排序约束来生成声道混洗信息;基于声道混洗信息对基于声道的音频的音频声道进行重新排序,以生成经重新排序的基于声道的音频;以及使用OAMD将经重新排序的基于声道的音频渲染成经渲染音频;或者将经重新排序的基于声道的音频和OAMD编码成基于对象的音频比特流,并将基于对象的音频比特流传输到回放设备或源设备。
在实施例中,基于声道的音频和元数据被包括在原生音频比特流中,并且所述方法进一步包括对原生音频比特流进行解码以恢复(即,确定或提取)基于声道的音频和元数据。
在实施例中,基于声道的音频和元数据是N.M基于声道的音频和元数据,其中,N是大于九的正整数,并且M是大于或等于零的正整数。
在实施例中,所述方法进一步包括:确定基于声道的音频的能够由OAMD底层声道表示的第一组声道;向第一组声道指配OAMD底层声道标签;确定基于声道的音频的不能由OAMD底层声道表示的第二组声道;以及向第二组声道指配静态OAMD位置坐标。
在实施例中,一种方法包括:由音频处理装置的一个或多个处理器接收包括基于声道的音频和元数据的比特流;所述一个或多个处理器被配置成:将基于声道的音频编码成原生音频比特流;从元数据中解析信令参数,所述信令参数指示多个不同对象音频元数据(OAMD)表示中的一个;使用由信令参数指示的OAMD表示将基于声道的元数据转换为OAMD;基于OAMD的声道排序约束来生成声道混洗信息;生成包括原生音频比特流、声道混洗信息和OAMD的比特流包;将所述包多路复用到传输层比特流中;以及将传输层比特流传输到回放设备或源设备。
在实施例中,基于声道的音频和元数据是N.M基于声道的音频和元数据,其中,N是大于七的正整数,并且M是大于或等于零的正整数。
在实施例中,基于声道的音频中可以由OAMD底层声道标签表示的声道使用OAMD底层声道标签,并且基于声道的音频中不能由OAMD底层声道标签表示的声道使用静态对象位置,其中,每个静态对象位置用OAMD位置坐标描述。
在实施例中,传输比特流是动态图像专家组(MPEG)音频比特流,所述MPEG音频比特流包括指示在MPEG音频比特流的扩展字段中存在OAMD的信号。
在实施例中,指示MPEG音频比特流中存在OAMD的信号被包括在MPEG音频比特流中的元数据的保留字段中,用于用信号表示环绕声模式。
在实施例中,一种方法包括:由音频处理装置的一个或多个处理器接收包括包的传输层比特流;所述一个或多个处理器被配置成:将传输层比特流解复用以恢复(即,确定或提取)包;对包进行解码以恢复(即,确定或提取)原生音频比特流、声道混洗信息和对象音频元数据(OAMD);对原生音频比特流进行解码以恢复基于声道的音频比特流和元数据;基于声道混洗信息对基于声道的音频的声道进行重新排序;以及使用OAMD将经重新排序的基于声道的音频渲染成经渲染音频;或者将基于声道的音频和OAMD编码成基于对象的音频比特流,并将基于对象的音频比特流传输到源设备。
在实施例中,基于声道的音频和元数据是N.M基于声道的音频和元数据,其中,N是大于七的正整数,并且M是大于或等于零的正整数。
在实施例中,一种方法进一步包括:确定基于声道的音频的能够由OAMD底层声道表示的第一组声道;向第一组声道指配OAMD底层声道标签;确定基于声道的音频的不能由OAMD底层声道表示的第二组声道;以及向第二组声道指配静态OAMD位置坐标。
在实施例中,传输比特流是动态图像专家组(MPEG)音频比特流,所述MPEG音频比特流包括指示在MPEG音频比特流的扩展字段中存在OAMD的信号。
在实施例中,指示MPEG音频比特流中存在OAMD的信号被包括在MPEG音频比特流的元数据中的数据结构的保留字段中,用于用信号表示环绕声模式。
在实施例中,一种装置包括:一个或多个处理器;以及非暂态计算机可读存储介质,其上存储有指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行本文所述的方法。
本文公开的其他实施例涉及系统、装置和计算机可读介质。下文的附图和描述中阐述了所公开的实施方式的细节。根据本说明书、附图和权利要求,其他特征、目的和优点是显而易见的。
本文公开的特定实施例提供了以下优点中的一个或多个。OBA兼容的回放设备的现有安装基础可以使用现有基于标准的原生音频和传输比特流格式将CBA内容转换为OBA内容,而无需更换回放设备的硬件部件。
附图说明
在下文参考的附图中,以框图、流程图和其他图的形式图示了各种实施例。流程图或框图中的每个框可以表示包含用于执行指定逻辑功能的一个或多个可执行指令的模块、程序或代码部分。尽管这些框以特定顺序图示以执行方法步骤,但是它们可能不一定严格按照图示的顺序执行。例如,根据相应操作的性质,所述框可以按相反的顺序执行或同时执行。还应当注意的是,框图和/或流程图中的每个框及其组合可以由用于执行指定功能/操作的专用的基于软件或基于硬件的系统来实施,或者由专用硬件和计算机指令的组合来实施。
图1A是根据实施例的示出两种不同对象音频元数据(OAMD)表示的底层声道和对象位置的表。
图1B是根据实施例的示出两种不同OAMD表示的底层声道指配和声道排序的表。
图2A是根据实施例的示出维度修整元数据的表。
图2B是根据实施例的示出修整/平衡控制的表。
图3是根据实施例的用于在不使用比特流编码的情况下将22.2-ch音频比特流转换为音频对象和OAMD的系统的框图。
图4是根据实施例的用于使用比特流编码将22.2-ch音频比特流转换为音频对象和OAMD的系统的框图。
图5是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD以在源设备中渲染的系统的框图。
图6A和图6B是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD以通过高清多媒体接口(HDMI)传输从而进行外部渲染的系统的框图。
图7A至图7C是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的系统的框图,其中,声道混洗信息和OAMD被封装在原生音频比特流内。
图8A和图8B是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的系统的框图,其中,声道混洗信息和OAMD被封装在原生音频比特流内以在源设备中渲染。
图9A至图9C是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的系统的框图,其中,声道混洗信息和OAMD被嵌入传输层中以传递到源设备,并且然后被封装在原生音频比特流内以通过HDMI进行传输。
图10A和图10B是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的系统的框图,其中,声道混洗信息和OAMD被嵌入传输层中以在源设备中渲染。
图11是根据实施例的CBA到OBA转换过程的流程图。
图12是根据实施例的替代性的CBA到OBA转换过程的流程图。
图13是根据实施例的替代性的CBA到OBA转换过程的流程图。
图14是根据实施例的替代性的CBA到OBA转换过程的流程图。
图15是根据实施例的替代性的CBA到OBA转换过程的流程图。
图16是根据实施例的替代性的CBA到OBA转换过程的流程图。
图17是根据实施例的包括声道音频到对象音频的转换的示例音频系统架构的框图。
各附图中使用的相同附图标记指示相同的元件。
具体实施方式
概述
对象音频元数据(OAMD)是用于OBA处理的元数据的经编码比特流表示,如例如ETSI TS 103 420v1.2.1(2018-10)中描述的元数据。OAMD比特流可以在可扩展元数据传递格式(EMDF)容器内携带,例如,如ETSI TS 102 366[1]中指定的。OAMD用于渲染音频对象。渲染信息可以动态地改变(例如增益和位置)。OAMD比特流元素可以包括内容描述元数据、对象属性元数据、属性更新元数据和其他元数据。
在实施例中,内容描述元数据包括OAMD有效载荷语法的版本、对象总数、对象类型和程序编制。对象属性元数据包括房间锚定、屏幕锚定或扬声器锚定坐标中的对象位置、对象大小(宽度、深度、高度)、优先级(按重要性对对象进行排序,其中较高优先级表示对象的重要性较高)、增益(用于将自定义增益值应用于对象)、声道锁定(用于将对象的渲染限制到单个扬声器,从而提供音频的非扩散性、音色中立性再现)、区域约束(指定收听环境中排除或包含对象的区域或子体)、对象发散(用于将对象转换为两个对象,其中,能量沿X轴传播)和对象修整(用于降低混音中指示的屏幕外元素的水平)。
在实施例中,属性更新元数据用信号表示适用于所有传输对象的更新的定时数据。所传输的属性更新的定时数据指定了更新的开始时间,以及具有先前或后续更新的更新背景和连续更新之间的内插过程的持续时间。OAMD比特流语法支持每个编解码器帧中每个对象多达八次属性更新。对于所有对象,用信号表示的更新的数量或每次属性更新的开始和停止时间都是相同的。元数据指示OAMD中斜坡持续时间值的值,所述值指定音频样本中从先前属性更新的用信号表示的对象属性值到当前更新的值的内插的时间段。
在实施例中,定时数据还包括样本偏移值和块偏移值,解码器使用所述样本偏移值和块偏移值来计算起始样本值偏移和帧偏移。样本偏移是样本中OAMD有效载荷中的数据所应用的第一脉冲编码调制(PCM)音频样本的时间偏移,例如,如ETSI TS 102 366[1],第H.2.2.3.1条和第H.2.2.3.2条中指定的。块偏移值指示样本中作为所有属性更新所共有的样本偏移中的偏移的时间段。
在实施例中,解码器为包括对象音频本质音频数据和对应对象属性的带时间戳的元数据更新的OBA提供接口。在接口处,解码器在带时间戳的更新中提供经解码的逐对象元数据。对于每次更新,解码器提供元数据更新结构中指定的数据。
CBA到OBA的示例性转换
在以下公开中,公开了用于使用OAMD将CBA内容转换为OBA的技术。在示例性实施例中,使用OAMD将22.2声道(“22.2-ch”)内容转换为OBA。在该实施例中,22.2-ch内容具有两种定义的方法,声道通过这两种方法定位并且因此进行下混/渲染。方法的选择可能取决于参数的值,如嵌入在22.2-ch比特流中的dmix_pos_adj_idx参数。将22.2-ch位置转换为OAMD表示的格式转换器基于该参数的值来选择两种OAMD表示之一。所选择的表示在输入到回放设备(例如,回放设备)的OBA比特流(例如,/>MAT比特流)中携带。示例22.2-ch系统是Hamasaki 22.2。Hamasaki22.2是超高清的环绕声部件,所述超高清是由日本广播协会科学技术研究所(NHK Science&Technical Research Laboratories)开发的使用排列成三层的24个扬声器(包括两个亚低音扬声器)的电视标准。
尽管以下公开针对使用OAMD将22.2-ch内容转换为OBA内容的实施例,但是所公开的实施例适用于任何CBA或OBA比特流格式,包括标准化或专有比特流格式,以及任何回放设备或系统。另外,以下公开不局限于22.2-ch到OBA转换,而且也适用于任何N.M基于声道的音频的转换,其中,N是大于七的正整数,并且M是大于或等于零的正整数。
如本文所使用的,术语“包括”及其变体应被理解为意思是“包括但不限于”的开放式术语。除非上下文另外明确指出,否则术语“或”应被理解为“和/或”。术语“基于”应被理解为“至少部分地基于”。术语“一个示例实施例”和“示例实施例”应被理解为“至少一个示例实施例”。术语“另一个实施例”应理解为“至少一个其他实施例”。另外,在以下描述和权利要求中,除非另外定义,否则本文所使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。
程序指配和对象位置
在该应用程序中,22.2-ch内容305(例如,文件或实时流)由格式转换器301接收。内容305包括音频以及相关联的元数据。元数据包括dmix_pos_adj_idx参数,用于基于该参数的值来选择两种OAMD表示之一。可以由OAMD底层声道标签表示的声道使用OAMD底层声道标签。不能由OAMD底层声道标签表示的声道使用静态对象位置,其中,每个静态对象位置用OAMD[x,y,z]位置坐标描述,例如,如ETSI TS 103 420v1.2.1(2018-10)中描述的。如本文所使用的,“底层声道”是一组多个底层对象,而“底层对象”是空间位置通过指配给回放系统的扩音器而固定的静态对象。
图1A是根据实施例的示出两种不同OAMD表示的底层声道和对象位置的表。表的顶行包括二十四个22.2-ch标签,表的中间行包括由dmix_pos_adj_idx=0表示的第一OAMD表示的底层声道标签和对象位置,并且表的底行包括由dmix_pos_adj_idx=1表示的第二OAMD表示的底层声道标签和对象位置。注意,dmix_pos_adj_idx信号是示例信号,并且任何类型的信令都可以被使用,包括但不限于布尔标志(Boolean flag)和用一个或多个比特编码的信号。
参考图1A中的表,22.2-ch标签的一些示例包括左前(FL)、右前(FR)、前中(RC)、低频效果1(LFE1)、左后(BL)、右后(BR)、左前中(FLc)、右前中(FRc)、后中(BC)、低频效果2(LFE2)、左侧(SIL)、右侧(SIR)、上前左(TpFL)、上前右(TpFR)、上前中(TpFC)、上中(TpC)、上后左(TpBL)、上后右(TpBR)、上侧左(TpSIL)、上侧右(TpSIR)、上后中(TpBC)、前左之间(BtFL)、前右之间(BtFR)和前中之间(BtFC)。注意,这些标签被映射到OAMD底层声道标签或静态对象位置[x,y,z]。例如,对于第一OAMD表示(dmix_pos_adj_idx=0),22.2-ch标签FL映射到静态对象位置[0,0.25,0],22.2-ch标签FR映射到静态对象位置[1,0.25,0],22.2-ch标签FC映射到OAMD底层声道标签C,等等。OAMD表示基于信令参数(例如,信令参数的值)将一个或多个音频声道映射到一个或多个音频对象。一个或多个音频对象可以是动态或静态音频对象。如上文所定义的,静态音频对象是具有固定空间位置的音频对象。动态音频对象是空间位置可以随时间改变的音频对象。在以上示例中,OAMD表示包括声道标签、底层声道标签和静态对象位置。OAMD表示基于信令参数(例如,信令参数的值)将声道标签映射到底层声道标签或静态对象位置。
程序指配和对象位置
OAMD假设底层对象在动态对象之前。另外地,底层对象以特定顺序出现。由于这些原因,22.2-ch内容的音频由音频声道混洗器303重新排序,以满足OAMD顺序约束。音频声道混洗器303从元数据生成器304接收声道混洗信息,并使用声道混洗信息来对22.2声道重新排序。
图1B是根据实施例的示出两种不同OAMD表示的底层声道指配和声道排序的表。表的顶行示出了22.2-ch内容(Hamasaki 22.2)的假设声道顺序(0-23个声道)和声道标签。表的中间行示出了第一OAMD表示的底层指配标签,并且表的底行示出了第二OAMD表示的底层指配标签。参考图3,经转换的音频和OAMD元数据由格式转换器301输出到对象音频渲染器302,所述对象音频渲染器生成经渲染音频。
参考图1B中的表,22.2-ch内容的前两个声道(0,1)是FL和FR。对于第一OAMD表示(dmix_pos_adj_idx=0),前两个声道(0,1)分别被重新排序(“混洗”)为OAMD声道15和声道16。对于第二OAMD表示(dmix_pos_adj_idx=1),22.2-ch内容的前两个声道(0,1)分别被重新排序为OAMD底层声道L和R。在该示例中,对于第一OAMD表示(dmix_pos_adj_idx=0),对于索引为0的第一输出声道,为了将第一OAMD表示与第一输出声道相关联,输入(例如,Hamasaki 22.2)的声道的索引6被再次重新排序/混洗,使其变成索引声道0。换句话说,在该示例中,如果左声道(L)存在于输入底层声道中,则第一OAMD表示中的该左声道强制成为第一声道(索引声道为0)。当以OAMD表示时,所有底层声道(如果存在)以特定顺序呈现。一旦底层声道被重新排序,作为底层声道重新排序的结果,动态对象也被重新排序。重新排序满足某些OAMD表示顺序约束。这些约束取决于OBA回放设备/系统所使用的OAMD规范。例如,对于与Dolby Atmos兼容的OBA回放设备/系统,在包含Dolby Atmos内容的系统和编解码器中传输的OAMD由Dolby Atoms OAMD规范指定。这些规范/约束确定OAMD底层声道的顺序,例如,如图1A所示以及如下所示,以及括号内的对应声道标签:左(L)、右(R)、中(C)、低频效果(LFE)、左环绕(Ls)、右环绕(Rs)、左后环绕(Lrs)、右后环绕(Rrs)、左前高(Lfh)、右前高(Rfh)、左上中(Ltm)、右上中(Rtm)、左后高(Lrh)、右后高(Rrh)和低频效果2(LFE2)。
维度修整元数据
图2A是根据实施例的示出维度修整元数据的表。为了确保22.2-ch内容到OBA内容的渲染与22.2-ch规范所指定的下混音尽可能匹配,维度修整元数据被包括在伴随22.2-ch内容一起传递到OBA渲染设备的OAMD中。对象修整用于降低混音中包括的屏幕外元素水平。当沉浸式混音在具有很少扩音器的布局中再现时,这可能是期望的。
在实施例中,第一元数据字段包括参数warp_mode,该参数在被设置为值“0”时指示5.1.X输出配置中对象的正常渲染(即,无扭曲)。如果warp_mode被设置为值“1”,则对5.1.X输出配置中的对象应用扭曲。扭曲是指渲染器处理在收听环境(例如,房间)的中点与后部之间平移的内容的方式。利用扭曲,内容在收听环境的后部与中点之间的环绕扬声器中以恒定水平呈现,避免了任何对幻像成像的需要,直到所述内容处于收听环境的前半部分。
如图2B所示,维度修整元数据表中的第二元数据字段包括八种扬声器配置(例如,2.0、5.1.0、7.1.0、2.1.2、5.1.2、7.1.2、2.1.4、5.1.4、7.1.4)的各项配置修整/平衡控制。存在用于自动修整(auto_trim)、中心修整(center_trim)、环绕修整(surround_trim)、高度修整(height_trim)和前/后平衡修整(fb_balance_ohfl,fb_balance_surr)的元数据字段
参考图2A的表,第三元数据字段包括参数object_trim_bypass,所述参数具有适用于22.2-ch声道内容中的所有底层和动态对象的值。如果object_trim_bypass被设置为值“1”,则不会对底层和动态对象应用任何修整。
对象增益
OAMD允许每个对象具有单独的对象增益(由object_gain字段描述)。该增益由对象音频渲染器302应用。对象增益允许补偿22.2-ch内容的下混音值与22.2-ch内容的OAMD表示的渲染之间的差异。在实施例中,对于具有LFE1或LFE2的底层声道指配的对象,对象增益被设定为-3dB,而对于所有其他对象,对象增益被设定为0dB。根据应用,可以使用其他对象增益值。
示例应用
试听作为OBA的22.2内容
图3是根据实施例的用于在不使用比特流编码的情况下将22.2-ch音频比特流转换为音频和OAMD的示例性系统300的框图。系统300用于在OBA回放系统 上试听作为OBA内容的22.2-ch内容的应用中。
系统300包括格式转换器301和对象音频渲染器302。格式转换器301进一步包括音频声道混洗器303和OAMD元数据生成器304。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。22.2-ch内容305(例如,文件或实时流)包括输入到格式转换器301中的22.2-ch音频和元数据。OAMD元数据生成器304例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理由音频声道混洗器303应用的22.2-ch内容的声道重新排序。音频声道混洗器303输出的是经重新排序的音频声道。格式转换器301输出的是输入到对象音频渲染器302中的经重新排序的音频和OAMD声道。对象音频渲染器302使用OAMD处理音频,以使其适应于特定的扩音器布局。
传输作为OBA的22.2内容
图4是根据实施例的用于使用比特流编码将22.2-ch音频比特流转换为音频对象和OAMD的示例性系统400的框图。在该应用中,使用OBA编解码器对22.2-ch内容进行格式转换并作为OBA进行传输,而不是传输22.2-ch内容。
系统400包括格式转换器401和OBA编码器402。格式转换器401进一步包括OAMD元数据生成器404和音频声道混洗器403。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。22.2-ch内容405(例如,文件或实时流)包括输入到格式转换器401中的22.2-ch音频和元数据。OAMD元数据生成器404例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理由音频声道混洗器403应用的22.2-ch内容的声道重新排序。音频声道混洗器403输出的是经重新排序的音频声道。
格式转换器401输出的是输入到OBA编码器402中的经重新排序的音频和OAMD声道。OBA编码器402使用OAMD(例如,使用JOC)对音频进行编码以生成OBA比特流406,所述比特流可以被发送到下游的OBA回放设备,在所述下游的OBA回放设备中,所述比特流由对象音频渲染器渲染,所述对象音频渲染器处理音频以使其适应于特定的扩音器布局。
将传输的22.2内容转换为OBA以在源设备中渲染
图5是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD以在源设备中渲染的示例性系统的框图。在该应用中,如机顶盒(STB)或音频/视频记录器(AVR)等源设备从原生音频比特流接收22.2-ch内容,并且在由格式转换器进行格式转换之后,使用对象音频渲染器来渲染所述内容。示例原生音频比特流格式是高级音频编码(advancedaudio coding,AAC)标准比特流格式。
系统500包括格式转换器501、对象音频渲染器502和解码器506。格式转换器501进一步包括OAMD元数据生成器504和音频声道混洗器503。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。音频比特流505(例如,AAC/MP4)包括输入到解码器506(例如,AAC/MP4解码器)中的22.2-ch音频和元数据。解码器506输出的是输入到格式转换器501的22.2-ch音频和元数据。OAMD元数据生成器504例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理由音频声道混洗器503应用的22.2-ch内容的声道重新排序。音频声道混洗器503输出的是经重新排序的音频声道。格式转换器501输出的是输入到对象音频渲染器502中的经重新排序的音频和OAMD声道。对象音频渲染器502使用OAMD处理音频,以使其适应于特定的扩音器布局。将传输的22.2内容转换为OBA以通过HDMI传输从而进行外部渲 染(STBA/VR/SB)
图6A和图6B是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD以通过高清多媒体接口(HDMI)传输从而进行外部渲染的示例性系统的框图。在该应用中,声道混洗器信息以及OAMD在编码器中生成,并且被封装在要传输的原生音频比特流(例如,AAC)内。在这种配置中,发生的格式转换被简化为音频混洗程序。经混洗的音频与OAMD一起被发送到OBA编码器,以通过HDMI在比特流中传输。在接收器端,比特流由对象音频渲染器解码和渲染。
参考图6A,编码系统600A包括格式转换器601以及OBA编码器602和解码器606。格式转换器601进一步包括OAMD元数据生成器604和音频声道混洗器603。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。原生音频比特流605(例如,AAC/MP4)包括输入到解码器606(例如,AAC/MP4解码器)中的22.2-ch音频和元数据。解码器606输出的是输入到格式转换器601的22.2-ch音频和元数据。OAMD元数据生成器604例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理由音频声道混洗器603应用的22.2-ch内容的声道重新排序。音频声道混洗器603输出的是经重新排序的音频声道。格式转换器601输出的是输入到OBA编码器602中的经重新排序的音频和OAMD声道。OBA编码器602对音频和OAMD进行编码,并输出包括音频和OAMD的OBA比特流。
参考图6B,解码系统600B包括OBA解码器607和对象音频渲染器608。OBA比特流被输入到输出音频和OAMD的OBA解码器607中,所述音频和OAMD被输入到对象音频渲染器608中。对象音频渲染器608使用OAMD处理音频,以使其适应于特定的扩音器布局。
经由原生比特流传输22.2预先计算的OAMD以通过HDMI进行传输
图7A至图7C是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的示例性系统的框图,其中,声道混洗信息和OAMD被封装在原生音频比特流内。在前述示例应用中,OAMD在解码器(例如,AAC解码器)之后生成。然而,作为替代性实施例,可以将声道混洗信息和OAMD嵌入到传输格式中(或者原生音频比特流或传输层中)。在该应用中,声道混洗信息以及OAMD在编码器中生成,并且被封装在要传输的原生音频比特流(例如,AAC比特流)内。在这种配置中,发生的格式转换被简化为音频混洗程序。经混洗的音频与OAMD一起被发送到OBA编码器,以通过HDMI进行传输。在接收端,使用对象音频渲染器对OBA比特流进行解码和渲染。
参考图7A,编码系统700A包括编码器701(例如,AAC编码器)和传输层多路复用器706。编码器701进一步包括核心编码器702、格式转换器703和比特流封装器705。格式转换器703进一步包括OAMD元数据生成器704,所述元数据生成器可以是例如Dolby ATMOS元数据生成器。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。
原生音频比特流707(例如,AAC/MP4)包括22.2-ch音频和元数据。音频被输入到编码器701的核心编码器702,所述核心编码器将音频编码成原生音频格式并将经编码音频输出到比特流封装器705。OAMD元数据生成器704例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理的22.2-ch内容的声道重新排序。声道混洗信息与OAMD一起被输入到比特流封装器705中。比特流封装器705输出的是包括声道混洗信息和OAMD的原生音频比特流。原生音频比特流被输入到传输层多路复用器706中,所述传输层多路复用器输出包括原生音频比特流的传输流。
参考图7B,解码/编码系统700B包括传输层解复用器708、解码器709、音频声道混洗器710和OBA编码器711。传输层解复用器708将音频和OAMD从传输比特流中解复用,并将音频和OAMD输入到解码器709中,所述解码器对来自原生音频比特流的音频和OAMD进行解码。经解码音频和OAMD然后被输入到OBA编码器711中,所述编码器将音频和OAMD编码成OBA比特流。
参考图7C,解码系统700C包括OBA解码器712和对象音频渲染器713。OBA比特流被输入到输出音频和OAMD的OBA解码器712中,所述音频和OAMD被输入到对象音频渲染器713中。对象音频渲染器713使用OAMD处理音频,以使其适应于特定的扩音器布局。
传输预先计算的OAMD以在源设备中渲染
图8A和图8B是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的示例性系统的框图,其中,声道混洗信息和OAMD被封装在原生音频比特流内以在源设备中渲染。在该应用中,声道混洗信息以及OAMD在编码器中生成,并且被封装在要经由传输层传输的原生音频比特流(例如,AAC比特流)内。在这种配置中,发生的格式转换被简化为音频混洗程序。经混洗的音频与OAMD一起被发送到对象音频渲染器以进行渲染。
参考图8A,编码系统800A包括编码器801(例如,AAC编码器)和传输层多路复用器807。编码器801进一步包括核心编码器803、格式转换器802和比特流封装器805。格式转换器802进一步包括OAMD元数据生成器804,所述元数据生成器可以是例如Dolby ATMOS元数据生成器。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。
原生音频比特流806(例如,AAC/MP4)包括22.2-ch音频和元数据。音频被输入到编码器801的核心编码器803,所述核心编码器将音频编码成原生音频格式并将经编码音频输出到比特流封装器805。OAMD元数据生成器804例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理的22.2-ch内容的声道重新排序。声道混洗信息与OAMD一起被输入到比特流封装器805中。比特流封装器805输出的是包括声道混洗信息和OAMD的原生音频比特流。原生音频比特流被输入到传输层多路复用器807中,所述多路复用器输出包括原生音频比特流的传输流。
参考图8B,解码系统800B包括传输层解复用器808、解码器809、音频声道混洗器810和对象音频渲染器811。传输层解复用器808将音频和OAMD从传输比特流中解复用,并将音频和OAMD输入到解码器809中,所述解码器对来自原生音频比特流的音频和OAMD进行解码。经解码音频和OAMD然后被输入到对象音频渲染器811中。对象音频渲染器811使用OAMD处理音频,以使其适应于特定的扩音器布局。
经由传输层传输预先计算的OAMD以通过HDMI进行传输
图9A至图9C是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的示例性系统的框图,其中,声道混洗信息和OAMD被嵌入传输层中以传递到源设备,并且然后被封装在原生音频比特流内以通过HDMI进行传输。
用于表示22.2-ch内容的OAMD对于程序来说是静态的。为此,期望避免频繁发送OAMD,以避免增加音频比特流中的数据速率。这可以通过在传输层内发送静态OAMD和声道混洗信息并在传输层中传输来实现。当接收到OAMD和声道混洗信息时,OBA编码器将其用于通过HDMI进行后续传输。示例传输层是ISO/IEC 14496-12-MPEG-4第12部分中描述的基本媒体文件格式(BMFF),所述基本媒体文件格式定义了基于时间的多媒体文件(如视频和音频)的通用结构。在使用MPEG-DASH的实施例中,OAMD被包括在清单中。
参考图9A,编码系统900A包括编码器902(例如,AAC编码器)、格式转换器905和传输层多路复用器903。格式转换器905进一步包括OAMD元数据生成器904。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。
原生音频比特流901(例如,AAC/MP4)包括22.2-ch音频和元数据。音频被输入到编码器902,所述编码器将音频编码成原生音频格式并将经编码音频输出到传输层多路复用器903。OAMD元数据生成器904例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理的22.2-ch内容的声道重新排序。声道混洗信息与OAMD一起被输入到传输层多路复用器903中。传输层多路复用器903输出的是传输比特流(例如,MPEG-2传输流)或封装文件(例如,ISO BMFF文件)或包括原生音频比特流的媒体展示描述(例如,MPEG-DASH清单)。
参考图9B,解码系统900B包括传输层解复用器906、解码器907、音频声道混洗器908和OBA编码器909。传输层解复用器906从传输比特流中去复用音频、声道混洗信息和OAMD。经解码音频被输入到音频比特流,随后输入到解码器907(例如,AAC解码器),所述解码器对音频进行解码以恢复(即,确定或提取)原生音频比特流。随后,原生音频比特流与传输层解复用器906输出的声道混洗信息一起被输入到音频声道混洗器908中。具有经重新排序的声道的音频从音频声道混洗器908输出并且与OAMD一起被输入到OBA编码器909中。OBA编码器输出的是OBA比特流。
参考图9C,解码系统900C包括OBA解码器910和对象音频渲染器911。OBA比特流被输入到输出音频和OAMD的OBA解码器910中,所述音频和OAMD被输入到对象音频渲染器911中。对象音频渲染器911使用OAMD处理音频,以使其适应于特定的扩音器布局。
经由传输层传输预先计算的OAMD以在源设备中渲染
图10A和图10B是根据实施例的用于将22.2-ch音频比特流转换为音频对象和OAMD的示例性系统的框图,其中,声道混洗信息和OAMD被嵌入传输层中以在源设备(例如,STB、AVR)中渲染。用于表示22.2-ch内容的OAMD对于程序来说是静态的。为此,期望避免频繁发送OAMD,以避免增加音频比特流中的数据速率。这可以通过在传输层内发送静态OAMD和声道混洗信息并在传输层中传输来实现。当接收到OAMD和声道混洗信息时,对象音频渲染器将其用于渲染内容。示例性传输层是ISO/IEC 14496-12-MPEG-4第12部分中描述的基本媒体文件格式(BMFF),所述基本媒体文件格式定义了基于时间的多媒体文件(例如视频和音频)的通用结构。在实施例中,OAMD被包括在MPEG-DASH清单中。
参考图10A,编码系统1000A包括编码器1001(例如,AAC编码器)、格式转换器1002和传输层多路复用器1004。格式转换器1002进一步包括OAMD元数据生成器1003。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。
原生音频比特流1005(例如,AAC/MP4)包括22.2-ch音频和元数据。音频被输入到编码器1001,所述编码器将音频编码成原生音频格式并将经编码音频输出到传输层多路复用器1004。OAMD元数据生成器1003例如遵循参考图1A描述的原理将22.2-ch元数据映射到OAMD,并生成声道混洗信息。声道混洗信息描述了例如遵循参考图1B描述的原理的22.2-ch内容的声道重新排序。声道混洗信息与OAMD一起被输入到传输层多路复用器1004中。传输层多路复用器1004输出的是包括原生音频比特流的传输流。
参考图10B,解码系统1000B包括传输层解复用器1006、解码器1007、音频声道混洗器1008和对象音频渲染器1009。传输层解复用器1006将音频和OAMD从传输比特流中解复用,并将音频和OAMD输入到解码器1007中,所述解码器对来自原生音频比特流的音频和OAMD进行解码。经解码音频和OAMD然后被输入到对象音频渲染器1009中。对象音频渲染器1009使用OAMD处理音频,以使其适应于特定的扩音器布局。
示例过程
图11是CBA到OBA转换过程1100的流程图。过程1100可以使用图3所示的音频系统架构来实施。过程1100包括:接收包括基于声道的音频和元数据的比特流(1101);从指示OAMD表示的比特流中解析信令参数(1102);基于用信号表示的OAMD表示将基于声道的元数据转换为OAMD(1103);基于OAMD的排序约束来生成声道混洗信息(1104);基于声道混洗信息对基于声道的音频的声道进行重新排序(1105);以及使用OAMD来渲染经重新排序的基于声道的音频(1106)。以上步骤1103和1104可以使用例如分别在图1A和图1B中示出的OAMD表示和底层声道指配/排序以及图3中示出的音频系统架构来执行。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。
图12是CBA到OBA转换过程1200的流程图。过程1200可以使用图4所示的音频系统架构来实施。过程1200包括:接收包括基于声道的音频和元数据的比特流(1201);从指示OAMD表示的比特流中解析信令参数(1202);基于用信号表示的OAMD表示将基于声道的元数据转换为OAMD(1203);基于OAMD的排序约束来生成声道混洗信息(1204);基于声道混洗信息对基于声道的音频的声道进行重新排序(1205);以及将经重新排序的基于声道的音频和OAMD编码成OBA比特流(1206)以传输到回放设备,在所述回放设备中,对象音频渲染器使用OAMD对音频进行渲染。以上步骤1203和1205可以使用例如分别在图1A和图1B中示出的OAMD表示和底层声道指配/排序以及图4中示出的音频系统架构来执行。OAMD元数据的一些示例包括但不限于内容描述元数据、属性更新元数据和修整数据。
图13是CBA到OBA转换过程1300的流程图。过程1300可以使用图5所示的音频系统架构来实施。过程1300包括:接收包括原生音频格式的基于声道的音频和元数据的原生音频比特流(1301);对原生音频比特流进行解码以恢复基于声道的音频和元数据(1302);从指示OAMD表示的比特流中解析信令参数(1303);基于用信号表示的OAMD表示将基于声道的元数据转换为OAMD(1304);基于OAMD的排序约束来生成声道混洗信息(1305);基于声道混洗信息对基于声道的音频的声道进行重新排序(1306);使用OAMD渲染经重新排序的基于声道的音频(1307)。步骤1304和1305可以使用例如分别在图1A和1B中示出的OAMD表示和底层声道指配/排序以及图5中示出的音频系统架构来执行。
图14是CBA到OBA转换过程1400的流程图。过程1400可以使用图6A和图6B所示的音频系统架构来实施。过程1400开始于:接收包括原生音频格式的基于声道的音频和元数据的原生音频比特流(1401);对原生音频比特流进行解码以恢复(即,确定或提取)基于声道的音频和元数据(1402);从指示OAMD表示的比特流中解析信令参数(1403)并基于用信号表示的OMD表示将基于声道的元数据转换为OAMD(1404);基于OAMD的排序约束来生成声道混洗信息(1405);基于声道混洗信息对基于声道的音频的声道进行重新排序(1406);将经重新排序的基于声道的音频和OAMD编码成OBA比特流(1407)以传输到回放设备,在所述回放设备中,对象音频渲染器使用OAMD对音频进行渲染。步骤1404和1405可以使用例如分别在图1A和1B中示出的OAMD表示和底层声道指配/排序以及图6A和图6B中示出的音频系统架构来执行。
图15是CBA到OBA转换过程1500的流程图。过程1500可以使用图7A至图7C所示的音频系统架构来实施。过程1500开始于:接收包括基于声道的音频和元数据的基于声道的音频比特流(1501);将基于声道的音频编码成原生音频比特流(1502);从指示OAMD表示的基于声道的元数据中解析信令参数(1503);基于用信号表示的OMD表示将基于声道的元数据转换为OAMD(1504);基于OAMD的排序约束来生成声道混洗信息(1505);将原生音频比特流、声道混洗信息和OAMD组合成组合音频比特流(1506);将组合的音频比特流包括在传输层比特流中(1507)以传输到回放设备进行渲染或者传输到源设备(例如,STB、AVR)进行渲染。参考图1A、图1B、图7A、图7C、图8A、图8B、图9A至图9C、图10A和图10B描述了上述步骤的细节。
图16是CBA到OBA转换过程1600的流程图。过程1600可以使用图8A、图8B、图9A至图9C、图10A、图10B所示的音频系统架构来实施。过程1600开始于:接收包括原生音频比特流和元数据的传输层比特流(1601);从传输比特流中提取原生音频比特流和元数据、声道混洗信息和OAMD(1602);对原生音频比特流进行解码以恢复(即,确定或提取)基于声道的音频(1603);使用声道混洗信息对基于声道的音频的声道进行重新排序(1604);可选地将经重新排序的基于声道的音频和OAMD编码成OBA比特流(1605)以传输到回放设备或源设备;或者可选地对OBA比特流进行解码以恢复经重新排序的基于声道的音频和OAMD 1606;以及使用OAM来渲染经重新排序的基于声道的音频1607并传输到回放设备。参考图8A、图8B、图9A至图9C、图10A和图10B描述了上述步骤的细节。
在MPEG-4音频或MPEG-D音频比特流中传输预先计算的OAMD
在实施例中,表示22.2内容的OAMD在原生音频比特流中携带,如MPEG-4音频(ISO/IEC 14496-3)比特流。下面提供了三个实施例的示例语法。
MPEG-4语法替代方案#1
MPEG-4语法替代方案#2
MPEG-4语法替代方案#3
在上述示例语法中,元素element_instance_tag是标识数据流元素的数字,并且元素extension_payload(int)可以包含在填充元素(ID_FIL)内。以上三个语法实施例中的每一个都描述了“tag”或“extension_type”来指示附加数据的含义。在实施例中,可以在比特流中插入信号,所述信号表示附加OAMD和声道混洗信息存在于比特流的三个扩展区域之一中,以避免解码器检查比特流的这些区域。例如,MPEG4_ancillary_data字段包含具有以下语义的dolby_surround_mode字段。可以使用类似的信令语法向解码器指示OAMD存在于比特流中。
dolby_surround_mode信号的定义
dolby_surround_mode | 描述 |
“00” | 未指示杜比环绕模式 |
“01” | 2-ch音频部分未采用杜比环绕编码 |
“10” | 2-ch音频部分采用杜比环绕声编码 |
“11” | 保留 |
在实施例中,上表中的保留字段用于指示预先计算的OAMD有效载荷嵌入在比特流的扩展数据中的某处。(dolby_surround_mode=“11”)的保留值用于向解码器指示扩展数据字段包含将22.2转换为OBA(例如,)需要的所需OAMD和声道信息。替代性地,保留字段指示内容是OBA兼容的(例如,/>兼容型),并且将22.2-ch内容转换为OBA是可能的。因此,如果dolby_surround_mode信号被设定为保留值“11”,则解码器将知道内容是OBA兼容的,并将22.2-ch内容转换为OBA,用于进一步编码和/或渲染。
在实施例中,表示22.2内容的OAMD在原生音频比特流中携带,如MPEG-DUSAC(ISO/IEC 23003—3)音频比特流。下面提供了这种实施例的示例语法。
示例音频系统架构
图17是根据实施例的包括声道音频到对象音频的转换的示例音频系统架构的框图。在该示例中,架构用于STB或AVR。STB/AVR 1700包括输入1701、模数转换器(ADC)1702、解调器1703、同步器/解码器1704、MPEG解复用器1707、MPEG解码器1706、存储器1709、控制处理器1710、音频声道混洗器1705、OBA编码器1711、以及视频编码器1712。在该示例中,STB/AVR 1700实施了图9A至图9C和图10A、图10B中描述的应用程序,其中,预先计算的OAMD在MPEG-4音频比特流中携带。
在实施例中,低噪声块收集来自圆盘式卫星电视天线的无线电波,并将其转换为模拟信号,所述模拟信号通过同轴电缆发送到STB/AVR 1700的输入端口1701。模拟信号由ADC 1702转换为数字信号。数字信号由解调器1703(例如,QPSK解调器)解调并由同步器/解码器1704(例如,同步器加维特比解码器)同步和解码,以恢复MPEG传输比特流,所述传输比特流由MPEG解复用器1707解调并由MPEG解码器1706解码,以恢复基于声道的音频和视频音频比特流和元数据,包括声道混洗信息和OAMD。音频声道混洗器1705例如遵循参考图1B描述的原理根据声道混洗信息对音频声道进行重新排序。OBA编码器1711将具有经重新排序的声道的音频编码成OBA音频比特流(例如,MAT),所述音频比特流被传输到回放设备(例如,/>设备)以由回放设备中的对象音频渲染器进行渲染。视频编码器1712将视频编码成回放设备支持的视频格式。
应注意,参考图17描述的架构仅为示例架构。从CBA到OBA的转换可以由任何设备来执行,所述设备包括一个或多个处理器、存储器、适当的输入/输出接口、以及用于执行本文描述的格式转换和声道重新排序的软件模块和/或硬件(例如,ASIC)。
虽然本文档包含许多具体实施方式细节,但是这些细节不应被解释为对可能要求的事物的范围的限制,而是被解释为对可能特定于特定实施例的特征的描述。在单独的实施例的上下文中在本说明书中所描述的某些特征还可以按组合形式实施在单一实施例中。相反,在单一实施例的上下文中描述的各种特征也可以被单独地或以任何适合的子组合的方式实施在多个实施例中。此外,尽管特征在上文可以被描述为以某些组合起作用并且甚至最初如此声明,但是在一些情况下可以从组合中去除要求保护的组合的一个或多个特征,并且所要求保护的组合可以涉及子组合或子组合的变体。在附图中描绘的逻辑流程不需要所示出的特定顺序或者有序顺序来实现期望的结果。另外,可以从所描述的流程中提供其他步骤,或者可以删除步骤,并且可以向所描述的系统添加其他部件,或者从所描述的系统中去除其他部件。因此,其他实施方式在以下权利要求的范围内。
可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
EEE 1.一种方法,包括:
由音频处理装置的一个或多个处理器接收包括基于声道的音频和元数据的比特流;
所述一个或多个处理器被配置成:
从所述元数据中解析信令参数,所述信令参数指示多个不同对象音频元数据(OAMD)表示中的一个;
使用由信令参数指示的OAMD表示将基于声道的元数据转换为OAMD;
基于所述OAMD的声道排序约束来生成声道混洗信息;
基于所述声道混洗信息对所述基于声道的音频的声道进行重新排序;以及
使用所述OAMD将所述经重新排序的基于声道的音频渲染成经渲染音频;或者
将所述基于声道的音频和OAMD编码成基于对象的音频比特流,并将所述基于对象的音频比特流传输到回放设备或源设备。
EEE 2.如EEE 1所述的方法,其中,所述基于声道的音频和元数据被包括在原生音频比特流中,并且所述方法进一步包括对所述原生音频比特流进行解码以恢复所述基于声道的音频和元数据。
EEE 3.如EEE 2所述的方法,其中,所述原生音频比特流是高级音频编码(AAC)比特流。
EEE 4.如EEE 1至3中任一项所述的方法,其中,所述基于声道的音频和元数据是N.M基于声道的音频和元数据,其中,N是大于九的正整数,并且M是大于或等于零的正整数。
EEE 5.如EEE 1至4中任一项所述的方法,其中,所述源设备是电视机顶盒或音频/视频接收器。
EEE 6.如EEE 1至5中任一项所述的方法,进一步包括:
确定所述基于声道的音频的能够由OAMD底层声道表示的第一组声道;
向第一组声道指配OAMD底层声道标签;
确定所述基于声道的音频的不能由OAMD底层声道表示的第二组声道;以及
向所述第二组声道指配静态OAMD位置坐标。
EEE 7.如EEE 1至6中任一项所述的方法,其中,所述OAMD包括维度修整数据,所述维度修整数据用于降低所述经渲染音频中的一个或多个屏幕外音频对象的响度水平。
EEE 8.如EEE 1至7中任一项所述的方法,其中,所述OAMD包括对象增益,所述对象增益用于补偿所述基于声道的音频的下混音值与所述基于声道的音频的OAMD表示的渲染之间的差异。
EEE 9.一种方法,包括:
由音频处理装置的一个或多个处理器接收包括基于声道的音频和元数据的比特流;
所述一个或多个处理器被配置成:
将基于声道的音频编码成原生音频比特流;
从所述元数据中解析信令参数,所述信令参数指示多个不同对象音频元数据(OAMD)表示中的一个;
使用由信令参数指示的OAMD表示将基于声道的元数据转换为OAMD;
基于所述OAMD的声道排序约束来生成声道混洗信息;
生成包括所述原生音频比特流、所述声道混洗信息和所述OAMD的比特流包;
将所述包多路复用到传输层比特流中;以及
将所述传输层比特流传输到回放设备或源设备。
EEE 10.如EEE 9所述的方法,其中,所述原生音频比特流是高级音频编码(AAC)比特流。
EEE 11.如EEE 9或EEE 10所述的方法,其中,所述基于声道的音频和元数据是N.M基于声道的音频和元数据,其中,N是大于七的正整数,并且M是大于或等于零的正整数。
EEE 12.如EEE 9至11中任一项所述的方法,其中,所述源设备是电视机顶盒或音频/视频接收器。
EEE 13.如EEE 9至12中任一项所述的方法,其中,所述基于声道的音频中可以由OAMD底层声道标签表示的声道使用所述OAMD底层声道标签,并且所述基于声道的音频中不能由OAMD底层声道标签表示的声道使用静态对象位置,其中,每个静态对象位置用OAMD位置坐标描述。
EEE 14.如EEE 9至13中任一项所述的方法,其中,所述OAMD包括维度修整数据,所述维度修整数据用于降低所述经渲染音频中的一个或多个屏幕外音频对象的响度水平。
EEE 15.如EEE 9至14中任一项所述的方法,其中,所述OAMD包括对象增益,所述对象增益用于补偿所述基于声道的音频的下混音值与所述基于声道的音频的OAMD表示的渲染之间的差异。
EEE 16.如EEE 9至15中任一项所述的方法,其中,所述传输比特流是动态图像专家组(MPEG)音频比特流,所述MPEG音频比特流包括指示在所述MPEG音频比特流的扩展字段中存在OAMD的信号。
EEE 17.如EEE 16所述的方法,其中,指示所述MPEG音频比特流中存在OAMD的所述信号被包括在所述MPEG音频比特流中的元数据的保留字段中,用于用信号表示环绕声模式。
EEE 18.一种方法,包括:
由音频处理装置的一个或多个处理器接收包括包的传输层比特流;
所述一个或多个处理器被配置成:
将所述传输层比特流解复用以恢复所述包;
对所述包进行解码以恢复原生音频比特流、声道混洗信息和对象音频元数据(OAMD);
对所述原生音频比特流进行解码以恢复基于声道的音频比特流和元数据;
基于所述声道混洗信息对所述基于声道的音频的声道进行重新排序;以及
使用所述OAMD将所述经重新排序的基于声道的音频渲染成经渲染音频;或者
将所述基于声道的音频和OAMD编码成基于对象的音频比特流,并将所述基于对象的音频比特流传输到源设备。
EEE 19.如EEE 18所述的方法,其中,所述原生音频比特流是高级音频编码(AAC)比特流。
EEE 20.如EEE 18或EEE 19所述的方法,其中,所述基于声道的音频和元数据是N.M基于声道的音频和元数据,其中,N是大于七的正整数,并且M是大于或等于零的正整数。
EEE 21.如EEE 18至20中任一项所述的方法,进一步包括:
确定所述基于声道的音频的能够由OAMD底层声道表示的第一组声道;
向第一组声道指配OAMD底层声道标签;
确定所述基于声道的音频的不能由OAMD底层声道表示的第二组声道;以及
向所述第二组声道指配静态OAMD位置坐标。
EEE 22.如EEE 18至21中任一项所述的方法,其中,所述OAMD包括维度修整数据,所述维度修整数据用于降低所述经渲染音频中的一个或多个屏幕外对象的响度水平。
EEE 23.如EEE 18至22中任一项所述的方法,其中,所述OAMD包括对象增益,所述对象增益用于补偿所述基于声道的音频的下混音值与所述基于声道的音频的OAMD表示的渲染之间的差异。
EEE 24.如EEE 18至23中任一项所述的方法,其中,所述传输比特流是动态图像专家组(MPEG)音频比特流,所述MPEG音频比特流包括指示在所述MPEG音频比特流的扩展字段中存在OAMD的信号。
EEE 25.如EEE 18至24中任一项所述的方法,其中,指示所述MPEG音频比特流中存在OAMD的所述信号被包括在所述MPEG音频比特流的元数据中的数据结构的保留字段中,用于用信号表示环绕声模式。
EEE 26.一种装置,包括:
一个或多个处理器;以及
非暂态计算机可读存储介质,其上存储有指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行如EEE 1至25中任一项所述的方法。
EEE 27.一种非暂态计算机可读存储介质,其上存储有指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行如前述EEE 1至25中任一项所述的方法。
Claims (15)
1.一种用于从基于声道的音频到基于对象的音频的转换的方法(1100,1200),包括:
由音频处理装置的一个或多个处理器接收(1101,1201)包括基于声道的音频和相关联的基于声道的音频元数据的比特流;
所述一个或多个处理器被配置成:
从所述基于声道的音频元数据中解析(1102,1202)信令参数,所述信令参数指示多个不同对象音频元数据(OAMD)表示中的一个,所述OAMD表示中的每一个将所述基于声道的音频的一个或多个音频声道映射到一个或多个音频对象;
使用由所述信令参数指示的所述OAMD表示将所述基于声道的音频元数据转换(1103,1203)为与所述一个或多个音频对象相关联的OAMD;
基于所述OAMD的声道排序约束来生成(1104,1204)声道混洗信息;
基于所述声道混洗信息对所述基于声道的音频的一个或多个音频声道进行重新排序(1105,1205),以生成经重新排序的基于声道的音频;以及
使用所述OAMD将所述经重新排序的基于声道的音频渲染(1106)成经渲染音频;或者
将所述经重新排序的基于声道的音频和所述OAMD编码(1206)成基于对象的音频比特流,并将所述基于对象的音频比特流传输到回放设备或源设备(600B)。
2.如权利要求1所述的方法,其中,所述包括基于声道的音频和相关联的基于声道的音频元数据的比特流是原生音频比特流,并且所述方法进一步包括对所述原生音频比特流进行解码以确定所述基于声道的音频和音频元数据。
3.如权利要求2所述的方法,其中,所述原生音频比特流是高级音频编码(AAC)比特流。
4.如前述权利要求中任一项所述的方法,其中,所述基于声道的音频和所述相关联的基于声道的音频元数据分别是N.M基于声道的音频和与所述N.M基于声道的音频相关联的基于声道的音频元数据,并且其中,N是大于九的正整数,并且M是大于或等于零的整数。
5.如权利要求4所述的方法,其中,所述基于声道的音频是22.2-ch音频。
6.一种用于从基于声道的音频到基于对象的音频的转换的方法(1500),包括:
由音频处理装置的一个或多个处理器接收(1501)包括基于声道的音频和相关联的基于声道的音频元数据的比特流;
所述一个或多个处理器被配置成:
将所述基于声道的音频编码(1502)成原生音频比特流;
从所述基于声道的音频元数据中解析(1503)信令参数,所述信令参数指示多个不同对象音频元数据(OAMD)表示中的一个,所述OAMD表示中的每一个将所述基于声道的音频的一个或多个音频声道映射到一个或多个音频对象;
使用由所述信令参数指示的所述OAMD表示将所述基于声道的音频元数据转换(1504)为与所述一个或多个音频对象相关联的OAMD;
基于所述OAMD的声道排序约束来生成(1505)声道混洗信息;
生成(1506)包括所述原生音频比特流、所述声道混洗信息和所述OAMD的比特流包,所述声道混洗信息使得能够在回放设备或源设备(700B,800B)处基于所述声道混洗信息对所述基于声道的音频的一个或多个音频声道进行重新排序,以生成经重新排序的基于声道的音频;
将所述比特流包多路复用(1507)到传输层比特流中;以及
将所述传输层比特流传输到所述回放设备或所述源设备(700B,800B)。
7.如权利要求6所述的方法,其中,所述原生音频比特流是高级音频编码(AAC)比特流。
8.如权利要求6或7中任一项所述的方法,其中,所述基于声道的音频和所述相关联的基于声道的音频元数据分别是N.M基于声道的音频和与所述N.M基于声道的音频相关联的基于声道的音频元数据,并且其中,N是大于七的正整数,并且M是大于或等于零的整数。
9.如权利要求8所述的方法,其中,所述基于声道的音频是22.2-ch音频。
10.一种用于从基于声道的音频到基于对象的音频的转换的方法(1600),包括:
由音频处理装置的一个或多个处理器接收(1601)包括比特流包的传输层比特流,所述比特流包包括原生音频比特流,所述原生音频比特流包括经编码的基于声道的音频、经编码的声道混洗信息和经编码的对象音频元数据(OAMD);
所述一个或多个处理器被配置成:
将所述传输层比特流解复用以确定所述比特流包;
对所述比特流包进行解码(1606)以确定所述基于声道的音频、所述声道混洗信息和所述对象音频元数据(OAMD);
基于所述声道混洗信息对所述基于声道的音频的音频声道进行重新排序(1604),以生成经重新排序的基于声道的音频;以及
使用所述OAMD将所述经重新排序的基于声道的音频渲染(1607)成经渲染音频;或者
将所述经重新排序的基于声道的音频和所述OAMD编码(1605)成基于对象的音频比特流,并将所述基于对象的音频比特流传输到源设备。
11.如权利要求10所述的方法,其中,所述原生音频比特流是高级音频编码(AAC)比特流。
12.如权利要求10或权利要求11所述的方法,其中,所述基于声道的音频是N.M基于声道的音频,并且其中,N是大于七的正整数,并且M是大于或等于零的整数。
13.如权利要求12所述的方法,其中,所述基于声道的音频是22.2-ch音频。
14.一种用于从基于声道的音频到基于对象的音频的转换的装置,包括:
一个或多个处理器;以及
非暂态计算机可读存储介质,其上存储有指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行如前述权利要求中任一项所述的方法。
15.一种非暂态计算机可读存储介质,其上存储有指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行如权利要求1至13中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962942322P | 2019-12-02 | 2019-12-02 | |
EP19212906 | 2019-12-02 | ||
EP19212906.2 | 2019-12-02 | ||
US62/942,322 | 2019-12-02 | ||
PCT/US2020/062873 WO2021113350A1 (en) | 2019-12-02 | 2020-12-02 | Systems, methods and apparatus for conversion from channel-based audio to object-based audio |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114930876A CN114930876A (zh) | 2022-08-19 |
CN114930876B true CN114930876B (zh) | 2023-07-14 |
Family
ID=73835849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080092548.7A Active CN114930876B (zh) | 2019-12-02 | 2020-12-02 | 用于从基于声道的音频到基于对象的音频的转换的系统、方法和装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230024873A1 (zh) |
EP (1) | EP3857919B1 (zh) |
JP (1) | JP7182751B6 (zh) |
KR (1) | KR102471715B1 (zh) |
CN (1) | CN114930876B (zh) |
BR (1) | BR112022010737A2 (zh) |
WO (1) | WO2021113350A1 (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101632118A (zh) * | 2006-12-27 | 2010-01-20 | 韩国电子通信研究院 | 包括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法 |
CN101689368A (zh) * | 2007-03-30 | 2010-03-31 | 韩国电子通信研究院 | 对具有多声道的多对象音频信号进行编码和解码的设备和方法 |
CN105612577A (zh) * | 2013-07-22 | 2016-05-25 | 弗朗霍夫应用科学研究促进协会 | 针对音频声道及音频对象的音频编码及解码的概念 |
CN106688251A (zh) * | 2014-07-31 | 2017-05-17 | 杜比实验室特许公司 | 音频处理系统和方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG10201604679UA (en) | 2011-07-01 | 2016-07-28 | Dolby Lab Licensing Corp | System and method for adaptive audio signal generation, coding and rendering |
WO2013192111A1 (en) * | 2012-06-19 | 2013-12-27 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
WO2015017037A1 (en) * | 2013-07-30 | 2015-02-05 | Dolby International Ab | Panning of audio objects to arbitrary speaker layouts |
CN105989845B (zh) | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | 视频内容协助的音频对象提取 |
US9934790B2 (en) * | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US20180357038A1 (en) * | 2017-06-09 | 2018-12-13 | Qualcomm Incorporated | Audio metadata modification at rendering device |
-
2020
- 2020-12-02 KR KR1020227022443A patent/KR102471715B1/ko active IP Right Grant
- 2020-12-02 CN CN202080092548.7A patent/CN114930876B/zh active Active
- 2020-12-02 EP EP20824875.7A patent/EP3857919B1/en active Active
- 2020-12-02 BR BR112022010737A patent/BR112022010737A2/pt unknown
- 2020-12-02 WO PCT/US2020/062873 patent/WO2021113350A1/en unknown
- 2020-12-02 JP JP2022532868A patent/JP7182751B6/ja active Active
- 2020-12-02 US US17/781,978 patent/US20230024873A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101632118A (zh) * | 2006-12-27 | 2010-01-20 | 韩国电子通信研究院 | 包括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法 |
CN101689368A (zh) * | 2007-03-30 | 2010-03-31 | 韩国电子通信研究院 | 对具有多声道的多对象音频信号进行编码和解码的设备和方法 |
CN105612577A (zh) * | 2013-07-22 | 2016-05-25 | 弗朗霍夫应用科学研究促进协会 | 针对音频声道及音频对象的音频编码及解码的概念 |
CN106688251A (zh) * | 2014-07-31 | 2017-05-17 | 杜比实验室特许公司 | 音频处理系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021113350A1 (en) | 2021-06-10 |
EP3857919A1 (en) | 2021-08-04 |
KR102471715B1 (ko) | 2022-11-29 |
CN114930876A (zh) | 2022-08-19 |
US20230024873A1 (en) | 2023-01-26 |
JP7182751B6 (ja) | 2022-12-20 |
JP2022553111A (ja) | 2022-12-21 |
KR20220100084A (ko) | 2022-07-14 |
JP7182751B1 (ja) | 2022-12-02 |
EP3857919B1 (en) | 2022-05-18 |
BR112022010737A2 (pt) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3729425B1 (en) | Priority information for higher order ambisonic audio data | |
US9373333B2 (en) | Method and apparatus for processing an audio signal | |
EP4156180A1 (en) | Loudness control for user interactivity in audio coding systems | |
CN112019881B (zh) | 视听内容项数据流 | |
US20200013426A1 (en) | Synchronizing enhanced audio transports with backward compatible audio transports | |
US20140310010A1 (en) | Apparatus for encoding and apparatus for decoding supporting scalable multichannel audio signal, and method for apparatuses performing same | |
KR102640460B1 (ko) | 고차 앰비소닉 오디오 데이터에 대한 계층화된 중간 압축 | |
KR20140046980A (ko) | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 | |
US11081116B2 (en) | Embedding enhanced audio transports in backward compatible audio bitstreams | |
RU2762400C1 (ru) | Способ и устройство обработки вспомогательных потоков медиаданных, встроенных в поток mpeg-h 3d audio | |
Riedmiller et al. | Delivering scalable audio experiences using AC-4 | |
CN114930876B (zh) | 用于从基于声道的音频到基于对象的音频的转换的系统、方法和装置 | |
KR101003415B1 (ko) | Dmb 신호의 디코딩 방법 및 이의 디코딩 장치 | |
US11062713B2 (en) | Spatially formatted enhanced audio data for backward compatible audio bitstreams | |
RU2793271C1 (ru) | Системы, способы и оборудование для преобразования из канально-ориентированного аудио в объектно-ориентированное аудио | |
US11270711B2 (en) | Higher order ambisonic audio data | |
JP7441057B2 (ja) | オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法 | |
CN108206983A (zh) | 兼容现有音视频系统的三维声信号的编码器及其方法 | |
Fug et al. | An Introduction to MPEG-H 3D Audio | |
Vlaicu | Audioin next-generation DVB | |
KR20140128563A (ko) | 복호화 객체 리스트 갱신 방법 | |
KR20140128562A (ko) | 사용자의 재생 채널의 위치에 따른 객체 신호 복호화 방법 | |
KR20140128561A (ko) | 사용자의 재생 채널 환경에 따른 선택적 객체 복호화 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |