CN111492427A - 高阶立体混响音频数据的优先级信息 - Google Patents

高阶立体混响音频数据的优先级信息 Download PDF

Info

Publication number
CN111492427A
CN111492427A CN201880082001.1A CN201880082001A CN111492427A CN 111492427 A CN111492427 A CN 111492427A CN 201880082001 A CN201880082001 A CN 201880082001A CN 111492427 A CN111492427 A CN 111492427A
Authority
CN
China
Prior art keywords
sound
higher order
component
spatial
order ambisonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880082001.1A
Other languages
English (en)
Other versions
CN111492427B (zh
Inventor
金墨永
N·G·彼得斯
S·塔加迪尔·施瓦帕
D·森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to CN202110544624.XA priority Critical patent/CN113488064A/zh
Publication of CN111492427A publication Critical patent/CN111492427A/zh
Application granted granted Critical
Publication of CN111492427B publication Critical patent/CN111492427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Abstract

总体上,描述了用于提供高阶立体混响HOA音频数据的优先级信息的技术。包括存储器和处理器的装置可以执行所述技术。所述存储器存储所述HOA音频数据的HOA系数,所述HOA系数表示声场。所述处理器可以将所述HOA系数分解为声音分量和对应空间分量,所述对应空间分量定义所述声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中。所述处理器还可以:基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;并且在表示所述HOA音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息。

Description

高阶立体混响音频数据的优先级信息
本申请要求于2018年12月20日提交的美国申请第16/227,880号的优先权,所述申请要求于2017年12月21日提交的美国临时申请第62/609,157号的权益,以上列出的申请中的每个申请的全部内容通过引用并入,如同响应性地被整体阐述一样。
技术领域
本公开涉及音频数据,并且更具体地涉及音频数据的压缩。
背景技术
高阶立体混响(higher order ambisonic,HOA)信号(通常由多个球谐系数(spherical harmonic coefficient,SHC)或其它层次元素表示)是声场的三维(3D)表示。HOA或SHC表示可以以独立于本地扬声器几何结构的方式表示此声场,所述本地扬声器几何结构用于回放从此SHC信号渲染的多通道音频信号。SHC信号还可以促进向后兼容性,因为可以将SHC信号渲染为众所周知且高度采用的多通道格式,如5.1音频通道格式或7.1音频通道格式。因此,SHC表示可以实现对声场的更好表示,所述表示也适应向后兼容性。
发明内容
总体上,描述了用于具有优先级信息的基于向量的高阶立体混响格式的技术,以潜在地对高阶立体混响音频数据的后续处理进行优先级排序。高阶立体混响音频数据可以包括与阶数大于1的球谐基函数相对应的至少一个球谐系数,并且在一些实例中,可以包括与阶数大于1的多个球谐基函数相对应的多个球谐系数。
在一个实例中,本公开中描述的技术的各个方面涉及一种装置,所述装置被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括存储器,所述存储器被配置成存储所述高阶立体混响音频数据的高阶立体混响系数,所述高阶立体混响系数表示声场。所述装置还包含一或多个处理器,所述一或多个处理器被配置成:将所述高阶立体混响系数分解为声音分量和对应空间分量,所述对应空间分量在球谐域中定义所述声音分量的形状、宽度和方向;基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;并且在表示所述高阶立体混响音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息。
在另一个实例中,本公开中描述的技术的各个方面涉及一种压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:将所述立体混响高阶立体混响音频数据的高阶立体混响系数分解为声音分量和对应空间分量,所述高阶立体混响音频数据表示声场,所述对应空间分量在球谐域中定义所述声音分量的形状、宽度和方向;基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;以及在表示所述高阶立体混响音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息。
在另一个实例中,本公开中描述的技术的各个方面涉及一种装置,所述装置被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:用于将所述立体混响高阶立体混响音频数据的高阶立体混响系数分解为声音分量和对应空间分量的装置,所述高阶立体混响音频数据表示声场,所述对应空间分量在球谐域中定义所述声音分量的形状、宽度和方向;用于基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息的装置,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;以及用于在表示所述高阶立体混响音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息的装置。
在另一个实例中,本公开中描述的技术的各个方面涉及一种非暂时性计算机可读存储媒体,所述非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在被执行时使一或多个处理器:将立体混响高阶立体混响音频数据的高阶立体混响系数分解为声音分量和对应空间分量,所述高阶立体混响音频数据表示声场,所述对应空间分量在球谐域中定义所述声音分量的形状、宽度和方向;基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;并且在表示所述高阶立体混响音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息。
在另一个实例中,本公开中描述的技术的各个方面涉及一种装置,所述装置被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:存储器,所述存储器被配置成至少部分地存储表示高阶立体混响系数的压缩版本的第一数据对象,所述高阶立体混响系数表示声场;以及一或多个处理器。所述一或多个处理器被配置成:从所述第一数据对象获得多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的剩余分量的优先级;基于所述优先级信息选择所述多个声音分量的非零子集;并且在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集。
在另一个实例中,本公开中描述的技术的各个方面涉及一种压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:从表示高阶立体混响系数的压缩版本的第一数据对象获得多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的剩余声音分量的优先级,所述高阶立体混响系数表示声场;基于所述优先级信息选择所述多个声音分量的非零子集;以及在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集。
在另一个实例中,本公开中描述的技术的各个方面涉及一种装置,所述装置被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:用于从表示高阶立体混响系数的压缩版本的第一数据对象获得多个声音分量和优先级信息的装置,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的剩余声音分量的优先级,所述高阶立体混响系数表示声场;用于基于所述优先级信息选择所述多个声音分量的非零子集的装置;以及用于在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集的装置。
在另一个实例中,本公开中描述的技术的各个方面涉及一种非暂时性计算机可读存储媒体,所述非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在被执行时使一或多个处理器:从表示高阶立体混响系数的压缩版本的第一数据对象获得多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的剩余声音分量的优先级,所述高阶立体混响系数表示声场;基于所述优先级信息选择所述多个声音分量的非零子集;并且在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集。
在另一个实例中,本公开中描述的技术的各个方面涉及一种压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:将高阶立体混响系数分解为主要声音分量和对应空间分量,所述高阶立体混响音频数据表示声场,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;以及从所述高阶立体混响系数获得描述所述声场的环境分量的环境高阶立体混响系数。所述方法还包括:获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;在表示所述高阶立体混响音频数据的压缩版本的数据对象中并且根据某一格式指定所述主要声音分量和所述对应空间分量;以及在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量。
在另一个实例中,本公开中描述的技术的各个方面涉及一种装置,所述装置被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:用于将高阶立体混响系数分解为主要声音分量和对应空间分量的装置,所述高阶立体混响音频数据表示声场,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;以及用于从所述高阶立体混响系数获得描述所述声场的环境分量的环境高阶立体混响系数的装置。所述装置还包括:用于获得与所述环境高阶立体混响系数相对应的改变用途的空间分量的装置,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;用于在表示所述高阶立体混响音频数据的压缩版本的数据对象中并且根据某一格式指定所述主要声音分量和所述对应空间分量的装置;以及用于在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量的装置。
在另一个实例中,本公开中描述的技术的各个方面涉及一种非暂时性计算机可读存储媒体,所述非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在被执行时使一或多个处理器:将高阶立体混响系数分解为主要声音分量和对应空间分量,所述高阶立体混响音频数据表示声场,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;从所述高阶立体混响系数获得描述所述声场的环境分量的环境高阶立体混响系数;获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;在表示所述高阶立体混响音频数据的压缩版本的数据对象中并且根据某一格式指定所述主要声音分量和所述对应空间分量;并且在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量。
在另一个实例中,本公开中描述的技术的各个方面涉及一种装置,所述装置被配置成解压缩表示声场的高阶立体混响音频数据,所述装置包括:存储器,所述存储器被配置成至少部分地存储表示高阶立体混响系数的压缩版本的数据对象,所述高阶立体混响系数表示声场;以及一或多个处理器,所述一或多个处理器被配置成从所述数据对象并且根据某一格式获得描述所述声场的环境分量的环境高阶立体混响系数。所述一或多个处理器被进一步配置成:从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;从所述数据对象并且根据同一格式获得主要声音分量;并且从所述数据对象获得对应空间分量,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应的空间分量定义于球谐域中。所述一或多个处理器还被配置成:基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送;并且将所述一或多个扬声器馈送输出到一或多个扬声器。
在另一个实例中,本公开中描述的技术的各个方面涉及一种解压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:从表示高阶立体混响系数的压缩版本的数据对象并且根据某一格式获得描述声场的环境分量的环境高阶立体混响系数,所述高阶立体混响系数表示所述声场;以及从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个。所述方法还包括:从所述数据对象并且根据同一格式获得主要声音分量;以及从所述数据对象获得对应空间分量,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中。所述方法进一步包括:基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送;以及将所述一或多个扬声器馈送输出到一或多个扬声器。
在另一个实例中,本公开中描述的技术的各个方面涉及一种装置,所述装置被配置成解压缩表示声场的高阶立体混响音频数据,所述装置包括:用于从表示高阶立体混响系数的压缩版本的数据对象并且根据某一格式获得描述声场的环境分量的环境高阶立体混响系数的装置,所述高阶立体混响系数表示所述声场。所述装置进一步包括:用于从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量的装置,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;以及用于从所述数据对象并且根据同一格式获得主要声音分量的装置。所述装置还包括:用于从所述数据对象获得对应空间分量的装置,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;用于基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送的装置;以及用于将所述一或多个扬声器馈送输出到一或多个扬声器的装置。
在另一个实例中,本公开中描述的技术的各个方面涉及一种非暂时性计算机可读存储媒体,所述非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在被执行时使一或多个处理器:从表示高阶立体混响系数的压缩版本的数据对象并且根据某一格式获得描述声场的环境分量的环境高阶立体混响系数,所述高阶立体混响系数表示所述声场;从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;从所述数据对象并且根据同一格式获得主要声音分量;从所述数据对象获得对应空间分量,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送;并且将所述一或多个扬声器馈送输出到一或多个扬声器。
在以下附图和描述中阐述了所述技术的一或多个方面的细节。这些技术的其它特征、目的和优点将根据所述描述和附图以及权利要求变得明显。
附图说明
图1是展示了各种阶数和子阶数的球谐基函数的图。
图2是展示了可以执行本公开中描述的技术的各个方面的包含心理声学音频编码装置的系统的图。
图3A-3D是展示了图2的实例中所示的系统的不同实例的图。
图4是展示了图2的实例中所示的系统的另一个实例的框图。
图5A和5B是更详细地展示了图2的系统的实例的框图。
图6是展示了图2-5B的实例中所示的心理声学音频编码装置的实例的框图。
图7是展示了图2-4的空间音频编码装置在执行本公开中描述的技术的各个方面时的各个方面的图。
图8A-8C是展示了根据本公开中描述的统一数据对象格式技术的各个方面的位流内的不同表示的图。
图9A-9F是展示了根据本公开中描述的技术的各个方面的图2-4的空间音频编码装置可以用于确定优先级信息的各种方式的图。
图10是展示了被配置成执行本公开中描述的技术的各个方面的不同系统的框图。
图11是展示了图2-6的心理声学音频编码装置在执行本公开中描述的技术的各个方面时的示例操作的流程图。
图12是展示了图2-5的空间音频编码装置在执行本公开中描述的技术的各个方面时的示例操作的流程图。
具体实施方式
市场上有各种基于“环绕声”通道的格式。所述格式的范围为例如5.1家庭影院系统(其在进军起居室超立体声(beyond stereo)方面一直是最成功的)到NHK(日本放送协会(Nippon Hoso Kyokai)或日本广播公司(Japan Broadcasting Corporation))开发的22.2系统。内容创作者(例如,好莱坞制片厂,其还可以称为内容提供商)希望一次产生电影的原声音乐,而不希望花费精力针对每种扬声器配置对其进行重混。动态图像专家组(MovingPictures Expert Group,MPEG)发布了允许使用分层元素集(例如,高阶立体混响HOA系数集)来表示声场的标准,所述分层元素集可以渲染为大多数扬声器配置(包含5.1和22.2配置)的扬声器馈送,而无论是处于由各种标准定义的位置还是处于不统一的位置。
MPEG将所述标准发布为MPEG-H 3D音频标准,其正式名称为“信息技术——异构环境中的高效编码和媒体分发——第3部分:3D音频(Information technology–Highefficiency coding and media delivery in heterogeneous environments–Part 3:3Daudio)”,由ISO/IEC JTC 1/SC 29进行阐述,文件标识符为ISO/IEC DIS 23008-3,并且发布日期为2014年7月25日。MPEG还发布了3D音频标准的第二版,其题为“信息技术——异构环境中的高效编码和媒体分发——第3部分:3D音频”,由ISO/IEC JTC 1/SC 29进行阐述,文件标识符为ISO/IEC 23008-3:201x(E),并且发布日期为2016年10月12日。本公开中对“3D音频标准”的引用可以是对上述标准中的一个或两个标准的引用。
如上所述,分层元素集的一个实例是球谐系数(SHC)集。以下表达式使用SHC展示了对声场的描述或表示:
Figure BDA0002545802260000071
所述表达式表明,在时间t处,声场的任何点
Figure BDA0002545802260000072
处的压力pi都可以用SHC
Figure BDA0002545802260000073
唯一地表示。在此,
Figure BDA0002545802260000074
c是声速(~343m/s),
Figure BDA0002545802260000075
是参考点(或观测点),jn(·)是阶数为n的球贝塞尔函数(Bessel function),并且
Figure BDA0002545802260000076
是阶数为n且子阶数为m的球谐基函数(其还可以称为球基函数)。可以认识到,方括号中的项是信号的频域表示(即,
Figure BDA0002545802260000077
),其可以通过各种时频变换来近似,所述时频变换如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集的其它实例包含小波变换系数集和多分辨率基函数的其它系数集。
图1是展示了零阶(n=0)到四阶(n=4)的球谐基函数的图。可以看出,对于每一个阶,都存在子阶m的扩展,为便于说明,所述子阶在图1的实例中示出,但未明确指出。
Figure BDA0002545802260000081
可以通过各种麦克风阵列配置来物理获取(例如,记录),或者可替代地,其可以从声场的基于通道或基于对象的描述得出。SHC(其还可以称为高阶立体混响HOA系数)表示基于场景的音频,其中SHC可以输入到音频编码器以获得可以促进更高效的传输或存储的经过编码的SHC。例如,可以使用涉及(1+4)2(25,并且因此四阶)系数的四阶表示。
如上所述,SHC可以使用麦克风阵列从麦克风记录得出。可以如何从麦克风阵列得出SHC的各种实例描述于波莱蒂,M.(Poletti,M.),“基于球谐的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”,音频工程协会杂志(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025页。
为了说明可以如何从基于对象的描述得出SHC,考虑以下等式。对应于单独音频对象的声场系数
Figure BDA0002545802260000082
可以表示为:
Figure BDA0002545802260000083
其中i是
Figure BDA0002545802260000084
Figure BDA0002545802260000085
是阶数为n(第二类)球汉克尔函数(Hankel function),并且
Figure BDA0002545802260000086
是对象的位置。知道作为频率的函数的对象源能量g(ω)(例如,使用时频分析技术,如对PCM流执行快速傅里叶变换)使得能够将每个PCM对象和对应位置转换成
Figure BDA0002545802260000087
此外,可以表明(由于以上内容是线性和正交分解),每个对象的系数
Figure BDA0002545802260000088
是加性的。以此方式,多个PCM对象可以由
Figure BDA0002545802260000089
系数表示(例如,表示为单独对象的系数向量的总和)。基本上,系数含有关于声场的信息(作为3D坐标的函数的压力),并且以上内容表示在观察点
Figure BDA00025458022600000810
附近从单独对象到整个声场的表示的变换。下文在基于SHC的音频编码的背景下描述剩余的附图。
图2是展示了可以执行本公开中描述的技术的各个方面的系统10的框图。如图2的实例所示,系统10包含广播网络12和内容消费者14。虽然在广播网络12和内容消费者14的背景下进行了描述,但是所述技术可以在对声场的SHC(其还可以被称为HOA系数)或任何其它分层表示进行编码以形成表示音频数据的位流的任何背景下实施。此外,广播网络12可以表示包括能够实施本公开中描述的技术的任何形式的计算装置中的一或多个计算装置的系统,仅举几例,所述计算装置包含手持装置(或蜂窝电话,包含所谓的“智能电话”)、平板计算机、膝上型计算机、台式计算机或专用硬件。同样,内容消费者14可以表示能够实施本公开中描述的技术的任何形式的计算装置,仅举几例,所述计算装置包含手持装置(或蜂窝电话,包含所谓的“智能电话”)、平板计算机、电视、机顶盒、膝上型计算机、游戏系统或控制台或台式计算机。
广播网络12可以表示可以生成供内容消费者(如内容消费者14)消费的多通道音频内容和可能地视频内容的任何实体。广播网络12可以表示内容提供商的一个实例。广播网络12可以在如体育赛事等事件中捕获现场音频数据,同时还将如现场报道音频数据、商业音频数据、开场或退场音频数据等各种其它类型的另外的音频数据插入到现场音频内容中。
内容消费者14表示拥有音频回放系统或可以访问音频回放系统的个体,所述音频回放系统可以指代能够渲染高阶立体混响音频数据(其包含高阶音频系数,再次,所述高阶音频系数还可以被称为球谐系数)以作为多通道音频内容进行回放的任何形式的音频回放系统。高阶立体混响音频数据可以定义于球谐域中,并且可以从球谐域渲染或以其它方式变换到空间域,从而产生多通道音频内容。在图2的实例中,内容消费者14包含音频回放系统16。
广播网络12包含麦克风5,所述麦克风以各种格式(包含直接以HOA系数的形式)和音频对象记录或以其它方式获得现场记录。当麦克风阵列5(其还可以被称为“麦克风5”)直接以HOA系数的形式获得现场音频时,麦克风5可以包含HOA转码器,如图2的实例中所示的HOA转码器400。换句话说,尽管被示出为与麦克风5分离,但是HOA转码器400的分离实例可以包含在麦克风5中的每个麦克风内,以便自然地将捕获到的馈送转码成HOA系数11。然而,当不包含在麦克风5内时,HOA转码器400可以将从麦克风5输出的现场馈送转码成HOA系数11。在此方面,HOA转码器400可以表示被配置成将麦克风馈送和/或音频对象转码成HOA系数11的单元。因此,广播网络12包含与麦克风5集成的HOA转码器400、与麦克风5分离的HOA转码器或其某种组合。
广播网络12还可以包含空间音频编码装置20、广播网络中心402(其还可以被称为“网络运营中心”NOC 402)和心理声学音频编码装置406。空间音频编码装置20可以表示能够对HOA系数11执行本公开中描述的夹层压缩(mezzanine compression)技术以获得经过中间格式化的音频数据15(其还可以被称为“经过夹层格式化的音频数据15”)的装置。经过中间格式化的音频数据15可以表示符合中间音频格式(如夹层音频格式)的音频数据。如此,夹层压缩技术还可以被称为中间压缩技术。
空间音频编码装置20可以被配置成通过至少部分地对HOA系数11执行分解(如线性分解,包含奇异值分解、特征值分解、KLT等)来对HOA系数11执行这种中间压缩(其还可以被称为“夹层压缩”)。此外,空间音频编码装置20可以执行空间编码方面(不包含心理声学编码方面)以生成符合以上引用的MPEG-H 3D音频编码标准的位流。在一些实例中,空间音频编码装置20可以执行MPEG-H 3D音频编码标准的基于向量的方面。
尽管在本公开中关于位流(如具有多个,或者换句话说,许多传输通道的位流)进行了描述,但是可以对任何类型的数据对象执行所述技术。数据对象可以指代任何类型的经过格式化的数据,包含前述位流以及具有多个轨道的文件或者其它类型的数据对象。
空间音频编码装置20可以被配置成使用涉及应用线性可逆变换(LIT)的分解对HOA系数11进行编码。线性可逆变换的一个实例被称为“奇异值分解”(或“SVD”),其可以表示线性分解的一种形式。在此实例中,空间音频编码装置20可以对HOA系数11应用SVD,以确定HOA系数11的分解版本。
HOA系数11的分解版本可以包含一或多个声音分量(举例来说,其可以指代在空间域中定义的音频对象)和/或一或多个对应空间分量。具有对应空间分量的声音分量还可以被称为主要音频信号或主要声音分量。声音分量还可以指代选自HOA系数11的立体混响音频系数。主要声音分量可以在空间域中定义,而空间分量可以在球谐域中定义。空间分量可以表示定义相关联的主要音频信号的形状、宽度和方向的两个或更多个方向向量的加权和(其在MPEG-H 3D音频编码标准中可以被称为“V向量”)。
然后,空间音频编码装置20可以分析HOA系数11的分解版本以标识各种参数,这可以促进HOA系数11的分解版本的重新排序。空间音频编码装置20可以基于所标识的参数对HOA系数11的分解版本进行重新排序,其中鉴于变换可以跨HOA系数的帧(其中一个帧通常包含HOA系数11的M个样本,并且在一些实例中,M被设置为1024)对HOA系数进行重新排序,下文进一步详细描述的这种重新排序可以提高编码效率。
在对HOA系数11的分解版本进行重新排序之后,空间音频编码装置20可以选择HOA系数11的分解版本的表示声场的前景(或者换句话说,独特的、主要的或者显著的)分量的HOA系数。空间音频编码装置20可以将表示前景分量的HOA系数11的分解版本指定为音频对象(其还可以被称为“主要声音信号”或“主要声音分量”)和相关联的空间信息(其还可以被称为空间分量)。
接下来,空间音频编码装置20可以对HOA系数11执行声场分析,以便至少部分地标识表示声场的一或多个背景(或换言之,环境)分量的HOA系数11。鉴于在一些实例中,背景分量可以仅包括HOA系数11的任何给定样本的子集(例如,对应于零阶和一阶球基函数的HOA系数,而不是对应于二阶或高阶球基函数的HOA系数),空间音频编码装置20可以对背景分量执行能量补偿。当执行降阶时,换言之,空间音频编码装置20可以增加HOA系数11的剩余背景HOA系数(例如,向其添加能量/从中减去能量),以补偿因执行降阶而导致的总能量变化。
空间音频编码装置20可以对前景方向信息执行某种形式的内插(再次,这可以是引用空间分量的另一种方式),然后对经过内插的前景方向信息执行降阶以生成经过降阶的前景方向信息。在一些实例中,空间音频编码装置20可以进一步对经过降阶的前景方向信息执行量化,从而输出经过编码的前景方向信息。在一些情况下,这种量化可以包括标量量化/熵量化。
然后,空间音频编码装置20可以输出经过夹层格式化的音频数据15作为背景分量、前景音频对象和经过量化的方向信息。在一些实例中,可以在位流中将背景分量和前景音频对象中的每一个指定为单独的经过脉冲编码调制(PCM)的传输通道。可以在位流中将与前景音频对象中的每个前景音频对象相对应的经过量化的方向信息中的每个经过量化的方向信息指定为边带信息(在一些实例中,其可以不经历后续的心理声学音频编码/压缩以保留空间信息)。经过夹层格式化的音频数据15可以表示数据对象的一个实例(在这种情况下,呈位流的形式),并且因此可以被称为经过夹层格式化的数据对象15或经过夹层格式化的位流15。
然后,空间音频编码装置20可以将经过夹层格式化的音频数据15传输或以其它方式输出到广播网络中心402。尽管在图2的实例中未示出,但是可以进一步处理经过夹层格式化的音频数据15以适应从空间音频编码装置20到广播网络中心402的传输(如加密、卫星压缩方案、光纤压缩方案等)。
经过夹层格式化的音频数据15可以表示符合所谓的夹层格式的音频数据,所述夹层格式通常是音频数据的经过轻度压缩(相对于通过将心理声学音频编码(如MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的心理声学编码)应用于音频数据来提供的终端用户压缩)的版本。鉴于广播公司优选提供低等待时间混合、编辑以及其它音频和/或视频功能的专用设备,考虑到这种专用设备的成本,广播公司不愿升级设备。
为了适应不断增加的视频和/或音频位率并提供与可能不适用于对高清视频内容或3D音频内容进行处理的较旧设备(换言之,传统设备)的互操作性,广播公司已经采用了这种通常被称为“夹层压缩”的中间压缩方案,以减小文件大小并且由此加快传输时间(如通过网络或在装置之间)和改进处理(尤其是对于较旧的传统设备)。换言之,这种夹层压缩可以提供可以用于加快编辑时间、减少等待时间并且可能改进整个广播过程的更轻量级的内容版本。
广播网络中心402因此可以表示负责使用中间压缩方案来编辑并以其它方式处理音频和/或视频内容以在等待时间方面改进工作流程的系统。在一些实例中,广播网络中心402可以包含移动装置的集合。在处理音频数据的背景下,在一些实例中,广播网络中心402可以将经过中间格式化的另外的音频数据插入到由经过夹层格式化的音频数据15表示的现场音频内容中。这种另外的音频数据可以包括表示商业音频内容(包含电视商业广告的音频内容)的商业音频数据、表示电视演播室音频内容的电视演播室节目音频数据、表示开场音频内容的开场音频数据、表示退场音频内容的退场音频数据、表示紧急情况音频内容的紧急情况音频数据(例如,气象警报、国家紧急情况、当地紧急情况等)或可以插入到经过夹层格式化的音频数据15中的任何其它类型的音频数据。
在一些实例中,广播网络中心402包含能够处理多达16个音频通道的传统音频设备。在依靠HOA系数(如HOA系数11)的3D音频数据的背景下,HOA系数11可以具有多于16个音频通道(例如,3D声场的4阶表示每个样本需要(4+1)2或25个HOA系数,这相当于25个音频通道)。传统广播设备的这种限制可能会减慢基于3D HOA的音频格式的采用,如ISO/IEC JTC1/SC 29/WG 11于2016年10月12日发布的题为“信息技术——异构环境中的高效编码和媒体分发——第3部分:3D音频”的ISO/IEC DIS 23008-3:201x(E)文档中阐述的基于3D HOA的音频格式(在本文中,所述文档可以被称为“3D音频编码标准”或“MPEG-H 3D音频编码标准”)。
如此,夹层压缩允许以克服传统音频设备的基于通道的限制的方式从HOA系数11获得经过夹层格式化的音频数据15。即,空间音频编码装置20可以被配置成获得具有16个或更少音频通道(并且可能少至6个音频通道,鉴于在一些实例中,传统音频设备可以允许处理5.1音频内容,其中‘.1’表示第六个音频通道)的夹层音频数据15。
广播网络中心402可以输出经过更新的经过夹层格式化的音频数据17。经过更新的经过夹层格式化的音频数据17可以包含经过夹层格式化的音频数据15和由广播网络中心404插入到经过夹层格式化的音频数据15中的任何另外的音频数据。在分发之前,广播网络12可以进一步压缩经过更新的经过夹层格式化的音频数据17。如图2的实例中所示,心理声学音频编码装置406可以对经过更新的经过夹层格式化的音频数据17执行心理声学音频编码(例如,上述实例中的任何一个实例),以生成位流21。然后,广播网络12可以通过传输通道将位流21传输到内容消费者14。
在一些实例中,心理声学音频编码装置406可以表示心理声学音频编码器的多个实例,所述多个实例中的每个实例用于对经过更新的经过夹层格式化的音频数据17中的每个经过更新的经过夹层格式化的音频数据的不同音频对象或HOA通道进行编码。在一些情况下,此心理声学音频编码装置406可以表示高级音频编码(AAC)编码单元的一或多个实例。通常,心理声学音频编码器单元40可以针对经过更新的经过夹层格式化的音频数据17的每个通道调用AAC编码单元的实例。
关于可以如何使用AAC编码单元来编码背景球谐系数的更多信息,可以在艾瑞克赫勒吕(Eric Hellerud)等人于2008年5月17-20日在第124届大会(124th Convention)上发表的题为“用AAC编码的高阶立体混响(Encoding Higher Order Ambisonics with AAC)”的大会论文中找到,并且可从以下网址获得:http://ro.uow.edu.au/cgi/ viewcontent.cgi?article=8025&context=engpapers。在一些情况下,心理声学音频编码装置406可以使用比用于编码经过更新的经过夹层格式化的音频数据17的其它通道(例如,背景通道)的位率更低的目标位率来对经过更新的经过夹层格式化的音频数据17的各个通道(例如,背景通道)进行音频编码。
虽然在图2中被示出为直接传输到内容消费者14,但是广播网络12可以将位流21输出到定位在广播网络12与内容消费者14之间的中间装置。中间装置可以存储位流21,以稍后分发到可以请求此位流的内容消费者14。中间装置可以包括能够存储位流21以供稍后由音频解码器检索的文件服务器、web服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或任何其它装置。中间装置可以驻留在内容分发网络中,所述内容分发网络能够使位流21流式传输(并且可能结合传输对应的视频数据位流)到请求位流21的用户,如内容消费者14。可替代地,中间装置可以驻留在广播网络12内。
可替代地,广播网络12可以将位流21以文件形式存储到存储媒体,如光盘、数字视频盘、高清视频盘或其它存储媒体,大多数所述存储媒体能够由计算机读取并且因此可以被称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此背景下,传输通道可以指代用于传输存储到这些媒体的内容的那些通道(并且可以包含零售商店和其它基于商店的分发机构)。因此,在任何情况下,本公开的技术不应在此方面限于图2的实例。HOA系数11的分解版本的各个方面以文件形式被存储到的传输通道可以被称为轨道。
如图2的实例中进一步示出的,内容消费者14包含音频回放系统16。音频回放系统16可以表示能够回放多通道音频数据的任何音频回放系统。音频回放系统16可以包含多个不同的音频渲染器22。音频渲染器22可以各自提供不同形式的渲染,其中不同形式的渲染可以包含执行向量基幅度平移(VBAP)的各种方式中的一或多种方式,和/或执行声场合成的各种方式中的一或多种方式。
音频回放系统16可以进一步包含音频解码装置24。音频解码装置24可以表示被配置成从位流21解码HOA系数11'的装置,其中HOA系数11'可以与HOA系数11类似,但由于有损操作(例如,量化)和/或通过传输通道进行的传输而有所不同。
即,音频解码装置24可以对位流21中指定的前景方向信息进行反量化,同时还对位流21中指定的前景音频对象和表示背景分量的经过编码的HOA系数执行心理声学解码。音频解码装置24可以进一步对经过解码的前景方向信息执行内插,然后基于经过解码的前景音频对象和经过内插的前景定方向信息确定表示前景分量的HOA系数。然后,音频解码装置24可以基于所确定的表示前景分量的HOA系数和表示背景分量的经过解码的HOA系数确定HOA系数11'。
音频回放系统16可以在解码位流21以获得HOA系数11'之后渲染HOA系数11'以输出扬声器馈送25。音频回放系统15可以将扬声器馈送25输出到扬声器3中的一或多个扬声器。扬声器馈送25可以驱动一或多个扬声器3。
为了选择适当的渲染器,或者在一些情况下生成适当的渲染器,音频回放系统16可以获得扬声器信息13,所述扬声器信息指示扬声器3的数量和/或扬声器3的空间几何结构。在一些情况下,音频回放系统16可以使用参考麦克风获得扬声器信息13,并且以动态地确定扬声器信息13的方式来驱动扬声器3。在其它情况下或结合扬声器信息13的动态确定,音频回放系统16可以提示用户与音频回放系统16介接并输入扬声器信息13。
音频回放系统16可以基于扬声器信息13选择音频渲染器22中的一个音频渲染器。在一些情况下,当与扬声器信息13中指定的度量相比,音频渲染器22中的任何音频渲染器都未处于某一阈值相似性度量(在扬声器几何结构方面)内时,音频回放系统16可以基于扬声器信息13生成音频渲染器22中的所述一个音频渲染器。在一些情况下,音频回放系统16可以基于扬声器信息13生成音频渲染器22中的所述一个音频渲染器,而不首先尝试选择音频渲染器22中的现有的一个音频渲染器。
虽然关于扬声器馈送25进行了描述,但是音频回放系统16可以从扬声器馈送25或者直接从HOA系数11'渲染耳机馈送,从而将耳机馈送输出到耳机扬声器。耳机馈送可以表示双耳音频扬声器馈送,音频回放系统15使用双耳音频渲染器来渲染所述双耳音频扬声器馈送。
如上所述,空间音频编码装置20可以分析声场以选择多个HOA系数(如与阶数为1或更少的球基函数相对应的HOA系数)来表示声场的环境分量。空间音频编码装置20还可以基于此分析或另一分析选择多个主要音频信号和对应空间分量来表示声场的前景分量的各个方面,从而丢弃任何剩余的主要音频信号和对应空间分量。
空间音频编码装置20可以在位流(或者在轨道的实例中,文件)的单独的传输通道(或者在文件的实例中,轨道)中指定声场的这些不同分量。然后,心理声学音频编码装置406可以在形成位流21(其还可以说明文件,并且因此可以被称为可以指代位流和/或文件两者的“文件21”,或者更一般地,“数据对象21”)时进一步减少传输通道(或轨道)的数量。心理声学音频编码装置406可以减少传输通道的数量以生成实现指定目标位率的位流21。目标位率可以由广播网络12强制执行,通过对传输通道21的分析来确定,由音频回放系统16请求或者通过用于确定目标位率的任何其它机制获得。
心理声学音频编码装置406可以实施任何数量的用于选择经过夹层格式化的音频数据15的传输通道的非零子集(其包含在经过更新的经过夹层格式化的音频数据15中)的不同过程。除非另外明确指出,否则在本公开中对“子集”的引用旨在引用具有的数据比较大集中的元素的总数少的“非零子集”,而不是包含较大集的零或多个元素到较大集的全部元素的子集的严格数学定义。然而,心理声学音频编码装置406可能没有足够的时间(例如,在现场直播时)或计算能力来执行使得能够在保持足够的音频质量(并且限制降低感知到的音频质量的音频伪像的注入)的同时仍准确标识要在位流21中指定经过夹层格式化的音频数据15中所阐述的较大传输通道集中的哪个传输通道的详细分析。
此外,如上所述,空间音频编码装置20可以将背景分量(或者换言之,环境HOA系数)指定给位流15的传输通道,同时将前景分量(或者换言之,主要声音分量)和对应空间分量分别指定给位流15和边带信息的传输通道。由于必须用信号发送单独的传输通道格式以标识传输通道中的哪些传输通道指定背景分量以及传输通道中的哪些传输通道指定前景分量,因此相比前景分量,必须以不同方式指定背景分量(因为前景分量还包含对应的空间分量)可能会导致带宽效率低下。
因为传输格式是在每个帧内在每传输通道的基础上通过信号发送的,所以用信号发送传输格式会导致存储器、存储和/或带宽效率低下,从而导致位流大小增加(因为位流可以包含数千、数十万、数百万以及可能数千万个帧),从而导致可能更大的存储器和/或存储空间消耗、从存储器和/或存储空间检索位流的速度变慢、内部存储器总线带宽消耗增加、网络带宽消耗增加等。这些存储器、存储和/或带宽效率低下可能影响底层计算装置本身的操作。
根据本公开中描述的技术,空间音频编码装置20可以基于声音分量和对应的空间分量中的一或多个来确定优先级信息,所述优先级信息指示声音分量相对于由HOA系数11表示的其它声场声音分量的优先级。如上所述,术语“声音分量”可以指代主要声音分量(例如,在空间域中定义的音频对象)和环境HOA系数(其定义于球谐域中)。对应空间分量可以指代上述V向量,其定义主要声音分量的形状、宽度和方向,并且也定义于球谐域中。
空间音频编码装置20可以以多种不同方式确定优先级信息。例如,空间音频编码装置20可以确定声音分量的能量或声音分量的HOA表示的能量。为了确定声音分量的HOA表示的能量,空间音频编码装置20可以将声音分量乘以对应的空间分量(或者在一些情况下,对应的空间分量的转置)来获得声音分量的HOA表示,然后确定声音分量的HOA表示的能量。
接下来,空间音频编码装置20可以基于所确定的能量来确定优先级信息。在一些实例中,空间音频编码装置20可以确定从HOA系数11(或每个声音分量的HOA表示)分解的每个声音分量的能量。空间音频编码装置20可以为具有最高能量的声音分量确定最高优先级(其中最高优先级可以由相对于其它优先级值的最低优先级值或最高优先级值表示),为具有第二高能量的声音分量确定第二高优先级等。
尽管关于能量进行了描述,但是空间音频编码装置20可以确定声音分量或声音分量的HOA表示的响度度量。空间音频编码装置20可以基于响度度量来确定优先级信息。此外,在一些实例中,空间音频编码装置20可以确定声音分量的能量和响度度量两者,并且接下来基于能量和响度度量中的一或多个确定优先级信息。
在此实例和其它实例中,空间音频编码装置20可以为了确定能量或响度度量而将声音分量的HOA表示渲染成一或多个扬声器馈送。空间音频编码装置20可以将声音分量的HOA表示渲染成例如适合于以规则几何结构(如为5.1、7.1、10.2、22.2和其它统一环绕声格式定义的扬声器几何结构,包含在多个高度上引入扬声器的格式,如5.1.2、5.1.4等,其中第三个数字(例如,5.1.2中的2或5.1.4中的4)指示较高水平面上的扬声器的数量)布置的扬声器的一或多个扬声器馈送。然后,空间音频编码装置20可以基于所述一或多个扬声器馈送来确定能量和/或响度度量。
在此实例和其它实例中,空间音频编码装置20可以基于空间分量来确定指示声音分量与声场的相关性的空间权重。为了进行说明,空间音频编码装置20可以确定这样的空间权重,所述空间权重表明对应的当前声音分量在听众正前方大约在头部高度处定位在声场中,这表示与在当前声音分量的右边、左边、上方或下方定位在声场中的其它声音分量相比,当前声音分量相对更重要。
基于空间分量并且作为另一说明,空间音频编码装置20可以确定当前声音分量在声场中较高,这可以指示当前声音分量比低于头部高度的声音分量相对更重要,因为相比从头部下方传来的声音,人类听觉系统对从头部上方传来的声音更敏感。同样,空间音频编码装置20可以确定这样的空间权重,所述空间权重表明声音分量位于听众的头部前方并且可能比定位在听众的头部后面的其它声音分量更重要,因为相对于从后面到达听众头部的声音,人类听觉系统对从前面到达听众头部的声音更敏感。又另举一例,空间音频编码装置20可以基于能量、响度度量和空间权重中的一或多个来确定优先级信息。
在这些和其它实例中,空间音频编码装置20可以确定连续性指示,所述连续性指示指示当前部分(例如,在位流15中的传输通道的情况下的当前帧,或者在文件的情况下的当前轨道)是否与前一部分(例如,位流15中的同一传输通道的前一帧,或者在文件的情况下的前一轨道)定义了相同的声音分量。基于连续性指示,空间音频编码装置20可以确定优先级信息。相比具有负连续性指示的声音分量,空间音频编码装置20可以跨部分为具有正连续性指示的声音分量分配更高的优先级,因为相对于在正确的时间注入新的声音分量的故障,音频场景中的连续性通常更重要(就质量和明显伪像方面的积极的收听体验而言)。
在这些和其它实例中,空间音频编码装置20可以对声音分量、声音分量的高阶立体混响表示和/或一或多个经过渲染的扬声器馈送执行信号分类,以确定声音分量所对应的类别。举例来说,空间音频编码装置20可以执行信号分类以标识声音分量属于语音类别还是非语音类别,其中语音类别表明声音分量主要是语音内容,而非语音类别表明声音分量主要是非语音内容。
接下来,空间音频编码装置20可以基于所述类别来确定优先级信息。相比与非语音类别相关联的声音分量,空间音频编码装置20可以为与语音类别相关联的声音分量分配更高的优先级,因为相比非语音内容,语音内容对于给定的音频场景通常更重要。
又另举一例,空间音频编码装置20可以从提供HOA音频数据(其可以指代HOA系数11和其它元数据或音频数据)的内容提供商获得声音分量相对于声场的其它分量的优选优先级。换言之,内容提供商可以指示3D声场中的哪些位置相比声场中的其它位置具有更高的优先级(或者换言之,优选优先级)。空间音频编码装置20可以基于优选优先级来确定优先级信息。
尽管上文描述为基于不同类型的数据的各种组合来确定优先级信息,但是空间音频编码装置20可以基于能量、响度度量、空间权重、连续性指示、优选优先级和类别(仅举几例)中的一或多个来确定优先权信息。下文关于图8A-8F描述了不同组合的多个详细实例。
空间音频编码装置20可以在表示HOA系数11的压缩版本的位流15中指定声音分量和优先级信息。在一些实例中,空间音频编码装置20可以指定多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的剩余声音分量的优先级。
心理声学音频编码装置406可以从(嵌入在位流17中的)位流15获得所述多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的剩余声音分量的优先级。心理声学音频编码装置406可以基于优先级信息选择所述多个声音分量的非零子集。
如上所述,相比空间音频编码装置20在编写位流15时遇到的通道或轨道约束,心理声学音频编码装置406可能具有不同的通道或轨道约束,其中相对于空间音频编码装置20的,心理声学音频编码装置406用于指定声音分量的通道或轨道的数量可能减少。使用优先级信息,心理声学音频编码装置406可以更高效地标识应当经历心理声学编码的更重要的声音分量,并且由此产生HOA系数11的更高质量的表示。
因为减少了心理音频编码装置406执行的计算操作(并且减少了由于所执行的计算操作增加而导致的存储器消耗),同时还提高了心理音频编码装置406可以编码位流21的速度,所以使用优先级信息获得了高效率。此外,所述技术的前述方面可以减少能量消耗并延长潜在的操作时间(例如,对于依赖于电池或其它形式的移动电源的装置),这会影响心理声学音频编码装置406本身的操作。
另外,鉴于计算机广播的性质,考虑到心理声学音频编码装置406可能没有足够的时间(例如,在现场直播时)或计算能力来执行使得能够在保持足够的音频质量(并且限制降低感知到的音频质量的音频伪像的注入)的同时仍准确标识要在位流21中指定经过夹层格式化的音频数据15中所阐述的较大传输通道集中的哪个传输通道的详细分析,所述技术的上述方面可以解决根植于技术本身的问题。上述技术通过允许空间音频编码装置20(为了压缩的目的,其已经执行了与声音分量的能量、响度、连续性、类别等有关的许多但不是全部确定)利用用于压缩的功能来标识优先级信息来解决此问题,所述优先级信息可以允许心理声学音频编码装置406快速选择应在位流21中指定的传输通道。
除了指定声音分量之外,心理声学音频编码装置406还可以获得与所述多个声音分量中的每个声音分量相对应的空间分量,并且在位流21中指定与所述多个声音分量的非零子集相对应的非零空间分量子集。在指定各种声音分量和对应空间分量之后,心理声学音频编码装置406可以执行心理声学音频编码以获得位流21。
另外,或作为所述技术的上述方面的替代方案,空间音频编码装置20可以使用将改变用途的空间分量与环境HOA系数中的每个环境HOA系数相关联的统一格式来指定两种类型的声音分量(例如,环境HOA系数和主要声音分量)。改变用途的空间分量可以指示环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个。
在两种类型的声音分量都被指定有元素数量相同的对应空间分量的意义上,格式是统一的。在改变用途的空间分量情况下,空间音频编码器装置20可以利用与对应于主要声音分量的空间分量具有相同元素数量的空间分量,但是将空间分量改变用途以将所述元素中指示环境HOA系数所对应的球基函数的阶数和/或子阶数的单个元素的值指定为1。
换言之,改变用途的空间分量包括元素数量等于最大阶数(N)加1的平方(N+1)2的向量,其中最大阶数定义为HOA系数11所对应的球基函数的最大阶数。向量通过使向量的元素之一的值为1并且使剩余元素的值为0来标识阶数和子阶数。空间音频编码装置20可以在数据对象中并且根据同一格式指定环境高阶立体混响系数和对应的改变用途的空间分量,而不在数据对象中指定环境高阶立体混响系数的阶数和子阶数。
为了标识正确的阶数和/或子阶数,空间音频编码器装置20可以获得谐波系数排序格式指示符,所述谐波系数排序格式指示符指示HOA系数的对称谐波系数排序格式或线性谐波系数排序格式。关于谐波系数排序格式指示符、对称谐波系数和线性谐波系数排序格式的更多信息,可以在莫雷尔M.(Morrell,M.)等人于2015年8月27日公开的题为“高阶立体混响音频数据的排序格式信令(ORDER FORMAT SIGNALING FOR HIGHER_ORDERAMBISONIC AUDIO DATA)”的美国专利公开US 2015/0243292中找到。空间音频编码器装置20可以基于谐波系数排序格式指示符来获得改变用途的向量。值设置为1的向量元素通过在根据所指示的排序格式(对称或线性)对球基函数进行排序时标识环境HOA系数对应于球基函数中的哪个球基函数来指示对应的环境HOA系数所对应的球基函数的阶数和/或子阶数。
然后,空间音频编码器装置20可以在位流15中并且根据某一格式(例如,传输格式或轨道格式)指定主要声音分量和对应空间分量。空间音频编码器装置20还可以在位流15中并且根据同一格式指定环境高阶立体混响系数和对应的改变用途的空间分量。
所述技术的上述统一格式方面可以避免重复用信号发送每个传输通道的传输格式,而是用可以从先前的帧潜在地预测的改变用途的空间分量替代用信号发送每个传输通道的传输格式,由此产生与实现装置本身的改进(在减少存储消耗、处理周期方面——或者换言之,计算操作的性能——带宽消耗等方面)的上述效率类似的各种效率。
音频解码装置24可以接收具有根据统一格式指定的传输通道的位流21。音频解码装置24可以从位流21(再次,其是数据对象的一个实例)并且根据某一格式来获得描述声场的环境分量的环境高阶立体混响系数。音频解码装置24还可以从位流21获得对应于环境高阶立体混响系数的改变用途的空间分量。音频解码装置24可以进一步从位流21并且根据同一格式获得主要声音分量,同时还从位流21获得对应空间分量。在获得上述各种分量之前,音频解码装置24可以以与心理声学音频编码装置406执行的心理声学音频编码相逆的方式对位流21执行心理声学音频解码,以获得位流21的带宽解压缩版本。
然后,音频解码装置24可以以上述方式操作以重构并且随后输出经过重构的HOA系数11'或者以上文引用的MPEG-H 3D音频编码标准的第二版的附件G所阐述的方式进行操作以基于环境高阶立体混响系数、改变用途的空间分量、主要声音分量以及对应空间分量渲染一或多个扬声器馈送25(在后一种情况下,将把音频渲染器22有效地结合到音频解码装置24中)。音频回放系统16接下来可以将所述一或多个扬声器馈送25输出到一或多个扬声器3。
音频解码装置24可以从位流21获得谐波系数排序格式指示符,并且基于谐波系数排序格式指示符确定改变用途的向量,并且以与上文关于空间音频编码装置20所描述的方式相逆的方式确定高阶立体混响系数所对应的球基函数的阶数和子阶数。音频解码装置24可以在渲染所述一或多个扬声器馈送25之前将环境高阶立体混响系数与具有所确定的阶数和子阶数的球基函数相关联。
尽管未相对于较大的位置示出音频回放系统16,但是电视、汽车、耳机或包含耳机的头戴式装置也可以包含音频回放系统16,其中所述一或多个扬声器3被包含为集成扬声器3。当集成到耳机或包含耳机的头戴式装置中时,音频回放系统16可以将扬声器馈送25渲染为一或多个双耳音频耳机馈送。
图5A和5B是更详细地展示了图2的系统10的实例的框图。如图5A的实例中所示,系统800A是系统10的实例,其中系统800A包含远程卡车600、网络运营中心(NOC)402、本地附属机构602和内容消费者14。远程卡车600包含空间音频编码装置20(在图5A的实例中示出为“SAE装置20”)和贡献编码器装置604(在图5A的实例中示出为“CE装置604”)。
SAE装置20以上文关于(上文关于图2的实例描述的)空间音频编码装置20描述的方式进行操作。图5A的实例中所示的SAE装置20接收64个HOA系数11并生成经过中间格式化的位流15,所述经过中间格式化的位流包含16个通道——主要音频信号和环境HOA系数的15个通道和定义与主要音频信号相对应的空间分量的边带信息和自适应增益控制(AGC)信息以及其它边带信息的1个通道。
CE装置604对经过中间格式化的位流15和视频数据603进行操作以生成混合媒体位流605。CE装置604可以对经过中间格式化的音频数据15和(例如,在捕获HOA系数11的同时捕获的)视频数据603执行轻量级压缩。CE装置604可以将经过压缩的经过中间格式化的音频位流15和经过压缩的视频数据603的帧进行复用以生成混合媒体位流605。CE装置604可以将混合媒体位流605传输到NOC 402以进行如上文所描述的进一步处理。
本地附属机构602可以表示本地广播附属机构,所述本地广播附属机构本地广播混合媒体位流605表示的内容。本地附属机构602可以包含贡献解码器装置606(在图5A的实例中示出为“CD装置606”)和心理声学音频编码装置406(在图5A的实例中示出为“PAE装置406”)。CD装置606可以以与CE装置604的操作相逆的方式进行操作。如此,CD装置606可以解复用经过中间格式化的音频位流15和视频数据603的压缩版本,并且解压缩经过中间格式化的音频位流15和视频数据603的两个压缩版本,以恢复经过中间格式化的位流15和视频数据603。PAE装置406可以以上文关于图2所示的心理声学音频编码器装置406所描述的方式进行操作以输出位流21。在广播系统的背景下,PAE装置406可以被称为“发射编码器406”。
发射编码器406可以对位流15进行转码,从而根据发射编码器406是否利用了音频帧之间的预测来更新hoaIndependencyFlag语法元素,同时还可能在根据优先级信息选择传输通道的非零子集时改变主要声音分量数量语法元素的值并且可能改变环境HOA系数数量语法元素的值。发射编码器406可以改变hoaIndependentFlag语法元素、主要声音分量数量语法元素和环境HOA系数数量语法元素以实现目标位率。
尽管在图5A的实例中未示出,但是本地附属机构602可以包含用于压缩视频数据603的另外的装置。此外,尽管被描述为不同的装置(例如,SAE装置20、CE装置604、CD装置606、PAE装置406、APB装置16和下文更详细描述的VPB装置608等),但是可以将各个装置实施为一或多个装置内的不同单元或硬件。
在图5A的实例中示出的内容消费者14包含上文关于图2的实例描述的音频回放装置16(在图5A的实例中示出为“APB装置16”)和视频回放(VPB)装置608。APB装置16可以像上文关于图2所描述的那样进行操作以生成输出到扬声器3(其可以指代集成到耳机、耳塞、头戴式装置(其包含耳机,但还可以包含用于检测语音信号或其它音频信号的换能器)等中的扬声器(loudspeaker或speaker))的多通道音频数据25。VPB装置608可以表示被配置成回放视频数据603的装置,并且可以包含视频解码器、帧缓冲器、显示器以及被配置成回放视频数据603的其它组件。
图5B的实例中所示的系统800B与图5B的系统800A类似,除了远程卡车600包含另外的装置610之外,所述另外的装置被配置成对位流15的边带信息(SI)15B执行调制(其中其它15个通道被表示为“通道15A”或“传输通道15A”)。另外的装置610在图5B的实例中被示出为“调制装置610”。调制装置610可以对边带信息610执行调制,以潜在地减少边带信息的削波并且由此减少信号丢失。
图3A-3D是展示了可以被配置成执行本公开中描述的技术的各个方面的系统的不同实例的框图。图3A中所示的系统410A与图2的系统10类似,除了系统10的麦克风阵列5被麦克风阵列408替代之外。图3A的实例中所示的麦克风阵列408包含HOA转码器400和空间音频编码装置20。如此,麦克风阵列408生成经过空间压缩的HOA音频数据15,然后所述经过空间压缩的HOA音频数据根据本公开中所阐述的技术的各个方面使用位率分配进行压缩。
图3B中所示的系统410B与图3A中所示的系统410A类似,除了汽车460包含麦克风阵列408之外。如此,可以在汽车的背景下执行本公开中所阐述的技术。
图3C中所示的系统410C与图3A中所示的系统410A类似,除了远程驾驶和/或自主控制的飞行装置462包含麦克风阵列408之外。飞行装置462可以例如表示四轴飞行器、直升飞机或任何其它类型的无人机。如此,可以在无人机的背景下执行本公开中所阐述的技术。
图3D中所示的系统410D与图3A中所示的系统410A类似,除了机器人装置464包含麦克风阵列408之外。机器人装置464可以例如表示使用人工智能进行操作的装置或其它类型的机器人。在一些实例中,机器人装置464可以表示飞行装置,如无人机。在其它实例中,机器人装置464可以表示其它类型的装置,包含不一定飞行的装置。如此,可以在机器人的背景下执行本公开中所阐述的技术。
图4是展示了可以被配置成执行本公开中描述的技术的各个方面的系统的另一个实例的框图。图4中所示的系统与图2的系统10类似,除了广播网络12包含另外的HOA混合器450之外。如此,图4中所示的系统被表示为系统10',并且图4的广播网络被表示为广播网络12'。HOA转码器400可以将现场馈送HOA系数作为HOA系数11A输出到HOA混合器450。HOA混合器表示被配置成混合HOA音频数据的装置或单元。HOA混合器450可以接收其它HOA音频数据11B(其可以表示任何其它类型的音频数据,包含用点麦克风(spot microphone)或非3D麦克风捕获并转换为球谐域的音频数据、HOA域中指定的特殊效果等),并将此HOA音频数据11B与HOA音频数据11A混合以获得HOA系数11。
图6是展示了图2-5B的实例中所示的心理声学音频编码装置406的实例的图。如图6的实例中所示,心理声学音频编码装置406可以包含空间音频编码单元700、心理声学音频编码单元702和打包器单元704。
空间音频编码单元700可以表示被配置成对经过中间格式化的音频数据15执行进一步空间音频编码的单元。空间音频编码单元700可以包含提取单元706、解调单元708和选择单元710。
提取单元706可以表示被配置成从经过中间格式化的位流15中提取传输通道15A和经调制的边带信息15B的单元。提取单元706可以将传输通道15A输出到选择单元710,并且将经调制的边带信息15B输出到解调单元708。
解调单元708可以表示被配置成解调经调制的边带信息15B以恢复原始边带信息15B的单元。解调单元708可以以与上文关于图5B的实例中所示的系统800B所描述的调制装置610的操作相逆的方式进行操作。当对边带信息15B执行调制时,提取单元706可以直接从经过中间格式化的位流15中提取边带信息15B,并且将边带信息15B直接输出到选择单元710(或者解调单元708可以不进行解调就将边带信息15B传递到选择单元710)。
选择单元710可以表示被配置成基于配置信息709(其可以表示上述优选优先级、目标位率、上述独立标志(其可以由hoaIndependencyFlag语法元素表示)和/或外部定义的其它类型的数据的实例)以及优先级信息来选择传输通道15A的子集和边带信息15B的单元。
选择单元710可以将所选环境HOA系数和主要音频信号作为传输通道701A输出到PAE单元702。选择单元710可以将所选空间分量作为空间分量703输出到打包器单元704。所述技术使选择单元710能够选择适于借助于提供传输通道15A和边带信息15B连同优先级信息的空间音频编码装置20实现例如配置信息709所阐述的目标位率和独立性的各种传输通道15A和边带信息15B组合。
PAE单元702可以表示被配置成对传输通道701A执行心理声学音频编码以生成经过编码的传输通道701B的单元。PAE单元702可以将经过编码的传输通道701B输出到打包器单元704。打包器单元704可以表示被配置成基于经过编码的传输通道701B和边带信息703以一系列数据包的形式生成位流21以供分发到内容消费者14的单元。
图7是展示了图2-4的空间音频编码装置在执行本公开中描述的技术的各个方面时的各个方面的图。在图7的实例中,麦克风5捕获表示HOA音频数据的音频信号,空间音频编码器装置20将所述音频信号还原为多个不同的声音分量750A-750N(“声音分量750”)和对应空间分量752A-752N(“空间分量752”),其中空间分量通常可以指代与主要声音分量相对应的空间分量和对应的改变用途的声音分量两者。
如表754所示,在位流的情况下可以被称为“基于V向量的HOA传输格式”(VHTF)或“基于向量的HOA传输格式”的统一数据对象格式可以包含音频对象(再次,其是引用声音分量的另一种方式)和对应空间分量(其可以被称为“向量”)。音频对象(在图7的实例中示出为“音频”)可以由变量Ai表示,其中i表示第i个音频对象。向量(在图7的实例中示出为“V向量”)由变量Vi表示,其中i表示第i个向量。Ai是L×1列矩阵(其中L是帧中的样本数),并且Vi是M×1列矩阵(其中M是向量中的元素数)。
经过重构的HOA系数11'可以表示为
Figure BDA0002545802260000241
经过重构的HOA系数11'可以根据以下等式确定:
Figure BDA0002545802260000242
根据以上等式,N表示所述多个空间分量的所选非零子集中的声音分量的总数。经过重构的HOA系数
Figure BDA0002545802260000243
可以被确定为音频对象(Ai)与向量(Vi T)的转置的每次迭代(从零开始,直到N-1)相乘的总和。空间音频编码装置20可以指定如图7的底部所示的位流15,其中在每个帧(对于第一帧,由T=1表示,对于第二帧,由T=2表示等)中,音频对象750与对应空间分量752一起被指定。
图8A-8C是展示了根据本公开中描述的统一数据对象格式技术的各个方面的位流内的不同表示的图。在图8A的实例中,HOA系数11示出为“输入”,图2的实例中所示的空间音频编码装置20可以将所述HOA系数变换成上述VHTF表示800。图8A的实例中的VHTF表示800表示主要声音(或前景FG声音)表示。进一步示出了表754以更详细地展示VHTF表示800。在图8A的实例中,还存在不同V向量的空间表示802,以展示空间分量如何定义对应空间分量的形状、宽度和方向。
在图8B的实例中,HOA系数11示出为“输入”,图2的实例中所示的空间音频编码装置20将所述HOA系数变换成上述VHTF表示806。图8B的实例中的VHTF表示806表示环境声音(或背景BG声音)表示。进一步示出了表754以更详细地展示VHTF表示806,其中VHTF表示800和VHTF表示806两者的格式相同。在图8B的实例中,还存在不同的改变用途的V向量的实例808,以展示改变用途的V向量可以如何包含值为1的单个元素,其中每隔一个元素的值被设置为零,以便如上所述标识环境HOA系数所对应的球基函数的阶数和子阶数。
在图8C的实例中,HOA系数11示出为“输入”,图2的实例中所示的空间音频编码装置20将所述HOA系数变换成上述VHTF表示810。图8C的实例中的VHTF表示810表示声音分量,并且还包含优先级信息812(示出为“PriorityOfTC”,其指代传输通道的优先级)。在图8C中更新了表754以进一步更详细地展示VHTF表示810,其中VHTF表示800和VHTF表示806两者的格式相同,并且VHTF表示810包含优先级信息812。
在每种情况下,空间音频编码装置20可以通过将下表中的HoaTransportType语法元素设置为3来指定统一传输类型(或者换言之,VHTF)。
Figure BDA0002545802260000251
如下表所示,HoaTransportType指示HOA传输模式,当值设置为三(3)个信号时,传输类型为VHTF。
Figure BDA0002545802260000261
关于VHTF(HoaTransportType=3),图7和8A-8C可以展示VHTF如何由音频信号{Ai}以及相关联的V向量{Vi}构成,其中输入HOA信号H可以近似为
Figure BDA0002545802260000262
其中第i个V向量Vi是第i个音频信号Ai的空间表示。N是传输通道的数量。每个Vi的动态范围界定为[-1,1]。在图8A中示出了基于V向量的空间表示802的实例。
在以下条件下,VHTF还可以表示原始输入HOA,这意味着
Figure BDA0002545802260000263
·Vi的所有元素为0,但第i个元素为1[0 0 … 1 … 0]T
·并且Ai是第i个HOA系数。
因此,VHTF可以表示主要声场和环境声场两者。
如表15所示,HOAFrame_VvecTransportFormat()具有解码HOA帧的L个样本(表1中的HoaFrameLength)所需的信息。
HOAFrame_VvecTransportFormat()的语法
Figure BDA0002545802260000264
Figure BDA0002545802260000271
在上述语法表中,Vvector[i][j]是指空间分量,其中i标识哪个传输通道,j标识哪个系数(在Vvector表示改变用途的空间分量的情况下,通过环境HOA系数所对应的球基函数的阶数和子阶数)。
音频解码装置24(在图2的实例中示出)可以接收位流21并且从位流21获得HoaTransportType语法元素。基于HoaTransportType语法元素,音频解码装置24可以以上文更详细描述的方式提取各个声音分量和对应空间分量以渲染扬声器馈送。
图9A-9F是展示了根据本公开中描述的技术的各个方面的图2-4的空间音频编码装置可以用于确定优先级信息的各种方式的图。在图9A的实例中,空间音频编码装置20可以以上文所描述的方式确定声音分量的HOA表示(其被表示为Hi)(1000)。接下来,空间音频编码装置20可以确定声音分量的HOA表示的能量(由变量Ei表示)(1002)。空间音频编码装置20还可以基于空间分量(由变量Vi表示)确定空间权重(由变量Wi表示)(1004)。空间音频编码装置20可以基于能量和空间权重来获得优先级信息(1006)。
在图9B的实例中,空间音频编码装置20可以以上文所描述的方式确定声音分量的HOA表示(其被表示为Hi)(1010)。接下来,空间音频编码装置20可以将声音分量的HOA表示渲染成一或多个扬声器馈送(其指代例如所示出的“扬声器输出”)(1012)。空间音频编码装置20可以确定一或多个扬声器馈送的能量(由变量Ei表示)(1014)。空间音频编码装置20还可以基于空间分量(由变量Vi表示)确定空间权重(由变量Wi表示)(1016)。空间音频编码装置20可以基于能量和空间权重来获得优先级信息(1018)。
在图9C的实例中,空间音频编码装置20可以以上文所描述的方式确定声音分量的HOA表示(其被表示为Hi)(1020)。接下来,空间音频编码装置20可以确定声音分量的HOA表示的响度度量(由变量Li表示)(1022)。空间音频编码装置20还可以基于空间分量(由变量Vi表示)确定空间权重(由变量Wi表示)(1024)。空间音频编码装置20可以基于响度度量和空间权重来获得优先级信息(1026)。
在图9D的实例中,空间音频编码装置20可以以上文所描述的方式确定声音分量的HOA表示(其被表示为Hi)(1030)。接下来,空间音频编码装置20可以将声音分量的HOA表示渲染成一或多个扬声器馈送(其指代例如所示出的“扬声器输出”)(1032)。空间音频编码装置20可以确定一或多个扬声器馈送的响度度量(由变量Li表示)(1034)。空间音频编码装置20还可以基于空间分量(由变量Vi表示)确定空间权重(由变量Wi表示)(1036)。空间音频编码装置20可以基于响度度量和空间权重来获得优先级信息(1038)。
在图9E的实例中,空间音频编码装置20可以以上文所描述的方式确定声音分量的HOA表示(其被表示为Hi)(1040)。接下来,空间音频编码装置20可以确定声音分量的HOA表示的响度度量(由变量Li表示)(1042)。空间音频编码装置20还可以基于空间分量(由变量Vi表示)确定空间权重。空间音频编码装置20还可以确定上文所述的连续性指示、由信号分类产生的类别以及内容提供商优选优先级(其被示出为“内容提供商驱动的优先级”),从而将上文所述的连续性指示、由信号分类产生的类别以及内容提供商优选优先级整合到空间权重(由变量Wi表示)中(1044)。空间音频编码装置20可以基于响度度量和空间权重来获得优先级信息(1046)。
在图9F的实例中,空间音频编码装置20可以以上文所描述的方式确定声音分量的HOA表示(其被表示为Hi)(1050)。接下来,空间音频编码装置20可以将声音分量的HOA表示渲染成一或多个扬声器馈送(其指代例如所示出的“扬声器输出”)(1052)。空间音频编码装置20可以确定一或多个扬声器馈送的响度度量(由变量Li表示)(1054)。空间音频编码装置20还可以基于空间分量(由变量Vi表示)确定空间权重。空间音频编码装置20还可以确定上文所述的连续性指示、由信号分类产生的类别以及内容提供商优选优先级(其被示出为“内容提供商驱动的优先级”),从而将上文所述的连续性指示、由信号分类产生的类别以及内容提供商优选优先级整合到空间权重(由变量Wi表示)中(1056)。空间音频编码装置20可以基于响度度量和空间权重来获得优先级信息(1058)。
图10是展示了被配置成执行本公开中描述的技术的各个方面的不同系统的框图。在图10的实例中,系统900包含麦克风阵列902以及计算装置904和906。麦克风阵列902可以与上文关于图2的实例所描述的麦克风阵列5类似,但不是相当类似。麦克风阵列902包含上文更详细地讨论的HOA转码器400和夹层编码器20。
计算装置904和906可以各自表示以下中的一或多个:蜂窝电话(其可以互换地被称为“移动电话”或“移动蜂窝手持装置”,并且其中此类蜂窝电话可以包含所谓的“智能电话”)、平板计算机、膝上型计算机、个人数字助理、可穿戴计算头戴式装置、手表(包含所谓的“智能手表”)、游戏机、便携式游戏机、台式计算机、工作站、服务器或任何其它类型的计算装置。为了说明的目的,计算装置904和906中的每个装置都被称为相应的移动电话904和906。在任何情况下,移动电话904可以包含发射编码器406,而移动电话906可以包含音频解码装置24。
麦克风阵列902可以捕获呈麦克风信号908形式的音频数据。麦克风阵列902的HOA转码器400可以将麦克风信号908转码为HOA系数11,夹层编码器20(示出为“夹层编码器20”)可以以上文所描述的方式对所述HOA系数进行编码(或者换言之,压缩)以形成位流15。麦克风阵列902可以(无线地或通过有线连接)耦接到移动电话904,使得麦克风阵列902可以通过发射器和/或接收器(其还可以称为收发器,并且缩写为“TX”)910A将位流15传送到移动电话904的发射编码器406。麦克风阵列902可以包含收发器910A,所述收发器可以表示被配置成向另一收发器发射数据的硬件或硬件和软件的组合(如固件)。
发射编码器406可以以上文所描述的方式进行操作以由位流15生成符合3D音频编码标准的位流21。发射编码器406可以包含被配置成接收位流15的收发器910B(与收发器910A类似,但不是相当类似)。当由接收到的位流15生成位流21时,发射编码器406可以选择目标位率、hoaIndependencyFlag语法元素和传输通道数量(根据优先级信息选择传输通道数量作为传输通道的子集)。发射编码器406可以通过收发器910B将位流21传送(但不一定直接传送,这意味着此类传送可以具有中间装置(如服务器);或通过专用的非暂时性存储媒体等)到移动电话906。
移动电话906可以包含被配置成接收位流21的收发器910C(与收发器910A和910B类似,但不是相当类似),由此移动电话906可以调用音频解码装置24以解码位流21从而恢复HOA系数11'。尽管在图10中为了便于说明而未示出,但是移动电话906可以将HOA系数11'渲染成扬声器馈送,并且基于扬声器馈送通过扬声器(例如,集成到移动电话906中的扬声器、无线耦接到移动电话906的扬声器、有线耦接到移动电话906的扬声器或无线或通过有线连接耦接到移动电话906的耳机扬声器)重现声场。为了通过耳机扬声器(再次,其还可以是独立的耳机或集成到头戴式装置中的耳机)重现声场,移动电话906可以从扬声器馈送或直接从HOA系数11'渲染双耳音频扬声器馈送。
图11是展示了图2-6的心理声学音频编码装置在执行本公开中描述的技术的各个方面时的示例操作的流程图。心理声学音频编码装置406可以首先获得表示高阶立体混响系数的压缩版本的第一数据对象17(1100)。心理声学音频编码装置406可以从第一数据对象17获得多个声音分量750(在图7的实例中示出)和优先级信息812(在图8C的实例中示出),所述优先级信息指示所述多个声音分量中的每个声音分量相对于声音分量中的剩余声音分量的优先级(1102)。
心理声学音频编码装置406可以基于优先级信息812选择所述多个声音分量的非零子集(1104)。在一些实例中,心理声学音频编码装置406可以选择所述多个声音分量的非零子集以实现目标位率。接下来,心理声学音频编码装置406可以在不同于第一数据对象17的第二数据对象21中指定所述多个声音分量的所选非零子集(1106)。
在一些实例中,第一数据对象17包括第一位流17,其中第一位流17包括第一多个传输通道。第二数据对象21可以包括第二位流21,其中第二位流21包括第二多个传输通道。在此实例和其它实例中,优先级信息812包括优先级通道信息812,并且心理声学音频编码装置406可以从所述第一多个传输通道获得所述多个声音分量,并在所述第二多个传输通道中的每个传输通道中指定所述多个声音分量的所选非零子集中的相应一个声音分量。
在一些实例中,第一数据对象17包括第一文件17,其中第一文件17包括第一多个轨道。第二数据对象21可以包括第二文件21,其中第二文件21包括第二多个轨道。在此实例和其它实例中,优先级信息812包括优先级轨道信息812,并且心理声学音频编码装置406可以从所述第一多个轨道获得所述多个声音分量,并在所述第二多个轨道中的每个轨道中指定所述多个声音分量的所选非零子集中的相应一个声音分量。
在一些实例中,第一数据对象17包括位流17,并且第二数据对象21包括文件21。在其它实例中,第一数据对象17包括文件17,并且第二数据对象21包括位流21。换言之,所述技术的各个方面可以允许在不同类型的数据对象之间进行转换。
图12是展示了图2-5的空间音频编码装置在执行本公开中描述的技术的各个方面时的示例操作的流程图。如在图12的实例中所示,空间音频编码装置20(在图2的实例中示出)可以如上文描述那样将HOA系数11分解为声音分量和对应空间分量(1200)。接下来,空间音频编码装置20可以基于声音分量和对应空间分量中的一或多个确定优先级信息,所述优先级信息指示声音分量相对于由HOA系数11表示的声场的其它声音分量的优先级,如上文更详细描述的(1202)。空间音频编码装置20可以在表示HOA系数11的压缩版本的数据对象(例如,位流15)中指定声音分量和优先级信息(1204)。在一些实例中,空间音频编码装置20可以指定多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的剩余声音分量的优先级。
以这种方式,与常规的立体声或5.1通道音频信号相比,高阶立体混响(HOA)信号能够传递显著增强的沉浸式声音(immersive sound)。然而,存在由于大量HOA输入通道而无法传输HOA信号的用例。
一个用例是如图1(a)所示的移动装置,其中输入通道的数量可以限制为8个脉冲编码调制(PCM)通道,并且因此最多只能传输1阶HOA(需要4个PCM通道)。
另一个用例是典型的广播工作流程。此处,贡献编码器可以将16个PCM通道从远程卡车传输到网络运营中心(NOC)或一或多个本地附属机构。然而,使用单个高清串行数字接口(HD-SDI)链路的限制是只能传输16个PCM通道。这将传输限制为最多3阶HOA信号(需要16个PCM通道)。如果要传输另外的音频元件,则最多只能传输2阶HOA(需要9个PCM通道)。
以上描述的技术可以以如上文更详细讨论的各种方式解决这些用例。
另外,前述技术可以相对于任何数量的不同背景和音频生态系统执行,并且不应限于以上描述的任何背景或音频生态系统。尽管下文描述了许多示例背景,但是所述技术应限于示例背景。一个示例音频生态系统可以包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于通道的音频内容、编码引擎、游戏音频主干(stem)、游戏音频编码/渲染引擎以及分发系统。
电影工作室、音乐工作室和游戏音频工作室可以接收音频内容。在一些实例中,音频内容可以表示获取物的输出。电影工作室可以如通过使用数字音频工作站(DAW)来输出基于通道的音频内容(例如,以2.0、5.1和7.1)。音乐工作室可以如通过使用DAW来输出基于通道的音频内容(例如,以2.0和5.1)。在任一种情况下,编码引擎可以接收基于以音频内容为基础的一或多个编解码器(例如,AAC、AC3、杜比True HD(Dolby True HD)、杜比数字+(Dolby Digital Plus)和DTS主音频(DTS Master Audio))并对其进行编码,以供分发系统输出。游戏音频工作室可以如通过使用DAW来输出一或多个游戏音频主干。游戏音频编码/渲染引擎可以将音频主干编码和/或渲染为基于通道的音频内容,以供分发系统输出。可以执行所述技术的另一个示例背景包括可以包含以下的音频生态系统:广播记录音频对象、专业音频系统、消费者装置上捕获、HOA音频格式、装置上渲染、消费者音频、电视和附件以及汽车音频系统。
广播记录音频对象、专业音频系统和消费者装置上捕获全都可以使用HOA音频格式对其输出进行编码。以此方式,可以使用HOA音频格式将音频内容编码为单个表示,所述单个表示可以使用装置上渲染、消费者音频、电视和附件以及汽车音频系统回放。换句话说,音频内容的单个表示可以在如音频回放系统16等通用音频回放系统(即,与需要如5.1、7.1等特定配置相反)处回放。
可以执行所述技术的背景的其它示例包含可以包含获取元件和回放元件的音频生态系统。获取元件可以包含有线和/或无线获取装置(例如,Eigen麦克风)、装置上环绕声捕获以及移动装置(例如,智能电话和平板计算机)。在一些实例中,有线和/或无线获取装置可以通过一或多个有线和/或无线通信通道耦接到移动装置。
根据本公开的一或多种技术,移动装置(如移动通信手持装置)可以用于获取声场。例如,移动装置可以通过有线和/或无线获取装置和/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)来获取声场。然后,移动装置可以将所获取的声场编码为HOA系数,以由回放元件中的一或多个回放元件回放。例如,移动装置的用户可以记录现场事件(例如,会议、大会、戏剧、音乐会等)(获取其声场),并且将记录编码为HOA系数。
移动装置还可利用回放元件中的一或多个回放元件来回放经过HOA编码的声场。例如,移动装置可以解码经过HOA编码的声场,并向回放元件中的一或多个回放元件输出使回放元件中的所述一或多个回放元件重新创建声场的信号。举例来说,移动装置可以利用无线和/或无线通信通道将所述信号输出到一或多个扬声器(例如,扬声器阵列、条形音箱等)。另举一例,移动装置可以利用对接解决方案将所述信号输出到一或多个对接站和/或一或多个对接扬声器(例如,智能汽车和/或家庭中的音响系统)。另举一例,移动装置可以利用耳机渲染将所述信号输出到一组耳机,例如,以创建逼真的双耳声音。
在一些实例中,特定的移动装置既可以获取3D声场,又可以在稍后的时间回放同一3D声场。在一些实例中,移动装置可以获取3D声场,将3D声场编码为HOA并且将经过编码的3D声场传输到一或多个其它装置(例如,其它移动装置和/或其它非移动装置)以供回放。
可以执行所述技术的又另一个背景包含可以包含以下的音频生态系统:音频内容、游戏工作室、经过编码的音频内容、渲染引擎和分发系统。在一些实例中,游戏工作室可以包含一或多个DAW,所述一或多个DAW可以支持HOA信号的编辑。例如,所述一或多个DAW可以包含HOA插件和/或工具,所述HOA插件和/或工具可以被配置成与一或多个游戏音频系统一起操作(例如,与之一起工作)。在一些实例中,游戏工作室可以输出支持HOA的新主干格式。在任何情况下,游戏工作室可以将经过编码的音频内容输出到渲染引擎,所述渲染引擎可以渲染声场以供分发系统回放。
还可对示范性音频获取装置执行所述技术。例如,可以对Eigen麦克风执行所述技术,所述Eigen麦克风可以包含多个被共同配置成记录3D声场的麦克风。在一些实例中,Eigen麦克风的所述多个麦克风可以定位于半径大约为4cm的基本上呈球形的表面上。在一些实例中,音频编码装置20可以集成到Eigen麦克风中,以直接从麦克风输出位流21。
另一个示范性音频获取背景可以包含制作卡车,所述制作卡车可以被配置成从一或多个麦克风(如一或多个Eigen麦克风)接收信号。制作卡车还可以包含音频编码器,如图5的音频编码器20。
在一些情况下,移动装置还可以包含被共同配置成记录3D声场的多个麦克风。换句话说,所述多个麦克风可以具有X、Y、Z分集。在一些实例中,移动装置可以包含麦克风,所述麦克风可以旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集。移动装置还可以包含音频编码器,如图5的音频编码器20。
可以进一步将加固型视频捕获装置配置成记录3D声场。在一些实例中,加固型视频捕获装置可以附接到参与活动的用户的头盔。例如,加固型视频捕获装置可以附接到急速漂流的用户的头盔。以此方式,加固型视频捕获装置可以捕获3D声场,所述3D声场表示用户周围的动作(例如,水溅到用户身后、另一个筏夫在用户前面讲话等)。
还可以对附件增强型移动装置执行所述技术,所述附件增强型移动装置可以被配置成记录3D声场。在一些实例中,移动装置可以类似于以上讨论的移动装置,外加一或多个附件。例如,可以将Eigen麦克风附接到上述移动装置以形成附件增强型移动装置。以此方式,与仅使用与附件增强型移动装置一体的声音捕获组件相比,附件增强型移动装置可以捕获3D声场的更高质量版本。
下文进一步讨论了可以执行本公开中描述的技术的各个方面的示例音频回放装置。根据本公开的一或多种技术,可以以任何任意配置布置正在回放3D声场的扬声器和/或条形音箱。此外,在一些实例中,可以通过有线或无线连接将耳机回放装置耦接到解码器24。根据本公开的一或多种技术,可以利用声场的单个通用表示来渲染扬声器、条形音箱和耳机回放装置的任何组合上的声场。
许多不同的示例音频回放环境也可能适合于执行本公开中描述的技术的各个方面。例如,5.1扬声器回放环境、2.0(例如,立体声)扬声器回放环境、具有全高前置扬声器的9.1扬声器回放环境、22.2扬声器回放环境、16.0扬声器回放环境、汽车扬声器回放环境以及具有耳塞回放环境的移动装置可以是用于执行本公开中描述的技术的各个方面的合适环境。
根据本公开的一或多种技术,可以利用声场的单个通用表示来渲染前述回放环境中的任何回放环境上的声场。另外,本发明的技术使渲染器能够从通用表示渲染声场,以在除以上描述的回放环境之外的回放环境上回放。例如,如果设计考虑禁止根据7.1扬声器回放环境适当放置扬声器(例如,如果不可能放置右环绕扬声器),则本公开的技术使渲染器能够补偿其它6个扬声器,使得可以在6.1扬声器回放环境上实现回放。
此外,用户可以在戴着耳机的同时观看体育游戏。根据本公开的一或多种技术,可以获取体育游戏的3D声场(例如,可以在棒球场内和/或周围放置一或多个Eigen麦克风),可以获得对应于3D声场的HOA系数并将其传输给解码器,解码器可以基于HOA系数重构3D声场并将经过重构的3D声场输出到渲染器,并且渲染器可以获得关于回放环境的类型(例如,耳机)的指示并将经过重构的3D声场渲染为使耳机输出体育游戏的3D声场的表示的信号。
在以上描述的各种情况中的每种情况下,应当理解,音频编码装置20可以执行用于执行音频编码装置20被配置成执行的方法的每个步骤的方法或者以其它方式包括用于执行所述每个步骤的装置。在一些情况下,所述装置可以包括例如由固定功能处理电路系统、可编程处理电路系统或其组合形成的一或多个处理器。在一些情况下,所述一或多个处理器可以表示通过存储到非暂时性计算机可读存储媒体的指令来配置的专用处理器。换句话说,编码实例集中的每个编码实例集中的技术的各个方面可以提供非暂时性计算机可读存储媒体,所述非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在被执行时使所述一或多个处理器执行音频编码装置20已经被配置成执行的方法。
在一或多个实例中,所描述的功能可以以硬件、软件、固件或其任何组合实施。如果以软件实施,则可以将所述功能以一或多个指令或代码的形式存储在计算机可读媒体上或通过计算机可读媒体进行传输并且可以由基于硬件的处理单元执行所述功能。计算机可读媒体可以包含对应于如数据存储媒体等有形媒体的计算机可读存储媒体。数据存储媒体可以是可以被一或多个计算机或一或多个处理器访问以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
同样,在以上描述的各种情况中的每种情况下,应当理解,音频解码装置24可以执行用于执行音频解码装置24被配置成执行的方法的每个步骤的方法或以其它方式包括用于执行所述每个步骤的装置。在一些实例中,所述装置可以包括例如由固定功能处理电路系统、可编程处理电路系统或其组合形成的一或多个处理器。在一些情况下,所述一或多个处理器可以表示通过存储到非暂时性计算机可读存储媒体的指令来配置的专用处理器。换句话说,编码实例集中的每个编码实例集中的技术的各个方面可以提供非暂时性计算机可读存储媒体,所述非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在被执行时使所述一或多个处理器执行音频解码装置24已经被配置成执行的方法。
可以关于以下条款阐述由音频编码装置20和/或音频解码装置24执行的技术的各个实例。
条款1G.一种装置,其被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:存储器,所述存储器被配置成至少部分地存储表示高阶立体混响系数的压缩版本的第一数据对象,所述高阶立体混响系数表示声场;以及一或多个处理器,所述一或多个处理器被配置成:从所述第一数据对象获得多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的其余声音分量的优先级;基于所述优先级信息选择所述多个声音分量的非零子集;并且在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集。
条款2G.根据条款1G所述的装置,其中所述一或多个处理器被进一步配置成:从所述第一数据对象获得与所述多个声音分量中的每个声音分量相对应的空间分量;并且在所述第二数据对象中指定所述空间分量的与所述多个声音分量的所述所选非零子集相对应的非零子集。
条款3G.根据条款2G所述的装置,其中所述对应空间分量定义所述声音分量的形状、宽度和方向,并且其中所述对应空间分量定义于球谐域中。
条款4G.根据条款1G到3G的任何组合所述的装置,其中所述声音分量定义于空间域中。
条款5G.根据条款1G到4G的任何组合所述的装置,其中所述一或多个处理器被进一步配置成对所述数据对象执行心理声学音频编码以获得经过压缩的数据对象。
条款6G.根据条款1G到5G的任何组合所述的装置,其中所述第一数据对象包括位流,并且其中所述第二数据对象包括文件。
条款7G.根据条款1G到5G的任何组合所述的装置,其中所述第一数据对象包括文件,并且其中所述第二数据对象包括位流。
条款8G.根据条款1G到5G的任何组合所述的装置,其中所述第一数据对象包括第一位流,所述第一位流包括第一多个传输通道,其中所述第二数据对象包括第二位流,所述第二位流包括第二多个传输通道,其中所述优先级信息包括优先级通道信息,并且其中所述一或多个处理器被配置成:从所述第一多个传输通道获得所述多个声音分量;并且在所述第二多个传输通道中的每个传输通道中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量。
条款9G.根据条款1G到5G的任何组合所述的装置,其中所述第一数据对象包括第一文件,所述第一文件包括第一多个轨道,其中所述第二数据对象包括第二文件,所述第二文件包括第二多个轨道,其中所述优先级信息包括优先级轨道信息,并且其中所述一或多个处理器被配置成:从所述第一多个轨道获得所述多个声音分量;并且在所述第二多个轨道中的每个轨道中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量。
条款10G.一种压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:从表示高阶立体混响系数的压缩版本的第一数据对象获得多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的其余声音分量的优先级,所述高阶立体混响系数表示声场;基于所述优先级信息选择所述多个声音分量的非零子集;以及在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集。
条款11G.根据条款10G所述的方法,其进一步包括:从所述第一数据对象获得与所述多个声音分量中的每个声音分量相对应的空间分量;以及在所述第二数据对象中指定所述空间分量的与所述多个声音分量的所述所选非零子集相对应的非零子集。
条款12G.根据条款11G所述的方法,其中所述对应空间分量定义所述声音分量的形状、宽度和方向,并且其中所述对应空间分量定义于球谐域中。
条款13G.根据条款10G到12G的任何组合所述的方法,其中所述声音分量定义于空间域中。
条款14G.根据条款10G到13G的任何组合所述的方法,其进一步包括对所述数据对象执行心理声学音频编码以获得经过压缩的数据对象。
条款15G.根据条款10G到14G的任何组合所述的方法,其中所述第一数据对象包括位流,并且其中所述第二数据对象包括文件。
条款16G.根据条款10G到14G的任何组合所述的方法,其中所述第一数据对象包括文件,并且其中所述第二数据对象包括位流。
条款17G.根据条款10G到14G的任何组合所述的方法,其中所述第一数据对象包括第一位流,所述第一位流包括第一多个传输通道,其中所述第二数据对象包括第二位流,所述第二位流包括第二多个传输通道,其中所述优先级信息包括优先级通道信息,其中获得所述多个声音分量包括:从所述第一多个传输通道获得所述多个声音分量,并且其中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量包括在所述第二多个传输通道中的每个传输通道中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量。
条款18G.根据条款10G到14G的任何组合所述的方法,其中所述第一数据对象包括第一文件,所述第一文件包括第一多个轨道,其中所述第二数据对象包括第二文件,所述第二文件包括第二多个轨道,其中所述优先级信息包括优先级轨道信息,其中获得所述多个声音分量包括从所述第一多个轨道获得所述多个声音分量,并且其中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量包括在所述第二多个轨道中的每个轨道中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量。
条款19G.一种装置,其被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:用于从表示高阶立体混响系数的压缩版本的第一数据对象获得多个声音分量和优先级信息的装置,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的其余声音分量的优先级,所述高阶立体混响系数表示声场;用于基于所述优先级信息选择所述多个声音分量的非零子集的装置;以及用于在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集的装置。
20G.根据条款19G所述的装置,其进一步包括:用于从所述第一数据对象获得与所述多个声音分量中的每个声音分量相对应的空间分量的装置;以及用于在所述第二数据对象中指定所述空间分量的与所述多个声音分量的所述所选非零子集相对应的非零子集的装置。
条款21G.根据条款20G所述的装置,其中所述对应空间分量定义所述声音分量的形状、宽度和方向,并且其中所述对应空间分量定义于球谐域中。
条款22G.根据条款19G到21G的任何组合所述的装置,其中所述声音分量定义于空间域中。
条款23G.根据条款19G到22G的任何组合所述的装置,其进一步包括用于对所述数据对象执行心理声学音频编码以获得经过压缩的数据对象的装置。
条款24G.根据条款19G到23G的任何组合所述的装置,其中所述第一数据对象包括位流,并且其中所述第二数据对象包括文件。
条款25G.根据条款19G到23G的任何组合所述的装置,其中所述第一数据对象包括文件,并且其中所述第二数据对象包括位流。
条款26G.根据条款19G到23G的任何组合所述的装置,其中所述第一数据对象包括第一位流,所述第一位流包括第一多个传输通道,其中所述第二数据对象包括第二位流,所述第二位流包括第二多个传输通道,其中所述优先级信息包括优先级通道信息,其中用于获得所述多个声音分量的所述装置包括用于从所述第一多个传输通道获得所述多个声音分量的装置,并且其中用于指定所述多个声音分量的所述所选非零子集中的相应一个声音分量的所述装置包括用于在所述第二多个传输通道中的每个传输通道中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量的装置。
条款27G.根据条款19G到23G的任何组合所述的装置,其中所述第一数据对象包括第一文件,所述第一文件包括第一多个轨道,其中所述第二数据对象包括第二文件,所述第二文件包括第二多个轨道,其中所述优先级信息包括优先级轨道信息,其中用于获得所述多个声音分量的所述装置包括用于从所述第一多个轨道获得所述多个声音分量的所述装置,并且其中用于指定所述多个声音分量的所述所选非零子集中的相应一个声音分量的所述装置包括用于在所述第二多个轨道中的每个轨道中指定所述多个声音分量的所述所选非零子集中的相应一个声音分量的装置。
条款28G.一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在被执行时使一或多个处理器:从表示高阶立体混响系数的压缩版本的第一数据对象获得多个声音分量和优先级信息,所述优先级信息指示所述多个声音分量中的每个声音分量相对于所述声音分量中的其余声音分量的优先级,所述高阶立体混响系数表示声场;基于所述优先级信息选择所述多个声音分量的非零子集;并且在不同于所述第一数据对象的第二数据对象中指定所述多个声音分量的所选非零子集。
条款29G.根据条款28G所述的非暂时性计算机可读存储媒体,其进一步包括在被执行时使所述一或多个处理器执行根据条款10G到18G的任何组合所述的方法的步骤的指令。
1H.一种装置,其被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:存储器,所述存储器被配置成存储所述高阶立体混响音频数据的高阶立体混响系数,所述高阶立体混响系数表示声场;以及一或多个处理器,所述一或多个处理器被配置成:将所述高阶立体混响系数分解为主要声音分量和对应空间分量,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;从所述高阶立体混响系数获得描述所述声场的环境分量的环境高阶立体混响系数;获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;在表示所述高阶立体混响音频数据的压缩版本的数据对象中并且根据某一格式指定所述主要声音分量和所述对应空间分量;并且在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量。
条款2H.根据条款1H所述的装置,其中所述一或多个处理器被配置成:获得谐波系数排序格式指示符,所述谐波系数排序格式指示符指示所述HOA系数的对称谐波系数排序格式或线性谐波系数排序格式;并且基于所述谐波系数排序格式指示符获得所述改变用途的向量。
条款3H.根据条款1H所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+1)2,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1来标识所述阶数和所述子阶数。
条款4H.根据条款1H所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+1)2,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1并且使所述向量的剩余元素的值为0来标识所述阶数和所述子阶数。
条款5H.根据条款1H所述的装置,其中所述一或多个处理器被配置成在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量,而不在所述数据对象中指定所述环境高阶立体混响系数的所述阶数和所述子阶数。
条款6H.根据条款1H到5H的任何组合所述的装置,其中所述一或多个处理器被进一步配置成对所述数据对象执行心理声学音频编码以获得经过压缩的数据对象。
条款7H.根据条款1H到6H的任何组合所述的装置,其中所述数据对象包括位流,其中所述格式包括传输格式,并且
其中所述一或多个处理器被配置成:在所述位流的第一传输通道中并且使用所述传输格式来指定所述主要声音分量;并且在所述位流的第二传输通道中并且使用同一传输格式来指定所述环境高阶立体混响系数。
条款8H.根据条款1H到6H的任何组合所述的装置,其中所述数据对象包括文件,其中所述格式包括轨道格式,并且其中所述一或多个处理器被配置成:在所述文件的第一轨道中并且使用所述轨道格式来指定所述主要声音分量;并且在所述文件的第二轨道中并且使用同一轨道格式来指定所述环境高阶立体混响系数。
条款9H.根据条款1H到8H的任何组合所述的装置,其中所述一或多个处理器被配置成:接收所述高阶立体混响音频数据;并且将所述数据对象输出到发射编码器,所述发射编码器被配置成基于目标位率对所述位流进行转码。
条款10H.根据条款1H到9H的任何组合所述的装置,其进一步包括麦克风,所述麦克风被配置成捕获表示所述高阶立体混响音频数据的空间音频数据并将所述空间音频数据转换为所述高阶立体混响音频数据。
条款11H.根据条款1H到10H的任何组合所述的装置,其中所述装置包括机器人装置。
条款12H.根据条款1H到10H的任何组合所述的装置,其中所述装置包括飞行装置。
条款13H.一种压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:将高阶立体混响系数分解为主要声音分量和对应空间分量,所述高阶立体混响系数表示声场,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;从所述高阶立体混响系数获得描述所述声场的环境分量的环境高阶立体混响系数;获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;在表示所述高阶立体混响音频数据的压缩版本的数据对象中并且根据某一格式指定所述主要声音分量和所述对应空间分量;以及在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量。
14H.根据条款13H所述的方法,其进一步包括获得谐波系数排序格式指示符,所述谐波系数排序格式指示符指示所述HOA系数的对称谐波系数排序格式或线性谐波系数排序格式,其中获得所述改变用途的向量包括基于所述谐波系数排序格式指示符获得所述改变用途的向量。
条款15H.根据条款13H所述的方法,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+13)14,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1来标识所述阶数和所述子阶数。
条款16H.根据条款13H所述的方法,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+13)14,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1并且使所述向量的剩余元素的值为0来标识所述阶数和所述子阶数。
条款17H.根据条款13H所述的方法,其中指定所述环境高阶立体混响系数包括在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量,而不在所述数据对象中指定所述环境高阶立体混响系数的所述阶数和所述子阶数。
条款18H.根据条款13H到17H的任何组合所述的方法,其进一步包括对所述数据对象执行心理声学音频编码以获得经过压缩的数据对象。
条款19H.根据条款13H到18H的任何组合所述的方法,其中所述数据对象包括位流,其中所述格式包括传输格式,其中指定所述主要声音分量包括在所述位流的第一传输通道中并且使用所述传输格式来指定所述主要声音分量,并且其中指定所述环境高阶立体混响系数包括在所述位流的第二传输通道中并且使用同一传输格式来指定所述环境高阶立体混响系数。
条款20H.根据条款13H到18H的任何组合所述的方法,其中所述数据对象包括文件,其中所述格式包括轨道格式,并且其中指定所述主要声音分量包括在所述文件的第一轨道中并且使用所述轨道格式来指定所述主要声音分量;并且其中指定所述环境高阶立体混响系数包括在所述文件的第二轨道中并且使用同一轨道格式来指定所述环境高阶立体混响系数。
条款21H.根据条款13H到20H的任何组合所述的方法,其进一步包括:接收所述高阶立体混响音频数据;以及将所述数据对象输出到发射编码器,所述发射编码器被配置成基于目标位率对所述位流进行转码。
条款22H.根据条款13H到21H的任何组合所述的方法,其进一步包括:由麦克风捕获表示所述高阶立体混响音频数据的空间音频数据;以及将所述空间音频数据转换为所述高阶立体混响音频数据。
条款23H.一种装置,其被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:用于将高阶立体混响系数分解为主要声音分量和对应空间分量的装置,所述高阶立体混响系数表示声场,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;用于从所述高阶立体混响系数获得描述所述声场的环境分量的环境高阶立体混响系数的装置;用于获得与所述环境高阶立体混响系数相对应的改变用途的空间分量的装置,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;用于在表示所述高阶立体混响音频数据的压缩版本的数据对象中并且根据某一格式指定所述主要声音分量和所述对应空间分量的装置;以及用于在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量的装置。
条款24H.根据条款23H所述的装置,其进一步包括用于获得谐波系数排序格式指示符的装置,所述谐波系数排序格式指示符指示所述HOA系数的对称谐波系数排序格式或线性谐波系数排序格式,其中用于获得所述改变用途的向量的所述装置包括用于基于所述谐波系数排序格式指示符获得所述改变用途的向量的装置。
条款25H.根据条款23H所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+23)24,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1来标识所述阶数和所述子阶数。
条款26H.根据条款23H所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+23)24,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1并且使所述向量的剩余元素的值为0来标识所述阶数和所述子阶数。
条款27H.根据条款23H所述的装置,其中用于指定所述环境高阶立体混响系数的所述装置包括用于在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量,而不在所述数据对象中指定所述环境高阶立体混响系数的所述阶数和所述子阶数的装置。
条款28H.根据条款23H到27H的任何组合所述的装置,其进一步包括用于对所述数据对象执行心理声学音频编码以获得经过压缩的数据对象的装置。
条款29H.根据条款23H到28H的任何组合所述的装置,其中所述数据对象包括位流,其中所述格式包括传输格式,其中用于指定所述主要声音分量的所述装置包括用于在所述位流的第一传输通道中并且使用所述传输格式来指定所述主要声音分量的装置,并且其中用于指定所述环境高阶立体混响系数的所述装置包括用于在所述位流的第二传输通道中并且使用同一传输格式来指定所述环境高阶立体混响系数的装置。
条款30H.根据条款23H到28H的任何组合所述的装置,其中所述数据对象包括文件,其中所述格式包括轨道格式,并且其中用于指定所述主要声音分量的所述装置包括用于在所述文件的第一轨道中并且使用所述轨道格式来指定所述主要声音分量的装置;并且其中用于指定所述环境高阶立体混响系数的所述装置包括用于在所述文件的第二轨道中并且使用同一轨道格式来指定所述环境高阶立体混响系数的装置。
条款31H.根据条款23H到30H的任何组合所述的装置,其进一步包括:用于接收所述高阶立体混响音频数据的装置;以及用于将所述数据对象输出到发射编码器的装置,所述发射编码器被配置成基于目标位率对所述位流进行转码。
条款32H.根据条款23H到31H的任何组合所述的装置,其进一步包括:用于捕获表示所述高阶立体混响音频数据的空间音频数据的装置;以及用于将所述空间音频数据转换为所述高阶立体混响音频数据的装置。
条款33H.一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在被执行时使一或多个处理器:将高阶立体混响系数分解为主要声音分量和对应空间分量,所述高阶立体混响系数表示声场,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;从所述高阶立体混响系数获得描述所述声场的环境分量的环境高阶立体混响系数;获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;在表示所述高阶立体混响音频数据的压缩版本的数据对象中并且根据某一格式指定所述主要声音分量和所述对应空间分量;并且在所述数据对象中并且根据同一格式指定所述环境高阶立体混响系数和所述对应的改变用途的空间分量。
条款34H.根据条款33H所述的非暂时性计算机可读存储媒体,其进一步包括在被执行时使所述一或多个处理器执行根据条款13H到22H的任何组合所述的方法的步骤的指令。
条款1I.一种装置,其被配置成解压缩表示声场的高阶立体混响音频数据,所述装置包括:存储器,所述存储器被配置成至少部分地存储表示高阶立体混响系数的压缩版本的数据对象,所述高阶立体混响系数表示声场;以及一或多个处理器,所述一或多个处理器被配置成:从所述数据对象并且根据某一格式获得描述所述声场的环境分量的环境高阶立体混响系数;从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;从所述数据对象并且根据同一格式获得主要声音分量;从所述数据对象获得对应空间分量,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送;并且将所述一或多个扬声器馈送输出到一或多个扬声器。
条款2I.根据条款1I所述的装置,其中所述一或多个处理器被进一步配置成:从所述数据对象获得谐波系数排序格式指示符,所述谐波系数排序格式指示符指示所述环境HOA系数的对称谐波系数排序格式或线性谐波系数排序格式;基于所述谐波系数排序格式指示符和所述改变用途的向量确定所述高阶立体混响系数所对应的所述球基函数的所述阶数和所述子阶数;并且在渲染所述一或多个扬声器馈送之前将所述环境高阶立体混响系数与具有所确定的阶数和子阶数的所述球基函数相关联。
条款3I.根据条款1I所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+1)2,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1来标识所述阶数和所述子阶数。
条款4I.根据条款1I所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+1)2,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1并且使所述向量的剩余元素的值为0来标识所述阶数和所述子阶数。
条款5I.根据条款1I所述的装置,其中所述一或多个处理器被配置成从所述数据对象并且根据同一格式获得所述环境高阶立体混响系数和所述对应的改变用途的空间分量,而不从所述数据对象获得所述环境高阶立体混响系数的所述阶数和所述子阶数。
条款6I.根据条款1I到5I的任何组合所述的装置,其中所述一或多个处理器被进一步配置成对所述数据对象执行心理声学音频解码以获得解压缩的数据对象。
条款7I.根据条款1I到6I的任何组合所述的装置,其中所述数据对象包括位流,其中所述格式包括传输格式,并且其中所述一或多个处理器被配置成:从所述位流的第一传输通道并且根据所述传输格式获得所述主要声音分量;并且从所述位流的第二传输通道并且根据同一传输格式获得所述环境高阶立体混响系数。
条款8I.根据条款1I到6I的任何组合所述的装置,其中所述数据对象包括文件,其中所述格式包括轨道格式,并且其中所述一或多个处理器被配置成:从所述文件的第一轨道并且根据所述轨道格式获得所述主要声音分量;并且从所述位流的第二轨道并且根据同一轨道格式获得所述环境高阶立体混响系数。
条款9I.根据条款1I到8I的任何组合所述的装置,其中所述一或多个处理器被配置成将所述一或多个扬声器馈送渲染为一或多个双耳音频耳机馈送,并且其中所述一或多个扬声器包括一或多个耳机扬声器。
条款10I.根据条款9I所述的装置,其中所述装置包括头戴式装置,所述头戴式装置包含一或多个耳机扬声器,作为一或多个集成耳机扬声器。
条款11I.根据条款1I到8I的任何组合所述的装置,其中所述装置包括汽车,所述汽车包含一或多个扬声器,作为一或多个集成扬声器。
条款12I.一种解压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:从表示高阶立体混响系数的压缩版本的数据对象并且根据某一格式获得描述声场的环境分量的环境高阶立体混响系数,所述高阶立体混响系数表示所述声场;从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;从所述数据对象并且根据同一格式获得主要声音分量;从所述数据对象获得对应空间分量,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送;以及将所述一或多个扬声器馈送输出到一或多个扬声器。
条款13I.根据条款12I所述的方法,其进一步包括:从所述数据对象获得谐波系数排序格式指示符,所述谐波系数排序格式指示符指示所述环境HOA系数的对称谐波系数排序格式或线性谐波系数排序格式;基于所述谐波系数排序格式指示符和所述改变用途的向量确定所述高阶立体混响系数所对应的所述球基函数的所述阶数和所述子阶数;以及在渲染所述一或多个扬声器馈送之前将所述环境高阶立体混响系数与具有所确定的阶数和子阶数的所述球基函数相关联。
条款14I.根据条款12I所述的方法,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+12)13,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1来标识所述阶数和所述子阶数。
条款15I.根据条款12I所述的方法,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+12)13,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1并且使所述向量的剩余元素的值为0来标识所述阶数和所述子阶数。
条款16I.根据条款12I所述的方法,其中获得所述环境高阶立体混响系数和所述对应的改变用途的空间分量包括从所述数据对象并且根据同一格式获得所述环境高阶立体混响系数和所述对应的改变用途的空间分量,而不从所述数据对象获得所述环境高阶立体混响系数的所述阶数和所述子阶数。
条款17I.根据条款12I到16I的任何组合所述的方法,其进一步包括对所述数据对象执行心理声学音频解码以获得解压缩的数据对象。
条款18I.根据条款12I到17I的任何组合所述的方法,其中所述数据对象包括位流,其中所述格式包括传输格式,其中获得所述主要声音分量包括从所述位流的第一传输通道并且根据所述传输格式获得所述主要声音分量,并且其中获得所述环境高阶立体混响系数包括从所述位流的第二传输通道并且根据同一传输格式获得所述环境高阶立体混响系数。
条款19I.根据条款12I到17I的任何组合所述的方法,其中所述数据对象包括文件,其中所述格式包括轨道格式,其中获得所述主要声音分量包括从所述文件的第一轨道并且根据所述轨道格式获得所述主要声音分量,并且其中获得所述环境高阶立体响系数包括从所述位流的第二轨道并且根据同一轨道格式获得所述环境高阶立体混响系数。
条款20I.根据条款12I到19I的任何组合所述的方法,其中渲染所述一或多个扬声器馈送包括将所述一或多个扬声器馈送渲染为一或多个双耳音频耳机馈送,并且其中所述一或多个扬声器包括一或多个耳机扬声器。
条款21I.根据条款20I所述的方法,其中头戴式装置执行所述方法,所述头戴式装置包含所述一或多个耳机扬声器,作为一或多个集成耳机扬声器。
条款22I.根据条款12I到19I的任何组合所述的方法,其中汽车执行所述方法,所述汽车包含所述一或多个扬声器,作为一或多个集成扬声器。
条款23I.一种装置,其被配置成解压缩表示声场的高阶立体混响音频数据,所述装置包括:用于从表示高阶立体混响系数的压缩版本的数据对象并且根据某一格式获得描述声场的环境分量的环境高阶立体混响系数的装置,所述高阶立体混响系数表示所述声场;用于从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量的装置,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;用于从所述数据对象并且根据同一格式获得主要声音分量的装置;用于从所述数据对象获得对应空间分量的装置,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;用于基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送的装置;以及用于将所述一或多个扬声器馈送输出到一或多个扬声器的装置。
条款24I.根据条款23I所述的装置,其进一步包括:用于从所述数据对象获得谐波系数排序格式指示符的装置,所述谐波系数排序格式指示符指示所述环境HOA系数的对称谐波系数排序格式或线性谐波系数排序格式;用于基于所述谐波系数排序格式指示符和所述改变用途的向量确定所述高阶立体混响系数所对应的球基函数的所述阶数和所述子阶数的装置;以及用于在渲染所述一或多个扬声器馈送之前将所述环境高阶立体混响系数与具有所确定的阶数和子阶数的所述球基函数相关联的装置。
条款25I.根据条款23I所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+23)24,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1来标识所述阶数和所述子阶数。
条款26I.根据条款23I所述的装置,其中所述改变用途的空间分量包括向量,所述向量的元素数量等于最大阶数(N)加1的平方(N+23)24,所述最大阶数定义为所述高阶立体混响系数所对应的所述球基函数的最大阶数,并且其中所述向量通过使所述元素之一的值为1并且使所述向量的剩余元素的值为0来标识所述阶数和所述子阶数。
条款27I.根据条款23I所述的装置,其中用于获得所述环境高阶立体混响系数和所述对应的改变用途的空间分量的所述装置包括用于从所述数据对象并且根据同一格式获得所述环境高阶立体混响系数和所述对应的改变用途的空间分量,而不从所述数据对象获得所述环境高阶立体混响系数的所述阶数和所述子阶数的装置。
条款28I.根据条款23I到27I的任何组合所述的装置,其进一步包括用于对所述数据对象执行心理声学音频解码以获得解压缩的数据对象的装置。
条款29I.根据条款23I到28I的任何组合所述的装置,其中所述数据对象包括位流,其中所述格式包括传输格式,其中用于获得所述主要声音分量的所述装置包括用于从所述位流的第一传输通道并且根据所述传输格式获得所述主要声音分量的装置,并且其中用于获得所述环境高阶立体混响系数的所述装置包括用于从所述位流的第二传输通道并且根据同一传输格式获得所述环境高阶立体混响系数的装置。
条款30I.根据条款23I到28I的任何组合所述的装置,其中所述数据对象包括文件,其中所述格式包括轨道格式,其中用于获得所述主要声音分量的所述装置包括用于从所述文件的第一轨道并且根据所述轨道格式获得所述主要声音分量的装置,并且其中用于获得所述环境高阶立体混响系数的所述装置包括用于从所述位流的第二轨道并且根据同一轨道格式获得所述环境高阶立体混响系数的装置。
条款31I.根据条款23I到30I的任何组合所述的装置,其中用于渲染所述一或多个扬声器馈送的所述装置包括将所述一或多个扬声器馈送渲染为一或多个双耳音频耳机馈送,并且其中所述一或多个扬声器包括一或多个耳机扬声器。
条款32I.根据条款31I所述的装置,其中所述装置包括头戴式装置,所述头戴式装置包含一或多个耳机扬声器,作为一或多个集成耳机扬声器。
条款33I.根据条款23I到30I的任何组合所述的装置,其中所述装置包括汽车,所述汽车包含一或多个扬声器,作为一或多个集成扬声器。
条款34I.一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在被执行时使一或多个处理器:从表示高阶立体混响系数的压缩版本的数据对象并且根据某一格式获得描述声场的环境分量的环境高阶立体混响系数,所述高阶立体混响系数表示所述声场;从所述数据对象获得与所述环境高阶立体混响系数相对应的改变用途的空间分量,所述改变用途的空间分量指示所述环境高阶立体混响系数所对应的球基函数的阶数和子阶数中的一或多个;从所述数据对象并且根据同一格式获得主要声音分量;从所述数据对象获得对应空间分量,所述对应空间分量定义所述主要声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;基于所述环境高阶立体混响系数、所述改变用途的空间分量、所述主要声音分量和所述对应空间分量渲染一或多个扬声器馈送;并且将所述一或多个扬声器馈送输出到一或多个扬声器。
条款35I.根据条款34I所述的非暂时性计算机可读存储媒体,其进一步包括在被执行时使所述一或多个处理器执行根据条款12I到22I的任何组合所述的方法的步骤的指令。
通过举例而非限制的方式,这种计算机可读存储媒体可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪速存储器或可以用于以指令或数据结构的形式存储期望的程序代码并且可以被计算机访问的任何其它媒体。然而,应当理解的是,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而相反涉及非暂时性有形存储媒体。本文所使用的磁盘和光盘包含压缩光盘(CD)、激光光盘、光盘、数字通用光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述内容的组合也应包括在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路系统。因此,本文所使用的术语“处理器”可以指代任何前述结构或适于实施本文所描述的技术的任何其它结构。另外,在一些方面,本文所描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块中提供或结合到组合式编解码器中。而且,所述技术可以完全在一或多个电路或逻辑元件中实施。
本公开的技术可以在各种装置或设备中实施,包含无线手持装置、集成电路(IC)或IC组(例如,芯片组)。本公开中描述了各种组件、模块或单元以强调被配置成执行所公开技术的装置的功能方面,但不一定需要通过不同的硬件单元来实现。相反,如上所述,结合适合的软件和/或固件,各个单元可以组合在编码解码器硬件单元中或由包含如上所述的一或多个处理器的一系列互操作硬件单元提供。
此外,本文所使用的“A和/或B”意指“A或B”或“A和B”两者。
已经描述了所述技术的各个方面。所述技术的这些和其它方面处于以下权利要求的范围内。

Claims (30)

1.一种装置,其被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:
存储器,所述存储器被配置成存储所述高阶立体混响音频数据的高阶立体混响系数,所述高阶立体混响系数表示声场;以及
一或多个处理器,所述一或多个处理器被配置成:
将所述高阶立体混响系数分解为声音分量和对应空间分量,所述对应空间分量在球谐域中定义所述声音分量的形状、宽度和方向;
基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;并且
在表示所述高阶立体混响音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息。
2.根据权利要求1所述的装置,
其中所述一或多个处理器被进一步配置成基于所述声音分量和所述对应空间分量获得所述声音分量的高阶立体混响表示,并且
其中所述一或多个处理器被配置成基于所述声音分量的所述高阶立体混响表示和所述对应空间分量中的一或多个确定所述优先级信息。
3.根据权利要求2所述的装置,其中所述一或多个处理器被配置成:
将所述声音分量的所述高阶立体混响表示渲染成一或多个扬声器馈送;并且
其中所述一或多个处理器被配置成基于所述声音分量的所述高阶立体混响表示、所述扬声器馈送和所述对应空间分量中的一或多个确定所述优先级信息。
4.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
基于所述对应空间分量确定空间权重,所述空间权重指示所述声音分量与所述声场的相关性;并且
基于所述声音分量、所述声音分量的高阶立体混响表示、一或多个扬声器馈送和所述空间权重中的一或多个确定所述优先级信息。
5.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
确定与所述声音分量、所述声音分量的高阶立体混响表示或一或多个扬声器馈送相关联的能量;并且
基于所述能量和空间权重中的一或多个确定所述优先级信息。
6.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
确定与所述声音分量、所述声音分量的高阶立体混响表示或一或多个扬声器馈送之一相关联的响度度量,所述响度度量指示所述声音分量与所述声场的相关性;
基于所述响度度量和空间权重中的一或多个确定所述优先级信息。
7.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
确定连续性指示,所述连续性指示指示当前部分是否与所述数据对象的前一部分定义了同一声音分量;
基于所述连续性指示和空间权重中的一或多个确定所述优先级信息。
8.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
对所述声音分量、所述声音分量的高阶立体混响表示或一或多个扬声器馈送执行信号分类,以确定所述声音分量所对应的类别;
基于所述类别和空间权重中的一或多个确定所述优先级信息。
9.根据权利要求8所述的装置,其中所述一或多个处理器被配置成对所述声音分量、所述声音分量的所述高阶立体混响表示或所述一或多个扬声器馈送执行信号分类,以确定所述声音分量所对应的语音类别或非语音类别。
10.根据权利要求1所述的装置,
其中所述数据对象包括位流,
其中所述位流包括多个传输通道,
其中所述优先级信息包括优先级通道信息,并且
其中所述一或多个处理器被配置成:
在所述多个传输通道中的传输通道中指定所述声音分量;并且
在所述位流中指定所述优先级通道信息,所述优先级通道信息指示所述传输通道相对于所述多个传输通道中定义所述其它声音分量的其余传输通道的优先级。
11.根据权利要求1所述的装置,
其中所述数据对象包括文件,
其中所述文件包括多个轨道,
其中所述优先级信息包括优先级轨道信息,并且
其中所述一或多个处理器被配置成:
在所述多个轨道中的轨道中指定所述声音分量;并且
在所述位流中指定所述优先级轨道信息,所述优先级轨道信息指示所述轨道相对于所述多个轨道中定义所述其它声音分量的其余轨道的优先级。
12.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
接收所述高阶立体混响音频数据;并且
将所述数据对象输出到发射编码器,所述发射编码器被配置成基于目标位率对所述位流进行转码。
13.根据权利要求1所述的装置,其进一步包括麦克风,所述麦克风被配置成捕获表示所述高阶立体混响音频数据的空间音频数据并将所述空间音频数据转换为所述高阶立体混响音频数据。
14.根据权利要求1所述的装置,其中所述装置包括机器人装置。
15.根据权利要求1所述的装置,其中所述装置包括飞行装置。
16.一种压缩表示声场的高阶立体混响音频数据的方法,所述方法包括:
将所述立体混响高阶立体混响音频数据的高阶立体混响系数分解为声音分量和对应空间分量,所述高阶立体混响音频数据表示声场,所述对应空间分量定义所述声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;
基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;以及
在表示所述高阶立体混响音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息。
17.根据权利要求16所述的方法,其中确定所述优先级信息包括:
从提供所述高阶立体混响音频数据的内容提供商获得所述声音分量相对于所述声场的其它声音分量的优选优先级;以及
基于所述优选优先级和空间权重中的一或多个确定所述优先级信息。
18.根据权利要求16所述的方法,其中确定所述优先级信息包括基于能量、连续性指示和空间权重中的一或多个确定所述优先级信息。
19.根据权利要求16所述的方法,其中确定所述优先级信息包括基于响度度量、连续性指示和空间权重中的一或多个确定所述优先级信息。
20.根据权利要求16所述的方法,其中确定所述优先级信息包括基于能量、类别和空间权重中的一或多个确定所述优先级信息。
21.根据权利要求16所述的方法,其中确定所述优先级信息包括基于响度度量、类别和空间权重中的一或多个确定所述优先级信息。
22.根据权利要求16所述的方法,其中确定所述优先级信息包括基于能量、优选优先级和空间权重中的一或多个确定所述优先级信息。
23.根据权利要求16所述的方法,其中确定所述优先级信息包括基于响度度量、优选优先级和空间权重中的一或多个确定所述优先级信息。
24.根据权利要求16所述的方法,其中确定所述优先级信息包括基于能量、连续性指示、类别、优选优先级和空间权重中的一或多个确定所述优先级信息。
25.根据权利要求16所述的方法,其中确定所述优先级信息包括基于响度度量、连续性指示、类别、优选优先级和空间权重中的一或多个确定所述优先级信息。
26.根据权利要求16所述的方法,
其中所述数据对象包括位流,
其中所述位流包括多个传输通道,
其中所述优先级信息包括优先级通道信息,并且
其中指定所述声音分量包括在所述多个传输通道中的传输通道中指定所述声音分量;并且
其中指定所述优先级信息包括在所述位流中指定所述优先级通道信息,所述优先级通道信息指示所述传输通道相对于所述多个传输通道中定义所述其它声音分量的其余传输通道的优先级。
27.根据权利要求16所述的方法,
其中所述数据对象包括文件,
其中所述文件包括多个轨道,
其中所述优先级信息包括优先级轨道信息,
其中指定所述声音分量包括在所述多个轨道中的轨道中指定所述声音分量,并且其中指定所述优先级信息包括在所述位流中指定所述优先级轨道信息,所述优先级通道信息指示所述轨道相对于所述多个轨道中定义所述其它声音分量的其余轨道的优先级。
28.根据权利要求16所述的方法,其进一步包括:
接收所述高阶立体混响音频数据;以及
将所述数据对象输出到发射编码器,所述发射编码器被配置成基于目标位率对所述位流进行转码。
29.根据权利要求16所述的方法,其进一步包括由麦克风捕获表示所述高阶立体混响音频数据的空间音频数据并将所述空间音频数据转换为所述高阶立体混响音频数据。
30.一种装置,其被配置成压缩表示声场的高阶立体混响音频数据,所述装置包括:
用于将所述立体混响高阶立体混响音频数据的高阶立体混响系数分解为声音分量和对应空间分量的装置,所述高阶立体混响音频数据表示声场,所述对应空间分量定义所述声音分量的形状、宽度和方向,并且所述对应空间分量定义于球谐域中;
用于基于所述声音分量和所述对应空间分量中的一或多个确定优先级信息的装置,所述优先级信息指示所述声音分量相对于所述声场的其它声音分量的优先级;以及
用于在表示所述高阶立体混响音频数据的压缩版本的数据对象中指定所述声音分量和所述优先级信息的装置。
CN201880082001.1A 2017-12-21 2018-12-21 高阶立体混响音频数据的优先级信息 Active CN111492427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110544624.XA CN113488064A (zh) 2017-12-21 2018-12-21 高阶立体混响音频数据的优先级信息

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762609157P 2017-12-21 2017-12-21
US62/609,157 2017-12-21
US16/227,880 US10657974B2 (en) 2017-12-21 2018-12-20 Priority information for higher order ambisonic audio data
US16/227,880 2018-12-20
PCT/US2018/067286 WO2019126745A1 (en) 2017-12-21 2018-12-21 Priority information for higher order ambisonic audio data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110544624.XA Division CN113488064A (zh) 2017-12-21 2018-12-21 高阶立体混响音频数据的优先级信息

Publications (2)

Publication Number Publication Date
CN111492427A true CN111492427A (zh) 2020-08-04
CN111492427B CN111492427B (zh) 2021-05-25

Family

ID=66948925

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110544624.XA Pending CN113488064A (zh) 2017-12-21 2018-12-21 高阶立体混响音频数据的优先级信息
CN201880082001.1A Active CN111492427B (zh) 2017-12-21 2018-12-21 高阶立体混响音频数据的优先级信息

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110544624.XA Pending CN113488064A (zh) 2017-12-21 2018-12-21 高阶立体混响音频数据的优先级信息

Country Status (6)

Country Link
US (1) US10657974B2 (zh)
EP (2) EP3729425B1 (zh)
CN (2) CN113488064A (zh)
BR (1) BR112020012142A2 (zh)
SG (1) SG11202004221PA (zh)
WO (1) WO2019126745A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381233A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 数据压缩方法、装置、电子设备和存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270711B2 (en) 2017-12-21 2022-03-08 Qualcomm Incorproated Higher order ambisonic audio data
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
FR3096550B1 (fr) * 2019-06-24 2021-06-04 Orange Dispositif de captation sonore à réseau de microphones perfectionné
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US10972852B2 (en) 2019-07-03 2021-04-06 Qualcomm Incorporated Adapting audio streams for rendering
US11937065B2 (en) 2019-07-03 2024-03-19 Qualcomm Incorporated Adjustment of parameter settings for extended reality experiences
US11354085B2 (en) 2019-07-03 2022-06-07 Qualcomm Incorporated Privacy zoning and authorization for audio rendering
US11140503B2 (en) 2019-07-03 2021-10-05 Qualcomm Incorporated Timer-based access for audio streaming and rendering
US11580213B2 (en) 2019-07-03 2023-02-14 Qualcomm Incorporated Password-based authorization for audio rendering
US11429340B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences
US11432097B2 (en) 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences
GB2586451B (en) * 2019-08-12 2024-04-03 Sony Interactive Entertainment Inc Sound prioritisation system and method
US11356796B2 (en) * 2019-11-22 2022-06-07 Qualcomm Incorporated Priority-based soundfield coding for virtual reality audio
US11317236B2 (en) 2019-11-22 2022-04-26 Qualcomm Incorporated Soundfield adaptation for virtual reality audio
US11601776B2 (en) 2020-12-18 2023-03-07 Qualcomm Incorporated Smart hybrid rendering for augmented reality/virtual reality audio
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
US20220383881A1 (en) * 2021-05-27 2022-12-01 Qualcomm Incorporated Audio encoding based on link data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140023196A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
WO2015146057A1 (en) * 2014-03-24 2015-10-01 Sony Corporation Encoding device and encoding method, decoding device and decoding method, and program
CN106663433A (zh) * 2014-07-02 2017-05-10 高通股份有限公司 减少高阶立体混响(hoa)背景信道之间的相关性
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GEP20146081B (en) * 2009-12-07 2014-04-25 Dolby Laboratories Licensing Corp Decoding of multichannel aufio encoded bit streams using adaptive hybrid transformation
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9609452B2 (en) * 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
US20150243292A1 (en) 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9852737B2 (en) * 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9767618B2 (en) * 2015-01-28 2017-09-19 Samsung Electronics Co., Ltd. Adaptive ambisonic binaural rendering
US10225676B2 (en) 2015-02-06 2019-03-05 Dolby Laboratories Licensing Corporation Hybrid, priority-based rendering system and method for adaptive audio
EP3286929B1 (en) 2015-04-20 2019-07-31 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
ES2903247T3 (es) 2015-10-08 2022-03-31 Dolby Int Ab Codificación en capas y estructura de datos para representaciones comprimidas de campo sonoro o sonido ambisónico de orden superior

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140023196A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
WO2015146057A1 (en) * 2014-03-24 2015-10-01 Sony Corporation Encoding device and encoding method, decoding device and decoding method, and program
CN106663433A (zh) * 2014-07-02 2017-05-10 高通股份有限公司 减少高阶立体混响(hoa)背景信道之间的相关性
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAX NEUENDORF ET AL: "Updatad to Proposed 2nd Edition of ISO/IEC 23008-3", 《117.MPEG MEETING;16-1-2017-20-1-2017;GENEVA》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381233A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 数据压缩方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
US20190198028A1 (en) 2019-06-27
BR112020012142A2 (pt) 2020-11-24
EP3729425B1 (en) 2023-06-21
EP3729425A1 (en) 2020-10-28
EP4258262A2 (en) 2023-10-11
CN111492427B (zh) 2021-05-25
SG11202004221PA (en) 2020-07-29
EP4258262A3 (en) 2023-12-27
US10657974B2 (en) 2020-05-19
CN113488064A (zh) 2021-10-08
WO2019126745A1 (en) 2019-06-27

Similar Documents

Publication Publication Date Title
CN111492427B (zh) 高阶立体混响音频数据的优先级信息
US9875745B2 (en) Normalization of ambient higher order ambisonic audio data
US9847088B2 (en) Intermediate compression for higher order ambisonic audio data
US20200013426A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
US10075802B1 (en) Bitrate allocation for higher order ambisonic audio data
KR20160015284A (ko) 회전된 고차 앰비소닉스의 바이노럴화
EP3625795B1 (en) Layered intermediate compression for higher order ambisonic audio data
US20190392846A1 (en) Demixing data for backward compatible rendering of higher order ambisonic audio
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
WO2020263851A1 (en) Correlating scene-based audio data for psychoacoustic audio coding
US11270711B2 (en) Higher order ambisonic audio data
TW202002679A (zh) 使用不同呈現器呈現音訊資料的不同部分
CN112771892B (zh) 音频数据的灵活渲染
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
CN113994425A (zh) 基于为心理声学音频编解码确定的比特分配对空间分量进行量化

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant