CN106104680A - 将音频信道插入到声场的描述中 - Google Patents

将音频信道插入到声场的描述中 Download PDF

Info

Publication number
CN106104680A
CN106104680A CN201580014712.1A CN201580014712A CN106104680A CN 106104680 A CN106104680 A CN 106104680A CN 201580014712 A CN201580014712 A CN 201580014712A CN 106104680 A CN106104680 A CN 106104680A
Authority
CN
China
Prior art keywords
sound field
voice
grade channel
locus
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580014712.1A
Other languages
English (en)
Other versions
CN106104680B (zh
Inventor
D·森
N·G·彼得斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN106104680A publication Critical patent/CN106104680A/zh
Application granted granted Critical
Publication of CN106104680B publication Critical patent/CN106104680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本发明通常描述用于将音频信道插入到声场的描述中的技术。包括处理器的装置可经配置以执行所述技术。所述处理器可经配置以获得不同于声场的高阶立体混响表示的音频信道。所述处理器可进一步经配置以将所述音频信道插入所述声场内的空间位置处,使得所述音频信道能够从所述声场中提取。

Description

将音频信道插入到声场的描述中
本申请案要求2014年3月21日申请的标题为“将音频信道插入到声场的描述中(INSERTING AUDIO CHANNELS INTO DESCRIPTIONS OF SOUNDFIELDS)”的第61/969,011号美国临时申请案及2014年3月24日申请的标题为“将音频信道插入到声场的描述中(INSERTING AUDIO CHANNELS INTO DESCRIPTIONS OF SOUNDFIELDS)”的第61/969,586号美国临时申请案的权益,所述申请案中的每一者通过引用以其全文并入本文中。
技术领域
本发明涉及音频数据,且更确切地说,涉及高阶立体混响音频数据的译码。
背景技术
高阶立体混响(HOA)信号(常由多个球谐系数(SHC)或其它阶层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用于播放从SHC信号呈现的多信道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可促进向后兼容性,因为可将SHC信号呈现为众所周知的且被广泛采用的多信道格式(例如,举例来说,5.1音频信道格式或7.1音频信道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,本发明描述用于对高阶立体混响音频数据进行译码的技术。高阶立体混响音频数据可包括与具有大于一的阶数的球谐基底函数对应的至少一个高阶立体混响(HOA)系数。
在一个方面中,装置包括一或多个处理器,其经配置以获得包含不同于声场的音频信道的声场的经扩增高阶立体混响表示,并且从声场的经扩增高阶立体混响表示内的空间位置提取音频信道。
在另一方面中,方法包括获得包含不同于声场的音频信道的声场的经扩增高阶立体混响表示;及从声场的经扩增高阶立体混响表示内的空间位置提取音频信道。
在另一方面中,装置包括一或多个处理器,其经配置以获得不同于声场的高阶立体混响表示的音频信道;及将音频信道插入声场内的空间位置处,使得音频信道能够从声场提取。
在另一方面中,方法包括获得不同于声场的高阶立体混响表示的音频信道;及将音频信道插入声场内的空间位置处,使得音频信道能够从声场提取。
在附图及以下描述中阐述所述技术的一或多个方面的细节。所述技术的其它特征、目标及优点将从所述描述及图式以及权利要求书中显而易见。
附图说明
图1是说明具有各种阶数及子阶数的球谐基底函数的图。
图2是说明可执行本发明中所描述的技术的各种方面的系统的图。
图3A-3C是说明可各自执行本发明中所描述的技术的各种方面的图2中展示的音频编码装置的各种实例的框图。
图4A-4C是说明可执行本发明中所描述的技术的各种方面的图2中展示的音频解码装置的各种实例的框图。
图5A-5C是说明在执行本发明中所描述的插入技术的各种方面时音频编码装置的插入单元的示范性操作的图。
图6是说明在执行本发明中所描述的区域形成及插入技术的各种方面时音频编码装置的插入单元的示范性操作的流程图。
图7是说明在执行本发明中所描述的音频信道提取技术的各种方面时音频解码装置的音频信道提取单元的示范性操作的流程图。
图8A-8C是说明根据本发明中所描述的技术的音频对象可插入的声场的图。
具体实施方式
环绕声的演进已使得许多输出格式可用于娱乐。此类消费型环绕声格式的实例大部分为“声道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含普遍的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰电视标准使用)。非消费型格式可跨越任何数目的扬声器(呈对称及非对称几何形状),其常常称为“环绕阵列”。此种阵列的一个实例包含定位在截角二十面体的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入任选地为三个可能格式中的一者:(i)传统的基于信道的音频(如上文所论述),其意图通过处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球谐基底函数的系数(也称为“球谐系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。未来MPEG编码器的额外细节可发现于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的标题为“要求对于3D音频的提议(Call for Proposals for 3D Audio)”的文献中,该文献于2013年1月在瑞士日内瓦发布,且可在http://mpeg.chiariglione.org/ sites/default/files/files/standards/parts/docs/w13411.zip获得。
不同基于“环绕声”信道的格式是可用的。所述格式的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望产生电影的声迹一次,而不花费精力来针对每一扬声器配置对其进行重混。近来,标准开发组织(standardsdeveloping organizations)一直在考虑如下方式:将编码及后续解码(适合于且不知晓播放位置(涉及呈现器)处的扬声器几何形状(及数目)和声学条件)提供于标准化位流中。
为向内容创建者提供此种灵活性,可使用分层要素集合来表示声场。所述分层要素集合可指其中要素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
分层要素集合的一个实例为一组球谐系数(SHC)。以下表达式展示使用SHC对声场的描述或表示:
表达式展示在时间t处在声场的任何点处的压力pi可独特地由SHC,来表示。此处,c是音速(~343m/s),是参考点(或观测点),jn(·)是阶n的球贝塞尔函数,且是阶n及子阶m的球谐基底函数。方括号中的术语为信号(即)的频域表示,其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合及多分辨率基底函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶但未明确注释。
可通过各种麦克风阵列配置物理地获取(例如,记录)或替代地,其可从声场的基于信道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025页)中。
为说明可如何从基于对象的描述导出SHC,考虑以下等式。可将对应于个别音频对象的声场的系数表达为:
其中i是 是阶n的球面汉克尔函数(第二种类),且是对象的位置。已知随频率变化的对象源能量g(ω)(例如,使用时间-频率分析技术,例如,对PCM流执行快速傅立叶变换)允许将每一PCM对象及对应位置转换成此外,可展示(由于以上是线性及正交分解)用于每一对象的系数是累加的。以此方式,许多PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,所述系数含有关于声场的信息(随3D坐标而变的压力),且上述情形表示在观测点附近从个别对象到整个声场的表示的变换。下文在基于对象及基于SHC的音频译码的上下文中描述其余各图。
图2是说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所示,系统10包含内容创建者装置12和内容消费者装置14。尽管在内容创建者装置12和内容消费者装置14的上下文中描述,但可在其中声场的SHC(其也可称为HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建者装置12可以表示能够实施本发明中所描述的技术的任何形式的计算装置,包含(举几个实例)手持机(或蜂窝电话)、平板计算机、智能手机、机顶盒、电视机、音频接收器、便携式计算机或桌上型计算机。同样地,内容消费者装置14可以表示能够实施本发明中所描述的技术的任何形式的计算装置,包含(举几个实例)手持机(或蜂窝电话)、平板计算机、智能手机、机顶盒、电视机、音频接收器、便携式计算机或桌上型计算机。
内容创建者装置12可由电影或电视工作室或可产生多信道音频内容以供内容消费者装置(例如,内容消费者装置14)的操作者消耗的其它实体来操作。在一些实例中,内容创建者装置12可由将希望压缩HOA系数11的个别用户操作。在一些实例中,内容创建者装置12可通过单独音频内容201(例如,解说)扩大HOA系数11。内容创建者通常产生音频内容与视频内容。内容消费者装置14可由个体(例如,用户7)操作。内容消费者装置14可包含音频播放系统16,其可指能够呈现SHC以供作为多信道音频内容播放的任何形式的音频播放系统。
内容创建者装置12包含音频编辑系统18。内容创建者装置12可获得呈各种格式(包含直接作为HOA系数)的实况记录及音频对象,内容创建者装置12可使用音频编辑系统18对所述实况记录及所述音频对象进行编辑。内容创建者可在编辑过程期间从音频对象9呈现HOA系数11,从而在识别声场的需要进一步编辑的各种方面的尝试中倾听所呈现的扬声器馈入。内容创建者装置12可接着编辑HOA系数11(可能经由操纵可以上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者装置12可采用音频编辑系统18来产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。
当编辑过程完成时,内容创建者装置12可基于HOA系数11产生位流21。也就是说,内容创建者装置12包含音频编码装置20,所述音频编码装置表示经配置以根据本发明中所描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供跨越发射信道(其可为有线或无线信道、数据存储装置或其类似者)传输(作为一个实例)。位流21可表示HOA系数11的经编码版本,且可包含主要位流及另一旁侧位流(其可称为旁侧信道信息)。
虽然在图2中展示为直接发射到内容消费者装置14,但内容创建者装置12可将位流21输出到位于内容创建者装置12与内容消费者装置14之间的中间装置。中间装置可存储位流21以供稍后传递到可请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21(且可能结合发射对应视频数据位流)串流到请求位流21的订户(例如,内容消费者装置14)的内容传递网络中。
或者,内容创建者装置12可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,发射信道可指代借以发射存储到媒体的内容的信道(且可包含零售商店及其它基于商店的传递机构)。在任何情况下,本发明的技术因此就此而言不应限于图2的实例。
如图2的实例中进一步展示,内容消费者装置14包含音频播放系统16。音频播放系统16可表示能够播放多信道音频数据的任何音频播放系统。音频播放系统16可包含多个不同呈现器22。呈现器22可各自提供用于不同形式的呈现,其中不同形式的呈现可包含执行向量基振幅移动(VBAP)的各种方式中的一或多者及/或执行声场合成的各种方式中的一或多者。如本文所使用,“A及/或B”意味着“A或B”,或“A及B”两者。
音频播放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以对位流进行解码以从位流21中产生HOA系数11'及单独音频内容201的装置。HOA系数11'可类似于HOA系数11,但可由于有损操作(例如量化)及/或经由发射信道的发射而不同。
音频播放系统16可使用音频呈现器22中的一或多者呈现HOA系数11'以输出扩音器馈入25。音频播放系统16可使用音频呈现器22中的一或多者呈现单独音频内容201以输出单独扩音器馈入203。音频播放系统16可进一步包含混合器8,所述混合器将单独扩音器馈入203与扩音器馈入25混合以由此产生混合的扩音器馈入25'。
为了选择适当呈现器或在一些情况下产生适当呈现器,音频播放系统16可获得指示扩音器的数目及/或扩音器的空间几何布置的扩音器信息。在一些情况下,音频播放系统16可使用参考麦克风获得扩音器信息且以动态地确定扩音器信息的方式驱动所述扩音器。在其它情况下或结合动态确定扩音器信息,音频播放系统16可提示用户与音频播放系统16介接并输入扩音器信息。
音频播放系统16可随后基于扩音器信息选择音频呈现器22中的一或多者。在一些情况下,在音频呈现器22中无一者处于至扩音器信息中所指定的扩音器几何结构的某一阈值相似性测量(就扩音器几何结构而言)内时,音频播放系统16可基于扩音器信息产生音频呈现器22中的一者。音频播放系统16可在一些情况下基于扩音器信息产生音频呈现器22中的一者,而不首先尝试选择音频呈现器22中的现有一者。
音频播放系统16还包含用户接口单元6,所述用户接口单元表示用户7可借以与音频播放系统16介接(以图形方式经由遥控器、经由基于文本及/或语音的接口等等)的单元。用户接口单元6可呈现借以控制扩音器馈入25及单独音频内容扩音器馈入203的音量的各种方法。用户7可输入用于静音、解除静音及/或增加或减小扩音器馈入203的音量的命令,所述扩音器馈入不同于从HOA系数11'呈现的扩音器馈入25。此外,用户接口单元6可呈现与单独音频信道201(其可为指代单独音频内容201的另一方式)相关联的元数据。元数据可在单独音频信道201本身中指定。用户接口单元6可呈现元数据以及在识别单独音频信道201时有关的描述解说员/现场广播员的语言、类型、名称等的任何其它信息。在提供两个或更多单独音频信道201的情况下,用户接口单元6可针对信道201中的每一者指定此信息以促进不同信道201之间的用户选择,从而单独地使这些信道201中的每一者静音或解除静音,或增加或减小这些信道201中的每一者的音量。此外,用户接口单元6可使用户能够选择单独音频信道将混合到的物理扬声器。
用户接口单元6可在接收用户输入之后与混合器8介接,使得混合器8可适当地将单独扩音器信道203与从HOA系数11'呈现的扩音器馈入25混合。以此方式,所述技术可促进对单独扩音器信道203的更精细用户控制。
换句话说,如由广播员所列举,具有单独的专用音频信道的潜在优点中的一者是其可向收听者提供的灵活性,因为能够潜在灵活地且交互式地减小音量及/或选择使用的解说语言。这些额外解说“对象”的提供通常需要额外的带宽。
由本发明中所描述的技术的各种方面提供的解决方案可允许额外信道嵌入HOA或SH信道内。一般不会出于上文所提及的原因需要额外的带宽,因为这些SH/HOA信道可作为在新的MPEG-H标准中所提出的SH/HOA译码方案的一部分进行译码及发射。所述技术可使音频编码装置能够将这些对象声音插入到由SH/HOA系数表示的声场描述中,所述对象声音通常表示背景或环境信息。存在执行此的三个示范性方法:
1)将对象声音插入到存在空间“孔”的声场的区域中。这需要编码器处的声场分析且可能地发射对象所处“位置”的仰角/方位角;
2)将对象声音插入到声场的“任何”部分中且依赖于解码器分离能够准确地提取物体声音的不同/前景对象(使用例如SVD的源分离算法或其它方式)。还可通过发送关于音频对象从编码器插入的位置的一些信息来辅助此;及
3)将孔强加到声场中,其结果将不会施加任何不利的感知影响。音频对象将放置于这些空间孔内。编码器将(例如)通过将“元数据”发送到解码器而指示产生这些孔的位置。
图3A-3C是更详细地说明可执行本发明中所描述的技术的各种方面的图2的实例中所展示的音频编码装置20的实例的框图。在图3A的实例中,音频编码装置20A包含内容分析单元26、基于向量的分解单元27及基于方向的分解单元28。尽管下文简要描述,但关于音频编码装置20A及压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSEDREPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11表示从实况记录产生的内容还是从音频对象产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧式HOA系数11从记录中产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当帧式HOA系数11从合成音频对象中产生时,内容分析单元26将HOA系数11传递到基于方向的合成单元28。基于方向的合成单元28可表示经配置以执行对HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如在图3A的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、心理声学音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、空间-时间内插单元50、量化单元52及插入单元234。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2
LIT单元30可表示经配置以执行被称作奇异值分解的分析形式的单元。虽然相对于SVD描述,但可相对于提供若干组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的技术。此外,在本发明中对“集合”的参考一般希望指代“非零”集合(除非特定地相反陈述),且并不希望指代包含所谓的“空集合”的集合的经典数学定义。替代变换可包括常常被称作“PCA”的主分量分析。取决于上下文,PCA可由若干不同名称指代,例如离散卡亨南-洛维变换、霍特林变换、恰当正交分解(POD)及本征值分解(EVD),仅举几例。有利于压缩音频数据的基本目标的此种操作的特性为多信道音频数据的“能量压缩”及“去相关”。
在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其再次可被称作“SVD”),LIT单元30可将HOA系数11变换成两组或更多组经变换HOA系数。经变换HOA系数的“集合”可包含经变换HOA系数的向量。在图3A的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多信道音频数据的右奇异向量。
在一些实例中,以上提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假定HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,尽管在本发明中表示为V矩阵,但对V矩阵的提及应理解为在适当的情况下指V矩阵的转置。尽管假定为V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述技术不应限于仅提供SVD的应用以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:M x(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本)及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为XPS(k),而V[k]矩阵中的个别向量也可被称为v(k)。
U、S及V矩阵的分析可显示,这些矩阵携载或表示上文由X表示的基本声场的空间及时间特征。U(长度为M个样本)中的N个向量中的每一者可表示依据时间(对于由M个样本表示的时间周期)的正规化的分离音频信号,其彼此正交且已与任何空间特征(其也可被称作方向信息)解耦。表示空间形状及位置的空间特征可替代地由V矩阵中的个别第i向量v(i)(k)(每一者具有长度(N+1)2)表示。v(i)(k)向量中的每一者的个别元素可表示HOA系数,其描述相关联音频对象的声场的形状(包含宽度)及位置。U矩阵及V矩阵中的向量均经正规化而使得其均方根能量等于单位。U中的音频信号的能量因而由S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因而表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特征(V中)解耦的能力可支持本发明中所描述的技术的各个方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的模型给出贯穿此文献使用的术语“基于向量的分解”。
尽管描述为直接相对于HOA系数11执行,但LIT单元30可将线性可逆变换应用到HOA系数11的导出项。举例来说,LIT单元30可相对于从HOA系数11导出的功率谱密度矩阵应用SVD。通过相对于HOA系数的功率谱密度(PSD)而非系数本身执行SVD,LIT单元30可在处理器循环及存储空间的一或多者方面可能地降低执行SVD的计算复杂性,同时实现相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向特性参数及能量特性(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可相对于US[k]向量33执行能量分析及/或相关(或所谓的交叉相关)以识别这些参数。参数计算单元32还可确定先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、r[k-1]及e[k-1]。参数计算单元32可将当前参数37及先前参数39输出到重排序单元34。
由参数计算单元32计算的参数可供重排序单元34用以将音频对象重排序以表示其自然评估或随时间推移的连续性。重排序单元34可将来自转向方向的第一US[k]向量33的参数37中的每一者与第二US[k-1]向量33的参数39中的每一者相比较。重排序单元34可基于当前参数37及先前参数39对US[k]矩阵33及V[k]矩阵35内的各种向量重排序(作为一个实例,使用Hungarian算法)以输出经重排序的US[k]矩阵33'(其可数学表示为)及经重排序的V[k]矩阵35'(其可数学表示为)至前景声音(或突出的声音-PS)选择单元36(“前景选择单元36”)及能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便潜在地实现目标位速率41的单元。声场分析单元44可基于该分析及/或所接收的目标位速率41确定心理声学译码器实例化的总数目(其可为环境或背景信道的总数目(BGTOT)及前景信道或换句话说占优势信道的数目的函数)。心理声学译码器实例化的总数目可表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景信道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHOAorder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHOAorder+1)2),及要发送的额外BG HOA信道的索引(i)(其在图3A的实例中可共同地表示为背景信道信息43)。背景信道信息42也可被称作环境信道信息43。保持来自numHOATransportChannels-nBGa的信道中的每一者可为“额外背景/环境信道”、“活跃的基于向量的占优势信道”、“活跃的基于方向的占优势信号”或“完全非活跃”。在一个方面中,可通过两个位将信道类型指示为(如“ChannelType”)语法元素:(例如,00:基于方向的信号;01:基于向量的占优势信号;10:额外环境信号;11:非活跃信号)。可由(MinAmbHOAorder+1)2+呈现为用于所述帧的位流中的信道类型的索引10(在以上实例中)的倍数给出背景或环境信号的总数目nBGa。
声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目及前景(或换句话说,占优势)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景及/或前景信道。在一个方面中,在位流的标头部分中,numHOATransportChannels可设定为8,而MinAmbHOAorder可设定为1。在此情形中,在每个帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,通过用作额外背景/环境信道或前景/占优势信道。前景/占优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,用于帧的基于向量的占优势信号的总数目可通过所述帧的位流中的ChannelType索引01的倍数给出。在上述方面中,对于每个额外背景/环境信道(例如,对应于ChannelType 10),可在所述信道中表示可能的HOA系数中的哪一者的对应信息(超出前四)。对于四阶HOA内容,所述信息可为指示HOA系数5至25的索引。可在minAmbHOAorder设定为1时始终发送前四个环境HOA系数1至4;因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5至25中的一者。因而可使用5位语法元素(对于四阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。在任何情况下,声场分析单元44将背景信道信息43及HOA系数11输出到背景(BG)选择单元36,将背景信道信息43输出到系数减少单元46及位流产生单元42,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)及要发送的额外BG HOA信道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于1时,背景选择单元48可选择具有等于或小于1的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位产生单元42以便使得音频解码装置(例如,图2及4的实例中所展示的音频解码装置24)能够从位流21解析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境HOA系数47中的每一者对应于待由心理声学音频译码器单元40编码的单独环境HOA信道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或不同分量的经重排序的US[k]矩阵33'及经重排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,…,nFG49、FG1,…,nfG[k]49,或49)输出到心理声学音频译码器单元40,其中nFG信号49可具有维度D:M×nFG,且每一者表示单声道音频对象。前景选择单元36还可将对应于声场的前景分量的经重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中经重排序的V[k]矩阵35'中的对应于前景分量的子集可表示为具有维度D:((N+1)2×nFG)的前景V[k]矩阵51k(其可在数学上表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可相对于经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于所述能量分析执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到插入单元234。
插入单元234表示经配置以根据本发明中所描述的技术的各种方面将单独音频信道201插入到经能量补偿的环境系数47'中以便产生经扩增环境HOA系数205的单元。
如上所述,插入单元234可表示经配置以将单独(从与由HOA系数11描述的音频内容不同的音频内容的角度)音频信道插入到经能量补偿的环境HOA系数47'中且由此产生经扩增环境HOA系数205的单元插入单元234可插入此单独音频信道201,而不增加经分配以表示经能量补偿的环境HOA系数47'的位的量(或仅对所述量具有可忽略的影响)。换句话说,用于表示经能量补偿的环境HOA系数47'的位数目可与用于表示经扩增HOA系数205的位数目大致(如果不恰好)相同。插入单元234可选择声场中的空间位置,其中音频内容通常不呈现或具有用于描述声场的较大重要性并且将单独音频信道201插入这些空间位置中,由此用单独音频信道201替换声场的此方面。在一些情况下,这些空间位置可为声场的顶部及/或底部。
在一些实例中,此单独音频信道201可表示全向音频内容,所述全向音频内容是指几乎不具有方向性内容的音频内容,例如通过播音员或现场广播员的解说或任何其它重叠音频内容(用于播发等)。在一些实例中,此单独音频信道201可提供英语解说、对话或不同于由HOA系数11表示的声场的其它音频内容,因此终端用户可禁用或以其它方式调整由音频信道201提供的解说的音量,所述音量独立于从HOA系数11呈现的音频信道的音量。在一些实例中,插入单元234可将两个或多于两个单独音频信道201插入到经能量补偿的环境HOA系数47'中,其中两个或多于两个单独音频信道201可各自以不同语言提供解说、对话或其它音频内容。同样地,在一些实例中,插入单元234可将两个或多于两个单独音频信道201插入到经能量补偿的环境HOA系数47'中,其中两个或多于两个单独音频信道201可各自从不同现场广播员或其它解说员提供解说、对话或其它音频内容。
尽管展示为插入单个单独音频信道201,但是插入单元234可将任何数目的音频信道201插入到经能量补偿的环境HOA系数47'中,在这个程度上,经能量补偿的环境HOA系数47'的部分允许此音频信道201插入。为了说明,假定经能量补偿的环境HOA系数47'的阶数是1,这意味着存在四个HOA信道(一个用于对应于零阶、零子阶基底函数的系数;一个用于对应于一阶、-1子阶基底函数的系数;一个用于对应于一阶、0子阶基底函数的系数;及一个用于对应于一阶、+1子阶基底函数的系数)。在这个假定下,声场的一阶表示可提供用于定位单独音频信道201的六个空间位置(一个处于球体的顶部(其为声场的一般形状);一个处于球体的底部;及四个沿着二等分球体的水平面放置)。
在此一阶表示中,在多个终端用户不具有足以准确地播放在这些顶部及底部位置处的音频的3D音频扬声器设定的条件下,插入单元234将这些音频信道201插入球体的顶部及底部处。对于高阶表示,额外位置可用且取决于位流21的目标位速率。额外位置可用于可提供用于经能量补偿的环境HOA系数47'的高阶(意指高于一阶)表示的较高目标位速率。
在任何情况下,因为此单独音频信道201不具有太多特定方向性,但为全向重叠音频内容,所以插入单元234可将此内容插入由经能量补偿的环境HOA系数47'描述的声场的任何空间位置中,且至少在此实例中无需保留声场的方向性。以此方式,插入单元234可将单独音频信道201插入到由经能量补偿的环境HOA系数47'描述的声场中,而不增加经分配以表示经能量补偿的环境HOA系数47'的位的量(或仅对所述量具有可忽略的影响)。
为了插入单独音频信道201,插入单元234可将经能量补偿的环境HOA系数47'从球谐域变换到空间域(作为一个实例,使用密集T-设计矩阵)。插入单元234可经配置以将单独音频信道201插入到经变换经能量补偿的环境HOA系数47'内的特定空间位置(例如,底部空间位置)中,以产生经扩增经变换的环境系数。插入单元234接着可将经扩增经变换的环境HOA系数反向从空间域变换到球谐域,以产生经扩增环境HOA系数205。以此方式,插入单元234可将单独音频信道201插入到经能量补偿的环境HOA系数47'中,以产生经扩增环境HOA系数205。插入单元234接着可将经扩增环境HOA系数205输出到心理声学音频译码器单元40。
空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及先前帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重排序的前景HOA系数。空间-时间内插单元50可接着将经重排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50还可输出用于产生经内插的前景V[k]向量的前景V[k]向量51k,使得例如音频解码装置24等音频解码装置可产生经内插的前景V[k]向量且借此恢复前景V[k]向量51k。将用于产生经内插的前景V[k]向量的前景V[k]向量51k表示为其余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以创建经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化版本。空间-时间内插单元50可将经内插的nFG信号49'输出到心理声学音频译码器单元46且将经内插的前景V[k]向量51k输出到系数减少单元46。
系数减少单元46可表示经配置以基于背景信道信息43相对于其余前景V[k]向量53执行系数减少以将减少的前景V[k]向量55输出到量化单元52的单元。减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。系数减少单元46可在这方面中表示经配置以减少其余前景V[k]向量53中的系数数目的单元。换句话说,系数减少单元46可表示经配置以消除(形成其余前景V[k]向量53的)前景V[k]向量中的具有极少至不具有方向信息的系数的单元。
在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶及零阶基底函数的系数(其可表示为NBG)提供极少方向信息,且因此可从前景V向量移除(经由可被称作“系数减少”的过程)。在这些实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA信道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化以压缩减少的前景V[k]向量55以产生经译码前景V[k]向量57,从而将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作时,在此实例中,量化单元52可表示经配置以压缩声场的空间组件(即,减小的前景V[k]向量55中的一或多者)的单元。量化单元52可执行如通过表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一者:
量化单元52还可执行前述类型的量化模式中的任一者的预测版本,其中确定先前帧的V-向量的元素(或执行向量量化时的权数)与当前帧的V-向量的元素(或执行向量量化时的权数)之间的差。量化单元52可接着将当前帧与先前帧的元素或权数之间的差而非当前帧本身的V-向量的元素的值量化。
量化单元52可相对于减少的前景V[k]向量55中的每一者执行多种形式的量化,以获得减少的前景V[k]向量55的多个经译码版本。量化单元52可选择减少的前景V[k]向量55的经译码版本中的一者作为经译码前景V[k]向量57。换句话说,量化单元52可基于本发明中论述的标准的任何组合选择未经预测的经向量量化的V-向量、经预测的经向量量化的V-向量、未经霍夫曼译码的经标量量化的V-向量及经霍夫曼译码的经标量量化的V-向量中的一者,以用作经输出变换量化的V-向量。
在一些实例中,量化单元52可从包含向量量化模式及一或多个标量量化模式的一组量化模式中选择量化模式,且基于(或根据)所述选定模式量化输入V-向量。量化单元52可接着将以下各者中的选定者提供到位流产生单元52以用作经译码前景V[k]向量57:未经预测的经向量量化的V-向量(例如,就权数值或指示权数值的位而言)、经预测的经向量量化的V-向量(例如,就误差值或指示误差值的位而言)、未经霍夫曼译码的经标量量化的V-向量及经霍夫曼译码的经标量量化的V-向量。量化单元52还可提供指示量化模式的语法元素(例如,NbitsQ语法元素)及用于将V-向量解量化或以其它方式重构V-向量的任何其它语法元素。
包含在音频编码装置20A内的心理声学音频译码器单元40可表示心理声学音频译码器的多个例子,其每一者用于对经扩增环境HOA系数205中的每一者的不同音频对象或HOA信道及经内插的nFG信号49'进行编码以产生经编码环境HOA系数59及经编码nFG信号61。心理声学音频译码器单元40可将经编码环境HOA系数59及经编码nFG信号61输出到位流产生单元42。
包含在音频编码装置20A内的位流产生单元42表示将数据格式化以符合已知格式(其可指代解码装置已知的格式)借此产生基于向量的位流21的单元。换句话说,位流21可表示以上文所描述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61及背景信道信息43。位流产生单元42可接着基于经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61及背景信道信息43产生位流21。以此方式,位流产生单元42可由此在位流21中指定向量57以获得如下文关于图7的实例更详细描述的位流21。位流21可包含主要或主位流及一或多个旁侧信道位流。
尽管在图3A的实例中未展示,但音频编码装置20A还可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成进行编码而切换从音频编码装置20A输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为检测到HOA系数11是从合成音频对象产生的结果)还是执行基于向量的合成(作为检测到HOA系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应一者的切换或当前编码。
此外,如上文所提及,声场分析单元44可识别BGTOT环境HOA系数47,所述BGTOT环境HOA系数可逐帧改变(但时常BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在减少的前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致背景HOA系数(其也可被称作“环境HOA系数”),所述背景HOA系数逐帧改变(但再次,时常BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。所述改变常常导致声场的各方面的能量改变,所述声场通过额外环境HOA系数的添加或移除及系数从减少的前景V[k]向量55的对应移除或系数至减少的前景V[k]向量55的添加表示。
因此,声场分析单元44可进一步确定环境HOA系数何时从帧至帧改变且产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量而言)(其中所述改变也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。具体而言,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,使得可将所述旗标包含在位流21中(有可能作为旁侧信道信息的一部分)。
除指定环境系数转变旗标之外,系数减少单元46也可修改产生减少的前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一者在当前帧期间处于转变中时,系数减少单元46可指定用于减少的前景V[k]向量55的V-向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。同样,处于转变中的环境HOA系数可添加至背景系数的BGTOT总数目或从背景系数的BGTOT总数目中移除。因此,背景系数的总数目的所得改变影响环境HOA系数是否包含于位流中,及在上文所描述的第二及第三配置模式中是否针对位流中所指定的V-向量包含V-向量的对应元素。关于系数减少单元46可如何指定减少的前景V[k]向量55以克服能量的改变的更多信息提供于2015年1月12日申请的标题为“环境HIGHER_ORDER立体混响系数的转变(TRANSITIONING OFAMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
在图3B的实例中,音频编码装置20B类似于图3A的实例中展示的音频编码装置20A,不同之处在于,音频编码装置20B的插入单元234也接收V[k]向量35且执行V[k]向量35的分析,以识别将单独音频信道201插入到经能量补偿的环境HOA系数47'中的空间位置。在一些实例中,并非使用全部V[k]向量35,插入单元234可接收减少的V[k]向量55且执行减小的V[k]向量55的分析,以便识别将插入单独音频信道201的空间位置。以此方式,插入单元234可分析声场的高阶立体混响表示的基于向量的分解的一部分,以识别声场内的空间位置并且将音频信道插入所识别的空间位置处。
在图3C的实例中,音频编码装置20C类似于在图3A及3B的实例中展示的音频编码装置20A及20B,不同之处在于,插入单元234执行声场的分析以识别插入单独音频信道201的空间位置,例如,类似于上文相对于音频编码装置20B所描述。在一些实例中,插入单元234可识别发生空间掩蔽(其中在一个位置处的响亮声音掩蔽在邻近位置或接近于响亮声音位置的位置处发生的任何声音)或同时掩蔽(其中通过使噪声或不需要的声音的持续时间与原始声音相同而使声音听不见)的位置。在发生空间掩蔽、同时掩蔽或其它形式的掩蔽的这些位置处,插入单元234可插入单独音频信道201。因为这些形式的掩蔽可在声场中的不同位置中发生,所以插入单元234可产生识别插入单独音频信道201的空间位置的插入信息207。插入单元234可将插入信息207提供到位流产生单元42,所述位流产生单元可指定位流21中的插入信息207。
在一些实例中,插入单元234可获得识别已插入单独音频信道201的空间位置的V-向量(例如,借助于上文相对于图3B的实例所描述的分析)。插入单元234可将此V-向量作为插入信息207提供到位流产生单元42,使得位流产生单元42可在位流21中指定与单独音频信道201相关联的V-向量。换句话说,由插入信息207指定的空间位置可包括V-向量。与针对前景(或换句话说,占优势)音频对象在位流21中指定的V-向量不同,包括V-向量的插入信息207可指定经扩增环境HOA系数的V-向量。以此方式,音频解码装置24可不需要执行类似于音频编码装置20C的分析以识别单独音频信道201在经扩增环境HOA系数中的位置。
当声场中不存在掩蔽时,插入单元234可分析声场以识别声场中可插入单独音频信道201的任何“孔”(其可指代不存在相对突出信息),其可类似于上文所描述的通过音频编码装置20B执行的分析。插入单元234可几乎执行任何形式的分析以识别这些孔并且接着将单独音频信道201插入到这些孔中。在这些孔可在声场内移动的条件下,插入单元234可产生插入信息207并且将此插入信息207提供到位流产生单元42,所述位流产生单元可在位流21中指定此插入信息207。
尽管在图3A-3C的实例中未展示,但是位流产生单元42可插入描述单独音频信道201的额外元数据或其它信息。此元数据可就内容、语言、解说员名字或描述单独音频信道201的类型、语言、解说员名称或其它特征的其它数据方面识别对应音频信道201。
换句话说,插入单元234可将经能量补偿的环境HOA系数47'(其可表示为SHORIG(n,m,t),其中n表示对应球面基底函数的阶数,m表示对应球面基底函数的子阶数且t表示时间)投射到3D空间中(例如,通过与T-设计矩阵相乘)以产生经变换的经能量补偿的环境HOA系数47'(其可表示为压力P(θ,φ))。
图5A-5C是说明在执行本发明中所描述的插入技术的各种方面时插入单元234的示范性操作的图。插入单元234可接收SHORIG(n,m,t)1000且将这些SHORIG(n,m,t)1000投射到3D空间中以产生P(θ,φ)1002(1004),其可类似于图5A-5C的实例中展示的图表1006。
如在图5A的图表1006A中所展示,插入单元234可分析图表1006中所展示的声场以在给定声活动的区域1010A及1010B的条件下识别四个区域/孔1008A-1008D(具有通过θ11223344识别的相应位置)。插入单元234接着可通过执行以下操作将多至四个音频对象定位到此空间中:
1)如下计算这些音频对象ai(t)中的每一者的SHi
SH i ( n , m , t ) = a i ( t ) Y n m ( θ i , φ i ) ;
2)
3)发送(如在图3C的实例中所展示)插入信息207作为旁侧信道信息,其可指定四个θii的集合。
在一些实例中,旁侧信道信息可指定插入信息207以有助于解码装置24A-24C执行SVD以提取四个添加的音频对象。也就是说,插入单元234可将音频对象插入到声场中,例如并且经由旁侧信道信息发送其中插入对象的四个θii的集合。随后,解码装置24B或24C可执行SVD(或任何其它形式的源分离,例如包含特征值分解(EVD)、主成分分析(PCA)、KLT变换及其类似者的上文描述的那些)以提取音频对象,这还可通过接收识别插入添加的音频信道的位置的四个θii的集合来辅助。
在图5B的实例中,插入单元234可获得单独音频信道1012且执行由图表1006B表示的声场的扩增,从而将单独音频信道1012插入到区域1008D中。在图5C的实例中展示扩增的结果。声场的经扩增HOA表示由图表1006C表示,其中在扩增之后,扩增HOA表示以包含空间位置θ44处的单独音频信道1012。空间位置θ44可表示位置信息207的一个实例。
如上所述,插入单元234还可在声场中形成孔并且以上文所描述的方式添加音频信道。插入单元234可执行如下操作:
1)执行环境HOA系数的位置分析;
2)基于位置分析确定哪些位置或区域可被“清空”,而不产生感知影响(作为一个实例,这些位置或区域可为由相邻高能量区域测量到的“低能量”区域或通常不呈现的底部(举例来说,由于在底部或下半球中缺乏扩音器));及
3)将这些区域清零以形成孔1008A-1008D。
以下过程在图6中展示,图6是说明区域形成及插入过程的此方面的示范性操作的流程图。插入单元234可接收SHORIG(n,m,t)1000且将SHORIG(n,m,t)1000投射到3D空间(1020)中以产生(θ,φ)1002。插入单元234接着可执行位置分析以识别空间的非突出区域1008A-1008D并将其清零且由此产生PADJ(θ,φ)1012(1022)。插入单元234接着可将PADJ(θ,φ)1012转换回球谐域(例如,经由T-设计矩阵)以产生SHADJ(n,m,t)1014(1024)。插入单元234接着可将表示为SHi(n,m,t)1015的音频对象添加到SHADJ(n,m,t)1014以根据上文提及的数学公式产生SHNEW(n,m,t)(1026)。
以此方式,所述技术的各种方面使音频编码装置20A-20C(“音频编码装置20”)能够获得不同于声场的高阶立体混响表示的音频信道并且将音频信道插入声场内的空间位置处,使得音频信道能够从声场提取。
在这些及其它实例中,空间位置位于声场的底部处。
在这些及其它实例中,空间位置位于声场的顶部处。
在这些及其它实例中,音频编码装置20经配置以分析声场以识别声场内受空间掩蔽影响的空间位置,并且将音频信道插入所识别的空间位置处。
在这些及其它实例中,声场的高阶立体混响表示包括描述声场的多个高阶立体混响系数,并且音频编码装置20经配置以将多个高阶立体混响系数从球谐域变换到空间域,以便获得声场的空间域表示,并且将音频信道插入声场的空间域表示内的空间位置处。
在这些及其它实例中,声场的高阶立体混响表示包括描述声场的多个高阶立体混响系数,并且音频编码装置20经配置以将多个高阶立体混响系数从球谐域变换到空间域,以便获得声场的空间域表示,将音频信道插入声场的空间域表示内的空间位置处以获得声场的经扩增空间域表示且将声场的经扩增空间域表示从空间域变换回球谐域以获得声场的经扩增高阶立体混响表示。
在这些及其它实例中,音频编码装置20进一步经配置以在包含声场的高阶立体混响表示的位流中指定插入音频信道的空间位置。
在这些及其它实例中,音频编码装置20经配置以在包含声场的高阶立体混响表示的位流中指定描述音频信道的信息。
在这些及其它实例中,描述音频信道的信息包括识别现场广播员的信息。
在这些及其它实例中,描述音频信道的信息包括识别说出存在于音频信道中的解说所用的语言的信息。
在这些及其它实例中,描述音频信道的信息包括识别存在于音频信道中的内容的类型的信息。
在这些及其它实例中,音频信道包括来自现场广播员的音频信道。
在这些及其它实例中,音频信道包括通过非广播员获得的音频信道。
在这些及其它实例中,音频信道包括以非英语语言提供解说的非英语音频信道。
在这些及其它实例中,音频信道包括以英语语言提供解说的英语音频信道。
在这些及其它实例中,声场的高阶立体混响表示包括描述声场的环境分量的多个高阶立体混响系数。
在这些及其它实例中,音频编码装置830经配置以分析声场的高阶立体混响表示的基于向量的分解的一部分以识别声场内的空间位置并且将音频信道插入所识别空间位置处。
在这些及其它实例中,装置包括手持机。在这些及其它实例中,装置包括平板计算机。在这些及其它实例中,装置包括智能手机。
图4A-4C是更详细地说明图2的音频解码装置24的不同实例的框图。如在图4A的实例中所展示,音频解码装置24A可包含提取单元72、基于方向的重构单元90及基于向量的重构单元92。尽管下文进行描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
在图4A中,提取单元72可表示经配置以接收位流21且提取HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可确定指示HOA系数11是经由各种基于方向的版本还是基于向量的版本编码的语法元素。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4A的实例中表示为基于方向的信息91),从而将所述基于方向的信息91传递到基于方向的重构单元90。基于方向的重构单元90可表示经配置以基于所述基于方向的信息91重构呈HOA系数11'的形式的HOA系数的单元。
当语法元素指示HOA系数11使用基于向量的合成进行编码时,提取单元72可提取经译码前景V[k]向量57(其可包含经译码权数57及/或码向量63或经标量量化的V-向量的索引)、经编码环境HOA系数59及对应音频对象61(其也可被称作经编码nFG信号61)。音频对象61各自对应于向量57中的一者。提取单元72可将经译码前景V[k]向量57传递至V-向量重构单元74,且将经编码环境HOA系数59以及经编码nFG信号61提供到心理声学解码单元80。
V-向量重构单元74可表示经配置以从经编码前景V[k]向量57重构V-向量的单元。V-向量重构单元74可以与量化单元52互逆的方式操作。
心理声学解码单元80可以与图3A的实例中所展示的心理声学音频译码器单元40互逆的方式操作以便对经编码环境HOA系数59及经编码nFG信号61进行解码且由此产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。心理声学解码单元80可将经能量补偿的环境HOA系数47'传递到音频信道提取单元282且将nFG信号49'传递到前景制订单元78。
音频信道提取单元282接收经扩增环境HOA系数205且从隐含已知的(在此上下文中,意指配置的)空间位置(例如,底部位置或顶部位置)提取单独音频信道201。为了提取单独音频信道201,音频信道提取单元282可将经扩增环境HOA系数205从球谐域变换到空间域以产生将变换的经扩增环境HOA系数205。音频信道提取单元282可从经变换的经扩增环境HOA系数205的隐含已知的空间位置提取单独音频信道201,从而产生经变换的经能量补偿的环境HOA系数47'。音频信道提取单元282可将经变换的经能量补偿的环境HOA系数47'反向从空间域变换到球谐域。音频信道提取单元282可将经能量补偿的环境HOA系数47'转发到淡化单元770。
空间-时间内插单元76可以类似于上文相对于空间-时间内插单元50所描述方式的方式操作。空间-时间内插单元76可接收减少的前景V[k]向量55k且相对于前景V[k]向量55k及减少的前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量55k″。空间-时间内插单元76可将经内插的前景V[k]向量55k″转发到淡化单元770。
提取单元72还可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元可接着确定SHCBG 47'(其中SHCBG 47'还可表示为“环境HOA信道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k″的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'及经内插的前景V[k]向量55k″的元素中的每一者相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时相对于经内插的前景V[k]向量55k″的元素中的对应一个元素执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47″输出到HOA系数制订单元82且将经调整的前景V[k]向量55k″'输出到前景制订单元78。在这方面中,淡化单元770表示经配置以相对于HOA系数或其衍生物的各种方面执行淡化操作的单元,例如,采用环境HOA系数47'及经内插的前景V[k]向量55k″的元素的形式。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k″'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。在这方面中,前景制订单元78可组合音频对象49'(其为借以表示经内插的nFG信号49'的另一种方式)与向量55k″'以重构HOA系数11'的前景(或换句话说,优势)方面。前景制订单元78可执行经内插的nFG信号49'乘以经调整的前景V[k]向量55k″'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境HOA系数47″以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于HOA系数11但与HOA系数11不相同。HOA系数11与11'之间的差可起因于由于有损发射媒体上的发射、量化或其它有损操作而产生的损失。
在图4B的实例中,音频解码装置24B的音频信道提取单元282可接收经扩增环境HOA系数205及经内插的前景V[k]向量55k″两者。在此实例中,音频信道提取单元282可分析经内插的前景V[k]向量55k″以识别插入单独音频信道201的空间位置。在此实例中,音频信道提取单元282可从经扩增环境HOA系数205提取单独音频信道201。在针对涉及隐含的空间位置及HOA系数11的基于向量的分解的一部分的分析的前述两个实例,未在位流21中指定额外信息以识别插入单独音频信道201的空间位置的条件下,前述两个实例与涉及插入信息207的以下实例相比可促进包含单独音频信道201的HOA系数11的更有效译码。
在图4C的实例中,音频解码装置24C的提取单元282可在已通过提取单元72从位流21进行解析之后接收插入信息207。基于此插入信息207,音频信道提取单元282可识别插入单独音频信道201的空间位置。音频信道提取单元282可通过上文所描述的方式从空间位置提取此单独音频信道201。尽管在位流21中包含插入信息207与不包含此插入信息207的位流21相比不会产生最紧凑的位流,但是此信息207的包含可使音频信道提取单元282能够更有效地(就处理循环而言)识别空间位置,同时还允许将此插入未隐含地已知的位置中的灵活性。如上所述,插入信息207可包含V-向量而不是方位角及仰角。同样如上所述,V-向量可识别单独音频信道205在经扩增环境HOA系数中的空间位置。
图7是说明在执行本发明中描述的技术的各种方面时图2的音频解码装置的示范性操作的流程图。音频信道提取单元282可经由上文相对于图4A-4C的实例描述的方式中的一或多者获得单独音频信道201在经扩增环境HOA系数205中的特定位置207(1050)。音频解码装置20的音频信道提取单元282可接收经扩增环境HOA系数205,其可表示为SHNEW(θ,φ)1016。音频信道提取单元282可通过将经扩增环境HOA系数205投射到3D空间中而将经扩增环境HOA系数205从球谐域变换到空间域(1052)。变换经扩增环境HOA系数205的结果是产生经变换的经扩增环境HOA系数205,其可表示为PADJ(θ,φ)1012。
音频信道提取单元282可从经变换的经扩增环境HOA系数205的空间位置207提取单独音频信道201(1054),从而产生经变换的经能量补偿的环境HOA系数47'(在图7的实例中表示为P(θ,φ)(1002))。音频信道提取单元282可将额外音频信道207传递到音频呈现器22。额外音频信道207还可表示为SHi(θ,φ)1015。音频信道提取单元282可将经变换的经能量补偿的环境HOA系数47'反向从空间域变换到球谐域(1056),从而输出原始经能量补偿的环境HOA系数47'。经能量补偿的环境HOA系数47'还可表示为SHORIG(n,m,t)1000。
图8A-8C是说明根据本发明中所描述的技术的音频对象可插入的声场1100的图。图8A的实例说明三维形式的声场1100,其具有指示较高分贝(dB)水平的白色色彩、指示相对较低dB水平的较暗黑色区域及随灰阶朝向白色的减小指示增加的压力区域的变化灰阶。换句话说,在图8A的实例中所展示的声场1100表示代表在假定最有效点处投射到球体上的声场1100的HOA系数。亮/白色区域可表示其中声场1100的压力较高的区域,而暗/黑色区域表示其中声场1100的压力相对较低的区域。图8B的实例以二维形式展示同一声场1100的上半部。
通过插入单元234对声场1100的分析可识别在[45,30]、[180,60]及[300,45]的方位角、仰角处的三个突出或占优势音频区域1102A-1102C。插入单元234可识别出三个突出或占优势音频区域1102A-1102C中的一或多者被掩蔽或可以其它方式清零。插入单元234可通过上文所描述的方式将单独音频信道插入到这些区域1102A-1102C中的一者中或识别为具有极少至不具有突出音频信息的另一区域(例如,完全或接近完全黑色的区域)中。
为了说明,插入单元234可分析声场1100且将突出音频区域1102C识别为由突出音频区域1102B掩蔽。插入单元234可将经能量补偿的经扩增HOA系数47'从球谐域变换到空间域。尽管在图3A-3B的实例中未展示,但是插入单元234可相对于环境HOA系数47而不是经能量补偿的环境HOA系数47'执行分析及本文中所描述的其它操作。
在任何情况下,插入单元234可清零或以其它方式清除突出音频区域1102C且将单独音频信道201插入音频区域1102C的位置处。插入单元234可在执行插入后获得经扩增环境HOA系数205。在获得经扩增环境HOA系数205之后,插入单元234可将经扩增环境系数205从空间域变换到球谐域。在一些实例中,插入单元205可执行经扩增环境HOA系数205的基于向量的分析(例如,SVD、EVD、PCA、KLT等)以识别与单独音频信道205相关联的V-向量。插入单元234可将V-向量提供到位流产生单元42作为插入信息207的至少一部分。位流产生单元42可指定位流42中的包括V-向量的插入信息207。
或者,声场1100可表示声场1100从经扩增环境HOA系数205的呈现。考虑到声场1100的表示表示经扩增环境HOA系数205的呈现,突出音频对象1102A-1102C可各自表示已插入到经能量补偿的环境HOA系数47'中的单独音频信道201。
图8C的实例提供包含三个突出音频区域1102A-1102C以及对应V-向量1104A-1104C的描述的声场1100的另一三维视图。V-向量1104A-1104C各自针对HOA系数11的时间(例如,帧)的持续时间识别突出音频区域1102A-1102C的方向、形状、宽度及体积。实际上,V-向量1104A-1104C可各自表示突出音频信息的空间-时间袋。这些袋中的一或多者可被清零以形成非突出音频信息的空间-时间袋,所述空间-时间袋可在时间的持续时间内用单独音频信道201填充。
从音频解码装置24的角度,音频信道提取单元282可接收经扩增环境HOA系数205及任何随附的插入信息207且执行互逆过程以提取单独音频信道201。为了说明,音频信道提取单元282可将经扩增环境HOA系数205从球谐域变换到空间域。音频信道提取单元282接着可从隐含配置的位置(例如,由经扩增环境HOA系数205表示的声场的顶部或底部)、明确导出的位置(例如,通过执行经扩增环境HOA系数205的基于向量的分析)或通过如至少部分由插入信息207指定的发信号通知位置提取单独音频信道205。
当插入信息207包括V-向量时,音频信道提取单元282可利用V-向量来识别插入单独音频信道201的空间位置(例如,其可指定上述空间-时间袋)。在一些情况下,V-向量可对应于已被清零且替代地用于指定单独音频信道201的突出音频区域1102A-1102C中的一者。音频信道提取单元282可输出将通过音频呈现器22中的一者呈现的单独音频信道201。在一些实例中,音频信道提取单元282输出单独音频信道201,而不提供V-向量。因此,可不利用对应V-向量呈现单独音频信道201。
此外,音频信道提取单元282不利用对应于单独音频信道201的V-向量来制订单独音频信道201的HOA表示。在单独音频信道201表示全向音频内容的条件下,对应于单独音频信道201的V-向量不会准确地反映单独音频信道201的实际位置、形状及宽度。替代地,对应于单独音频信道201的V-向量识别单独音频信道201已插入到由经扩增环境HOA系数205表示的声场中的位置的位置、形状及宽度,但不用于重新制订单独音频信道201的HOA表示或呈现单独音频信道201。音频播放系统16可单独地呈现单独音频信道201以产生扬声器馈入203,音频播放系统16使用混合器8将所述扬声器馈入混合到从经重新制订的HOA系数11'呈现的扬声器馈入25。
以此方式,所述技术的各种方面可使音频解码装置24A-24C(“音频解码装置24”)能够获得声场的经扩增高阶立体混响表示(包含不同于声场的音频信道),并且从声场的经扩增高阶立体混响表示内的空间位置提取音频信道。
在这些及其它实例中,空间位置位于声场的底部处。
在这些及其它实例中,空间位置位于声场的顶部处。
在这些及其它实例中,音频解码装置24经配置以执行声场的基于向量的分析以识别声场内的空间位置并且从所识别空间位置提取音频信道。
在这些及其它实例中,声场的经扩增高阶立体混响表示包括描述声场的多个高阶立体混响系数,并且音频解码装置经配置以将多个高阶立体混响系数从球谐域变换到空间域,以便获得声场的经扩增空间域表示并且从声场的经扩增空间域表示内的空间位置提取音频信道。
在这些及其它实例中,声场的经扩增高阶立体混响表示包括描述声场的多个高阶立体混响系数,并且音频解码装置880经配置以将多个高阶立体混响系数从球谐域变换到空间域,以便获得声场的经扩增空间域表示、从声场的经扩增空间域表示内的空间位置提取音频信道以获得声场的空间域表示,并且将声场的空间域表示从空间域变换回球谐域以获得声场的高阶立体混响表示。
在这些及其它实例中,音频解码装置24进一步经配置以从包含声场的经扩增高阶立体混响表示的位流中确定插入音频信道的空间位置。
在这些及其它实例中,音频解码装置24进一步经配置以从包含声场的经扩增高阶立体混响表示的位流中确定描述音频信道的信息。
在这些及其它实例中,描述音频信道的信息包括识别现场广播员的信息。
在这些及其它实例中,描述音频信道的信息包括识别说出存在于音频信道中的解说所用的语言的信息。
在这些及其它实例中,描述音频信道的信息包括识别存在于音频信道中的内容的类型的信息。
在这些及其它实例中,音频信道包括来自现场广播员的音频信道。
在这些及其它实例中,音频信道包括通过非广播员获得的音频信道。
在这些及其它实例中,音频信道包括以非英语语言提供解说的非英语音频信道。
在这些及其它实例中,音频信道包括以英语语言提供解说的英语音频信道。
在这些及其它实例中,声场的高阶立体混响表示包括描述声场的环境分量的多个高阶立体混响系数。
在这些及其它实例中,装置包括手持机。
在这些及其它实例中,装置包括平板计算机。
在这些及其它实例中,装置包括智能手机。
可相对于任何数目个不同情形及音频生态系统执行前述技术。下文描述多个实例情形,但所述技术不应限于所述实例情形。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频系统、游戏音频编码/呈现引擎及传递系统。
电影工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于信道的音频内容(例如,呈2.0及5.1)。在任一情况下,译码引擎可基于一或多个编解码器(例如,AAC、AC3、Dolby True HD、Dolby Digital Plus及DTS Master Audio)接收并编码基于信道的音频内容以供传递系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频符尾。游戏音频译码/呈现引擎可译码音频符尾及或将音频符尾呈现成基于信道的音频内容以供传递系统输出。可执行所述技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上捕获、HOA音频格式、装置上呈现、消费型音频、TV及附件及汽车音频系统。
广播记录音频对象、专业音频系统及消费型装置上捕获都可使用HOA音频格式对其输出进行译码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上呈现、消费型音频、TV及附件及汽车音频系统播放所述单一表示。换句话说,可在通用音频播放系统(即,与需要例如5.1、7.1等的特定配置相比)(例如,音频播放系统16)处播放音频内容的单一表示。
可执行所述技术的情形的其它实例包含可包含获取元件及播放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如,Eigen麦克风)、装置上环绕声捕获及移动装置(例如,智能电话及平板计算机)。在一些实例中,有线及/或无线获取装置可经由有线及/或无线通信信道耦合到移动装置。
根据本发明的一或多个技术,移动装置可用于获取声场。举例来说,移动装置可经由有线及/或无线获取装置及/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由播放元件中的一或多者播放。举例来说,移动装置的用户可记录实况事件(例如,集会、会议、比赛、音乐会等)(获取实况事件的声场),且将记录译码至HOA系数中。
移动装置还可利用播放元件中的一或多者来播放经HOA译码声场。举例来说,移动装置可对经HOA译码的声场进行解码,且将致使播放元件中的一或多者重新产生声场的信号输出到播放元件中的一或多者。作为一个实例,移动装置可利用无线及/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出到一或多个对接站及/或一或多个对接扬声器(例如,智能汽车及/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机呈现将信号输出到一组头戴式耳机(例如)以产生实际的立体声声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间播放同一3D声场。在一些实例中,移动装置可获取3D声场,将3D声场编码为HOA且将经编码3D声场发射到一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于播放。
可执行所述技术的又一情形包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、呈现引擎及传递系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,一或多个DAW可包含可经配置以与一或多个游戏音频系统一起操作(例如,工作)的HOA插件及/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码音频内容输出到呈现引擎,所述呈现引擎可呈现声场以供传递系统播放。
也可相对于示范性音频获取装置执行所述技术。举例来说,可相对于可包含共同地经配置以记录3D声场的多个麦克风的Eigen麦克风执行所述技术。在一些实例中,Eigen麦克风的多个麦克风可位于具有大约4cm的半径的实质上球面球的表面上。在一些实例中,音频编码装置20A可集成到Eigen麦克风中以便直接从麦克风输出位流21。
另一示范性音频获取情形可包含可经配置以从一或多个麦克风(例如,一或多个Eigen麦克风)接收信号的制作车。制作车还可包含音频编码器,例如图2的音频编码器20。
在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换句话说,多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图2的音频编码器20。
加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,Eigen麦克风可附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式,附件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与附件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频播放装置。根据本发明的一或多个技术,扬声器及/或声棒在播放3D声场时可布置于任何任意配置中。此外,在一些实例中,头戴式耳机播放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒及头戴式耳机播放装置的任何组合上呈现声场。
多个不同实例音频播放环境还可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器播放环境、2.0(例如,立体声)扬声器播放环境、具有全高前扩音器的9.1扬声器播放环境、22.2扬声器播放环境、16.0扬声器播放环境、汽车扬声器播放环境,及具有耳机播放环境的移动装置。
根据本发明的一或多个技术,可利用声场的单一通用表示来在前述播放环境中的任一者上呈现声场。另外,本发明的技术使得呈现器能够从通用表示呈现声场以供在除上文所描述的环境之外的播放环境上播放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器播放环境的恰当放置(例如,如果不可能放置右环绕扬声器),那么本发明的技术使得呈现器能够以其它6个扬声器进行补偿,使得可在6.1扬声器播放环境上实现播放。
此外,用户可在佩戴头戴式耳机时观看运动比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个Eigen麦克风放置于棒球场中及/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数发射到解码器,所述解码器可基于HOA系数重构3D声场且将经重构3D声场输出到呈现器,并且所述呈现器可获得关于播放环境的类型(例如,头戴式耳机)的指示,且将经重构3D声场呈现成致使头戴式耳机输出运动比赛的3D声场的表示的信号。
在上述各种实例中的每一者中,应理解,音频编码装置20可执行方法,或另外包括执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,这些装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行音频编码装置20已经配置以执行的方法。在其它情况下,处理器可实质上为基于硬件的处理器且不是通用处理器。
在一或多个实例中,所描述的功能可在硬件、软件、固件或其任何组合中实施。如果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个计算机或一个或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或另外包括用于执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行音频解码装置24已经配置以执行的方法。
借助于实例而非限制性地,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用于存储指令或数据结构形式的期望程序代码并且可由计算机存取的任何其它媒体。然而,应理解,所述计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可在经配置用于编码及解码的专用硬件及/或软件模块内提供,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中所描述各种组件、模块或单元是为了强调经配置以执行所揭示技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了所述技术的各种方面。所述技术的这些及其它方面在所附权利要求书的范围内。

Claims (30)

1.一种装置,其包括:
一或多个处理器,其经配置以获得声场的经扩增高阶立体混响表示,所述经扩增高阶立体混响表示包含与所述声场分开的音频信道,并且从所述声场的所述经扩增高阶立体混响表示内的空间位置提取音频信道;及
存储器,其经配置以存储所述音频信道。
2.根据权利要求1所述的装置,其中所述空间位置位于所述声场的底部或所述声场的顶部中的一者处。
3.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以基于所述声场的基于向量的分析而识别所述声场内的所述空间位置。
4.根据权利要求1所述的装置,
其中所述声场的所述经扩增高阶立体混响表示包括描述所述声场的多个高阶立体混响系数,及
其中所述一或多个处理器经配置以将所述多个高阶立体混响系数从球谐域变换到空间域,以便获得所述声场的经扩增空间域表示并且从所述声场的所述经扩增空间域表示内的所述空间位置提取所述音频信道。
5.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以从包含所述声场的所述经扩增高阶立体混响表示的位流中获得插入所述音频信道的所述空间位置。
6.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以从包含所述声场的所述经扩增高阶立体混响表示的位流中获得描述所述音频信道的信息。
7.根据权利要求6所述的装置,其中描述所述音频信道的所述信息包括识别广播员的信息、识别说出存在于所述音频信道中的解说所用的语言的信息或识别存在于所述音频信道中的内容的类型的信息中的一者。
8.根据权利要求1所述的装置,其中所述单独音频信道包括来自广播员的音频信道、通过非广播员获得的音频信道、以非英语语言提供解说的非英语音频信道及以英语语言提供解说的英语音频信道中的一者。
9.根据权利要求1所述的装置,其中所述声场的所述高阶立体混响表示包括描述所述声场的环境分量的多个高阶立体混响系数。
10.一种方法,其包括:
获得声场的经扩增高阶立体混响表示,所述经扩增高阶立体混响表示包含与所述声场分开的音频信道;及
从所述声场的所述经扩增高阶立体混响表示内的空间位置提取音频信道。
11.根据权利要求10所述的方法,其中所述空间位置位于所述声场的底部或所述声场的顶部中的一者处。
12.根据权利要求10所述的方法,其进一步包括基于所述声场的所述经扩增高阶立体混响表示的基于向量的分析而识别所述声场内的所述空间位置。
13.根据权利要求10所述的方法,
其中所述声场的所述经扩增高阶立体混响表示包括描述所述声场的多个高阶立体混响系数,及
其中提取所述音频信道包括:
将所述多个高阶立体混响系数从球谐域变换到空间域,以便获得所述声场的经扩增空间域表示;及
从所述声场的所述经扩增空间域表示内的所述空间位置提取所述音频信道。
14.根据权利要求10所述的方法,其进一步包括从包含所述声场的所述经扩增高阶立体混响表示的位流中获得指示插入所述音频信道的所述空间位置的插入信息,其中所述插入信息包括识别插入所述音频信道的所述空间位置的V-向量。
15.根据权利要求10所述的方法,其进一步包括从包含所述声场的所述经扩增高阶立体混响表示的位流中获得描述所述音频信道的信息。
16.根据权利要求15所述的方法,其中描述所述音频信道的所述信息包括识别现场广播员的信息、识别说出存在于所述音频信道中的解说所用的语言的信息或识别存在于所述音频信道中的内容的类型的信息中的一者。
17.根据权利要求10所述的方法,其中所述单独音频信道包括来自现场广播员的音频信道、通过非广播员获得的音频信道、以非英语语言提供解说的非英语音频信道及以英语语言提供解说的英语音频信道中的一者。
18.根据权利要求10所述的方法,其中所述声场的所述高阶立体混响表示包括描述所述声场的环境分量的多个高阶立体混响系数。
19.一种装置,其包括:
存储器,其经配置以存储声场的高阶立体混响表示;及
一或多个处理器,其经配置以获得与所述声场的所述高阶立体混响表示分开的音频信道,并且将所述音频信道插入所述声场内的空间位置处,使得所述音频信道能够从所述声场提取。
20.根据权利要求19所述的装置,其中所述空间位置位于所述声场的底部或所述声场的顶部中的一者处。
21.根据权利要求19所述的装置,
其中所述一或多个处理器经配置以分析所述声场以识别所述声场内受掩蔽影响的所述空间位置,并且将所述音频信道插入所述所识别空间位置处,及
其中所述一或多个处理器进一步经配置以在包含所述声场的所述高阶立体混响表示的位流中指定插入所述音频信道的所述空间位置。
22.根据权利要求19所述的装置,
其中所述声场的所述高阶立体混响表示包括描述所述声场的多个高阶立体混响系数,及
其中所述一或多个处理器经配置以将所述多个高阶立体混响系数从球谐域变换到空间域,以便获得所述声场的空间域表示、将所述音频信道插入所述声场的所述空间域表示内的所述空间位置处以获得所述声场的经扩增空间域表示并且将所述声场的所述经扩增空间域表示从所述空间域变换回所述球谐域以获得所述声场的经扩增高阶立体混响表示。
23.根据权利要求19所述的装置,其中所述一或多个处理器进一步经配置以在包含所述声场的所述高阶立体混响表示的位流中指定插入所述音频信道的所述空间位置。
24.根据权利要求19所述的装置,其中所述一或多个处理器经配置以分析所述声场以识别所述声场内的非突出区域、将所述所识别非突出区域清零且将所述音频信道插入所述所识别非突出区域处。
25.一种方法,其包括:
获得与声场的高阶立体混响表示分开的音频信道;及
将所述音频信道插入所述声场内的空间位置处,使得所述音频信道能够从所述声场提取。
26.根据权利要求25所述的方法,其中所述空间位置位于所述声场的底部或所述声场的顶部中的一者处。
27.根据权利要求25所述的方法,其中插入所述音频信道包括:
分析所述声场以识别所述声场内受掩蔽影响的所述空间位置;及
将所述音频信道插入所述所识别空间位置处。
28.根据权利要求25所述的方法,
其中所述声场的所述高阶立体混响表示包括描述所述声场的多个高阶立体混响系数,及
其中插入所述音频信道包括:
将所述多个高阶立体混响系数从球谐域变换到空间域,以便获得所述声场的空间域表示;
将所述音频信道插入所述声场的所述空间域表示内的所述空间位置处,以获得所述声场的经扩增空间域表示;及
将所述声场的所述经扩增空间域表示从所述空间域变换回所述球谐域,以获得所述声场的经扩增高阶立体混响表示。
29.根据权利要求25所述的方法,其进一步包括在包含所述声场的所述高阶立体混响表示的位流中指定指示插入所述音频信道的所述空间位置的插入信息,其中所述插入信息包括识别插入所述音频信道的所述空间位置的V-向量。
30.根据权利要求25所述的方法,其中插入所述音频信道包括:
分析所述声场以识别所述声场内的非突出区域、将所述所识别非突出区域清零;及
将所述音频信道插入所述所识别非突出区域处,且
其中所述方法进一步包括在包含所述声场的所述高阶立体混响表示的位流中指定插入所述音频信道的所述空间位置。
CN201580014712.1A 2014-03-21 2015-03-20 将音频信道插入到声场的描述中 Active CN106104680B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201461969011P 2014-03-21 2014-03-21
US61/969,011 2014-03-21
US201461969586P 2014-03-24 2014-03-24
US61/969,586 2014-03-24
US14/663,225 US10412522B2 (en) 2014-03-21 2015-03-19 Inserting audio channels into descriptions of soundfields
US14/663,225 2015-03-19
PCT/US2015/021806 WO2015143355A1 (en) 2014-03-21 2015-03-20 Inserting audio channels into descriptions of soundfields

Publications (2)

Publication Number Publication Date
CN106104680A true CN106104680A (zh) 2016-11-09
CN106104680B CN106104680B (zh) 2019-08-23

Family

ID=54143370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580014712.1A Active CN106104680B (zh) 2014-03-21 2015-03-20 将音频信道插入到声场的描述中

Country Status (6)

Country Link
US (1) US10412522B2 (zh)
EP (1) EP3120351A1 (zh)
JP (1) JP2017513053A (zh)
KR (1) KR20160136361A (zh)
CN (1) CN106104680B (zh)
WO (1) WO2015143355A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111149155A (zh) * 2017-07-14 2020-05-12 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述或经修改的声场描述的概念
CN111183479A (zh) * 2017-07-14 2020-05-19 弗劳恩霍夫应用研究促进协会 使用多层描述生成经增强的声场描述或经修改的声场描述的概念

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US9736606B2 (en) 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
AU2016269886B2 (en) * 2015-06-02 2020-11-12 Sony Corporation Transmission device, transmission method, media processing device, media processing method, and reception device
EP3209036A1 (en) 2016-02-19 2017-08-23 Thomson Licensing Method, computer readable storage medium, and apparatus for determining a target sound scene at a target position from two or more source sound scenes
US11164606B2 (en) 2017-06-30 2021-11-02 Qualcomm Incorporated Audio-driven viewport selection
US10986456B2 (en) * 2017-10-05 2021-04-20 Qualcomm Incorporated Spatial relation coding using virtual higher order ambisonic coefficients
GB2575492A (en) * 2018-07-12 2020-01-15 Centricam Tech Limited An ambisonic microphone apparatus
CA3122168C (en) 2018-12-07 2023-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using direct component compensation
US11122386B2 (en) * 2019-06-20 2021-09-14 Qualcomm Incorporated Audio rendering for low frequency effects
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US20210006976A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering
US11743670B2 (en) * 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
WO2013171083A1 (en) * 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation
WO2014013070A1 (en) * 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
US20130003998A1 (en) 2010-02-26 2013-01-03 Nokia Corporation Modifying Spatial Image of a Plurality of Audio Signals
CN102823277B (zh) * 2010-03-26 2015-07-15 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
TWI603632B (zh) 2011-07-01 2017-10-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
GB201211512D0 (en) * 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
WO2014035864A1 (en) 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
WO2013171083A1 (en) * 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation
WO2014013070A1 (en) * 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111149155A (zh) * 2017-07-14 2020-05-12 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述或经修改的声场描述的概念
CN111183479A (zh) * 2017-07-14 2020-05-19 弗劳恩霍夫应用研究促进协会 使用多层描述生成经增强的声场描述或经修改的声场描述的概念
CN111149155B (zh) * 2017-07-14 2023-10-10 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述的装置及方法
CN111183479B (zh) * 2017-07-14 2023-11-17 弗劳恩霍夫应用研究促进协会 使用多层描述生成经增强的声场描述的装置及方法
US11863962B2 (en) 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11950085B2 (en) 2017-07-14 2024-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description

Also Published As

Publication number Publication date
US20150271621A1 (en) 2015-09-24
EP3120351A1 (en) 2017-01-25
KR20160136361A (ko) 2016-11-29
CN106104680B (zh) 2019-08-23
US10412522B2 (en) 2019-09-10
JP2017513053A (ja) 2017-05-25
WO2015143355A1 (en) 2015-09-24

Similar Documents

Publication Publication Date Title
CN106104680B (zh) 将音频信道插入到声场的描述中
CN106415714B (zh) 译码环境高阶立体混响系数的独立帧
CN105325015B (zh) 经旋转高阶立体混响的双耳化
CN106575506A (zh) 高阶立体混响音频数据的中间压缩
CN107004420B (zh) 高阶立体混响声(hoa)架构中于预测及非预测量化技术间切换
KR101962000B1 (ko) 고차 앰비소닉 (hoa) 백그라운드 채널들 간의 상관의 감소
CN106797527B (zh) Hoa内容的显示屏相关调适
CN106463127A (zh) 译码从高阶立体混响音频信号分解的向量
CN106471577B (zh) 在高阶立体混响系数中的标量与向量之间进行确定
KR102092774B1 (ko) 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들
KR102053508B1 (ko) 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 채널들의 시그널링
CN105580072A (zh) 用于声场的空间分量的压缩的量化步长
CN106796794A (zh) 环境高阶立体混响音频数据的归一化
CN106463121A (zh) 较高阶立体混响信号压缩
CN106471576B (zh) 高阶立体混响系数的闭环量化
CN106463129A (zh) 选择码簿以用于译码从高阶立体混响音频信号分解的向量
CN108141695A (zh) 高阶立体混响(hoa)内容的屏幕相关适应
CN106415712B (zh) 用于渲染高阶立体混响系数的装置和方法
CN106471578A (zh) 较高阶立体混响信号之间的交叉淡化
CN108141690A (zh) 在多个转变期间译码高阶立体混响系数
CN106465029B (zh) 用于渲染高阶立体混响系数及产生位流的装置和方法
CN105340008A (zh) 声场的经分解表示的压缩
TWI827687B (zh) 音訊資料之靈活渲染

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant