CN105940447A - 环境高阶立体混响系数的转变 - Google Patents

环境高阶立体混响系数的转变 Download PDF

Info

Publication number
CN105940447A
CN105940447A CN201580005993.4A CN201580005993A CN105940447A CN 105940447 A CN105940447 A CN 105940447A CN 201580005993 A CN201580005993 A CN 201580005993A CN 105940447 A CN105940447 A CN 105940447A
Authority
CN
China
Prior art keywords
vector
frame
coefficient
environment high
order ambiophony
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580005993.4A
Other languages
English (en)
Other versions
CN105940447B (zh
Inventor
N·G·彼得斯
D·森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105940447A publication Critical patent/CN105940447A/zh
Application granted granted Critical
Publication of CN105940447B publication Critical patent/CN105940447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

一般来说,本发明描述用于转变环境高阶立体混响系数的技术。包括存储器及处理器的装置可经配置以执行所述技术。所述处理器可从经编码音频数据的位流的帧获得指示经缩减向量的位。所述经缩减向量可至少部分表示声场的空间分量。所述处理器也可从所述帧获得指示环境高阶立体混响系数的转变的位。所述环境高阶立体混响系数可至少部分表示所述声场的环境分量。所述经缩减向量可包含与在转变中的所述环境高阶立体混响系数相关联的向量元素。所述存储器可经配置以存储所述位流的所述帧。

Description

环境高阶立体混响系数的转变
本申请案主张以下各美国临时申请案的权利:
2014年1月30日申请的标题为“声场的经分解表示的压缩(COMPRESSION OFDECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第61/933,706号美国临时申请案;
2014年1月30日申请的标题为“声场的经分解表示的压缩(COMPRESSION OFDECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第61/933,714号美国临时申请案;
2014年3月7日申请的标题为“用于球谐系数的立即播出帧(IMMEDIATE PLAY-OUTFRAME FOR SPHERICAL HARMONIC COEFFICIENTS)”的第61/949,591号美国临时申请案;
2014年3月7日申请的标题为“声场的经分解表示的淡入/淡出(FADE-IN/FADE-OUTOF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第61/949,583号美国临时申请案;
2014年5月28日申请的标题为“用于球谐系数的立即播出帧及声场的经分解表示的淡入/淡出(IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS ANDFADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第62/004,067号美国临时申请案;及
2014年7月25日申请的标题为“用于球谐系数的立即播出帧及声场的经分解表示的淡入/淡出(IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS ANDFADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第62/029,173号美国临时申请案,
前述所列各美国临时申请案中的每一者以引用的方式并入本文中,如同在其相应全文中所阐述般。
技术领域
本发明涉及音频数据,且更具体来说,涉及高阶立体混响音频数据的压缩。
背景技术
高阶立体混响(HOA)信号(常由多个球谐系数(SHC)或其它阶层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以重放从SHC信号呈现的多信道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可促进向后兼容性,因为可将SHC信号呈现为众所周知的且被广泛采用的多信道格式(例如,5.1音频信道格式或7.1音频信道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,描述压缩高阶立体混响音频数据的技术。高阶立体混响音频数据可包括对应于具有大于一的阶数的球谐基底函数的至少一个球谐系数。
在一方面,一种生成经编码音频数据的位流的方法包括在编码器中确定环境高阶立体混响系数在帧期间何时进行转变,所述环境高阶立体混响系数至少部分表示声场的环境分量。所述方法进一步包括在编码器中识别与在转变中的环境高阶立体混响系数相关联的向量的元素,所述向量至少部分表示声场的空间分量。所述方法还包括在编码器中且基于向量产生经缩减向量以包含用于帧的向量的经识别元素,且在编码器中在位流中指定经缩减向量及在帧期间环境高阶立体混响系数的转变的指示。
在另一方面,音频编码装置经配置以生成经编码音频数据的位流。音频编码装置包括经配置以存储经编码音频数据的位流的存储器,及经配置以确定环境高阶立体混响系数在帧期间何时进行转变的一或多个处理器。环境高阶立体混响系数至少部分表示声场的环境分量。一或多个处理器经进一步配置以识别与在转变中的环境高阶立体混响系数相关联的向量的元素。向量至少部分表示声场的空间分量。一或多个处理器还经配置以基于向量而产生经缩减向量以包含用于帧的向量的经识别元素,且在位流中指定经缩减向量及在帧期间环境高阶立体混响系数的转变的指示。
在另一方面,音频编码装置经配置以生成经编码音频数据的位流。音频编码装置包括用于确定环境高阶立体混响系数在表示经编码音频数据的位流的帧期间何时进行转变的装置,所述环境高阶立体混响系数至少部分表示声场的环境分量。音频译码装置进一步包括用于识别与在转变中的环境高阶立体混响系数相关联的向量的元素的装置,所述向量至少部分表示声场的空间分量。音频译码装置还包括用于基于向量而产生经缩减向量以包含用于帧的向量的经识别元素的装置,及用于在位流中指定经缩减向量及在帧期间环境高阶立体混响系数的转变的指示的装置。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有若干指令,所述指令在执行时使得音频编码装置的一或多个处理器确定环境高阶立体混响系数在帧期间何时进行转变,所述环境高阶立体混响系数至少部分表示声场的环境分量。指令可进一步使得一或多个处理器识别与在转变中的环境高阶立体混响系数相关联的向量的元素,所述向量至少部分表示声场的空间分量。指令也可使得一或多个处理器基于向量产生经缩减向量以包含用于帧的向量的经识别元素,且指定经缩减向量及在帧期间环境高阶立体混响系数的转变的指示。
在另一方面,一种解码经编码音频数据的位流的方法包括在解码器中及从位流的帧中获得经缩减向量,该经缩减向量至少部分表示声场的空间分量。所述方法还包括在解码器中及从帧中获得环境高阶立体混响系数的转变的指示,所述环境高阶立体混响系数至少部分表示声场的环境分量。经缩减向量包含与在转变中的环境高阶立体混响系数相关联的向量元素。
在另一方面,音频解码装置经配置以解码经编码音频数据的位流。音频解码装置包括经配置以存储经编码音频数据的位流的帧的存储器,及经配置以从帧获得至少部分表示声场的空间分量的经缩减向量的一或多个处理器。一或多个处理器可经进一步配置以从帧获得环境高阶立体混响系数的转变的指示,所述环境高阶立体混响系数至少部分表示声场的环境分量。经缩减向量包含与在转变中的环境高阶立体混响系数相关联的向量元素。
在另一方面,音频解码装置经配置以解码经编码音频数据的位流。音频解码装置包括用于存储经编码音频数据的位流的帧的装置,及用于从帧获得至少部分表示声场的空间分量的经缩减向量的装置。音频解码装置进一步包括用于从帧获得环境高阶立体混响系数的转变的指示的装置,所述环境高阶立体混响系数至少部分表示声场的环境分量。经缩减向量包含与在转变中的环境高阶立体混响系数相关联的向量元素。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有若干指令,所述指令在执行时使得音频解码装置的一或多个处理器从经编码音频数据的位流的帧获得经缩减向量,所述经缩减向量至少部分表示声场的空间分量。所述指令进一步使得一或多个处理器从帧获得环境高阶立体混响系数的转变的指示,所述环境高阶立体混响系数至少部分表示声场的环境分量。经缩减向量包含与在转变中的环境高阶立体混响系数相关联的向量元素。
在附图及以下描述中阐述所述技术的一或多个方面的细节。这些技术的其它特征、目标及优点将从所述描述及图式以及所附权利要求书中显而易见。
附图说明
图1为说明具有各种阶数及子阶数的球谐基底函数的图。
图2为说明可执行本发明中所描述的技术的各种方面的系统的图。
图3为更详细说明可执行本发明中描述的技术的各种方面的图2的实例中所示的音频编码装置的一个实例的框图。
图4为更详细说明图2的音频解码装置的框图。
图5A为说明音频编码装置执行本发明中所描述的基于向量的合成技术的各种方面的示范性操作的流程图。
图5B为说明音频编码装置执行本发明中所描述的转变技术的各种方面的示范性操作的流程图。
图6A为说明音频解码装置执行本发明中描述的技术的各种方面的示范性操作的流程图。
图6B为说明音频解码装置执行本发明中所描述的转变技术的各种方面的示范性操作的流程图。
图7A到7J为更详细地说明可指定经压缩空间分量的位流或旁侧信道信息的一部分的图。
图8为说明音频解码装置可将本发明中所描述的技术应用于的音频信道的图。
图9为说明额外环境HOA系数的淡出、相异分量的对应经重建构贡献的淡入及HOA系数与经重建构贡献之和的图。
具体实施方式
环绕声的演化现今已使得许多输出格式可用于娱乐。此些消费型环绕声格式的实例大部分为“声道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含风行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰度电视标准使用)。非消费型格式可横跨任何数目个扬声器(成对称及非对称几何布置),其常常被称为“环绕阵列”。此类阵列的一实例包含定位于截顶二十面体(truncated icosohedron)的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入视情况为以下三种可能格式中的一者:(i)传统的基于声道的音频(如上文所论述),其意欲经由处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单一音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球谐基底函数的系数(也被称为“球谐系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。所述未来MPEG编码器可能更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的标题为“要求针对3D音频的提议(Call for Proposals for 3DAudio)”的文件中,所述文件于2013年1月在瑞士日内瓦发布,且可在http:// mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/ w13411.zip获得。
在市场中存在各种基于“环绕声”声道的格式。举例来说,其范围从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到由日本广播协会或日本广播公司(NHK)开发的22.2系统。内容建立者(例如,好莱坞工作室)将希望产生影片的音轨一次,而不花费精力来针对每一扬声器配置对其进行重混(remix)。近年来,标准开发组织一直在考虑如下方式:将编码及后续解码(其可为调适的且不知晓重放位置(涉及呈现器)处的扬声器几何布置(及数目)及声学条件)提供到标准化位流中。
为了向内容建立者提供此类灵活性,可使用一组阶层元素来表示声场。所述组阶层元素可指其中元素经排序而使得一组基本低阶元素提供经模型化声场的完整表示的一组元素。当将所述组扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
一组阶层元素的一实例为一组球谐系数(SHC)。以下表达式示范使用SHC进行的对声场的描述或表示:
所述表达式展示:在时间t在声场的任何点处的压力pi可独特地通过SHC来表示。此处,c为音速(~343m/s),为参考点(或观测点),jn(·)为n阶球面贝塞尔函数,且为n阶及m子阶球谐基底函数。可认识到,方括号中的术语为可通过各种时间-频率变换来近似的信号的频域表示(即,),所述变换例如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。阶层组的其它实例包含数组小波变换系数及其它数组多分辨率基底函数系数。
图1为说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可见,对于每一阶来说,存在m子阶的扩展,出于易于说明的目的,在图1的实例中展示了所述子阶但未明确地提及。
可通过各种麦克风阵列配置在物理上获取(例如,记录)SHC或替代地,可从声场的基于声道或基于对象的描述导出SHC。SHC表示基于场景的音频,其中可将SHC输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效率的传输或存储。举例来说,可使用涉及(1+4)2(25,且因此为四阶)系数的四阶表示。
如上文所提及,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M.的“基于球谐的三维环绕声系统(Three-DimensionalSurround Sound Systems Based on Spherical Harmonics)”(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004到1025页)中。
为了说明可如何从基于对象的描述导出SHC,考虑以下等式。可将对应于个别音频对象的声场的系数表达为:
其中i为为n阶球面汉克尔函数(第二种类),且为对象的位置。知道依据频率的对象源能量g(ω)(例如,使用时间-频率分析技术,例如,对PCM流执行快速傅立叶变换)允许我们将每一PCM对象及对应位置转换成SHC另外,可展示(因为上述情形为线性及正交分解)每一对象的系数为加成性的。以此方式,可通过系数表示众多PCM对象(例如,作为用于个别对象的系数向量的总和)。基本上,所述系数含有关于声场的信息(依据3D坐标的压力),且上述情形表示在观测点附近从个别对象到整个声场的表示的变换。下文在基于对象及基于SHC的音频译码的上下文中描述剩余诸图。
图2为说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所展示,系统10包含内容建立者装置12及内容消费者装置14。虽然在内容建立者装置12及内容消费者装置14的上下文中加以描述,但可在声场的SHC(其也可被称作HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容建立者装置12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话或桌上型计算机(提供几个实例)。同样地,内容消费者装置14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或桌上型计算机(提供几个实例)。
内容建立者装置12可由影片工作室或可产生多信道音频内容以供内容消费者的操作者(例如,内容消费者装置14)消耗的其它实体来操作。在一些实例中,内容建立者装置12可由将希望压缩HOA系数11的个别用户操作。常常,内容建立者产生音频内容连同视频内容。内容消费者装置14可由个体来操作。内容消费者装置14可包含音频重放系统16,其可指能够呈现SHC以供作为多信道音频内容重放的任何形式的音频重放系统。
内容建立者装置12包含音频编辑系统18。内容建立者装置12获得呈各种格式(包含直接作为HOA系数)的现场记录7及音频对象9,内容建立者装置12可使用音频编辑系统18对现场记录7及音频对象9进行编辑。内容建立者可在编辑过程期间从音频对象9呈现HOA系数11,从而在识别声场的需要进一步编辑的各种方面的尝试中倾听所呈现的扬声器馈入。内容建立者装置12可接着编辑HOA系数11(可能经由操纵可供以上文所描述的方式导出源HOA系数的音频对象9中的不同者间接地编辑)。内容建立者装置12可使用音频编辑系统18产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。
当编辑过程完成时,内容建立者装置12可基于HOA系数11产生位流21。即,内容建立者装置12包含音频编码装置20,所述音频编码装置20表示经配置以根据本发明中所描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供传输,作为一实例,跨越传输信道(其可为有线或无线信道、数据存储装置或其类似者)。位流21可表示HOA系数11的经编码版本,且可包含主要位流及另一旁侧位流(其可被称作旁侧信道信息)。
尽管下文更详细地加以描述,但音频编码装置20可经配置以基于基于向量的合成或基于方向的合成编码HOA系数11。为了确定是执行基于向量的分解方法还是执行基于方向的分解方法,音频编码装置20可至少部分基于HOA系数11确定HOA系数11是经由声场的自然记录(例如,现场记录7)产生还是从(作为一实例)例如PCM对象的音频对象9人工地(即,合成地)产生。当HOA系数11是从音频物体9产生时,音频编码装置20可使用基于方向的分解方法编码HOA系数11。当HOA系数11是使用(例如,eigenmike)现场地俘获时,音频编码装置20可基于基于向量的分解方法编码HOA系数11。上述区别表示可部署基于向量或基于方向的分解方法的一实例。可能存在其它状况:其中所述分解方法中的任一者或两者可用于自然记录、人工产生的内容或两种内容的混合(混合内容)。此外,也有可能同时使用两种方法用于译码HOA系数的单一时间框。
出于说明的目的假定:音频编码装置20确定HOA系数11是现场地俘获或以其它方式表示现场记录(例如,现场记录7),音频编码装置20可经配置以使用涉及线性可逆变换(LIT)的应用的基于向量的分解方法编码HOA系数11。线性可逆变换的一实例被称作“奇异值分解”(或“SVD”)。在此实例中,音频编码装置20可将SVD应用于HOA系数11以确定HOA系数11的经分解版本。音频编码装置20可接着分析HOA系数11的经分解版本以识别可促进进行HOA系数11的经分解版本的重新排序的各种参数。音频编码装置20可接着基于所识别的参数将HOA系数11的经分解版本重新排序,其中如下文进一步详细描述,在给定以下情形的情况下,此重新排序可改进译码效率:变换可将HOA系数跨越HOA系数的帧重新排序(其中帧可包含HOA系数11的M个样本且在一些实例中,M经设定为1024)。在将HOA系数11的经分解版本重新排序之后,音频编码装置20可选择表示声场的前景(或,换句话说,特异的、占优势的或突出的)分量的HOA系数11的经分解版本。音频编码装置20可将表示前景分量的HOA系数11的经分解版本指定为音频对象及相关联方向信息。
音频编码装置20也可关于HOA系数11执行声场分析以便至少部分地识别表示声场的一或多个背景(或,换句话说,环境)分量的HOA系数11。音频编码装置20可在给定以下情形的情况下关于背景分量执行能量补偿:在一些实例中,背景分量可能仅包含HOA系数11的任何给定样本的一子集(例如,例如对应于零阶及一阶球面基底函数的HOA系数11,而非对应于二阶或高阶球面基底函数的HOA系数11)。换句话说,当执行降阶时,音频编码装置20可扩增(例如,添加能量/减去能量)HOA系数11中的剩余背景HOA系数以补偿由于执行降阶而导致的总体能量的改变。
音频编码装置20接下来可关于表示背景分量及前景音频对象中的每一者的HOA系数11中的每一者执行一种形式的音质编码(例如,MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的音质编码)。音频编码装置20可关于前景方向信息执行一种形式的内插,且接着关于经内插前景方向信息执行降阶以产生经降阶的前景方向信息。在一些实例中,音频编码装置20可进一步关于经降阶的前景方向信息执行量化,从而输出经译码前景方向信息。在一些情况下,量化可包括纯量/熵量化。音频编码装置20可接着形成位流21以包含经编码背景分量、经编码前景音频对象及经量化的方向信息。音频编码装置20可接着传输或以其它方式将位流21输出到内容消费者装置14。
虽然在图2中经展示为直接传输到内容消费者装置14,但内容建立者装置12可将位流21输出到定位于内容建立者装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网页服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。所述中间装置可驻留于能够将位流21流式传输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
替代地,内容建立者装置12可将位流21存储到存储媒体,例如压缩光盘、数字多功能光盘、高清晰度视频光盘或其它存储媒体,其中的大部分能够由计算机读取且因此可被称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输信道可指借以传输存储到所述媒体的内容的那些信道(且可包含零售商店及其它基于商店的递送机构)。在任何情况下,本发明的技术因此就此而言不应限于图2的实例。
如图2的实例中进一步展示,内容消费者装置14包含音频重放系统16。音频重放系统16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含数个不同呈现器22。呈现器22可各自提供不同形式的呈现,其中不同形式的呈现可包含执行基于向量的振幅移动(VBAP)的各种方式中的一或多者及/或执行声场合成的各种方式中的一或多者。如本文所使用,“A及/或B”意谓“A或B”,或“A及B”两者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11,但归因于经由传输信道的有损操作(例如,量化)及/或传输而有所不同。即,音频解码装置24可将位流21中所指定的前景方向信息解量化,同时还关于位流21中所指定的前景音频对象及表示背景分量的经编码HOA系数执行音质解码。音频解码装置24可进一步关于经解码前景方向信息执行内插,且接着基于经解码前景音频对象及经内插前景方向信息确定表示前景分量的HOA系数。音频解码装置24可接着基于表示前景分量的所确定的HOA系数及表示背景分量的经解码HOA系数确定HOA系数11'。
音频重放系统16可在解码位流21之后获得HOA系数11'且呈现HOA系数11'以输出扩音器馈入25。扩音器馈入25可驱动一或多个扩音器(其出于易于说明的目的而未在图2的实例中加以展示)。
为了选择适当呈现器或在一些情况下产生适当呈现器,音频重放系统16可获得指示扩音器的数目及/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器而获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可提示用户与音频重放系统16介接且输入扩音器信息13。
音频重放系统16可接着基于扩音器信息13选择音频呈现器22中的一者。在一些情况下,当音频呈现器22中无一者在与扩音器信息13中所指定者处于某一阈值相似度度量(按照扩音器几何布置)内时,音频重放系统16可基于扩音器信息13产生音频呈现器22中的所述者。在一些情况下,音频重放系统16可基于扩音器信息13产生音频呈现器22中的一者,而不会首先试图选择音频呈现器22中的现有的一者。
图3为更详细地说明可执行本发明中所描述的技术的各种方面的图2的实例中所展示的音频编码装置20的一实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27及基于方向的分解单元28。尽管下文简要描述,但关于音频编码装置20及压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF ASOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11表示从现场记录产生的内容还是从音频对象产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧HOA系数11是从记录产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当帧HOA系数11是从合成音频对象产生时,内容分析单元26将HOA系数11传递到基于方向的合成单元28。基于方向的合成单元28可表示经配置以执行对HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重新排序单元34、前景选择单元36、能量补偿单元38、音质音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、空间-时间内插单元50及量化单元52。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2
即,LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单元。虽然关于SVD加以描述,但可关于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的所述技术。而且,本发明中对“组”的提及大体上意欲指非零组(除非特别地相反陈述),且并不意欲指包含所谓的“空组”的组的经典数学定义。
替代变换可包括常常被称作“PCA”的主分量分析。PCA是指使用正交变换将一组可能相关变量的观测结果转换成被称作主分量的一组线性不相关变量的数学程序。线性不相关变量表示彼此并不具有线性统计关系(或相依性)的变量。可将主分量描述为彼此具有小程度的统计相关性。在任何情况下,所谓的主分量的数目小于或等于原始变量的数目。在一些实例中,按如下方式定义变换:使得第一主分量具有最大可能方差(或,换句话说,尽可能多地考虑数据中的可变性),且每一接续分量又具有可能的最高方差(在以下约束下:所述连续分量正交于前述分量(所述情形可重新陈述为与前述分量不相关))。PCA可执行一种形式的降阶,其就HOA系数11而言可导致HOA系数11的压缩。取决于上下文,可通过数个不同名称来提及PCA,例如离散卡忽南-拉维变换(discrete Karhunen-Loeve transform)、哈特林变换(Hotelling transform)、适当正交分解(POD)及本征值分解(EVD)(仅举几个实例)。有利于压缩音频数据的基本目标的此些操作的性质为多信道音频数据的“能量压缩”及“解相关”。
在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其再次可被称作“SVD”),LIT单元30可将HOA系数11变换成两组或两组以上经变换的HOA系数。“数组”经变换的HOA系数可包含经变换的HOA系数的向量。在图3的实例中,LIT单元30可关于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多信道音频数据的右奇异向量。
尽管本发明中描述为将技术应用于包括HOA系数11的多信道音频数据,但所述技术可应用于任何形式的多信道音频数据。以此方式,音频编码装置20可关于表示声场的至少一部分的多信道音频数据执行奇异值分解,以产生表示多信道音频数据的左奇异向量的U矩阵、表示多信道音频数据的奇异值的S矩阵及表示多信道音频数据的右奇异向量的V矩阵,且将多信道音频数据表示为U矩阵、S矩阵及V矩阵中的一或多者的至少一部分的函数。
在一些实例中,将上文提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或,换句话说,V*矩阵)可被视为V矩阵的转置。下文为易于说明的目的,假定:HOA系数11包括实数,结果为经由SVD而非V*矩阵输出V矩阵。此外,虽然在本发明中表示为V矩阵,但在适当时,对V矩阵的提及应被理解为是指V矩阵的转置。虽然假定为V矩阵,但所述技术可按类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述技术不应限于仅提供应用SVD以产生V矩阵,而可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
在任何情况下,LIT单元30可关于高阶立体混响(HOA)音频数据(其中立体混响音频数据包含HOA系数11或任何其它形式的多信道音频数据的块或样本)的每一块(其可指帧)执行逐块形式的SVD。如上文所提及,变量M可用以表示音频帧的长度(以样本数计)。举例来说,当音频帧包含1024个音频样本时,M等于1024。尽管关于M的典型值加以描述,但本发明的所述技术不应限于M的典型值。LIT单元30因此可关于具有M乘(N+1)2个HOA系数的HOA系数11的块执行逐块SVD,其中N再次表示HOA音频数据的阶数。LIT单元30可经由执行所述SVD而产生V矩阵、S矩阵及U矩阵,其中矩阵中的每一者可表示上文所描述的相应V、S及U矩阵。以此方式,线性可逆变换单元30可关于HOA系数11执行SVD以输出具有维度D:M×(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本),及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为XPS(k),而V[k]矩阵中的个别向量也可被称为v(k)。
U、S及V矩阵的分析可揭示:所述矩阵携有或表示上文通过X表示的基础声场的空间及时间特性。U(长度为M个样本)中的N个向量中的每一者可表示依据时间(对于通过M个样本表示的时间段)的经正规化的分离音频信号,其彼此正交且已与任何空间特性(其也可被称作方向信息)解耦。表示空间形状及位置宽度的空间特性可改为通过V矩阵中的个别第i向量v(i)(k)(每一者具有长度(N+1)2)表示。v(i)(k)向量中的每一者的个别元素可表示描述针对相关联的音频对象的声场的形状及方向的HOA系数。U矩阵及V矩阵两者中的向量经正规化而使得其均方根能量等于单位。U中的音频信号的能量因此通过S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有真正能量的音频信号。进行SVD分解以使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各种方面。另外,通过US[k]与V[k]的向量乘法合成基础HOA[k]系数X的模型引出贯穿此文件使用的术语“基于向量的分解”。
尽管描述为直接关于HOA系数11执行,但LIT单元30可将线性可逆变换应用于HOA系数11的导数。举例来说,LIT单元30可关于从HOA系数11导出的功率谱密度矩阵应用SVD。功率谱密度矩阵可表示为PSD且是经由hoaFrame到hoaFrame的转置的矩阵乘法而获得,如下文的伪码中所概述。hoaFrame记法是指HOA系数11的帧。
在将SVD(svd)应用于PSD之后,LIT单元30可获得S[k]2矩阵(S_squared)及V[k]矩阵。S[k]2矩阵可表示S[k]矩阵的平方,因此LIT单元30可将平方根运算应用于S[k]2矩阵以获得S[k]矩阵。在一些情况下,LIT单元30可关于V[k]矩阵执行量化以获得经量化的V[k]矩阵(其可表示为V[k]'矩阵)。LIT单元30可通过首先将S[k]矩阵乘以经量化的V[k]'矩阵以获得SV[k]'矩阵而获得U[k]矩阵。LIT单元30接下来可获得SV[k]'矩阵的伪逆(pinv)且接着将HOA系数11乘以SV[k]'矩阵的伪逆以获得U[k]矩阵。可通过以下伪码表示前述情形:
PSD=hoaFrame'*hoaFrame;
[V,S_squared]=svd(PSD,’econ’);
S=sqrt(S_squared);
U=hoaFrame*pinv(S*V');
通过关于HOA系数的功率谱密度(PSD)而非系数自身执行SVD,LIT单元30可在处理器循环及存储空间中的一或多者方面可能地降低执行SVD的计算复杂性,同时达成相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。即,上文所描述的PSD型SVD可能有可能在计算上要求不太高,这是因为与M*F矩阵(其中M为帧长度,即,1024或大于1024个样本)相比较,SVD是针对F*F矩阵(其中F为HOA系数的数目)进行。通过应用于PSD而非HOA系数11,与应用于HOA系数11时的O(M*L2)相比较,SVD的复杂性现可为约O(L3)(其中O(*)表示计算机科学技术中常见的计算复杂性的大O记法)。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向性质参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可关于US[k]向量33执行能量分析及/或相关(或所谓的交叉相关)以识别所述参数。参数计算单元32也可确定用于先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、r[k-1]及e[k-1]。参数计算单元32可将当前参数37及先前参数39输出到重新排序单元34。
SVD分解并不会保证通过US[k-1]向量33中的第p向量表示的音频信号/对象(其可表示为US[k-1][p]向量(或,替代地,表示为XPS (p)(k-1)))将为通过US[k]向量33中的第p向量表示的相同音频信号/对象(其也可表示为US[k][p]向量33(或,替代地,表示为XPS (p)(k)))(在时间上前进)。由参数计算单元32计算的参数可供重新排序单元34用以将音频对象重新排序以表示其自然评估或随时间推移的连续性。
即,重新排序单元34可逐轮地比较来自第一US[k]向量33的参数37中的每一者与用于第二US[k-1]向量33的参数39中的每一者。重新排序单元34可基于当前参数37及先前参数39将US[k]矩阵33及V[k]矩阵35内的各种向量重新排序(作为一实例,使用匈牙利算法(Hungarian algorithm))以将经重新排序的US[k]矩阵33'(其可在数学上表示为)及经重新排序的V[k]矩阵35'(其可在数学上表示为)输出到前景声音(或占优势声音-PS)选择单元36(“前景选择单元36”)及能量补偿单元38。
声场分析单元44可表示经配置以关于HOA系数11执行声场分析以便有可能达成目标位速率41的单元。声场分析单元44可基于分析及/或基于所接收目标位速率41,确定音质译码器执行个体的总数目(其可为环境或背景信道的总数目(BGTOT)的函数)及前景信道(或换句话说,占优势信道)的数目。音质译码器执行个体的总数目可表示为numHOATransportChannels。
再次为了可能地达成目标位速率41,声场分析单元44还可确定前景信道的总数目(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHOAorder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHOAorder+1)2),及待发送的额外BG HOA信道的索引(i)(其在图3的实例中可共同地表示为背景信道信息43)。背景信道信息42也可被称作环境信道信息43。numHOATransportChannels-nBGa后剩余的信道中的每一者可为“额外背景/环境信道”、“作用中的基于向量的占优势信道”、“作用中的基于方向的占优势信号”或“完全不活动”。在一方面,可通过两个位以(“ChannelType”)语法元素形式指示信道类型:(例如,00:基于方向的信号;01:基于向量的占优势信号;10:额外环境信号;11:非作用中信号)。背景或环境信号的总数目nBGa可通过(MinAmbHOAorder+1)2+在用于所述帧的位流中以信道类型形式显现索引10(在上述实例中)的次数给出。
在任何情况下,声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目及前景(或换句话说,占优势)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景及/或前景信道。在一方面,在位流的标头区段中,numHOATransportChannels可经设定为8,而MinAmbHOAorder可经设定为1。在此情境下,在每个帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,用作额外背景/环境信道或前景/占优势信道。前景/占优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,用于帧的基于向量的占优势信号的总数目可通过所述帧的位流中ChannelType索引为01的次数给出。在上述方面,对于每个额外背景/环境信道(例如,对应于ChannelType 10),可在所述信道中表示可能的HOA系数(前四个除外)中的哪一者的对应信息。对于四阶HOA内容,所述信息可为指示HOA系数5到25的索引。可在minAmbHOAorder经设定为1时始终发送前四个环境HOA系数1到4,因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5到25的一者。因此可使用5位语法元素(对于四阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。
为了加以说明,假定:minAmbHOAorder经设定为1且具有索引6的额外环境HOA系数是经由位流21发送(作为一实例)。在此实例中,minAmbHOAorder 1指示环境HOA系数具有索引1、2、3及4。音频编码装置20可选择环境HOA系数,这是因为环境HOA系数具有小于或等于(minAmbHOAorder+1)2或4的索引(在此实例中)。音频编码装置20可指定位流21中与索引1、2、3及4相关联的环境HOA系数。音频编码装置20也可指定位流中具有索引6的额外环境HOA系数作为具有ChannelType 10的additionalAmbientHOAchannel。音频编码装置20可使用CodedAmbCoeffIdx语法元素指定索引。作为一种实践,CodedAmbCoeffIdx元素可指定从1到25的所有索引。然而,因为minAmbHOAorder经设定为1,所以音频编码装置20可能并不指定前四个索引中的任一者(因为已知将在位流21中经由minAmbHOAorder语法元素指定前四个索引)。在任何情况下,因为音频编码装置20经由minAmbHOAorder(对于前四个系数)及CodedAmbCoeffIdx(对于额外环境HOA系数)指定五个环境HOA系数,所以音频编码装置20可能并不指定与具有索引1、2、3、4及6的环境HOA系数相关联的对应V-向量元素。因此,音频编码装置20可通过元素[5,7:25]指定V-向量。
在第二方面,所有前景/占优势信号为基于向量的信号。在此第二方面,前景/占优势信号的总数目可通过nFG=numHOATransportChannels-[(MinAmbHOAorder+1)2+additionalAmbientHOAchannel中的每一者]给出。
声场分析单元44将背景信道信息43及HOA系数11输出到背景(BG)选择单元36,将背景信道信息43输出到系数减少单元46及位流产生单元42,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)以及待发送的额外BG HOA信道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择用于具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有通过索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位流产生单元42以便使得音频解码装置(例如,图2及4的实例中所展示的音频解码装置24)能够从位流21剖析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境HOA系数47中的每一者对应于待由音质音频译码器单元40编码的单独环境HOA信道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或特异分量的经重新排序的US[k]矩阵33'及经重新排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重新排序的US[k]1,…,nFG49、FG1,…,nfG[k]49或49)输出到音质音频译码器单元40,其中nFG信号49可具有维度D:M×nFG且每一者表示单信道-音频对象。前景选择单元36也可将对应于声场的前景分量的经重新排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中对应于前景分量的经重新排序的V[k]矩阵35'的子集可表示为前景V[k]矩阵51k(其可在数学上表示为),其具有维度D:(N+1)2×nFG。
能量补偿单元38可表示经配置以关于环境HOA系数47执行能量补偿以补偿归因于通过背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可关于经重新排序的US[k]矩阵33'、经重新排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于能量分析执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到音质音频译码器单元40。
空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及前一帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重新排序的前景HOA系数。空间-时间内插单元50可接着将经重新排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50也可输出用以产生经内插的前景V[k]向量的前景V[k]向量51k,以使得音频解码装置(例如,音频解码装置24)可产生经内插的前景V[k]向量且借此恢复前景V[k]向量51k。将用以产生经内插的前景V[k]向量的前景V[k]向量51k表示为剩余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以建立经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化的版本。
在操作中,空间-时间内插单元50可内插来自包含于第一帧中的第一多个HOA系数11的一部分的第一分解(例如,前景V[k]向量51k)及包含于第二帧中的第二多个HOA系数11的一部分的第二分解(例如,前景V[k]向量51k-1)的第一音频帧的一或多个子帧,以产生用于所述一或多个子帧的经分解的经内插球谐系数。
在一些实例中,第一分解包括表示HOA系数11的所述部分的右奇异向量的第一前景V[k]向量51k。同样,在一些实例中,第二分解包括表示HOA系数11的所述部分的右奇异向量的第二前景V[k]向量51k
换句话说,就球面上的正交基底函数而言,基于球谐的3D音频可为3D压力场的参数表示。所述表示的阶数N越高,空间分辨率可能地越高,且常常球谐(SH)系数的数目越大(总共(N+1)2个系数)。对于许多应用,可能需要系数的带宽压缩从而能够有效率地传输及存储所述系数。本发明中所针对的所述技术可提供使用奇异值分解(SVD)进行的基于帧的维度减少过程。SVD分析可将系数的每一帧分解成三个矩阵U、S及V。在一些实例中,所述技术可将US[k]矩阵中的向量中的一些向量作为基础声场的前景分量来处置。然而,当以此方式进行处置时,所述向量(在US[k]矩阵中)在帧间是不连续的,即使其表示同一特异音频分量也是如此。当经由变换音频译码器馈入所述分量时,所述不连续性可导致显著假影。
在一些方面,空间-时间内插可依赖于以下观测:可将V矩阵解译为球谐域中的正交空间轴线。U[k]矩阵可表示球谐(HOA)数据依据基底函数的投影,其中不连续性可归因于正交空间轴线(V[k]),所述正交空间轴线每个帧皆改变且因此自身为不连续的。此情形不同于例如傅立叶变换的一些其它分解,其中在一些实例中,基底函数在帧间为常量。在此些术语中,SVD可被视为匹配追求算法。空间-时间内插单元50可执行内插以通过在帧之间内插而可能从帧到帧维持基底函数(V[k])之间的连续性。
如上文所提及,可关于样本执行内插。当子帧包括一组单一样本时,所述状况在上述描述中得以一般化。在经由样本及经由子帧进行内插的两种状况下,内插运算可呈以下等式的形式:
v ( l ) ‾ = w ( l ) v ( k ) + ( 1 - w ( l ) ) v ( k - 1 ) .
在上述等式中,可从单一V-向量v(k-1)关于单一V-向量v(k)执行内插,所述向量在一方面可表示来自邻近帧k及k-1的V-向量。在上述等式中,l表示执行内插所针对的分辨率,其中l可指示整数样本且l=1,…,T(其中T为样本的长度,在所述长度内执行内插且在所述长度内需要经输出的经内插的向量且所述长度也指示过程的输出产生向量的l)。替代地,l可指示由多个样本组成的子帧。当(例如)将帧划分成四个子帧时,l可包括用于所述子帧中的每一子帧的值1、2、3及4。可经由位流将l的值作为被称为“CodedSpatialInterpolationTime”的字段用信号通知,使得可在解码器中重复内插运算。w(l)可包括内插权重的值。当内插为线性的时,w(l)可依据l在0与1之间线性地且单调地变化。在其它情况下,w(l)可依据l在0与1之间以非线性但单调方式(例如,上升余弦的四分之一循环)变化。可将函数w(l)在几种不同函数可能性之间编索引且将所述函数在位流中作为被称为“SpatialInterpolationMethod”的字段用信号通知,使得可由解码器重复相同的内插运算。当w(l)具有接近于0的值时,输出可被高度加权或受v(k-1)影响。而当w(l)具有接近于1的值时,其确保输出被高度加权且受v(k-1)影响。
系数减少单元46可表示经配置以基于背景信道信息43关于剩余前景V[k]向量53执行系数减少以将经缩减前景V[k]向量55输出到量化单元52的单元。经缩减前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。
就此而言,系数减少单元46可表示经配置以减少剩余前景V[k]向量53的系数的数目的单元。换句话说,系数减少单元46可表示经配置以消除前景V[k]向量中具有极少或几乎没有方向信息的系数(其形成剩余前景V[k]向量53)的单元。如上文所描述,在一些实例中,特异或(换句话说)前景V[k]向量的对应于一阶及零阶基底函数的系数(其可表示为NBG)提供极少方向信息,且因此可将其从前景V-向量移除(经由可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以使得不仅从组[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA信道(其可通过变量TotalOfAddAmbHOAChan表示)。声场分析单元44可分析HOA系数11以确定BGTOT,其不仅可识别(NBG+1)2而且可识别TotalOfAddAmbHOAChan,所述两者可共同地被称作背景信道信息43。系数减少单元46可接着将对应于(NBG+1)2及TotalOfAddAmbHOAChan的系数从剩余前景V[k]向量53移除以产生大小为((N+1)2-(BGTOT)×nFG的维度较小的V[k]矩阵55,其也可被称作经缩减前景V[k]向量55。
量化单元52可表示经配置以执行任何形式的量化以压缩经缩减前景V[k]向量55以产生经译码前景V[k]向量57从而将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,在此实例中,为经缩减前景V[k]向量55中的一或多者)的单元。出于实例的目的,假定经缩减前景V[k]向量55包含两行向量,由于系数减少,每一列具有少于25个元素(其暗示声场的四阶HOA表示)。尽管关于两行向量加以描述,但任何数目个向量可包含于经缩减前景V[k]向量55中,至多为(n+1)2个,其中n表示声场的HOA表示的阶数。此外,尽管下文描述为执行纯量及/或熵量化,但量化单元52可执行导致经缩减前景V[k]向量55的压缩的任何形式的量化。
量化单元52可接收经缩减前景V[k]向量55且执行压缩方案以产生经译码前景V[k]向量57。压缩方案大体上可涉及用于压缩向量或数据的元素的任何可设想压缩方案,且不应限于下文更详细描述的实例。作为一实例,量化单元52可执行包含以下各者中的一或多者的压缩方案:将经缩减前景V[k]向量55的每一元素的浮点表示变换成经缩减前景V[k]向量55的每一元素的整数表示、经缩减前景V[k]向量55的整数表示的均匀量化,以及剩余前景V[k]向量55的经量化的整数表示的分类及译码。
在一些实例中,可通过参数动态地控制所述压缩方案的一或多个过程中的若干者以达成或几乎达成(作为一实例)所得位流21的目标位速率41。在给定经缩减前景V[k]向量55中的每一者彼此正交的情况下,可独立地译码经缩减前景V[k]向量55中的每一者。在一些实例中,如下文更详细地描述,可使用相同译码模式(通过各种子模式界定)译码每一经缩减前景V[k]向量55的每一元素。
如第WO 2014/194099号公开案中所描述,量化单元52可执行纯量量化及/或霍夫曼(Huffman)编码以压缩经缩减前景V[k]向量55,从而输出经译码前景V[k]向量57(其也可被称作旁侧信道信息57)。旁侧信道信息57可包含用以译码剩余前景V[k]向量55的语法元素。
如第2014/194099号公开案中所指出,量化单元52可产生用于旁侧信道信息57的语法元素。举例来说,量化单元52可指定存取单元(其可包含一或多个帧)的标头中的表示选择所述多个配置模式中的哪一配置模式的语法元素。尽管描述为在每存取单元基础上予以指定,但量化单元52可在每帧基础或任何其它周期性基础或非周期性基础(例如整个位流一次)上指定语法元素。在任何情况下,语法元素可包括指示选择了三个配置模式中的哪一者用于指定经缩减前景V[k]向量55的非零系数集合以表示相异分量的方向方面的两个位。所述语法元素可表示为“codedVVecLength”。以此方式,量化单元52可在位流中用信号通知或以其它方式指定使用三个配置模式中的哪一者来在位流中指定经译码前景V[k]向量57。
举例来说,三种配置模式可呈现于用于VVecData的语法表(稍后在本文件中引用)中。在所述实例中,配置模式如下:(模式0),在VVecData字段中传输完整V-向量长度;(模式1),不传输与用于环境HOA系数的最小数目个系数相关联的V-向量的元素及包含额外HOA信道的V-向量的所有元素;及(模式2),不传输与用于环境HOA系数的最小数目个系数相关联的V-向量的元素。VVecData的语法表结合switch及case语句说明所述模式。尽管关于三个配置模式加以描述,但所述技术不应限于三个配置模式,且可包含任何数目个配置模式,包含单一配置模式或多个模式。第WO 2014/194099号公开案提供具有四种模式的不同实例。标量/熵量化单元53还可将旗标63指定为旁侧信道信息57中的另一语法元素。
此外,尽管关于纯量量化形式加以描述,但量化单元52可执行向量量化或任何其它形式的量化。在一些情况下,量化单元52可在向量量化及纯量量化之间切换。在上文所描述的纯量量化期间,量化单元52可计算两个连续V-向量(如在帧到帧中连续)之间的差且译码所述差(或,换句话说,残余)。向量量化并不涉及此差译码(其可在某种意义上为译码的预测形式,因为标量量化基于前一V-向量及用信号发出的差来预测当前V-向量)。
包含于音频编码装置20内的音质音频译码器单元40可表示音质音频译码器的多个执行个体,其中的每一者用以编码经能量补偿的环境HOA系数47'及经内插的nFG信号49'中的每一者的不同音频对象或HOA信道,以产生经编码环境HOA系数59及经编码nFG信号61。音质音频译码器单元40可将经编码环境HOA系数59及经编码nFG信号61输出到位流产生单元42。
包含于音频编码装置20内的位流产生单元42表示将数据格式化以符合已知格式(其可指为解码装置已知的格式)借此产生基于向量的位流21的单元。换句话说,位流21可表示以上文所描述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61,及背景信道信息43。位流产生单元42可接着基于经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61及背景信道信息43产生位流21。位流21可包含主要或主位流及一或多个旁侧信道位流。
尽管在图3的实例中未展示,但音频编码装置20也可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为检测到HOA系数11是从合成音频对象产生的结果)还是执行基于向量的合成(作为检测到HOA系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应位流的切换或当前编码。
此外,如上文所提及,声场分析单元44可识别BGTOT环境HOA系数47,所述BGTOT环境HOA系数可基于逐个帧而改变(但时常BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在经缩减前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致背景HOA系数(其也可被称作“环境HOA系数”),其基于逐个帧而改变(但再次,时常BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)。所述改变常常导致就以下方面而言的能量的损失:通过额外环境HOA系数的添加或移除及系数从经缩减前景V[k]向量55的对应移除或系数到经缩减前景V[k]向量55的添加表示的声场。
为了进行说明,假设对于先前帧(表示为“FX-1”),环境HOA系数的总数(BGTOT)包含与索引1、2、3及4相关联的环境HOA系数及额外环境HOA系数6。对于当前帧(表示为“FX”),进一步假设环境HOA系数的总数(BGTOT)包含与索引1、2、3及4相关联的环境HOA系数及额外环境HOA系数5。通过用与索引5相关联的额外环境HOA系数替换与索引6相关联的额外环境HOA系数,先前帧(FX-1)的环境HOA系数的总数(BGTOT)因此不同于当前帧(FX)的环境HOA系数的总数(BGTOT)。先前帧(FX-1)的V-向量包含先前帧FX-1的环境HOA系数的总数(BGTOT)中的一者不对应于的任何元素。因此,V-向量可包含用于声场的四阶表示的元素5及7到25,其可表示为V[5,7:25]。当前帧(FX)的V-向量包含当前帧(FX)的环境HOA系数的总数(BGTOT)中的一者不对应于的任何元素,其可表示为用于声场的四阶表示的V[6:25]。
在第WO 2014/194099号公开案中,音频编码装置用信号通知用于帧FX-1的V[5,7:25]及用于帧FX的V[6:25]。音频编码装置也可指定与索引6相关联的额外环境HOA系数将从用于先前帧(FX-1)的HOA系数11'的重建构淡出,而与索引5相关联的额外环境HOA系数将在重建构HOA系数11'时针对当前帧(FX)淡入。在与索引6相关联的额外环境HOA系数表示声场的总能量的某一部分的条件下,与索引6相关联的额外环境HOA系数在先前帧(FX-1)期间从音频解码装置处的重建构的转变可减少总能量。能量的减少可显现为可听见的音频假影。
同样,与索引5相关联的额外环境HOA系数的引入可在当前帧(FX)期间淡入时在音频解码装置处重建构HOA系数11'时导致一定的能量损失。出现能量的损失,这是因为与索引5相关联的额外环境HOA系数使用(作为一个实例)线性淡入操作来淡入,所述线性淡入操作使与索引5相关联的额外环境HOA系数衰减,且由此使总能量减损。再次,能量的减少可显现为音频假影。
根据本发明中所描述的技术的各种方面,声场分析单元44可进一步确定环境HOA系数何时逐帧而改变且产生指示环境HOA系数的改变的旗标或其它语法元素(就用以表示声场的环境分量而言)(其中所述改变也可被称作环境HOA系数的“转变”或被称作环境HOA系数的“转变”)。详细地说,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,以便可将所述旗标包含于位流21中(有可能作为旁侧信道信息的部分)。
除指定环境系数转变旗标之外,系数减少单元46也可修改产生经缩减前景V[k]向量55的方式。在一实例中,当确定环境HOA环境系数中的一者在当前帧中处于转变中时,系数减少单元46可指定用于经缩减前景V[k]向量55的V-向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。同样地,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数目或从背景系数的BGTOT总数目移除。因此,背景系数的总数目的所得改变影响以下情形:环境HOA系数是包含于还是不包含于位流中,及在上文所描述的第二及第三配置模式中是否针对位流中所指定的V-向量包含V-向量的对应元素。
为了说明关于先前及当前帧(FX-1及FX)的实例的前述内容,可从第2014/194099号公开案中指定的内容修改系数减少单元46,以用信号通知在先前及当前帧(FX-1及FX)期间针对V-向量发送的元素方面的冗余信息。系数减少单元46可指定用于先前帧FX-1的向量元素(V[5:25]),以使得音频解码装置24能够淡入V-向量的元素6,同时也淡出与索引6相关联的环境HOA系数。系数减少单元46可不指定指示正在转变的V-向量元素(因为从V-向量的译码模式及针对环境HOA系数指定的转变信息方面,转变是隐式的)的转变的任何语法元素。对于当前帧(FX),在音频解码装置24可在淡出操作中使用V-向量的第5元素来抵消与索引5相关联的环境HOA系数的淡入的条件下,系数减少单元46同样可将V-向量指定为V[5:25]。在上述实例中,淡化操作对于V-向量元素来说与环境HOA系数互补,以便维持均匀的能级,且避免音频假影的引入。虽然描述为互补的或以其它方式提供跨越转变的均匀能量,但技术可允许任何其它形式的用以避免或减少由能量的改变引起的音频假影的引入的转变操作。
在另一实例中,系数减少单元46可不更改产生经缩减前景V[k]向量55的V-向量的方式。因此,在旁侧信道信息中用信号发出转变旗标。在此实例中,音频解码装置可利用先前或后续帧的V-向量,所述V-向量包含对应于在转变中的环境HOA系数的系数。此实例可需要解码器处的额外功能性(例如,先行机制,其从后续帧向前看,以便在环境HOA系数转变成BGTOT时,从后续帧复制V-向量的系数供当前帧使用)。
就此而言,技术可使得音频编码装置20能够确定描述声场的环境分量的环境高阶立体混响系数47'何时进行转变(就用以描述声场的环境分量而言)。在提及使用还是不使用声场的环境分量时,应理解音频编码装置20可选择将环境HOA系数47用于重建构音频解码装置24处的声场。虽然环境HOA系数可表示背景的某一方面(或换句话说,声场的环境分量),但音频编码装置20可确定环境HOA系数47中的一或多者并未提供与声场的环境分量相关的足够信息,以使得位不会被用于指定位流21中的环境HOA系数47中的一或多者。音频编码装置20可识别环境HOA系数47的较大集合的某一子集,所述环境HOA系数用以表示每一帧的声场的环境分量或方面,以(作为一个实例)达成目标位速率41。在任何情况下,音频编码装置20也可在包含环境高阶立体混响系数47的位流21中识别环境高阶立体混响系数47在转变中。
在这些及其它实例中,音频编码装置20可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'并未被用来描述声场的环境分量。在识别环境高阶立体混响系数47'在转变中时,音频编码装置20可指定AmbCoeffTransition旗标,所述AmbCoeffTransition旗标指示高阶立体混响系数在转变中。
在这些及其它实例中,音频编码装置20可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'并未被用来描述声场的环境分量。
响应于确定未使用环境高阶立体混响系数47',音频编码装置20可产生表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于环境高阶立体混响系数47'的向量(例如,经缩减前景V[k]向量55或换句话说,经缩减前景向量55k)的元素。向量55k可描述声场的相异分量的空间方面。向量55k也可以上文所描述的方式从描述声场的高阶立体混响系数11分解。
在这些及其它实例中,音频编码装置20可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'被用来描述声场的环境分量。
在这些及其它实例中,音频编码装置20可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'被用来描述声场的环境分量。音频编码装置20可在识别环境高阶立体混响系数47'在转变中时,还指定指示高阶立体混响系数47'在转变中的语法元素。
在这些及其它实例中,音频编码装置20可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'被用来描述声场的环境分量。音频编码装置20可响应于确定将使用环境高阶立体混响系数47',产生表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于环境高阶立体混响系数47'的向量55k的元素。向量55k可描述声场的相异分量的空间方面,且可从描述声场的高阶立体混响系数分解。
在一些实例中,位流产生单元42产生位流21以包含立即播出帧(IPF),以例如补偿解码器启动延迟。在一些状况下,可结合例如HTTP上的动态自适应流式传输(DASH)或单向输送上的文件传递(FLUTE)等因特网流式传输标准使用位流21。在2012年4月的ISO/IEC23009-1“信息技术-HTTP上的动态自适应流式传输(DASH)”中描述DASH。在2012年11月的IETF RFC 6726“FLUTE-单向输送上的文件传递”中描述FLUTE。例如前述FLUTE及DASH等因特网流式传输标准补偿帧损失/降级,且通过以下操作根据网络输送链路带宽进行调整:实现指定流存取点(SAP)处的瞬时播出以及在位速率及/或流的任何SAP处的启用工具不同的流的表示之间切换播出。换句话说,音频编码装置20可以如下的方式编码帧:从内容的第一表示(例如,指定处于第一位速率)切换到内容的第二不同表示(例如,指定处于第二较高或较低位速率)。音频解码装置24可接收帧,且独立地解码帧以从内容的第一表示切换到内容的第二表示。音频解码装置24可继续解码后续帧以获得内容的第二表示。
在瞬时播出/切换的情况下,并未解码用于流帧的预滚以便建立必要的内部状态以恰当地解码帧,位流产生单元42可编码位流21以包含立即播出帧(IPF),如下文关于图7I更详细地描述。
图4为更详细地说明图2的音频解码装置24的框图。如图4的实例中所展示,音频解码装置24可包含提取单元72、基于方向性的重建构单元90及基于向量的重建构单元92。尽管下文加以描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(NTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收位流21及提取HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可从上文所提及的语法元素(例如,图7D及7E的实例中所展示的ChannelType语法元素269)确定HOA系数11是否经由各种版本编码。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4的实例中表示为基于方向的信息91),将所述基于方向的信息91传递到基于方向的重建构单元90。基于方向的重建构单元90可表示经配置以基于基于方向的信息91以HOA系数11'的形式重建构HOA系数的单元。下文关于图7A到7J的实例更详细地描述位流及位流内的语法元素的布置。
当语法元素指示HOA系数11是使用基于向量的合成编码时,提取单元72可提取经译码前景V[k]向量57、经编码环境HOA系数59及经编码nFG信号61。提取单元72可将经译码前景V[k]向量57传递到解量化单元74,且将经编码环境HOA系数59以及经编码nFG信号61提供到音质解码单元80。
为了提取经译码前景V[k]向量57,经编码环境HOA系数59及经编码nFG信号61、提取单元72可获得经译码前景V[k]向量57(其也可被称作旁侧信道信息57)。旁侧信道信息57可包含表示为codedVVecLength的语法元素。提取单元72可剖析来自旁侧信道信息57的codedVVecLength。提取单元72可经配置以基于codedVVecLength语法元素以上述配置模式中的任一者操作。
提取单元72接着根据配置模式中的任一者进行操作,从旁侧信道信息57剖析经缩减前景V[k]向量55k的经压缩形式。如上文关于图4的实例中所示的音频编码装置20的位流产生单元42所提到,可在位流中指定旗标或其它语法元素,其指示基于帧或可能基于多帧的环境HOA系数47的转变。提取单元72可剖析语法元素,所述语法元素指示环境HOA系数是否在转变中。如图4的实例中所进一步展示,提取单元72可包含V解压缩单元755(其在图4的例子中经展示为“V分解单元755”)。V解压缩单元755接收位流21的旁侧信道信息及表示为codedVVecLength的语法元素。提取单元72可从位流21(且例如从位流21内包含的存取单元标头)剖析codedVVecLength语法元素。V解压缩单元755包含模式配置单元756(“模式配置单元756”)及可配置以根据配置模式760中的任一者操作的剖析单元758。
提取单元72可将codedVVecLength语法元素提供到模式配置单元756。提取单元42也可提取可由剖析单元758使用的状态变量的值。
模式配置单元756可基于指示环境HOA系数的转变的语法元素选择剖析模式760。在此实例中,剖析模式760可指定用于配置剖析单元758的某些值。额外值可指表示为“AmbCoeffTransitionMode”及“AmbCoeffWasFadedIn”的变量的值。值维持与AddAmbHoaInfoChannel的转变的有关的状态,如下表中所指定:
AddAmbHoaInfoChannel(i)的语法
在前述AddAmbHoaInfoChannel表中,模式配置单元756可确定HOA帧的IndependencyFlag值是否为真。具有真值的IndependencyFlag指示HOA帧为立即播出帧(IPF)。
如果HOA帧的IndependencyFlag值为假,那么模式配置单元756确定是否将AmbCoeffTransition旗标设定为一。AmbCoeffTransition旗标可表示指示环境高阶立体混响系数的转变的位。虽然描述为位,但在一些实例中,AmbCoeffTransition旗标可包含一或多个位。如本文所使用,术语“位”应理解为指一或多个位,且不应仅限于单个位,除非以其它方式明确地陈述。
在将AmbCoeffTransition旗标设定为一时,模式配置单元756接着确定另一变量(或换句话说,语法元素)AmbCoeffWasFadedIn[i]是否等于零。AmbCoeffWasFadedIn[i]变量为i个元素的阵列,HOAAddAmbInfoChannels中的每一者具有一个元素,所述阵列指示先前是否淡入第i HOAAddAmbInfoChannel。在先前未淡入第i HOAAddAmbInfoChannel(意味着第i HOAAddAmbInfoChannel等于零)时,模式配置单元756可将第iHOAAddAmbInfoChannel的AmbCoeffTransitionMode设定为一,同时还将第iHOAAddAmbInfoChannel的AmbCoeffWasFadedIn设定为一。在先前淡入第iHOAAddAmbInfoChannel(意味着第i HOAAddAmbInfoChannel不等于零)时,模式配置单元756可将第i HOAAddAmbInfoChannel的AmbCoeffTransitionMode设定为二,且将第iHOAAddAmbInfoChannel的AmbCoeffWasFadedIn设定为零。
AmbCoeffWasFadedIn及AmbCoeffTransitionMode语法元素的组合可表示转变状态信息。在AmbCoeffWasFadedIn及AmbCoeffTransitionMode语法元素中的每一者各自为单一位的条件下,转变状态信息可界定最多四个状态。以上示范性语法表指示转变状态信息指示三个状态中的一者。所述三个状态可包含不转变状态、淡入状态及淡出状态。尽管在本发明中描述为包含两个位以指示三个状态中的一者,但在转变状态信息指示小于三个状态时,转变状态信息可为单一位。此外,在转变状态信息指示五个或五个以上状态中的一者的实例中,转变状态信息可包含两个以上位。
在AmbCoeffTransition旗标等于零时,模式配置单元756可将第iHOAAddAmbInfoChannel的AmbCoeffTransitionMode设定为零。如前述表中所指出,在AmbCoeffTransitionMode等于以下值时,可执行下文所指示的对应动作:
0:不转变(连续额外环境HOA系数);
1:额外环境HOA系数的淡入;以及
2:额外环境HOA系数的淡出。
如果HOA帧的IndependencyFlag值为真,那么提取单元72可从位流21内的相关联语法结构提取用于额外环境HOA信道的转变信息757。因为IPF按照定义是可独立解码的,所以用于IPF的转变信息757可结合位流中的IPF一起提供,例如上文所描述的状态信息814。因此,提取单元72可提取第i HOAAddAmbInfoChannel的变量AmbCoeffWasFadedIn[i]的值,其中语法结构提供转变信息757。以此方式,模式配置单元756可在第iHOAAddAmbInfoChannel中确定将由音频解码装置24应用的第i HOAAddAmbInfoChannel的模式760。
然而,可稍微修改前述语法,用两位AmbCoeffTransitionState[i]语法元素及一位AmbCoeffIdxTransition语法元素来替换AmbCoeffWasFadedIn[i]及AmbCoeffTransition的单独语法元素。前述语法表因此可用以下语法表替换:
AddAmbHoaInfoChannel(i)的语法
在前述示范性语法表中,在将HOAIndependencyFlag语法元素设定为值一时,音频编码装置20显式地用信号发出AmbCoeffTransitionState语法元素。在用信号发出AmbCoeffTransitionState语法元素时,音频编码装置20用信号发出对应环境HOA系数的当前状态。否则,在将HOAIndependencyFlag语法元素设定为值零时,音频编码装置20不用信号发出AmbCoeffTransitionState,而是改为用信号发出AmbCoeffIdxTransition语法元素,其指示在对应环境HOA系数中是否存在转变。
在将HOAIndependencyFlag语法元素设定为值零时,提取单元72可维持环境HOA系数中的对应者的AmbCoeffTransitionState。提取单元72可基于AmbCoeffIdxTransition更新AmbCoeffTransitionState语法元素。举例来说,在将AmbCoeffTransitionState语法元素设定为0(意思是不转变)及将AmbCoeffIdxTransition语法元素设定为0时,提取单元72可确定不会发生改变,且因此对AmbCoeffTransitionState语法元素的改变是不必要的。在将AmbCoeffTransitionState语法元素设定为0(意思是不转变)及将AmbCoeffIdxTransition语法元素设定为1时,提取单元72可确定对应环境HOA系数将淡出,且将AmbCoeffTransitionState语法元素设定为值2。在将AmbCoeffTransitionState语法元素设定为2(意思是淡出对应环境HOA系数)及将AmbCoeffIdxTransition语法元素设定为1时,提取单元72可确定对应环境HOA系数将淡入,且将AmbCoeffTransitionState语法元素设定为值1。
类似于AmbCoeffTransition旗标,AmbCoeffIdxTransition语法元素可表示指示环境高阶立体混响系数的转变的位。虽然经描述为位,但在一些实例中,AmbCoeffIdxTransition语法元素可包含一或多个位。再次,如本文所使用的术语“位”应被理解为指一或多个位,且不应限于仅单一位,除非以其它方式明确地陈述。
此外,AmbCoeffTransitionState[i]语法元素可表示转变状态信息。转变状态信息可在AmbCoeffTransitionState[i]语法元素为两位的条件下指示四个状态中的一者。前述示范性语法表指示转变状态信息指示三个状态中的一者。三个状态可包含不转变状态、淡入状态及淡出状态。再次,尽管在本发明中描述为包含两个位以指示三个状态中的一者,但在转变状态信息指示小于三个状态时,转变状态信息可为单一位。此外,在转变状态信息指示五个或五个以上状态中的一者的实例中,转变状态信息可包含两个以上位。
提取单元72也可根据以下伪码中呈现的switch语句以及以下VVectorData的语法表中呈现的语法而操作:
前述伪码中的状况0表示在选择译码模式时检索V-向量的所有元素的伪码。状况1表示在以上文所描述的方式减少之后检索V-向量的伪码。状况1在发送NBG及额外环境HOA系数两者时出现,其会导致不发送V-向量的对应元素。状况2表示在(多余地)发送对应于额外环境HOA系数的V-向量的元素但不发送对应于NBG环境HOA系数的V-向量的元素时恢复V-向量的伪码。
音频编码装置20可在音频解码装置24经配置以根据状况2操作时指定位流21。音频编码装置20可在选择在环境HOA系数的转变期间在位流21中显式地用信号发出V-向量元素之后用信号通知状况2。音频编码装置20可基于环境HOA系数的转变选择显式地发送冗余V-向量元素,以便允许V-向量元素的淡入及淡出,如下文关于图8较详细论述。
音频编码装置20可在选择配置解码器24执行从时间上的后续帧向前检索V-向量元素(从时间上的先前帧向后检索V-向量元素)时选择状况1。换句话说,音频解码装置24的提取单元72可经配置以在音频编码装置20选择不发送冗余V-向量元素时执行状况1,且可改为配置音频解码装置24的提取单元72执行先行或回顾操作以从不同帧再使用V-向量元素。音频解码装置24接着可使用隐含地用信号发出的V-向量元素(其可指从先前或后续帧再使用的V-向量元素)执行淡入/淡出操作。
模式配置单元756可选择配置适当方式的模式760中的一者,借助于所述适当方式剖析位流21以便恢复经译码前景V[k]向量57。模式配置单元756可用模式760中的选定者来配置剖析单元758,所述剖析单元接着可剖析位流21以恢复经译码前景V[k]向量57。剖析单元758接着可输出经译码前景V[k]向量57。
VVectorData(i)的语法
在CodedVVeclength上的switch语句之后,决定是否执行均匀解量化可由NbitsQ语法元素(或如上文表示的nbits语法元素)控制,在所述NbitsQ语法元素等于5时,执行均匀8位标量解量化。相对比地,6或更大的NbitsQ值可导致应用霍夫曼解码。上文所提及的cid值可等于NbitsQ值的两个最低有效位。上文所论述的预测模式在上文语法表中表示为PFlag,而HT info位在上文语法表中表示为CbFlag。剩余语法指定如何以实质上与上文所描述的方式类似的方式出现解码。
基于向量的重建构单元92表示经配置以执行与上文关于如图3中所描绘的基于向量的分解单元27所描述的操作互逆的操作以便重建构HOA系数11'的单元。基于向量的重建构单元92可包含解量化单元74、空间-时间内插单元76、前景制订单元78、音质解码单元80、淡化单元770及HOA系数制订单元82。
解量化单元74可表示经配置以以与图3的实例中所示的量化单元52互逆的方式操作的单元,其解量化经译码前景V[k]向量57以产生经缩减前景V[k]向量55k。在一些实例中,解量化单元74可以与上文关于量化单元52所描述的方式互逆的方式执行一种形式的熵解码及标量解量化。解量化单元74可将经缩减前景V[k]向量55k转递到空间-时间内插单元76。
音质解码单元80可以与图3的实例中所展示的音质音频译码器单元40互逆的方式操作以便解码经编码环境HOA系数59及经编码nFG信号61且借此产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。音质解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
空间-时间内插单元76可以与上文关于空间-时间内插单元50所描述的方式类似的方式操作。空间-时间内插单元76可接收经缩减前景V[k]向量55k且关于前景V[k]向量55k及经缩减前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。
提取单元72也可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元770可接着确定SHCBG 47'(其中SHCBG 47'也可表示为“环境HOA信道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k”的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可关于环境HOA系数47'及经内插的前景V[k]向量55k”的元素中的每一者相反地操作。即,淡化单元770可关于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时关于经内插的前景V[k]向量55k”的元素中的对应经内插的前景V[k]向量执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82且将经调整的前景V[k]向量55k”'输出到前景制订单元78。就此而言,淡化单元770表示经配置以关于HOA系数或其导出项(例如,呈环境HOA系数47'及经内插的前景V[k]向量55k”的元素的形式)的各种方面执行淡化操作的单元。
换句话说,可不必发射与另外发射的HOA系数相关联的VVec元素。对于额外HOA系数处于转变中(意思是淡入或淡出)的帧,传输VVec元素以防止在经重建构HOA声场中的能量孔。
在这些及其它实例中,音频解码装置24可在确定环境高阶立体混响系数(例如环境高阶立体混响系数47')何时进行转变时,从位流(例如在图4的例子中为位流21)获得AmbCoeffTransition旗标,所述位流还包含环境高阶立体混响系数47'。AmbCoeffTransition旗标指示高阶立体混响系数在转变中。
在这些及其它实例中,音频解码装置24可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'未被用来描述声场的环境分量。响应于确定未使用环境高阶立体混响系数47',音频解码装置24可获得表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于环境高阶立体混响系数47'的向量的元素。向量可指经缩减前景V[k]向量55k”中的一者,且因此可被称为向量55k”。向量55k”可描述声场的相异分量的空间方面,且可从描述声场的高阶立体混响系数11分解。音频解码装置24可进一步对于对应于环境高阶立体混响系数47'的向量55k”的元素执行淡入操作以淡入向量的元素。音频解码装置24可执行淡入操作以通过在帧期间线性地增加向量55k”的元素的增益,添加向量55k”的元素,如关于图8的实例更详细地描述。
在这些及其它实例中,音频解码装置24可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'未被用来描述声场的环境分量。响应于确定未使用环境高阶立体混响系数,音频解码装置24可获得表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于环境高阶立体混响系数47'的向量55k”的元素。如上所指出,向量55k”可描述声场的相异分量的空间方面,且已从描述声场的高阶立体混响系数11分解。音频解码装置24也可对于对应于环境高阶立体混响系数47'的向量55k”的元素执行淡入操作以淡入向量55k”的元素。音频解码装置24可进一步对于环境高阶立体混响系数47'执行淡出操作以淡出环境高阶立体混响系数47'。
在这些及其它实例中,音频解码装置24可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数被用来描述声场的环境分量。响应于确定将使用环境高阶立体混响系数,音频解码装置24可获得表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于环境高阶立体混响系数47'的向量55k的元素。再次,向量55k”可描述声场的相异分量的空间方面,且已从描述声场的高阶立体混响系数11分解。音频解码装置24可对于对应于环境高阶立体混响系数47'的向量55k”的元素执行淡出操作以淡出向量的元素。
在这些及其它实例中,音频解码装置24可在确定环境高阶立体混响系数47'何时进行转变时,确定环境高阶立体混响系数47'被用来描述声场的环境分量。响应于确定使用环境高阶立体混响系数47',音频解码装置24可获得表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于环境高阶立体混响系数的向量55k”的元素。再次,向量55k”可描述声场的相异分量的空间方面,且已从描述声场的高阶立体混响系数分解。音频解码装置24也可对于对应于环境高阶立体混响系数47'的向量55k”的元素执行淡出操作以淡出向量55k的元素。音频解码装置24可进一步对于环境高阶立体混响信道47'执行淡入操作以淡入环境高阶立体混响信道47'。
在这些及其它实例中,音频解码装置24可在获得包含对应于环境高阶立体混响系数47'的向量55k”的元素的基于向量的信号时,从当前帧、当前帧之后的帧或当前帧之前的帧确定向量55k”的元素,在当前帧、当前帧之后的帧或当前帧之前的帧中对于向量55k”的元素执行淡化操作。
在这些及其它实例中,音频解码装置24可获得对应于向量55k”的音频对象,且依据音频对象及向量55k”产生空间上经调整的音频对象。音频对象可指音频对象49'中的一者,其也可被称作经内插nFG信号49'。
前景制订单元78可表示经配置以关于经调整的前景V[k]向量55k”'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。前景制订单元78可执行经内插的nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境HOA系数47”以便获得HOA系数11'的单元,其中撇号记法反映HOA系数11'可类似于HOA系数11但与HOA系数11不相同。HOA系数11与11'之间的差可起因于归因于有损传输媒体上的传输、量化或其它有损操作产生的损失。
图5A为说明音频编码装置(例如,图3的实例中所展示的音频编码装置20)执行本发明中所描述的基于向量的合成技术的各种方面的示范性操作的流程图。最初,音频编码装置20接收HOA系数11(106)。音频编码装置20可调用LIT单元30,LIT单元30可关于HOA系数应用LIT以输出经变换的HOA系数(例如,在SVD的状况下,经变换的HOA系数可包括US[k]向量33及V[k]向量35)(107)。
音频编码装置20接下来可调用参数计算单元32以按上文所描述的方式关于US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35的任何组合执行上文所描述的分析以识别各种参数。即,参数计算单元32可基于经变换的HOA系数33/35的分析确定至少一参数(108)。
音频编码装置20可接着调用重新排序单元34,重新排序单元34基于参数将经变换的HOA系数(再次在SVD的上下文中,其可指US[k]向量33及V[k]向量35)重新排序以产生经重新排序的经变换的HOA系数33'/35'(或,换句话说,US[k]向量33'及V[k]向量35'),如上文所描述(109)。在前述操作或后续操作中的任一者期间,音频编码装置20也可调用声场分析单元44。如上文所描述,声场分析单元44可关于HOA系数11及/或经变换的HOA系数33/35执行声场分析以确定前景信道的总数目(nFG)45、背景声场的阶数(NBG)以及待发送的额外BG HOA信道的数目(nBGa)及索引(i)(其在图3的实例中可共同地表示为背景信道信息43)(109)。
音频编码装置20也可调用背景选择单元48。背景选择单元48可基于背景信道信息43确定背景或环境HOA系数47(110)。音频编码装置20可进一步调用前景选择单元36,前景选择单元36可基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或特异分量的经重新排序的US[k]向量33'及经重新排序的V[k]向量35'(112)。
音频编码装置20可调用能量补偿单元38。能量补偿单元38可关于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA系数中的各种HOA系数而产生的能量损失(114),且借此产生经能量补偿的环境HOA系数47'。
音频编码装置20也可调用空间-时间内插单元50。空间-时间内插单元50可关于经重新排序的经变换的HOA系数33'/35'执行空间-时间内插以获得经内插的前景信号49'(其也可被称作“经内插的nFG信号49'”)及剩余前景方向信息53(其也可被称作“V[k]向量53”)(116)。音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景信道信息43关于剩余前景V[k]向量53执行系数减少以获得经缩减前景方向信息55(其也可被称作经缩减前景V[k]向量55)(118)。
音频编码装置20可接着调用量化单元52以按上文所描述的方式压缩经缩减前景V[k]向量55且产生经译码前景V[k]向量57(120)。
音频编码装置20也可调用音质音频译码器单元40。音质音频译码器单元40可对经能量补偿的环境HOA系数47'及经内插的nFG信号49'的每一向量进行音质译码以产生经编码环境HOA系数59及经编码nFG信号61。音频编码装置可接着调用位流产生单元42。位流产生单元42可基于经译码前景方向信息57、经译码环境HOA系数59、经译码nFG信号61及背景信道信息43产生位流21。
图5B为说明音频编码装置执行本发明中所描述的转变技术的示范性操作的流程图。音频编码装置20可表示经配置以执行本发明中所描述的转变技术的音频编码装置的一个实例。确切地说,位流产生单元42可维持每一环境HOA系数(包含额外环境HOA系数)的转变状态信息(如下文关于图8更详细地描述)。转变状态信息可指示环境HOA系数中的每一者当前是否处于三个状态中的一者中。三个状态可包含淡入状态、不改变状态及淡出状态。维持转变状态信息可使得位流产生单元42能够减小位额外负荷,因为可基于音频解码装置24处所维持的转变状态信息导出一或多个语法元素。
位流产生单元42可进一步确定输送信道中的一者(例如下文关于图7D及7E论述的通道)中指定的环境HOA系数中的一者何时进行转变(302)。位流产生单元42可基于nFG45及背景信道信息43确定HOA系数何时进行转变。位流产生单元42可更新经确定为在转变中的HOA系数中的一者的转变状态信息(304)。基于经更新的转变状态信息,位流产生单元42可获得指示环境HOA系数何时进行转变的位(306)。位流产生单元42可生成位流21以包含指示HOA系数中的一者何时进行转变的位(308)。
尽管经描述为由位流产生单元42执行,但可由任何组合单元44、48、46及42执行前述技术。举例来说,声场分析单元44可基于背景信道信息43维持环境HOA系数中的每一者的转变状态信息。声场分析单元44可基于转变状态信息获得指示转变的位,且将此位提供到位流产生单元42。位流产生单元42接着可生成位流21以包含指示转变的位。
作为另一实例,背景选择单元48可基于背景信道信息43维持转变状态信息,且基于转变状态信息获得指示转变的位。位流产生单元42可从背景选择单元48获得指示转变的位,且生成位流21以包含指示转变的位。
作为又一实例,系数减少单元46可基于背景信道信息43维持转变状态信息,且基于转变状态信息获得指示转变的位。位流产生单元42可从系数减少单元46获得指示转变的位,且生成位流21以包含指示转变的位。
图6A为说明音频解码装置(例如,图4中所展示的音频解码装置24)执行本发明中所描述的技术的各种方面的示范性操作的流程图。最初,音频解码装置24可接收位流21(130)。在接收到位流后,音频解码装置24可调用提取单元72。出于论述的目的假定位流21指示将执行基于向量的重建构,提取单元72可剖析位流以检索上文所提及的信息,将所述信息传递到基于向量的重建构单元92。
换句话说,提取单元72可按上文所描述的方式从位流21中提取经译码前景方向信息57(再次,其也可被称作经译码前景V[k]向量57)、经译码环境HOA系数59及经译码前景信号(其也可被称作经译码前景nFG信号59或经译码前景音频对象59)(132)。
音频解码装置24可进一步调用解量化单元74。解量化单元74可对经译码前景方向信息57进行熵解码及解量化以获得经缩减前景方向信息55k(136)。音频解码装置24也可调用音质解码单元80。音质音频解码单元80可解码经编码环境HOA系数59及经编码前景信号61以获得经能量补偿的环境HOA系数47'及经内插的前景信号49'(138)。音质解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
音频解码装置24接下来可调用空间-时间内插单元76。空间-时间内插单元76可接收经重新排序的前景方向信息55k'且关于经缩减前景方向信息55k/55k-1执行空间-时间内插以产生经内插的前景方向信息55k”(140)。空间-时间内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可接收或以其它方式获得指示经能量补偿的环境HOA系数47'何时处于转变中的语法元素(例如,AmbCoeffTransition语法元素)(例如,从提取单元72)。淡化单元770可基于转变语法元素及维持的转变状态信息使经能量补偿的环境HOA系数47'淡入或淡出,从而将经调整的环境HOA系数47”输出到HOA系数制订单元82。淡化单元770也可基于语法元素及维持的转变状态信息,及使经内插的前景V[k]向量55k”中的对应一或多个元素淡出或淡入,从而将经调整的前景V[k]向量55k”'输出到前景制订单元78(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'乘以经调整的前景方向信息55k”'的矩阵乘法以获得前景HOA系数65(144)。音频解码装置24也可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65加到经调整的环境HOA系数47”以便获得HOA系数11'(146)。
图6B为说明音频解码装置执行本发明中所描述的转变技术的示范性操作的流程图。图4的实例中所示的音频解码装置24可表示经配置以执行本发明中所描述的转变技术的音频解码装置的一个实例。
确切地说,淡化单元770可获得位(呈指示757形式,其中指示757可表示AmbCoeffTransition语法元素),所述位指示环境HOA系数47'中的一者何时进行转变(352)。淡化单元770可基于指示转变的位维持下文关于图8的实例更详细地描述的转变状态信息(354)。转变状态信息可指示环境HOA系数中的每一者当前是否处于三个状态中的一者中。三个状态可包含淡入状态、不改变状态及淡出状态。
淡化单元770可通过至少部分基于环境HOA系数47'中的一者在转变中的指示757更新转变状态信息,维持转变状态信息。举例来说,淡化单元770可维持环境HOA系数47'中的一者的转变状态信息,其指示环境HOA系数47中的一者在不改变转变状态中。在获得环境HOA系数47'中的一者在转变中的指示之后,淡化单元770可更新环境HOA系数47'中的一者的转变状态信息以指示将淡出环境HOA系数47'中的一者。作为另一实例,淡化单元770可维持环境HOA系数47中的一者的转变状态信息,其指示已淡出环境HOA系数47'中的一者。在获得环境HOA系数47'中的一者在转变中的指示之后,淡化单元770可更新环境HOA系数47'中的一者的转变状态信息以指示将淡入环境HOA系数47'中的一者。淡化单元770接着可以上文关于图4所描述及下文关于图8更详细描述的方式基于经更新的转变状态信息来执行转变(356)。
图7A到7J为更详细地说明可指定经压缩空间分量的位流或旁侧信道信息的部分的图。在图7A的实例中,部分250包含呈现器识别符(“呈现器ID”)字段251及HOADecoderConfig字段252(其也可被称作HOAConfig字段252)。呈现器ID字段251可表示存储呈现器的ID的字段,所述ID被用于混合HOA内容。HOADecoderConfig字段252可表示经配置以存储信息以初始化HOA空间解码器(例如图4的实例中所示的音频解码装置24)的字段。
HOADecoderConfig字段252进一步包含方向信息(“方向信息”)字段253、CodedSpatialInterpolationTime字段254、SpatialInterpolationMethod字段255、CodedVVecLength字段256及增益信息字段257。方向信息字段253可表示存储信息以用于配置基于方向的合成解码器的字段。CodedSpatialInterpolationTime字段254可表示存储基于向量的信号的空间-时间内插的次数的字段。SpatialInterpolationMethod字段255可表示存储在基于向量的信号的空间-时间内插期间应用的内插类型的指示的字段。CodedVVecLength字段256可表示存储用以合成基于向量的信号的传输的数据向量的长度的字段。增益信息字段257表示存储指示应用于信号的增益校正的信息的字段。
在图7B的实例中,部分258A表示旁侧信息信道的一部分,其中部分258A包含帧标头259,所述帧标头包含字节数目字段260及nbits字段261。字节数目字段260可表示表达帧中包含的用于指定空间分量v1到vn的字节数目(包含字节对准的归零字段264)的字段。nbits字段261表示可指定经识别以用于解压缩空间分量v1到vn的nbits值。
如图7B的实例中所进一步展示,部分258A可包含用于v1到vn的子位流,其中的每一者包含预测模式字段262、霍夫曼表信息字段263及经压缩的空间分量v1到vn中的对应者。预测模式字段262可表示用以存储是否相对于经压缩的空间分量v1到vn中的对应者执行预测的指示的字段。霍夫曼表信息字段263表示用以至少部分指示哪一霍夫曼表将被用来解码经压缩的空间分量v1到vn中的对应者的各种方面的字段。
就此而言,所述技术可使得音频编码装置20能够获得包括声场的空间分量的经压缩的版本的位流,所述空间分量是通过相对于多个球谐系数执行基于向量的合成而产生的。
图7C为说明位流21的部分250的图。图7C的实例中所示的部分250包含HOAOrder字段(其在图7A的实例中出于方便说明的目的而未图示)、MinAmbHOAorder字段(其再次在图7A的实例中出于方便说明的目的而未图示)、方向信息字段253、CodedSpatialInterpolationTime字段254、SpatialInterpolationMethod字段255、CodedVVecLength字段256及增益信息字段257。如图7C的实例中所示,CodedSpatialInterpolationTime字段254可包括三位字段,SpatialInterpolationMethod字段255可包括一位字段,且CodedVVecLength字段256可包括两位字段。图7D为说明根据本发明中所描述的技术的各种方面指定的实例帧249Q及249R的图。如图7D的实例中所示,帧249Q包含ChannelSideInfoData(CSID)字段154A到154D、HOAGainCorrectionData(HOAGCD)字段、VVectorData字段156A及156B以及HOAPredictionInfo字段。CSID字段154A包含unitC语法元素(“unitC”)267、bb语法元素(“bb”)266及ba语法元素(“ba”)265以及ChannelType语法元素(“ChannelType”)269,其中的每一者被设定为图7D的实例中所示的对应值01、1、0及01。CSID字段154B包含unitC 267、bb 266及ba 265以及ChannelType 269,其中的每一者被设定为图7D的实例中所示的对应值01、1、0及01。CSID字段154C及154D中的每一者包含具有值3的ChannelType字段269(112)。CSID字段154A到154D中的每一者对应于输送信道1、2、3及4中的相应者。实际上,每一CSID字段154A到154D指示对应有效负载是基于方向的信号(在对应ChannelType等于零时)、基于向量的信号(在对应ChannelType等于一时)、额外环境HOA系数(在对应ChannelType等于二时)还是空信号(在ChannelType等于三时)。
在图7D的实例中,帧249Q包含两个基于向量的信号(在ChannelType 269在CSID字段154A及154B中等于1的情况下)及两个空信号(在ChannelType 269在CSID字段154C及154D中等于3的情况下)。在给定前述HOAconfig部分250的情况下,音频解码装置24可确定编码所有16个V-向量元素。因此,VVectorData 156A及156B各自包含所有16个向量元素,其中的每一者用8个位均匀地量化。经译码VVectorData元素的数目及索引由参数CodedVVecLength=0指定。此外,在用于对应输送信道的CSID字段中由NbitsQ=5用信号通知译码方案。
帧249Q及249R还包含HOA独立性旗标(“hoaIndependencyFlag”)860。HOA独立性旗标860表示指定帧是否为立即播出帧的字段。在将字段860的值设定为一时,帧249Q及/或249R可独立地解码而不参考其它帧(意思是可不需要预测来解码帧)。在将字段860的值设定为零时,帧249Q及/或249R可不为可独立解码的(意思是上文所描述的各种值的预测可从其它帧来预测)。此外,如图7D的实例中所示,帧249Q不包含HOAPredictionInfo字段。因此,HOAPredictionInfo字段可表示位流中的任选字段。
图7E为说明根据本发明中所描述的技术的各种方面指定的实例帧249S及249T的图。帧249S可类似于帧249Q,除了帧249S可表示将HOA独立性旗标860设定为零且因为从先前帧再使用输送数目2(其在图7E的实例中假设为5)关于Nbits语法元素的unitC部分发生预测的实例。帧249T也可类似于帧249Q,除了帧249T具有用于HOA独立性旗标860的值一。在此实例中,假设Nbits Q值的unitC部分可从先前帧再使用,如在帧249S的实例中。然而,因为将HOA独立性旗标(其也可表示为语法元素)设定为一,所以音频编码装置20指定第二输送信道的整个Nbits语法元素261,以使得帧249S可独立地解码,而不参考先前值(例如,从先前帧的Nbits字段261的unitC部分)。
而且,因为将HOA独立性旗标设定为一(意思是帧249T可独立地解码而不参考先前帧),所以音频编码装置20可不用信号发出用于标量量化的预测旗标,因为可独立解码的帧不允许进行预测(其可以另一方式表示以指本发明中论述的“立即播出帧”)。在将HOA独立性旗标语法元素860设定为一时,换句话说,音频编码装置20不必用信号发出预测旗标,因为音频解码装置24可基于HOA独立性旗标语法元素860的值确定已停用出于标量量化目的的预测。
图7F为说明经产生以与上文伪码中的状况1对应的第二实例位流248K及伴随的HOA配置部分250K的图。在图7F的实例中,HOAconfig部分250K包含CodedVVecLength语法元素256,其经设定以指示译码V-向量的所有元素,除了元素1到MinNumOfCoeffsForAmbHOA语法元素及ContAddAmbHoaChan语法元素中指定的元素(在此实例中假设为一)。HOAconfig部分250K还包含SpatialInterpolationMethod语法元素255,其经设定以指示空间-时间内插的内插函数为上升余弦。此外,HOAconfig部分250K包含CodedSpatialInterpolationTime254,其经设定以指示经内插的样本持续时间256。
HOAconfig部分250K进一步包含MinAmbHOAorder语法元素150,其经设定以指示环境HOA内容的MinimumHOA阶数为一,其中音频解码装置24可导出MinNumofCoeffsForAmbHOA语法元素等于(1+1)2或四。音频解码装置24也可导出MaxNoofAddActiveAmbCoeffs语法元素,如设定为NumOfHoaCoeff语法元素与MinNumOfCoeffsForAmbHOA之间的差,在此实例中假定其等于16-4或12。音频解码装置24也可导出AmbAsignmBits语法元素,如设定为ceil(log2(MaxNoOfAddActiveAmbCoeffs))=ceil(log2(12))=4。HOAconfig部分250K包含HoaOrder语法元素152,其经设定以指示内容的HOA阶数等于三(或,换句话说,N=3),其中音频解码装置24可导出NumOfHoaCoeffs等于(N+1)2或16。
如图7F的实例中所进一步展示,部分248K包含USAC-3D音频帧,其中在启用频谱带复制(SBR)时将两个音频帧存储于一个USAC-3D帧内的条件下,两个HOA帧249G及249H存储于USAC延伸有效负载中。音频解码装置24可依据numHOATransportChannels语法元素及MinNumOfCoeffsForAmbHOA语法元素导出数个灵活输送信道。在以下实例中,假设numHOATransportChannels语法元素等于7,且MinNumOfCoeffsForAmbHOA语法元素等于四,其中灵活输送通道的数目等于numHOATransportChannels语法元素减去MinNumOfCoeffsForAmbHOA语法元素(或三)。
图7G为更详细说明帧249G及249H的图。如图7G的实例中所示,帧249G包含CSID字段154A到154C及VVectorData字段156。CSID字段154包含CodedAmbCoeffIdx246、AmbCoeffIdxTransition 247(其中双星号(**)指示对于第1号灵活输送信道,此处假设解码器的内部状态为AmbCoeffIdxTransitionState=2,其导致在位流中用信号发出或以其它方式指定CodedAmbCoeffIdx位字段)及ChannelType 269(其等于二,用信号通知对应有效负载为额外环境HOA系数)。在此实例中,音频解码装置24可将AmbCoeffIdx导出为等于CodedAmbCoeffIdx+1+MinNumOfCoeffsForAmbHOA或5。CSID字段154B包含unitC 267、bb266及ba265以及ChannelType 269,其中的每一者被设定为图10K(ii)的实例中所示的对应值01、1、0及01。CSID字段154C包含具有值3的ChannelType字段269。
在图7G的实例中,帧249G包含单一基于向量的信号(在ChannelType 269在CSID字段154B中等于1的情况下)及空信号(在ChannelType 269在CSID字段154C中等于3的情况下)。在给定前述HOAconfig部分250K的情况下,音频解码装置24可确定11个V-向量元素经编码(其中12被导出为(HOAOrder+1)2-(MinNumOfCoeffsForAmbHOA)-(ContAddAmbHoaChan)=16-4-1=11)。因此,VVectorData 156包含所有11个向量元素,其中的每一者用8个位均匀量化。如由脚注1所指出,经译码VVectorData元素的数目及索引由参数CodedVVecLength=0指定。此外,如由脚注2所指出,在对应输送信道的CSID字段中由NbitsQ=5用信号发出译码方案。
在帧249H中,CSID字段154包含AmbCoeffIdxTransition 247,其指示尚未发生转变且因此CodedAmbCoeffIdx 246可从先前帧隐去,且不必用信号发出或以其它方式再次指定。帧249H的CSID字段154B及154C与帧249G的字段相同,且因此类似于帧249G,帧249H包含单一VVectorData字段156,其包含10该向量元素,其中的每一者用8个位均匀地经量化。音频编码装置20仅指定10个向量元素,因为输送信道号一中指定的环境HOA系数不再在转变中,且结果ContAddAmbHoaChan的数目等于二。因此,音频编码装置20确定指定的V-向量元素的数目为(HOAOrder+1)2-(MinNumOfCoeffsForAmbHOA)-(ContAddAmbHoaChan)=16-4-2=10。
虽然图7F及7G的实例表示根据V-向量的经译码模式中的一者建构的位流21,但可根据V-向量的另一译码模式建构位流21的各种其它实例。关于上文注明的第2014/194099号公开案更详细地论述额外实例。
图7H为说明根据本发明中所描述的技术的各种方面的帧249H的替代实例的图,其中将hoaIndependencyFlag设定为一。替代帧249H被表示为帧249H'。在将HOAIndependencyFlag语法元素860设定为一时,帧249H'可表示立即播出帧(IPF),如下文较详细论述。结果,音频编码装置20可指定CSID字段154A及154C中的额外语法元素。额外语法元素可提供由音频解码装置24基于过去语法元素维持的状态信息。然而,在IPF 249H'的情况下,音频解码装置24可不具有状态信息。结果,音频编码装置20指定CSID字段154A及154C中的AmbCoeffTransitionState语法元素400以允许音频解码装置24理解由CSID字段154A及154C中的每一者的AmbCoeffIdxTransition语法元素247用信号通知当前转变。
图7I为说明根据本文中所描述的技术的至少一个位流的一或多个信道的实例帧图。位流808包含帧810A到810E,所述帧可各自包含一或多个信道,且位流808可表示根据本文中所描述的技术修改的位流21的任何组合以便包含IPF。帧810A到810E可包含于相应存取单元内,且可替代地被称作“存取单元810A到810E”。
在所说明的实例中,立即播出帧(IPF)816包含独立帧810E以及来自IPF 816中表示的先前帧810B、810C及810D的状态信息作为状态信息812。也就是说,状态信息812可包含来自IPF 816中表示的处理先前帧810B、810C及810D的由状态机402维持的状态。状态信息812可使用位流808内的有效负载延伸编码于IPF 816内。状态信息812可补偿解码器启动延迟以在内部配置解码器状态,以使得能够正确地解码独立帧810E。出于此原因,状态信息812可替代地及共同地被称作用于独立帧810E的“预滚”。在各种实例中,可由解码器使用较多或较少帧以补偿解码器启动延迟,所述解码器启动延迟确定帧的状态信息812的量。独立帧810E为独立的,因为可独立地解码帧810E。结果,帧810E可被称为“可独立解码的帧810”。结果,独立帧810E可构成位流808的流存取点。
状态信息812可进一步包含可在位流808的开始处发送的HOAconfig语法元素。状态信息812可例如描述位流808位速率或可用于位流切换或位速率调适的其它信息。可包含状态信息814的什么部分的另一实例为图7C的实例中所示的HOAConfig语法元素。就此而言,IPF 816可表示无状态帧,其可不以扬声器的方式具有过去的任何存储器。换句话说,独立帧810E可表示无状态帧,其可经解码而不管任何先前状态(在就状态信息812而言提供状态时)。
当选择帧810E为独立帧时,音频编码装置20可执行将帧810E从可依赖性地解码帧转变到可独立解码帧的过程。所述过程可涉及在帧中指定包含转变状态信息的状态信息812,所述状态信息使得能够在不参考位流的先前帧的情况下解码及播放帧的经编码音频数据的位流。
解码器(例如,解码器24)可在IPF 816处随机地存取位流808且,当解码状态信息812以初始化解码器状态及缓冲器(例如,解码器侧状态机402)时,解码独立帧810E以输出HOA系数的经压缩版本。状态信息812的实例可包含下表中所指定的语法元素:
解码器24可从状态信息812剖析前述语法元素以获得呈NbitsQ语法元素形式的量化状态信息、呈PFlag语法元素形式的预测状态信息及呈AmbCoeffTransitionState语法元素形式的转变状态信息中的一或多者。解码器24可用经剖析状态信息812配置状态机402以使得帧810E能够独立地解码。解码器24可在解码独立帧810E之后继续对帧进行有规律的解码。
根据本文所描述的技术,音频编码装置20可经配置以按不同于其它帧810的方式产生IPF 816的独立帧810E以准许在独立帧810E处立即播出及/或在相同内容的音频表示之间切换(所述表示在位速率及/或独立帧810E处的启用工具上不同)。更具体来说,位流产生单元42可使用状态机402维持状态信息812。位流产生单元42可产生独立帧810E以包含用以配置状态机402以用于一或多个环境HOA系数的状态信息812。位流产生单元42可进一步或替代地产生独立帧810E以按不同方式编码量化及/或预测信息以便(例如)相对于位流808的其它非IPF帧减小帧大小。此外,位流产生单元42可按状态机402的形式维持量化状态。另外,位流产生单元42可编码帧810A到810E的每一帧以包含指示帧是否为IPF的旗标或其它语法元素。所述语法元素在本发明中的别处可被称作IndependencyFlag或HOAIndependencyFlag。
就此而言,作为一实例,所述技术的各种方面可使得音频编码装置20的位流产生单元42能够在位流(例如,位流21)中指定:包含高阶立体混响系数(例如,以下各者中的一者:环境高阶立体混响系数47'、用于独立帧(例如,在图7I的实例中,独立帧810E)用于高阶立体混响系数47'的转变信息757(例如,作为状态信息812的部分)。独立帧810E可包含使得能够在不参考高阶立体混响系数47'的先前帧(例如,帧810A到810D)的情况下解码及立即重放独立帧的额外参考信息(其可指状态信息812)。虽然描述为立即或瞬时重放,但术语“立即”或“瞬时”是指几乎立即、随后或几乎瞬时重放且并非既定指“立即”或“瞬时”的文字定义。此外,术语的使用是出于采用贯穿各种标准(当前的及新兴的)使用的语言的目的。
在这些及其它情况下,转变信息757指定是否淡出高阶立体混响系数47'。如上所指出,转变信息757可识别是淡出还是淡入高阶立体混响系数47',及因此高阶立体混响系数47'是否被用来表示声场的各种方面。在一些情况下,位流产生单元42将转变信息757指定为各种语法元素。在这些及其它情况下,转变信息757包括用于高阶立体混响系数47'的AmbCoeffWasFadedIn旗标或AmbCoeffTransitionState语法元素以指定是否将淡出高阶立体混响系数47'以进行转变。在这些及其它情况下,转变信息指定高阶立体混响系数47'在转变中。
在这些及其它情况下,转变信息757包括AmbCoeffIdxTransition旗标以指定高阶立体混响系数47'在转变中。
在这些及其它情况下,位流产生单元42可经进一步配置以产生表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于高阶立体混响系数47'的向量(例如经缩减前景V[k]向量55中的一者)的元素。向量55可描述声场的相异分量的空间方面,且可从描述声场的高阶立体混响系数11分解,其中帧包括基于向量的信号。
在这些及其它实例中,位流产生单元42可经进一步配置以经由流式传输协议输出帧。
在某一实例中,技术的各种方面也可使得位流产生单元42能够在包含高阶立体混响系数47'的位流21中指定用于高阶立体混响系数47'的帧是否为独立帧(例如,通过指定HOAIndependencyFlag语法元素),所述独立帧包含额外参考信息(例如,状态信息812)以使得帧能够被解码及立即播放,而不用参考高阶立体混响系数47'的先前帧810A到810D。位流产生单元42也可在位流21中及仅在帧不为独立帧时指定帧的预测信息(例如,Pflag语法元素)以用于参考高阶立体混响系数47'的先前帧解码所述帧。
在这些及其它实例中,位流产生单元42经进一步配置以在位流21中及在帧为独立帧时指定帧的量化信息(例如,NbitsQ语法元素),所述量化信息足以使得帧能够被解码及立即播放而不用参考高阶立体混响系数47'的先前的的量化信息。位流产生单元42也可在位流21中及在帧不为独立帧的情况下指定帧的量化信息,所述量化信息不足以使得帧能够被解码及立即播放而不用参考高阶立体混响系数47'的先前帧的量化信息。
在这些及其它实例中,帧的量化信息包含足以使得帧能够被解码及立即播放而不用参考高阶立体混响信道的先前帧的量化信息的帧的Nbits语法元素。
在这些及其它实例中,位流产生单元42经进一步配置以产生表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于高阶立体混响系数47'的向量(例如向量55)的元素,所述向量描述声场的相异分量的空间方面,且已从描述声场的高阶立体混响系数11分解。在此实例中,帧包括基于向量的信号。
在这些及其它实例中,位流产生单元42经进一步配置以经由流式传输协议输出帧。
在某一实例中,技术的各种方面也可使得位流产生单元42能够在包含高阶立体混响系数47'的位流21中指定用于高阶立体混响系数47'的帧为独立帧,所述独立帧包含额外参考信息以使得能够在不参考高阶立体混响系数47'的先前帧的情况下解码及立即播放所述帧。
在这些及其它实例中,位流产生单元42经配置以在指定用于高阶立体混响系数47'的帧为独立帧810E时,在位流21中用信号发出IndependencyFlag语法元素,所述IndependencyFlag语法元素指示帧为独立帧810E。
此外,技术的各种方面可使得音频解码装置24能够经配置以使用包含高阶立体混响系数47的位流21获得高阶立体混响系数47'的独立帧的转变信息(例如图4的实例中所示的转变信息757)。独立帧可包含状态信息812以使得能够在不参考高阶立体混响系数47'的先前帧的情况下解码及播放独立帧。
在这些及其它情况下,转变信息757指定是否将淡出高阶立体混响系数47'以进行转变。
在这些及其它情况下,转变信息757包括高阶立体混响信道的AmbCoeffWasFadedIn旗标以指定是否将淡出高阶立体混响系数47'以进行转变。
在这些及其它情况下,音频解码装置24可经配置以确定转变信息757指定将淡出高阶立体混响系数47'以进行转变。音频解码装置24还可经配置以响应于确定转变信息757指定将淡出高阶立体混响系数47'进行转变,对于高阶立体混响系数47'执行淡出操作。
在这些及其它情况下,转变信息757指定高阶立体混响系数47'在转变中。
在这些及其它情况下,转变信息757包括AmbCoeffTransition旗标以指定高阶立体混响系数47'在转变中。
在这些及其它情况下,音频解码装置24可经配置以获得表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于高阶立体混响系数47'的向量55k”的元素。如上所指出,向量55k”可描述声场的相异分量的空间方面,且可从描述声场的高阶立体混响系数11分解。音频解码装置24还可经配置以确定转变信息757指定将淡出高阶立体混响系数47'。音频解码装置24还可经配置以响应于确定转变信息757指定将淡出高阶立体混响系数47以进行转变,对于对应于高阶立体混响信道47的向量55k”的元素执行淡出操作,以使用高阶立体混响系数47'的帧或后续帧淡出向量55k”的元素。
在这些及其它情况下,音频解码装置24可经配置以经由流式传输协议输出帧。
技术的各种方面也可使得音频解码装置24能够经配置以使用包含高阶立体混响系数47'的位流21确定高阶立体混响系数47'的帧是否为独立帧,所述独立帧包含额外参考信息(例如,状态信息812)以使得能够在不参考高阶立体混响系数47'的先前帧810A到810D的情况下解码及播放帧。音频解码装置24还可经配置以从位流21及仅响应于确定帧不为独立帧而获得帧的预测信息(例如,来自状态信息812)以用于参考高阶立体混响系数47'的先前帧解码所述帧。
在这些及其它情况下,音频解码装置24可经配置以获得表示声场的一或多个相异分量的基于向量的信号,所述信号包含对应于高阶立体混响系数47'的向量55k”的元素。向量55k”可描述声场的相异分量的空间方面,且可从描述声场的高阶立体混响系数11分解。音频解码装置24还可经配置以使用预测信息解码基于向量的信号。
在这些及其它情况下,音频解码装置24可经配置以使用位流21及在帧为独立帧的情况下获得帧的量化信息(例如,来自状态信息812),所述量化信息足以使得能够在不参考先前帧的量化信息的情况下解码及播放帧。音频解码装置24还可经配置以使用位流21及在帧不为独立帧的情况下获得帧的量化信息,所述量化信息不足以使得能够在不参考先前帧的量化信息的情况下解码及播放帧。音频解码装置24还可经配置以使用量化信息解码帧。
在这些及其它情况下,帧的量化信息包含帧的Nbits语法元素,所述Nbits语法元素足以使得能够在不参考先前帧的量化信息的情况下解码及播放帧。
在这些及其它情况下,音频解码装置24可经配置以经由流式传输协议输出帧。
技术的各种方面可进一步使得音频解码装置24能够经配置以使用包含高阶立体混响系数47'的位流21确定高阶立体混响系数47'的帧为独立帧,所述独立帧包含额外参考信息(例如,状态信息812)以使得能够在不参考先前帧的情况下解码及播放帧。
在这些及其它情况下,在确定高阶立体混响信道的帧为独立帧时,音频解码装置24可使用位流21获得IndependencyFlag语法元素,所述IndependencyFlag语法元素指示帧为独立帧。
图7J为说明根据本文中所描述的技术的至少一位流的一或多个信道的实例帧的图。位流450包含各自可包含一或多个信道的帧810A到810H。位流450可表示图7A到7H的实例中所展示的位流21的任何组合。位流450可实质上类似于位流808,其例外之处在于位流450并不包含IPF。因此,音频解码装置24维持状态信息,从而更新状态信息以确定如何解码当前帧k。音频解码装置24可利用来自配置814及帧810B到810D的状态信息。帧810E与IPF816之间的差异为:帧810E并不包含前述状态信息,而IFP 816包含前述状态信息。
换句话说,音频编码装置20可在位流产生单元42内包含(例如)状态机402,其维持用于编码帧810A到810E中的每一者的状态信息,这是因为位流产生单元42可基于状态机402指定用于帧810A到810E中的每一者的语法元素。
音频解码装置24同样可在位流提取单元72内包含(例如)类似状态机402,其基于状态机402输出语法元素(所述语法元素中的一些语法元素未在位流21中明确地指定)。音频解码装置24的状态机402可按与音频编码装置20的状态机402的方式类似的方式操作。因此,音频解码装置24的状态机402可维持状态信息,从而基于配置814(及,在图7J的实例中,帧810B到810D的解码)更新状态信息。基于状态信息,位流提取单元72可基于由状态机402维持的状态信息提取帧810E。状态信息可提供数个隐含语法元素,音频编码装置20可在解码帧810E的各种输送信道时利用所述隐含语法元素。
图8为说明例如图4的实例中所示的音频解码装置24等音频解码装置可将本发明中所描述的技术应用于的音频信道800A到800E的图。如图8的实例中所示,背景信道800A表示为(n+1)2个可能HOA系数中的第四者的环境HOA系数。前景信道800B及800D分别表示第一V-向量及第二V-向量。背景信道800C表示环境HOA系数,所述环境HOA系数为(n+1)2个可能HOA系数中的第二者。背景信道800E表示环境HOA系数,所述环境HOA系数为(n+1)2个可能HOA系数中的第五者。
如图8的实例中所进一步展示,背景信道800A中的环境HOA系数4在帧13期间经历一段时期的转变(淡出),而前景信道800D中的向量的元素在帧14期间淡入以在解码位流期间替换背景信道800A中的环境HOA系数4。在信道800A到800E中的一者替换信道800A到800E中的另一者的上下文中对术语“替换”的引用是指音频编码装置20产生位流21以具有灵活输送信道的实例。
为了进行说明,图8中的三个行中的每一者可表示输送信道。取决于输送信道当前所指定的经编码音频数据的类型,输送信道中的每一者可被称为背景信道或前景信道。举例来说,在输送信道指定最小环境HOA系数或额外环境HOA系数中的一者时,输送信道可被称为背景信道。在输送信道指定V-向量时,输送信道可被称为前景信道。输送信道因此可指背景信道及前景信道两者。就此而言,前景信道800D可被描述为在第一输送信道的帧14处替换背景信道800A。背景信道800E也可被描述为在第三输送信道中的帧13处替换背景信道800C。尽管是关于三个输送信道进行描述,但位流21可包含任何数目个输送信道,包含零个输送信道到两个、三个或甚至更多输送信道。就此而言,技术因此不应受到限制。
在任何情况下,图8的实例通常也展示前景信道800B的向量的元素在帧12、13及14中会改变(如下文更详细地描述),且向量长度在帧期间会发生改变。背景信道800C中的环境HOA系数2在帧12期间经历转变。背景信道800E中的环境HOA系数5在帧13期间经历转变(淡入)以在解码位流期间替换背景信道800C中的环境HOA系数2。
在转变的上文所描述的周期期间,音频编码装置20可在位流中指定AmbCoeffTransition旗标757,其中信道800A、800C、800D及800E中的每一者的值为一以指示相应环境信道800A、800C及800E中的每一者在相应帧13、12及13中正在转变。在给定AmbCoeffTransitionMode的先前状态的情况下,音频编码装置20因此可将AmbCoeffTransition旗标757提供到音频解码装置24,以便指示相应系数转变离开(或,换句话说,淡出)位流或转变成(或,换句话说淡入)位流。
音频解码装置24接着可如上文所论述般操作以识别位流中的信道800,且执行淡入或淡出操作,如下文所更详细地论述。
此外,作为各种环境信道800A、800C及800E的淡入及淡出的结果,在特定的向量量化中,音频编码器装置20可使用数目减少的元素指定前景信道800B及800D中的V-向量,如上文关于图3的实例中所示的音频编码装置20所描述。音频解码装置24可关于四个不同重建构模式进行操作,所述重建构模式中的一者可涉及在来自V-向量元素的能量已被并入到中基础环境HOA系数时所述元素的减少。前述内容通常可由以下伪码表示:
%%从音频帧中填充缓冲器
fgVecBuf(:,transportChannelsWithDistinctComponents)=
audioFrame(:,transportChannelsWithDistinctComponents);
%%1.重建构新生成的相异分量(如果有的话)
%%2.重建构连续的相异分量(如果有的话)且应用空间-时间内插
%检查在帧中存在处于转变中的环境HOA系数的情况下应用淡入/淡出
%%3.添加默认环境HOA系数
reconstructedHoaFrame(:,1:decompressionState.MinNoOfCoeffsForAmbientHOA)=
audioFrame(:,NoOfAdditionalPerceptualCoders+1:end);
%%4.adding frame-dependent ambient HOA coefficients
reconstructedHoaFrame(:,addAmbHoaChannels)=
reconstructedHoaFrame(:,addAmbHoaChannels)+
audioFrame(:,transportChannelsWithAddAmbientHoa);
前述伪码具有四个不同部分或重建构操作模式,其由注释(其以百分号(“%”)开始)表示,注释后面跟着数目1到4。第一重建构模式的第一部分提供用于重建构新引入的相异分量(当存在时)的伪码。第二重建构模式的第二部分提供用于重建构连续相异分量(当存在时)及应用空间-时间内插的伪码。在伪码的第二部分中,存在对前景V-向量内插缓冲器(fgVecInterpBuf)执行的交叉淡入及交叉淡出操作以与本发明中所描述的技术的各种方面一致地淡入新HOA系数及淡出旧HOA系数。第三重建构模式的第三部分提供用于添加默认环境HOA系数的伪码。第四重建构模式的第四部分提供用于与本发明中所描述的技术的各种方面一致地添加帧-依赖性HOA系数的伪码。
换句话说,为了减少传输的V-向量元素的数目,可仅传输未被编码为环境HOA系数的HOA声场的元素。在一些情况下,考虑到经编码声场的改变,环境分量的总数目或实际HOA系数可为动态的。然而,在淡入或淡出包含环境HOA系数的背景信道的时候,可存在由能量的改变导致的明显假影。
举例来说,参看图8,在帧10及11中,存在两个背景信道800A及800C以及一个前景信道800B。在帧10及11中,前景信道800B中指定的V-向量可不包含背景信道800A及800C中所指定的环境HOA系数47'的上混系数,因为可直接编码背景信道800A及800C中指定的环境HOA系数47'。在帧12中,在此实例中,淡出背景信道800C中指定的环境HOA系数47'。换句话说,音频解码装置24可使用任何类型的淡化(例如图8中所示的线性淡入)淡出背景信道800C中指定的环境HOA系数47'。也就是说,尽管经展示为线性淡入,但音频解码装置24可执行任何形式的淡入操作,包含非线性淡入操作(例如,指数淡入操作)。在帧13中,在此实例中,淡出背景信道800A中指定的环境HOA系数47',且在此实例中,淡入背景信道800E中指定的环境HOA系数47'。位流21可在淡出或淡入背景信道中指定的环境HOA系数47'时用信号通知事件,如上文所描述。音频解码装置24可类似地执行任何形式的淡出操作,包含图8的实例中所示的线性淡入操作及非线性淡出操作。
在图8的实例中,音频编码装置20可维持状态信息,所述状态信息指示图8中所示及上文所描述的三个输送信道中的一者中指定的每一环境HOA系数的转变状态。对于背景信道800A,音频编码装置20可维持AmbCoeffWasFadedIn[i](“WasFadedIn[i]”)语法元素(其也可表示为状态元素)、AmbCoeffTransitionMode[i](“TransitionMode[i]”)语法元素(其也可表示为状态元素)及AmbCoeffTransition(“转变”)语法元素。WasFadedIn[i]及TransitionMode[i]状态元素可指示信道800A中指定的环境HOA系数的给定状态。存在三个转变状态,如上文的HOAAddAmbInfoChannel(i)语法表中所概述。第一转变状态为不转变,其由设定为零(0)的AmbCoeffTransitionMode[i]状态元素表示。第二转变状态为额外环境HOA系数的,其由设定为一(1)的AmbCoeffTransitionMode[i]状态元素表示。第三转变状态为额外环境HOA系数的淡出,其由设定为二(2)的AmbCoeffTransitionMode[i]状态元素表示。音频编码装置20使用WasFadedIn[i]状态元素来再次更新TransitionMode[i]状态元素,如上文在HOAAddAmbInfoChannel(i)语法表中所概述。
音频解码装置24同样可维持AmbCoeffWasFadedIn[i](“WasFadedIn[i]”)语法元素(其也可表示为状态元素)、AmbCoeffTransitionMode[i](“TransitionMode[i]”)语法元素(其也可表示为状态元素)及AmbCoeffTransition(“转变”)语法元素。再次,WasFadedIn[i]及TransitionMode[i]状态元素可指示信道800A中指定的环境HOA系数的给定状态。音频解码装置24处的状态机402(如图7J中所描绘)同样可被配置成三个转变状态中的一者,如上文在实例HOAAddAmbInfoChannel(i)语法表中所概述。再次,第一转变状态为不转变,其由设定为零(0)的AmbCoeffTransitionMode[i]状态元素表示。第二转变状态为额外环境HOA系数的淡入,其由设定为一(1)的AmbCoeffTransitionMode[i]状态元素表示。第三转变状态为额外环境HOA系数的淡出,其由设定为二(2)的AmbCoeffTransitionMode[i]状态元素表示。音频解码装置24使用WasFadedIn[i]状态元素再次更新TransitionMode[i]状态元素,如上文在HOAAddAmbInfoChannel(i)语法表中所概述。
返回参看背景信道800A,音频编码装置20可在帧10处维持状态信息(例如,图7J的实例中所示的状态信息812),其指示将WasFadedIn[i]状态元素设定为一且将TransitionMode[i]状态元素设定为零,其中i表示指派给环境HOA系数的索引。音频编码装置20可出于确定语法元素(AmbCoeffTransition及对于立即播出帧WasFadedIn[i]或替代AmbCoeffIdxTransition及对于立即播出帧AmbCoeffTransitionState[i])的目的维持状态信息812,发送所述语法元素以便允许音频解码装置24对于前景信道的V-向量的环境HOA系数及元素执行淡入或淡出操作。尽管被描述为出于产生及指定适当语法元素的目的维持状态信息812,但也可由音频编码装置20执行技术以实际上转变元素,由此可能从音频解码装置24处执行的操作移除额外操作,且促进更有效的解码(在功率功效、处理器循环等方面)。
音频编码装置20接着可确定在先前帧9中是否指定相同HOA系数4(图8的实例中未图示)。在指定时,音频编码装置20可在位流21中指定具有零值的转变语法元素。音频编码装置20也可维持信道800C的状态信息812,其与针对信道800A指定的状态信息相同。作为经由信道800C及800A指定具有索引2及4的两个环境HOA系数47'的结果,音频编码装置20可指定具有总共23个元素(阶数N=4,其为(4+1)2-2或25-2以确定23个元素)的V-向量(“Vvec”)。音频编码装置20可指定元素[1,3,5:25],其省略对应于具有索引2及4的环境HOA系数47'的元素。在不出现转变直到帧12为止的条件下,音频编码装置20在帧11期间维持信道800A及800C的相同状态信息。
音频解码装置24可类似地在帧10处维持状态信息(例如,图7J的实例中所示的状态信息812),其指示将WasFadedIn[i]状态元素设定为一,且将TransitionMode[i]状态元素设定为零。音频解码装置24可出于基于在位流21中发送的语法元素(AmbCoeffTransition)低估恰当转变的目的维持状态信息812。换句话说,音频解码装置24可调用状态机402基于位流21中指定的语法元素来更新状态信息812。状态机812可基于上文关于实例HOAAddAmbInfoChannel(i)语法表更详细地描述的语法元素,从上文提到的三个转变状态中的一者转变到三个状态中的另一者。换句话说,取决于在位流及状态信息812中用信号发出的AmbCoeffTransition语法元素的值,音频解码装置24的状态机402可在不转变、淡出及淡入状态之间切换,如下文关于实例帧12、13及14所描述。
因此,音频解码装置24可经由帧10及11处的背景信道800A获得具有索引4的环境HOA系数47'。音频解码装置24也可经由帧10及11处的背景信道800C获得具有索引2的环境HOA系数47'。音频解码装置24可在帧10期间且针对具有索引2及4的环境HOA系数47'中的每一者获得指示,其指示具有索引2及4的环境HOA系数47'是否在帧10期间进行转变。音频解码装置24的状态机402可进一步维持具有索引2的呈WasFadedIn[2]及TransitionMode[2]状态元素形式的环境HOA系数47'的状态信息812。音频解码装置24的状态机402可进一步维持具有索引4的呈WasFadedIn[4]及TransitionMode[4]状态元素形式的环境HOA系数47'的状态信息812。在具有索引2及4的环境HOA系数47'的状态信息指示系数47'处于不转变状态且基于指示具有索引2及4的环境HOA系数47'在帧10或11期间不在转变中的转变指示的条件下,音频解码装置24可确定前景信道800B中指定的经缩减向量55k”,其包含向量元素[1,3,5:23],且省略对应于对于帧10及11两者具有索引2及4的环境HOA系数47'的元素。音频解码装置24接着可通过(作为一个实例)正确地剖析经缩减向量55k”的23个元素从帧10及11的位流21获得经缩减向量55k”。
在帧12处,音频编码装置20确定将淡出由信道800C携载的具有索引2的环境HOA系数。因此,音频编码装置20可在信道800C的位流21中指定转变语法元素,所述转变语法元素具有值一(指示转变)。音频编码装置20可分别将信道800C的内部状态元素WasFadedIn[2]及TransitionMode[2]更新为零及二。作为状态从不转变改变到淡出的结果,音频编码装置20可将对应于具有索引2的环境HOA系数47'的V-向量元素添加到前景信道800B中指定的V-向量。
音频解码装置24可调用状态机402以更新信道800C的状态信息812。状态机402可分别将信道800C的内部状态元素WasFadedIn[2]及TransitionMode[2]更新为零及二。基于更新的状态信息812,音频解码装置24可确定具有索引2的环境HOA系数47'在帧12期间淡出。音频解码装置24可进一步确定帧12的经缩减向量55k”包含对应于具有索引2的环境HOA系数47'的额外元素。音频解码装置24接着可递增前景信道800B中指定的经缩减向量55k”的向量元素的数目以反映额外向量元素(其在图8的实例中表示为Vvec元素在帧12处等于24)。音频解码装置24接着可基于向量元素的经更新数目获得经由前景信道800B指定的经缩减向量55k”。音频解码装置24在获得经缩减向量55k”之后可在帧12期间淡入额外V-vec元素2(表示为“V-vec[2]”)。在帧13中,音频编码装置20指示两个转变,一个转变用于用信号通知HOA系数4正在转变或淡出,且另一转变向信道800C指示HOA系数5正在转变或淡入。虽然信道实际上不改变,但出于表示信道所指定的改变的目的,信道可在转变之后表示为信道800E。
换句话说,音频编码装置20及音频解码装置24可在每输送信道的基础上维持状态信息。因此,由三个输送信道中的相同者携载背景信道800A及前景信道800D,同时背景信道800C及800E也由三个输送信道中的相同者携载。在任何情况下,音频编码装置20可维持背景信道800E的转变状态信息,其指示淡入具有索引5及经由背景信道800E指定的环境HOA系数47'(例如,WasFadedIn[5]=1),且淡入转变模式(例如,TransitionMode[5]=1)。音频编码装置20也可维持信道800A的转变状态信息,其指示不再淡入具有索引4的环境HOA系数(例如,WasFadedIn[4]=0)及淡出转变模式(例如,TransitionMode[4]=2)。
音频解码装置24可再次维持类似于上文关于音频编码装置20所描述的状态信息的状态信息812,且基于经更新的状态信息,淡出具有索引4的环境HOA系数47',同时淡入具有索引5的环境HOA系数47'。换句话说,音频解码装置24可在帧13期间获得信道800A的转变语法元素,其指示具有索引4的环境HOA系数47'在转变中。音频解码装置24可调用状态机402以处理转变语法元素以更新WasFadedIn[4]及TransitionMode[4]语法元素,从而指示不再淡入具有索引4的环境HOA系数47'(例如,WasFadedIn[4]=0)且淡出转变模式(例如,TransitionMode[4]=2)。
音频解码装置24也可在帧13期间获得信道800C的转变语法元素,其指示具有索引5的环境HOA系数47'在转变中。音频解码装置24可调用状态机402以处理转变语法元素以更新WasFadedIn[5]及TransitionMode[5]语法元素,从而指示在帧13期间淡入具有索引4的环境HOA系数47'(例如,WasFadedIn[5]=1)及淡入转变模式(例如,TransitionMode[5]=1)。音频解码装置24可对于具有索引4的环境HOA系数47'执行淡出操作,且对于具有索引5的环境HOA系数47'执行淡入操作。
然而,音频解码装置24可利用具有25个元素的完整V-向量(再次假定第四阶表示),以使得可淡入Vvec[4],且可淡出Vvec[5]。因此,音频编码装置20可在具有25个元素的前景信道800B中提供V-vec。
在存在三个输送信道的条件下,其中的两个输送信道经历转变,而三个输送信道中的剩余输送信道为前景信道800B,音频解码装置24可确定经缩减向量55k”可在实例情形中包含所有24个向量元素。结果,音频解码装置24可从具有所有25个向量元素的位流21获得经缩减向量55k”。音频解码装置24接着可在帧13期间淡入与具有索引4的环境HOA系数47'相关联的经缩减向量55k”的向量元素以补偿能量损失。音频解码装置24接着可在帧13期间淡出与具有索引5的环境HOA系数47'相关联的经缩减向量55k”的向量元素以补偿能量增益。
在帧14处,音频编码装置20可提供替换输送信道中的背景信道800A的另一V-向量,其可在前景信道800D中指定。在不存在环境HOA系数的转变的条件下,在不必发送对应于具有索引5的环境HOA系数47'的元素的条件下(作为在背景信道800E中发送具有索引5的环境HOA系数47'的结果),音频编码装置20可指定具有24个元素的前景信道800D及800B中的V-向量。就此而言,帧14可表示为帧13的后续帧。在帧14中,环境HOA系数47'经指定于背景信道800E中,且不在转变中。结果,音频编码装置20可从前景信道800B中指定的经缩减向量55k”移除对应于背景信道800E中指定的环境HOA系数47'的V-向量元素,由此产生经更新的经缩减V-向量(具有24个元素,而不是先前帧中的25个元素)。
音频解码装置24可在帧14期间调用状态机402以更新状态信息812来指示具有索引5且经由背景信道800E指定的环境HOA系数47'不在转变中(“TransitionMode[5]=0”)且先前被淡入(“WasFadedIn[5]=1”)。结果,音频解码装置24可确定前景信道800D及800B中指定的经缩减向量55k”具有24个向量元素(因为未指定与具有索引5的环境HOA系数47'相关联的向量元素)。然而,音频解码装置24可在帧14期间淡入前景信道800D中指定的经缩减向量55k”的所有向量元素,因为先前在先前帧中的位流中并未指定元素。
在帧15处,在再次未发生转变的情况下,音频编码装置20及音频解码装置24维持与帧14处的状态相同的状态。
就此而言,技术可使得音频编码装置20能够经配置以确定环境高阶立体混响系数47'(如例如背景信道800C中所指定)在表示经编码音频数据(其可指环境HOA系数、前景音频对象及对应V-向量的任何组合)的位流21的帧期间何时进行转变(如首先在图3及4中所展示及稍后在图8中详细说明),环境高阶立体混响系数47'至少部分表示声场的环境分量。音频编码装置20还可经配置以识别与在转变中的环境高阶立体混响系数47'相关联的向量(例如剩余前景V[k]向量53中的一者)的元素。向量53可至少部分表示声场的空间分量。音频编码装置20可经进一步配置以基于向量53产生经缩减向量55以包含帧的向量的经识别元素。为了进行说明,考虑到在帧12处的前景信道800B(其中音频编码装置20产生经缩减向量55以包含对应于帧12处的背景信道800C中指定的环境HOA系数2的V-向量元素),其在图8的实例中表示为Vvec[2]。音频编码装置20还可经配置以生成位流21以包含指示经缩减向量的位及指示环境高阶立体混响系数47'在帧期间的转变的位(例如,如图4中所描绘的指示757)。
在这些及其它情况下,音频编码装置20可经配置以基于在转变中的环境高阶立体混响系数维持转变状态信息。举例来说,音频编码装置20可包含图7I的实例中所示的状态机402,所述状态机维持转变状态信息及任何其它状态信息812。音频编码装置20可经进一步配置以基于转变状态信息获得转变的指示757。
在这些及其它情况下,转变状态信息指示不转变状态、淡入状态及淡出状态中的一者。
在这些及其它情况下,音频编码装置20可经配置以生成位流21以另外包含指示状态信息812的位,所述状态信息包含帧中的转变状态信息。指示状态信息812的位可使得能够在不参考位流21的先前帧的情况下解码帧。
在这些及其它情况下,状态信息812包含量化信息。
在这些及其它情况下,经由流式传输协议输出帧。
在这些及其它情况下,指示转变的位757指定在帧期间是否将由例如音频解码装置24等解码器淡出高阶立体混响系数。
在这些及其它情况下,指示转变的位指定在帧期间是否将由例如音频解码装置24等解码器淡入高阶立体混响系数。
在这些及其它情况下,音频编码装置20可经配置以通过移除与在后续帧期间不在转变中的环境高阶立体混响系数47'相关联的向量53的第二元素来更新经缩减向量55。为了进行说明,考虑帧14,其中音频编码装置20更新帧13的经缩减向量55以移除与具有索引五的环境HOA系数相关联的帧13的经缩减向量55的元素(其中元素经表示为“Vvec[5]”)。音频编码装置20可经进一步配置产生位流21以在后续帧14期间包含指示经更新的经缩减向量的位及指示具有索引5的环境高阶立体混响系数47'不在转变中的位。
在这些及其它情况下,音频编码装置20可经配置以执行上文结合上文所描述的技术的转变方面更详细描述的技术的独立方面。
此外,技术的转变方面可使得音频解码装置24能够经配置以从表示经编码音频数据的位流21的帧(例如,图8中的帧10到15)获得指示经缩减向量的位。经编码音频数据可包含HOA系数11或其衍生物的经编码版本,其意指(作为一个实例)经编码环境HOA系数59、经编码nFG信号61、经译码前景V[k]向量57及指示其前述各者中的每一者的任何伴随的语法元素或位。经缩减向量可至少部分表示声场的空间分量。经缩减向量可指上文关于图4的实例所描述的经缩减前景V[k]向量55k”中的一者。音频解码装置24可经进一步配置从帧获得指示环境高阶立体混响系数47'的转变(如例如在信道800C中指定)的位757(图4中所展示且在图8的实例中表示为“转变”旗标)。环境高阶立体混响系数47'可至少部分表示声场的环境分量。经缩减向量可包含与在转变中的环境高阶立体混响系数相关联的向量元素,例如在帧13的实例中,其中前景信道800B包含与背景信道800E相关联的V-向量元素5。经缩减向量可指经缩减前景V[k]向量55k”中的一者,且因此可表示为经缩减向量55k”。
在这些及其它情况下,音频解码装置24可经进一步配置根据多个模式(例如,模式0、模式1及模式2)的上文所描述的模式2获得指示经缩减向量55k”的位。模式2可指示经缩减向量包含与环境高阶立体混响系数相关联的向量元素在转变中。
在这些及其它情况下,多个模式进一步包含上文所描述的模式1。如上文所描述,模式1可指示经缩减向量中未包含与环境高阶立体混响系数相关联的向量元素。
在这些及其它情况下,音频解码装置24可经进一步配置以基于指示环境高阶立体混响系数的转变的位757维持转变状态信息。音频解码装置24的位流提取单元72可包含状态机402以维持包含转变状态信息的状态信息812。音频解码装置24还可经配置以基于转变状态信息来确定对于信道800C的环境高阶立体混响系数47'执行淡入操作还是淡出操作。音频解码装置24可经配置以调用淡化单元770以基于淡入还是淡出环境高阶立体混响系数的确定,对于环境高阶立体混响系数47'执行淡入操作或淡出操作。
在这些及其它情况下,转变状态信息指示不转变状态、淡入状态及淡出状态中的一者。
在这些及其它情况下,音频解码装置24可经进一步配置以从指示状态信息812的位获得转变状态信息。状态信息812可使得能够在不参考位流的先前帧的情况下解码帧。
在这些及其它情况下,音频解码装置24可经进一步配置以基于指示状态信息812的位中包含的量化信息来解量化经缩减向量55k”。
在这些及其它情况下,经由流式传输协议输出帧。
在这些及其它情况下,转变的指示757指定是否在帧期间淡出高阶立体混响系数47'。
在这些及其它情况下,转变的指示757指定是否在帧期间淡入高阶立体混响系数。
在这些及其它情况下,音频解码装置24可经进一步配置以在位流21的后续帧(例如,帧14)期间获得指示第二经缩减向量的位(其可指与前景信道800C中的帧13指定的向量相同的向量,其仅更新以反映从帧13到帧14的元素改变且因此可被称为经更新的经缩减向量)、指示在帧14处在背景信道800E中指定的环境高阶立体混响系数47'的位及指示757环境高阶立体混响系数47'不在转变中的位757。在此情况下,出于上文提到的原因,后续帧14的第二经缩减向量不包含与环境高阶立体混响系数47'相关联的元素。
在这些及其它情况下,转变的指示757指示将淡出环境高阶立体混响系数47'(例如帧12中的背景信道800C的环境HOA系数2)。在此情况下,音频解码装置24可经配置以在帧12期间对于环境高阶立体混响系数47'执行淡出操作。音频解码装置24可经配置以对于帧12处在前景信道800B中指定的经缩减向量55k”的对应元素执行互补操作。换句话说,音频解码装置24可经配置以在帧12期间对于向量元素执行淡入操作,从而补偿由于环境高阶立体混响系数47'的淡出而发生的能量改变。
在这些及其它情况下,转变的指示757指示将淡出环境高阶立体混响系数47'(例如帧13中的背景信道800A的环境HOA系数4)。在此情况下,音频解码装置24可经配置以在帧12期间对于环境高阶立体混响系数47'执行淡出操作。音频解码装置24可经配置以对于帧13处在前景信道800B中指定的经缩减向量55k”的对应元素执行互补操作。换句话说,音频解码装置24可经配置以在帧13期间对于向量元素(Vvec[4])执行淡入操作,从而补偿由于环境高阶立体混响系数47'的淡出而发生的能量改变。
在这些及其它情况下,转变的指示757指示将淡入环境高阶立体混响系数47'(例如帧13处的背景信道800E中指定的环境HOA系数5)。在此情况下,音频解码装置24可经配置以在帧13期间对于环境高阶立体混响系数47'执行淡入操作。音频解码装置24可经配置以对于帧13处在前景信道800B中指定的经缩减向量55k”的对应元素执行互补操作。换句话说,音频解码装置24可经配置以在帧13期间对于向量元素执行淡出操作,从而补偿由于环境高阶立体混响系数47'的淡入而发生的能量改变。
在这些及其它情况下,类似于音频编码装置20,音频解码装置24可经配置以执行上文结合上文所描述的技术的转变方面更详细地描述的技术的独立方面。
图9为说明额外环境HOA系数的淡出、相异分量的对应经重建构贡献的淡入及HOA系数与贡献之和的图。在图9的实例中展示了三个曲线图850、852及854。曲线图850说明在512个样本之上淡出额外环境HOA系数曲线图852展示经重建构音频对象(使用V-向量的淡入系数来重建构,如上文所描述)。曲线图854展示HOA系数与经重建构贡献之和,其中在此实例中不引入假影(其中假影可指由于能量损失引起的声场中的“孔”)。
可关于任何数目个不同上下文及音频生态系统执行前述技术。下文描述数个实例上下文,但所述技术应限于所述实例上下文。一实例音频生态系统可包含音频内容、影片工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频符干(gameaudio stems)、游戏音频译码/呈现引擎,及递送系统。
影片工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。影片工作室可例如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于信道的音频内容(例如,呈2.0及5.1)。在任一状况下,译码引擎可基于一或多个编解码器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比数字Plus(Dolby Digital Plus)及DTS主音频)接收及编码基于信道的音频内容以供由递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频符干。游戏音频译码/呈现引擎可译码音频符干及或将音频符干呈现成基于信道的音频内容以供由递送系统输出。可执行所述技术的另一实例上下文包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上俘获、HOA音频格式、装置上呈现、消费型音频、TV及附件,及汽车音频系统。
广播记录音频对象、专业音频系统及消费型装置上俘获皆可使用HOA音频格式译码其输出。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上呈现、消费型音频、TV及附件及汽车音频系统重放所述单一表示。换句话说,可在通用音频重放系统(即,与需要例如5.1、7.1等的特定配置的情形形成对比)(例如,音频重放系统16)处重放音频内容的单一表示。
可执行所述技术的上下文的其它实例包含可包含获取元件及重放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如,Eigen麦克风)、装置上环绕声俘获器及移动装置(例如,智能电话及平板计算机)。在一些实例中,有线及/或无线获取装置可经由有线及/或无线通信信道耦合到移动装置。
根据本发明的一或多个技术,移动装置可用以获取声场。举例来说,移动装置可经由有线及/或无线获取装置及/或装置上环绕声俘获器(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由重放元件中的一或多者重放。举例来说,移动装置的用户可记录(获取声场)现场事件(例如,集会、会议、比赛、音乐会等),且将记录译码成HOA系数。
移动装置也可利用重放元件中的一或多者来重放HOA经译码声场。举例来说,移动装置可解码HOA经译码声场,且将使得重放元件中的一或多者重新建立声场的信号输出到重放元件中的一或多者。作为一实例,移动装置可利用无线及/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒(sound bar)等)。作为另一实例,移动装置可利用衔接解决方案将信号输出到一或多个衔接台及/或一或多个衔接的扬声器(例如,智能汽车及/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机呈现将信号输出到一组头戴式耳机(例如)以建立实际的双耳声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放相同的3D声场。在一些实例中,移动装置可获取3D声场,将所述3D声场编码为HOA,且将经编码3D声场传输到一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于重放。
可执行所述技术的又一上下文包含可包含音频内容、游戏工作室、经译码音频内容、呈现引擎及递送系统的音频生态系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含HOA插件及/或可经配置以与一或多个游戏音频系统一起操作(例如,工作)的工具。在一些实例中,游戏工作室可输出支持HOA的新符干格式。在任何状况下,游戏工作室可将经译码音频内容输出到呈现引擎,所述呈现引擎可呈现声场以供由递送系统重放。
也可关于示范性音频获取装置执行所述技术。举例来说,可关于可包含共同地经配置以记录3D声场的多个麦克风的Eigen麦克风执行所述技术。在一些实例中,Eigen麦克风的所述多个麦克风可位于具有大约4cm的半径的实质上球面球的表面上。在一些实例中,音频编码装置20可集成到Eigen麦克风中以便直接从麦克风输出位流21。
另一示范性音频获取上下文可包含可经配置以接收来自一或多个麦克风(例如,一或多个Eigen麦克风)的信号的制作车。制作车也可包含音频编码器,例如图3的音频编码器20。
在一些情况下,移动装置也可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以关于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置也可包含音频编码器,例如图3的音频编码器20。
加固型视频俘获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频俘获装置可附接到参与活动的用户的头盔。举例来说,加固型视频俘获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频俘获装置可俘获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话,等等)的3D声场。
也可关于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,Eigen麦克风可附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式,附件增强型移动装置可俘获3D声场的较高质量版本(与仅使用与附件增强型移动装置成一体式的声音俘获组件的情形相比较)。
下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频重放装置。根据本发明的一或多个技术,扬声器及/或声棒可布置于任何任意配置中,同时仍重放3D声场。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒及头戴式耳机重放装置的任何组合上呈现声场。
数个不同实例音频重放环境也可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,及具有耳挂式耳机重放环境的移动装置。
根据本发明的一或多个技术,可利用声场的单一通用表示来在前述重放环境中的任一者上呈现声场。另外,本发明的技术使得呈现器能够从通用表示呈现声场以供在不同于上文所描述的环境的重放环境上重放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器重放环境的恰当置放(例如,如果不可能置放右环绕扬声器),那么本发明的技术使得呈现器能够通过其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上达成重放。
此外,用户可在佩戴头戴式耳机时观看运动比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个Eigen麦克风置放于棒球场中及/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数传输到解码器,所述解码器可基于HOA系数重建构3D声场且将经重建构的3D声场输出到呈现器,所述呈现器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重建构的3D声场呈现成使得头戴式耳机输出运动比赛的3D声场的表示的信号。
在上文所描述的各种情况中的每一者中,应理解,音频编码装置20可执行方法或另外包括用以执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,数组编码实例中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器执行音频编码装置20已经配置以执行的方法。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或另外包括用以执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,数组编码实例中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器执行音频解码装置24已经配置以执行的方法。
借助于实例而非限制,此些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是针对非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。以上各者的组合也应包含于计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面,可在经配置用于编码及解码的专用硬件及/或软件模块内提供本文中所描述的功能性,或将本文中所描述的功能性并入于组合式编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,所述装置或设备包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元来实现。确切地说,如上文所描述,各种单元可与合适的软件及/或固件一起组合于编解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。
已描述所述技术的各种方面。所述技术的此些及其它方面在以下权利要求书的范围内。

Claims (68)

1.一种由音频编码装置生成经编码音频数据的位流的方法,其包括:
确定环境高阶立体混响系数在帧期间何时进行转变,所述环境高阶立体混响系数至少部分表示声场的环境分量;
识别与在转变中的所述环境高阶立体混响系数相关联的向量的元素,所述向量至少部分表示所述声场的空间分量;
基于所述向量产生经缩减向量以包含所述帧的所述向量的所述经识别元素;以及
生成所述位流以包含指示所述经缩减向量的位及指示在所述帧期间所述环境高阶立体混响系数的所述转变的位。
2.根据权利要求1所述的方法,其进一步包括:
基于在转变中的所述环境高阶立体混响系数维持转变状态信息;以及
基于所述转变状态信息获得指示所述转变的所述位。
3.根据权利要求2所述的方法,其中所述转变状态信息指示不转变状态、淡入状态或淡出状态中的一者。
4.根据权利要求2所述的方法,其中生成所述位流包括生成所述位流以另外包含指示包含所述帧中的所述转变状态信息的状态信息的位,指示所述状态信息的所述位使得能够在不参考所述位流的先前帧的情况下解码所述帧的所述经编码音频数据的所述位流。
5.根据权利要求4所述的方法,其中所述状态信息包含量化信息。
6.根据权利要求4所述的方法,其中所述帧经由流式传输协议输出。
7.根据权利要求1所述的方法,其中指示所述转变的所述位指示是否将在所述帧期间由解码器淡出所述环境高阶立体混响系数。
8.根据权利要求1所述的方法,其中指示所述转变的所述位指示是否将在所述帧期间由解码器淡入所述环境高阶立体混响系数。
9.根据权利要求1所述的方法,其进一步包括在后续帧期间通过移除与不在转变中的所述环境高阶立体混响系数相关联的所述向量的第二元素来更新所述经缩减向量,其中生成所述位流包括在所述后续帧期间生成指示所述经更新的经缩减向量的位及指示所述环境高阶立体混响系数不在转变中的位。
10.一种音频编码装置,其经配置以生成经编码音频数据的位流,所述音频编码装置包括:
一或多个处理器,其经配置以:确定环境高阶立体混响系数在帧期间何时进行转变,所述环境高阶立体混响系数至少部分表示声场的环境分量;识别与在转变中的所述环境高阶立体混响系数相关联的向量的元素,所述向量至少部分表示所述声场的空间分量;基于所述向量产生经缩减向量以包含所述帧的所述向量的所述经识别元素;及生成所述位流以包含指示所述经缩减向量的位及指示在所述帧期间所述环境高阶立体混响系数的所述转变的位;以及
存储器,其经配置以存储所述位流。
11.根据权利要求10所述的音频编码装置,其中所述一或多个处理器经进一步配置以基于在转变中的所述环境高阶立体混响系数维持转变状态信息,且基于所述转变状态信息获得指示所述转变的所述位。
12.根据权利要求11所述的音频编码装置,其中所述转变状态信息指示不转变状态、淡入状态或淡出状态中的一者。
13.根据权利要求11所述的音频编码装置,其中所述一或多个处理器经进一步配置以生成所述位流以另外包含指示包含所述帧中的所述转变状态信息的状态信息的位,指示所述状态信息的所述位使得能够在不参考所述位流的先前帧的情况下解码所述帧的所述经编码音频数据的所述位流。
14.根据权利要求13所述的音频编码装置,其中指示所述状态信息的所述位包含量化信息。
15.根据权利要求13所述的音频编码装置,其中所述帧经由流式传输协议输出。
16.根据权利要求10所述的音频编码装置,其中指示所述转变的所述位指示是否将在重放期间淡出所述环境高阶立体混响系数。
17.根据权利要求10所述的音频编码装置,其中指示所述转变的所述位指示是否将在重放期间淡入所述环境高阶立体混响系数。
18.根据权利要求10所述的音频编码装置,其中所述一或多个处理器经进一步配置以在后续帧期间通过移除与不在转变中的所述环境高阶立体混响系数相关联的所述经缩减向量的第二元素来更新所述经缩减向量,且生成所述位流以另外包含指示所述经更新的经缩减向量的位及指示所述环境高阶立体混响系数不在转变中的位。
19.一种音频编码装置,其经配置以生成经编码音频数据的位流,所述音频编码装置包括:
用于确定环境高阶立体混响系数在表示所述经编码音频数据的位流的帧期间何时进行转变的装置,所述环境高阶立体混响系数至少部分表示声场的环境分量;
用于识别与在转变中的所述环境高阶立体混响系数相关联的向量的元素的装置,所述向量至少部分表示所述声场的空间分量;
用于基于所述向量产生经缩减向量以包含所述帧的所述向量的所述经识别元素的装置;以及
用于生成所述位流以包含指示所述经缩减向量的位及指示在所述帧期间所述环境高阶立体混响系数的所述转变的位的装置。
20.根据权利要求19所述的音频编码装置,其进一步包括:
用于基于在转变中的所述环境高阶立体混响系数维持转变状态信息的装置;以及用于基于所述转变状态信息获得指示所述转变的所述位的装置。
21.根据权利要求20所述的音频编码装置,其中所述转变状态信息指示不转变状态、淡入状态或淡出状态中的一者。
22.根据权利要求20所述的音频编码装置,其中所述用于生成所述位流的装置包括用于生成所述位流以另外包含指示包含所述帧中的所述转变状态信息的状态信息的位的装置,指示所述状态信息的所述位使得能够在不参考所述位流的先前帧的情况下解码所述帧的所述经编码音频数据的所述位流。
23.根据权利要求22所述的音频编码装置,其中指示所述状态信息的所述位包含量化信息。
24.根据权利要求22所述的音频编码装置,其中所述帧经由流式传输协议输出。
25.根据权利要求19所述的音频编码装置,其中指示所述转变的所述位指示是否将在重放期间淡出所述环境高阶立体混响系数。
26.根据权利要求19所述的音频编码装置,其中指示所述转变的所述位指示是否将在重放期间淡入所述环境高阶立体混响系数。
27.根据权利要求19所述的音频编码装置,其进一步包括用于在后续帧期间通过移除与不在转变中的所述环境高阶立体混响系数相关联的所述向量的第二元素来更新所述经缩减向量的装置,
其中所述用于生成的装置包括用于在所述后续帧期间生成所述位流以包含指示所述经更新的经缩减向量的位及指示所述环境高阶立体混响系数不在转变中的位的装置。
28.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时使得音频编码装置的一或多个处理器:
在环境高阶立体混响系数在帧期间在转变中时确定所述环境高阶立体混响系数,所述环境高阶立体混响系数至少部分表示声场的环境分量;
识别与在转变中的所述环境高阶立体混响系数相关联的向量的元素,所述向量至少部分表示所述声场的空间分量;
基于所述向量产生经缩减向量以包含所述帧的所述向量的所述经识别元素;以及生成位流以包含指示所述经缩减向量的位及指示在所述帧期间所述环境高阶立体混响系数的所述转变的位。
29.一种由音频解码装置解码经编码音频数据的位流的方法,所述方法包括:
在解码器中及从所述位流的帧获得指示经缩减向量的位,所述经缩减向量至少部分表示声场的空间分量,及
从所述帧获得指示环境高阶立体混响系数的转变的位,所述环境高阶立体混响系数至少部分表示所述声场的环境分量,
其中所述经缩减向量包含与在转变中的所述环境高阶立体混响系数相关联的向量元素。
30.根据权利要求29所述的方法,其中获得指示所述经缩减向量的所述位包括根据多个模式中的第一模式获得指示所述经缩减向量的位,所述第一模式指示所述经缩减向量包含与在转变中的所述环境高阶立体混响系数相关联的所述向量元素。
31.根据权利要求30所述的方法,其中所述多个模式进一步包含第二模式,所述第二模式指示所述经缩减向量中不包含与所述环境高阶立体混响系数相关联的所述向量元素。
32.根据权利要求29所述的方法,其进一步包括:
基于指示所述环境高阶立体混响系数的所述转变的所述位维持转变状态信息;
基于所述转变状态信息确定对于所述环境高阶立体混响系数执行淡入操作还是淡出操作;以及
基于淡入还是淡出所述环境高阶立体混响系数的所述确定对于所述环境高阶立体混响系数执行所述淡入操作或所述淡出操作。
33.根据权利要求32所述的方法,其中所述转变状态信息指示不转变状态、淡入状态或淡出状态中的一者。
34.根据权利要求32所述的方法,其进一步包括从指示状态信息的位获得所述转变状态信息,指示所述状态信息的所述位使得能够在不参考所述位流的先前帧的情况下解码所述帧的所述经编码音频数据的所述位流。
35.根据权利要求34所述的方法,其进一步包括基于指示所述状态信息的所述位中包含的量化信息来解量化所述经缩减向量。
36.根据权利要求34所述的方法,其进一步包括解码所述帧以从内容的第一表示切换到所述内容的第二表示,其中所述第二表示不同于所述第一表示。
37.根据权利要求29所述的方法,其中指示所述转变的所述位指示是否在所述帧期间淡出所述环境高阶立体混响系数。
38.根据权利要求29所述的方法,其中所述转变的所述指示会指示是否在所述帧期间淡入所述环境高阶立体混响系数。
39.根据权利要求29所述的方法,其进一步包括:
在后续帧期间获得指示第二经缩减向量的位、指示所述环境高阶立体混响系数的位,及指示所述环境高阶立体混响系数不在转变中的位,
其中所述后续帧的所述第二经缩减向量不包含与所述后续帧的所述环境高阶立体混响系数相关联的元素。
40.根据权利要求29所述的方法,其进一步包括:
在所述帧期间对于所述环境高阶立体混响系数执行淡出操作;以及
在所述帧期间对于所述向量元素执行淡入操作以补偿由于所述环境高阶立体混响系数的所述淡出而发生的能量改变。
41.根据权利要求29所述的方法,其进一步包括:
在所述帧期间对于所述环境高阶立体混响系数执行淡入操作;以及
在所述帧期间对于所述向量元素执行淡出操作以补偿由于所述环境高阶立体混响系数的所述淡入而发生的能量改变。
42.一种音频解码装置,其经配置以解码经编码音频数据的位流,所述音频解码装置包括:
存储器,其经配置以存储经编码音频数据的所述位流的帧;以及
一或多个处理器,其经配置以从所述帧获得指示经缩减向量的位,所述经缩减向量至少部分表示声场的空间分量,且从所述帧获得环境高阶立体混响系数的转变的指示,所述环境高阶立体混响系数至少部分表示所述声场的环境分量,
其中所述经缩减向量包含与在转变中的所述环境高阶立体混响系数相关联的向量元素。
43.根据权利要求42所述的音频解码装置,其中所述一或多个处理器经配置以根据多个模式中的第一模式获得指示所述经缩减向量的位,所述第一模式指示所述经缩减向量包含与在转变中的所述环境高阶立体混响系数相关联的所述向量元素。
44.根据权利要求43所述的音频解码装置,其中所述多个模式进一步包含第二模式,
所述第二模式指示所述经缩减向量中不包含与所述环境高阶立体混响系数相关联的所述向量元素。
45.根据权利要求42所述的音频解码装置,其中所述一或多个处理器经进一步配置以基于指示所述环境高阶立体混响系数的所述转变的所述位维持转变状态信息,基于所述转变状态信息确定对于所述环境高阶立体混响系数执行淡入操作还是淡出操作,及基于淡入还是淡出所述环境高阶立体混响系数的所述确定对于所述环境高阶立体混响系数执行所述淡入操作或所述淡出操作。
46.根据权利要求45所述的音频解码装置,其中所述转变状态信息指示不转变状态、淡入状态及淡出状态中的一者。
47.根据权利要求45所述的音频解码装置,其中所述一或多个处理器经进一步配置以从指示状态信息的位获得所述转变状态信息,指示状态信息的所述位使得能够在不参考所述位流的先前帧的情况下解码所述帧的所述经编码音频数据的所述位流。
48.根据权利要求47所述的音频解码装置,其中所述一或多个处理器经进一步配置以基于指示所述状态信息的所述位中包含的量化信息来解量化所述经缩减向量。
49.根据权利要求47所述的音频解码装置,其中所述一或多个处理器经进一步配置以解码所述帧以从内容的第一表示切换到所述内容的第二表示,其中所述第二表示不同于所述第一表示。
50.根据权利要求42所述的音频解码装置,其中指示所述转变的所述位指示是否在所述帧期间淡出所述环境高阶立体混响系数。
51.根据权利要求42所述的音频解码装置,其中指示所述转变的所述位指示是否在所述帧期间淡入所述环境高阶立体混响系数。
52.根据权利要求42所述的音频解码装置,其中所述一或多个处理器经进一步配置以在后续帧期间获得指示第二经缩减向量的位、指示所述环境高阶立体混响系数的位,及指示所述环境高阶立体混响系数不在转变中的位,
其中所述后续帧的所述第二经缩减向量不包含与所述后续帧的所述环境高阶立体混响系数相关联的元素。
53.根据权利要求42所述的音频解码装置,其中所述一或多个处理器经进一步配置以在所述帧期间对于所述环境高阶立体混响系数执行淡出操作,且在所述帧期间对于所述向量元素执行淡入操作以补偿由于所述环境高阶立体混响系数的所述淡出而发生的能量改变。
54.根据权利要求42所述的音频解码装置,其中所述一或多个处理器经进一步配置以在所述帧期间对于所述环境高阶立体混响系数执行淡入操作,且在所述帧期间对于所述向量元素执行淡出操作以补偿由于所述环境高阶立体混响系数的所述淡入而发生的能量改变。
55.一种音频解码装置,其经配置以解码经编码音频数据的位流,所述音频解码装置包括:
用于存储所述位流的帧的装置;
用于从所述帧获得指示经缩减向量的位的装置,所述经缩减向量至少部分表示声场的空间分量;以及
用于从所述帧获得指示环境高阶立体混响系数的转变的位的装置,所述环境高阶立体混响系数至少部分表示所述声场的环境分量,
其中所述经缩减向量包含与在转变中的所述环境高阶立体混响系数相关联的向量元素。
56.根据权利要求55所述的音频解码装置,其中所述用于获得指示所述经缩减向量的所述位的装置包括用于根据多个模式中的第一模式获得指示所述经缩减向量的所述位的装置,所述第一模式指示所述经缩减向量包含与在转变中的所述环境高阶立体混响系数相关联的所述向量元素。
57.根据权利要求56所述的音频解码装置,其中所述多个模式进一步包含第二模式,
所述第二模式指示所述经缩减向量中不包含与所述环境高阶立体混响系数相关联的所述向量元素。
58.根据权利要求55所述的音频解码装置,其进一步包括:
用于基于指示所述环境高阶立体混响系数的所述转变的所述位维持转变状态信息的装置;
用于基于所述转变状态信息确定对于所述环境高阶立体混响系数执行淡入还是淡出操作的装置;以及
用于基于淡入还是淡出所述环境高阶立体混响系数的所述确定对于所述环境高阶立体混响系数执行所述淡入操作或所述淡出操作的装置。
59.根据权利要求58所述的音频解码装置,其中所述转变状态信息指示不转变状态、淡入状态及淡出状态中的一者。
60.根据权利要求58所述的音频解码装置,其进一步包括用于从指示状态信息的位获得所述转变状态信息的装置,指示所述状态信息的所述位使得能够在不参考所述位流的先前帧的情况下解码所述帧的所述经编码音频数据的所述位流。
61.根据权利要求60所述的音频解码装置,其进一步包括用于基于指示所述状态信息的所述位中包含的量化信息来解量化所述经缩减向量的装置。
62.根据权利要求60所述的音频解码装置,其进一步包括用于解码所述帧以从内容的第一表示切换到所述内容的第二表示的装置,所述第二表示不同于所述第一表示。
63.根据权利要求55所述的音频解码装置,其中指示所述转变的所述位指示是否在所述帧期间淡出所述环境高阶立体混响系数。
64.根据权利要求55所述的音频解码装置,其中指示所述转变的所述位指示是否在所述帧期间淡入所述环境高阶立体混响系数。
65.根据权利要求55所述的音频解码装置,其进一步包括用于在后续帧期间从所述位流获得指示第二经缩减向量的位、指示所述环境高阶立体混响系数的位及指示所述环境高阶立体混响系数不在转变中的位的装置,
其中所述后续帧的所述第二经缩减向量不包含与所述后续帧的所述环境高阶立体混响系数相关联的元素。
66.根据权利要求55所述的音频解码装置,其进一步包括:
用于在所述帧期间对于所述环境高阶立体混响系数执行淡出操作的装置;以及
用于在所述帧期间对于所述向量元素执行淡入操作以补偿由于所述环境高阶立体混响系数的所述淡出而发生的能量改变的装置。
67.根据权利要求55所述的音频解码装置,其进一步包括:
用于在所述帧期间对于所述环境高阶立体混响系数执行淡入操作的装置;以及
用于在所述帧期间对于所述向量元素执行淡入操作以补偿由于所述环境高阶立体混响系数的所述淡出而发生的能量改变的装置。
68.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时使得音频解码装置的一或多个处理器:
从经编码音频数据的位流的帧获得指示经缩减向量的位,所述经缩减向量至少部分表示声场的空间分量,及
从所述帧获得指示环境高阶立体混响系数的转变的位,所述环境高阶立体混响系数至少部分表示所述声场的环境分量,
其中所述经缩减向量包含与在转变中的所述环境高阶立体混响系数相关联的向量元素。
CN201580005993.4A 2014-01-30 2015-01-28 用于译码音频数据的方法、装置及计算机可读存储媒体 Active CN105940447B (zh)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US201461933714P 2014-01-30 2014-01-30
US201461933706P 2014-01-30 2014-01-30
US61/933,714 2014-01-30
US61/933,706 2014-01-30
US201461949591P 2014-03-07 2014-03-07
US201461949583P 2014-03-07 2014-03-07
US61/949,591 2014-03-07
US61/949,583 2014-03-07
US201462004067P 2014-05-28 2014-05-28
US62/004,067 2014-05-28
US201462029173P 2014-07-25 2014-07-25
US62/029,173 2014-07-25
US14/594,533 US9922656B2 (en) 2014-01-30 2015-01-12 Transitioning of ambient higher-order ambisonic coefficients
US14/594,533 2015-01-12
PCT/US2015/013267 WO2015116666A1 (en) 2014-01-30 2015-01-28 Transitioning of ambient higher-order ambisonic coefficients

Publications (2)

Publication Number Publication Date
CN105940447A true CN105940447A (zh) 2016-09-14
CN105940447B CN105940447B (zh) 2020-03-31

Family

ID=53679594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580005993.4A Active CN105940447B (zh) 2014-01-30 2015-01-28 用于译码音频数据的方法、装置及计算机可读存储媒体

Country Status (10)

Country Link
US (1) US9922656B2 (zh)
EP (1) EP3100263B1 (zh)
JP (1) JP6510541B2 (zh)
KR (1) KR101958529B1 (zh)
CN (1) CN105940447B (zh)
BR (1) BR112016017278B1 (zh)
CA (1) CA2933562C (zh)
ES (1) ES2674819T3 (zh)
HU (1) HUE037842T2 (zh)
WO (1) WO2015116666A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110603585A (zh) * 2017-05-18 2019-12-20 高通股份有限公司 用于高阶立体环绕声的音频数据的分层中间压缩
CN110832883A (zh) * 2017-06-30 2020-02-21 高通股份有限公司 以计算机为中介的现实系统的混阶立体混响(moa)音频数据
US11765604B2 (en) 2021-12-16 2023-09-19 T-Mobile Usa, Inc. Providing configuration updates to wireless telecommunication networks
TWI844036B (zh) * 2021-06-18 2024-06-01 大陸商華為技術有限公司 三維音訊訊號編碼方法、裝置、編碼器、系統、電腦程式和電腦可讀儲存介質

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9723305B2 (en) 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9959876B2 (en) 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
US9847087B2 (en) 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US10134403B2 (en) 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9838819B2 (en) 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9847088B2 (en) 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9875745B2 (en) 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9940937B2 (en) 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content
WO2017036609A1 (en) * 2015-08-31 2017-03-09 Dolby International Ab Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal
MX2020011754A (es) 2015-10-08 2022-05-19 Dolby Int Ab Codificacion en capas para representaciones de sonido o campo de sonido comprimidas.
IL302588B1 (en) * 2015-10-08 2024-10-01 Dolby Int Ab Layered coding and data structure for compressed high-order sound or surround sound field representations
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
US10070094B2 (en) 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
WO2017085140A1 (en) * 2015-11-17 2017-05-26 Dolby International Ab Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
WO2020014506A1 (en) 2018-07-12 2020-01-16 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of a sound source
KR102599744B1 (ko) 2018-12-07 2023-11-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
CN111951821B (zh) * 2020-08-13 2023-10-24 腾讯科技(深圳)有限公司 通话方法和装置
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385077A (zh) * 2006-02-07 2009-03-11 Lg电子株式会社 用于编码/解码信号的装置和方法
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
US20120271629A1 (en) * 2011-04-21 2012-10-25 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备

Family Cites Families (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1159034B (it) 1983-06-10 1987-02-25 Cselt Centro Studi Lab Telecom Sintetizzatore vocale
US4972344A (en) 1986-05-30 1990-11-20 Finial Technology, Inc. Dual beam optical turntable
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5363050A (en) 1990-08-31 1994-11-08 Guo Wendy W Quantitative dielectric imaging system
SG49883A1 (en) 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US5263312A (en) 1992-07-21 1993-11-23 General Electric Company Tube fitting for a gas turbine engine
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3849210B2 (ja) 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
US5821887A (en) 1996-11-12 1998-10-13 Intel Corporation Method and apparatus for decoding variable length codes
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
AUPP272698A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Soundfield playback from a single speaker system
EP1018840A3 (en) 1998-12-08 2005-12-21 Canon Kabushiki Kaisha Digital receiving apparatus and method
WO2000060575A1 (en) 1999-04-05 2000-10-12 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US20020049586A1 (en) 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
JP2002094989A (ja) 2000-09-14 2002-03-29 Pioneer Electronic Corp ビデオ信号符号化装置及びビデオ信号符号化方法
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US20020169735A1 (en) 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
GB2379147B (en) 2001-04-18 2003-10-22 Univ York Sound processing
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
US7031894B2 (en) 2002-01-16 2006-04-18 Timbre Technologies, Inc. Generating a library of simulated-diffraction signals and hypothetical profiles of periodic gratings
US7262770B2 (en) 2002-03-21 2007-08-28 Microsoft Corporation Graphics image rendering with radiance self-transfer for low-frequency lighting environments
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
ES2297083T3 (es) 2002-09-04 2008-05-01 Microsoft Corporation Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel.
FR2844894B1 (fr) 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
US7330812B2 (en) 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
FR2847376B1 (fr) 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US6961696B2 (en) 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
FI115324B (fi) 2003-03-14 2005-04-15 Elekta Neuromag Oy Menetelmä ja järjestelmä monikanavaisen mittaussignaalin käsittelemiseksi
US7558393B2 (en) 2003-03-18 2009-07-07 Miller Iii Robert E System and method for compatible 2D/3D (full sphere with height) surround sound reproduction
US7920709B1 (en) 2003-03-25 2011-04-05 Robert Hickling Vector sound-intensity probes operating in a half-space
JP2005086486A (ja) 2003-09-09 2005-03-31 Alpine Electronics Inc オーディオ装置およびオーディオ処理方法
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US7630902B2 (en) 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
FR2880755A1 (fr) 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation
WO2006122146A2 (en) 2005-05-10 2006-11-16 William Marsh Rice University Method and apparatus for distributed compressed sensing
ATE378793T1 (de) 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
US8510105B2 (en) 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
WO2007048900A1 (fr) 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US20080004729A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
DE102006053919A1 (de) 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
AU2007322488B2 (en) 2006-11-24 2010-04-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
US7663623B2 (en) 2006-12-18 2010-02-16 Microsoft Corporation Spherical harmonics scaling
US9015051B2 (en) 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
US8463615B2 (en) 2007-07-30 2013-06-11 Google Inc. Low-delay audio coder
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
EP2234104B1 (en) 2008-01-16 2017-06-14 III Holdings 12, LLC Vector quantizer, vector inverse quantizer, and methods therefor
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
KR101230479B1 (ko) 2008-03-10 2013-02-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법
US8219409B2 (en) 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
US8781197B2 (en) 2008-04-28 2014-07-15 Cornell University Tool for accurate quantification in molecular MRI
US8184298B2 (en) 2008-05-21 2012-05-22 The Board Of Trustees Of The University Of Illinois Spatial light interference microscopy and fourier transform light scattering for cell and tissue characterization
JP5383676B2 (ja) 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
EP2297557B1 (en) 2008-07-08 2013-10-30 Brüel & Kjaer Sound & Vibration Measurement A/S Reconstructing an acoustic field
JP5697301B2 (ja) 2008-10-01 2015-04-08 株式会社Nttドコモ 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
US8207890B2 (en) 2008-10-08 2012-06-26 Qualcomm Atheros, Inc. Providing ephemeris data and clock corrections to a satellite navigation system receiver
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
FR2938688A1 (fr) 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US8817991B2 (en) 2008-12-15 2014-08-26 Orange Advanced encoding of multi-channel digital audio signals
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8332229B2 (en) 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
GB2476747B (en) 2009-02-04 2011-12-21 Richard Furse Sound system
JP5163545B2 (ja) 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
GB0906269D0 (en) 2009-04-09 2009-05-20 Ntnu Technology Transfer As Optimal modal beamformer for sensor arrays
US8629600B2 (en) 2009-05-08 2014-01-14 University Of Utah Research Foundation Annular thermoacoustic energy converter
JP4778591B2 (ja) 2009-05-21 2011-09-21 パナソニック株式会社 触感処理装置
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
WO2011041834A1 (en) 2009-10-07 2011-04-14 The University Of Sydney Reconstruction of a recorded sound field
AU2009353896B2 (en) 2009-10-15 2013-05-23 Widex A/S Hearing aid with audio codec and method
JP5746974B2 (ja) 2009-11-13 2015-07-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
SI2510515T1 (sl) 2009-12-07 2014-06-30 Dolby Laboratories Licensing Corporation Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije
CN102104452B (zh) 2009-12-22 2013-09-11 华为技术有限公司 信道状态信息反馈方法、信道状态信息获得方法及设备
EP2539892B1 (fr) 2010-02-26 2014-04-02 Orange Compression de flux audio multicanal
RU2586848C2 (ru) 2010-03-10 2016-06-10 Долби Интернейшнл АБ Декодер звукового сигнала, кодирующее устройство звукового сигнала, способы и компьютерная программа, использующие зависящее от частоты выборки кодирование контура деформации времени
WO2011117399A1 (en) 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
ES2656815T3 (es) 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9271081B2 (en) 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
US20120093323A1 (en) 2010-10-14 2012-04-19 Samsung Electronics Co., Ltd. Audio system and method of down mixing audio signals using the same
US9084049B2 (en) 2010-10-14 2015-07-14 Dolby Laboratories Licensing Corporation Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
KR101401775B1 (ko) 2010-11-10 2014-05-30 한국전자통신연구원 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법
US9448289B2 (en) 2010-11-23 2016-09-20 Cornell University Background field removal method for MRI using projection onto dipole fields
US20120163622A1 (en) 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
US8809663B2 (en) 2011-01-06 2014-08-19 Hank Risan Synthetic simulation of a media recording
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9641951B2 (en) 2011-08-10 2017-05-02 The Johns Hopkins University System and method for fast binaural rendering of complex acoustic scenes
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2592845A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2592846A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
KR101590332B1 (ko) 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US9584912B2 (en) 2012-01-19 2017-02-28 Koninklijke Philips N.V. Spatial audio rendering and encoding
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
CN107071687B (zh) 2012-07-16 2020-02-14 杜比国际公司 用于渲染音频声场表示以供音频回放的方法和设备
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP5967571B2 (ja) 2012-07-26 2016-08-10 本田技研工業株式会社 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム
WO2014068167A1 (en) 2012-10-30 2014-05-08 Nokia Corporation A method and apparatus for resilient vector quantization
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
SG11201507066PA (en) 2013-03-05 2015-10-29 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9197962B2 (en) 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
RU2667630C2 (ru) * 2013-05-16 2018-09-21 Конинклейке Филипс Н.В. Устройство аудиообработки и способ для этого
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
WO2014195190A1 (en) 2013-06-05 2014-12-11 Thomson Licensing Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
EP3933834B1 (en) 2013-07-05 2024-07-24 Dolby International AB Enhanced soundfield coding using parametric component generation
TWI631553B (zh) 2013-07-19 2018-08-01 瑞典商杜比國際公司 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US20150264483A1 (en) 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10142642B2 (en) 2014-06-04 2018-11-27 Qualcomm Incorporated Block adaptive color-space conversion coding
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385077A (zh) * 2006-02-07 2009-03-11 Lg电子株式会社 用于编码/解码信号的装置和方法
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
US20120271629A1 (en) * 2011-04-21 2012-10-25 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110603585A (zh) * 2017-05-18 2019-12-20 高通股份有限公司 用于高阶立体环绕声的音频数据的分层中间压缩
CN110603585B (zh) * 2017-05-18 2023-08-18 高通股份有限公司 用于高阶立体环绕声的音频数据的分层中间压缩
CN110832883A (zh) * 2017-06-30 2020-02-21 高通股份有限公司 以计算机为中介的现实系统的混阶立体混响(moa)音频数据
CN110832883B (zh) * 2017-06-30 2021-03-16 高通股份有限公司 以计算机为中介的现实系统的混阶立体混响(moa)音频数据
CN110832883B9 (zh) * 2017-06-30 2021-04-09 高通股份有限公司 以计算机为中介的现实系统的混阶立体混响(moa)音频数据
TWI844036B (zh) * 2021-06-18 2024-06-01 大陸商華為技術有限公司 三維音訊訊號編碼方法、裝置、編碼器、系統、電腦程式和電腦可讀儲存介質
US11765604B2 (en) 2021-12-16 2023-09-19 T-Mobile Usa, Inc. Providing configuration updates to wireless telecommunication networks

Also Published As

Publication number Publication date
EP3100263B1 (en) 2018-04-04
US20150213803A1 (en) 2015-07-30
JP2017507350A (ja) 2017-03-16
BR112016017278A2 (zh) 2017-08-08
KR101958529B1 (ko) 2019-03-14
US9922656B2 (en) 2018-03-20
WO2015116666A1 (en) 2015-08-06
CA2933562A1 (en) 2015-08-06
KR20160114639A (ko) 2016-10-05
CA2933562C (en) 2021-03-16
JP6510541B2 (ja) 2019-05-08
CN105940447B (zh) 2020-03-31
ES2674819T3 (es) 2018-07-04
EP3100263A1 (en) 2016-12-07
HUE037842T2 (hu) 2018-09-28
BR112016017278B1 (pt) 2022-09-06

Similar Documents

Publication Publication Date Title
CN105940447A (zh) 环境高阶立体混响系数的转变
CN106415714B (zh) 译码环境高阶立体混响系数的独立帧
CN106104680B (zh) 将音频信道插入到声场的描述中
CN107004420B (zh) 高阶立体混响声(hoa)架构中于预测及非预测量化技术间切换
CN106463121B (zh) 较高阶立体混响信号压缩
CN105325015B (zh) 经旋转高阶立体混响的双耳化
CN106463127A (zh) 译码从高阶立体混响音频信号分解的向量
CN106575506A (zh) 高阶立体混响音频数据的中间压缩
CN105580072B (zh) 用于音频数据的压缩的方法、装置及计算机可读存储媒体
CN106463129A (zh) 选择码簿以用于译码从高阶立体混响音频信号分解的向量
CN106796794A (zh) 环境高阶立体混响音频数据的归一化
CN106471577A (zh) 在高阶立体混响系数中的标量与向量之间进行确定
CN106663433A (zh) 减少高阶立体混响(hoa)背景信道之间的相关性
CN106471576B (zh) 高阶立体混响系数的闭环量化
CN106471578A (zh) 较高阶立体混响信号之间的交叉淡化
CN106415712B (zh) 用于渲染高阶立体混响系数的装置和方法
CN108141690A (zh) 在多个转变期间译码高阶立体混响系数
CN106465029B (zh) 用于渲染高阶立体混响系数及产生位流的装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant