CN106471576B - 高阶立体混响系数的闭环量化 - Google Patents

高阶立体混响系数的闭环量化 Download PDF

Info

Publication number
CN106471576B
CN106471576B CN201580025054.6A CN201580025054A CN106471576B CN 106471576 B CN106471576 B CN 106471576B CN 201580025054 A CN201580025054 A CN 201580025054A CN 106471576 B CN106471576 B CN 106471576B
Authority
CN
China
Prior art keywords
audio object
quantization
audio
directional information
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580025054.6A
Other languages
English (en)
Other versions
CN106471576A (zh
Inventor
金武勇
尼尔斯·京特·彼得斯
迪潘让·森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN106471576A publication Critical patent/CN106471576A/zh
Application granted granted Critical
Publication of CN106471576B publication Critical patent/CN106471576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一般来说,本发明描述用于提供声场的三维表示的HOA系数的闭环量化的技术。音频编码装置可至少部分地基于执行与音频对象相关联的方向信息的量化的结果而执行所述音频对象的闭环量化。音频解码装置可至少部分地基于执行与已经闭环量化的音频对象相关联的方向信息的量化的结果而获得所述音频对象,且可解量化所述音频对象。

Description

高阶立体混响系数的闭环量化
本申请案主张以下各美国临时申请案的权利:
2014年5月16日申请的标题为“高阶立体混响系数的闭环量化(CLOSED LOOPQUANTIZATION OF HIGHER ORDER AMBISONIC COEFFICIENTS)”的第61/994,493 号美国临时申请案;
2014年5月16日申请的标题为“高阶立体混响系数的闭环量化”的第61/994,788号美国临时申请案;以及
2014年5月28日申请的标题为“高阶立体混响系数的闭环量化”的第62/004,082号美国临时申请案,
前述所列各美国临时申请案中的每一者以引用的方式并入本文中,如同在其相应全文中所阐述般。
技术领域
本发明涉及音频数据,且更具体来说,涉及高阶立体混响音频数据的量化。
背景技术
高阶立体混响(HOA)信号(常由多个球谐系数(SHC)或其它阶层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以重放从SHC信号再现的多信道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可促进向后兼容性,因为可将SHC 信号再现为众所周知的且被广泛采用的多信道格式(例如,5.1音频信道格式或7.1音频信道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,本发明描述用于提供声场的三维表示的HOA系数的闭环量化的技术。并非使用开环量化过程执行音频对象和与音频对象相关联的方向信息(这两者可从HOA 系数分解)的单独且独立量化,音频编码器可至少部分地基于与所述音频对象相关联的经量化方向信息而量化所述音频对象。以此方式,经量化音频对象可补偿因量化与所述音频对象相关联的方向信息产生的量化误差。此外,与经由开环量化编码的声场的三维表示相比,经由闭环量化编码的声场的三维表示可由解码器以相对较少量化误差来重构。
在一个方面中,一种用于量化前景音频信号的方法包括由至少一个处理器至少部分地基于执行与音频对象相关联的方向信息的量化的结果而执行所述音频对象的闭环量化。
在另一方面,一种用于量化前景音频信号的装置包含存储器。所述装置进一步包含至少一个处理器,其经配置以至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的结果而执行所述音频对象的闭环量化。
在另一方面,一种用于解量化音频对象的方法包括:由至少一个处理器至少部分地基于执行与已经闭环量化的音频对象相关联的方向信息的量化的结果而获得所述音频对象;以及由所述至少一个处理器解量化所述音频对象。
在另一方面,一种用于解量化音频对象的装置包含存储器。所述装置进一步包含至少一个处理器,其经配置以:至少部分地基于执行与已经闭环量化的音频对象相关联的方向信息的量化的结果而获得所述音频对象;以及解量化所述音频对象。
在附图和以下描述中陈述所述技术的一或多个方面的细节。所述技术的其它特征、目标及优点将从所述描述及图式以及权利要求书中显而易见。
附图说明
图1是说明具有各种阶及子阶的球谐基底函数的图。
图2是说明可执行本发明中所描述的技术的各种方面的系统的图。
图3是更详细说明可执行本发明中描述的技术的各种方面的图2的实例中所示的音频编码装置的一个实例的框图。
图4是更详细说明图2的音频解码装置的框图。
图5A是说明音频编码装置执行本发明中所描述的基于向量的合成技术的各种方面的示范性操作的流程图。
图5B是说明音频编码装置执行本发明中所描述的译码技术的各种方面的示范性操作的流程图。
图6A是说明音频解码装置执行本发明中描述的技术的各种方面的示范性操作的流程图。
图6B是说明音频解码装置执行本发明中所描述的译码技术的各种方面的示范性操作的流程图。
图7A和7B是说明呈一或多个V向量形式的方向信息以及呈用于HOA信号压缩的前景信号形式的音频对象的闭环量化的框图。
图8是更详细说明图3的实例中所示的音频编码装置的量化单元的一个实例的框图。
图9是更详细说明图3的实例中所示的音频编码装置的量化补偿单元的一个实例的框图。
具体实施方式
环绕声的演进现今已使得许多输出格式可用于娱乐。此等消费型环绕声格式的实例大部分为“信道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含普遍的5.1格式(其包含以下六个信道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰电视标准使用)。非消费型格式可涵括任何数目的扬声器(成对称和非对称几何形状),其常常称为“环绕阵列”。此种阵列的一个实例包含定位在截角二十面体的拐角上的坐标处的32 个扩音器。
到未来MPEG编码器的输入视情况为三个可能格式中的一者:(i)传统的基于信道的音频(如上文所论述),其意图由处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也称为“球谐系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。此未来MPEG编码器可更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC) JTC1/SC29/WG11/N13411的标题为“要求对于3D音频的提议(Call for Proposals for 3D Audio)”的文献中,该文献于2013年1月在瑞士日内瓦发布,且可在 http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。
在市场中存在各种基于“环绕声”信道的格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望产生电影的声迹一次,而不花费精力来针对每一扬声器配置对其进行重混。近来,标准开发组织(StandardsDeveloping Organizations)一直在考虑如下方式:提供到标准化位流中的编码,以及后续解码,其可调适且不知晓重放位置(涉及再现器)处的扬声器几何形状(和数目)以及声学条件。
为向内容创建者提供此种灵活性,可使用阶层元素集合来表示声场。所述阶层元素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示的元素集合。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
阶层元素集合的一个实例为球谐系数(SHC)的集合。以下表达式示范使用SHC对声场的描述或表示:
所述表达式展示了在时间t处在声场的任一点处的压力pi可以通过SHC,唯一地表示。此处,c是声速(~343m/s),是参考点(或观察点),jn(·) 是阶数n的球面贝塞尔函数,且是阶数n且子阶数m的球面谐波基底函数。可以认识到,在方括号中的项是信号的频域表示(即,),其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。阶层集合的其它实例包含小波变换系数的集合和多分辨率基底函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶但未明确注释。
SHC可由各种麦克风阵列配置物理获取(例如,记录),或者,其可从声场的基于信道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为第四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025页)中。
为说明可如何从基于对象的描述导出SHC,考虑以下等式。用于对应于个别音频对象的声场的系数可以表达为:
其中i是 是阶数n的球面汉克尔函数(第二种),且是对象的位置。知道对象源能量g(ω)为频率的函数(例如,使用时频分析技术,例如对PCM流执行快速傅立叶变换)允许我们将每一PCM对象和对应位置转换为SHC此外可展示(因为以上是线性且正交分解)用于每一对象的系数是加性的。以此方式,大量 PCM对象可以由系数表示(例如,作为用于个别对象的系数向量的总和)。基本上,所述系数含有关于声场的信息(随着3D坐标而变的压力),且以上表示在观测点附近从个别对象到总体声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
图2是说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所示,系统10包含内容创建者装置12和内容消费者装置14。尽管在内容创建者装置12和内容消费者装置14的上下文中描述,但可在其中声场的SHC(其也可称为HOA 系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建者装置12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话或桌上型计算机(提供几个实例)。同样,内容消费者装置14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或桌上型计算机(提供几个实例)。
内容创建者装置12可由电影工作室或可产生多信道音频内容以供内容消费者装置 (例如,内容消费者装置14)的操作者消耗的其它实体来操作。在一些实例中,内容创建者装置12可由将希望压缩HOA系数11的个别用户操作。内容创建者通常产生音频内容与视频内容。内容消费者装置14可由个人操作。内容消费者装置14可包含音频重放系统16,其可指能够再现SHC以供作为多信道音频内容重放的任何形式的音频重放系统。
内容创建者装置12包含音频编辑系统18。内容创建者装置12获得各种格式(包含直接作为HOA系数)的实况记录7和音频对象9,内容创建者装置12可使用音频编辑系统18对其进行编辑。麦克风5可俘获实况记录7。内容创建者可在编辑过程期间再现来自音频对象9的HOA系数11,从而收听所再现的扬声器馈送以试图识别需要进一步编辑的声场的各个方面。内容创建者装置12可接着编辑HOA系数11(可能经由操纵可以上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者装置12可采用音频编辑系统18来产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。
当编辑过程完成时,内容创建者装置12可基于HOA系数11产生位流21。也就是说,内容创建者装置12包含音频编码装置20,其表示经配置以根据本发明中描述的技术的各个方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供(作为一个实例)跨越发射信道发射,所述发射信道可为有线或无线信道、数据存储装置等。位流21可表示HOA系数11的经编码版本,且可包含主要位流和另一旁侧位流(其可称为旁侧信道信息)。
虽然在图2中展示为直接发射到内容消费者装置14,但内容创建者装置12可将位流21输出到位于内容创建者装置12与内容消费者装置14之间的中间装置。中间装置可存储位流21以供稍后传递到可请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21(且可能结合发射对应视频数据位流)串流到请求位流21的订户(例如,内容消费者装置14)的内容传递网络中。
或者,内容创建者装置12可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,发射信道可指代借以发射存储到媒体的内容的信道(且可包含零售商店及其它基于商店的传递机构)。在任何情况下,本发明的技术因此就此而言不应限于图2的实例。
如图2的实例中进一步所示,内容消费者装置14包含音频重放系统16。音频重放系统16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含若干不同再现器22。再现器22可各自提供不同形式的再现,其中所述不同形式的再现可包含执行基于向量的振幅平移(VBAP)的各种方式中的一或多者,和/或执行声场合成的各种方式中的一或多者。如本文所使用,“A和/或B”意味着“A或B”,或“A和 B”两者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11但归因于有损操作(例如,量化)和/或经由发射信道的发射而不同。音频重放系统16可随后解码位流21以获得HOA系数11'且再现HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器(其为便于说明的目的在图2的实例中未图示)。
为了选择适当再现器或在一些情况下产生适当再现器,音频重放系统16可获得指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风获得扩音器信息13且以动态地确定扩音器信息13的方式驱动所述扩音器。在其它情况下或结合动态确定扩音器信息13,音频重放系统16可提示用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16可随后基于扩音器信息13选择音频再现器22中的一者。在一些情况下,在音频再现器22中无一者处于至扩音器信息中所指定的扩音器几何结构的某一阈值相似性量度(就扩音器几何结构而言)内时,音频重放系统16可基于扩音器信息 13产生音频再现器22中的一者。音频重放系统16可在一些情况下基于扩音器信息13 产生音频再现器22中的一者,而不首先尝试选择音频再现器22中的现有一者。一或多个扬声器3接着可重放经再现的扩音器馈送25。
图3为更详细说明可执行本发明中描述的技术的各种方面的图2的实例中所示的音频编码装置20的一个实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27和基于方向的分解单元28。尽管下文简要描述,但关于音频编码装置20及压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUNDFIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11表示从实况记录产生的内容还是从音频对象产生的内容的单元。内容分析单元26可确定 HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧式HOA系数11是从记录产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当帧式HOA系数11是从合成音频对象产生时,内容分析单元26将HOA系数11传递到基于方向的分解单元28。基于方向的分解单元28可表示经配置以执行HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如在图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、心理声学音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG) 选择单元48、空间-时间内插单元50以及量化单元52。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k 可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M x(N+1)2
LIT单元30可表示经配置以执行被称作奇异值分解的分析形式的单元。虽然相对于 SVD加以描述,但可相对于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的技术。此外,在本发明中对“集合”的参考一般希望指代“非零”集合(除非特定地相反陈述),且并不希望指代包含所谓的“空集合”的集合的经典数学定义。替代变换可包括常常被称作“PCA”的主分量分析。取决于上下文,PCA可由若干不同名称指代,例如离散卡亨南-洛维变换、霍特林变换、恰当正交分解(POD)和本征值分解(EVD),仅举几例。有利于压缩音频数据的基本目标的此种操作的特性为多信道音频数据的“能量压缩”和“去相关”。
在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其再次可被称作“SVD”),LIT单元30可将HOA系数11变换成两个或更多个经变换HOA系数的集合。经变换HOA系数的“集合”可包含经变换HOA系数的向量。在图3的实例中,LIT 单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多信道音频数据的右奇异向量。
在一些实例中,以上提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假定 HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,尽管在本发明中表示为V矩阵,但对V矩阵的提及应理解为在适当的情况下涉及V矩阵的转置。尽管假定为V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:M x (N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本)及具有维度D: (N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可以被称为XPS(k),而 V[k]矩阵的个别向量也可以被称为v(k)。
U、S及V矩阵的分析可显示,这些矩阵携载或表示上文由X表示的基本声场的空间及时间特征。U(长度为M个样本)中的N个向量中的每一者可表示依据时间(对于由M 个样本表示的时间周期)的正规化的分离音频信号,其彼此正交且已与任何空间特征(其也可被称作方向信息)解耦。表示空间形状和位置的空间特性可实际上由V矩阵(长度(N+1)2的每一者)中的个别第i向量v(i)(k)表示。向量v(i)(k)中的每一者的个别元素可表示描述相关联音频对象的声场的形状(包含宽度)和位置的HOA系数。U矩阵和V 矩阵中的向量均经正规化而使得其均方根能量等于单位。U中的音频信号的能量因而由 S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V 中)解耦的能力可支持本发明中所描述的技术的各个方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的模型给出贯穿此文献使用的术语“基于向量的分解”。此外,贯穿本文献,表示具有能量的音频信号的US[k]可由术语“音频对象”或“前景音频信号”指代,且V[k]可被称为“与音频对象相关联的方向信息”或“与前景信号相关联的方向信息”。HOA[k]系数可被称为HOA系数,其中HOA系数=US[k]*V[k] 或换句话说,HOA系数是音频对象(US[k])和与所述音频对象相关联的方向信息(V[k]) 的乘积。
尽管描述为直接相对于HOA系数11执行,但LIT单元30可将线性可逆变换应用到HOA系数11的导出项。举例来说,LIT单元30可相对于从HOA系数11导出的功率谱密度矩阵应用SVD。通过相对于HOA系数的功率谱密度(PSD)而非系数自身执行 SVD,LIT单元30可在处理器循环和存储空间的一或多者方面可能地降低执行SVD的计算复杂性,同时实现相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向特性参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别这些参数。参数计算单元32还可确定先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、 r[k-1]及e[k-1]。参数计算单元32可将当前参数37和先前参数39输出到重排序单元34。
由参数计算单元32计算的参数可供重排序单元34用以将音频对象重排序以表示其自然评估或随时间推移的连续性。重排序单元34可将来自转向方向的第一US[k]向量 33的参数37中的每一者与第二US[k-1]向量33的参数39中的每一者相比较。重排序单元34可基于当前参数37及先前参数39对US[k]矩阵33及V[k]矩阵35内的各种向量重排序(作为一个实例,使用匈牙利算法)以将经重排序的US[k]矩阵33'(其可数学表示为)及经重排序的V[k]矩阵35'(其可数学表示为)输出到前景声音(或突出的声音 -PS)选择单元36(“前景选择单元36”)及能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便有可能实现目标位速率41的单元。声场分析单元44可基于所述分析和/或基于所接收目标位速率 41,确定心理声学译码器示例的总数目(其可为环境或背景信道的总数目(BGTOT)的函数) 和前景信道(或换句话说,占优势信道)的数目。心理声学译码器示例的总数可表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景信道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHoaOrder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHoaOrder+1)2),及要发送的额外BG HOA信道的索引(i)(其在图3的实例中可共同地表示为背景信道信息43)。背景信道信息43也可被称作环境信道信息43。保持来自 numHOATransportChannels-nBGa的信道中的每一者可为“额外背景/环境信道”、“作用中的基于向量的占优势信道”、“作用中的基于方向的占优势信号”或“完全非作用”。在一个方面中,可通过两个位将信道类型指示为(如“ChannelType”)语法元素(例如,00:基于方向的信号;01:基于向量的占优势信号;10:额外环境信号;11:非作用信号)。可由(MinAmbHoaOrder+1)2+索引10(在以上实例中)表现为用于所述帧的位流中的信道类型的的倍数而给出背景或环境信号的总数目nBGa。
声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目及前景(或换句话说,占优势)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景及/或前景信道。在一个方面中,在位流的标头部分中,numHOATransportChannels可设定为8,而MinAmbHOAorder可设定为1。在此情境下,在每个帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,用作额外背景/环境信道或前景/占优势信道。前景/占优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,用于帧的基于向量的占优势信号的总数目可通过ChannelType索引在所述帧的位流中是01的次数给出。在上述方面中,对于每个额外背景/环境信道(例如,对应于ChannelType 10),可在所述信道中表示可能的HOA系数中的哪一者的对应信息 (超出前四)。对于四阶HOA内容,所述信息可为指示HOA系数5至25的索引。可在minAmbHOAorder设定为1时始终发送前四个环境HOA系数1至4,因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5至25中的一者。因而可使用5位语法元素(对于四阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。在任何情况下,声场分析单元44将背景信道信息43及HOA系数11输出到背景(BG)选择单元 36,将背景信道信息43输出到系数减少单元46及位流产生单元42,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)及要发送的额外BG HOA信道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i) 中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位产生单元42以便使得音频解码装置(例如,图2及4的实例中所展示的音频解码装置24)能够从位流21解析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D: M×[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境 HOA系数47中的每一者对应于待由心理声学音频译码器单元40编码的单独环境HOA 信道。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或不同分量的经重排序的US[k]矩阵33'及经重排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,…,nFG 49、FG1,…,nfG[k]49或49)输出到量化补偿单元70,其中nFG信号49可具有维度 D:M xnFG且各自表示单音频对象。前景选择单元36还可将对应于声场的前景分量的经重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中经重排序的V[k]矩阵35'中的对应于前景分量的子集可表示为具有维度D((N+1)2×nFG)的前景 V[k]矩阵51k(其可在数学上表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可相对于经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于所述能量分析执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到心理声学音频译码器元40。
空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及先前帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重排序的前景HOA系数。空间-时间内插单元50可接着将经重排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50还可输出用于产生经内插前景V[k]向量的前景V[k]向量51k使得例如音频解码装置24等音频解码装置可产生经内插前景V[k]向量且借此恢复前景V[k]向量51k。将用于产生经内插的前景V[k]向量的前景V[k]向量51k表示为其余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以创建经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化版本。空间-时间内插单元50可将经内插的nFG信号49' 输出到心理声学音频译码器单元40且将经内插的前景V[k]向量51k输出到系数减少单元46。
系数减少单元46可表示经配置以基于背景信道信息43相对于剩余前景V[k]向量53执行系数减少以将经减少的前景V[k]向量55输出到量化单元52的单元。经减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。系数减少单元46可在这方面中表示经配置以减少其余前景V[k]向量53中的系数数目的单元。换句话说,系数减少单元46可表示经配置以消除(形成其余前景V[k]向量53的)前景V[k]向量中的具有极少至不具有方向信息的系数的单元。在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶及零阶基底函数的系数(其可表示为NBG)提供极少方向信息,且因此可从前景V向量移除(经由可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA信道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化以压缩减少的前景V[k]向量55以产生经译码前景V[k]向量57并且将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,在此实例中经减少的前景V[k]向量55中的一或多者)的单元。量化单元52可执行如通过表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一者:
量化单元52还可执行前述类型的量化模式中的任一者的预测版本,其中确定先前帧的V向量的元素(或执行向量量化时的权数)与当前帧的V向量的元素(或执行向量量化时的权数)之间的差。量化单元52可接着将当前帧与先前帧的元素或权数之间的差而非当前帧本身的V向量的元素的值量化。
量化单元52可相对于减少的前景V[k]向量55中的每一者执行多种形式的量化,以获得减少的前景V[k]向量55的多个经译码版本。量化单元52可选择减少的前景V[k] 向量55的经译码版本中的一者作为经译码前景V[k]向量57。换句话说,量化单元52 可基于本发明中论述的标准的任何组合选择未经预测的经向量量化的V向量、经预测的经向量量化的V向量、未经霍夫曼译码的经标量量化的V向量及经霍夫曼译码的经标量量化的V向量中的一者,以用作经输出变换量化的V向量。在一些实例中,量化单元52可从包含向量量化模式及一或多个标量量化模式的一组量化模式中选择量化模式,且基于(或根据)所述选定模式量化输入V向量。量化单元52可接着将以下各者中的选定者提供到位流产生单元42以用作经译码前景V[k]向量57:未经预测的经向量量化的 V向量(例如,就权数值或指示权数值的位而言)、经预测的经向量量化的V向量(例如,就误差值或指示误差值的位而言)、未经霍夫曼译码的经标量量化的V向量及经霍夫曼译码的经标量量化的V向量。量化单元52还可提供指示量化模式的语法元素(例如, NbitsQ语法元素)及用于将V向量解量化或以其它方式重构V向量的任何其它语法元素。
音频编码装置20内包含的量化补偿单元70可表示经配置以接收来自空间-时间内插单元50的经内插nFG信号49'和经内插前景V[k]向量53以及来自量化单元52的经译码前景V[k]向量57以执行相对于nFG信号49'的量化补偿以便补偿因量化经内插前景V[k] 向量53引起的量化误差的单元。量化补偿单元70可产生经量化补偿nFG信号60且将其输出到心理声学音频译码器单元40。
为了确定经量化补偿nFG信号60,因为经译码前景V[k]向量57是矩阵,所以量化补偿单元70可对经译码前景V[k]向量57执行伪逆函数以获得经译码前景V[k]向量57 的伪逆。所述伪逆函数在一些实例中可为一般化逆函数或穆尔-彭罗斯(Moore-Penrose) 伪逆函数。量化补偿单元70可计算经译码前景V[k]向量57的伪逆与前景HOA系数的乘积以确定中间经量化补偿nFG信号。举例来说,量化补偿单元70可将前景HOA系数确定为经内插nFG信号49'与经内插前景V[k]向量53的乘积。通过作为经译码前景 V[k]向量57的伪逆与前景HOA系数的乘积而产生,由量化补偿单元70产生的中间经量化补偿nFG信号可补偿由经译码前景V[k]向量57引入的量化误差,因为中间经量化补偿nFG信号是至少部分地基于经译码前景V[k]向量57而不是经内插前景V[k]向量53 计算的。因此,音频编码装置20可进而补偿在量化经量化补偿nFG信号60时在量化经内插前景V[k]向量53中引入的任何误差。
量化补偿单元70可进一步使当前帧k的中间经量化补偿nFG信号的一部分与前一帧k-1的中间经量化补偿nFG信号的一部分进行交叉淡化以产生经量化补偿nFG信号 60。例如,量化补偿单元70可使当前帧k的中间经量化补偿nFG信号的前256个样本与前一帧k-1的中间经量化补偿nFG信号的最后256个样本进行交叉淡化以产生大小为 1024乘2的经量化补偿nFG信号60。在一些实例中,量化补偿单元70可不使当前帧k 的中间经量化补偿nFG信号与前一帧k-1的中间经量化补偿nFG信号进行交叉淡化。在此情况下,经量化补偿nFG信号60可与中间经量化补偿nFG信号相同。
音频编码装置20内包含的心理声学音频译码器单元40可表示心理声学音频译码器的多个例子,其每一者用于编码经能量补偿环境HOA系数47'和经量化补偿nFG信号 60中的每一者的不同音频对象或HOA信道以产生经编码环境HOA系数59和经编码 nFG信号61。产生经编码环境HOA系数59可包含执行经能量补偿环境HOA系数47' 的量化,且产生经编码nFG信号61可包含执行经量化补偿nFG信号60的量化。心理声学音频译码器单元40可将经编码环境HOA系数59和经编码nFG信号61输出到位流产生单元42。
包含于音频编码装置20内的位流产生单元42表示将数据格式化以符合已知格式(其可指代解码装置已知的格式)借此产生基于向量的位流21的单元。换句话说,位流21 可表示以上文所描述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61,和背景信道信息43。位流产生单元42可接着基于经译码前景V[k]向量 57、经编码环境HOA系数59、经编码nFG信号61及背景信道信息43产生位流21。以此方式,位流产生单元42可由此在位流21中指定向量57以获得如下文关于图7的实例更详细描述的位流21。位流21可包含主要或主位流和一或多个旁侧信道位流。
尽管在图3的实例中未展示,但音频编码装置20还可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为检测到 HOA系数11是从合成音频对象产生的结果)还是执行基于向量的合成(作为检测到HOA 系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应一者的切换或当前编码。
此外,如上文所提及,声场分析单元44可识别BGTOT环境HOA系数47,所述BGTOT环境HOA系数可逐帧改变(但时常BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在减少的前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致背景HOA系数(其也可被称作“环境HOA系数”),所述背景HOA系数逐帧改变(但再次,时常BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。所述改变常常导致声场的各方面的能量改变,所述声场通过额外环境HOA系数的添加或移除及系数从减少的前景V[k]向量55的对应移除或系数至减少的前景V[k]向量55 的添加表示。
因此,声场分析单元44可进一步确定环境HOA系数何时从帧至帧改变且产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量而言)(其中所述改变也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。具体而言,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或 AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,使得可将所述旗标包含在位流21中(有可能作为旁侧信道信息的一部分)。
除指定环境系数转变旗标之外,系数减少单元46也可修改产生减少的前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一者在当前帧期间处于转变中时,系数减少单元46可指定用于减少的前景V[k]向量55的V向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。同样,处于转变中的环境HOA系数可添加至背景系数的BGTOT总数目或从背景系数的BGTOT总数目中移除。因此,背景系数的总数目的所得改变影响环境HOA系数是否包含于位流中,及在上文所描述的第二及第三配置模式中是否针对位流中所指定的V 向量包含V向量的对应元素。关于系数减少单元46可如何指定减少的前景V[k]向量55 以克服能量的改变的更多信息提供于2015年1月12日申请的标题为“环境 HIGHER_ORDER立体混响系数的转变(TRANSITIONING OFAMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
图4为更详细说明图2的音频解码装置24的框图。如在图4的实例中所展示,音频解码装置24可包含提取单元72、基于方向性的重构单元90及基于向量的重构单元 92。尽管下文进行描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(NTERPOLATIONFOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收位流21和提取HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可根据以上所述确定指示HOA系数11是否经由各种基于方向的或基于向量的版本而经编码的语法元素。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4的实例中表示为基于方向的信息91),从而将所述基于方向的信息91传递到基于方向的重构单元90。基于方向的重构单元90 可表示经配置以基于所述基于方向的信息91重构呈HOA系数11'的形式的HOA系数的单元。位流和位流内语法元素的布置在下文相对于图7A到7B的实例更详细描述。
当语法元素指示HOA系数11使用基于向量的合成进行编码时,提取单元72可提取经译码前景V[k]向量57(其可包含经译码权数及/或索引63或经标量量化的V向量)、经编码环境HOA系数59及对应音频对象61(其也可被称作经编码nFG信号61)。音频对象61各自对应于向量57中的一者。提取单元72可将经译码前景V[k]向量57传递至 V向量重构单元74,且将经编码环境HOA系数59以及经编码nFG信号61提供到心理声学音频解码单元80。
V向量重构单元74(也被称作解量化单元)可表示经配置以从经编码前景V[k]向量57 重构V向量(例如,经减少的前景V[k]向量55k)的单元。V向量重构单元74可以与量化单元52的方式互逆的方式操作以解量化经编码前景V[k]向量57以产生经减少的前景 V[k]向量55k
在一些实例中,V向量重构单元74可使当前帧的经译码前景V[k]向量57的一部分与前一帧的经译码前景V[k-1]向量的一部分进行交叉淡化以产生经交叉淡化且经量化的前景V[k]向量。举例来说,提取单元72可使当前帧k的经译码前景V[k]向量57的前 256个样本与前一帧k-1的经量化前景V[k-1]向量的最后256个样本进行交叉淡化,且解量化所述经交叉淡化且经量化的前景V[k]向量以产生经减少的前景V[k]向量55k
心理声学解码单元80可以与图3的实例中所展示的心理声学音频译码器单元40互逆的方式操作以便对经编码环境HOA系数59及经编码nFG信号61进行解码且由此产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其也可被称作经内插的nFG 音频对象49')。心理声学音频解码单元80可将能量补偿环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
空间-时间内插单元76可以类似于上文相对于空间-时间内插单元50所描述方式的方式操作。空间-时间内插单元76可接收减少的前景V[k]向量55k且相对于前景V[k]向量55k及减少的前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量 55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元可接着确定SHCBG 47'(其中SHCBG 47'还可表示为“环境 HOA信道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k”的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'及经内插的前景V[k]向量55k”的元素中的每一者相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时相对于经内插的前景V[k]向量55k”的元素中的对应一个元素执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元 82且将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770 表示经配置以相对于HOA系数或其衍生物的各种方面执行淡化操作的单元,所述衍生物例如呈环境HOA系数47'和经内插前景V[k]向量55k”的元素的形式。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。在这方面中,前景制订单元78可组合音频对象49'(其为借以表示经内插的nFG信号49'的另一种方式)与向量55k”' 以重构HOA系数11'的前景(或换句话说,优势)方面。前景制订单元78可执行经内插的 nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境 HOA系数47”以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于HOA 系数11但与HOA系数11不相同。HOA系数11与11'之间的差可起因于由于有损发射媒体上的发射、量化或其它有损操作而产生的损失。
图5A为说明音频编码装置(例如图3的实例中所示的音频编码装置20)执行本发明中所描述的基于向量的合成技术的各个方面的示范性操作的流程图。最初,音频编码装置20接收HOA系数11(106)。音频编码装置20可调用LIT单元30,其可相对于HOA 系数应用LIT以输出经变换HOA系数(例如,在SVD的情况下,经变换HOA系数可包括US[k]向量33和V[k]向量35)(107)。
音频编码装置20接下来可调用参数计算单元32以按上文所描述的方式相对于 US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何组合执行上文所描述的分析以识别各种参数。也就是说,参数计算单元32可基于经变换的HOA系数33/35的分析确定至少一个参数(108)。
音频编码装置20可接着调用重排序单元34,重排序单元34基于参数将经变换的HOA系数(再次在SVD的上下文中,其可指US[k]向量33及V[k]向量35)重排序以产生经重排序的经变换的HOA系数33'/35'(或,换句话说,US[k]向量33'及V[k]向量35'),如上文所描述(109)。音频编码装置20可在以上操作或后续操作中的任一者期间还调用声场分析单元44。声场分析单元44可如上文所描述相对于HOA系数11和/或经变换 HOA系数33/35执行声场分析以确定前景信道(nFG)45的总数、背景声场(NBG)的次序以及待发送的额外BG HOA信道的数目(nBGa)和指数(i)(其可在图3的实例中统一表示为背景信道信息43)(109)。
音频编码装置20还可调用背景选择单元48。背景选择单元48可基于背景信道信息43确定背景或环境HOA系数47(110)。音频编码装置20可进一步调用前景选择单元36,前景选择单元36可基于nFG 45(其可表示识别这些前景向量的一或多个索引)选择表示声场的前景或相异分量的经重排序的US[k]向量33'及经重排序的V[k]向量35'(112)。
音频编码装置20可调用能量补偿单元38。能量补偿单元38可相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA系数的各者而导致的能量损失(114),且借此产生经能量补偿的环境HOA系数47'。
音频编码装置20也可调用空间-时间内插单元50。空间-时间内插单元50可相对于经重排序的经变换HOA系数33'/35'执行空间-时间内插以获得经内插前景信号49'(其也可被称作“经内插nFG信号49'”)及剩余前景方向信息53(其也可被称作“V[k]向量 53”)(116)。音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景信道信息43执行相对于剩余前景V[k]向量53的系数减少,以获得减少的前景方向信息55(其也可被称作减少的前景V[k]向量55)(118)。
音频编码装置20可接着调用量化单元52以按上文所描述的方式压缩经缩减前景V[k]向量55且产生经译码前景V[k]向量57(120)。
音频编码装置20可调用量化补偿单元70。量化补偿单元70可补偿经译码前景V[k]向量57的量化误差以产生经量化补偿nFG信号60(121)。
音频编码装置20还可调用心理声学音频译码器单元40。心理声学音频译码器单元40可对经能量补偿的环境HOA系数47'和经内插nFG信号49'的每一向量进行心理声学译码以产生经编码环境HOA系数59和经编码nFG信号61。音频编码装置可随后调用位流产生单元42。位流产生单元42可基于经译码前景方向信息57、经译码环境HOA 系数59、经译码nFG信号61和背景信道信息43产生位流21。
图5B为说明音频编码装置执行本发明中所描述的译码技术的示范性操作的流程图。如图5B中所示,音频编码装置20的LIT单元30可将HOA系数分解为音频对象和与音频对象相关联的方向信息(150)。所述音频对象可包括表示多个球谐系数的左奇异向量的U矩阵与表示所述多个球谐系数的奇异值的S矩阵的乘积。与所述音频对象相关联的所述方向信息可包括表示所述多个球谐系数的右奇异向量的V矩阵。
音频编码装置20的心理声学音频译码器单元40可至少部分地基于执行与音频对象相关联的方向信息的量化的结果而执行音频对象的闭环量化(152)。音频编码装置20可通过执行与音频对象相关联的方向信息的量化且至少部分地基于执行与音频对象相关联的方向信息的量化的结果执行音频对象的量化而执行所述音频对象的闭环量化。音频编码装置20可通过至少部分地基于因执行与音频对象相关联的方向信息的量化(即,量化)产生的量化误差而执行音频对象的量化(即,量化)来执行所述音频对象的量化(即,量化)。
音频编码装置20可至少部分地基于因执行与音频对象相关联的方向信息的量化产生的量化误差,通过补偿因执行与音频对象相关联的方向信息的量化产生的量化误差而执行音频对象的量化。音频编码装置20可通过至少部分地基于执行与音频对象相关联的方向信息的量化的结果的伪逆而确定经量化补偿音频对象且执行所述经量化补偿音频对象的量化来补偿因执行与音频对象相关联的方向信息的量化产生的量化误差。
音频编码装置20可至少部分地基于执行与音频对象相关联的方向信息的量化的结果的伪逆,通过将经量化补偿音频对象确定为高阶立体混响(HOA)系数与执行与音频对象相关联的方向信息的量化的结果的伪逆的乘积而确定经量化补偿音频对象。
图6A是说明音频解码装置(例如图4的实例中所示的音频解码装置24)在执行本发明中描述的技术的各个方面中的示范性操作的流程图。最初,音频解码装置24可接收位流21(130)。在接收到位流后,音频解码装置24可即刻调用提取单元72。出于论述的目的假定位流21指示将执行基于向量的重构,提取单元72可剖析位流以检索上文所提及的信息,将此信息传递到基于向量的重构单元92。
换句话说,提取单元72可按上文所描述的方式从位流21中提取经译码前景方向信息57(再次,其也可被称作经译码前景V[k]向量57)、经译码环境HOA系数59和经译码前景信号(其也可被称作经译码前景nFG信号61或经译码前景音频对象59)(132)。
音频解码装置24可进一步调用V向量重构单元74。V向量重构单元74可对经译码前景方向信息57进行熵解码及解量化以获得经减少的前景方向信息55k(136)。音频解码装置24还可调用心理声学音频解码单元80。心理声学音频解码单元80可解码/解量化经编码环境HOA系数59及经编码前景信号61以获得经能量补偿的环境HOA系数 47'及经内插的前景信号49'(138)。心理声学音频解码单元80可将能量补偿环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
音频解码装置24接下来可调用空间-时间内插单元76。空间-时间内插单元76可接收经重排序的前景方向信息55k'且相对于经减少的前景方向信息55k/55k-1执行空间-时间内插以产生经内插的前景方向信息55k”(140)。空间-时间内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可(例如,从提取单元72)接收或另外获得指示能量补偿环境HOA系数47'何时在转变中的语法元素(例如,AmbCoeffTransition语法元素)。淡化单元770可基于转变语法元素和维持的转变状态信息而淡入或淡出能量补偿环境HOA系数47',从而将经调整环境HOA系数47”输出到 HOA系数制订单元82。淡化单元770还可基于语法元素和维持的转变状态信息而淡出或淡入经内插前景V[k]向量55k”的对应一或多个元素,从而将经调整前景V[k]向量55k”' 输出到前景制订单元78(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'与经调整前景方向信息55k”'的矩阵乘法以获得前景HOA系数65(144)。音频解码装置24 还可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65与经调整环境HOA系数47”相加以便获得HOA系数11'(146)。
图6B是说明音频解码装置执行本发明中所描述的译码技术的示范性操作的流程图。如图6B中所示,音频解码装置24的提取单元72可接收位流(160)。音频解码装置 24可至少部分地基于执行与音频对象相关联的方向信息的量化的结果而获得已经闭环量化的音频对象(162)。举例来说,音频解码装置24的提取单元72可解码所述位流以获得经闭环量化音频对象和经量化方向信息。响应于获得音频对象,音频解码装置24可解量化所述音频对象(164)。
在某一实例中,通过量化与音频对象相关联的方向信息且至少部分地基于量化与所述音频对象相关联的方向信息的结果量化所述音频对象来闭环量化所述音频对象。在一些实例中,通过量化与音频对象相关联的方向信息且至少部分地基于因量化与所述音频对象相关联的方向信息产生的量化误差而量化所述音频对象来闭环量化所述音频对象。
在一些实例中,通过量化与音频对象相关联的方向信息且至少部分地基于因与所述音频对象相关联的方向信息的量化产生的量化误差而量化所述音频对象来闭环量化所述音频对象,包含补偿因执行与所述音频对象相关联的方向信息的量化产生的量化误差。在一些实例中,通过量化与音频对象相关联的方向信息、至少部分地基于量化与所述音频对象相关联的方向信息的结果的伪逆而确定经量化补偿音频对象且量化所述经量化补偿音频对象来闭环量化所述音频对象。
在一些实例中,通过将音频对象确定为高阶立体混响(HOA)系数与执行与所述音频对象相关联的方向信息的量化的结果的伪逆的乘积来闭环量化所述音频对象。在一些实例中,所述音频对象和方向信息是从高阶立体混响系数分解的,所述音频对象包括表示多个球谐系数的左奇异向量的U矩阵与表示所述多个球谐系数的奇异值的S矩阵的乘积,且与所述音频对象相关联的方向信息包括表示所述多个球谐系数的右奇异向量的V 矩阵。
图7A是说明用于HOA信号压缩的V向量和前景信号的闭环量化的框图。此闭环量化可由图3的实例中所示的音频编码装置20和图4的实例中所示的音频解码装置24 执行。为了减少量化误差,可量化V向量,且可通过补偿V向量的量化误差而量化US 向量。音频编码装置20可将V向量量化为Q(V),且可将新目标信号T(US)产生为H与 pinv(Q(V))的乘积,其中pinv(A)是A的伪逆。音频编码装置20可将T(US)量化为 Q(T(US))。音频解码装置24可基于由Q(T(US))*Q(V)'产生的经量化HOA系数Q(H)而重构HOA系数11'。以此方式,可基于V向量的量化误差而量化US向量。
如图7A中所示,HFG可表示在图7A的实例中具有1280乘21的大小的前景HOA 系数400。前景HOA系数400可等于UFG、SFG和VFG的乘积,其中UFG可具有1280 乘2的大小,SFG可具有2乘2的大小,且其中VFG可具有21乘2的大小。V向量VFG 402 可为在图7A的实例中具有21乘2的大小的图3的经减少前景V[k]向量55。原始目标 WFG=UFG*SFG 404可为在图7A的实例中具有1280乘2的大小的图3的经内插nFG信号 49'。
音频编码装置20可至少部分地基于前一帧408的经量化V向量确定是否对V向量VFG 402执行正负号改变406,如下文较详细论述。因此,音频编码装置20可至少部分地基于前一帧的经延迟经量化V向量408而确定是否将改变当前帧的V向量 VFG 402的正负号。音频编码装置20可确定是否使V向量VFG 402改变正负号406而导致无正负号改变的V向量VFG 402或经正负号改变的V向量410。音频编码装置20 可例如通过使用音频编码装置20的量化单元52量化412无正负号改变的V向量VFG 402 或经正负号改变的V向量410,以产生经量化前景V向量414,其可为图3的经译码前景V[k]向量57。音频编码装置可将经量化前景V向量414延迟416一个帧以产生经延迟经量化V向量408,以使得音频编码装置20可在下一帧中使用所述经量化V向量以确定是否对用于所述下一帧的V向量VFG执行正负号改变。
音频编码装置20可基于经延迟经量化V向量408确定418,其为前景HOA系数400与作为经延迟经量化V向量408的伪逆的的乘积。音频编码装置200还可确定420,其为WFG=UFG*SFG 404与418的乘积。至少部分地基于确定420,音频编码装置20 可对V向量VFG 402执行正负号改变406。举例来说,如果420的正负号为负,那么音频编码装置20可对V向量VFG402执行正负号改变406。
音频编码装置20可至少部分地基于经量化V向量408而产生新的目标422其为作为经量化V向量408的伪逆的与可表示前景HOA系数400的HFG的乘积,使得新目标422音频编码装置20可将新目标422延迟424 一个帧以产生前一目标426且可使新目标422的第一部分(例如前256个样本)与前一目标426的最后部分(例如最后256个样本)进行交叉淡化428,以产生类似于图3中的经量化补偿nFG信号60的经量化补偿目标信号。音频编码装置20可例如通过使用图3的心理声学音频译码器单元40量化430所述经量化补偿目标信号以产生输出到音频解码装置24的经量化前景信号432
音频解码装置24可例如从音频编码装置20接收经量化前景V向量414,且可将经量化前景V向量414延迟416一个帧以产生经延迟经量化V向量408。音频解码装置24可使当前帧的经量化前景V向量414的第一数目的样本与经延迟经量化V向量408的最后数目的样本交叉淡化,且可确定经交叉淡化经量化前景 V[k]向量436与经量化前景信号432的乘积以产生经量化前景HOA系数438 举例来说,音频解码装置24可使当前帧的经量化前景V向量414 的前256个样本与经延迟经量化V向量408的最后256个样本进行交叉淡化,且可确定经交叉淡化经量化前景V[k]向量436与经量化前景信号432的乘积以产生经量化前景HOA系数438音频解码装置24可分解且解量化前景 HOA系数438以使得扬声器可重放根据从经量化前景HOA系数438分解的经解量化音频对象再现的扩音器馈送。
图7B是说明用于HOA信号压缩的V向量和前景信号的闭环量化的框图。图7B不同于图7A之处在于图7B中所示的音频解码装置24不使当前帧的经量化前景V向量 414的第一数目的样本与经延迟经量化V向量408的最后数目的样本进行交叉淡化。图7B还不同于图7A之处在于如图7B中所示的音频编码装置20不使新目标422 延迟一个帧以产生先前目标,且因此不使新目标422的第一部分与先前目标4的最后部分进行交叉淡化以产生经量化补偿目标信号。
前景HOA系数400可等于UFG、SFG和VFG的乘积,其中UFG可具有1280乘2的大小,SFG可具有2乘2的大小,且其中VFG可具有21乘2的大小。V向量VFG 402可为在图7A的实例中具有21乘2的大小的图3的经减少前景V[k]向量55。原始目标WFG=UFG*SFG 404可为在图7A的实例中具有1280乘2的大小的图3的经内插nFG信号49'。
音频编码装置20可至少部分地基于前一帧408的经量化V向量确定是否对V向量VFG 402执行正负号改变406,如下文较详细论述。因此,音频编码装置20可至少部分地基于前一帧的经延迟经量化V向量408而确定是否将改变当前帧的V向量 VFG 402的正负号。音频编码装置20可确定是否使V向量VFG 402改变正负号406而导致无正负号改变的V向量VFG 402或经正负号改变的V向量410。音频编码装置20 可例如通过使用音频编码装置20的量化单元52量化412无正负号改变的V向量VFG 402 或经正负号改变的V向量410,以产生经量化前景V向量414,其可为图3的经译码前景V[k]向量57。音频编码装置可将经量化前景V向量414延迟416一个帧以产生经延迟经量化V向量408,以使得音频编码装置20可在下一帧中使用所述经量化V向量以确定是否对用于所述下一帧的V向量VFG执行正负号改变。
音频编码装置20可基于经延迟经量化V向量408而确定418,其为前景HOA系数400与作为经延迟经量化V向量408的伪逆的的乘积。音频编码装置200还可确定420,其为WFG=UFG*SFG 404与418的乘积。至少部分地基于确定420,音频编码装置20 可对V向量VFG 402执行正负号改变406。例如,如果420的正负号为负,那么音频编码装置20可对V向量VFG402执行正负号改变406。
音频编码装置20可至少部分地基于经量化V向量408而产生新目标422其为作为经量化V向量408的伪逆的与可表示前景HOA系数400的HFG的乘积,使得新目标422音频编码装置20可量化430新目标422以产生经量化前景信号432音频解码装置24可例如从音频编码装置20接收经量化前景V向量414,且可确定经量化前景V向量414与经量化前景信号432的乘积以产生经量化前景HOA系数438音频解码装置24可分解且解量化前景HOA系数438以使得扬声器可重放根据从经解量化前景HOA系数438分解的经解量化音频对象再现的扩音器馈送。
图8是更详细地说明图3的实例中所示的音频编码装置20的量化单元52的框图。在图8的实例中,量化单元52包含均匀量化单元230、n位单元232、预测单元234、预测模式单元236(“预测模式单元236”)、类别与残余译码单元238、霍夫曼表选择单元240、延迟单元300以及正负号改变单元302。均匀量化单元230表示经配置以相对于空间分量中的一者(其可表示经缩减前景V[k]向量55中的任一者)执行上文描述的均匀量化的单元。n位单元232表示经配置以确定nbits参数或值的单元。
延迟单元300可将均匀量化单元230的结果延迟一个帧,以使得在均匀量化单元230 作用于经减少前景V[k]向量55之前,正负号改变单元302可至少部分地基于经量化前景V[k]向量而确定是否对经减少前景V[k]向量55执行正负号改变。换句话说,正负号改变单元302可表示经配置以反转经减少前景V[k]向量55中的一或多者的正负号(从正到负或从负到正)的单元。给定线性可逆变换的性质,V[k]向量55可从用于第k帧的HOA 系数11分解以使得前一帧(或第(k-1)帧)的V[k-1]向量55中的对应一或多者的正负号被逐个地反转。在这方面中,有时可能需要跨越帧边界改变正负号。因此,是否需要改变当前帧的经减少前景V[k]向量55的正负号可取决于前一帧的经量化V向量。具体来说,量化单元54可将用于第k帧的HOA系数11与前一帧(k-1帧)的经量化V向量相乘以产生经延迟前景信号。量化单元54可将经延迟前景信号与经内插nFG信号49'相乘。如果将经延迟前景信号与经内插nFG信号49'相乘的结果为负,那么正负号改变单元302可对经减少前景V[k]向量55执行正负号改变。
图9是更详细说明图3的实例中所示的音频编码装置20的量化补偿单元70的框图。量化补偿单元70可包含中间补偿单元304、延迟单元306和交叉淡化单元308。中间补偿单元304可对经译码前景V[k]向量57执行伪逆函数以获得经译码前景V[k]向量57 的伪逆。中间补偿单元304可进一步计算经译码前景V[k]向量57的伪逆与前景HOA系数的乘积以确定中间经量化补偿nFG信号。在一个实例中,中间补偿单元304可将前景 HOA系数确定为经内插nFG信号49'与经内插前景V[k]向量53的乘积。
延迟单元306可将由中间补偿单元304产生的中间经量化补偿nFG信号延迟一个帧。交叉淡化单元308可使由中间补偿单元304输出的当前帧k的中间经量化补偿nFG 信号的一部分与由延迟单元306输出的前一帧k-1的中间经量化补偿nFG信号的一部分进行交叉淡化以产生经量化补偿nFG信号60。例如,交叉淡化单元308可使当前帧k 的中间经量化补偿nFG信号的前256个样本与前一帧k-1的中间经量化补偿nFG信号的最后256个样本进行交叉淡化以产生大小为1024乘2的经量化补偿nFG信号60。
可相对于任何数目个不同情形及音频生态系统执行前述技术。下文描述多个实例情形,但所述技术不应限于所述实例情形。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频原声、游戏音频译码/再现引擎,以及递送系统。
电影工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于信道的音频内容(例如,呈2.0及5.1)。在任一情况下,译码引擎可基于一或多个编解码器 (例如,AAC、AC3、Dolby True HD、Dolby Digital Plus及DTS Master Audio)接收并编码基于信道的音频内容以供传递系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频原声。游戏音频译码/再现引擎可译码音频原声及或将音频原声再现成基于信道的音频内容以供传递系统输出。可执行所述技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上捕获、HOA音频格式、装置上再现、消费型音频、TV及附件及汽车音频系统。
广播记录音频对象、专业音频系统及消费型装置上捕获都可使用HOA音频格式对其输出进行译码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上再现、消费型音频、TV及附件及汽车音频系统重放所述单一表示。换句话说,可在通用音频重放系统(即,与需要例如5.1、7.1等的特定配置相比)(例如,音频重放系统16)处重放音频内容的单一表示。
可执行所述技术的情形的其它实例包含可包含获取元件及重放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获及移动装置(例如,智能电话及平板计算机)。在一些实例中,有线及/或无线获取装置可经由有线及/或无线通信信道耦合到移动装置。
根据本发明的一或多个技术,移动装置可用于获取声场。举例来说,移动装置可经由有线及/或无线获取装置及/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由重放元件中的一或多者重放。举例来说,移动装置的用户可记录实况事件(例如,集会、会议、比赛、音乐会等)(获取实况事件的声场),且将记录译码至HOA系数中。
移动装置还可利用重放元件中的一或多者来重放经HOA译码声场。举例来说,移动装置可对经HOA译码的声场进行解码,且将致使重放元件中的一或多者重新产生声场的信号输出到重放元件中的一或多者。作为一个实例,移动装置可利用无线及/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出到一或多个对接站及/或一或多个对接扬声器 (例如,智能汽车及/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机再现将信号输出到一组头戴式耳机(例如)以产生实际的立体声声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放同一3D声场。在一些实例中,移动装置可获取3D声场,将3D声场编码为HOA且将经编码3D声场发射到一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于重放。
可执行所述技术的又一情形包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、再现引擎及传递系统。在一些实例中,游戏工作室可包含可支持HOA 信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含可经配置以与一或多个游戏音频系统一起操作(例如,工作)的HOA插件及/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码音频内容输出到再现引擎,所述再现引擎可再现声场以供传递系统重放。
也可相对于示范性音频获取装置执行所述技术。举例来说,可相对于可包含共同地经配置以记录3D声场的多个麦克风的本征麦克风执行所述技术。在一些实例中,本征麦克风的所述多个麦克风可位于具有大约4cm的半径的实质上球面球的表面上。在一些实例中,音频编码装置20可集成到本征麦克风中以便直接从麦克风输出位流21。
另一示范性音频获取情形可包含可经配置以从一或多个麦克风(例如,一或多个本征麦克风)接收信号的制作车。制作车还可包含音频编码器,例如图3的音频编码装置20。
在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图3的音频编码装置20。
加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,本征麦克风可附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式,附件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与附件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频重放装置。根据本发明的一或多个技术,扬声器及/或声棒在重放3D声场时可布置于任何任意配置中。此外,在一些实例中,头戴受话器重放装置可经由有线或无线连接耦合到音频解码装置24。根据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒及头戴式耳机重放装置的任何组合上再现声场。
多个不同实例音频重放环境还可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,及具有耳机重放环境的移动装置。
根据本发明的一或多个技术,可利用声场的单一通用表示来在前述重放环境中的任一者上再现声场。另外,本发明的技术使得再现器能够从通用表示再现声场以供在除上文所描述的环境之外的重放环境上重放。举例来说,如果设计考虑禁止扬声器根据7.1 扬声器重放环境的恰当置放(例如,如果不可能置放右环绕扬声器),那么本发明的技术使得再现器能够以其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。
此外,用户可在佩戴头戴式受话器时观看运动比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个本征麦克风放置于棒球场中及/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数发射到解码器,所述解码器可基于HOA系数重构3D声场且将经重构3D声场输出到再现器,并且所述再现器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重构3D声场再现成致使头戴式耳机输出运动比赛的3D声场的表示的信号。
在上述各种实例中的每一者中,应理解,音频编码装置20可执行方法,或另外包括执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行音频编码装置20已经配置以执行的方法。
在一或多个实例中,所描述的功能可在硬件、软件、固件或其任何组合中实施。如果以软件实施,那么所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或另外包括用于执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行音频解码装置24 已经配置以执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、 CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的期望程序代码并且可以由计算机存取的任何其它媒体。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所公开的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件组合在编码解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。

Claims (30)

1.一种用于量化前景音频信号的方法,其包括:
由至少一个处理器接收指示由麦克风捕获的高阶立体混响HOA系数的音频数据;
由所述至少一个处理器从所述HOA系数分解音频对象以及与所述音频对象相关联的方向信息;以及
由所述至少一个处理器至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的结果而执行所述音频对象的闭环量化。
2.根据权利要求1所述的方法,其中执行所述音频对象的所述闭环量化进一步包括:
执行与所述音频对象相关联的所述方向信息的量化;以及
至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的结果而执行所述音频对象的量化。
3.根据权利要求2所述的方法,其中执行所述音频对象的量化进一步包括:
至少部分地基于因执行与所述音频对象相关联的所述方向信息的量化产生的量化误差而执行所述音频对象的量化。
4.根据权利要求3所述的方法,其中至少部分地基于因执行与所述音频对象相关联的所述方向信息的量化产生的所述量化误差而执行所述音频对象的量化进一步包括:
补偿因执行与所述音频对象相关联的所述方向信息的量化产生的所述量化误差。
5.根据权利要求4所述的方法,其中补偿因执行与所述音频对象相关联的所述方向信息的量化产生的所述量化误差进一步包括:
至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的结果的伪逆而确定经量化补偿音频对象;以及
执行所述经量化补偿音频对象的量化。
6.根据权利要求5所述的方法,其中至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的所述结果的所述伪逆而确定所述经量化补偿音频对象进一步包括:
将所述经量化补偿音频对象确定为所述HOA系数与执行与所述音频对象相关联的所述方向信息的量化的所述结果的所述伪逆的乘积。
7.根据权利要求1所述的方法,其中:
所述音频对象包括表示多个球谐系数的左奇异向量的U矩阵与表示所述多个球谐系数的奇异值的S矩阵的乘积;且
与所述音频对象相关联的所述方向信息包括表示所述多个球谐系数的右奇异向量的V矩阵。
8.一种用于量化前景音频信号的装置,其包括:
存储器,其经配置以存储音频对象和与所述音频对象相关联的方向信息;
至少一个处理器,其经配置以:
接收指示由麦克风捕获的高阶立体混响HOA系数的音频数据;
从所述HOA系数分解音频对象以及与所述音频对象相关联的方向信息;以及
至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的结果而执行所述音频对象的闭环量化。
9.根据权利要求8所述的装置,其中所述至少一个处理器进一步经配置以:
执行与所述音频对象相关联的所述方向信息的量化;以及
至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的结果而执行所述音频对象的量化。
10.根据权利要求9所述的装置,其中执行所述音频对象的量化进一步包括:
至少部分地基于因执行与所述音频对象相关联的所述方向信息的量化产生的量化误差而执行所述音频对象的量化。
11.根据权利要求10所述的装置,其中所述至少一个处理器进一步经配置以:
补偿因执行与所述音频对象相关联的所述方向信息的量化产生的所述量化误差。
12.根据权利要求11所述的装置,其中所述至少一个处理器进一步经配置以:
至少部分地基于执行与所述音频对象相关联的所述方向信息的量化的结果的伪逆而确定经量化补偿音频对象;以及
执行所述经量化补偿音频对象的量化。
13.根据权利要求12所述的装置,其中所述至少一个处理器进一步经配置以:
将所述音频对象确定为高阶立体混响HOA系数与执行与所述音频对象相关联的所述方向信息的量化的所述结果的所述伪逆的乘积。
14.根据权利要求13所述的装置,其进一步包括:
麦克风,其经配置以捕获指示HOA系数的所述音频数据。
15.一种用于解量化音频对象的方法,其包括:
由至少一个处理器至少部分地基于执行与已经闭环量化的音频对象相关联的方向信息的量化的结果而获得所述音频对象,其中与所述音频对象相关联的所述方向信息是从高阶立体混响HOA系数分解的;
由所述至少一个处理器解量化所述音频对象;
由所述至少一个处理器使用所解量化的音频对象来再现扩音器馈送;以及
由所述至少一个处理器输出所述扩音器馈送以驱动一个或多个扬声器以重放所述扩音器馈送。
16.根据权利要求15所述的方法,其中通过量化与所述音频对象相关联的所述方向信息且至少部分地基于量化与所述音频对象相关联的所述方向信息的结果量化所述音频对象来闭环量化所述音频对象。
17.根据权利要求15所述的方法,其中通过量化与所述音频对象相关联的所述方向信息且至少部分地基于因量化与所述音频对象相关联的所述方向信息产生的量化误差量化所述音频对象来闭环量化所述音频对象。
18.根据权利要求15所述的方法,其中通过量化与所述音频对象相关联的所述方向信息且至少部分地基于因与所述音频对象相关联的所述方向信息的量化产生的量化误差量化所述音频对象来闭环量化所述音频对象,包含补偿因执行与所述音频对象相关联的所述方向信息的量化产生的所述量化误差。
19.根据权利要求15所述的方法,其中通过量化与所述音频对象相关联的所述方向信息、至少部分地基于量化与所述音频对象相关联的所述方向信息的结果的伪逆而确定经量化补偿音频对象且量化所述经量化补偿音频对象来闭环量化所述音频对象。
20.根据权利要求19所述的方法,其中通过将所述经量化补偿音频对象确定为高阶立体混响HOA系数与执行与所述音频对象相关联的所述方向信息的量化的所述结果的所述伪逆的乘积来闭环量化所述音频对象。
21.根据权利要求15所述的方法,其中:
所述音频对象和所述方向信息是从高阶立体混响系数分解的;
所述音频对象包括表示多个球谐系数的左奇异向量的U矩阵与表示所述多个球谐系数的奇异值的S矩阵的乘积;以及
与所述音频对象相关联的所述方向信息包括表示所述多个球谐系数的右奇异向量的V矩阵。
22.根据权利要求15所述的方法,其进一步包括:
接收位流;以及
对所述位流进行解码以获得所述经闭环量化音频对象和所述经量化方向信息。
23.一种用于解量化前景音频信号的装置,其包括:
存储器,其经配置以存储音频对象;
至少一个处理器,其经配置以:
至少部分地基于执行与所述音频对象相关联的方向信息的量化的结果而获得已经闭环量化的所述音频对象,其中与所述音频对象相关联的所述方向信息是从高阶立体混响HOA系数分解的;
解量化所述音频对象;
使用所解量化的音频对象来再现扩音器馈送;以及
输出所述扩音器馈送以驱动一个或多个扬声器以重放所述扩音器馈送;以及
所述一个或多个扬声器,其经配置以回放从所解量化的音频对象再现的扩音器馈送。
24.根据权利要求23所述的装置,其中通过量化与所述音频对象相关联的所述方向信息且至少部分地基于量化与所述音频对象相关联的所述方向信息的结果量化所述音频对象来闭环量化所述音频对象。
25.根据权利要求23所述的装置,其中通过量化与所述音频对象相关联的所述方向信息且至少部分地基于因量化与所述音频对象相关联的所述方向信息产生的量化误差量化所述音频对象来闭环量化所述音频对象。
26.根据权利要求23所述的装置,其中通过量化与所述音频对象相关联的所述方向信息且至少部分地基于因与所述音频对象相关联的所述方向信息的量化产生的量化误差量化所述音频对象来闭环量化所述音频对象,包含补偿因执行与所述音频对象相关联的所述方向信息的量化产生的所述量化误差。
27.根据权利要求23所述的装置,其中通过量化与所述音频对象相关联的所述方向信息、至少部分地基于量化与所述音频对象相关联的所述方向信息的结果的伪逆而确定经量化补偿音频对象且量化所述经量化补偿音频对象来闭环量化所述音频对象。
28.根据权利要求27所述的装置,其中通过将所述经量化补偿音频对象确定为高阶立体混响HOA系数与执行与所述音频对象相关联的所述方向信息的量化的所述结果的所述伪逆的乘积来闭环量化所述音频对象。
29.根据权利要求23所述的装置,其进一步包括:
所述一个或多个扬声器,其经配置以重放从所解量化的音频对象再现的扩音器馈送。
30.根据权利要求23所述的装置,其中所述至少一个处理器进一步经配置以:
接收位流;以及
对所述位流进行解码以获得所述经闭环量化音频对象和所述经量化方向信息。
CN201580025054.6A 2014-05-16 2015-05-15 高阶立体混响系数的闭环量化 Active CN106471576B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201461994493P 2014-05-16 2014-05-16
US201461994788P 2014-05-16 2014-05-16
US61/994,788 2014-05-16
US61/994,493 2014-05-16
US201462004082P 2014-05-28 2014-05-28
US62/004,082 2014-05-28
US14/712,638 2015-05-14
US14/712,638 US9959876B2 (en) 2014-05-16 2015-05-14 Closed loop quantization of higher order ambisonic coefficients
PCT/US2015/031107 WO2015175953A1 (en) 2014-05-16 2015-05-15 Closed loop quantization of higher order ambisonic coefficients

Publications (2)

Publication Number Publication Date
CN106471576A CN106471576A (zh) 2017-03-01
CN106471576B true CN106471576B (zh) 2019-08-27

Family

ID=53298601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580025054.6A Active CN106471576B (zh) 2014-05-16 2015-05-15 高阶立体混响系数的闭环量化

Country Status (6)

Country Link
US (1) US9959876B2 (zh)
EP (1) EP3143618B1 (zh)
JP (1) JP2017520785A (zh)
KR (1) KR20170010792A (zh)
CN (1) CN106471576B (zh)
WO (1) WO2015175953A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9883312B2 (en) * 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CN110019719B (zh) * 2017-12-15 2023-04-25 微软技术许可有限责任公司 基于断言的问答
US11361776B2 (en) * 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
WO2022066313A1 (en) * 2020-09-25 2022-03-31 Apple Inc. Higher order ambisonics encoding and decoding

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
CN101395661B (zh) * 2006-03-07 2013-02-06 艾利森电话股份有限公司 音频编码和解码的方法和设备
US7933770B2 (en) * 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
PL2165328T3 (pl) 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
KR101805212B1 (ko) * 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US9280980B2 (en) 2011-02-09 2016-03-08 Telefonaktiebolaget L M Ericsson (Publ) Efficient encoding/decoding of audio signals
WO2012144878A2 (en) * 2011-04-21 2012-10-26 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
DK3040988T3 (en) * 2011-11-02 2018-01-08 ERICSSON TELEFON AB L M (publ) AUDIO DECODING BASED ON AN EFFECTIVE REPRESENTATION OF AUTOREGRESSIVE COEFFICIENTS
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients

Also Published As

Publication number Publication date
US20150332681A1 (en) 2015-11-19
JP2017520785A (ja) 2017-07-27
US9959876B2 (en) 2018-05-01
EP3143618A1 (en) 2017-03-22
WO2015175953A1 (en) 2015-11-19
EP3143618B1 (en) 2019-11-13
KR20170010792A (ko) 2017-02-01
CN106471576A (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
CN106104680B (zh) 将音频信道插入到声场的描述中
CN106415714B (zh) 译码环境高阶立体混响系数的独立帧
CN107004420B (zh) 高阶立体混响声(hoa)架构中于预测及非预测量化技术间切换
CN106463121B (zh) 较高阶立体混响信号压缩
CN106663433A (zh) 减少高阶立体混响(hoa)背景信道之间的相关性
KR101723332B1 (ko) 회전된 고차 앰비소닉스의 바이노럴화
CN105284131B (zh) 用于声场的经分解表示的内插
CN106797527B (zh) Hoa内容的显示屏相关调适
CN106471576B (zh) 高阶立体混响系数的闭环量化
CN106575506A (zh) 高阶立体混响音频数据的中间压缩
KR102053508B1 (ko) 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 채널들의 시그널링
JP6728065B2 (ja) 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法
TW201603006A (zh) 寫碼自高階立體混響聲音訊信號分解之向量
JP6293930B2 (ja) 高次アンビソニック係数においてスカラー量子化とベクトル量子化との間で決定すること
CN106796794A (zh) 环境高阶立体混响音频数据的归一化
CN106471578A (zh) 较高阶立体混响信号之间的交叉淡化
CN108141695A (zh) 高阶立体混响(hoa)内容的屏幕相关适应
CN106415712B (zh) 用于渲染高阶立体混响系数的装置和方法
CN108141690A (zh) 在多个转变期间译码高阶立体混响系数
CN106465029B (zh) 用于渲染高阶立体混响系数及产生位流的装置和方法
TWI827687B (zh) 音訊資料之靈活渲染

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant