CN106415714B - 译码环境高阶立体混响系数的独立帧 - Google Patents

译码环境高阶立体混响系数的独立帧 Download PDF

Info

Publication number
CN106415714B
CN106415714B CN201580005153.8A CN201580005153A CN106415714B CN 106415714 B CN106415714 B CN 106415714B CN 201580005153 A CN201580005153 A CN 201580005153A CN 106415714 B CN106415714 B CN 106415714B
Authority
CN
China
Prior art keywords
vector
frame
audio
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580005153.8A
Other languages
English (en)
Other versions
CN106415714A (zh
Inventor
尼尔斯·京特·彼得斯
迪潘让·森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to CN201911044211.4A priority Critical patent/CN110827840B/zh
Publication of CN106415714A publication Critical patent/CN106415714A/zh
Application granted granted Critical
Publication of CN106415714B publication Critical patent/CN106415714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一般来说,本发明描述用于译码环境高阶立体混响系数的技术。包括存储器及处理器的音频解码装置可执行所述技术。所述存储器可存储位流的第一帧及所述位流的第二帧。所述处理器可从所述第一帧获得指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述第二帧的情况下解码所述第一帧的额外参考信息。所述处理器可响应于所述一或多个位指示所述第一帧并非独立帧而进一步获得用于输送信道的第一信道旁侧信息数据的预测信息。所述预测信息可用以参考所述输送信道的第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。

Description

译码环境高阶立体混响系数的独立帧
本申请案主张以下各美国临时申请案的权利:
2014年1月30日申请的标题为“声场的经分解表示的压缩(COMPRESSION OFDECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第61/933,706号美国临时申请案;
2014年1月30日申请的标题为“声场的经分解表示的压缩(COMPRESSION OFDECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第61/933,714号美国临时申请案;
2014年1月30日申请的标题为“指示用于解码空间向量的帧参数可重用性(INDICATING FRAME PARAMETER REUSABILITY FOR DECODING SPATIAL VECTORS)”的第61/933,731号美国临时申请案;
2014年3月7日申请的标题为“用于球谐系数的立即播出帧(IMMEDIATE PLAY-OUTFRAME FOR SPHERICAL HARMONIC COEFFICIENTS)”的第61/949,591号美国临时申请案;
2014年3月7日申请的标题为“声场的经分解表示的淡入/淡出(FADE-IN/FADE-OUTOF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第61/949,583号美国临时申请案;
2014年5月16日申请的标题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的第61/994,794号美国临时申请案;
2014年5月28日申请的标题为“指示用于解码空间向量的帧参数可重用性(INDICATING FRAME PARAMETER REUSABILITY FOR DECODING SPATIAL VECTORS)”的第62/004,147号美国临时申请案;
2014年5月28日申请的标题为“用于球谐系数的立即播出帧及声场的经分解表示的淡入/淡出(IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS ANDFADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第62/004,067号美国临时申请案;
2014年5月28日申请的标题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的第62/004,128号美国临时申请案;
2014年7月1日申请的标题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的第62/019,663号美国临时申请案;
2014年7月22日申请的标题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的第62/027,702号美国临时申请案;
2014年7月23日申请的标题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的第62/028,282号美国临时申请案;
2014年7月25日申请的标题为“用于球谐系数的立即播出帧及声场的经分解表示的淡入/淡出(IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS ANDFADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第62/029,173号美国临时申请案;
2014年8月1日申请的标题为“译码经分解高阶立体混响(HOA)音频信号的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的第62/032,440号美国临时申请案;
2014年9月26日申请的标题为“高阶立体混响(HOA)音频信号的切换式V-向量量化(SWITCHED V-VECTOR QUANTIZATION OF A HIGHER ORDER AMBISONICS(HOA)AUDIOSIGNAL)”的第62/056,248号美国临时申请案;及
2014年9月26日申请的标题为“经分解高阶立体混响(HOA)音频信号的预测性向量量化(PREDICTIVE VECTOR QUANTIZATION OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的第62/056,286号美国临时申请案;及
2015年1月12日申请的标题为“环境高阶立体混响系数的转变(TRANSITIONING OFAMBIENT HIGHER-ORDER AMBISONIC COEFFICIENTS)”的第62/102,243号美国临时申请案,
前述所列各美国临时申请案中的每一者以引用的方式并入本文中,如同在其相应全文中所阐述般。
技术领域
本发明涉及音频数据,且更具体来说,涉及高阶立体混响音频数据的译码。
背景技术
高阶立体混响(HOA)信号(常由多个球谐系数(SHC)或其它阶层元素表示)是声场的三维表示。HOA或SHC表示可按独立于用以重放从SHC信号呈现的多信道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可促进向后兼容性,因为可将SHC信号呈现为众所周知的且被广泛采用的多信道格式(例如,5.1音频信道格式或7.1音频信道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,描述译码高阶立体混响音频数据的技术。高阶立体混响音频数据可包括对应于具有大于一的阶数的球谐基函数的至少一球谐系数。
在一方面,论述一种解码包含输送信道的位流的方法,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位。所述方法包括从所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧获得指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息。所述方法也包括响应于指示所述第一帧并非独立帧的所述一或多个位而获得用于所述输送信道的所述第一信道旁侧信息数据的预测信息。所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
在另一方面,论述一种音频解码装置,其经配置以解码包含输送信道的位流,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位。所述音频解码装置包括存储器,其经配置以存储所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧,及所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧。所述音频解码装置也包括一或多个处理器,其经配置以从所述第一帧获得指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述第二帧的情况下解码所述第一帧的额外参考信息。所述一或多个处理器经进一步配置以响应于指示所述第一帧并非独立帧的所述一或多个位而获得用于所述输送信道的所述第一信道旁侧信息数据的预测信息。所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
在另一方面,一种音频解码装置经配置以解码位流。所述音频解码装置包括用于存储所述位流的装置,所述位流包含包括表示球谐域中的正交空间轴线的向量的第一帧。所述音频解码装置也包括用于从所述位流的第一帧获得指示所述第一帧是否为独立帧的一或多个位的装置,所述独立帧包含使得能够在不参考所述位流的第二帧的情况下解码所述向量的向量量化信息。
在另一方面,一种非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在经执行时使得一或多个处理器进行以下操作:从所述位流的包含输送信道的第一信道旁侧信息数据的第一帧获得指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息;及响应于指示所述第一帧并非独立帧的所述一或多个位而获得用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
在另一方面,论述一种编码高阶环境系数以获得包含输送信道的位流的方法,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位。所述方法包括在所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧中指定指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息。所述方法进一步包括响应于指示所述第一帧并非独立帧的所述一或多个位而指定用于所述输送信道的所述第一信道旁侧信息数据的预测信息。所述预测信息可用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
在另一方面,论述一种音频编码装置,其经配置以编码高阶环境系数以获得包含输送信道的位流,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位。所述音频编码装置包括经配置以存储所述位流的存储器。所述音频编码装置也包括一或多个处理器,其经配置以在所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧中指定指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息。所述一或多个处理器可进一步经配置以响应于指示所述第一帧并非独立帧的所述一或多个位而指定用于所述输送信道的所述第一信道旁侧信息数据的预测信息。所述预测信息可用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
在另一方面,论述一种音频编码装置,其经配置以编码高阶环境音频数据以获得位流。所述音频编码装置包括用于存储所述位流的装置,所述位流包含包括表示球谐域中的正交空间轴线的向量的第一帧。所述音频编码装置也包括用于从所述位流的所述第一帧获得指示所述第一帧是否为独立帧的一或多个位的装置,所述独立帧包含使得能够在不参考所述位流的第二帧的情况下解码所述向量的向量量化信息。
在另一方面,一种非暂时性计算机可读存储媒体具有存储于其上的指令,所述指令在经执行时使得一或多个处理器进行以下操作:在所述位流的包含输送信道的第一信道旁侧信息数据的第一帧中指定指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息;及响应于指示所述第一帧并非独立帧的所述一或多个位而指定用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
在附图及以下描述中阐述所述技术的一或多个方面的细节。所述技术的其它特征、目标及优点将从所述描述及图式以及从权利要求书中显而易见。
附图说明
图1为说明具有各种阶数及子阶数的球谐基函数的图。
图2为说明可执行本发明中所描述的技术的各种方面的系统的图。
图3为更详细地说明可执行本发明中所描述的技术的各种方面的图2的实例中所展示的音频编码装置的一实例的框图。
图4为更详细地说明图2的音频解码装置的框图。
图5A为说明音频编码装置执行本发明中所描述的基于向量的合成技术的各种方面的示范性操作的流程图。
图5B为说明音频编码装置执行本发明中所描述的译码技术的各种方面的示范性操作的流程图。
图6A为说明音频解码装置执行本发明中所描述的技术的各种方面的示范性操作的流程图。
图6B为说明音频解码装置执行本发明中所描述的译码技术的各种方面的示范性操作的流程图。
图7为更详细地说明可指定经压缩空间分量的位流或旁侧信道信息的一部分的图。
图8A及8B为各自更详细地说明可指定经压缩空间分量的位流或旁侧信道信息的一部分的图。
具体实施方式
环绕声的演化现今已使得许多输出格式可用于娱乐。此些消费型环绕声格式的实例大部分为“声道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含风行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰度电视标准使用)。非消费型格式可横跨任何数目个扬声器(成对称及非对称几何布置),其常常被称为“环绕阵列”。此类阵列的一实例包含定位于截顶二十面体(truncated icosohedron)的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入视情况为以下三种可能格式中的一者:(i)传统的基于声道的音频(如上文所论述),其意欲经由处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单一音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球谐基函数的系数(也被称为“球谐系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。所述未来MPEG编码器可能更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的标题为“要求针对3D音频的提议(Call for Proposals for 3DAudio)”的文件中,所述文件于2013年1月在瑞士日内瓦发布,且可在http:// mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/ w13411.zip获得。
在市场中存在各种基于“环绕声”声道的格式。举例来说,其范围从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到由日本广播协会或日本广播公司(NHK)开发的22.2系统。内容建立者(例如,好莱坞工作室)将希望产生影片的音轨一次,而不花费精力来针对每一扬声器配置对其进行重混(remix)。近年来,标准开发组织一直在考虑如下方式:将编码及后续解码(其可为调适的且不知晓重放位置(涉及呈现器)处的扬声器几何布置(及数目)及声学条件)提供到标准化位流中。
为了向内容建立者提供此类灵活性,可使用一组阶层元素来表示声场。所述组阶层元素可指其中元素经排序而使得一组基本低阶元素提供经模型化声场的完整表示的一组元素。当将所述组扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
一组阶层元素的一实例为一组球谐系数(SHC)。以下表达式示范使用SHC进行的对声场的描述或表示:
所述表达式展示:在时间t在声场的任何点处的压力pi可独特地通过SHC来表示。此处,c为音速(~343m/s),为参考点(或观测点),jn(·)为n阶球面贝塞尔函数,且为n阶及m子阶球谐基函数。可认识到,方括号中的术语为可通过各种时间-频率变换来近似的信号的频域表示(即,),所述变换例如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。阶层组的其它实例包含数组小波变换系数及其它数组多分辨率基函数系数。
图1为说明从零阶(n=0)到四阶(n=4)的球谐基函数的图。如可见,对于每一阶来说,存在m子阶的扩展,出于易于说明的目的,在图1的实例中展示了所述子阶但未明确地提及。
可通过各种麦克风阵列配置在物理上获取(例如,记录)SHC或替代地,可从声场的基于声道或基于对象的描述导出SHC。SHC表示基于场景的音频,其中可将SHC输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效率的传输或存储。举例来说,可使用涉及(1+4)2(25,且因此为四阶)系数的四阶表示。
如上文所提及,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M.的“基于球谐的三维环绕声系统(Three-DimensionalSurround Sound Systems Based on Spherical Harmonics)”(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004到1025页)中。
为了说明可如何从基于对象的描述导出SHC,考虑以下等式。可将对应于个别音频对象的声场的系数表达为:
其中i为 为n阶球面汉克尔函数(第二种类),且为对象的位置。知道依据频率的对象源能量g(ω)(例如,使用时间-频率分析技术,例如,对PCM流执行快速傅立叶变换)允许我们将每一PCM对象及对应位置转换成SHC另外,可展示(因为上述情形为线性及正交分解)每一对象的系数为加成性的。以此方式,可通过系数表示众多PCM对象(例如,作为用于个别对象的系数向量的总和)。基本上,所述系数含有关于声场的信息(依据3D坐标的压力),且上述情形表示在观测点附近从个别对象到整个声场的表示的变换。下文在基于对象及基于SHC的音频译码的上下文中描述剩余诸图。
图2为说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所展示,系统10包含内容建立者装置12及内容消费者装置14。虽然在内容建立者装置12及内容消费者装置14的上下文中加以描述,但可在声场的SHC(其也可被称作HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容建立者装置12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话或桌上型计算机(提供几个实例)。同样地,内容消费者装置14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或桌上型计算机(提供几个实例)。
内容建立者装置12可由影片工作室或可产生多信道音频内容以供内容消费者的操作者(例如,内容消费者装置14)消耗的其它实体来操作。在一些实例中,内容建立者装置12可由将希望压缩HOA系数11的个别用户操作。常常,内容建立者产生音频内容连同视频内容。内容消费者装置14可由个体来操作。内容消费者装置14可包含音频重放系统16,其可指能够呈现SHC以供作为多信道音频内容重放的任何形式的音频重放系统。
内容建立者装置12包含音频编辑系统18。内容建立者装置12获得呈各种格式(包含直接作为HOA系数)的现场记录7及音频对象9,内容建立者装置12可使用音频编辑系统18对现场记录7及音频对象9进行编辑。内容建立者可在编辑过程期间从音频对象9呈现HOA系数11,从而在识别声场的需要进一步编辑的各种方面的尝试中倾听所呈现的扬声器馈入。内容建立者装置12可接着编辑HOA系数11(可能经由操纵可供以上文所描述的方式导出源HOA系数的音频对象9中的不同者间接地编辑)。内容建立者装置12可使用音频编辑系统18产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。
当编辑过程完成时,内容建立者装置12可基于HOA系数11产生位流21。即,内容建立者装置12包含音频编码装置20,所述音频编码装置20表示经配置以根据本发明中所描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供传输,作为一实例,跨越传输信道(其可为有线或无线信道、数据存储装置或其类似者)。位流21可表示HOA系数11的经编码版本,且可包含主要位流及另一旁侧位流(其可被称作旁侧信道信息)。
尽管下文更详细地加以描述,但音频编码装置20可经配置以基于基于向量的合成或基于方向的合成编码HOA系数11。为了确定是执行基于向量的分解方法还是执行基于方向的分解方法,音频编码装置20可至少部分基于HOA系数11确定HOA系数11是经由声场的自然记录(例如,现场记录7)产生还是从(作为一实例)例如PCM对象的音频对象9人工地(即,合成地)产生。当HOA系数11是从音频物体9产生时,音频编码装置20可使用基于方向的分解方法编码HOA系数11。当HOA系数11是使用(例如,eigenmike)现场地俘获时,音频编码装置20可基于基于向量的分解方法编码HOA系数11。上述区别表示可部署基于向量或基于方向的分解方法的一实例。可能存在其它状况:其中所述分解方法中的任一者或两者可用于自然记录、人工产生的内容或两种内容的混合(混合内容)。此外,也有可能同时使用两种方法用于译码HOA系数的单一时间框。
出于说明的目的假定:音频编码装置20确定HOA系数11是现场地俘获或以其它方式表示现场记录(例如,现场记录7),音频编码装置20可经配置以使用涉及线性可逆变换(LIT)的应用的基于向量的分解方法编码HOA系数11。线性可逆变换的一实例被称作“奇异值分解”(或“SVD”)。在此实例中,音频编码装置20可将SVD应用于HOA系数11以确定HOA系数11的经分解版本。音频编码装置20可接着分析HOA系数11的经分解版本以识别可促进进行HOA系数11的经分解版本的重新排序的各种参数。音频编码装置20可接着基于所识别的参数将HOA系数11的经分解版本重新排序,其中如下文进一步详细描述,在给定以下情形的情况下,此重新排序可改进译码效率:变换可将HOA系数跨越HOA系数的帧重新排序(其中帧可包含HOA系数11的M个样本且在一些实例中,M经设定为1024)。在将HOA系数11的经分解版本重新排序之后,音频编码装置20可选择表示声场的前景(或,换句话说,相异的、占优势的或突出的)分量的HOA系数11的经分解版本。音频编码装置20可将表示前景分量的HOA系数11的经分解版本指定为音频对象及相关联方向信息。
音频编码装置20也可关于HOA系数11执行声场分析以便至少部分地识别表示声场的一或多个背景(或,换句话说,环境)分量的HOA系数11。音频编码装置20可在给定以下情形的情况下关于背景分量执行能量补偿:在一些实例中,背景分量可能仅包含HOA系数11的任何给定样本的一子集(例如,例如对应于零阶及一阶球面基函数的HOA系数11,而非对应于二阶或高阶球面基函数的HOA系数11)。换句话说,当执行降阶时,音频编码装置20可扩增(例如,添加能量/减去能量)HOA系数11中的剩余背景HOA系数以补偿由于执行降阶而导致的总体能量的改变。
音频编码装置20接下来可关于表示背景分量及前景音频对象中的每一者的HOA系数11中的每一者执行一种形式的音质编码(例如,MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的音质编码)。音频编码装置20可关于前景方向信息执行一种形式的内插,且接着关于经内插前景方向信息执行降阶以产生经降阶的前景方向信息。在一些实例中,音频编码装置20可进一步关于经降阶的前景方向信息执行量化,从而输出经译码前景方向信息。在一些情况下,量化可包括纯量/熵量化。音频编码装置20可接着形成位流21以包含经编码背景分量、经编码前景音频对象及经量化的方向信息。音频编码装置20可接着传输或以其它方式将位流21输出到内容消费者装置14。
虽然在图2中经展示为直接传输到内容消费者装置14,但内容建立者装置12可将位流21输出到定位于内容建立者装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网页服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。所述中间装置可驻留于能够将位流21流式传输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
替代地,内容建立者装置12可将位流21存储到存储媒体,例如压缩光盘、数字多功能光盘、高清晰度视频光盘或其它存储媒体,其中的大部分能够由计算机读取且因此可被称作计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输信道可指借以传输存储到所述媒体的内容的那些信道(且可包含零售商店及其它基于商店的递送机构)。在任何情况下,本发明的技术因此就此而言不应限于图2的实例。
如图2的实例中进一步展示,内容消费者装置14包含音频重放系统16。音频重放系统16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含数个不同呈现器22。呈现器22可各自提供不同形式的呈现,其中不同形式的呈现可包含执行基于向量的振幅移动(VBAP)的各种方式中的一或多者及/或执行声场合成的各种方式中的一或多者。如本文所使用,“A及/或B”意谓“A或B”,或“A及B”两者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11,但归因于经由传输信道的有损操作(例如,量化)及/或传输而有所不同。即,音频解码装置24可将位流21中所指定的前景方向信息解量化,同时还关于位流21中所指定的前景音频对象及表示背景分量的经编码HOA系数执行音质解码。音频解码装置24可进一步关于经解码前景方向信息执行内插,且接着基于经解码前景音频对象及经内插前景方向信息确定表示前景分量的HOA系数。音频解码装置24可接着基于表示前景分量的所确定的HOA系数及表示背景分量的经解码HOA系数确定HOA系数11'。
音频重放系统16可在解码位流21之后获得HOA系数11'且呈现HOA系数11'以输出扩音器馈入25。扩音器馈入25可驱动一或多个扩音器(其出于易于说明的目的而未在图2的实例中加以展示)。
为了选择适当呈现器或在一些情况下产生适当呈现器,音频重放系统16可获得指示扩音器的数目及/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器而获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可提示用户与音频重放系统16介接且输入扩音器信息13。
音频重放系统16可接着基于扩音器信息13选择音频呈现器22中的一者。在一些情况下,当音频呈现器22中无一者在与扩音器信息13中所指定者处于某一阈值相似度度量(按照扩音器几何布置)内时,音频重放系统16可基于扩音器信息13产生音频呈现器22中的所述者。在一些情况下,音频重放系统16可基于扩音器信息13产生音频呈现器22中的一者,而不会首先试图选择音频呈现器22中的现有的一者。
图3为更详细地说明可执行本发明中所描述的技术的各种方面的图2的实例中所展示的音频编码装置20的一实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27及基于方向的分解单元28。尽管下文简要描述,但关于音频编码装置20及压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF ASOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11表示从现场记录产生的内容还是从音频对象产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧HOA系数11是从记录产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当帧HOA系数11是从合成音频对象产生时,内容分析单元26将HOA系数11传递到基于方向的合成单元28。基于方向的合成单元28可表示经配置以执行对HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重新排序单元34、前景选择单元36、能量补偿单元38、音质音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、空间-时间内插单元50及量化单元52。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2
即,LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单元。虽然关于SVD加以描述,但可关于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的所述技术。而且,本发明中对“组”的提及大体上意欲指非零组(除非特别地相反陈述),且并不意欲指包含所谓的“空组”的组的经典数学定义。
替代变换可包括常常被称作“PCA”的主分量分析。PCA是指使用正交变换将一组可能相关变量的观测结果转换成被称作主分量的一组线性不相关变量的数学程序。线性不相关变量表示彼此并不具有线性统计关系(或相依性)的变量。可将主分量描述为彼此具有小程度的统计相关性。在任何情况下,所谓的主分量的数目小于或等于原始变量的数目。在一些实例中,按如下方式定义变换:使得第一主分量具有最大可能方差(或,换句话说,尽可能多地考虑数据中的可变性),且每一接续分量又具有可能的最高方差(在以下约束下:所述连续分量正交于前述分量(所述情形可重新陈述为与前述分量不相关))。PCA可执行一种形式的降阶,其就HOA系数11而言可导致HOA系数11的压缩。取决于上下文,可通过数个不同名称来提及PCA,例如离散卡忽南-拉维变换(discrete Karhunen-Loeve transform)、哈特林变换(Hotelling transform)、适当正交分解(POD)及本征值分解(EVD)(仅举几个实例)。有利于压缩音频数据的基本目标的此些操作的性质为多信道音频数据的“能量压缩”及“解相关”。
在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其再次可被称作“SVD”),LIT单元30可将HOA系数11变换成两组或两组以上经变换的HOA系数。“数组”经变换的HOA系数可包含经变换的HOA系数的向量。在图3的实例中,LIT单元30可关于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多信道音频数据的右奇异向量。
尽管本发明中描述为将技术应用于包括HOA系数11的多信道音频数据,但所述技术可应用于任何形式的多信道音频数据。以此方式,音频编码装置20可关于表示声场的至少一部分的多信道音频数据执行奇异值分解,以产生表示多信道音频数据的左奇异向量的U矩阵、表示多信道音频数据的奇异值的S矩阵及表示多信道音频数据的右奇异向量的V矩阵,且将多信道音频数据表示为U矩阵、S矩阵及V矩阵中的一或多者的至少一部分的函数。
在一些实例中,将上文提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或,换句话说,V*矩阵)可被视为V矩阵的转置。下文为易于说明的目的,假定:HOA系数11包括实数,结果为经由SVD而非V*矩阵输出V矩阵。此外,虽然在本发明中表示为V矩阵,但在适当时,对V矩阵的提及应被理解为是指V矩阵的转置。虽然假定为V矩阵,但所述技术可按类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述技术不应限于仅提供应用SVD以产生V矩阵,而可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
在任何情况下,LIT单元30可关于高阶立体混响(HOA)音频数据(其中立体混响音频数据包含HOA系数11或任何其它形式的多信道音频数据的块或样本)的每一块(其可指帧)执行逐块形式的SVD。如上文所提及,变量M可用以表示音频帧的长度(以样本数计)。举例来说,当音频帧包含1024个音频样本时,M等于1024。尽管关于M的典型值加以描述,但本发明的所述技术不应限于M的典型值。LIT单元30因此可关于具有M乘(N+1)2个HOA系数的HOA系数11的块执行逐块SVD,其中N再次表示HOA音频数据的阶数。LIT单元30可经由执行所述SVD而产生V矩阵、S矩阵及U矩阵,其中矩阵中的每一者可表示上文所描述的相应V、S及U矩阵。以此方式,线性可逆变换单元30可关于HOA系数11执行SVD以输出具有维度D:M×(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本),及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为XPS(k),而V[k]矩阵中的个别向量也可被称为v(k)。
U、S及V矩阵的分析可揭示:所述矩阵携有或表示上文通过X表示的基础声场的空间及时间特性。U(长度为M个样本)中的N个向量中的每一者可表示依据时间(对于通过M个样本表示的时间段)的经正规化的分离音频信号,其彼此正交且已与任何空间特性(其也可被称作方向信息)解耦。表示空间形状及位置宽度的空间特性可改为通过V矩阵中的个别第i向量v(i)(k)(每一者具有长度(N+1)2)表示。v(i)(k)向量中的每一者的个别元素可表示描述针对相关联的音频对象的声场的形状及方向的HOA系数。U矩阵及V矩阵两者中的向量经正规化而使得其均方根能量等于单位。U中的音频信号的能量因此通过S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有真正能量的音频信号。进行SVD分解以使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各种方面。另外,通过US[k]与V[k]的向量乘法合成基础HOA[k]系数X的模型引出贯穿此文件使用的术语“基于向量的分解”。
尽管描述为直接关于HOA系数11执行,但LIT单元30可将线性可逆变换应用于HOA系数11的导数。举例来说,LIT单元30可关于从HOA系数11导出的功率谱密度矩阵应用SVD。功率谱密度矩阵可表示为PSD且是经由hoaFrame到hoaFrame的转置的矩阵乘法而获得,如下文的伪码中所概述。hoaFrame记法是指HOA系数11的帧。
在将SVD(svd)应用于PSD之后,LIT单元30可获得S[k]2矩阵(S_squared)及V[k]矩阵。S[k]2矩阵可表示S[k]矩阵的平方,因此LIT单元30可将平方根运算应用于S[k]2矩阵以获得S[k]矩阵。在一些情况下,LIT单元30可关于V[k]矩阵执行量化以获得经量化的V[k]矩阵(其可表示为V[k]'矩阵)。LIT单元30可通过首先将S[k]矩阵乘以经量化的V[k]'矩阵以获得SV[k]'矩阵而获得U[k]矩阵。LIT单元30接下来可获得SV[k]'矩阵的伪逆(pinv)且接着将HOA系数11乘以SV[k]'矩阵的伪逆以获得U[k]矩阵。可通过以下伪码表示前述情形:
PSD=hoaFrame'*hoaFrame;
[V,S_squared]=svd(PSD,’econ’);
S=sqrt(S_squared);
U=hoaFrame*pinv(S*V');
通过关于HOA系数的功率谱密度(PSD)而非系数自身执行SVD,LIT单元30可在处理器循环及存储空间中的一或多者方面可能地降低执行SVD的计算复杂性,同时达成相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。即,上文所描述的PSD型SVD可能有可能在计算上要求不太高,这是因为与M*F矩阵(其中M为帧长度,即,1024或大于1024个样本)相比较,SVD是针对F*F矩阵(其中F为HOA系数的数目)进行。通过应用于PSD而非HOA系数11,与应用于HOA系数11时的O(M*L2)相比较,SVD的复杂性现可为约O(L3)(其中O(*)表示计算机科学技术中常见的计算复杂性的大O记法)。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向性质参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可关于US[k]向量33执行能量分析及/或相关(或所谓的交叉相关)以识别所述参数。参数计算单元32也可确定用于先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、r[k-1]及e[k-1]。参数计算单元32可将当前参数37及先前参数39输出到重新排序单元34。
SVD分解并不会保证通过US[k-1]向量33中的第p向量表示的音频信号/对象(其可表示为US[k-1][p]向量(或,替代地,表示为XPS (p)(k-1)))将为通过US[k]向量33中的第p向量表示的相同音频信号/对象(其也可表示为US[k][p]向量33(或,替代地,表示为XPS (p)(k)))(在时间上前进)。由参数计算单元32计算的参数可供重新排序单元34用以将音频对象重新排序以表示其自然评估或随时间推移的连续性。
即,重新排序单元34可逐轮地比较来自第一US[k]向量33的参数37中的每一者与用于第二US[k-1]向量33的参数39中的每一者。重新排序单元34可基于当前参数37及先前参数39将US[k]矩阵33及V[k]矩阵35内的各种向量重新排序(作为一实例,使用匈牙利算法(Hungarian algorithm))以将经重新排序的US[k]矩阵33'(其可在数学上表示为及经重新排序的V[k]矩阵35'(其可在数学上表示为)输出到前景声音(或占优势声音--PS)选择单元36(“前景选择单元36”)及能量补偿单元38。
声场分析单元44可表示经配置以关于HOA系数11执行声场分析以便有可能达成目标位速率41的单元。声场分析单元44可基于分析及/或基于所接收目标位速率41,确定音质译码器执行个体的总数目(其可为环境或背景信道的总数目(BGTOT)的函数)及前景信道(或换句话说,占优势信道)的数目。音质译码器执行个体的总数目可表示为numHOATransportChannels。
再次为了可能地达成目标位速率41,声场分析单元44还可确定前景信道的总数目(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHoaOrder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHoaOrder+1)2),及待发送的额外BG HOA信道的索引(i)(其在图3的实例中可共同地表示为背景信道信息43)。背景信道信息42也可被称作环境信道信息43。numHOATransportChannels-nBGa后剩余的信道中的每一者可为“额外背景/环境信道”、“作用中的基于向量的占优势信道”、“作用中的基于方向的占优势信号”或“完全不活动”。在一方面,可通过两个位以(“ChannelType”)语法元素形式指示信道类型:(例如,00:基于方向的信号;01:基于向量的占优势信号;10:额外环境信号;11:非作用中信号)。背景或环境信号的总数目nBGa可通过(MinAmbHOAorder+1)2+在用于所述帧的位流中以信道类型形式显现索引10(在上述实例中)的次数给出。
在任何情况下,声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目及前景(或换句话说,占优势)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景及/或前景信道。在一方面,在位流的标头区段中,numHOATransportChannels可经设定为8,而MinAmbHOAorder可经设定为1。在此情境下,在每个帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,用作额外背景/环境信道或前景/占优势信道。前景/占优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,用于帧的基于向量的占优势信号的总数目可通过所述帧的位流中ChannelType索引为01的次数给出。在上述方面,对于每个额外背景/环境信道(例如,对应于ChannelType 10),可在所述信道中表示可能的HOA系数(前四个除外)中的哪一者的对应信息。对于四阶HOA内容,所述信息可为指示HOA系数5到25的索引。可在minAmbHOAorder经设定为1时始终发送前四个环境HOA系数1到4,因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5到25的一者。因此可使用5位语法元素(对于四阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。
为了加以说明,假定:minAmbHOAorder经设定为1且具有索引6的额外环境HOA系数是经由位流21发送(作为一实例)。在此实例中,minAmbHOAorder 1指示环境HOA系数具有索引1、2、3及4。音频编码装置20可选择环境HOA系数,这是因为环境HOA系数具有小于或等于(minAmbHOAorder+1)2或4的索引(在此实例中)。音频编码装置20可指定位流21中与索引1、2、3及4相关联的环境HOA系数。音频编码装置20也可指定位流中具有索引6的额外环境HOA系数作为具有ChannelType 10的additionalAmbientHOAchannel。音频编码装置20可使用CodedAmbCoeffIdx语法元素指定索引。作为一种实践,CodedAmbCoeffIdx元素可指定从1到25的所有索引。然而,因为minAmbHOAorder经设定为1,所以音频编码装置20可能并不指定前四个索引中的任一者(因为已知将在位流21中经由minAmbHOAorder语法元素指定前四个索引)。在任何情况下,因为音频编码装置20经由minAmbHOAorder(对于前四个系数)及CodedAmbCoeffIdx(对于额外环境HOA系数)指定五个环境HOA系数,所以音频编码装置20可能并不指定与具有索引1、2、3、4及6的环境HOA系数相关联的对应V-向量元素。因此,音频编码装置20可通过元素[5,7:25]指定V-向量。
在第二方面,所有前景/占优势信号为基于向量的信号。在此第二方面,前景/占优势信号的总数目可通过nFG=numHOATransportChannels-[(MinAmbHoaOrder+1)2+additionalAmbientHOAchannel中的每一者]给出。
声场分析单元44将背景信道信息43及HOA系数11输出到背景(BG)选择单元36,将背景信道信息43输出到系数减少单元46及位流产生单元42,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)以及待发送的额外BG HOA信道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择用于具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有通过索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位流产生单元42以便使得音频解码装置(例如,图2及4的实例中所展示的音频解码装置24)能够从位流21剖析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境HOA系数47中的每一者对应于待由音质音频译码器单元40编码的单独环境HOA信道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或相异分量的经重新排序的US[k]矩阵33'及经重新排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重新排序的US[k]1,…,nFG49、FG1,…,nfG[k]49或49)输出到音质音频译码器单元40,其中nFG信号49可具有维度D:M×nFG且每一者表示单信道-音频对象。前景选择单元36也可将对应于声场的前景分量的经重新排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中对应于前景分量的经重新排序的V[k]矩阵35'的子集可表示为前景V[k]矩阵51k(其可在数学上表示为),其具有维度D:(N+1)2×nFG。
能量补偿单元38可表示经配置以关于环境HOA系数47执行能量补偿以补偿归因于通过背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可关于经重新排序的US[k]矩阵33'、经重新排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于能量分析执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到音质音频译码器单元40。
空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及前一帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重新排序的前景HOA系数。空间-时间内插单元50可接着将经重新排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50也可输出用以产生经内插的前景V[k]向量的前景V[k]向量51k,以使得音频解码装置(例如,音频解码装置24)可产生经内插的前景V[k]向量且借此恢复前景V[k]向量51k。将用以产生经内插的前景V[k]向量的前景V[k]向量51k表示为剩余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以建立经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化的版本。
在操作中,空间-时间内插单元50可内插来自包含于第一帧中的第一多个HOA系数11的一部分的第一分解(例如,前景V[k]向量51k)及包含于第二帧中的第二多个HOA系数11的一部分的第二分解(例如,前景V[k]向量51k-1)的第一音频帧的一或多个子帧,以产生用于所述一或多个子帧的经分解的经内插球谐系数。
在一些实例中,第一分解包括表示HOA系数11的所述部分的右奇异向量的第一前景V[k]向量51k。同样,在一些实例中,第二分解包括表示HOA系数11的所述部分的右奇异向量的第二前景V[k]向量51k
换句话说,就球面上的正交基函数而言,基于球谐的3D音频可为3D压力场的参数表示。所述表示的阶数N越高,空间分辨率可能地越高,且常常球谐(SH)系数的数目越大(总共(N+1)2个系数)。对于许多应用,可能需要系数的带宽压缩从而能够有效率地传输及存储所述系数。本发明中所针对的所述技术可提供使用奇异值分解(SVD)进行的基于帧的维度减少过程。SVD分析可将系数的每一帧分解成三个矩阵U、S及V。在一些实例中,所述技术可将US[k]矩阵中的向量中的一些向量作为基础声场的前景分量来处置。然而,当以此方式进行处置时,所述向量(在US[k]矩阵中)在帧间是不连续的,即使其表示同一相异音频分量也是如此。当经由变换音频译码器馈入所述分量时,所述不连续性可导致显著假影。
在一些方面,空间-时间内插可依赖于以下观测:可将V矩阵解译为球谐域中的正交空间轴线。U[k]矩阵可表示球谐(HOA)数据依据基函数的投影,其中不连续性可归因于正交空间轴线(V[k]),所述正交空间轴线每个帧皆改变且因此自身为不连续的。此情形不同于例如傅立叶变换的一些其它分解,其中在一些实例中,基函数在帧间为常量。在此些术语中,SVD可被视为匹配追求算法。空间-时间内插单元50可执行内插以通过在帧之间内插而可能从帧到帧维持基函数(V[k])之间的连续性。
如上文所提及,可关于样本执行内插。当子帧包括一组单一样本时,所述状况在上述描述中得以一般化。在经由样本及经由子帧进行内插的两种状况下,内插运算可呈以下等式的形式:
在上述等式中,可从单一V-向量v(k-1)关于单一V-向量v(k)执行内插,所述向量在一方面可表示来自邻近帧k及k-1的V-向量。在上述等式中,l表示执行内插所针对的分辨率,其中l可指示整数样本且l=1,…,T(其中T为样本的长度,在所述长度内执行内插且在所述长度内需要经输出的经内插的向量且所述长度也指示过程的输出产生向量的l)。替代地,l可指示由多个样本组成的子帧。当(例如)将帧划分成四个子帧时,l可包括用于所述子帧中的每一子帧的值1、2、3及4。可经由位流将l的值作为被称为“CodedSpatialInterpolationTime”的字段用信号通知,使得可在解码器中重复内插运算。w(l)可包括内插权重的值。当内插为线性的时,w(l)可依据l在0与1之间线性地且单调地变化。在其它情况下,w(l)可依据l在0与1之间以非线性但单调方式(例如,上升余弦的四分之一循环)变化。可将函数w(l)在几种不同函数可能性之间编索引且将所述函数在位流中作为被称为“SpatialInterpolationMethod”的字段用信号通知,使得可由解码器重复相同的内插运算。当w(l)具有接近于0的值时,输出可被高度加权或受v(k-1)影响。而当w(l)具有接近于1的值时,其确保输出被高度加权且受v(k-1)影响。
系数减少单元46可表示经配置以基于背景信道信息43关于剩余前景V[k]向量53执行系数减少以将经缩减前景V[k]向量55输出到量化单元52的单元。经缩减前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。
就此而言,系数减少单元46可表示经配置以减少剩余前景V[k]向量53的系数的数目的单元。换句话说,系数减少单元46可表示经配置以消除前景V[k]向量中具有极少或几乎没有方向信息的系数(其形成剩余前景V[k]向量53)的单元。如上文所描述,在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶及零阶基函数的系数(其可表示为NBG)提供极少方向信息,且因此可将其从前景V-向量移除(经由可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以使得不仅从组[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA信道(其可通过变量TotalOfAddAmbHOAChan表示)。声场分析单元44可分析HOA系数11以确定BGTOT,其不仅可识别(NBG+1)2而且可识别TotalOfAddAmbHOAChan,所述两者可共同地被称作背景信道信息43。系数减少单元46可接着将对应于(NBG+1)2及TotalOfAddAmbHOAChan的系数从剩余前景V[k]向量53移除以产生大小为((N+1)2-(BGTOT)×nFG的维度较小的V[k]矩阵55,其也可被称作经缩减前景V[k]向量55。
换句话说,如第WO 2014/194099号公开案中所提及,系数减少单元46可产生用于旁侧信道信息57的语法元素。举例来说,系数减少单元46可在存取单元(其可包含一或多个帧)的标头中指定表示选择复数种配置模式中的哪一者的语法元素。尽管描述为基于每一存取单元指定,但系数减少单元46可基于每一帧或任何其它周期性基础或非周期性基础(例如,针对整个位流一次)指定所述语法元素。在任何情况下,所述语法元素可包括两个位,所述两个位指示选择三种配置模式中的哪一者用于指定经缩减前景V[k]向量55的所述组非零系数以表示相异分量的方向方面。所述语法元素可表示为“CodedVVecLength”。以此方式,系数减少单元46可在位流中用信号通知或以其它方式指定使用三种配置模式中的哪一者在位流21中指定经缩减前景V[k]向量55。
举例来说,三种配置模式可呈现于用于VVecData的语法表(稍后在本文件中引用)中。在所述实例中,配置模式如下:(模式0),在VVecData字段中传输完整V-向量长度;(模式1),不传输与用于环境HOA系数的最小数目个系数相关联的V-向量的元素及包含额外HOA信道的V-向量的所有元素;及(模式2),不传输与用于环境HOA系数的最小数目个系数相关联的V-向量的元素。VVecData的语法表结合switch及case语句说明所述模式。尽管关于三种配置模式加以描述,但所述技术不应限于三种配置模式,且可包含任何数目种配置模式,包含单一配置模式或复数种模式。第WO 2014/194099号公开案提供具有四种模式的不同实例。系数减少单元46也可将旗标63指定为旁侧信道信息57中的另一语法元素。
量化单元52可表示经配置以执行任何形式的量化以压缩经缩减前景V[k]向量55以产生经译码前景V[k]向量57从而将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,在此实例中,为经缩减前景V[k]向量55中的一或多者)的单元。空间分量也可被称作表示球谐域中的正交空间轴线的向量。出于实例的目的,假定经缩减前景V[k]向量55包含两行向量,由于系数减少,每一列具有少于25个元素(其暗示声场的四阶HOA表示)。尽管关于两行向量加以描述,但任何数目个向量可包含于经缩减前景V[k]向量55中,至多为(n+1)2个,其中n表示声场的HOA表示的阶数。此外,尽管下文描述为执行纯量及/或熵量化,但量化单元52可执行导致经缩减前景V[k]向量55的压缩的任何形式的量化。
量化单元52可接收经缩减前景V[k]向量55且执行压缩方案以产生经译码前景V[k]向量57。压缩方案大体上可涉及用于压缩向量或数据的元素的任何可设想压缩方案,且不应限于下文更详细描述的实例。作为一实例,量化单元52可执行包含以下各者中的一或多者的压缩方案:将经缩减前景V[k]向量55的每一元素的浮点表示变换成经缩减前景V[k]向量55的每一元素的整数表示、经缩减前景V[k]向量55的整数表示的均匀量化,以及剩余前景V[k]向量55的经量化的整数表示的分类及译码。
在一些实例中,可通过参数动态地控制所述压缩方案的一或多个过程中的若干者以达成或几乎达成(作为一实例)所得位流21的目标位速率41。在给定经缩减前景V[k]向量55中的每一者彼此正交的情况下,可独立地译码经缩减前景V[k]向量55中的每一者。在一些实例中,如下文更详细地描述,可使用相同译码模式(通过各种子模式界定)译码每一经缩减前景V[k]向量55的每一元素。
如第WO 2014/194099号公开案中所描述,量化单元52可执行纯量量化及/或霍夫曼(Huffman)编码以压缩经缩减前景V[k]向量55,从而输出经译码前景V[k]向量57(其也可被称作旁侧信道信息57)。旁侧信道信息57可包含用以译码剩余前景V[k]向量55的语法元素。
此外,尽管关于纯量量化形式加以描述,但量化单元52可执行向量量化或任何其它形式的量化。在一些情况下,量化单元52可在向量量化及纯量量化之间切换。在上文所描述的纯量量化期间,量化单元52可计算两个连续V-向量(如在帧到帧中连续)之间的差且译码所述差(或,换句话说,残余)。此纯量量化可表示基于先前所指定的向量及差信号进行的一种形式的预测性译码。向量量化并不涉及此差译码。
换句话说,量化单元52可接收输入V-向量(例如,经缩减前景V[k]向量55中的一者)且执行不同类型的量化以选择所述量化类型中将用于所述输入V-向量的类型。作为一实例,量化单元52可执行向量量化、无霍夫曼译码的纯量量化,及具有霍夫曼译码的纯量量化。
在此实例中,量化单元52可根据向量量化模式将输入V-向量向量量化以产生经向量量化的V-向量。经向量量化的V-向量可包含表示输入V-向量的经向量量化的权重值。在一些实例中,可将经向量量化的权重值表示为指向量化码字的量化码簿中的量化码字(即,量化向量)的一或多个量化索引。当经配置以执行向量量化时,量化单元52可基于码向量63(“CV 63”)将经缩减前景V[k]向量55中的每一者分解成码向量的加权总和。量化单元52可产生用于码向量63中的选定码向量中的每一者的权重值。
量化单元52接下来可选择所述权重值的子集以产生权重值的选定子集。举例来说,量化单元52可从所述组权重值中选择Z个最大量值权重值以产生权重值的选定子集。在一些实例中,量化单元52可进一步将选定权重值重新排序以产生权重值的选定子集。举例来说,量化单元52可基于从最高量值权重值开始且于最低量值权重值结束的量值将选定权重值重新排序。
当执行向量量化时,量化单元52可从量化码簿中选择Z-分量向量来表示Z个权重值。换句话说,量化单元52可将Z个权重值向量量化以产生表示Z个权重值的Z-分量向量。在一些实例中,Z可对应于由量化单元52选择以表示单一V-向量的权重值的数目。量化单元52可产生指示经选择以表示Z个权重值的Z-分量向量的数据,且将此数据提供到位流产生单元42作为经译码权重57。在一些实例中,量化码簿可包含经编索引的多个Z-分量向量,且指示Z-分量向量的数据可为量化码簿中指向选定向量的索引值。在此些实例中,解码器可包含经类似地编索引的量化码簿以解码索引值。
在数学上,可基于以下表达式表示经缩减前景V[k]向量55中的每一者:
其中Ωj表示一组码向量({Ωj})中的第j码向量,ωj表示一组权重({ωj})中的第j权重,V对应于由V-向量译码单元52表示、分解及/或译码的V-向量,且J表示用以表示V的权重的数目及码向量的数目。表达式(1)的右侧可表示包含一组权重({ωj})及一组码向量({Ωj})的码向量的加权总和。
在一些实例中,量化单元52可基于以下等式确定权重值:
其中表示一组码向量({Ωk})中的第k码向量的转置,V对应于由量化单元52表示、分解及/或译码的V-向量,且ωk表示一组权重({ωk})中的第k权重。
考虑使用25个权重及25个码向量表示V-向量VFG的实例。可将VFG的此分解书写为:
其中Ωj表示一组码向量({Ωj})中的第j码向量,ωj表示一组权重({ωj})中的第j权重,且VFG对应于由量化单元52表示、分解及/或译码的V-向量。
在所述组码向量({Ωj})正交的实例中,以下表达式可适用:
在此些实例中,等式(3)的右侧可简化如下:
其中ωk对应于码向量的加权总和中的第k权重。
对于等式(3)中所使用的码向量的实例加权总和,量化单元52可使用等式(5)(类似于等式(2))计算用于码向量的加权总和中的权重中的每一者的权重值且可将所得权重表示为:
k}k=1,…,25 (6)
考虑量化单元52选择五个最大权重值(即,具有最大值或绝对值的权重)的实例。可将待量化的权重值的子集表示为:
可使用权重值的子集以及其对应码向量形成估计V-向量的码向量的加权总和,如以下表达式中所展示:
其中Ωj表示码向量({Ωj})的子集中的第j码向量,表示权重的子集中的第j权重,且对应于所估计的V-向量,其对应于由量化单元52分解及/或译码的V-向量。表达式(1)的右侧可表示包含一组权重及一组码向量的码向量的加权总和。
量化单元52可将权重值的子集量化以产生经量化的权重值,其可表示为:
可使用经量化的权重值以及其对应码向量形成表示所估计的V-向量的经量化的版本的码向量的加权总和,如以下表达式中所展示:
其中Ωj表示码向量({Ωj})的子集中的第j码向量,表示权重的子集中的第j权重,且对应于所估计的V-向量,其对应于由量化单元52分解及/或译码的V-向量。表达式(1)的右侧可表示包含一组权重及一组码向量({Ωj})的码向量的子集的加权总和。
前文的替代重新叙述(其大部分等效于上文所描述的叙述)可如下。可基于一组预定义码向量译码V-向量。为了译码V-向量,将每一V-向量分解成码向量的加权总和。码向量的加权总和由k对预定义码向量及相关联权重组成:
其中Ωj表示一组预定义码向量({Ωj})中的第j码向量,ωj表示一组预定义权重({ωj})中的第j实数值权重,k对应于加数的索引(其可高达7),且V对应于经译码的V-向量。k的选择取决于编码器。如果编码器选择两个或两个以上码向量的加权总和,那么编码器可选择的预定义码向量的总数目为(N+1)2,所述预定义码向量是从3D音频标准(标题为“信息技术-异质环境中的高效率译码及媒体递送-第3部分:3D音频(Informationtechnology-High effeciency coding and media delivery in heterogeneousenvironments-Part 3:3D audio)”,ISO/IEC JTC 1/SC 29/WG 11,日期为2014年7月25日,且通过文件编号ISO/IEC DIS 23008-3识别)的表F.3到F.7导出作为HOA扩展系数。当N为4时,使用上文所引用的3D音频标准的附录F.5中具有32个预定义方向的表格。在所有状况下,将权重ω的绝对值关于上文所引用的3D音频标准的表F.12中的表格的前k+1列中可见的且通过相关联的行编号索引用信号通知的预定义加权值向量量化。
将权重ω的数字正负号分别译码为:
换句话说,在用信号通知值k之后,通过指向k+1个预定义码向量{Ωj}的k+1个索引、指向预定义加权码簿中的k个经量化的权重的一索引及k+1个数字正负号值sj编码V-向量:
如果编码器选择一码向量的加权总和,那么结合上文所引用的3D音频标准的表F.11的表格中的绝对加权值使用从上文所引用的3D音频标准的表F.8导出的码簿,其中在下文展示这些表格中的两者。而且,可分别译码加权值ω的数字正负号。量化单元52可用信号通知使用上文所提及的表F.3到F.12中所阐述的前述码簿中的哪一码簿来使用码簿索引语法元素(其在下文可表示为“CodebkIdx”)译码输入V-向量。量化单元52也可将输入V-向量纯量量化以产生输出经纯量量化的V-向量,而无需对经纯量量化的V-向量进行霍夫曼译码。量化单元52可进一步根据霍夫曼译码纯量量化模式将输入V-向量纯量量化以产生经霍夫曼译码经纯量量化的V-向量。举例来说,量化单元52可将输入V-向量纯量量化以产生经纯量量化的V-向量,且对经纯量量化的V-向量进行霍夫曼译码以产生输出经霍夫曼译码经纯量量化的V-向量。
在一些实例中,量化单元52可执行一种形式的经预测的向量量化。量化单元52可通过在位流21中指定指示是否执行用于向量量化的预测的一或多个位(例如,PFlag语法元素)而识别是否预测向量量化(如通过指示量化模式的一或多个位识别,例如,NbitsQ语法元素)。
为了说明经预测的向量量化,量化单元42可经配置以接收对应于向量(例如,v-向量)的基于码向量的分解的权重值(例如,权重值量值),基于所接收权重值及基于经重建构的权重值(例如,从一或多个先前或后续音频帧重建构的权重值)产生预测性权重值,及将数组预测性权重值向量量化。在一些状况下,一组预测性权重值中的每一权重值可对应于单一向量的基于码向量的分解中所包含的权重值。
量化单元52可接收权重值及从向量的先前或后续译码获得的经加权的经重建构的权重值。量化单元52可基于权重值及经加权的经重建构的权重值产生预测性权重值。量化单元42可将经加权的经重建构的权重值从权重值中减去以产生预测性权重值。预测性权重值可替代地被称作(例如)残余、预测残余、残余权重值、权重值差、误差或预测误差。
权重值可表示为|wi,j|,其为对应权重值wi,j的量值(或绝对值)。因此,权重值可替代地被称作权重值量值或被称作权重值的量值。权重值wi,j对应于来自用于第i音频帧的权重值的有序子集的第j权重值。在一些实例中,权重值的有序子集可对应于向量(例如,v-向量)的基于码向量的分解中的权重值的子集,其是基于权重值的量值而排序(例如,从最大量值到最小量值排序)。
经加权的经重建构的权重值可包含项,其对应于对应的经重建构的权重值的量值(或绝对值)。经重建构的权重值对应于来自用于第(i-1)音频帧的经重建构的权重值的有序子集的第j经重建构的权重值。在一些实例中,可基于对应于经重建构的权重值的经量化的预测性权重值产生经重建构的权重值的有序子集(或集合)。
量化单元42也包含加权因子αj。在一些实例中,αj=1,在此状况下,经加权的经重建构的权重值可减小到在其它实例中,αj≠1。举例来说,可基于以下等式确定αj
其中I对应于用以确定αj的音频帧的数目。如先前等式中所展示,在一些实例中,可基于来自多个不同音频帧的多个不同权重值确定加权因子。
而且,当经配置以执行经预测的向量量化时,量化单元52可基于以下等式产生预测性权重值:
其中ei,j对应于来自用于第i音频帧的权重值的有序子集的第j权重值的预测性权重值。
量化单元52基于预测性权重值及经预测的向量量化(PVQ)码簿产生经量化的预测性权重值。举例来说,量化单元52可将预测性权重值结合针对待译码的向量或针对待译码的帧产生的其它预测性权重值向量量化以便产生经量化的预测性权重值。
量化单元52可基于PVQ码簿将预测性权重值620向量量化。PVQ码簿可包含多个M-分量候选量化向量,且量化单元52可选择所述候选量化向量中的一者来表示Z个预测性权重值。在一些实例中,量化单元52可从PVQ码簿中选择使量化误差最小化(例如,使最小平方误差最小化)的候选量化向量。
在一些实例中,PVQ码簿可包含多个条目,其中所述条目中的每一者包含量化码簿索引及对应M-分量候选量化向量。量化码簿中的所述索引中的每一者可对应于多个M-分量候选量化向量中的相应者。
量化向量中的每一者中的分量的数目可取决于经选择以表示单一v-向量的权重的数目(即,Z)。一般来说,对于具有Z-分量候选量化向量的码簿,量化单元52可同时将Z个预测性权重值向量量化以产生单一经量化的向量。量化码簿中的条目的数目可取决于用以将权重值向量量化的位速率。
当量化单元52将预测性权重值向量量化时,量化单元52可从PVQ码簿中选择将为表示Z个预测性权重值的量化向量的Z-分量向量。经量化的预测性权重值可表示为其可对应于用于第i音频帧的Z-分量量化向量的第j分量,其可进一步对应于用于第i音频帧的第j预测性权重值的经向量量化的版本。
当经配置以执行经预测的向量量化时,量化单元52也可基于经量化的预测性权重值及经加权的经重建构的权重值产生经重建构的权重值。举例来说,量化单元52可将经加权的经重建构的权重值加到经量化的预测性权重值以产生经重建构的权重值。经加权的经重建构的权重值可与上文所描述的经加权的经重建构的权重值相同。在一些实例中,经加权的经重建构的权重值可为经重建构的权重值的经加权及经延迟的版本。
经重建构的权重值可表示为其对应于对应的经重建构的权重值的量值(或绝对值)。经重建构的权重值对应于来自用于第(i-1)音频帧的经重建构的权重值的有序子集的第j经重建构的权重值。在一些实例中,量化单元52可分别译码指示经预测性地译码的权重值的正负号的数据,且解码器可使用此信息确定经重建构的权重值的正负号。
量化单元52可基于以下等式产生经重建构的权重值:
其中对应于来自用于第i音频帧的权重值的有序子集的第j权重值(例如,M-分量量化向量的第j分量)的经量化的预测性权重值,对应于来自用于第(i-1)音频帧的权重值的有序子集的第j权重值的经重建构的权重值的量值,且αj对应于来自权重值的有序子集的第j权重值的加权因子。
量化单元52可基于经重建构的权重值产生经延迟的经重建构的权重值。举例来说,量化单元52可将经重建构的权重值延迟达一音频帧以产生经延迟的经重建构的权重值。
量化单元52也可基于经延迟的经重建构的权重值及加权因子产生经加权的经重建构的权重值。举例来说,量化单元52可将经延迟的经重建构的权重值乘以加权因子以产生经加权的经重建构的权重值。
类似地,量化单元52可基于经延迟的经重建构的权重值及加权因子产生经加权的经重建构的权重值。举例来说,量化单元52可将经延迟的经重建构的权重值乘以加权因子以产生经加权的经重建构的权重值。
响应于从PVQ码簿中选择将为用于Z个预测性权重值的量化向量的Z-分量向量,在一些实例中,量化单元52可译码对应于所选定Z-分量向量的索引(来自PVQ码簿)(而非译码所选定Z-分量向量自身)。所述索引可指示一组经量化的预测性权重值。在此些实例中,解码器24可包含类似于PVQ码簿的码簿,且可通过将指示经量化的预测性权重值的索引映射到解码器码簿中的对应Z-分量向量而解码所述索引。Z-分量向量中的分量中的每一者可对应于经量化的预测性权重值。
将向量(例如,V-向量)纯量量化可涉及个别地及/或独立于其它分量将所述向量的分量中的每一者量化。举例来说,考虑以下实例V-向量:
V=[0.23 0.31 -0.47 … 0.85]
为了将此实例V向量纯量量化,可个别地将所述分量中的每一者量化(即,纯量量化)。举例来说,如果量化步长为0.1,那么可将0.23分量量化为0.2,可将0.31分量量化为0.3,等等。经纯量量化的分量可共同地形成经纯量量化的V-向量。
换句话说,量化单元52可关于经缩减前景V[k]向量55中的给定向量的所有元素执行均匀纯量量化。量化单元52可基于可表示为NbitsQ语法元素的值识别量化步长。量化单元52可基于目标位速率41动态地确定此NbitsQ语法元素。NbitsQ语法元素也可识别如下文再现的ChannelSideInfoData语法表中所提及的量化模式,同时也识别步长(出于纯量量化的目的)。即,量化单元52可依据此NbitsQ语法元素确定量化步长。作为一实例,量化单元52可将量化步长(在本发明中表示为“差量”或“Δ”)确定为等于216-NbitsQ。在此实例中,当NbitsQ语法元素的值等于6时,差量等于210且存在26种量化等级。就此而言,对于向量元素v,经量化的向量元素vq等于[v/Δ],且-2NbitsQ-1<vq<2NbitsQ-1
量化单元52可接着执行经量化的向量元素的分类及残余译码。作为一实例,量化单元52可针对给定的经量化的向量元素vq,使用以下等式识别此元素所对应的类别(通过确定类别识别符cid):
量化单元52可接着对此类别索引cid进行霍夫曼译码,同时也识别指示vq为正值还是负值的正负号位。量化单元52接下来可识别此类别中的残余。作为一实例,量化单元52可根据以下等式确定此残余:
残余=|vq|-2cid-1
量化单元52可接着用cid-1个位对此残余进行块译码。
在一些实例中,当译码cid时,量化单元52可选择用于NbitsQ语法元素的不同值的不同霍夫曼码簿。在一些实例中,量化单元52可提供用于NbitsQ语法元素值6,…,15的不同霍夫曼译码表。此外,量化单元52可包含用于在6,…,15的范围内的不同NbitsQ语法元素值中的每一者的五个不同霍夫曼码簿,总共50个霍夫曼码簿。就此而言,量化单元52可包含多个不同霍夫曼码簿以适应数个不同统计上下文中的cid的译码。
为了进行说明,量化单元52可针对NbitsQ语法元素值中的每一者包含:用于译码向量元素一到四的第一霍夫曼码簿;用于译码向量元素五到九的第二霍夫曼码簿;用于译码向量元素九及九以上的第三霍夫曼码簿。当出现以下情形时,可使用此些前三个霍夫曼码簿:经缩减前景V[k]向量55中待压缩的经缩减前景V[k]向量55并非是从经缩减前景V[k]向量55中在时间上后续的对应经缩减前景V[k]向量预测且并非表示合成音频对象((例如)最初通过经脉码调制(PCM)音频对象界定的音频对象)的空间信息。当经缩减前景V[k]向量55中的此经缩减前景V[k]向量55是从经缩减前景V[k]向量55中在时间上后续的对应经缩减前景V[k]向量55预测时,量化单元52可针对NbitsQ语法元素值中的每一者另外包含用于译码经缩减前景V[k]向量55中的所述经缩减前景V[k]向量55的第四霍夫曼码簿。当经缩减前景V[k]向量55中的此经缩减前景V[k]向量55表示合成音频对象时,量化单元52也可针对NbitsQ语法元素值中的每一者包含用于译码经缩减前景V[k]向量55中的所述经缩减前景V[k]向量55的第五霍夫曼码簿。可针对此些不同统计上下文(即,在此实例中,未经预测及非合成上下文、经预测的上下文及合成上下文)中的每一者开发各种霍夫曼码簿。
下表说明霍夫曼表选择及待于位流中指定以使得解压缩单元能够选择适当霍夫曼表的位:
Pred模式 HT信息 HT表
0 0 HT5
0 1 HT{1,2,3}
1 0 HT4
1 1 HT5
在前表中,预测模式(“Pred模式”)指示是否针对当前向量执行了预测,而霍夫曼表(“HT信息”)指示用以选择霍夫曼表一到五中的一者的额外霍夫曼码簿(或表格)信息。预测模式也可表示为下文所论述的PFlag语法元素,而HT信息可通过下文所论述的CbFlag语法元素来表示。
下表进一步说明此霍夫曼表选择过程(在给定各种统计上下文或情形的情况下)。
记录 合成
无Pred HT{1,2,3} HT5
具有Pred HT4 HT5
在前表中,“记录”列指示向量表示经记录的音频对象时的译码上下文,而“合成”列指示向量表示合成音频对象时的译码上下文。“无Pred”行指示并不关于向量元素执行预测时的译码上下文,而“具有Pred”行指示关于向量元素执行预测时的译码上下文。如此表中所展示,量化单元52在向量表示所记录音频对象且并不关于向量元素执行预测时选择HT{1,2,3}。量化单元52在音频对象表示合成音频对象且并不关于向量元素执行预测时选择HT5。量化单元52在向量表示所记录音频对象且关于向量元素执行预测时选择HT4。量化单元52在音频对象表示合成音频对象且关于向量元素执行预测时选择HT5。
量化单元52可基于本发明中所论述的准则的任何组合选择以下各者中的一者以用作输出经切换式量化的V-向量:未经预测的经向量量化的V-向量、经预测的经向量量化的V-向量、未经霍夫曼译码的经纯量量化的V-向量,及经霍夫曼译码的经纯量量化的V-向量。在一些实例中,量化单元52可从包含向量量化模式及一或多个纯量量化模式的一组量化模式中选择量化模式,且基于(或根据)所述选定模式将输入V-向量量化。量化单元52可接着将以下各者中的选定者提供到位流产生单元52以用作经译码前景V[k]向量57:未经预测的经向量量化的V-向量(例如,就权重值或指示权重值的位而言)、经预测的经向量量化的V-向量(例如,就误差值或指示误差值的位而言)、未经霍夫曼译码的经纯量量化的V-向量,及经霍夫曼译码的经纯量量化的V-向量。量化单元52也可提供指示量化模式的语法元素(例如,NbitsQ语法元素),及用以解量化或以其它方式重建构V-向量的任何其它语法元素(如下文关于图4及7的实例更详细论述)。
包含于音频编码装置20内的音质音频译码器单元40可表示音质音频译码器的多个执行个体,其中的每一者用以编码经能量补偿的环境HOA系数47'及经内插的nFG信号49'中的每一者的不同音频对象或HOA信道,以产生经编码环境HOA系数59及经编码nFG信号61。音质音频译码器单元40可将经编码环境HOA系数59及经编码nFG信号61输出到位流产生单元42。
包含于音频编码装置20内的位流产生单元42表示将数据格式化以符合已知格式(其可指为解码装置已知的格式)借此产生基于向量的位流21的单元。换句话说,位流21可表示以上文所描述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61,及背景信道信息43。位流产生单元42可接着基于经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61及背景信道信息43产生位流21。位流21可包含主要或主位流及一或多个旁侧信道位流。
尽管在图3的实例中未展示,但音频编码装置20也可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为检测到HOA系数11是从合成音频对象产生的结果)还是执行基于向量的合成(作为检测到HOA系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应位流的切换或当前编码。
此外,如上文所提及,声场分析单元44可识别BGTOT环境HOA系数47,所述BGTOT环境HOA系数可基于逐个帧而改变(但时常BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在经缩减前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致背景HOA系数(其也可被称作“环境HOA系数”),其基于逐个帧而改变(但再次,时常BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)。所述改变常常导致就以下方面而言的能量的改变:通过额外环境HOA系数的添加或移除及系数从经缩减前景V[k]向量55的对应移除或系数到经缩减前景V[k]向量55的添加表示的声场。
因此,声场分析单元(声场分析单元44)可进一步确定环境HOA系数何时逐帧而改变且产生指示环境HOA系数的改变的旗标或其它语法元素(就用以表示声场的环境分量而言)(其中所述改变也可被称作环境HOA系数的“转变”或被称作环境HOA系数的“转变”)。详细地说,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,以便可将所述旗标包含于位流21中(有可能作为旁侧信道信息的部分)。
除指定环境系数转变旗标之外,系数减少单元46也可修改产生经缩减前景V[k]向量55的方式。在一实例中,当确定环境HOA环境系数中的一者在当前帧中处于转变中时,系数减少单元46可指定用于经缩减前景V[k]向量55的V-向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。同样地,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数目或从背景系数的BGTOT总数目移除。因此,背景系数的总数目的所得改变影响以下情形:环境HOA系数是包含于还是不包含于位流中,及在上文所描述的第二及第三配置模式中是否针对位流中所指定的V-向量包含V-向量的对应元素。关于系数减少单元46可如何指定经缩减前景V[k]向量55以克服能量的改变的更多信息提供于2015年1月12日申请的标题为“环境HIGHER_ORDER立体混响系数的转变(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
在一些实例中,位流产生单元42产生位流21以包含立即播出帧(IPF)以(例如)补偿解码器启动延迟。在一些状况下,可结合例如HTTP上动态自适应串流(DASH)或单向输送文件递送(FLUTE)的因特网串流标准使用位流21。DASH描述于2012年4月的ISO/IEC23009-1“信息技术-HTTP上动态自适应串流(DASH)(Information Technology-Dynamic adaptivestreaming over HTTP(DASH))”中。FLUTE描述于2012年11月的IETF RFC 6726“FLUTE-单向输送文件递送(FLUTE-File Delivery over Unidirectional Transport)”中。例如前述FLUTE及DASH的因特网串流标准通过以下操作补偿帧损失/降级且适应网络输送链路带宽:实现指明流存取点(SAP)处的瞬时播出,以及在流的表示之间切换播出(所述表示在位速率及/或流的任何SAP处的启用工具上不同)。换句话说,音频编码装置20可按以下方式编码帧:使得从内容的第一表示(例如,在第一位速率下指定)切换到内容的第二不同表示(例如,在第二较高或较低位速率下指定)。音频解码装置24可接收帧且独立地解码帧以从内容的第一表示切换到内容的第二表示。音频解码装置24可继续解码后续帧以获得内容的第二表示。
在瞬时播出/切换的情况下,并未解码用于流帧的预滚以便建立必要的内部状态以恰当地解码帧,位流产生单元42可编码位流21以包含立即播出帧(IPF),如下文关于图8A及8B更详细地描述。
就此而言,所述技术可使得音频编码装置20能够在位流21的包含输送信道的第一信道旁侧信息数据的第一帧中指定指示所述第一帧是否为独立帧的一或多个位。所述独立帧可包含使得能够在不参考位流21的包含输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息(例如,下文关于图8A的实例所论述的状态信息812)。下文关于图4及7更详细地论述信道旁侧信息数据及输送信道。音频编码装置20也可响应于指示所述第一帧并非一独立帧的所述一或多个位而指定用于输送信道的第一信道旁侧信息数据的预测信息。所述预测信息可用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
此外,在一些情况下,音频编码装置20也可经配置以存储包含第一帧的位流21,所述第一帧包括表示球谐域中的正交空间轴线的向量。音频编码装置20可进一步从位流的第一帧获得指示所述第一帧是否为一独立帧的一或多个位,所述独立帧包含使得能够在不参考位流21的第二帧的情况下解码所述向量的向量量化信息(例如,CodebkIdx及NumVecIndices语法元素中的一者或两者)。
在一些情况下,音频编码装置20可进一步经配置以在所述一或多个位指示所述第一帧为独立帧时(例如,HOAIndependencyFlag语法元素),从位流指定向量量化信息。向量量化信息可能并不包含指示经预测的向量量化是否用以将向量量化的预测信息(例如,PFlag语法元素)。
在一些情况下,音频编码装置20可进一步经配置以在所述一或多个位指示第一帧为独立帧时,设定预测信息以指示并不关于所述向量执行经预测的向量解量化。即,当HOAIndependencyFlag等于一时,音频编码装置20可将PFlag语法元素设定为零,这是因为针对独立帧停用预测。在一些情况下,音频编码装置20可进一步经配置以在所述一或多个位指示第一帧并非独立帧时,设定用于向量量化信息的预测信息。在此情况下,当HOAIndependencyFlag等于零时,当启用预测时,音频编码装置20可将PFlag语法元素设定为一或零。
图4为更详细地说明图2的音频解码装置24的框图。如图4的实例中所展示,音频解码装置24可包含提取单元72、基于方向性的重建构单元90及基于向量的重建构单元92。尽管下文加以描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(NTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收位流21及提取HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可确定上文所提及的指示HOA系数11是经由各种基于方向的版本还是基于向量的版本编码的语法元素。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4的实例中表示为基于方向的信息91),将所述基于方向的信息91传递到基于方向的重建构单元90。基于方向的重建构单元90可表示经配置以基于基于方向的信息91以HOA系数11'的形式重建构HOA系数的单元。下文关于图7A到7J的实例更详细地描述位流及位流内的语法元素的布置。
当语法元素指示HOA系数11是使用基于向量的合成编码时,提取单元72可提取经译码前景V[k]向量57(其可包含经译码权重57及/或索引63或经纯量量化的V-向量)、经编码环境HOA系数59及经编码nFG信号61。提取单元72可将经译码前景V[k]向量57传递到V-向量重建构单元74,且将经编码环境HOA系数59以及经编码nFG信号61提供到音质解码单元80。
为了提取经译码前景V[k]向量57,提取单元72可根据以下ChannelSideInfoData(CSID)语法表提取语法元素。
表-ChannelSideInfoData(i)的语法
前表中的加底线表示用以适应CodebkIdx的添加的对现有语法表的改变。用于前表的语义如下。
此有效负载保持用于第i信道的旁侧信息。有效负载的大小及数据取决于信道的类型。
ChannelType[i] 此元素存储表95中所界定的第i信道的类型。
ActiveDirsIds[i] 此元素使用来自附录F.7的900个预定义均匀分布的点
的索引指示作用中方向信号的方向。码字0用于用信号
通知方向信号的结束。
PFlag[i] 与第i信道的基于向量的信号相关联的
预测旗标。
CbFlag[i] 与第i信道的基于向量的信号相关联的用于经纯量量化
的V-向量的霍夫曼解码的码簿旗标。
CodebkIdx[i] 用信号通知与第i信道的基于向量的信号相关联的用以
将经向量量化的V-向量解量化的特定码簿。
NbitsQ[i] 此索引确定与第i信道的基于向量的信号相关联的用于
数据的霍夫曼解码的霍夫曼表。码字5确定均匀8位解
量化器的使用。两个MSB 00确定重用前一帧(k-1)的
NbitsQ[i]、PFlag[i]及CbFlag[i]数据。
bA,bB NbitsQ[i]字段的msb(bA)及第二msb(bB)。
uintC NbitsQ[i]字段的剩余两个位的码字。
NumVecIndices 用以将经向量量化的V-向量解量化的向量的数目。
AddAmbHoaInfoChannel(i)此有效负载保持用于额外环境HOA系数的信息。
根据CSID语法表,提取单元72可首先获得指示信道的类型的ChannelType语法元素(例如,其中值0用信号通知基于方向的信号,值1用信号通知基于向量的信号,且值2用信号通知额外环境HOA信号)。基于ChannelType语法元素,提取单元72可在三种状况之间切换。
集中于状况1以说明本发明中所描述的技术的一实例,提取单元72可确定hoaIndependencyFlag语法元素的值是否经设定为1(其可用信号通知第i输送信道的第k帧为独立帧)。提取单元72可获得用于帧的此hoaIndependencyFlag作为第k帧的第一位且关于图7的实例更详细地展示。当hoaIndependencyFlag语法元素的值经设定为1时,提取单元72可获得NbitsQ语法元素(其中(k)[i]表示针对第i输送信道的第k帧获得NbitsQ语法元素)。NbitsQ语法元素可表示指示用以将通过HOA系数11表示的声场的空间分量量化的量化模式的一或多个位。在本发明中也可将空间分量称作V-向量或称作经译码前景V[k]向量57。
在上述实例CSID语法表中,NbitsQ语法元素可包含四个位以指示12种量化模式中的一者(用于NbitsQ语法元素的值零到三保留或未使用)。12种量化模式包含下文指示的以下模式:
0-3:保留
4:向量量化
5:无霍夫曼译码的纯量量化
6:具有霍夫曼译码的6-位纯量量化
7:具有霍夫曼译码的7-位纯量量化
8:具有霍夫曼译码的8-位纯量量化
……
16:具有霍夫曼译码的16-位纯量量化
在上文中,NbitsQ语法元素的从6到16索引的值不仅指示将执行具有霍夫曼译码的纯量量化,而且指示纯量量化的位深度。
返回到上述实例CSID语法表,提取单元72接下来可确定NbitsQ语法元素的值是否等于四(借此用信号通知使用向量解量化重建构V-向量)。当NbitsQ语法元素的值等于四时,提取单元72可将PFlag语法元素设定为零。即,因为帧为独立帧(如通过hoaIndependencyFlag指示),所以不允许进行预测且提取单元72可将PFlag语法元素设定为值零。在向量量化的上下文中(如通过NbitsQ语法元素用信号通知),Pflag语法元素可表示指示是否执行经预测的向量量化的一或多个位。提取单元72也可从位流21获得CodebkIdx语法元素及NumVecIndices语法元素。NumVecIndices语法元素可表示指示用以将经向量量化的V-向量解量化的码向量的数目的一或多个位。
当NbitsQ语法元素的值并不等于四而实际上等于六时,提取单元72可将PFlag语法元素设定为零。此外,因为hoaIndependencyFlag的值为一(用信号通知第k帧为独立帧),所以并不允许进行预测且提取单元72因此设定PFlag语法元素以用信号通知并不使用预测来重建构V-向量。提取单元72也可从位流21获得CbFlag语法元素。
当hoaIndpendencyFlag语法元素的值指示第k帧并非独立帧时(例如,在上述实例CSID表中,通过经设定为零),提取单元72可获得NbitsQ语法元素的最高有效位(即,上述实例CSID语法表中的bA语法元素)及NbitsQ语法元素的次高有效位(即,上述实例CSID语法表中的bB语法元素)。提取单元72可组合bA语法元素与bB语法元素,其中此组合可为如上述实例CSID语法表中所展示的加法。提取单元72接下来比较组合的bA/bB语法元素与值零。
当组合的bA/bB语法元素具有值零时,提取单元72可确定用于第i输送信道的当前第k帧的量化模式信息(即,指示上述实例CSID语法表中的量化模式的NbitsQ语法元素)与第i输送信道的第k-1帧的量化模式信息相同。提取单元72类似地确定用于第i输送信道的当前第k帧的预测信息(即,所述实例中指示是否在向量量化或纯量量化期间执行预测的PFlag语法元素)与第i输送信道的第k-1帧的预测信息相同。提取单元72也可确定用于第i输送信道的当前第k帧的霍夫曼码簿信息(即,指示用以重建构V-向量的霍夫曼码簿的CbFlag语法元素)与第i输送信道的第k-1帧的霍夫曼码簿信息相同。提取单元72也可确定用于第i输送信道的当前第k帧的向量量化信息(即,指示用以重建构V-向量的向量量化码簿的CodebkIdx语法元素)与第i输送信道的第k-1帧的向量量化信息相同。
当组合的bA/bB语法元素并不具有值零时,提取单元72可确定用于第i输送信道的第k帧的量化模式信息、预测信息、霍夫曼码簿信息及向量量化信息并不与第i输送信道的第k-1帧的所述情形相同。因此,提取单元72可获得NbitsQ语法元素的最低有效位(即,上述实例CSID语法表中的uintC语法元素),从而组合bA、bB及uintC语法元素以获得NbitsQ语法元素。基于此NbitsQ语法元素,当NbitsQ语法元素用信号通知向量量化时,提取单元72可获得PFlag及CodebkIdx语法元素,或当NbitsQ语法元素用信号通知具有霍夫曼译码的纯量量化时,提取单元72可获得PFlag及CbFlag语法元素。以此方式,提取单元72可提取用以重建构V-向量的前述语法元素,将此些语法元素传递到基于向量的重建构单元72。
提取单元72接下来可从第i输送信道的第k帧中提取V-向量。提取单元72可获得HOADecoderConfig容器应用程序,其包含表示为CodedVVecLength的语法元素。提取单元72可剖析来自HOADecoderConfig容器应用程序的CodedVVecLength。提取单元72可根据以下VVecData语法表获得V-向量。
VVec(k)[i] 此向量为用于第i信道的第k HOAframe()的V-向量。
VVecLength 此变量指示待读出的向量元素的数目。
VVecCoeffId 此向量含有经传输的V-向量系数的索引。
VecVal 介于0与255之间的整数值。
aVal 在解码VVectorData期间使用的暂时变量。
huffVal 进行霍夫曼解码的霍夫曼码字。
SgnVal 此符号为在解码期间使用的经译码正负号值。
intAddVal 此符号为在解码期间使用的额外整数值。
NumVecIndices 用以将经向量量化的V-向量解量化的向量的数目。
WeightIdx WeightValCdbk中用以将经向量量化的V-向量解量化的索引。
nBitsW 用于读取WeightIdx以解码经向量量化的V-向量的字段大小。
WeightValCbk 含有正实数值加权系数的向量的码簿。仅在NumVecIndices>1的情况下才为有必要的。提供具有256个条目的WeightValCdbk。
WeightValPredCdbk 含有预测性加权系数的向量的码簿。仅在NumVecIndices>1的情况下才为有必要的。提供具有256个条目的WeightValPredCdbk。
WeightValAlpha 针对V-向量量化的预测性译码模式使用的预测性译码系数。
VvecIdx 用以将经向量量化的V-向量解量化的VecDict的索引。
nbitsIdx 用于读取VvecIdx以解码经向量量化的V-向量的字段大小。
WeightVal 用以解码经向量量化的V-向量的实数值加权系数。
在前述语法表中,提取单元72可确定NbitsQ语法元素的值是否等于四(或,换句话说,用信号通知使用向量解量化重建构V-向量)。当NbitsQ语法元素的值等于四时,提取单元72可比较NumVecIndices语法元素的值与值一。当NumVecIndices的值等于一时,提取单元72可获得VecIdx语法元素。VecIdx语法元素可表示指示用以将经向量量化的V-向量解量化的VecDict的索引的一或多个位。提取单元72可将VecIdx阵列执行个体化,其中第零元素经设定为VecIdx语法元素的值加上一。提取单元72也可获得SgnVal语法元素。SgnVal语法元素可表示指示在解码V-向量期间使用的经译码正负号值的一或多个位。提取单元72可将WeightVal阵列执行个体化,其中依据SgnVal语法元素的值设定第零元素。
当NumVecIndices语法元素的值并不等于值一时,提取单元72可获得WeightIdx语法元素。WeightIdx语法元素可表示指示用以将经向量量化的V-向量解量化的WeightValCdbk阵列中的索引的一或多个位。WeightValCdbk阵列可表示含有正实数值加权系数的向量的码簿。提取单元72接下来可依据在HOAConfig容器应用程序中指定的NumOfHoaCoeffs语法元素(在位流21的开始时作为一实例指定)确定nbitsIdx。提取单元72可接着对NumVecIndices反复,从而从位流21中获得VecIdx语法元素且用每一所获得的VecIdx语法元素设定VecIdx阵列元素。
提取单元72并不执行以下PFlag语法比较,所述PFlag语法比较涉及确定与从位流21中提取语法元素不相关的tmpWeightVal变量值。因此,提取单元72接下来可获得用于在确定WeightVal语法元素中使用的SgnVal语法元素。
当NbitsQ语法元素的值等于五时(用信号通知使用无霍夫曼解码的纯量解量化重建构V向量),提取单元72从0到VVecLength反复,从而将aVal变量设定为从位流21中获得的VecVal语法元素。VecVal语法元素可表示指示介于0与255之间的整数的一或多个位。
当NbitsQ语法元素的值等于或大于六时(用信号通知使用具有霍夫曼解码的NbitsQ-位纯量解量化重建构V-向量),提取单元72从0到VVecLength反复,从而获得huffVal、SgnVal及intAddVal语法元素中的一或多者。huffVal语法元素可表示指示霍夫曼码字的一或多个位。intAddVal语法元素可表示指示在解码期间使用的额外整数值的一或多个位。提取单元72可将此些语法元素提供到基于向量的重建构单元92。
基于向量的重建构单元92可表示经配置以执行与上文关于基于向量的合成单元27所描述的那些操作互逆的操作以便重建构HOA系数11'的单元。基于向量的重建构单元92可包含V-向量重建构单元74、空间-时间内插单元76、前景制订单元78、音质解码单元80、HOA系数制订单元82、淡化单元770,及重新排序单元84。使用虚线展示淡化单元770以指示淡化单元770为视情况存在的单元。
V-向量重建构单元74可表示经配置以从经编码前景V[k]向量57重建构V-向量的单元。V-向量重建构单元74可以与量化单元52的方式互逆的方式操作。
换句话说,V-向量重建构单元74可根据以下伪码操作以重建构V-向量:
根据前述伪码,V-向量重建构单元74可获得用于第i输送信道的第k帧的NbitsQ语法元素。当NbitsQ语法元素等于四时(所述情形再次用信号通知执行向量量化),V-向量重建构单元74可比较NumVecIndicies语法元素与一。如上文所描述,NumVecIndicies语法元素可表示指示用以将经向量量化的V-向量解量化的向量的数目的一或多个位。当NumVecIndicies语法元素的值等于一时,V-向量重建构单元74可接着从0直到VVecLength语法元素的值反复,从而将idx变量设定为VVecCoeffId且将第VVecCoeffId V-向量元素(v(i)VVecCoeffId[m](k))设定为WeightVal乘以由[900][VecIdx[0]][idx]识别的VecDict条目。换句话说,当NumVvecIndicies的值等于一时,从表F.8结合表F.11中所展示的8×1加权值的码簿导出向量码簿HOA扩展系数。
当NumVecIndicies语法元素的值并不等于一时,V-向量重建构单元74可将cdbLen变量设定为O,其为表示向量的数目的变量。cdbLen语法元素指示码向量的辞典或码簿中的条目的数目(其中此辞典在前述伪码中表示为“VecDict”且表示含有用以解码经向量量化的V-向量的HOA扩展系数的向量的具有cdbLen个码簿条目的码簿)。当HOA系数11的次序(由“N”表示)等于四时,V-向量重建构单元74可将cdbLen变量设定为32。V-向量重建构单元74接下来可从0到O反复,从而将TmpVVec阵列设定为零。在此反复期间,v-向量重建构单元74也可从0到NumVecIndecies语法元素的值反复,从而将TempVVec阵列的第m条目设定为等于第j WeightVal乘以VecDict的[cdbLen][VecIdx[j]][m]条目。
V-向量重建构单元74可根据以下伪码导出WeightVal:
在前述伪码中,V-向量重建构单元74可从0直到NumVecIndices语法元素的值反复,首先确定PFlag语法元素的值是否等于0。当PFlag语法元素等于0时,V-向量重建构单元74可确定tmpWeightVal变量,从而将tmpWeightVal变量设定为等于WeightValCdbk码簿的[CodebkIdx][WeightIdx]条目。当PFlag语法元素的值并不等于0时,V-向量重建构单元74可将tmpWeightVal变量设定为等于WeightValPredCdbk码簿的[CodebkIdx][WeightIdx]条目加上WeightValAlpha变量乘以第i输送信道的第k-1帧的tempWeightVal。WeightValAlpha变量可指上文所提及的阿尔法值,其可在音频编码及解码装置20及24处静态地界定。V-向量重建构单元74可接着依据由提取单元72获得的SgnVal语法元素及tmpWeightVal变量获得WeightVal。
换句话说,V-向量重建构单元74可基于权重值码簿(表示为用于未经预测的向量量化的“WeightValCdbk”及用于经预测的向量量化的“WeightValPredCdbk”,所述两者可表示基于码簿索引(在前述VVectorData(i)语法表中表示为“CodebkIdx”语法元素)及权重索引(在前述VVectorData(i)语法表中表示为“WeightIdx”语法元素)中的一或多者编索引的多维表)导出用于用以重建构V-向量的每一对应码向量的权重值。可在旁侧信道信息的一部分中界定此CodebkIdx语法元素,如下文ChannelSideInfoData(i)语法表中所展示。
上述伪码的剩余向量量化部分涉及计算FNorm以使V-向量的元素正规化,随后将V-向量元素(v(i) VVecCoeffId[m](k))计算为等于TmpVVec[idx]乘以FNorm。V-向量重建构单元74可依据VVecCoeffID获得idx变量。
当NbitsQ等于5时,执行均匀8位纯量解量化。与此对比,大于或等于6的NbitsQ值可导致霍夫曼解码的应用。上文所提及的cid值可等于NbitsQ值的两个最低有效位。预测模式在上述语法表中表示为PFlag,而霍夫曼表信息位在上述语法表中表示为CbFlag。剩余语法指定解码如何以实质上类似于上文所描述的方式的方式出现。
音质解码单元80可以与图3的实例中所展示的音质音频译码器单元40互逆的方式操作以便解码经编码环境HOA系数59及经编码nFG信号61且借此产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。音质解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
空间-时间内插单元76可以与上文关于空间-时间内插单元50所描述的方式类似的方式操作。空间-时间内插单元76可接收经缩减前景V[k]向量55k且关于前景V[k]向量55k及经缩减前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。
提取单元72也可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元770可接着确定SHCBG 47'(其中SHCBG 47'也可表示为“环境HOA信道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k”的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可关于环境HOA系数47'及经内插的前景V[k]向量55k”的元素中的每一者相反地操作。即,淡化单元770可关于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时关于经内插的前景V[k]向量55k”的元素中的对应经内插的前景V[k]向量执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82且将经调整的前景V[k]向量55k”'输出到前景制订单元78。就此而言,淡化单元770表示经配置以关于HOA系数或其导出项(例如,呈环境HOA系数47'及经内插的前景V[k]向量55k”的元素的形式)的各种方面执行淡化操作的单元。
前景制订单元78可表示经配置以关于经调整的前景V[k]向量55k”'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。前景制订单元78可执行经内插的nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境HOA系数47”以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于HOA系数11但与HOA系数11不相同。HOA系数11与11'之间的差可起因于归因于有损传输媒体上的传输、量化或其它有损操作产生的损失。
就此而言,所述技术可使得音频解码装置20能够从位流21的包含输送信道的第一信道旁侧信息数据的第一帧(其在下文关于图7更详细地加以描述)获得指示第一帧是否为独立帧的一或多个位(例如,图7中所展示的HOAIndependencyFlag语法元素860),所述独立帧包含使得能够在不参考位流21的第二帧的情况下解码第一帧的额外参考信息。音频编码装置20也可响应于指示所述第一帧并非独立帧的HOAIndependencyFlag语法元素而获得用于输送信道的第一信道旁侧信息数据的预测信息。所述预测信息可用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
此外,本发明中所描述的所述技术可使得音频解码装置能够经配置以存储包含第一帧的位流21,所述第一帧包括表示球谐域中的正交空间轴线的向量。音频编码装置经进一步配置以从位流21的第一帧获得指示第一帧是否为独立帧的一或多个位(例如,HOAIndependencyFlag语法元素),所述独立帧包含使得能够在不参考位流21的第二帧的情况下解码所述向量的向量量化信息(例如,CodebkIdx及NumVecIndices语法元素中的一者或两者)。
在一些情况下,音频解码装置24可进一步经配置以在所述一或多个位指示第一帧为独立帧时,从位流21获得向量量化信息。在一些情况下,向量量化信息并不包含指示经预测的向量量化是否用以将向量量化的预测信息。
在一些情况下,音频解码装置24可进一步经配置以在所述一或多个位指示第一帧为独立帧时,设定预测信息(例如,PFlag语法元素)以指示并不关于所述向量执行经预测的向量解量化。在一些情况下,音频解码装置24可进一步经配置以在所述一或多个位指示第一帧并非独立帧时,从向量量化信息获得预测信息(例如,PFlag语法元素)(意谓:当NbitsQ语法元素指示使用向量量化压缩向量时,PFlag语法元素为向量量化信息的部分)。在此上下文中,预测信息可指示是否使用经预测的向量量化将向量量化。
在一些情况下,音频解码装置24可进一步经配置以在所述一或多个位指示第一帧并非独立帧时从向量量化信息获得预测信息。在一些情况下,音频解码装置24可进一步经配置以在预测信息指示使用经预测的向量量化将向量量化时,关于向量执行经预测的向量解量化。
在一些情况下,音频解码装置24可进一步经配置以从向量量化信息获得码簿信息(例如,CodebkIdx语法元素),所述码簿信息指示用以将所述向量向量量化的码簿。在一些情况下,音频解码装置24可进一步经配置以使用通过码簿信息指示的码簿关于所述向量执行向量量化。
图5A为说明音频编码装置(例如,图3的实例中所展示的音频编码装置20)执行本发明中所描述的基于向量的合成技术的各种方面的示范性操作的流程图。最初,音频编码装置20接收HOA系数11(106)。音频编码装置20可调用LIT单元30,LIT单元30可关于HOA系数应用LIT以输出经变换的HOA系数(例如,在SVD的状况下,经变换的HOA系数可包括US[k]向量33及V[k]向量35)(107)。
音频编码装置20接下来可调用参数计算单元32以按上文所描述的方式关于US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35的任何组合执行上文所描述的分析以识别各种参数。即,参数计算单元32可基于经变换的HOA系数33/35的分析确定至少一参数(108)。
音频编码装置20可接着调用重新排序单元34,重新排序单元34基于参数将经变换的HOA系数(再次在SVD的上下文中,其可指US[k]向量33及V[k]向量35)重新排序以产生经重新排序的经变换的HOA系数33'/35'(或,换句话说,US[k]向量33'及V[k]向量35'),如上文所描述(109)。在前述操作或后续操作中的任一者期间,音频编码装置20也可调用声场分析单元44。如上文所描述,声场分析单元44可关于HOA系数11及/或经变换的HOA系数33/35执行声场分析以确定前景信道的总数目(nFG)45、背景声场的阶数(NBG)以及待发送的额外BG HOA信道的数目(nBGa)及索引(i)(其在图3的实例中可共同地表示为背景信道信息43)(109)。
音频编码装置20也可调用背景选择单元48。背景选择单元48可基于背景信道信息43确定背景或环境HOA系数47(110)。音频编码装置20可进一步调用前景选择单元36,前景选择单元36可基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或相异分量的经重新排序的US[k]向量33'及经重新排序的V[k]向量35'(112)。
音频编码装置20可调用能量补偿单元38。能量补偿单元38可关于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA系数中的各种HOA系数而产生的能量损失(114),且借此产生经能量补偿的环境HOA系数47'。
音频编码装置20也可调用空间-时间内插单元50。空间-时间内插单元50可关于经重新排序的经变换的HOA系数33'/35'执行空间-时间内插以获得经内插的前景信号49'(其也可被称作“经内插的nFG信号49'”)及剩余前景方向信息53(其也可被称作“V[k]向量53”)(116)。音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景信道信息43关于剩余前景V[k]向量53执行系数减少以获得经缩减前景方向信息55(其也可被称作经缩减前景V[k]向量55)(118)。
音频编码装置20可接着调用量化单元52以按上文所描述的方式压缩经缩减前景V[k]向量55且产生经译码前景V[k]向量57(120)。
音频编码装置20也可调用音质音频译码器单元40。音质音频译码器单元40可对经能量补偿的环境HOA系数47'及经内插的nFG信号49'的每一向量进行音质译码以产生经编码环境HOA系数59及经编码nFG信号61。音频编码装置可接着调用位流产生单元42。位流产生单元42可基于经译码前景方向信息57、经译码环境HOA系数59、经译码nFG信号61及背景信道信息43产生位流21。
图5B为说明音频编码装置执行本发明中所描述的译码技术的示范性操作的流程图。图3的实例中所展示的音频编码装置20的位流产生单元42可表示经配置以执行本发明中所描述的技术的一实例单元。位流产生单元42可获得指示帧(其可表示为“第一帧”)是否为独立帧(其也可被称作“立即播出帧”)的一或多个位(302)。关于图7展示帧的实例。帧可包含一或多个输送信道的一部分。输送信道的所述部分可包含ChannelSideInfoData(根据ChannelSideInfoData语法表形成)以及某一有效负载(例如,图7的实例中的VVectorData字段156)。有效负载的其它实例可包含AddAmbientHOACoeffs字段。
当确定帧为独立帧时(“是”304),位流产生单元42可在位流21中指定指示独立性的一或多个位(306)。HOAIndependencyFlag语法元素可表示指示独立性的所述一或多个位。位流产生单元42也可在位流21中指定指示整个量化模式的位(308)。指示整个量化模式的位可包含bA语法元素、bB语法元素及uintC语法元素,其也可被称作整个NbitsQ字段。
位流产生单元42也可基于量化模式在位流21中指定向量量化信息或霍夫曼码簿信息(310)。向量量化信息可包含CodebkIdx语法元素,而霍夫曼码簿信息可包含CbFlag语法元素。位流产生单元42可在量化模式的值等于四时指定向量量化信息。位流产生单元42可在量化模式等于5时既不指定向量量化信息也不指定霍夫曼码簿信息。位流产生单元42可在量化模式大于或等于六时指定无任何预测信息(例如,PFlag语法元素)的霍夫曼码簿信息。在此上下文中,位流产生单元42可能并不指定PFlag语法元素,这是因为当帧为独立帧时并不启用预测。就此而言,位流产生单元42可按以下各者中的一或多者的形式指定额外参考信息:向量量化信息、霍夫曼码簿信息、预测信息及量化模式信息。
当帧为独立帧时(“是”304),位流产生单元42可在位流21中指定指示无独立性的一或多个位(312)。当HOAIndependencyFlag经设定为值(例如)零时,HOAIndependencyFlag语法元素可表示指示无独立性的一或多个位。位流产生单元42可接着确定帧的量化模式是否与时间上的前一帧(其可表示为“第二帧”)的量化模式相同(314)。尽管关于前一帧加以描述,但可关于时间上的后续帧执行所述技术。
当量化模式相同时(“是”316),位流产生单元42可在位流21中指定量化模式的一部分(318)。量化模式的所述部分可包含bA语法元素及bB语法元素,但不包含uintC语法元素。位流产生单元42可将bA语法元素及bB语法元素中的每一者的值设定为0,借此用信号通知位流21中的量化模式字段(即,作为一实例,NbitsQ字段)并不包含uintC语法元素。零值bA语法元素及bB语法元素的此用信号通知也指示将来自前一帧的NbitsQ值、PFlag值、CbFlag值、CodebkIdx值及NumVecIndices值用作用于当前帧的相同语法元素的对应值。
当量化模式并不相同时(“否”316),位流产生单元42可在位流21中指定指示整个量化模式的一或多个位(320)。即,位流产生单元42可在位流21中指定bA、bB及uintC语法元素。位流产生单元42也可基于量化模式指定量化信息(322)。此量化信息可包含关于量化的任何信息,例如向量量化信息、预测信息及霍夫曼码簿信息。作为一实例,向量量化信息可包含CodebkIdx语法元素及NumVecIndices语法元素中的一者或两者。作为一实例,预测信息可包含PFlag语法元素。作为一实例,霍夫曼码簿信息可包含CbFlag语法元素。
图6A为说明音频解码装置(例如,图4中所展示的音频解码装置24)执行本发明中所描述的技术的各种方面的示范性操作的流程图。最初,音频解码装置24可接收位流21(130)。在接收到位流后,音频解码装置24可调用提取单元72。出于论述的目的假定位流21指示将执行基于向量的重建构,提取单元72可剖析位流以检索上文所提及的信息,将所述信息传递到基于向量的重建构单元92。
换句话说,提取单元72可按上文所描述的方式从位流21中提取经译码前景方向信息57(再次,其也可被称作经译码前景V[k]向量57)、经译码环境HOA系数59及经译码前景信号(其也可被称作经译码前景nFG信号59或经译码前景音频对象59)(132)。
音频解码装置24可进一步调用解量化单元74。解量化单元74可对经译码前景方向信息57进行熵解码及解量化以获得经缩减前景方向信息55k(136)。音频解码装置24也可调用音质解码单元80。音质音频解码单元80可解码经编码环境HOA系数59及经编码前景信号61以获得经能量补偿的环境HOA系数47'及经内插的前景信号49'(138)。音质解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
音频解码装置24接下来可调用空间-时间内插单元76。空间-时间内插单元76可接收经重新排序的前景方向信息55k'且关于经缩减前景方向信息55k/55k-1执行空间-时间内插以产生经内插的前景方向信息55k”(140)。空间-时间内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可接收或以其它方式获得指示经能量补偿的环境HOA系数47'何时处于转变中的语法元素(例如,AmbCoeffTransition语法元素)(例如,从提取单元72)。淡化单元770可基于转变语法元素及维持的转变状态信息使经能量补偿的环境HOA系数47'淡入或淡出,从而将经调整的环境HOA系数47”输出到HOA系数制订单元82。淡化单元770也可基于语法元素及维持的转变状态信息,及使经内插的前景V[k]向量55k”中的对应一或多个元素淡出或淡入,从而将经调整的前景V[k]向量55k”'输出到前景制订单元78(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'乘以经调整的前景方向信息55k”'的矩阵乘法以获得前景HOA系数65(144)。音频解码装置24也可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65加到经调整的环境HOA系数47”以便获得HOA系数11'(146)。
图6B为说明音频解码装置执行本发明中所描述的译码技术的示范性操作的流程图。图4的实例中所展示的音频编码装置24的提取单元72可表示经配置以执行本发明中所描述的技术的一实例单元。位流提取单元72可获得指示帧(其可表示为“第一帧”)是否为独立帧(其也可被称作“立即播出帧”)的一或多个位(352)。
当确定帧为独立帧时(“是”354),提取单元72可从位流21获得指示整个量化模式的位(356)。此外,指示整个量化模式的位可包含bA语法元素、bB语法元素及uintC语法元素,其也可被称作整个NbitsQ字段。
提取单元72也可基于量化模式从位流21获得向量量化信息/霍夫曼码簿信息(358)。即,当量化模式的值等于四时,提取产生单元72可获得向量量化信息。当量化模式等于5时,提取单元72可能既不获得向量量化信息也不获得霍夫曼码簿信息。当量化模式大于或等于六时,提取单元72可获得无任何预测信息(例如,PFlag语法元素)的霍夫曼码簿信息。在此上下文中,提取单元72可能并不获得PFlag语法元素,这是因为当帧为独立帧时并不启用预测。因此,当帧为独立帧时,提取单元72可确定隐含地指示预测信息(即,所述实例中的PFlag语法元素)的所述一或多个位的值,且将指示预测信息的所述一或多个位设定为(例如)值零(360)。
当帧为独立帧时(“是”354),位流提取单元72可获得指示帧的量化模式是否与时间上的前一帧(其可表示为“第二帧”)的量化模式相同的位(362)。此外,尽管关于前一帧加以描述,但可关于时间上的后续帧执行所述技术。
当量化模式相同时(“是”364),提取单元72可从位流21中获得量化模式的一部分(366)。量化模式的所述部分可包含bA语法元素及bB语法元素,但不包含uintC语法元素。提取单元42也可将用于当前帧的NbitsQ值、PFlag值、CbFlag值及CodebkIdx值的值设定为与针对前一帧设定的NbitsQ值、PFlag值、CbFlag值及CodebkIdx值的值相同(368)。
当量化模式并不相同时(“否”364),提取单元72可从位流21中获得指示整个量化模式的一或多个位。即,提取单元72从位流21中获得bA、bB及uintC语法元素(370)。提取单元72也可基于量化模式获得指示量化信息的一或多个位(372)。如上文关于图5B所提及,量化信息可包含关于量化的任何信息,例如向量量化信息、预测信息及霍夫曼码簿信息。作为一实例,向量量化信息可包含CodebkIdx语法元素及NumVecIndices语法元素中的一者或两者。作为一实例,预测信息可包含PFlag语法元素。作为一实例,霍夫曼码簿信息可包含CbFlag语法元素。
图7为说明根据本发明中所描述的技术的各种方面指定的实例帧249S及249T的图。如图7的实例中所展示,帧249S包含ChannelSideInfoData(CSID)字段154A到154D、HOAGainCorrectionData(HOAGCD)字段、VVectorData字段156A及156B以及HOAPredictionInfo字段。CSID字段154A包含经设定为值10的uintC语法元素(“uintC”)267、经设定为值1的bb语法元素(“bB”)266,及经设定为值0的bA语法元素(“bA”)265,以及经设定为值01的ChannelType语法元素(“ChannelType”)269。
uintC语法元素267、bb语法元素266及aa语法元素265一起形成NbitsQ语法元素261,其中aa语法元素265形成NbitsQ语法元素261的最高有效位,bb语法元素266形成次高有效位且uintC语法元素267形成最低有效位。如上文所提及,NbitsQ语法元素261可表示指示用以编码高阶立体混响音频数据的量化模式(例如,向量量化模式、无霍夫曼译码的纯量量化模式,及具有霍夫曼译码的纯量量化模式中的一者)的一或多个位。
CSID语法元素154A也包含上文在各种语法表中参考的PFlag语法元素300及CbFlag语法元素302。PFlag语法元素300可表示指示第一帧249S的V-向量的经译码元素是否是从第二帧(例如,在此实例中,为前一帧)的V-向量的经译码元素预测的一或多个位。CbFlag语法元素302可表示指示霍夫曼码簿信息的一或多个位,所述霍夫曼码簿信息可识别使用霍夫曼码簿(或,换句话说,表格)中的哪一者编码V-向量的元素。
CSID字段154B包含bB语法元素266及bA语法元素265以及ChannelType语法元素269,在图7的实例中,前述各语法元素中的每一者经设定为对应值0及0及01。CSID字段154C及154D中的每一者包含具有值3(112)的ChannelType字段269。CSID字段154A到154D中的每一者对应于输送信道1、2、3及4中的相应输送信道。实际上,每一CSID字段154A到154D指示对应有效负载为基于方向的信号(当对应ChannelType等于零时)、基于向量的信号(当对应ChannelType等于一时)、额外环境HOA系数(当对应ChannelType等于二时)还是为空值(当ChannelType等于三时)。
在图7的实例中,帧249S包含两个基于向量的信号(在给定ChannelType语法元素269在CSID字段154A及154B中等于1的情况下)及两个空值(在给定ChannelType 269在CSID字段154C及154D中等于3的情况下)。此外,如通过PFlag语法元素300指示的音频编码装置20使用的预测经设定为一。此外,如通过PFlag语法元素300指示的预测是指指示关于经压缩空间分量v1到vn中的对应经压缩空间分量是否执行预测的预测模式指示。当PFlag语法元素300经设定为一时,音频编码装置20可使用通过采取以下情形的差进行的预测:对于纯量量化,来自前一帧的向量元素与当前帧的对应向量元素之间的差,或,对于向量量化,来自前一帧的权重与当前帧的对应权重之间的差。
音频编码装置20也确定帧249S中的第二输送信道的CSID字段154B的NbitsQ语法元素261的值与前一帧的第二输送信道的CSID字段154B的NbitsQ语法元素261的值相同。因此,音频编码装置20针对ba语法元素265及bb语法元素266中的每一者指定值零以用信号通知将前一帧中的第二输送信道的NbitsQ语法元素261的值重用于帧249S中的第二输送信道的NbitsQ语法元素261。因此,音频编码装置20可避免指定帧249S中的第二输送信道的uintC语法元素267。
当帧249S并非立即播出帧(其也可被称作“独立帧”)时,音频编码装置20可准许进行依赖于过去的信息(就V-向量元素的预测而言及就来自前一帧的uintC语法元素267的预测而言)的此时间预测。帧是否为立即播出帧可通过HOAIndependencyFlag语法元素860来指明。换句话说,HOAIndependencyFlag语法元素860可表示包括表示帧249S是否为可独立解码的帧(或,换句话说,立即播出帧)的位的语法元素。
与此对比,在图7的实例中,音频编码装置20可确定帧249T为立即播出帧。音频编码装置20可将用于帧249T的HOAIndependencyFlag语法元素860设定为一。因此,将帧2497指明为立即播出帧。音频编码装置20可接着停用时间(意谓,帧间)预测。因为时间预测经停用,所以音频编码装置20可能不需要针对帧249T中的第一输送信道的CSID字段154A指定PFlag语法元素300。实情为,音频编码装置20可通过用值一指定HOAIndependencyFlag860,隐含地用信号通知:对于帧249T中的第一输送信道的CSID字段154A,PFlag语法元素300具有值零。此外,因为针对帧249T停用时间预测,所以音频编码装置20针对Nbits字段261指定整个值(包含uintC语法元素267),甚至在前一帧中的第二输送信道的CSID 154B的Nbits字段261的值相同时也是如此。
音频解码装置24可接着根据指定用于ChannelSideInfoData(i)的语法的上述语法表操作以剖析帧249S及249T中的每一者。音频解码装置24可针对帧249S剖析用于HOAIndependencyFlag 860的单一位,且在给定HOAIndependencyFlag值并不等于一的情况下,跳过第一“if”语句(在状况1的情况下,给定:switch语句对经设定为值一的ChannelType语法元素269进行操作)。音频解码装置24可接着在“else”语句下剖析第一(即,在此实例中,i=1)输送信道的CSID字段154A。剖析CSID字段154A,音频解码装置24可剖析bA及bB语法元素265及266。
当bA及bB语法元素265及266的组合值等于零时,音频解码装置24确定预测用于CSID字段154A的NbitsQ字段261。在此情况下,bA及bB语法元素265及266具有组合值一。音频解码装置24基于组合值一确定预测并不用于CSID字段154A的NbitsQ字段261。基于并不使用预测的确定,音频解码装置24剖析来自CSID字段154A的uintC语法元素267且依据bA语法元素265、bB语法元素266及uintC语法元素267形成NbitsQ字段261。
基于此NbitsQ字段261,音频解码装置24确定是否执行向量量化(即,在所述实例中,NbitsQ==4)或是否执行纯量量化(即,在所述实例中,NbitsQ>=6)。在给定NbitsQ字段261指定二进制记法的0110或十进位记法的6的值的情况下,音频解码装置24确定执行纯量量化。音频解码装置24剖析来自CSID字段154A的与纯量量化相关的量化信息(即,在所述实例中,PFlag语法元素300及CbFlag语法元素302)。
音频解码装置24可针对帧249S的CSID字段154B重复类似过程,其例外之处在于:音频解码装置24确定预测用于NbitsQ字段261。换句话说,音频解码装置24与上文所描述情形相同般操作,其例外之处在于:音频解码装置24确定bA语法元素265及bB语法元素266的组合值等于零。因此,音频解码装置24确定用于帧249S的CSID字段154B的NbitsQ字段261与在前一帧的对应CSID字段中指定的情形相同。此外,音频解码装置24也可确定:当bA语法元素265及bB语法元素266的组合值等于零时,用于CSID字段154B的PFlag语法元素300、CbFlag语法元素302及CodebkIdx语法元素(在图7A的纯量量化实例中未展示)与在前一帧的对应CSID字段154B中指定的那些情形相同。
关于帧249T,音频解码装置24可剖析或以其它方式获得HOAIndependencyFlag语法元素860。音频解码装置24可确定:针对帧249T,HOAIndependencyFlag语法元素860具有值一。就此而言,音频解码装置24可确定实例帧249T为立即播出帧。音频解码装置24接下来可剖析或以其它方式获得ChannelType语法元素269。音频解码装置24可确定:帧249T的CSID字段154A的ChannelType语法元素269具有值一且执行ChannelSideInfoData(i)语法表中的switch语句以达成状况1。因为HOAIndependencyFlag语法元素860的值具有值一,所以音频解码装置24在状况1下进入第一if语句且剖析或以其它方式获得NbitsQ字段261。
基于NbitsQ字段261的值,音频解码装置24获得用于进行向量量化的CodebkIdx语法元素或获得CbFlag语法元素302(同时隐含地将PFlag语法元素300设定为零)。换句话说,音频解码装置24可隐含地将PFlag语法元素300设定为零,这是因为针对独立帧停用帧间预测。就此而言,音频解码装置24可响应于指示第一帧249T为独立帧的所述一或多个位860而设定预测信息300以指示与第一信道旁侧信息数据154A相关联的向量的经译码元素的值并非参考与前一帧的第二信道旁侧信息数据相关联的向量的值预测。在任何情况下,在给定NbitsQ字段261具有二进制记法的值0110(其在十进位记法中为6)的情况下,音频解码装置24剖析CbFlag语法元素302。
对于帧249T的CSID字段154B,音频解码装置24剖析或以其它方式获得ChannelType语法元素269,执行switch语句以达成状况1,且进入if语句(类似于帧249T的CSID字段154A)。然而,因为NbitsQ字段261的值为五,所以当执行非霍夫曼纯量量化以译码第二输送信道的V-向量元素时,当在CSID字段154B中未指定任何其它语法元素时,音频解码装置24退出if语句。
图8A及8B为各自说明根据本文所描述的技术的至少一位流的一或多个信道的实例帧的图。在图8A的实例中,位流808包含帧810A到810E,其各自可包含一或多个信道,且位流808可表示根据本文所描述的技术修改以便包含IPF的位流21的任何组合。帧810A到810E可包含于相应存取单元内且可替代地被称作“存取单元810A到810E”。
在所说明的实例中,立即播出帧(IPF)816包含独立帧810E以及来自先前帧810B、810C及810D的状态信息(在IPF 816中表示为状态信息812)。即,状态信息812可包含IPF816中表示的由状态机402从处理先前帧810B、810C及810D而维持的状态。可在IPF 816内使用位流808内的有效负载扩展编码状态信息812。状态信息812可补偿解码器启动延迟以在内部配置解码器状态以实现独立帧810E的正确解码。状态信息812可出于此原因而替代地且共同地被称作独立帧810E的“预滚”。在各种实例中,更多或更少帧可供解码器用以补偿解码器启动延迟,所述解码器启动延迟确定用于帧的状态信息812的量。独立帧810E为独立的,这是因为帧810E可独立解码。因此,帧810E可被称作“可独立解码帧810”。独立帧810E因此可构成位流808的流存取点。
状态信息812可进一步包含可在位流808开始时发送的HOAconfig语法元素。状态信息812可(例如)描述位流808位速率或可用于位流切换或位速率调适的其它信息。状态信息814的一部分可包含的内容的另一实例为HOAConfig语法元素。就此而言,IPF816可表示无状态帧,其可能并非呈扬声器具有过去的任何存储器的方式。换句话说,独立帧810E可表示无状态帧,其可经解码而不管任何先前状态(因为状态是依据状态信息812而提供)。
当选择帧810E为独立帧时,音频编码装置20可执行将帧810E从可依赖性地解码帧转变到可独立解码帧的过程。所述过程可涉及在帧中指定包含转变状态信息的状态信息812,所述状态信息使得能够在不参考位流的先前帧的情况下解码及重放帧的经编码音频数据的位流。
解码器(例如,解码器24)可在IPF 816处随机地存取位流808且,当解码状态信息812以初始化解码器状态及缓冲器(例如,解码器侧状态机402)时,解码独立帧810E以输出HOA系数的经压缩版本。状态信息812的实例可包含下表中所指定的语法元素:
解码器24可剖析来自状态信息812的前述语法元素以获得以下各者中的一或多者:呈NbitsQ语法元素形式的量化状态信息、呈PFlag语法元素形式的预测状态信息、呈CodebkIdx语法元素及NumVecIndices语法元素中的一者或两者形式的向量量化状态信息,及呈AmbCoeffTransitionState语法元素形式的转变状态信息。解码器24可用经剖析的状态信息812配置状态机402以使得能够独立地解码帧810E。在解码独立帧810E之后,解码器24可继续进行帧的常规解码。
根据本文所描述的技术,音频编码装置20可经配置以按不同于其它帧810的方式产生IPF 816的独立帧810E以准许在独立帧810E处立即播出及/或在相同内容的音频表示之间切换(所述表示在位速率及/或独立帧810E处的启用工具上不同)。更具体来说,位流产生单元42可使用状态机402维持状态信息812。位流产生单元42可产生独立帧810E以包含用以配置状态机402以用于一或多个环境HOA系数的状态信息812。位流产生单元42可进一步或替代地产生独立帧810E以按不同方式编码量化及/或预测信息以便(例如)相对于位流808的其它非IPF帧减小帧大小。此外,位流产生单元42可按状态机402的形式维持量化状态。另外,位流产生单元42可编码帧810A到810E的每一帧以包含指示帧是否为IPF的旗标或其它语法元素。所述语法元素在本发明中的别处可被称作IndependencyFlag或HOAIndependencyFlag。
就此而言,作为一实例,所述技术的各种方面可使得音频编码装置20的位流产生单元42能够在位流(例如,位流21)中指定:包含高阶立体混响系数(例如,以下各者中的一者:环境高阶立体混响系数47'、用于独立帧(例如,在图8A的实例中,独立帧810E)用于高阶立体混响系数47'的转变信息757(例如,作为状态信息812的部分)。独立帧810E可包含使得能够在不参考高阶立体混响系数47'的先前帧(例如,帧810A到810D)的情况下解码及立即重放独立帧的额外参考信息(其可指状态信息812)。虽然描述为立即或瞬时重放,但术语“立即”或“瞬时”是指几乎立即、随后或几乎瞬时重放且并非既定指“立即”或“瞬时”的文字定义。此外,术语的使用是出于采用贯穿各种标准(当前的及新兴的)使用的语言的目的。
图8B为说明根据本文中所描述的技术的至少一位流的一或多个信道的实例帧的图。位流450包含各自可包含一或多个信道的帧810A到810H。位流450可为图7的实例中所展示的位流21。位流450可实质上类似于位流808,其例外之处在于位流450并不包含IPF。因此,音频解码装置24维持状态信息,从而更新状态信息以确定如何解码当前帧k。音频解码装置24可利用来自配置814及帧810B到810D的状态信息。帧810E与IPF 816之间的差异为:帧810E并不包含前述状态信息,而IFP 816包含前述状态信息。
换句话说,音频编码装置20可在位流产生单元42内包含(例如)状态机402,其维持用于编码帧810A到810E中的每一者的状态信息,这是因为位流产生单元42可基于状态机402指定用于帧810A到810E中的每一者的语法元素。
音频解码装置24同样可在位流提取单元72内包含(例如)类似状态机402,其基于状态机402输出语法元素(所述语法元素中的一些语法元素未在位流21中明确地指定)。音频解码装置24的状态机402可按与音频编码装置20的状态机402的方式类似的方式操作。因此,音频解码装置24的状态机402可维持状态信息,从而基于配置814(及,在图8B的实例中,帧810B到810D的解码)更新状态信息。基于状态信息,位流提取单元72可基于由状态机402维持的状态信息提取帧810E。状态信息可提供数个隐含语法元素,音频编码装置20可在解码帧810E的各种输送信道时利用所述隐含语法元素。
可关于任何数目个不同上下文及音频生态系统执行前述技术。下文描述数个实例上下文,但所述技术应限于所述实例上下文。一实例音频生态系统可包含音频内容、影片工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频符尾(gameaudio stems)、游戏音频译码/呈现引擎,及递送系统。
影片工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。影片工作室可例如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于信道的音频内容(例如,呈2.0及5.1)。在任一状况下,译码引擎可基于一或多个编解码器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比数字Plus(Dolby Digital Plus)及DTS主音频)接收及编码基于信道的音频内容以供由递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频符尾。游戏音频译码/呈现引擎可译码音频符尾及或将音频符尾呈现成基于信道的音频内容以供由递送系统输出。可执行所述技术的另一实例上下文包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上俘获、HOA音频格式、装置上呈现、消费型音频、TV及附件,及汽车音频系统。
广播记录音频对象、专业音频系统及消费型装置上俘获皆可使用HOA音频格式译码其输出。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上呈现、消费型音频、TV及附件及汽车音频系统重放所述单一表示。换句话说,可在通用音频重放系统(即,与需要例如5.1、7.1等的特定配置的情形形成对比)(例如,音频重放系统16)处重放音频内容的单一表示。
可执行所述技术的上下文的其它实例包含可包含获取元件及重放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如,Eigen麦克风)、装置上环绕声俘获器及移动装置(例如,智能电话及平板计算机)。在一些实例中,有线及/或无线获取装置可经由有线及/或无线通信信道耦合到移动装置。
根据本发明的一或多个技术,移动装置可用以获取声场。举例来说,移动装置可经由有线及/或无线获取装置及/或装置上环绕声俘获器(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由重放元件中的一或多者重放。举例来说,移动装置的用户可记录(获取声场)现场事件(例如,集会、会议、比赛、音乐会等),且将记录译码成HOA系数。
移动装置也可利用重放元件中的一或多者来重放HOA经译码声场。举例来说,移动装置可解码HOA经译码声场,且将使得重放元件中的一或多者重新建立声场的信号输出到重放元件中的一或多者。作为一实例,移动装置可利用无线及/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒(sound bar)等)。作为另一实例,移动装置可利用衔接解决方案将信号输出到一或多个衔接台及/或一或多个衔接的扬声器(例如,智能汽车及/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机呈现将信号输出到一组头戴式耳机(例如)以建立实际的双耳声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放相同的3D声场。在一些实例中,移动装置可获取3D声场,将所述3D声场编码为HOA,且将经编码3D声场传输到一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于重放。
可执行所述技术的又一上下文包含可包含音频内容、游戏工作室、经译码音频内容、呈现引擎及递送系统的音频生态系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含HOA插件及/或可经配置以与一或多个游戏音频系统一起操作(例如,工作)的工具。在一些实例中,游戏工作室可输出支持HOA的新符尾格式。在任何状况下,游戏工作室可将经译码音频内容输出到呈现引擎,所述呈现引擎可呈现声场以供由递送系统重放。
也可关于示范性音频获取装置执行所述技术。举例来说,可关于可包含共同地经配置以记录3D声场的多个麦克风的Eigen麦克风执行所述技术。在一些实例中,Eigen麦克风的所述多个麦克风可位于具有大约4cm的半径的实质上球面球的表面上。在一些实例中,音频编码装置20可集成到Eigen麦克风中以便直接从麦克风输出位流21。
另一示范性音频获取上下文可包含可经配置以接收来自一或多个麦克风(例如,一或多个Eigen麦克风)的信号的制作车。制作车也可包含音频编码器,例如图3的音频编码器20。
在一些情况下,移动装置也可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以关于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置也可包含音频编码器,例如图3的音频编码器20。
加固型视频俘获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频俘获装置可附接到参与活动的用户的头盔。举例来说,加固型视频俘获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频俘获装置可俘获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话,等等)的3D声场。
也可关于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,Eigen麦克风可附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式,附件增强型移动装置可俘获3D声场的较高质量版本(与仅使用与附件增强型移动装置成一体式的声音俘获组件的情形相比较)。
下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频重放装置。根据本发明的一或多个技术,扬声器及/或声棒可布置于任何任意配置中,同时仍重放3D声场。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒及头戴式耳机重放装置的任何组合上呈现声场。
数个不同实例音频重放环境也可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,及具有耳挂式耳机重放环境的移动装置。
根据本发明的一或多个技术,可利用声场的单一通用表示来在前述重放环境中的任一者上呈现声场。另外,本发明的技术使得呈现器能够从通用表示呈现声场以供在不同于上文所描述的环境的重放环境上重放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器重放环境的恰当置放(例如,如果不可能置放右环绕扬声器),那么本发明的技术使得呈现器能够通过其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上达成重放。
此外,用户可在佩戴头戴式耳机时观看运动比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个Eigen麦克风置放于棒球场中及/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数传输到解码器,所述解码器可基于HOA系数重建构3D声场且将经重建构的3D声场输出到呈现器,所述呈现器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重建构的3D声场呈现成使得头戴式耳机输出运动比赛的3D声场的表示的信号。
在上文所描述的各种情况中的每一者中,应理解,音频编码装置20可执行方法或另外包括用以执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,数组编码实例中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器执行音频编码装置20已经配置以执行的方法。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或另外包括用以执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,数组编码实例中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器执行音频解码装置24已经配置以执行的方法。
借助于实例而非限制,此些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是针对非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。以上各者的组合也应包含于计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面,可在经配置用于编码及解码的专用硬件及/或软件模块内提供本文中所描述的功能性,或将本文中所描述的功能性并入于组合式编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,所述装置或设备包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元来实现。确切地说,如上文所描述,各种单元可与合适的软件及/或固件一起组合于编解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。
已描述所述技术的各种方面。所述技术的此些及其它方面在以下权利要求书的范围内。

Claims (65)

1.一种解码包含输送信道的位流的方法,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位,所述方法包括:
从所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧获得指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息;及
响应于所述一或多个位指示所述第一帧并非独立帧而获得用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
2.根据权利要求1所述的方法,其中指示所述经编码高阶立体混响音频数据的所述一或多个位包括指示表示球谐域中的正交空间轴线的向量的经译码元素的一或多个位。
3.根据权利要求2所述的方法,其中所述向量包括从所述高阶立体混响音频数据分解的V-向量。
4.根据权利要求2所述的方法,其中所述预测信息包括一或多个位,所述一或多个位指示在所述第一信道旁侧信息数据中指定的所述向量的所述经译码元素的值是否是从与所述第二信道旁侧信息数据相关联的所述向量的所述经译码元素的值所预测。
5.根据权利要求2所述的方法,其进一步包括响应于所述一或多个位指示所述第一帧为独立帧,设定所述预测信息以指示与所述第一信道旁侧信息数据相关联的所述向量的所述经译码元素的值并非是参考与所述第二信道旁侧信息数据相关联的所述向量的值所预测。
6.根据权利要求1所述的方法,其中所述额外参考信息包括指示量化模式的一或多个位,所述量化模式用以编码通过所述第一信道旁侧信息数据指定的所述高阶立体混响音频数据。
7.根据权利要求6所述的方法,其中指示所述量化模式的所述一或多个位包括指示未经霍夫曼译码的纯量量化模式的一或多个位。
8.根据权利要求6所述的方法,其中指示所述量化模式的所述一或多个位包括指示经霍夫曼译码的纯量量化模式的一或多个位。
9.根据权利要求6所述的方法,其中指示所述量化模式的所述一或多个位包括指示向量量化模式的一或多个位。
10.根据权利要求1所述的方法,其中所述额外参考信息包括用以编码所述高阶立体混响数据的霍夫曼码簿信息。
11.根据权利要求1所述的方法,其中所述额外参考信息包括用以编码所述高阶立体混响数据的向量量化码簿信息。
12.根据权利要求1所述的方法,其中所述额外参考信息包括在关于所述高阶立体混响数据执行向量量化时使用的向量的数目。
13.根据权利要求1所述的方法,其进一步包括响应于所述一或多个位指示所述第一帧并非独立帧而进行以下操作:
从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位;及
当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式。
14.根据权利要求1所述的方法,其进一步包括响应于所述一或多个位指示所述第一帧并非独立帧,从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位,
其中获得所述预测信息包括,当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述预测信息设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述预测模式。
15.根据权利要求10所述的方法,其进一步包括响应于所述一或多个位指示所述第一帧并非独立帧而进行以下操作:
从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位;及
当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述霍夫曼码簿信息设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式。
16.根据权利要求11所述的方法,其进一步包括响应于所述一或多个位指示所述第一帧并非独立帧而进行以下操作:
从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位;及
当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述向量量化码簿信息设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式。
17.根据权利要求1所述的方法,其中所述第二帧在时间上在所述第一帧之前。
18.一种音频解码装置,其经配置以解码包含输送信道的位流,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位,所述音频解码装置包括:
存储器,其经配置以存储所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧,及所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧;及
一或多个处理器,其经配置以:从所述第一帧获得指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述第二帧的情况下解码所述第一帧的额外参考信息;及响应于所述一或多个位指示所述第一帧并非独立帧而获得用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
19.根据权利要求18所述的音频解码装置,其中指示所述经编码高阶立体混响音频数据的所述一或多个位包括指示表示球谐域中的正交空间轴线的向量的经译码元素的一或多个位。
20.根据权利要求19所述的音频解码装置,其中所述向量包括从所述高阶立体混响音频数据分解的V-向量。
21.根据权利要求19所述的音频解码装置,其中所述预测信息包括一或多个位,所述一或多个位指示在所述第一信道旁侧信息数据中指定的所述向量的所述经译码元素的值是否是从与所述第二信道旁侧信息数据相关联的所述向量的所述经译码元素的值所预测。
22.根据权利要求19所述的音频解码装置,其中所述一或多个处理器经进一步配置以响应于所述一或多个位指示所述第一帧为独立帧,设定所述预测信息以指示与所述第一信道旁侧信息数据相关联的所述向量的所述经译码元素的值并非是参考与所述第二信道旁侧信息数据相关联的所述向量的值所预测。
23.根据权利要求18所述的音频解码装置,其中所述额外参考信息包括指示量化模式的一或多个位,所述量化模式用以编码通过所述第一信道旁侧信息数据指定的所述高阶立体混响音频数据。
24.根据权利要求23所述的音频解码装置,其中指示所述量化模式的所述一或多个位包括指示未经霍夫曼译码的纯量量化模式的一或多个位。
25.根据权利要求23所述的音频解码装置,其中指示所述量化模式的所述一或多个位包括指示经霍夫曼译码的纯量量化模式的一或多个位。
26.根据权利要求23所述的音频解码装置,其中指示所述量化模式的所述一或多个位包括指示向量量化模式的一或多个位。
27.根据权利要求18所述的音频解码装置,其中所述额外参考信息包括用以编码所述高阶立体混响数据的霍夫曼码簿信息。
28.根据权利要求18所述的音频解码装置,其中所述额外参考信息包括用以编码所述高阶立体混响数据的向量量化码簿信息。
29.根据权利要求18所述的音频解码装置,其中所述额外参考信息包括在关于所述高阶立体混响数据执行向量量化时使用的向量的数目。
30.根据权利要求18所述的音频解码装置,其中所述一或多个处理器经进一步配置以:响应于所述一或多个位指示所述第一帧并非独立帧,从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位;及当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式。
31.根据权利要求18所述的音频解码装置,其中所述一或多个处理器经进一步配置以:响应于所述一或多个位指示所述第一帧并非独立帧,从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位;及当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述预测信息设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述预测模式。
32.根据权利要求27所述的音频解码装置,其中所述一或多个处理器经进一步配置以:响应于所述一或多个位指示所述第一帧并非独立帧,从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位;及当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述霍夫曼码簿信息设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式。
33.根据权利要求28所述的音频解码装置,其中所述一或多个处理器经进一步配置以:响应于所述一或多个位指示所述第一帧并非独立帧,从所述输送信道的所述第一信道旁侧信息数据获得指示用以编码所述高阶立体混响音频数据的量化模式的最高有效位及次高有效位;及当所述最高有效位及所述次高有效位的组合等于零时,将在所述第一信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述向量量化码簿信息设定为等于在所述第二信道旁侧信息数据中指定的用以编码所述高阶立体混响数据的所述量化模式。
34.根据权利要求18所述的音频解码装置,其中所述第二帧在时间上在所述第一帧之前。
35.一种经配置以解码位流的音频解码装置,所述音频解码装置包括:
用于存储包含第一帧的所述位流的装置,所述第一帧包括表示球谐域中的正交空间轴线的向量;及
用于从所述位流的第一帧获得指示所述第一帧是否为独立帧的一或多个位的装置,所述独立帧包含使得能够在不参考所述位流的第二帧的情况下解码所述向量的向量量化信息。
36.根据权利要求35所述的音频解码装置,其进一步包括用于在所述一或多个位指示所述第一帧为独立帧时从所述位流获得所述向量量化信息的装置。
37.根据权利要求36所述的音频解码装置,其中所述向量量化信息并不包含指示是否使用经预测的向量量化将所述向量量化的预测信息。
38.根据权利要求36所述的音频解码装置,其进一步包括用于在所述一或多个位指示所述第一帧为独立帧时设定预测信息以指示并不关于所述向量执行经预测的向量解量化的装置。
39.根据权利要求35所述的音频解码装置,其进一步包括用于在所述一或多个位指示所述第一帧并非独立帧时从所述向量量化信息获得预测信息的装置,所述预测信息指示是否使用经预测的向量量化将所述向量量化。
40.根据权利要求35所述的音频解码装置,其进一步包括:
用于在所述一或多个位指示所述第一帧并非独立帧时从所述向量量化信息获得预测信息的装置,所述预测信息指示是否使用经预测的向量量化将所述向量量化;及
用于在所述预测信息指示使用经预测的向量量化将所述向量量化时关于所述向量执行经预测的向量解量化的装置。
41.根据权利要求35所述的音频解码装置,其进一步包括用于从所述向量量化信息获得码簿信息的装置,所述码簿信息指示用以将所述向量向量量化的码簿。
42.根据权利要求35所述的音频解码装置,其进一步包括:
用于从所述向量量化信息获得码簿信息的装置,所述码簿信息指示用以将所述向量向量量化的码簿;及
用于使用通过所述码簿信息指示的所述码簿关于所述向量执行向量量化的装置。
43.一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器进行以下操作:
从位流的包含输送信道的第一信道旁侧信息数据的第一帧获得指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息;及
响应于所述一或多个位指示所述第一帧并非独立帧而获得用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
44.一种编码高阶环境系数以获得包含输送信道的位流的方法,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位,所述方法包括:
在所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧中指定指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息;及
响应于所述一或多个位指示所述第一帧并非独立帧而指定用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
45.根据权利要求44所述的方法,其中指示所述经编码高阶立体混响音频数据的所述一或多个位包括指示表示球谐域中的正交空间轴线的向量的经译码元素的一或多个位。
46.根据权利要求45所述的方法,其中所述向量包括从所述高阶立体混响音频数据分解的V-向量。
47.根据权利要求45所述的方法,其中所述预测信息包括一或多个位,所述一或多个位指示在所述第一信道旁侧信息数据中指定的所述向量的所述经译码元素的值是否是从在所述第二信道旁侧信息数据中指定的所述向量的所述经译码元素的值所预测。
48.根据权利要求45所述的方法,其进一步包括响应于所述一或多个位指示所述第一帧为独立帧,设定:所述第一信道旁侧信息数据的所述向量的所述经译码元素的值并非是参考所述第二信道旁侧信息数据的所述向量的所述经译码元素的值所预测。
49.根据权利要求44所述的方法,其中所述额外参考信息包括指示通过所述第一信道旁侧信息数据指定的用以编码所述高阶立体混响音频数据的量化模式的一或多个位,指示所述量化模式的所述一或多个位包括以下各者中的一者:1)指示未经霍夫曼译码的纯量量化模式的一或多个位、2)指示经霍夫曼译码的纯量量化模式的一或多个位,或3)指示向量量化模式的一或多个位。
50.根据权利要求44所述的方法,其中所述额外参考信息包括以下各者中的一者:1)用以编码所述高阶立体混响数据的霍夫曼码簿信息,或2)用以编码所述高阶立体混响数据的向量量化信息。
51.根据权利要求44所述的方法,其中所述额外参考信息包括在关于所述高阶立体混响数据执行向量量化时使用的向量的数目。
52.一种音频编码装置,其经配置以编码高阶环境系数以获得包含输送信道的位流,所述输送信道指定指示经编码高阶立体混响音频数据的一或多个位,所述音频编码装置包括:
存储器,其经配置以存储所述位流;及
一或多个处理器,其经配置以:在所述位流的包含所述输送信道的第一信道旁侧信息数据的第一帧中指定指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息;及响应于所述一或多个位指示所述第一帧并非独立帧而指定用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
53.根据权利要求52所述的音频编码装置,其中指示所述经编码高阶立体混响音频数据的所述一或多个位包括指示表示球谐域中的正交空间轴线的向量的经译码元素的一或多个位。
54.根据权利要求53所述的音频编码装置,其中所述向量包括从所述高阶立体混响音频数据分解的V-向量。
55.根据权利要求53所述的音频编码装置,其中所述预测信息包括一或多个位,所述一或多个位指示在所述第一信道旁侧信息数据中指定的所述向量的所述经译码元素的值是否是从在所述第二信道旁侧信息数据中指定的所述向量的所述经译码元素的值所预测。
56.根据权利要求53所述的音频编码装置,其中所述一或多个处理器经进一步配置以响应于所述一或多个位指示所述第一帧为独立帧,设定:所述第一信道旁侧信息数据的所述向量的所述经译码元素的值并非是参考所述第二信道旁侧信息数据的所述向量的所述经译码元素的值所预测。
57.根据权利要求52所述的音频编码装置,其中所述额外参考信息包括指示通过所述第一信道旁侧信息数据指定的用以编码所述高阶立体混响音频数据的量化模式的一或多个位,指示所述量化模式的所述一或多个位包括以下各者中的一者:1)指示未经霍夫曼译码的纯量量化模式的一或多个位、2)指示经霍夫曼译码的纯量量化模式的一或多个位,或3)指示向量量化模式的一或多个位。
58.根据权利要求52所述的音频编码装置,其中所述额外参考信息包括以下各者中的一者:1)用以编码所述高阶立体混响数据的霍夫曼码簿信息,或2)用以编码所述高阶立体混响数据的向量量化信息。
59.根据权利要求52所述的音频编码装置,其中所述额外参考信息包括在关于所述高阶立体混响数据执行向量量化时使用的向量的数目。
60.一种音频编码装置,其经配置以编码高阶环境音频数据以获得位流,所述音频编码装置包括:
用于存储包含第一帧的所述位流的装置,所述第一帧包括表示球谐域中的正交空间轴线的向量;及
用于从所述位流的所述第一帧获得指示所述第一帧是否为独立帧的一或多个位的装置,所述独立帧包含使得能够在不参考所述位流的第二帧的情况下解码所述向量的向量量化信息。
61.根据权利要求60所述的音频编码装置,其进一步包括用于在所述一或多个位指示所述第一帧为独立帧时从所述位流指定所述向量量化信息的装置。
62.根据权利要求61所述的音频编码装置,其中所述向量量化信息并不包含指示是否使用经预测的向量量化将向量量化的预测信息。
63.根据权利要求61所述的音频编码装置,其进一步包括用于在所述一或多个位指示所述第一帧为独立帧时设定预测信息以指示并不关于所述向量执行经预测的向量解量化的装置。
64.根据权利要求60所述的音频编码装置,其进一步包括用于在所述一或多个位指示所述第一帧并非独立帧时设定用于所述向量量化信息的预测信息的装置,所述预测信息指示是否使用经预测的向量量化将所述向量量化。
65.一种非暂时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在经执行时使得一或多个处理器进行以下操作:
在位流的包含输送信道的第一信道旁侧信息数据的第一帧中指定指示所述第一帧是否为独立帧的一或多个位,所述独立帧包含使得能够在不参考所述位流的包含所述输送信道的第二信道旁侧信息数据的第二帧的情况下解码所述第一帧的额外参考信息;及
响应于所述一或多个位指示所述第一帧并非独立帧而指定用于所述输送信道的所述第一信道旁侧信息数据的预测信息,所述预测信息用以参考所述输送信道的所述第二信道旁侧信息数据解码所述输送信道的所述第一信道旁侧信息数据。
CN201580005153.8A 2014-01-30 2015-01-30 译码环境高阶立体混响系数的独立帧 Active CN106415714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911044211.4A CN110827840B (zh) 2014-01-30 2015-01-30 译码环境高阶立体混响系数的独立帧

Applications Claiming Priority (37)

Application Number Priority Date Filing Date Title
US201461933731P 2014-01-30 2014-01-30
US201461933714P 2014-01-30 2014-01-30
US201461933706P 2014-01-30 2014-01-30
US61/933,714 2014-01-30
US61/933,731 2014-01-30
US61/933,706 2014-01-30
US201461949591P 2014-03-07 2014-03-07
US201461949583P 2014-03-07 2014-03-07
US61/949,583 2014-03-07
US61/949,591 2014-03-07
US201461994794P 2014-05-16 2014-05-16
US61/994,794 2014-05-16
US201462004128P 2014-05-28 2014-05-28
US201462004147P 2014-05-28 2014-05-28
US201462004067P 2014-05-28 2014-05-28
US62/004,067 2014-05-28
US62/004,128 2014-05-28
US62/004,147 2014-05-28
US201462019663P 2014-07-01 2014-07-01
US62/019,663 2014-07-01
US201462027702P 2014-07-22 2014-07-22
US62/027,702 2014-07-22
US201462028282P 2014-07-23 2014-07-23
US62/028,282 2014-07-23
US201462029173P 2014-07-25 2014-07-25
US62/029,173 2014-07-25
US201462032440P 2014-08-01 2014-08-01
US62/032,440 2014-08-01
US201462056286P 2014-09-26 2014-09-26
US201462056248P 2014-09-26 2014-09-26
US62/056,286 2014-09-26
US62/056,248 2014-09-26
US201562102243P 2015-01-12 2015-01-12
US62/102,243 2015-01-12
US14/609,208 2015-01-29
US14/609,208 US9502045B2 (en) 2014-01-30 2015-01-29 Coding independent frames of ambient higher-order ambisonic coefficients
PCT/US2015/013811 WO2015116949A2 (en) 2014-01-30 2015-01-30 Coding independent frames of ambient higher-order ambisonic coefficients

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201911044211.4A Division CN110827840B (zh) 2014-01-30 2015-01-30 译码环境高阶立体混响系数的独立帧

Publications (2)

Publication Number Publication Date
CN106415714A CN106415714A (zh) 2017-02-15
CN106415714B true CN106415714B (zh) 2019-11-26

Family

ID=53679595

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201911044211.4A Active CN110827840B (zh) 2014-01-30 2015-01-30 译码环境高阶立体混响系数的独立帧
CN202010075175.4A Active CN111383645B (zh) 2014-01-30 2015-01-30 指示用于译码向量的帧参数可重用性
CN201580005153.8A Active CN106415714B (zh) 2014-01-30 2015-01-30 译码环境高阶立体混响系数的独立帧
CN201580005068.1A Active CN105917408B (zh) 2014-01-30 2015-01-30 指示用于译码向量的帧参数可重用性

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201911044211.4A Active CN110827840B (zh) 2014-01-30 2015-01-30 译码环境高阶立体混响系数的独立帧
CN202010075175.4A Active CN111383645B (zh) 2014-01-30 2015-01-30 指示用于译码向量的帧参数可重用性

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580005068.1A Active CN105917408B (zh) 2014-01-30 2015-01-30 指示用于译码向量的帧参数可重用性

Country Status (19)

Country Link
US (6) US9502045B2 (zh)
EP (2) EP3100265B1 (zh)
JP (5) JP6208373B2 (zh)
KR (3) KR101798811B1 (zh)
CN (4) CN110827840B (zh)
AU (1) AU2015210791B2 (zh)
BR (2) BR112016017589B1 (zh)
CA (2) CA2933901C (zh)
CL (1) CL2016001898A1 (zh)
ES (1) ES2922451T3 (zh)
HK (1) HK1224073A1 (zh)
MX (1) MX350783B (zh)
MY (1) MY176805A (zh)
PH (1) PH12016501506B1 (zh)
RU (1) RU2689427C2 (zh)
SG (1) SG11201604624TA (zh)
TW (3) TWI595479B (zh)
WO (2) WO2015116949A2 (zh)
ZA (1) ZA201605973B (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9667959B2 (en) 2013-03-29 2017-05-30 Qualcomm Incorporated RTP payload format designs
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
KR102428794B1 (ko) 2014-03-21 2022-08-04 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9736606B2 (en) 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US20160093308A1 (en) * 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
UA123399C2 (uk) * 2015-10-08 2021-03-31 Долбі Інтернешнл Аб Багаторівневе кодування стиснених представлень звуку або звукового поля
US10249312B2 (en) * 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
CN108140392B (zh) * 2015-10-08 2023-04-18 杜比国际公司 用于压缩声音或声场表示的分层编解码
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
US10108359B2 (en) * 2016-10-20 2018-10-23 Avago Technologies General Ip (Singapore) Pte. Ltd. Method and system for efficient cache buffering in a system having parity arms to enable hardware acceleration
US10891962B2 (en) 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
JP7055595B2 (ja) * 2017-03-29 2022-04-18 古河機械金属株式会社 Iii族窒化物半導体基板、及び、iii族窒化物半導体基板の製造方法
US20180338212A1 (en) * 2017-05-18 2018-11-22 Qualcomm Incorporated Layered intermediate compression for higher order ambisonic audio data
US10075802B1 (en) 2017-08-08 2018-09-11 Qualcomm Incorporated Bitrate allocation for higher order ambisonic audio data
US11070831B2 (en) * 2017-11-30 2021-07-20 Lg Electronics Inc. Method and device for processing video signal
US10999693B2 (en) 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
CN109101315B (zh) * 2018-07-04 2021-11-19 上海理工大学 基于包簇框架的云数据中心资源分配方法
DE112019004193T5 (de) * 2018-08-21 2021-07-15 Sony Corporation Audiowiedergabevorrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm
CN112740325B (zh) 2018-08-21 2024-04-16 杜比国际公司 即时播放帧(ipf)的生成、传输及处理的方法、设备及系统
GB2577698A (en) * 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
CA3122164C (en) 2018-12-07 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using diffuse compensation
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters
CN116348951A (zh) * 2020-07-30 2023-06-27 弗劳恩霍夫应用研究促进协会 用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序
CN111915533B (zh) * 2020-08-10 2023-12-01 上海金桥信息股份有限公司 一种基于低动态范围的高精图像信息提取方法
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
CN115346537A (zh) * 2021-05-14 2022-11-15 华为技术有限公司 一种音频编码、解码方法及装置

Family Cites Families (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1159034B (it) 1983-06-10 1987-02-25 Cselt Centro Studi Lab Telecom Sintetizzatore vocale
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
EP0520068B1 (en) 1991-01-08 1996-05-15 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3849210B2 (ja) 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
US5821887A (en) 1996-11-12 1998-10-13 Intel Corporation Method and apparatus for decoding variable length codes
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
AUPP272698A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Soundfield playback from a single speaker system
EP1018840A3 (en) 1998-12-08 2005-12-21 Canon Kabushiki Kaisha Digital receiving apparatus and method
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US20020049586A1 (en) 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
JP2002094989A (ja) 2000-09-14 2002-03-29 Pioneer Electronic Corp ビデオ信号符号化装置及びビデオ信号符号化方法
US20020169735A1 (en) 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
GB2379147B (en) 2001-04-18 2003-10-22 Univ York Sound processing
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
US7262770B2 (en) 2002-03-21 2007-08-28 Microsoft Corporation Graphics image rendering with radiance self-transfer for low-frequency lighting environments
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
ATE543179T1 (de) 2002-09-04 2012-02-15 Microsoft Corp Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus
FR2844894B1 (fr) 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
US6961696B2 (en) * 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US7920709B1 (en) 2003-03-25 2011-04-05 Robert Hickling Vector sound-intensity probes operating in a half-space
JP2005086486A (ja) 2003-09-09 2005-03-31 Alpine Electronics Inc オーディオ装置およびオーディオ処理方法
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
KR100556911B1 (ko) * 2003-12-05 2006-03-03 엘지전자 주식회사 무선 동영상 스트리밍 서비스를 위한 동영상 데이터의 구조
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
FR2880755A1 (fr) 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation
KR100636229B1 (ko) * 2005-01-14 2006-10-19 학교법인 성균관대학 신축형 부호화를 위한 적응적 엔트로피 부호화 및 복호화방법과 그 장치
US7271747B2 (en) 2005-05-10 2007-09-18 Rice University Method and apparatus for distributed compressed sensing
ATE378793T1 (de) 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
US8510105B2 (en) 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
WO2007048900A1 (fr) 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US20080004729A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
DE102006053919A1 (de) 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
US7663623B2 (en) 2006-12-18 2010-02-16 Microsoft Corporation Spherical harmonics scaling
JP2008227946A (ja) * 2007-03-13 2008-09-25 Toshiba Corp 画像復号装置
US9015051B2 (en) 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
WO2008127536A2 (en) * 2007-04-12 2008-10-23 Thomson Licensing Methods and apparatus for video usability information (vui) for scalable video coding (svc)
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
JP5419714B2 (ja) 2008-01-16 2014-02-19 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
RU2565008C2 (ru) 2008-03-10 2015-10-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал
US8219409B2 (en) 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
EP2287836B1 (en) 2008-05-30 2014-10-15 Panasonic Intellectual Property Corporation of America Encoder and encoding method
CN102089634B (zh) 2008-07-08 2012-11-21 布鲁尔及凯尔声音及振动测量公司 重建声学场
EP2169670B1 (en) * 2008-09-25 2016-07-20 LG Electronics Inc. An apparatus for processing an audio signal and method thereof
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
JP5697301B2 (ja) 2008-10-01 2015-04-08 株式会社Nttドコモ 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム
US8207890B2 (en) 2008-10-08 2012-06-26 Qualcomm Atheros, Inc. Providing ephemeris data and clock corrections to a satellite navigation system receiver
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
FR2938688A1 (fr) 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
EP2374124B1 (fr) 2008-12-15 2013-05-29 France Telecom Codage perfectionne de signaux audionumériques multicanaux
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
GB2476747B (en) 2009-02-04 2011-12-21 Richard Furse Sound system
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
GB0906269D0 (en) 2009-04-09 2009-05-20 Ntnu Technology Transfer As Optimal modal beamformer for sensor arrays
WO2011022027A2 (en) 2009-05-08 2011-02-24 University Of Utah Research Foundation Annular thermoacoustic energy converter
CN102227696B (zh) 2009-05-21 2014-09-24 松下电器产业株式会社 触感处理装置
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
WO2011041834A1 (en) 2009-10-07 2011-04-14 The University Of Sydney Reconstruction of a recorded sound field
WO2011044898A1 (en) * 2009-10-15 2011-04-21 Widex A/S Hearing aid with audio codec and method
PL2491555T3 (pl) * 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
EP2510515B1 (en) 2009-12-07 2014-03-19 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
CN102104452B (zh) 2009-12-22 2013-09-11 华为技术有限公司 信道状态信息反馈方法、信道状态信息获得方法及设备
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
WO2011104463A1 (fr) 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
AU2011226143B9 (en) 2010-03-10 2015-03-19 Dolby International Ab Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
AU2011231565B2 (en) 2010-03-26 2014-08-28 Dolby International Ab Method and device for decoding an audio soundfield representation for audio playback
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US9357229B2 (en) * 2010-07-28 2016-05-31 Qualcomm Incorporated Coding motion vectors in video coding
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
WO2012025580A1 (en) 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
US9084049B2 (en) 2010-10-14 2015-07-14 Dolby Laboratories Licensing Corporation Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
KR101401775B1 (ko) 2010-11-10 2014-05-30 한국전자통신연구원 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
US20120163622A1 (en) 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
US8809663B2 (en) 2011-01-06 2014-08-19 Hank Risan Synthetic simulation of a media recording
US9008176B2 (en) * 2011-01-22 2015-04-14 Qualcomm Incorporated Combined reference picture list construction for video coding
US20120189052A1 (en) * 2011-01-24 2012-07-26 Qualcomm Incorporated Signaling quantization parameter changes for coded units in high efficiency video coding (hevc)
CA2833868C (en) 2011-04-21 2019-08-20 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9641951B2 (en) 2011-08-10 2017-05-02 The Johns Hopkins University System and method for fast binaural rendering of complex acoustic scenes
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2592845A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2592846A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
US9584912B2 (en) 2012-01-19 2017-02-28 Koninklijke Philips N.V. Spatial audio rendering and encoding
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
KR102201034B1 (ko) 2012-07-16 2021-01-11 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688065A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for avoiding unmasking of coding noise when mixing perceptually coded multi-channel audio signals
KR102201713B1 (ko) 2012-07-19 2021-01-12 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP5967571B2 (ja) 2012-07-26 2016-08-10 本田技研工業株式会社 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム
PL2915166T3 (pl) 2012-10-30 2019-04-30 Nokia Technologies Oy Sposób i urządzenie do kwantyzacji odpornego wektora
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9959875B2 (en) 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
BR112015021520B1 (pt) 2013-03-05 2021-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Aparelho e método para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio
US9197962B2 (en) 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
US9170386B2 (en) 2013-04-08 2015-10-27 Hon Hai Precision Industry Co., Ltd. Opto-electronic device assembly
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
CN105264595B (zh) * 2013-06-05 2019-10-01 杜比国际公司 用于编码和解码音频信号的方法和装置
US9830918B2 (en) 2013-07-05 2017-11-28 Dolby International Ab Enhanced soundfield coding using parametric component generation
TWI631553B (zh) 2013-07-19 2018-08-01 瑞典商杜比國際公司 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US20150264483A1 (en) 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10142642B2 (en) 2014-06-04 2018-11-27 Qualcomm Incorporated Block adaptive color-space conversion coding
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework

Also Published As

Publication number Publication date
RU2016130323A3 (zh) 2018-08-30
RU2689427C2 (ru) 2019-05-28
JP2017507351A (ja) 2017-03-16
TW201537561A (zh) 2015-10-01
PH12016501506A1 (en) 2017-02-06
BR112016017283B1 (pt) 2022-09-06
RU2016130323A (ru) 2018-03-02
KR20170081296A (ko) 2017-07-11
WO2015116949A2 (en) 2015-08-06
BR112016017589A8 (pt) 2021-06-29
TWI603322B (zh) 2017-10-21
CN110827840A (zh) 2020-02-21
TW201535354A (zh) 2015-09-16
JP6542295B2 (ja) 2019-07-10
AU2015210791A1 (en) 2016-06-23
AU2015210791B2 (en) 2018-09-27
TW201738880A (zh) 2017-11-01
JP2017201413A (ja) 2017-11-09
SG11201604624TA (en) 2016-08-30
US20170032798A1 (en) 2017-02-02
US9489955B2 (en) 2016-11-08
CN111383645B (zh) 2023-12-01
CA2933901A1 (en) 2015-08-06
HK1224073A1 (zh) 2017-08-11
US9502045B2 (en) 2016-11-22
US9747911B2 (en) 2017-08-29
CN111383645A (zh) 2020-07-07
BR112016017589B1 (pt) 2022-09-06
TWI618052B (zh) 2018-03-11
US20150213805A1 (en) 2015-07-30
JP6542296B2 (ja) 2019-07-10
US20170032799A1 (en) 2017-02-02
CN105917408B (zh) 2020-02-21
JP2017201412A (ja) 2017-11-09
US9653086B2 (en) 2017-05-16
WO2015116952A1 (en) 2015-08-06
US9747912B2 (en) 2017-08-29
KR101798811B1 (ko) 2017-11-16
PH12016501506B1 (en) 2017-02-06
JP2017509012A (ja) 2017-03-30
CN105917408A (zh) 2016-08-31
BR112016017283A2 (zh) 2017-08-08
CN110827840B (zh) 2023-09-12
JP6169805B2 (ja) 2017-07-26
TWI595479B (zh) 2017-08-11
US20170032797A1 (en) 2017-02-02
ES2922451T3 (es) 2022-09-15
CA2933901C (en) 2019-05-14
WO2015116949A3 (en) 2015-09-24
MX350783B (es) 2017-09-18
BR112016017589A2 (pt) 2017-08-08
CA2933734C (en) 2020-10-27
JP2017215590A (ja) 2017-12-07
EP3100264A2 (en) 2016-12-07
EP3100265B1 (en) 2022-06-22
KR20160114638A (ko) 2016-10-05
US20150213809A1 (en) 2015-07-30
US9754600B2 (en) 2017-09-05
CL2016001898A1 (es) 2017-03-10
CA2933734A1 (en) 2015-08-06
KR102095091B1 (ko) 2020-03-30
EP3100265A1 (en) 2016-12-07
CN106415714A (zh) 2017-02-15
US20170032794A1 (en) 2017-02-02
MX2016009785A (es) 2016-11-14
ZA201605973B (en) 2017-05-31
JP6208373B2 (ja) 2017-10-04
KR20160114637A (ko) 2016-10-05
MY176805A (en) 2020-08-21
JP6542297B2 (ja) 2019-07-10
KR101756612B1 (ko) 2017-07-10

Similar Documents

Publication Publication Date Title
CN106415714B (zh) 译码环境高阶立体混响系数的独立帧
CN106463121B (zh) 较高阶立体混响信号压缩
CN107004420B (zh) 高阶立体混响声(hoa)架构中于预测及非预测量化技术间切换
CN106104680B (zh) 将音频信道插入到声场的描述中
CN111312263B (zh) 用以获得多个高阶立体混响hoa系数的方法和装置
KR101723332B1 (ko) 회전된 고차 앰비소닉스의 바이노럴화
CN106471577B (zh) 在高阶立体混响系数中的标量与向量之间进行确定
JP6728065B2 (ja) 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法
CN105940447A (zh) 环境高阶立体混响系数的转变
CN106575506A (zh) 高阶立体混响音频数据的中间压缩
CN106663433A (zh) 减少高阶立体混响(hoa)背景信道之间的相关性
CN106796794A (zh) 环境高阶立体混响音频数据的归一化
CN106471576B (zh) 高阶立体混响系数的闭环量化
CN106471578A (zh) 较高阶立体混响信号之间的交叉淡化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant