CN108141690A - 在多个转变期间译码高阶立体混响系数 - Google Patents
在多个转变期间译码高阶立体混响系数 Download PDFInfo
- Publication number
- CN108141690A CN108141690A CN201680059641.1A CN201680059641A CN108141690A CN 108141690 A CN108141690 A CN 108141690A CN 201680059641 A CN201680059641 A CN 201680059641A CN 108141690 A CN108141690 A CN 108141690A
- Authority
- CN
- China
- Prior art keywords
- instruction
- frame
- prospect
- vector
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009466 transformation Effects 0.000 title claims abstract description 221
- 238000000844 transformation Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 357
- 230000005236 sound signal Effects 0.000 claims abstract description 186
- 241001269238 Data Species 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims description 54
- 230000008859 change Effects 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 12
- 238000005562 fading Methods 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 67
- 230000009467 reduction Effects 0.000 description 39
- 239000011159 matrix material Substances 0.000 description 33
- 238000004458 analytical method Methods 0.000 description 30
- 238000013139 quantization Methods 0.000 description 18
- 238000000605 extraction Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 238000000354 decomposition reaction Methods 0.000 description 13
- 238000009877 rendering Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000010612 desalination reaction Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 108091064702 1 family Proteins 0.000 description 1
- PEIBAWRLFPGPAT-UHFFFAOYSA-N 1-(diazomethyl)pyrene Chemical compound C1=C2C(C=[N+]=[N-])=CC=C(C=C3)C2=C2C3=CC=CC2=C1 PEIBAWRLFPGPAT-UHFFFAOYSA-N 0.000 description 1
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 208000015994 miscarriage Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一般来说,描述用于在多个转变期间译码高阶立体混响系数的技术。一种包括处理器和耦合到所述处理器的存储器的装置可经配置以执行所述技术。所述处理器可经配置以获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示。所述处理器还可经配置以基于所述多转变指示获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应HOA音频信号两者从所述HOA音频数据分解。所述存储器可经配置以存储所述向量。
Description
本申请案主张标题为“在多个转变期间译码高阶立体混响系数(CODING HIGHER-ORDER AMBISONIC COEFFICIENTS DURING MULTIPLE TRANSITIONS)”且在2015年10月14日申请的第62/241,665号美国临时申请案的权益,以上申请案的整个内容以引用的方式并入本文中。
技术领域
本发明涉及音频数据,且更具体来说,涉及高阶立体混响音频数据的压缩。
背景技术
高阶立体混响(HOA)信号(常常由多个球面谐波系数(SHC)或其它分层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以重放从SHC信号渲染的多声道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号也可促进向后兼容性,因为所述SHC信号可被渲染为众所周知的且被高度采用的多声道格式(例如,5.1音频声道格式或7.1音频声道格式)。因此,所述SHC表示可实现也适应向后兼容性的对声场的更好表示。
发明内容
一般来说,描述用于压缩高阶立体混响音频数据的技术。高阶立体混响音频数据可包括对应于具有大于一的阶数的球谐基础函数的至少一个球谐系数。
在一个方面,一种经配置以解码表示高阶立体混响(HOA)音频数据的位流的装置,所述装置包括一或多个处理器,其经配置以获得环境HOA系数在位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示,且基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者均已从HOA音频数据分解。所述装置还包括存储器,其耦合到所述一或多个处理器,且经配置以存储所述向量。
另一方面,一种解码表示高阶立体混响(HOA)音频数据的位流的方法,所述方法包括:获得环境HOA系数在位流的与当前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;以及基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号所述已从所述HOA音频数据分解。
另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令在被执行时,致使一或多个处理器:获得环境HOA系数在位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;且基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者已从HOA音频数据分解。
另一方面,一种用于解码表示高阶立体混响(HOA)音频数据的位流的装置,所述装置包括:用于获得环境HOA系数在位流的与当前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示的装置;以及用于基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量的装置,所述向量和所述对应前景音频信号所述已从所述HOA音频数据分解。
在附图和以下描述中陈述所述技术的一或多个方面的细节。这些技术的其它特征、目标和优点将从所述描述和图式以及从所附权利要求书而显而易见。
附图说明
图1是说明具有各种阶和子阶的球面谐波基础函数的图。
图2是说明可执行本发明中所描述的技术的各个方面的系统的图。
图3是更详细说明可执行本发明中描述的技术的各个方面的图2的实例中所示的音频编码装置的一个实例的框图。
图4是更详细地说明图2的音频解码装置的框图。
图5A是说明当同一帧期间出现多个转变时位流中的帧的信令的图。
图5B是说明根据本发明中描述的技术的各个方面当同一帧期间出现多个转变时位流中的帧的信令的图。
图6到9是说明图2中示出的音频编码装置在执行本发明中描述的技术的各个方面时的实例操作的流程图。
图10到13是说明图2中示出的音频解码装置在执行本发明中描述的技术的各个方面时的实例操作的流程图。
具体实施方式
环绕声音的演变现今已使许多娱乐输出格式可用。此类消费型环绕声格式的实例大部分为基于“声道”的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含普遍的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,以及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式以及22.2格式(例如,用于结合超高清晰电视标准使用)。非消费型格式可跨越任何数量的扬声器(成对称和非对称几何布置),其往往被称为“环绕阵列”。此阵列的一个实例包含定位在截头二十面体的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入视情况为三个可能格式中的一者:(i)传统的基于声道的音频(如上文所论述),其意图由在预先指定的位置的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(除了其它信息之外)的相关联元数据的离散脉冲代码调制(PCM)数据;以及(iii)基于场景的音频,其涉及使用球面谐波基础函数的系数(也称为“球面谐波系数”或SHC、“高阶立体混响”或HOA和“HOA系数”)来表示声场。所述未来MPEG编码器可在由国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411在2013年1月在瑞士日内瓦发布的标题为“对3D音频的提议的要求(Call forProposals for 3D Audio)”的文献中更详细地描述,并且该文献可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。
在市场中存在各种基于“环绕声”声道的格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次产生电影的音轨,而不用花费精力来针对每个扬声器配置对其进行再混合。近来,标准开发组织(StandardsDeveloping Organizations)一直在考虑如下方式:将编码和后续解码(适合于且不知晓重放位置(涉及渲染器)处的扬声器几何形状(及数目)和声学条件)提供于标准化位流中。
为了向内容创建者提供此灵活性,可使用分层元素集合来表示声场。所述分层元素集合可指的是元素被排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
分层元素集合的一个实例为球面谐波系数(SHC)的集合。以下表达式示范使用SHC对声场的描述或表示:
此表达式示出可由唯一地表示在时间t声场在任何点处的压力pi。此处,c为声速(约343m/s),为参考点(或观测点),jn(·)为具有阶数n的球面贝塞耳函数(spherical Bessel function),且为具有阶数n和子阶数m的球面谐波基础函数。可认识到,方括号中的术语为信号的频域表示(即,其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合和多分辨率基础函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球面谐波基础函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中示出所述子阶但未明确提到。
可通过各种麦克风阵列配置以物理方式来获取(例如,记录),或替代地,它们可从声场的基于声道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促进更高效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
为了说明可如何从基于对象的描述导出SHC,考虑以下等式。可将对应于个别音频对象的声场的系数表达为:
其中i为是阶n的(第二种)球面汉克尔函数,且是对象的位置。知道随频率而变的对象源能量g(ω)(例如,使用时频分析技术,例如对PCM流执行快速傅里叶变换)允许我们将每一PCM对象及其对应的位置转换为另外,可示出(由于上式为线性和正交分解):每一对象的系数具相加性。以此方式,许多PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,含有关于声场的信息的系数(随3D坐标而变的压力),且上文表示从个别对象到观察点附近的总声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
图2是说明可执行本发明中所描述的技术的各个方面的系统10的图。如图2的实例中所示,系统10包含内容创建者装置12和内容消费者装置14。虽然在内容创建者装置12和内容消费者装置14的上下文中描述,但可在声场的SHC(其也可称为HOA系数)或任何其它阶层式表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。
此外,内容创建者装置12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样地,内容消费者装置14可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒、电视机(包含所谓的“智能电视机”)、接收器(例如音频/视觉-AV-接收器)、媒体播放器(例如数字视频光盘播放器、流媒体播放器等),或桌上型计算机(提供几个实例)。
当内容消费者装置14表示电视机时,内容消费者装置14可包含集成扩音器。在此实例中,内容消费者装置14可渲染经重构的HOA系数,以产生扩音器馈送,并输出所述扩音器馈送以驱动集成扩音器。
当内容消费者装置14表示接收器或媒体播放器时,内容消费者装置14可(电或无线)耦合到扩音器。在此实例中,内容消费者装置14可渲染经重构的HOA系数,以产生扩音器馈送,并输出所述扩音器馈送以驱动扩音器。
内容创建者装置12可由电影工作室或可产生多声道音频内容以供内容消费者(例如,内容消费者装置14)的操作员消耗的其它实体来操作。在一些实例中,内容创建者装置12可由将希望压缩HOA系数11的个别用户操作。通常,内容创建者结合视频内容产生音频内容。内容消费者装置14可由个人操作。内容消费者装置14可包含音频重放系统16,其可指能够渲染SHC以用于作为多声道音频内容重放的任何形式的音频重放系统。
内容创建者装置12包含音频编辑系统18。内容创建者装置12可获得呈各种格式(包含直接作为HOA系数)的实况记录7和音频对象9,内容创建者装置12可使用音频编辑系统18对所述实况记录和音频对象进行编辑。内容创建者可在编辑过程期间,从音频对象9渲染HOA系数11,从而在识别声场的需要进一步编辑的各种方面的尝试中收听经渲染的扬声器馈送。内容创建者装置12可接着编辑HOA系数11(可能经由操纵可以上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者装置12可使用音频编辑系统18来产生HOA系数11。音频编辑系统18表示能够编辑音频数据,且输出所述音频数据作为一或多个源球谐系数的任何系统。
当编辑过程完成时,内容创建者装置12可基于HOA系数11产生位流21。也就是说,内容创建者装置12包含音频编码装置20,其表示经配置以根据本发明中描述的技术的各个方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供(作为一个实例)跨越发射信道发射,所述发射信道可为有线或无线通道、数据存储装置等。位流21可表示HOA系数11的经编码版本,且可包含主要位流和另一旁侧位流(其可称为旁侧信道信息)。
虽然在图2中示出为直接发射到内容消费者装置14,但内容创建者装置12可将位流21输出到位于内容创建者装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以用于稍后传递到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21流式传输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
或者,内容创建者装置12可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,发射信道可指发射存储到媒体的内容所借的信道(且可包含零售店和其它基于商店的传递机构)。因此,在任何情况下,本发明的技术不应在这方面限于图2的实例。
如图2的实例中进一步示出,内容消费者14包含音频重放系统16。音频重放系统16可表示能够重放多声道音频数据的任何音频重放系统。音频重放系统16可包含多个不同的渲染器22。渲染器22可各自提供不同形式的渲染,其中所述不同形式的渲染可包含执行基于向量的幅度平移(VBAP)的各种方式中的一或多者和/或执行声场合成的各种方式中的一或多者。如本文所使用,“A和/或B”表示“A或B”或“A和B”两者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11,但归因于有损操作(例如,量化)和/或经由发射信道的发射而不同。
音频重放系统16可在解码位流21以获得HOA系数11'之后,渲染HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器(其为便于说明的目的在图2的实例中未示出)。
为了选择适当的渲染器或在一些情况下产生适当的渲染器,音频重放系统16可获得指示扩音器的数目和/或扩音器的空间几何形状的扩音器信息13。在一些情况下,所述音频重放系统16可使用参考麦克风且以例如动态地确定扩音器信息13的方式驱动所述扩音器来获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可提示用户与音频重放系统16交互,并输入扩音器信息13。
音频重放系统16接着可基于扩音器信息13选择音频渲染器22中的一者。在一些例子中,当音频渲染器22中无一者处于与在扩音器信息13中所指定的扩音器几何形状的某一阈值相似性量度(就扩音器几何形状来说)内时,音频重放系统16可基于扩音器信息13产生音频渲染器22中的一者。在一些例子中,音频重放系统16可基于扩音器信息13产生音频渲染器22中的一者,而不首先尝试选择音频渲染器22中的现有一者。一或多个扬声器3接着可重放经渲染的扩音器馈送25。
图3是更详细说明可执行本发明中描述的技术的各个方面的图2的实例中所示的音频编码装置20的一个实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27以及基于方向的分解单元28。
尽管下文简要描述,但关于基于向量的分解单元27以及压缩HOA系数的各个方面的较多信息在2014年5月29日申请的标题为“声场的经分解表示的内插”的第WO 2014/194099号的国际专利申请案中可用。此外,根据MPEG-H 3D音频标准压缩HOA系数的各种方面的更多细节(包含下方概述的基于向量的分解的论述)可见于:
标题为“信息技术—异质环境中的高效率译码和媒体递送—第3部分:3D音频(Information technology-High efficiency coding and media delivery inheterogeneous environments-Part 3:3D audio)”的ISO/IEC DIS 23008-3文档,ISO/IECJTC 1/SC 29/WG11,2014年7月25日(可见于:http://mpeg.chiariglione.org/standards/ mpeg-h/3d-audio/dis-mpeg-h-3d-audio,下文称为“MPEG-H 3D音频标准阶段I”);
标题为“信息技术—异质环境中的高效译码和媒体递送—第3部分:3D音频,修正3:MPEG-H 3D音频阶段2(Information technology-High efficiency coding and mediadelivery in heterogeneous environments-Part 3:3D audio,AMENDMENT 3:MPEG-H 3DAudio Phase 2)”的ISO/IEC DIS 23008-3:2015/PDAM 3文档,ISO/IEC JTC 1/SC 29/WG11,2015年7月25日(可见于:http://mpeg.chiariglione.org/standards/mpeg-h/3d- audio/text-isoiec-23008-3201xpdam-3-mpeg-h-3d-audio-phase-2,且下文称为“MPEG-H3D音频标准阶段II”);以及
尤尔根·埃雷(Jürgen Herre)等人,标题为“MPEG-H 3D音频—沉浸式3D音效译码新标准(MPEG-H 3D Audio-The New Standard for Coding of Immersive SpatialAudio)”,2015年8月,于IEEE信号处理专题杂志(IEEE Journal of Selected Topics inSignal Processing)第9卷第5期发表。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11是否表示从实况记录或音频对象产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧式HOA系数11是从记录产生时,内容分析单元26将HOA系数11传递给基于向量的分解单元27。在一些例子中,当帧式HOA系数11是从合成音频对象产生时,内容分析单元26将HOA系数11传递给基于方向的合成单元28。基于方向的合成单元28可表示经配置以执行HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如在图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、心理声学音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、空间-时间内插单元50以及量化单元52。
线性可逆变换(LIT)单元30接收呈HOA声道形式的HOA系数11,每一声道表示与球面基础函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2。
LIT单元30可表示经配置以执行被称为奇异值分解的分析形式的单元。虽然相对于SVD来描述,但可相对于提供若干组线性不相关的能量密集输出的任何类似变换或分解来执行本发明中所描述的技术。而且,本公开中对“集合”的参考一般既定指非零集合(除非特定地相反陈述),且无意指包含所谓的“空集合”的集合的经典数学定义。替代变换可包括往往被称作“PCA”的主分量分析。根据所述情形,PCA可由若干不同名称指代,仅举几例,例如离散卡亨南-洛维变换、霍特林变换、恰当正交分解(POD)和本征值分解(EVD)。有利于压缩音频数据的基本目标的此些操作的特性为多声道音频数据的“能量压缩”和“去相关”。
在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其又可被称为“SVD”),LIT单元30可将HOA系数11变换成经变换HOA系数的两个或多于两个集合。经变换HOA系数的“集合”可包含经变换的HOA系数的向量。在图3的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多声道音频数据,例如HOA系数11)的因式分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多声道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多声道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多声道音频数据的右奇异向量。
在一些实例中,上文所提到的SVD数学表达式中的所述V*矩阵被表示为所述V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为便于说明的目的,假定HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,虽然在本公开中被表示为V矩阵,但对所述V矩阵的提及应理解为在适当的情况下是指所述V矩阵的转置。虽然假定为所述V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,所述技术在这方面不应限于仅用于应用SVD来产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD,以输出具有维度D:M×(N+1)2的US[k]向量33(其可表示S向量和U向量的组合版本)以及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为而V[k]矩阵中的个别向量也可被称为v(k)。
U、S和V矩阵的分析可揭示,所述矩阵运载或表示上文由X表示的基本声场的空间和时间特性。U(长度为M个样本)中的N个向量中的每一者可表示随时间而变(对于由M个样本表示的时间周期)的经正规化分离音频信号,其彼此正交且已与任何空间特性(其也可被称作方向信息)去耦。表示空间形状和位置的空间特性可改为由V矩阵(长度(N+1)2中的每一者)中的个别第i个向量v(i)(k)表示。
v(i)(k)向量中的每一者的个别元素可表示描述相关联音频对象的声场的形状(包含宽度)和位置的HOA系数。U矩阵和V矩阵中的向量两者均被归一化而使得它们的均方根能量等于一。U中的音频信号的能量因而由S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因而表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V中)去耦的能力可支持本发明中所描述的技术的各个方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的模型给出贯穿此文献使用的术语“基于向量的分解”。
尽管被描述为直接相对于HOA系数11来执行,但LIT单元30可对HOA系数11的导出项应用线性可逆变换。例如,LIT单元30可对于从HOA系数11导出的功率谱密度矩阵应用SVD。通过对于HOA系数的功率谱密度(PSD)而不是其自身系数来执行SVD,LIT单元30可潜在降低按照一个或多个处理器循环和存储空间执行SVD的计算复杂度,同时实现相同源音频编码效率,好像SVD被直接应用于HOA系数一样。
参数计算单元32表示经配置以计算各种参数的单元,所述参数为例如相关性参数(R)、方向特性参数和能量特性(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]和e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别所述参数。参数计算单元32还可确定前一帧的参数,其中前一帧参数可基于US[k-1]向量和V[k-1]向量的前一帧,表示为R[k-1]、θ[k-1]、r[k-1]和e[k-1]。参数计算单元32可将当前参数37和先前参数39输出到重排序单元34。
由参数计算单元32计算的参数可供重排序单元34用以对音频对象进行重排序,以表示其自然评估或随时间推移的连续性。重排序单元34可逐轮将来自第一US[k]向量33的参数37中的每一者与用于第二US[k-1]向量33的参数39中的每一者进行比较。重排序单元34可基于当前参数37和先前参数39,将US[k]矩阵33和所述V[k]矩阵35内的各种向量重新排序(作为一实例,使用匈牙利演算法(Hungarian algorithm))以将经重新排序的US[k]矩阵33'(其可在数学上表示为)和经重新排序的V[k]矩阵35'(其可在数学上表示为)输出到前景声音(或占优势声音-PS)选择单元36(“前景选择单元36”)和能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便潜在地实现目标位速率41的单元。声场分析单元44可基于所述分析和/或所接收到的目标位速率41,确定心理声学译码器实例化的总数目(其可为环境或背景声道的总数目(BGTOT)以及前景声道或换句话说占优势声道的数目的函数)。心理声学编码器实例化的总数可表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景声道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHoaOrder)、表示背景声场的最小阶数的实际声道的对应数目(nBGa=(MinAmbHoaOrder+1)2),以及要发送的额外BG HOA声道的索引(i)(其在图3的实例中可共同地表示为背景声道信息43)。所述背景声道信息42也可被称作环境声道信息43。从numHOATransportChannels-nBGa保持的声道中的每一者可为“额外背景/环境声道”、“起作用的基于向量的占优势声道”、“起作用的基于方向的占优势信号”或“完全未起作用”。在一个方面,声道类型可为由两个位(例如00:基于方向的信号;01:基于向量的占优势信号;10:额外环境信号;11:不在作用中的信号)指示(作为“ChannelType”)的语法元素。可由(MinAmbHoaOrder+1)2+呈现为用于所述帧的所述位流中的声道类型的索引10(在以上实例中)的倍数给出背景或环境信号的总数nBGa。
声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)声道的数目和前景(或换句话说,占优势)声道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景和/或前景声道。在一个方面,在位流的标头部分中,numHOATransportChannels可设定为8,而MinAmbHOAorder可设定为1。在此情境下,在每个帧处,四个声道可专用于表示声场的背景或环境部分,而其它4个声道可在逐帧基础上,在声道类型上变化--例如,用作额外背景/环境声道或前景/占优势声道。前景/占优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,用于帧的基于向量的占优势信号的总数目可通过所述帧的位流中的ChannelType索引01的倍数给出。在上述方面,对于每个额外背景/环境声道(例如对应于ChannelType 10),可能HOA系数(超过前四个)的对应信息可在所述声道中表示。对于四阶HOA内容,所述信息可为指示所述HOA系数5-25的系数。当minAmbHOAorder设定为1时,所述前四个环境HOA系数1到4可一直发送,因此,音频编码装置可能仅需要指示具有索引5-25的额外环境HOA系数中的一者。因此,所述信息可使用可被表示为“CodedAmbCoeffIdx”的5位语法元素(用于4阶内容)来发送。在任何情况下,声场分析单元44将背景声道信息43和HOA系数11输出到背景(BG)选择单元36,将背景声道信息43输出到系数减少单元46和位流产生单元42,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景声道信息(例如,背景声场(NBG)以及待发送的额外BG HOA声道的数目(nBGa)和索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位流产生单元42,以便使音频解码装置(例如,图2和4的实例中所示的音频解码装置24)能够从位流21剖析背景HOA系数47。背景选择单元48接着可将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境HOA系数47中的每一者对应于将由心理声学音频译码器单元40编码的单独环境HOA声道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或不同分量的经重排序的US[k]矩阵33'以及经重排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,…,nFG 49,FG1,…,nfG[k]49,或)输出到心理声学音频译码器单元40,其中nFG信号49可具有维度D:M x nFG,且各自表示单声道音频对象。前景选择单元36也可将对应于声场的前景分量的经重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中对应于前景分量的经重排序的V[k]矩阵35'的子集可表示为具有维度D:(N+1)2x nFG的前景V[k]矩阵51k(其可数学表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿由于通过背景选择单元48去除HOA声道中的各种HOA声道所造成的能量损失的单元。能量补偿单元38可相对于经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k和环境HOA系数47中的一或多者执行能量分析,并且接着基于能量分析执行能量补偿,以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到心理声学音频译码器元40。
空间-时间内插单元50可表示被配置以接收第k帧的前景V[k]向量51k和前一帧(因此为k-1记法)的前景V[k-1]向量51k-1,并执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重排序的前景HOA系数。空间-时间内插单元50接着可将经重新排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50也可输出前景V[k]向量51k,其曾用于产生经内插前景V[k]向量,使得例如音频解码装置24的音频解码装置可产生经内插前景V[k]向量,并由此恢复前景V[k]向量51k。用于产生经内插的前景V[k]向量的前景V[k]向量51k表示为其余前景V[k]向量53。为了确保相同的V[k]和V[k-1]用在编码器和解码器处(以创建经内插的向量V[k]),向量的经量化/经解量化版本可用在编码器和解码器处。空间-时间内插单元50可将经内插的nFG信号49'输出到心理声学音频编码器单元46,并将经内插的前景V[k]向量51k输出到系数减少单元46。
系数减少单元46可表示经配置以基于述背景声道信息43相对于其余前景V[k]向量53执行系数减小以将减小的前景V[k]向量55输出到量化单元52的单元。所述减小的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。在这方面,系数减少单元46可表示经配置以减少其余前景V[k]向量53中的系数的数目的单元。换句话说,系数减少单元46可表示经配置以消除前景V[k]向量(其形成其余前景V[k]向量53)中具有极少乃至没有方向信息的系数的单元。在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶和零阶基础函数的系数(其可表示为NBG)提供极少方向信息,且因此可从前景V向量去除(经由可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数,而且识别额外HOA声道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化以压缩减小的前景V[k]向量55以产生经译码前景V[k]向量57,从而将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,在此实例中,减小的前景V[k]向量55中的一或多者)。量化单元52可相对于减小的前景V[k]向量55中的每一者,执行向量量化、标量量化或具有霍夫曼译码的标量量化。量化单元52可相对于位流21的每个帧执行不同形式的量化。换句话说,量化单元52可在逐帧基础上在不同形式的量化之间切换。
量化单元52还可执行前述类型的量化模式中的任一者的预测版本,其中确定先前帧的V向量的元素(或执行向量量化时的权重)与当前帧的V向量的元素(或执行向量量化时的权重)之间的差。量化单元52可接着使当前帧与先前帧的元素或权重之间的差而非当前帧本身的V-向量的元素的值量化。
量化单元52可相对于减小的前景V[k]向量55中的每一者执行多种形式的量化,以获得减小的前景V[k]向量55的多个经译码版本。量化单元52可将减小的前景V[k]向量55的所述经译码版本中的一者选择为经译码的前景V[k]向量57。换句话说,量化单元52可基于在本公开中论述的准则的任何组合来选择非预测的经向量量化的V向量、预测的经向量量化的V向量、非霍夫曼译码的经标量量化的V向量和霍夫曼译码的经标量量化的V向量中的一者,以用作输出经切换-经量化的V向量。在一些实例中,量化单元52可从包含向量量化模式以及一或多个标量量化模式的一组量化模式中选择量化模式,并且基于(或根据)所选择的模式来量化输入V向量。量化单元52接着可将非预测经向量量化的V向量(例如在权重值或指示权重值的位方面)、所预测经向量量化的V向量(例如在误差值或指示误差值的位方面)、非霍夫曼译码的经标量量化的V向量以及霍夫曼译码的经标量量化的V向量中的选定一者提供到位流产生单元42,作为经译码前景V[k]向量57。量化单元52还可提供指示量化模式的语法元素(例如,NbitsQ语法元素)以及用于将V向量去量化或以其它方式重构V向量的任何其它语法元素。
包含在音频编码装置20内的心理声学音频译码器单元40可表示心理声学音频编码器的多个例子,所述多个例子中的每一者用以对经能量补偿的环境HOA系数47'和经内插nFG信号49'中的每一者的不同音频对象或HOA声道进行编码,以产生经编码环境HOA系数59和经编码nFG信号61。心理声学音频译码器单元40可将经编码环境HOA系数59和经编码nFG信号61输出到位流产生单元42。
包含在音频编码装置20内的位流产生单元42表示格式化数据以符合已知格式(其可指解码装置已知的格式),由此产生基于向量的位流21的单元。换句话说,位流21可表示已经以上述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61和背景声道信息43。位流产生单元42可接着基于经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61和背景声道信息43产生位流21。以此方式,位流产生单元42可由此在位流21中指定向量57以获得如下文关于图7的实例更详细描述的位流21。位流21可包含主要或主位流以及一或多个旁侧声道位流。
尽管在图3的实例中未图示,但音频编码装置20还可包含位流输出单元,其基于使用基于方向的合成还是基于向量的合成来编码当前帧,来切换从音频编码装置20输出的位流(例如在基于方向的位流21与基于向量的位流21之间)。位流输出单元可基于由内容分析单元26输出的语法元素执行所述切换,所述语法元素指示执行了基于方向的合成(由于检测到HOA系数11是从合成音频对象产生)还是执行了基于向量的合成或分解(由于检测到HOA系数是记录的)。位流输出单元可指定正确的标头语法以指示所述切换或用于当前帧以及位流21中的相应一者的当前编码。
此外,如上文所提到,声场分析单元44可识别BGTOT环境HOA系数47,所述系数可在逐帧基础上改变(但有时BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在减小的前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致在逐帧基础上改变(尽管再次有时BGTOT可跨越两个或多于两个邻近(在时间上)帧保持恒定或相同)的背景HOA系数(其也可被称作“环境HOA系数”)。所述改变常常导致声场的若干方面的能量改变,其通过额外环境HOA系数的添加或去除以及系数从减小的前景V[k]向量55的对应去除或系数到所述减小的前景V[k]向量的添加来表示。
因此,声场分析单元44可进一步确定环境HOA系数何时从帧到帧改变,且产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量来说)(其中所述改变也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。明确地说,系数减少单元46可产生旗标(其可被表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,使得所述旗标可包含在位流21中(可能作为旁侧声道信息的一部分)。
除指定环境系数转变旗标之外,系数减少单元46还可修改产生减小的前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一者在当前帧期间处于转变中时,系数减少单元46可指定减小的前景V[k]向量55的V向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。并且,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数目或从背景系数的BGTOT总数目中去除。因此,背景系数的总数目的所得改变影响环境HOA系数是否包含于位流中,以及在上文所描述的第二和第三配置模式中是否针对位流中所指定的V-向量包含V-向量的对应元素。关于系数减小单元46可如何指定减少的前景V[k]向量55以克服能量的改变的更多信息提供于2015年1月12日申请的标题为“环境高阶立体混响系数的转变(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
在一些实例中,位流产生单元42产生位流21,以包含即刻播出帧(IPF)来例如补偿解码器启动延迟。在一些情况下,位流21可结合因特网流式传输标准而使用,例如经由HTTP的动态自适应流式传输(DASH)或经由单向输送的文件传递(FLUTE)。DASH在ISO/IEC23009-1,“信息技术-经由HTTP的动态自适应流式传输(DASH)(Information Technology-Dynamic adaptive streaming over HTTP(DASH))”(2012年4月)中描述。FLUTE在IETF RFC6726,“FLUTE-经由单向输送的文件传递(FLUTE-File Delivery over UnidirectionalTransport)”(2012年11月)中描述。例如前述FLUTE和DASH的因特网流式传输标准补偿帧损失/降级,且通过在指定流接入点(SAP)处启用瞬时播出,以及在所述流的在位速率和/或在所述流任何SAP处启用的工具方面不同的表示之间切换播出,来适应网络输送链路带宽。换句话说,音频编码装置20可以此方式编码帧,以便从内容的第一表示(例如在第一位速率下指定)交换到所述内容的第二不同表示(例如在第二较高或较低位速率下指定)。音频解码装置24可接收所述帧,且独立地解码所述帧,以从所述内容的第一表示切换到所述内容的第二表示。音频解码装置24可继续解码后续帧,以获得所述内容的第二表示。
在瞬时播出/切换的例子中,尚未解码流帧的辊前以便建立必需的内部状态来正确地解码所述帧,位流产生单元42可编码位流21以包含即刻播出帧(IPF)。关于IPF和编码音频数据以支持IPF的更多信息可在2015年1月29日申请的标题为“译码环境高阶立体混响系数的独立帧(CODING INDEPENDENT FRAMES OF AMBIENT HIGHER_ORDER AMBISONICCOEFFICIENTS)”的第14/609,208号美国申请案中找到。在上方参考的第14/609,208号美国申请案中,位流产生单元42可指定第一帧是否为使第一帧能够不参考位流的第二帧来解码的独立帧的指示(例如通过为所述第一帧指定位流21的ChannelSideInfoData部分中的hoaIndependencyFlag语法元素)。当将hoaIndependencyFlag设定成一时,作为一个实例,第一帧作为独立帧(或换句话说,和IPF)发信号通知。由于作为IPF发信号通知,因此位流产生单元42还发信号通知额外参考信息,其在帧未指示为IPF时,原本将不发信号通知。
在某些译码情境中,上文提到的第14/594,533号美国申请案和第14/609,208号美国申请案中所论述的音频编码装置20指定冗余信息。举例来说,当环境HOA系数(例如上文所提到的经能量补偿的HOA系数47'中的一者)在与前景音频信号(例如上文所提到的经内插nFG音频信号49')正淡入相同的第一帧期间淡入,系数减小单元46包含对应于环境HOA系数47'的前景V[k]向量53的V向量元素,从而有效地两次指定V向量元件(一次作为实际V向量元件,且再次以组合形成作为环境HOA系数47')。
本发明中描述的技术提供借此潜在地避免指定冗余信息的方式。由于去除冗余信息,除促进译码效率之外,所述技术还可潜在地改进声场再现,因为冗余信息可导致重构对应于V向量元素的HOA系数时的能量加倍。尽管相对于同一帧期间的环境HOA系数47'中的一者以及经内插nFG音频信号49'中的一者这两者的淡入来描述,但所述技术还可针对同一帧期间的环境HOA系数47'中的一者和经内插nFG音频信号49'中的一者这两者的淡出来执行。
图5A是说明当同一帧期间出现多个转变时位流中的帧的信令的图。在图5A的实例中,位流产生单元42可指定第一背景声道800A,其包含环境HOA系数47'中具有索引四的一者。位流产生单元42还可指定前景声道800B,其包含经内插nFG音频信号49'中的一者。位流产生单元42还可指定另一背景声道800C,其包含环境HOA系数47'中具有索引二的一者。位流产生单元42可指定声道800A到800C中的每一者的类型的指示(例如ChannelType语法元素),其指示对应声道800A到800C是否包含环境HOA系数47'中的一者或经内插nFG信号49'中的一者。
在图5A的实例中所示的帧10到12中,声道800A到800C中无一者经历转变。换句话说,音频编码装置20确定声道800A和800C中的每一者包含环境HOA系数47'中的相同一者,且声道800B包含经内插nFG信号49'中的相同一者。然而,在帧13期间,声场分析单元44确定包含于背景声道800A和800C中的环境HOA系数47'两者均将在帧14内由nFG音频信号49'中的新的一者和环境HOA系数47'中的新的一者(在此实例中,由索引五识别)代替。在帧14期间,音频编码装置20在位流21中发信号通知背景声道800A变为前景声道800D,且背景声道800C仍为背景声道,但包含环境HOA系数47'中的新的一者。
在图5A的实例中,先前音频编码器(在上文所述的第14/594,533号美国申请案和第14/609,208号美国申请案中论述)指示所有25个元素均是为前景声道800D发信号通知的。在这方面,先前音频编码器将在指定所有25个v向量元素(Vvec元素=25)时指定冗余信息,而此类元素在背景声道800E中以全HOA形式作为额外环境HOA系数发信号通知。先前音频编码器在帧15中,接着使对应于背景声道800E中指定的额外环境HOA系数的v向量元素淡出,从而产生仅24个Vvec元素。
先前音频解码器(在上文所述的第14/594,533号美国申请案和第14/609,208号美国申请案中所论述)经由前景声道800D接收所有25个v向量元素,连同从背景声道800E接收额外环境HOA系数。在重构HOA系数时,先前音频解码器利用所有25个v向量元素来获得前景HOA系数,且接下来组合前景HOA系数与冗余额外环境HOA系数,从而鉴于冗余信息在重构HOA系数时被利用两次来产生能量放大。
图5B是说明根据本发明中描述的技术的各个方面当同一帧期间出现多个转变时位流中的帧的信令的图。为了避免指定与包含于背景声道800E中的环境HOA系数47'中的所述一者相关联的V向量元素,声场分析单元44可跟踪或以其它方式获得若干新额外环境HOA系数的指示(例如以NumOfNewAddHoaChans变量的形式),如以下HOAFrame()语法表中示出。尽管从解码角度来指定HOAFrame()语法表,但声场分析单元44可以类似于音频解码装置24所描述的方式操作,以便产生适当的语法元素,其确保音频解码装置24可剖析和解码位流21。
HOAFrame()的语法:
上文的HOAFrame()语法表中的斜体项表示对语法的添加,以适应本发明中描述的技术的各个方面。如上文的HOAFrame()语法表中示出,在开始译码每一帧时,声场分析单元44可将环境HOA系数47'中的新额外者的数目的指示(例如NumOfNewAddHoaChans变量)初始化到零。换句话说,声场分析单元44可获得在位流的第一帧期间处于转变中的环境HOA系数的数目的指示,所述环境HOA系数描述由HOA音频数据表示的声场的环境分量。环境HOA系数47'中的额外者可指未由最小环境HOA系数的指示(例如MPEG-H 3D音频译码标准的阶段I的HOADecoderConfig()语法表中所指定的MinAmbHoaOrder语法元素)识别的环境HOA系数47'。环境HOA系数47'中的额外者还由声道的类型的指示(例如ChannelType语法元素)识别,所述指示指示MPEG-H 3D音频译码标准的每阶段I两个的类型。
在这方面,当声道的类型为两个时,声场分析单元44可切换到上述语法表中的情况二(2),且确定转变状态何时等于一(其在实例中指示转变,表示淡入或淡出)。当声场分析单元44确定背景声道800A将转变为前景声道800D时,声场分析单元44可获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示(例如呈NewAddHoaCeff[NumOfNewAddHoaChans]变量的形式)。声场分析单元44还可使NumOfNewAddHoaChans递增一(即,在以上实例语法表中,示出为NumOfNewAddHoaChans++)。
声场分析单元44可将上文所述的指示作为背景声道信息43的一部分提供到系数减小单元43。在一些实例中,系数减小单元46可基于上文所指定的背景声道信息43获得上述指示(而不是声场分析单元44)。系数减小单元46可基于NumOfNewAddHoaChans变量,获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的指示。
系数减小单元46还可确定前景音频信号49'中的一者在位流的第一帧(例如图5B的实例中的帧14)期间是否处于转变中的前景指示,所述前景音频信号描述声场的由HOA音频数据11表示且从HOA音频数据11分解的前景分量。系数减小单元46可以类似于ChannelSideInfoData()语法表中所示的方式的方式来获得前景指示。并且,尽管从解码角度来指定以下语法表,但系数减小单元46可以类似于音频解码装置24所描述的方式操作,以便产生适当的语法元素,其确保音频解码装置24可剖析和解码位流21。
ChannelSideInfoData()的语法:
并且,上文的语法表中的斜体项表示对语法的添加,以适应本发明中描述的技术的各个方面。前景指示在ChannelSideInfo()语法表中表示为bNewChannelTypeOne(k)[i]语法元素。在ChannelSideInfoData语法表的一些情况下,bNewChannelTypeOne语法元素还可表示为“NewChannelTypeOne”,去除了“NewChannelTypeOne”术语之前的字母‘b’。系数减小单元46可基于先前帧13的输送声道800A的类型的指示((即,在在以上实例语法表中示出为ChannelType语法元素),获得前景指示。
更具体地说,系数减小单元46可根据以下伪码来获得前景指示:
bNewChannelTypeOne(k)[i]=(1!=ChannelType(k-1)[i])。
在所述伪码中,系数减小单元46可基于帧13(其可被称为第二帧、先前帧或直接在前帧)的输送声道800A的类型,获得帧14(其可被称为第一帧)的前景指示。根据上述伪码,系数减小单元46可获得第一帧的前景指示为:当第二帧的ChannelType语法元素不等于一时,等于一;且当第二帧的ChannelType语法元素等于一时,等于零。
在这方面,前景指示(bNewChannelTypeOne[i])表示指示前一帧(k-1)中输送声道是否曾经未初始化为基于向量的信号(或换句话说,并不包含经内插nFG音频信号49'中的一者)的旗标。在图5B的实例中,系数减小单元46可确定对于帧14,前景声道800D的bNewChannelTypeOne语法元素等于一。在这方面,前景指示可指示第二帧的相同输送声道是否包含从高阶立体混响音频数据分解的前景音频信号。换句话说,前景指示可指示前景音频信号在位流的第一帧期间是否处于转变。
如上述ChannelSideInfo()语法表中所述,在一些实例中,仅在对应于正淡入的经内插nFG音频信号49'中的所述一者的V向量的译码模式被设定成一(如由CodedVVecLength语法元素的指示设定成一来指示)时,系数减小单元46可获得前景指示。CodedVVecLength语法元素所识别的译码模式设定成一导致系数减小单元46发送减小的V向量,其如上述序号的美国申请案中所描述,可指去除了对应于最小环境HOA系数和额外环境HOA系数的元素的V向量。
在一些实例中,系数减小单元46可获得环境HOA系数47'中的所述一者在位流的与前景音频信号49'中的一者基于背景指示(其可为指代NumOfNewAddHoaChans变量的另一方式)、前景指示(其可为指代bNewChannelTypeOne[i]语法元素的另一方式,其中变量i表示输送声道的索引),或背景指示和前景指示两者而处于转变中相同的第一帧期间是否处于转变中的多转变指示。背景指示还可被称作环境指示。前景指示还可被称作占优势指示。系数减小单元46可确定多转变指示为前景指示乘以背景指示(其可表示为bNewChannelTypeOne[i]*NumOfNewAddHoaChans)。
系数减小单元46接着可重复通过传输声道,以确定新额外环境HOA系数47'中的哪些在与nFG音频信号49'中的一者淡入相同的第一帧期间淡入。当另一前景声道(例如前景声道800D)在同一帧(例如图5B中的帧14)期间淡入时,系数减小单元46接着可去除对应于环境HOA系数47'中正淡入的新的一者(例如在图5B中示出为背景声道800E)的V向量元素。
在图5B的实例中,系数减小单元46可去除与环境HOA系数47'中由第五索引(如在背景声道800E中示出)识别的一者相关联的V向量元素。由此,前景声道800D仅包含具有总共25个v向量元素(其在图5B的实例中,由Vvec元素=24表示)的四阶表示的24个向量元素。因为V-vec元素[5]在前一帧中指定,所以系数减小单元46可使对应于索引5所识别的环境HOA系数47'中的所述一者的V-vec元素[5]淡出,如上文提到的序号的美国申请案中所论述。图5B中所示的其余WasFadedIn、TransitionMode和Transition项也在上文提到的序号的美国申请案中更详细地描述。
以此方式,系数减小单元46可基于多转变指示,获得减小的V[k]向量55(其可表示描述经内插nFG音频信号49'中的对应一者的空间特性的向量)中的一者,其中所述向量和对应HOA音频信号两者从HOA音频数据分解,如上文所描述。
在一些实施例中,如上所述,位流产生单元42可指定第一帧是否为使第一帧能够不参考位流的第二帧而解码的独立帧的指示(即,hoaIndependencyFlag语法元素)。根据以上ChannelSideInfo()语法表,当hoaIndependencyFlag指示第一帧是独立帧(即,以上实例语法表中的“if(hoaIndpendencyFlag)”,意味着hoaIndependencyFlag等于一)时,位流产生单元42可指定前景指示。当第一帧是独立帧时,位流产生单元42可指定前景指示,因为必须不参考任一其它帧或来自另一帧的任何其它语法元素来解码所述帧。鉴于前景指示是基于前一帧(k-1)的ChannelType来确定的,当第一帧是独立帧时,位流产生单元42指定前景指示。尽管上文相对于音频编码装置20来描述,但音频解码装置24可执行与音频编码装置20的操作互逆的操作。下文相对于图4的实例更详细地描述音频解码装置24所执行的互逆操作。
图4是更详细地说明图2的音频解码装置24的框图。如在图4的实例中所示,音频解码装置24可包含提取单元72、基于方向性的重构单元90和基于向量的重构单元92。尽管下文进行描述,但关于音频解码装置24和解压缩或以其它方式解码HOA系数的各种方面的较多信息可在2014年5月29日申请的标题为“声场的经分解表示的内插(INTERPOLATION FORDECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收位流21并提取HOA系数11的各种经编码版本(例如基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可从以上所述确定指示HOA系数11是经由各种基于方向的版本还是基于向量的版本经编码的语法元素。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4的实例中表示为基于方向的信息91),从而将所述基于方向的信息91传递到基于方向的重构单元90。基于方向的重构单元90可表示经配置以基于所述基于方向的信息91重构呈HOA系数11'的形式的HOA系数的单元。
当语法元素指示使用基于向量的合成来编码HOA系数11时,提取单元72可提取经译码前景V[k]向量57(其可包含经译码权重57和/或索引63或经标量量化的V-向量)、经编码环境HOA系数59以及对应音频对象61(其也可被称作经编码nFG信号61)。音频对象61中各自对应于向量57中的一者。提取单元72可将经编码前景V[k]向量57传递到V向量重构单元74,且将经编码环境HOA系数59连同经编码nFG信号61传递到心理声学解码单元80。
提取单元72还可以上文相对于音频编码装置20所描述的方式操作,以获得上文相对于HOAFrame语法表和ChannelSideInfo()语法表所述的各种语法元素和变量集合。提取单元72可获得背景指示、前景指示、独立帧指示(其可指上述hoaIndependencyFlag)和多转变指示的任何组合。
提取单元72可基于背景指示、前景指示、独立帧指示(其可指上述hoaIndependencyFlag)和多转变指示中的任一者,从位流21获得经译码前景V[k]向量57。当CodedVVecLength语法元素指示译码模式1时,提取单元72可根据以下伪码来操作,以提取经译码前景V[k]向量57。
上述伪码中的上述博尔德斜体项表示对阶段I或II或3D音频译码标准的更新。前述伪码指示提取单元72可基于多转变指示(例如前景指示,例如bNewChannelTypeOne[i],乘以背景指示,例如NumOfNewAddHoaChans)来确定经译码前景V[k]向量57的元素的数目。在这方面,提取单元72可以与其中将音频编码装置20描述为相对于图3和5B的实例执行本发明中描述的技术的方式互逆的方式来作用。
相对于图5B的实例,提取单元72可基于多转变指示,确定帧14和15中仅存在24个v向量元素。由此,提取单元72可从前景声道800D提取仅24个v向量元素,而不是在不执行本发明中描述的技术时,先前音频解码器提取的25个v向量元素。由此,提取单元72可不提取冗余信息,从而潜在地避免上文所述的因重构HOA系数时包含冗余信息而导致的放大。
在这方面,在第一实例中,音频解码装置24可获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示,且基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和对应HOA音频信号两者均从HOA音频数据分解。
在第二实例中,第一实例的音频解码装置24可获得在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示,其中获得多转变指示包括基于所述背景指示获得多转变指示。
在第三实例中,所述第一和第二实例的任何组合的音频解码装置24可获得前景音频信号在位流的帧期间是否处于转变中的前景指示,其中获得所述多转变指示包括基于所述前景指示获得所述多转变指示。
在第四实例中,第一到第三实例的任何组合的音频解码装置24可获得在位流的帧期间处于转变中的环境HOA系数的数目的背景指示,且获得前景音频信号在所述位流的帧期间是否处于转变中的前景指示,其中获得所述多转变指示包括基于所述前景指示和所述背景指示,获得所述多转变指示。
在第五实例中,第一到第四实例的任何组合的音频解码装置24可响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
在第六实例中,第一到第五实例的任何组合的音频解码装置24可获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
在第七实例中,当对应于前景音频信号的向量的译码模式指示向量是减小的向量时,第一到第六实例的任何组合的音频解码装置24可基于位流的第二帧的输送声道的类型的指示,获得前景指示。
在第八实例中,第一到第七实例的任何组合的音频解码装置24可从位流的第一帧获得第一帧是否为使第一帧能够不参考位流的第二帧(或换句话说,不同帧)而解码的独立帧的独立帧指示。
在第九实例中,第一到第八实例的任何组合的音频解码装置24可响应于指示第一帧是独立帧的独立帧指示,从位流获得前景指示。
在第十实例中,第一到第九实例的任何组合的音频解码装置24可响应于指示第一帧不是独立帧的独立帧指示,获得第二帧的输送声道的类型的指示。
在第十一实例中,第一到第十实例的任何组合的音频解码装置24可获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,指示第二帧的同一输送声道是否包含基于向量的音频信号。
在第十二实例中,当对应于前景音频信号的向量的译码模式指示向量是减小的向量时,第一到第十一实例的任何组合的音频解码装置24可获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,指示第二帧的同一输送声道是否包含基于向量的音频信号。
在第十三实例中,当对应于前景音频信号的向量的译码模式指示向量是减小的向量时,第一到第十二实例的任何组合的音频解码装置24可获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
在前述第一到第十三实例的任何组合中,所述向量在第十四实例中,是从HOA音频数据分解。
在前述第一到第十四实例的任何组合中,多转变指示在第十五实例中,指示环境HOA系数是否在所述位流的与前景音频信号淡入相同的第一帧期间淡入。
在前述第一到第十五实例的任何组合中,多转变指示在第十六实例中,指示环境HOA系数是否在位流的与前景音频信号淡出相同的第一帧期间淡出。
V向量重构单元74可表示经配置以从经编码前景V[k]向量57重V向量的单元。V向量重构单元74可以与量化单元52互逆的方式操作。
心理声学解码单元80可以与图3的实例中所示的心理声学音频译码器单元40互逆的方式操作,以便对经编码环境HOA系数59和经编码nFG信号61进行解码,且借此产生经能量补偿的环境HOA系数47'和经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。心理声学解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770,且将nFG信号49'传递到前景制定单元78。
空间-时间内插单元76可以类似于上文相对于空间-时间内插单元50描述的方式操作。空间-时间内插单元76可接收减小的前景V[k]向量55k,并相对于减小的前景V[k]向量55k和减小的前景V[k-1]向量55k-1执行空间-时间内插,以产生经内插的前景V[k]向量55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可输出指示环境HOA系数中的一者何时处于到淡化单元770的转变中的信号757,淡化单元770接着可确定SHCBG 47'(其中SHCBG 47'还可表示为“环境HOA声道47'”或“环境HOA系数47'”),以及经内插的前景V[k]向量55k”的元素中的哪些将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'和经内插的前景V[k]向量55k”的元素中的每一者相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时相对于经内插的前景V[k]向量55k”的元素中的对应一个元素执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制定单元82,且将经调整的前景V[k]向量55k”'输出到前景制定单元78。在这方面,淡化单元770表示经配置以相对于HOA系数或其衍生物的各种方面执行淡化操作的单元,例如,以环境HOA系数47'和经内插的前景V[k]向量55k”的元素的形式。
前景制定单元78可表示经配置以相对于经调整的前景V[k]向量55k”'和经内插的nFG信号49'执行矩阵相乘以产生前景HOA系数65的单元。在这方面,前景制定单元78可将音频对象49'(其为表示经内插的nFG信号49'的另一方式)与向量55k”'组合以重构前景,或换句话说,HOA系数11'的主导方面。前景制定单元78可执行所述内插的nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵相乘。
HOA系数制定单元82可表示经配置以将前景HOA系数65与经调整的环境HOA系数47”组合以便获得HOA系数11'的单元。撇号记号反映HOA系数11'可类似于但不同于HOA系数11。HOA系数11和11'之间的差异可能是由通过有损传输媒体的传输、量化或其它有损操作产生的损失导致。
图6到9是说明音频编码装置20在执行本发明中描述的技术的各个方面时的实例操作的流程图。在图6的实例中,音频编码装置20可首先获得HOA音频数据(200)。音频编码装置20可耦合到一或多个麦克风,以捕获或以其它方式获得HOA音频数据。音频编码装置20可接下来以上文所描述的方式将HOA音频数据分解成向量和对应的前景音频对象(202)。音频编码装置20可在位流的第一帧中指定对应的前景音频对象。
音频编码装置20可在位流的第一帧中指定第一帧是否为使第一帧能够在不参考位流的第二帧而解码的独立帧的独立帧指示,如上文所描述(204)。音频编码装置20还可在位流的第一帧中,且响应于独立帧指示指示第一帧是独立帧,指定第一帧的输送声道的前景指示(206)。如上文所描述,前景指示可指示第二帧的相同输送声道是否包含从高阶立体混响音频数据分解的前景音频信号。音频编码装置20可在位流的第一帧中指定以下各项中的一或多者:至少一个环境HOA系数、向量中的至少一者,以及对应前景音频对象中的至少一者(208)。
所述技术可使经配置以执行图6中所示的条款1A的方面的音频编码装置20能够根据以下相关条款来操作。
条款2A.条款1A的装置(例如经配置以根据相对于图6的实例而描述的技术的各个方面操作的音频译码装置20)进一步经配置以响应于指示第一帧不是独立帧的独立帧指示,指定第二帧的输送声道的类型的指示。
条款3A.条款2A的装置经配置以指定第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款4A.条款2A的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,指定第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款5A.条款1A的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,指定第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款6A.条款4A和5A的任何组合的装置,其中向量是从HOA音频数据分解的。
条款7A.条款1A的装置进一步经配置以指定在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示,且基于所述背景指示,指定环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款8A.条款1A或7A的装置进一步经配置以基于前景指示,指定背景指示或前景指示和背景指示两者、环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款9A.条款7A或8A的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,指定背景指示。
条款10A.条款7A或8A的装置经配置以指定指示环境HOA系数中的哪些在所述位流的帧期间处于转变中的指示。
条款11A.条款8A的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,指定前景指示。
条款12A.条款7A到11A中的任一者的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入的相同第一帧期间是否淡出。
条款13A.条款7A到11A中的任一者的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出相同的第一帧期间是否淡出。
条款14A.权利要求7A到13A的任何组合的装置进一步经配置以基于多转变指示来指定描述对应前景音频信号的空间特性的向量,所述向量和所述对应HOA音频信号两者是从HOA音频数据分解的。
在图7的实例中,音频编码装置20可首先获得HOA音频数据(220)。音频编码装置20可耦合到一或多个麦克风,以捕获或以其它方式获得HOA音频数据。音频编码装置20可接下来以上文所描述的方式将HOA音频数据分解成向量和对应的前景音频对象(222)。音频编码装置20可在位流的第一帧中指定对应的前景音频对象。
音频编码装置20还可获得环境HOA系数在位流的前景音频对象处于转变中的帧期间是否处于转变中的多转变指示,如上文所描述(224)。音频编码装置20还可基于所述多转变指示获得向量(如上文所描述,表示对应前景音频信号的空间特性(226)。如上文所描述,所述向量和所述对应前景音频信号两者可从HOA音频数据分解。音频编码装置20可指定在位流的帧中获得的向量(228)。
所述技术可使经配置以执行图7中所示的条款1B的方面的音频编码装置20能够根据以下相关条款来操作。
条款2B.条款1B的装置(例如经配置以根据相对于图7的实例而描述的技术的各个方面操作的音频译码装置20)进一步经配置以获得在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示,且经配置以基于所述背景指示获得多转变指示。
条款3B.条款1B的装置进一步经配置以获得前景音频信号在位流的帧期间是否处于转变中的前景指示,且经配置以基于所述前景指示获得多转变指示。
条款4B.条款1B的装置进一步经配置以获得在位流的帧期间处于转变中的环境HOA系数的数目的背景指示,获得前景音频信号在位流的帧期间是否处于转变中的前景指示,且经配置以基于前景指示和背景指示获得多转变指示。
条款5B.条款2B或4B的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款6B.条款2B或4B的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款7B.条款3B或4B的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款8B.条款3B或4B的装置进一步经配置以获得第一帧是否为使第一帧能够不参考位流的第二帧来解码的独立帧的独立帧指示。
条款9B.条款8B的装置经配置以响应于指示第一帧是独立帧的独立帧指示而获得前景指示。
条款10B.条款8B的装置进一步经配置以响应于指示第一帧不是独立帧的独立帧指示且在位流中指定第二帧的输送声道的类型的指示。
条款11B.条款10B的装置经配置以获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款12B.条款10B的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,指定位流中的第一帧的输送声道的前景指示,所述前景指示基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款13B.条款10B的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款14B.条款12B或13B的装置,其中所述向量是从HOA音频数据分解的。
条款15B.条款1B到14B中的任一者的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入的相同第一帧期间是否淡入。
条款16B.条款1B到14B中的任一者的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出相同的第一帧期间是否淡出。
在图8的实例中,音频编码装置20可首先获得HOA音频数据(240)。音频编码装置20可耦合到一或多个麦克风,以捕获或以其它方式获得HOA音频数据。音频编码装置20可接下来以上文所描述的方式将HOA音频数据分解成向量和对应的前景音频对象(242)。音频编码装置20可在位流的第一帧中指定对应的前景音频对象。
音频编码装置20还可获得在位流的帧期间处于转变中的环境HOA系数的数目的背景指示(244)。音频编码装置20可基于以下各项中的一或多者:背景指示在帧中指定至少一个环境HOA系数、向量中的至少一者,以及前景音频对象中的至少一者(246)。
所述技术可使经配置以执行图8中所示的条款1C的方面的音频编码装置20能够根据以下相关条款来操作。
条款2C.条款1C的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款3C.条款1C的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款4C.条款1C的装置进一步经配置以基于背景指示,获得环境HOA系数在位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示。
条款5C.条款1C的装置进一步经配置以获得前景音频信号在位流的第一帧期间是否处于转变中的前景指示,所述前景音频信号描述由HOA音频数据表示且从HOA音频数据分解的声场的前景分量。
条款6C.条款5C的装置经配置以基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款7C.条款5C的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款8C.条款5C的装置进一步经配置以在位流的第一帧中指定第一帧是否为使第一帧能够在不参考位流的第二帧而解码的独立帧的独立帧指示。
条款9C.条款8C的装置经配置以响应于指示第一帧是独立帧的独立帧指示,在位流中指定前景指示帧。
条款10C.条款8C的装置进一步经配置以响应于指示第一帧不是独立帧的独立帧指示,获得第二帧的输送声道的类型的指示。
条款11C.条款10C的装置经配置以获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款12C.条款10C的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款13C.条款10C的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款14C.条款12C和13C的装置,其中所述向量是从HOA音频数据分解的。
条款15C.条款1C的装置进一步经配置以获得前景音频信号在位流的第一帧期间是否处于转变中的前景指示,所述前景音频信号描述由HOA音频数据表示且从HOA音频数据分解的声场组件前景分量,且基于所述前景指示,获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款16C.条款1C或15C的装置进一步经配置以基于前景指示、背景指示或前景指示和背景指示两者,获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款17C.条款15C或16C的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款18C.权利要求15C或16C的装置经配置以获得指示环境HOA系数中的哪些在位流的所述帧期间处于转变中的指示。
条款19C.条款16C的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款20C.条款4C到19C中的任一者的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入的相同第一帧期间是否淡入。
条款21C.条款4C到19C中的任一者的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出相同的第一帧期间是否淡出。
条款22C.条款1C到21C的任何组合的装置进一步经配置以基于多转变指示来获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应HOA音频信号两者是从HOA音频数据分解的。
在图9的实例中,音频编码装置20可首先获得HOA音频数据(260)。音频编码装置20可耦合到一或多个麦克风,以捕获或以其它方式获得HOA音频数据。音频编码装置20可接下来以上文所描述的方式将HOA音频数据分解成向量和对应的前景音频对象(262)。音频编码装置20可在位流的第一帧中指定对应的前景音频对象。
音频编码装置20还可获得前景音频对象在位流的帧期间是否处于转变中的前景指示(264)。音频编码装置20可基于背景指示在帧中指定以下各项中的一或多者:至少一个环境HOA系数、向量中的至少一者,以及前景音频对象中的至少一者(266)。
所述技术可使经配置以执行图9中所示的条款1D的方面的音频编码装置20能够根据以下相关条款来操作。
条款2D.条款1D的装置经配置以基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款3D.条款1D的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款4D.条款1D的装置进一步经配置以在位流的第一帧中指定第一帧是否为使第一帧能够在不参考位流的第二帧而解码的独立帧的独立帧指示。
条款5D.条款4D的装置经配置以响应于指示第一帧是独立帧的独立帧指示,在位流中指定前景指示帧。
条款6D.条款4D的装置进一步经配置以响应于指示第一帧不是独立帧的独立帧指示,获得第二帧的输送声道的类型的指示。
条款7D.条款6D的装置经配置以获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款8D.条款6D的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款9D.条款6D的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款10D.条款8D或9D的装置,其中所述向量是从HOA音频数据分解的。
条款11D.条款1D的装置进一步经配置以获得在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示,所述环境HOA系数描述由HOA音频数据表示的声场的环境分量。
条款12D.条款11D的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款13D.条款11D的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款14D.条款1D或11D的装置进一步经配置以基于背景指示、背景指示或前景指示和背景指示两者,获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款15D.条款14D的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入的相同第一帧期间是否淡入。
条款16D.条款14D的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出的相同第一帧期间是否淡出。
条款17D.条款14D到16D的任何组合的装置进一步经配置以基于多转变指示来获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应HOA音频信号两者是从HOA音频数据分解的。
图10到13是说明音频解码装置24在执行本发明中描述的技术的各个方面时的实例操作的流程图。在图10的实例中,音频解码装置24可从位流的第一帧获得第一帧是否为使第一帧能够在不参考位流的第二帧而解码的独立帧的独立帧指示(300)。音频解码装置24还可响应于指示第一帧是独立帧的独立帧指示,获得第一帧的输送声道的前景指示(302)。如上文所描述,前景指示可指示第二帧的相同输送声道是否包含从高阶立体混响音频数据分解的前景音频信号。
音频解码装置24可接下来基于前景指示(其如上文所描述,可从HOA音频数据分解),从第一帧获得前景音频信号(304)。音频解码装置24可基于前景音频信号重构HOA音频数据,将HOA音频数据渲染到扩音器馈送,且输出所述扩音器馈送以驱动一或多个扩音器(306到310)。音频解码装置24可包含或以其它方式耦合到扩音器。
所述技术可使经配置以执行图10中所示的条款1AA的方面的音频解码装置24能够根据以下相关条款来操作。
条款2AA.条款1AA的装置进一步经配置以响应于指示第一帧不是独立帧的独立帧指示,获得第二帧的输送声道的类型的指示。
条款3AA.条款2AA的装置经配置以获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款4AA.条款2AA的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款5AA.条款1AA的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款6AA.条款4AA或5AA的装置,其中所述向量是从HOA音频数据分解的。
条款7AA.条款1AA的装置进一步经配置以获得在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示,且基于所述背景指示,获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款8AA.条款1AA或7AA的装置进一步经配置以基于前景指示,获得背景指示或前景指示和背景指示两者,环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款9A.条款7AA或8AA的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款10AA.条款7AA或8AA的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款11AA.条款8AA的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款12AA.条款7AA到11AA的任何组合的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入相同的第一帧期间是否淡出。
条款13AA.条款7AA到11AA的任何组合的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出相同的第一帧期间是否淡出。
条款14AA.条款7AA到13AA的任何组合的装置进一步经配置以基于多转变指示来获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应HOA音频信号两者是从HOA音频数据分解的。
在图11的实例中,音频解码装置24可获得环境HOA系数在位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示(320)。音频解码装置24还可基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量(322)。如上文所描述,所述向量和所述对应HOA音频信号两者可从HOA音频数据分解。
音频解码装置24可基于向量重构HOA音频数据,将HOA音频数据渲染到扩音器馈送,且输出所述扩音器馈送以驱动一或多个扩音器(324到328)。音频解码装置24可包含或以其它方式耦合到扩音器。
所述技术可使经配置以执行图11中所示的条款1BB的方面的音频解码装置24能够根据以下相关条款来操作。
条款2BB.条款1BB的装置进一步经配置以获得在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示,且经配置以基于所述背景指示获得多转变指示。
条款3BB.条款1BB的装置进一步经配置以获得前景音频信号在位流的帧期间是否处于转变中的前景指示,且经配置以基于所述前景指示获得多转变指示。
条款4BB.条款1BB的装置进一步经配置以获得在位流的帧期间处于转变中的环境HOA系数的数目的背景指示,获得前景音频信号在位流的帧期间是否处于转变中的前景指示,且经配置以基于前景指示和背景指示获得多转变指示。
条款5BB.条款2BB或4BB的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款6BB.条款2BB或4BB的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款7BB.条款3BB或4BB的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款8BB.条款3BB或4BB的装置进一步经配置以从位流的第一帧获得第一帧是否为使第一帧能够在不参考位流的第二帧而解码的独立帧的独立帧指示。
条款9BB.条款8BB的装置经配置以响应于指示第一帧是独立帧的独立帧指示,从位流获得前景指示帧。
条款10BB.条款8BB的装置进一步经配置以响应于指示第一帧不是独立帧的独立帧指示,获得第二帧的输送声道的类型的指示。
条款11BB.条款10BB的装置经配置以获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款12BB.条款10BB的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款13B.条款10BB的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款14BB.条款12BB或13BB的装置,其中所述向量是从HOA音频数据分解的。
条款15BB.条款1BB到14BB的任何组合的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入相同的第一帧期间是否淡入。
条款16BB.条款1BB到14BB的任何组合的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出相同的第一帧期间是否淡出。
在图12的实例中,音频解码装置24可获得在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示(340)。如上文所描述,环境HOA系数可描述由HOA音频数据表示的声场的环境分量。音频解码装置24可基于背景指示从第一帧获得至少一个环境HOA系数、至少一个向量和至少一个前景音频信号中的一或多者(342)。
音频解码装置24可基于至少一个环境HOA系数、至少一个向量和至少一个前景音频信号中的一或多者,重构音频数据(344)。音频解码装置24可将HOA音频数据渲染到扩音器馈送,且输出所述扩音器馈送以驱动一或多个扩音器(346,348)。并且,音频解码装置24可包含或以其它方式耦合到扩音器。
所述技术可使经配置以执行图12中所示的条款1CC的方面的音频解码装置24能够根据以下相关条款来操作。
条款2CC.条款1CC的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款3CC.条款1CC的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款4CC.条款1CC的装置进一步经配置以基于背景指示,获得环境HOA系数在位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示。
条款5CC.条款1CC的装置进一步经配置以获得前景音频信号在位流的第一帧期间是否处于转变中的前景指示,所述前景音频信号描述由HOA音频数据表示且从HOA音频数据分解的声场的前景分量。
条款6CC.条款5CC的装置经配置以基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款7CC.条款5CC的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款8CC.条款5CC的装置进一步经配置以从位流的第一帧获得第一帧是否为使第一帧能够在不参考位流的第二帧而解码的独立帧的独立帧指示。
条款9CC.条款8CC的装置经配置以响应于指示第一帧是独立帧的独立帧指示,从位流获得前景指示帧。
条款10CC.条款8CC的装置进一步经配置以响应于指示第一帧不是独立帧的独立帧指示,获得第二帧的输送声道的类型的指示。
条款11CC.条款10CC的装置经配置以获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款12CC.条款10CC的装置在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款13CC.条款10CC的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款14CC.条款12CC或13CC的装置,其中所述向量是从HOA音频数据分解的。
条款15CC.条款1CC的装置进一步经配置以获得前景音频信号在位流的第一帧期间是否处于转变中的前景指示,所述前景音频信号描述由HOA音频数据表示且从HOA音频数据分解的声场组件前景分量,且基于所述前景指示,获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款16CC.条款1CC或15CC的装置进一步经配置以基于前景指示,获得背景指示或前景指示和背景指示两者,环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款17CC.条款15CC或16CC的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款18CC.条款15CC或16CC的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款19CC.条款16CC的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款20CC.条款4CC到19CC的任何组合的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入相同的第一帧期间是否淡入。
条款21CC.条款4CC到19CC的任何组合的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出相同的第一帧期间是否淡出。
条款22CC.条款1CC到21CC的任何组合的装置进一步经配置以基于多转变指示来获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应HOA音频信号两者是从HOA音频数据分解的。
在图13的实例中,音频解码装置24还可获得前景音频信号在位流的帧期间是否处于转变中的前景指示(360)。音频解码装置24可基于所述前景指示从所述帧获得以下各项中的一或多者:至少一个环境HOA系数、向量中的至少一者,以及前景音频对象中的至少一者(362)。
频解码装置24可基于至少一个环境HOA系数、至少一个向量和至少一个前景音频信号中的一或多者,音重构HOA音频数据(364)。音频解码装置24可将HOA音频数据渲染到扩音器馈送,且输出所述扩音器馈送以驱动一或多个扩音器(366,368)。并且,音频解码装置24可包含或以其它方式耦合到扩音器。
所述技术可使经配置以执行图13中所示的条款1DD的方面的音频解码装置24能够根据以下相关条款来操作。
条款2DD.条款1DD的装置经配置以基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款3DD.条款1DD的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,基于位流的第二帧的输送声道的类型的指示,获得前景指示。
条款4DD.条款1DD的装置进一步经配置以从位流的第一帧获得第一帧是否为使第一帧能够在不参考位流的第二帧而解码的独立帧的独立帧指示。
条款5DD.条款4DD的装置经配置以响应于指示第一帧是独立帧的独立帧指示,从位流获得前景指示帧。
条款6DD.条款4DD的装置进一步经配置以响应于指示第一帧不是独立帧的独立帧指示,获得第二帧的输送声道的类型的指示。
条款7DD.条款6DD的装置经配置以获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款8DD.条款6DD的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的前景指示,其基于第二帧的输送声道的类型的指示,来指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款9DD.条款6DD的装置经配置以在对应于前景音频信号的向量的译码模式指示向量是减小的向量时,获得第一帧的输送声道的独立帧指示,其指示第二帧的同一输送声道是否包含基于向量的音频信号。
条款10DD.条款8DD或9DD的装置,其中所述向量是从HOA音频数据分解的。
条款11DD.条款1DD的装置进一步经配置以获得在位流的第一帧期间处于转变中的环境HOA系数的数目的背景指示,所述环境HOA系数描述由HOA音频数据表示的声场的环境分量。
条款12DD.条款11DD的装置经配置以响应于指示相对于环境HOA系数中的一者已发生转变的指示,获得背景指示。
条款13DD.条款11DD的装置经配置以获得指示环境HOA系数中的哪些在位流的帧期间处于转变中的指示。
条款14DD.条款1DD或11DD的装置进一步经配置以基于背景指示、背景指示或前景指示和背景指示两者,获得环境HOA系数在位流的与前景音频信号处于转变中相同的第一帧期间是否处于转变中的多转变指示。
条款15DD.条款14DD的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡入的相同第一帧期间是否淡入。
条款16DD.条款14DD的装置,其中所述多转变指示指示环境HOA系数在位流的与前景音频信号淡出的相同第一帧期间是否淡出。
条款17DD.权利要求14DD到16DD的任何组合的装置进一步经配置以基于多转变指示来获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应HOA音频信号两者是从HOA音频数据分解的。
所述技术的额外方面可针对以下各项,其中各种表和章节编号参考上文所述的3D音频译码标准的阶段I或II。下文的带下划线的斜体项表示对上文所述的3D音频译码标准的阶段I或II的添加。
HOA矩阵编码器/解码器
为了在位流中发信号通知HOA渲染矩阵,以至多达0.125dB每加权值的准确性来量化HOA渲染矩阵。然而,如果所要的渲染矩阵已故意设计成经能量归一化,那么此量化噪声导致经解码的HOA渲染矩阵不再能量归一化。因此,提出将经去量化的渲染矩阵重新归一化到其原始能量归一化状态的选项。
在表23中—HOARenderingMatrix()的语法将:
precisionLevel | 2 | uimsbf |
if(gainLimitPerHoaOrder){ | 1 | uimsbf |
替换成:
precisionLevel | 2 | uimsbf |
isNormalized | 1 | uimsbf |
if(gainLimitPerHoaOrder){ | 1 | uimsbf |
在子条款5.3.6中,HOA渲染矩阵数据元素添加在precisionLevel之前:
在表245.4.3.3中,在以下情况之后进行HOA渲染矩阵系数的解码:
在此情况下,因此减少或完全省略用以为左扩音器解码个别矩阵元素的码字。
添加:
如果将位字段isNormalized设定成1,那么通过将与非LFE扩音器相关联的HOA渲染矩阵的L个行中的每一加权值除以从其与非LFE扩音器相关联的L个行计算的矩阵的范数来创建最终HOA渲染矩阵D。
在子条款12.4.1.10.2中,将:
向量码簿的大小取决于值NumVvecIndices以及HOA次序。如果变量NumVvecIndices设定成1,那么使用含有从附件F导出的HOA扩展系数的向量码簿。如果NumVvecIndices大于1,那么将具有O向量的向量码簿与256x8加权值(附件F.12中的表)组合使用。对于HOA次序4,使用具有如从附件F.6中的表导出的32个条目的向量码簿。
替换成:
向量码簿的大小取决于值CodebkIdx(k)[i],值NumVvecIndices(k)[i]以及HOA次序。如果NumVvecIndices大于1,那么使用256x8加权值(附件F.12中的表)。如果 NumVvecIndices大于8,那么结合模数算子反复地使用256x8加权值(附件F.12中的表)的最 后2列。
如果将CodebkIdx(k)[i]设定为0,那么使用含有从附件F导出的HOA扩展系数的码簿。
如果将CodebkIdx(k)[i]设定为1,那么基于表94中的扩音器位置(第2和第3列)产
生V向量码簿,且结合按比例缩放使用。如果将CodebkIdx(k)[i]设定为2,那么产生基于表
94中的扩音器位置(第2和第3列)V向量码簿,且不结合进一步按比例缩放使用。
如果CodebkIdx(k)设定成7,那么使用具有O向量的向量。对于HOA次序4,使用具有如从附件F.6中的表导出的32个条目的向量码簿。
在子条款12.4.1.10.2中,将:
替换成:
在子条款12.4.1.10.5中,VVec元素的转换将:
替换成:
在子条款12.4.1.10.5中,VVec元素的转换将:
if(PFlag(k)[i]==1){
v(i) VVecCoeffId[m](k)+=v(i) VVecCoeffId[m](k-1);
}
替换成:
if(PFlag(k)[i]==1){
v(i) VVecCoeffId[m](k)+=floor(0.5+v(i) VVecCoeffId[m](k-1)*214)*2-14;
}
在子条款12.4.1.10.6之前,添加元组集合
去除我?
添加作为附件F.XXX 34球面坐标中的分布式位置
在子条款12.4.2.4.4.2中,V向量的空间-时间内插将:
—如果存在在(包含于集合中的索引的)第k个帧期间明确地另外发射并淡入的环境HOA组件的系数序列,HOA表示的相应系数序列必须使用窗wDIR的淡出部分来淡出。
替换成:
—如果存在在(包含于集合中的索引的)第k个帧期间明确地另外发射并淡入的环境HOA组件的系数序列,那么HOA表示的相应系数序列必须使用窗wDIR的淡出部分来淡出。通过将其设定为零,将 中的相应v向量元素从在之后的帧k+1中的空间-时 间内插丢弃。
可相对于任何数目个不同情形和音频生态系统执行前述技术。下文描述若干实例情境,但所述技术应限于所述实例情境。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、译码引擎、游戏音频符尾、游戏音频译码/渲染引擎和递送系统。
所述电影工作室、所述音乐工作室和所述游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于声道的音频内容(例如,呈2.0、5.1和7.1)。音乐工作室可例如通过使用DAW输出基于声道的音频内容(例如,呈2.0和5.1)。在任一情况下,译码引擎可基于一或多个编解码器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比数字加(Dolby Digital Plus)以及DTS主音频)接收并编码基于声道的音频内容以供递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频原声。所述游戏音频编码/渲染引擎可译码所述音频原声和/或将所述音频原声渲染为基于声道的音频内容以供所述递送系统输出。可执行所述技术的另一实例情境包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费者装置上捕获、HOA音频格式、装置上呈现、消费者音频、TV和附件以及汽车音频系统。
所述广播记录音频对象、所述专业音频系统和所述消费者装置上捕获都可使用HOA音频格式对其输出进行编码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上渲染、消费型音频、TV和附件以及汽车音频系统来重放所述单一表示。换句话说,可在通用音频重放系统(即,与需要例如5.1、7.1等的特定配置相比)(例如音频重放系统16)处重放所述音频内容的所述单一表示。
可执行所述技术的情境的其它实例包含音频生态系统,其可包含获取元件和重放元件。获取元件可包含有线和/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获和移动装置(例如,智能电话和平板计算机)。在一些实例中,有线和/或无线获取装置可经由有线及/或无线通信声道耦合到移动装置。
根据本发明的一或多种技术,所述移动装置可用于获取声场。举例来说,移动装置可经由有线和/或无线获取装置和/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取的声场译码成HOA系数以供重放元件中的一或多者重放。举例来说,所述移动装置的用户可记录实况事件(例如会面、会议、演奏会、音乐会等)(获取其声场),并将记录译码成HOA系数。
所述移动装置还可利用重放元件中的一或多者来重放经HOA译码的声场。举例来说,移动装置可对经HOA译码的声场进行解码,且将致使重放元件中的一或多者重新创建声场的信号输出到重放元件中的一或多者。作为一个实例,移动装置可利用无线和/或无线通信声道来将信号输出到一或多个扬声器(例如扬声器阵列、声棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出到一或多个对接站和/或一或多个对接的扬声器(例如,智能汽车和/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机渲染来将信号输出到一组头戴式耳机(例如)以产生实际的立体声声音。
在一些实例中,特定移动装置可获取3D声场,且在稍后时间重放同一3D声场。在一些实例中,移动装置可获取3D声场、将所述3D声场编码为HOA,且将经编码的3D声场传输到一或多个其它装置(例如,其它移动装置和/或其它非移动装置)以供重放。
可执行所述技术的又一情境包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、渲染引擎和递送系统。在一些实例中,所述游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含可被配置以与一或多个游戏音频系统一起操作(例如,一起工作)的HOA插件和/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码的音频内容输出到渲染引擎,所述渲染引擎可渲染声场以供递送系统重放。
也可相对于示范性音频获取装置执行所述技术。举例来说,所述技术可相对于可包含共同地经配置以记录3D声场的多个麦克风的本征麦克风来执行。在一些实例中,本征麦克风的多个麦克风可位于具有大约4cm的半径的大致球体的表面上。在一些实例中,音频编码装置20可集成到本征麦克风中,以便直接从麦克风输出位流21。
另一示范性音频获取情境可包含可经配置以从一或多个麦克风(例如,一或多个本征麦克风)接收信号的制作车。制作车还可包含音频编码器,例如图3的音频编码器20。
在一些情况下,移动装置也可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图3的音频编码器20。
加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到所述用户的头盔。以此方式,所述加固型视频捕获装置可捕获表示在用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在所述用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加了一或多个配件。举例来说,本征麦克风可附接到上文所提到的移动装置以形成配件增强型移动装置。以此方式,配件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与附件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中描述的技术的各个方面的实例音频重放装置。根据本发明的一或多种技术,扬声器和/或声棒在重放3D声场时可布置于任何任意的配置中。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多种技术,可利用声场的单一通用表示来在扬声器、声棒和头戴式耳机重放装置的任何组合上渲染声场。
多个不同实例音频重放环境还可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,以及具有耳芽(earbud)重放环境的移动装置。
根据本发明的一或多种技术,可利用声场的单一通用表示来在前述重放环境中的任一者上渲染声场。另外,本发明的技术使得呈现器能够从通用表示呈现声场以供在除上文所描述的环境之外的播放环境上播放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器重放环境的恰当置放(例如,如果不可能放置右环绕扬声器),那么本发明的技术使得渲染器能够用其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。
此外,用户可在佩戴头戴式耳机时观看体育比赛。根据本发明的一或多种技术,可获取体育比赛的3D声场(例如,可将一或多个本征麦克风放置在棒球场中和/或周围),可获得对应于3D声场的HOA系数,且将所述HOA系数发射到解码器,所述解码器可基于HOA系数重构3D声场且将经重构3D声场输出到渲染器,所述渲染器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重构3D声场渲染为致使头戴式耳机输出所述体育比赛的3D声场的表示的信号。
在上文所述的各种实例中的每一者中,应理解,音频编码装置20可执行一种方法或以其它方式包括用以执行所述方法的每一步骤的装置,上文将音频编码装置20描述为执行所述方法。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令来配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频编码装置20已经配置以执行的方法。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合来实施。如果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或以其它方式包括用于执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令来配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时使所述一或多个处理器执行音频解码装置24已被配置以执行的方法。
作为实例而非限制,此类计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。但是,应理解,所述计算机可读存储媒体及数据存储媒体并不包括连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可在经配置以用于编码和解码的专用硬件和/或软件模块内提供,或并入在组合编解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在各种各样的装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。
Claims (45)
1.一种经配置以解码表示高阶立体混响HOA音频数据的位流的装置,所述装置包括:
一或多个处理器,其经配置以:
获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;以及
基于所述多转变指示获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解;
存储器,其耦合到所述一或多个处理器,且经配置以存储所述向量。
2.根据权利要求1所述的装置,
其中所述一或多个处理器进一步经配置以获得在所述位流的所述帧期间处于转变中的环境HOA系数的数目的背景指示,且
其中所述一或多个处理器经配置以基于所述背景指示获得所述多转变指示。
3.根据权利要求2所述的装置,其中所述一或多个处理器经配置以响应于指示相对于所述环境HOA系数中的一者已发生转变的指示,获得所述背景指示。
4.根据权利要求2所述的装置,其中所述一或多个处理器经配置以获得指示所述环境HOA系数中的哪些在所述位流的所述帧期间处于转变中的指示。
5.根据权利要求1所述的装置,
其中所述一或多个处理器进一步经配置以获得前景音频信号在所述位流的所述帧期间是否处于转变中的前景指示,且
其中所述一或多个处理器经配置以基于所述前景指示获得所述多转变指示。
6.根据权利要求1所述的装置,其中所述多转变指示指示所述环境HOA系数在所述位流的与所述前景音频信号淡入相同的帧期间是否淡入。
7.根据权利要求1所述的装置,其中所述多转变指示指示所述环境HOA系数在所述位流的与所述前景音频信号淡出相同的帧期间是否淡出。
8.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以:
基于所述向量重构所述HOA音频数据;以及
基于所述HOA音频数据,渲染一或多个扩音器馈送。
9.根据权利要求8所述的装置,其进一步包括一或多个扩音器,
其中所述一或多个处理器进一步经配置以输出所述一或多个扩音器馈送,以驱动所述一或多个扩音器。
10.根据权利要求8所述的装置,其中所述装置包括电视机,所述电视机包含一或多个集成扩音器,且
其中所述一或多个处理器进一步经配置以输出所述一或多个扩音器馈送,以驱动所述一或多个扩音器。
11.根据权利要求8所述的装置,其中所述装置包括接收器,所述接收器耦合到一或多个扩音器,且
其中所述一或多个处理器进一步经配置以输出所述一或多个扩音器馈送,以驱动所述一或多个扩音器。
12.一种解码表示高阶立体混响HOA音频数据的位流的方法,所述方法包括:
获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;以及
基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解。
13.根据权利要求12所述的方法,其进一步包括:
获得在所述位流的所述帧期间处于转变中的环境HOA系数的数目的背景指示;
以及
获得前景音频信号在所述位流的所述帧期间是否处于转变中的前景指示,
其中获得所述多转变指示包括基于所述前景指示和所述背景指示,获得所述多转变指示。
14.根据权利要求13所述的方法,其中获得所述背景指示包括响应于指示相对于所述环境HOA系数中的一者已发生转变的指示,获得所述背景指示。
15.根据权利要求13所述的方法,其进一步包括获得指示所述环境HOA系数中的哪些在所述位流的所述帧期间处于转变中的指示。
16.根据权利要求13所述的方法,其中获得所述前景指示包括在对应于所述前景音频信号的所述向量的译码模式指示所述向量是减小的向量时,基于所述位流的不同帧的输送声道的类型的指示,获得所述前景指示。
17.根据权利要求13所述的方法,其进一步包括从所述位流的所述帧,获得所述第一帧是否为使所述帧能够不参考所述位流的不同帧来解码的独立帧的独立帧指示。
18.根据权利要求17所述的方法,其中获得所述前景指示包括响应于所述独立帧指示指示所述第一帧是独立帧,从所述位流获得所述前景指示。
19.根据权利要求17所述的方法,其进一步包括响应于所述独立帧指示指示所述第一帧不是独立帧,获得所述不同帧的所述输送声道的类型的指示。
20.根据权利要求19所述的方法,其中获得所述前景指示包括基于所述不同帧的所述输送声道的所述类型的所述指示,获得所述帧的所述输送声道的所述前景指示,其指示所述不同帧的所述相同输送声道是否包含所述基于向量的音频信号。
21.根据权利要求19所述的方法,其中获得所述前景指示包括在对应于所述前景音频信号的向量的译码模式指示所述向量是减小的向量时,基于所述不同帧的所述输送声道的所述类型的所述指示,获得所述帧的所述输送声道的所述前景指示,其指示所述不同帧的所述相同输送声道是否包含所述基于向量的音频信号。
22.根据权利要求19所述的方法,其中获得所述独立帧指示包括在对应于所述前景音频信号的所述向量的译码模式指示所述向量是减小的向量时,获得所述帧的所述输送声道的所述独立帧指示,其指示所述不同帧的所述相同输送声道是否包含所述基于向量的音频信号。
23.根据权利要求12所述的方法,
其中所述方法由耦合到一或多个扩音器的装置执行,
其中所述方法进一步包括:
基于所述向量来重构所述HOA音频数据;
基于所述HOA音频数据,渲染一或多个扩音器馈送;以及
输出所述一或多个扩音器馈送以驱动所述一或多个扩音器。
24.根据权利要求23所述的方法,
其中所述装置包括电视机,且
其中所述一或多个扩音器包括集成在所述电视机内的一或多个扩音器。
其中所述一或多个处理器进一步经配置以输出所述一或多个扩音器馈送,以驱动所述一或多个扩音器。
25.根据权利要求23所述的方法,其中所述装置包括接收器。
26.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时致使一或多个处理器:
获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;以及
基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解。
27.一种用于解码表示高阶立体混响HOA音频数据的位流的装置,所述装置包括:
用于获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示的装置;以及
用于基于所述多转变指示获得描述对应前景音频信号的空间特性的向量的装置,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解。
28.一种经配置以编码表示高阶立体混响HOA音频数据的位流的装置,所述装置包括:
一或多个处理器,其经配置以:
获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;以及
基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解;以及
存储器,其耦合到所述一或多个处理器,且经配置以存储所述向量。
29.根据权利要求28所述的装置,
其中所述一或多个处理器进一步经配置以响应于指示相对于所述环境HOA系数中的一者已发生转变的指示,获得在所述位流的所述帧期间处于转变中的环境HOA系数的数目的背景指示,且
其中所述一或多个处理器经配置以基于所述背景指示获得所述多转变指示。
30.根据权利要求28所述的装置,
其中所述一或多个处理器进一步经配置以在对应于所述前景音频信号的所述向量的译码模式指示所述向量是减小的向量时,且基于所述位流的不同帧的输送声道的类型的指示,获得前景音频信号在所述位流的所述帧期间是否处于转变中的前景指示,且
其中所述一或多个处理器经配置以基于所述前景指示获得所述多转变指示。
31.根据权利要求28所述的装置,其中所述多转变指示指示所述环境HOA系数在所述位流的与所述前景音频信号淡入相同的帧期间是否淡入。
32.根据权利要求28所述的装置,其中所述多转变指示指示所述环境HOA系数在所述位流的与所述前景音频信号淡出相同的帧期间是否淡出。
33.根据权利要求28所述的装置,其进一步包括麦克风,所述麦克风经配置以捕获所述HOA音频数据或其表示。
34.一种编码表示高阶立体混响HOA音频数据的位流的方法,所述方法包括:
获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;以及
基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解。
35.根据权利要求34所述的方法,其进一步包括:
响应于指示相对于所述环境HOA系数中的一者已发生转变的指示,获得在所述位流的所述帧期间处于转变中的环境HOA系数的数目的背景指示,
在位流中,当对应于所述前景音频信号的所述向量的译码模式指示所述向量是减小的向量时,且基于所述位流的不同帧的输送声道类型的指示,指定前景音频信号在所述位流的所述帧期间是否处于转变中的前景指示,且
其中获得所述多转变指示包括基于所述前景指示和所述背景指示,获得所述多转变指示。
36.根据权利要求35所述的方法,其中获得所述前景指示包括在位流中且在对应于所述前景音频信号的所述向量的译码模式指示所述向量是减小的向量时,指定所述前景指示。
37.根据权利要求35所述的方法,其进一步包括在所述位流的所述帧中,指定所述帧是否为使所述帧能够不参考所述位流的不同帧来解码的独立帧的独立帧指示。
38.根据权利要求37所述的方法,其中获得所述前景指示包括响应于所述独立帧指示指示所述帧是独立帧,从所述位流获得所述前景指示。
39.根据权利要求37所述的方法,其进一步包括响应于所述独立帧指示指示所述帧不是独立帧,获得所述不同帧的所述输送声道的类型的指示。
40.根据权利要求37所述的方法,其中获得所述前景指示包括基于所述不同帧的所述输送声道的所述类型的所述指示,获得所述帧的所述输送声道的所述前景指示,其指示所述不同帧的所述相同输送声道是否包含所述基于向量的音频信号。
41.根据权利要求40所述的方法,其中基于所述不同帧的所述输送声道的所述类型的所述指示,获得所述前景指示包括在对应于所述前景音频信号的所述向量的译码模式指示所述向量是减小的向量时,获得所述帧的所述输送声道的所述前景指示,其指示所述不同帧的所述相同输送声道是否包含所述基于向量的音频信号。
42.根据权利要求40所述的方法,其中获得所述独立帧指示包括在对应于所述前景音频信号的所述向量的译码模式指示所述向量是减小的向量时,获得所述帧的所述输送声道的所述独立帧指示,其指示所述不同帧的所述相同输送声道是否包含所述基于向量的音频信号。
43.根据权利要求34所述的方法,
其中所述方法由耦合到麦克风的装置执行,且
其中所述方法进一步包括用所述麦克风捕获所述HOA音频数据或其表示。
44.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时致使一或多个处理器:
获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示;以及
基于所述多转变指示,获得描述对应前景音频信号的空间特性的向量,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解。
45.一种用于编码表示高阶立体混响HOA音频数据的位流的装置,所述装置包括:
用于获得环境HOA系数在所述位流的与前景音频信号处于转变中相同的帧期间是否处于转变中的多转变指示的装置;以及
用于基于所述多转变指示获得描述对应前景音频信号的空间特性的向量的装置,所述向量和所述对应前景音频信号两者已从所述HOA音频数据分解。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562241665P | 2015-10-14 | 2015-10-14 | |
US62/241,665 | 2015-10-14 | ||
US15/290,229 | 2016-10-11 | ||
US15/290,229 US9959880B2 (en) | 2015-10-14 | 2016-10-11 | Coding higher-order ambisonic coefficients during multiple transitions |
PCT/US2016/056625 WO2017066312A1 (en) | 2015-10-14 | 2016-10-12 | Coding higher-order ambisonic coefficients during multiple transitions |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108141690A true CN108141690A (zh) | 2018-06-08 |
CN108141690B CN108141690B (zh) | 2021-03-02 |
Family
ID=57178550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680059641.1A Active CN108141690B (zh) | 2015-10-14 | 2016-10-12 | 在多个转变期间译码高阶立体混响系数 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9959880B2 (zh) |
EP (1) | EP3363213B1 (zh) |
JP (1) | JP6605725B2 (zh) |
KR (1) | KR102077412B1 (zh) |
CN (1) | CN108141690B (zh) |
CA (1) | CA2999289C (zh) |
WO (1) | WO2017066312A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113994425A (zh) * | 2019-06-24 | 2022-01-28 | 高通股份有限公司 | 基于为心理声学音频编解码确定的比特分配对空间分量进行量化 |
CN114008705A (zh) * | 2019-06-24 | 2022-02-01 | 高通股份有限公司 | 基于操作条件执行心理声学音频编解码 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9959880B2 (en) * | 2015-10-14 | 2018-05-01 | Qualcomm Incorporated | Coding higher-order ambisonic coefficients during multiple transitions |
BR112020015835A2 (pt) | 2018-04-11 | 2020-12-15 | Dolby International Ab | Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof |
GB2582748A (en) * | 2019-03-27 | 2020-10-07 | Nokia Technologies Oy | Sound field related rendering |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104285390A (zh) * | 2012-05-14 | 2015-01-14 | 汤姆逊许可公司 | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 |
US20150213809A1 (en) * | 2014-01-30 | 2015-07-30 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US20150213803A1 (en) * | 2014-01-30 | 2015-07-30 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US9082198B2 (en) * | 2012-10-19 | 2015-07-14 | Qualcomm Technologies, Inc. | Method for creating automatic cinemagraphs on an imagine device |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
US9959880B2 (en) * | 2015-10-14 | 2018-05-01 | Qualcomm Incorporated | Coding higher-order ambisonic coefficients during multiple transitions |
-
2016
- 2016-10-11 US US15/290,229 patent/US9959880B2/en active Active
- 2016-10-12 WO PCT/US2016/056625 patent/WO2017066312A1/en active Application Filing
- 2016-10-12 CA CA2999289A patent/CA2999289C/en active Active
- 2016-10-12 KR KR1020187009995A patent/KR102077412B1/ko active IP Right Grant
- 2016-10-12 JP JP2018519046A patent/JP6605725B2/ja active Active
- 2016-10-12 EP EP16784721.9A patent/EP3363213B1/en active Active
- 2016-10-12 CN CN201680059641.1A patent/CN108141690B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104285390A (zh) * | 2012-05-14 | 2015-01-14 | 汤姆逊许可公司 | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 |
US20150213809A1 (en) * | 2014-01-30 | 2015-07-30 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US20150213803A1 (en) * | 2014-01-30 | 2015-07-30 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113994425A (zh) * | 2019-06-24 | 2022-01-28 | 高通股份有限公司 | 基于为心理声学音频编解码确定的比特分配对空间分量进行量化 |
CN114008705A (zh) * | 2019-06-24 | 2022-02-01 | 高通股份有限公司 | 基于操作条件执行心理声学音频编解码 |
Also Published As
Publication number | Publication date |
---|---|
CN108141690B (zh) | 2021-03-02 |
US20170110140A1 (en) | 2017-04-20 |
EP3363213B1 (en) | 2021-09-29 |
WO2017066312A1 (en) | 2017-04-20 |
JP6605725B2 (ja) | 2019-11-13 |
EP3363213A1 (en) | 2018-08-22 |
CA2999289C (en) | 2021-10-19 |
KR20180068974A (ko) | 2018-06-22 |
US9959880B2 (en) | 2018-05-01 |
BR112018007574A2 (pt) | 2018-10-23 |
KR102077412B1 (ko) | 2020-02-13 |
JP2018534617A (ja) | 2018-11-22 |
CA2999289A1 (en) | 2017-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106104680B (zh) | 将音频信道插入到声场的描述中 | |
CN106463121B (zh) | 较高阶立体混响信号压缩 | |
KR102032021B1 (ko) | 고차 앰비소닉스 오디오 신호들로부터 분해된 벡터들의 코딩 | |
CN106415714B (zh) | 译码环境高阶立体混响系数的独立帧 | |
KR101962000B1 (ko) | 고차 앰비소닉 (hoa) 백그라운드 채널들 간의 상관의 감소 | |
CN106471577B (zh) | 在高阶立体混响系数中的标量与向量之间进行确定 | |
CN106575506A (zh) | 高阶立体混响音频数据的中间压缩 | |
KR102329373B1 (ko) | 고차 앰비소닉 오디오 신호들로부터 분해된 코딩 벡터들에 대한 코드북들 선택 | |
CN106471576B (zh) | 高阶立体混响系数的闭环量化 | |
CN106796794A (zh) | 环境高阶立体混响音频数据的归一化 | |
CN108141690A (zh) | 在多个转变期间译码高阶立体混响系数 | |
CN106415712B (zh) | 用于渲染高阶立体混响系数的装置和方法 | |
CN106465029B (zh) | 用于渲染高阶立体混响系数及产生位流的装置和方法 | |
TWI827687B (zh) | 音訊資料之靈活渲染 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |