CN106575506B - 用于执行高阶立体混响音频数据的中间压缩的装置和方法 - Google Patents
用于执行高阶立体混响音频数据的中间压缩的装置和方法 Download PDFInfo
- Publication number
- CN106575506B CN106575506B CN201580044523.9A CN201580044523A CN106575506B CN 106575506 B CN106575506 B CN 106575506B CN 201580044523 A CN201580044523 A CN 201580044523A CN 106575506 B CN106575506 B CN 106575506B
- Authority
- CN
- China
- Prior art keywords
- audio data
- higher order
- order ambisonic
- audio
- processors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 230000006835 compression Effects 0.000 title claims abstract description 62
- 238000007906 compression Methods 0.000 title claims abstract description 62
- 230000015654 memory Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 174
- 238000006243 chemical reaction Methods 0.000 claims description 46
- 238000000354 decomposition reaction Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 20
- 230000006837 decompression Effects 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 description 55
- 238000013139 quantization Methods 0.000 description 35
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 22
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 230000009467 reduction Effects 0.000 description 18
- 239000000203 mixture Substances 0.000 description 14
- 238000009877 rendering Methods 0.000 description 14
- 238000009472 formulation Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 239000011229 interlayer Substances 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 238000005562 fading Methods 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- ZAKOWWREFLAJOT-CEFNRUSXSA-N D-alpha-tocopherylacetate Chemical compound CC(=O)OC1=C(C)C(C)=C2O[C@@](CCC[C@H](C)CCC[C@H](C)CCCC(C)C)(C)CCC2=C1C ZAKOWWREFLAJOT-CEFNRUSXSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010612 desalination reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
- H04H20/89—Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/02—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
- H04H60/07—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information characterised by processes or methods for the generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一般来说,技术是针对高阶立体混响音频数据的中间压缩。举例来说,一种包括处理器和存储器的装置可经配置以执行所述技术。所述存储器可经配置以存储由于高阶立体混响音频数据的中间压缩而产生的经中间格式化的音频数据。所述一或多个处理器可经配置以处理所述经中间格式化的音频数据。
Description
本申请案主张以下各美国临时申请案的权益:
2014年8月29日申请的标题为“高阶立体混响音频数据的夹层压缩(MEZZANINECOMPRESSION FOR HIGHER ORDER AMBISONIC AUDIO DATA)”的第62/043,987号美国临时申请案;
2015年4月9日申请的标题为“高阶立体混响音频数据的夹层压缩(MEZZANINECOMPRESSION FOR HIGHER ORDER AMBISONIC AUDIO DATA)”的第62/145,402号美国临时申请案;以及
2015年4月10日申请的标题为“高阶立体混响音频数据的夹层压缩(MEZZANINECOMPRESSION FOR HIGHER ORDER AMBISONIC AUDIO DATA)”的第62/146,115号美国临时申请案,
其中的每一者的全部内容以引用的方式并入本文中。
技术领域
本发明涉及音频数据,且更具体地说涉及音频数据的压缩。
背景技术
高阶立体混响(HOA)信号(常由多个球面谐波系数(SHC)或其它阶层元素表示)是声场的三维(3D)表示。HOA或SHC表示可以独立于用以重放从此SHC信号渲染的多声道音频信号的本地扬声器几何形状的方式来表示此声场。SHC信号还可促进向后兼容性,因为可将SHC信号渲染为众所周知的且被广泛采用的多声道格式(例如,5.1音频声道格式或7.1音频声道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,描述用于高阶立体混响音频数据的夹层压缩的技术。高阶立体混响音频数据可包括对应于具有大于一的阶的球面谐波基底函数的至少一个球面谐波系数,并且在一些实例中,包括对应具有大于一的阶的多个球面谐波基底函数的多个球面谐波系数。
在一个实例中,一种装置包括:存储器,其经配置以存储因高阶立体混响音频数据的中间压缩而产生的中间格式化音频数据;以及一或多个处理器,其经配置以处理经中间格式化的音频数据。
在另一实例中,一种方法包括:通过广播网获得因高阶立体混响音频数据的中间压缩而产生的经中间格式化的音频数据;以及通过所述广播网来处理所述经中间格式化的音频数据。
在另一实例中,一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时,致使一或多个处理器:获得因高阶立体混响音频数据的中间压缩而产生的经中间格式化的音频数据;且处理所述经中间格式化的音频数据。
在另一实例中,一种装置包括:存储器,其经配置以存储高阶立体混响音频数据;以及一或多个处理器,其经配置以相对于所述高阶立体混响音频数据执行中间压缩,以获得经中间格式化的音频数据。
在附图和以下描述中陈述所述技术的一或多个方面的细节。这些技术的其它特征、目标和优点将从所述描述和图式以及所附权利要求书中显而易见。
附图说明
图1是说明具有各种阶和子阶的球面谐波基底函数的图。
图2是说明可执行本发明中所描述的技术的各个方面的系统的图。
图3A到3C是更详细地说明图2的广播网中心的图。
图4是说明图2的实例中所示的系统的不同实例的框图。
图5是更详细说明可执行本发明中描述的技术的各个方面的图2的实例中所示的空间音频编码装置的一个实例的框图。
图6是更详细说明图2的音频解码装置的框图。
图7是更详细地说明图3A到3C的空间音频解码装置的框图。
图8A到8C是说明图3A到3C的广播网中心在执行本发明中描述的技术的各个方面时的示范性操作的流程图。
图9是说明空间音频编码装置在执行本发明中所描述的基于向量的合成技术的各个方面时的示范性操作的流程图。
图10是说明音频解码装置在执行本发明中描述的技术的各个方面时的示范性操作的流程图。
具体实施方式
环绕声的演进已使得许多输出格式可用于娱乐。此类消费型环绕声格式的实例大部分为“声道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含普遍的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,以及低频效果(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于与超高清电视标准一起使用)。非消费型格式可涵括任何数目的扬声器(成对称和非对称几何形状),其常常称为“环绕阵列”。此类阵列的一个实例包含定位在截角二十面体的拐角上的坐标处的32 个扩音器。
到未来MPEG编码器的输入视情况为三个可能格式中的一者:(i)传统的基于声道的音频(如上文所论述),其意图由处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;以及(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也称为“球面谐波系数”或SHC、“高阶立体混响”或HOA以及“HOA系数”)来表示声场。未来MPEG编码器更详细地描述于国际标准化组织/国际电工委员会 (ISO)/(IEC)JTC1/SC29/WG11/N13411的标题为“要求对于3D音频的提议(Call for Proposals for 3D Audio)”的文献中,所述文献于2013年1月在瑞士日内瓦发布,且可在http:// mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/ w13411.zip获得。
在市场中存在各种基于“环绕声”声道的格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次产生电影的声迹,而不花费精力来针对每一扬声器配置对其进行再混合。近来,标准开发组织(StandardsDeveloping Organizations)一直在考虑如下方式:提供到标准化位流中的编码,以及后续解码,其可调适且不知晓重放位置(涉及渲染器)处的扬声器几何形状(和数目)以及声学条件。
为向内容创建者提供这种灵活性,可使用分层要素集合来表示声场。所述分层要素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
分层要素集合的一个实例是球面谐波系数(SHC)的集合。以下表达式示范使用SHC对声场的描述或表示:
此表达式示出可由SHC,唯一地表示在时间t声场在任何点处的压力 pi。此处,c为声速(约343m/s),为参考点(或观测点),jn(·)为具有阶数n的球面贝塞耳函数(spherical Bessel function),且为具有阶数n和子阶数m 的球面谐波基底函数。可认识到,方括号中的术语为信号的频域表示(即,),其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合以及多分辨率基底函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中示出所述子阶但未明确提到。
SHC可由各种麦克风阵列配置物理上获取(例如,记录),或者,其可从声场的基于声道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更高效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所提到,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025页)中。
其中ⅰ是 是阶n的(第二种)球面汉克尔函数,且是对象的位置。知晓随频率而变的对象来源能量g(ω)(例如,使用时频分析技术,例如对PCM流执行快速傅里叶变换)允许我们将每一PCM对象及其对应位置转换为SHC另外,可示出(由于上式为线性和正交分解):每一对象的系数具相加性。以此方式,许多PCM 对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,含有关于声场的信息的系数(随3D坐标而变的压力),且上文表示从个别对象到观察点附近的总声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
图2是说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所示,系统10包含广播网12和内容消费者14。虽然在广播网12和内容消费者14 的上下文中描述,但可在其中声场的SHC(其也可称为HOA系数)或任何其它层级表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,广播网12可表示包括能够实施本发明中描述的技术的任何形式的计算装置中的一或多者的系统,所述计算装置包含手持机(或蜂窝式电话)、平板计算机、智能电话、膝上型计算机、桌上型计算机或专用硬件,以提供几个实例或。同样地,内容消费者14可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、电视机、机顶盒、膝上型计算机或桌上型计算机,以提供几个实例。
广播网12可表示可产生多声道音频内容且可能视频内容用于由内容消费者(例如内容消费者14)消耗的任何实体。广播网12可在例如体育事件等事件时捕获实况音频数据,同时也在实况音频内容中插入各种其它类型的额外音频数据,例如解说音频数据、商业音频数据、引入或退出音频数据等。
内容消费者14表示拥有或能够接入音频重放系统的个体,音频重放系统可指代能够渲染高阶立体混响音频数据(其包含也可被称作球面谐波系数的高阶音频系数)用于作为多声道音频内容重放的任何形式的音频重放系统。在图2的实例中,内容消费者14 包含音频重放系统16。
广播网12包含麦克风5,其记录或另外获得呈各种格式(包含直接作为HOA系数)的实况记录和音频对象。当麦克风5获得直接作为HOA系数的实况音频时,麦克风5 可包含HOA转码器,例如图2的实例中所示的HOA转码器400。换句话说,虽然示出为与麦克风5分离,但HOA转码器400的单独实例可包含在麦克风5中的每一者内,以便将捕获的馈送自然地转码为HOA系数11。然而,当不包含在麦克风5内时,HOA 转码器400可将从麦克风5输出的实况馈送转码为HOA系数11。在这方面中,HOA转码器400可表示经配置以将麦克风馈送和/或音频对象转码为HOA系数11的单元。广播网12因此包含与麦克风5集成的HOA转码器400,如与麦克风5分开的HOA转码器或其某一组合。
广播网12还可包含空间音频编码装置20、广播网中心402和心理声学音频编码装置406。空间音频编码装置20可表示能够相对于HOA系数11执行本发明中描述的夹层压缩技术以获得经中间格式化的音频数据15(其还可被称作“经夹层格式化的音频数据 15”)的装置。尽管下文更详细地描述,但空间音频编码装置20可经配置以通过至少部分地相对于HOA系数11执行分解(例如下文更详细地描述的线性分解),相对于HOA 系数11执行此中间压缩(其还可被称作“夹层压缩”)。
空间音频编码装置20可经配置以使用包含线性可逆变换(LIT)的应用的分解来编码 HOA系数11。线性可逆变换的一个实例被称作“奇异值分解”(或“SVD”),其可表示一种形式的线性分解。在此实例中,空间音频编码装置20可将SVD应用于HOA系数 11以确定HOA系数11的经分解版本。空间音频编码装置20可接着分析HOA系数11 的经分解版本,以识别可促进HOA系数11的经分解版本的重排序的各种参数。
空间音频编码装置20可接着基于所识别的参数将HOA系数11的经分解版本重新排序,其中如下文进一步详细描述,在给定以下情形的情况下,此重新排序可改进译码效率:变换可将HOA系数跨越HOA系数的帧重新排序(其中一帧通常包含HOA系数 11的M个样本,且在一些实例中,将M设定为1024)。在重排序HOA系数11的经分解版本之后,空间音频编码装置20可选择HOA系数11的经分解版本中表示声场的前景(或换句话说,相异、优势或突出)分量的那些经分解版本。空间音频编码装置20可将 HOA系数11的表示前景分量的经分解版本指定为音频对象和相关联方向信息。
空间音频编码装置20还可至少部分地按次序相对于HOA系数11执行声场分析,以识别表示声场的一或多个背景(或换句话说,环境)分量的HOA系数11。假定在一些实例中,背景分量可仅包含HOA系数11的任何给定样本的子集(例如,例如对应于零阶和一阶球面基底函数的那些样本而非对应于二阶或高阶球面基底函数的那些样本),那么空间音频编码装置20可相对于背景分量执行能量补偿。当执行阶数减少时,换句话说,空间音频编码装置20可扩增(例如,添加能量到/从其减去能量)HOA系数11中的剩余背景HOA系数以补偿因执行所述阶数减少而产生的总体能量改变。
空间音频编码装置20可相对于前景方向信息执行一种形式的内插,且接着相对于经内插前景方向信息执行降阶,以产生经降阶的前景方向信息。在一些实例中,空间音频编码装置20可进一步相对于经降阶的前景方向信息执行量化,从而输出经译码前景方向信息。在一些情况下,此量化可包括标量/熵量化。空间音频编码装置20接着可输出夹层格式化音频数据15作为背景分量、前景音频对象和经量化方向信息。背景分量和前景音频对象在一些实例中可包括脉码调制(PCM)输送声道。
空间音频编码装置20接着可将经夹层格式化的音频数据15发射或以其它方式输出到广播网中心402。尽管在图2的实例中未图示,但可执行经夹层格式化的音频数据15 的进一步处理以适应从空间音频编码装置20到广播网中心402的发射(例如加密、卫星压缩方案、光纤压缩方案等)。
经夹层格式化的音频数据15可表示符合所谓的夹层格式的音频数据,其通常是音频数据的轻度压缩(相对于通过对音频数据应用心理声学音频编码而提供的最终用户压缩,例如MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的心理声学编码)版本。假定广播公司偏好于提供低等待时间混合、编辑和其它音频和/或视频功能的专用设备,广播公司由于此些专用设备的成本而不想升级所述设备。
为了适应视频和/或音频的增加位速率且提供与可能不适于高清视频内容或3D音频内容的工作的较旧或换句话说传统设备的互操作性,广播公司已经采用一般称为“夹层压缩”的此中间压缩方案,来减少文件大小且进而促进传送时间(例如经由网络或在装置之间)和改进的处理(特别对于较旧传统设备)。换句话说,此夹层压缩可提供可用以促进编辑时间、减少等待时间且潜在地改进总体广播过程的内容的较轻型版本。
广播网中心402因此可表示负责使用中间压缩方案来编辑和另外处理音频和/或视频内容以在等待时间方面改进工作流的系统。在一些实例中,广播网中心402可包含移动装置的集合。在处理音频数据的上下文中,在一些实例中,广播网中心402可将经中间格式化的额外音频数据插入到由经夹层格式化的音频数据15表示的实况音频内容。此额外音频数据可包括表示商业音频内容(包含用于电视商业的音频内容)的商业音频数据,电视工作室示出表示电视播音室音频内容的音频数据、表示引入音频内容的引入音频数据、表示退出音频内容的退出音频数据、表示紧急音频内容(例如天气警告、国家紧急情况、本地紧急情况等的紧急音频数据),或可插入到经夹层格式化的音频数据15中的任何其它类型的音频数据。
在一些实例中,广播网中心402包含能够处理至多达16个音频声道的传统音频设备。在依赖于例如HOA系数11等HOA系数的3D音频数据的上下文中,HOA系数11 可具有超过16个音频声道(例如,3D声场的4阶表示将每样本需要(4+1)2或25个HOA 系数,其等效于25个音频声道)。传统广播设备中的此限制可减缓采用基于3D HOA的音频格式,例如2014年7月25日ISO/IEC JTC 1/SC 29/WG 11的标题为“信息技术-异构环境中的高效率译码和媒体递送-部分3:3D音频(Information technology-High efficiency coding and mediadelivery in heterogeneous environments-Part 3:3D audio)”的 ISO/IEC DIS 23008-3文献中所陈述。
由此,本发明中描述的技术可促成一种形式的夹层压缩,其允许以克服传统音频设备的基于声道的限制的方式,从HOA系数11获得经夹层格式化的音频数据15。就是说,空间音频编码装置20可经配置以执行本发明中描述的技术以获得具有16或更少音频声道(且在传统音频设备可在一些实例中允许处理5.1音频内容的条件下可能少到6个音频声道,其中‘.1’表示第六音频声道)的夹层音频数据15。
在任何情况下,广播网中心402可输出经更新的经夹层格式化的音频数据17。经更新的经夹层格式化的音频数据17可包含经夹层格式化的音频数据15以及由广播网中心404插入到经夹层格式化的音频数据15中的任何额外音频数据。在分布之前,广播网 12可进一步压缩经更新的经夹层格式化的音频数据17。如图2的实例中所示,心理声学音频编码装置406可相对于经更新的经夹层格式化的音频数据17执行心理声学音频编码(例如上述实例中的任一者)以产生位流21。广播网12接着可经由发射声道将位流 21发射给内容消费者14。
在一些实例中,心理声学音频编码装置406可表示心理声学音频译码器的多个实例,其中的每一者用以对经更新的经夹层格式化的音频数据17中的每一者的不同音频对象或HOA声道进行编码。在一些情况下,此心理声学音频编码装置406可表示高级音频译码(AAC)编码单元的一或多个实例。心理声学音频编码装置406常常可调用AAC编码单元的实例用于经更新的经夹层格式化的音频数据17的每一声道。
关于可如何使用AAC编码单元对背景球面谐波系数进行编码的更多信息可见于埃里克·赫卢德(Eric Hellerud)等人的标题为“以AAC编码高阶立体混响(Encoding HigherOrder Ambisonics with AAC)”的大会论文中,其在第124次大会(2008年5月17日到20日)上提交且可在下处获得:http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025& context=engpapers。在一些情况下,心理声学音频编码装置406可使用比用以编码经更新的经夹层格式化的音频数据17的其它声道(例如前景声道)的位速率低的目标位速率来对经更新的经夹层格式化的音频数据17的各个声道(例如背景声道)进行音频编码。
虽然图2中示出为直接发射给内容消费者14,但广播网12可将位流21输出到位于广播网12与内容消费者14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可请求此位流的内容消费者14。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21(且可能结合发射对应视频数据位流)流式传输到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
或者,广播网12可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取,并且因此可被称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,发射声道可指代借以发射存储到这些媒体的内容的那些声道(且可包含零售商店和其它基于商店的递送机制)。在任何情况下,本发明的技术因此就此而言不应限于图2的实例。
如图2的实例中进一步示出,内容消费者14包含音频重放系统16。音频重放系统16可表示能够重放多声道音频数据的任何音频重放系统。音频重放系统16可包含若干不同音频渲染器22。音频渲染器22可各自提供不同形式的渲染,其中所述不同形式的渲染可包含执行基于向量的振幅平移(VBAP)的各种方式中的一或多者,和/或执行声场合成的各种方式中的一或多者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11,但归因于有损操作(例如,量化)和/或经由发射声道的发射而不同。也就是说,音频解码装置24可对位流21中指定的前景方向信息进行去量化,同时还相对于位流21中指定的前景音频对象和表示背景分量的经编码HOA系数执行心理声学解码。音频解码装置 24可进一步相对于经解码的前景方向信息执行内插,且接着基于经解码前景音频对象和经内插前景方向信息确定表示前景分量的HOA系数。音频解码装置24可接着基于表示前景分量的所确定的HOA系数和表示背景分量的经解码的HOA系数来确定HOA系数 11'。
音频重放系统16可在解码位流21以获得HOA系数11'之后,渲染HOA系数11' 以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器3。
为了选择适当的渲染器或在一些情况下产生适当的渲染器,音频重放系统16可获得指示扩音器3的数目和/或扩音器3的空间几何形状的扩音器信息13。在一些例子中,音频重放系统16可使用参考麦克风获得扩音器信息13,且以动态地确定扩音器信息13 的方式驱动扩音器3。在其它情况下或结合扩音器信息13的动态确定,音频重放系统 16可提示用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16接着可基于扩音器信息13选择音频渲染器22中的一者。在一些例子中,当音频渲染器22中无一者处于到在扩音器信息13中所指定的扩音器几何形状的某一阈值相似性量度(就扩音器几何形状来说)内时,音频重放系统16可基于扩音器信息13产生音频渲染器22中的一者。音频重放系统16可在一些情况下基于扩音器信息 13产生音频渲染器22中的一者,而不首先尝试选择音频渲染器22中的现有一者。
图3A到3C是更详细说明图2的广播网中心402的三个不同实例的图。在图3A的实例中,表示为广播网中心402A的广播网中心402的第一实例包含空间音频解码装置 410、HOA转换装置412、切换装置414、监视装置416、逆HOA转换装置418、空间音频编码装置420以及插入装置422。
相对于图6更详细描述的空间音频解码装置410表示经配置以执行与相对于空间音频编码装置20描述的那些操作大体上互逆的操作的装置或单元。换句话说,空间音频解码装置410可获得经夹层格式化的音频数据15,且相对于经夹层格式化的音频数据 15执行夹层解压缩以获得HOA系数11。空间音频解码装置410可将HOA系数11输出到HOA转换装置412。
HOA转换装置412表示经配置以将HOA系数11从球面谐波域转换到空间域(例如通过将HOA系数11渲染到指定的空间声音格式,例如5.1环绕声格式)的装置或单元。 HOA转换装置412可执行此转换以适应传统音频设备,例如切换装置414和监视装置 416(其中的两者或一者可经配置以相对于某一数目的声道而操作,例如5.1环绕声格式的6个声道)。HOA转换装置412可将经空间格式化的音频数据413输出到开关电器414。
切换装置414可表示经配置以在各种不同音频数据(包含经空间格式化的音频数据 413)之间进行切换的装置或单元。切换装置414可在额外音频数据415A到415N(“额外音频数据415”,其也可被称作“音频数据415”,如图3A的实例中所示)与经空间格式化的音频数据413之间切换。额外音频数据415还可被称作“网络中心内容415”或“网络中心音频内容415”。
切换装置414可如由输入417指示而在音频数据415与经空间格式化的音频数据415 之间切换,所述输入可由操作者、音频编辑者或其它广播公司人员输入。输入417可配置切换装置414以将音频数据415或经空间格式化的音频数据413中的一者输出到监视装置416。操作者、音频编辑者或其它广播人员可收听音频数据415或经空间格式化的音频数据413中的选定一者,且产生指定何时应当将额外音频数据415中的一者插入到经夹层格式化的音频数据15中的额外输入417。
在接收到额外输入417后,切换装置414可即刻通过额外音频数据415中的选定一者(例如,额外音频数据415A)切换通过到逆HOA转换装置418。此额外音频数据415A 可表示上文所论述类型的额外音频内容中的任一者,例如商业音频内容、电视工作室音频内容、退出音频内容、引入音频内容(其中引入和退出音频内容可被称为“缓冲音频内容”)、紧急音频内容等。
在一些实例中,额外音频数据415A(以及通常额外音频内容415)不是以夹层格式或球面谐波或换句话说HOA域指定的。实情为,额外音频数据415可为指定5.1环绕声格式。为了将额外音频数据415A插入到经夹层格式化的空间音频数据15中,广播网中心402A可将额外音频数据415A传递到逆HOA转换装置418。
逆HOA转换装置418可与HOA转换装置412互逆地操作,以将额外音频数据415A 从空间域转换到球面谐波域。逆HOA转换装置418可将经转换的额外音频数据415A作为经转换额外音频数据419输出到空间音频编码装置420。空间音频编码装置420可以与上文相对于空间音频编码装置20所描述方式大体类似且可能相同的方式操作。空间音频编码装置420可将经夹层格式化的额外音频数据421输出到插入装置422。
插入装置422可表示经配置以将经夹层格式化的额外音频数据421插入到经夹层格式化的音频数据15中的装置或单元。在一些实例中,插入装置422将经夹层格式化的额外音频数据421插入到原始的经夹层格式化的音频数据15中,其中所述原始的经夹层格式化的音频数据15尚未经历空间音频解码(或换句话说,夹层解压缩)、HOA转换、空间音频再编码以及逆HOA转换,以便避免将音频假影潜在地注入到经更新的经夹层格式化的音频数据17中。插入装置422可通过至少部分地使经夹层格式化的音频数据 421淡化(在一些实例中,包含交叉淡化)到经夹层格式化的音频数据15中,来将经夹层格式化的音频数据421插入到经夹层格式化的音频数据15中。交叉淡化可指使第一音频数据淡入,同时使第二(不同)音频数据淡出。
图3B是更详细说明图2的广播网中心402的第二实例的框图。在图3B的实例中,表示为广播网中心402B的广播网中心402的第二实例可与广播网中心402A大体上相同,不同的是图3B的实例中所示的额外音频数据421A到421N已经在夹层格式(MF) 中指定。因此,在图3B的实例中,额外音频数据421A到421N表示为经夹层格式化的 (MF)音频数据421A到421N(“MF音频数据421”)。MF音频数据421可各自与上文相对于图3A的实例描述的经夹层格式化的额外音频数据421大体上类似。
尽管在图3B的实例中未图示,但广播网中心402B可包含一或多个裝置,以最初以空间域中指定的音频数据的形式来获得额外音频数据,并将所述额外音频数据从空间域转换到球面谐波域,使得额外音频数据所描述的声场表示为额外高阶立体混响音频数据。广播网中心402B可进一步包含一或多个裝置(其可为上文参考的一或多个裝置),以相对于额外高阶立体混响音频数据执行中间压缩(或换句话说,夹层压缩),以产生经中间格式化的额外音频数据(例如MF音频数据421)。
在MF音频数据421是根据夹层格式指定的条件下,广播网中心402B可不包含上文相对于广播网中心402A描述的逆HOA转换装置418和空间音频编码装置420。因为输入到切换装置414中的所有音频数据421和15是以相同格式(例如,夹层格式)指定,所以在切换装置417的处理之前,可不需要空间音频解码和转换。
为了监视MF额外音频数据421和MF音频数据15,广播网中心402B可包含空间音频解码装置410和HOA转换装置412以相对于切换装置414的输出执行空间音频解码和HOA转换。空间音频解码和HOA转换可导致空间域中指定的音频数据(例如,5.1 音频数据),其随后输入到监视装置416以允许操作者、编辑者或其它广播人员监视对切换装置414的输入中的选定一者(如由输入数据417指定)。空间域也可被称作“声道域”。
在这方面中,广播网中心402B可处理经中间格式化的音频数据(或换句话说,经夹层格式化的音频数据),而不相对于经中间格式化的音频数据执行中间解压缩(或换句话说,夹层解压缩)或高阶立体混响转换。
图3C是更详细说明图2的广播网中心402的第三实例的框图。在图3C的实例中,广播网中心402的第三实例,其表示为广播网中心402C,可大体类似于广播网中心402B,除了图3C的实例中所示的额外音频数据425A到425N是以HOA格式(或换句话说,在球面谐波域中)指定。因此,在图3C的实例中,额外音频数据425A到425N表示为HOA 音频数据425A到425N(“HOA音频数据425”)。
在HOA音频数据425是根据HOA格式指定的条件下,广播网中心402C可不包含逆HOA转换装置418。然而,广播网中心402C可包含上文相对于广播网中心402A描述的空间音频编码装置420,以便相对于HOA音频数据425执行夹层压缩以获得MF 额外音频数据421。因为音频数据425是在HOA域(或换句话说,球面谐波域)中指定,所以空间音频解码装置410相对于经夹层格式化的音频数据15执行空间音频解码以获得HOA系数11,进而将输入格式潜在地协调到切换装置414中。
为了监视HOA音频数据425A-425N,广播网中心402C可包含HOA转换装置412,以相对于切换装置414的输出执行HOA转换。HOA转换可导致在空间域中指定的音频数据(例如,5.1音频数据),其随后输入到监视装置416以允许操作者、编辑者或其它广播人员监视对切换装置414的输入中的选定一个(如由输入数据417指定)。
图4是说明可经配置以执行本发明中描述的技术的各个方面的系统的另一实例的框图。图4中所示的系统类似于图2的系统10,除了广播网12包含额外HOA混频器450。由此,图4中所示的系统表示为系统10',且图4的广播网表示为广播网12'。HOA转码器400可将实况馈送HOA系数作为HOA系数11A输出到HOA混频器450。HOA混频器表示经配置以对HOA音频数据进行混频的装置或单元。HOA混频器450可接收其它 HOA音频数据11B(其可表示任何其它类型的音频数据,包含用点麦克风或非3D麦克风捕获的音频数据,且转换到球面谐波域,HOA域中指定的特殊效果等),并将此HOA音频数据11B与HOA音频数据11A混频以获得HOA系数11。
图5是更详细地说明可执行本发明中描述的技术的各个方面的图2的实例中所示的空间音频编码装置20的一个实例的框图。空间音频编码装置20包含基于向量的分解单元27。
尽管下文简要描述,但关于基于向量的分解单元27以及压缩HOA系数的各个方面的较多信息在2014年5月29日申请的标题为“声场的经分解表示的内插”的第WO 2014/194099号的国际专利申请案中可用。另外,根据MPEG-H 3D音频标准的HOA系数的压缩的各个方面的较多细节,包含下文概述的基于向量的分解的论述可在约尔根·赫尔(JürgenHerre)等人在2015年8月且在IEEE信号处理选定话题期刊第5期第9卷中公布的标题为“MPEG-H 3D音频——用于沉浸式空间音频的译码的新标准”的论文中找到。
如图5的实例中所示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、夹层格式单元 40、声场分析单元44、系数减小单元46、背景(BG)选择单元48、空间-时间内插单元 50和量化单元52。
线性可逆变换(LIT)单元30接收呈HOA声道形式的HOA系数11,每一声道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k 可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2。
就是说,LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单元。虽然相对于SVD加以描述,但可相对于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的技术。而且,本发明中对“集合”的参考一般既定指非零集合(除非特定地相反陈述),且无意指包含所谓的“空集合”的集合的经典数学定义。
替代变换可包括常常被称作“PCA”的主分量分析。PCA指代使用正交变换将一组可能相关变量的观测结果变换成被称作主分量的一组线性不相关变量的数学程序。线性不相关变量表示彼此并不具有线性统计关系(或相依性)的变量。可将这些主分量描述为彼此具有小程度的统计相关性。
所谓的主分量的数目小于或等于原始变量的数目。在一些实例中,以如下方式定义变换:第一主分量具有最大可能方差(或,换句话说,尽可能多地解释数据中的可变性),且每一随后分量又具有可能的最高方差(在以下约束下:此连续分量正交于(可重新表述为不相关于)前述分量)。PCA可执行某一形式的阶数降低,其依据HOA系数11可产生 HOA系数11的压缩。取决于上下文,PCA可由若干不同名称指代,例如离散卡亨南- 洛维变换、霍特林变换、恰当正交分解(POD)和本征值分解(EVD),仅举几例。
出于实例的目的,假定LIT单元30执行奇异值分解(其又可被称作“SVD”),LIT 单元30可将HOA系数11变换成两个或多于两个经变换HOA系数的集合。经变换HOA 系数的“集合”可包含经变换HOA系数的向量。在图5的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD 可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多声道音频数据,例如HOA 系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多声道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多声道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多声道音频数据的右奇异向量。
在一些实例中,上文提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置,以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假定 HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,尽管在本发明中表示为V矩阵,但对V矩阵的提及应理解为在适当的情况下涉及V矩阵的转置。尽管假定为V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,在这方面,所述技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD,以输出具有维度D: M×(N+1)2的US[k]向量33(其可表示S向量和U向量的组合版本)以及具有维度D: (N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为XPS(k),而V[k] 矩阵中的个别向量也可被称为v(k)。
U、S和V矩阵的分析可揭示,所述矩阵运载或表示上文由X表示的基本声场的空间和时间特性。U(长度为M个样本)中的N个向量中的每一者可表示随时间而变(对于由 M个样本表示的时间周期)的经正规化分离音频信号,其彼此正交且已与任何空间特性 (其也可被称作方向信息)去耦。表示空间形状和位置的空间特性可改为由V矩阵(长度(N+1)2中的每一者)中的个别第i个向量v(i)(k)表示。
v(i)(k)向量中的每一者的个别元素可表示描述相关联音频对象的声场的形状(包含宽度)和位置的HOA系数。U矩阵和V矩阵中的向量均经正规化,使得其均方根能量等于单位一。U中的音频信号的能量因而由S中的对角线元素表示。将U与S相乘以形成 US[k](具有个别向量元素XPS(k)),因而表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各个方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的模型产生贯穿此文献使用的术语“基于向量的分解”。
尽管描述为直接相对于HOA系数11执行,但LIT单元30可将线性可逆变换应用于HOA系数11的导出项。举例来说,LIT单元30可相对于从HOA系数11导出的功率谱密度矩阵应用SVD。通过相对于HOA系数的功率谱密度(PSD)而非系数本身执行 SVD,LIT单元30可在处理器循环和存储空间的一或多者方面潜在地降低执行SVD的计算复杂性,同时实现与将SVD直接应用于HOA系数的情况相同的源音频编码效率。
LIT单元30可在将SVD(svd)应用于PSD之后可获得S[k]2矩阵(S_平方)和V[k]矩阵。 S[k]2矩阵可表示S[k]矩阵的平方,因此LIT单元30可将平方根运算应用于S[k]2矩阵以获得S[k]矩阵。在一些情况下,LIT单元30可相对于V[k]矩阵执行量化以获得经量化 V[k]矩阵(其可表示为V[k]'矩阵)。LIT单元30可通过首先将S[k]矩阵乘以经量化V[k]' 矩阵以获得SV[k]'矩阵而获得U[k]矩阵。LIT单元30接下来可获得SV[k]'矩阵的伪倒数 (pinv),且接着将HOA系数11乘以SV[k]'矩阵的伪倒数以获得U[k]矩阵。可由以下伪码表示前述情况:
PSD=hoaFrame'*hoaFrame;
[V,S_squared]=svd(PSD,'econ');
S=sqrt(S_squared);
U=hoaFrame*pinv(S*V');
通过相对于HOA系数的功率谱密度(PSD)而非系数自身执行SVD,LIT单元30可在处理器循环和存储空间的一或多者方面潜在地降低执行SVD的计算复杂性,同时实现与将SVD直接应用于HOA系数的情况相同的源音频编码效率。就是说,上述PSD 型SVD可潜在地需求较少计算,因为SVD是在F*F矩阵(其中F为HOA系数的数目) 上完成。与M*F矩阵相比,其中M为帧长度,即1024或更多个样本。经由应用于PSD 而非HOA系数11,与应用于HOA系数11时的O(M*L^2)相比,SVD的复杂性现可为约O(L^3)(其中O(*)表示计算机科学技术中常见的计算复杂性的大O记法)。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向特性参数和能量特性(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]以及e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别这些参数。参数计算单元32还可确定前一帧的参数,其中前一帧的参数可基于具有US[k-1]向量和V[k-1]向量的前一帧而表示为R[k-1]、θ[k-1]、 r[k-1]和e[k-1]。参数计算单元32可将当前参数37和先前参数39输出到重排序单元34。
由参数计算单元32计算的参数可供重排序单元34用以将音频对象重排序以表示其自然评估或随时间推移的连续性。重排序单元34可将来自转向方向的第一US[k]向量 33的参数37中的每一者与第二US[k-1]向量33的参数39中的每一者进行比较。重排序单元34可基于当前参数37和先前参数39对US[k]矩阵33和V[k]矩阵35内的各种向量进行重排序(作为一个实例,使用匈牙利(Hungarian)算法)以输出经重排序的US[k]矩阵 33'(其可数学表示为)以及经重排序的V[k]矩阵35'(其可数学表示为)到前景声音(或主导声音PS)选择单元36(“前景选择单元36”)和能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便潜在地实现目标位速率41的单元。声场分析单元44可基于所述分析和/或基于所接收到的目标位速率41,确定心理声学译码器实例化的总数目(其可为环境或背景声道的总数目(BGTOT) 的函数)和前景声道(或换句话说,主导声道)的数目。音质译码器实例化的总数可表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景声道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHoaOrder)、表示背景声场的最小阶数的实际声道的对应数目(nBGa=(MinAmbHoaOrder+1)2),以及要发送的额外BG HOA声道的索引(i)(其在图5的实例中可共同地表示为背景声道信息 43)。背景声道信息42也可被称为环境声道信息43。从numHOATransportChannels-nBGa 保持的声道中的每一者可为“额外背景/环境声道”、“作用中基于向量的主导声道”、“作用中基于方向的主导信号”或“完全非作用中”。在一个方面中,可通过两个位将声道类型指示为(如“ChannelType”)语法元素(例如,00:基于方向的信号;01:基于向量的主导信号;10:额外环境信号;11:非作用信号)。可由(MinAmbHoaOrder+1)2+呈现为用于所述帧的位流中的声道类型的索引10(在以上实例中)的倍数给出背景或环境信号的总数目nBGa。
声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)声道的数目和前景(或换句话说,主导)声道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景和/或前景声道。在一个方面中,在位流的标头部分中,numHOATransportChannels可设定为8,而MinAmbHOAorder可设定为1。在此情境下,在每个帧处,四个声道可专用于表示声场的背景或环境部分,而其它4个声道可在逐帧基础上,在声道类型上变化--例如,用作额外背景/环境声道或前景 /主导声道。前景/主导信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些例子中,帧的基于向量的主导信号的总数目可由声道类型(ChannelType)索引在所述帧的位流中为01的次数给出。在以上方面中,对于每个额外背景/环境声道(例如对应于声道类型10),可能HOA系数(超过前四个)中的每一者的对应信息可在所述声道中表示。对于四阶HOA内容,所述信息可为指示HOA系数5到25的索引。可在 minAmbHOAorder设定为1时始终发送前四个环境HOA系数1到4;因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5到25中的一者。因而可使用5位语法元素(对于第4阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。在任何情况下,声场分析单元44将背景声道信息43和HOA系数11输出到背景(BG)选择单元 36,将背景声道信息43输出到系数减小单元46和夹层格式单元40,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景声道信息(例如,背景声场(NBG)以及待发送的额外BG HOA声道的数目(nBGa)和索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i) 中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到夹层格式单元40,以便使音频解码装置(例如,图6和7的实例中所示的音频解码装置24)能够从位流21剖析背景HOA系数47。背景选择单元48接着可将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D: M×[(NBG+1)2 +nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境 HOA系数47中的每一者对应于待由心理声学音频译码器单元40编码的单独环境HOA 声道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或相异分量的经重排序的US[k]矩阵33'和经重排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,…,nFG 49,FG1,…,nfG[k]49,或)输出到心理声学音频译码器单元40,其中nFG信号49 可具有维度D:M x nFG,且各自表示单声道音频对象。前景选择单元36也可将对应于声场的前景分量的经重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中对应于前景分量的经重排序的V[k]矩阵35'的子集可表示为具有维度D:(N+1)2 x nFG的前景V[k]矩阵51k(其可数学表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48去除HOA声道中的各者而产生的能量损失的单元。能量补偿单元38可相对于经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k以及环境HOA系数47中的一或多者执行能量分析,且接着基于能量分析来执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到夹层格式单元40。
空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k以及前一帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。时空内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重排序的前景HOA系数。空间-时间内插单元50接着可将经重排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。
空间-时间内插单元50还可输出用以产生经内插前景V[k]向量的前景V[k]向量51k。音频解码装置,例如音频解码装置24,可基于输出的前景V[k]向量51k产生经内插的前景V[k]向量,且因而恢复前景V[k]向量51k。将用于产生经内插的前景V[k]向量的前景 V[k]向量51k表示为其余前景V[k]向量53。为了确保在编码器和解码器处使用相同的 V[k]和V[k-1](以创建经内插的向量V[k]),可在编码器和解码器处使用向量的经量化/经去量化版本。空间-时间内插单元50可将经内插的nFG信号49'输出到夹层格式单元40,且将经内插的前景V[k]向量51k输出到系数减小单元46。
系数减小单元46可表示经配置以基于背景声道信息43相对于其余的前景V[k]向量 53执行系数减小以将经降低的前景V[k]向量55输出到量化单元52的单元。经降低的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。系数减小单元46可在这方面中表示经配置以减少其余前景V[k]向量53中的系数数目的单元。换句话说,系数减小单元46可表示经配置以消除(形成其余前景V[k]向量53的)前景V[k]向量中具有极少方向信息到不具有方向信息的系数的单元。在一些实例中,相异或(换句话说)前景V[k] 向量的对应于一阶和零阶基底函数的系数(其可标示为NBG)提供极少方向信息,且因此可从前景V向量去除(通过可被称为“系数减小”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的这些系数而且识别额外HOA 声道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化以压缩降低的前景V[k]向量55以产生经译码前景V[k]向量57,从而将经译码前景V[k]向量57输出到夹层格式单元40 的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,在此实例中,降低的前景V[k]向量55中的一或多者)的单元。量化单元52可执行如由表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一者:
量化单元52还可执行前述类型的量化模式中的任一者的预测版本,其中确定前一帧的V向量的元素(或执行向量量化时的权重)与当前帧的V向量的元素(或执行向量量化时的权重)之间的差。量化单元52接着可量化当前帧与前一帧的元素或权重之间的差,而非当前帧本身的V向量的元素的值。
量化单元52可相对于降低的前景V[k]向量55中的每一者执行多种形式的量化,以获得降低的前景V[k]向量55的多个经译码版本。量化单元52可选择降低的前景V[k] 向量55的经译码版本中的一者作为经译码前景V[k]向量57。换句话说,量化单元52 可基于本发明中论述的准则的任何组合来选择未经预测的经向量量化的V向量、经预测的经向量量化的V向量、未经霍夫曼译码的经标量量化的V向量以及经霍夫曼译码的经标量量化的V向量中的一者,以用作输出的经变换量化的V向量。
在一些实例中,量化单元52可从包含向量量化模式以及一或多个标量量化模式的一组量化模式中选择量化模式,且基于(或根据)选定模式来量化输入V向量。量化单元 52可接着将以下各者中的选定者提供到夹层格式单元40以作为经译码前景V[k]向量 57:未经预测的经向量量化的V向量(例如,就权重值或指示权重值的位来说)、经预测的经向量量化的V向量(例如,就误差值或指示误差值的位来说)、未经霍夫曼译码的经标量量化的V向量以及经霍夫曼译码的经标量量化的V向量。量化单元52还可提供指示量化模式的语法元素(例如,NbitsQ语法元素)以及用于将V向量去量化或以其它方式重建构V向量的任何其它语法元素。
空间音频编码装置20内包含的夹层格式单元40可表示将数据格式化以符合已知格式(其可指代解码装置已知的格式)进而产生经夹层格式化的音频数据15的单元。夹层格式单元40在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经能量补偿的环境HOA系数47'、经内插nFG信号49'以及背景声道信息43。夹层格式单元40 接着可基于经译码前景V[k]向量57、经能量补偿的环境HOA系数47'、经内插nFG信号49'以及背景声道信息43而产生经夹层格式化的音频数据15。
如上所述,经夹层格式化的音频数据15可包含PCM输送声道和边带(或换句话说,侧声道)信息。边带信息可包含V[k]向量47和在上文参考的2014年5月29日申请的标题为“声场的经分解表示的内插”的第WO 2014/194099号国际专利申请公开案中更详细地描述的其它语法元素。
尽管在图5的实例中未图示,但空间音频编码装置20还可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成来编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为检测到HOA系数11是从合成音频对象产生的结果)还是执行基于向量的合成(作为检测到 HOA系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应一者的切换或当前编码。
此外,如上文所提及,声场分析单元44可识别BGTOT环境HOA系数47,所述BGTOT环境HOA系数可在逐帧基础上改变(但时常BGTOT可跨越两个或更多个邻近(在时间上) 帧保持恒定或相同)。BGTOT的改变可导致在经减少前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致背景HOA系数(其也可被称作“环境HOA系数”)在逐帧基础上改变(但再次,BGTOT有时可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。所述改变常常导致声场的各方面的能量改变,所述声场通过额外环境HOA系数的添加或去除以及系数从减少的前景V[k]向量55的对应去除或系数到减少的前景V[k]向量55的添加表示。
因此,声场分析单元44可进一步确定环境HOA系数何时从帧到帧改变,且产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量来说)(其中所述改变也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。明确地说,系数减小单元46可产生旗标(其可表示为AmbCoeffTransition旗标或 AmbCoeffIdxTransition旗标),从而将所述旗标提供到夹层格式单元40,使得可将所述旗标包含在位流21中(可能地作为旁声道信息的一部分)。
除指定环境系数转变旗标之外,系数减小单元46也可修改产生减少的前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一者在当前帧期间处于转变中之后,系数减小单元46可即刻指定用于经减少前景V[k]向量55的V向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),所述向量系数对应于处于转变中的环境HOA系数。并且,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数目或从背景系数的BGTOT总数目中去除。因此,背景系数的总数目的所得改变影响环境HOA系数是否包含于位流中,以及在上文所描述的第二和第三配置模式中是否针对位流中所指定的V向量包含V向量的对应元素。关于系数减小单元46可如何指定减少的前景V[k]向量55以克服能量的改变的更多信息提供于2015年1月12日申请的标题为“环境高阶立体混响系数的转变(TRANSITIONINGOF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
图6是更详细地说明图2的音频解码装置24的框图。如图6的实例中示出,音频解码装置24可包含提取单元72和基于向量的重构单元92。尽管下文进行描述,但关于音频解码装置24和解压缩或以其它方式解码HOA系数的各种方面的较多信息可在2014 年5月29日申请的标题为“声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSEDREPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。另外,根据MPEG-H 3D音频标准的HOA系数的解压缩的各个方面的较多细节,包含下文概述的基于向量的重构的论述可在约尔根·赫尔等人在 2015年8月且在IEEE信号处理选定话题期刊第5期第9卷中公布的标题为“MPEG-H 3D音频--用于沉浸式空间音频的译码的新标准”的论文中找到。
提取单元72可表示经配置以接收位流15且提取HOA系数11的基于向量的经编码版本的单元。提取单元72可从上文提到的语法元素确定指示HOA系数11是否经由基于向量的版本编码的信息。提取单元72可提取经译码前景V[k]向量57(其可包含经译码权重57和/或索引63或标量经量化V向量)、经编码环境HOA系数59以及对应音频对象61(其也可被称作经编码nFG信号61)。音频对象61各自对应于向量57中的一者。提取单元72可将经译码前景V[k]向量57传递到V向量重构单元74,且将经编码环境 HOA系数59连同经编码nFG信号61提供到心理声学解码单元80。
V向量重构单元74可表示经配置以从经编码前景V[k]向量57重构V向量的单元。 V向量重构单元74可以与量化单元52互逆的方式操作。
心理声学解码单元80可以与图2的实例中所示的心理声学音频译码器单元40互逆的方式操作,以便对经编码环境HOA系数59和经编码nFG信号61进行解码,且借此产生经能量补偿的环境HOA系数47'和经内插的nFG信号49'(其也可被称作经内插的 nFG音频对象49')。心理声学解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770,且将nFG信号49'传递到前景制订单元78。
空间-时间内插单元76可以类似于上文相对于空间-时间内插单元50所描述方式的方式操作。空间-时间内插单元76可接收减少的前景V[k]向量55k且相对于前景V[k]向量55k和减少的前景V[k-1]向量55k-1执行空间-时间内插,以产生经内插的前景V[k]向量55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可输出指示环境HOA系数中的一者何时处于到淡化单元770的转变的信号757,所述淡化单元接着可确定SHCBG 47'(其中SHCBG 47'还可表示为“环境HOA 声道47'”或“经能量补偿的环境HOA系数47'”)以及经内插前景V[k]向量55k”的元素中的哪些将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'和经内插的前景V[k]向量55k”的元素中的每一者相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入和淡出两者,同时相对于经内插的前景V[k]向量55k”的元素中的对应一个元素执行淡入或淡出或执行淡入和淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82,且将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770表示经配置以相对于HOA系数或其衍生物的各个方面执行淡化操作,例如以环境HOA系数47'以及经内插前景V[k]向量55k”的元素的形式。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'和经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。在这方面中,前景制订单元78可组合音频对象49'(其为借以表示经内插的nFG信号49'的另一种方式)与向量55k”' 以重构HOA系数11'的前景(或换句话说,主导)方面。前景制订单元78可执行经内插的nFG信号49'与经调整的前景V[k]向量55k”'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境 HOA系数47”以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于而非相同于HOA系数11。HOA系数11与11'之间的差可起因于由于有损发射媒体上的发射、量化或其它有损操作而产生的损失。
图7是更详细地说明图3A到3C的空间音频解码装置420的框图。空间音频解码装置420可类似于图2和6的实例中所示的音频解码装置24,除了空间音频解码装置420 并不包含心理声学解码单元80,因为经夹层格式化的音频数据15尚未或以其它方式经历心理声学音频编码器的处理。由此,提取单元72将经能量补偿的环境HOA系数47' 直接输出到淡化单元770,且将经内插的nFG信号49'直接输出到前景制订单元78(意味着不首先相对于这些系数47'和信号49'执行心理声学音频解码)。
图8A到8C是各自说明图3A到3C中所示的经配置以执行的广播网中心的各种操作的框图。在图8A的实例中,广播网中心402A可接收符合夹层压缩格式的实况馈送 (200)。广播网中心402A的空间音频解码装置410可执行经夹层格式化的音频数据的空间解码(202),其中经夹层格式化的音频数据可表示在将潜在地额外压缩应用于经中间压缩的音频数据之前,已压缩到一格式的中间经压缩音频数据的一个实例。执行空间解码的结果可包括HOA系数11。
广播网中心402A的HOA转换装置412可执行HOA到声道转换(204),以将HOA 系数11转换为基于声道的表示413(其可指相比于HOA系数11的HOA域表示的空间域表示)。响应于输入开关417,广播网中心402A的切换装置414可在网络中心内容415(例如以基于5.1声道的格式)和基于声道的表示413(例如以基于5.1声道的格式)之间进行选择(206)。监测装置416可执行网络中心内容415和基于声道的表示413的声道监视(208)。
响应于额外输入开关417,切换装置414可将网络中心内容415输出到逆HOA转换装置418。逆HOA转换装置418可相对于网络中心内容415中的一者的输出执行声道到 HOA转换(210),以产生经转换的额外音频数据419(210)。空间音频编码装置420可将经夹层格式化的额外音频数据421输出到插入装置422。
插入装置422可表示经配置以将经夹层格式化的额外音频数据421插入到经夹层格式化的音频数据15中的装置或单元。在一些实例中,插入装置422将经夹层格式化的额外音频数据421插入到原始的经夹层格式化的音频数据15中,其中所述原始的经夹层格式化的音频数据15尚未经历空间音频解码(或换句话说,夹层解压缩)、HOA转换、空间音频再编码以及逆HOA转换,以便避免将音频假影潜在地注入到经更新的经夹层格式化的音频数据17中(212)。插入装置422可通过至少部分地使经夹层格式化的音频数据421淡化(在一些实例中,包含交叉淡化)到经夹层格式化的音频数据15中,来将经夹层格式化的音频数据421插入到经夹层格式化的音频数据15中(214)。
在图8B的实例中,如上所述,图3B的广播网中心402B执行的操作可大体类似于如上文相对于图8A所描述的广播网中心402A所执行的操作,除了图8B的实例中所示的额外音频数据421A到421N已经以夹层格式(MF)指定。MF音频数据421可各自与上文相对于图8A的实例描述的经夹层格式化的额外音频数据421大体上类似。
在MF音频数据421(图3B中所示)是根据夹层格式指定的条件下,广播网中心402B可不包含上文相对于广播网中心402A所述的逆HOA转换装置418和空间音频编码装置 420,或不执行表示为空间解码(202)和HOA到声道转换(204)的对应操作。因为输入到切换装置414中的所有音频数据421和15是以相同格式(例如,夹层格式)指定,所以在切换装置417的处理之前,可不需要空间音频解码和转换。
为了监视MF额外音频数据421和MF音频数据15,广播网中心402B可包含空间音频解码装置410和HOA转换装置412以相对于切换装置414的输出执行空间音频解码(220)和HOA到声道转换(222)转换。空间音频解码和HOA转换可导致空间域中指定的音频数据(例如,5.1音频数据),其随后输入到监视装置416以允许操作者、编辑者或其它广播人员监视对切换装置414的输入中的选定一者(如由输入数据417指定)。空间域也可被称作“声道域”。
在图8C的实例中,如上所述,图3C的广播网中心402C所执行的操作可大体类似于如上文相对于图8A所描述的广播网中心402A所执行的操作,除了图3C的实例中所示的额外音频数据425A到425N是以HOA格式(或换句话说,在球面谐波域中)指定。
在HOA音频数据425是根据HOA格式指定的条件下,广播网中心402C可不包含逆HOA转换装置418。然而,广播网中心402C可包含上文相对于广播网中心402A描述的空间音频编码装置420,以便相对于HOA音频数据425执行夹层压缩以获得MF 额外音频数据421(212)。因为音频数据425是在HOA域(或换句话说,球面谐波域)中指定,所以空间音频解码装置410相对于经夹层格式化的音频数据15执行空间音频解码以获得HOA系数11,进而将输入格式潜在地协调到切换装置414中。
为了监视HOA音频数据421和11,广播网中心402C可包含HOA转换装置412,以相对于切换装置414的输出执行HOA到声道转换(230)。HOA转换可导致在空间域中指定的音频数据(例如,5.1音频数据),其随后输入到监视装置416以允许操作者、编辑者或其它广播人员监视对切换装置414的输入中的选定一个(如由输入数据417指定)。
图9是说明音频编码装置(例如在图4的实例中所示的空间音频编码装置20)执行本发明中描述的基于向量的合成技术的各种方面的示范性操作的流程图。最初,空间音频编码装置20接收HOA系数11(106)。空间音频编码装置20可调用LIT单元30,其可相对于HOA系数应用LIT,以输出经变换的HOA系数(例如在SVD的情况下,经变换的 HOA系数可包括US[k]向量33和V[k]向量35)(107)。
空间音频编码装置20接下来可调用参数计算单元32以按上文所描述的方式,相对于US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何组合执行上文所描述的分析以识别各种参数。也就是说,参数计算单元32可基于经变换的HOA系数33/35 的分析来确定至少一个参数(108)。
空间音频编码装置20可接着调用重排序单元34,其可基于参数将经变换的HOA 系数(再次在SVD的上下文中,其可指US[k]向量33和V[k]向量35)重排序,以产生经重排序的经变换的HOA系数33'/35'(或,换句话说,US[k]向量33'和V[k]向量35'),如上文所描述(109)。空间音频编码装置20可在前述操作或后续操作中的任一者期间还调用声场分析单元44。如上文所描述,声场分析单元44可相对于HOA系数11和/或经变换HOA系数33/35执行声场分析,以确定前景声道(nFG)45的总数目、背景声场(NBG) 的阶数以及待发送的额外BGHOA声道的数目(nBGa)和索引(i)(其可在图5的实例中共同表示为背景声道信息43)(110)。
空间音频编码装置20还可调用背景选择单元48。背景选择单元48可基于背景声道信息(BCI)43确定背景或环境HOA系数47(112)。空间音频编码装置20可进一步调用前景选择单元36,其可基于nFG 45(其可表示识别这些前景向量的一或多个索引)选择经重排序的US[k]向量33'和经重排序的V[k]向量35'中表示音场的前景或相异分量的那些向量(113)。
空间音频编码装置20可调用能量补偿单元38。能量补偿单元38可相对于环境HOA系数47执行能量补偿,以补偿归因于由背景选择单元48去除HOA通道中的各者(114) 而导致的能量损耗,且借此产生经能量补偿的环境HOA系数47'。
空间音频编码装置20还接着调用空间-时间内插单元50。空间-时间内插单元50可相对于经重排序的经变换HOA系数33'/35'执行空间-时间内插,以获得经内插前景信号49'(其也可被称作“经内插的nFG信号49”')以及其余前景方向信息53(其也可被称作“V[k]向量53”)(116)。空间音频编码装置20接着可调用系数减小单元46。系数减小单元46可基于背景声道信息43相对于其余前景V[k]向量53执行系数减小,以获得经减小的前景方向信息55(其也可被称作经减小的前景V[k]向量55)(118)。
空间音频编码装置20接着可调用量化单元52,以便以上文所描述的方式来压缩减小的前景V[k]向量55,并产生经译码的前景V[k]向量57(120)。
空间音频编码装置20接着可调用夹层格式单元40。夹层格式单元40接着可基于经译码前景V[k]向量57、经能量补偿的环境HOA系数47'、经内插的nFG信号49'以及背景声道信息43而产生经夹层格式化的音频数据15(122)。
图10是说明音频解码装置(例如图6中所示的音频解码装置24)执行本发明中所描述的技术的各个方面的示范性操作的流程图。最初,音频解码装置24可接收位流 21(130)。在接收到位流后,音频解码装置24可即刻调用提取单元72。出于论述的目的假定位流21指示将执行基于向量的重构,提取装置72可剖析此位流以检索上文所提及的信息,从而将此信息传递到基于向量的重构单元92。
换句话说,提取单元72可按上文所描述的方式从位流21中提取经译码前景方向信息57(并且,其也可被称作经译码前景V[k]向量57)、经译码环境HOA系数59和经译码前景信号(其也可被称作经译码前景nFG信号59或经译码前景音频对象59)(132)。
音频解码装置24可进一步调用量化单元74。量化单元74可对经译码的前景方向信息57进行熵解码并去量化,以获得减小的前景方向信息55k(136)。音频解码装置24还可调用心理声学解码单元80。心理声学音频译码单元80可解码经编码环境HOA系数 59和经编码前景信号61,以获得经能量补偿的环境HOA系数47'和经内插的前景信号 49'(138)。心理声学解码单元80可将经能量补偿的环境HOA系数47'传递到HOA系数制订单元82,且将nFG信号49'传递到重排序单元84。
重排序单元84可接收指示HOA系数11的前景分量的原始次序的语法元素。重排序单元84可基于这些重排序语法元素对经内插的nFG信号49'和经减小的前景V[k]向量 55k重排序,以产生经重排序的nFG信号49”和经重排序的前景V[k]向量55k'(140)。重排序单元84可将经重排序的nFG信号49”输出到前景制订单元78,且将经重排序的前景V[k]向量55k'输出到空间-时间内插单元76。
音频解码装置24接下来可调用空间-时间内插单元76。空间-时间内插单元76可接收经重排序的前景方向信息55k',且相对于经减小的前景方向信息55k/55k-1执行空间-时间内插以产生经内插的前景方向信息55k”(142)。空间-时间内插单元76可将经内插前景 V[k]向量55k”转发到前景制订单元718。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行经内插前景信号49”与经内插前景方向信息55k”的矩阵乘法以获得前景HOA系数65(144)。音频解码装置24还可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65 与环境HOA声道47'相加以便获得HOA系数11'(146)。
在这方面中,三维(3D)(或基于HOA的)音频可设计成超出基于5.1或甚至7.1声道的环绕声音,以提供更鲜明的声音空间。换句话说,3D音频可设计成包围收听者,使得收听者喜欢所述声音的来源,不管例如音乐家或演员是否正在与收听者在同一房间中演奏。3D音频可为内容创建者呈现新的选择来寻求更大的艺术深度以及数字声音空间的现实性。
上文详细描述的3D音频译码可包含新颖的基于场景的音频HOA表示格式,其可设计成克服传统音频译码的一些限制。基于场景的音频可基于球面谐波基底函数使用非常高效且紧凑的信号集合(被称为高阶立体混响(HOA))来表示三维声音场景(或等效地压力字段)。
在一些情况下,内容创建可接近地联系到将如何重放所述内容。基于场景的音频格式(例如上文参考的MPEG-H 3D音频标准中所定义的那些格式)可支持声音场景的一个单一表示的内容创建,不管播放所述内容的系统如何。以此方式,所述单一表示可在5.1、7.1、7.4.1、11.1、22.2等重放系统上重放。因为声场的表示无法联系到将如何重放内容(例如经由立体声或5.1或7.1系统),所以基于场景的音频(或换句话说,HOA)表示设计成跨所有重放情形重放。基于场景的音频表示还可能经受实况捕获和所录制内容两者的检验,且可经工程化以适合如上文所描述的音频广播和流式传输的现有基础设施。
尽管描述为声场的层级表示,但HOA系数也可表征为基于场景的音频表示。由此,夹层压缩或编码还可被称作基于场景的压缩或编码。
基于场景的音频表示可将若干值提议提供到广播行业,例如以下:
·实况音频场景的潜在容易捕获:从麦克风阵列和/或点麦克风捕获的信号可实时转换成HOA系数。
·潜在灵活渲染:灵活渲染可允许沉浸式听觉场景的渲染,而不管重放位置处和头戴式耳机上的扬声器配置如何。
·潜在最小基础设施升级:可利用当前用于基于发射声道的空间音频(例如5.1等) 的音频广播的现有基础设施,而不作出任何显著改变来实现声音场景的HOA表示的发射。
在这方面中,所述技术可实现下文相对于以下条款陈述的方法。一种装置或系统(例如图1的系统10、图2到3C的广播网中心402和/或空间音频编码装置20)可经配置以执行(以装置的形式或借助于一或多个处理器和存储器或本文所论述的其它硬件组件)所述方法。在一些实例中,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令可致使一或多个处理器执行以下条款中所陈述的方法。
条款1A.一种方法包括相对于高阶立体混响音频数据执行夹层(或换句话说,中间)压缩,以获得经夹层(或换句话说,中间)格式化的音频数据。
条款2A.根据条款1A所述的方法,其中执行所述夹层压缩包括执行不涉及心理声学音频编码相对于所述高阶立体混响音频数据的任何应用以获得所述经夹层格式化的音频数据的所述夹层压缩。
条款3A.根据条款1A所述的方法,其中执行夹层压缩包括相对于所述高阶立体混响音频数据执行空间音频编码以获得所述经夹层格式化的音频数据。
条款4A.根据条款1A所述的方法,其中执行夹层压缩包括相对于所述高阶立体混响音频数据执行基于向量的合成,以获得所述经夹层格式化的音频数据。
条款5A.根据条款4A所述的方法,其中执行所述基于向量的合成包括相对于所述高阶立体混响音频数据执行奇异值分解以获得所述经夹层格式化的音频数据。
条款6A.根据条款1A所述的方法,其中所述经夹层格式化的音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量。
条款7A.根据条款6A所述的方法,其中所述背景分量包含所述高阶立体混响音频数据的对应于具有小于二的阶的球面基底函数的高阶立体混响系数。
条款8A.根据条款6A所述的方法,其中所述背景分量仅包含所述高阶立体混响音频数据的对应于具有小于二的阶的球面基底函数的高阶立体混响系数。
条款9A.根据条款1A所述的方法,其中所述经夹层格式化的音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个前景分量。
条款10A.根据条款9A所述的方法,其中执行夹层压缩包括相对于所述高阶立体混响音频数据执行基于向量的合成,以获得所述经夹层格式化的音频数据,且其中所述前景分量包含通过相对于所述高阶立体混响音频数据执行所述基于向量的合成从所述高阶音频对象分解的前景音频对象。
条款11A.根据条款1A所述的方法,其中所述经夹层格式化的音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量和一或多个前景分量。
条款12A.根据条款1A所述的方法,其中所述经夹层格式化的音频数据包含一或多个经脉码调制(PCM)的输送声道和边带信息。
条款13A.根据条款12A所述的方法,其中执行夹层压缩包括相对于所述高阶立体混响音频数据执行基于向量的合成,以获得所述经夹层格式化的音频数据,且其中所述边带信息包含由于相对于所述高阶立体混响音频数据执行所述基于向量的合成而产生的方向信息输出。
条款14A.根据条款12A所述的方法,其中执行夹层压缩包括相对于所述高阶立体混响音频数据执行奇异值分解,以获得所述经夹层格式化的音频数据,且其中所述边带信息包含由于相对于所述高阶立体混响音频数据执行所述基于向量的合成而输出的一或多个V向量。
条款15A.根据条款1A所述的方法,其进一步包括将所述经夹层格式化的音频数据发射到广播网,以供所述广播网处理。
条款16A.根据条款1A所述的方法,其进一步包括在广播所述经夹层格式化的音频数据之前,将所述经夹层格式化的音频数据发射到广播网,以将额外音频数据插入到所述经夹层格式化的音频数据中。
所述技术还可实现下文相对于以下条款陈述的方法。一种装置或系统(例如图1的系统10、图2到3C的广播网中心402、图2和6的音频解码装置24,和/或图3A 到3C 以及7的空间音频解码装置420)可经配置以执行(以装置的形式或借助于一或多个处理器和存储器或本文所论述的其它硬件组件)所述方法。在一些实例中,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令可致使一或多个处理器执行以下条款中所陈述的方法。
条款1B.一种方法包括:通过广播网获得由于相对于高阶立体混响音频数据执行夹层(或换句话说,中间)压缩而产生的经夹层(或换句话说,中间)格式化的音频数据;以及通过所述广播网来处理所述经夹层格式化的音频数据。
条款2B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据是由于执行不涉及心理声学音频编码对所述高阶立体混响音频数据的任何应用的夹层压缩而产生。
条款3B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据是由于相对于所述高阶立体混响音频数据执行空间音频编码而产生。
条款4B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据是由于相对于所述高阶立体混响音频数据执行基于向量的合成而产生。
条款5B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据是由于相对于所述高阶立体混响音频数据执行奇异值分解而产生。
条款6B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量。
条款7B.根据条款6B所述的方法,其中所述背景分量包含所述高阶立体混响音频数据的对应于具有小于二的阶的球面基底函数的高阶立体混响系数。
条款8B.根据条款6B所述的方法,其中所述背景分量仅包含所述高阶立体混响音频数据的对应于具有小于二的阶的球面基底函数的高阶立体混响系数。
条款9B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个前景分量。
条款10B.根据条款9B所述的方法,其中所述经夹层格式化的音频数据是由于相对于所述高阶立体混响音频数据执行基于向量的合成而产生,且其中所述前景分量包含通过相对于所述高阶立体混响音频数据执行所述基于向量的合成而从所述高阶音频对象分解的前景音频对象。
条款11B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量和一或多个前景分量。
条款12B.根据条款1B所述的方法,其中所述经夹层格式化的音频数据包含一或多个经脉码调制(PCM)的输送声道和边带信息。
条款13B.根据条款12B所述的方法,其中所述经夹层格式化的音频数据是由于相对于所述高阶立体混响音频数据执行基于向量的合成以获得所述经夹层格式化的音频数据而产生,且其中所述边带信息包含由于相对于所述高阶立体混响音频数据执行所述基于向量的合成而产生的方向信息输出。
条款14B.根据条款12B所述的方法,其中所述经夹层格式化的音频数据是由于相对于所述高阶立体混响音频数据执行奇异值分解以获得所述经夹层格式化的音频数据而产生,且其中所述边带信息包含由于相对于所述高阶立体混响音频数据执行所述基于向量的合成而输出的一或多个V向量。
条款15B.根据条款1B所述的方法,其中处理所述经夹层格式化的音频数据包括将额外音频数据插入到所述经夹层格式化的音频数据中。
条款16B.根据条款1B所述的方法,其中处理所述经夹层格式化的音频数据包括将商业音频数据插入到所述经夹层格式化的音频数据中。
条款17B.根据条款1B所述的方法,其中处理所述经夹层格式化的音频数据包括将电视工作室节目插入到所述经夹层格式化的音频数据中。
条款18B.根据条款1B所述的方法,其中处理所述经夹层格式化的音频数据包括将交叉淡化额外音频数据插入到所述经夹层格式化的音频数据中。
条款19B.根据条款1B所述的方法,其中处理所述经夹层格式化的音频数据包括处理所述经夹层格式化的音频数据,而不相对于所述经夹层格式化的音频数据执行夹层解压缩和高阶立体混响转换。
条款20B.根据权利要求1B所述的方法,其进一步包括:获得空间域中指定的额外音频数据;将所述额外音频数据从所述空间域转换到球面谐波域,使得所述额外音频数据所描述的声场表示为额外高阶立体混响音频数据;以及相对于所述额外高阶立体混响音频数据执行夹层压缩,以产生经夹层格式化的额外音频数据,其中处理所述经夹层格式化的音频数据包括将经夹层格式化的额外音频数据插入到所述经夹层格式化的音频数据中。
条款21B.根据条款1B所述的方法,其进一步包括获得球面谐波域中指定的经夹层格式化的额外音频数据,其中处理所述经夹层格式化的音频数据包括将经夹层格式化的额外音频数据插入到所述经夹层格式化的音频数据中。
条款22B.根据条款1B所述的方法,其进一步包括:
获得球面谐波域中指定的额外高阶立体混响音频数据;以及相对于所述额外高阶立体混响音频数据执行夹层压缩,以产生经夹层格式化的额外音频数据,其中处理所述经夹层格式化的音频数据包括将经夹层格式化的额外音频数据插入到所述经夹层格式化的音频数据中。
条款23B.根据条款1B所述的方法,其进一步包括相对于所述经夹层格式化的音频数据执行心理声学音频编码以产生经压缩音频数据。
条款24B.根据条款1B所述的方法,其进一步包括:相对于所述经夹层格式化的音频数据执行夹层解压缩以获得所述高阶立体混响音频数据;相对于所述高阶立体混响音频数据执行高阶立体混响转换以获得经空间格式化的音频数据;以及监视所述经空间格式化的音频数据。
另外,前述技术可相对于任何数目的不同上下文和音频生态系统执行,且不应限于上文所述的上下文或音频生态系统中的任一者。下文描述多个实例情形,但所述技术应限于所述实例情形。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、译码引擎、游戏音频原声、游戏音频译码/再现引擎,以及递送系统。
电影工作室、音乐工作室和游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于声道的音频内容(例如,呈2.0、5.1和7.1)。音乐工作室可例如通过使用DAW输出基于声道的音频内容(例如,呈2.0和5.1)。在任一情况下,译码引擎可基于一或多个编解码器 (例如,AAC、AC3、杜比真HD、杜比数字加和DTS主音频)接收并编码基于声道的音频内容以供传递系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频原声。游戏音频译码/渲染引擎可译码音频原声和/或将音频原声渲染到基于声道的音频内容中以供递送系统输出。可执行所述技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上捕获、HOA音频格式、装置上渲染、消费型音频、TV和配件以及汽车音频系统。
广播记录音频对象、专业音频系统和消费型装置上捕获都可使用HOA音频格式对其输出进行译码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上渲染、消费型音频、TV和配件以及汽车音频系统来重放所述单一表示。换句话说,可在通用音频播放系统(即,与需要例如5.1、7.1等的特定配置相比)(例如,音频播放系统16)处播放音频内容的单一表示。
可执行所述技术的上下文的其它实例包含可包含获取元件和重放元件的音频生态系统。获取元件可包含有线和/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获和移动装置(例如,智能电话和平板计算机)。在一些实例中,有线和/或无线获取装置可经由有线及/或无线通信声道耦合到移动装置。
根据本发明的一或多个技术,所述移动装置可用于获取声场。举例来说,移动装置可经由有线和/或无线获取装置和/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取的声场译码成HOA系数以用于由重放元件中的一或多者重放。举例来说,移动装置的用户可记录实况事件(例如,集会、会议、比赛、音乐会等)(获取实况事件的声场),且将记录译码成HOA系数。
移动装置还可利用重放元件中的一或多者来重放经HOA译码的声场。举例来说,移动装置可对经HOA译码的声场进行解码,且将致使重放元件中的一或多者重新产生声场的信号输出到重放元件中的一或多者。作为一个实例,移动装置可利用无线和/或无线通信声道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出到一或多个对接站和/或一或多个对接的扬声器(例如,智能汽车和/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机渲染将信号输出到一组头戴式耳机(例如)以创建真实的双耳声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放同一3D声场。在一些实例中,移动装置可获取3D声场,将3D声场编码为HOA,且将经编码的3D 声场发射到一或多个其它装置(例如,其它移动装置和/或其它非移动装置)以用于重放。
可执行所述技术的又一情形包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、渲染引擎和递送系统。在一些实例中,游戏工作室可包含可支持HOA 信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含可经配置以与一或多个游戏音频系统一起操作(例如,工作)的HOA插件和/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码音频内容输出到渲染引擎,所述渲染引擎可渲染声场以供递送系统重放。
也可相对于示范性音频获取装置执行所述技术。举例来说,可相对于可包含共同地经配置以记录3D声场的多个麦克风的本征麦克风执行所述技术。在一些实例中,本征麦克风的所述多个麦克风可位于具有大约4cm的半径的实质上球面球的表面上。在一些实例中,音频编码装置20可集成到本征麦克风中,以便直接从麦克风输出位流21。
另一示范性音频获取情形可包含可经配置以从一或多个麦克风(例如,一或多个本征麦克风)接收信号的制作车。制作车还可包含音频编码器,例如图5的音频编码器20。
在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图5的音频编码器20。
加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的配件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加了一或多个配件。举例来说,本征麦克风可附接到上文所提及的移动装置以形成配件增强型移动装置。以此方式,配件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与附件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频重放装置。根据本发明的一或多种技术,扬声器和/或声棒在重放3D声场时可布置于任何任意配置中。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多种技术,可利用声场的单一通用表示来在扬声器、声棒和头戴式耳机重放装置的任何组合上渲染声场。
多个不同实例音频重放环境还可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,以及具有耳机重放环境的移动装置。
根据本发明的一或多种技术,可利用声场的单一通用表示来在前述重放环境中的任一者上渲染声场。另外,本发明的技术使得渲染器能够从通用表示渲染声场以供在除上文所描述的环境之外的重放环境上重放。举例来说,如果设计考虑禁止扬声器根据7.1 扬声器重放环境的恰当置放(例如,如果不可能放置右环绕扬声器),那么本发明的技术使得渲染器能够用其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。
此外,用户可在佩戴头戴式耳机时观看体育比赛。根据本发明的一或多种技术,可获取体育比赛的3D声场(例如,可将一或多个本征麦克风放置在棒球场中和/或周围),可获得对应于3D声场的HOA系数,且将所述HOA系数发射到解码器,所述解码器可基于HOA系数重构3D声场且将经重构3D声场输出到渲染器,所述渲染器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重构3D声场渲染为致使头戴式耳机输出所述体育比赛的3D声场的表示的信号。
在上述各种实例中的每一者中,应理解,音频编码装置20可执行一种方法,或另外包括执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,这些装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行音频编码装置20已经配置以执行的方法。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个计算机或一个或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所述的各种实例中的每一者中,应理解,音频解码装置24可执行方法或以其它方式包括执行所述音频解码装置24经配置以执行的所述方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频解码装置 24已经配置以执行的方法。
作为实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、 CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可在经配置以用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合式编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所公开的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
此外,如本文所使用,“A和/或B”表示“A或B”,或“A和B”两者。
已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。
Claims (30)
1.一种用于执行高阶立体混响音频数据的中间压缩装置,其包括:
存储器,其经配置以存储由于高阶立体混响音频数据的中间压缩而产生的经中间格式化的音频数据,执行所述高阶立体混响音频数据的所述中间压缩,以减少所述高阶立体混响音频数据的声道数目,使得所述经中间格式化的音频数据具有小于或等于所述装置所支持的声道数目的声道数目;以及
一或多个处理器,其经配置以处理所述经中间格式化的音频数据。
2.根据权利要求1所述的装置,其中所述经中间格式化的音频数据包含一或多个经脉码调制PCM的输送声道和边带信息。
3.根据权利要求1所述的装置,其中所述一或多个处理器经配置以将额外音频数据插入到所述经中间格式化的音频数据中。
4.根据权利要求1所述的装置,其中所述一或多个处理器经配置以将商业音频数据插入到所述经中间格式化的音频数据中。
5.根据权利要求1所述的装置,其中所述一或多个处理器经配置以将与电视工作室节目相关联的音频插入到所述经中间格式化的音频数据中。
6.根据权利要求1所述的装置,其中所述一或多个处理器经配置以将额外音频数据交叉淡化到所述经中间格式化的音频数据中。
7.根据权利要求1所述的装置,其中所述一或多个处理器经配置以处理所述经中间格式化的音频数据,而不执行相对于所述经中间格式化的音频数据的中间解压缩或高阶立体混响转换。
8.根据权利要求1所述的装置,
其中所述一或多个处理器进一步经配置以:获得空间域中指定的额外音频数据;将所述额外音频数据从所述空间域转换到球面谐波域,使得所述额外音频数据所描述的声场表示为额外高阶立体混响音频数据;以及相对于所述额外高阶立体混响音频数据执行所述中间压缩,以产生经中间格式化的额外音频数据,且
其中所述一或多个处理器经配置以将所述经中间格式化的额外音频数据插入到所述经中间格式化的音频数据中。
9.根据权利要求1所述的装置,
其中所述一或多个处理器进一步经配置以获得球面谐波域中指定的经中间格式化的额外音频数据,且
其中所述一或多个处理器经配置以将所述经中间格式化的额外音频数据插入到所述经中间格式化的音频数据中。
10.根据权利要求1所述的装置,
其中所述一或多个处理器进一步经配置以获得球面谐波域中指定的额外高阶立体混响音频数据,且相对于所述额外高阶立体混响音频数据执行所述中间压缩,以产生经中间格式化的额外音频数据,且
其中所述一或多个处理器经配置以将所述经中间格式化的额外音频数据插入到所述经中间格式化的音频数据中。
11.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以相对于所述经中间格式化的音频数据执行心理声学音频编码,以产生经压缩音频数据。
12.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以:相对于所述经中间格式化的音频数据执行中间解压缩以获得所述高阶立体混响音频数据;相对于所述高阶立体混响音频数据执行高阶立体混响转换以获得空间格式化音频数据;以及监视所述经空间格式化的音频数据。
13.一种用于执行高阶立体混响音频数据的中间压缩方法,其包括:
通过广播系统,获得由于高阶立体混响音频数据的中间压缩而产生的经中间格式化的音频数据,执行所述高阶立体混响音频数据的所述中间压缩,以减少所述高阶立体混响音频数据的声道数目,使得所述经中间格式化的音频数据具有小于或等于所述广播系统所支持的声道数目的声道数目;以及
通过所述广播系统,处理所述经中间格式化的音频数据。
14.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时致使广播系统的一或多个处理器:
获得由于高阶立体混响音频数据的中间压缩而产生的经中间格式化的音频数据,执行所述高阶立体混响音频数据的所述中间压缩,以减少所述高阶立体混响音频数据的声道数目,使得所述经中间格式化的音频数据具有小于或等于所述广播系统所支持的声道数目的声道数目;以及
处理所述经中间格式化的音频数据。
15.一种用于执行高阶立体混响音频数据的中间压缩装置,其包括:
存储器,其经配置以存储高阶立体混响音频数据;以及
一或多个处理器,其经配置以相对于所述高阶立体混响音频数据执行中间压缩以减少所述高阶立体混响音频数据的声道数目,以便获得具有小于或等于广播网络所支持的声道数目的声道数目的经中间格式化的音频数据。
16.根据权利要求15所述的装置,其中所述一或多个处理器经配置以执行不涉及心理声学音频编码相对于所述高阶立体混响音频数据的任何应用以获得所述经中间格式化的音频数据的中间压缩。
17.根据权利要求15所述的装置,其中所述一或多个处理器经配置以相对于所述高阶立体混响音频数据执行空间音频编码,以获得所述经中间格式化的音频数据。
18.根据权利要求15所述的装置,其中所述一或多个处理器经配置以相对于所述高阶立体混响音频数据执行线性分解,以获得所述经中间格式化的音频数据。
19.根据权利要求18所述的装置,其中所述一或多个处理器经配置以相对于所述高阶立体混响音频数据执行奇异值分解,以获得所述经中间格式化的音频数据。
20.根据权利要求15所述的装置,其中所述经中间格式化的音频数据包含由所述高阶立体混响音频数据表示的声场的一或多个背景分量。
21.根据权利要求20所述的装置,其中所述背景分量包含所述高阶立体混响音频数据的对应于具有小于二的阶的球面基底函数的高阶立体混响系数。
22.根据权利要求20所述的装置,其中所述背景分量仅包含所述高阶立体混响音频数据的对应于具有小于二的阶的球面基底函数的高阶立体混响系数。
23.根据权利要求15所述的装置,其中所述经中间格式化的音频数据包含由所述高阶立体混响音频数据表示的声场的一或多个前景分量。
24.根据权利要求23所述的装置,
其中所述一或多个处理器经配置以相对于所述高阶立体混响音频数据执行线性分解,以获得所述经中间格式化的音频数据,且
其中所述前景分量包含通过相对于所述高阶立体混响音频数据执行所述线性分解从所述高阶立体混响音频数据分解的前景音频对象。
25.根据权利要求15所述的装置,其中所述经中间格式化的音频数据包含由所述高阶立体混响音频数据表示的声场的一或多个背景分量和一或多个前景分量。
26.根据权利要求15所述的装置,其中所述经中间格式化的音频数据包含一或多个经脉码调制PCM的输送声道和边带信息。
27.根据权利要求26所述的装置,
其中所述一或多个处理器经配置以相对于所述高阶立体混响音频数据执行线性分解,以获得所述经中间格式化的音频数据,且
其中所述边带信息包含由于相对于所述高阶立体混响音频数据执行所述线性分解而产生的方向信息输出。
28.根据权利要求26所述的装置,
其中所述一或多个处理器经配置以相对于所述高阶立体混响音频数据执行奇异值分解SVD,以获得所述经中间格式化的音频数据,且
其中所述边带信息包含由于相对于所述高阶立体混响音频数据执行所述SVD而输出的一或多个V向量。
29.根据权利要求15所述的装置,其中所述一或多个处理器进一步经配置以将所述经中间格式化的音频数据发射到所述广播网络,以供所述广播网络处理。
30.根据权利要求15所述的装置,其中所述一或多个处理器进一步经配置以在广播所述经中间格式化的音频数据之前,将所述经中间格式化的音频数据发射到所述广播网络,以将额外音频数据插入到所述经中间格式化的音频数据中。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462043987P | 2014-08-29 | 2014-08-29 | |
US62/043,987 | 2014-08-29 | ||
US201562145402P | 2015-04-09 | 2015-04-09 | |
US62/145,402 | 2015-04-09 | ||
US201562146115P | 2015-04-10 | 2015-04-10 | |
US62/146,115 | 2015-04-10 | ||
US14/838,066 | 2015-08-27 | ||
US14/838,066 US9847088B2 (en) | 2014-08-29 | 2015-08-27 | Intermediate compression for higher order ambisonic audio data |
PCT/US2015/047461 WO2016033480A2 (en) | 2014-08-29 | 2015-08-28 | Intermediate compression for higher order ambisonic audio data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106575506A CN106575506A (zh) | 2017-04-19 |
CN106575506B true CN106575506B (zh) | 2020-12-29 |
Family
ID=54073021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580044523.9A Active CN106575506B (zh) | 2014-08-29 | 2015-08-28 | 用于执行高阶立体混响音频数据的中间压缩的装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9847088B2 (zh) |
CN (1) | CN106575506B (zh) |
WO (1) | WO2016033480A2 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9875745B2 (en) | 2014-10-07 | 2018-01-23 | Qualcomm Incorporated | Normalization of ambient higher order ambisonic audio data |
EP3329486B1 (en) * | 2015-07-30 | 2020-07-29 | Dolby International AB | Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation |
US12087311B2 (en) | 2015-07-30 | 2024-09-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding an HOA representation |
US10262665B2 (en) * | 2016-08-30 | 2019-04-16 | Gaudio Lab, Inc. | Method and apparatus for processing audio signals using ambisonic signals |
CN107945810B (zh) * | 2016-10-13 | 2021-12-14 | 杭州米谟科技有限公司 | 用于编码和解码hoa或多声道数据的方法和装置 |
CN110771181B (zh) * | 2017-05-15 | 2021-09-28 | 杜比实验室特许公司 | 用于将空间音频格式转换为扬声器信号的方法、系统和设备 |
US20180338212A1 (en) * | 2017-05-18 | 2018-11-22 | Qualcomm Incorporated | Layered intermediate compression for higher order ambisonic audio data |
US10075802B1 (en) * | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
CN117395593A (zh) | 2017-10-04 | 2024-01-12 | 弗劳恩霍夫应用研究促进协会 | 用于编码、解码、场景处理和与基于DirAC的空间音频编码有关的其它过程的装置、方法和计算机程序 |
US10657974B2 (en) * | 2017-12-21 | 2020-05-19 | Qualcomm Incorporated | Priority information for higher order ambisonic audio data |
US11270711B2 (en) * | 2017-12-21 | 2022-03-08 | Qualcomm Incorproated | Higher order ambisonic audio data |
FR3079706B1 (fr) * | 2018-03-29 | 2021-06-04 | Inst Mines Telecom | Procede et systeme de diffusion d'un flux audio multicanal a des terminaux de spectateurs assistant a un evenement sportif |
BR112020015835A2 (pt) | 2018-04-11 | 2020-12-15 | Dolby International Ab | Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof |
SG11202007629UA (en) * | 2018-07-02 | 2020-09-29 | Dolby Laboratories Licensing Corp | Methods and devices for encoding and/or decoding immersive audio signals |
CN109348329B (zh) * | 2018-09-30 | 2020-11-17 | 歌尔科技有限公司 | 一种耳机及音频信号的输出方法 |
KR102599744B1 (ko) | 2018-12-07 | 2023-11-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 |
GB2582916A (en) * | 2019-04-05 | 2020-10-14 | Nokia Technologies Oy | Spatial audio representation and associated rendering |
US20200402521A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Performing psychoacoustic audio coding based on operating conditions |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103313182A (zh) * | 2012-03-06 | 2013-09-18 | 汤姆逊许可公司 | 用于回放更高阶立体混响音频信号的方法和设备 |
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL9000338A (nl) * | 1989-06-02 | 1991-01-02 | Koninkl Philips Electronics Nv | Digitaal transmissiesysteem, zender en ontvanger te gebruiken in het transmissiesysteem en registratiedrager verkregen met de zender in de vorm van een optekeninrichting. |
US20100158098A1 (en) | 2008-12-22 | 2010-06-24 | Echostar Technologies L.L.C. | System and method for audio/video content transcoding |
EP2539892B1 (fr) * | 2010-02-26 | 2014-04-02 | Orange | Compression de flux audio multicanal |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2469741A1 (en) | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US9363522B2 (en) | 2011-04-28 | 2016-06-07 | Warner Bros. Entertainment, Inc. | Region-of-interest encoding enhancements for variable-bitrate mezzanine compression |
EP2946468B1 (en) | 2013-01-16 | 2016-12-21 | Thomson Licensing | Method for measuring hoa loudness level and device for measuring hoa loudness level |
US9883310B2 (en) | 2013-02-08 | 2018-01-30 | Qualcomm Incorporated | Obtaining symmetry information for higher order ambisonic audio renderers |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
WO2014195190A1 (en) | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
EP2824661A1 (en) | 2013-07-11 | 2015-01-14 | Thomson Licensing | Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9875745B2 (en) | 2014-10-07 | 2018-01-23 | Qualcomm Incorporated | Normalization of ambient higher order ambisonic audio data |
-
2015
- 2015-08-27 US US14/838,066 patent/US9847088B2/en active Active
- 2015-08-28 WO PCT/US2015/047461 patent/WO2016033480A2/en active Application Filing
- 2015-08-28 CN CN201580044523.9A patent/CN106575506B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103313182A (zh) * | 2012-03-06 | 2013-09-18 | 汤姆逊许可公司 | 用于回放更高阶立体混响音频信号的方法和设备 |
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
Non-Patent Citations (2)
Title |
---|
《Optimal Higher Order Ambisonics Encoding With Predefined Constraints》;Haohai Sun et al.;《IEEE Transactions on Audio, Speech, and Language Processing ( Volume: 20 , Issue: 3, March 2012 )》;20120331;全文 * |
《三网融合背景下的通信声学》;吴鸣 等;《通信电声》;20110531;全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2016033480A3 (en) | 2016-06-02 |
US20160064005A1 (en) | 2016-03-03 |
WO2016033480A2 (en) | 2016-03-03 |
CN106575506A (zh) | 2017-04-19 |
US9847088B2 (en) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106575506B (zh) | 用于执行高阶立体混响音频数据的中间压缩的装置和方法 | |
US9838819B2 (en) | Reducing correlation between higher order ambisonic (HOA) background channels | |
CN106796794B (zh) | 环境高阶立体混响音频数据的归一化 | |
DK3143614T3 (en) | RECONSTRUCTION OF VECTORS DESTROYED FROM THE HIGHER ORDER AMBISONIC AUDIO SIGNALS | |
CN111383645B (zh) | 指示用于译码向量的帧参数可重用性 | |
EP3005738B1 (en) | Binauralization of rotated higher order ambisonics | |
KR102092774B1 (ko) | 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들 | |
CN106797527B (zh) | Hoa内容的显示屏相关调适 | |
KR102053508B1 (ko) | 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 채널들의 시그널링 | |
KR102329373B1 (ko) | 고차 앰비소닉 오디오 신호들로부터 분해된 코딩 벡터들에 대한 코드북들 선택 | |
US9959876B2 (en) | Closed loop quantization of higher order ambisonic coefficients | |
JP2017513053A (ja) | 音場の記述へのオーディオチャンネルの挿入 | |
CN106471578B (zh) | 用于较高阶立体混响信号之间的交叉淡化的方法和装置 | |
EP3363213B1 (en) | Coding higher-order ambisonic coefficients during multiple transitions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |