CN108141695B - 高阶立体混响(hoa)内容的屏幕相关适应 - Google Patents
高阶立体混响(hoa)内容的屏幕相关适应 Download PDFInfo
- Publication number
- CN108141695B CN108141695B CN201680059411.5A CN201680059411A CN108141695B CN 108141695 B CN108141695 B CN 108141695B CN 201680059411 A CN201680059411 A CN 201680059411A CN 108141695 B CN108141695 B CN 108141695B
- Authority
- CN
- China
- Prior art keywords
- matrix
- hoa
- processors
- audio
- viewing window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001419 dependent effect Effects 0.000 title description 22
- 230000006978 adaptation Effects 0.000 title description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 283
- 230000000694 effects Effects 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 129
- 230000005236 sound signal Effects 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000009877 rendering Methods 0.000 claims description 90
- 238000013507 mapping Methods 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 68
- 238000012937 correction Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 171
- 238000013139 quantization Methods 0.000 description 29
- 238000004458 analytical method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 25
- 238000003860 storage Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 230000009467 reduction Effects 0.000 description 15
- 238000000354 decomposition reaction Methods 0.000 description 14
- 230000007704 transition Effects 0.000 description 13
- 238000009472 formulation Methods 0.000 description 12
- 239000000203 mixture Substances 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 230000011664 signaling Effects 0.000 description 6
- 239000007787 solid Substances 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010612 desalination reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 239000007993 MOPS buffer Substances 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000005043 peripheral vision Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
- H04N5/602—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Mathematical Physics (AREA)
Abstract
本发明大体上公开用于呈现音频数据的系统和技术。用于呈现高阶立体混响HOA音频信号的实例装置包含经配置以存储所述HOA音频信号的存储器和耦合到所述存储器的一或多个处理器。所述一或多个处理器经配置以作为产生效果矩阵的部分执行响度补偿过程。所述一或多个处理器进一步经配置以基于所述效果矩阵呈现所述HOA音频信号。
Description
本申请案要求以下各者的权益:
2015年10月14日提交的第62/241,709号美国临时申请案;
2015年10月20日提交的第62/244,149号美国临时申请案;以及
2015年11月13日提交的第62/255,353号美国临时申请案,以上申请案中的每一个的全部内容以引用的方式并入本文中。
技术领域
本公开涉及音频数据,且更具体地说,涉及高阶立体混响音频数据的编码。
背景技术
高阶立体混响(HOA)信号(常常由多个球面谐波系数(SHC)或其它分层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以播放从SHC信号呈现的多信道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号也可有助于向后兼容性,因为所述SHC信号可被呈现为众所周知的且被高度采用的多信道格式(例如,5.1音频信道格式或7.1音频信道格式)。因此,所述SHC表示可实现也适应向后兼容性的对声场的更好表示。
附图说明
图1是说明具有各种阶数和子阶数的球面谐波基底函数的图式。
图2是说明可执行本公开中所描述的技术的各种方面的系统的图式。
图3是更详细说明可执行本公开中所描述的技术的各种方面的图2的实例中所示的音频编码装置的一个实例的框图。
图4是更详细说明图2的音频解码装置的框图。
图5是说明音频编码装置执行本公开中所描述的基于向量的合成技术的各种方面的示范性操作的流程图。
图6是说明音频解码装置执行本发明中描述的技术的各种方面的示范性操作的流程图。
图7A展示可用于基于参考屏幕大小和观察窗大小将初始方位角映射到经修改方位角的实例映射函数。
图7B展示可用于基于参考屏幕大小和观察窗大小将初始仰角映射到经修改仰角的实例映射函数。
图8展示作为第一实例的参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。
图9A和9B展示计算出的HOA效果矩阵的实例。
图10展示效果矩阵如何可被预呈现且应用于扬声器呈现矩阵的实例。
图11展示如果效果矩阵可产生高阶内容(例如,6阶),那么可如何乘以处于此阶中的呈现矩阵以预计算在初始阶(此处为3阶)中的最终呈现矩阵的实例。
图12A展示可用于基于参考屏幕大小和观察窗大小将初始方位角映射到经修改方位角的实例映射函数。
图12B展示可用于基于参考屏幕大小和观察窗大小将初始仰角映射到经修改仰角的实例映射函数。
图12C展示计算出的HOA效果矩阵。
图13展示用于作为参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。
图14A展示可用于基于参考屏幕大小和观察窗大小将初始方位角映射到经修改方位角的实例映射函数。
图14B展示可用于基于参考屏幕大小和观察窗大小将初始仰角映射到经修改仰角的实例映射函数。
图14C展示计算出的HOA效果矩阵。
图15展示用于作为参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。
图16A展示可用于基于参考屏幕大小和观察窗大小将初始方位角映射到经修改方位角的实例映射函数。
图16B展示可用于基于参考屏幕大小和观察窗大小将初始仰角映射到经修改仰角的实例映射函数。
图16C展示计算出的HOA效果矩阵。
图17展示用于作为参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。
图18A展示可用于基于参考屏幕大小和观察窗大小将初始方位角映射到经修改方位角的实例映射函数。
图18B展示可用于基于参考屏幕大小和观察窗大小将初始仰角映射到经修改仰角的实例映射函数。
图18C展示计算出的HOA效果矩阵。
图19展示用于作为参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。
图20A到20F是说明经配置以实现本公开的技术的音频呈现装置的实例实施方式的框图。
图21是说明系统可执行以实施本公开的一或多种技术的实例过程的流程图。
图22是说明系统可执行以实施本公开的一或多种技术的实例过程的流程图。
图23是说明系统可执行以实施本公开的一或多种技术的实例过程的流程图。
具体实施方式
环绕声的演变现今已使用于娱乐的许多输出格式可用。此等消费型环绕声格式的实例大部分为“信道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈送。消费型环绕声格式包含普遍的5.1格式(其包含以下六个信道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,以及低频效果(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式和22.2格式(例如,用于与超高清电视标准一起使用)。非消费型格式可以跨越任何数量的扬声器(成对称和非对称几何布置),其往往被称为“环绕阵列”。此阵列的一个实例包含定位在截头二十面体的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入任选地为三个可能格式中的一个:(i)传统的基于信道的音频(如上所论述),其意在通过在预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(在各信息当中)的相关联元数据的离散脉冲代码调制(PCM)数据;和(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也叫作“球面谐波系数”或SHC、“高阶立体混响”或HOA和“HOA系数”)来表示声场。未来MPEG编码器可在由国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411在2013年1月在瑞士日内瓦发布的标题为“对3D音频的提议的要求(Call for Proposalsfor 3D Audio)”的文献中更详细地描述,且所述文献可在http:// mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/ w13411.zip获得。
在市场中存在各种“环绕声”基于信道的格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次产生电影的信道,而不用花费精力来针对每一扬声器配置对其进行再混合。近来,标准开发组织(StandardsDeveloping Organizations)一直在考虑如下方式:将编码提供于标准化位流中且提供后续解码,其适合于且不知晓播放位置(涉及呈现器)处的扬声器几何形状(和数目)和声学条件。
为向内容创建者提供此灵活性,可使用分层元素集合来表示声场。分层元素集合可指的是元素被排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在集合经扩展以包含高阶元素时,表示变得更详细,从而增加分辨率。
分层元素集合的一个实例为球面谐波系数(SHC)的集合。以下表达式示范使用SHC对声场的描述或表示:
表达式展示时间t处在声场的任一点处的压力pi可仅由表示。此处,是声速(~343m/s),是参考点(或观察点),jn(·)是阶n的球面贝塞尔函数,且是阶n和子阶m的球面谐波基底函数。可认识到,方括号中的术语是可通过各种时间-频率变换来近似的对信号的频域表示(即,所述变换例如为离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合和多分辨率基底函数的系数的其它集合。
视频数据往往结合对应的同步化的音频数据来显示,其中,音频数据通常被产生为匹配视频数据的透视图。例如,在展示在餐馆中说话的两个人的特写透视图的视频帧期间,两个人的对话可相对于在餐馆的任何背景噪声,例如其它就餐者的对话、厨房噪声、背景音乐等更响亮和清晰。在展示说话的两个人的更远透视图的视频帧期间,两个人的对话可相对于现在可在视频帧中的背景噪声不太响亮和不太清晰。
传统上,关于透视图的决定(例如,场景的放大和缩小或围绕场景的水平移动)由内容产生者通过极少具有或不具有展示由初始内容产生者选择的透视图的能力的内容的最终消费者来进行。然而,用于当观看视频时对透视图具有一些控制级别的用户来说,这变得更普遍。作为一个实例,在足球广播期间,用户可接收展示现场的大剖面的视频馈送,但是可具有在专用播放器或播放器组上放大的能力。本公开提出用于以匹配对应视频的感知的变化的方式适应音频再现的感知的技术。例如,如果在观看足球比赛时,用户放大四分卫,那么音频也可适于产生放大四分卫的音频效果。
用户的视频感知也可根据用于播放视频的显示器大小来改变。例如,当在10英寸平板计算机上观看电影时,整个显示器可在观察者的中心视力范围内,而当在100英寸电视上观看相同电影时,显示器的外部可能仅在观察者的外围视力范围内。本公开提出用于基于用于相应视频数据的显示器大小适应音频再现的感知的技术。
MPEG-H 3D音频位流含有在内容产生过程期间所使用的参考屏幕大小的信号信息的新位字段。MPEG-H 3D兼容音频解码器也可经配置以确定结合与正被解码的音频相对应的视频一起使用的显示器装置的实际屏幕大小,MPEG-H 3D-兼容音频解码器的若干实例将在本公开中描述。因此,根据本公开的技术,音频解码器可基于参考屏幕大小和实际屏幕大小适应HOA声场,以便屏幕相关音频内容从视频中展示的相同位置感知。
本公开描述HOA声场如何可以被调节以确保在混合音频/视频再现情形中声波元素与可视部件空间对准的技术。本公开的技术可被用于帮助形成仅用于HOA内容或用于具有HOA和目前仅屏幕相关音频对象被调节的音频对象的组合的内容的相干音频/视频体验。
图1是说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的图式。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中展示子阶但未明确注释。
可以通过各种麦克风阵列配置以物理方式来获取(例如,记录),或替代地,它们可以从声场的基于信道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促进更高效的传输或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
其中i是是阶n的球面汉克尔函数(第二种类),且是对象的位置。知道随频率而变的对象源能量g(ω)(例如,使用时频分析技术,例如对PCM流执行快速傅里叶变换)允许将每一PCM对象和其对应的位置转换为此外,可展示(由于上式为线性和正交分解):每一对象的系数具相加性。以此方式,许多PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,系数含有关于声场的信息(随3D坐标而变的压力),且上述情形表示在观测点附近从个别对象到整个声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
图2是说明可执行本公开中所描述的技术的各种方面的系统10的图式。如图2的实例中所示,系统10包含内容创建者装置12和内容消费者装置14。虽然在内容创建者装置12和内容消费者装置14的上下文中描述,但可在声场的SHC(其也可称为HOA系数)或任何其它分层表示经编码以形成表示音频数据的位流的任何上下文中实施技术。此外,内容创建者12可表示能够实施在本发明中描述的技术的任何形式的计算装置,包含手机(或蜂窝式电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样,内容消费者装置14可表示能够实施本公开中所描述的技术的任何形式的计算装置,包括手机(或蜂窝式电话)、平板计算机、智能手机、机顶盒、独立接收器(例如,“接收器装置”)、电视(例如,“智能TV”)或台式计算机(提供几个实例)。
内容创建者装置12可通过电影播音室或可产生用于由内容消费者装置,例如内容消费者装置14的操作者消费的多信道音频内容的其它实体来操作。在一些实例中,内容创建者装置12可由希望产生具有压缩HOA系数11的音频信号的个体用户操作,且在音频信号中,也包含一或多个视场(FOV)参数。内容创建者往往结合视频内容产生音频内容。FOV参数可例如描述用于视频内容的参考屏幕大小。内容消费者装置14可由个人操作。内容消费者装置14可包含音频播放系统16,其可指能够呈现SHC以用于作为多信道音频内容播放的任何形式的音频播放系统。
内容创建者装置12包含音频编辑系统18。内容创建者装置12可获得各种格式(包含直接作为HOA系数)的实时记录7和音频对象9,内容创建者装置12可使用音频编辑系统18对其进行编辑。麦克风5可捕获实时记录7。在编辑过程期间,内容创建者可呈现来自音频对象9的HOA系数11,收听所呈现的扬声器馈送以试图识别需要进一步编辑的声场的各个方面。内容创建者装置12接着可编辑HOA系数11(潜在间接通过与音频对象9不同的运算,通过运算,可以上文的方式导出源极HOA系数)和FOV参数13。内容创建者装置12可采用音频编辑系统18来产生HOA系数11和FOV参数13。音频编辑系统18表示能够编辑音频数据且输出作为一或多个源极球面谐波系数的音频数据的任何系统。
当编辑过程完成时,内容创建者装置12可基于HOA系数11产生音频位流21。也就是说,内容创建者装置12包含音频编码装置20,其表示经配置以根据在本公开中描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生音频位流21的装置。音频编码装置20可在位流21中包含用于发出FOV参数13的信号的值。作为一个实例,音频编码装置20可产生用于跨传输信道传输的音频位流21,传输信道可为有线或无线信道、数据存储装置等。音频位流21可表示HOA系数11的经编码版本,且可包含主位流和另一侧位流,另一侧位流可被称为侧信道信息。在一些实例中,音频编码装置20可包含在侧信道中的FOV参数13,而在其它实例中,音频编码装置20可包含在其它地方的FOV参数13。在另外其它实例中,音频编码装置20可不编码FOV参数13,且实际上,音频播放系统16可向FOV参数13'分配默认值。
虽然在图2中展示为直接发射到内容消费者装置14,但内容创建者装置12可将音频位流21输出到定位于内容创建者装置12与内容消费者装置14之间的中间装置。中间装置可存储音频位流21以用于稍后递送到可能请求位流的内容消费者装置14。中间装置可包括文件服务器、网络服务器、台式计算机、笔记本电脑、平板计算机、移动电话、智能手机、独立接收器(例如接收器装置)、机顶盒、电视(例如,集成显示器和扬声器装置,在一些实例中,其可以是“智能TV”)或能够存储音频位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将音频位流21(且可能结合发送相应的视频数据位流)串流到例如请求音频位流21的订户,例如内容消费者装置14的内容递送网络中。
替代地,内容创建者装置12可将音频位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频盘或其它存储媒体,大多数存储媒体能够由计算机读取且因此可被称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输信道可指发射存储到媒体的内容所借助的信道(且可包含零售店和其它基于商店的递送机构)。因此,在任何情况下,本发明的技术不应在图2的实例方面受到限制。
内容创建者装置12可经进一步配置以产生和编码视频数据23,且内容消费者装置14可经配置以接收和解码视频数据23。视频数据23可与音频位流21相关联且利用音频位流21发射。在此方面,内容创建者装置12和内容消费者装置14可包含图2中未明确展示的额外硬件和软件。内容创建者装置12可例如包含用于获取视频数据的相机、用于编辑视频数据的视频编辑系统和用于对视频数据编码的视频编码器,且内容消费者装置14还可包含视频解码器和视频呈现器。
如图2的实例中进一步展示,内容消费者装置14包含音频播放系统16。音频播放系统16可表示能够播放多信道音频数据的任何音频播放系统。音频播放系统16可包含多个不同的呈现器22。音频呈现器22可各自提供不同形式的呈现,其中不同形式的呈现可包含执行基于向量的幅度平移(VBAP)的各种方式中的一或多个和/或执行声场合成的各种方式中的一或多个。如本文所使用,“A和/或B”意味着“A或B”或“A和B”两者。
音频播放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以对来自音频位流21的HOA系数11'和FOV参数13'解码的装置,其中,HOA系数11'可类似于HOA系数11,但由于经由传输信道的有损操作(例如,量化)和/或传输而有所不同。相比之下,可对FOV参数13进行无损译码。音频播放系统16可在对音频位流21解码之后获得HOA系数11'且呈现HOA系数11'以输出扩音器馈送25。如将在下文更详细地阐释,音频播放系统16呈现HOA系数11'的方式可在一些情况下基于FOV参数13'结合显示器15的FOV参数修改。扩音器馈送25可驱动一或多个扩音器(为了易于说明目的,扩音器馈送未在图2的实例中展示)。扩音器可经配置以输出经再现音频信号,例如由扩音器馈送25表示的经再现音频信号。
为了选择适当的呈现器或在一些情况下产生适当的呈现器,音频播放系统16可获得指示扩音器的数目和/或扩音器的空间几何形状的扩音器信息13。在一些情况下,音频播放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动扩音器来获得扩音器信息13。在其它情况下或与扩音器信息13的动态确定一起,音频播放系统16可提示用户与音频播放系统16接口连接且输入扩音器信息13。
音频播放系统16接着可基于扬声器信息13选择音频呈现器22中的一个。在一些情况下,当音频呈现器22中无一个在对在扬声器信息13中指定的扬声器几何布置的某一阈值类似性量度(按照扬声器几何布置)内时,音频播放系统16可基于扬声器信息13产生音频呈现器22中的一个。在一些情况下,音频播放系统16可基于扬声器信息13产生音频呈现器22中的一个而无需首先尝试选择音频呈现器22中的现有一个。一或多个扬声器3接着可播放呈现的扩音器馈送25。
如图2所示,内容消费者装置14也具有关联的显示器装置,显示器15。在图2的实例中,显示器15被展示为并入到内容消费者装置14中;然而,在其它实例中,显示器15可在内容消费者装置14外部。如将在下文更详细地阐释,显示器15可具有与FOV参数13'不同的一或多个关联FOV参数。FOV参数13'表示与形成内容时的参考屏幕相关联的参数,而显示器15的FOV参数为用于播放的观察窗的FOV参数。音频播放系统16可基于FOV参数13'和与显示器15相关联的FOV参数两者修改或产生音频呈现器22中的一个。
图3是更详细说明可执行本公开中所描述的技术的各种方面的图2的实例中所示的音频编码装置20的一个实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27和基于方向的分解单元28。尽管下面进行了简单描述,但是关于音频编码装置20和压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日提交的题为“用于声场的分解表示的内插法(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OFA SOUND FIELD)”国际专利申请公开案第WO 2014/194099号中获得。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11是否表示从实况记录或音频对象产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧式HOA系数11从记录中产生时,内容分析单元26将HOA系数11传送给基于向量的分解单元27。在一些情况下,当帧式HOA系数11从合成音频对象产生时,内容分析单元26将HOA系数11传送给基于方向的分解单元28。基于方向的分解单元28可表示经配置以执行HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如在图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、心理声学音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、时空内插单元50以及量化单元52。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M x(N+1)2。
LIT单元30可表示经配置以执行被称为奇异值分解的形式的分析的单元。虽然相对于SVD加以描述,但可相对于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的技术。而且,本公开中对“集合”的提及一般既定指非零集合(除非特定地相反陈述),且无意指包含所谓的“空集合”的集合的经典数学定义。替代变换可包括往往被称作“PCA”的主分量分析。根据上下文,PCA可由若干不同名称指代,仅举几例,例如离散卡亨南-洛维(Karhunen-Loeve)变换、霍特林(Hotelling)变换、恰当正交分解(POD)和本征值分解(EVD)。有利于压缩音频数据的基本目标的此些操作的特性为多信道音频数据的“能量压缩”和“去相关”。
在任何情况下,出于实例的目的,假设LIT单元30执行奇异值分解(其又可被称为“SVD”),LIT单元30可将HOA系数11变换成两个或多于两个经变换HOA系数的集合。变换HOA系数的“集合”可包含经变换的HOA系数的向量。在图3的实例中,LIT单元30可对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因式分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多信道音频数据的右奇异向量。
在一些实例中,以上提及的SVD数学表达式中的V*矩阵被表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假定HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,虽然在本公开中被表示为V矩阵,但对V矩阵的提及应理解为在适当的情况下是指V矩阵的转置。虽然假定为V矩阵,但技术可以类似方式应用于具有复数系数的HOA系数11,其中,SVD的输出为V*矩阵。因此,在此方面,技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:Mx(N+1)2的US[k]向量33(其可表示S向量和U向量的组合版本)以及具有维度D:(N+1)2x(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为XPS(k),而V[k]矩阵中的个别向量也可被称为v(k)。
U、S和V矩阵的分析可公开矩阵携带或表示上文由X表示的基本声场的空间和时间特性。在(具有长度M个样本的)U中的N个向量中的每一个可表示随时间(由M个样本表示的时段)而变的彼此正交且已从任何空间特性(其也可被称作方向信息)解耦的经归一化的分开音频信号。表示空间形状和位置的空间特性可替代地由V矩阵中的个别第i向量v(i)(k)(各自具有长度(N+1)2)表示。v(i)(k)向量中的每一个的个别元素可表示描述相关联音频对象的声场的形状(包含宽度)和位置的HOA系数。U矩阵和V矩阵中的向量均被归一化而使得它们的均方根能量等于单一性。U中的音频信号的能量因此由S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各个方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的模型给出贯穿此文献使用的术语“基于向量的分解”。
尽管被描述为直接关于HOA系数11来执行,但LIT单元30可对HOA系数11的导出项应用线性可逆变换。例如,LIT单元30可对于从HOA系数11导出的功率谱密度矩阵应用SVD。通过对于HOA系数的功率谱密度(PSD)而不是其自身系数来执行SVD,LIT单元30可潜在降低按照一或多个处理器循环和存储空间执行SVD的计算复杂度,同时实现相同源音频编码效率,如SVD被直接应用于HOA系数一样。
参数计算单元32表示经配置以计算各种参数的单元,参数为例如相关性参数(R)、方向特性参数和能量特性(e)。用于当前帧的参数中的每一个可表示为R[k]、θ[k]、r[k]和e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别这些参数。参数计算单元32还可确定前一帧的参数,其中前一帧参数可基于US[k-1]向量和V[k-1]向量的前一帧,表示为R[k-1]、θ[k-1]、r[k-1]和e[k-1]。参数计算单元32可将当前参数37和先前参数39输出给重排序单元34。
由参数计算单元32计算的参数可供重排序单元34用以将音频对象重排序以表示其自然评估或随时间推移的连续性。重排序单元34可逐轮地比较来自第一US[k]向量33的参数37中的每一个与用于第二US[k-1]向量33之参数39中的每一个。重排序单元34可基于当前参数37和先前参数39将US[k]矩阵33和V[k]矩阵35内的各种向量重新排序(作为一实例,使用匈牙利演算法(Hungarian algorithm))以将重新排序的US[k]矩阵33'(其可在数学上表示为和重新排序的V[k]矩阵35'(其可在数学上表示为)输出至前景声音(或主导声音-PS)选择单元36(“前景选择单元36”)和能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便潜在地实现目标位速率41的单元。声场分析单元44可基于分析和/或所接收的目标位速率41确定心理声学译码器实例化的总数目(其可为环境或背景信道的总数目(BGTOT)和前景信道或换句话说主导信道的数目的函数)。心理声学译码器实例化的总数可以被表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景信道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHoaOrder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHoaOrder+1)2),和要发送的额外BG HOA信道的索引(i)(其在图3的实例中可共同地表示为背景信道信息43)。背景信道信息42也可被称作环境信道信息43。从numHOATransportChannels-nBGa保持的信道中的每一个可为“额外背景/环境信道”、“激活的基于向量的主导信道”、“激活的基于方向的主导信号”或“完全未激活”。在一个方面中,信道类型可以是由两个位(例如00:基于方向的信号;01:基于向量的主导信号;10:额外环境信号;11:未激活信号)指示的语法元素(为“ChannelType”)。可由(MinAmbHoaOrder+1)2+呈现为用于帧的位流中的信道类型的索引10(在以上实例中)的倍数给出背景或环境信号的总数nBGa。
声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目和前景(或换句话说,主导)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择较多背景和/或前景信道。在一个方面中,在位流的标头部分中,numHOATransportChannels可设定为8,而MinAmbHOAorder可设定为1。在此情境下,在每个帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,用作额外背景/环境信道或前景/主导信道。前景/主导信号可为基于向量或基于方向的信号中的一个,如上文所描述。
在一些情况下,用于帧的基于向量在一些情况下,用于帧的基于向量的主导信号的总数可由ChannelType索引在帧的位流中为01的次数给出。在上述方面中,对于每个额外背景/环境信道(例如,对应于ChannelType 10),可在信道中表示可能HOA系数中的哪一个(超出前四个)的对应信息。对于四阶HOA内容,信息可为指示HOA系数5-25的系数。当minAmbHOAorder被设置为1时,前四个环境HOA系数1-4可一直发送,因此,音频编码装置可能仅需要指示具有5-25的系数的额外环境HOA系数中的一个。因此,信息可以使用可被表示为“CodedAmbCoeffIdx”的5位语法元素(用于4阶内容)来发送。在任何情况下,声场分析单元44将背景信道信息43和HOA系数11输出到背景(BG)选择单元36,将背景信道信息43输出到系数减少单元46和位流产生单元42,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)以及要发送的额外BG HOA信道的数目(nBGa)和索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一个识别的索引的HOA系数11作为额外的BG HOA系数,其中,将nBGa提供给位流产生单元42以在音频位流21中指定,以便使得音频解码装置,例如图2和4的实例中所示的音频解码装置24能够从音频位流21提取背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出至能量补偿单元38。环境HOA系数47可具有维度D:M x[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中,环境HOA系数47中的每一个对应于待由心理声学音频译码器单元40编码的单独环境HOA信道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或不同分量的经重排序的US[k]矩阵33'和经重排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,...,nFG49、FG1,...,nfG[k]49,或49)输出到心理声学音频译码器单元40,其中nFG信号49可具有维度D:M×nFG,且每一个表示单信道音频对象。前景选择单元36也可将对应于声场的前景分量的经重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到时空内插单元50,其中对应于前景分量的经重排序的V[k]矩阵35'的子集可表示为具有维度D:(N+1)2xnFG的前景V[k]矩阵51k(其可数学表示为)。
能量补偿单元38可表示经配置以关于环境HOA系数47执行能量补偿以补偿由于通过背景选择单元48去除HOA信道中的各种HOA信道所造成的能量损失的单元。能量补偿单元38可关于经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k和环境HOA系数47中的一或多个执行能量分析且接着基于能量分析执行能量补偿以产生能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到心理声学音频译码器单元40。
时空内插单元50可表示经配置以接收第k帧的前景V[k]向量51k和前一帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行时空内插以产生内插的前景V[k]向量的单元。时空内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复重排序的前景HOA系数。时空内插单元50接着可将经重新排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。时空内插单元50也可输出前景V[k]向量51k的用于产生内插前景V[k]向量的那些向量使得例如音频解码装置24的音频解码装置可产生内插前景V[k]向量且由此恢复前景V[k]向量51k。用于产生经内插的前景V[k]向量的前景V[k]向量51k表示为其余前景V[k]向量53。为了确保相同的V[k]和V[k-1]用在编码器和解码器处(以创建经内插的向量V[k]),向量的经量化/经解量化版本可用在编码器和解码器处。时空内插单元50可将内插的nFG信号49'输出到心理声学音频译码器单元46且将内插的前景V[k]向量51k输出到系数减少单元46。
系数减少单元46可表示经配置以基于背景信道信息43关于其余前景V[k]向量53执行系数减少以将减少的前景V[k]向量55输出到量化单元52的单元。减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。就此而言,系数减少单元46可表示经配置以减少其余前景V[k]向量53中的系数的数目的单元。换句话说,系数减少单元46可表示经配置以消除前景V[k]向量(其形成其余前景V[k]向量53)中具有极少乃至没有方向信息的系数的单元。在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶和零阶基底函数的系数(其可表示为NBG)提供极少方向信息,且因此可从前景V向量移除(经由可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA信道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化以压缩减少的前景V[k]向量55以产生经译码前景V[k]向量57从而向位流产生单元42输出经译码前景V[k]向量57的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量,即在此实例中的一或多个减少前景V[k]向量55的单元。量化单元52可执行如由表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一个:
量化单元52还可执行前述类型的量化模式中的任一个的预测版本,其中确定先前帧的V向量的元素(或执行向量量化时的权数)与当前帧的V向量的元素(或执行向量量化时的权数)之间的差。量化单元52可接着将当前帧与先前帧的元素或权数之间的差而非当前帧本身的V-向量的元素的值量化。
量化单元52可关于减少前景V[k]向量55中的每一个执行多种形式的量化以获得减少前景V[k]向量55的多个译码版本。量化单元52可将减少前景V[k]向量55的译码版本中的一个选择为经译码前景V[k]向量57。换句话说,量化单元52可基于在本公开中论述的标准的任何组合来选择非预测向量量化的V向量、预测向量量化的V向量、非霍夫曼译码标量量化的V向量和霍夫曼译码标量量化的V向量中的一个以用作输出切换量化的V向量。在一些实例中,量化单元52可从包含向量量化模式以及一或多个标量量化模式的一组量化模式中选择量化模式,且基于(或根据)所选择的模式来量化输入V向量。量化单元52接着可向位流产生单元52提供所选择的非预测向量量化的V向量(例如,按照指示其的权重值或位)、预测向量量化的V向量(例如,按照指示其的误差值或位)、非霍夫曼译码标量量化的V向量和霍夫曼译码标量量化的V向量中的一个以作为经译码前景V[k]向量57。量化单元52也可提供指示量化模式的语法元素(例如,NbitsQ语法元素)和用于解量化或以其它方式重构V向量的任何其它语法元素。
包含在音频编码装置20内的心理声学音频译码器单元40可表示心理声学音频编码器的多个例项,多个例项中的每一个用以对经能量补偿的环境HOA系数47'和经内插nFG信号49'中的每一个的不同音频对象或HOA信道进行编码,以产生经编码环境HOA系数59和经编码nFG信号61。心理声学音频译码器单元40可将经编码环境HOA系数59和经编码nFG信号61输出到位流产生单元42。
被包含在音频编码装置20内的位流产生单元42表示格式化数据以符合已知格式(其可指解码装置已知的格式),由此产生基于向量的位流21的单元。换句话说,音频位流21可表示已经以上述的方式编码的编码音频数据。在一些实例中,位流产生单元42可表示多路复用器,其可接收经译码前景V[k]向量57、编码环境HOA系数59、编码nFG信号61和背景信道信息43。位流产生单元42接着可基于经译码前景V[k]向量57、编码环境HOA系数59、编码nFG信号61和背景信道信息43产生音频位流21。以此方式,位流产生单元42可由此指定音频位流21中的向量57以获得音频位流21。音频位流21可包含主要或主位流和一或多个旁信道位流。
尽管图3在的实例中未示出,但音频编码装置20还可包含位流输出单元,基于是否使用基于方向的合成或基于向量的合成对当前帧编码来切换来自音频编码装置20的位流输出(例如,在基于方向的位流21与基于向量的位流21之间)。位流输出单元可基于由内容分析单元26输出的指示基于方向的合成来执行(由于检测到HOA系数11从合成音频对象产生)还是基于向量的合成来执行(由于检测到HOA系数被记录)的语法元素执行切换。位流输出单元可指定正确的标头语法以指示切换或用于当前帧以及音频位流21中的相应一个的当前编码。
此外,如上文所提到,声场分析单元44可标识BGTOT环境HOA系数47,系数可逐帧改变(但有时BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可产生在减少前景V[k]向量55中表达的系数的改变。BGTOT的改变可产生逐帧改变(尽管有时BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)的背景HOA系数(其也可被称作“环境HOA系数”)。改变常常导致声场的各方面的能量改变,声场通过额外环境HOA系数的添加或移除和系数从经减少前景V[k]向量55的对应移除或系数到经减少前景V[k]向量的添加表示。
因此,声场分析单元44可进一步确定环境HOA系数何时从帧到帧改变,且产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量来说)(其中改变也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。具体来说,系数减少单元46可产生旗标(其可被表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将旗标提供给位流产生单元42,使得旗标可被包含在音频位流21中(可能作为旁信道信息的一部分)。
除指定环境系数转变标志之外,系数减少单元46还可修改产生减少的前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一个在当前帧期间处于转变中时,系数减少单元46可指定减少前景V[k]向量55的V向量中的每一个的向量系数(其也可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。且,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数目或从背景系数的BGTOT总数目中去除。因此,背景系数的总数目的所得改变影响环境HOA系数是否包含于位流中,和在上文所描述的第二和第三配置模式中是否针对位流中所指定的V-向量包含V-向量的对应元素。关于系数减少单元46可如何指定减少前景V[k]向量55以克服能量改变的更多信息提供于2015年1月12日提交的题为“环境高阶立体混响系数的转变(TRANSITIONING OF AMBIENT HIGHER-ORDERAMBISONIC COEFFICIENTS)”第14/594,533号美国申请案中。
图4是更详细说明图2的音频解码装置24的框图。如图4的实例所示,音频解码装置24可包含提取单元72、基于方向的重构单元90和基于向量的重构单元92。尽管在下面进行了描述,但关于音频解码装置24和解压缩或以其它方式解码HOA系数的各种方面得更多信息可在2014年5月29日提交的题为“用于声场的分解表示的内插法(INTERPOLATION FORDECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收音频位流21和提取HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可从以上确定指示HOA系数11是经由各种基于方向的版本还是基于向量的版本经编码的语法元素。当执行基于方向的编码时,提取单元72可提取基于方向的版本的HOA系数11和与编码版本相关联的语法元素(在图4的实例中,其被表示为基于方向的信息91),向基于方向的重构单元90传送基于方向的信息91。基于方向的重构单元90可表示经配置以基于基于方向的信息91采用HOA系数11'的形式重构HOA系数的单元。位流和在位流内的语法元素的布置在下面关于图7A-7J的实例更详细地描述。
当语法元素指示HOA系数11使用基于向量的合成进行编码时,提取单元72可提取经译码前景V[k]向量57(其可包含经译码权重57和/或索引63或经标量量化的V向量)、经编码环境HOA系数59和对应的音频对象61(其也可被称作经编码nFG信号61)。音频对象61中的每一个对应于向量57中的一个。提取单元72可向V向量重构单元74和编码环境HOA系数59传送经译码前景V[k]向量57且连同编码nFG信号61向心理声学解码单元80传送。
V向量重构单元74可表示经配置以从编码前景V[k]向量57重构V向量的单元。V向量重构单元74可以与量化单元52的运行方式互反的方式运行。
音质解码单元80可以与图3的实例中所展示的心理声学音频译码器单元40互逆的方式操作,以便解码经编码环境HOA系数59和经编码nFG信号61且借此产生经能量补偿的环境HOA系数47'和经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。心理声学解码单元80可将能量补偿环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
时空内插单元76可以类似于上面相对于时空内插单元50描述的方式操作。时空内插单元76可接收减少的前景V[k]向量55k且相对于减少的前景V[k]向量55k和减少的前景V[k-1]向量55k-1执行时空内插,以产生经内插的前景V[k]向量55k”。时空内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可输出指示环境HOA系数中的一个何时处于到淡化单元770的转变的信号757,淡化单元770接着可确定SHCBG47'(其中SHCBG47'还可表示为“环境HOA信道47'”或“经能量补偿的环境HOA系数47'”)以及经内插的前景V[k]向量55k”的元素中的哪些将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'和经内插的前景V[k]向量55k”的元素中的每一个相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时相对于经内插的前景V[k]向量55k”的元素中的对应一个元素执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82,且将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770表示经配置以相对于HOA系数或其衍生物(例如,呈经能量补偿的环境HOA系数47'和经内插的前景V[k]向量55k”的元素的形式)的各个方面执行淡化操作的单元。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'和经内插的nFG信号49'执行矩阵相乘以产生前景HOA系数65的单元。在这方面中,前景制订单元78可将音频对象49'(其为表示经内插的nFG信号49'的另一方式)与向量55k”'组合以重构前景,或换句话说,HOA系数11'的主导方面。前景制订单元78可执行内插的nFG信号49'乘以调节的前景V[k]向量55k”'的矩阵乘积。
HOA系数制订单元82可表示经配置以将前景HOA系数65与经调整的环境HOA系数47”组合以便获得HOA系数11'的单元。撇号记号反映HOA系数11'可类似于但不同于HOA系数11。HOA系数11和11'之间的差异可能是由通过有损传输媒体的传输、量化或其它有损操作产生的损失导致。
图5为说明音频编码装置,例如在图3的实例中示出的音频编码装置20执行本公开中描述的基于向量的合成技术的各种方面的示范性操作的流程图。最初,音频编码装置20接收HOA系数11(106)。音频编码装置20可调用LIT单元30,LIT单元30可关于HOA系数应用LIT以输出变换HOA系数(例如,在SVD的情况下,变换HOA系数可包括US[k]向量33和V[k]向量35)(107)。
音频编码装置20接下来可调用参数计算单元32以按上文所述的方式关于US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何组合执行上文所述的分析以识别各种参数。也就是说,参数计算单元32可基于变换的HOA系数33/35的分析确定至少一个参数(108)。
音频编码装置20可接着调用重排序单元34,重排序单元34基于参数将经变换的HOA系数(再次在SVD的上下文中,其可指US[k]向量33和V[k]向量35)重排序以产生经重排序的经变换的HOA系数33'/35'(或,换句话说,US[k]向量33'和V[k]向量35'),如上文所描述(109)。在前述操作或后续操作中的任一者期间,音频编码装置20也可调用声场分析单元44。如上所述,声场分析单元44可关于HOA系数11及/或变换的HOA系数33/35执行声场分析以确定前景声道的总数(nFG)45、背景声场的阶数(NBG)以及待发送的另外BG HOA声道的数量(nBGa)和索引(i)(其在图3的实例中可被共同地表示为背景声道信息43)(109)。
音频编码装置20也可调用背景选择单元48。背景选择单元48可基于背景信道信息43确定背景或环境HOA系数47(110)。音频编码装置20可进一步调用前景选择单元36,前景选择单元36可基于nFG 45(其可表示识别前景向量的一或多个索引)选择重排序的US[k]向量33'和表示声场的前景或不同分量的重排序的V[k]向量35'(112)。
音频编码装置20可调用能量补偿单元38。能量补偿单元38可关于环境HOA系数47执行能量补偿以补偿由于由背景选择单元48去除HOA系数中的各种HOA系数所造成的能量损失(114),且由此产生能量补偿的环境HOA系数47'。
音频编码装置20也可调用时空内插单元50。时空内插单元50可关于重新排序的变换的HOA系数33'/35'执行时空内插以获得内插前景信号49'(其也可被称作“内插的nFG信号49'”)和其余的前景方向信息53(其也可被称作“V[k]向量53”)(116)。音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景信道信息43关于剩余前景V[k]向量53执行系数减少,以获得减少的前景方向信息55(其也可被称作减少的前景V[k]向量55)(118)。
音频编码装置20可接着调用量化单元52以按上文所描述的方式压缩减少的前景V[k]向量55且产生经译码前景V[k]向量57(120)。
音频编码装置20也可调用心理声学音频译码器单元40。心理声学音频译码器单元40可对能量补偿的环境HOA系数47'和内插nFG信号49'的每一向量进行心理声学编码以产生编码的环境HOA系数59和编码的nFG信号61。音频编码装置可接着调用位流产生单元42。位流产生单元42可基于经译码前景方向信息57、经译码环境HOA系数59、经译码nFG信号61和背景信道信息43产生音频位流21。
图6为说明音频解码装置(例如图4的实例中所展示的音频解码装置24)执行本发明中描述的技术的各种方面的示范性操作的流程图。最初,音频解码装置24可接收音频位流21(130)。在接收位流时,音频解码装置24可调用提取单元72。出于论述得目的,假设音频位流21指示有待于执行基于向量的重构,提取单元72可解析位流以检索上面提到的信息、将信息传送给基于向量的重构单元92。
换句话说,提取单元72可按上文的方式从音频位流21中提取经译码前景方向信息57(此外,其也可被称作经译码前景V[k]向量57)、经译码环境HOA系数59和经译码前景信号(其也可被称作经译码前景nFG信号59或经译码前景音频对象59)(132)。
音频解码装置24可进一步调用解量化单元74。解量化单元74可对经译码前景方向信息57进行熵解码且解量化,以获得减少的前景方向信息55k(136)。音频解码装置24也可调用心理声学解码单元80。心理声学解码单元80可对经编码的环境HOA系数59和经编码的前景信号61解码以获得经能量补偿的环境HOA系数47'和经内插前景信号49'(138)。心理声学解码单元80可将能量补偿环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
音频解码装置24接下来可调用时空内插单元76。时空内插单元76可接收重排序的前景方向信息55k'且关于减少前景方向信息55k/55k-1执行时空内插以产生内插前景方向信息55k”(140)。时空内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可接收或以其它方式获得(例如,从提取单元72)指示能量补偿的环境HOA系数47'何时处于中的语法元素(例如,AmbCoeffTransition语法元素)。淡化单元770可基于转换语法元素和保持转换状态信息淡入或淡出能量补偿的环境HOA系数47',从而向HOA系数制订单元82输出调节的环境HOA系数47”。淡化单元770也可基于语法元素和保持转换状态信息且淡出或淡入内插前景V[k]向量55k”的相应一或多个元素,从而向前景制订单元78输出调节前景V[k]向量55k”'(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'与调节前景方向信息55k”'的矩阵乘积以获得前景HOA系数65(144)。音频解码装置24也可调用HOA系数制订单元82。HOA系数制订单元82可向调节的环境HOA系数47”添加前景HOA系数65以便获得HOA系数11'(146)。
根据本公开的技术,音频解码装置24可基于产生屏幕大小和再现窗口大小计算HOA效果矩阵。HOA效果矩阵接着可被乘以给定的HOA呈现矩阵R以形成屏幕相关的HOA呈现矩阵。在一些实施方案中,例如在音频解码装置24的初始化阶段期间,HOA呈现矩阵的适应性可脱机完成,使得运行时间的复杂性并未增加。
本公开的一个建议的技术使用球面(Ω900)上九百个(900)等间隔取样点,取样点中的每一个用方向(θ,φ)限定,如ISO/IEC DIS 23008-3信息技术—异构环境中的高效译码和媒体递送—第3部分:3D音频(Information technology-High efficiency codingand media delivery in heterogeneous environments-Part 3:3D audio)(以下称作“DIS 23008”)的附件F.9中所描述。基于那些方向,音频解码装置24可计算模式矩阵Ψ900,如DIS 23008的附件F.1.5中所概述。音频解码装置24可经由映射函数修改那些900个取样点的方向,且音频解码装置24可对应地计算经修改的模式矩阵Ψm 900。为了避免屏幕相关音频对象与屏幕相关HOA内容之间的失配,音频解码装置24可使用DIS 23008的第18.3项中已描述的相同映射功能。音频解码装置24可计算效果矩阵F,计算如下:
音频解码装置24可接着计算屏幕相关呈现矩阵,计算如下:
D=RF (2)
在一些实例中,音频解码装置24可预计算和存储矩阵以免重复上文所描述的处理步骤中的一或多个。方程(1)和(2)中产生D的剩余操作的总数目是(900+M)*(N+1)4。对于阶数N=4和M=22扬声器的呈现矩阵,复杂度为约0.58加权MOPS。根据本公开的另一建议的技术,音频解码装置24可使用初步效果矩阵和响度补偿产生屏幕相关呈现矩阵。当相比于以上文所描述的方式使用900个等间隔的取样点时,使用初步效果矩阵和响度补偿可减少音频解码装置24的处理复杂度,同时又达到所希望的质量。通过在不考虑呈现矩阵的情况下计算效果矩阵,音频解码装置24可明显增加计算复杂度,同时在一些扬声器配置,例如5.1或7.1扬声器配置的音质方面具有极小益处或无益处,其易于使所有扬声器位于相同平面。另外,通过使用扩音器域计算替换某些HOA域计算,音频解码装置24可减少总计算复杂度,这是因为HOA域计算与扩音器域计算相比往往相对复杂。
音频解码装置24可基于M等距空间方向计算映射
-M>(N+1)2,其中N是HOA阶数。
在根据本公开的方面的其它实例中,音频解码装置24可在不使用呈现矩阵R的情况下计算初步效果矩阵根据这些实例,音频解码装置24可根据与用初始呈现矩阵R呈现的这些方向相关联的HOA系数来计算在HOA域中的初步效果矩阵如下所示:
根据本公开的一些实例,音频解码装置24可对在扩音器馈送域中的最终矩阵F的每一空间方向l应用响度补偿,如下所示:
在根据本公开的方面的实例中,音频解码装置24可对在扩音器馈送域中的最终矩阵F的每一空间方向l应用响度补偿,如下所示:
在一些实例中,音频解码装置24可实施本公开的技术以动态地产生模式矩阵Ψ(O,M),以适应影响对应视频数据的透视图改变。应了解,音频解码装置24可基于本文中所论述的各种透视图参数中的一或多个实施技术以操控模式矩阵Ψ(O,M)。借助于实例,下文关于视频数据的缩放信息描述模式矩阵Ψ(O,M)的动态的基于透视图的更新。在动态缩放事件期间,音频解码装置24可使用动态更新的模式矩阵Ψ(O,M)计算新效果矩阵F。在检测动态缩放事件结束(例如,检测到缩放状态现为静态的),之后音频解码装置24可恢复到模式矩阵Ψm 900,其中所使用的空间取样点的数目(‘M’)是900个。如下文更详细地描述,音频解码装置24可实施本公开的基于屏幕的适应技术以适应动态缩放事件,同时节约计算资源使用。
可使用下文所概述的步骤(例如,通过音频解码装置24的组件的各种组合)执行音频解码装置24可实施以适应动态缩放事件的本公开的基于屏幕的适应技术的实例。第一,音频解码装置24可产生模式矩阵Ψ(O,M),如DIS 23008的附件F.1.5中所概述。如果音频解码装置24检测到对应视频内容的透视图是静态的(例如,当前无缩放事件正在发生),那么音频解码装置24可将‘M’值设定为900(九百)。换句话说,在静态透视图的状况下,音频解码装置24可使用总共900个取样点产生模式矩阵Ψ(O,M)。然而,如果音频解码装置24检测到视频数据当前正在进行缩放事件(放大或缩小),那么音频解码装置24可动态地产生样本点的数目。
根据本公开的一些方面,在进行中的缩放事件期间,音频解码装置24可使用音频数据的HOA阶数作为计算参数来计算模式矩阵Ψ(O,M)。举例来说,音频解码装置24可根据公式计算取样点的数目:
M=(N+2)2
在此实例中,‘M’指示取样点的数目,且‘N’指示立体混响系数的阶数。因此,根据基于屏幕的适应中动态缩放适应的这些实例,如果最高阶系数是四(4)阶,那么音频解码装置24将使用36个取样点来产生模式矩阵。更具体地说,在此特定实例中,‘N’=4,当求解上文方程时得出‘M’的值36。将此方程应用到其它使用案例情形,如果最高阶系数是五(5)阶,那么音频解码装置24将使用49个取样点产生模式矩阵,或如果最高阶系数为六(6)阶,那么音频解码装置24将使用64个取样点产生模式矩阵。如DIS 23008的附件F.9中所限定,‘M’取样点的方向由(θ,φ)给定。
第二,音频解码装置24可使用DIS 23008的第18.3项中所限定的映射函数修改M取样点的方向。基于对‘M’和经修改方向的计算,音频解码装置24可计算模式矩阵Ψ(O,M)。如上文所描述,根据DIS 23008的附件F.1.5的模式矩阵
第四,音频解码装置24可通过使用针对每一空间方向的HOA呈现矩阵R计算响度值。更具体地说,根据本文中所描述的实例工作流,音频解码装置24可使用HOA呈现矩阵R,如DIS的第12.4.3.2项中所限定。空间方向在本文中指示为l=1...M。举例来说,音频解码装置24可根据以下公式计算响度校正值:
第五,音频解码装置24可使用如上文所描述计算的模式矩阵计算最终效果矩阵。举例来说,音频解码装置24可根据以下公式计算在HOA域中的最终效果矩阵F:
其中diag(A)指示包含向量A的对角矩阵。
第六,音频解码装置24可根据公式D=RF计算新呈现矩阵。根据本公开的缩放相依性适应技术,如果无局部缩放信息可供音频解码装置24使用,那么音频解码装置24可能无法应用任何基于缩放的适应产生模式矩阵Ψ(O,M)或因此最终效果矩阵因此,根据本公开的动态缩放适应技术,音频解码装置24可应用与针对高阶立体混响的屏幕相关处理描述的相同算法原理,但音频解码装置24可根据由LocalZoomAreaSize()接口提供的数据在运行时适应呈现矩阵。在检测到动态缩放事件已结束(例如,屏幕内容的透视图现为静态的)之后,音频解码装置24可恢复到使用‘M’值900。换句话说,音频解码装置24可恢复到使用900个取样点产生模式矩阵。
在动态缩放事件期间,音频解码装置24可基于具有M=(N+2)2个等间距取样点的模式矩阵Ψ(O,M)计算新效果矩阵F,取样点的方向在DIS的附件F.2到F.9中给定。在音频解码装置24检测到缩放是静止的后,音频解码装置24可基于具有M=900个空间取样点的模式矩阵Ψ(O,M)计算新效果矩阵F,如上文所描述。虽然在本文中用借助于输入装置(例如,鼠标和/或键盘)或输入/输出装置(例如,触摸屏或电容式触控笔操作的屏幕)供应的捏合或捏放手势描述缩放事件,但应了解缩放事件也可响应于其它刺激(例如,其它类型的用户输入)而触发。
本公开的动态缩放调整可提供优于现有技术的一或多个潜在优势和改进。举例来说,通过减少在动态缩放事件期间用于计算模式矩阵的取样点的数目,音频解码装置24可实施本公开的技术以降低在呈现音频馈送期间处理基于屏幕的适应的计算复杂度和资源消耗。如上文所描述,在一些情形中,音频解码装置24可在缩放事件期间将取样点从900个减少到36个。通过降低模式矩阵计算期间的计算复杂度,音频解码装置24可实施本公开的技术以更高效地执行基于屏幕的适应,同时仅在缩放事件期间递送具有降低质量的音频馈送。随后,在缩放完成后音频解码装置24可恢复音频馈送质量。
在一些实例中,仅当启用特定语法元素时音频解码装置24才可执行本公开的屏幕相关的适应技术。举例来说,在这些实例中,仅当以启用状态(例如,设定为值1)传信DIS的表119的HOAConfig()区段中的isScreenRelative旗标时音频解码装置24才可执行模式矩阵的屏幕相关适应。换句话说,在这些实例中,仅当音频解码装置24在位流中接收到处于启用状态(例如,设定为值1)的isScreenRelative旗标时音频解码装置24才可执行模式矩阵的屏幕相关适应。
另外,根据本公开的一或多个方面,音频解码装置24可仅在初始化阶段期间计算HOA呈现矩阵。举例来说,音频解码装置24可将HOA呈现矩阵计算限制于初始化阶段,这是因为本公开的屏幕相关适应技术修改用于声场的HOA呈现矩阵。如果无局部屏幕大小信息可供音频解码装置24使用,那么音频解码装置24可能不应用任何屏幕相关适应。在一些实例中,在音频解码装置24仅可获取方位角屏幕大小信息的情况下,音频解码装置24可能不在竖直维度上应用任何屏幕相关的适应。
通过执行响度补偿,音频解码装置24可例如补偿映射的效果。在以上实例中,l是从1到大写M的空间方向,且A(l)是具有A1到Am表项的向量。“diag(A)”表示对应于A(l)的具有对角线元素的矩阵,且矩阵中的其它位置等于0。上文所描述技术包含音频解码装置24可使用以均衡由效果矩阵的空间伸缩和/或挤压所引起的不当的方向相依性响度差异的响度补偿步骤。初步效果矩阵和所得的效果矩阵F在扩音器信号域中。
音频解码装置24可接着如下计算屏幕相关呈现矩阵:
D=FR。
现将参考图7-11描述本公开的基于屏幕适应性技术的第一实例。图7A示出可使用的将用于参考屏幕的方位角映射到用于观察窗的方位角的映射函数的实例。图7B示出可使用的将用于参考屏幕的仰角映射到用于观察窗的仰角的映射函数的实例。在图7A和7B的实例中,参考屏幕的角度为29到-29度的方位角和16.3到-16.3度的高度,以及观察窗的角度为58到-58度的方位角和32.6到-32.6度的高度。因此,在图7A和7B的实例中,观察窗是参考屏幕的两倍大。
如在本公开中所使用,观察窗可指用于再现视频的屏幕的全部或部分。可根据本公开的各方面使用的电视可在各种实例中表示集成装置,例如包含一或多个扬声器和/或显示器的装置。在各种实例中,电视可以是所谓的“智能”电视或智能TV,这是因为电视可处理通过有线和/或无线(例如,或)连接件接收到的视听位流。智能电视或“智能TV”可包含通信接口(例如,卡或卡),以及存储器装置和一或多个处理器。当在电视、平板计算机、电话或其它此些装置上以全屏幕模式播放电影时,观察窗可对应于装置的整个屏幕。然而,在其它实例中,观察窗可对应于小于装置的整个屏幕的屏幕。例如,同时播放四个体育赛事的装置可在一个屏幕上包含四个不同的观察窗,或装置可具有用于播放视频的单个观察窗且使用用于显示其它内容的其余屏幕区域。观察窗的视场可基于观察窗的物理大小和/或从观察窗到观察位置的距离(测量或假定中的任一个)的此些参数来确定。视场可例如通过方位角和仰角来描述。
如在本公开中所使用,参考屏幕是指与HOA音频数据的声场相对应的视场。举例来说,HOA音频数据可关于某一视场(即参考屏幕)产生或捕获,还可关于不同视场(例如观察窗的视场)再现。如在本公开中所解释,参考屏幕提供音频解码器可藉此适应用于在大小、位置或一些其它此些特性与参考屏幕不同的屏幕上局部播放的HOA音频数据的参考。出于解释的目的,本公开中的某些技术可参考产生屏幕和再现屏幕来描述。应理解,这些技术适用于参考屏幕和观察窗。
图8展示作为第一实例的参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。在图8中,点对应于映射目的地,尽管进入点的线对应于映射轨迹。虚线的矩形对应于参考屏幕大小,以及实线矩形对应于观察窗大小。
图9展示屏幕相关的效果如何可致使内容的HOA阶数增加的实例。在图9的实例中,效果矩阵被计算出以从3阶输入素材形成49HOA系数(6阶)。然而,如果矩阵被计算为具有(N+1)2X(N+1)2个元素的矩形矩阵,那么也可实现令人满意的结果。
图10示出效果矩阵如何可被预呈现且应用于扬声器呈现矩阵,从而在运行时不需要附加计算的实例。
图11展示如果效果矩阵可产生高阶内容(例如,6阶),那么可如何乘以处于此阶中的呈现矩阵以预计算在初始阶(此处为3阶)中的最终呈现矩阵的实例。
现将参考图12-13来描述本公开的基于屏幕适应性技术的第二实例。图12A示出可使用的将用于屏幕的方位角映射到用于观察窗的方位角的映射函数的实例。图12B示出可用于将用于参考屏幕的仰角映射到用于观察窗的仰角的映射函数的实例。在图12A和12B的实例中,参考屏幕的角度为29到-29度的方位角和16.3到-16.3度的仰角,以及观察窗的角度为29到-29度的方位角和32.6到-32.6度的仰角。因此,在图12A和12B的实例中,观察窗为参考屏幕高度的一半但与参考屏幕具有相同宽度。图12C示出用于第二实例的计算出的HOA效果矩阵。
图13示出作为第二实例的参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。在图13中,点对应于映射目的地,尽管进入点的线对应于映射轨迹。虚线的矩形对应于参考屏幕大小,以及实线矩形对应于观察窗大小。
现将参考图14-15来描述本公开的基于屏幕适应性技术的第三实例。图14A示出可使用的将用于屏幕的方位角映射到用于观察窗的方位角的映射函数的实例。图14B示出可用于将用于参考屏幕的仰角映射到用于观察窗的仰角的映射函数的实例。在图14A和14B的实例中,参考屏幕的角度为29到-29度的方位角和16.3到-16.3度的仰角,以及观察窗的角度为58到-58度的方位角和16.3到-16.3度的仰角。因此,在图14A和14B的实例中,观察窗的宽度为参考屏幕的一半但是高度与参考屏幕相同。图14C示出用于第三实例的计算出的HOA效果矩阵。
图15示出作为第三实例的参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。在图15中,点对应于映射目的地,尽管进入点的线对应于映射轨迹。虚线的矩形对应于参考屏幕大小,以及实线矩形对应于观察窗大小。
现将参考图16-17描述本公开的基于屏幕适应性技术的第四实例。图16A示出可用于将用于参考屏幕的方位角映射到用于观察窗的方位角的映射函数的实例。图16B示出可用于将用于参考屏幕的仰角映射到用于观察窗的仰角的映射函数的实例。在图16A和16B的实例中,参考屏幕的角度为29到-29度的方位角和16.3到-16.3度的仰角,以及观察窗的角度为49到-9度的方位角和16.3到-16.3度的仰角。因此,在图14A和14B的实例中,观察窗的宽度为参考屏幕的一半但是高度与参考屏幕相同。图16C示出用于第三实例的计算出的HOA效果矩阵。
图17示出作为第四实例的参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。在图17中,点对应于映射目的地,尽管进入点的线对应于映射轨迹。虚线的矩形对应于参考屏幕大小,以及实线矩形对应于观察窗大小。
现将参考图18-19描述本公开的基于屏幕的适应性技术的第五实例。图18A示出可用于将用于参考屏幕的方位角映射到用于观察窗的方位角的映射函数的实例。图18B示出可用于将用于参考屏幕的仰角映射到用于观察窗的仰角的映射函数的实例。在图18A和18B的实例中,参考屏幕的角度为29到-29度的方位角和16.3到-16.3度的仰角,以及观察窗的角度为49到-9度的方位角和16.3到-16.3度的仰角。因此,在图18A和18B的实例中,观察窗相对于参考屏幕在方位角位置中移位。图18C示出用于第五实例的计算出的HOA效果矩阵。
图19示出作为第四实例的参考屏幕和观察窗的效果的声场的所希望的屏幕相关扩展效果的向量场。在图19中,点对应于映射目的地,尽管进入点的线对应于映射轨迹。虚线的矩形对应于参考屏幕大小,以及实线矩形对应于观察窗大小。
图20A到20F为说明可实现在本公开中描述的音频的基于屏幕的适应性的技术的各种方面的音频解码装置900的另一实例的框图。为简单起见,并非在图20A到20F中示出音频解码装置900的所有方面。设想出,音频解码装置900的特征和函数可结合在本公开中描述的其它音频解码装置(例如上面关于图2和4所述的音频解码装置24)的特征和函数来实现。
音频解码装置900包含USAC解码器902、HOA解码器904、局部呈现矩阵产生器906、传信/局部呈现矩阵决定器908和扬声器呈现器910。音频解码装置900接收编码位流(例如,MPEG-H 3D音频位流)。USAC解码器902和HOA解码器904使用上面描述的USAC和HOA音频解码技术来解码位流。局部呈现矩阵产生器906至少部分地基于将播放解码音频的系统的局部扬声器配置产生一或多个呈现矩阵。位流也可包含可从编码位流解码的一或多个呈现矩阵。局部/传信呈现矩阵决定器908确定当播放音频数据时,要使用哪些局部产生或传信的呈现矩阵。扩音器呈现器910基于所选择的呈现矩阵向一或多个扬声器输出音频。
图20B为说明音频解码装置900的另一实例的框图。在图20B的实例中,音频解码装置900另外包含效果矩阵产生器912。效果矩阵产生器912可从位流确定参考屏幕大小且基于用于显示相应视频数据的系统确定观察窗大小。基于参考屏幕大小和观察窗大小,效果矩阵产生器912可产生用于修改通过局部/传信呈现矩阵决定器908选择的呈现矩阵(R')的效果矩阵(F)。在图20B的实例中,扬声器呈现器910可基于修改的呈现矩阵(D)向一或多个扬声器输出音频。在图20C的实例中,如果在HOADecoderConfig()中,旗标isScreenRelative flag==1,则音频解码装置900可经配置以仅呈现效果。
根据本公开的技术,效果矩阵产生器912也可产生响应于屏幕旋转的效果矩阵。效果矩阵产生器912可例如根据以下算法产生效果矩阵。在伪码中的用于新映射函数的实例算法为:
%1.计算相对屏幕映射参数
originalWidth=originalAngles.azi(1)-originalAngles.azi(2);
originalHeight=originalAngles.ele(1)-originalAngles.ele(2);
newWidth=newAngles.azi(1)-newAngles.azi(2);
newHeight=newAngles.ele(1)-newAngles.ele(2);
%2.找出参考屏幕的中心和观察窗的中心。
originalCenter.azi=originalAngles.azi(1)-originalWidth*0.5;
originalCenter.ele=originalAngles.ele(1)-originalHeight*0.5;
newCenter.azi=newAngles.azi(1)-newWidth*0.5;
newCenter.ele=newAngles.ele(1)-newHeight*0.5;
%3.进行相对屏幕相关映射
heightRatio=newHeight/originalHeight;
widthRatio=newWidth/originalWidth;
利用使用heightRatio和widthRatio的MPEG-H屏幕相关映射函数映射同等分布的空间位置,而非产生和观察窗的绝对位置。
%4.旋转声场
将在(3.)中处理的空间位置从originalCenter旋转到newCenter。
%5.计算HOA效果矩阵
使用初始空间位置和经处理的空间位置(来自4.)
根据本公开的技术,效果矩阵产生器912也可产生响应于屏幕旋转的效果矩阵。效果矩阵产生器912可例如根据以下算法产生效果矩阵。
1.计算相对屏幕映射参数:
widthRatio=localWidth/productionWidth;
heightRatio=localHeight/productionHeight;
其中:
productionWidth=production_Azi_L-production_Azi_R;
productionHeight=production_Ele_Top-production_Ele_Down;
localWidth=local_Azi_L-local_Azi_R;
localHeight=local_Ele_Top-local_Ele_Down;
2.计算正常产生屏幕的中心坐标和局部再现屏幕的中心:
productionCenter_Azi=production_Azi_L-productionWidth/2;
productionCenter_Ele=production_Ele_Top-productionHeight/2;
localCenter_Azi=local_Azi_L-localWidth/2;
localCenter_Ele=local_Ele_Top-localHeight/2;
3.屏幕相关映射:
4.旋转位置:
y轴旋转(纵倾)z轴旋转(横摆)
5.计算HOA效果矩阵:
Ψmr 900是从产生的模式矩阵。
图20C为说明音频解码装置900的另一实例的框图。在图20C的实例中,音频解码装置900大体上以上文针对图20B的实例所描述的相同方式操作,但在图20C的实例中,效果矩阵产生器912经进一步配置以确定缩放操作的比例因子,且基于比例信息、参考屏幕大小和观察窗大小,产生效果矩阵(F),以用于修改由局部/传信呈现矩阵决定器908选择的呈现矩阵(R')。在图20C的实例中,扩音器呈现器910可基于经修改的呈现矩阵(D)将音频输出到一或多个扬声器。在图20C的实例中,如果在HOADecoderConfig()中,旗标isScreenRelativeHOA flag==1,则音频解码装置900可经配置以仅呈现效果。
HOADecoderConfig()语法表(下文展示为表1)中的旗标isScreenRelativeHOA足以使屏幕相关的HOA内容适应再现窗口大小(其还可被称作“再现屏幕大小”)。在标称产生屏幕上得信息可作为元数据音频元素的一部分按信号分开。
表1—HOADecoderConfig()的语法,DIS 23008中的表120
图20D为说明音频解码装置900的另一实例的框图。在图20D的实例中,音频解码装置900进一步包含响度补偿器914、最终效果矩阵产生器916和最终呈现器产生器918。响度补偿器914执行响度补偿,如上文所描述。响度补偿器914例如对应用于最终矩阵F的每一空间方向l执行响度补偿,如上文所描述。最终效果矩阵产生器916产生最终效果矩阵,如上文所描述。最终呈现器产生器918例如通过执行上文所描述的D=FR计算而产生最终呈现矩阵。
图20E是说明音频解码装置900的另一实例的框图。在图20E的实例中,初步效果矩阵和效果矩阵产生器912可能不使用初始呈现矩阵R作为输入产生初步效果矩阵F。
图20F是说明音频解码装置900的另一实例的框图。在图20F的实例中,初步效果矩阵和效果矩阵产生器912可使用局部缩放大小作为产生模式矩阵的额外参数。在一些实例中,初步效果矩阵和效果矩阵产生器912使用经缩放窗口(例如,相比于参考窗口放大或缩小的窗口)的局部缩放大小作为产生模式矩阵的参数。举例来说,初步效果矩阵和效果矩阵产生器912可例如通过处理从音频解码装置24的其它组件接收到的数据检测用户引发的缩放命令。随后,初步效果矩阵和效果矩阵产生器912可基于展现借助于用户引发的缩放命令提供的缩放特性的特定缩放操作的参数获得FOV参数(例如,经修改方位角和/或经修改仰角信息中的一或多个)。初步效果矩阵和效果矩阵产生器912可并入对应于缩放操作的产生模式矩阵的FOV参数。因而,图20F说明经配置以执行上文所描述的动态缩放适应技术的音频解码装置900的实例实施方案。
本公开的音频播放系统,例如音频播放系统16,可经配置以基于呈现矩阵产生初步效果矩阵且基于初步效果矩阵呈现HOA音频信号。音频播放系统16可例如经配置以基于扬声器配置确定呈现矩阵。音频播放系统16可基于初步效果矩阵产生最终呈现矩阵且基于初步效果矩阵呈现HOA音频信号。音频播放系统16可例如基于参考屏幕的一或多个视场(FOV)参数和观察窗的一或多个FOV参数产生初步效果矩阵。为了产生初步效果矩阵,音频播放系统16可经配置以响应于屏幕相关适应执行空间方向的映射且基于与空间方向相关联的HOA系数计算初步效果矩阵。在此类实例中,初步效果矩阵可以是局部产生的初步效果矩阵。音频播放系统16可经进一步配置以基于呈现矩阵针对多个空间方向补偿响度。
本公开的音频播放系统,例如音频播放系统16,可另外或替代地经配置以作为产生效果矩阵的部分执行响度补偿过程,且基于效果矩阵呈现HOA音频信号。为了执行响度补偿过程,音频播放系统16可基于呈现矩阵针对多个空间方向补偿响度。为了执行响度补偿过程,音频播放系统16可基于呈现矩阵针对多个空间方向补偿响度。为了执行响度补偿过程,音频播放系统16可经配置以基于映射函数针对多个空间方向补偿响度。为了执行响度补偿过程,音频播放系统16可经配置以确定多个初始声音位置与多个对应映射目的地(例如图15到19中的映射目的地)之间的最小误差。为了执行响度补偿过程,音频播放系统16可经配置以确定多个初始声音位置与多个对应映射目的地之间的能量归一化。
本公开的音频播放系统,例如音频播放系统16可经配置以基于参考屏幕的一或多个FOV参数(例如,FOV参数13')和观察窗的一或多个FOV参数通过在一或多个扬声器(例如,扬声器3)上呈现HOA音频信号来呈现HOA音频信号。呈现可例如另外基于响应于用户引发的缩放操作所获得的比例因子。在一些实例中,用于参考屏幕的一或多个FOV参数可包含参考屏幕的中心的位置和观察窗的中心的位置。
音频播放系统16可例如接收包括HOA音频信号的编码音频数据的位流。编码音频数据可与相应的视频数据相关联。音频播放系统16可从位流获得用于相应视频数据的参考屏幕的一或多个FOV参数(例如,FOV参数13')。
音频播放系统16也可获得用于显示相应视频数据的观察窗的一或多个FOV参数。观察窗的FOV参数可局部基于用户输入、自动化测量值、默认值等的任何组合来确定。
音频播放系统16可基于观察窗的一或多个FOV参数和参考屏幕的一或多个FOV参数从音频呈现器22确定用于编码音频数据的呈现器、修改音频呈现器22中的一个,且基于修改的呈现器和编码音频数据来在一或多个扬声器上呈现HOA音频信号。当执行缩放操作时,音频播放系统16可另外基于比例因子修改音频呈现器22中的一个。
音频播放系统16可例如基于扬声器配置,包含但不一定受限于一或多个扬声器的空间几何布置和/或可供用于播放的扬声器的数量确定用于编码音频数据的呈现器。
音频呈现器22可例如包含用于将编码音频数据转换为再现格式的算法和/或利用呈现格式。呈现格式可例如包含矩阵、光线、直线或向量中的任一个。音频呈现器22可在位流中传信或基于播放环境来确定。
用于参考屏幕的一或多个FOV参数可包含用于参考屏幕的一或多个方位角。用于参考屏幕的一或多个方位角可包含用于参考屏幕的左方位角和用于参考屏幕的右方位角。用于参考屏幕的一或多个FOV参数可替代地或额外包含用于参考屏幕的一或多个仰角。用于参考屏幕的一或多个仰角可包含用于参考屏幕的上仰角和用于参考屏幕的下仰角。
用于观察窗的一或多个FOV参数可包含用于观察窗的一或多个方位角。用于观察窗的一或多个方位角可包含用于观察窗的左方位角和用于观察窗的右方位角。用于观察窗的一或多个FOV参数可包含用于观察窗的一或多个方位角。用于观察窗的一或多个仰角可包含用于观察窗的上仰角和用于观察窗的下仰角。
音频播放系统16可基于参考屏幕的一或多个FOV参数和观察窗的一或多个FOV参数,通过确定用于修改扬声器的方位角的方位角映射函数来修改一或多个音频呈现器22,且基于方位角映射函数来修改一或多个扬声器的第一扬声器的方位角以产生用于第一扬声器的修改方位角。
方位角映射函数包括:
音频播放系统16可基于参考屏幕的一或多个FOV参数和观察窗的一或多个FOV参数通过确定用于修改扬声器的仰角的仰角映射函数来修改呈现器且基于仰角映射函数修改一或多个扬声器的第一扬声器的仰角。
仰角映射函数包括:
其中,θ'表示用于第一扬声器得修改仰角;
θ表示用于第一扬声器的仰角;
音频播放系统16可响应于用户在观察窗引发的缩放函数而修改呈现器。例如,响应于用户引发缩放函数,音频播放系统16可确定缩放观察窗的一或多个FOV参数,且基于参考屏幕的一或多个FOV参数和缩放观察窗的一或多个FOV参数来修改呈现器。音频播放系统16还可通过以下操作修改呈现器:基于比例因子和观察窗的一或多个FOV参数确定经缩放观察窗的一或多个FOV参数,基于经缩放观察窗的一或多个FOV参数和参考屏幕的一或多个FOV参数确定用于修改角度,例如扬声器的方位角的方位角映射函数,以及基于方位角映射函数修改一或多个扬声器的第一扬声器的角度(例如,方位角)以产生第一扬声器的经修改角度(例如,经修改方位角)。
方位角映射函数包括:
音频播放系统16可基于缩放因子和观察窗的一或多个FOV参数通过确定缩放观察窗的一或多个FOV参数来修改呈现器,基于缩放观察窗的一或多个FOV参数和参考屏幕的一或多个FOV参数确定用于修改扬声器的仰角的仰角映射函数,且基于仰角映射函数来修改一或多个扬声器的第一扬声器的仰角以产生用于第一扬声器的修改仰角。
仰角映射函数包括:
其中,θ'表示用于第一扬声器得修改仰角;
θ表示用于第一扬声器的仰角;
音频播放系统16可基于用于观察窗的一或多个方位角和缩放因子通过确定用于缩放观察窗的一或多个方位角来确定缩放观察窗的一或多个FOV参数。音频播放系统16可基于用于观察窗的一或多个仰角和缩放因子通过确定用于缩放观察窗的一或多个仰角来确定缩放观察窗的一或多个FOV参数。音频播放系统16可基于参考屏幕的一或多个FOV参数来确定参考屏幕的中心且基于观察窗的一或多个FOV参数来确定观察窗的中心。
音频播放系统16可经配置以基于观察窗的中心和参考屏幕的中心确定用于编码音频数据的呈现器、修改呈现器且基于修改呈现器和编码音频数据在一或多个扬声器上呈现HOA音频信号。
音频播放系统16可根据以下算法确定观察窗的中心:
originalWidth=originalAngles.azi(1)-originalAngles.azi(2);
originalHeight=originalAngles.ele(1)-originalAngles.ele(2);
newWidth=newAngles.azi(1)-newAngles.azi(2);
newHeight=newAngles.ele(1)-newAngles.ele(2);
originalCenter.azi=originalAngles.azi(1)-originalWidth*0.5;
originalCenter.ele=originalAngles.ele(1)-originalHeight*0.5;
newCenter.azi=newAngles.azi(1)-newWidth*0.5;
newCenter.ele=newAngles.ele(1)-newHeight*0.5,
其中“originalWidth”表示参考屏幕的宽度;“originalHeight”表示参考屏幕的高度;“originalAngles.azi(1)”表示参考屏幕的第一方位角;“originalAngles.azi(2)”表示参考屏幕的第二方位角;“originalAngles.ele(1)”表示参考屏幕的第一仰角;“originalAngles.ele(2)”表示参考屏幕的第二仰角;“newWidth”表示观察窗的宽度;“newHeight”表示观察窗的高度;“newAngles.azi(1)”表示观察窗的第一方位角;“newAngles.azi(2)”表示观察窗的第二方位角;“newAngles.ele(1)”表示观察窗的第一仰角;“newAngles.ele(2)”表示观察窗的第二仰角;“originalCenter.azi”表示参考屏幕的中心的方位角;“originalCenter.ele”表示参考屏幕的中心的仰角;“newCenter.azi”表示观察窗的中心的方位角;“newCenter.ele”表示观察窗的中心的仰角。
音频播放系统16可从参考屏幕的中心向观察窗的中心转动声场。
HOA音频信号可为MPEG-H 3D兼容位流的一部分。观察窗可例如为再现屏幕或再现屏幕的一部分。观察窗也可对应于局部屏幕。参考屏幕可例如为产生屏幕。
音频播放系统16可经配置以接收指示对应于默认值的参考屏幕的一或多个FOV参数的值的语法元素和/或接收指示对应于包含在包括HOA音频信号的位流中的传信值的参考屏幕的一或多个FOV参数的值的语法元素。
包含初步效果矩阵、效果矩阵、呈现矩阵、最终呈现矩阵的矩阵或本公开中所描述的其它类型的矩阵可以不同方式处理。举例来说,可将矩阵处理(例如,存储、添加、乘以、检索等)为行、列、向量或以其它方式处理。应理解,如本公开中所使用,术语矩阵可指与矩阵数据相关联的数据结构。
图21是说明系统可执行以实施本公开的一或多种技术的实例过程940的流程图。应了解,可通过各种系统和/或装置根据本公开的各个方面执行过程940。然而,为了易于论述,过程940在本文中描述为由音频播放系统和/或其各种组件执行。过程940可在音频播放系统16获得HOA音频信号的HOA系数时开始(941)。举例来说,音频播放系统16的音频解码装置24可从音频位流21获得HOA系数11'。随后,音频播放系统16可基于HOA系数11'的空间方向产生效果矩阵(942)。举例来说,音频播放系统16可基于HOA系数11'的空间方向产生初步效果矩阵且使用初步效果矩阵产生效果矩阵(或“最终”效果矩阵)F。
音频播放系统16可使用效果矩阵F计算新呈现矩阵(944)。举例来说,音频播放系统16可根据公式D=FR计算新呈现矩阵(由符号‘D’指示),其中‘R’指示初始呈现矩阵。音频播放系统16可使用新呈现矩阵D来将HOA信号呈现到扩音器馈送(946)。举例来说,音频播放系统16可使用新呈现矩阵D来将HOA系数11'呈现到将经由扬声器3中的一或多个播放的扩音器馈送25中的一或多个。随后,音频播放系统16可输出扩音器馈送25以驱动一或多个扩音器,例如扬声器3中的一或多个(948)。
图22是说明系统可执行以实施本公开的一或多种技术的实例过程960的流程图。应了解,可通过各种系统和/或装置根据本公开的各个方面执行过程960。然而,为了易于论述,过程960在本文中描述为由音频播放系统和/或其各种组件执行。过程960可在音频播放系统16获得HOA音频信号的HOA系数时开始(961)。举例来说,音频播放系统16的音频解码装置24可从音频位流21获得HOA系数11'。
随后,音频播放系统16可执行响度补偿以产生效果矩阵(962)。举例来说,音频播放系统16可执行响度补偿以补偿映射的一或多个效果。音频播放系统16可执行响度补偿以均衡由效果矩阵的空间伸缩和/或挤压所引起,如可由映射所引起的一或多个不当方向相依性响度差异。音频播放系统16可使用效果矩阵计算新呈现矩阵(964)。举例来说,音频播放系统16可根据公式D=FR计算新呈现矩阵(由符号‘D’指示),其中‘R’指示初始呈现矩阵,且‘F’指示使用响度补偿产生的效果矩阵。
音频播放系统16可使用新呈现矩阵D来将HOA信号呈现到扩音器馈送(966)。举例来说,音频播放系统16可使用新呈现矩阵D来将HOA系数11'呈现到将经由扬声器3中的一或多个播放的扩音器馈送25中的一或多个。随后,音频播放系统16可输出扩音器馈送25以驱动一或多个扩音器,例如扬声器3中的一或多个(968)。
图23是说明系统可执行以实施本公开的一或多种技术的实例过程980的流程图。应了解,可通过各种系统和/或装置根据本公开的各个方面执行过程980。然而,为了易于论述,过程980在本文中描述为由音频播放系统和/或其各种组件执行。过程980可在音频播放系统16获得HOA音频信号的HOA系数时开始(981)。举例来说,音频播放系统16的音频解码装置24可从音频位流21获得HOA系数11'。
随后,音频播放系统16可使用响度补偿且使用HOA系数11'的空间方向产生效果矩阵(982)。举例来说,音频播放系统16可根据上文所描述的公式中的一或多个计算或产生初步效果矩阵另外,音频播放系统16可通过使用用于HOA系数11'的空间方向的HOA呈现矩阵R计算响度值。随后,音频播放系统16可使用如上文所描述计算的模式矩阵计算最终效果矩阵。
音频播放系统16可使用效果矩阵计算新呈现矩阵(984)。举例来说,音频播放系统16可根据公式D=FR计算新呈现矩阵(由符号‘D’指示),其中‘R’指示初始呈现矩阵,且‘F’指示使用响度补偿和HOA系数11'的空间方向所产生的效果矩阵。
音频播放系统16可使用新呈现矩阵D来将HOA信号呈现到扩音器馈送(986)。举例来说,音频播放系统16可使用新呈现矩阵D来将HOA系数11'呈现到将经由扬声器3中的一或多个播放的扩音器馈送25中的一或多个。随后,音频播放系统16可输出扩音器馈送25以驱动一或多个扩音器,例如扬声器3中的一或多个(988)。
可相对于任何数目个不同情形和音频生态系统执行前述技术。下文描述多个实例背景,但技术应限于所述实例背景。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频符尾、游戏音频译码/呈现引擎和递送系统。
电影工作室、音乐工作室和游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1和7.1)。音乐工作室可例如通过使用DAW来输出基于信道的音频内容(例如,呈2.0和5.1)。在任一情况下,译码引擎可基于一或多个编码解码器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比数字加(Dolby Digital Plus)以及DTS主音频)接收且编码基于信道的音频内容以用于由递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频符尾。游戏音频编码/呈现引擎可编码音频原声和/或将音频原声呈现为基于信道的音频内容以通过递送系统来输出。可执行技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费者装置上捕获、HOA音频格式、装置上呈现、消费者音频、TV和附件以及汽车音频系统。
广播记录音频对象、专业音频系统和消费者装置上捕获都可使用HOA音频格式对其输出进行编码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上呈现、消费型音频、TV和附件以及汽车音频系统播放单一表示。换句话说,可在通用音频播放系统(即,与需要例如5.1、7.1等的特定配置相比)(例如,音频播放系统16)处播放音频内容的单一表示。
可执行技术的情形的其它实例包含音频生态系统,其可包含获取元件和播放元件。获取元件可包含有线和/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获和移动装置(例如,智能电话和平板计算机)。在一些实例中,有线和/或无线获取装置可经由有线和/或无线通信信道耦合到移动装置。如本文中所使用,术语“耦合”可包含各种类型的连接。举例来说,如果存储器装置例如借助于总线以通信方式连接,那么装置的存储器装置组件可“耦合”到一或多个处理器(例如,处理电路)。
根据本发明的一或多种技术,移动装置可用于获取声场。举例来说,移动装置可经由有线和/或无线获取装置和/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取的声场译码成HOA系数以用于由播放元件中的一或多者播放。举例来说,移动装置的用户可记录实况事件(例如,会面、会议、演奏、音乐会等)(获取其声场),且将记录译码成HOA系数。
移动装置还可利用播放元件中的一或多者来播放HOA经译码声场。举例来说,移动装置可对经HOA经译码声场进行解码,且将致使播放元件中的一或多个重新创建声场的信号输出到播放元件中的一或多个。作为一个实例,移动装置可利用无线和/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声音棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出给一或多个对接站和/或一或多个对接扬声器(例如,智能汽车和/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机呈现将信号输出到一组头戴式耳机(例如)以产生实际的立体声声音。
在一些实例中,特定移动装置可获取3D声场且在稍后时间播放同一3D声场。在一些实例中,移动装置可获取3D声场、将3D声场编码为HOA,且将经编码的3D声场传输到一或多个其它装置(例如,其它移动装置和/或其它非移动装置)以供播放。
可执行技术的又一情境包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、呈现引擎和递送系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,一或多个DAW可包含可经配置以与一或多个游戏音频系统一起操作(例如,一起工作)的HOA插件和/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码音频内容输出到呈现引擎,呈现引擎可呈现声场以供递送系统播放。
也可关于示范性音频获取装置执行技术。例如,技术可关于可包含共同地经配置以记录3D声场的多个麦克风的本征麦克风来执行。在一些实例中,本征麦克风的多个麦克风可位于具有大约4cm的半径的大体上为球面球的表面上。在一些实例中,音频编码装置20可被集成到本征麦克风中以便直接从麦克风输出音频位流21。
另一示范性音频获取上下文可包含可经配置以从一或多个麦克风(例如,一或多个本征麦克风)接收信号的产生车。产生车还可包含音频编码器,例如图3的音频编码装置20。
在一些情况下,移动装置也可包含共同地经配置以记录3D声场的多个麦克风。换句话说,多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图3的音频编码装置20。
加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示在用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的附件增强型移动装置执行技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加了一或多个配件。举例来说,本征麦克风可附接到上文所提到的移动装置以形成配件增强型移动装置。以此方式,配件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与附件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中描述的技术的各个方面的实例音频播放装置。根据本发明的一或多种技术,扬声器和/或声棒在播放3D声场时可布置于任何任意的配置中。此外,在一些实例中,头戴式耳机播放装置可经由有线或无线连接耦合到音频解码装置24。根据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒和头戴受话器播放装置的任何组合上再现声场。
多个不同实例音频播放环境还可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器播放环境、2.0(例如,立体声)扬声器播放环境、具有全高前扩音器的9.1扬声器播放环境、22.2扬声器播放环境、16.0扬声器播放环境、汽车扬声器播放环境,以及具有耳芽(earbud)播放环境的移动装置。
根据本发明的一或多种技术,可利用声场的单一通用表示来在前述播放环境中的任一个上呈现声场。另外,本发明的技术使得呈现器能够从通用表示呈现声场以供在除上文所描述的环境之外的播放环境上播放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器播放环境的恰当放置(例如,如果不可以放置右环绕扬声器),那么本发明的技术使得呈现器能够用其它6个扬声器进行补偿,使得可在6.1扬声器播放环境上实现播放。
此外,用户可在佩戴头戴式耳机时观看体育比赛。根据本发明的一或多种技术,可获取体育比赛的3D声场(例如,可将一或多个本征麦克风放置在棒球场中和/或周围),可获得对应于3D声场的HOA系数,且将HOA系数发射到解码器,解码器可基于HOA系数重构3D声场且将经重构3D声场输出到呈现器,呈现器可获得关于播放环境的类型(例如,头戴式耳机)的指示,且将经重构3D声场呈现为致使头戴式耳机输出体育比赛的3D声场的表示的信号。
在上文所描述的各种例子中的每一个,应理解,音频编码装置20可执行方法或另外包括用于执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频编码装置20已经配置以执行的方法。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合来实施。如果在软件中实施,那么功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所描述的各种情况中的每一个中,应理解,音频解码装置24可执行方法或另外包括用于执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时使一或多个处理器执行音频解码装置24已经配置以执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。但是,应理解,计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,一或多个处理器例如一或多个数字信号处理器(DSP)、处理电路(例如可编程处理电路、固定功能电路或可编程处理电路和固定功能电路的组合)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可在经配置以用于编码和解码的专用硬件和/或软件模块内提供,或并入在组合编解码器中。而且,技术可完全实施于一或多个电路或逻辑元件中。
本公开的技术可在包含无线手持机、集成电路(IC)或IC集合(例如,芯片组)的多种多样的装置或设备中实施。本发明中描述各种组件、模块或单元是为了强调经配置以执行所公开的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了技术的各种方面。技术的这些和其它方面在所附权利要求书的范围内。
Claims (44)
1.一种用于呈现高阶立体混响HOA音频信号的装置,所述装置包括:
存储器,其经配置以存储所述HOA音频信号;以及
一或多个处理器,其耦合到所述存储器,所述一或多个处理器经配置以:
作为产生效果矩阵的部分,基于映射函数针对多个空间方向执行响度补偿过程;以及
基于所述效果矩阵呈现所述HOA音频信号。
2.根据权利要求1所述的装置,其中所述一或多个处理器经配置以进一步基于呈现矩阵针对所述多个空间方向补偿响度。
3.根据权利要求1所述的装置,其中所述一或多个处理器经配置以:
确定用于经编码音频数据的呈现器;
基于观察窗的一或多个视场FOV参数和参考屏幕的一或多个FOV参数修改所述呈现器;以及
使用所述效果矩阵和所述经修改呈现器两者呈现所述HOA音频信号。
4.根据权利要求1所述的装置,其中所述一或多个处理器经配置以基于关于与所述HOA音频信号相关联的视频数据的产生屏幕大小和再现窗口大小确定与所述HOA音频信号的对象相关联的多个初始声音位置与和所述HOA音频信号的所述对象相关联的多个对应映射目的地之间的最小误差。
5.根据权利要求1所述的装置,其中所述一或多个处理器经配置以使用关于与所述HOA音频信号相关联的视频数据的产生屏幕大小和再现窗口大小确定与所述HOA音频信号的对象相关联的多个初始声音位置与和所述HOA音频信号的所述对象相关联的多个对应映射目的地之间的能量归一化。
6.根据权利要求1所述的装置,其中所述装置进一步包括耦合到所述一或多个处理器的至少一个扬声器,且其中所述一或多个处理器经配置以产生扩音器馈送以驱动所述至少一个扬声器。
7.根据权利要求1所述的装置,其中所述装置进一步包括用于显示观察窗的显示器,其中所述一或多个处理器耦合到所述显示器,且其中所述一或多个处理器经配置以确定经由所述显示器输出的观察窗的一或多个视场FOV参数。
8.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以对所述HOA音频信号解码以确定多个HOA系数,且
其中所述一或多个处理器经配置以作为呈现所述HOA音频信号的部分呈现所述HOA系数。
9.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以:
产生球面的九百个取样点的模式矩阵;
基于参考屏幕的一或多个视场FOV参数和观察窗的一或多个FOV参数修改所述模式矩阵以产生效果矩阵;且
基于所述效果矩阵呈现所述HOA音频信号的HOA系数。
10.根据权利要求1所述的装置,其进一步包括电视,所述电视包含:
所述存储器;
所述一或多个处理器;
通信接口,其经配置以接收音频数据和视频数据;
一或多个扬声器,其用于输出所述呈现的音频信号;以及
显示器,其经配置以输出所述视频数据的至少部分。
11.根据权利要求1所述的装置,其进一步包括接收器装置,所述接收器装置包含所述存储器和所述一或多个处理器,其中所述接收器装置以通信方式耦合到一或多个扬声器。
12.根据权利要求1所述的装置,其中所述一或多个处理器经配置以:
通过对存储到所述存储器的所述HOA信号的多个空间方向应用呈现矩阵来计算响度校正值;
基于所述响度校正值计算最终效果矩阵;以及
使用所述最终效果矩阵修改所述呈现矩阵以获得新呈现矩阵。
13.根据权利要求12所述的装置,其中为了基于所述响度校正值计算所述最终效果矩阵,所述一或多个处理器经配置以:
应用所述响度校正值以修改模式矩阵,所述模式矩阵包含存储到所述存储器的所述HOA信号的所述多个空间方向中的一或多个空间方向。
14.根据权利要求13所述的装置,其中应用所述响度校正值以修改所述模式矩阵,所述一或多个处理器经配置以:
执行所述响度校正值的对角矩阵与所述模式矩阵和所述模式矩阵的转置的乘积的矩阵乘法。
15.一种用于呈现高阶立体混响HOA音频信号的装置,所述装置包括:
存储器,其经配置以存储所述HOA音频信号;以及
一或多个处理器,其耦合到所述存储器,所述一或多个处理器经配置以:
作为产生效果矩阵的部分,执行响度补偿过程;
确定用于经编码音频数据的呈现器;
基于观察窗的一或多个视场FOV参数和参考屏幕的一或多个FOV参数修改所述呈现器;以及
使用所述效果矩阵和所述经修改呈现器两者呈现所述HOA音频信号。
16.根据权利要求15所述的装置,其进一步包括一或多个扬声器,其中所述一或多个处理器经配置以基于与所述装置的所述一或多个扬声器相关联的扬声器配置确定所述呈现器。
17.根据权利要求15所述的装置,其中所述呈现器包括再现格式或用于将所述经编码音频数据转换为再现格式的算法中的一或多个。
18.根据权利要求15所述的装置,其中所述一或多个处理器进一步经配置以:
基于所述参考屏幕的所述一或多个FOV参数和所述观察窗的所述一或多个FOV参数,确定用于修改扬声器的角度的角度映射函数;
基于所述角度映射函数,修改一或多个扬声器的第一扬声器的角度以产生所述第一扬声器的经修改角度;以及
使用所述第一扬声器的所述经修改角度以修改所述呈现器。
19.根据权利要求15所述的装置,其进一步包括显示器,所述显示器经配置以输出所述观察窗或基于所述观察窗的经缩放观察窗中的一或两个,
其中所述显示器耦合到所述一或多个处理器,
其中所述一或多个处理器进一步经配置以响应于用户引发的缩放功能而确定所述经缩放观察窗的一或多个FOV参数,且
其中所述一或多个处理器经配置以基于所述参考屏幕的所述一或多个FOV参数和所述经缩放观察窗的所述一或多个FOV参数修改所述呈现器。
20.根据权利要求19所述的装置,其中所述一或多个处理器经配置以:
响应于用户引发的缩放操作而获得比例因子;
基于所述比例因子和所述观察窗的所述一或多个FOV参数确定经缩放观察窗的一或多个FOV参数;
基于所述经缩放观察窗的所述一或多个FOV参数和所述参考屏幕的所述一或多个FOV参数,确定用于修改扬声器的角度的角度映射函数;且
基于所述角度映射函数,修改所述一或多个扬声器的第一扬声器的角度以产生所述第一扬声器的经修改角度。
21.根据权利要求19所述的装置,
其中所述一或多个处理器经配置以:
基于比例因子和经由所述显示器输出的所述观察窗的一或多个方位角确定所述经缩放观察窗的一或多个方位角;以及
确定经由所述显示器输出的所述经缩放观察窗的所述一或多个FOV参数,
其中所述一或多个处理器进一步经配置以基于所述观察窗的一或多个仰角和所述比例因子确定所述经缩放观察窗的一或多个仰角。
22.根据权利要求19所述的装置,其中用于所述参考屏幕的所述一或多个FOV参数包括用于所述参考屏幕的一或多个方位角或用于所述参考屏幕的一或多个仰角中的至少一个。
23.根据权利要求19所述的装置,其中用于所述观察窗的所述一或多个FOV参数包括用于所述观察窗的一或多个方位角或用于所述观察窗的一或多个仰角中的至少一个。
24.根据权利要求19所述的装置,其中所述一或多个处理器经配置以基于响应于用户引发的缩放操作而获得的比例因子和所述效果矩阵呈现所述HOA音频信号。
25.根据权利要求19所述的装置,其中用于所述参考屏幕的所述一或多个FOV参数包括所述参考屏幕的中心的位置和所述观察窗的中心的位置。
26.根据权利要求25所述的装置,其中所述一或多个处理器进一步经配置以:
基于所述参考屏幕的所述一或多个FOV参数确定所述参考屏幕的所述中心;且
基于所述观察窗的所述一或多个FOV参数确定所述观察窗的所述中心。
27.根据权利要求25所述的装置,其进一步包括耦合到所述一或多个处理器的一或多个扩音器,
其中所述显示器经配置以输出所述参考屏幕或所述观察窗中的一或两个,且其中所述一或多个处理器经配置以:
确定用于所述经编码音频数据的呈现器;
基于所述观察窗的所述中心和所述参考屏幕的所述中心修改所述呈现器;且
对于经由所述一或多个扩音器的播放,基于所述效果矩阵和所述经修改呈现器呈现所述HOA音频信号。
28.根据权利要求25所述的装置,其中所述一或多个处理器进一步经配置以:
将所述HOA音频信号的声场从所述参考屏幕的所述中心旋转到经由所述显示器输出的所述观察窗的所述中心。
29.根据权利要求19所述的装置,其中所述一或多个处理器经进一步配置以接收指示是否能够基于所述参考屏幕的所述一或多个视场FOV参数和所述观察窗的所述一或多个FOV参数再现所述HOA音频信号的语法元素。
30.一种用于呈现高阶立体混响HOA音频信号的方法,所述方法包括:
作为产生效果矩阵的部分,通过基于映射函数针对多个空间方向补偿响度来执行响度补偿过程;以及
基于所述效果矩阵呈现所述HOA音频信号。
31.根据权利要求30所述的方法,其中执行所述响度补偿过程包括基于呈现矩阵针对多个空间方向补偿响度。
32.根据权利要求30所述的方法,其中执行所述响度补偿过程包括基于映射函数针对多个空间方向补偿响度。
33.根据权利要求30所述的方法,其中执行所述响度补偿过程包括使用关于与所述HOA音频信号相关联的视频数据的产生屏幕大小和再现窗口大小确定与所述HOA音频信号的对象相关联的多个初始声音位置与和所述HOA音频信号的所述对象相关联的多个对应映射目的地之间的最小误差。
34.根据权利要求30所述的方法,其中执行所述响度补偿过程包括使用关于与所述HOA音频信号相关联的视频数据的产生屏幕大小和再现窗口大小确定与所述HOA音频信号的对象相关联的多个初始声音位置与和所述HOA音频信号的所述对象相关联的多个对应映射目的地之间的能量归一化。
35.一种用于呈现高阶立体混响HOA音频信号的设备,所述设备包括:
用于作为产生效果矩阵的部分基于映射函数针对多个空间方向对响度执行响度补偿过程的装置;以及
用于使用所述效果矩阵呈现所述HOA音频信号的装置。
36.一种用于呈现高阶立体混响HOA音频信号的装置,所述装置包括:
存储器,其经配置以存储与所述HOA音频信号相关联的音频数据;以及
一或多个处理器,其耦合到所述存储器,所述一或多个处理器经配置以:
检测关于与所述HOA音频信号相关联的视频数据的缩放事件;
响应于所述缩放事件的所述检测,基于所述HOA信号的阶数产生模式矩阵;且
基于所述模式矩阵呈现所述HOA音频信号。
37.根据权利要求36所述的装置,其中所述一或多个处理器进一步经配置以:
基于所述HOA音频信号的HOA系数的所述模式矩阵和空间方向局部产生初步效果矩阵;且
基于所述局部产生的初步效果矩阵呈现所述HOA信号。
38.根据权利要求37所述的装置,其中所述一或多个处理器进一步经配置以:
使用所述初步效果矩阵产生呈现矩阵;且
基于所述呈现矩阵呈现所述HOA信号。
39.根据权利要求36所述的装置,进一步包括电视,所述电视包含:
所述存储器;
所述一或多个处理器;
一或多个扬声器,其用于输出所述呈现的音频信号;以及
显示器,其经配置以输出视频数据。
40.根据权利要求36所述的装置,其中基于所述HOA信号的所述阶数产生所述模式矩阵,所述一或多个处理器经配置以应用公式M=(N+2)2,其中N指代所述HOA信号的所述阶数,且其中M指代用于产生所述模式矩阵的取样点的数目。
41.根据权利要求36所述的装置,其进一步包括接收器装置,所述接收器装置包含所述存储器和所述一或多个处理器,其中所述接收器装置以通信方式耦合到一或多个扬声器。
42.根据权利要求36所述的装置,其中所述一或多个处理器经配置以:
通过对存储到所述存储器的所述HOA信号的多个空间方向应用呈现矩阵来计算响度校正值;
基于所述响度校正值计算最终效果矩阵;以及
使用所述最终效果矩阵修改所述呈现矩阵以获得新呈现矩阵。
43.根据权利要求42所述的装置,其中为了基于所述响度校正值计算所述最终效果矩阵,所述一或多个处理器经配置以:
应用所述响度校正值以修改所述模式矩阵,其中所述模式矩阵包含存储到所述存储器的所述HOA信号的所述多个空间方向中的一或多个空间方向。
44.根据权利要求43所述的装置,其中应用所述响度校正值以修改所述模式矩阵,所述一或多个处理器经配置以:
执行所述响度校正值的对角矩阵与所述模式矩阵和所述模式矩阵的转置的乘积的矩阵乘法。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562241709P | 2015-10-14 | 2015-10-14 | |
US62/241,709 | 2015-10-14 | ||
US201562244149P | 2015-10-20 | 2015-10-20 | |
US62/244,149 | 2015-10-20 | ||
US201562255353P | 2015-11-13 | 2015-11-13 | |
US62/255,353 | 2015-11-13 | ||
US15/290,223 US10070094B2 (en) | 2015-10-14 | 2016-10-11 | Screen related adaptation of higher order ambisonic (HOA) content |
US15/290,223 | 2016-10-11 | ||
PCT/US2016/056606 WO2017066300A2 (en) | 2015-10-14 | 2016-10-12 | Screen related adaptation of higher order ambisonic (hoa) content |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108141695A CN108141695A (zh) | 2018-06-08 |
CN108141695B true CN108141695B (zh) | 2020-06-19 |
Family
ID=57208374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680059411.5A Active CN108141695B (zh) | 2015-10-14 | 2016-10-12 | 高阶立体混响(hoa)内容的屏幕相关适应 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10070094B2 (zh) |
EP (1) | EP3363214B1 (zh) |
JP (2) | JP6619091B2 (zh) |
KR (1) | KR102077413B1 (zh) |
CN (1) | CN108141695B (zh) |
BR (1) | BR112018007547B1 (zh) |
CA (1) | CA2999288C (zh) |
WO (1) | WO2017066300A2 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9854375B2 (en) * | 2015-12-01 | 2017-12-26 | Qualcomm Incorporated | Selection of coded next generation audio data for transport |
CN108369493A (zh) * | 2015-12-07 | 2018-08-03 | 创新科技有限公司 | 音频系统 |
US11019449B2 (en) | 2018-10-06 | 2021-05-25 | Qualcomm Incorporated | Six degrees of freedom and three degrees of freedom backward compatibility |
KR20200107758A (ko) * | 2019-03-08 | 2020-09-16 | 엘지전자 주식회사 | 음향 객체 추종을 위한 방법 및 이를 위한 장치 |
US11129159B2 (en) * | 2019-04-11 | 2021-09-21 | Servicenow, Inc. | Programmatic orchestration of cloud-based services |
GB2584838A (en) * | 2019-06-11 | 2020-12-23 | Nokia Technologies Oy | Sound field related rendering |
GB2584837A (en) * | 2019-06-11 | 2020-12-23 | Nokia Technologies Oy | Sound field related rendering |
GB2587335A (en) | 2019-09-17 | 2021-03-31 | Nokia Technologies Oy | Direction estimation enhancement for parametric spatial audio capture using broadband estimates |
CN110764696B (zh) * | 2019-09-26 | 2020-10-16 | 开放智能机器(上海)有限公司 | 向量信息存储及更新的方法、装置、电子设备及存储介质 |
CN112685691A (zh) * | 2020-12-28 | 2021-04-20 | 中国南方电网有限责任公司超高压输电公司 | 一种电气设备缺陷关联的分析方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012023864A1 (en) * | 2010-08-20 | 2012-02-23 | Industrial Research Limited | Surround sound system |
CN102823277A (zh) * | 2010-03-26 | 2012-12-12 | 汤姆森特许公司 | 解码用于音频回放的音频声场表示的方法和装置 |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
CN104471641A (zh) * | 2012-07-19 | 2015-03-25 | 汤姆逊许可公司 | 用于改善对多声道音频信号的呈现的方法和设备 |
CN104584588A (zh) * | 2012-07-16 | 2015-04-29 | 汤姆逊许可公司 | 用于渲染音频声场表示以供音频回放的方法和设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002183150A (ja) * | 2000-12-13 | 2002-06-28 | Nec Corp | 位置関連情報提示システム及び位置関連情報提示方法並びにその制御プログラムを記録した記録媒体 |
US7797065B2 (en) * | 2005-05-02 | 2010-09-14 | Texas Instruments Incorporated | Automute detection in digital audio amplifiers |
WO2010070225A1 (fr) | 2008-12-15 | 2010-06-24 | France Telecom | Codage perfectionne de signaux audionumeriques multicanaux |
EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
US8571192B2 (en) * | 2009-06-30 | 2013-10-29 | Alcatel Lucent | Method and apparatus for improved matching of auditory space to visual space in video teleconferencing applications using window-based displays |
EP2541547A1 (en) | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
US20150145944A1 (en) * | 2012-01-03 | 2015-05-28 | Qualcomm Incorporated | Exchanging portions of a video stream via different links during a communication session |
US9473870B2 (en) * | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
JP5773960B2 (ja) * | 2012-08-30 | 2015-09-02 | 日本電信電話株式会社 | 音響再生装置とその方法とプログラム |
JP6271586B2 (ja) | 2013-01-16 | 2018-01-31 | ドルビー・インターナショナル・アーベー | Hoaラウドネスレベルを測定する方法及びhoaラウドネスレベルを測定する装置 |
US9716959B2 (en) | 2013-05-29 | 2017-07-25 | Qualcomm Incorporated | Compensating for error in decomposed representations of sound fields |
TWI673707B (zh) * | 2013-07-19 | 2019-10-01 | 瑞典商杜比國際公司 | 將以L<sub>1</sub>個頻道為基礎之輸入聲音訊號產生至L<sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於L<sub>1</sub>個聲音頻道至L<sub>2</sub>個揚聲器頻道 |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
-
2016
- 2016-10-11 US US15/290,223 patent/US10070094B2/en active Active
- 2016-10-12 BR BR112018007547-7A patent/BR112018007547B1/pt active IP Right Grant
- 2016-10-12 JP JP2018518971A patent/JP6619091B2/ja active Active
- 2016-10-12 WO PCT/US2016/056606 patent/WO2017066300A2/en active Application Filing
- 2016-10-12 CA CA2999288A patent/CA2999288C/en active Active
- 2016-10-12 EP EP16787971.7A patent/EP3363214B1/en active Active
- 2016-10-12 KR KR1020187010041A patent/KR102077413B1/ko active IP Right Grant
- 2016-10-12 CN CN201680059411.5A patent/CN108141695B/zh active Active
-
2019
- 2019-09-06 JP JP2019163131A patent/JP6820386B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102823277A (zh) * | 2010-03-26 | 2012-12-12 | 汤姆森特许公司 | 解码用于音频回放的音频声场表示的方法和装置 |
WO2012023864A1 (en) * | 2010-08-20 | 2012-02-23 | Industrial Research Limited | Surround sound system |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
CN104584588A (zh) * | 2012-07-16 | 2015-04-29 | 汤姆逊许可公司 | 用于渲染音频声场表示以供音频回放的方法和设备 |
CN104471641A (zh) * | 2012-07-19 | 2015-03-25 | 汤姆逊许可公司 | 用于改善对多声道音频信号的呈现的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
KR20180069804A (ko) | 2018-06-25 |
US20170110139A1 (en) | 2017-04-20 |
EP3363214A2 (en) | 2018-08-22 |
CA2999288A1 (en) | 2017-04-20 |
JP2018534853A (ja) | 2018-11-22 |
KR102077413B1 (ko) | 2020-02-13 |
WO2017066300A3 (en) | 2017-05-18 |
JP6619091B2 (ja) | 2019-12-11 |
JP2019208286A (ja) | 2019-12-05 |
JP6820386B2 (ja) | 2021-01-27 |
BR112018007547B1 (pt) | 2023-12-05 |
WO2017066300A2 (en) | 2017-04-20 |
CA2999288C (en) | 2022-02-15 |
EP3363214B1 (en) | 2020-12-16 |
US10070094B2 (en) | 2018-09-04 |
CN108141695A (zh) | 2018-06-08 |
BR112018007547A2 (pt) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108141695B (zh) | 高阶立体混响(hoa)内容的屏幕相关适应 | |
CN106663433B (zh) | 用于处理音频数据的方法和装置 | |
CN111383645B (zh) | 指示用于译码向量的帧参数可重用性 | |
EP3205122B1 (en) | Screen related adaptation of hoa content | |
CN106575506B (zh) | 用于执行高阶立体混响音频数据的中间压缩的装置和方法 | |
KR102092774B1 (ko) | 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들 | |
KR102053508B1 (ko) | 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 채널들의 시그널링 | |
CN106471578B (zh) | 用于较高阶立体混响信号之间的交叉淡化的方法和装置 | |
US9959876B2 (en) | Closed loop quantization of higher order ambisonic coefficients | |
EP3363213B1 (en) | Coding higher-order ambisonic coefficients during multiple transitions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |