CN108140389A - 空间向量的量化 - Google Patents
空间向量的量化 Download PDFInfo
- Publication number
- CN108140389A CN108140389A CN201680057766.0A CN201680057766A CN108140389A CN 108140389 A CN108140389 A CN 108140389A CN 201680057766 A CN201680057766 A CN 201680057766A CN 108140389 A CN108140389 A CN 108140389A
- Authority
- CN
- China
- Prior art keywords
- space vector
- audio
- vector
- loudspeaker
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 564
- 238000013139 quantization Methods 0.000 title claims abstract description 90
- 230000005236 sound signal Effects 0.000 claims abstract description 192
- 239000011159 matrix material Substances 0.000 claims description 66
- 230000014509 gene expression Effects 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 44
- 238000005516 engineering process Methods 0.000 description 99
- 230000035611 feeding Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 9
- 238000011002 quantification Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- 241001269238 Data Species 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- VKYKSIONXSXAKP-UHFFFAOYSA-N hexamethylenetetramine Chemical compound C1N(C2)CN3CN1CN2C3 VKYKSIONXSXAKP-UHFFFAOYSA-N 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种用于处理音频数据的装置,其获得表示一或多个空间向量的集合的经量化版本的数据。空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号。所述空间向量中的每一个处在高阶立体混响HOA域中且是基于扩音器位置的集合计算出。所述装置反量化所述空间向量的所述经量化版本。
Description
本申请主张2015年10月8日提交的美国临时专利申请62/239,033的权益,所述申请的全部内容以引用的方式并入本文中。
技术领域
本公开涉及音频数据,且更具体地说,涉及高阶立体混响音频数据的写码。
背景技术
高阶立体混响(HOA)信号(常常由多个球面谐波系数(SHC)或其它分层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以重放从SHC信号显现的多声道音频信号的本地扬声器几何布置的方式来表示声场。SHC信号也可有助于向后兼容性,因为所述SHC信号可被显现为众所周知的且被高度采用的多声道格式(例如,5.1音频声道格式或7.1音频声道格式)。因此,SHC表示可实现也适应向后兼容性的对声场的更好表示。
发明内容
在一个实例中,本公开描述一种被配置成用于处理经译码音频的装置,所述装置包括:存储器,其被配置成存储对应于时间间隔的音频信号的集合;以及一或多个处理器,其电耦合到所述存储器,所述一或多个处理器被配置成:获得表示一或多个空间向量的集合的经量化版本的数据,其中:空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号,且所述空间向量中的每一个处在高阶立体混响(HOA)域中且是基于扩音器位置的集合计算出;以及反量化所述空间向量的所述经量化版本。
在另一实例中,本公开描述一种用于解码经译码音频的方法,所述方法包括:获得表示一或多个空间向量的集合的经量化版本的数据,其中:空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号,且所述空间向量中的每一个处在高阶立体混响(HOA)域中且是基于扩音器位置的集合计算出;以及反量化所述空间向量的所述经量化版本。
在另一实例中,本公开描述一种用于解码经译码音频位流的装置,所述装置包括:用于获得表示一或多个空间向量的集合的经量化版本的数据的装置,其中:空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号,且所述空间向量中的每一个处在高阶立体混响(HOA)域中且是基于扩音器位置的集合计算出;以及用于反量化所述空间向量的所述经量化版本的装置。
在另一实例中,本公开描述一种存储指令的计算机可读存储媒体,所述指令在执行时致使装置的一或多个处理器:获得表示一或多个空间向量的集合的经量化版本的数据,其中:空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号,且所述空间向量中的每一个处在高阶立体混响(HOA)域中且是基于扩音器位置的集合计算出;以及反量化所述空间向量的所述经量化版本。
在附图和以下描述中阐明本公开的一或多个实例的细节。其它特征、目标和优点将从所述描述、图式以及权利要求书而显而易见。
附图说明
图1是说明可执行本公开中描述的技术的各种方面的系统的图式。
图2是说明具有各种阶数和子阶数的球面谐波基底函数的图式。
图3是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图4是说明根据本公开的一或多种技术的用于与图3中示出的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图5是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图6是说明根据本公开的一或多种技术的向量编码单元的实例实施方案的图式。
图7是示出理想球面设计位置的实例集合的表格。
图8是示出理想球面设计位置的另一实例集合的表格。
图9是说明根据本公开的一或多种技术的向量编码单元的实例实施方案的框图。
图10是说明根据本公开的一或多种技术的音频解码装置的实例实施方案的框图。
图11是说明根据本公开的一或多种技术的向量解码单元的实例实施方案的框图。
图12是说明根据本公开的一或多种技术的向量解码单元的替代实施方案的框图。
图13是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置被配置成编码基于对象的音频数据。
图14是说明根据本公开的一或多种技术的用于基于对象的音频数据的向量编码单元68C的实例实施方案的框图。
图15是说明VBAP的概念图。
图16是说明根据本公开的一或多种技术的音频解码装置的实例实施方案的框图,其中所述音频解码装置被配置成解码基于对象的音频数据。
图17是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置被配置成量化空间向量。
图18是说明根据本公开的一或多种技术的用于与图17中示出的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图19是说明根据本公开的一或多种技术的显现单元210的实例实施方案的框图。
图20说明根据本公开的一或多种技术的汽车扬声器重放环境。
图21是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图22是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图23是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图24是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图25是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图26是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图27是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图28是说明根据本公开的技术的实例向量编码单元的框图。
具体实施方式
现今,环绕声的演变已使用于娱乐的许多输出格式可用。此类消费型环绕声格式的实例大部分为“声道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈送。消费型环绕声格式包含普遍的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,和低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式和22.2格式(例如,用于供超高清电视标准使用)。非消费型格式可跨越任何数目个扬声器(成对称和非对称几何布置),所述扬声器往往被称为“环绕阵列”。此阵列的一个实例包含定位在截头二十面体的拐角上的坐标处的32个扩音器。
音频编码器可接收呈三种可能格式中的一个的输入:(i)传统的基于声道的音频(如上文所论述),其意图通过在预指定位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的离散脉码调制(PCM)数据以及含有其位置坐标的相关联元数据(以及其它信息);和(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也被称为“球面谐波系数”或SHC,“高阶立体混响”或HOA和“HOA系数”)来表示声场。
在一些实例中,编码器可以其接收格式编码所接收音频数据。举例来说,接收传统的7.1基于声道的音频的编码器可将基于声道的音频编码到可由解码器重放的位流中。然而,在一些实例中,为在具有5.1重放能力(但不具有7.1重放能力)的解码器处进行重放,编码器也可在位流中包含7.1基于声道的音频的5.1版本。在一些实例中,编码器在位流中包含多个音频版本可能并不合乎需要。作为一个实例,在位流中包含多个音频版本可能会增大位流的大小,且因此增大发射所需的带宽量和/或存储位流所需的存储量。作为另一实例,内容创建者(例如,好莱坞影城)将希望一次产生电影的声轨,而不希望花费精力来针对每一扬声器配置再混合声轨。因而,提供编码成标准化位流,并提供针对重放位置(涉及显现器)处的扬声器几何布置(和数目)和声学条件可调适且不可知所述布置与条件的后续解码可能合乎需要。
在一些实例中,为使音频解码器能以任意扬声器配置重放音频,音频编码器可以单个格式转换输入音频以供编码。举例来说,音频编码器可将多声道音频数据和/或音频对象转换成分层元素集合,并将所得元素集合编码到位流中。分层元素集合可指元素被排序,使得低阶元素的基础集合提供模型化声场的完整表示的元素集合。随着所述集合扩展为包含高阶元素,所述表示变得更详细,从而增大分辨率。
分层元素集合的一个实例是球面谐波系数(SHC)的集合,其还可被称作高阶立体混响(HOA)系数。下文的等式(1)使用SHC展现声场的描述或表示。
等式(1)示出在时间t处在声场的任一点处的压力pi可由SHC,唯一地表示。此处,c是声速(~343m/s),是参考点(或观察点),jn(·)是阶n的球面贝塞尔函数,且是阶n和子阶m的球面谐波基底函数。可认识到,方括号中的项是信号(即,)的频域表示,所述信号可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合和多分辨率基底函数的系数的其它集合。出于简单的目的,本公开在下文参考HOA系数进行描述。然而,应了解,所述技术可同样适用于其它分层集合。
然而,在一些实例中,将所有所接收音频数据转换成HOA系数可能并不合乎需要。举例来说,如果音频编码器将所有所接收音频数据转换成HOA系数,那么所得位流与不能够处理HOA系数的音频解码器(例如,可仅处理多声道音频数据和音频对象中的一个或两个的音频解码器)可能并不后向兼容。因而,音频编码器编码所接收音频数据,使得所得位流能实现音频解码器以任意扬声器配置重放音频数据,同时还实现与不能够处理HOA系数的内容消费型系统的后向兼容性可能合乎需要。
根据本公开的一或多种技术,与将所接收音频数据转换成HOA系数并将所得HOA系数编码到位流中相反,音频编码器可在位流中以其原始格式编码所接收音频数据,连同实现将经编码音频数据转换成HOA系数的信息。举例来说,音频编码器可确定实现将经编码音频数据转换成HOA系数的一或多个空间定位向量(SPV),并将一或多个SPV的表示和所接收音频数据的表示编码到位流中。在一些实例中,一或多个SPV中的特定SPV的表示可为码本中对应于特定SPV的索引。可基于源扩音器配置(即,预期重放所接收音频数据的扩音器配置),确定空间定位向量以此方式,音频编码器可输出使音频解码器能以任意扬声器配置重放所接收音频数据,同时还实现与不能够处理HOA系数的音频解码器的后向兼容性的位流。
音频解码器可接收包含呈其原始格式的音频数据,连同实现将经编码音频数据转换成HOA系数的信息的位流。举例来说,音频解码器可接收呈5.1格式的多声道音频数据和一或多个空间定位向量(SPV)。在使用一或多个空间定位向量的情况下,音频解码器可从呈5.1格式的音频数据生成HOA声场。举例来说,音频解码器可基于多声道音频信号和空间定位向量,生成HOA系数的集合。音频解码器可基于本地扩音器配置,显现HOA声场或使另一装置显现HOA声场。以此方式,能够处理HOA系数的音频解码器可以任意扬声器配置重放多声道音频数据,同时也能实现与不能够处理HOA系数的音频解码器的后向兼容性。
如上文所论述,音频编码器可确定并编码实现将经编码音频数据转换成HOA系数的一或多个空间定位向量(SPV)。然而,在一些实例中,可能需要音频解码器在位流并不包含一或多个空间定位向量的指示时,以任意扬声器配置重放所接收音频数据。
根据本公开的一或多种技术,音频解码器可接收经编码音频数据和源扩音器配置的指示(即,预期重放经编码音频数据的扩音器配置的指示),并基于源扩音器配置的指示,生成实现将经编码音频数据转换成HOA系数的空间定位向量(SPV)。在一些实例中,例如在经编码音频数据是呈5.1格式的多声道音频数据的情况下,源扩音器配置的指示可指示经编码音频数据是呈5.1格式的多声道音频数据。
在使用空间定位向量的情况下,音频解码器可从音频数据生成HOA声场。举例来说,音频解码器可基于多声道音频信号和空间定位向量,生成HOA系数的集合。音频解码器可基于本地扩音器配置,显现HOA声场或使另一装置显现HOA声场。以此方式,音频解码器可输出使音频解码器能以任意扬声器配置重放所接收音频数据,同时还实现与可能并不生成并编码空间定位向量的音频编码器的后向兼容性的位流。
如上文所论述,音频写码器(即,音频编码器或音频解码器)可获得(即,生成、确定、检索、接收等)实现将经编码音频数据转换成HOA声场的空间定位向量。在一些实例中,可以实现对音频数据的近似“完美的”重建构为目标来获得空间定位向量。空间定位向量可被视为能实现对音频数据的近似“完美的”重建构,其中空间定位向量用于将输入N声道音频数据转换成HOA声场,所述HOA声场在转换回到N声道音频数据时与输入N声道音频数据近似等同。
为获得能实现近似“完美的”重建构的空间定位向量,音频写码器可确定用于每一向量的数个系数NHOA。如果根据等式(2)和(3)表示HOA声场,且根据等式(4)和(5)表示由用显现矩阵D显现HOA声场所产生的N声道音频,那么在选择的系数数目大于或等于输入N声道音频数据中的声道数目的情况下,近似“完美的”重建构可为可能的。
[C1C2…CN]:M×N (4)
换句话说,如果满足等式(6),那么近似“完美的”重建构可为可能的。
N≤NHOA (6)
换句话说,如果输入声道N的数目小于或等于用于每一空间定位向量的系数NHOA的数目,那么近似“完美的”重建构可为可能的。
音频写码器可用选定数目个系数获得空间定位向量。可根据等式(7)表示HOA声场H。
在等式(7)中,声道i的Hi可为声道i的音频声道Ci与声道i的空间定位向量Vi的转置矩阵的乘积,如等式(8)中示出。
可显现Hi以生成基于声道的音频信号如等式(9)中示出。
如果等式(10)或等式(11)为真,那么等式(9)可保持为真,其中等式(11)的第二解由于为单数已被去除。
或
如果等式(10)或等式(11)为真,那么可根据等式(12)到(14)表示基于声道的音频信号
因而,为实现近似“完美的”重建构,音频写码器可获得满足等式(15)和(16)的空间定位向量。
N≤NHOA (16)
出于完整性,以下是满足上文等式的空间定位向量能实现近似“完美的”重建构的证明。对于根据等式(17)表示的给定N声道音频,音频写码器可获得可根据等式(18)和(19)表示的空间定位向量,其中D是基于N声道音频数据的源扩音器配置确定的源显现矩阵,[0,…,1,…,0]包含N个元素且第i元素是一而其它元素是零。
Γ=[C1,C2,…,CN] (17)
{Vi}i=1,…,N (18)
Vi=[[0,…,1,…,0](DDT)-1D]T (19)
音频写码器可根据等式(20)来基于空间定位向量和N声道音频数据,生成HOA声场H。
音频写码器可根据等式(21)将HOA声场H转换回到N声道音频数据其中D是基于N声道音频数据的源扩音器配置确定的源显现矩阵。
如上文所论述,如果与Γ近似等同,那么能实现“完美的”重建构。如下文等式(22)到(26)中示出,与Γ近似等同,因此近似“完美的”重建构可为可能的:
可以不同方式处理例如显现矩阵的矩阵。举例来说,可将矩阵处理(例如,存储、相加、相乘、检索等)为行、列、向量或以其它方式进行处理。
图1是说明可执行本公开中描述的技术的各种方面的系统2的图式。如图1的实例中示出,系统2包含内容创建者系统4和内容消费者系统6。虽然在内容创建者系统4和内容消费者系统6的上下文中进行描述,但所述技术可实施于编码音频数据以形成音频数据的位流表示的任何上下文中。此外,内容创建者系统4可包含能够实施本公开中描述的技术的一或多个任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样,内容消费者系统6可包含能够实施本公开中描述的技术的一或多个任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒、AV接收器、无线扬声器或台式计算机(提供几个实例)。
内容创建者系统4可由各种内容创建者操作,例如电影工作室、电视工作室、因特网串流服务,或其它可生成音频内容,以供例如内容消费者系统6的内容消费者系统的操作员消费的实体。常常,内容创建者结合视频内容生成音频内容。内容消费者系统6可由个人操作。一般来说,内容消费者系统6可指能够输出多声道音频内容的任何形式的音频重放系统。
内容创建者系统4包含音频编码装置14,其可能够将所接收音频数据编码到位流中。音频编码装置14可从各种源接收音频数据。举例来说,音频编码装置14可获得实时音频数据10和/或预生成音频数据12。音频编码装置14可接收呈各种格式的实时音频数据10和/或预生成音频数据12。作为一个实例,音频编码装置14包含被配置成捕获一或多个音频信号的一或多个麦克风8。举例来说,音频编码装置14可从一或多个麦克风8接收作为HOA系数、音频对象或多声道音频数据的实时音频数据10。作为另一实例,音频编码装置14可接收作为HOA系数、音频对象或多声道音频数据的预生成音频数据12。
如上文所陈述,音频编码装置14可将所接收音频数据编码到例如位流20的位流中,作为一个实例,所述位流供跨越传输信道发射,所述传输信道可为有线或无线信道、数据存储装置等。在一些实例中,内容创建者系统4将经编码位流20直接发射到内容消费者系统6。在其它实例中,经编码位流也可存储到存储媒体或文件服务器上,以供稍后由内容消费者系统6存取以进行解码和/或重放。
如上文所论述,在一些实例中,所接收音频数据可包含HOA系数。然而,在一些实例中,所接收音频数据可包含呈除了HOA系数的格式的音频数据,例如多声道音频数据和/或基于对象的音频数据。在一些实例中,音频编码装置14可以单个格式转换所接收音频数据以供编码。举例来说,如上文所论述,音频编码装置14可将多声道音频数据和/或音频对象转换成HOA系数,并将所得HOA系数编码到位流20中。以此方式,音频编码装置14可使内容消费者系统能以任意扬声器配置重放音频数据。
然而,在一些实例中,将所有所接收音频数据转换成HOA系数可能并不合乎需要。举例来说,在音频编码装置14将所有所接收音频数据转换成HOA系数的情况下,所得位流与不能够处理HOA系数的内容消费者系统(即,可仅处理多声道音频数据和音频对象中的一个或两个的内容消费者系统)可能并不后向兼容。因而,音频编码装置14编码所接收音频数据,使得所得位流能使内容消费者系统以任意扬声器配置重放音频数据,同时还实现与不能够处理HOA系数的内容消费者系统的后向兼容性可能合乎需要。
根据本公开的一或多种技术,与将所接收音频数据转换成HOA系数并将所得HOA系数编码在位流中相比,音频编码装置14可在位流20中以其原始格式编码所接收音频数据,连同实现将经编码音频数据转换成HOA系数的信息。举例来说,音频编码装置14可确定实现将经编码音频数据转换成HOA系数的一或多个空间定位向量(SPV),并将一或多个SPV的表示和所接收音频数据的表示编码到位流20中。在一些实例中,音频编码装置14可确定满足上文等式(15)和(16)的一或多个空间定位向量。以此方式,音频编码装置14可输出使内容消费者系统能以任意扬声器配置重放所接收音频数据,同时还实现与不能够处理HOA系数的内容消费者系统的后向兼容性的位流。
内容消费者系统6可基于位流20生成扩音器馈送26。如图1中所示出,内容消费者系统6可包含音频解码装置22和扩音器24。音频解码装置22可能够解码位流20。作为一个实例,音频解码装置22可解码位流20,以重建构音频数据和实现将经解码音频数据转换成HOA系数的信息。作为另一实例,音频解码装置22可解码位流20以重建构音频数据,且可在本地确定实现将经解码音频数据转换成HOA系数的信息。举例来说,音频解码装置22可确定满足上文等式(15)和(16)的一或多个空间定位向量。
在任何情况下,音频解码装置22都可使用所述信息来将经解码音频数据转换成HOA系数。举例来说,音频解码装置22可使用SPV将经解码音频数据转换成HOA系数,并显现所述HOA系数。在一些实例中,音频解码装置可显现所得HOA系数,以输出可驱动扩音器24中的一个或多个的扩音器馈送26。在一些实例中,音频解码装置可将所得HOA系数输出到外部显现器(未示出),所述外部显现器可显现HOA系数以输出可驱动扩音器24中的一个或多个的扩音器馈送26。
音频编码装置14和音频解码装置22各自可被实施为多种合适的电路中的任一个,例如一或多个集成电路,包含微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当以软件部分地实施所述技术时,装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中,且可使用执行本公开的技术的一或多个处理器在例如集成电路的硬件中执行所述指令。
图2是说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的图式。如可看出,对于每一阶,存在子阶m的扩展,出于便于说明的目的,在图1的实例中示出所述子阶但未明确提到。
可通过各种麦克风阵列配置物理地获取(例如,记录)SHC或替代地,其可从声场的基于声道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可被输入到音频编码器以获得经编码SHC,所述经编码SHC可促进更高效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
为说明可如何从基于对象的描述导出SHC,考虑以下等式。用于对应于个别音频对象的声场的系数可如等式(27)中示出般表示,其中i是 是阶n的(第二种)球面汉克尔函数,且是对象的位置。
已知随频率变化的对象源能量g(ω)(例如,使用时频分析技术,例如对PCM流执行快速傅立叶变换)允许将每一PCM对象和对应位置转换成SHC此外,可示出(由于上式为线性和正交分解):每一对象的系数具相加性。以此方式,众多PCM对象可由系数来表示(例如,作为个别对象的系数向量的总和)。基本上,所述系数含有关于声场的信息(随3D坐标变化的压力),且上文表示在观察点附近从个别对象到整个声场的表示的变换。
图3是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图3中示出的音频编码装置14的实例实施方案被标记为音频编码装置14A。音频编码装置14A包含音频编码单元51、位流生成单元52A和存储器54。在其它实例中,音频编码装置14A可包含较多、较少或不同的单元。举例来说,音频编码装置14A可不包含音频编码单元51,或音频编码单元51可实施在单独装置中,所述单独装置可经由一或多个有线或无线连接连接到音频编码装置14A。
音频信号50可表示由音频编码装置14A接收的输入音频信号。在一些实例中,音频信号50可以是针对源扩音器配置的多声道音频信号。举例来说,如图3中所示出,音频信号50可包含N个音频数据声道,表示为声道C1到声道CN。作为一个实例,音频信号50可以是针对5.1的源扩音器配置的六声道音频信号(即,左前声道、中心声道、右前声道、环绕左后声道、环绕右后声道,和低频效应(LFE)声道)。作为另一实例,音频信号50可以是针对7.1的源扩音器配置的八声道音频信号(即,左前声道、中心声道、右前声道、环绕左后声道、环绕左声道、环绕右后声道,环绕右声道,和低频效应(LFE)声道)。其它实例是可能的,例如二十四声道音频信号(例如,22.2)、九声道音频信号(例如,8.1)和任何其它声道组合。
在一些实例中,音频编码装置14A可包含音频编码单元51,其可被配置成将音频信号50编码成经译码音频信号62。举例来说,音频编码单元51可量化、格式化或以其它方式压缩音频信号50以生成音频信号62。如图3的实例中所示出,音频编码单元51可将音频信号50的声道C1到CN编码成经译码音频信号62的声道C'1到C'N。在一些实例中,音频编码单元51可被称为音频编解码器。
源扩音器设置信息48可指定源扩音器设置中的扩音器数目(例如,N)和源扩音器设置中的扩音器位置。在一些实例中,源扩音器设置信息48可指示呈方位和高度形式(例如,{θi,φi}i=1,…,N)的源扩音器位置。在一些实例中,源扩音器设置信息48可指示呈预定义设置形式(例如,5.1、7.1、22.2)的源扩音器位置。在一些实例中,音频编码装置14A可基于源扩音器设置信息48,确定源显现格式D。在一些实例中,源显现格式D可表示为矩阵。
位流生成单元52A可被配置成基于一或多个输入,生成位流。在图3的实例中,位流生成单元52A可被配置成将扩音器位置信息48和音频信号50编码到位流56A中。在一些实例中,位流生成单元52A可在不进行压缩的情况下编码音频信号。举例来说,位流生成单元52A可将音频信号50编码到位流56A中。在一些实例中,位流生成单元52A可在进行压缩的情况下编码音频信号。举例来说,位流生成单元52A可将经译码音频信号62编码到位流56A中。
在一些实例中,为将扩音器位置信息48编码到位流56A中,位流生成单元52A可编码(例如,传信)源扩音器设置中的扩音器数目(例如,N),和呈方位和高度形式(例如,{θi,φi}i=1,…,N)的源扩音器设置中的扩音器位置。此外,在一些实例中,位流生成单元52A可确定并编码在将音频信号50转换成HOA声场时将使用多少HOA系数(例如,NHOA)的指示。在一些实例中,音频信号50可被划分成帧。在一些实例中,位流生成单元52A可针对每一帧传信源扩音器设置中的扩音器数目和源扩音器设置中的扩音器位置。在一些实例中,例如在当前帧的源扩音器设置与先前帧的源扩音器设置相同的情况下,位流生成单元52A可省略针对当前帧传信源扩音器设置中的扩音器数目和源扩音器设置中的扩音器位置。
在操作中,音频编码装置14A可接收为六声道多声道音频信号的音频信号50,且接收为呈5.1预定义设置形式的源扩音器位置指示的扩音器位置信息48。如上文所论述,位流生成单元52A可将扩音器位置信息48和音频信号50编码到位流56A中。举例来说,位流生成单元52A可将六声道多声道的表示(音频信号50)和经编码音频信号为5.1音频信号的指示(源扩音器位置信息48)编码到位流56A中。
如上文所论述,在一些实例中,音频编码装置14A可将经编码音频数据(即,位流56A)直接发射到音频解码装置。在其它实例中,音频编码装置14A可将经编码音频数据(即,位流56A)存储到存储媒体或文件服务器上,以供稍后由音频解码装置存取以进行解码和/或重放。在图3的实例中,存储器54可存储位流56A的至少一部分,随后由音频编码装置14A输出位流。换句话说,存储器54可存储所有位流56A或位流56A的一部分。
因此,音频编码装置14A可包含一或多个处理器,其被配置成:接收针对源扩音器配置的多声道音频信号(例如,针对扩音器位置信息48的多声道音频信号50);基于源扩音器配置,获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量与多声道音频信号的组合表示高阶立体混响(HOA)系数的集合,所述系数集合表示多声道音频信号;以及在经译码音频位流(例如,位流56A)中编码多声道音频信号的表示(例如,经译码音频信号62)和多个空间定位向量的指示(例如,扩音器位置信息48)。此外,音频编码装置14A可包含电连接到一或多个处理器,被配置成存储经译码音频位流的存储器(例如,存储器54)。
图4是说明根据本公开的一或多种技术的用于与图3中示出的音频编码装置14A的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图4中示出的音频解码装置22的实例实施方案被标记为22A。图4中的音频解码装置22的实施方案包含存储器200、多路分用单元202A、音频解码单元204、向量创建单元206、HOA生成单元208A和显现单元210。在其它实例中,音频解码装置22A可包含较多、较少或不同的单元。举例来说,显现单元210可实施在例如扩音器、头戴式耳机单元或音频基座或卫星装置的单独装置中,且可经由一或多个有线或无线连接连接到音频解码装置22A。
存储器200可获得例如位流56A的经编码音频数据。在一些实例中,存储器200可直接从音频编码装置接收经编码音频数据(即,位流56A)。在其它实例中,可存储经编码音频数据,且存储器200可从存储媒体或文件服务器获得经编码音频数据(即,位流56A)。存储器200可向音频解码装置22A的例如多路分用单元202的一或多个组件提供对位流56A的存取权。
多路分用单元202A可对位流56A进行多路分用,以获得经译码音频数据62和源扩音器设置信息48。多路分用单元202A可将所获得数据提供到音频解码装置22A的一或多个组件。举例来说,多路分用单元202A可将经译码音频数据62提供到音频解码单元204,并将源扩音器设置信息48提供到向量创建单元206。
音频解码单元204可被配置成将经译码音频信号62解码成音频信号70。举例来说,音频解码单元204可解量化、解格式化或以其它方式解压缩音频信号62以生成音频信号70。如图4的实例中所示出,音频解码单元204可将音频信号62的声道C'1到C'N解码成经解码音频信号70的声道C'1到C'N。在一些实例中,例如在使用无损译码技术译码音频信号62的情况下,音频信号70可与图3的音频信号50近似相等。在一些实例中,音频解码单元204可被称为音频编解码器。音频解码单元204可将经解码音频信号70提供到音频解码装置22A的一或多个组件,例如HOA生成单元208A。
向量创建单元206可被配置成生成一或多个空间定位向量。举例来说,如图4的实例中所示出,向量创建单元206可基于源扩音器设置信息48,生成空间定位向量72。在一些实例中,空间定位向量72可在高阶立体混响(HOA)域中。在一些实例中,为生成空间定位向量72,向量创建单元206可基于源扩音器设置信息48,确定源显现格式D。在使用所确定源显现格式D的情况下,向量创建单元206可确定满足上文等式(15)和(16)的空间定位向量72。向量创建单元206可将空间定位向量72提供到音频解码装置22A的一或多个组件,例如HOA生成单元208A。
HOA生成单元208A可被配置成基于多声道音频数据和空间定位向量,生成HOA声场。举例来说,如图4的实例中所示出,HOA生成单元208A可基于经解码音频信号70和空间定位向量72,生成HOA系数212A的集合。在一些实例中,HOA生成单元208A可根据下文等式(28)生成HOA系数212A的集合,其中H表示HOA系数212A,Ci表示经解码音频信号70,且表示空间定位向量72的转置矩阵。
HOA生成单元208A可将所生成HOA声场提供到一或多个其它组件。举例来说,如图4的实例中所示出,HOA生成单元208A可将HOA系数212A提供到显现单元210。
显现单元210可被配置成显现HOA声场以生成多个音频信号。在一些实例中,显现单元210可显现HOA声场的HOA系数212A,以生成用于在多个本地扩音器(例如图1的扩音器24)处重放的音频信号26A。在多个本地扩音器包含L个扩音器的情况下,音频信号26A可包含分别预期通过扩音器1到L重放的声道C1到CL。
显现单元210可基于本地扩音器设置信息28,生成音频信号26A,所述本地扩音器设置信息可表示多个本地扩音器的位置。在一些实例中,本地扩音器设置信息28可呈本地显现格式的形式。在一些实例中,本地显现格式可以是本地显现矩阵。在一些实例中,例如在本地扩音器设置信息28呈本地扩音器中的每一个的方位和高度形式的情况下,显现单元210可基于本地扩音器设置信息28,确定本地显现格式在一些实例中,显现单元210可根据等式(29)来基于本地扩音器设置信息28,生成音频信号26A,其中表示音频信号26A,H表示HOA系数212A,且表示本地显现格式的转置矩阵。
在一些实例中,本地显现格式可能不同于用于确定空间定位向量72的源显现格式D。作为一个实例,多个本地扩音器的位置可不同于多个源扩音器的位置。作为另一实例,多个本地扩音器中的扩音器数目可不同于多个源扩音器中的扩音器数目。作为另一实例,多个本地扩音器的位置可不同于多个源扩音器的位置,且多个本地扩音器中的扩音器数目可不同于多个源扩音器中的扩音器数目。
因此,音频解码装置22A可包含被配置成存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22A可进一步包含一或多个处理器,其电连接到存储器且被配置成:从经译码音频位流获得针对源扩音器配置的多声道音频信号的表示(例如,针对扩音器位置信息48的经译码音频信号62);获得基于源扩音器配置的,在高阶立体混响(HOA)域中的多个空间定位向量(SPV)的表示(例如,空间定位向量72);以及基于多声道音频信号和多个空间定位向量,生成HOA声场(例如,HOA系数212A)。
图5是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图5中示出的音频编码装置14的实例实施方案被标记为音频编码装置14B。音频编码装置14B包含音频编码单元51、位流生成单元52A和存储器54。在其它实例中,音频编码装置14B可包含较多、较少或不同的单元。举例来说,音频编码装置14B可不包含音频编码单元51,或音频编码单元51可实施在单独装置中,所述单独装置可经由一或多个有线或无线连接连接到音频编码装置14B。
与可编码经译码音频信号62和扩音器位置信息48而不编码空间定位向量的指示的图3的音频编码装置14A相比,音频编码装置14B包含可确定空间定位向量的向量编码单元68。在一些实例中,向量编码单元68可基于扩音器位置信息48,确定空间定位向量,且输出空间向量表示数据71A以供位流生成单元52B编码到位流56B中。
在一些实例中,向量编码单元68可将向量表示数据71A生成为码本中的索引。作为一个实例,向量编码单元68可将向量表示数据71A生成为动态创建(例如,基于扩音器位置信息48)的码本中的索引。下文参考图6到8论述将向量表示数据71A生成为动态创建的码本中的索引的向量编码单元68的一个实例的额外细节。作为另一实例,向量编码单元68可将向量表示数据71A生成为包含预定源扩音器设置的空间定位向量的码本中的索引。下文参考图9论述将向量表示数据71A生成为包含预定源扩音器设置的空间定位向量的码本中的索引的向量编码单元68的一个实例的额外细节。
位流生成单元52B可在位流56B中包含表示经译码音频信号60和空间向量表示数据71A的数据。在一些实例中,位流生成单元52B还可在位流56B中包含表示扩音器位置信息48的数据。在图5的实例中,存储器54可存储位流56B的至少一部分,随后由音频编码装置14B输出位流。
因此,音频编码装置14B可包含一或多个处理器,其被配置成:接收针对源扩音器配置的多声道音频信号(例如,针对扩音器位置信息48的多声道音频信号50);基于源扩音器配置,获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量与多声道音频信号的组合表示高阶立体混响(HOA)系数的集合,所述系数集合表示多声道音频信号;以及在经译码音频位流(例如,位流56B)中编码多声道音频信号的表示(例如,经译码音频信号62)和多个空间定位向量的指示(例如,空间向量表示数据71A)。此外,音频编码装置14B可包含电连接到一或多个处理器,被配置成存储经译码音频位流的存储器(例如,存储器54)。
图6是说明根据本公开的一或多种技术的向量编码单元68的实例实施方案的图式。在图6的实例中,向量编码单元68的实例实施方案被标记为向量编码单元68A。在图6的实例中,向量编码单元68A包括显现格式单元110、向量创建单元112、存储器114和表示单元115。此外,如图6的实例中所示出,显现格式单元110接收源扩音器设置信息48。
显现格式单元110使用源扩音器设置信息48来确定源显现格式116。源显现格式116可以是用于将HOA系数的集合显现成用于以由源扩音器设置信息48描述的方式布置的扩音器的扩音器馈送的集合的显现矩阵。显现格式单元110可以不同方式确定源显现格式116。举例来说,显现格式单元110可使用ISO/IEC 23008-3,“信息技术-异质环境中的高效译码和媒体发送-部分3:3D音频(Information technology-High efficiency coding andmedia delivery in heterogeneous environments-Part 3:3D audio)”(第一版,2015(在iso.org处可得))中所描述的技术。
在显现格式单元110使用ISO/IEC 23008-3中所描述的技术的实例中,源扩音器设置信息48包含指定源扩音器设置中的扩音器方向的信息。为便于解释,本公开可将源扩音器设置中的扩音器称为“源扩音器”。因此,源扩音器设置信息48可包含指定L个扩音器方向的数据,其中L是源扩音器的数目。指定L个扩音器方向的数据可表示为指定源扩音器方向的数据可表示为成对的球面坐标。因此,其中球面角度 指示倾斜角且指示方位角,其可以弧度表示。在此实例中,显现格式单元110可假定源扩音器具有中心定在声学最有效点处的球面布置。
在此实例中,显现格式单元110可基于HOA阶数和理想球面设计位置的集合,确定表示为的模式矩阵。图7示出理想球面设计位置的实例集合。图8是示出理想球面设计位置的另一实例集合的表格。理想球面设计位置可表示为其中S是理想球面设计位置的数目且Ωs=[θs,φs]。模式矩阵可被界定成使得其中其中ys约束实值球面谐波系数一般来说,可根据等式(30)和(31)来表示实值球面谐波系数
其中
在等式(30)和(31)中,可根据下文等式(32)来界定勒让德函数Pn,m(x),所述下文等式具有勒让德多项式Pn(x)而不具有康登-肖特莱相位项(-1)m。
图7呈现具有对应于理想球面设计位置的项的实例表格130。在图7的实例中,表格130的每一行是对应于预定义扩音器位置的项。表格130的列131以度指定扩音器的理想方位。表格130的列132以度指定扩音器的理想高度。表格130的列133和134以度指定扩音器的可接受方位角范围。表格130的列135和136以度指定扩音器的可接受仰角范围。
图8呈现具有对应于理想球面设计位置的项的另一实例表格140的一部分。尽管图8中未示出,但表格140包含900个项,每一项指定扩音器位置的不同方位角和高度θ。在图8的实例中,音频编码装置14可通过传信表格140中的项的索引来指定源扩音器设置中的扩音器位置。举例来说,音频编码装置14可通过传信索引值46来指定源扩音器设置中的扩音器处于方位角1.967778弧度和高度0.428967弧度。
返回到图6的实例,向量创建单元112可获得源显现格式116。向量创建单元112可基于源显现格式116,确定空间向量118的集合。在一些实例中,由向量创建单元112生成的空间向量的数目等于源扩音器设置中的扩音器数目。举例来说,如果源扩音器设置中存在N个扩音器,那么向量创建单元112可确定N个空间向量。对于源扩音器设置中的每一扩音器n,其中n的范围为从1到N,扩音器的空间向量可等同于Vn=[An(DDT)-1D]T。在此等式中,D是表示为矩阵的源显现格式,且An是由数目等于N的单行元素构成的矩阵(即,An是N维向量)。除了一个元素的值等于1之外,An中的每一元素都等于0。等于1的元素在An内的位置的索引等于n。因此,当n等于1时,An等于[1,0,0,…,0];当n等于2时,An等于[0,1,0,…,0];等等。
存储器114可存储码本120。存储器114可与向量编码单元68A分离,且可形成音频编码装置14的一般存储器的部分。码本120包含项的集合,所述项中的每一个将相应代码向量索引映射到空间向量118的集合中的相应空间向量。下表是实例码本。在此表格中,每一相应行对应于相应项,N指示扩音器的数目,且D表示表示为矩阵的源显现格式。
代码向量索引 | 空间向量 |
1 | V1=[[1,0,0,…,0,…,0](DDT)-1D]T |
2 | V2=[[0,1,0,…,0,…,0](DDT)-1D]T |
… | … |
N | VN=[[0,0,…,0,…,1](DDT)-1D]T |
对于源扩音器设置中的每一相应扩音器,表示单元115输出对应于相应扩音器的代码向量索引。举例来说,表示单元115可输出指示对应于第一声道的代码向量索引为2的数据,对应于第二声道的代码向量索引等于4的数据等等。具有码本120的复本的解码装置能够使用代码向量索引来确定源扩音器设置中的扩音器的空间向量。因此,代码向量索引为一种类型的空间向量表示数据。如上文所论述,位流生成单元52B可在位流56B中包含空间向量表示数据71A。
此外,在一些实例中,表示单元115可获得源扩音器设置信息48,且可在空间向量表示数据71A中包含指示源扩音器位置的数据。在其它实例中,表示单元115并不在空间向量表示数据71A中包含指示源扩音器位置的数据。确切地说,在至少一些此类实例中,源扩音器位置可被预配置在音频解码装置22处。
在表示单元115在空间向量表示数据71A中包含指示源扩音器位置的数据的实例中,表示单元115可以不同方式指示源扩音器位置。在一个实例中,源扩音器设置信息48指定环绕声格式,例如5.1格式、7.1格式或22.2格式。在此实例中,源扩音器设置中的扩音器中的每一个处在预定义位置。因此,表示单元115可在空间表示数据115中包含指示预定义环绕声格式的数据。因为处于预定义环绕声格式的扩音器处在预定义位置,所以指示预定义环绕声格式的数据可足够用于音频解码装置22生成码本匹配码本120。
在另一实例中,ISO/IEC 23008-3界定用于不同扩音器布局的多个CICP扬声器布局索引值。在此实例中,源扩音器设置信息48指定如ISO/IEC 23008-3中所指定的CICP扬声器布局索引(CICPspeakerLayoutIdx)。显现格式单元110可基于此CICP扬声器布局索引,确定源扩音器设置中的扩音器位置。因此,表示单元115可在空间向量表示数据71A中包含CICP扬声器布局索引的指示。
在另一实例中,源扩音器设置信息48指定源扩音器设置中的任意扩音器数目和源扩音器设置中的任意扩音器位置。在此实例中,显现格式单元110可基于源扩音器设置中的任意扩音器数目和源扩音器设置中的任意扩音器位置,确定源显现格式。在此实例中,可以不同方式表示源扩音器设置中的任意扩音器位置。举例来说,表示单元115可在空间向量表示数据71A中包含源扩音器设置中的扩音器的球面坐标。在另一实例中,音频编码装置20和音频解码装置24被配置成具有表格,所述表格具有对应于多个预定义扩音器位置的项。图7和图8为此类表格的实例。在此实例中,并非空间向量表示数据71A进一步指定扩音器的球面坐标,空间向量表示数据71A可实际上包含指示表格中的项的索引值的数据。相比传信球面坐标,传信索引值可能更高效。
图9是说明根据本公开的一或多种技术的向量编码单元68的实例实施方案的框图。在图9的实例中,向量编码单元68的实例实施方案被标记为向量编码单元68B。在图9的实例中,空间向量单元68B包含码本库150和选择单元154。可使用存储器来实施码本库150。码本库150包含一或多个预定义码本152A到152N(统称为“码本152”)。码本152中的每一相应码本包含一或多个项的集合。每一相应项将相应代码向量索引映射到相应空间向量。
码本152中的每一相应码本对应于不同的预定义源扩音器设置。举例来说,码本库150中的第一码本可对应于由两个扩音器构成的源扩音器设置。在此实例中,码本库150中的第二码本对应于由布置在5.1环绕声格式的标准位置处的五个扩音器构成的源扩音器设置。此外,在此实例中,码本库150中的第三码本对应于由布置在7.1环绕声格式的标准位置处的七个扩音器构成的源扩音器设置。在此实例中,码本库100中的第四码本对应于由布置在22.2环绕声格式的标准位置处的22个扩音器构成的源扩音器设置。其它实例可包含较多、较少或不同于先前实例中所提到的那些码本的码本。
在图9的实例中,选择单元154接收源扩音器设置信息48。在一个实例中,源扩音器信息48可由识别预定义环绕声格式(例如5.1、7.1、22.2和其它)的信息构成或包括所述信息。在另一实例中,源扩音器信息48由识别另一类型的预定义扩音器数目和布置的信息构成或包括所述信息。
选择单元154基于源扩音器设置信息,识别哪个码本152适用于由音频解码装置24接收的音频信号。在图9的实例中,选择单元154输出指示哪个音频信号50对应于所识别码本中的哪些项的空间向量表示数据71A。举例来说,选择单元154可针对音频信号50中的每一个输出代码向量索引。
在一些实例中,向量编码单元68利用图6的预定义码本方法和图9的动态码本方法的混合型。举例来说,如本公开在别处所描述,在使用基于声道的音频的情况下,每一相应声道对应于源扩音器设置的相应扩音器,且向量编码单元68确定源扩音器设置的每一相应扩音器的相应空间向量。在此类实例中的一些中,例如在使用基于声道的音频的情况下,向量编码单元68可使用一或多个预定义码本来确定源扩音器设置的特定扩音器的空间向量。向量编码单元68可基于源扩音器设置,确定源显现格式,并使用源显现格式来确定源扩音器设置的其它扩音器的空间向量。
图10是说明根据本公开的一或多种技术的音频解码装置22的实例实施方案的框图。图5中示出的音频解码装置22的实例实施方案被标记为音频解码装置22B。图10中的音频解码装置22的实施方案包含存储器200、多路分用单元202B、音频解码单元204、向量解码单元207、HOA生成单元208A和显现单元210。在其它实例中,音频解码装置22B可包含较多、较少或不同的单元。举例来说,显现单元210可实施在例如扩音器、头戴式耳机单元或音频基座或卫星装置的单独装置中,且可经由一或多个有线或无线连接连接到音频解码装置22B。
与可基于扩音器位置信息48而不接收空间定位向量的指示,生成空间定位向量72的图4的音频解码装置22A相比,音频解码装置22B包含可基于所接收空间向量表示数据71A,确定空间定位向量72的向量解码单元207。
在一些实例中,向量解码单元207可基于由空间向量表示数据71A表示的码本索引,确定空间定位向量72。作为一个实例,向量解码单元207可根据动态建立(例如,基于扩音器位置信息48)的码本中的索引,确定空间定位向量72。下文参考图11论述根据动态建立的码本中的索引,确定空间定位向量的向量解码单元207的一个实例的额外细节。作为另一实例,向量解码单元207可根据包含预定源扩音器设置的空间定位向量的码本中的索引,确定空间定位向量72。下文参考图12论述根据包含预定源扩音器设置的空间定位向量的码本中的索引,确定空间定位向量的向量解码单元207的一个实例的额外细节。
在任何情况下,向量解码单元207可将空间定位向量72提供到音频解码装置22B的一或多个其它组件,例如HOA生成单元208A。
因此,音频解码装置22B可包含被配置成存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22B可进一步包含一或多个处理器,其电连接到存储器且被配置成:从经译码音频位流获得针对源扩音器配置的多声道音频信号的表示(例如,针对扩音器位置信息48的经译码音频信号62);获得基于源扩音器配置的,在高阶立体混响(HOA)域中的多个空间定位向量(SPV)的表示(例如,空间定位向量72);以及基于多声道音频信号和多个空间定位向量,生成HOA声场(例如,HOA系数212A)。
图11是说明根据本公开的一或多种技术的向量解码单元207的实例实施方案的框图。在图11的实例中,向量解码单元207的实例实施方案被标记为向量解码单元207A。在图11的实例中,向量解码单元207包含显现格式单元250、向量创建单元252、存储器254和重建构单元256。在其它实例中,向量解码单元207可包含较多、较少或不同的组件。
显现格式单元250可以类似于图6的显现格式单元110的方式操作。如同显现格式单元110,显现格式单元250可接收源扩音器设置信息48。在一些实例中,源扩音器设置信息48是从位流获得。在其它实例中,源扩音器设置信息48是预配置在音频解码装置22处。此外,类似显现格式单元110,显现格式单元250可生成源显现格式258。源显现格式258可匹配由显现格式单元110生成的源显现格式116。
向量创建单元252可以类似于图6的向量创建单元112的方式操作。向量创建单元252可使用源显现格式258来确定空间向量260的集合。空间向量260可匹配由向量生成单元112生成的空间向量118。存储器254可存储码本262。存储器254可与向量解码206分离,且可形成音频解码装置22的一般存储器的部分。码本262包含项的集合,所述项中的每一个将相应代码向量索引映射到空间向量260的集合中的相应空间向量。码本262可匹配图6的码本120。
重建构单元256可输出识别为对应于源扩音器设置的特定扩音器的空间向量。举例来说,重建构单元256可输出空间向量72。
图12是说明根据本公开的一或多种技术的向量解码单元207的替代实施方案的框图。在图12的实例中,向量解码单元207的实例实施方案被标记为向量解码单元207B。向量解码单元207包含码本库300和重建构单元304。可使用存储器来实施码本库300。码本库300包含一或多个预定义码本302A到302N(统称为“码本302”)。码本302中的每一相应码本包含一或多个项的集合。每一相应项将相应代码向量索引映射到相应空间向量。码本库300可匹配图9的码本库150。
在图12的实例中,重建构单元304获得源扩音器设置信息48。以类似于图9的选择单元154的方式,重建构单元304可使用源扩音器设置信息48来识别码本库300中的可适用码本。重建构单元304可输出指定用于源扩音器设置信息的扩音器的可适用码本的空间向量。
图13是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图,其中所述音频编码装置14被配置成编码基于对象的音频数据。图13中示出的音频编码装置14的实例实施方案被标记为14C。在图13的实例中,音频编码装置14C包含向量编码单元68C、位流生成单元52C和存储器54。
在图13的实例中,向量编码单元68C获得源扩音器设置信息48。另外,向量编码单元58C获得音频对象位置信息350。音频对象位置信息350指定音频对象的虚拟位置。向量编码单元68B使用源扩音器设置信息48和音频对象位置信息350来确定音频对象的空间向量表示数据71B。下文详细描述的图14描述向量编码单元68C的实例实施方案。
位流生成单元52C获得音频对象的音频信号50B。位流生成单元52C可在位流56C中包含表示音频信号50C和空间向量表示数据71B的数据。在一些实例中,位流生成单元52C可使用已知音频压缩格式(例如MP3、AAC、Vorbis、FLAC和Opus)来编码音频信号50B。在一些情况下,位流生成单元52C可将音频信号50B从一种压缩格式转码成另一压缩格式。在一些实例中,音频编码装置14C可包含例如图3和5的音频编码单元51的音频编码单元,以压缩和/或转码音频信号50B。在图13的实例中,存储器54存储位流56C的至少部分,随后由音频编码装置14C输出位流。
因此,音频编码装置14C包含存储器,其被配置成存储音频对象在时间间隔内的音频信号(例如,音频信号50B)和指示音频对象的虚拟源位置的数据(例如,音频对象位置信息350)。此外,音频编码装置14C包含电连接到存储器的一或多个处理器。一或多个处理器被配置成基于指示音频对象的虚拟源位置的数据和指示多个扩音器位置的数据(例如,源扩音器设置信息48),确定音频对象在HOA域中的空间向量。此外,在一些实例中,音频编码装置14C可在位流中包含表示音频信号的数据和表示空间向量的数据。在一些实例中,表示音频信号的数据并非数据在HOA域中的表示。此外,在一些实例中,描述含有时间间隔期间的音频信号的声场的HOA系数的集合等同于音频信号乘以空间向量的转置矩阵。
另外,在一些实例中,空间向量表示数据71B可包含指示源扩音器设置中的扩音器位置的数据。位流生成单元52C可在位流56C中包含表示源扩音器设置的扩音器位置的数据。在其它实例中,位流生成单元52C并不在位流56C中包含指示源扩音器设置的扩音器位置的数据。
图14是说明根据本公开的一或多种技术的用于基于对象的音频数据的向量编码单元68C的实例实施方案的框图。在图14的实例中,向量编码单元68C包含显现格式单元400、中间向量单元402、向量最终单元404、增益确定单元406和量化单元408。
在图14的实例中,显现格式单元400获得源扩音器设置信息48。显现格式单元400基于源扩音器设置信息48,确定源显现格式410。显现格式单元400可根据本公开中在别处提供的实例中的一个或多个,确定源显现格式410。
在图14的实例中,中间向量单元402基于源显现格式410,确定中间空间向量412的集合。中间空间向量412的集合中的每一相应中间空间向量对应于源扩音器设置的相应扩音器。举例来说,如果源扩音器设置中存在N个扩音器,那么中间向量单元402确定N个中间空间向量。对于源扩音器设置中的每一扩音器n,其中n的范围为从1到N,扩音器的中间空间向量可等同于Vn=[An(DDT)-1D]T。在此等式中,D是表示为矩阵的源显现格式,且An是由数目等于N的单行元素构成的矩阵。除了一个元素的值等于1之外,An中的每一元素都等于0。等于1的元素在An内的位置的索引等于n。
此外,在图14的实例中,增益确定单元406获得源扩音器设置信息48和音频对象位置数据49。音频对象位置数据49指定音频对象的虚拟位置。举例来说,音频对象位置数据49可指定音频对象的球面坐标。在图14的实例中,增益确定单元406确定增益因数416的集合。增益因数416的集合中的每一相应增益因数对应于源扩音器设置的相应扩音器。增益确定单元406可使用向量基振幅平移(VBAP)来确定增益因数416。VBAP可用于放置具有任意扩音器设置的虚拟音频源,其中假定扩音器距收听位置相同距离。普尔基的“使用向量基振幅平移的虚拟声音源定位(Virtual Sound Source Positioning Using Vector BaseAmplitude Panning)”(音频工程师协会期刊,第45卷,第6期,1997年6月)提供对VBAP的描述。
图15是说明VBAP的概念图。在VBAP中,应用到三个扬声器输出的音频信号的增益因数会使收听者感到音频信号是来自定位于三个扩音器之间的有效三角形452内的虚拟源位置450。举例来说,在图15的实例中,相比扩音器454B,虚拟源位置180更接近扩音器454A。因此,用于扩音器454A的增益因数可大于用于扩音器454B的增益因数。在较大扩音器数目或两个扩音器的情况下,其它实例是可能的。
VBAP使用几何方法来计算增益因数416。在例如图15的实例中,在三个扩音器用于每一音频对象的情况下,将三个扩音器布置成三角形以形成向量基。通过扩音器编号k、m、n和标准化为单位长度的以笛卡尔坐标给出的扩音器位置向量Ik、Im和In来识别每一向量基。可通过下式界定扩音器k、m和n的向量基:
Ik,m,n=(Ik,Im,In) (33)
音频对象的所要方向可被给定为方位角和仰角θ。虚拟源以笛卡尔坐标的单位长度位置向量p(Ω)因此通过下式界定:
可通过下式用向量基和增益因数来表示虚拟源位置
通过倒置向量基矩阵,可通过下式计算所需增益因数:
根据等式(36)确定待使用的向量基。首先,针对所有向量基,根据等式(36)计算增益。随后,对于每一向量基,通过评估增益因数中的最小值。使用具有最高值的向量基。一般来说,增益因数不允许为负。取决于收听室声学,可标准化增益因数以实现能量保存。
在图14的实例中,向量最终单元404获得增益因数416。向量最终单元404基于中间空间向量412和增益因数416,生成音频对象的空间向量418。在一些实例中,向量最终单元404使用下式确定空间向量:
在上文等式中,V是空间向量,N是源扩音器设置中的扩音器数目,gi是用于扩音器i的增益因数,且Ii是扩音器i的中间空间向量。在增益确定单元406在三个扩音器的情况下使用VBAP的一些实例中,增益因数gi中的仅三个为非零。
因此,在向量最终单元404使用等式(37)确定空间向量418的实例中,空间向量418等同于多个运算数的总和。多个运算数中的每一相应运算数对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含相应扩音器位置的扩音器位置向量。此外,对于多个扩音器位置中的每一相应扩音器位置,对应于相应扩音器位置的运算数等同于相应扩音器位置的增益因数乘以相应扩音器位置的扩音器位置向量。在此实例中,相应扩音器位置的增益因数指示用于相应扩音器位置处的音频信号的相应增益。
因此,在此实例中,空间向量418等同于多个运算数的总和。多个运算数中的每一相应运算数对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含相应扩音器位置的扩音器位置向量。此外,对应于相应扩音器位置的运算数等同于相应扩音器位置的增益因数乘以相应扩音器位置的扩音器位置向量。在此实例中,相应扩音器位置的增益因数指示用于相应扩音器位置处的音频信号的相应增益。
量化单元408量化音频对象的空间向量。举例来说,量化单元408可根据本公开中在别处描述的向量量化技术,量化空间向量。举例来说,量化单元408可使用标量量化、标量量化与霍夫曼译码或关于图17描述的向量量化技术来量化空间向量418。因此,包含在位流70C中的表示空间向量的数据是经量化空间向量。
如上文所论述,空间向量418可等于或等同于多个运算数的总和。出于本公开的目的,第一元素在以下条件中的任一个为真的情况下可被认为等同于第二元素:(1)第一元素的值在数学上等于第二元素的值,(2)第一元素的值在四舍五入时(例如,由于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)与第二元素的值在四舍五入时(例如,由于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)相同,或(3)第一元素的值相同于第二元素的值。
图16是说明根据本公开的一或多种技术的音频解码装置22的实例实施方案的框图,其中所述音频解码装置22被配置成解码基于对象的音频数据。图16中示出的音频解码装置22的实例实施方案被标记为22C。在图16的实例中,音频解码装置22C包含存储器200、多路分用单元202C、音频解码单元66、向量解码单元209、HOA生成单元208B和显现单元210。一般来说,存储器200、多路分用单元202C、音频解码单元66、HOA生成单元208B和显现单元210可以类似于关于图10的实例的存储器200、多路分用单元202B、音频解码单元204、HOA生成单元208A和显现单元210所描述的方式操作。在其它实例中,关于图14所描述的音频解码装置22的实施方案可包含较多、较少或不同的单元。举例来说,显现单元210可实施在单独装置中,例如扩音器、头戴式耳机单元或音频基座或卫星装置。
在图16的实例中,音频解码装置22C获得位流56C。位流56C可包含音频对象的基于对象的经编码音频信号和表示音频对象的空间向量的数据。在图16的实例中,基于对象的音频信号并非基于HOA域中的数据,并非从所述数据导出或并非表示所述数据。然而,音频对象的空间向量处在HOA域中。在图16的实例中,存储器200被配置成存储位流56C的至少部分,且因此被配置成存储表示音频对象的音频信号的数据和表示音频对象的空间向量的数据。
多路分用单元202C可从位流56C获得空间向量表示数据71B。空间向量表示数据71B包含表示每一音频对象的空间向量的数据。因此,多路分用单元202C可从位流56C获得表示音频对象的音频信号的数据,且可从位流56C获得表示音频对象的空间向量的数据。在例如表示空间向量的数据被量化的实例中,向量解码单元209可反量化空间向量以确定音频对象的空间向量72。
HOA生成单元208B接着可以关于图10所描述的方式使用空间向量72。举例来说,HOA生成单元208B可基于空间向量72和音频信号70,生成HOA声场,例如HOA系数212B。
因此,音频解码装置22B包含被配置成存储位流的存储器58。另外,音频解码装置22B包含电连接到存储器的一或多个处理器。一或多个处理器被配置成基于位流中的数据,确定音频对象的音频信号,所述音频信号对应于时间间隔。此外,一或多个处理器被配置成基于位流中的数据,确定音频对象的空间向量。在此实例中,空间向量被界定在HOA域中。此外,在一些实例中,一或多个处理器将音频对象的音频信号和空间向量转换成描述时间间隔期间的声场的HOA系数212B的集合。如本公开中在别处所描述,HOA生成单元208B可确定HOA系数的集合,使得HOA系数的集合等同于音频信号乘以空间向量的转置矩阵。
在图16的实例中,显现单元210可以类似于图10的显现单元210的方式操作。举例来说,显现单元210可通过将显现格式(例如,本地显现矩阵)应用到HOA系数212B,生成多个音频信号26。多个音频信号26中的每一相应音频信号可对应于多个扩音器中的相应扩音器,例如图1的扩音器24。
在一些实例中,显现单元210B可基于指示本地扩音器设置的位置的信息28,调适本地显现格式。显现单元210B可以下文关于图19描述的方式调适本地显现格式。
图17是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图,所述音频编码装置14被配置成量化空间向量。图17中示出的音频编码装置14的实例实施方案被标记为14D。在图17的实例中,音频编码装置14D包含向量编码单元68D、量化单元500、位流生成单元52D和存储器54。
在图17的实例中,向量编码单元68D可以类似于上文关于图5和/或图13所描述的方式操作。举例来说,如果音频编码装置14D正编码基于声道的音频,那么向量编码单元68D可获得源扩音器设置信息48。向量编码单元68可基于由源扩音器设置信息48指定的扩音器位置,确定空间向量的集合。如果音频编码装置14D正编码基于对象的音频,那么除了源扩音器设置信息48之外,向量编码单元68D可获得音频对象位置信息350。音频对象位置信息49可指定音频对象的虚拟源位置。在此实例中,空间向量单元68D可以相同于图13的实例中示出的向量编码单元68C确定音频对象的空间向量的方式确定音频对象的空间向量。在一些实例中,空间向量单元68D被配置成确定基于声道的音频和基于对象的音频两者的空间向量。在其它实例中,向量编码单元68D被配置成仅确定基于声道的音频或基于对象的音频中的一个的空间向量。
音频编码装置14D的量化单元500量化由向量编码单元68C所确定的空间向量。量化单元500可使用各种量化技术来量化空间向量。量化单元500可被配置成仅执行单种量化技术或可被配置成执行多种量化技术。在量化单元500被配置成执行多种量化技术的实例中,量化单元500可接收指示使用哪种量化技术的数据或可在内部确定应用哪种量化技术。
在一种实例量化技术中,可由向量编码单元68D针对声道或对象i生成的空间向量被表示为Vi。在此实例中,量化单元500可计算中间空间向量使得等同于Vi/||Vi||,其中||Vi||可以是量化步长大小。此外,在此实例中,量化单元500可量化中间空间向量中间空间向量的经量化版本可被表示为另外,量化单元500可量化||Vi||。||Vi||的经量化版本可被表示为量化单元500可输出和以用于包含在位流56D中。因此,量化单元500可输出音频信号50D的经量化向量数据的集合。音频信号50C的经量化向量数据的集合可包含和
量化单元500可以不同方式量化中间空间向量在一个实例中,量化单元500可将标量量化(SQ)应用到中间空间向量在另一实例量化技术中,量化单元200可将标量量化与霍夫曼译码应用到中间空间向量在另一实例量化技术中,量化单元200可将向量量化应用到中间空间向量在量化单元200应用标量量化技术、标量量化加霍夫曼译码技术或向量量化技术的实例中,音频解码装置22可反量化经量化空间向量。
在概念上,在标量量化中,将数线划分成多个带,每一带对应于不同标量值。当量化单元500将标量量化应用到中间空间向量时,量化单元500用对应于含有相应元素指定的值的带的标量值替换中间空间向量的每一相应元素。为便于解释,本公开可将对应于含有空间向量的元素指定的值的带的标量值称为“经量化值”。在此实例中,量化单元500可输出包含经量化值的经量化空间向量
标量量化加霍夫曼译码技术可类似于标量量化技术。然而,量化单元500另外确定用于经量化值中的每一个的霍夫曼码。量化单元500用对应霍夫曼码替换空间向量的经量化值。因此,经量化空间向量的每一元素指定霍夫曼码。霍夫曼译码允许元素中的每一个被表示为可变长度值而非固定长度值,这可增强数据压缩。音频解码装置22D可通过确定对应于霍夫曼码的经量化值,并将经量化值复原到其原始位深度,确定空间向量的经反量化版本。
在量化单元500将向量量化应用到中间空间向量的至少一些实例中,量化单元500可将中间空间向量变换成较低维度的离散子空间中的值集合。为便于解释,本公开可将较低维度的离散子空间的维度称为“减小维度集”,并将空间向量的原始维度称为“全维度集”。举例来说,全维度集可由二十二个维度构成,而减小维度集可由八个维度构成。因此,在此实例中,量化单元500将中间空间向量从二十二个值的集合变换成八个值的集合。此变换可呈从空间向量的更高维度空间投影到较低维度的子空间的形式。
在量化单元500应用向量量化的至少一些实例中,量化单元500配置有包含项集合的码本。码本可是预定义或动态确定的。码本可是基于空间向量的统计分析。码本中的每一项指示较低维度子空间中的点。在将空间向量从全维度集变换到减小维度集之后,量化单元500可确定对应于经变换空间向量的码本项。在码本中的码本项当中,对应于经变换空间向量的码本项指定最接近于经变换空间向量所指定的点的点。在一个实例中,量化单元500输出由所识别码本项指定为经量化空间向量的向量。在另一实例中,量化单元200输出呈代码向量索引形式的经量化空间向量,所述索引指定对应于经变换空间向量的码本项的索引。举例来说,如果对应于经变换空间向量的码本项是码本中的第8项,那么代码向量索引可等于8。在此实例中,音频解码装置22可通过查找码本中的对应项来反量化代码向量索引。音频解码装置22D可通过假定空间向量的在全维度集但不在减小维度集中的分量等于零,确定空间向量的经反量化版本。
在图17的实例中,音频编码装置14D的位流生成单元52D从量化单元200获得经量化空间向量204,获得音频信号50C并输出位流56D。在音频编码装置14D正编码基于声道的音频的实例中,位流生成单元52D可获得音频信号和每一相应声道的经量化空间向量。在音频编码装置14正编码基于对象的音频的实例中,位流生成单元52D可获得音频信号和每一相应音频对象的经量化空间向量。在一些实例中,位流生成单元52D可编码音频信号50C以实现较大数据压缩。举例来说,位流生成单元52D可使用已知音频压缩格式(例如MP3、AAC、Vorbis、FLAC和Opus)编码音频信号50C中的每一个。在一些情况下,位流生成单元52C可将音频信号50C从一种压缩格式转码成另一压缩格式。位流生成单元52D可在位流56C中包含经量化空间向量和经编码音频信号伴有的元数据。
因此,音频编码装置14D可包含一或多个处理器,其被配置成:接收针对源扩音器配置的多声道音频信号(例如,针对扩音器位置信息48的多声道音频信号50);基于源扩音器配置,获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量与多声道音频信号的组合表示高阶立体混响(HOA)系数的集合,所述系数集合表示多声道音频信号;以及在经译码音频位流(例如,位流56D)中编码多声道音频信号的表示(例如,音频信号50C)和多个空间定位向量的指示(例如,经量化向量数据554)。此外,音频编码装置14A可包含电连接到一或多个处理器,被配置成存储经译码音频位流的存储器(例如,存储器54)。
图18是说明根据本公开的一或多种技术的用于与图17中示出的音频编码装置14的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图18中示出的音频解码装置22的实施方案被标记为音频解码装置22D。类似于关于图10所描述的音频解码装置22的实施方案,图18中的音频解码装置22的实施方案包含存储器200、多路分用单元202D、音频解码单元204、HOA生成单元208C和显现单元210。
与关于图10所描述的音频解码装置22的实施方案相比,关于图18所描述的音频解码装置22的实施方案可包含反量化单元550而非向量解码单元207。在其它实例中,音频解码装置22D可包含较多、较少或不同的单元。举例来说,显现单元210可实施在单独装置中,例如扩音器、头戴式耳机单元或音频基座或卫星装置。
存储器200、多路分用单元202D、音频解码单元204、HOA生成单元208C和显现单元210可以与如本公开中在别处关于图10的实例所描述的相同方式操作。然而,多路分用单元202D可从位流56D获得经量化向量数据554的集合。经量化向量数据的每一相应集合对应于音频信号70中的相应一个。在图18的实例中,经量化向量数据554的集合被表示为V'1到V'N。反量化单元550可使用经量化向量数据554的集合来确定经反量化空间向量72。反量化单元550可将经反量化空间向量72提供到音频解码装置22D的一或多个组件,例如HOA生成单元208C。
反量化单元550可以不同方式使用经量化向量数据554的集合来确定经反量化向量。在一个实例中,经量化向量数据的每一集合包含用于音频信号的经量化空间向量和经量化量化步长大小在此实例中,反量化单元550可基于经量化空间向量和经量化量化步长大小确定经反量化空间向量举例来说,反量化单元550可确定经反量化空间向量使得基于经反量化空间向量和音频信号HOA生成单元208C可将HOA域表示确定为如本公开中在别处所描述,显现单元210可获得本地显现格式另外,扩音器馈送80可被表示为显现单元210C可将扩音器馈送26生成为
因此,音频解码装置22D可包含被配置成存储经译码音频位流(例如,位流56D)的存储器(例如,存储器200)。音频解码装置22D可进一步包含一或多个处理器,其电连接到存储器且被配置成:从经译码音频位流获得针对源扩音器配置的多声道音频信号的表示(例如,针对扩音器位置信息48的经译码音频信号62);获得基于源扩音器配置的,在高阶立体混响(HOA)域中的多个空间定位向量(SPV)的表示(例如,空间定位向量72);以及基于多声道音频信号和多个空间定位向量,生成HOA声场(例如,HOA系数212C)。
图19是说明根据本公开的一或多种技术的显现单元210的实例实施方案的框图。如图19中所说明,显现单元210可包含收听者位置单元610、扩音器位置单元612、显现格式单元614、存储器615和扩音器馈送生成单元616。
收听者位置单元610可被配置成确定多个扩音器(例如图1的扩音器24)的收听者的位置。在一些实例中,收听者位置单元610可周期性地(例如,每1秒、5秒、10秒、30秒、1分钟、5分钟、10分钟等)确定收听者的位置。在一些实例中,收听者位置单元610可基于由收听者定位的装置生成的信号,确定收听者的位置。可由收听者位置单元610使用以确定收听者位置的装置的一些实例包含(但不限于)移动计算装置、视频游戏控制器、远程控制或任何其它可指示收听者位置的装置。在一些实例中,收听者位置单元610可基于一或多个传感器,确定收听者的位置。可由收听者位置单元610使用以确定收听者位置的传感器的一些实例包含(但不限于)相机、麦克风、压力传感器(例如,嵌入于或附接到家具、车辆座位)、座位安全带传感器或任何其它可指示收听者位置的传感器。收听者位置单元610可将收听者位置的指示618提供到显现单元210的一或多个其它组件,例如显现格式单元614。
扩音器位置单元612可被配置成获得多个本地扩音器(例如图1的扩音器24)的位置的表示。在一些实例中,扩音器位置单元612可基于本地扩音器设置信息28,确定多个本地扩音器的位置的表示。扩音器位置单元612可从广泛多种源获得本地扩音器设置信息28。作为一个实例,用户/收听者可经由音频解码单元22的用户接口手动地键入本地扩音器设置信息28。作为另一实例,扩音器位置单元612可致使多个本地扩音器发射各种音调,并利用麦克风来基于音调确定本地扩音器设置信息28。作为另一实例,扩音器位置单元612可从一或多个相机接收图像,并执行图像辨识来基于图像确定本地扩音器设置信息28。扩音器位置单元612可将多个本地扩音器的位置的表示620提供到显现单元210的一或多个其它组件,例如显现格式单元614。作为另一实例,可将本地扩音器设置信息28预编程(例如,在工厂)到音频解码单元22。举例来说,在扩音器24集成到车辆中的情况下,可由车辆的制造商和/或扩音器24的安装工将本地扩音器设置信息28预编程到音频解码单元22。
显现格式单元614可被配置成基于多个本地扩音器的位置的表示(例如,本地再现布局)和多个本地扩音器的收听者的位置,生成本地显现格式622。在一些实例中,显现格式单元614可生成本地显现格式622,使得当HOA系数212被显现成扩音器馈送且通过多个本地扩音器进行重放时,声学“最有效点”位于收听者的位置处或附近。在一些实例中,为生成本地显现格式622,显现格式单元614可生成本地显现矩阵显现格式单元614可将本地显现格式622提供到显现单元210的一或多个其它组件,例如扩音器馈送生成单元616和/或存储器615。
存储器615可被配置成存储本地显现格式,例如本地显现格式622。在本地显现格式622包括本地显现矩阵的情况下,存储器615可被配置成存储本地显现矩阵
扩音器馈送生成单元616可被配置成将HOA系数显现成各自对应于多个本地扩音器中的相应本地扩音器的多个输出音频信号。在图19的实例中,扩音器馈送生成单元616可基于本地显现格式622显现HOA系数,使得当通过多个本地扩音器重放所得扩音器馈送26时,声学“最有效点”位于如由收听者位置单元610所确定的收听者位置处或附近。在一些实例中,扩音器馈送生成单元616可根据等式(35)生成扩音器馈送26,其中表示扩音器馈送26,H是HOA系数212,且是本地显现矩阵的转置矩阵。
图20说明根据本公开的一或多种技术的汽车扬声器重放环境。如图20中所说明,在一些实例中,音频解码装置22可包含在例如汽车2000的车辆中。在一些实例中,车辆2000可包含一或多个乘客传感器。可包含在车辆2000中的乘客传感器的实例包含(但未必限于)集成到车辆2000的座位中的座位安全带传感器和压力传感器。
图21是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。图21的技术可由音频编码装置的一或多个处理器执行,例如图1、3、5、13和17的音频编码装置14,但具有除了音频编码装置14的配置的音频编码装置可执行图21的技术。
根据本公开的一或多种技术,音频编码装置14可接收针对源扩音器配置的多声道音频信号(2102)。举例来说,音频编码装置14可接收呈5.1环绕声格式(即,针对源扩音器配置5.1)的六声道音频数据。如上文所论述,由音频编码装置14接收的多声道音频信号可包含图1的实时音频数据10和/或预生成音频数据12。
音频编码装置14可基于源扩音器配置,获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量可与多声道音频信号组合以生成表示多声道音频信号的HOA声场(2104)。在一些实例中,多个空间定位向量可与多声道音频信号组合,以根据上文等式(20)生成表示多声道音频信号的HOA声场。
音频编码装置14可在经译码音频位流中编码多声道音频信号的表示和多个空间定位向量的指示(2016)。作为一个实例,音频编码装置14A的位流生成单元52A可将经译码音频数据62的表示和扩音器位置信息48的表示编码到位流56A中。作为另一实例,音频编码装置14B的位流生成单元52B可将经译码音频数据62的表示和空间向量表示数据71A编码到位流56B中。作为另一实例,音频编码装置14D的位流生成单元52D可将音频信号50C的表示和经量化向量数据554的表示编码到位流56D中。
图22是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图22的技术可由音频解码装置的一或多个处理器执行,例如图1、4、10、16和18的音频解码装置22,但具有除了音频编码装置14的配置的音频编码装置可执行图22的技术。
根据本公开的一或多种技术,音频解码装置22可获得经译码音频位流(2202)。作为一个实例,音频解码装置22可经由传输信道获得位流,所述传输信道可以是有线或无线信道、数据存储装置等。作为另一实例,音频解码装置22可从存储媒体或文件服务器获得位流。
音频解码装置22可从经译码音频位流获得针对源扩音器配置的多声道音频信号的表示(2204)。举例来说,音频解码单元204可从位流获得呈5.1环绕声格式(即,针对源扩音器配置5.1)的六声道音频数据。
音频解码装置22可获得基于源扩音器配置的,在高阶立体混响(HOA)域中的多个空间定位向量的表示(2206)。作为一个实例,音频解码装置22A的向量创建单元206可基于源扩音器设置信息48,生成空间定位向量72。作为另一实例,音频解码装置22B的向量解码单元207可从空间向量表示数据71A解码基于源扩音器设置信息48的空间定位向量72。作为另一实例,音频解码装置22D的反量化单元550可反量化经量化向量数据554,以生成基于源扩音器设置信息48的空间定位向量72。
音频解码装置22可基于多声道音频信号和多个空间定位向量,生成HOA声场(2208)。举例来说,HOA生成单元208A可根据上文等式(20)来基于多声道音频信号70和空间定位向量72,生成HOA系数212A。
音频解码装置22可显现HOA声场以生成多个音频信号(2210)。举例来说,显现单元210(其可包含或可不包含在音频解码装置22中)可基于本地显现配置(例如,本地显现格式)显现HOA系数的集合,以生成多个音频信号。在一些实例中,显现单元210可根据上文等式(21)显现HOA系数的集合。
图23是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。图23的技术可由音频编码装置的一或多个处理器执行,例如图1、3、5、13和17的音频编码装置14,但具有除了音频编码装置14的配置的音频编码装置可执行图23的技术。
根据本公开的一或多种技术,音频编码装置14可接收音频对象的音频信号和指示音频对象的虚拟源位置的数据(2230)。另外,音频编码装置14可基于指示音频对象的虚拟源位置的数据和指示多个扩音器位置的数据,确定音频对象在HOA域中的空间向量(2232)。
图24是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图24的技术可由音频解码装置的一或多个处理器执行,例如图1、4、10、16和18的音频解码装置22,但具有除了音频编码装置14的配置的音频编码装置可执行图24的技术。
根据本公开的一或多种技术,音频解码装置22可从经译码音频位流获得音频对象的音频信号的基于对象的表示(2250)。在此实例中,音频信号对应于时间间隔。另外,音频解码装置22可从经译码音频位流获得音频对象的空间向量的表示(2252)。在此实例中,空间向量是在HOA域中界定且是基于多个扩音器位置。HOA生成单元208B(或音频解码装置22的另一单元)可将音频对象的音频信号和空间向量转换成描述时间间隔期间的声场的HOA系数的集合(2254)。
图25是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。图25的技术可由音频编码装置的一或多个处理器执行,例如图1、3、5、13和17的音频编码装置14,但具有除了音频编码装置14的配置的音频编码装置可执行图25的技术。
根据本公开的一或多种技术,音频编码装置14可在经译码音频位流中包含时间间隔内的一或多个音频信号的集合的基于对象或基于声道的表示(2300)。此外,音频编码装置14可基于扩音器位置的集合,确定HOA域中的一或多个空间向量的集合(2302)。在此实例中,空间向量的集合中的每一相应空间向量对应于音频信号的集合中的相应音频信号。此外,在此实例中,音频编码装置14可生成表示空间向量的经量化版本的数据(2304)。另外,在此实例中,音频编码装置14可在经译码音频位流中包含表示空间向量的经量化版本的数据(2306)。
图26是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图26的技术可由音频解码装置的一或多个处理器执行,例如图1、4、10、16和18的音频解码装置22,但具有除了音频解码装置22的配置的音频解码装置可执行图26的技术。
根据本公开的一或多种技术,音频解码装置22可从经译码音频位流获得时间间隔内的一或多个音频信号的集合的基于对象或基于声道的表示(2400)。另外,音频解码装置22可从经译码音频位流获得表示一或多个空间向量的集合的经量化版本的数据(2402)。在此实例中,空间向量的集合中的每一相应空间向量对应于音频信号的集合中的相应音频信号。此外,在此实例中,空间向量中的每一个处在HOA域中且是基于扩音器位置的集合计算出。
图27是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图27的技术可由音频解码装置的一或多个处理器执行,例如图1、4、10、16和18的音频解码装置22,但具有除了音频解码装置22的配置的音频解码装置可执行图27的技术。
根据本公开的一或多种技术,音频解码装置22可获得高阶立体混响(HOA)声场(2702)。举例来说,音频解码装置22的HOA生成单元(例如,HOA生成单元208A/208B/208C)可将HOA系数(例如,HOA系数212A/212B/212C)的集合提供到音频解码装置22的显现单元210。
音频解码装置22可获得多个本地扩音器的位置的表示(2704)。举例来说,音频解码装置22的显现单元210的扩音器位置单元612可基于本地扩音器设置信息(例如,本地扩音器设置信息28),确定多个本地扩音器的位置的表示。如上文所论述,扩音器位置单元612可从广泛多种源获得本地扩音器设置信息28。
音频解码装置22可周期性地确定收听者的位置(2706)。举例来说,在一些实例中,音频解码装置22的显现单元210的收听者位置单元610可基于由收听者定位的装置生成的信号,确定收听者的位置。可由收听者位置单元610使用以确定收听者位置的装置的一些实例包含(但不限于)移动计算装置、视频游戏控制器、远程控制或任何其它可指示收听者位置的装置。在一些实例中,收听者位置单元610可基于一或多个传感器,确定收听者的位置。可由收听者位置单元610使用以确定收听者位置的传感器的一些实例包含(但不限于)相机、麦克风、压力传感器(例如,嵌入于或附接到家具、车辆座位)、座位安全带传感器或任何其它可指示收听者位置的传感器。
音频解码装置22可基于收听者的位置和多个本地扩音器位置,周期性地确定本地显现格式(2708)。举例来说,音频解码装置22的显现单元210的显现格式单元614可生成本地显现格式,使得当HOA声场被显现成扩音器馈送且通过多个本地扩音器进行重放时,声学“最有效点”位于收听者的位置处或附近。在一些实例中,为生成本地显现格式,显现配置单元614可生成本地显现矩阵
音频解码装置22可基于本地显现格式,将HOA声场显现成各自对应于多个本地扩音器中的相应本地扩音器的多个输出音频信号(2710)。举例来说,扩音器馈送生成单元616可根据上文等式(35)显现HOA系数以生成扩音器馈送26。
在一个实例中,为编码多声道音频信号(例如,{Ci}i=1,…,N),音频编码装置14可确定源扩音器配置中的扩音器数目(例如,N)、在基于多声道音频信号生成HOA声场时待使用的HOA系数数目(例如,NHOA)和源扩音器配置中的扩音器位置(例如,{θi,φi}i=1,…,N)。在此实例中,音频编码装置14可将N、NHOA和{θi,φi}i=1,…,N编码到位流中。在一些实例中,音频编码装置14可针对每一帧将N、NHOA和{θi,φi}i=1,…,N编码到位流中。在一些实例中,如果先前帧使用相同N、NHOA和{θi,φi}i=1,…,N,那么音频编码装置14可省略针对当前帧将N、NHOA和{θi,φi}i=1,…,N编码到位流中。在一些实例中,音频编码装置14可基于N、NHOA和{θi,φi}i=1,…,N,生成显现矩阵D1。在一些实例中,在需要时,音频编码装置14可生成并使用一或多个空间定位向量(例如,Vi=[[0,…,0,1,0,…,0](D1D1 T)-1D1]T)。在一些实例中,音频编码装置14可量化多声道音频信号(例如,{Ci}i=1,…,N)以生成经量化多声道音频信号(例如,),并将经量化多声道音频信号编码到位流中。
音频解码装置22可接收位流。基于所接收的源扩音器配置中的扩音器数目(例如,N)、在基于多声道音频信号生成HOA声场时待使用的HOA系数数目(例如,NHOA)和源扩音器配置中的扩音器位置(例如,{θi,φi}i=1,…,N),音频解码装置22可生成显现矩阵D2。在一些实例中,D2可能不相同于D1,只要D2是基于所接收N、NHOA和{θi,φi}i=1,…,N(即,源扩音器配置)生成即可。基于D2,音频解码装置22可计算出一或多个空间定位向量(例如,)。基于一或多个空间定位向量和所接收音频信号(例如,),音频解码装置22可将HOA域表示生成为基于本地扩音器配置(即,解码器处的扩音器数目和位置)(例如,和),音频解码装置22可生成本地显现矩阵D3。音频解码装置22可通过将本地显现矩阵乘以所生成HOA域表示(例如,),生成针对本地扩音器的扬声器馈送(例如,)。
在另一实例中,为编码多声道音频信号(例如,{Ci}i=1,…,N),音频编码装置14可确定源扩音器配置中的扩音器数目(例如,N)、在基于多声道音频信号生成HOA声场时待使用的HOA系数数目(例如,NHOA)和源扩音器配置中的扩音器位置(例如,{θi,φi}i=1,…,N)。在一些实例中,音频编码装置14可基于N、NHOA和{θi,φi}i=1,…,N,生成显现矩阵D1。在一些实例中,音频编码装置14可计算出一或多个空间定位向量(例如,Vi=[[0,…,0,1,0,…,0](D1D1 T)- 1D1]T)。在一些实例中,音频编码装置14可以ISO/IEC23008-3将空间定位向量标准化为并将量化成(例如,使用例如SQ、SQ+Huff、VQ的向量量化方法),并将和||Vi||编码到位流中。在一些实例中,音频编码装置14可量化多声道音频信号(例如,{Ci}i=1,…,N)以生成经量化多声道音频信号(例如,),并将经量化多声道音频信号编码到位流中。
音频解码装置22可接收位流。基于和||Vi||,音频解码装置22可通过重建构空间定位向量。基于一或多个空间定位向量(例如,)和所接收音频信号(例如,),音频解码装置22可将HOA域表示生成为基于本地扩音器配置(即,解码器处的扩音器数目和位置)(例如,和),音频解码装置22可生成本地显现矩阵D3。音频解码装置22可通过将本地显现矩阵乘以所生成HOA域表示(例如,),生成针对本地扩音器的扬声器馈送(例如,)。
图28是说明根据本公开的技术的实例向量编码单元68E的框图。向量编码单元68E可为图5的向量编码单元68的例子。在图28的实例中,向量编码单元68E包含显现格式单元、向量创建单元2804、向量预测单元2806、表示单元2808、反量化单元2810和重建构单元2812。
显现格式单元2802使用源扩音器设置信息48来确定源显现格式2803。源显现格式116可以是用于将HOA系数的集合显现成用于以由源扩音器设置信息48描述的方式布置的扩音器的扩音器馈送的集合的显现矩阵。显现格式单元2802可根据本公开中在别处所描述的实例来确定源显现格式2803。
向量创建单元2804可基于源显现格式116,确定空间向量2805的集合。在一些实例中,向量创建单元2804以本公开中在别处关于图6的向量创建单元112所描述的方式确定空间向量2805。在一些实例中,向量创建单元2804以关于图14的中间向量单元402和向量最终单元404所描述的方式确定空间向量2805。
在图28的实例中,向量预测单元2806可从重建构单元2812获得经重建构空间向量2811。向量预测单元2806可基于经重建构空间向量2811,确定中间空间向量2813。在一些实例中,向量预测单元2806可确定中间空间向量2806,使得对于空间向量2805中的每一相应空间向量,中间空间向量2806中的相应中间空间向量等同于或是基于相应空间向量与经重建构空间向量2811中的对应经重建构空间向量之间的差。对应空间向量和经重建构空间向量可对应于源扩音器设置中的同一扩音器。
量化单元2808可量化中间空间向量2813。量化单元2808可根据本公开中在别处所描述的量化技术,量化中间空间向量2813。量化单元2808输出空间向量表示数据2815。空间向量表示数据2815可包括表示空间向量2805的经量化版本的数据。更具体地说,在图28的实例中,空间向量表示数据2815可包括表示中间空间向量2813的经量化版本的数据。在一些实例中,在使用类似于本公开中在别处关于码本所描述的那些技术的技术的情况下,表示中间空间向量2813的经量化版本的数据包括指示动态或静态界定的码本中的项的码本索引,所述码本指定中间空间向量的经量化版本的值。在一些实例中,空间向量表示数据2815包括中间空间向量2813的经量化版本。
此外,在图28的实例中,反量化单元2810可获得空间向量表示数据2815。换句话说,反量化单元2810可获得表示空间向量2805的经量化版本的数据。更具体地说,在图28的实例中,反量化单元2810可获得表示中间空间向量2813的经量化版本的数据。反量化单元2810可反量化中间空间向量2813的经量化版本。因此,反量化单元2810可生成经反量化中间空间向量2817。反量化单元2810可根据本公开中在别处针对反量化空间向量所描述的实例,反量化中间空间向量2813的经量化版本。因为量化可涉及信息损耗,所以经反量化中间空间向量2817与中间空间向量2813可能并不完全相同。
另外,重建构单元2813可基于经反量化中间空间向量2817,生成经重建构空间向量的集合。在一些实例中,重建构单元2813可生成经重建构空间向量的集合,使得对于经反量化空间向量2817的集合中的每一相应经反量化空间向量,相应经重建构空间向量等同于相应经反量化空间向量与按解码次序在先前时间间隔内的对应经重建构空间向量的总和。向量预测单元2806可使用经重建构空间向量来生成后续时间间隔内的中间空间向量。
因此,在图28的实例中,反量化单元2810可获得表示一或多个空间向量的第一集合的经量化版本的数据。空间向量的第一集合中的每一相应空间向量对应于第一时间间隔内的音频信号的集合中的相应音频信号。空间向量的第一集合中的空间向量中的每一个处在HOA域中且是基于扩音器位置的集合计算出。此外,反量化单元2810可反量化空间向量的第一集合的经量化版本。另外,在此实例中,向量创建单元2804可确定空间向量的第二集合。空间向量的第二集合中的每一相应空间向量对应于按解码次序在第一时间间隔之后的第二时间间隔内的音频信号的集合中的相应音频信号。空间向量的第二集合中的每一空间向量处在HOA域中且是基于扩音器位置的集合计算出。向量预测单元2806可基于空间向量的经反量化第一集合,确定空间向量的第二集合中的空间向量的中间版本。量化单元2808可量化空间向量的第二集合中的空间向量的中间版本。音频编码装置可在经译码音频位流中包含表示空间向量的第二集合中的空间向量的中间版本的经量化版本的数据。
在上文所描述的各种例子中的每一个中,应理解,音频编码装置14可执行方法或另外包括用于执行音频编码装置14被配置成执行的方法的每一步骤的装置。在一些情况下,装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频编码装置14已被配置成执行的方法。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合来实施。如果用软件实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或发射,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样,在上文所描述的各种例子中的每一个中,应理解,音频解码装置22可执行方法或另外包括用于执行音频解码装置22被配置成执行的方法的每一步骤的装置。在一些情况下,装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供上面存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频解码装置24已被配置成执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上文各项的组合也应包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可在配置成用于编码和解码的专用硬件和/或软件模块内提供,或并入在组合编解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本公开的技术可实施在广泛多种装置或设备中,包含无线手持机、集成电路(IC)或IC组(例如,芯片组)。本公开中描述各种组件、模块或单元是为了强调配置成执行所公开技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切来说,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。
Claims (30)
1.一种被配置成用于处理经译码音频的装置,所述装置包括:
存储器,其被配置成存储对应于时间间隔的音频信号的集合;以及
一或多个处理器,其电耦合到所述存储器,所述一或多个处理器被配置成:
获得表示一或多个空间向量的集合的经量化版本的数据,其中:
空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号,且
所述空间向量中的每一个处在高阶立体混响HOA域中且是基于扩音器位置的集合计算出;以及
反量化所述空间向量的所述经量化版本。
2.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
获得所述时间间隔内的一或多个音频信号的所述集合的基于对象或基于声道的表示;以及
将音频信号的所述集合和空间向量的所述集合转换成描述所述时间间隔期间的声场的HOA系数的集合。
3.根据权利要求2所述的装置,其中:
作为获得一或多个音频信号的所述集合的所述基于对象或基于声道的表示的部分,所述一或多个处理器被配置成使得所述一或多个处理器从经译码音频位流获得一或多个音频信号的所述集合的所述基于对象或基于声道的表示;且
作为获得表示一或多个空间向量的集合的所述经量化版本的所述数据的部分,所述一或多个处理器被配置成使得所述一或多个处理器从所述经译码音频位流获得表示一或多个空间向量的所述集合的所述经量化版本的所述数据。
4.根据权利要求1所述的装置,其中对于一或多个空间向量的所述集合中的每一相应空间向量,所述一或多个处理器被配置成使得所述一或多个处理器:
反量化所述相应空间向量的所述经量化版本,使得所述相应空间向量的经反量化版本等同于所述相应空间向量的所述经量化版本乘以量化步长大小值。
5.根据权利要求1所述的装置,其中所述一或多个处理器被配置成:
在经译码音频位流中包含时间间隔内的音频信号的集合的基于对象或基于声道的表示;
基于扩音器位置的所述集合,确定一或多个空间向量的所述集合;
生成表示所述空间向量的经量化版本的所述数据;以及
在所述经译码音频位流中包含表示所述空间向量的经量化版本的所述数据。
6.根据权利要求5所述的装置,其中对于一或多个空间向量的所述集合中的每一相应空间向量,所述一或多个处理器被配置成使得所述一或多个处理器:
计算所述相应空间向量的相应中间空间向量,使得所述相应中间空间向量等同于所述相应空间向量除以量化步长大小;以及
量化所述相应空间向量的所述相应中间空间向量。
7.根据权利要求6所述的装置,其中作为量化所述相应向量的所述相应中间空间向量的部分,所述一或多个处理器被配置成使得所述一或多个处理器:
将标量量化应用到所述相应中间空间向量。
8.根据权利要求6所述的装置,其中作为量化所述相应向量的所述相应中间空间向量的部分,所述一或多个处理器被配置成使得所述一或多个处理器:
将标量量化与霍夫曼译码应用到所述相应中间空间向量。
9.根据权利要求6所述的装置,其中作为量化所述相应向量的所述相应中间空间向量的部分,所述一或多个处理器被配置成使得所述一或多个处理器:
将向量量化应用到所述相应中间空间向量。
10.根据权利要求6所述的装置,其中作为量化所述相应向量的所述相应中间空间向量的部分,所述一或多个处理器被配置成使得所述一或多个处理器:
将标量量化应用到所述相应中间空间向量。
11.根据权利要求5所述的装置,其中空间向量的所述集合是空间向量的第一集合,所述时间间隔是第一时间间隔,且所述一或多个处理器被配置成:
确定空间向量的第二集合,其中:
空间向量的所述第二集合中的每一相应空间向量对应于按解码次序在所述第一时间间隔之后的第二时间间隔内的音频信号的集合中的相应音频信号,且
空间向量的所述第二集合中的每一空间向量处在所述HOA域中且是基于扩音器位置的所述集合计算出;
基于空间向量的所述经反量化第一集合,确定空间向量的所述第二集合中的空间向量的中间版本;
量化空间向量的所述第二集合中的所述空间向量的所述中间版本;以及
在所述经译码音频位流中包含表示空间向量的所述第二集合中的所述空间向量的所述中间版本的所述经量化版本的数据。
12.根据权利要求1所述的装置,其中:
HOA系数的所述集合等同于运算数的总和,且
所述运算数中的每一相应运算数等同于音频信号的所述集合中的相应音频信号乘以对应于所述相应音频信号的所述空间向量的转置矩阵。
13.根据权利要求1所述的装置,其中音频信号的所述集合是音频信号的第一集合,且所述一或多个处理器被配置成将显现格式应用到HOA系数的所述集合,以生成音频信号的第二集合,其中音频信号的所述第二集合中的每一相应音频信号对应于扩音器的集合中的相应扩音器。
14.根据权利要求13所述的装置,其进一步包括扩音器的所述集合中的至少一个扩音器。
15.根据权利要求1所述的装置,其中所述多个空间定位向量中对应于第N声道的所述空间定位向量等同于将第一矩阵、第二矩阵和第三矩阵相乘产生的矩阵的转置矩阵,所述第一矩阵由数目等同于所述多个扩音器位置中的扩音器位置数目的相应单行元素构成,所述相应行元素中的所述第N元素等于一且所述相应行中除了所述第N元素的元素等于0,所述第二矩阵为将显现矩阵乘以所述显现矩阵的所述转置矩阵产生的矩阵的倒置,所述第三矩阵等同于所述显现矩阵,且其中所述显现矩阵是基于源扩音器配置。
16.一种用于解码经译码音频的方法,所述方法包括:
获得表示一或多个空间向量的集合的经量化版本的数据,其中:
空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号,且
所述空间向量中的每一个处在高阶立体混响HOA域中且是基于扩音器位置的集合计算出;以及
反量化所述空间向量的所述经量化版本。
17.根据权利要求16所述的方法,其进一步包括:
获得所述时间间隔内的一或多个音频信号的所述集合的基于对象或基于声道的表示;以及
将音频信号的所述集合和空间向量的所述集合转换成描述所述时间间隔期间的声场的HOA系数的集合。
18.根据权利要求17所述的方法,其中:
获得一或多个音频信号的所述集合的所述基于对象或基于声道的表示包括从经译码音频位流获得一或多个音频信号的所述集合的所述基于对象或基于声道的表示;以及
获得表示一或多个空间向量的集合的所述经量化版本的所述数据包括从所述经译码音频位流获得表示一或多个空间向量的所述集合的所述经量化版本的所述数据。
19.根据权利要求16所述的方法,其进一步包括对于一或多个空间向量的所述集合中的每一相应空间向量,反量化所述相应空间向量的所述经量化版本,使得所述相应空间向量的经反量化版本等同于所述相应空间向量的所述经量化版本乘以量化步长大小值。
20.根据权利要求16所述的方法,其进一步包括:
在经译码音频位流中包含所述时间间隔内的音频信号的所述集合的所述基于对象或基于声道的表示;
基于扩音器位置的所述集合,确定一或多个空间向量的所述集合;
生成表示所述空间向量的经量化版本的所述数据;以及
在所述经译码音频位流中包含表示所述空间向量的经量化版本的所述数据。
21.根据权利要求20所述的方法,其进一步包括对于一或多个空间向量的所述集合中的每一相应空间向量:
计算所述相应空间向量的相应中间空间向量,使得所述相应中间空间向量等同于所述相应空间向量除以量化步长大小;以及
量化所述相应空间向量的所述相应中间空间向量。
22.根据权利要求21所述的方法,其中量化所述相应向量的所述相应中间空间向量包括将标量量化应用到所述相应中间空间向量。
23.根据权利要求21所述的方法,其中量化所述相应向量的所述相应中间空间向量包括将标量量化与霍夫曼译码应用到所述相应中间空间向量。
24.根据权利要求21所述的方法,其中量化所述相应向量的所述相应中间空间向量包括将向量量化应用到所述相应中间空间向量。
25.根据权利要求21所述的方法,其中量化所述相应向量的所述相应中间空间向量包括将标量量化应用到所述相应中间空间向量。
26.根据权利要求20所述的方法,其中空间向量的所述集合是空间向量的第一集合,所述时间间隔是第一时间间隔,且所述方法进一步包括:
确定空间向量的第二集合,其中:
空间向量的所述第二集合中的每一相应空间向量对应于按解码次序在所述第一时间间隔之后的第二时间间隔内的音频信号的集合中的相应音频信号,且
空间向量的所述第二集合中的每一空间向量处在所述HOA域中且是基于扩音器位置的所述集合计算出;
基于空间向量的所述经反量化第一集合,确定空间向量的所述第二集合中的空间向量的中间版本;
量化空间向量的所述第二集合中的所述空间向量的所述中间版本;以及
在所述经译码音频位流中包含表示空间向量的所述第二集合中的所述空间向量的所述中间版本的所述经量化版本的数据。
27.根据权利要求16所述的方法,其中:
HOA系数的所述集合等同于运算数的总和,且
所述运算数中的每一相应运算数等同于音频信号的所述集合中的相应音频信号乘以对应于所述相应音频信号的所述空间向量的转置矩阵。
28.根据权利要求16所述的方法,其中音频信号的所述集合是音频信号的第一集合,所述方法进一步包括:
将显现格式应用到HOA系数的所述集合,以生成音频信号的第二集合,其中音频信号的所述第二集合中的每一相应音频信号对应于扩音器的集合中的相应扩音器。
29.根据权利要求16所述的方法,其中所述多个空间定位向量中对应于第N声道的所述空间定位向量等同于将第一矩阵、第二矩阵和第三矩阵相乘产生的矩阵的转置矩阵,所述第一矩阵由数目等同于所述多个扩音器位置中的扩音器位置数目的相应单行元素构成,所述相应行元素中的所述第N元素等于一且所述相应行中除了所述第N元素的元素等于0,所述第二矩阵为将显现矩阵乘以所述显现矩阵的所述转置矩阵产生的矩阵的倒置,所述第三矩阵等同于所述显现矩阵,且其中所述显现矩阵是基于源扩音器配置。
30.一种用于解码经译码音频位流的装置,所述装置包括:
用于获得表示一或多个空间向量的集合的经量化版本的数据的装置,其中:
空间向量的所述集合中的每一相应空间向量对应于音频信号的所述集合中的相应音频信号,且
所述空间向量中的每一个处在高阶立体混响HOA域中且是基于扩音器位置的集合计算出;以及
用于反量化所述空间向量的所述经量化版本的装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562239033P | 2015-10-08 | 2015-10-08 | |
US62/239,033 | 2015-10-08 | ||
US15/266,874 US10249312B2 (en) | 2015-10-08 | 2016-09-15 | Quantization of spatial vectors |
US15/266,874 | 2016-09-15 | ||
PCT/US2016/052241 WO2017062159A1 (en) | 2015-10-08 | 2016-09-16 | Quantization of spatial vectors |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108140389A true CN108140389A (zh) | 2018-06-08 |
Family
ID=57083366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680057766.0A Pending CN108140389A (zh) | 2015-10-08 | 2016-09-16 | 空间向量的量化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10249312B2 (zh) |
EP (1) | EP3360132B1 (zh) |
KR (1) | KR102122672B1 (zh) |
CN (1) | CN108140389A (zh) |
BR (1) | BR112018007097A2 (zh) |
WO (1) | WO2017062159A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112219237A (zh) * | 2018-04-09 | 2021-01-12 | 诺基亚技术有限公司 | 空间音频参数的量化 |
CN113228169A (zh) * | 2018-11-01 | 2021-08-06 | 诺基亚技术有限公司 | 用于对空间元数据进行编码的装置、方法及计算机程序 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10860320B1 (en) | 2016-12-06 | 2020-12-08 | Gsi Technology, Inc. | Orthogonal data transposition system and method during data transfers to/from a processing array |
US10854284B1 (en) | 2016-12-06 | 2020-12-01 | Gsi Technology, Inc. | Computational memory cell and processing array device with ratioless write port |
US10777262B1 (en) | 2016-12-06 | 2020-09-15 | Gsi Technology, Inc. | Read data processing circuits and methods associated memory cells |
US10943648B1 (en) | 2016-12-06 | 2021-03-09 | Gsi Technology, Inc. | Ultra low VDD memory cell with ratioless write port |
US10725777B2 (en) * | 2016-12-06 | 2020-07-28 | Gsi Technology, Inc. | Computational memory cell and processing array device using memory cells |
US11227653B1 (en) | 2016-12-06 | 2022-01-18 | Gsi Technology, Inc. | Storage array circuits and methods for computational memory cells |
US10249362B2 (en) | 2016-12-06 | 2019-04-02 | Gsi Technology, Inc. | Computational memory cell and processing array device using the memory cells for XOR and XNOR computations |
US10891076B1 (en) | 2016-12-06 | 2021-01-12 | Gsi Technology, Inc. | Results processing circuits and methods associated with computational memory cells |
US10847212B1 (en) | 2016-12-06 | 2020-11-24 | Gsi Technology, Inc. | Read and write data processing circuits and methods associated with computational memory cells using two read multiplexers |
US10847213B1 (en) | 2016-12-06 | 2020-11-24 | Gsi Technology, Inc. | Write data processing circuits and methods associated with computational memory cells |
US10999693B2 (en) | 2018-06-25 | 2021-05-04 | Qualcomm Incorporated | Rendering different portions of audio data using different renderers |
GB2577698A (en) | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
US10877731B1 (en) | 2019-06-18 | 2020-12-29 | Gsi Technology, Inc. | Processing array device that performs one cycle full adder operation and bit line read/write logic features |
US10958272B2 (en) | 2019-06-18 | 2021-03-23 | Gsi Technology, Inc. | Computational memory cell and processing array device using complementary exclusive or memory cells |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2851879A1 (fr) * | 2003-02-27 | 2004-09-03 | France Telecom | Procede de traitement de donnees sonores compressees, pour spatialisation. |
US20100318368A1 (en) * | 2002-09-04 | 2010-12-16 | Microsoft Corporation | Quantization and inverse quantization for audio |
GB201218191D0 (en) * | 2011-10-10 | 2012-11-21 | Korea Electronics Telecomm | Method and apparatus for representing three-dimensional (3D) sound field |
US20140358562A1 (en) * | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
US20150243292A1 (en) * | 2014-02-25 | 2015-08-27 | Qualcomm Incorporated | Order format signaling for higher-order ambisonic audio data |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2094032A1 (en) | 2008-02-19 | 2009-08-26 | Deutsche Thomson OHG | Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same |
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
GB2467534B (en) | 2009-02-04 | 2014-12-24 | Richard Furse | Sound system |
EP2389016B1 (en) | 2010-05-18 | 2013-07-10 | Harman Becker Automotive Systems GmbH | Individualization of sound signals |
NZ587483A (en) | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
WO2013095675A1 (en) | 2011-12-23 | 2013-06-27 | Intel Corporation | Dynamic memory performance throttling |
EP2637427A1 (en) | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
EP2645748A1 (en) | 2012-03-28 | 2013-10-02 | Thomson Licensing | Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9288603B2 (en) | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
US20140086416A1 (en) | 2012-07-15 | 2014-03-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
KR102681514B1 (ko) | 2012-07-16 | 2024-07-05 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
US9473870B2 (en) | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
KR102201713B1 (ko) | 2012-07-19 | 2021-01-12 | 돌비 인터네셔널 에이비 | 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스 |
WO2014082683A1 (en) | 2012-11-30 | 2014-06-05 | Huawei Technologies Co., Ltd. | Audio rendering system |
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
CN109166588B (zh) | 2013-01-15 | 2022-11-15 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
US10178489B2 (en) | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
US9609452B2 (en) * | 2013-02-08 | 2017-03-28 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
CN104982042B (zh) * | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
WO2014184353A1 (en) | 2013-05-16 | 2014-11-20 | Koninklijke Philips N.V. | An audio processing apparatus and method therefor |
JP6105159B2 (ja) | 2013-05-24 | 2017-03-29 | ドルビー・インターナショナル・アーベー | オーディオ・エンコーダおよびデコーダ |
EP3005354B1 (en) * | 2013-06-05 | 2019-07-03 | Dolby International AB | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
CN108347689B (zh) | 2013-10-22 | 2021-01-01 | 延世大学工业学术合作社 | 用于处理音频信号的方法和设备 |
US9502045B2 (en) * | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US10063207B2 (en) | 2014-02-27 | 2018-08-28 | Dts, Inc. | Object-based audio loudness management |
US10134403B2 (en) | 2014-05-16 | 2018-11-20 | Qualcomm Incorporated | Crossfading between higher order ambisonic signals |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
KR20230162157A (ko) | 2014-06-27 | 2023-11-28 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현 |
EP3201916B1 (en) | 2014-10-01 | 2018-12-05 | Dolby International AB | Audio encoder and decoder |
US9875745B2 (en) | 2014-10-07 | 2018-01-23 | Qualcomm Incorporated | Normalization of ambient higher order ambisonic audio data |
US9767618B2 (en) | 2015-01-28 | 2017-09-19 | Samsung Electronics Co., Ltd. | Adaptive ambisonic binaural rendering |
CN109314832B (zh) | 2016-05-31 | 2021-01-29 | 高迪奥实验室公司 | 音频信号处理方法和设备 |
WO2017218973A1 (en) | 2016-06-17 | 2017-12-21 | Edward Stein | Distance panning using near / far-field rendering |
-
2016
- 2016-09-15 US US15/266,874 patent/US10249312B2/en active Active
- 2016-09-16 CN CN201680057766.0A patent/CN108140389A/zh active Pending
- 2016-09-16 EP EP16777840.6A patent/EP3360132B1/en active Active
- 2016-09-16 WO PCT/US2016/052241 patent/WO2017062159A1/en active Application Filing
- 2016-09-16 BR BR112018007097-1A patent/BR112018007097A2/pt not_active Application Discontinuation
- 2016-09-16 KR KR1020187009765A patent/KR102122672B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100318368A1 (en) * | 2002-09-04 | 2010-12-16 | Microsoft Corporation | Quantization and inverse quantization for audio |
FR2851879A1 (fr) * | 2003-02-27 | 2004-09-03 | France Telecom | Procede de traitement de donnees sonores compressees, pour spatialisation. |
GB201218191D0 (en) * | 2011-10-10 | 2012-11-21 | Korea Electronics Telecomm | Method and apparatus for representing three-dimensional (3D) sound field |
US20140358562A1 (en) * | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
US20150243292A1 (en) * | 2014-02-25 | 2015-08-27 | Qualcomm Incorporated | Order format signaling for higher-order ambisonic audio data |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112219237A (zh) * | 2018-04-09 | 2021-01-12 | 诺基亚技术有限公司 | 空间音频参数的量化 |
CN113228169A (zh) * | 2018-11-01 | 2021-08-06 | 诺基亚技术有限公司 | 用于对空间元数据进行编码的装置、方法及计算机程序 |
Also Published As
Publication number | Publication date |
---|---|
KR102122672B1 (ko) | 2020-06-12 |
EP3360132A1 (en) | 2018-08-15 |
US10249312B2 (en) | 2019-04-02 |
US20170103766A1 (en) | 2017-04-13 |
WO2017062159A1 (en) | 2017-04-13 |
KR20180063119A (ko) | 2018-06-11 |
EP3360132B1 (en) | 2021-04-07 |
BR112018007097A2 (pt) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108140389A (zh) | 空间向量的量化 | |
CN104428834B (zh) | 用于使用基函数系数的三维音频译码的系统、方法、设备和计算机可读媒体 | |
CN104471640B (zh) | 基于对象的环绕声编码解码器的具有反馈的可缩放降混设计 | |
EP3360343B1 (en) | Conversion from object-based audio to hoa | |
CN105917408B (zh) | 指示用于译码向量的帧参数可重用性 | |
CN108780647B (zh) | 用于音频信号译码的方法和设备 | |
CN106575506A (zh) | 高阶立体混响音频数据的中间压缩 | |
CN105027200A (zh) | 变换球谐系数 | |
CN106796795A (zh) | 以信号表示用于高阶立体混响音频数据的可缩放译码的层 | |
CN106796796A (zh) | 以信号表示用于高阶立体混响音频数据的可缩放译码的声道 | |
CN108141688B (zh) | 从以信道为基础的音频到高阶立体混响的转换 | |
CN106471576A (zh) | 较高阶立体混响系数的闭环量化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180608 |
|
WD01 | Invention patent application deemed withdrawn after publication |