CN105144752B - 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 - Google Patents
对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 Download PDFInfo
- Publication number
- CN105144752B CN105144752B CN201480023877.0A CN201480023877A CN105144752B CN 105144752 B CN105144752 B CN 105144752B CN 201480023877 A CN201480023877 A CN 201480023877A CN 105144752 B CN105144752 B CN 105144752B
- Authority
- CN
- China
- Prior art keywords
- hoa
- frame
- coefficient sequences
- phasing signal
- hoa coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000007906 compression Methods 0.000 claims abstract description 18
- 230000006835 compression Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims description 21
- 230000008447 perception Effects 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 10
- 230000006837 decompression Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 229940075591 dalay Drugs 0.000 claims 2
- 230000003362 replicative effect Effects 0.000 claims 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000000926 separation method Methods 0.000 claims 1
- 239000007787 solid Substances 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 25
- 230000000875 corresponding effect Effects 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 12
- 238000001745 non-dispersive infrared spectroscopy Methods 0.000 description 9
- 230000007480 spreading Effects 0.000 description 6
- 230000005428 wave function Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- FVFVNNKYKYZTJU-UHFFFAOYSA-N 6-chloro-1,3,5-triazine-2,4-diamine Chemical compound NC1=NC(N)=NC(Cl)=N1 FVFVNNKYKYZTJU-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000009329 sexual behaviour Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Separation Using Semi-Permeable Membranes (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
更高阶高保真度立体声响复制表示独立于具体扬声器设置的三维声音。然而,HOA表示的传输导致非常高的比特率。因此,使用具有固定数量的信道的压缩,其中有区别地处理定向和环境信号分量。环境HOA分量由最小数量的HOA系数序列表示。剩余的信道包含定向信号或者环境HOA分量的另外的系数序列,取决于什么将导致最佳的感知质量。该处理可以基于逐个帧地改变。
Description
技术领域
本发明涉及通过有区别地处理定向和环境信号分量对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。
背景技术
更高阶高保真度立体声响复制(HOA)连同像波长合成(WFS)这样的其他技术或者像22.2这样的基于信道的方法一起提供表示三维声音的一种可能性。然而,相对于基于信道的方法,HOA表示提供独立于具体扬声器设置的优点。然而,这个灵活性以HOA表示在特殊的扬声器设置上回放所必需的解码处理为代价。与必需的扬声器的数量通常非常大的WFS方法相比,HOA还可以被呈现给包括仅几个扬声器的设置。HOA的另外的优点在于,对于到头戴耳机的双耳呈现,也可以使用相同的表示而不用做任何修改。
HOA基于按照截断的球谐(Spherical Harmonics,SH)扩展的复谐平面波(complexharmonic plane wave)幅度的空间密度的表示。每个扩展系数是角频率的函数,其可以由时域函数等同地表示。因此,在不失一般性的情况下,完整的HOA声场表示实际上可以被假设为包括O个时域函数,其中O标记扩展系数的数量。这些时域函数将等同地被称作HOA系数序列或者称作HOA信道。
HOA表示的空间分辨率随着扩展的最大阶N的增长而提高。不幸地,扩展系数的数量O随着阶N二次方地增长,具体地,O=(N+1)2。例如,使用阶N=4的典型的HOA表示需要O=25个HOA(扩展)系数。根据先前做出的考虑,给定期望的单信道采样率fS和每个样本的位数Nb,用于传输HOA表示的总比特率由O·fS·Nb确定。因此,以fS=48kHz的采样率并且使用每个样本Nb=16位来传输阶N=4的HOA表示导致19.2MBits/s的比特率,这对于许多实际的应用(例如对于流传输)非常高。
HOA声场表示的压缩在专利申请EP 12306569.0和EP 12305537.8中提出。代替单独地对HOA系数序列中的每一个进行感知编码,例如像在E.Hellerud、I.Burnett、A.Solvang和U.P.Svensson的“Encoding Higher Order Ambisonics with AAC”(第124届AES会议,阿姆斯特丹,2008年)中执行的那样,具体通过执行声场分析并且将给定的HOA表示分解成定向和残余环境分量来试图减少被感知编码的信号的数量。定向分量通常应当由可以被视为一般平面波函数的少量的支配定向信号来表示。残余环境HOA分量的阶减小,因为假设在提取支配定向信号之后,更低阶的HOA系数承载大部分相关信息。
发明内容
总之,通过这样的操作,要被感知编码的HOA系数序列的初始数量(N+1)2被减少至固定数量的D个支配定向信号以及表示具有截断的阶NRED<N的残余环境HOA分量的数量(NRED+1)2个HOA系数序列,从而要编码的信号的数量是固定的,亦即D+(NRED+1)2。特别地,该数量独立于在时帧(time frame)k中的活动的支配(dominant)定向声源的实际检测到的数量DACT(k)≤D。这意味着,在时帧k中,其中活动的支配定向声源的实际检测到的数量DACT(k)小于定向信号的最大允许数量D,要被感知编码的支配定向信号中的一些或者甚至是全部为零。最后,这意味着这些信道根本不用于捕捉声场的相关信息。
在该背景下,EP 12306569.0和EP 12305537.8会议录中的另外可能的弱点是用于在每个时帧中确定活动的支配定向信号的数量的标准,因为不试图确定关于声场的相继感知编码的活动的支配定向信号的最佳数量。例如,在EP 12305537.8中,使用简单的功率标准,也就是通过确定属于最大特征值的系数间相关矩阵的子空间的维度,来估计支配声源的量。在EP 12306569.0中,提出对支配定向声源的递增检测,其中如果来自各自方向的平面波函数的功率关于第一定向信号足够高,则定向声源被认为是支配的。使用像在EP12306569.0和EP 12305537.8中那样的基于功率的标准可能导致关于声场的感知编码是次优的定向环境分解(directional-ambient decomposition)。
本发明所要解决的问题是通过对当前的HOA音频信号内容确定如何分配到预先确定的减少数量的信道、定向信号以及环境HOA分量的系数来改进HOA压缩。该问题由在权利要求1和3中公开的方法来解决。使用这些方法的装置在权利要求2和4中公开。
本发明在两个方面改进在EP 12306569.0中提出的压缩处理。第一,更好地利用由将被感知编码的给定数量的信道提供的带宽。在没有检测到支配声源信号的时帧中,最初被保留用于支配定向信号的信道被用于以残余环境HOA分量的另外的HOA系数序列的形式来捕捉关于环境分量的另外的信息。第二,考虑到利用给定数量的信道对给定HOA声场表示进行感知编码的目标,关于该目的,适配用于确定要从HOA表示中提取的定向信号的量的标准。确定定向信号的数量,使得经解码和重构的HOA表示提供最低的感知误差。该标准比较由提取定向信号并且使用更少的HOA系数序列来描述残余环境HOA分量而引起的建模误差,或者由不提取定向信号并且代替地使用另外的HOA系数序列来描述残余环境HOA分量而引起的建模误差。该标准进一步针对两种情况考虑由定向信号和残余环境HOA分量的HOA系数序列的感知编码引入的量化噪声的空间功率分布。
为了实现上述处理,在开始HOA压缩之前,指定总数量I个信号(信道),与其相比,HOA系数序列的最初数量O减少。假设环境HOA分量由最小数量ORED个HOA系数序列来表示。在一些情况下,该最小数量可以是零。剩余的D=I-ORED个信道应当包含定向信号或者环境HOA分量的另外的系数序列,取决于定向信号提取处理决定什么在感知上更有意义。假设定向信号或者环境HOA分量系数序列到剩余的D个通道的分配可基于逐个帧(on frame-by-frame basis)地改变。为了在接收侧重构声场,将关于分配的信息作为额外的边信息(sideinformation)来传输。
原则上,本发明的压缩方法适合于使用固定数量的感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述方法包括基于逐个帧地执行的下面的步骤:
-对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集;
-对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的压缩装置适合于使用固定数量的感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述装置执行基于逐个帧的处理并且包括:
-适合于进行如下处理的部件:对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-适合于进行如下处理的部件:将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-适合于进行如下处理的部件:将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集;
-适合于进行如下处理的部件:对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的解压缩方法适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述解压缩包括步骤:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
原则上,本发明的解压缩装置适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述装置包括:
-适合于进行如下处理的部件:对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
在相应的从属权利要求中公开本发明的有利的另外的实施例。
附图说明
参考附图描述本发明的示例性实施例,其中:
图1示出HOA压缩的框图;
图2示出支配声源方向的估计;
图3示出HOA解压缩的框图;
图4示出球面坐标系;
图5示出对于不同的高保真度立体声响复制阶N以及对于角度θ∈[0,π]的规一化分散函数vN(Θ)。
具体实施方式
A.改进的HOA压缩
在图1中例示根据本发明的基于EP 12306569.0的压缩处理,其中使用粗体框显示与EP 12306569.0相比较已经修改或者新引入的信号处理块,并且其中本申请中的(如这样的方向估计)和′C′分别对应于EP12306569.0中的′A′(方向估计的矩阵)和′D′。对于HOA压缩,使用长度L的HOA系数序列的不重叠的输入帧C(k)的逐帧(frame-wise)的处理被使用,其中k标记帧索引。关于在等式(45)中指定的HOA系数序列将帧定义为:
C(k):=[c((kL+1)TS) c((kL+2)TS) c((k+1)LTS)], (1)
其中TS指示采样周期。
图1中的第一步骤或阶段11/12是可选的,并且包括将HOA系数序列的不重叠的第k和(k-1)帧串接成长帧为:
该长帧与相邻的长帧50%重叠,并且该长帧被相继地用于支配声源方向的估计。与的标记法类似,在下面的描述中使用波浪符号来指示相应的量指代长的重叠的帧。如果步骤/阶段11/12不存在,则波浪符号没有具体含意。
原则上,如在EP 13305156.5中所提出的那样地执行支配声源的估计步骤或阶段13,但是具有重要的修改。修改涉及确定要检测的方向的量,亦即应当从HOA表示中提取多少定向引号。这通过只有在与替代地使用另外的HOA系数序列进行环境HOA分量的更好的近似相比其在感知上更相关的情况下才激发提取定向信号来实现。在部分A.2中给出对该技术的详细描述。
该估计提供已经检测到的定向信号的索引的数据集以及对应的方向估计的集合D标记在开始HOA压缩之前必须设置的定向信号的最大数量。
在步骤或阶段14中,将HOA系数序列的当前(长)帧分解(如在EP 13305156.5中提出的那样)成属于集合中包含的方向的许多定向信号XDIR(k-2)以及残余环境HOA分量CAMB(k-2)。作为重叠添加处理的结果引入两个帧的延迟,以便获得平滑信号。假设XDIR(k-2)包含总共D个信道,然而其中只有与活动的定向信号相对应的那些是非零的。指定这些信道的索引假设在数据集中输出。另外,步骤/阶段14中的分解提供在解压缩侧被用于根据定向信号预测原始HOA表示的部分的一些参数(更多细节参看EP13305156.5)。
在步骤或阶段15中,智能地减少环境HOA分量CAMB(k-2)的系数的数量,以仅包含ORED+D-NDIR,ACT(k-2)个非零的HOA系数序列,其中指示数据集的基数,亦即帧k-2中的活动的定向信号的数量。因为假设环境HOA分量总是由最小数量ORED个HOA系数序列表示,所以这个问题实际上可以简化成从可能的O-ORED个HOA系数序列中选择剩余的D-NDIR,ACT(k-2)个HOA系数序列。为了获得平滑的减少的环境HOA表示,将该选择实现为使得与在前一帧k-3时进行的选择相比较,尽可能少的变化将发生。
具体地,将区别下面三种情况:
a)NDIR,ACT(k-2)=NDIR,ACT(k-3):在这种情况下,假设选择与在帧k-3中相同的HOA系数序列。
b)NDIR,ACT(k-2)<NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧k-3中更多的HOA系数序列来表示在当前帧中的环境HOA分量。假设在k-3中被选择的那些HOA系数序列也在当前帧中被选择。可以根据不同的标准来选择另外的HOA系数序列。例如,选择CAMB(k-2)中具有最高平均功率的那些HOA系数序列,或者关于它们的感知重要性选择HOA系数序列。
c)NDIR,ACT(k-2)>NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧k-3中更少的HOA系数序列来表示在当前帧中的环境HOA分量。这里需要回答的问题是必须使先前选择的HOA系数序列中的哪些不活动(deactivate)。合理的解决方案是使在帧k-3时在信号分配步骤或阶段16分配给信道的那些序列不活动。
为了避免在使另外的HOA系数序列活动或不活动时在帧边界处的不连续性,使得各个信号平滑地淡入(fade in)或淡出(fade out)是有利的。
具有减少的数量ORED+NDIR,ACT(k-2)个非零系数序列的最终的环境HOA表示由CAMB,RED(k-2)标记。所选择的环境HOA系数序列的索引在数据集中输出。
在步骤/阶段16中,XDIR(k-2)中包含的活动的定向信号和CAMB,RED(k-2)中包含的HOA系数序列被分配给I个信道的帧Y(k-2)以便进行个体的感知编码。为了更详细地描述信号分配,假设帧XDIR(k-2)、Y(k-2)和CAMB,RED(k-2)包括各个信号xDIR,d(k-2),d∈{1,...,D}、yi(k-2),i∈{1,...,I}和cAMB,RED,o(k-2),o∈{1,...,O),如下:
分配活动的定向信号,使得它们保存(keep)它们的信道索引以便获得连续的信号用于相继的感知编码。这可以表示为:
yd(k-2)=xDIR,d(k-2)对于所有
环境分量的HOA系数序列被分配为使得最小数量的ORED个系数序列总是包含在Y(k-2)的最后的ORED个信号中,亦即
yD+o(k-2)=cAMB,RED,o(k-2)对于1≤o≤ORED。 (5)
对于环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列,它们是否也在前一个帧中被选择是有区别的:
a)如果它们也被选择在前一个帧中传输,亦即,如果各自的索引也包含在数据集中,则这些系数序列到Y(k-2)中的信号的分配与对于前一帧的相同。该操作保证平滑的信号yi(k-2),这对于步骤或阶段17中的相继的感知编码是有利的。
b)否则,如果一些系数序列是新选择的,亦即,如果它们的索引包含在数据集中但是不在数据集中,则它们首先关于它们的索引以升序布置,并且以该次序分配给Y(k-2)中尚未被定向信号占据的信道
这个具体的分配提供如下优点:在HOA解压缩处理期间,可以在不知道哪个环境HOA系数序列包含在Y(k-2)的哪个信道的情况下执行信号的重新分布和组成。代替地,可以在HOA解压缩期间仅使用数据集和的知识来重构分配。
有利地,该分配操作还提供分配矢量其元素γo(k)(o=1,...,D-NDIR,ACT(k-2))标记环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列中的每一个的索引。换句话说,分配矢量γ(k)的元素提供关于环境HOA分量的另外的O-ORED个HOA系数序列中的哪些被分配到具有不活动的定向信号的D-NDIR,ACT(k-2)个信道中的信息。该矢量可以另外地传输,但是相比于按照帧速率不太频繁,以便允许初始化针对HOA解压缩而执行的重新分布过程(参看部分B)。感知编码步骤/阶段17对于帧Y(k-2)的I个信道进行编码,并且输出经编码的帧
对于没有从步骤/阶段16传输矢量γ(k)的帧,在解压缩侧,代替矢量γ(k),使用数据参数集和来执行重新分布。
A.1支配声源方向的估计
在图2中更详细地图示图1的支配声源方向的估计步骤/阶段13。其基本上根据EP13305156.5来执行,但是具有决定性的差异,即确定与要从给定的HOA表示中提取的定向信号的数量相对应的支配声源的数量的方式。这个数量是重要的,因为它用于控制给定的HOA表示是通过使用更多的定向信号还是代替地通过使用更多的HOA系数序列来更好地表示,以对环境HOA分量更好地建模。
支配声源方向的估计在步骤或阶段21中开始,使用输入的HOA系数序列的长帧对支配声源方向进行初步检索。与初步的方向估计(1≤d≤D)一起,如在EP13305156.5中所描述的那样地计算应当由各个声源创建的对应定向信号和HOA声场分量
在步骤或阶段22中,使用这些量以及输入的HOA系数序列的帧来确定要提取的定向信号的数量因此,丢弃方向估计对应的定向信号以及HOA声场分量代替地,然后仅将方向估计分配给先前发现的声源。
在步骤或阶段23中,根据声源运动模型来平滑得到的方向轨迹,并且确定声源中的哪些应当是活动的(参看EP 13305156.5)。最后的操作提供活动的定向声源的索引的集合和对应的方向估计的集合
A.2被提取的定向信号的数量的确定
为了在步骤/阶段22中确定定向信号的数量,假设存在将被用于捕捉在感知上最相关的声场信息的给定总量的I个信道的情况。因此,确定要提取的定向信号的数量,由如下问题激发:对于整体的HOA压缩/解压缩质量,当前的HOA表示是通过使用更多的定向信号还是更多的HOA系数序列来更好地表示以对环境HOA分量更好地建模。
为了在步骤/阶段22中导出用于确定要提取的定向声源的数量的标准(该标准与人类感知相关),考虑具体通过下面的两个运算来实现HOA压缩:
-用于表示环境HOA分量的HOA系数序列的减少(这意味着相关信道的数量的减少);
-定向信号的感知编码以及用于表示环境HOA分量的HOA系数序列的感知编码。
取决于所提取的定向信号的数量M(0≤M≤D),第一个运算近似地得到
其中标记包括应当由M个单独考虑的声源创建的HOA声场分量 的定向分量的HOA表示,并且标记具有仅I-M个非零HOA系数序列的环境分量的HOA表示。
来自第二个运算的近似可以表示为:
其中和分别标记在感知解码之后组成的定向和环境HOA分量。
标准的公式化
要提取的定向信号的数量被选择为使得总的近似误差
其中关于人类感知尽可能地不显著。为了保证这一点,在预先定义的数量Q个测试方向Ωq(q=1,...,Q)上考虑各个巴克标度(Bark scale)临界带的总误差的定向功率分布,其在单位球面上几乎均匀地分布。更具体地,第b个(b=1,...,B)临界带的定向功率分布由下面的矢量表示:
其分量标记与方向Ωq、第b个巴克标度临界带和第k帧相关的总误差的功率。总误差的定向功率分布与下面的由于原始HOA表示的定向感知掩蔽功率分布进行比较:
接下来,对于每个测试方向Ωq和临界带b,计算总误差的感知级别其在这里基本上被定义为总误差的定向功率与根据下式的定向掩蔽功率的比例:
执行′1′与相继最大值运算的减法以确保感知级别为零,只要误差功率低于掩蔽阈值。
最后,可以将要提取的定向信号的数量选择为最小化所有临界带上的误差感知级别的最大值的所有测试方向上的平均值,亦即
应当注意,替代地,能够在等式(15)中用平均运算替换最大值。
定向感知掩蔽功率分布的计算
为了计算由于原始HOA表示的定向感知掩蔽功率分布将后者变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波表示。当以矩阵布置一般平面波信号如下时
到空间域的变换由下面的运算来表达
其中Ξ标记关于测试方向Ωq(q=1,...,Q)的模式矩阵,被定义为
其中sq:=
由于原始HOA表示定向感知掩蔽功率分布的每个元素对应于各个临界带b的一般平面波函数的掩蔽功率。
定向功率分布的计算
下面,给出用于计算定向功率分布的两个替代:
a.一种可能性是通过计算在部分A.2的开始提及的两个运算来实际地计算期望的HOA表示的近似然后,根据等式(11)来计算总的近似误差接下来,将总的近似误差变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波表示。以矩阵将一般平面波信号布置为
到空间域的变换由下面的运算表示:
通过计算各个临界带b内的一般平面波函数的功率来获得总的近似误差的定向功率分布的元素
b.替代的解决方案是仅计算近似值而不是该方法提供如下优点:不需要直接执行各个信号的复杂的感知编码。代替地,知道各个巴克标度临界带内的感知量化误差的功率就足够了。为此目的,在等式(11)中定义的总的近似误差可以被写作三个下面的近似误差的总和:
可以假设它们彼此独立。由于这种独立性,总误差的定向功率分布可以表达为三个各个误差和的定向功率分布的总和。
下面描述如何计算各个巴克标度临界带的三个误差的定向功率分布:
a.为了计算误差的定向功率分布,首先通过下式将其变换到空间域:
其中近似误差因此由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波表示,其根据下式布置为矩阵
因此,通过计算各个临界带b内的一般平面波函数的功率来获得近似误差的定向功率分布的元素
b.为了计算误差的定向功率分布考虑到该误差通过对定向信号进行感知编码而被引入到定向HOA分量中。另外,考虑定向HOA分量由等式(8)给出。于是,为了简单,假设HOA分量在空间域中由O个一般平面波函数等同地表示,其通过仅仅缩放根据定向信号来创建,亦即
其中标记缩放参数。假设各自的平面波方向 在单位球面上均匀分布,并且被旋转使得对应于方向估计因此,缩放参数等于′1′。
当关于旋转的方向将定义为模式矩阵并且根据下式以矢量来布置所有缩放参数时:
HOA分量可以写作:
因此,真实的定向HOA分量
与按照
由经感知解码的定向信号组成的定向HOA分量之间的误差(参见等式(23))可以按照各个定向信号中的如下感知编码误差
而表示为
空间域中关于测试方向Ωq(q=1,...,Q)的误差的表示由下式给出
用标记矢量β(d)(k)的元素,并且假设各个感知编码误差彼此独立,根据等式(35)得出,感知编码误差的定向功率分布的元素由下式计算
应当表示定向信号中的第b个临界带内的感知量化误差的功率。可以假设该功率对应于定向信号的感知掩蔽功率。
c.为了计算由环境HOA分量的HOA系数序列的感知编码造成的误差的定向功率分布假设每个HOA系数序列被独立地编码。因此,可以假设被引入到每个巴克标度临界带内的各个HOA系数序列中的误差是不相关的。这意味着关于每个巴克标度临界带的误差的系数间相关矩阵是对角线的,亦即
元素应当表示中的第o个经编码的HOA系数序列中的第b个临界带内的感知量化误差的功率。可以假设它们对应于第o个HOA系数序列的感知掩蔽功率。因此,感知编码误差的定向功率分布通过下式计算
B.改进的HOA解压缩
对应的HOA解压缩处理在图3中图示并且包括下面的步骤或阶段。
在步骤或阶段31中,执行对中包含的I个信号的感知解码以便获得中的I个经解码的信号。
在信号重新分布步骤或阶段32中,重新分布中的经感知解码的信号,以便重新创建定向信号的帧和环境HOA分量的帧通过使用索引数据集和再现对HOA压缩执行的分配操作,获得关于如何重新分布信号的信息。因为这是递归的过程(参看部分A),所以可以使用另外传输的分配矢量γ(k),以便允许例如在传输发生故障的情况下初始化重新分布过程。
在组成步骤或阶段33中,使用定向信号的帧活动的定向信号索引的集合以及对应方向的集合用于根据定向信号来预测HOA表示的部分的参数以及减少的环境HOA分量的HOA系数序列的帧根据结合EP12306569.0的图2b和图4描述的处理,重新组成期望的总的HOA表示的当前帧对应于EP12306569.0中的分量并且和对应于EP 12306569.0中的其中活动的定向信号索引在的矩阵元素中标明。亦即,根据定向信号来预测关于均匀分布的方向的定向信号,其中使用用于这样的预测的所接收的参数并且此后从定向信号的帧预测部分以及减少的环境HOA分量重新组成当前的经解压缩的帧
C.更高阶高保真度立体声响复制的基础
更高阶高保真度立体声响复制(HOA)基于补充假设为没有声源的所关注的紧密区域(compact area)内的声场的描述。在该情况下,在所关注的区域内、在时间t时和位置x处的声压p(t,x)的时空行为在物理上由齐性波等式(homogeneous wave equation)充分确定。下面,假设如图4中示出的球面坐标系。在使用的坐标系中,x轴指向前面位置,y轴指向左边并且z轴指向顶部。空间x=(r,θ,φ)T中的位置由半径r>0(亦即,到坐标原点的距离)、从极轴z测量的倾角θ∈[0,π]以及在x-y平面中从x轴逆时针地测量的方位角φ∈[0,2π[来表示。另外,(·)T标记转置。
可以示出(参看E.G.Williams,“Fourier Acoustics”,AppliedMathematicalSciences的93卷,Academic Press,1999年),由标记的关于时间的声压的傅里叶变换,亦即
(其中ω标记角频率并且i指示虚数单位)可以根据下式来扩展成球谐函数的级数:
在等式(40)中,cs标记声速,并且k标记角波数(angular wave number),其按照与角频率ω相关。另外,jn(·)标记第一类球贝塞尔函数(spherical Besselfunctions of the first kind),并且标记阶n和度数m的实值球谐函数,其在下面的部分C.1中定义。扩展系数仅取决于角波数k。在上文,已经隐含地假设声压在空间上是带限的(band limited)。因此,球谐函数的级数关于在被称作HOA表示的阶的上限N处的阶索引n而被截断。
如果声场由从角度元组(θ,φ)指定的所有可能方向到达的不同角频率ω的无限数量的平面谐波的叠加来表示,则可以示出(参看B.Rafaely,“Plane-wave Decompositionof the Sound Field on a Sphere by Spherical Convolution”,Journal of theAcoustical Society of America,第4卷(116),2149-2157页,2004年),各个平面波复数幅度函数C(ω,θ,φ)可以由下面的球谐函数扩展来表示
其中扩展系数按照与扩展系数相关。
假设各个系数是角频率ω的函数,逆傅里叶变换(由标记)的应用针对每个阶n和度数m提供时域函数
其可以按照
收集在单个矢量c(t)中。矢量c(t)内的时域函数的位置索引由n(n+1)+1+m给出。矢量c(t)中元素的总数量由O=(N+1)2给出。
最终的高保真度立体声响复制格式将使用采样频率fS的c(t)的采样版本提供为
其中TS=1/fS标记采样周期。c(lTS)的元素在这里被称作高保真度立体声响复制系数。时序信号是实值的,并且因此高保真度立体声响复制系数是实值的。
C.1实值球谐函数的定义
实值的球谐函数由
给出,其中
相关联的勒让德函数(Legendre functions)Pn,m(x)使用勒让德多项式Pn(x)定义为
并且不像上面提及的Williams的文章,没有康登-肖特莱相位项(Condon-Shortley phase term)(-1)m。
C.2更高阶高保真度立体声响复制的空间分辨率
从方向Ω0=(θ0,φ0)T到达的一般平面波函数x(t)在HOA中由下式表示
平面波幅度的对应空间密度由下式给出
从等式(51)中可以看出,其是一般平面波函数x(t)与空间分散函数vN(Θ)的乘积,其可以显示为仅取决于Ω与Ω0之间的角度Θ,具有如下性质
cosΘ=cosθcosθ0+cos(φ-φ0)sinθsinθ0. (52)
如预期的那样,在无限阶的极限下,亦即N→∞,空间分散函数变成狄拉克德尔塔(Dirac delta)δ(·),亦即
然而,在有限阶N的情况下,来自方向Ω0的一般平面波的贡献被抹去到邻近方向,其中模糊的程度随着增加的阶而减小。在图5中示出N的不同值的规一化函数vN(Θ)的图表。
应当指出,对于任何方向Ω,平面波幅度的空间密度的时域行为是它在任何其他方向上的行为的倍数。特别地,一些固定的方向Ω1和Ω2的函数c(t,Ω1)和c(t,Ω2)关于时间t彼此高度相关。
C.3球谐函数变换
如果平面波幅度的空间密度在几乎均匀分布在单位球面上的数量O个空间方向Ωo(1≤o≤O)上是离散的,则获得O个定向信号c(t,Ωo)。通过使用等式(50)将这些信号收集到矢量中,作为
cSPAT(t):=[c(t,Ω1)...c(t,ΩO)]T, (54)
,可以验证可以通过简单的矩阵乘法根据在等式(44)中定义的连续的高保真度立体声响复制表示d(t)将该矢量计算为
cSPAT(t)=ΨHc(t), (55)
其中(·)H指示联合点转置和结合(joint transposition and conjugation),并且Ψ标记由下式定义的模式矩阵
Ψ:=[S1....SO] (56)
其中
因为方向Ωo几乎均匀分布在单位球面上,所以模式矩阵一般是可逆的。因此,可以按照下式根据定向信号c(t,Ωo)来计算连续的高保真度立体声响复制表示
c(t)=Ψ-HcSPAT(t). (58)
两个等式构成高保真度立体声响复制表示与空间域之间的变换和逆变换。这些变换在这里被称作球谐函数变换和逆球谐函数变换。
应当注意,因为方向Ωo几乎均匀分布在单位球面上,近似
ΨH≈Ψ-1 (59)
是可用的,这证明在等式(55)中使用Ψ-1来替代ΨH是正当的。
有利地,所有所提及的关系对于离散的时域也是有效的。
本发明的处理可以由单个处理器或电子电路或者由并行操作和/或在本发明的处理的几个部分上操作的若干处理器或电子电路来执行。
Claims (22)
1.一种使用固定数量(I)个感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩的方法,其使用HOA系数序列的输入时帧所述方法包括基于逐个帧地执行的下面的步骤:
-对当前帧估计(13)支配方向的集合以及检测到的定向信号的索引的对应数据集
-从所述当前帧的HOA系数序列中分离(14,15)非固定数量(M)个定向信号,其具有包含在支配方向估计的集合中的各自方向并且具有所述定向信号的索引的各自延迟的数据集,其中所述非固定数量(M)小于所述固定数量(I),
以及由减少的数量的HOA系数序列以及所述减少的数量的环境HOA系数序列的索引的对应数据集表示的环境HOA分量,所述减少的数量对应于所述固定数量(I)与所述非固定数量(M)之间的差值;
-将所述定向信号以及所述环境HOA分量的HOA系数序列分配(16)给数量对应于所述固定数量(I)的信道的帧,其中对于所述分配,使用所述定向信号的索引的延迟的数据集以及所述减少的数量的环境HOA系数序列的索引的数据集;
-对所分配的帧的信道进行感知编码(17),以便提供经编码的压缩帧。
2.根据权利要求1所述的方法,其中所述非固定数量(M)个定向信号根据感知相关的标准来确定,使得:
-经对应地解压缩的HOA表示提供可以使用用于压缩的固定的给定数量的信道来实现的最低可感知误差,其中所述标准考虑下面的误差:
--由使用不同数量的所述定向信号和不同数量的环境HOA分量的HOA系数序列而引起的建模误差;
--由所述定向信号的感知编码引入的量化噪声;
--通过对所述环境HOA分量的各个HOA系数序列进行编码而引入的量化噪声;
-关于其可感知性,针对多个测试方向和多个临界带,考虑由上面三个误差导致的总误差;
-选择所述非固定数量(M)个定向信号,以最小化平均可感知误差或最大可感知误差,以便实现所述最低可感知误差。
3.根据权利要求1所述的方法,其中表示环境HOA分量的减少的数量的HOA系数序列的选择根据在下面三种情况之间有区别的标准来执行:
-如果所述当前帧(k)的HOA系数序列的数量与前一帧(k-1)的相同,则选择与所述前一帧中相同的HOA系数序列;
-如果所述当前帧(k)的HOA系数序列的数量小于所述前一帧(k-1)的数量,则从所述前一帧中使得在所述前一帧中分配给由定向信号占据的所述当前帧中的信道的那些HOA系数序列不活动;
-如果所述当前帧(k)的HOA系数序列的数量大于所述前一帧(k-1)的数量,则在所述当前帧中还选择在所述前一帧中被选择的那些HOA系数序列,并且这些另外的HOA系数序列可以根据它们的感知重要性或者根据最高平均功率来选择。
4.根据权利要求1所述的方法,其中所述分配(16)执行如下:
-将活动的定向信号分配给指定的信道,使得它们保存它们的信道索引,以便获得连续的信号用于所述感知编码(17);
-分配所述环境HOA分量的HOA系数序列,使得最小数量(ORED)个这样的系数序列总是包含在对应数量(ORED)个最后的信道中;
-为了分配所述环境HOA分量的另外的HOA系数序列,确定它们是否也在前一帧(k-1)中被选择:
--如果是,则这些HOA系数序列到将被感知编码(17)的信道的分配(16)与针对所述前一帧的相同;
--如果不是并且如果HOA系数序列是新选择的,则HOA系数序列首先关于它们的索引以升序布置并且以此顺序分配给还没有被定向信号占据的将被感知编码(17)的信道。
5.根据权利要求1所述的方法,其中ORED是表示所述环境HOA分量的HOA系数序列的数量,并且其中描述所述分配(16)的参数被布置为位阵列,所述位阵列的长度对应于用于表示所述环境HOA分量的HOA系数序列的数量ORED加之所使用的HOA系数序列的另外的数量,并且所述位阵列中的每个第o位指示第(ORED+o)个另外的HOA系数序列是否被用于表示所述环境HOA分量。
6.根据权利要求1所述的方法,其中描述所述分配(16)的参数被布置为分配矢量,所述分配矢量的长度对应于不活动的定向信号的数量,所述矢量的元素指示环境HOA分量的另外的HOA系数序列中的哪些被分配给具有不活动的定向信号的信道。
7.根据权利要求1至6中的一项所述的方法,其中所述当前帧的HOA系数序列的所述分离(14)还提供可以在解压缩侧用于根据所述定向信号来预测原始HOA表示的部分的参数。
8.根据权利要求4所述的方法,其中所述分配(16)提供分配矢量(γ(k)),所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到具有不活动的定向信号的信道中的信息。
9.一种使用固定数量(I)个感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩的装置,其使用HOA系数序列的输入时帧所述装置执行基于逐个帧的处理并且包括:
-适合于进行如下处理的部件(13):对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集
-适合于进行如下处理的部件(14,15):从所述当前帧的HOA系数序列中分离非固定数量(M)个定向信号,其具有包含在支配方向估计的集合中的各自方向并且具有所述定向信号的索引的各自延迟的数据集,其中所述非固定数量(M)小于所述固定数量(I),
以及由减少的数量的HOA系数序列以及所述减少的数量的环境HOA系数序列的索引的对应数据集表示的环境HOA分量,所述减少的数量对应于所述固定数量(I)与所述非固定数量(M)之间的差值;
-适合于进行如下处理的部件(16):将所述定向信号以及所述环境HOA分量的HOA系数序列分配给数量对应于所述固定数量(I)的信道的帧,从而获得描述所述分配的所选择的环境HOA系数序列的索引的参数,其可以被用于在解压缩侧的对应的重新分布,其中对于所述分配,使用所述定向信号的索引的延迟的数据集以及所述减少的数量的环境HOA系数序列的索引的数据集;
-适合于进行如下处理的部件(17),对所分配的帧的信道进行感知编码(17),以便提供经编码的压缩帧。
10.根据权利要求9所述的装置,其中所述非固定数量(M)个定向信号根据感知相关的标准来确定,使得:
-经对应地解压缩的HOA表示提供可以使用用于压缩的固定的给定数量的信道来实现的最低可感知误差,其中所述标准考虑下面的误差:
--由使用不同数量的所述定向信号和不同数量的环境HOA分量的HOA系数序列而引起的建模误差;
--由所述定向信号的感知编码引入的量化噪声;
--通过对所述环境HOA分量的各个HOA系数序列进行编码而引入的量化噪声;
-关于其可感知性,针对多个测试方向和多个临界带,考虑由上面三个误差导致的总误差;
-选择所述非固定数量(M)个定向信号,以最小化平均可感知误差或最大可感知误差,以便实现所述最低可感知误差。
11.根据权利要求9所述的装置,其中表示环境HOA分量的减少的数量的HOA系数序列的选择根据在下面三种情况之间有区别的标准来执行:
-如果所述当前帧(k)的HOA系数序列的数量与前一帧(k-1)的相同,则选择与所述前一帧中相同的HOA系数序列;
-如果所述当前帧(k)的HOA系数序列的数量小于所述前一帧(k-1)的数量,则从所述前一帧中使得在所述前一帧中分配给由定向信号占据的所述当前帧中的信道的那些HOA系数序列不活动;
-如果所述当前帧(k)的HOA系数序列的数量大于所述前一帧(k-1)的数量,则在所述当前帧中还选择在所述前一帧中被选择的那些HOA系数序列,并且这些另外的HOA系数序列可以根据它们的感知重要性或者根据最高平均功率来选择。
12.根据权利要求9所述的装置,其中所述分配(16)执行如下:
-将活动的定向信号分配给指定的信道,使得它们保存它们的信道索引,以便获得连续的信号用于所述感知编码(17);
-分配所述环境HOA分量的HOA系数序列,使得最小数量(ORED)个这样的系数序列总是包含在对应数量(ORED)个最后的信道中;
-为了分配所述环境HOA分量的另外的HOA系数序列,确定它们是否也在前一帧(k-1)中被选择:
--如果是,则这些HOA系数序列到将被感知编码(17)的信道的分配(16)与针对所述前一帧的相同;
--如果不是并且如果HOA系数序列是新选择的,则HOA系数序列首先关于它们的索引以升序布置并且以此顺序分配给还没有被定向信号占据的将被感知编码(17)的信道。
13.根据权利要求9所述的装置,其中ORED是表示所述环境HOA分量的HOA系数序列的数量,并且其中描述所述分配(16)的参数被布置为位阵列,所述位阵列的长度对应于用于表示所述环境HOA分量的HOA系数序列的数量ORED加之所使用的HOA系数序列的另外的数量,并且所述位阵列中的每个第o位指示第(ORED+o)个另外的HOA系数序列是否被用于表示所述环境HOA分量。
14.根据权利要求9所述的装置,其中描述所述分配(16)的参数被布置为分配矢量,所述分配矢量的长度对应于不活动的定向信号的数量,所述矢量的元素指示环境HOA分量的另外的HOA系数序列中的哪些被分配给具有不活动的定向信号的信道。
15.根据权利要求9至14中的一项所述的装置,其中所述当前帧的HOA系数序列的所述分离(14)还提供可以在解压缩侧用于根据所述定向信号来预测原始HOA表示的部分的参数。
16.根据权利要求12所述的装置,其中所述分配(16)提供分配矢量(γ(k)),所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到具有不活动的定向信号的信道中的信息。
17.一种对根据权利要求1所述的方法进行压缩的更高阶高保真度立体声响复制表示进行解压缩的方法,所述解压缩包括步骤:
-对当前的经编码的压缩帧进行感知解码(31),以便提供信道的经感知解码的帧;
-使用定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布(32)信道的经感知解码的帧,以便重新创建定向信号的对应帧以及环境HOA分量的对应帧;
-使用检测到的定向信号的索引的数据集以及支配方向估计的集合从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的重新创建的帧、所预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧。
18.根据权利要求17所述的方法,其中关于均匀分布的方向的定向信号的所述预测使用用于所述预测的所接收到的参数根据所述定向信号来执行。
19.根据权利要求17或18所述的方法,其中在所述重新分布(32)中,代替检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,使用接收到的分配矢量(γ(k)),所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到不活动的定向信号的信道中的信息。
20.一种对根据权利要求1所述的方法进行压缩的更高阶高保真度立体声响复制表示进行解压缩的装置,所述装置包括:
-适合于进行如下处理的部件(31):对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-适合于进行如下处理的部件(32):使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及环境HOA分量的对应帧;
-适合于进行如下处理的部件(33):使用检测到的定向信号的索引的数据集以及支配方向估计的集合从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的重新创建的帧、所预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧。
21.根据权利要求20所述的装置,其中关于均匀分布的方向的定向信号的所述预测使用用于所述预测的所接收到的参数根据所述定向信号来执行。
22.根据权利要求20或21所述的装置,其中在所述重新分布(32)中,代替检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,使用接收到的分配矢量(γ(k)),所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到不活动的定向信号的信道中的信息。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710583301.5A CN107293304B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583285.XA CN107146626B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583291.5A CN107146627B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583292.XA CN107180639B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13305558.2 | 2013-04-29 | ||
EP13305558.2A EP2800401A1 (en) | 2013-04-29 | 2013-04-29 | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
PCT/EP2014/058380 WO2014177455A1 (en) | 2013-04-29 | 2014-04-24 | Method and apparatus for compressing and decompressing a higher order ambisonics representation |
Related Child Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710583301.5A Division CN107293304B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583291.5A Division CN107146627B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583292.XA Division CN107180639B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583285.XA Division CN107146626B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105144752A CN105144752A (zh) | 2015-12-09 |
CN105144752B true CN105144752B (zh) | 2017-08-08 |
Family
ID=48607176
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710583292.XA Active CN107180639B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583285.XA Active CN107146626B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201480023877.0A Active CN105144752B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583301.5A Active CN107293304B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583291.5A Active CN107146627B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710583292.XA Active CN107180639B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583285.XA Active CN107146626B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710583301.5A Active CN107293304B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
CN201710583291.5A Active CN107146627B (zh) | 2013-04-29 | 2014-04-24 | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 |
Country Status (10)
Country | Link |
---|---|
US (9) | US9736607B2 (zh) |
EP (5) | EP2800401A1 (zh) |
JP (7) | JP6395811B2 (zh) |
KR (5) | KR102232486B1 (zh) |
CN (5) | CN107180639B (zh) |
CA (8) | CA3168916A1 (zh) |
MX (5) | MX347283B (zh) |
MY (2) | MY176454A (zh) |
RU (1) | RU2668060C2 (zh) |
WO (1) | WO2014177455A1 (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US9412385B2 (en) * | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
EP2824661A1 (en) | 2013-07-11 | 2015-01-14 | Thomson Licensing | Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9922656B2 (en) * | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
CN117253494A (zh) | 2014-03-21 | 2023-12-19 | 杜比国际公司 | 用于对压缩的hoa信号进行解码的方法、装置和存储介质 |
KR101846484B1 (ko) | 2014-03-21 | 2018-04-10 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치 |
EP2922057A1 (en) | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
CN113808598A (zh) | 2014-06-27 | 2021-12-17 | 杜比国际公司 | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法 |
CN106471822B (zh) | 2014-06-27 | 2019-10-25 | 杜比国际公司 | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备 |
EP2960903A1 (en) | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
KR102606212B1 (ko) | 2014-06-27 | 2023-11-29 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현 |
EP3164867A1 (en) | 2014-07-02 | 2017-05-10 | Dolby International AB | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
EP2963949A1 (en) | 2014-07-02 | 2016-01-06 | Thomson Licensing | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation |
US9794714B2 (en) | 2014-07-02 | 2017-10-17 | Dolby Laboratories Licensing Corporation | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation |
EP2963948A1 (en) | 2014-07-02 | 2016-01-06 | Thomson Licensing | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation |
WO2016001354A1 (en) | 2014-07-02 | 2016-01-07 | Thomson Licensing | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
US9536531B2 (en) | 2014-08-01 | 2017-01-03 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
EP3007167A1 (en) | 2014-10-10 | 2016-04-13 | Thomson Licensing | Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field |
US12087311B2 (en) | 2015-07-30 | 2024-09-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding an HOA representation |
EP3329486B1 (en) | 2015-07-30 | 2020-07-29 | Dolby International AB | Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation |
WO2017036609A1 (en) | 2015-08-31 | 2017-03-09 | Dolby International Ab | Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal |
US9881628B2 (en) * | 2016-01-05 | 2018-01-30 | Qualcomm Incorporated | Mixed domain coding of audio |
PL3338462T3 (pl) | 2016-03-15 | 2020-03-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie, sposób lub program komputerowy do generowania opisu pola dźwięku |
US10332530B2 (en) | 2017-01-27 | 2019-06-25 | Google Llc | Coding of a soundfield representation |
US10777209B1 (en) | 2017-05-01 | 2020-09-15 | Panasonic Intellectual Property Corporation Of America | Coding apparatus and coding method |
US10405126B2 (en) * | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
WO2020008112A1 (en) * | 2018-07-03 | 2020-01-09 | Nokia Technologies Oy | Energy-ratio signalling and synthesis |
CN110113119A (zh) * | 2019-04-26 | 2019-08-09 | 国家无线电监测中心 | 一种基于人工智能算法的无线信道建模方法 |
CN114582357A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 一种音频编解码方法和装置 |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
CN115938388A (zh) * | 2021-05-31 | 2023-04-07 | 华为技术有限公司 | 一种三维音频信号的处理方法和装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5757927A (en) * | 1992-03-02 | 1998-05-26 | Trifield Productions Ltd. | Surround sound apparatus |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP3700254B2 (ja) * | 1996-05-31 | 2005-09-28 | 日本ビクター株式会社 | 映像音声再生装置 |
AUPP272598A0 (en) * | 1998-03-31 | 1998-04-23 | Lake Dsp Pty Limited | Wavelet conversion of 3-d audio signals |
US6931370B1 (en) * | 1999-11-02 | 2005-08-16 | Digital Theater Systems, Inc. | System and method for providing interactive audio in a multi-channel audio environment |
EP1377967B1 (en) * | 2001-04-13 | 2013-04-10 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
AUPR647501A0 (en) * | 2001-07-19 | 2001-08-09 | Vast Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
WO2003091989A1 (en) * | 2002-04-26 | 2003-11-06 | Matsushita Electric Industrial Co., Ltd. | Coding device, decoding device, coding method, and decoding method |
US7081883B2 (en) * | 2002-05-14 | 2006-07-25 | Michael Changcheng Chen | Low-profile multi-channel input device |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
EP2005420B1 (fr) * | 2006-03-15 | 2011-10-26 | France Telecom | Dispositif et procede de codage par analyse en composante principale d'un signal audio multi-canal |
EP1841284A1 (en) * | 2006-03-29 | 2007-10-03 | Phonak AG | Hearing instrument for storing encoded audio data, method of operating and manufacturing thereof |
EP2094032A1 (en) * | 2008-02-19 | 2009-08-26 | Deutsche Thomson OHG | Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same |
EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
CN103366755B (zh) * | 2009-02-16 | 2016-05-18 | 韩国电子通信研究院 | 对音频信号进行编码和解码的方法和设备 |
WO2011117399A1 (en) * | 2010-03-26 | 2011-09-29 | Thomson Licensing | Method and device for decoding an audio soundfield representation for audio playback |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
CN102903366A (zh) * | 2012-09-18 | 2013-01-30 | 重庆大学 | 一种基于g729语音压缩编码算法的dsp优化方法 |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2765791A1 (en) | 2013-02-08 | 2014-08-13 | Thomson Licensing | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
-
2013
- 2013-04-29 EP EP13305558.2A patent/EP2800401A1/en not_active Withdrawn
-
2014
- 2014-04-24 KR KR1020157030836A patent/KR102232486B1/ko active IP Right Grant
- 2014-04-24 CA CA3168916A patent/CA3168916A1/en active Pending
- 2014-04-24 KR KR1020227030177A patent/KR102672762B1/ko active IP Right Grant
- 2014-04-24 CA CA3168906A patent/CA3168906A1/en active Pending
- 2014-04-24 CN CN201710583292.XA patent/CN107180639B/zh active Active
- 2014-04-24 EP EP19190807.8A patent/EP3598779B1/en active Active
- 2014-04-24 KR KR1020227009114A patent/KR102440104B1/ko active IP Right Grant
- 2014-04-24 KR KR1020217008387A patent/KR102377798B1/ko active IP Right Grant
- 2014-04-24 CA CA3110057A patent/CA3110057C/en active Active
- 2014-04-24 KR KR1020247018485A patent/KR20240096662A/ko unknown
- 2014-04-24 MY MYPI2015703265A patent/MY176454A/en unknown
- 2014-04-24 US US14/787,978 patent/US9736607B2/en active Active
- 2014-04-24 CN CN201710583285.XA patent/CN107146626B/zh active Active
- 2014-04-24 CN CN201480023877.0A patent/CN105144752B/zh active Active
- 2014-04-24 EP EP17169936.6A patent/EP3232687B1/en active Active
- 2014-04-24 MX MX2015015016A patent/MX347283B/es active IP Right Grant
- 2014-04-24 EP EP21190296.0A patent/EP3926984B1/en active Active
- 2014-04-24 CA CA3190353A patent/CA3190353A1/en active Pending
- 2014-04-24 RU RU2015150988A patent/RU2668060C2/ru active
- 2014-04-24 JP JP2016509473A patent/JP6395811B2/ja active Active
- 2014-04-24 EP EP14723023.9A patent/EP2992689B1/en active Active
- 2014-04-24 CN CN201710583301.5A patent/CN107293304B/zh active Active
- 2014-04-24 CA CA3168901A patent/CA3168901A1/en active Pending
- 2014-04-24 CA CA3190346A patent/CA3190346A1/en active Pending
- 2014-04-24 WO PCT/EP2014/058380 patent/WO2014177455A1/en active Application Filing
- 2014-04-24 CA CA3168921A patent/CA3168921A1/en active Pending
- 2014-04-24 CA CA2907595A patent/CA2907595C/en active Active
- 2014-04-24 CN CN201710583291.5A patent/CN107146627B/zh active Active
-
2015
- 2015-10-27 MX MX2022012186A patent/MX2022012186A/es unknown
- 2015-10-27 MX MX2022012179A patent/MX2022012179A/es unknown
- 2015-10-27 MX MX2020002786A patent/MX2020002786A/es unknown
- 2015-10-27 MX MX2022012180A patent/MX2022012180A/es unknown
-
2017
- 2017-07-14 US US15/650,674 patent/US9913063B2/en active Active
-
2018
- 2018-01-22 US US15/876,442 patent/US10264382B2/en active Active
- 2018-08-28 JP JP2018158976A patent/JP6606241B2/ja active Active
-
2019
- 2019-01-11 MY MYPI2019000036A patent/MY195690A/en unknown
- 2019-04-09 US US16/379,091 patent/US10623878B2/en active Active
- 2019-10-17 JP JP2019190235A patent/JP6818838B2/ja active Active
-
2020
- 2020-04-06 US US16/841,203 patent/US10999688B2/en active Active
- 2020-12-28 JP JP2020218142A patent/JP7023342B2/ja active Active
-
2021
- 2021-04-29 US US17/244,746 patent/US11284210B2/en active Active
-
2022
- 2022-02-08 JP JP2022017626A patent/JP7270788B2/ja active Active
- 2022-03-21 US US17/700,228 patent/US11758344B2/en active Active
- 2022-03-21 US US17/700,390 patent/US11895477B2/en active Active
-
2023
- 2023-04-25 JP JP2023071244A patent/JP7511707B2/ja active Active
-
2024
- 2024-02-02 US US18/431,580 patent/US20240259743A1/en active Pending
- 2024-06-25 JP JP2024101601A patent/JP2024123190A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105144752B (zh) | 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 | |
CN110662158B (zh) | 用于解码声音或声场的压缩hoa声音表示的方法和装置 | |
CN112216292A (zh) | 声音或声场的压缩hoa声音表示的解码方法和装置 | |
CN112908349A (zh) | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备 | |
CN113808598A (zh) | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法 | |
CN111179955B (zh) | 包括编码hoa表示的位流的解码方法和装置、以及介质 | |
RU2776307C2 (ru) | Способ и устройство для сжатия и распаковки представления на основе амбиофонии высшего порядка |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160714 Address after: Amsterdam Applicant after: Dolby International AB Address before: I Si Eli Murli Nor, France Applicant before: Thomson Licensing SA |
|
GR01 | Patent grant | ||
GR01 | Patent grant |