CN107146626B - 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 - Google Patents

对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 Download PDF

Info

Publication number
CN107146626B
CN107146626B CN201710583285.XA CN201710583285A CN107146626B CN 107146626 B CN107146626 B CN 107146626B CN 201710583285 A CN201710583285 A CN 201710583285A CN 107146626 B CN107146626 B CN 107146626B
Authority
CN
China
Prior art keywords
hoa
coefficient sequences
frame
hoa coefficient
directional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710583285.XA
Other languages
English (en)
Other versions
CN107146626A (zh
Inventor
A.克勒格尔
S.科登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN107146626A publication Critical patent/CN107146626A/zh
Application granted granted Critical
Publication of CN107146626B publication Critical patent/CN107146626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开涉及对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。更高阶高保真度立体声响复制表示独立于具体扬声器设置的三维声音。然而,HOA表示的传输导致非常高的比特率。因此,使用具有固定数量的信道的压缩,其中有区别地处理定向和环境信号分量。环境HOA分量由最小数量的HOA系数序列表示。剩余的信道包含定向信号或者环境HOA分量的另外的系数序列,取决于什么将导致最佳的感知质量。该处理可以基于逐个帧地改变。

Description

对更高阶高保真度立体声响复制表示进行压缩和解压缩的方 法和装置
本申请是申请号为201480023877.0、申请日为2014年4月24日、发明名称为“对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置”的发明专利申请的分案申请。
技术领域
本发明涉及通过有区别地处理定向和环境信号分量对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。
背景技术
更高阶高保真度立体声响复制(HOA)连同像波长合成(WFS)这样的其他技术或者像22.2这样的基于信道的方法一起提供表示三维声音的一种可能性。然而,相对于基于信道的方法,HOA表示提供独立于具体扬声器设置的优点。然而,这个灵活性以HOA表示在特殊的扬声器设置上回放所必需的解码处理为代价。与必需的扬声器的数量通常非常大的WFS方法相比,HOA还可以被呈现给包括仅几个扬声器的设置。HOA的另外的优点在于,对于到头戴耳机的双耳呈现,也可以使用相同的表示而不用做任何修改。
HOA基于按照截断的球谐(Spherical Harmonics,SH)扩展的复谐平面波(complexharmonic plane wave)幅度的空间密度的表示。每个扩展系数是角频率的函数,其可以由时域函数等同地表示。因此,在不失一般性的情况下,完整的HOA声场表示实际上可以被假设为包括O个时域函数,其中O标记扩展系数的数量。这些时域函数将等同地被称作HOA系数序列或者称作 HOA信道。
HOA表示的空间分辨率随着扩展的最大阶N的增长而提高。不幸地,扩展系数的数量O随着阶N二次方地增长,具体地,O=(N+1)2。例如,使用阶 N=4的典型的HOA表示需要O=25个HOA(扩展)系数。根据先前做出的考虑,给定期望的单信道采样率fS和每个样本的位数Nb,用于传输HOA表示的总比特率由O·fS·Nb确定。因此,以fS=48kHz的采样率并且使用每个样本Nb=16位来传输阶N=4的HOA表示导致19.2MBits/s的比特率,这对于许多实际的应用(例如对于流传输)非常高。
HOA声场表示的压缩在专利申请EP 12306569.0和EP 12305537.8中提出。代替单独地对HOA系数序列中的每一个进行感知编码,例如像在E. Hellerud、I.Burnett、A.Solvang和U.P.Svensson的“Encoding Higher Order Ambisonics with AAC”(第124届AES会议,阿姆斯特丹,2008年)中执行的那样,具体通过执行声场分析并且将给定的HOA表示分解成定向和残余环境分量来试图减少被感知编码的信号的数量。定向分量通常应当由可以被视为一般平面波函数的少量的支配定向信号来表示。残余环境HOA分量的阶减小,因为假设在提取支配定向信号之后,更低阶的HOA系数承载大部分相关信息。
发明内容
总之,通过这样的操作,要被感知编码的HOA系数序列的初始数量 (N+1)2被减少至固定数量的D个支配定向信号以及表示具有截断的阶 NRED<N的残余环境HOA分量的数量(NRED+1)2个HOA系数序列,从而要编码的信号的数量是固定的,亦即D+(NRED+1)2。特别地,该数量独立于在时帧 (time frame)k中的活动的支配(dominant)定向声源的实际检测到的数量 DACT(k)≤D。这意味着,在时帧k中,其中活动的支配定向声源的实际检测到的数量DACT(k)小于定向信号的最大允许数量D,要被感知编码的支配定向信号中的一些或者甚至是全部为零。最后,这意味着这些信道根本不用于捕捉声场的相关信息。
在该背景下,EP 12306569.0和EP 12305537.8会议录中的另外可能的弱点是用于在每个时帧中确定活动的支配定向信号的数量的标准,因为不试图确定关于声场的相继感知编码的活动的支配定向信号的最佳数量。例如,在 EP 12305537.8中,使用简单的功率标准,也就是通过确定属于最大特征值的系数间相关矩阵的子空间的维度,来估计支配声源的量。在EP 12306569.0 中,提出对支配定向声源的递增检测,其中如果来自各自方向的平面波函数的功率关于第一定向信号足够高,则定向声源被认为是支配的。使用像在 EP12306569.0和EP 12305537.8中那样的基于功率的标准可能导致关于声场的感知编码是次优的定向环境分解(directional-ambient decomposition)。
本发明所要解决的问题是通过对当前的HOA音频信号内容确定如何分配到预先确定的减少数量的信道、定向信号以及环境HOA分量的系数来改进HOA压缩。该问题由在本公开的实施例中公开的方法来解决。使用这些方法的装置在本公开的实施例中公开。
本发明在两个方面改进在EP 12306569.0中提出的压缩处理。第一,更好地利用由将被感知编码的给定数量的信道提供的带宽。在没有检测到支配声源信号的时帧中,最初被保留用于支配定向信号的信道被用于以残余环境 HOA分量的另外的HOA系数序列的形式来捕捉关于环境分量的另外的信息。第二,考虑到利用给定数量的信道对给定HOA声场表示进行感知编码的目标,关于该目的,适配用于确定要从HOA表示中提取的定向信号的量的标准。确定定向信号的数量,使得经解码和重构的HOA表示提供最低的感知误差。该标准比较由提取定向信号并且使用更少的HOA系数序列来描述残余环境HOA分量而引起的建模误差,或者由不提取定向信号并且代替地使用另外的HOA系数序列来描述残余环境HOA分量而引起的建模误差。该标准进一步针对两种情况考虑由定向信号和残余环境HOA分量的HOA 系数序列的感知编码引入的量化噪声的空间功率分布。
为了实现上述处理,在开始HOA压缩之前,指定总数量I个信号(信道),与其相比,HOA系数序列的最初数量O减少。假设环境HOA分量由最小数量ORED个HOA系数序列来表示。在一些情况下,该最小数量可以是零。剩余的D=I-ORED个信道应当包含定向信号或者环境HOA分量的另外的系数序列,取决于定向信号提取处理决定什么在感知上更有意义。假设定向信号或者环境HOA分量系数序列到剩余的D个通道的分配可基于逐个帧(on frame-by-frame basis)地改变。为了在接收侧重构声场,将关于分配的信息作为额外的边信息(sideinformation)来传输。
原则上,本发明的压缩方法适合于使用固定数量的感知编码对被标记为 HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述方法包括基于逐个帧地执行的下面的步骤:
-对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境 HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集;
-对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的压缩装置适合于使用固定数量的感知编码对被标记为 HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述装置执行基于逐个帧的处理并且包括:
-适合于进行如下处理的部件:对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-适合于进行如下处理的部件:将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境 HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-适合于进行如下处理的部件:将所述定向信号以及所述残余环境HOA 分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境 HOA系数序列的索引的数据集;
-适合于进行如下处理的部件:对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的解压缩方法适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述解压缩包括步骤:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
原则上,本发明的解压缩装置适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述装置包括:
-适合于进行如下处理的部件:对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
在相应的说明书记载中公开本发明的有利的另外的实施例。
附图说明
参考附图描述本发明的示例性实施例,其中:
图1示出HOA压缩的框图;
图2示出支配声源方向的估计;
图3示出HOA解压缩的框图;
图4示出球面坐标系;
图5示出对于不同的高保真度立体声响复制阶N以及对于角度θ∈[0,π]的规一化分散函数vN(Θ)。
具体实施方式
A.改进的HOA压缩
在图1中例示根据本发明的基于EP 12306569.0的压缩处理,其中使用粗体框显示与EP 12306569.0相比较已经修改或者新引入的信号处理块,并且其中本申请中的′g′(如这样的方向估计)和′C′分别对应于EP 12306569.0中的′A′(方向估计的矩阵)和′D′。对于HOA压缩,使用长度L的HOA系数序列的不重叠的输入帧C(k)的逐帧(frame-wise)的处理被使用,其中k标记帧索引。关于在等式(45)中指定的HOA系数序列将帧定义为:
C(k):=[c((kL+1)Ts)c((kL+2)Ts)c((k+1)LTs)], (1) 其中TS指示采样周期。
图1中的第一步骤或阶段11/12是可选的,并且包括将HOA系数序列的不重叠的第k和(k-1)帧串接成长帧
Figure BDA0001352841910000061
为:
Figure BDA0001352841910000062
该长帧与相邻的长帧50%重叠,并且该长帧被相继地用于支配声源方向的估计。与
Figure BDA0001352841910000063
的标记法类似,在下面的描述中使用波浪符号来指示相应的量指代长的重叠的帧。如果步骤/阶段11/12不存在,则波浪符号没有具体含意。
原则上,如在EP 13305156.5中所提出的那样地执行支配声源的估计步骤或阶段13,但是具有重要的修改。修改涉及确定要检测的方向的量,亦即应当从HOA表示中提取多少定向引号。这通过只有在与替代地使用另外的 HOA系数序列进行环境HOA分量的更好的近似相比其在感知上更相关的情况下才激发提取定向信号来实现。在部分A.2中给出对该技术的详细描述。
该估计提供已经检测到的定向信号的索引的数据集
Figure BDA0001352841910000071
以及对应的方向估计的集合
Figure BDA0001352841910000072
D标记在开始HOA压缩之前必须设置的定向信号的最大数量。
在步骤或阶段14中,将HOA系数序列的当前(长)帧
Figure BDA0001352841910000073
分解(如在 EP 13305156.5中提出的那样)成属于集合
Figure BDA0001352841910000074
中包含的方向的许多定向信号XDIR(k-2)以及残余环境HOA分量CAMB(k-2)。作为重叠添加处理的结果引入两个帧的延迟,以便获得平滑信号。假设XDIR(k-2)包含总共D个信道,然而其中只有与活动的定向信号相对应的那些是非零的。指定这些信道的索引假设在数据集
Figure BDA0001352841910000075
中输出。另外,步骤/阶段14中的分解提供在解压缩侧被用于根据定向信号预测原始HOA表示的部分的一些参数ζ(k-2)(更多细节参看EP13305156.5)。
在步骤或阶段15中,智能地减少环境HOA分量CAMB(k-2)的系数的数量,以仅包含ORED+D-NDIR,ACT(k-2)个非零的HOA系数序列,其中
Figure BDA0001352841910000076
指示数据集
Figure BDA0001352841910000077
的基数,亦即帧k-2中的活动的定向信号的数量。因为假设环境HOA分量总是由最小数量ORED个HOA 系数序列表示,所以这个问题实际上可以简化成从可能的O-ORED个HOA系数序列中选择剩余的D-NDIR,ACT(-2)个HOA系数序列。为了获得平滑的减少的环境HOA表示,将该选择实现为使得与在前一帧k-3时进行的选择相比较,尽可能少的变化将发生。
具体地,将区别下面三种情况:
a)NDIR,ACT(k-2)=NDIR,ACT(k-3):在这种情况下,假设选择与在帧k-3中相同的HOA系数序列。
b)NDIR,ACT(k-2)<NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧 k-3中更多的HOA系数序列来表示在当前帧中的环境HOA分量。假设在 k-3中被选择的那些HOA系数序列也在当前帧中被选择。可以根据不同的标准来选择另外的HOA系数序列。例如,选择CAMB(k-2)中具有最高平均功率的那些HOA系数序列,或者关于它们的感知重要性选择HOA系数序列。
c)NDIR,ACT(k-2)>NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧k-3 中更少的HOA系数序列来表示在当前帧中的环境HOA分量。这里需要回答的问题是必须使先前选择的HOA系数序列中的哪些不活动(deactivate)。合理的解决方案是使在帧k-3时在信号分配步骤或阶段16分配给信道
Figure BDA0001352841910000081
的那些序列不活动。
为了避免在使另外的HOA系数序列活动或不活动时在帧边界处的不连续性,使得各个信号平滑地淡入(fade in)或淡出(fade out)是有利的。
具有减少的数量ORED+NDIR,ACT(k-2)个非零系数序列的最终的环境HOA表示由CAMB,RED(k-2)标记。所选择的环境HOA系数序列的索引在数据集
Figure BDA0001352841910000082
中输出。
在步骤/阶段16中,XDIR(k-2)中包含的活动的定向信号和CAMB,RED(k-2)中包含的HOA系数序列被分配给I个信道的帧Y(k-2)以便进行个体的感知编码。为了更详细地描述信号分配,假设帧XDIR(k-2)、Y(k-2)和CAMB,RED(k-2)包括各个信号xDIR,d(k-2),d∈{1,...,D}、yi(k-2),i∈{1,...,I}和 cAMB,RED,o(k-2),o∈{1,...,O},如下:
Figure BDA0001352841910000083
分配活动的定向信号,使得它们保存(keep)它们的信道索引以便获得连续的信号用于相继的感知编码。这可以表示为:
yd(k-2)=xDIR,d(k-2)对于所有
Figure BDA0001352841910000084
(4)
环境分量的HOA系数序列被分配为使得最小数量的ORED个系数序列总是包含在Y(k-2)的最后的ORED个信号中,亦即
yD+o(k-2)=cAMB,RED,o(k-2)对于1≤o≤ORED。 (5)
对于环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列,它们是否也在前一个帧中被选择是有区别的:
a)如果它们也被选择在前一个帧中传输,亦即,如果各自的索引也包含在数据集
Figure BDA0001352841910000091
中,则这些系数序列到Y(k-2)中的信号的分配与对于前一帧的相同。该操作保证平滑的信号yi(k-2),这对于步骤或阶段17中的相继的感知编码是有利的。
b)否则,如果一些系数序列是新选择的,亦即,如果它们的索引包含在数据集
Figure BDA0001352841910000092
中但是不在数据集
Figure BDA0001352841910000093
中,则它们首先关于它们的索引以升序布置,并且以该次序分配给Y(k-2)中尚未被定向信号占据的信道
Figure BDA0001352841910000094
这个具体的分配提供如下优点:在HOA解压缩处理期间,可以在不知道哪个环境HOA系数序列包含在Y(k-2)的哪个信道的情况下执行信号的重新分布和组成。代替地,可以在HOA解压缩期间仅使用数据集
Figure BDA0001352841910000095
Figure BDA0001352841910000096
的知识来重构分配。
有利地,该分配操作还提供分配矢量
Figure BDA0001352841910000097
其元素γo(k) (o=1,...,D-NDIR,ACT(k-2))标记环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列中的每一个的索引。换句话说,分配矢量γ(k)的元素提供关于环境 HOA分量的另外的O-ORED个HOA系数序列中的哪些被分配到具有不活动的定向信号的D-NDIR,ACT(k-2)个信道中的信息。该矢量可以另外地传输,但是相比于按照帧速率不太频繁,以便允许初始化针对HOA解压缩而执行的重新分布过程(参看部分B)。感知编码步骤/阶段17对于帧Y(k-2)的I个信道进行编码,并且输出经编码的帧
Figure BDA0001352841910000098
对于没有从步骤/阶段16传输矢量γ(k)的帧,在解压缩侧,代替矢量γ(k),使用数据参数集
Figure BDA0001352841910000099
Figure BDA00013528419100000910
来执行重新分布。
A.1支配声源方向的估计
在图2中更详细地图示图1的支配声源方向的估计步骤/阶段13。其基本上根据EP13305156.5来执行,但是具有决定性的差异,即确定与要从给定的HOA表示中提取的定向信号的数量相对应的支配声源的数量的方式。这个数量是重要的,因为它用于控制给定的HOA表示是通过使用更多的定向信号还是代替地通过使用更多的HOA系数序列来更好地表示,以对环境 HOA分量更好地建模。
支配声源方向的估计在步骤或阶段21中开始,使用输入的HOA系数序列的长帧
Figure BDA00013528419100000911
对支配声源方向进行初步检索。与初步的方向估计
Figure BDA00013528419100000912
(1≤d≤D)一起,如在EP13305156.5中所描述的那样地计算应当由各个声源创建的对应定向信号
Figure BDA0001352841910000101
和HOA声场分量
Figure BDA0001352841910000102
在步骤或阶段22中,使用这些量以及输入的HOA系数序列的帧
Figure BDA0001352841910000103
来确定要提取的定向信号的数量
Figure BDA0001352841910000104
因此,丢弃方向估计
Figure BDA0001352841910000105
对应的定向信号
Figure BDA0001352841910000106
以及HOA声场分量
Figure BDA0001352841910000107
代替地,然后仅将方向估计
Figure BDA0001352841910000108
分配给先前发现的声源。
在步骤或阶段23中,根据声源运动模型来平滑得到的方向轨迹,并且确定声源中的哪些应当是活动的(参看EP 13305156.5)。最后的操作提供活动的定向声源的索引的集合
Figure BDA0001352841910000109
和对应的方向估计的集合
Figure BDA00013528419100001010
A.2被提取的定向信号的数量的确定
为了在步骤/阶段22中确定定向信号的数量,假设存在将被用于捕捉在感知上最相关的声场信息的给定总量的I个信道的情况。因此,确定要提取的定向信号的数量,由如下问题激发:对于整体的HOA压缩/解压缩质量,当前的HOA表示是通过使用更多的定向信号还是更多的HOA系数序列来更好地表示以对环境HOA分量更好地建模。
为了在步骤/阶段22中导出用于确定要提取的定向声源的数量的标准 (该标准与人类感知相关),考虑具体通过下面的两个运算来实现HOA压缩:
-用于表示环境HOA分量的HOA系数序列的减少(这意味着相关信道的数量的减少);
-定向信号的感知编码以及用于表示环境HOA分量的HOA系数序列的感知编码。
取决于所提取的定向信号的数量M(0≤M≤D),第一个运算近似地得到
Figure BDA00013528419100001011
Figure BDA00013528419100001012
其中
Figure BDA00013528419100001013
标记包括应当由M个单独考虑的声源创建的HOA声场分量
Figure BDA00013528419100001014
(1≤d≤M)的定向分量的HOA表示,并且
Figure BDA00013528419100001015
标记具有仅I-M个非零HOA系数序列的环境分量的HOA表示。
来自第二个运算的近似可以表示为:
Figure BDA0001352841910000111
Figure BDA0001352841910000112
其中
Figure BDA0001352841910000113
Figure BDA0001352841910000114
分别标记在感知解码之后组成的定向和环境HOA分量。
标准的公式化
要提取的定向信号的数量
Figure BDA0001352841910000115
被选择为使得总的近似误差
Figure BDA0001352841910000116
其中
Figure BDA0001352841910000117
关于人类感知尽可能地不显著。为了保证这一点,在预先定义的数量Q个测试方向Ωq(q=1,...,Q)上考虑各个巴克标度(Bark scale)临界带的总误差的定向功率分布,其在单位球面上几乎均匀地分布。更具体地,第b个(b=1,...,B)临界带的定向功率分布由下面的矢量表示:
Figure BDA0001352841910000118
其分量
Figure BDA0001352841910000119
标记与方向Ωq、第b个巴克标度临界带和第k帧相关的总误差
Figure BDA00013528419100001110
的功率。总误差
Figure BDA00013528419100001111
的定向功率分布
Figure BDA00013528419100001112
与下面的由于原始HOA 表示
Figure BDA00013528419100001113
的定向感知掩蔽功率分布进行比较:
Figure BDA00013528419100001114
接下来,对于每个测试方向Ωq和临界带b,计算总误差的感知级别
Figure BDA00013528419100001115
其在这里基本上被定义为总误差
Figure BDA00013528419100001116
的定向功率与根据下式的定向掩蔽功率的比例:
Figure BDA00013528419100001117
执行′1′与相继最大值运算的减法以确保感知级别为零,只要误差功率低于掩蔽阈值。
最后,可以将要提取的定向信号的数量
Figure BDA00013528419100001118
选择为最小化所有临界带上的误差感知级别的最大值的所有测试方向上的平均值,亦即
Figure BDA00013528419100001119
应当注意,替代地,能够在等式(15)中用平均运算替换最大值。
定向感知掩蔽功率分布的计算
为了计算由于原始HOA表示
Figure BDA0001352841910000121
的定向感知掩蔽功率分布
Figure BDA0001352841910000122
将后者变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA0001352841910000123
表示。当以矩阵
Figure BDA0001352841910000124
布置一般平面波信号
Figure BDA0001352841910000125
如下时
Figure BDA0001352841910000126
到空间域的变换由下面的运算来表达
Figure BDA0001352841910000127
其中Ξ标记关于测试方向Ωq(q=1,...,Q)的模式矩阵,被定义为
Figure BDA0001352841910000128
其中Sq:=
Figure BDA0001352841910000129
由于原始HOA表示
Figure BDA00013528419100001210
定向感知掩蔽功率分布
Figure BDA00013528419100001211
的每个元素
Figure BDA00013528419100001212
对应于各个临界带b的一般平面波函数
Figure BDA00013528419100001213
的掩蔽功率。
定向功率分布的计算
下面,给出用于计算定向功率分布
Figure BDA00013528419100001214
的两个替代:
a.一种可能性是通过计算在部分A.2的开始提及的两个运算来实际地计算期望的HOA表示
Figure BDA00013528419100001215
的近似
Figure BDA00013528419100001216
然后,根据等式(11)来计算总的近似误差
Figure BDA00013528419100001217
接下来,将总的近似误差
Figure BDA00013528419100001218
变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA00013528419100001219
表示。以矩阵
Figure BDA00013528419100001220
将一般平面波信号布置为
Figure BDA00013528419100001221
到空间域的变换由下面的运算表示:
Figure BDA0001352841910000131
通过计算各个临界带b内的一般平面波函数
Figure BDA0001352841910000132
的功率来获得总的近似误差
Figure BDA0001352841910000133
的定向功率分布
Figure BDA0001352841910000134
的元素
Figure BDA0001352841910000135
b.替代的解决方案是仅计算近似值
Figure BDA0001352841910000136
而不是
Figure BDA0001352841910000137
该方法提供如下优点:不需要直接执行各个信号的复杂的感知编码。代替地,知道各个巴克标度临界带内的感知量化误差的功率就足够了。为此目的,在等式(11)中定义的总的近似误差可以被写作三个下面的近似误差的总和:
Figure BDA0001352841910000138
Figure BDA0001352841910000139
Figure BDA00013528419100001310
可以假设它们彼此独立。由于这种独立性,总误差
Figure BDA00013528419100001311
的定向功率分布可以表达为三个各个误差
Figure BDA00013528419100001312
Figure BDA00013528419100001313
的定向功率分布的总和。
下面描述如何计算各个巴克标度临界带的三个误差的定向功率分布:
a.为了计算误差
Figure BDA00013528419100001314
的定向功率分布,首先通过下式将其变换到空间域:
Figure BDA00013528419100001315
其中近似误差
Figure BDA00013528419100001316
因此由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA00013528419100001317
表示,其根据下式布置为矩阵
Figure BDA00013528419100001318
Figure BDA00013528419100001319
因此,通过计算各个临界带b内的一般平面波函数
Figure BDA00013528419100001320
(q=1,...,Q)的功率来获得近似误差
Figure BDA00013528419100001321
的定向功率分布
Figure BDA00013528419100001322
的元素
Figure BDA00013528419100001323
b.为了计算误差
Figure BDA00013528419100001324
的定向功率分布
Figure BDA00013528419100001325
考虑到该误差通过对定向信号
Figure BDA00013528419100001326
进行感知编码而被引入到定向HOA分量
Figure BDA0001352841910000141
中。另外,考虑定向HOA分量由等式(8)给出。于是,为了简单,假设HOA分量
Figure BDA0001352841910000142
在空间域中由O个一般平面波函数
Figure BDA0001352841910000143
等同地表示,其通过仅仅缩放根据定向信号
Figure BDA0001352841910000144
来创建,亦即
Figure BDA0001352841910000145
其中
Figure BDA0001352841910000146
标记缩放参数。假设各自的平面波方向
Figure BDA0001352841910000147
Figure BDA0001352841910000148
在单位球面上均匀分布,并且被旋转使得
Figure BDA0001352841910000149
对应于方向估计
Figure BDA00013528419100001410
因此,缩放参数
Figure BDA00013528419100001411
等于′1′。
当关于旋转的方向
Figure BDA00013528419100001412
Figure BDA00013528419100001413
定义为模式矩阵并且根据下式以矢量来布置所有缩放参数
Figure BDA00013528419100001414
时:
Figure BDA00013528419100001415
HOA分量
Figure BDA00013528419100001416
可以写作:
Figure BDA00013528419100001417
因此,真实的定向HOA分量
Figure BDA00013528419100001418
与按照
Figure BDA00013528419100001419
由经感知解码的定向信号
Figure BDA00013528419100001420
组成的定向HOA分量之间的误差
Figure BDA00013528419100001421
(参见等式(23))可以按照各个定向信号中的如下感知编码误差
Figure BDA00013528419100001422
而表示为
Figure BDA00013528419100001423
空间域中关于测试方向Ωq(q=1,...,Q)的误差
Figure BDA00013528419100001424
的表示由下式给出
Figure BDA00013528419100001425
Figure BDA0001352841910000151
标记矢量β(d)(k)的元素,并且假设各个感知编码误差
Figure BDA0001352841910000152
彼此独立,根据等式(35)得出,感知编码误差
Figure BDA0001352841910000153
的定向功率分布
Figure BDA0001352841910000154
的元素
Figure BDA0001352841910000155
由下式计算
Figure BDA0001352841910000156
Figure BDA0001352841910000157
应当表示定向信号
Figure BDA0001352841910000158
中的第b个临界带内的感知量化误差的功率。可以假设该功率对应于定向信号
Figure BDA0001352841910000159
的感知掩蔽功率。
c.为了计算由环境HOA分量的HOA系数序列的感知编码造成的误差
Figure BDA00013528419100001510
的定向功率分布
Figure BDA00013528419100001511
假设每个HOA系数序列被独立地编码。因此,可以假设被引入到每个巴克标度临界带内的各个HOA系数序列中的误差是不相关的。这意味着关于每个巴克标度临界带的误差
Figure BDA00013528419100001512
的系数间相关矩阵是对角线的,亦即
Figure BDA00013528419100001513
Figure BDA00013528419100001514
元素
Figure BDA00013528419100001515
应当表示
Figure BDA00013528419100001516
中的第o个经编码的HOA系数序列中的第b个临界带内的感知量化误差的功率。可以假设它们对应于第o 个HOA系数序列
Figure BDA00013528419100001517
的感知掩蔽功率。因此,感知编码误差
Figure BDA00013528419100001518
的定向功率分布通过下式计算
Figure BDA00013528419100001519
B.改进的HOA解压缩
对应的HOA解压缩处理在图3中图示并且包括下面的步骤或阶段。
在步骤或阶段31中,执行对
Figure BDA00013528419100001520
中包含的I个信号的感知解码以便获得
Figure BDA00013528419100001521
中的I个经解码的信号。
在信号重新分布步骤或阶段32中,重新分布
Figure BDA00013528419100001522
中的经感知解码的信号,以便重新创建定向信号的帧
Figure BDA00013528419100001523
和环境HOA分量的帧
Figure BDA00013528419100001524
通过使用索引数据集
Figure BDA00013528419100001525
Figure BDA00013528419100001526
再现对HOA压缩执行的分配操作,获得关于如何重新分布信号的信息。因为这是递归的过程 (参看部分A),所以可以使用另外传输的分配矢量γ(k),以便允许例如在传输发生故障的情况下初始化重新分布过程。
在组成步骤或阶段33中,使用定向信号的帧
Figure BDA00013528419100001527
活动的定向信号索引的集合
Figure BDA00013528419100001528
以及对应方向的集合
Figure BDA00013528419100001529
用于根据定向信号来预测 HOA表示的部分的参数ζ(k-2)以及减少的环境HOA分量的HOA系数序列的帧
Figure BDA0001352841910000161
根据结合EP12306569.0的图2b和图4描述的处理,重新组成期望的总的HOA表示的当前帧
Figure BDA0001352841910000162
对应于EP 12306569.0中的分量
Figure BDA0001352841910000163
并且
Figure BDA0001352841910000164
Figure BDA0001352841910000165
对应于EP 12306569.0 中的
Figure BDA0001352841910000166
其中活动的定向信号索引在
Figure BDA0001352841910000167
的矩阵元素中标明。亦即,根据定向信号
Figure BDA0001352841910000168
来预测关于均匀分布的方向的定向信号,其中使用用于这样的预测的所接收的参数(ζ(k-2)),并且此后从定向信号的帧
Figure BDA0001352841910000169
预测部分以及减少的环境HOA分量
Figure BDA00013528419100001610
重新组成当前的经解压缩的帧
Figure BDA00013528419100001611
C.更高阶高保真度立体声响复制的基础
更高阶高保真度立体声响复制(HOA)基于补充假设为没有声源的所关注的紧密区域(compact area)内的声场的描述。在该情况下,在所关注的区域内、在时间t时和位置x处的声压p(t,x)的时空行为在物理上由齐性波等式(homogeneous wave equation)充分确定。下面,假设如图4中示出的球面坐标系。在使用的坐标系中,x轴指向前面位置,y轴指向左边并且z轴指向顶部。空间x=(r,θ,φ)T中的位置由半径r>0(亦即,到坐标原点的距离)、从极轴z测量的倾角θ∈[0,π]以及在x-y平面中从x轴逆时针地测量的方位角φ∈[0.2π[来表示。另外,(·)T标记转置。
可以示出(参看E.G.Williams,“Fourier Acoustics”,AppliedMathematicalSciences的93卷,Academic Press,1999年),由
Figure BDA00013528419100001612
标记的关于时间的声压的傅里叶变换,亦即
Figure BDA00013528419100001613
(其中ω标记角频率并且i指示虚数单位)可以根据下式来扩展成球谐函数的级数:
Figure BDA00013528419100001614
在等式(40)中,cs标记声速,并且k标记角波数(angular wave number),其按照
Figure BDA00013528419100001615
与角频率ω相关。另外,jn(·)标记第一类球贝塞尔函数(spherical Besselfunctions of the first kind),并且
Figure BDA00013528419100001616
标记阶n和度数m的实值球谐函数,其在下面的部分C.1中定义。扩展系数
Figure BDA00013528419100001617
仅取决于角波数k。在上文,已经隐含地假设声压在空间上是带限的(band limited)。因此,球谐函数的级数关于在被称作HOA表示的阶的上限N处的阶索引n而被截断。
如果声场由从角度元组(θ,φ)指定的所有可能方向到达的不同角频率ω的无限数量的平面谐波的叠加来表示,则可以示出(参看B.Rafaely,“Plane-wave Decompositionof the Sound Field on a Sphere by Spherical Convolution”,Journal of theAcoustical Society of America,第4卷(116), 2149-2157页,2004年),各个平面波复数幅度函数C(ω,θ,φ)可以由下面的球谐函数扩展来表示
Figure BDA0001352841910000171
其中扩展系数
Figure BDA0001352841910000172
按照
Figure BDA0001352841910000173
与扩展系数
Figure BDA0001352841910000174
相关。
假设各个系数
Figure BDA0001352841910000175
是角频率ω的函数,逆傅里叶变换(由
Figure BDA0001352841910000176
标记)的应用针对每个阶n和度数m提供时域函数
Figure BDA0001352841910000177
其可以按照c(t)= (44)
Figure BDA0001352841910000178
收集在单个矢量c(t)中。矢量c(t)内的时域函数
Figure BDA0001352841910000179
的位置索引由 n(n+1)+1+m给出。矢量c(t)中元素的总数量由O=(N+1)2给出。
最终的高保真度立体声响复制格式将使用采样频率fS的c(t)的采样版本提供为
Figure BDA00013528419100001710
其中TS=1/fS标记采样周期。c(lTS)的元素在这里被称作高保真度立体声响复制系数。时序信号
Figure BDA00013528419100001711
是实值的,并且因此高保真度立体声响复制系数是实值的。
C.1实值球谐函数的定义
实值的球谐函数
Figure BDA00013528419100001712
Figure BDA00013528419100001713
给出,其中
Figure BDA0001352841910000181
相关联的勒让德函数(Legendre functions)Pn,m(x)使用勒让德多项式Pn(x)定义为
Figure BDA0001352841910000182
并且不像上面提及的Williams的文章,没有康登-肖特莱相位项 (Condon-Shortley phase term)(-1)m
C.2更高阶高保真度立体声响复制的空间分辨率
从方向Ω0=(θ0,φ0)T到达的一般平面波函数x(t)在HOA中由下式表示
Figure BDA0001352841910000183
平面波幅度
Figure BDA0001352841910000184
的对应空间密度由下式给出
Figure BDA0001352841910000185
从等式(51)中可以看出,其是一般平面波函数x(t)与空间分散函数vN(Θ)的乘积,其可以显示为仅取决于Ω与Ω0之间的角度Θ,具有如下性质
cosΘ=cosθcosθ0+cos(φ-φ0)sinθsinθ0. (52)
如预期的那样,在无限阶的极限下,亦即N→∞,空间分散函数变成狄拉克德尔塔(Dirac delta)δ(·),亦即
Figure BDA0001352841910000186
然而,在有限阶N的情况下,来自方向Ω0的一般平面波的贡献被抹去到邻近方向,其中模糊的程度随着增加的阶而减小。在图5中示出N的不同值的规一化函数vN(Θ)的图表。
应当指出,对于任何方向Ω,平面波幅度的空间密度的时域行为是它在任何其他方向上的行为的倍数。特别地,一些固定的方向Ω1和Ω2的函数c(t,Ω1) 和c(t,Ω2)关于时间t彼此高度相关。
C.3球谐函数变换
如果平面波幅度的空间密度在几乎均匀分布在单位球面上的数量O个空间方向Ωo(1≤o≤O)上是离散的,则获得O个定向信号c(t,Ωo)。通过使用等式(50)将这些信号收集到矢量中,作为
cSPAT(t):=[c(t,Ω1)...c(t,ΩO)]T, (54) ,
可以验证可以通过简单的矩阵乘法根据在等式(44)中定义的连续的高保真度立体声响复制表示d(t)将该矢量计算为
cSPAT(t)=ΨHc(t), (55)
其中(·)H指示联合点转置和结合(joint transposition and conjugation),并且Ψ标记由下式定义的模式矩阵
Ψ:=[S1 .... SO] (56)
其中
Figure BDA0001352841910000191
因为方向Ωo几乎均匀分布在单位球面上,所以模式矩阵一般是可逆的。因此,可以按照下式根据定向信号c(t,Ωo)来计算连续的高保真度立体声响复制表示
c(t)=Ψ-HcSPAT(t).(58)
两个等式构成高保真度立体声响复制表示与空间域之间的变换和逆变换。这些变换在这里被称作球谐函数变换和逆球谐函数变换。
应当注意,因为方向Ωo几乎均匀分布在单位球面上,近似
ΨH≈Ψ-1 (59)
是可用的,这证明在等式(55)中使用Ψ-1来替代ΨH是正当的。
有利地,所有所提及的关系对于离散的时域也是有效的。
本发明的处理可以由单个处理器或电子电路或者由并行操作和/或在本发明的处理的几个部分上操作的若干处理器或电子电路来执行。

Claims (21)

1.一种使用第一数量(I)个感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩的方法,其使用HOA系数序列的输入时帧(C(k),
Figure FDA0002493196890000011
),所述方法包括逐个帧地执行的下面的步骤:
-对于当前帧(C(k),
Figure FDA0002493196890000012
),估计支配方向的集合
Figure FDA0002493196890000013
以及检测到的定向信号的索引的对应数据集
Figure FDA0002493196890000014
-从所述当前帧的HOA系数序列中分离第二数量(M)个定向信号,其具有包含在所述支配方向估计的集合
Figure FDA0002493196890000015
中的各自方向并且具有所述定向信号的索引的各自延迟的数据集,
以及由减少的数量的HOA系数序列以及所述减少的数量的环境HOA系数序列的索引的对应数据集表示的环境HOA分量,所述减少的数量对应于所述第一数量(I)与所述第二数量(M)之间的差值;
-将所述定向信号以及所述环境HOA分量的HOA系数序列分配给数量对应于所述第一数量(I)的信道的帧,其中对于所述分配,使用所述定向信号的索引的所述延迟的数据集以及所述减少的数量的环境HOA系数序列的索引的所述数据集;
-对所分配的帧的所述信道进行感知编码,以便提供经编码的压缩帧。
2.根据权利要求1所述的方法,其中所述第二数量(M)个定向信号根据感知相关的标准来确定,使得:
-经对应地解压缩的HOA表示提供能够使用用于压缩的固定的给定数量的信道来实现的最低可感知误差,其中所述标准考虑下面的误差:
--由使用不同数量的所述定向信号和环境HOA分量的不同数量的HOA系数序列而引起的建模误差;
--由所述定向信号的感知编码引入的量化噪声;
--通过对所述环境HOA分量的各个HOA系数序列进行编码而引入的量化噪声;
-关于其可感知性,针对数个测试方向和数个临界带而考虑的由上面三个误差导致的总误差;
-所述第二数量(M)个定向信号被选择以最小化平均可感知误差或最大可感知误差,以便实现所述最低可感知误差。
3.根据权利要求1所述的方法,其中表示环境HOA分量的减少的数量的HOA系数序列的选择根据在下面三种情况之间有区别的标准来执行:
-如果所述当前帧(k)的HOA系数序列的数量与前一帧(k-1)的相同,则选择与所述前一帧中相同的HOA系数序列;
-如果所述当前帧(k)的HOA系数序列的数量小于所述前一帧(k-1)的数量,则使得在所述前一帧中被分配给所述当前帧中的由定向信号占据的信道的所述前一帧中的那些HOA系数序列不活动;
-如果所述当前帧(k)的HOA系数序列的数量大于所述前一帧(k-1)的数量,则在所述前一帧中被选择的那些HOA系数序列在所述当前帧中也被选择,并且这些另外的HOA系数序列可以根据它们的感知重要性或者根据最高平均功率被选择。
4.根据权利要求1所述的方法,其中所述分配执行如下:
-将活动的定向信号分配给指定的信道,使得它们保存它们的信道索引,以便获得用于所述感知编码的连续的信号;
-分配所述环境HOA分量的HOA系数序列,使得最小数量(ORED)个这样的系数序列总是包含在对应数量(ORED)个最后的信道中;
-为了分配所述环境HOA分量的另外的HOA系数序列,确定它们是否也在前一帧(k-1)中被选择:
--如果是,则这些HOA系数序列到将被感知编码的信道的分配与针对所述前一帧的相同;
--如果不是并且如果HOA系数序列是新选择的,则HOA系数序列首先关于它们的索引以升序布置,并且以此顺序分配给还没有被定向信号占据的将被感知编码的信道。
5.根据权利要求1所述的方法,其中ORED是表示所述环境HOA分量的HOA系数序列的数量,并且其中描述所述分配的参数被布置为位阵列,所述位阵列的长度对应于用于表示所述环境HOA分量的数量ORED个HOA系数序列之外还使用的HOA系数序列的另外的数量,并且所述位阵列中的每个第o位指示第(ORED+o)个另外的HOA系数序列是否被用于表示所述环境HOA分量。
6.根据权利要求1所述的方法,其中描述所述分配的参数被布置为分配矢量,所述分配矢量的长度对应于不活动的定向信号的数量,所述矢量的元素指示环境HOA分量的另外的HOA系数序列中的哪些被分配给具有不活动的定向信号的信道。
7.根据权利要求1至6中的一项所述的方法,其中所述当前帧的HOA系数序列的所述分离还提供能够在解压缩侧用于根据所述定向信号来预测原始HOA表示的部分的参数。
8.根据权利要求4所述的方法,其中所述分配提供分配矢量(γ(k)),所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到具有不活动的定向信号的信道中的信息。
9.一种使用第一数量(I)个感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩的装置,其使用HOA系数序列的输入时帧(C(k),
Figure FDA0002493196890000031
),所述装置执行基于逐个帧的处理并且包括:
-适于对于当前帧(C(k),
Figure FDA0002493196890000032
)估计支配方向的集合
Figure FDA0002493196890000033
以及检测到的定向信号的索引的对应数据集
Figure FDA0002493196890000034
的部件;
-适于进行如下处理的部件:从所述当前帧的HOA系数序列中分离第二数量(M)个定向信号,该第二数量(M)个定向信号具有包含在所述支配方向估计的集合
Figure FDA0002493196890000035
中的各自方向并且具有所述定向信号的索引的各自延迟的数据集,
以及由减少的数量的HOA系数序列以及所述减少的数量的环境HOA系数序列的索引的对应数据集表示的环境HOA分量,所述减少的数量对应于所述第一数量(I)与所述第二数量(M)之间的差值;
-适于进行如下处理的部件:将所述定向信号以及所述环境HOA分量的HOA系数序列分配给数量对应于所述第一数量(I)的信道的帧,从而获得描述所述分配的所选择的环境HOA系数序列的索引的参数,其可以被用于在解压缩侧的对应的重新分布,其中对于所述分配,使用所述定向信号的索引的所述延迟的数据集以及所述减少的数量的环境HOA系数序列的索引的所述数据集;
-适于对被分配的帧的所述信道进行感知编码以便提供经编码的压缩帧的部件。
10.根据权利要求9所述的装置,其中所述第二数量(M)个定向信号根据感知相关的标准来确定,使得:
-经对应地解压缩的HOA表示提供能够使用用于压缩的固定的给定数量的信道来实现的最低可感知误差,其中所述标准考虑下面的误差:
--由使用不同数量的所述定向信号和环境HOA分量的不同数量的HOA系数序列而引起的建模误差;
--由所述定向信号的感知编码引入的量化噪声;
--通过对所述环境HOA分量的各个HOA系数序列进行编码而引入的量化噪声;
-关于其可感知性,针对数个测试方向和数个临界带被考虑的、由上面三个误差导致的总误差;
-所述第二数量(M)个定向信号被选择以最小化平均可感知误差或最大可感知误差,以便实现所述最低可感知误差。
11.根据权利要求9所述的装置,其中表示环境HOA分量的减少的数量的HOA系数序列的选择根据在下面三种情况之间有区别的标准来执行:
-如果所述当前帧(k)的HOA系数序列的数量与前一帧(k-1)的相同,则选择与所述前一帧中相同的HOA系数序列;
-如果所述当前帧(k)的HOA系数序列的数量小于所述前一帧(k-1)的数量,则使得在所述前一帧中分配给所述当前帧中的由定向信号占据的信道的所述前一帧中的那些HOA系数序列不活动;
-如果所述当前帧(k)的HOA系数序列的数量大于所述前一帧(k-1)的数量,则在所述前一帧中被选择的那些HOA系数序列在所述当前帧中也被选择,并且这些另外的HOA系数序列可以根据它们的感知重要性或者根据最高平均功率被选择。
12.根据权利要求9所述的装置,其中所述分配执行如下:
-将活动的定向信号分配给指定的信道,使得它们保存它们的信道索引,以便获得用于所述感知编码的连续的信号;
-分配所述环境HOA分量的HOA系数序列,使得最小数量(ORED)个这样的系数序列总是包含在对应数量(ORED)个最后的信道中;
-为了分配所述环境HOA分量的另外的HOA系数序列,确定它们是否也在前一帧(k-1)中被选择:
--如果是,则这些HOA系数序列到将被感知编码的信道的分配与针对所述前一帧的相同;
--如果不是并且如果HOA系数序列是新选择的,则HOA系数序列首先关于它们的索引以升序布置,并且以此顺序分配给还没有被定向信号占据的将被感知编码的信道。
13.根据权利要求9所述的装置,其中ORED是表示所述环境HOA分量的HOA系数序列的数量,并且其中描述所述分配的参数被布置为位阵列,所述位阵列的长度对应于用于表示所述环境HOA分量的数量ORED个HOA系数序列之外还使用的HOA系数序列的另外的数量,并且所述位阵列中的每个第o位指示第(ORED+o)个另外的HOA系数序列是否被用于表示所述环境HOA分量。
14.根据权利要求9所述的装置,其中描述所述分配的参数被布置为分配矢量,所述分配矢量的长度对应于不活动的定向信号的数量,所述矢量的元素指示环境HOA分量的另外的HOA系数序列中的哪些被分配给具有不活动的定向信号的信道。
15.根据权利要求9至14中的一项所述的装置,其中所述当前帧的HOA系数序列的所述分离还提供能够在解压缩侧用于根据所述定向信号来预测原始HOA表示的部分的参数。
16.根据权利要求12所述的装置,其中所述分配提供分配矢量(γ(k)),所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到具有不活动的定向信号的信道中的信息。
17.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的方法,所述解压缩包括:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-基于分配矢量重新分布信道的所述经感知解码的帧,所述分配矢量的元素表示关于环境HOA分量的另外的HOA系数序列中的哪些被分配到不包含活动的定向信号的信道中的信息,以便确定环境HOA分量的对应帧;
-基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧。
18.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的装置,所述装置包括:
-适于对当前的经编码的压缩帧进行感知解码以便提供信道的经感知解码的帧的部件;
-适于进行如下处理的部件:基于分配矢量重新分布信道的所述经感知解码的帧,所述分配矢量的元素表示关于环境HOA分量的另外的HOA系数序列中的哪些被分配到不包含活动的定向信号的信道中的信息,以便确定环境HOA分量的对应帧;
-适于进行如下处理的部件:基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧。
19.一种对更高阶高保真度立体声响复制表示进行压缩的设备,包括:
一个或多个处理器,以及
一个或多个存储介质,存储有指令,所述指令在被所述一个或多个处理器执行时使得执行根据权利要求1-8中任一项所述的方法。
20.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的设备,包括:
一个或多个处理器,以及
一个或多个存储介质,存储有指令,所述指令在被所述一个或多个处理器执行时使得执行根据权利要求17所述的方法。
21.一种存储介质,存储有可执行指令,所述可执行指令在被处理器执行时使得执行根据权利要求1-8和17中任一项所述的方法。
CN201710583285.XA 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 Active CN107146626B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305558.2A EP2800401A1 (en) 2013-04-29 2013-04-29 Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP13305558.2 2013-04-29
CN201480023877.0A CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480023877.0A Division CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Publications (2)

Publication Number Publication Date
CN107146626A CN107146626A (zh) 2017-09-08
CN107146626B true CN107146626B (zh) 2020-09-08

Family

ID=48607176

Family Applications (5)

Application Number Title Priority Date Filing Date
CN201480023877.0A Active CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583301.5A Active CN107293304B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583292.XA Active CN107180639B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583285.XA Active CN107146626B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583291.5A Active CN107146627B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Family Applications Before (3)

Application Number Title Priority Date Filing Date
CN201480023877.0A Active CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583301.5A Active CN107293304B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583292.XA Active CN107180639B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710583291.5A Active CN107146627B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Country Status (10)

Country Link
US (8) US9736607B2 (zh)
EP (5) EP2800401A1 (zh)
JP (6) JP6395811B2 (zh)
KR (4) KR102440104B1 (zh)
CN (5) CN105144752B (zh)
CA (8) CA3168921A1 (zh)
MX (5) MX347283B (zh)
MY (2) MY176454A (zh)
RU (1) RU2668060C2 (zh)
WO (1) WO2014177455A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9922656B2 (en) * 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
CN111179950B (zh) 2014-03-21 2022-02-15 杜比国际公司 对压缩的高阶高保真立体声(hoa)表示进行解码的方法和装置以及介质
CN109410961B (zh) 2014-03-21 2023-08-25 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
JP6641303B2 (ja) 2014-06-27 2020-02-05 ドルビー・インターナショナル・アーベー 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置
CN106471822B (zh) 2014-06-27 2019-10-25 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN112216291A (zh) 2014-06-27 2021-01-12 杜比国际公司 声音或声场的压缩hoa声音表示的解码方法和装置
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP2963948A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
WO2016001357A1 (en) 2014-07-02 2016-01-07 Thomson Licensing Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
KR102363275B1 (ko) 2014-07-02 2022-02-16 돌비 인터네셔널 에이비 Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
WO2016001355A1 (en) 2014-07-02 2016-01-07 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
US9536531B2 (en) 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3007167A1 (en) 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
EP3329486B1 (en) 2015-07-30 2020-07-29 Dolby International AB Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
CN107925837B (zh) * 2015-08-31 2020-09-22 杜比国际公司 对压缩hoa信号逐帧组合解码和渲染的方法以及对压缩hoa信号逐帧组合解码和渲染的装置
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
JP6674021B2 (ja) * 2016-03-15 2020-04-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音場記述を生成する装置、方法、及びコンピュータプログラム
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
US10777209B1 (en) * 2017-05-01 2020-09-15 Panasonic Intellectual Property Corporation Of America Coding apparatus and coding method
WO2020008112A1 (en) * 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
CN110113119A (zh) * 2019-04-26 2019-08-09 国家无线电监测中心 一种基于人工智能算法的无线信道建模方法
CN114582357A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 一种音频编解码方法和装置
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
CN115938388A (zh) * 2021-05-31 2023-04-07 华为技术有限公司 一种三维音频信号的处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
CN1848241A (zh) * 1995-12-01 2006-10-18 数字剧场系统股份有限公司 多通道音频编码器
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3700254B2 (ja) * 1996-05-31 2005-09-28 日本ビクター株式会社 映像音声再生装置
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
EP2261892B1 (en) * 2001-04-13 2020-09-16 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
US7081883B2 (en) * 2002-05-14 2006-07-25 Michael Changcheng Chen Low-profile multi-channel input device
CN1677490A (zh) 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN101401152B (zh) * 2006-03-15 2012-04-18 法国电信公司 通过多通道音频信号的主分量分析进行编码的设备和方法
EP1841284A1 (en) * 2006-03-29 2007-10-03 Phonak AG Hearing instrument for storing encoded audio data, method of operating and manufacturing thereof
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8805694B2 (en) * 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
KR20240009530A (ko) * 2010-03-26 2024-01-22 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
CN102903366A (zh) * 2012-09-18 2013-01-30 重庆大学 一种基于g729语音压缩编码算法的dsp优化方法
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
CN1848241A (zh) * 1995-12-01 2006-10-18 数字剧场系统股份有限公司 多通道音频编码器
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Also Published As

Publication number Publication date
CA2907595A1 (en) 2014-11-06
EP2800401A1 (en) 2014-11-05
US20200304931A1 (en) 2020-09-24
EP3232687A1 (en) 2017-10-18
CN107180639B (zh) 2021-01-05
EP2992689B1 (en) 2017-05-10
RU2015150988A (ru) 2017-06-07
CN107146627B (zh) 2020-10-30
CA3110057C (en) 2023-04-04
US20170318406A1 (en) 2017-11-02
US20160088415A1 (en) 2016-03-24
KR102232486B1 (ko) 2021-03-29
US20220225044A1 (en) 2022-07-14
CN105144752B (zh) 2017-08-08
RU2018133016A (ru) 2018-10-02
MX2022012186A (es) 2022-10-27
JP2021060614A (ja) 2021-04-15
JP2022058929A (ja) 2022-04-12
US10999688B2 (en) 2021-05-04
EP3926984A1 (en) 2021-12-22
JP6606241B2 (ja) 2019-11-13
KR20160002846A (ko) 2016-01-08
MX347283B (es) 2017-04-21
JP6818838B2 (ja) 2021-01-20
US20180146315A1 (en) 2018-05-24
RU2018133016A3 (zh) 2022-02-16
US20190297443A1 (en) 2019-09-26
JP6395811B2 (ja) 2018-09-26
JP2020024445A (ja) 2020-02-13
RU2668060C2 (ru) 2018-09-25
MX2022012179A (es) 2022-10-27
CN107146626A (zh) 2017-09-08
CA3168921A1 (en) 2014-11-06
CA3168916A1 (en) 2014-11-06
US9913063B2 (en) 2018-03-06
KR20220039846A (ko) 2022-03-29
CA3190346A1 (en) 2014-11-06
KR102377798B1 (ko) 2022-03-23
CA3168906A1 (en) 2014-11-06
US20220217489A1 (en) 2022-07-07
WO2014177455A1 (en) 2014-11-06
EP3598779B1 (en) 2021-08-18
CA3190353A1 (en) 2014-11-06
MX2020002786A (es) 2020-07-22
US11895477B2 (en) 2024-02-06
JP2016520864A (ja) 2016-07-14
CN105144752A (zh) 2015-12-09
KR102440104B1 (ko) 2022-09-05
US11758344B2 (en) 2023-09-12
JP2019008309A (ja) 2019-01-17
JP2023093681A (ja) 2023-07-04
MY195690A (en) 2023-02-03
KR20210034685A (ko) 2021-03-30
US10264382B2 (en) 2019-04-16
CN107293304A (zh) 2017-10-24
CN107180639A (zh) 2017-09-19
JP7023342B2 (ja) 2022-02-21
EP3232687B1 (en) 2019-08-14
US10623878B2 (en) 2020-04-14
JP7270788B2 (ja) 2023-05-10
CA3110057A1 (en) 2014-11-06
MX2022012180A (es) 2022-10-27
CN107293304B (zh) 2021-01-05
MX2015015016A (es) 2016-03-09
US9736607B2 (en) 2017-08-15
EP3598779A1 (en) 2020-01-22
US20210337334A1 (en) 2021-10-28
EP2992689A1 (en) 2016-03-09
US11284210B2 (en) 2022-03-22
CA3168901A1 (en) 2014-11-06
MY176454A (en) 2020-08-10
KR20220124297A (ko) 2022-09-13
CA2907595C (en) 2021-04-13
CN107146627A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN107146626B (zh) 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
US20230179940A1 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
RU2776307C2 (ru) Способ и устройство для сжатия и распаковки представления на основе амбиофонии высшего порядка

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1238406

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant