CN117198304A - 用于对压缩的hoa信号进行解码的方法、装置和存储介质 - Google Patents

用于对压缩的hoa信号进行解码的方法、装置和存储介质 Download PDF

Info

Publication number
CN117198304A
CN117198304A CN202311226031.4A CN202311226031A CN117198304A CN 117198304 A CN117198304 A CN 117198304A CN 202311226031 A CN202311226031 A CN 202311226031A CN 117198304 A CN117198304 A CN 117198304A
Authority
CN
China
Prior art keywords
hoa
signal
component
representation
ambient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311226031.4A
Other languages
English (en)
Inventor
S·科唐
A·克鲁格
O·伍埃博尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN117198304A publication Critical patent/CN117198304A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及用于对压缩的HOA信号进行解码的方法、装置和存储介质。一种用于压缩HOA信号的方法,HOA信号是具有HOA系数序列的输入时间帧(C(k))的输入HOA表示,该方法包括输入时间帧的空间HOA编码以及后续的感知编码和源编码。每个输入时间帧被分解(802)成主导声音信号(XPS(k‑1))的帧和周围环境HOA分量的帧。在分层模式中,周围环境HOA分量包括输入HOA表示的在较低位置的第一HOA系数序列(cn(k‑1))和在其余较高位置的第二HOA系数序列(cAMB,n(k‑1))。第二HOA系数序列是输入HOA表示与主导声音信号的HOA表示之间的残差的HOA表示的部分。

Description

用于对压缩的HOA信号进行解码的方法、装置和存储介质
本申请是申请号为201811371621.5、申请日为2015年3月20日、发明名称为“用于对压缩的HOA信号进行解码的方法、装置和存储介质”的发明专利申请的分案申请。
技术领域
本发明涉及用于对高阶Ambisonics(Higher Order Ambisonics,HOA)信号进行压缩的方法、用于对经压缩的HOA信号进行解压的方法、用于对HOA信号进行解压的装置、以及用于对经压缩的HOA信号进行解压的装置。
背景技术
高阶Ambisonics(HOA)提供了表示三维声音的可能性。其它已知的技术是波场合成(WFS)或基于声道的方法,如22.2。然而,与基于声道的方法相比,HOA表示提供了独立于特定扩音器设置的优点。然而,这种灵活性以在特定扩音器设置上回放HOA表示所需的解码过程为代价。与其中所需的扩音器的数量通常非常大的WFS方法相比,HOA也可以被渲染至由仅很少个扩音器组成的设置。HOA的另一个优点在于也可以采用相同的表示而无需为了对头戴式耳机的双耳渲染而进行任何修改。
HOA基于通过截短的球谐函数(SH)扩展对复谐波平面波振幅的所谓空间密度的表示。每个扩展系数是角频率的函数,角频率的函数可以由时域函数等效地表示。因此,不失一般性地,完整的HOA声场表示实际上可以被假设为由O个时域函数组成,其中O表示扩展系数的数量。在下面,这些时域函数将被等效地称为HOA系数序列或HOA声道。通常,球面坐标系被使用,其中x轴指向前面位置,y轴指向左侧,z轴指向上方。空间中的位置x=(r,θ,φ)T由半径r>0(即,到坐标原点的距离)、从极轴z测量的倾斜角θ∈[0,π]和在x-y平面从x轴逆时针测量的方位角θ∈[0,π]表示。另外,(·)T表示转置。
在下面提供HOA编码的更详细描述。
表示的声压相对于时间的傅立叶变换,即,/> (其中ω表示角频率,而i指示虚数单位),可以根据被扩展成球面谐波的序列。
在这里,cs表示声音的速度并且k表示角波数,角波数通过与角频率ω相关。另外,jn(·)表示第一类球面贝塞尔函数并且/>表示n阶和m度的实值球谐函数。扩展系数/>只取决于角波数k。注意,已经隐含地假设声压是空间频带受限的。因此,该序列相对于上限为Ⅳ的阶索引n被截断,N被称为HOA表示的阶数。如果声场由不同角频率ω的无限数量的谐波平面波的叠加表示并且来自由角元组(θ,φ)指定的所有可能方向,则相应的平面波复振幅函数C(ω,θ,φ)可以由以下球谐函数扩展表示:
其中扩展系数通过/>与扩展系数/>相关。
假设各个系数是角频率ω的函数,则逆傅立叶变换(由/>表示)的应用提供了对于每个阶n和度m的时域函数
其可以通过收集在单个向量c(t)中。向量c(t)内的时域函数/>的位置索引由n(n+1)+1+m给出。向量c(t)中元素的总数由O=(N+1)2给出。函数/>的离散时间版本被称为Ambisonic系数序列。基于帧的HOA表示通过如下地将所有这些序列分成长度为B且帧索引为k的帧C(k)来获得:
C(k):=[c((kB+1)TS) c((kB+2)TS) ... c((kB+B)TS)],
其中TS表示采样周期。于是,帧C(k)本身可以被表示为其各行ci(k),i=1,...,O的组合,如
其中ci(k)表示具有位置索引i的Ambisonic系数序列的帧。HOA表示的空间分辨率随着扩展的最大阶数Ⅳ的增长而改善。不幸的是,扩展系数的数量O随着阶数Ⅳ按平方增长,具体是O=(N+1)2。例如,使用阶数N=4的典型HOA表示需要O=25个HOA(扩展)系数。根据这些考虑,给定期望的单声道采样率fS和每个样本的比特数Nb,用于HOA表示的传输的总比特率由O·fS·Nb确定。因此,采用每个样本Nb=16个比特的fS=48kHz的采样率传输N=4阶的HOA表示导致19.2MBits/s的比特率,这对于诸如流传输之类的许多实际应用来说是非常高的。因此,对HOA表示的压缩是高度期望的。
之前,在欧洲专利申请EP2743922A、EP2665208A和EP2800401A中提出了对HOA声场表示的压缩。这些方法的共同点在于它们执行声场分析并且将给定的HOA表示分解成方向分量和残留周围环境分量(ambient component)。
一方面,最终的压缩表示被假设为包括通过对方向信号的感知编码而得到的多个量化信号以及相关的周围环境HOA分量的系数序列。另一方面,它被假设为包括与量化信号相关的附加辅助信息(side information),该附加辅助信息对于从其压缩版本重构HOA表示是必要的。
另外,在ISO/IEC JTC1/SC29/WG11 N14264(MPEG-H 3D音频的工作草案1-HOA文本,2014年1月,圣何塞)中描述了类似的方法,其中方向分量被延展成所谓的主导声音分量(predominant sound component)。作为方向分量,主导声音分量被假设为部分地由方向信号(即,具有假设它们冲击到收听者的相应方向的单声道信号)与用于根据方向信号预测原始HOA表示的部分的一些预测参数一起表示。此外,主导声音分量被假定由所谓的基于向量的信号来表示,基于向量的信号意味着具有定义基于向量的信号的方向分布的相应向量的单声道信号。已知的压缩HOA表示由I个量化后的单声道信号和一些附加辅助信息组成,其中这I个量化后的单声道信号中的固定个数OMIN表示周围环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本。其余的I-OMIN个信号的类型可以在连续的帧之间变化,并且可以是方向性的、基于向量的、空的或者表示周围环境HOA分量CAMB(k-2)的附加系数序列。
用于压缩具有HOA系数序列的输入时间帧(C(k))的HOA信号表示的已知方法包括输入时间帧的空间HOA编码以及后续的感知编码和源编码。如图1a中所示,空间HOA编码包括在方向和向量估计模块101中执行HOA信号的方向和向量估计处理,其中,包括用于方向信号的第一元组集合和用于基于向量的信号的第二元组集合/>的数据被获得。第一元组集合中的每一个包括方向信号的索引和相应的量化方向,并且第二元组集合中的每一个包括基于向量的信号的索引和定义信号的方向分布的向量。下一个步骤是将HOA系数序列的每个输入时间帧分解103成多个主导声音信号XPS(k-1)的一帧和周围环境HOA分量/>的一帧,其中主导声音信号XPS(k-1)包括方向声音信号和基于向量的声音信号。所述分解还提供预测参数ξ(k-1)和目标分配向量vA,T(k-1)。预测参数ξ(k-1)描述如何根据主导声音信号XPS(k-1)内的方向信号来预测HOA信号表示的部分,以便丰富主导声音HOA分量,并且目标分配向量vA,T(k-1)包含关于如何将主导声音信号分配至给定的I个声道的信息。周围环境HOA分量CAMB(k-1)根据由目标分配向量vA,T(k-1)提供的信息而被修改104,其中,取决于有多少声道被主导声音信号占用,确定周围环境HOA分量的哪些系数序列要在给定的I个声道中被发送。经修改的周围环境HOA分量CM,A(k-2)和临时预测的经修改的周围环境HOA分量CP,M,A(k-1)。另外,根据目标分配向量vA,T(k-1)中的信息获得最终分配向量vA(k-2)。利用由最终分配向量vA(k-2)提供的信息,从所述分解获得的主导声音信号XPS(k-1)以及经修改的周围环境HOA分量CM,A(k-2)和临时预测的经修改的周围环境HOA分量CP,M,A(k-1)的被确定的系数序列被分配至给定数量的声道,其中运输信号yi(k-2),i=1,...,I和预测的运输信号yP,i(k-2),i=1,...,I被获得。然后,对运输信号yi(k-2)和预测的运输信号yP,i(k-2)执行增益控制(或规格化),其中,经增益修改的运输信号zi(k-2)、指数ei(k-2)和异常标记βi(k-2)被获得。
如图1b中所示,感知编码和源编码包括对经增益修改的运输信号zi(k-2)的感知编码,其中,经感知编码的运输信号 被获得,包括所述指数ei(k-2)和异常标记(βi(k-2))、第一元组集合/>和第二元组集合/>预测参数ξ(k-1)和最终分配向量vA(k-2)的辅助信息被编码,并且获得编码的辅助信号/>最后,经感知编码的运输信号/>和经编码的辅助信息/>被多路复用到比特流中。
发明内容
所提出的HOA压缩方法的一个缺点是它提供整体式的(即,不可扩展的)压缩HOA表示。但是,对于某些应用,像广播或互联网流传输,期望能够将压缩表示分割成低质量基本层(BL)和高质量增强层(EL)。基本层被假定提供HOA表示的低质量的压缩版本,其可以独立于增强层被解码。这种BL典型地应当对传输错误高度健壮,并且以低数据率被发送,以便即使在差的传输条件下也保证解压后的HOA表示的某个最小质量。EL包含用于提高解压后的HOA表示的质量的附加信息。
本发明提供了用于修改现有的HOA压缩方法以便能够提供包括(低质量)基本层和(高质量)增强层的压缩表示的解决方案。另外,本发明提供了用于修改现有的HOA解压方法以便能够对至少包括根据本发明压缩的低质量基本层的压缩表示的解决方案。
一个改进涉及获得自包含的(低质量)基本层。根据本发明,被假定包含(不失一般性)周围环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本的OMIN个声道被用作基本层。选择前OMIN个声道用于形成基本层的优点是它们的时间不变类型。但是,常规地,相应的信号缺乏任何主导声音分量,而这对于声音场景是必不可少的。这也从周围环境HOA分量CAMB(k-1)的常规计算清楚地看出,该常规计算是通过根据下式从原始HOA表示C(k-1)中减去主导声音HOA表示CPS(k-1)而执行的
CAMB(k-1)=C(k-1)-CPS(k-1) (1)
因此,本发明的一个改进涉及添加这种主导声音分量。根据本发明,这个问题的解决方案是将低空间分辨率的主导声音分量包括到基本层中。为了这个目的,在空间HOA编码器中由HOA分解处理输出的周围环境HOA分量CAMB(k-1)被其修改后的版本替换。经修改的周围环境HOA分量在前OMIN个系数序列中包括原始HOA分量的系数序列,假定该前OMIN个系数序列总是以空间变换的形式被发送。HOA分解处理的这种改进在分层模式(例如,双层模式)中可以被看作用于进行HOA压缩工作的初始操作。这种模式提供例如两个比特流,或者可以被分成基本层和增强层的单个比特流。使用或不使用这种模式是由总比特流的访问单元中的模式指示比特(例如,单个比特)发信号通知的。
在一个实施例中,基本层比特流仅包括经感知编码的信号以及对应的由指数ei(k-2)和异常标记βi(k-2),i=1,...,OMIN组成的经编码的增益控制辅助信息。其余的经感知编码的信号/>和经编码的其余辅助信息被包括到增强层比特流中。在一个实施例中,基本层比特流和增强层比特流/>然后被联合发送,而不是以前的总比特流
在权利要求1中公开了用于压缩具有HOA系数序列的时间帧的高阶Ambisonics(HOA)信号表示的方法。在权利要求10中公开了用于压缩具有HOA系数序列的时间帧的高阶Ambisonics(HOA)信号表示的装置。
在权利要求8中公开了用于解压具有HOA系数序列的时间帧的高阶Ambisonics(HOA)信号表示的方法。在权利要求18中公开用于解压具有HOA系数序列的时间帧的高阶Ambisonics(HOA)信号表示的装置。
在权利要求20中公开了具有使计算机执行用于压缩具有HOA系数序列的时间帧的高阶Ambisonics(HOA)信号表示的方法的可执行指令的非临时性计算机可读存储介质。
在权利要求21中公开了具有使计算机执行用于解压具有HOA系数序列的时间帧的高阶Ambisonics(HOA)信号表示的方法的可执行指令的非临时性计算机可读存储介质。
本发明的有利实施例在从属权利要求、以下描述和附图中被公开。
附图说明
参照附图来描述本发明的示例性实施例,其中
图1示出了HOA压缩器的常规体系架构的结构;
图2示出了HOA解压器的常规体系架构的结构;
图3示出了根据本发明一个实施例的HOA压缩器的空间HOA编码和感知编码部分的体系架构的结构;
图4示出了根据本发明一个实施例的HOA压缩器的源编码器部分的体系架构的结构;
图5示出了根据本发明一个实施例的HOA解压器的感知解码和源解码部分的体系架构的结构;
图6示出了根据本发明一个实施例的HOA解压器的空间HOA解码部分的体系架构的结构;
图7示出了从周围环境HOA信号到经修改的周围环境HOA信号的帧变换;
图8示出了用于压缩HOA信号的方法的流程图;
图9示出了用于对经压缩的HOA信号进行解压的方法的流程图;以及
图10示出了根据本发明一个实施例的HOA解压器的空间HOA解码部分的体系架构的结构。
具体实施方式
为了更容易理解,下面扼要重述图1和图2中的现有技术解决方案。
图1示出了HOA压缩器的常规体系架构的结构。在[4]中所描述的方法中,方向分量被延展成所谓的主导声音分量。作为方向分量,主导声音分量被假设为部分地由方向信号与一些预测参数一起表示,方向信号是指具有它们被假设冲击到听众的相应方向的单声道信号,预测参数用于根据方向信号来预测原始HOA表示的部分。此外,主导声音分量被假定由所谓的基于向量的信号来表示,基于向量的信号是指具有定义基于向量的信号的方向分布的相应向量的单声道信号。在[4]中提出的HOA压缩器的整体体系架构在图1中示出。它可以被细分为在图1a中绘出的空间HOA编码部分和图1b中绘出的感知与源编码部分。空间HOA编码器提供由I个信号与描述如何创建其HOA表示的辅助信息一起组成的第一压缩HOA表示。在感知和辅助信息源编码器中,在多路复用两个编码后的表示之前,所提到的I个信号被感知编码并且辅助信息经受源编码。
常规地,空间编码如下工作。
在第一步中,原始HOA表示的第k个帧C(k)被输入到方向和向量估计处理模块,该方向和向量估计处理模块提供元组集合和/>元组集合/>由其第一个元素表示方向信号的索引并且其第二元素表示相应量化方向的元组组成。元组集合由其第一个元素表示基于向量的信号的索引并且其第二个元素表示定义信号的方向分布(即,如何计算基于向量的信号的HOA表示)的向量的元组组成。
利用元组集合和/>这二者,初始HOA帧C(k)在HOA分解中被分解成所有主导声音(即,方向和基于向量的)信号的帧XPS(k-1)和周围环境HOA分量的帧CAMB(k-1)。分别注意一帧的延迟,以避免块效应(blocking artifact),该延迟是由于重叠添加处理造成的。此外,HOA分解被假设为输出描述如何根据方向信号预测原始HOA表示的部分的一些预测参数ζ(k-1),以丰富主导声音HOA分量。此外,向I个可用声道提供目标分配向量vA,T(k-1),目标分配向量包含在HOA分解处理模块中确定的关于主导声音信号的分配的信息。可以假设受影响的声道被占用,这意味着它们不可用于在相应的时间帧中运输周围环境HOA分量的任何系数序列。
在周围环境分量修改处理模块中,周围环境HOA分量的帧CAMB(k-1)根据由目标分配向量vA,T(k-1)提供的信息而被修改。特别地,以下被确定:除其它方面之外,取决于关于哪些声道是可用的并且尚未被主导声音信号占用的(在目标分配向量vA,T(k-1)中包含的)信息,周围环境HOA分量的哪些系数序列要在给定的I个声道中被发送。此外,如果选定的系数序列的索引在连续的帧之间变化,则执行系数序列的渐强和渐弱。
此外,假设周围环境HOA分量CAMB(k-2)的前OMIN个系数序列总是被选择进行感知编码并发送,其中,OMIN=(NMIN+1)2,NMIN≤N典型地是比原始HOA表示的阶小的阶。为了对这些HOA系数序列进行解相关(de-correlate),建议将它们变换成从一些预定义的方向ΩMIN,d,d=1,...,OMIN撞击的方向信号(即,一般的平面波函数)。
与经修改的周围环境HOA分量CM,A(k-1)一起,临时预测的经修改的周围环境HOA分量CP,M,A(k-1)被计算,以稍后在增益控制处理模块中使用,从而允许合理的预见(lookahead)。
关于周围环境HOA分量的修改的信息与所有可能类型的信号至可用声道的分配直接相关。关于分配的最终信息包含在最终分配向量vA(k-2)中。为了计算该向量,利用包含在目标分配向量vA,T(k-1)中的信息。
声道分配利用由分配向量vA(k-2)提供的信息来向I个可用信道分配包含在XPS(k-2)中和包含在CM,A(k-2)中的适当信号,从而产生信号yi(k-2),i=1,...,I。另外,包含在XPS(k-1)中和CP,AMB(k-1)中的适当信号也被分配至I个可用信道,从而产生预测信号yP,i(k-2),i=1,...,I。信号yi(k-2),i=1,...,I中的每一个最终由增益控制处理,其中信号增益被平滑地修改,以达到适合于感知编码器的值范围。预测信号帧yP,i(k-2),i=1,...,I允许一种预见,以避免连续块之间的严重增益变化。假设要在空间解码器中利用增益控制辅助信息来还原增益修改,其中增益控制辅助信息由指数ei(k-2)和异常标记βi(k-2),i=1,...,I组成。
图2示出了如在[4]中提出的HOA解压器的常规体系架构的结构。常规地,HOA解压由HOA压缩器部件的配对物组成,显然这些部件以相反的次序布置。它可以被细分为在图2a中绘出的感知和源解码部分以及在图2b中绘出的空间HOA解码部分。
在感知和辅助信息源解码器中,比特流首先被解多路复用成I个信号的感知编码表示以及被解多路复用成描述如何创建其HOA表示的经编码的辅助信息。接着,执行对I个信号的感知解码和对辅助信息的解码。然后,空间HOA解码器根据该I个信号和辅助信息创建重构的HOA表示。
常规地,空间HOA解码如下工作。
在空间HOA解码器中,经感知解码的信号中的每一个首先与相关联的增益校正指数ei(k)和增益校正异常标记βi(k)一起被输入到逆增益控制处理模块。第i个逆增益控制处理提供经增益校正的信号帧/>
所有的I个经增益校正的信号帧与分配向量vAMB,ASSIGN(k)以及元组集合/>和/>一起被传递到声道重新分配。在上面定义了元组集合/>和/>(对于空间HOA编码),并且分配向量vAMB,ASSIGN(k)由I个分量组成,这I个分量指示:对于每个传输声道,它是否包含周围环境HOA分量的系数序列以及包含周围环境HOA分量的哪个系数序列。在声道重新分配中,经增益校正的信号帧/>被重新分布,以重构所有主导声音信号(即,所有方向信号和基于向量的信号)的以及周围环境HOA分量的中间表示的帧CI,AMB(k)。此外,提供周围环境HOA分量的在第k帧中有效的系数序列的索引的集合/>以及周围环境HOA分量的在第(k-1)帧中必须被启用、禁用和保持有效的系数序列的集合/>和/>
在主导声音合成中,主导声音分量的HOA表示是利用元组集合/>和预测参数的集合ζ(k+1)、元组集合/> 以及集合/>根据所有主导声音信号的帧/>计算的。
在周围环境合成中,周围环境HOA分量帧是利用周围环境HOA分量的在第k帧中有效的系数序列的索引的集合/>根据周围环境HOA分量的中间表示的帧CI,AMB(k)创建的。注意一帧的延迟,其由于与主导声音HOA分量的同步而被引入。
最后,在HOA组合中,周围环境HOA分量帧和主导声音HOA分量的帧重叠,以提供经解码的HOA帧/>
如由于上面对HOA压缩和解压方法的粗略描述而已经变得清楚的,压缩表示由I个量化后的单声道信号和一些附加辅助信息组成。这I个量化后的单声道信号中的固定数量OMIN表示周围环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本。其余I-OMIN个信号的类型可以在连续的帧之间变化,要么是方向的、基于向量的、空的,要么是表示周围环境HOA分量CAMB(k-2)的附加系数序列。这样而言,压缩的HOA表示意味着是整体式的。特别地,一个问题是如何将所描述的表示分割成低质量基本层和增强层。
根据所公开的发明,用于质量基本层的候选是包含周围环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本的OMIN个声道。使这OMIN个声道(不失一般性地,前OMIN个声道)成为形成低质量基本层的好选择的原因是它们的时间不变类型。但是,各信号缺乏对于声音场景必不可少的任何主导声音分量。这也可以在周围环境HOA分量CAMB(k-1)的常规计算中看到,该常规计算是通过根据下式从原始HOA表示C(k-1)中减去主导声音HOA表示CPS(k-1)来执行的
CAMB(k-1)=C(k-1)-CPS(k-1) (1)
这个问题的解决方案是将低空间分辨率的主导声音分量包括到基本层中。
在下面描述所提出的对HOA压缩的改良。
图3示出了根据本发明一个实施例的HOA压缩器的空间HOA编码和感知编码部分的体系架构的结构。为了还将低空间分辨率的主导声音分量包括到基本层中,在空间HOA编码器(参见图1a)中由HOA分解处理输出的周围环境HOA分量CAMB(k-1)由以下修改版本代替
其元素由下式给出
换句话说,用原始HOA分量的系数序列代替周围环境HOA分量的被假定总是以空间变换形式发送的前OMIN个系数序列。空间HOA编码器的其它处理模块可以保持不变。
重要的是注意,HOA分解处理的这种变化可以被看作是使HOA压缩工作在所谓“双层”或“两层”模式下的初始操作。这种模式提供可以被分成低质量基本层和增强层的比特流。使用或不使用这个模式可以由总比特流的访问单元中的单个比特发信号通知。
为了提供用于基本层和增强层的比特流而对比特流多路复用的可能结果修改在图3和4中示出,如下面进一步描述的。
基本层比特流仅包括经感知编码的信号/> 和由指数ei(k-2)和异常标记βi(k-2),i=1,...,OMIN组成的对应的经编码的增益控制辅助信息。其余经感知编码的信号/>和经编码的其余辅助信息被包括到增强层比特流中。然后基本层和增强层比特流/>和/>被联合发送,而不是以前的总比特流/>
在图3和图4中,示出了用于对HOA信号进行压缩的装置,HOA信号是具有HOA系数序列的输入时间帧(C(k))的输入HOA表示。所述装置包括在图3中示出的用于对输入时间帧的空间HOA编码和后续感知编码的空间HOA编码和感知编码部分以及在图4中示出的用于源编码的源编码器部分。空间HOA编码和感知编码部分包括方向和向量估计模块301、HOA分解模块303、周围环境分量修改模块304、声道分配模块305、以及多个增益控制模块306。
方向和向量估算模块301适于执行HOA信号的方向和向量估计处理,其中包括用于方向信号的第一元组集合和用于基于向量的信号的第二元组集合/>的数据被获得,第一元组集合/>中每个第一元组包括方向信号的索引和相应的量化方向,并且第二元组集合/>中每个第二元组包括基于向量的信号的索引以及定义信号的方向分布的向量。
HOA分解模块303适于将HOA系数序列的每个输入时间帧分解成一帧多个主导声音信号XPS(k-1)和一帧周围环境HOA分量其中主导声音信号XPS(k-1)包括所述方向声音信号和所述基于向量的声音信号,并且其中周围环境HOA分量/>包括表示输入HOA表示与主导声音信号的HOA表示之间的残差(residual)的HOA系数序列,并且其中该分解还提供预测参数ξ(k-1)和目标分配向量vA,T(k-1)。预测参数ξ(k-1)描述如何根据主导声音信号XPS(k-1)内的方向信号预测HOA信号表示的部分,从而丰富主导声音HOA分量,并且目标分配向量vA,T(k-1)包含关于如何向给定的I个声道分配主导声音信号的信息。
周围环境分量修改模块304适于根据由目标分配向量vA,T(k-1)提供的信息修改周围环境HOA分量CAMB(k-1),其中,取决于有多少声道被主导声音信号占用,确定周围环境HOA分量CAMB(k-1)的哪些系数序列要在给定的I个声道中被发送,并且其中修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1)被获得,并且其中最终分配向量vA(k-2)是根据目标分配向量vA,T(k-1)中的信息获得的。
声道分配模块305适于利用由目标分配向量vA,T(k-1)提供的信息来向给定的I个声道分配从分解获得的主导声音信号XPS(k-1)、修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1)的被确定的系数序列,其中,运输信号yi(k-2),i=1,...,I和预测的运输信号yP,i(k-2),i=1,...,I被获得。
多个增益控制模块306适于对运输信号yi(k-2)和预测的运输信号yP,i(k-2)执行增益控制(805),其中,增益修改的运输信号zi(k-2)、指数ei(k-2)和异常标记βi(k-2)被获得。
图4示出了根据本发明的一个实施例的HOA压缩器的源编码器部分的体系架构的结构。图4中所示的源编码器部分包括感知编码器310、具有两个编码器320、330(即,基本层辅助信息源编码器320和增强层辅助信息编码器330)的辅助信息源编码器模块、以及两个多路复用器340、350(即,基本层比特流多路复用器340和增强层比特流多路复用器350)。辅助信息源编码器可以在单个辅助信息源编码器模块中。
感知编码器310适于对所述经增益修改的运输信号zi(k-2)进行感知编码806,其中感知编码的运输信号被获得。
辅助信息源编码器320、330适于对包括所述指数ei(k-2)和异常标记βi(k-2)、所述第一元组集合和第二元组集合/>所述预测参数ξ(k-1)和所述最终分配向量vA(k-2)的辅助信息进行编码,其中,经编码的辅助信息/>被获得。
多路复用器340、350适于将经感知编码的运输信号和经编码的辅助信息/>多路复用成经多路复用的数据流/>其中在分解中获得的周围环境HOA分量/>包括输入HOA表示的在OMIN个最低位置(即,具有最低索引的那些位置)的第一HOA系数序列cn(k-1)和在其余较高位置的第二HOA系数序列cAMB,n(k-1)。如以下关于方程(4)-(6)所解释的,第二HOA系数序列是输入HOA表示与主导声音信号的HOA表示之间的残差的HOA表示的部分。另外,前OMIN个指数ei(k-2),i=1,...,OMIN和异常标记βi(k-2),i=1,...,OMIN在基本层辅助信息源编码器320中被编码,其中经编码的基本层辅助信息被获得,并且其中OMIN=(NMIN+1)2和O=(N+1)2,NMIN≤N且OMIN≤I并且NMIN是预定义的整数值。前OMIN个经感知编码的运输信号/> 和经编码的基本层辅助信息/>在基本层比特流多路复用器340(其为所述多路复用器之一)中被多路复用,其中,基本层比特流/>被获得。基本层辅助信息源编码器320是辅助信息源编码器之一,或者它在辅助信息源编码器模块中。
其余的I-OMIN个指数ei(k-2),i=OMIN+1,...,I和异常标记βi(k-2),i=OMIN+1,...,I、所述第一元组集合和第二元组集合/>所述预测参数ξ(k-1)和所述最终分配向量vA(k-2)在增强层辅助信息编码器330中被编码,其中经编码的增强层辅助信息/>被获得。增强层辅助信息源编码器330是辅助信息源编码器之一,或者在辅助信息信源编码器模块中。
其余的I-OMIN个经感知编码的运输信号 和经编码的增强层辅助信息/>在增强层比特流多路复用器350(这也是所述多路复用器之一)中被多路复用,其中,增强层比特流/>被获得。另外,在多路复用器或指示插入模块中添加模式指示LMFE。模式指示LMFE发信号通知被用于正确解压压缩信号的分层模式使用情况。
在一个实施例中,用于编码的装置还包括适于选择模式的模式选择器,模式由模式指示LMFE指示并且是分层模式和非分层模式之一。在非分层模式中,周围环境HOA分量仅包括表示输入HOA表示与主导声音信号的HOA表示之间的残差的HOA系数序列(即,没有输入HOA表示的系数序列)。
在下面描述所提出的对HOA解压的改良。
在分层模式下,在HOA压缩中对周围环境HOA分量CAMB(k-1)的修改通过适当修改HOA组合而在HOA解压时被考虑。
在HOA解压器中,根据图5执行基本层和增强层比特流的解复用和解码。基本层比特流被解复用成基本层辅助信息和经感知编码的信号的编码表示。随后,基本层辅助信息和经感知编码的信号的编码表示被解码,以一方面提供指数ei(k)和异常标记,并且另一方面提供经感知解码的信号。类似地,增强层比特流被解复用和解码,以提供经感知解码的信号和其余的辅助信息(参见图5)。采用这种分层模式,空间HOA解码部分也必须被修改,以考虑在空间HOA编码中对周围环境HOA分量CAMB(k-1)的修改。修改在HOA组合中完成。
特别地,重构后的HOA表示
由其修改版本代替
其元素由下式给出
这意味着,对于前OMIN个系数序列,主导声音HOA分量不被添加到周围环境HOA分量,因为它已经被包括在其中。HOA空间解码器的所有其它处理模块保持不变。
在下面,简要考虑在仅存在低质量基本层比特流的情况下的HOA解压。
比特流首先被解复用和解码,以提供重构后的信号和由指数ei(k)和异常标记βi(k)组成的对应的增益控制辅助信息,i=1,...,OMIN。注意,在缺少增强层的情况下,经感知编码的信号/> 不可用。解决此情况的可能方式是将信号/> 设为零,这自动地使重构的主导声音分量CPS(k-1)为零。
在下一步中,在空间HOA解码器中,前OMIN个逆增益控制处理模块提供经增益校正的信号帧这些经增益校正的信号帧被用于通过声道重新分配来构造周围环境HOA分量的中间表示的帧CI,AMB(k)。注意,周围环境HOA分量的在第k帧中有效的系数序列的索引的集合/>仅包含索引1,2,...,OMIN。在周围环境合成中,前OMIN个系数序列的空间变换被还原,以提供周围环境HOA分量帧CAMB(k-1)。最后,根据方程(6)来计算重构的HOA表示。
图5和图6示出了根据本发明的一个实施例的HOA解压器的体系架构的结构。该装置包括如图5中所示的感知解码和源解码部分、如图6中所示的空间HOA解码部分、以及适于检测分层模式指示LMFD的模式检测器,该分层模式指示LMFD指示压缩HOA信号包括经压缩的基本层比特流和经压缩的增强层比特流。
图5示出了根据本发明的一个实施例的HOA解压器的感知解码和源解码部分的体系架构的结构。
感知解码和源解码部分包括第一解复用器510、第二解复用器520、基本层感知解码器540和增强层感知解码器550、基本层辅助信息源解码器530和增强层辅助信息源解码器560。
第一解复用器510适于对经压缩的基本层比特流进行解复用,其中第一经感知编码的运输信号/>和第一经编码的辅助信息/>被获得。
第二解复用器520适于对经压缩的增强层比特流进行解复用,其中第二经感知编码的运输信号/>和第二经编码的辅助信息/>被获得。
基本层感知解码器540和增强层感知解码器550适于对经感知编码的运输信号进行感知解码904,其中经感知解码的运输信号/>被获得,并且其中,在基本层感知解码器540中,基本层的所述第一经感知编码的运输信号/>被解码并且第一经感知解码的运输信号/>被获得。在增强层感知解码器550中,增强层的所述第二经感知编码的运输信号/> 被解码并且第二经感知解码的运输信号/> 被获得。
基本层辅助信息源解码器530适于对第一经编码的辅助信息进行解码905,其中第一指数ei(k),i=1,...,OMIN和第一异常标记βi(k),i=1,...,OMIN被获得。
增强层辅助信息源解码器560适于对第二经编码的辅助信息进行解码906,其中第二指数ei(k),i=OMIN+1,...,I和第二异常标记βi(k),i=OMIN+1,...,I被获得,并且其中进一步的数据被获得。进一步的数据包括用于方向信号的第一元组集合/>和用于基于向量的信号的第二元组集合/>第一元组集合/>中的每个元组包括方向信号的索引和相应的量化方向,并且第二元组集合/>中的每个元组包括基于向量的信号的索引和定义基于向量的信号的方向分布的向量。另外,预测参数ξ(k+1)和周围环境分配向量vAMB,ASSIGN(k)被获得,其中周围环境分配向量vAMB,ASSIGN(k)包括指示对于每个传输声道它是否包含周围环境HOA分量的系数序列以及包含周围环境HOA分量的哪些系数序列的分量。
图6示出了根据本发明的一个实施例的HOA解压器的空间HOA解码部分的体系架构的结构。空间HOA解码部分包括多个逆增益控制单元604、信道重新分配模块605、主导声音合成模块606,以及周围环境合成模块607、HOA组合模块608。
多个逆增益控制单元604适于执行逆增益控制,其中所述第一经感知解码的运输信号根据第一指数ei(k),i=1,...,OMIN和第一异常标记βi(k),i=1,...,OMIN被变换为第一经增益校正的信号帧/>并且其中第二经感知解码的运输信号/>根据第二指数ei(k),i=OMIN+1,...,I和第二异常标记βi(k),i=OMIN+1,...,I被变换为第二经增益校正的信号帧/>
声道重新分配模块605适于向I个声道重新分布911第一和第二经增益校正的信号帧其中主导声音信号/>的帧被重构,主导声音信号包括方向信号和基于向量的信号,并且其中,修改后的周围环境HOA分量/>被获得,并且其中该分配是根据所述周围环境分配向量vAMB,ASSIGN(k)并根据所述第一和第二元组集合/>和/>中的信息进行的。
另外,声道重新分配模块605适于生成修改后的周围环境HOA分量的在第k帧中有效的系数序列的第一索引集合以及修改后的周围环境HOA分量的在第(k-1)帧中必须被启用、禁用和保持有效的系数序列的第二索引集合/>
主导声音合成模块606适于根据所述主导声音信号合成912主导HOA声音分量/>的HOA表示,其中第一和第二元组集合/>预测参数ξ(k+1)和第二索引集合/>被使用。
周围环境合成模块607适于根据修改后的周围环境HOA分量合成913周围环境HOA分量/>其中,进行对前OMIN个声道的逆空间变换,并且其中第一索引集合/>被使用,该第一索引集合是周围环境HOA分量的在第k帧中有效的系数序列的索引。
如果分层模式指示LMFD指示具有至少两层的分层模式,则周围环境HOA分量在其OMIN个最低位置(即,具有最低索引的那些位置)包括经解压的HOA信号的HOA系数序列,并且在其余较高位置包括作为残差的HOA表示的部分的系数序列。该残差是经解压的HOA信号/>与主导HOA声音分量/>的HOA表示之间的残差。
另一方面,如果分层模式指示LMFD指示单层模式,则不包括经解压的HOA信号的HOA系数序列,并且周围环境HOA分量是经解压的HOA信号/>与主导HOA声音分量/>的HOA表示之间的残差。
HOA合成模块608适于使主导声音分量的HOA表示与周围环境HOA分量相加,其中主导声音信号的HOA表示的系数和周围环境HOA分量的对应系数相加,并且其中,经解压的HOA信号/>被获得,并且其中,
如果分层模式指示LMFD指示具有至少两层的分层模式,则仅最高的I-OMIN个系数声道通过主导HOA声音分量和周围环境HOA分量/>的相加来获得,并且经解压的HOA信号/> 的最低OMIN个系数声道是从周围环境HOA成/>拷贝的。另一方面,如果分层模式指示LMFD指示单层模式,则经解压的HOA信号/>的所有系数声道通过主导HOA声音分量/> 和周围环境HOA分量/>的相加来获得。
图7示出了帧从周围环境HOA信号到修改后的周围环境HOA信号的变换。
图8示出了用于对HOA信号进行压缩的方法的流程图。
用于对高阶Ambisonics(HOA)信号进行压缩的方法800包括输入时间帧的空间HOA编码以及后续的感知编码和源编码,HOA信号是具有HOA系数序列的输入时间帧C(k)的N阶输HOA表示。
空间HOA编码包括以下步骤:
在方向和向量估计模块301中执行HOA信号的方向和向量估计处理801,其中获得包括用于方向信号的第一元组集合和用于基于向量的信号的第二元组集合的数据,第一元组集合/>中的每个元组包括方向信号的索引和相应的量化方向,并且第二元组集合/>中的每个元组包括基于向量的信号的索引和定义信号的方向分布的向量,
在HOA分解模块303中将HOA系数序列的每个输入时间帧分解802成一帧多个主导声音信号XPS(k-1)和一帧周围环境HOA分量其中主导声音信号XPS(k-1)包括方向声音信号和基于向量的声音信号,并且其中周围环境HOA分量/>包括表示输入HOA表示与主导声音信号的HOA表示之间的残差的HOA系数序列,并且其中分解802还提供预测参数ξ(k-1)和目标分配向量vA,T(k-1),预测参数ξ(k-1)描述如何根据主导声音信号XPS(k-1)中的方向信号预测HOA信号表示的部分以便丰富主导源HOA分量,并且目标分配向量vA,T(k-1)包含关于如何向给定数量(I)的声道分配主导声音信号的信息,
在周围环境分量修改模块304中根据由目标分配向量vA,T(k-1)提供的信息修改803周围环境HOA分量CAMB(k-1),其中,取决于有多少声道被主导声音信号占用,确定周围环境HOA分量CAMB(k-1)的哪些系数序列要在给定的I个的声道中被发送,并且其中获得修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1),并且其中从目标分配向量vA,T(k-1)中的信息获得最终分配向量vA(k-2),
在声道分配模块105中利用由最终分配向量vA(k-2)提供的信息向给定的I个声道分配804从解压获得的主导声音信号XPS(k-1)、以及修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1)的确定的系数序列,其中获得运输信号yi(k-2),i=1,...,I和预测的运输信号yP,i(k-2),i=1,...,I,并且
在多个增益控制模块306中对运输信号yi(k-2)和预测的运输信号yP,i(k-2)执行增益控制805,其中获得增益修改的运输信号zi(k-2)、指数ei(k-2)和异常标记βi(k-2)。
感知编码和源编码包括以下步骤:
在感知编码器310中对所述经增益修改的运输信号zi(k-2)进行感知编码806,其中获得经感知编码的运输信号
在一个或多个辅助信号源编码器320、330中对包括所述指数ei(k-2)和异常标记βi(k-2)、所述第一元组集合和第二元组集合/>所述预测参数ξ(k-1)和所述最终分配向量vA(k-2)的辅助信息进行编码807,其中获得经编码的辅助信息/>以及
对经感知编码的运输信号和经编码的辅助信息/>进行多路复用808,其中获得多路复用的数据流/>
在分解步骤802中获得的周围环境HOA分量包括输入HOA表示的在OMIN个最低位置(即,具有最低索引的那些位置)的第一HOA系数序列cn(k-1)和其余更高位置的第二HOA系数序列cAMB,n(k-1)。第二系数序列是输入HOA表示与主导声音信号的HOA表示之间的残差的HOA表示的部分。
前OMIN个指数ei(k-2),i=1,...,OMIN和异常标记βi(k-2),i=1,...,OMIN在基本层辅助信息源编码器320中被编码,其中获得经编码的基本层辅助信息并且其中OMIN=(NMIN+1)2和O=(N+1)2,NMIN≤N且OMIN≤I并且NMIN是预定义的整数值。
前OMIN个经感知编码的运输信号和经编码的基本层辅助信息/>在基本层比特流多路复用器340中被多路复用809,其中获得基本层比特流/>
其余的I-OMIN个指数ei(k-2),i=OMIN+1,...,I)和异常标记βi(k-2),i=OMIN+1,...,I、所述第一元组集合和第二元组集合/>所述预测参数ξ(k-l)和所述最终分配向量vA(k-2)(在图中也被示为vAMB,ASSIGN(k))在增强层辅助信息编码器330中被编码,其中获得经编码的增强层辅助信息/>
其余的I-OMIN个经感知编码的运输信号 和经编码的增强层辅助信息/>在增强层比特流多路复用器350中被多路复用810,其中获得增强层比特流/>
如上所述,模式指示被添加811,该模式指示发信号通知分层模式的使用。模式指示是通过指示插入模块或多路复用器添加的。
在一个实施例中,该方法还包括将基本层比特流增强层比特流和模式指示多路复用到单个比特流中的最后一步。
在一个实施例中,所述主导方向估计取决于在能量上占主导的HOA分量的方向功率分布。
在一个实施例中,在修改周围环境HOA分量时,如果所选择的HOA系数序列的HOA序列索引在连续的帧之间变化,则执行系数序列的渐强和渐弱。
在一个实施例中,在修改周围环境HOA分量时,执行周围环境HOA分量(CAMB(k-1))的局部解相关。
在一个实施例中,第一元组集合中所包括的量化方向是主导方向。
图9示出了用于对压缩HOA信号进行解压的方法的流程图。
在本发明的该实施例中,用于对压缩的HOA信号进行解压的方法900包括感知解码和源解码以及后续的空间HOA解码,以获得HOA系数序列的输出时间帧并且该方法包括检测901指示压缩高阶Ambisonics(HOA)信号包括经压缩的基本层比特流和经压缩的增强层比特流/>的分层模式指示LMFD的步骤。
感知解码和源解码包括以下步骤:
对经压缩的基本层比特流进行解复用902,其中获得第一经感知编码的运输信号/>和第一经编码的辅助信息/>
对经压缩的增强层比特流进行解复用903,其中获得第二经感知编码的运输信号/>和第二经编码的辅助信息/>
对经感知编码的运输信号进行感知解码904,其中获得经感知解码的运输信号/>并且其中,在基本层感知解码器540中,基本层的所述第一经感知编码的运输信号/> 被解码并且第一经感知解码的运输信号被获得,并且其中,在增强层感知解码器550中,增强层的所述第二经感知编码的运输信号/>被解码并且第二经感知解码的运输信号/>被获得,
在基本层辅助信息源解码器530中对第一经编码的辅助信息进行解码905,其中获得第一指数ei(k),i=1,...,OMIN和第一异常标记βi(k),i=1,...,OMIN,以及/>
在增强层辅助信息源解码器560中对第二经编码的辅助信息进行解码906,其中获得第二指数ei(k),i=OMIN+1,...,I和第二异常标记βi(k),i=OMIN+1,...,I,并且其中获得进一步的数据,进一步的数据包括用于方向信号的第一元组集合/>和用于基于向量的信号的第二元组集合/>第一元组集合/> 中的每个元组包括方向信号的索引和相应的量化方向,并且第二元组集合/>中的每个元组包括基于向量的信号的索引和定义基于向量的信号的方向分布的向量,并且进一步地,其中获得预测参数ξ(k+1)和周围环境分配向量vAMB,ASSIGN(k)。周围环境分配向量vAMB,ASSIGN(k)包括指示对于每个传输声道它是否包含周围环境HOA分量的系数序列以及包含周围环境HOA分量的哪个系数序列的分量。
空间HOA解码包括以下步骤:
执行910逆增益控制,其中所述第一经感知解码的运输信号根据所述第一指数ei(k),i=1,...,OMIN和所述第一异常标记βi(k),i=1,...,OMIN被变换成第一经增益校正的信号帧/> 并且其中所述第二经感知解码的运输信号/> 根据所述第二指数ei(k),i=OMIN+1,...,I和所述第二异常标记βi(k),i=OMIN+1,...,I被变换成第二经增益校正的信号帧/>
在声道重新分配模块605中将第一和第二经增益校正的信号帧重新分布911至I个声道,其中主导声音信号的帧/>被重构,主导声音信号包括方向信号和基于向量的信号,并且其中获得修改后的周围环境HOA分量/>并且其中该分配是根据所述周围环境分配向量vAMB,ASSIGN(k)和所述第一和第二元组集合中的信息进行的,
在声道重新分配模块605中生成911b修改后的周围环境HOA分量的在第k帧中有效的系数序列的第一索引集合以及修改后的周围环境HOA分量的在第(k-1)帧中必须被启用、禁用和保持有效的系数序列的第二索引集合/>
在主导声音合成模块606中根据所述主导声音信号合成912主导HOA声音分量/>的HOA表示,其中第一和第二元组集合/>预测参数ξ(k+1)和第二索引集合/>被使用,
在周围环境合成模块607中根据修改后的周围环境HOA分量合成913周围环境HOA分量/>其中对前OMIN个声道进行逆空间变换,并且其中第一索引集合/>被使用,该第一索引集合是周围环境HOA分量的在第k帧中有效的系数序列的索引,其中,取决于分层模式指示LMFD,周围环境HOA分量具有至少两种不同配置之一,以及
在HOA组合模块608中使914主导HOA声音分量和周围环境HOA分量/>的HOA表示相加,其中主导声音信号的HOA表示的系数和周围环境HOA分量的对应系数被相加,并且其中获得经解压的HOA信号/>并且其中以下条件适用:
如果分层模式指示LMFD指示具有至少两层的分层模式,则通过主导HOA声音分量和周围环境HOA分量/>的相加仅获得最高的I-OMIN个系数声道,并且从周围环境HOA分量/>拷贝经解压的HOA信号/>的最低OMIN个系数声道。否则,如果所述分层模式指示LMFD指示单层模式,则经解压的HOA信号/>的所有系数声道都是通过主导HOA声音分量/>和周围环境HOA分量/>的相加获得的。
取决于分层模式指示LMFD的周围环境HOA分量的配置如下:
如果分层模式指示LMFD指示具有至少两层的分层模式,则周围环境HOA分量在其OMIN个最低位置包括经解压的HOA信号 的HOA系数序列,并且在其余更高位置包括如下系数序列:该系数序列是经解压的HOA信号/>与主导HOA声音分量/> 的HOA表示之间的残差的HOA表示的部分。
另一方面,如果分层模式指示LMFD指示单层模式,则周围环境HOA分量是经解压的HOA信号与主导HOA声音分量/>的HOA表示之间的残差。
在一个实施例中,压缩HOA信号表示是在经多路复用的比特流中,并且用于对压缩HOA信号进行解压的方法还包括对压缩HOA信号表示进行解复用的初始步骤,其中获得所述经压缩的基本层比特流所述经压缩的增强层比特流/>和所述分层模式指示LMFD
图10示出了根据本发明的一个实施例的HOA解压器的空间HOA解码部分的体系架构的结构。
有利地,例如,如果未接收到EL或者如果BL质量足够,则可以仅解码BL。对于这种情况,EL的信号可以在解码器被设置为零。于是,在声道重新分配模块605中向I个声道重新分布911第一和第二经增益校正的信号帧t是非常简单的,因为主导声音信号/>的帧是空的。修改后的周围环境HOA分量的在第(k-1)帧中必须被启用、停用和保持有效的系数序列的第二索引集合/>被设置为零。因此,在主导声音合成模块606中根据主导声音信号/>合成912主导HOA声音分量的HOA表示可以被跳过,并且在周围环境合成模块607中根据修改后的周围环境HOA分量/>合成913周围环境HOA分量/>对应于常规的HOA组合。
对于不需要低质量基本层比特流的应用,例如对于基于文件的压缩,HOA压缩的原始(即,整体式的、不可扩展的、非分层的)模式仍然可以是有用的。对周围环境HOA分量CAMB的经空间变换的前OMIN个系数序列(其为原始HOA表示与方向HOA表示之差)进行感知编码而非对原始HOA分量C的经空间变换的系数序列进行感知编码的主要优点在于,在前一种情况下,要被感知编码的所有信号之间的互相关减少。信号zi,i=1,...,I之间的任何互相关都会造成在空间解码处理期间感知编码噪声的相长性叠加(constructive superposition),而同时无噪声的HOA系数序列在叠加时被抵消。这种现象被称为感知噪声去掩蔽。
在分层模式下,在每个信号zi,i=1,...,OMIN之间以及还在信号zi,i=1,...,OMIN和zi,i=OMIN+1,...,I之间存在高度互相关,因为周围环境HOA分量的修改后的系数序列包括方向HOA分量的信号(参见方程(3))。相反,对于原始、非分层模式,情况不是这样。因此可以得出结论,由分层模式引入的传输健壮性以压缩质量为代价。但是,与传输健壮性的提高相比,压缩质量的降低是少的。如以上已经示出的,所提出的分层模式在至少上述情况下是有利的。
虽然已经示出、描述和指出了本发明的如被应用于其优选实施例的基本新颖特征,但是将理解,在不背离本发明的精神的情况下,本领域技术人员可以在所描述的装置和方法、所公开的设备的形式和细节以及它们的操作中进行各种省略、替换和改变。以下是明确想要的:为了实现相同结果而以基本相同方式执行基本相同功能的那些要素的所有组合都在本发明的范围之内。从一个所述实施例到另一个的要素替换也是完全预期和设想的。
将理解,已仅仅以举例的方式描述了本发明,并且在不背离本发明的范围的情况下可以进行细节的修改。
在说明书以及(适当的时候)权利要求和附图中公开的每个特征可以单独地或者以任何适当的组合提供。在适当的时候,特征可以以硬件、软件或者二者的组合实现。在适用的时候,连接可以被实现为无线的连接或有线的(不一定是直接或专用的)连接。
权利要求中出现的标号仅仅是通过说明的方式,并且对权利要求的范围将没有限制作用。
引用的参考文献
[1]EP12306569.0
[2]EP12305537.8(公开为EP2665208A)
[3]EP133005558.2
[4]ISO/IEC JTC1/SC29/N14264,MPEG-H 3D音频的工作草案1-HOA文本,2014年1月

Claims (3)

1.一种对声音或声场的经压缩的高阶Ambisonics HOA表示进行解码的方法,该方法包括:
确定是否存在与经压缩的HOA表示相关的多个层;以及
基于确定存在多个层,对来自比特流的所述经压缩的HOA表示进行解码以获得经解码的HOA表示的序列;
其中,经解码的HOA表示的序列的第一子集对应于第一组索引,并且经解码的HOA表示的序列的第二子集对应于第二组索引,其中,所述第一组索引基于OMIN个声道,其中,对于所述第一组索引中的每个索引,仅基于对应的周围环境HOA分量来确定第一子集中对应的经解码的HOA表示,其中,所述第二组索引是基于所述多个层中的至少一个层确定的,其中,对于索引n和帧k,
其中,表示对应的周围环境声音分量,并且/>表示对应的主导声音分量,并且
其中,如果经解码的HOA表示的序列的索引在连续的帧之间变化,则执行经解码的HOA表示的序列的HOA系数的渐强和渐弱。
2.一种对声音或声场的经压缩的高阶Ambisonics HOA表示进行解码的装置,该装置包括:
音频解码器,用于基于确定存在多个层,对来自比特流的经压缩的HOA表示进行解码以获得经解码的HOA表示的序列;
其中,经解码的HOA表示的序列的第一子集对应于第一组索引,并且经解码的HOA表示的序列的第二子集对应于第二组索引,
其中,所述第一组索引基于OMIN个声道,
其中,对于所述第一组索引中的每个索引,仅基于对应的周围环境HOA分量来确定第一子集中对应的经解码的HOA表示,
其中,对于索引n和帧k,
其中,表示对应的周围环境声音分量,并且/>
表示对应的主导声音分量,并且
其中,如果经解码的HOA表示的序列的索引在连续的帧之间变化,则执行经解码的HOA表示的序列的HOA系数的渐强和渐弱。
3.一种包含指令的非临时性计算机可读存储介质,所述指令当被处理器执行时执行如权利要求1所述的方法。
CN202311226031.4A 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质 Pending CN117198304A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP14305413 2014-03-21
EP14305413.8 2014-03-21
PCT/EP2015/055917 WO2015140293A1 (en) 2014-03-21 2015-03-20 Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal
CN201580015027.0A CN106233755B (zh) 2014-03-21 2015-03-20 用于对经压缩的hoa表示解码的方法、装置及计算机可读介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580015027.0A Division CN106233755B (zh) 2014-03-21 2015-03-20 用于对经压缩的hoa表示解码的方法、装置及计算机可读介质

Publications (1)

Publication Number Publication Date
CN117198304A true CN117198304A (zh) 2023-12-08

Family

ID=50439307

Family Applications (7)

Application Number Title Priority Date Filing Date
CN201811371620.0A Active CN109410962B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN201580015027.0A Active CN106233755B (zh) 2014-03-21 2015-03-20 用于对经压缩的hoa表示解码的方法、装置及计算机可读介质
CN202311226031.4A Pending CN117198304A (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN201811371621.5A Active CN109410963B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN201811371619.8A Active CN109410961B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN201811371617.9A Active CN109410960B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN202311226000.9A Pending CN117253494A (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201811371620.0A Active CN109410962B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN201580015027.0A Active CN106233755B (zh) 2014-03-21 2015-03-20 用于对经压缩的hoa表示解码的方法、装置及计算机可读介质

Family Applications After (4)

Application Number Title Priority Date Filing Date
CN201811371621.5A Active CN109410963B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN201811371619.8A Active CN109410961B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN201811371617.9A Active CN109410960B (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质
CN202311226000.9A Pending CN117253494A (zh) 2014-03-21 2015-03-20 用于对压缩的hoa信号进行解码的方法、装置和存储介质

Country Status (6)

Country Link
US (5) US9818413B2 (zh)
EP (1) EP3120353B1 (zh)
JP (5) JP6243060B2 (zh)
KR (5) KR101846373B1 (zh)
CN (7) CN109410962B (zh)
WO (1) WO2015140293A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
UA123399C2 (uk) * 2015-10-08 2021-03-31 Долбі Інтернешнл Аб Багаторівневе кодування стиснених представлень звуку або звукового поля
CN116052696A (zh) * 2015-10-08 2023-05-02 杜比国际公司 用于压缩声音或声场表示的分层编解码
CN116312576A (zh) * 2015-10-08 2023-06-23 杜比国际公司 声音或声场的压缩hoa表示的解码方法和装置
TWI703558B (zh) * 2015-10-08 2020-09-01 瑞典商杜比國際公司 解碼聲音或音場的壓縮高階環境立體聲聲音表徵的方法及設備
KR20210043679A (ko) 2018-08-21 2021-04-21 돌비 인터네셔널 에이비 즉시 재생 프레임(ipf)의 생성, 전송 및 처리를 위한 방법, 장치 및 시스템
CN109036456B (zh) * 2018-09-19 2022-10-14 电子科技大学 用于立体声的源分量环境分量提取方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
EP2592845A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2688065A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for avoiding unmasking of coding noise when mixing perceptually coded multi-channel audio signals
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
WO2014013070A1 (en) 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
KR102201726B1 (ko) * 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
TWI703558B (zh) * 2015-10-08 2020-09-01 瑞典商杜比國際公司 解碼聲音或音場的壓縮高階環境立體聲聲音表徵的方法及設備
CN116052696A (zh) * 2015-10-08 2023-05-02 杜比国际公司 用于压缩声音或声场表示的分层编解码

Also Published As

Publication number Publication date
JP2019154058A (ja) 2019-09-12
US20180366131A1 (en) 2018-12-20
JP6949900B2 (ja) 2021-10-13
KR20180037319A (ko) 2018-04-11
KR20210006016A (ko) 2021-01-15
CN109410962A (zh) 2019-03-01
JP2023153310A (ja) 2023-10-17
JP7374969B2 (ja) 2023-11-07
CN106233755A (zh) 2016-12-14
KR20160124424A (ko) 2016-10-27
KR102428794B1 (ko) 2022-08-04
JP6526153B2 (ja) 2019-06-05
KR101846373B1 (ko) 2018-04-09
JP2018049283A (ja) 2018-03-29
CN109410961B (zh) 2023-08-25
KR20200096687A (ko) 2020-08-12
US9818413B2 (en) 2017-11-14
CN109410963B (zh) 2023-10-20
US20180108362A1 (en) 2018-04-19
US10089992B2 (en) 2018-10-02
JP2021192127A (ja) 2021-12-16
JP2017513338A (ja) 2017-05-25
CN109410961A (zh) 2019-03-01
JP6243060B2 (ja) 2017-12-06
US10629212B2 (en) 2020-04-21
US20190214026A1 (en) 2019-07-11
CN109410963A (zh) 2019-03-01
EP3120353A1 (en) 2017-01-25
US20190333526A1 (en) 2019-10-31
CN106233755B (zh) 2018-11-09
CN109410960B (zh) 2023-08-29
US10388292B2 (en) 2019-08-20
CN109410960A (zh) 2019-03-01
KR102201961B1 (ko) 2021-01-12
US10192559B2 (en) 2019-01-29
KR20220113837A (ko) 2022-08-16
WO2015140293A1 (en) 2015-09-24
KR102143037B1 (ko) 2020-08-11
CN117253494A (zh) 2023-12-19
CN109410962B (zh) 2023-06-06
EP3120353B1 (en) 2019-05-01
US20170178634A1 (en) 2017-06-22

Similar Documents

Publication Publication Date Title
JP7174810B6 (ja) 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP6870052B2 (ja) 圧縮されたhoa信号をデコードする方法および装置
CN109410961B (zh) 用于对压缩的hoa信号进行解码的方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40100557

Country of ref document: HK