CN111182443A - 包括编码hoa表示的位流的解码方法和装置、以及介质 - Google Patents
包括编码hoa表示的位流的解码方法和装置、以及介质 Download PDFInfo
- Publication number
- CN111182443A CN111182443A CN202010019997.0A CN202010019997A CN111182443A CN 111182443 A CN111182443 A CN 111182443A CN 202010019997 A CN202010019997 A CN 202010019997A CN 111182443 A CN111182443 A CN 111182443A
- Authority
- CN
- China
- Prior art keywords
- prediction
- array
- activepred
- elements
- preddirsigids
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000694 effects Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims 3
- 238000002372 labelling Methods 0.000 claims 1
- 238000007906 compression Methods 0.000 abstract description 10
- 230000006835 compression Effects 0.000 abstract description 8
- 238000000354 decomposition reaction Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001745 non-dispersive infrared spectroscopy Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开涉及包括编码HOA表示的位流的解码方法和装置、以及介质。高阶高保真度立体声响复制代表与特定扬声器设置无关的三维声音。但是,传送HOA表示导致非常高的位速率。因此,使用具有固定数量的通道的压缩,其中,方向和环境信号成分以不同的方式被处理。对于编码,从方向信号成分预测原始HOA表示的多个部分。这种预测提供相应解码所需要的边信息。通过使用一些附加的特定目的位,已知边信息编码处理得到改善,这在于用于编码该边信息的需要的位数平均减少。
Description
本申请是申请号为201480072725.X、申请日为2014年12月19日、发明名称为“用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置”的发明专利申请的分案申请。
技术领域
本发明涉及用于改善对声场的高阶高保真度立体声响复制表示(Higher OrderAmbisonics representation)进行编码所需的边信息的编码的方法和装置。
背景技术
除了诸如波场合成(WFS)或诸如22.2多通道音频格式的基于通道的方法的其它技术以外,高阶高保真度立体声响复制(HOA)也提供表现三维声音的一种可能性。与基于通道的方法对照,HOA表示提供与特定扬声器设置无关的优点。但是,这种灵活性以特定扬声器设置上的HOA表示的回放所需要的解码处理为代价。与所需的扬声器的数量通常非常大的WFS方法相比,HOA信号也可被呈现给仅包含很少的扬声器的设置。HOA的另一优点在于,可以在不对头戴式耳机(headphone)的双耳呈现进行任何修改的情况下使用同一表示。
HOA基于按照截短的球面谐波(SH)展开(expansion)的复杂平面谐波振幅的空间密度的表示。各展开系数是角频率的函数,该函数可以用时域函数等同地表示。由此,不失一般性,整个HOA声场表示实际上可被假定为包含O个时域函数,这里,O标记展开系数的数量。以下,这些时域函数将被等同地称为HOA系数序列或者HOA通道。
随着展开的最高阶N增大,HOA表示的空间分辨率提高。不幸的是,展开系数的数量O随着阶N二次生长,具体地,O=(N+1)2。例如,利用阶N=4的典型的HOA表示需要O=25个HOA(展开)系数。根据前面所作的考虑,给定希望的单通道采样率fs和每个样本的位数Nb,传送HOA表示的总位速率由O·fs·Nb确定。因此,通过使用Nb=16位每采样、以fs=48kHz的采样率传送阶N=4的HOA表示导致19.2MBits/s的位速率,这对于诸如例如流传输的许多实际应用来说非常高。因此,非常希望压缩HOA表示。
在WO 2013/171083 A1、EP 13305558.2和PCT/EP2013/075559中提出HOA声场表示的压缩。这些处理的共同之处在于,它们执行声场分析并且将给定的HOA表示分解成方向成分和残留环境成分。一方面,最终的压缩表示被假定为包含由环境HOA成分的相关系数序列和方向信号的感知编码得到的数个量化信号。另一方面,假定它包含与量化信号相关的另外的边信息,该边信息是从其压缩版本重构HOA表示所需要的。
该边信息的重要部分是从方向信号预测原始HOA表示的多个部分的描述。由于对于该预测来说,原始HOA表示被假定为由从空间均匀分布的方向冲击的数个空间分散的一般平面波等同地代表,因此,以下,预测被称为空间预测。
在ISO/IEC JTC1/SC29/WG11,N14061,“Working Draft Text of MPEG-H 3DAudio HOA RM0”,November 2013,Geneva,Switzerland中描述了与空间预测有关的这种边信息的编码。但是,边信息的该现有技术编码相当不足。
发明内容
本发明要解决的一个问题是提供编码与该空间预测有关的边信息的更有效的方式。
通过在本发明中公开的方法解决该问题。在本发明中还公开了利用这些方法的装置。
位被预先安排给编码的边信息表示数据ζCOD,该位用于表示是否要执行任何预测。该特征随时间减少传送ζCOD数据的平均位速率。此外,在特定的情形中,作为使用对各方向指示是否执行预测的位阵列的替代,传送或传递活动的预测的数量和各指标更有效的。单个位可用于指示被推想为执行预测的方向的指标以何种方式被编码。平均来说,该操作随时间进一步减小传送ζCOD数据的位速率。
原则上,本发明的方法适于改善用高阶高保真度立体声响复制(标记为HOA)系数序列的输入时间帧编码声场的HOA表示所需要的边信息的编码,其中,主导方向信号以及残留环境HOA成分被确定,并且,预测被用于所述主导方向信号,由此对HOA系数的编码帧提供描述所述预测的边信息数据,并且其中,所述边信息数据可包含:
-表示是否对方向执行预测的位阵列;
-其中每个位对于要执行预测的方向指示预测的类型的位阵列;
-其要素关于要执行的预测表示要使用的方向信号的指标的数据阵列;
-其要素代表量化的缩放因子的数据阵列,
所述方法包括以下步骤:
-提供指示是否要执行所述预测的位值;
-如果不执行预测,那么在所述边信息数据中省略所述位阵列和所述数据阵列;
-如果要执行所述预测,那么,作为所述表示是否对方向执行预测的位阵列的替代,提供指示活动的预测的数量和包含要执行预测的方向的指标的数据阵列是否包含于所述边信息数据中的位值。
原则上,本发明的装置适于改善用高阶高保真度立体声响复制(标记为HOA)系数序列的输入时间帧编码声场的HOA表示所需要的边信息的编码,其中,主导方向信号以及残留环境HOA成分被确定,并且,预测被用于所述主导方向信号,由此对HOA系数的编码帧提供描述所述预测的边信息数据,并且其中,所述边信息数据可包含:
-表示是否对方向执行预测的位阵列;
-其中每个位对于要执行预测的方向指示预测的类型的位阵列;
-其要素关于要执行的预测表示要使用的方向信号的指标的数据阵列;
-其要素代表量化的缩放因子的数据阵列,
所述装置包括以下部件,其:
-提供指示是否要执行所述预测的位值;
-如果不执行预测,那么在所述边信息数据中省略所述位阵列和所述数据阵列;
-如果要执行所述预测,那么,作为所述表示是否对方向执行预测的位阵列的替代,提供指示活动的预测的数量和包含要执行预测的方向的指标的数据阵列是否包含于所述边信息数据中的位值。
本发明的有利的另外的实施例在各独立的权利要求中被公开。
附图说明
参照附图描述本发明的示例性实施例,其中,
图1表示与在EP 13305558.2中描述的HOA压缩处理中的空间预测有关的边信息的示例性编码;
图2表示与在专利申请EP 13305558.2中描述的HOA解压缩处理中的空间预测有关的边信息的示例性解码;
图3表示在专利申请PCT/EP2013/075559中描述的HOA分解;
图4表示代表残留信号的一般平面波的方向(示为叉)和主导声源的方向(示为圈)的示图。这些方向在三维坐标系中呈现为单位球上的采样位置;
图5表示空间预测边信息的现有技术编码;
图6表示空间预测边信息的本发明的编码;
图7表示编码的空间预测边信息的本发明的解码;
图8是图7的继续。
具体实施方式
以下,为了提供使用与空间预测有关的边信息的本发明的编码的语境,回顾一下在专利申请EP 13305558.2中描述的HOA压缩和解压缩处理。
HOA压缩
在图1中,示出与空间预测有关的边信息的编码如何能被嵌入到在专利申请EP13305558.2中描述的HOA压缩处理中。对于HOA表示压缩,采用对于长度L的HOA系数序列的非重叠输入帧C(k)的帧状处理,这里,k标记帧指标。图1中的第一步骤或阶段11/12是任选的,包括将HOA系数序列C(k)的非重叠的第k个帧和第(k-1)个帧级联为长帧如下:
该长帧与相邻的长帧重叠50%,并且,该长帧被相继用于主导声源方向的估计。与的表示法类似,上波折号(tilde)在以下的描述中用于表示各量指的是长重叠帧。如果不存在步骤/阶段11/12,那么上波折号没有特定含义。加粗的参数意味着一组值,例如,矩阵或者矢量。
如在EP 13305558.2中描述的那样,长帧被相继用于步骤或阶段13中,用于估计主导声源方向。该估计提供所检测的相关方向信号的指标的数据组以及方向信号的相应方向估计的数据组D表示必须在开始HOA压缩之前设定且可在随后的已知处理中应对的方向信号的最大数量。
在步骤或阶段14中,HOA系数序列的当前(长)帧被分解(如在EP 13305156.5中提出的那样)成属于包含于组中的方向的数个方向信号XDIR(k-2)和残留环境HOA成分CAMB(k-2)。为了获得平滑的信号,作为重叠-相加处理的结果,引入两个帧的延迟。假定XDIR(k-2)包含总共D个通道,但是,其中只有与活动的方向信号对应的那些是非零的。规定这些通道的指标被假定为在数据组JDIR,ACT(k-2)中被输出。另外,步骤/阶段14中的分解提供可在用于从方向信号预测原始HOA表示的多个部分的分解侧使用的一些参数ζ(k-2)(更多细节请参见EP 13305156.5)。为了解释空间预测参数ζ(k-2)的含义,在后面的部分“HOA分解”中更详细地描述HOA分解。
在步骤或阶段15中,环境HOA成分CAMB(k-2)的系数的数量减少为仅包含ORED+D-NDIR,ACT(k-2)个非零HOA系数序列,这里,NDIR,ACT(k-2)=|JDIR,ACT(k-2)|表示数据组JDIR,ACT(k-2)的基数(cardinality),即,帧k-2中的活动的方向信号的数量。由于环境HOA成分被认为总是由HOA系数序列的最小数量ORED代表,因此,该问题实际上可简化为在可能的O-ORED个HOA系数序列中选择剩余的D-NDIR,ACT(k-2)个HOA系数序列。为了获得平滑的简化的环境HOA表示,完成该选取(choice),使得与在前面的帧k-3进行的选取相比,将发生尽可能少的改变。
具有减少数量的ORED+NDIR,ACT(k-2)非零系数序列的最终的环境HOA表示由CAMB,RED(k-2)表示。选取的环境HOA系数序列的指标在数据组JAMB,ACT(k-2)中被输出。在步骤/阶段16中,如EP 13305558.2中描述的那样,包含于XDIR(k-2)中的活动方向信号和包含于CAMB,RED(k-2)中的HOA系数序列被分配给单个感知编码的l个通道的帧Y(k-2)。感知编码步骤/阶段17编码帧Y(k-2)的l个通道并且输出编码的帧
根据本发明,在步骤/阶段14中的原始HOA表示的分解之后,为了提供编码的数据表现ζCOD(k-2),通过使用在延迟18中延迟了两个帧的指标组在步骤或阶段19中无损地编码从HOA表示的分解得到的空间预测参数或边信息数据ζ(k-2)。
HOA分解
在图2中,示例性地表示如何在步骤或阶段25中将与空间预测有关的接收的编码的边信息数据ζCOD(k-2)的解码嵌入到在专利申请EP 13305558.2的图3中描述的HOA分解处理中。通过使用在延迟24中延迟了两个帧的接收的指标组在使编码边信息数据ζCOD(k-2)的解码版本ζ(k-2)在步骤或阶段23中进入到HOA表示的组成(composition)中之前,实现编码边信息数据ζCOD(k-2)的解码。
在信号重新分配步骤或阶段22中,为了重新创建方向信号的帧和环境HOA成分的帧中的感知解码信号被重新分配。通过使用指标数据组和JAMB,ACT(k-2),再现对HOA压缩执行的分配操作,获得关于如何重新分配信号的信息。在组成步骤或阶段23中,重新组成希望的总HOA表示的当前帧(根据关于PCT/EP2013/075559的图2b和图4描述的处理,使用方向信号的帧活动方向信号指标的组连同相应的方向的组来自方向信号的HOA表示的预测部分的参数ζ(k-2)、以及减少的环境HOA成分的HOA系数序列的帧)。
与PCT/EP2013/075559中的成分对应,并且,和与PCT/EP2013/075559中的对应,其中,可通过取得包含有效要素的的行的那些指标获得活动方向信号指标。即,通过使用接收的对这种预测的参数ζ(k-2)从方向信号预测关于均匀分布方向的方向信号,然后,从方向信号的帧、从和以及从预测部分和减少的环境HOA成分重新组成当前的解压缩帧
HOA分解
关于图3,为了解释其中的空间预测的含义,详细描述HOA分解处理。该处理得自关于专利申请PCT/EP2013/075559的图3描述的处理。
首先,在步骤或阶段31中,通过使用输入HOA表示的长帧方向的组以及方向信号的相应指标的组计算平滑的主导方向信号XDIR(k-1)和它们的HOA表示CDIR(k-1)。假定XDIR(k-1)包含总共D个通道,但是,其中,只有与活动方向信号对应的那些是非零的。规定这些通道的指标被假定为在组JDIR,ACT(k-1)中被输出。在步骤或阶段33中,原始HOA表示和主导方向信号的HOA表示CDIR(k-1)之间的残差由O个方向信号(它们可被视为来自被称为均匀网格的均匀分布方向的一般平面波)的数量代表。在步骤或阶段34中,为了提供预测信号与各预测参数ζ(k-1),从主导方向信号XDIR(k-1)预测这些方向信号。对于预测,仅考虑具有包含于组中的指标d的主导方向信号xDIR,d(k-1)。在后面的部分“空间预测”中更详细地描述预测。
在步骤或阶段35中,计算预测方向信号的平滑的HOA表示在步骤或阶段37中,原始HOA表示与主导方向信号的HOA表示CDIR(k-2)和来自均匀分布方向的预测方向信号的HOA表示之间的残差CAMB(k-2)被计算并且被输出。
通过相应的延迟381~387执行图3的处理中需要的信号延迟。
空间预测
空间预测的目的是预测O个残留信号:
其中,这O个残留信号是从以下平滑的方向信号的扩展帧预测的:
(参见专利申请PCT/EP2013/075559中和以上的部分“HOA分解”的描述)。
为了通过例子解释说明空间预测的含义,考虑阶N=3的HOA表示的分解,这里,提取的方向的最大数量等于D=4。为了简化,进一步假定只有具有指标“1”和“4”的方向信号是活动的,而具有指标“2”和“3”的那些是不活动的。另外,为了简化,假定主导声源的方向对于考虑的帧来说是恒定的,即,ΩACT,d(k-3)=
ΩACT,d(k-2)=ΩACT,d(k-1)=ΩACT,d(k)=ΩACT,d for d=1,4 (5)作为阶N=3的结果,存在空间分散的一般平面波q=1、…、O的O=16个方向Ωq。图4示出这些方向以及活动的主导声源的方向ΩACT,1和ΩACT,4。
用于描述空间预测的现有技术的参数
在上述的ISO/IEC文献中给出一种描述空间预测的方式。在该文献中,信号q=1、…、O被假定为通过方向信号的预定最大数量DPRED的加权和或者通过该加权和的低通滤波版本被预测。与空间预测有关的边信息由参数组ζ(k-1)={pTYPE(k-1),PIND(k-1),PQ,F(k-1)}描述,该参数组包含以下的三个成分:
·矢量pTYPE(k-1),其要素pTYPE,q(k-1),q=1、…、O表示对于第q方向Ωq是否执行预测,如果是,那么它们也指示预测的类型。这些要素的含义如下:
·矩阵PIND(k-1),其要素pIND,d,q(k-1),d=1、…、DPRED,q=1、…、O标记其中的方向信号已执行方向Ωq的预测的指标。如果对于方向Ωq没有执行预测,那么矩阵PIND(k-1)的相应列由零构成。并且,如果对方向Ωq的预测使用少于DPRED的方向信号,那么PIND(k-1)的第q列中的不需要的要素也是零。
·矩阵PQ,F(k-1),包含相应的量化预测因子pQ,F,d,q(k-1),d=1、…、DPRED,q=1、…、O。
为了使得能够适当地解释这些参数,必须在解码侧获知以下的两个参数:
·用于量化预测因子pQ,F,d,q(k-1)的位的数量BSC,d=1、…、DPRED,q=1、…、O。在式(10)中给出去量化规则。
这两个参数必须被任意地设定为编码器和解码器已知的固定值,或者要被另外传送的固定值,但传送率明显没有帧率频繁。后一种选项可用于使这两个参数适于要压缩的HOA表示。
假定O=16、DPRED=2且BSC=8,参数组的例子可能看起来类似于以下形式:
pTYpE(k-1)=[1 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0], (7)
这种参数意味着,通过与从对值40去量化得到的因子的纯相乘(即,全波段),从来自方向ΩACT,1的方向信号预测来自方向Ω1的一般平面波信号并且,通过低通滤波和与从对值15和-13去量化得到的因子的相乘,从方向信号和预测来自方向Ω7的一般平面波信号
给定该边信息,预测被假定为执行如下:
首先,量化预测因子pQ,F,d,q(k-1),d=1、…、DPRED,q=1、…、O被去量化以提供实际的预测因子:
如已经描述的,BSC标记用于量化预测因子的位的预定数量。另外,如果pIND,d,q(k-1)等于零,那么pF,d,q(k-1)被假定为被设定为零。
对于上述的例子,假定BSC=8,则去量化预测因子矢量会导致:
并且,为了执行低通预测,使用长度Lh=31的预定低通FIR滤波器hLP:=[hLP(0)hLP(1)… hLP(Lh-1)] (12)。滤波延迟由Dh=15个采样给出。
作为信号,假定预测信号
和方向信号
*for:对于由它们的采样构成,则预测信号的采样值由下式给出:
*if:如果
与空间预测有关的边信息的现有技术编码
在上述的ISO/IEC文献中,针对的是空间预测边信息的编码。在图5所示的算法1中概括并且将在以下解释它。为了更清楚地表现,在所有的表达中忽略帧指标k-1。
首先,创建包含O个位的位阵列ActivePred,其中,位ActivePred[q]表示是否对方向Ωq执行预测。该阵列中的“1”的数量由NumActivePred标记。
然后,创建长度为NumActivePred的位阵列PredType,这里,每个位对要执行预测的方向指示预测的类型即全波段还是低通。同时,创建长度为NumActivePred·DPRED的无符号整数阵列PredDirSigIds,该阵列的要素对每个活动的预测标记要使用的方向信号的DPRED指标。如果对预测使用少于DPRED的方向信号,那么指标被假定为被设定为零。阵列PredDirSigIds的各要素被假定为由|log2(D+1)|个位代表。阵列PredDirSigIds中的非零要素的数量由NumNonZerolds表示。
最后,创建长度为NumNonZerolds的整数阵列QuantPredGains,其要素被假定为代表用于式(17)中的量化缩放因子PQ,F,d,q(k-1)。在式(10)中给出用于获得相应的去量化缩放因子PF,d,q(k-1)的去量化。阵列QuantPredGains的各要素被假定为由BSC个位代表。
最后,边信息ζCOD的编码表示包含根据下式的四个上述的阵列:
ζCOD=[ActivePred PredType PredDirSinglds QuantPredGains].(19)
为了用例子解释该编码,使用式(7)~(9)的编码表示:
ActivePred=[1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0] (20)
PredType=[0 1] (21)
PredDirSigIds=[1 0 1 4] (22)
QuantPredGains=[40 15 -13]. (23)
需要的位的数量等于16+2+3·4+8·+3=54。
本发明的与空间预测有关的边信息的编码
为了提高与空间预测有关的边信息的编码的效率,现有技术的处理被有利地修改。
A)当编码典型声场的HOA表示时,本发明的发明人观察到常常有多个帧在HOA压缩处理中决定根本不执行任何空间预测。但是,在这些帧中,位阵列ActivePred仅包含零,零的数量等于O。由于这种帧内容常常出现,因此本发明的处理对编码表示ζCOD预先安排单个位PSPredictionActive,该位表示是否要执行任何预测。如果位PSPredictionActive的值为零(或者替代地,为“1”),那么阵列ActivePred以及与预测有关的其它数据不包含于编码的边信息ζCOD中。实际上,该操作随时间减少ζCOD的传送的平均位速率。
B)在编码典型声场的HOA表示时作出的进一步观察有,活动的预测的数量NumActivePred常常非常低。在这种情况下,作为为了对各方向Ωq指示是否要执行预测使用位阵列ActivePred的替代,传送或者传递活动的预测的数量和各指标可能是更有效的。特别地,这种修改类型的对活动的编码在
NumActivePred≤MM (24)
的情况下是更有效的,
这里,MM是满足下式的最大整数:
可仅通过上述的HOA次序N:O=(N+1)2的知识计算MM的值。在式(25)中,|log2(MM)|标记编码活动预测的实际数量NumActivePred所需要的位的数量,MM·|log2(O)|是编码各方向指标所需要的位的数量。式(25)右边与阵列ActivePred的位数对应,这是以已知的方式编码相同的信息所需要的。根据上述的解释,单个位KindOfCodedPredIds可用于指示以哪种方式编码被推想为执行预测的那些方向的指标。如果位KindOfCodedPredIds具有值“1”(或者替代地,为“0”),那么数量NumActivePred和包含推想为执行预测的方向的指标的阵列PredIds被添加到编码的边信息ζCOD。否则,如果位KindOfCodedPredIds具有值“0”(或者替代地,为“1”),那么阵列ActivePred被用于编码相同的信息。
平均而言,该操作随时间减少ζCOD的传送位速率。
C)为了进一步提高边信息编码效率,利用对预测使用的活动方向信号的实际可用数量常常小于D的事实。这意味着,对于指标阵列PredDirSigIds的各要素的编码,需要少于个位。特别地,对预测使用的活动方向信号的实际可用数量由包含活动方向信号的指标的数据组的要素的数量给出。由此,个位可被用于编码指标阵列PredDirSigIds的各要素,这种类型的编码是更有效的。在解码器中,数据组被假定为是已知的,因此,解码器也知道解码方向信号的指标必须读取多少位。注意,要计算的ζCOD的帧指标和所使用的指标数据组必须相同。
以上的对于已知的边信息编码处理的修改A)~C)导致图6所示的示例性编码处理。
注释:在上述的ISO/IEC文献中,例如,在6.1.3节中,QuantPredGains被称为PredGains,但它包含量化值。
式(7)~(9)中的例子的编码表示将是:
PSPredictionActive=1 (27)
KindOfCodedPredlds=1 (28)
NumActivePred=2 (29)
Predids=[1 7] (30)
PredType=[0 1] (31)
PredDirSiglds=[1 0 1 4] (32)
QuantPredGains=[40 15 -13], (33)
需要的位数为1+1+2+2·4+2+2·4+8·3=46。有利地,与式(20)~(23)中的现有技术的编码表示相比,根据本发明编码的该表示需要少8个位。也可以不在编码器侧提供位阵列PredType。
与空间预测有关的修改的边信息编码的解码
在图7和图8所示的示例性解码处理中(图8所示的处理是图7处理的继续)概括并且在以下解释与空间预测有关的修改的边信息的解码。首先,矢量pTYPE和矩阵PIND与PQ,F的所有要素被初始化为零。然后,读取位PSPredictionActive,它表示是否要执行空间预测。在空间预测(即,PSPredictionActive=1)的情况下,读取位KindOfCodedPredIds,这表示要执行预测的方向的指标的编码的类型。
在KindOfCodedPredIds=0的情况下,读取长度为O的位阵列ActivePred,其中,第q个要素表示是否对于方向Ωq执行预测。在下一步骤中,从阵列ActivePred计算预测的数量NumActivePred并且读取长度为NumActivePred的位阵列PredType,其中,要素表示对相关方向中的每一个执行的预测的类型。通过包含于ActivePred和PredType中的信息,计算矢量pTYPE的要素。
也可以不在编码器侧提供位阵列PredType且从位阵列ActivePred计算矢量pTYPE的要素。
在KindOfCodedPredIds=0的情况下,读取活动预测的数量NumActivePred,该数量被假定为用|log2(MM)|个位被编码,这里,MM是满足式(25)的最大整数。然后,读取包含NumActivePred个要素的数据阵列PredIds,这里,各要素被假定为用|log2(O)|个位被编码。该阵列的要素是必须执行预测的方向的指标。依次读取长度NumActivePred的位阵列PredType,其中,要素表示对相关方向中的每一个执行的预测的类型。通过NumActivePred、PredIds和PredType的知识,计算矢量pTYPE的要素。也可以不在编码器侧提供位阵列PredType且从数量NumActivePred和数据阵列PredIds计算矢量pTYPE的要素。
对于两种情况(即,KindOfCodedPredIds=0和KindOfCodedPredIds=1),在下一步骤中,读取包含NumActivePred·DPRED个要素的阵列PredDirSigIds。各要素被假定为用个位被编码。通过使用包含于pTYPE、和PredDirSigIds中的信息,设定矩阵PIND的要素并且计算PIND中的非零要素的数量NumNonZerolds。
最后,读取包含分别用BSC个位编码的NumNonZerolds个要素的阵列QuanPredGains。通过使用包含于PIND和QuanPredGains中的信息,设定矩阵PQ,F的要素。
可通过单个处理器或电子电路或者通过并行地操作并且/或者在本发明的处理的不同部分上操作的若干处理器或电子电路实施本发明的处理。
Claims (7)
1.一种用于对包括编码的HOA表示的位流进行解码的方法,所述方法包括:
通过处理器执行存储在非暂态计算机可读存储介质上的指令来评估位KindOfCodedPredIds的值;
通过处理器基于所述位KindOfCodedPredIds的值评估第一阵列ActivePred,其中,所述第一阵列ActivePred中的每个要素指示对于相应的方向是否执行预测,其中当ActivePred的要素对于相应的方向指示执行预测时,变量NumActivePred增加;
通过处理器基于所述第一阵列ActivePred的评估确定矢量ptype的要素;
通过处理器评估第二阵列PredDirSigIds,其中所述第二阵列PredDirSigIds的要素标记要用于活动预测的方向信号的指标;以及
通过处理器基于所述第二阵列PredDirSigIds的要素以及所述矢量ptype,确定标记其中的方向信号执行相应方向的预测的指标的矩阵PIND的要素。
3.一种包含用于对包括编码的HOA表示的位流进行解码的解码器的装置,所述装置包括:
处理器,所述处理器执行存储在非暂态计算机可读存储器上的指令,所述处理器被配置为指定所述指令以执行:
评估位KindOfCodedPredIds的值;
基于所述位KindOfCodedPredIds的值评估第一阵列ActivePred,其中,所述第一阵列ActivePred中的每个要素指示对于相应的方向是否执行预测,其中当ActivePred的要素对于相应的方向指示执行预测时,变量NumActivePred增加;
基于所述第一阵列ActivePred的评估确定矢量ptype的要素;
评估第二阵列PredDirSigIds,其中所述第二阵列PredDirSigIds的要素标记要用于活动预测的方向信号的指标;以及
基于所述第二阵列PredDirSigIds的要素以及所述矢量ptype,确定标记其中的方向信号执行相应方向的预测的指标的矩阵PIND的要素。
5.一种非暂态计算机可读存储介质,包含指令,所述指令在由处理器执行时实行用于对包括编码的HOA表示的位流进行解码的方法,所述方法包括:
评估位KindOfCodedPredIds的值;
基于所述位KindOfCodedPredIds的值评估第一阵列ActivePred,其中,所述第一阵列ActivePred中的每个要素指示对于相应的方向是否执行预测,其中当ActivePred的要素对于相应的方向指示执行预测时,变量NumActivePred增加;
基于所述第一阵列ActivePred的评估确定矢量ptype的要素;
评估第二阵列PredDirSigIds,其中所述第二阵列PredDirSigIds的要素标记要用于活动预测的方向信号的指标;以及
基于所述第二阵列PredDirSigIds的要素以及所述矢量ptype,确定标记其中的方向信号执行相应方向的预测的指标的矩阵PIND的要素。
7.根据权利要求5所述的非暂态计算机可读存储介质,其中,变量NumActivePred指示在所述第一阵列ActivePred中有多少个1。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14305022.7 | 2014-01-08 | ||
EP14305022 | 2014-01-08 | ||
EP14305061 | 2014-01-16 | ||
EP14305061.5 | 2014-01-16 | ||
CN201480072725.XA CN105981100B (zh) | 2014-01-08 | 2014-12-19 | 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480072725.XA Division CN105981100B (zh) | 2014-01-08 | 2014-12-19 | 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111182443A true CN111182443A (zh) | 2020-05-19 |
CN111182443B CN111182443B (zh) | 2021-10-22 |
Family
ID=52134201
Family Applications (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410341175.2A Pending CN118248156A (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
CN202010020047.XA Active CN111028849B (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
CN202410171734.XA Pending CN118016077A (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
CN202010019997.0A Active CN111182443B (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置 |
CN202010019977.3A Active CN111179955B (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
CN201480072725.XA Active CN105981100B (zh) | 2014-01-08 | 2014-12-19 | 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置 |
CN202010025266.7A Active CN111179951B (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410341175.2A Pending CN118248156A (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
CN202010020047.XA Active CN111028849B (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
CN202410171734.XA Pending CN118016077A (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010019977.3A Active CN111179955B (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
CN201480072725.XA Active CN105981100B (zh) | 2014-01-08 | 2014-12-19 | 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置 |
CN202010025266.7A Active CN111179951B (zh) | 2014-01-08 | 2014-12-19 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
Country Status (6)
Country | Link |
---|---|
US (9) | US9990934B2 (zh) |
EP (3) | EP3092641B1 (zh) |
JP (4) | JP6530412B2 (zh) |
KR (4) | KR20240116835A (zh) |
CN (7) | CN118248156A (zh) |
WO (1) | WO2015104166A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11781416B2 (en) | 2019-10-16 | 2023-10-10 | Saudi Arabian Oil Company | Determination of elastic properties of a geological formation using machine learning applied to data acquired while drilling |
US11796714B2 (en) | 2020-12-10 | 2023-10-24 | Saudi Arabian Oil Company | Determination of mechanical properties of a geological formation using deep learning applied to data acquired while drilling |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070127733A1 (en) * | 2004-04-16 | 2007-06-07 | Fredrik Henn | Scheme for Generating a Parametric Representation for Low-Bit Rate Applications |
EP2451196A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
CN102823277A (zh) * | 2010-03-26 | 2012-12-12 | 汤姆森特许公司 | 解码用于音频回放的音频声场表示的方法和装置 |
WO2013000740A1 (en) * | 2011-06-30 | 2013-01-03 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
US20130216070A1 (en) * | 2010-11-05 | 2013-08-22 | Florian Keiler | Data structure for higher order ambisonics audio data |
EP2637428A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and Apparatus for playback of a Higher-Order Ambisonics audio signal |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
US7680123B2 (en) * | 2006-01-17 | 2010-03-16 | Qualcomm Incorporated | Mobile terminated packet data call setup without dormancy |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8301793B2 (en) * | 2007-11-16 | 2012-10-30 | Divx, Llc | Chunk header incorporating binary flags and correlated variable-length fields |
US8219409B2 (en) * | 2008-03-31 | 2012-07-10 | Ecole Polytechnique Federale De Lausanne | Audio wave field encoding |
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2738762A1 (en) * | 2012-11-30 | 2014-06-04 | Aalto-Korkeakoulusäätiö | Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence |
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
-
2014
- 2014-12-19 CN CN202410341175.2A patent/CN118248156A/zh active Pending
- 2014-12-19 JP JP2016544628A patent/JP6530412B2/ja active Active
- 2014-12-19 KR KR1020247023646A patent/KR20240116835A/ko active Search and Examination
- 2014-12-19 CN CN202010020047.XA patent/CN111028849B/zh active Active
- 2014-12-19 WO PCT/EP2014/078641 patent/WO2015104166A1/en active Application Filing
- 2014-12-19 CN CN202410171734.XA patent/CN118016077A/zh active Pending
- 2014-12-19 CN CN202010019997.0A patent/CN111182443B/zh active Active
- 2014-12-19 KR KR1020227019915A patent/KR102686291B1/ko active IP Right Grant
- 2014-12-19 KR KR1020217040165A patent/KR102409796B1/ko active IP Right Grant
- 2014-12-19 EP EP14815731.6A patent/EP3092641B1/en active Active
- 2014-12-19 US US15/110,354 patent/US9990934B2/en active Active
- 2014-12-19 CN CN202010019977.3A patent/CN111179955B/zh active Active
- 2014-12-19 EP EP22176389.9A patent/EP4089675A1/en active Pending
- 2014-12-19 EP EP19208682.5A patent/EP3648102B1/en active Active
- 2014-12-19 KR KR1020167021560A patent/KR102338374B1/ko active IP Right Grant
- 2014-12-19 CN CN201480072725.XA patent/CN105981100B/zh active Active
- 2014-12-19 CN CN202010025266.7A patent/CN111179951B/zh active Active
-
2018
- 2018-04-18 US US15/956,295 patent/US10147437B2/en active Active
- 2018-11-13 US US16/189,797 patent/US10424312B2/en active Active
-
2019
- 2019-05-16 JP JP2019092768A patent/JP6848004B2/ja active Active
- 2019-08-05 US US16/532,302 patent/US10553233B2/en active Active
- 2019-12-18 US US16/719,806 patent/US10714112B2/en active Active
-
2020
- 2020-07-10 US US16/925,334 patent/US11211078B2/en active Active
-
2021
- 2021-03-03 JP JP2021033172A patent/JP7258063B2/ja active Active
- 2021-12-21 US US17/558,550 patent/US11488614B2/en active Active
-
2022
- 2022-10-20 US US17/970,118 patent/US11869523B2/en active Active
-
2023
- 2023-04-04 JP JP2023061042A patent/JP2023076610A/ja active Pending
- 2023-12-20 US US18/390,546 patent/US20240185872A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070127733A1 (en) * | 2004-04-16 | 2007-06-07 | Fredrik Henn | Scheme for Generating a Parametric Representation for Low-Bit Rate Applications |
CN102823277A (zh) * | 2010-03-26 | 2012-12-12 | 汤姆森特许公司 | 解码用于音频回放的音频声场表示的方法和装置 |
EP2451196A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three |
US20130216070A1 (en) * | 2010-11-05 | 2013-08-22 | Florian Keiler | Data structure for higher order ambisonics audio data |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
WO2013000740A1 (en) * | 2011-06-30 | 2013-01-03 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
EP2637428A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and Apparatus for playback of a Higher-Order Ambisonics audio signal |
CN103313182A (zh) * | 2012-03-06 | 2013-09-18 | 汤姆逊许可公司 | 用于回放更高阶立体混响音频信号的方法和设备 |
Non-Patent Citations (2)
Title |
---|
ROZENN NICOL: "SOUND SPATIALIZATION BY HIGHER ORDER AMBISONICS_ ENCODING AND DECODING A SOUND SCENE IN PRACTICE FROM A THEORETICAL POINT OF VIEW", 《THE 2ND INTERNATIONAL SYMPOSIUM ON AMBISONICS AND SPHERICAL ACOUSTICS》 * |
龚惠哲: "Ambisonic声重发系统的优化改进", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869523B2 (en) | Method and apparatus for decoding a bitstream including encoded higher order ambisonics representations | |
JP2024512953A (ja) | 空間音声ストリームの結合 | |
KR20230069173A (ko) | 공간 오디오 파라미터 양자화 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020197 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |