CN111179951A - 包括编码hoa表示的位流的解码方法和装置、以及介质 - Google Patents

包括编码hoa表示的位流的解码方法和装置、以及介质 Download PDF

Info

Publication number
CN111179951A
CN111179951A CN202010025266.7A CN202010025266A CN111179951A CN 111179951 A CN111179951 A CN 111179951A CN 202010025266 A CN202010025266 A CN 202010025266A CN 111179951 A CN111179951 A CN 111179951A
Authority
CN
China
Prior art keywords
prediction
array
hoa
side information
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010025266.7A
Other languages
English (en)
Other versions
CN111179951B (zh
Inventor
A·克鲁埃格尔
S·科尔多恩
O·伍埃博尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority to CN202010025266.7A priority Critical patent/CN111179951B/zh
Publication of CN111179951A publication Critical patent/CN111179951A/zh
Application granted granted Critical
Publication of CN111179951B publication Critical patent/CN111179951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开涉及包括编码HOA表示的位流的解码方法和装置、以及介质。高阶高保真度立体声响复制代表与特定扬声器设置无关的三维声音。但是,传送HOA表示导致非常高的位速率。因此,使用具有固定数量的通道的压缩,其中,方向和环境信号成分以不同的方式被处理。对于编码,从方向信号成分预测原始HOA表示的多个部分。这种预测提供相应解码所需要的边信息。通过使用一些附加的特定目的位,已知边信息编码处理得到改善,这在于用于编码该边信息的需要的位数平均减少。

Description

包括编码HOA表示的位流的解码方法和装置、以及介质
本申请是申请号为201480072725.X、申请日为2014年12月19日、发明名称为“用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置”的发明专利申请的分案申请。
技术领域
本发明涉及用于改善对声场的高阶高保真度立体声响复制表示(Higher OrderAmbisonics representation)进行编码所需的边信息的编码的方法和装置。
背景技术
除了诸如波场合成(WFS)或诸如22.2多通道音频格式的基于通道的方法的其它技术以外,高阶高保真度立体声响复制(HOA)也提供表现三维声音的一种可能性。与基于通道的方法对照,HOA表示提供与特定扬声器设置无关的优点。但是,这种灵活性以特定扬声器设置上的HOA表示的回放所需要的解码处理为代价。与所需的扬声器的数量通常非常大的WFS方法相比,HOA信号也可被呈现给仅包含很少的扬声器的设置。HOA的另一优点在于,可以在不对头戴式耳机(headphone)的双耳呈现进行任何修改的情况下使用同一表示。
HOA基于按照截短的球面谐波(SH)展开(expansion)的复杂平面谐波振幅的空间密度的表示。各展开系数是角频率的函数,该函数可以用时域函数等同地表示。由此,不失一般性,整个HOA声场表示实际上可被假定为包含O个时域函数,这里,O标记展开系数的数量。以下,这些时域函数将被等同地称为HOA系数序列或者HOA通道。
随着展开的最高阶N增大,HOA表示的空间分辨率提高。不幸的是,展开系数的数量O随着阶N二次生长,具体地,O=(N+1)2。例如,利用阶N=4的典型的HOA表示需要O=25个HOA(展开)系数。根据前面所作的考虑,给定希望的单通道采样率fs和每个样本的位数Nb,传送HOA表示的总位速率由O·fs·Nb确定。因此,通过使用Nb=16位每采样、以fs=48kHz的采样率传送阶N=4的HOA表示导致19.2MBits/s的位速率,这对于诸如例如流传输的许多实际应用来说非常高。因此,非常希望压缩HOA表示。
在WO 2013/171083A1、EP 13305558.2和PCT/EP2013/075559中提出HOA声场表示的压缩。这些处理的共同之处在于,它们执行声场分析并且将给定的HOA表示分解成方向成分和残留环境成分。一方面,最终的压缩表示被假定为包含由环境HOA成分的相关系数序列和方向信号的感知编码得到的数个量化信号。另一方面,假定它包含与量化信号相关的另外的边信息,该边信息是从其压缩版本重构HOA表示所需要的。
该边信息的重要部分是从方向信号预测原始HOA表示的多个部分的描述。由于对于该预测来说,原始HOA表示被假定为由从空间均匀分布的方向冲击的数个空间分散的一般平面波等同地代表,因此,以下,预测被称为空间预测。
在ISO/IEC JTC1/SC29/WG11,N14061,“Working Draft Text of MPEG-H 3DAudio HOA RM0”,November 2013,Geneva,Switzerland中描述了与空间预测有关的这种边信息的编码。但是,边信息的该现有技术编码相当不足。
发明内容
本发明要解决的一个问题是提供编码与该空间预测有关的边信息的更有效的方式。
通过在本发明中公开的方法解决该问题。在本发明中还公开了利用这些方法的装置。
位被预先安排给编码的边信息表示数据ζCOD,该位用于表示是否要执行任何预测。该特征随时间减少传送ζCOD数据的平均位速率。此外,在特定的情形中,作为使用对各方向指示是否执行预测的位阵列的替代,传送或传递活动的预测的数量和各指标更有效的。单个位可用于指示被推想为执行预测的方向的指标以何种方式被编码。平均来说,该操作随时间进一步减小传送ζCOD数据的位速率。
原则上,本发明的方法适于改善用高阶高保真度立体声响复制(标记为HOA)系数序列的输入时间帧编码声场的HOA表示所需要的边信息的编码,其中,主导方向信号以及残留环境HOA成分被确定,并且,预测被用于所述主导方向信号,由此对HOA系数的编码帧提供描述所述预测的边信息数据,并且其中,所述边信息数据可包含:
-表示是否对方向执行预测的位阵列;
-其中每个位对于要执行预测的方向指示预测的类型的位阵列;
-其要素关于要执行的预测表示要使用的方向信号的指标的数据阵列;
-其要素代表量化的缩放因子的数据阵列,
所述方法包括以下步骤:
-提供指示是否要执行所述预测的位值;
-如果不执行预测,那么在所述边信息数据中省略所述位阵列和所述数据阵列;
-如果要执行所述预测,那么,作为所述表示是否对方向执行预测的位阵列的替代,提供指示活动的预测的数量和包含要执行预测的方向的指标的数据阵列是否包含于所述边信息数据中的位值。
原则上,本发明的装置适于改善用高阶高保真度立体声响复制(标记为HOA)系数序列的输入时间帧编码声场的HOA表示所需要的边信息的编码,其中,主导方向信号以及残留环境HOA成分被确定,并且,预测被用于所述主导方向信号,由此对HOA系数的编码帧提供描述所述预测的边信息数据,并且其中,所述边信息数据可包含:
-表示是否对方向执行预测的位阵列;
-其中每个位对于要执行预测的方向指示预测的类型的位阵列;
-其要素关于要执行的预测表示要使用的方向信号的指标的数据阵列;
-其要素代表量化的缩放因子的数据阵列,
所述装置包括以下部件,其:
-提供指示是否要执行所述预测的位值;
-如果不执行预测,那么在所述边信息数据中省略所述位阵列和所述数据阵列;
-如果要执行所述预测,那么,作为所述表示是否对方向执行预测的位阵列的替代,提供指示活动的预测的数量和包含要执行预测的方向的指标的数据阵列是否包含于所述边信息数据中的位值。
本发明的有利的另外的实施例在各独立的权利要求中被公开。
附图说明
参照附图描述本发明的示例性实施例,其中,
图1表示与在EP 13305558.2中描述的HOA压缩处理中的空间预测有关的边信息的示例性编码;
图2表示与在专利申请EP 13305558.2中描述的HOA解压缩处理中的空间预测有关的边信息的示例性解码;
图3表示在专利申请PCT/EP2013/075559中描述的HOA分解;
图4表示代表残留信号的一般平面波的方向(示为叉)和主导声源的方向(示为圈)的示图。这些方向在三维坐标系中呈现为单位球上的采样位置;
图5表示空间预测边信息的现有技术编码;
图6表示空间预测边信息的本发明的编码;
图7表示编码的空间预测边信息的本发明的解码;
图8是图7的继续。
具体实施方式
以下,为了提供使用与空间预测有关的边信息的本发明的编码的语境,回顾一下在专利申请EP 13305558.2中描述的HOA压缩和解压缩处理。
HOA压缩
在图1中,示出与空间预测有关的边信息的编码如何能被嵌入到在专利申请EP13305558.2中描述的HOA压缩处理中。对于HOA表示压缩,采用对于长度L的HOA系数序列的非重叠输入帧C(k)的帧状处理,这里,k标记帧指标。图1中的第一步骤或阶段11/12是任选的,包括将HOA系数序列C(k)的非重叠的第k个帧和第(k-1)个帧级联为长帧
Figure BDA0002360359230000051
如下:
Figure BDA0002360359230000052
该长帧与相邻的长帧重叠50%,并且,该长帧被相继用于主导声源方向的估计。与
Figure BDA0002360359230000053
的表示法类似,上波折号(tilde)在以下的描述中用于表示各量指的是长重叠帧。如果不存在步骤/阶段11/12,那么上波折号没有特定含义。加粗的参数意味着一组值,例如,矩阵或者矢量。
如在EP 13305558.2中描述的那样,长帧
Figure BDA0002360359230000054
被相继用于步骤或阶段13中,用于估计主导声源方向。该估计提供所检测的相关方向信号的指标的数据组
Figure BDA0002360359230000055
以及方向信号的相应方向估计的数据组
Figure BDA0002360359230000056
D表示必须在开始HOA压缩之前设定且可在随后的已知处理中应对的方向信号的最大数量。
在步骤或阶段14中,HOA系数序列的当前(长)帧
Figure BDA0002360359230000057
被分解(如在EP 13305156.5中提出的那样)成属于包含于组
Figure BDA0002360359230000058
中的方向的数个方向信号XDIR(k-2)和残留环境HOA成分CAMB(k-2)。为了获得平滑的信号,作为重叠-相加处理的结果,引入两个帧的延迟。假定XDIR(k-2)包含总共D个通道,但是,其中只有与活动的方向信号对应的那些是非零的。规定这些通道的指标被假定为在数据组JDIR,ACT(k-2)中被输出。另外,步骤/阶段14中的分解提供可在用于从方向信号预测原始HOA表示的多个部分的分解侧使用的一些参数ζ(k-2)(更多细节请参见EP 13305156.5)。为了解释空间预测参数ζ(k-2)的含义,在后面的部分“HOA分解”中更详细地描述HOA分解。
在步骤或阶段15中,环境HOA成分CAMB(k-2)的系数的数量减少为仅包含ORED+D-NDIR,ACT(k-2)个非零HOA系数序列,这里,NDIR,ACT(k-2)=|JDIR,ACT(k-2)|表示数据组JDIR,ACT(k-2)的基数(cardinality),即,帧k-2中的活动的方向信号的数量。由于环境HOA成分被认为总是由HOA系数序列的最小数量ORED代表,因此,该问题实际上可简化为在可能的O-ORED个HOA系数序列中选择剩余的D-NDIR,ACT(k-2)个HOA系数序列。为了获得平滑的简化的环境HOA表示,完成该选取(choice),使得与在前面的帧k-3进行的选取相比,将发生尽可能少的改变。
具有减少数量的ORED+NDIR,ACT(k-2)非零系数序列的最终的环境HOA表示由CAMB,RED(k-2)表示。选取的环境HOA系数序列的指标在数据组JAMB,ACT(k-2)中被输出。在步骤/阶段16中,如EP 13305558.2中描述的那样,包含于XDIR(k-2)中的活动方向信号和包含于CAMB,RED(k-2)中的HOA系数序列被分配给单个感知编码的l个通道的帧Y(k-2)。感知编码步骤/阶段17编码帧Y(k-2)的l个通道并且输出编码的帧
Figure BDA0002360359230000061
根据本发明,在步骤/阶段14中的原始HOA表示的分解之后,为了提供编码的数据表现ζCOD(k-2),通过使用在延迟18中延迟了两个帧的指标组
Figure BDA0002360359230000062
在步骤或阶段19中无损地编码从HOA表示的分解得到的空间预测参数或边信息数据ζ(k-2)。
HOA分解
在图2中,示例性地表示如何在步骤或阶段25中将与空间预测有关的接收的编码的边信息数据ζCOD(k-2)的解码嵌入到在专利申请EP 13305558.2的图3中描述的HOA分解处理中。通过使用在延迟24中延迟了两个帧的接收的指标组
Figure BDA0002360359230000063
在使编码边信息数据ζCOD(k-2)的解码版本ζ(k-2)在步骤或阶段23中进入到HOA表示的组成(composition)中之前,实现编码边信息数据ζCOD(k-2)的解码。
在步骤或阶段21中,为了获得
Figure BDA0002360359230000071
中的l个解码信号,执行包含于
Figure BDA0002360359230000072
中的l个信号的感知解码。
在信号重新分配步骤或阶段22中,为了重新创建方向信号的帧
Figure BDA0002360359230000073
和环境HOA成分的帧
Figure BDA0002360359230000074
Figure BDA0002360359230000075
中的感知解码信号被重新分配。通过使用指标数据组
Figure BDA0002360359230000076
和JAMB,ACT(k-2),再现对HOA压缩执行的分配操作,获得关于如何重新分配信号的信息。在组成步骤或阶段23中,重新组成希望的总HOA表示的当前帧
Figure BDA0002360359230000077
(根据关于PCT/EP2013/075559的图2b和图4描述的处理,使用方向信号的帧
Figure BDA0002360359230000078
活动方向信号指标的组
Figure BDA0002360359230000079
连同相应的方向的组
Figure BDA00023603592300000710
来自方向信号的HOA表示的预测部分的参数ζ(k-2)、以及减少的环境HOA成分的HOA系数序列的帧
Figure BDA00023603592300000711
)。
Figure BDA00023603592300000712
与PCT/EP2013/075559中的成分
Figure BDA00023603592300000713
对应,并且,
Figure BDA00023603592300000714
Figure BDA00023603592300000715
与PCT/EP2013/075559中的
Figure BDA00023603592300000716
对应,其中,可通过取得包含有效要素的
Figure BDA00023603592300000717
的行的那些指标获得活动方向信号指标。即,通过使用接收的对这种预测的参数ζ(k-2)从方向信号
Figure BDA00023603592300000718
预测关于均匀分布方向的方向信号,然后,从方向信号
Figure BDA00023603592300000719
的帧、从
Figure BDA00023603592300000720
Figure BDA00023603592300000721
以及从预测部分和减少的环境HOA成分
Figure BDA00023603592300000722
重新组成当前的解压缩帧
Figure BDA00023603592300000723
HOA分解
关于图3,为了解释其中的空间预测的含义,详细描述HOA分解处理。该处理得自关于专利申请PCT/EP2013/075559的图3描述的处理。
首先,在步骤或阶段31中,通过使用输入HOA表示的长帧
Figure BDA00023603592300000724
方向的组
Figure BDA00023603592300000725
以及方向信号的相应指标的组
Figure BDA00023603592300000726
计算平滑的主导方向信号XDIR(k-1)和它们的HOA表示CDIR(k-1)。假定XDIR(k-1)包含总共D个通道,但是,其中,只有与活动方向信号对应的那些是非零的。规定这些通道的指标被假定为在组JDIR,ACT(k-1)中被输出。在步骤或阶段33中,原始HOA表示
Figure BDA00023603592300000727
和主导方向信号的HOA表示CDIR(k-1)之间的残差由O个方向信号
Figure BDA0002360359230000081
(它们可被视为来自被称为均匀网格的均匀分布方向的一般平面波)的数量代表。在步骤或阶段34中,为了提供预测信号
Figure BDA0002360359230000082
与各预测参数ζ(k-1),从主导方向信号XDIR(k-1)预测这些方向信号。对于预测,仅考虑具有包含于组
Figure BDA0002360359230000083
中的指标d的主导方向信号xDIR,d(k-1)。在后面的部分“空间预测”中更详细地描述预测。
在步骤或阶段35中,计算预测方向信号
Figure BDA0002360359230000084
的平滑的HOA表示
Figure BDA0002360359230000085
在步骤或阶段37中,原始HOA表示
Figure BDA0002360359230000086
与主导方向信号的HOA表示CDIR(k-2)和来自均匀分布方向的预测方向信号的HOA表示
Figure BDA0002360359230000087
之间的残差CAMB(k-2)被计算并且被输出。
通过相应的延迟381~387执行图3的处理中需要的信号延迟。
空间预测
空间预测的目的是预测O个残留信号:
Figure BDA0002360359230000088
其中,这O个残留信号是从以下平滑的方向信号的扩展帧预测的:
Figure BDA0002360359230000089
Figure BDA00023603592300000810
(参见专利申请PCT/EP2013/075559中和以上的部分“HOA分解”的描述)。
各残留信号
Figure BDA00023603592300000811
q=1、…、O代表从方向Ωq冲击的空间分散一般平面波,由此,假定所有方向Ωq,q=1、…、O几乎均匀地分布于单位球上。所有方向全体被称为“网格”。
假定第d方向信号对于各帧是活动的,则各方向信号
Figure BDA00023603592300000812
d=1、…、D代表从在方向ΩACT,d(k-3)、ΩACT,d(k-2)、ΩACT,d(k-1)与ΩACT,d(k)之间内插的轨迹冲击的一般平面波。
为了通过例子解释说明空间预测的含义,考虑阶N=3的HOA表示的分解,这里,提取的方向的最大数量等于D=4。为了简化,进一步假定只有具有指标“1”和“4”的方向信号是活动的,而具有指标“2”和“3”的那些是不活动的。另外,为了简化,假定主导声源的方向对于考虑的帧来说是恒定的,即,ΩACT,d(k-3)=
ΩACT,d(k-2)=ΩCT,d(k-1)=ΩACT,d(k)=ΩACT,d for d=1,4 (5)
作为阶N=3的结果,存在空间分散的一般平面波
Figure BDA0002360359230000091
q=1、…、O的O=16个方向Ωq。图4示出这些方向以及活动的主导声源的方向ΩACT,1和ΩACT,4
用于描述空间预测的现有技术的参数
在上述的ISO/IEC文献中给出一种描述空间预测的方式。在该文献中,信号
Figure BDA0002360359230000092
q=1、…、O被假定为通过方向信号的预定最大数量DPRED的加权和或者通过该加权和的低通滤波版本被预测。与空间预测有关的边信息由参数组ζ(k-1)={pTYPE(k-1),PIND(k-1),PQ,F(k-1)}描述,该参数组包含以下的三个成分:
·矢量pTYPE(k-1),其要素pTYPE,q(k-1),q=1、…、O表示对于第q方向Ωq是否执行预测,如果是,那么它们也指示预测的类型。这些要素的含义如下:
Figure BDA0002360359230000093
·矩阵PIND(k-1),其要素pIND,d,q(k-1),d=1、…、DPRED,q=1、…、O标记其中的方向信号已执行方向Ωq的预测的指标。如果对于方向Ωq没有执行预测,那么矩阵PIND(k-1)的相应列由零构成。并且,如果对方向Ωq的预测使用少于DPRED的方向信号,那么PIND(k-1)的第q列中的不需要的要素也是零。
·矩阵PQ,F(k-1),包含相应的量化预测因子pQ,F,d,q(k-1),d=1、…、DPRED,q=1、…、O。
为了使得能够适当地解释这些参数,必须在解码侧获知以下的两个参数:
·方向信号的最大数量DPRED,由其允许预测一般平面波信号
Figure BDA0002360359230000101
·用于量化预测因子pQ,F,d,q(k-1)的位的数量BSC,d=1、…、DPRED,q=1、…、O。在式(10)中给出去量化规则。
这两个参数必须被任意地设定为编码器和解码器已知的固定值,或者要被另外传送的固定值,但传送率明显没有帧率频繁。后一种选项可用于使这两个参数适于要压缩的HOA表示。
假定O=16、DPRED=2且BSC=8,参数组的例子可能看起来类似于以下形式:
pTYPE(k-1)=[1 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0], (7)
Figure BDA0002360359230000102
Figure BDA0002360359230000103
这种参数意味着,通过与从对值40去量化得到的因子的纯相乘(即,全波段),从来自方向ΩACT,1的方向信号
Figure BDA0002360359230000104
预测来自方向Ω1的一般平面波信号
Figure BDA0002360359230000105
并且,通过低通滤波和与从对值15和-13去量化得到的因子的相乘,从方向信号
Figure BDA0002360359230000106
Figure BDA0002360359230000107
预测来自方向Ω7的一般平面波信号
Figure BDA0002360359230000108
给定该边信息,预测被假定为执行如下:
首先,量化预测因子pQ,F,d,q(k-1),d=1、…、DPRED,q=1、…、O被去量化以提供实际的预测因子:
Figure BDA0002360359230000109
如已经描述的,BSC标记用于量化预测因子的位的预定数量。另外,如果pIND,d,q(k-1)等于零,那么pF,d,q(k-1)被假定为被设定为零。
对于上述的例子,假定BSC=8,则去量化预测因子矢量会导致:
Figure BDA00023603592300001010
并且,为了执行低通预测,使用长度Lh=31的预定低通FIR滤波器
hLP:=[hLP(0) hLP(1)… hLP(Lh-1)] (12)。
滤波延迟由Dh=15个采样给出。
作为信号,假定预测信号
Figure BDA0002360359230000111
和方向信号
Figure BDA0002360359230000112
通过
Figure BDA0002360359230000113
Figure BDA0002360359230000114
Figure BDA0002360359230000115
Figure BDA0002360359230000116
*for:对于
由它们的采样构成,则预测信号的采样值由下式给出:
Figure BDA0002360359230000117
*if:如果
其中,
Figure BDA0002360359230000118
Figure BDA0002360359230000119
如上所述,并且,现在从式(17)可以看出,信号
Figure BDA00023603592300001110
q=1、…、O被假定为通过方向信号的预定最大数量DPRED的加权和或者通过该加权和的低通滤波版本被预测。
与空间预测有关的边信息的现有技术编码
在上述的ISO/IEC文献中,针对的是空间预测边信息的编码。在图5所示的算法1中概括并且将在以下解释它。为了更清楚地表现,在所有的表达中忽略帧指标k-1。
首先,创建包含O个位的位阵列ActivePred,其中,位ActivePred[q]表示是否对方向Ωq执行预测。该阵列中的“1”的数量由NumActivePred标记。
然后,创建长度为NumActivePred的位阵列PredType,这里,每个位对要执行预测的方向指示预测的类型即全波段还是低通。同时,创建长度为NumActivePred·DPRED的无符号整数阵列PredDirSigIds,该阵列的要素对每个活动的预测标记要使用的方向信号的DPRED指标。如果对预测使用少于DPRED的方向信号,那么指标被假定为被设定为零。阵列PredDirSigIds的各要素被假定为由|log2(D+1)|个位代表。阵列PredDirSigIds中的非零要素的数量由NumNonZerolds表示。
最后,创建长度为NumNonZerolds的整数阵列QuantPredGains,其要素被假定为代表用于式(17)中的量化缩放因子PQ,F,d,q(k-1)。在式(10)中给出用于获得相应的去量化缩放因子PF,d,q(k-1)的去量化。阵列QuantPredGains的各要素被假定为由BSC个位代表。
最后,边信息ζCOD的编码表示包含根据下式的四个上述的阵列:
ζCOD=[ActivePred PredType PredDirSiglds QuantPredGains].(19)
为了用例子解释该编码,使用式(7)~(9)的编码表示:
ActivePred=[1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0] (20)
PredType=[0 1] (21)
PredDirSiglds=[1 0 1 4] (22)
QuantPredGains=[40 15 -13]. (23)
需要的位的数量等于16+2+3·4+8·+3=54。
本发明的与空间预测有关的边信息的编码
为了提高与空间预测有关的边信息的编码的效率,现有技术的处理被有利地修改。
A)当编码典型声场的HOA表示时,本发明的发明人观察到常常有多个帧在HOA压缩处理中决定根本不执行任何空间预测。但是,在这些帧中,位阵列ActivePred仅包含零,零的数量等于O。由于这种帧内容常常出现,因此本发明的处理对编码表示ζCOD预先安排单个位PSPredictionActive,该位表示是否要执行任何预测。如果位PSPredictionActive的值为零(或者替代地,为“1”),那么阵列ActivePred以及与预测有关的其它数据不包含于编码的边信息ζCOD中。实际上,该操作随时间减少ζCOD的传送的平均位速率。
B)在编码典型声场的HOA表示时作出的进一步观察有,活动的预测的数量NumActivePred常常非常低。在这种情况下,作为为了对各方向Ωq指示是否要执行预测使用位阵列ActivePred的替代,传送或者传递活动的预测的数量和各指标可能是更有效的。特别地,这种修改类型的对活动的编码在
NumActivePred≤MM (24)
的情况下是更有效的,
这里,MM是满足下式的最大整数:
Figure BDA0002360359230000131
可仅通过上述的HOA次序N:O=(N+1)2的知识计算MM的值。在式(25)中,|log2(MM)|标记编码活动预测的实际数量NumActivePred所需要的位的数量,MM·|log2(O)|是编码各方向指标所需要的位的数量。式(25)右边与阵列ActivePred的位数对应,这是以已知的方式编码相同的信息所需要的。根据上述的解释,单个位KindOfCodedPredIds可用于指示以哪种方式编码被推想为执行预测的那些方向的指标。如果位KindOfCodedPredIds具有值“1”(或者替代地,为“0”),那么数量NumActivePred和包含推想为执行预测的方向的指标的阵列PredIds被添加到编码的边信息ζCOD。否则,如果位KindOfCodedPredIds具有值“0”(或者替代地,为“1”),那么阵列ActivePred被用于编码相同的信息。
平均而言,该操作随时间减少ζCOD的传送位速率。
C)为了进一步提高边信息编码效率,利用对预测使用的活动方向信号的实际可用数量常常小于D的事实。这意味着,对于指标阵列PredDirSigIds的各要素的编码,需要少于
Figure BDA0002360359230000136
个位。特别地,对预测使用的活动方向信号的实际可用数量由包含活动方向信号的指标
Figure BDA0002360359230000132
的数据组
Figure BDA0002360359230000133
的要素的数量
Figure BDA0002360359230000134
给出。由此,
Figure BDA0002360359230000135
个位可被用于编码指标阵列PredDirSigIds的各要素,这种类型的编码是更有效的。在解码器中,数据组
Figure BDA0002360359230000141
被假定为是已知的,因此,解码器也知道解码方向信号的指标必须读取多少位。注意,要计算的ζCOD的帧指标和所使用的指标数据组
Figure BDA0002360359230000142
必须相同。
以上的对于已知的边信息编码处理的修改A)~C)导致图6所示的示例性编码处理。
因此,编码的边信息包含以下成分:ζCOD=(26)
Figure BDA0002360359230000143
注释:在上述的ISO/IEC文献中,例如,在6.1.3节中,QuantPredGains被称为PredGains,但它包含量化值。
式(7)~(9)中的例子的编码表示将是:
PSPredictionActive=1 (27)
KindOfCodedPredlds=1 (28)
NumActivePred=2 (29)
Predlds=[1 7] (30)
PredType=[0 1] (31)
PredDirSiglds=[1 0 1 4] (32)
QuantPredGains=[40 15 -13], (33)
需要的位数为1+1+2+2·4+2+2·4+8·3=46。有利地,与式(20)~(23)中的现有技术的编码表示相比,根据本发明编码的该表示需要少8个位。也可以不在编码器侧提供位阵列PredType。
与空间预测有关的修改的边信息编码的解码
在图7和图8所示的示例性解码处理中(图8所示的处理是图7处理的继续)概括并且在以下解释与空间预测有关的修改的边信息的解码。首先,矢量pTYPE和矩阵PIND与PQ,F的所有要素被初始化为零。然后,读取位PSPredictionActive,它表示是否要执行空间预测。在空间预测(即,PSPredictionActive=1)的情况下,读取位KindOfCodedPredIds,这表示要执行预测的方向的指标的编码的类型。
在KindOfCodedPredIds=0的情况下,读取长度为O的位阵列ActivePred,其中,第q个要素表示是否对于方向Ωq执行预测。在下一步骤中,从阵列ActivePred计算预测的数量NumActivePred并且读取长度为NumActivePred的位阵列PredType,其中,要素表示对相关方向中的每一个执行的预测的类型。通过包含于ActivePred和PredType中的信息,计算矢量pTYPE的要素。
也可以不在编码器侧提供位阵列PredType且从位阵列ActivePred计算矢量pTYPE的要素。
在KindOfCodedPredIds=0的情况下,读取活动预测的数量NumActivePred,该数量被假定为用|log2(MM)|个位被编码,这里,MM是满足式(25)的最大整数。然后,读取包含NumActivePred个要素的数据阵列PredIds,这里,各要素被假定为用|log2(O)|个位被编码。该阵列的要素是必须执行预测的方向的指标。依次读取长度NumActivePred的位阵列PredType,其中,要素表示对相关方向中的每一个执行的预测的类型。通过NumActivePred、PredIds和PredType的知识,计算矢量pTYPE的要素。也可以不在编码器侧提供位阵列PredType且从数量NumActivePred和数据阵列PredIds计算矢量pTYPE的要素。
对于两种情况(即,KindOfCodedPredIds=0和KindOfCodedPredIds=1),在下一步骤中,读取包含NumActivePred·DPRED个要素的阵列PredDirSigIds。各要素被假定为用
Figure BDA0002360359230000151
个位被编码。通过使用包含于pTYPE
Figure BDA0002360359230000152
和PredDirSigIds中的信息,设定矩阵PIND的要素并且计算PIND中的非零要素的数量NumNonZerolds。
最后,读取包含分别用BSC个位编码的NumNonZerolds个要素的阵列QuanPredGains。通过使用包含于PIND和QuanPredGains中的信息,设定矩阵PQ,F的要素。
可通过单个处理器或电子电路或者通过并行地操作并且/或者在本发明的处理的不同部分上操作的若干处理器或电子电路实施本发明的处理。

Claims (3)

1.一种用于对包括编码的HOA表示的位流进行解码的方法,所述方法包括:
评估位KindOfCodedPredIds的值;
基于所述位KindOfCodedPredIds的值评估第一阵列ActivePred,其中,所述第一阵列ActivePred中的每个要素指示对于相应的方向是否执行预测;
基于所述第一阵列ActivePred的评估确定矢量ptype的要素;
评估第二阵列PredDirSigIds,其中所述第二阵列PredDirSigIds的要素标记要用于活动预测的方向信号的指标,其中该评估基于变量NumActivePred;
基于所述第二阵列PredDirSigIds的要素以及所述矢量ptype,确定标记其中的方向信号执行方向的预测的指标的矩阵PIND的要素。
2.一种包含用于对包括编码的HOA表示的位流进行解码的解码器的装置,所述装置包括:
处理器,被配置为:
评估位KindOfCodedPredIds的值;
基于所述位KindOfCodedPredIds的值评估第一阵列ActivePred,其中,所述第一阵列ActivePred中的每个要素指示对于相应的方向是否执行预测;
基于所述第一阵列ActivePred的评估确定矢量ptype的要素;
评估第二阵列PredDirSigIds,其中所述第二阵列PredDirSigIds的要素标记要用于活动预测的方向信号的指标;
基于所述第二阵列PredDirSigIds的要素以及所述矢量ptype,确定标记其中的方向信号执行方向的预测的指标的矩阵PIND的要素。
3.一种非暂态计算机可读存储介质,包含指令,所述指令在由处理器执行时实行根据权利要求1所述的方法。
CN202010025266.7A 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质 Active CN111179951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010025266.7A CN111179951B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP14305022.7 2014-01-08
EP14305022 2014-01-08
EP14305061 2014-01-16
EP14305061.5 2014-01-16
PCT/EP2014/078641 WO2015104166A1 (en) 2014-01-08 2014-12-19 Method and apparatus for improving the coding of side information required for coding a higher order ambisonics representation of a sound field
CN201480072725.XA CN105981100B (zh) 2014-01-08 2014-12-19 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置
CN202010025266.7A CN111179951B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480072725.XA Division CN105981100B (zh) 2014-01-08 2014-12-19 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置

Publications (2)

Publication Number Publication Date
CN111179951A true CN111179951A (zh) 2020-05-19
CN111179951B CN111179951B (zh) 2024-03-01

Family

ID=52134201

Family Applications (6)

Application Number Title Priority Date Filing Date
CN201480072725.XA Active CN105981100B (zh) 2014-01-08 2014-12-19 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置
CN202010019977.3A Active CN111179955B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质
CN202010020047.XA Active CN111028849B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质
CN202010025266.7A Active CN111179951B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质
CN202410171734.XA Pending CN118016077A (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质
CN202010019997.0A Active CN111182443B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置

Family Applications Before (3)

Application Number Title Priority Date Filing Date
CN201480072725.XA Active CN105981100B (zh) 2014-01-08 2014-12-19 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置
CN202010019977.3A Active CN111179955B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质
CN202010020047.XA Active CN111028849B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202410171734.XA Pending CN118016077A (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置、以及介质
CN202010019997.0A Active CN111182443B (zh) 2014-01-08 2014-12-19 包括编码hoa表示的位流的解码方法和装置

Country Status (6)

Country Link
US (9) US9990934B2 (zh)
EP (3) EP3092641B1 (zh)
JP (4) JP6530412B2 (zh)
KR (3) KR20220085848A (zh)
CN (6) CN105981100B (zh)
WO (1) WO2015104166A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021075994A1 (en) 2019-10-16 2021-04-22 Saudi Arabian Oil Company Determination of elastic properties of a geological formation using machine learning applied to data acquired while drilling
US11796714B2 (en) 2020-12-10 2023-10-24 Saudi Arabian Oil Company Determination of mechanical properties of a geological formation using deep learning applied to data acquired while drilling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN102823277A (zh) * 2010-03-26 2012-12-12 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
CN103250207A (zh) * 2010-11-05 2013-08-14 汤姆逊许可公司 高阶高保真度立体声响复制音频数据的数据结构

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US7680123B2 (en) * 2006-01-17 2010-03-16 Qualcomm Incorporated Mobile terminated packet data call setup without dormancy
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP2223230B1 (en) * 2007-11-16 2019-02-20 Sonic IP, Inc. Chunk header incorporating binary flags and correlated variable-length fields
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738762A1 (en) * 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102823277A (zh) * 2010-03-26 2012-12-12 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
CN103250207A (zh) * 2010-11-05 2013-08-14 汤姆逊许可公司 高阶高保真度立体声响复制音频数据的数据结构
US20130216070A1 (en) * 2010-11-05 2013-08-22 Florian Keiler Data structure for higher order ambisonics audio data
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李壮等: "带有空间窗的Ambisonic编码解码方法" *

Also Published As

Publication number Publication date
US9990934B2 (en) 2018-06-05
US20200126579A1 (en) 2020-04-23
CN118016077A (zh) 2024-05-10
JP2023076610A (ja) 2023-06-01
EP4089675A1 (en) 2022-11-16
US20240185872A1 (en) 2024-06-06
KR20210153751A (ko) 2021-12-17
US11869523B2 (en) 2024-01-09
KR102409796B1 (ko) 2022-06-22
US10147437B2 (en) 2018-12-04
US20190362731A1 (en) 2019-11-28
CN111028849A (zh) 2020-04-17
CN105981100B (zh) 2020-02-28
US20210027795A1 (en) 2021-01-28
US10714112B2 (en) 2020-07-14
US20190214033A1 (en) 2019-07-11
US20220115027A1 (en) 2022-04-14
US20180240469A1 (en) 2018-08-23
CN111028849B (zh) 2024-03-01
KR20160106692A (ko) 2016-09-12
JP2019133200A (ja) 2019-08-08
CN111179955A (zh) 2020-05-19
US20160336021A1 (en) 2016-11-17
EP3648102B1 (en) 2022-06-01
US10424312B2 (en) 2019-09-24
EP3092641B1 (en) 2019-11-13
JP6530412B2 (ja) 2019-06-12
JP6848004B2 (ja) 2021-03-24
US20230108008A1 (en) 2023-04-06
US10553233B2 (en) 2020-02-04
JP7258063B2 (ja) 2023-04-14
CN111182443B (zh) 2021-10-22
CN105981100A (zh) 2016-09-28
US11211078B2 (en) 2021-12-28
WO2015104166A1 (en) 2015-07-16
CN111179955B (zh) 2024-04-09
CN111179951B (zh) 2024-03-01
JP2017508174A (ja) 2017-03-23
US11488614B2 (en) 2022-11-01
EP3092641A1 (en) 2016-11-16
CN111182443A (zh) 2020-05-19
JP2021081753A (ja) 2021-05-27
EP3648102A1 (en) 2020-05-06
KR20220085848A (ko) 2022-06-22
KR102338374B1 (ko) 2021-12-13

Similar Documents

Publication Publication Date Title
KR102428815B1 (ko) 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
KR102201726B1 (ko) 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
US11869523B2 (en) Method and apparatus for decoding a bitstream including encoded higher order ambisonics representations
KR20210006016A (ko) 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
JP2024512953A (ja) 空間音声ストリームの結合
CN118248156A (zh) 包括编码hoa表示的位流的解码方法和装置、以及介质
CN116508098A (zh) 量化空间音频参数

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020236

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant