CN104064194B - 用于提高三维音频空间感距离感的参数编解码方法及系统 - Google Patents
用于提高三维音频空间感距离感的参数编解码方法及系统 Download PDFInfo
- Publication number
- CN104064194B CN104064194B CN201410310341.9A CN201410310341A CN104064194B CN 104064194 B CN104064194 B CN 104064194B CN 201410310341 A CN201410310341 A CN 201410310341A CN 104064194 B CN104064194 B CN 104064194B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- code
- aeoplotropism
- side information
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了用于提高三维音频空间感距离感的参数编解码方法及系统,编码时输入三维音频的音频信号和三维音频的空间边信息,将有向性音频信号下混并提取相应的下混边信息,对无向性散射音频信号、下混后的有向性音频信号、提取的下混边信息、及输入的空间边信息分别进行编码;解码时提取空间边信息的码流等分别进行相应解码并还原。本发明采用音频信号的强度参数和距离参数来共同表达声像距离,提高三维音频的空间感和距离感,可以得到更好的三维音频重放效果。
Description
技术领域
本发明涉及数字音频领域,针对提高三维音频空间感和距离感的需求,尤其涉及一种提高三维音频空间感和距离感的参数编解码技术方案。
背景技术
2009年底,三维电影《阿凡达》在全球三十多个国家登上票房榜首,到2010年9月初,全球累计票房超过27亿美元。《阿凡达》之所以能取得如此辉煌的票房成绩,在于它所采用了全新的三维特效制作技术带给人们感官上的震撼效果。要想达到更好的视听体验,还需要有与三维视频内容同步的三维声场听觉效果,才能真正达到身临其境的视听感受。
在目前已有的编码技术中,MPEG surround编码技术能产生水平面的环绕感,但三维空间的空间感仍然不够强,DirAC、S3AC编码技术能产生较好的整个空间的方向感,但在距离感上仍然欠缺。这些编码技术的距离参数仍然是采用强度来表达的,虽然强度和距离的平方成反比关系,但采用强度来表达距离信息还需要人类对声音强度的经验信息,而强度在不同情况下又是多变的,而且近场情况下人体对距离变得更为敏感,距离参数对头相关传递函数的贡献也变得更为明显。综上可知,只采用强度来表达距离感仍然存在不足之处。
发明内容
本发明的目的在于针对上述现有技术在表达三维音频的空间感和距离感上存在的问题,提供一种提高三维音频空间感和距离感的参数编解码技术方案。
本发明的技术方案提供一种用于提高三维音频空间感距离感的参数编解码方法,包括编码过程和解码过程,
所述编码过程包括以下步骤,
步骤C1,输入三维音频的音频信号和三维音频的空间边信息,将三维音频的时域信号变换到频域,得到三维音频的频域信号,实现如下,
设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的空间边信息构成;将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f)构成;
其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的频域表达,n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;
步骤C2,将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等于1;
步骤C3,对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分别进行编码,实现如下,
对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;
对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;
对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;
步骤C4,对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code;
步骤C5,将步骤C3和步骤C4得到的码流合并,得到三维音频码流3DAudio_code;
所述解码过程包括以下步骤,
步骤D1,根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code进行解码,还原出K个有向性音频信号的空间边信息
步骤D2,对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,
根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无向性散射音频信号Diffu’(n,f),Diffu’(n,f)是Diffu(n,f)经过编解码后的信号;
根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原出m个下混后的有向性音频信号;
根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息3D_OLD;
步骤D3,根据步骤D2得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),其中S’k(n,f)是Sk(n,f)经过编解码后的信号,K个有向性音频信号与步骤D2所得无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达;
步骤D4,将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),S’(n,f)是S(n,f)经过编解码后的信号,s’(t)是s(t)经过编解码后的信号;音频信号的时域表达s’(t)和步骤D1所得空间边信息构成解码后的三维音频的音频信号和空间边信息。
而且,步骤C2中,将K个有向性音频信号下混为m个有向性音频信号时,采用逐级下混的方式实现,每两个信号下混为一个信号。
而且,步骤C4中,对K个有向性音频信号的空间边信息进行编码时,采用非均匀的空间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码,所述空间方位信息为水平角θ和高度角所述距离信息为距离边信息r;所述非均匀的空间量化点按以下规则进行量化,
当高度角固定时,相应水平面上水平角按照等差数列的数列和的大小进行变化如下,
an=a1+(n-1)d,n=1,2,…,N (1)
其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为等差数列的第n个值,d为等差数列的差值,N为该水平面上空间量化点的点数;
基于a1和aN的取值,根据式(1)和式(2)得到相应点数N以及等差数列的差值d,进而求出各个数列和Sn,n=1,2,…,N,Sn为该水平面上水平角所取的第n个值,而SN=180°;
步骤D1中,根据以上量化规则对空间边信息码流SI_code进行相应解码。
本发明还相应提供一种用于提高三维音频空间感距离感的参数编解码系统,包括编码器和解码器,
所述编码器包括以下模块,
时频变换模块,用于输入三维音频的音频信号和三维音频的空间边信息,将三维音频的时域信号到频域,得到三维音频的频域信号,实现如下,
设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的空间边信息由构成;将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f)构成;
其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的频域表达,n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;
下混模块,用于将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等于1;
综合编码模块,用于对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分别进行编码,实现如下,
对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;
对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;
对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;
空间边信息编码模块,用于对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code;
码流合并模块,用于将综合编码模块和空间边信息编码模块得到的码流合并,得到三维音频码流3DAudio_code;
所述解码器包括以下模块,
空间边信息解码模块,用于根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code进行解码,还原出K个有向性音频信号的空间边信息
综合解码模块,用于对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,
根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无向性散射音频信号Diffu’(n,f);
根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原出m个下混后的有向性音频信号;
根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息3D_OLD;
上混模块,用于根据综合解码模块得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f)与综合解码模块所得无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达;
时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t);音频信号的时域表达s’(t)和空间边信息解码模块所得空间边信息构成解码后的三维音频的音频信号和空间边信息。
而且,下混模块中,将K个有向性音频信号下混为m个有向性音频信号时,采用逐级下混的方式实现,每两个信号下混为一个信号。
而且,空间边信息编码模块中,对K个有向性音频信号的空间边信息进行编码时,采用非均匀的空间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码,所述空间方位信息为水平角θ和高度角所述距离信息为距离边信息r;所述非均匀的空间量化点按以下规则进行量化,
当高度角固定时,相应水平面上水平角按照等差数列的数列和的大小进行变化如下,
an=a1+(n-1)d,n=1,2,…,N (1)
其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为等差数列的第n个值,d为等差数列的差值,N为该水平面上空间量化点的点数;
基于a1和aN的取值,根据式(1)和式(2)得到相应点数N以及等差数列的差值d,进而求出各个数列和Sn,n=1,2,…,N,Sn为该水平面上水平角所取的第n个值,而SN=180°;
空间边信息解码模块中,根据以上量化规则对空间边信息码流SI_code进行相应解码。
本发明在编码端通过在边信息中引入音频信号的距离参数来提高三维音频的空间感和距离感,生成的码流由音频信号码流和对应的空间边信息码流构成,音频信号码流由K个有向性音频信号下混成的m个有向性音频信号和一个无向性散射音频信号构成,空间边信息码流由方位参数和距离参数构成;这样采用音频信号的强度参数和距离参数来共同表达音频信号的距离感,其中强度参数来自音频信号码流,距离参数来自空间边信息码流。解码端对编码的音频信号和添加了距离参数的空间边信息进行解码,得到三维音频的音频信号、空间边信息,利用它们可以还原出空间感和距离感更强的三维音频,并通过扬声器配置或耳机可以进行三维音频的重建。因此,本发明通过增加声像的距离参数,解决了以往只采用声音的强度来表达距离而造成空间感和距离感不够强的缺陷,可以得到更好的三维音频重放效果。
附图说明
图1是本发明实施例的编码端的流程图。
图2是本发明实施例的解码端的流程图。
图3是本发明实施例空间量化规则的示意图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案(其中步骤C1至步骤C5为编码过程,步骤D1至步骤D4为解码过程)。
参见图1,本发明实施例的编码端执行以下流程:
步骤C1,将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f)。
编码端的输入为:三维音频的音频信号和三维音频的空间边信息。三维音频的音频信号的时域表达为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,t表示时间;三维音频的空间边信息,也即每个时频点对应的空间边信息由构成。其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达,表示第k个有向性音频信号对应的空间边信息,空间边信息由方位边信息(水平角θ,高度角)和距离边信息r构成。k的取值为1,2,…,K,K为原有的有向性音频信号的总数。
可以将三维音频的时域信号s(t)采用短时傅里叶变换(STFT)变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f)构成。其中,Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的频域表达,n代表帧索引,f代表频率索引。具体实施时,也可采用MDCT或希尔伯特黄等其他方法进行变换。
步骤C2,将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信息3D_OLD。
K>m,K和m都为自然数,且m大于等于1。下混边信息3D_OLD为音频信号间强度差。
实施例中K=4,m=2。将4个有向性音频信号下混为2个有向性音频信号,并提取相应的下混边信息3D_OLD。4个有向性音频信号的频域信号(S1(n,f),S2(n,f),S3(n,f),S4(n,f))对应的空间边信息为:这里采用两个信号下混为一个信号的逐级下混的方式来进行下混,每下混一次产生一组边信息3D_OLD。下混4个有向性音频信号为2个有向性音频信号,S1(n,f)和S2(n,f)下混得到S12(n,f)和边信息3D_OLD12,S3(n,f)和S4(n,f)下混得到S34(n,f)和边信息3D_OLD34。因此下混边信息3D_OLD包括边信息3D_OLD12和边信息3D_OLD34。
步骤C3,对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分别进行编码。
实施例进行步骤C3时,分别执行了以下三种操作:
a.对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;具体实施时,可采用现有编码器技术进行,例如采用AAC编码器;
b.对下混后的2个有向性音频信号进行编码,生成由2个有向性音频信号构成的码流,即下混后的有向性音频信号码流Dmix_code;具体实施时,可采用现有编码器技术进行,例如采用AAC编码器;
c.对下混边信息3D_OLD进行编码:对下混时生成的边信息3D_OLD12和3D_OLD34进行编码,生成下混边信息的码流3D_OLD_code。具体实施时,可采用现有编码器技术进行,例如采用Huffman编码方法。
步骤C4,对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code。
实施例对4个有向性音频信号的空间边信息进行编码,生成4个有向性音频信号的空间边信息码流SI_code。考虑到人类听觉系统对前方的声源要敏感一些和对较近的声源要敏感一些这两个特性,本发明进一步提出设计非均匀的空间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码。空间边信息中,所述空间方位信息为水平角θ和高度角所述距离信息为距离边信息r。具体而言,参见图3,本发明的空间非均匀量化点按以下规则进行量化。
当高度角固定,即在一个水平面上时,水平角按照等差数列的数列和的大小进行变化,参见式(1)和式(2)。
an=a1+(n-1)d,n=1,2,…,N (1)
其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为等差数列的第n个值,d为等差数列的差值,而N即该水平面上空间量化点的点数。具体实施时,本领域技术人员可以自行预设a1和aN的取值。由于a1和aN是已知的,则根据式(1)和式(2)可得相应量化点数N以及等差数列的差值d,进而可以求出各个数列和Sn(n=1,2,…,N),而Sn即该水平面上水平角所取的第n个值,而SN=180°。如图3中,水平面上从0°开始到180°,被分割出的角度有a1=a1、a2=a1+d、a3=a1+2d、a4=a1+3d、…、aN=a1+(N-1)d,而SN=a1+a2+…+aN=180°。
由于等差数列的数列和会随着n的增大而非均匀增加,会使得后面的角度越来越大,即可以保证一个平面上空间量化点的非均匀分布,从正前方到正后方越来越稀疏。实施例中,高度角按照每隔10°(低精度)或5°(高精度)取值来进行量化,距离参数则按照序列(20cm,30cm,40cm,50cm,75cm,100cm,130cm,160cm)来进行量化,而对于每个固定的高度角,取一对a1、aN值。例如高度角为10°,求水平角时a1可取为2°、aN可取为5°,高度角为20°,求水平角时a1可取为3°、aN可取为7°。一般高度角越大,a1、aN值设定的取值会相应增大。这样可以保证水平角θ的精度在赤道上是最高的(即赤道上的量化点最多),且水平角θ随着高度角向两极变化而精度逐渐降低(即量化点数逐渐减少),从而保证球面上的量化点是相对均匀的,不至于两极的量化点过于密集。
步骤C5,将步骤C3和步骤C4得到的码流合并,得到三维音频码流3DAudio_code。三维音频码流3DAudio_code包含无向性散射音频信号码流Diffu_code、有向性音频信号码流Dmix_code、下混边信息码流3D_OLD_code、空间边信息码流SI_code。
参见图2,本发明实施例的解码端执行以下流程:
步骤D1,对空间边信息码流SI_code进行解码。
解码端的输入为:三维音频码流3DAudio_code,该码流由编码端生成并传输到解码端,包含无向性散射音频信号码流Diffu_code、有向性音频信号码流Dmix_code、下混边信息码流3D_OLD_code、空间边信息码流SI_code。
实施例根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code,根据步骤C4的量化规则,对SI_code进行解码,还原出K个有向性音频信号的空间边信息实施例还原出4个有向性音频信号的空间边信息也即三维音频的空间边信息。
步骤D2,对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码。
实施例进行步骤D2时,具体执行了以下步骤:
D21:根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,对其进行解码,还原出无向性散射音频信号Diffu’(n,f)。Diffu’(n,f)是Diffu(n,f)经过编解码后的信号。
D22:根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,对其进行解码,还原出m=2个下混后的有向性音频信号S’12(n,f),S’34(n,f)。S’12(n,f)和S’34(n,f)是S12(n,f)和S34(n,f)经过编解码后的信号。
D23:根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息3D_OLD,包括下混边信息3D_OLD12和3D_OLD34。
步骤D3,将m个有向性音频信号上混为K个有向性音频信号。
根据步骤D2得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),其中S’k(n,f)是Sk(n,f)经过编解码后的信号。K个有向性音频信号与步骤D2已解码的无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达。
实施例将2个有向性音频信号上混为4个有向性音频信号。根据步骤D2得到的2个下混后的有向性音频信号S’12(n,f)和S’34(n,f)和下混边信息3D_OLD12和3D_OLD34,将2个下混后的有向性音频信号上混为4个有向性音频信号(S’1(n,f),S’2(n,f),S’3(n,f),S’4(n,f))。4个有向性音频信号与已解码的无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达。其中,S’k(n,f)是Sk(n,f)经过编解码后的信号。
步骤D4,时频反变换,将音频信号的频域表达S’(n,f)(S’(n,f)是S(n,f)经过编解码后的信号)变换到时域,得到音频信号的时域表达s’(t)(s’(t)是s(t)经过编解码后的信号)。音频信号的时域表达s’(t)和步骤D1所得空间边信息构成解码后的三维音频的音频信号和空间边信息,具体实施时可以据此采用不同配置的扬声器或耳机来重建三维音频声场,即可还原原始的三维音频,提高三维音频的空间感和距离感。
本实施例采用耳机来实现带距离边信息的三维音频信号的重放,为了实现耳机的三维音频重现,需要用到头相关传递函数(HRTF)库,PKU&IOA HRTF库对远场和近场都做了测量,距离r从20cm变化到160cm,我们选择PKU&IOA HRTF库来完成带距离边信息的三维音频重建。
通过实验对比,带距离参数的三维音频重建的主观听音效果比不带距离参数只采用强度来表达距离信息的三维音频重建效果好。由于增加了距离参数,可以使得重放的效果更为精细,空间感和距离感得到增强。
本发明所提供方法可以采用软件技术实现自动运行,也可实现为相应的模块化系统。本发明提供的一种用于提高三维音频空间感距离感的参数编解码系统,包括编码器和解码器,
所述编码器包括以下模块,
时频变换模块,用于输入三维音频的音频信号和三维音频的空间边信息,将三维音频的时域信号变换到频域,得到三维音频的频域信号,实现如下,
设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的空间边信息由构成;将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f)构成;
其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的频域表达n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;
下混模块,用于将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等于1;
综合编码模块,用于对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分别进行编码,实现如下,
对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;
对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;
对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;
空间边信息编码模块,用于对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code;
码流合并模块,用于将综合编码模块和空间边信息编码模块得到的码流合并,得到三维音频码流3DAudio_code;
所述解码器包括以下模块,
空间边信息解码模块,用于根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code进行解码,还原出K个有向性音频信号的空间边信息
综合解码模块,用于对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,
根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无向性散射音频信号Diffu’(n,f);
根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原出m个下混后的有向性音频信号;
根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息3D_OLD;
上混模块,用于根据综合解码模块得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f)与综合解码模块所得无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达。
时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t);音频信号的时域表达s’(t)和空间边信息解码模块所得空间边信息构成解码后的三维音频的音频信号和空间边信息。
各模块具体实现与方法步骤相应,本发明不予赘述。
本文中所描述的具体实施例仅仅是对本发明内容作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的内容或者超越所附权利要求书所定义的范围。
Claims (6)
1.一种用于提高三维音频空间感距离感的参数编解码方法,其特征在于:包括编码过程和解码过程,
所述编码过程包括以下步骤,
步骤C1,输入三维音频的音频信号和三维音频的空间边信息,将三维音频的时域信号变换到频域,得到三维音频的频域信号,实现如下,
设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的空间边信息由构成;将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f)构成;
其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的频域表达n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;
步骤C2,将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等于1;
步骤C3,对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分别进行编码,实现如下,
对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;
对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;
对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;
步骤C4,对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code;
步骤C5,将步骤C3和步骤C4得到的码流合并,得到三维音频码流3DAudio_code;
所述解码过程包括以下步骤,
步骤D1,根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code进行解码,还原出K个有向性音频信号的空间边信息
步骤D2,对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,
根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无向性散射音频信号Diffu’(n,f);
根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原出m个下混后的有向性音频信号;
根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息3D_OLD;
步骤D3,根据步骤D2得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),K个有向性音频信号与步骤D2所得无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达;
步骤D4,将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t);音频信号的时域表达s’(t)和步骤D1所得空间边信息构成解码后的三维音频的音频信号和空间边信息。
2.根据权利要求1所述用于提高三维音频空间感距离感的参数编解码方法,其特征在于:步骤C2中,将K个有向性音频信号下混为m个有向性音频信号时,K>m,K和m都为自然数,且m大于等于1,采用逐级下混的方式实现。
3.根据权利要求1所述用于提高三维音频空间感距离感的参数编解码方法,其特征在于:步骤C4中,对K个有向性音频信号的空间边信息进行编码时,采用非均匀的空间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码,所述空间方位信息为水平角θ和高度角所述距离信息为距离边信息r;所述非均匀的空间量化点按以下规则进行量化,
当高度角固定时,相应水平面上水平角按照等差数列的数列和的大小进行变化如下,
an=a1+(n-1)d,n=1,2,…,N (1)
其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为等差数列的第n个值,d为等差数列的差值,N为该水平面上空间量化点的点数;
基于a1和aN的取值,根据式(1)和式(2)得到相应点数N以及等差数列的差值d,进而求出各个数列和Sn,n=1,2,…,N,Sn为该水平面上水平角所取的第n个值,而SN=180°;
步骤D1中,根据以上量化规则对空间边信息码流SI_code进行相应解码。
4.一种用于提高三维音频空间感距离感的参数编解码系统,其特征在于:包括编码器和解码器,
所述编码器包括以下模块,
时频变换模块,用于输入三维音频的音频信号和三维音频的空间边信息,将三维音频的时域信号变换到频域,得到三维音频的频域信号,实现如下,
设三维音频的时域信号为s(t),s(t)由s1(t)、s2(t)、…、sK(t)、diffu(t)构成,三维音频的空间边信息由构成;将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),S(n,f)由S1(n,f)、S2(n,f)、…、SK(n,f)、Diffu(n,f)构成;
其中,sk(t)为第k个有向性音频信号的时域表达,diffu(t)为无向性散射音频信号的时域表达,t表示时间;Sk(n,f)为第k个有向性音频信号的频域表达,Diffu(n,f)为无向性散射音频信号的频域表达,n代表帧索引,f代表频率索引;表示第k个有向性音频信号对应的空间边信息,θ为水平角,为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;
下混模块,用于将K个有向性音频信号下混为m个有向性音频信号,并提取相应的下混边信息3D_OLD,下混边信息为音频信号间强度差;K>m,K和m都为自然数,且m大于等于1;
综合编码模块,用于对无向性散射音频信号、下混后的m个有向性音频信号及提取的下混边信息分别进行编码,实现如下,
对无向性散射音频信号进行编码,生成无向性散射音频信号的码流Diffu_code;
对下混后的m个有向性音频信号进行编码,生成下混后的有向性音频信号码流Dmix_code;
对下混边信息3D_OLD进行编码,生成下混边信息的码流3D_OLD_code;
空间边信息编码模块,用于对K个有向性音频信号的空间边信息进行编码,生成空间边信息码流SI_code;
码流合并模块,用于将综合编码模块和空间边信息编码模块得到的码流合并,得到三维音频码流3DAudio_code;
所述解码器包括以下模块,
空间边信息解码模块,用于根据三维音频码流3DAudio_code,提取空间边信息的码流SI_code进行解码,还原出K个有向性音频信号的空间边信息
综合解码模块,用于对无向性散射音频信号码流Diffu_code、下混后的有向性音频信号码流Dmix_code及下混边信息码流3D_OLD_code分别进行解码,实现如下,
根据三维音频码流3DAudio_code,提取无向性散射音频信号码流Diffu_code,解码还原出无向性散射音频信号Diffu’(n,f);
根据三维音频码流3DAudio_code,提取下混后的有向性音频信号码流Dmix_code,解码还原出m个下混后的有向性音频信号;
根据三维音频码流3DAudio_code,提取下混边信息码流3D_OLD_code,还原出下混边信息3D_OLD;
上混模块,用于根据综合解码模块得到的m个下混后的有向性音频信号和下混边信息3D_OLD,将m个下混后的有向性音频信号上混为K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f),K个有向性音频信号S’1(n,f),S’2(n,f),…,S’K(n,f)与综合解码模块所得无向性散射音频信号Diffu’(n,f)共同组成解码后的三维音频的音频信号的频域表达;
时频反变换模块,用于将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t);音频信号的时域表达s’(t)和空间边信息解码模块所得空间边信息构成解码后的三维音频的音频信号和空间边信息。
5.根据权利要求4所述用于提高三维音频空间感距离感的参数编解码系统,其特征在于:下混模块中,将K个有向性音频信号下混为m个有向性音频信号时,K>m,K和m都为自然数,且m大于等于1,采用逐级下混的方式实现。
6.根据权利要求4所述用于提高三维音频空间感距离感的参数编解码系统,其特征在于:空间边信息编码模块中,对K个有向性音频信号的空间边信息进行编码时,采用非均匀的空间量化点来表达空间方位信息和距离信息,进行空间方位信息和距离信息编码,所述空间方位信息为水平角θ和高度角所述距离信息为距离边信息r;所述非均匀的空间量化点按以下规则进行量化,
当高度角固定时,相应水平面上水平角按照等差数列的数列和的大小进行变化如下,
an=a1+(n-1)d,n=1,2,… (1)
其中,a1是该等差数列的最小值,也是水平角的最小取值,而aN为等差数列的最大值,an为等差数列的第n个值,d为等差数列的差值,N为该水平面上空间量化点的点数;
基于a1和aN的取值,根据式(1)和式(2)得到相应点数N以及等差数列的差值d,进而求出各个数列和Sn,n=1,2,…,N,Sn为该水平面上水平角所取的第n个值,而SN=90°。然后再以右方90°为起点,以180°为终点,设计等差数列,完成非均匀量化。;
空间边信息解码模块中,根据以上量化规则对空间边信息码流SI_code进行相应解码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410310341.9A CN104064194B (zh) | 2014-06-30 | 2014-06-30 | 用于提高三维音频空间感距离感的参数编解码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410310341.9A CN104064194B (zh) | 2014-06-30 | 2014-06-30 | 用于提高三维音频空间感距离感的参数编解码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104064194A CN104064194A (zh) | 2014-09-24 |
CN104064194B true CN104064194B (zh) | 2017-04-26 |
Family
ID=51551872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410310341.9A Active CN104064194B (zh) | 2014-06-30 | 2014-06-30 | 用于提高三维音频空间感距离感的参数编解码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104064194B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240712B (zh) * | 2014-09-30 | 2018-02-02 | 武汉大学深圳研究院 | 一种三维音频多声道分组聚类编码方法及系统 |
CN104464742B (zh) * | 2014-12-31 | 2017-07-11 | 武汉大学 | 一种3d音频空间参数全方位非均匀量化编码系统及方法 |
CN105120418B (zh) * | 2015-07-17 | 2017-03-22 | 武汉大学 | 双声道3d音频生成装置及方法 |
CN106023999B (zh) * | 2016-07-11 | 2019-06-11 | 武汉大学 | 用于提高三维音频空间参数压缩率的编解码方法及系统 |
CN108206021B (zh) * | 2016-12-16 | 2020-12-18 | 南京青衿信息科技有限公司 | 一种后向兼容式三维声编码器、解码器及其编解码方法 |
CN108206022B (zh) * | 2016-12-16 | 2020-12-18 | 南京青衿信息科技有限公司 | 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法 |
CN108206983B (zh) * | 2016-12-16 | 2020-02-14 | 南京青衿信息科技有限公司 | 兼容现有音视频系统的三维声信号的编码器及其方法 |
CN108206984B (zh) * | 2016-12-16 | 2019-12-17 | 南京青衿信息科技有限公司 | 利用多信道传输三维声信号的编解码器及其编解码方法 |
CN109618274B (zh) * | 2018-11-23 | 2021-02-19 | 华南理工大学 | 一种基于角度映射表的虚拟声重放方法、电子设备及介质 |
CN110739000B (zh) * | 2019-10-14 | 2022-02-01 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
CN112584297B (zh) * | 2020-12-01 | 2022-04-08 | 中国电影科学技术研究所 | 音频数据的处理方法、装置和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102395098A (zh) * | 2005-09-13 | 2012-03-28 | 皇家飞利浦电子股份有限公司 | 生成3d声音的方法和设备 |
CN103065634A (zh) * | 2012-12-20 | 2013-04-24 | 武汉大学 | 基于感知特性的三维音频空间参数的量化方法 |
CN103618986A (zh) * | 2013-11-19 | 2014-03-05 | 深圳市新一代信息技术研究院有限公司 | 一种3d空间中音源声像体的提取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
-
2014
- 2014-06-30 CN CN201410310341.9A patent/CN104064194B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102395098A (zh) * | 2005-09-13 | 2012-03-28 | 皇家飞利浦电子股份有限公司 | 生成3d声音的方法和设备 |
CN103065634A (zh) * | 2012-12-20 | 2013-04-24 | 武汉大学 | 基于感知特性的三维音频空间参数的量化方法 |
CN103618986A (zh) * | 2013-11-19 | 2014-03-05 | 深圳市新一代信息技术研究院有限公司 | 一种3d空间中音源声像体的提取方法及装置 |
Non-Patent Citations (2)
Title |
---|
Spatial squeezing techniques for low bit-rate multichannel audio coding;Bin Cheng etc;《University of Wollonggong Thesis Collection》;20110131;第2、29-46、155、171-182页,图2.8-2.18、6.2、6.3,表6.1 * |
三维音频中空间线索感知特性研究;王恒;《中国博士学位论文全文数据库》;20130815;第1-83页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104064194A (zh) | 2014-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104064194B (zh) | 用于提高三维音频空间感距离感的参数编解码方法及系统 | |
JP6866519B2 (ja) | ノイズ削減のための多チャネルhoaオーディオ信号をエンコードする方法および装置ならびにノイズ削減のための多チャネルhoaオーディオ信号をデコードする方法および装置 | |
CN101120615B (zh) | 多声道编码器和解码器以及相应的编码和解码方法 | |
ES2899286T3 (es) | Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia | |
RU2020119761A (ru) | Устройство и способ кодирования или декодирования параметров направленного кодирования аудио с использованием различных частотно-временных разрешений | |
RU2224302C2 (ru) | Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов | |
CN106463121A (zh) | 较高阶立体混响信号压缩 | |
RU2016105613A (ru) | Аудиокодер, аудиодекодер и связанные способы с использованием двухканальной обработки в инфраструктуре интеллектуального заполнения интервалов отсутствия сигнала | |
CN110739000B (zh) | 一种适应于个性化交互系统的音频对象编码方法 | |
US10566003B2 (en) | Transform encoding/decoding of harmonic audio signals | |
CN106023999B (zh) | 用于提高三维音频空间参数压缩率的编解码方法及系统 | |
JP2024012444A (ja) | マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ | |
TW200816167A (en) | Method and device for transcoding audio signals | |
CN105308680A (zh) | 音频编码器和解码器 | |
CN107610710A (zh) | 一种面向多音频对象的音频编码及解码方法 | |
CN103065634B (zh) | 基于感知特性的三维音频空间参数的量化方法 | |
US9691397B2 (en) | Device and method data for embedding data upon a prediction coding of a multi-channel signal | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
CN101604983B (zh) | 编解码装置、系统及其方法 | |
CN104464742B (zh) | 一种3d音频空间参数全方位非均匀量化编码系统及方法 | |
CN108417219B (zh) | 一种适应于流媒体的音频对象编解码方法 | |
JP6201047B2 (ja) | オーディオ信号のパラメトリック再構成のための脱相関器構造 | |
CN103065335B (zh) | 基于轮廓波域四叉块分裂模型的图像编码方法 | |
US20190096410A1 (en) | Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding | |
US20240087579A1 (en) | Three-dimensional audio signal coding method and apparatus, and encoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |