CN104464742B - 一种3d音频空间参数全方位非均匀量化编码系统及方法 - Google Patents

一种3d音频空间参数全方位非均匀量化编码系统及方法 Download PDF

Info

Publication number
CN104464742B
CN104464742B CN201410855935.8A CN201410855935A CN104464742B CN 104464742 B CN104464742 B CN 104464742B CN 201410855935 A CN201410855935 A CN 201410855935A CN 104464742 B CN104464742 B CN 104464742B
Authority
CN
China
Prior art keywords
loudspeaker
spatial parameter
azimuth
angle
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410855935.8A
Other languages
English (en)
Other versions
CN104464742A (zh
Inventor
胡瑞敏
高丽
杨玉红
王晓晨
涂卫平
武庭照
柯善发
张茂胜
李登实
王松
姜林
杨乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boshilian Shenzhen Information Technology Co ltd
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201410855935.8A priority Critical patent/CN104464742B/zh
Publication of CN104464742A publication Critical patent/CN104464742A/zh
Application granted granted Critical
Publication of CN104464742B publication Critical patent/CN104464742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种3D音频空间参数全方位非均匀量化编码系统及方法,包括基于双声道输入信号进行预处理、声道信号下混、下混信号量化编码;按子带提取空间参数,所述空间参数为声道间强度差异参数ICLD;根据全方位角度JND得到全方位角度量化表;根据输入的扬声器的空间位置信息,建立在两扬声器所夹区域之间所形成虚拟声像的方位角与空间参数的映射表,从全方位角度量化表映射得到空间参数量化表;进行空间参数全方位的非均匀量化压缩编码,对输入的扬声器空间位置信息进行熵编码。本发明基于人耳对全方位的角度感知差异特性自适应地根据扬声器方位信息生成全方位空间参数非均匀量化表,相比现有方法,本发明明显提高了编码效率和质量。

Description

一种3D音频空间参数全方位非均匀量化编码系统及方法
技术领域
本发明涉及音频编码技术领域,尤其涉及一种3D音频空间参数全方位非均匀量化编码系统及方法。
背景技术
人耳的空间听觉特性是声道间空间参数感知去冗余的基础。传统的空间音频参数编码方法,通过声道下混和提取声道间空间参数的方法进行立体声信号压缩编码,基于人对空间方位感知的双耳线索的恰可感知差异特性,对立体声空间参数进行感知去冗余量化编码。人对3D空间中不同方位的声音具有不同的感知敏感特性,人对正前方声音方位感知最敏感,后方次之,侧面最弱。然而现有多声道3D音频编码技术仍然沿用立体声编码方法,对所有方位扬声器对提取的空间参数采用相同的量化表,相同的量化范围及步长设置难以与人耳对不同方位的感知特性相符,从而造成要么量化比特数浪费、要么量化精度不够带来感知失真的问题,降低编码效率和质量。
发明内容
本发明的目的是提供一种3D音频空间参数全方位非均匀量化编码系统及方法,使得3D音频中所有方位的扬声器信号中提取的空间参数感知编码都能与人耳感知特性相符。
为达到上述目的,本发明提供一种3D音频空间参数全方位非均匀量化编码系统,包括以下模块:
预处理模块,用于对双声道输入信号进行预处理,得到两个声道的当前帧的各个子带的频域信号Xi(k)和Xj(k)并做两路输出,一路输出给声道信号下混模块,一路输出给空间参数提取模块;i,j代表扬声器信号编号,k代表子带编号,取值1,2,…,K,子带数K>1;
声道信号下混模块,用于对从预处理模块输入的频域信号Xi(k)和Xj(k),按每个子带每个频谱系数进行下混,得到当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2,输出给下混信号量化编码模块;
下混信号量化编码模块,用于对声道信号下混模块输入的下混信号Xmix(k)=(Xi(k)+Xj(k))/2进行量化编码,将编码结果作为码流的一部分输出给解码端;
空间参数提取模块,用于对从预处理模块输入的所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按子带提取空间参数并输出给空间参数全方位非均匀量化编码模块,所述空间参数为声道间强度差异参数ICLD,提取如下,
其中ΣXi(k)2和ΣXj(k)2表示对频域信号Xi(k)和Xj(k)的第k个子带的所有频谱系数求平方和;
全方位角度量化表生成模块,用于包括根据输入的全方位的角度恰可感知差异JND值AJND(a,e),量化得到全方位角度量化表中角度的量化值AQ(index),量化步长通过设置相邻两个AQ(index)之间的差异约等于从量化点开始的2个连续AJND(a,e)值的和,其中a,e分别代表水平角和高度角;所得全方位角度量化表输出给基于方位角自适应映射的空间参数量化表生成模块;
基于方位角自适应映射的空间参数量化表生成模块,用于根据输入的扬声器的空间位置信息,计算两扬声器的夹角,建立在两扬声器所夹区域之间所形成虚拟声像的方位角与扬声器信号声道间空间参数的映射表,根据从全方位角度量化表生成模块输入的全方位角度量化表,从全方位角度量化表映射得到空间参数量化表,输出给空间参数全方位非均匀量化编码模块;
空间参数全方位非均匀量化编码模块,用于根据从基于方位角自适应映射的空间参数量化表生成模块得到的空间参数量化表,对从空间参数提取模块输入的空间参数量化,对量化索引进行差分熵编码,实现空间参数全方位的非均匀量化压缩编码,将编码结果作为码流的一部分输出给解码端;
扬声器配置边信息量化编码模块,用于对输入的扬声器空间位置信息,进行熵编码,将编码结果作为码流的一部分输出给解码端。
而且,基于方位角自适应映射的空间参数量化表生成模块用于具体执行以下操作,
给定输入扬声器Si和Sj的高度角e,扬声器Si和Sj在主坐标系XY中水平方位角分别是θXY(k,i)和θXY(k,j),在以两扬声器连线的中垂线及其垂线所构成的坐标系X'Y'中分别映射得到两扬声器的水平方位角
根据全方位量化表,选取高度角为e、水平方位角位于θXY(k,i)和θXY(k,j)之间的角度的量化值AQ(index)组成两扬声器所构成的局部区域的角度量化表;在该局部区域中,根据主坐标系XY中虚拟声源Sij的水平方位角度得到虚拟声源Sij在坐标系X'Y'中的水平方位角
根据两扬声器在坐标系X'Y'中的水平方位角θ(k,i)和θ(k,j),以及局部区域中每一个量化角度在坐标系X'Y'中的水平方位角计算得到该角度对应的ICLD的量化值,
本发明相应提供一种3D音频空间参数全方位非均匀量化编码方法,包括以下步骤:
步骤1,对输入信号进行预处理,得到两个声道的当前帧的各个子带的频域信号Xi(k)和Xj(k),i,j代表扬声器信号编号,k代表子带编号,取值1,2,…,K,子带数K>1;
步骤2,得到下混信号,包括对于步骤1所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按每个子带每个频谱系数进行下混,得到当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2;
步骤3,对下混信号进行编码,包括对步骤2所得当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2进行量化编码,将编码结果作为码流的一部分输出给解码端;
步骤4,空间参数提取,包括对步骤1所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按子带提取空间参数,所述空间参数为声道间强度差异参数ICLD,提取如下,
其中ΣXi(k)2和ΣXj(k)2表示对频域信号Xi(k)和Xj(k)的第k个子带的所有频谱系数求平方和;
步骤5,全方位角度量化表生成,包括根据输入的全方位的角度恰可感知差异JND值AJND(a,e),量化得到全方位角度量化表中角度的量化值AQ(index),量化步长通过设置相邻两个AQ(index)之间的差异约等于从量化点开始的2个连续AJND(a,e)值的和,其中a,e分别代表水平角和高度角;
步骤6,根据输入的扬声器的空间位置信息,计算两扬声器的夹角,建立在两扬声器所夹区域之间所形成虚拟声像的方位角与扬声器信号声道间空间参数的映射表,根据步骤5所得全方位角度量化表,从全方位角度量化表映射得到空间参数量化表;
步骤7,根据步骤6中得到的空间参数量化表,对步骤4得到的空间参数进行量化,对量化索引进行差分熵编码,实现空间参数全方位的非均匀量化压缩编码,将编码结果作为码流的一部分输出给解码端;
步骤8,对输入的扬声器空间位置信息,进行熵编码,将编码结果作为码流的一部分输出给解码端。
而且,步骤6实现方式如下,
给定输入扬声器Si和Sj的高度角e,扬声器Si和Sj在主坐标系XY中水平方位角分别是θXY(k,i)和θXY(k,j),在以两扬声器连线的中垂线及其垂线所构成的坐标系X'Y'中分别映射得到两扬声器的水平方位角
根据全方位量化表,选取高度角为e、水平方位角位于θXY(k,i)和θXY(k,j)之间的角度的量化值AQ(index)组成两扬声器所构成的局部区域的角度量化表;在该局部区域中,根据主坐标系XY中虚拟声源Sij的水平方位角度得到虚拟声源Sij在坐标系X'Y'中的水平方位角
根据两扬声器在坐标系X'Y'中的水平方位角θ(k,i)和θ(k,j),以及局部区域中每一个量化角度在坐标系X'Y'中的水平方位角计算得到该角度对应的ICLD的量化值,
本发明基于人耳对全方位的角度感知差异特性自适应地根据扬声器方位信息设计全方位空间参数非均匀量化表,相比现有对不同方位扬声器信号设计相同的空间参数量化表的方法,本发明明显提高了编码效率和质量。
附图说明
图1是本发明实施例提供的3D音频空间参数全方位非均匀量化编码系统的原理框图。
图2是本发明实施例提供的3D音频空间参数与全方位角度映射的坐标系示意图。
具体实施方式
考虑到现有技术的缺陷,若能提供一种根据扬声器方位自适应地生成符合人耳全方位感知敏感特性的空间参数非均匀量化表的方法,利用人耳对全方位角度的非均匀感知差异特性,设计空间参数的非均匀量化表,对不同方位的扬声器信号提取的空间参数自适应地设计不同的空间参数量化表,实现全方位空间感知冗余去除,将能有效提升3D音频多声道空间参数编码效率和音质。
下面结合附图和实施例详细对本发明提供的3D音频空间参数全方位非均匀量化编码系统进行详细描述。
具体实施时,本发明所提供系统可采用计算机软件模块化技术实现。参见图1,实施例所提供系统包括:
预处理模块,用于对双声道输入信号进行预处理,得到两个声道的当前帧的各个子带的频域信号Xi(k)和Xj(k)并做两路输出,一路输出给声道信号下混模块,一路输出给空间参数提取模块。
实施例中,预处理模块对输入信号(即音频原始信号1000)进行预处理,而预处理一般具体包括高通滤波、分帧处理、时频变换以及Bark子带划分,首先,将输入信号(1000)送入高通滤波器,滤除50Hz以下的低频信号;以20ms为一帧读取采样数据作为当前帧数据;然后对得到的两个声道当前帧信号进行时频变换以及Bark子带划分;输出信号为两个声道的当前帧的频域信号Xi(k)和Xj(k)(即预处理后信号1001),i,j代表扬声器信号编号,k代表子带编号,取值1,2,…,K,子带数K>1,K一般可以取值24。
声道信号下混模块,用于对从预处理模块输入的频域信号Xi(k)和Xj(k)进行下混,按每个子带每个频谱系数进行下混,得到当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2,输出给下混信号量化编码模块。
实施例中,声道信号下混模块对输入信号(即预处理信号1001)Xi(k)和Xj(k),按每个子带每个频谱系数进行下混,得到当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2(即下混信号1002)作为输出信号。
下混信号量化编码模块,用于对声道信号下混模块输入的下混信号,进行量化编码,将编码结果作为码流的一部分输出给解码端;
实施例中,下混信号量化编码模块对输入信号Xmix(k)(即下混信号1002)进行量化编码,以现有技术AAC编码方式编码,编码结果作为码流的一部分输出给解码端。
空间参数提取模块,用于对从预处理模块输入的音频信号Xi(k)和Xj(k)进行空间参数提取,提取出声道间强度差异参数ICLD,输出给空间参数全方位非均匀量化编码模块。
实施例中,空间参数提取模块对输入信号(即预处理信号1001)Xi(k)和Xj(k),按子带提取空间参数,声道间强度差异参数ICLD计算如下,
其中ΣXi(k)2和ΣXj(k)2表示对频域信号Xi(k)和Xj(k)的第k个子带的所有频谱系数求平方和,输出信号为每个子带的ICLD值(即空间参数1003)。
全方位角度量化表生成模块,用于根据输入的全方位的角度恰可感知差异数据,将方位角的量化误差控制在角度的恰可感知差异之下,得到全方位角度量化表,输出给方位角与空间参数自适应量化表生成模块。包括根据输入的360°水平面、360°垂直面范围的角度的恰可感知差异JND值AJND(a,e),得到全方位角度的量化表中角度的量化值AQ(index);
实施例中,全方位角度量化表生成模块根据输入信号(即角度JND数据1004)中360°水平面、360°垂直面范围的各角度的恰可感知差异JND值AJND(a,e),其中a,e分别代表水平角和高度角,例如,对于任意高度角e对应输入水平面360个角度(按1°的间隔)的恰可感知差异JND值AJND(a,e),量化得到全方位角度量化表中角度的量化值AQ(index)作为输出数据(即全方位角度量化表1005),量化步长通过设置相邻两个AQ(index)之间的差异约等于从量化点开始的2个连续AJND(a,e)值的和(如非整数,则量化值就近取整),index是量化表索引编号;例如给定{0°,1°,2°,3°,4°,5°,6°}的JND分别为{1.3°,1.3°,1.3°,1.3°,1.4°,1.4°,1.4°},以0°作为起始量化点,量化步长为2.6°,向上取整得到3°,则下一个量化点为3°,同理得到第3个量化点为6°。例如得到高度角为0°的水平角量化表{0°,3°,6°,9°,12°,16°,21°,26°,32°,38°,45°,53°,62°,73°,87°,103°,117°,129°,139°,148°,156°,163°,169°,175°,180°},共有25个值,则index可取值为1-25。所有高度角相应的水平角量化表构成全方位角度量化表。
基于方位角自适应映射的空间参数量化表生成模块,用于根据输入的扬声器的3D空间位置信息,计算两扬声器的夹角,建立在两扬声器所夹区域之间所形成虚拟声像的方位角与扬声器信号声道间空间参数的映射表,根据从全方位角度量化表生成模块输入的全方位角度量化表,从全方位角度量化表映射得到空间参数量化表,输出给空间参数全方位非均匀量化编码模块。包括对当前帧中每一个子带k,根据输入声道信号对应的两个扬声器Si和Sj在主坐标系XY中的空间位置信息,从两扬声器信号Si和Sj中提取两扬声器所形成的虚拟声像的方位角信息,建立两扬声器所形成的虚拟声像的方位角与两扬声器信号之间提取的空间参数ICLD的映射,从全方位角度量化表映射得到根据扬声器位置自适应的空间参数量化表。
本发明进一步提供了具体实现方式:
给定输入扬声器Si和Sj的高度角e,扬声器Si和Sj在主坐标系XY中水平方位角分别是θXY(k,i)和θXY(k,j),在以两扬声器连线的中垂线及其垂线所构成的坐标系X'Y'中分别映射得到两扬声器的水平方位角
根据全方位量化表,选取高度角为e、水平方位角位于θXY(k,i)和θXY(k,j)之间的角度的量化值AQ(index)组成两扬声器所构成的局部区域的角度量化表;在该局部区域中,根据主坐标系XY中虚拟声源Sij的水平方位角度得到虚拟声源Sij在坐标系X'Y'中的水平方位角主坐标系XY的局部区域中的每一个角度都能计算得到一个在坐标系X'Y'中的对应角度;
根据两扬声器在坐标系X'Y'中的水平方位角θ(k,i)和θ(k,j),以及局部区域中每一个量化角度在坐标系X'Y'中的水平方位角计算得到该角度对应的ICLD的量化值,
图2中,以圆中心为人头,圆代表人头所在水平面,主坐标系XY以圆心为原点,正前方对应于0°,左正侧面对应于90°,右正侧面对应于-90°,正后方对应于180°(或-180°),给定沿正侧面方向为X轴方向,给定正前方为Y轴方向。坐标系X'Y'以圆心为原点,Y轴方向为扬声器S1和S4的中线。S0-S4分别代表位于圆上的5个扬声器,VS代表由扬声器S1和S4生成的虚拟声像,θXY(k,i)和θXY(k,j)分别代表扬声器S1和S2在坐标系XY中的方位角,θ(θ(k,i),省略了k,i)表示扬声器S1和S2在坐标系X'Y'中的方位角,省略了k,i,j)表示虚拟声像VS在坐标系X'Y'中的方位角。
实施例中,方位角与空间参数自适应映射模块根据输入信号(即扬声器位置信息1006),例如,对当前帧中每一个子带k,给定高度角0°,参见图2,给定主坐标系XY中的扬声器Si和Sj的水平方位角分别是θXY(k,i)=30°和θXY(k,j)=110°。将局部区域角度量化表中每一个量化值转换到以两扬声器连线的中垂线及其垂线所构成的坐标系X'Y'中,然后映射得到对应的ICLD量化值。例如,两扬声器在坐标系X'Y'中的水平方位角为给定一个主坐标系XY中虚拟声源Sij的水平方位量化角度103°,得到虚拟声源Sij在坐标系X'Y'中的水平方位角计算得到对应的ICLD量化值同样得到局部区域角度量化表中所有角度对应的ICLD量化值。例如,给定主坐标系中的扬声器和的水平方位角分别是和,则选取在30°—110°之间的量化值作为局部区域量化表{32°,38°,45°,53°,62°,73°,87°,103°}。将局部区域角度量化表中每一个量化值转换到以两扬声器连线的中垂线及其垂线所构成的坐标系X'Y'中对应的角度,然后映射得到对应的ICLD量化值。
空间参数全方位非均匀量化编码模块,用于根据从基于方位角自适应映射的空间参数量化表生成模块得到的空间参数量化表,对从空间参数提取模块输入的空间参数进行量化,对量化索引进行差分熵编码,实现空间参数全方位的非均匀量化压缩编码,将编码结果作为码流的一部分输出给解码端;
实施例中,空间参数全方位非均匀量化编码模块根据一路输入信号(即空间参数量化表1007),对一路输入信号(即空间参数1003)进行量化后,对所有子带的ICLD量化索引进行前后帧差分Huffman熵编码,将编码结果作为码流的一部分输出给解码端。
扬声器配置边信息量化编码模块:用于对输入的扬声器空间位置信息,进行熵编码,将编码结果作为码流的一部分输出给解码端。
实施例中,扬声器配置边信息量化编码模块根据输入信号(扬声器位置信息1006),对扬声器Si和Sj的高度角和主坐标系XY中的水平方位角信息进行前后帧差分Huffman熵编码,将编码结果作为码流的一部分输出给解码端。
最终,下混信号量化编码模块、空间参数全方位非均匀量化编码模块、扬声器配置边信息量化编码模块的输出都采用码流复用的方式传送到解码端。
本发明提供了相应的3D音频空间参数全方位非均匀量化编码方法,可采用软件方式实现,具体步骤与系统工作原理一致。具体流程包括以下步骤:
步骤1,对输入信号进行预处理,得到两个声道的当前帧的各个子带的频域信号Xi(k)和Xj(k),i,j代表扬声器信号编号,k代表子带编号,取值1,2,…,K,子带数K>1;
步骤2,得到下混信号,包括对于步骤1所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按每个子带每个频谱系数进行下混,得到当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2;
步骤3,对下混信号进行编码,包括对步骤2所得当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2进行量化编码,将编码结果作为码流的一部分输出给解码端;
步骤4,空间参数提取,包括对步骤1所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按子带提取空间参数,所述空间参数为声道间强度差异参数ICLD,提取如下,
其中ΣXi(k)2和ΣXj(k)2表示对频域信号Xi(k)和Xj(k)的第k个子带的所有频谱系数求平方和;
步骤5,全方位角度量化表生成,包括根据输入的全方位的角度恰可感知差异JND值AJND(a,e),量化得到全方位角度量化表中角度的量化值AQ(index),量化步长通过设置相邻两个AQ(index)之间的差异约等于从量化点开始的2个连续AJND(a,e)值的和,其中a,e分别代表水平角和高度角;
步骤6,根据输入的扬声器的空间位置信息,计算两扬声器的夹角,建立在两扬声器所夹区域之间所形成虚拟声像的方位角与扬声器信号声道间空间参数的映射表,根据步骤5所得全方位角度量化表,从全方位角度量化表映射得到空间参数量化表;
步骤7,根据步骤6中得到的空间参数量化表,对步骤4得到的空间参数进行量化,对量化索引进行差分熵编码,实现空间参数全方位的非均匀量化压缩编码,将编码结果作为码流的一部分输出给解码端;
步骤8,对输入的扬声器空间位置信息,进行熵编码,将编码结果作为码流的一部分输出给解码端。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。

Claims (2)

1.一种3D音频空间参数全方位非均匀量化编码系统,其特征在于,包括以下模块:
预处理模块,用于对双声道输入信号进行预处理,得到两个声道的当前帧的各个子带的频域信号Xi(k)和Xj(k)并做两路输出,一路输出给声道信号下混模块,一路输出给空间参数提取模块;i,j代表扬声器信号编号,k代表子带编号,取值1,2,…,K,子带数K>1;
声道信号下混模块,用于对从预处理模块输入的频域信号Xi(k)和Xj(k),按每个子带每个频谱系数进行下混,得到当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2,输出给下混信号量化编码模块;
下混信号量化编码模块,用于对声道信号下混模块输入的下混信号Xmix(k)=(Xi(k)+Xj(k))/2进行量化编码,将编码结果作为码流的一部分输出给解码端;
空间参数提取模块,用于对从预处理模块输入的所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按子带提取空间参数并输出给空间参数全方位非均匀量化编码模块,所述空间参数为声道间强度差异参数ICLD,提取如下,
I C L D = 10 l o g ( ΣX i ( k ) 2 ΣX j ( k ) 2 ) ,
其中∑Xi(k)2和ΣXj(k)2表示对频域信号Xi(k)和Xj(k)的第k个子带的所有频谱系数求平方和;
全方位角度量化表生成模块,用于包括根据输入的全方位的角度恰可感知差异JND值AJND(a,e),量化得到全方位角度量化表中角度的量化值AQ(index),量化步长通过设置相邻两个AQ(index)之间的差异约等于从量化点开始的2个连续AJND(a,e)值的和,其中a,e分别代表水平角和高度角;所得全方位角度量化表输出给基于方位角自适应映射的空间参数量化表生成模块;
基于方位角自适应映射的空间参数量化表生成模块,用于根据输入的扬声器的空间位置信息,计算两扬声器的夹角,建立在两扬声器所夹区域之间所形成虚拟声像的方位角与扬声器信号声道间空间参数的映射表,根据从全方位角度量化表生成模块输入的全方位角度量化表,从全方位角度量化表映射得到空间参数量化表,输出给空间参数全方位非均匀量化编码模块;
空间参数全方位非均匀量化编码模块,用于根据从基于方位角自适应映射的空间参数量化表生成模块得到的空间参数量化表,对从空间参数提取模块输入的空间参数量化,对量化索引进行差分熵编码,实现空间参数全方位的非均匀量化压缩编码,将编码结果作为码流的一部分输出给解码端;
扬声器配置边信息量化编码模块,用于对输入的扬声器空间位置信息,进行熵编码,将编码结果作为码流的一部分输出给解码端;
其中,基于方位角自适应映射的空间参数量化表生成模块用于具体执行以下操作,
给定输入扬声器Si和Sj的高度角e,扬声器Si和Sj在主坐标系XY中水平方位角分别是θXY(k,i)和θXY(k,j),在以两扬声器连线的中垂线及其垂线所构成的坐标系X'Y'中分别映射得到两扬声器的水平方位角
根据全方位量化表,选取高度角为e、水平方位角位于θXY(k,i)和θXY(k,j)之间的角度的量化值AQ(index)组成两扬声器所构成的局部区域的角度量化表;在该局部区域中,根据主坐标系XY中虚拟声源Sij的水平方位角度得到虚拟声源Sij在坐标系X'Y'中的水平方位角
根据两扬声器在坐标系X'Y'中的水平方位角θ(k,i)和θ(k,j),以及局部区域中每一个量化角度在坐标系X'Y'中的水平方位角计算得到该角度对应的ICLD的量化值,
2.一种3D音频空间参数全方位非均匀量化编码方法,其特征在于,包括以下步骤:
步骤1,对输入信号进行预处理,得到两个声道的当前帧的各个子带的频域信号Xi(k)和Xj(k),i,j代表扬声器信号编号,k代表子带编号,取值1,2,…,K,子带数K>1;
步骤2,得到下混信号,包括对于步骤1所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按每个子带每个频谱系数进行下混,得到当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2;
步骤3,对下混信号进行编码,包括对步骤2所得当前帧的频域下混信号Xmix(k)=(Xi(k)+Xj(k))/2进行量化编码,将编码结果作为码流的一部分输出给解码端;
步骤4,空间参数提取,包括对步骤1所得当前帧的各个子带的频域信号Xi(k)和Xj(k),按子带提取空间参数,所述空间参数为声道间强度差异参数ICLD,提取如下,
I C L D = 10 l o g ( ΣX i ( k ) 2 ΣX j ( k ) 2 ) ,
其中∑Xi(k)2和ΣXj(k)2表示对频域信号Xi(k)和Xj(k)的第k个子带的所有频谱系数求平方和;
步骤5,全方位角度量化表生成,包括根据输入的全方位的角度恰可感知差异JND值AJND(a,e),量化得到全方位角度量化表中角度的量化值AQ(index),量化步长通过设置相邻两个AQ(index)之间的差异约等于从量化点开始的2个连续AJND(a,e)值的和,其中a,e分别代表水平角和高度角;
步骤6,根据输入的扬声器的空间位置信息,计算两扬声器的夹角,建立在两扬声器所夹区域之间所形成虚拟声像的方位角与扬声器信号声道间空间参数的映射表,根据步骤5所得全方位角度量化表,从全方位角度量化表映射得到空间参数量化表;
步骤7,根据步骤6中得到的空间参数量化表,对步骤4得到的空间参数进行量化,对量化索引进行差分熵编码,实现空间参数全方位的非均匀量化压缩编码,将编码结果作为码流的一部分输出给解码端;
步骤8,对输入的扬声器空间位置信息,进行熵编码,将编码结果作为码流的一部分输出给解码端;
其中,步骤6实现方式如下,
给定输入扬声器Si和Sj的高度角e,扬声器Si和Sj在主坐标系XY中水平方位角分别是θXY(k,i)和θXY(k,j),在以两扬声器连线的中垂线及其垂线所构成的坐标系X'Y'中分别映射得到两扬声器的水平方位角
根据全方位量化表,选取高度角为e、水平方位角位于θXY(k,i)和θXY(k,j)之间的角度的量化值AQ(index)组成两扬声器所构成的局部区域的角度量化表;在该局部区域中,根据主坐标系XY中虚拟声源Sij的水平方位角度得到虚拟声源Sij在坐标系X'Y'中的水平方位角
根据两扬声器在坐标系X'Y'中的水平方位角θ(k,i)和θ(k,j),以及局部区域中每一个量化角度在坐标系X'Y'中的水平方位角计算得到该角度对应的ICLD的量化值,
CN201410855935.8A 2014-12-31 2014-12-31 一种3d音频空间参数全方位非均匀量化编码系统及方法 Active CN104464742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410855935.8A CN104464742B (zh) 2014-12-31 2014-12-31 一种3d音频空间参数全方位非均匀量化编码系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410855935.8A CN104464742B (zh) 2014-12-31 2014-12-31 一种3d音频空间参数全方位非均匀量化编码系统及方法

Publications (2)

Publication Number Publication Date
CN104464742A CN104464742A (zh) 2015-03-25
CN104464742B true CN104464742B (zh) 2017-07-11

Family

ID=52910687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410855935.8A Active CN104464742B (zh) 2014-12-31 2014-12-31 一种3d音频空间参数全方位非均匀量化编码系统及方法

Country Status (1)

Country Link
CN (1) CN104464742B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978967B (zh) * 2015-07-09 2018-11-13 武汉大学 用于降低空间参数误码率的三维音频编码方法及装置
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
GB2575305A (en) * 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101223598A (zh) * 2005-07-19 2008-07-16 韩国电子通信研究院 基于虚拟源位置信息的通道等级差量化和解量化方法
CN102737635A (zh) * 2011-04-08 2012-10-17 华为终端有限公司 一种音频编码方法以及音频编码设备
CN103065634A (zh) * 2012-12-20 2013-04-24 武汉大学 基于感知特性的三维音频空间参数的量化方法
CN104064194A (zh) * 2014-06-30 2014-09-24 武汉大学 用于提高三维音频空间感距离感的参数编解码方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101223598A (zh) * 2005-07-19 2008-07-16 韩国电子通信研究院 基于虚拟源位置信息的通道等级差量化和解量化方法
CN102737635A (zh) * 2011-04-08 2012-10-17 华为终端有限公司 一种音频编码方法以及音频编码设备
CN103065634A (zh) * 2012-12-20 2013-04-24 武汉大学 基于感知特性的三维音频空间参数的量化方法
CN104064194A (zh) * 2014-06-30 2014-09-24 武汉大学 用于提高三维音频空间感距离感的参数编解码方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Improved Channel Level Difference Quantization for Spatial Audio Coding;Kwangi Kim ect;<ETRI Journal>;20070228;第29卷;99-102 *

Also Published As

Publication number Publication date
CN104464742A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
JP7372360B2 (ja) 量子化とエントロピーコーディングとを使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
CN102270452B (zh) 近透明或透明的多声道编码器/解码器方案
TWI404429B (zh) 用於將多頻道音訊信號編碼/解碼之方法與裝置
US8332229B2 (en) Low complexity MPEG encoding for surround sound recordings
EP3605847B1 (en) Multichannel signal encoding method and apparatus
RU2679230C2 (ru) Способ и устройство для декодирования амбиофонического аудиопредставления звукового поля для проигрывания аудио с использованием 2d-компоновок
CN101149925B (zh) 一种用于参数立体声编码的空间参数选取方法
EP2612322A1 (en) Method and apparatus for encoding/decoding multichannel audio signal
EP4365896A2 (en) Determination of spatial audio parameter encoding and associated decoding
RU2749349C1 (ru) Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером
IL244153A (en) Non-uniform parameter quantization for advanced coupling
CN104240712A (zh) 一种三维音频多声道分组聚类编码方法及系统
CN104464742B (zh) 一种3d音频空间参数全方位非均匀量化编码系统及方法
JP2024059683A (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
JP2024512953A (ja) 空間音声ストリームの結合
CN107452387A (zh) 一种声道间相位差参数的提取方法及装置
EA034250B1 (ru) Параметрическое микширование звуковых сигналов
US9848272B2 (en) Decorrelator structure for parametric reconstruction of audio signals
KR20070035411A (ko) 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
US20230410823A1 (en) Spatial audio parameter encoding and associated decoding
CN118251722A (zh) 空间音频参数解码
CN116982108A (zh) 空间音频参数编码和相关联解码的确定
CN102760442B (zh) 一种3d音频中水平方位参数量化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240117

Address after: 215000 unit 01, 5 / F, building a, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee before: WUHAN University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240129

Address after: 518000, 13B, Block D, Central Avenue, Intersection of Xixiang Avenue and Baoyuan Road, Labor Community, Xixiang Street, Bao'an District, Shenzhen, Guangdong Province

Patentee after: Boshilian (Shenzhen) Information Technology Co.,Ltd.

Country or region after: China

Address before: 215000 unit 01, 5 / F, building a, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right