CN107077853B - 用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置 - Google Patents

用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置 Download PDF

Info

Publication number
CN107077853B
CN107077853B CN201580056173.8A CN201580056173A CN107077853B CN 107077853 B CN107077853 B CN 107077853B CN 201580056173 A CN201580056173 A CN 201580056173A CN 107077853 B CN107077853 B CN 107077853B
Authority
CN
China
Prior art keywords
representation
subband
hoa
matrix
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580056173.8A
Other languages
English (en)
Other versions
CN107077853A (zh
Inventor
A·克鲁格
S·科顿
F·凯勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN107077853A publication Critical patent/CN107077853A/zh
Application granted granted Critical
Publication of CN107077853B publication Critical patent/CN107077853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

本发明适合于改进声场的低位速率压缩和解压缩的高阶高保真立体声HOA信号表示,其中,解压缩提供空间稀疏的解码的HOA表示和该表示的系数序列的索引集。从原始HOA表示的重构信号,使用去相关滤波器创建若干个经修改的相位谱信号,这些经修改的相位谱信号与所述原始表示的信号无关。使用预定混合参数将经修改的相位谱信号相互混合,以便提供复制的环境HOA分量。最后,用复制的时域HOA表示来增强空间稀疏的解码的HOA表示。

Description

用于对声场的高阶高保真立体声HOA信号表示进行低位速率 压缩的方法和装置
技术领域
本发明涉及一种用于对声场的高阶高保真立体声HOA信号表示进行低位速率压缩的方法和装置,其中,HOA信号表示由于该低位速率而是空间稀疏的。
背景技术
除了像波场合成(WFS)的其他技术或者像22.2的基于声道的方法之外,高阶高保真立体声(HOA)提供表示三维声音的一种可能性。但是,与基于声道的方法相反,HOA表示提供独立于特定扩音器设置的优点。但是该灵活性是以在特定扩音器设置上回放HOA表示所需的解码过程为代价的。与所需扩音器数量通常非常大的WFS方法相比,HOA还可以被渲染到仅包括几个扩音器的设置。HOA的另外的优点是相同的表示还可以在不做任何修改的情况下被用于对耳机的双耳渲染。
HOA是基于复谐平面波幅度的空间密度的通过截断球谐函数(SH)展开的表示的。每个展开系数是角频率的函数,其可以用时域函数等同地表示。因此,不失一般性地,整个HOA声场表示实际上可以被假定为包括O个时域函数,其中,O表示展开系数的数量。在下面,这些时域函数将被等同地称为HOA系数序列或HOA声道。
HOA表示的空间分辨率随着展开的最大阶次N增长而改进。不幸的是,展开系数数量O随着阶次N二次方地增长,具体地说,O=(N+1)2。例如,使用阶次N=4的典型的HOA表示需要O=25个HOA(展开)系数。根据前面的考虑,给定期望的单声道采样速率fS和每采样的位数Nb,用于发送HOA表示的总位速率由O·fs·Nb确定。结果,通过采用每采样Nb=16位、以fs=48kHz的采样速率发送阶次N=4的HOA表示,得到19.2MBits/s的位速率,该位速率对于许多实际应用(例如流传输)是非常高的。因而,HOA表示的压缩是非常期望的。
HOA声场表示的压缩在EP 2665208 A1、EP 2743922 A1和国际申请PCT/EP2013/059363(参看2014年7月的ISO/IEC DIS 23008-3,MPEG-H 3D audio)中被提出。这些方法的共同之处在于,它们进行声场分析,并且将给定的HOA表示分解为定向分量和残余环境分量。最终的压缩表示一方面被假定为包括若干个量化信号,这些量化信号是从定向信号和基于矢量的信号以及环境HOA分量的相关系数序列的感知编码得出的。另一方面,最终的压缩表示被假定为包括与量化信号相关的附加辅助信息,该辅助信息对于从HOA表示的压缩版本重构HOA表示是必需的。对于EP 2665208 A1、EP 2743922 A1和国际申请PCT/EP2013/059363中的方法,量化信号的合理的最少数量为“8”个。因此,假定对于每个单独的感知编码器,数据速率为32kbit/s,则这些方法中的一个的数据速率通常不低于256kbit/s。对于某些应用,例如对于移动装置的音频流传输,该总数据速率可能太高,这使得期望以明显降低的数据速率(例如,128kbit/s)的HOA压缩方法。
在欧洲专利申请EP 14306077.0中,描述了一种用于对声场的HOA表示进行低位速率压缩的方法,该方法使用较少数量的量化信号,这些量化信号基本上是原始HOA表示的小子集。为了复制丢失的HOA系数,获得用于不同频带的预测参数以便从量化信号预测附加的定向HOA分量。
发明内容
在EP 14306077.0处理中,重构的HOA表示由高度相关的分量组成,因为所有的HOA分量都是仅从少量量化信号重构的。由于这样的少量量化信号,其定向HOA分量的预测可能并不令人满意,并且可以导致重构HOA表示在空间上稀疏的效果。这可以使声音干(dry)并且比原始HOA表示中的声音更安静。如果量化信号的数量非常少,例如,“1”个或“2”个,则通常由空间上不相关的信号分量组成的环境声场不能被适当地重构。
本发明要解决的问题是改进声场的HOA表示的低位速率压缩。该问题通过权利要求1和8中所公开的方法来解决。利用这些方法的装置在权利要求2和9中公开。
本发明的有利的另外的实施例在相应的从属权利要求中公开。
下面描述的处理对高阶高保真立体声表示的低位速率压缩进行处理,并且重新创建环境声场分量,并且在量化信号的数量非常少的情况下,它改进了上述EP 14306077.0处理。
所描述的处理被称为参数化环境复制(PAR),并且它用可能丢失的环境分量来补充重构的空间稀疏的HOA表示,所述可能丢失的环境分量是从其本身参数化复制的。复制是通过以下操作来进行的:首先从稀疏HOA表示(其可以包括定向信号和环境分量)的信号创建具有修改的相位谱、因而与先前的信号不相关的若干个新信号。第二,将新创建的信号彼此混合,以便提供复制的环境HOA分量。通过叠加原始稀疏HOA表示和复制的环境HOA分量来计算最终的增强的HOA表示。执行混合以便使最终的增强的HOA表示的空间声学性质与原始HOA表示的空间声学性质匹配。优选地,在频域中进行混合,从而提供在不同频带之间变化的可能性。假设从稀疏HOA表示创建不相关的信号的过程被确定性地指定,将被包括到压缩HOA表示中的用于PAR的辅助信息仅由混合参数组成,该混合参数本质上是复值的混合矩阵。
用于以减少用于PAR的辅助信息的量为目标从稀疏HOA表示创建不相关的信号的一种特定方法是首先用来自在单位球体上应尽可能均匀地分布的一些预测方向的虚拟扩音器信号(或等同地用一般的平面波函数)来表示稀疏HOA表示。在下面,用于从HOA表示创建虚拟扩音器信号的渲染被称为空间变换。第二,对于这些方向中的每个,通过使用去相关滤波器对稀疏HOA表示的对应的虚拟扩音器信号的相位谱进行修改来创建一个不相关的信号。第三,还用用于相同方向的虚拟扩音器信号来表示复制的环境HOA表示,其中,用于某个方向的每个虚拟扩音器信号仅由为该特定方向的邻域的预定义方向创建的不相关的信号被混合得到。仅由少量不相关的信号混合得到提供创建一个不相关的信号的混合系数的数量可以保持很少、用于PAR的辅助信息的量也可以保持很少的优点。另一个优点是,对于复制的环境HOA分量的单个的虚拟扩音器信号的混合,只有来自空间邻域的、因此具有类似的幅度谱的信号被考虑。该操作防止了稀疏HOA表示的定向分量不期望地在所有方向上空间分布。对于该方法,假定去相关滤波器是成对地不同的,并且它们的数量等于虚拟扩音器方向的数量。许多这样的去相关滤波器的实际构造通常使每个单独的滤波器仅具有有限的去相关效果。对于虚拟方向(或等同地空间位置)的去相关滤波器分配应合理地选择,以便最小化将被混合以用于创建复制的环境HOA分量的单个虚拟扩音器信号的信号之间的互相关性。
允许虚拟扩音器方向的数量对于各个频带改变,并且可以用于指定复制的环境HOA分量的频率相关阶次。
从稀疏HOA表示创建不相关的信号的方法的进一步扩展是,考虑将具有随时间变化的数量的不相关的信号用于复制的环境HOA分量的虚拟扩音器信号的混合。要被混合的不相关的信号的数量依赖于稀疏HOA表示中的丢失环境的量。该变化通常将导致对于虚拟扩音器位置的去相关滤波器分配变化。为了避免由于时间分配改变而导致去相关信号不连续,可以通过将稀疏HOA表示的虚拟扩音器信号等同地分配给去相关滤波器来交换去相关滤波器对于虚拟扩音器信号的分配。该分配可以用简单的置换矩阵表达。在分配改变的情况下,可以通过由两个不同的分配引起的信号之间的重叠相加(overlap-add)来计算每个去相关滤波器的输入。因此,每个去相关滤波器的输入和输出是连续的。随后,必须使分配倒转以便将每个去相关滤波器的输出重新分配给每个虚拟扩音器方向。
在多声道音频的上下文下,创建环境声音分量的问题在以下文献中被解决:2006年6月
Figure BDA0001265459590000041
Sweden的AES 28th International Conference中的V.Pulkki的"Directional audio coding in spatial sound reproduction and stereo upmixing";ISO/IEC 23003-1MPEG Surround以及ISO/IEC 23003-2Spatial Audio Object Coding中的2013年的J.Audio Eng.Soc第61(6)卷第403-411页的J.Vilkamo、T.Baeckstroem、A.Kuntz的"Optimized covariance domain framework for time-frequency processingof spatial audio"。
但是,本申请描述了用于在HOA表示的上下文下创建环境的处理。
原理上,本发明的压缩改进方法适于改进声场的低位速率压缩和解压缩的高阶高保真立体声HOA信号表示,以便提供参数化环境复制参数集,其中,所述解压缩提供空间稀疏的解码的HOA表示和该表示的系数序列的索引集,所述方法包括:
-将所述空间稀疏的解码的HOA表示变换为若干个复值的频域子带表示,并且使用分析滤波器组将所述HOA信号表示的对应延迟版本变换为对应数量的复值的频域子带表示;
-将所述子带分组为若干个子带组,并且在这些子带组中的每个子带组内:
-对于来自所述复值的频域子带表示的子带组中的每个子带,使用去相关滤波器创建与所述复值的频域子带表示不相关的若干个经修改的相位谱信号;
-对于来自所述经修改的相位谱信号的子带组中的每个子带,计算去相关协方差矩阵;
-对于子带组中的每个子带,将所述复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵;
-对于子带组中的每个子带,将用于所述HOA信号表示的复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵,
对于每个子带组:
-对于子带组的所有子带,组合所述去相关协方差矩阵以便提供子带组去相关协方差矩阵
Figure BDA0001265459590000061
-对于子带组的所有子带,组合用于所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵
Figure BDA0001265459590000062
-对于子带组的所有子带,组合用于所述HOA信号表示的所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵
Figure BDA0001265459590000063
-形成组合协方差矩阵
Figure BDA0001265459590000064
Figure BDA0001265459590000065
之间的残差,以便提供矩阵Δ∑g(k′-1);
-使用矩阵
Figure BDA0001265459590000066
和矩阵Δ∑g(k′-1)计算对应的混合矩阵;
-对所述混合矩阵进行编码以便提供用于子带组的参数集;
-对用于所述子带组的所述参数集以及编码的子带配置数据和参数化环境复制编码参数进行复用以便提供参数化环境复制参数集。
原理上,本发明的压缩改进装置适于改进声场的低位速率压缩和解压缩的高阶高保真立体声HOA信号表示,以便提供参数化环境复制参数集,其中,所述解压缩提供空间稀疏的解码的HOA表示和该表示的系数序列的索引集,所述装置包括适于执行以下操作的部件:
-将所述空间稀疏的解码的HOA表示变换为若干个复值的频域子带表示,并且使用分析滤波器组将所述HOA信号表示的对应延迟版本变换为对应数量的复值的频域子带表示;
-将所述子带分组为若干个子带组,并且在这些子带组中的每个子带组内:
-对于来自所述复值的频域子带表示的子带组中的每个子带,使用去相关滤波器创建与所述复值的频域子带表示不相关的若干个经修改的相位谱信号;
-对于来自所述经修改的相位谱信号的子带组中的每个子带,计算去相关协方差矩阵;
-对于子带组中的每个子带,将所述复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵;
-对于子带组中的每个子带,将用于所述HOA信号表示的复值的频域子带表示变换为它的空域表示,并且从该空域表示计算对应的协方差矩阵,
对于每个子带组:
-对于子带组的所有子带,组合所述去相关协方差矩阵以便提供子带组去相关协方差矩阵
Figure BDA0001265459590000071
-对于子带组的所有子带,组合用于所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵
Figure BDA0001265459590000072
-对于子带组的所有子带,组合用于所述HOA信号表示的所述复值的频域子带表示的所述空域表示的协方差矩阵以便提供子带组协方差矩阵
Figure BDA0001265459590000073
-形成组合的协方差矩阵
Figure BDA0001265459590000074
Figure BDA0001265459590000075
之间的残差,以便提供矩阵Δ∑g(k′-1);
-使用矩阵
Figure BDA0001265459590000076
和矩阵Δ∑g(k′-1)计算对应的混合矩阵;
-对所述混合矩阵进行编码以便提供用于子带组的参数集;
-对用于所述子带组的所述参数集以及编码的子带配置数据和参数化环境复制编码参数进行复用以便提供参数化环境复制参数集。
原理上,本发明的解压缩改进方法适于改进空间稀疏的解码的HOA表示,对于该表示,该表示的系数序列的索引集是通过使用根据以上压缩改进方法生成的参数化环境复制参数集进行解码而提供的,所述方法包括:
-从所述空间稀疏的解码的HOA表示、系数序列的所述索引集以及所述参数化环境复制参数集重构改进的HOA表示,所述重构包括:
-从所述参数化环境复制参数集确定子带配置;
-将所述空间稀疏的解码的HOA表示转换为若干个频带HOA表示;
-根据所述子带配置,将对应组的频带HOA表示与相关参数一起分派给创建复制的环境HOA表示的去相关系数序列的、对应数量的参数化环境复制子带解码器步骤或级;
-将所述复制的环境HOA表示的所述系数序列变换为复制的时域HOA表示;
-用所述复制的时域HOA表示增强所述空间稀疏的解码的HOA表示,以便提供增强的解压缩的HOA表示。
原理上,本发明的解压缩改进装置适于改进空间稀疏的解码的HOA表示,对于该表示,该表示的系数序列的索引集是通过使用根据以上压缩改进方法生成的参数化环境复制参数集进行解码而提供的,所述装置包括适于执行以下操作的部件:
-从所述空间稀疏的解码的HOA表示、系数序列的所述索引集以及所述参数化环境复制参数集重构改进的HOA表示,其中,该重构包括:
-从所述参数化环境复制参数集确定子带配置;
-将所述空间稀疏的解码的HOA表示转换为若干个频带HOA表示;
-根据所述子带配置,将对应组的频带HOA表示与相关参数一起分派给创建复制的环境HOA表示的去相关系数序列的、对应数量的参数化环境复制子带解码器步骤或级;
-将所述复制的环境HOA表示的所述系数序列变换为复制的时域HOA表示;
-用所述复制的时域HOA表示增强所述空间稀疏的解码的HOA表示,以便提供增强的解压缩的HOA表示。
附图说明
参考附图来描述本发明的示例性实施例,附图示出:
图1示出包括PAR编码器的HOA数据编码器;
图2更详细地示出PAR编码器,其中,k′=k-kHOA
图3示出PAR子带编码器;
图4示出包括PAR解码器的HOA数据解压缩器;
图5更详细地示出PAR解码器;
图6示出PAR子带解码器;
图7示出球坐标系。
具体实施方式
即使未被明确描述,也可以按任何组合或子组合采用以下实施例。
HOA编码器
参数化环境复制(PAR)处理被用作扩展基本的HOA压缩的附加编码工具,像图1所示那样,在图1中,采取了对具有帧索引k的帧的、基于帧的处理。HOA编码器步骤或级11将HOA表示C(k)分解为传输信号矩阵Z(k-kHOA)和HOA辅助信息集ΓHOA(k-kHOA),像EP 2665208A1、EP2743922A1、国际申请PCT/EP2013/059363和欧洲专利申请EP 14306077.0中所描述的那样。用于帧索引k的HOA表示矩阵C(k)由O个行组成,其中,每行保存对应的HOA系数的L个时域采样,并且它还被馈送到帧延迟步骤或级14。矩阵Z(k-kHOA)的行保存C(k)已经被包括在其中的传输信号的L个时域采样。在感知音频编码器步骤或级15中将来自Z(k-kHOA)的时域信号感知编码为传输信号参数集ΓTrans(k-kHOA-kenc),该参数集被馈送到复用器和帧同步步骤或级16。在HOA解码器步骤或级12中从ΓHOA(k-kHOA)和Z(k-kHOA)恢复稀疏的HOA表示的O×L矩阵D(k-kHOA),HOA解码器步骤或级12还提供活动环境系数集
Figure BDA0001265459590000091
该HOA解码器步骤/级12与图4所示的HOA数据解压缩器中使用的HOA解码器步骤或级43是相同的。
术语‘稀疏的’或‘空间稀疏的HOA表示’意指,在该表示中,原始声场的空间不相关的信号分量丢失。具体地说,术语‘稀疏的’可以、但不必意指相应HOA表示的大多数系数序列为零。例如,仅用两个平面波编码/表示的声场意指是空间稀疏的。但是,通常,相应HOA系数序列中没有一个将为零。
稀疏的HOA表示D(k-kHOA)与延迟补偿的HOA表示C(k-kHOA)、活动环境系数集
Figure BDA0001265459590000092
以及在步骤/级14中经过延迟补偿的PAR编码器参数F、oPAR、nSIG(k-kHOA)和vCOMPLEX一起被馈送到PAR编码器步骤或级13。PAR处理是按NSB个子带组进行的,其中,矩阵F的行保存用于每个对应子带组的PAR滤波器组的第一子带索引和最后子带索引。对于所有PAR子带组,矢量oPAR包含用于处理的HOA阶次。索引集
Figure BDA0001265459590000101
保存用于PAR处理的、来自D(k-kHOA)的行的索引。用于计算复制的环境HOA表示的一个空域信号的每个子带组的空域信号的数量由用于帧k的矢量nSIG(k)定义。矢量vCOMPLEX对于每个子带组指示PAR混合矩阵的元素是复值数、还是实值非负数。根据这些输入信号和参数,PAR编码器计算编码的PAR参数集ΓPAR(k-kHOA-1),该参数集也被馈送到步骤/级16。
复用器和帧同步步骤/级16使参数集ΓHOA(k-kHOA)、ΓPAR(k-kHOA-1)和ΓTrans(k-kHOA-kenc)的帧延迟同步,并且将它们组合为编码的HOA帧Γ(k-kmax)。
HOA编码器延迟由kHOA定义,其中,假定HOA解码器不引入任何附加延迟。相同的定义适用于感知编码器延迟kenc。PAR处理还添加一个帧的延迟,以使总延迟为kmax=max{kHOA+kenc,kHOA+1}。
PAR编码器
PAR处理的基本特征是,从稀疏HOA表示D(k′)创建去相关信号,并且获得频域中的混合矩阵,该混合矩阵将这些去相关信号组合为增强稀疏的且高度相关的HOA表示的、复制的环境HOA表示,以便匹配原始HOA表示C(k′)的空间性质。在该上下文下,去相关意指子带信号的相位在不改变它的幅值的情况下被修改。因此,图2所示的PAR编码器考虑到PAR编码参数oPAR、nSIG(k′)、vCOMPLEX
Figure BDA0001265459590000102
而从输入HOA表示C(k′)和D(k′)计算编码的PAR参数集ΓPAR(k′-1),其中,为简单起见,引入了索引k′=k-kHOA
PAR处理是在频域中进行的。PAR分析滤波器组将输入HOA表示变换为它的复值的频域表示,其中,假定时域采样的数量等于频域采样的数量。例如,具有NFB个子带的正交镜像滤波器组(QMF)可以用作滤波器组。第一滤波器组24将O×L矩阵C(k′)变换为NFB个频域
Figure BDA0001265459590000114
矩阵
Figure BDA0001265459590000115
其中,j=1,...,NFB
Figure BDA0001265459590000116
并且第二滤波器组23将O×L矩阵D(k′)变换为NFB个频域
Figure BDA0001265459590000117
矩阵
Figure BDA0001265459590000118
其中,j=1,...,NFB
Figure BDA0001265459590000119
在还接收F、oPAR、nSIG(k′)和vCOMPLEX的步骤或级25中,将这些子带分组为NSB个子带组。对应数量的PAR子带编码器步骤或级26和27对每个子带组g=1...NSB的信号单独地进行编码。
PAR子带配置由以下矩阵定义:
Figure BDA0001265459590000111
其中,第一列和第二列保存对应的子带组g的第一子带索引和最后子带索引的索引j。在步骤或级21中通过欧洲专利申请EP 14306347.7中所描述的方法将子带配置编码为参数集ΓSUBBAND。因为它对于每个帧索引k是固定的,所以它仅需被发送到解码器一次以用于初始化。
步骤/级25中的子带分组根据给定的子带配置将输入信号和参数引导到每个PAR子带编码器步骤/级26、27,使得子带组g的每个PAR子带编码器得到
Figure BDA00012654595900001110
OPAR,g、nSIG,g(k′)和vCOMPLEX,g作为对于所有jg=fg,1,...,fg,2的输入。
参数OPAR,g指示PAR编码器对其计算参数的HOA阶次。该阶次等于或小于HOA表示C(k′)的HOA阶次N。它用于降低用于发送编码的PAR参数
Figure BDA00012654595900001111
的数据速率。矢量
Figure BDA0001265459590000112
保存用于所有子带组的HOA阶次。
用于创建复制的环境HOA表示的一个空域信号的去相关信号的数量由以下矢量定义:
Figure BDA0001265459590000113
其中,0≤nSIG,g(k′)≤(OPAR,g+1)2
Figure BDA00012654595900001112
它对于每一个帧被更新,因为所需信号的数量依赖于HOA表示。对于包括高度空间分散的场景的HOA表示,所需的去相关信号多于空间分散度较小的HOA表示所需的去相关信号。因为用于编码的PAR参数的数据速率随着去相关信号的所用数量而增大,所以该参数也可以用于降低数据速率。
去相关信号的混合是通过矩阵乘法进行的,其中,编码矩阵包括在PAR参数集
Figure BDA0001265459590000123
中。矢量
Figure BDA0001265459590000122
包括指示混合矩 阵的元素是实值非负数、还是复值数的布尔变量,其中,可以定义对于vCOMPLEX,g=1,复值元 素矩阵被用在子带组g中。由于传输信号Z(k)的压缩,解码的传输信号的相位信息可能由于 参数化编码工具而在解码器端丢失(例如在应用谱带复制方法的情况下)。在这种情况下, PAR处理可以仅复制丢失的环境分量的空间功率分布,这意味着PAR混合矩阵的相位信息是 过时的。
此外,参数
Figure BDA0001265459590000124
被输入到每个PAR子带编码器步骤/级26、27。该集合保存用于创建去相关信号的来自D(k′)的稀疏HOA系数序列的索引。这些索引应对HOA阶次oPAR,g内的系数序列进行寻址,这些系数序列不应显著不同于原始HOA表示C(k′)的序列。在最佳情况下,序列在PAR编码器处是相同的,使得在解码器端,选定的序列的不同之处仅在于通过感知译码添加的畸变(distortion)。
最后,在复用器和帧同步步骤或级22中,将编码的PAR参数集
Figure BDA0001265459590000125
编码的子带配置集ΓSUBBAND以及PAR编码参数oPAR、nSIG(k′)和vCOMPLEX按它们的帧索引同步,并且将它们复用到PAR位流参数集ΓPAR(k′-1)中。
PAR子带编码器
图3中更详细地示出了PAR子带编码器步骤/级26和27。对于PAR子带g的每个子带jg=fg,1,...,fg,2,在步骤或级311、312、313中通过下面在章节空间变换中描述的空间变换将矩阵
Figure BDA0001265459590000126
Figure BDA0001265459590000127
变换为它们的空域表示
Figure BDA0001265459590000128
Figure BDA0001265459590000129
在步骤或级321、322、323和324中,从这些空域表示计算以下协方差矩阵:
Figure BDA0001265459590000121
以及
Figure BDA0001265459590000131
其中,AH表示矩阵A的厄密(hermitian)转置。前一帧的矩阵被包括在内,以便获得协方差矩阵,这些协方差矩阵对于当前帧和前一帧是有效的,使得在PAR解码器处能够在两个相邻帧的矩阵之间交叉渐变。
步骤或级331和332中去相关信号的创建将来自
Figure BDA0001265459590000135
的系数序列的根据所用系数的索引集
Figure BDA0001265459590000136
选择的子集变换到空域,并且用置换矩阵
Figure BDA0001265459590000137
对这些空域信号进行置换,以便将信号分配给创建矩阵
Figure BDA0001265459590000138
的对应的去相关器。下面在章节去相关信号的创建中给出这些处理步骤的详细描述。
为了在步骤或级341和342中获得对应的空域信号的协方差矩阵,必须用矩阵
Figure BDA0001265459590000139
翻转
Figure BDA00012654595900001310
中所包括的置换。因此,从以下方程获得去相关信号的协方差矩阵:
Figure BDA0001265459590000132
为了计算
Figure BDA00012654595900001311
将逆置换矩阵
Figure BDA00012654595900001312
应用于当前帧和前一帧以用于获得对于两个帧都有效的协方差矩阵。这对于两个相邻帧的混合矩阵之间的有效交叉渐变以及两个相邻帧的置换是需要的。
假定每个子带的HOA表示是彼此独立的,使得子带组的协方差矩阵可以通过它的子带的协方差矩阵的和来计算。从而,PAR子带编码器计算在组合器步骤或级352中计算以下协方差矩阵:
Figure BDA0001265459590000133
在组合器步骤或级354中计算以下协方差矩阵:
Figure BDA0001265459590000134
并且在组合器步骤或级351中计算以下协方差矩阵:
Figure BDA0001265459590000141
从去相关信号
Figure BDA0001265459590000142
的协方差矩阵、在组合器步骤或级353中生成的矩阵
Figure BDA0001265459590000143
以及矩阵
Figure BDA0001265459590000144
Figure BDA0001265459590000145
通过混合矩阵计算步骤或级36获得混合矩阵Mg(k′-1),其处理在章节混合矩阵的计算中描述。
最后,在步骤或级37中,如章节混合矩阵的编码中所描述的,对混合矩阵Mg(k′-1)进行量化并且编码为参数集
Figure BDA0001265459590000146
空间变换
在空间变换中,通过对给定HOA阶次oPAR,g使用章节实值球谐函数的定义中的球谐变换将输入HOA表示C变换为其空域表示W。因为HOA阶次oPAR,g通常小于输入HOA阶次N,所以必须在球谐变换可以被应用之前移除C中具有比QPAR,g=(oPAR,g+1)2高的索引的行。
去相关信号的创建
去相关信号的创建包括以下处理步骤:
·从稀疏HOA表示
Figure BDA0001265459590000147
选择由所用系数的索引集
Figure BDA0001265459590000148
定义的系数序列的子集;
·对于HOA阶次oPAR,g根据章节空间变换来进行选定系数序列的空间变换;
·通过针对用于环境复制的若干个信号nSIG,g(k′)和HOA阶次oPAR,g选择的置换矩阵
Figure BDA0001265459590000149
对用于分配给去相关器的空域信号进行置换;
·使用在最佳地保持子带信号的幅值的同时修改子带信号的相位的单独处理对置换的信号进行去相关。
在下面,给出这些处理步骤的详细描述。
去相关器通过用
Figure BDA00012654595900001411
的零矢量取代具有不是索引集
Figure BDA00012654595900001410
的元素的索引的行来从输入矩阵
Figure BDA00012654595900001515
移除所有的不活动HOA系数序列。然后使用章节空间变换中的空间变换来将所得的矩阵
Figure BDA0001265459590000156
变换为它的
Figure BDA0001265459590000155
空域表示矩阵
Figure BDA0001265459590000154
在计算混合矩阵nSIG,g(k′)的每行期间,从
Figure BDA0001265459590000157
选择空间相邻的信号。因此,对矩阵
Figure BDA0001265459590000158
进行置换以用于将来自
Figure BDA0001265459590000159
的信号引导到去相关器,使得nSIG,g(k′)个选定信号之间的去相关性保证为最佳。必须对nSIG,g(k′)和oPAR,g的每个预定义组合定义固定的QPAR,g×QPAR,g置换矩阵
Figure BDA00012654595900001516
在章节置换矩阵和选择矩阵的计算中给出了这些置换矩阵的计算以及对应的信号选择表。
然后通过以下方程进行实际的置换,即,
Figure BDA0001265459590000151
Figure BDA0001265459590000152
其中,diag(f)形成来自f的元素的对角矩阵。用于不同置换矩阵之间的切换的渐增矢量和渐减矢量由以下方程定义:
Figure BDA00012654595900001510
Figure BDA00012654595900001511
其元素从以下方程获得:
Figure BDA0001265459590000153
从一个置换矩阵到另一个置换矩阵的渐变防止去相关器的输入信号不连续。随后,对应的去相关器对
Figure BDA00012654595900001512
的每行中的QPAR,g个信号进行去相关以便形成矩阵
Figure BDA00012654595900001513
MPEG Surround标准ISO/IEC FDIS23003-1,MPEG Surround第6.6章中定义了所用的去相关方法。
基本上,每个去相关器使每个频带信号延迟独立数量的采样,其中,对于所有的QPAR,g个去相关器,延迟是相等的。另外,每个去相关器将单独的全通滤波器应用于它的输入信号。去相关器的不同配置使空域信号
Figure BDA00012654595900001514
的相位信息不同地畸变,这导致空域信号去相关。
混合矩阵的计算
可以对用vCOMPLEX,g变量标示(signalled)的实值非负或复值矩阵元素计算混合矩阵Mg(k′-1)。对于等于一的vCOMPLEX,g,根据章节复值混合矩阵来计算复值混合矩阵,由此该计算只有在传输信道的感知编码不破坏子带组g中的采样的相位信息时才可适用。
否则,实值非负元素的混合矩阵对于提取复制的环境HOA表示是足够的。章节实值非负混合矩阵中给出了用于计算实值非负混合矩阵的示例处理。
复值混合矩阵
混合矩阵的计算是基于以上提及的Vilkamo/Baeckstroem/Kuntz文章中所描述的方法。通过Y=MX计算用于将多声道信号X上混为具有更高数量的声道的信号Y的混合矩阵M。满足
Figure BDA0001265459590000161
的、其中
Figure BDA0001265459590000162
的、混合矩阵M的解由
Figure BDA0001265459590000163
给出,其中
Figure BDA0001265459590000164
Figure BDA0001265459590000167
Figure BDA0001265459590000165
其中,||·||FRO表示矩阵的Frobenius范数,信号矢量X、和Y的协方差矩阵∑Y是已知的。原型混合矩阵Q满足
Figure BDA0001265459590000168
使得
Figure BDA0001265459590000169
是Y的良好近似。因为来自
Figure BDA00012654595900001610
和Y的信号的能量可能不同,所以对角矩阵G使
Figure BDA00012654595900001611
的能量归一化为Y的能量,其中,G的对角元素由
Figure BDA0001265459590000166
给出,并且
Figure BDA00012654595900001613
Figure BDA00012654595900001614
是∑Y
Figure BDA00012654595900001612
的对角元素。第g子带组的每个子带jg=fg,1,...,fg,2,增强的空域信号的矩阵Cout({k′,k′-1},jg)假定是通过以下方程从稀疏HOA表示的空域信号和混合的空域去相关信号的和计算的:
Figure BDA0001265459590000171
其中,符号{k′,k′-1}用于表达混合矩阵Mg(k′-1)对于当前帧和前一帧是有效的。
因为假定空域信号
Figure BDA00012654595900001711
Figure BDA00012654595900001712
对于每个定义是不相关的,所以增强的空域信号Cout({k′,k′-1},jg)的相关矩阵∑out(k′-1)可以通过以下方程被写为这两个分量的相关矩阵的和:
Figure BDA0001265459590000172
为了使增强的稀疏的HOA表示从心理声学的角度来讲听起来像原始HOA表示
Figure BDA00012654595900001713
可以匹配它们的相关矩阵,即,
Figure BDA0001265459590000173
该要求导致混合矩阵的以下约束:
Figure BDA0001265459590000174
其中,Δ∑g(k′-1)在方程(12)中定义。
方程(18)和(27)的比较导致以下赋值:
Y:=Δ∑g(k′-1) (28)
Figure BDA0001265459590000175
Figure BDA0001265459590000176
Figure BDA0001265459590000177
其中,KY和KX可以从Δ∑g(k′-1)和
Figure BDA00012654595900001714
的奇异值分解来计算。
最后,必须对所提出的方法定义矩阵Q。因为矩阵
Figure BDA00012654595900001715
应是Y的良好近似,所以Q必须对以下方程进行求解:
Figure BDA0001265459590000178
该问题的众所周知的解决方法是通过使用Moore-Penrose伪逆解来最小化如下定义的近似误差的Euclidean范数,即,
Figure BDA0001265459590000179
Figure BDA00012654595900001710
为了降低用于发送混合矩阵的数据速率,可以选择来自
Figure BDA00012654595900001716
的nSIG,g(k′-1)个空间相邻的信号用于计算复制的环境HOA表示的每个空域信号。因此,必须根据以下选择矩阵来单独地计算混合矩阵Mg(k′-1)的每行:
Figure BDA0001265459590000181
其中,元素so,n表示用于创建复制的环境HOA表示的第o空域信号的来自
Figure BDA0001265459590000185
的行矢量的索引,其中,n=1...nSIG,g(k′-1)。为了对混合矩阵的每行单独地求解方程(19),必须将方程(19)变换为
Figure BDA0001265459590000186
其中,P=VUH。定义
Figure BDA0001265459590000187
并且ta是T的a=1...QPAR,g个列矢量中的一个。为了计算Mg(k′-1)的o=1...QPAR,g个行中的每行,构建子矩阵
Figure BDA0001265459590000182
并且通过以下方程确定矢量mrow,o
Figure BDA0001265459590000183
其中,kY,o是来自KY的第o行矢量,
Figure BDA0001265459590000188
表示Moore-Penrose伪逆解。在一些情况下,To可以是病态的,其在伪逆解的计算中可能需要规范。
至少,混合矩阵Mg(k′-1)的元素mo,i被赋值为:
Figure BDA0001265459590000184
其中,mrow,o,a是矢量mrow,o的元素并且o=1...QPAR,g
实值非负混合矩阵
但是,对于可能受感知编码的谱带宽复制影响的高频子带组g,在章节复值混合矩阵中所描述的方法是不合理的,因为稀疏的HOA表示的重构的子带信号的相位不能假定为甚至基本上类似于原始子带信号的相位。
对于这样的情况,可以忽视相位。相反,仅集中于用于计算混合矩阵Mg(k′-1).的信号功率。用于确定预测系数的合理标准是最小化以下误差:
Figure BDA0001265459590000191
其中,运算|·|2假定被逐个元素地应用于矩阵。换言之,混合矩阵被选为使得去相关HOA表示的所有加权的空间子带信号的功率的和最佳地近似原始HOA表示和稀疏HOA表示的空域子带信号的残差的功率。在这种情况下,非负矩阵因式分解(NMF)技术可以用于对该优化问题进行求解。关于对NMF的介绍,参见例如1999年Nature第401卷第788-791页的D.D.Lee、H.S.Seung的"Learning the parts of objects by nonnegative matrixfactorization"。
混合矩阵的编码
每个子带组g=1,...,NSB的混合矩阵Mg(k′-1)将被量化和编码为参数集
Figure BDA0001265459590000193
其中,只有由选择矩阵
Figure BDA0001265459590000192
定义的QPAR,g×nSIG,g(k′-1)子矩阵被编码。矩阵元素的量化必须降低数据速率,而不降低复制的环境HOA表示的感知音频质量。因此,可以利用由于关于重叠帧计算协方差矩阵、在连续帧的混合矩阵之间存在高相关性的事实。具体地说,每个子矩阵元素可以用它的幅值和它的角度表示,然后对连续帧之间的角度差和幅值差进行编码。
如果假定幅值位于区间[0,mmax]内,则幅值差位于区间[-mmax,mmax]内。假定角度差位于区间[-π,π]内。为了对这些差进行量化,对应地对幅值差和角度差使用预定义位数。在使用具有实值非负元素的混合矩阵的情况下,只有幅值差被编码,因为相位差总是为零。
发明人已经通过实验发现,各个差的出现概率是以高度不均匀的方式分布的。具体地说,小的幅值差和角度差的出现频率显著高于大的幅值差和角度差。因此,可以利用基于将被编码的各个值的先验概率的编码方法(例如哈夫曼编码),以便显著地减少每个混合矩阵元素的平均位数。
另外,对于每个帧必须发送nSIG,g(k′-1)的值。为了这个目的,可以用信号发送预定义表的索引,该索引是针对每个有效PAR HOA阶次定义的。
置换矩阵和选择矩阵的计算
为了降低用于发送混合矩阵的数据速率,可以减少每行的活动(即,非零)元素的数量。活动行元素对应于空域中的QPAR个去相关信号中的用于混合复制的环境HOA表示的一个空域信号(现在称为目标信号)的nSIG个去相关信号。将被混合的去相关空域信号的复值子带信号理想地应具有目标信号的缩放幅值谱,但是具有不同的相位谱。这可以通过从目标信号的空间附近选择要被混合的信号来实现。
因而,在第一步中,对于每个第o目标信号位置,o=1,...,QPAR,必须针对每个HOA阶次oPAR和每个数量的活动行nSIG找到多组的nSIG个空间相邻位置。在第二步中,获得QPAR个输入信号对于QPAR个去相关器的分配,以便最小化每组中的nSIG个信号之间的互相关性。
对给定HOA阶次oPAR找到一组的nSIG个信号的一种方式是,计算所有空域位置和第o目标信号的位置之间的角度距离,并且将属于nSIG个最小距离的信号索引选入第o组中。因而,来自方程(34)的矩阵
Figure BDA0001265459590000201
的第o行矢量包括第o组的递增排序的索引。假定用于oPAR和nSIG的每个预定义组合的矩阵在PAR编码器和解码器中是已知的。
现在,必须找到对于去相关器的空域信号分配并且将该分配存储在用于oPAR和nSIG的每个预定义组合的置换矩阵
Figure BDA0001265459590000202
中。因此,应用遍历所有可能的分配的搜索,以便找到根据某个标准的最佳分配。一个可能的标准是构建所有去相关器的全通脉冲响应的协方差矩阵∑。通过以下步骤计算分配的惩罚(penalty):
·对于每组通过从矩阵∑仅选择分配给该组的信号的元素来构建协方差子矩阵;
·对每个协方差子矩阵的最大和最小奇异值的商进行求和。
从具有最低惩罚的分配,获得置换矩阵
Figure BDA0001265459590000203
使得章节去相关信号的创建中的矩阵
Figure BDA0001265459590000204
的每行被置换为分配的去相关器的对应索引。
HOA解码器框架
图4中描绘了包括PAR解码器的HOA解码器/HOA解压缩器的框架。在解复用器步骤或级41中将位流参数集Γ(k)解复用为辅助信息参数集ΓHOA(k)和ΓPAR(k)以及信号参数集ΓTrans(k)。因为辅助信息和信号参数之间的延迟已经在HOA编码器中被对齐,所以解码器端接收它的已经同步的数据。
信号参数集ΓTrans(k)被馈送到感知音频解码器步骤或级42,感知音频解码器步骤或级42从信号参数集ΓTrans(k)解码稀疏的HOA表示
Figure BDA0001265459590000211
后面的HOA解码器步骤或级43从解码的传输信号
Figure BDA0001265459590000214
和辅助信息参数集ΓHOA(k)组成解码的稀疏的HOA表示
Figure BDA0001265459590000212
索引集
Figure BDA0001265459590000213
也由HOA解码器步骤/级43重构。解码的稀疏的HOA表示
Figure BDA0001265459590000215
索引集
Figure BDA0001265459590000216
以及PAR辅助信息参数集ΓPAR(k)被馈送到PAR解码器步骤或级44,PAR解码器步骤或级44从解码的稀疏HOA表示
Figure BDA0001265459590000217
索引集
Figure BDA0001265459590000218
以及PAR辅助信息参数集ΓPAR(k)重构复制的环境HOA表示,并且将解码的稀疏的HOA表示
Figure BDA0001265459590000219
增强为解码的HOA表示
Figure BDA00012654595900002110
PAR解码器框架
图5所示的PAR解码器框架用解码的复制的环境HOA表示CPAR(k)增强解码的稀疏的HOA表示
Figure BDA00012654595900002111
以便重构解码的HOA表示
Figure BDA00012654595900002112
根据所应用的滤波器组的分析和合成延迟来使解码的HOA表示
Figure BDA00012654595900002113
的采样延迟。
在解复用器步骤或级51中将PAR辅助信息参数集ΓPAR(k)解复用为子带配置集ΓSUBBAND、PAR参数oPAR、nSIG(k)、vCOMPLEX以及用于各个子带组g=1,...,NSB的编码的混合矩阵
Figure BDA00012654595900002114
的数据集。
并行地,在分析滤波器组步骤或级52中将解码的稀疏的HOA表示
Figure BDA00012654595900002115
转换为第j=1,...,NFB频带HOA表示矩阵
Figure BDA00012654595900002116
所应用的滤波器组必须与在编码器端的PAR编码器中已经使用的滤波器组是相同的。
从子带配置集ΓSUBBAND,在步骤或级53中解码如方程(1)中定义的子带组数量NSB和子带配置矩阵F,并且将它们馈送到组分派步骤或级54。根据这些参数,组分派步骤或级54对于子带1...NSB将来自步骤/级51和53的参数以及来自步骤/级52的频带HOA表示
Figure BDA0001265459590000221
引导到对应的PAR子带解码器步骤或级55、56。
NSB个PAR子带解码器55、56对于对应频带jg=fg,1,...,fg,2从解码的稀疏的HOA表示矩阵
Figure BDA0001265459590000222
以及PAR子带参数oPAR、vCOMPLEX、nSIG(K)、
Figure BDA0001265459590000223
Figure BDA0001265459590000224
创建复制的环境HOA表示
Figure BDA0001265459590000225
的系数序列。
在合成滤波器组步骤或级58中将每个频带的所得的复制的环境HOA表示矩阵
Figure BDA0001265459590000226
变换为时域HOA表示CPAR(k)。最后,在组合步骤或级59中逐个采样地将CPAR(k)加到(在滤波器组延迟补偿57中)经过延迟补偿的稀疏的HOA表示
Figure BDA0001265459590000227
以便创建解码的HOA表示
Figure BDA0001265459590000228
PAR子带解码器
图6中所描绘的PAR子带解码器为子带组g的频带jg=fg,1,...,fg,1创建频域复制的环境HOA表示矩阵
Figure BDA0001265459590000229
并行地,在步骤或级611、612中,使用参数
Figure BDA00012654595900002210
oPAR,g和nSIG,g(k)从稀疏的HOA表示矩阵
Figure BDA00012654595900002211
的系数序列生成置换的且去相关的空域信号矩阵
Figure BDA00012654595900002212
其中,该处理与章节去相关信号的创建中的用在PAR子带编码器中的处理是相同的。
此外,在混合矩阵解码步骤或级63中,使用参数oPAR,g、nSIG,g(k)和vCOMPLEX,g从编码的混合矩阵
Figure BDA00012654595900002213
的数据集获得混合矩阵
Figure BDA00012654595900002214
章节混合矩阵的解码中描述了混合矩阵元素的实际解码。
随后,在环境复制步骤或级621、622中,通过章节环境复制中描述的环境复制处理对于子带组g的每个频带jg,使用oPAR,g、nSIG,g(k)和
Figure BDA00012654595900002215
从对应的去相关空域信号
Figure BDA00012654595900002216
生成复制的环境HOA表示的空域信号
Figure BDA00012654595900002218
最后,在步骤或级641、642中使用oPAR,g和逆空间变换将复制的环境HOA表示
Figure BDA00012654595900002217
的空域信号变换回它们的HOA表示,其中,章节球谐变换中的逆球谐变换被应用。创建的复制的环境HOA表示矩阵
Figure BDA0001265459590000233
必须具有尺寸
Figure BDA0001265459590000234
其中,只有对应PAR HOA阶次oPAR,g的前QPAR,g个行具有非零元素。
混合矩阵的解码
编码的混合矩阵的元素的索引由当前的选择矩阵
Figure BDA0001265459590000235
定义,使得每个混合矩阵的QPAR,g乘以nSIG,g(K)个元素必须被解码。
因此,在第一步中,根据PAR编码器中应用的对应熵编码对每个矩阵元素的角度差和幅值差进行解码。然后,将解码的角度差和幅值差加到前一帧的重构的QPAR,g×QPAR,g角度和幅值混合矩阵,其中,只有当前选择矩阵
Figure BDA0001265459590000236
中的元素被使用,并且所有的其他元素都必须被设置为零。从更新的重构的角度和幅值混合矩阵,通过以下方程恢复解码的混合矩阵
Figure BDA0001265459590000237
的复值:
Figure BDA0001265459590000231
其中,ma,b
Figure BDA0001265459590000238
的第a行第b列中的元素,mANGLE,a,b和mABS,a,b是更新的重构的角度和幅值混合矩阵的对应元素。
环境复制
环境复制进行由用于参数oPAR,g和nSIG,g(k)的置换矩阵定义的去相关空域信号的逆置换,接着再乘以混合矩阵
Figure BDA0001265459590000239
为了平缓地转变相邻帧的参数,使用当前帧和前一帧的参数来对来自当前帧的去相关信号进行处理和交叉渐变。环境复制的处理因此由以下方程定义,即,
Figure BDA0001265459590000232
其中,使用来自方程(14)和(15)的交叉渐变函数。
高阶高保真立体声的基础
高阶高保真立体声(HOA)基于感兴趣的紧凑区域内的声场的描述,所述感兴趣的紧凑区域假定是没有声源的。在这种情况下,在时刻t时感兴趣区域内的位置x处的声压p(t,x)的空间时间行为在物理上完全由齐次波动方程(homogeneous wave equation)确定。在下面,采取如图7所示的球坐标系。在所用的坐标系中,x轴指向前面的位置,y轴指向左,z轴指向顶部。空间x=(r,θ,φ)T中的位置用半径r>0(即,到坐标原点的距离)、从极坐标z测量的倾角θ∈[0,π]以及在x-y平面中从x轴逆时针测量的方位角φ∈[0,2π[表示。此外,(·)T表示转置。
然后,从“傅里叶声学”课本可以示出,
Figure BDA0001265459590000244
所表示的声压相对于时间的傅里叶变换,即,
Figure BDA0001265459590000241
其中,ω表示角频率,i指示虚数单位,该式可以根据以下方程被展开为球谐级数(series of spherical harmonics):
Figure BDA0001265459590000242
其中,cs表示声音的速度,k表示按照
Figure BDA0001265459590000245
与角频率ω相关的角波数。此外,jn(·)表示第一种球贝塞尔函数,
Figure BDA0001265459590000246
表示阶次n、度数m的实值球谐函数,这在章节实值球谐函数的定义中定义。展开系数
Figure BDA0001265459590000247
仅依赖于角波数k。注意,已经隐含地假定声压在空间上是带受限的。因而,该级数相对于上限N处的阶次索引n(其被称为HOA表示的阶次)被截断。
如果声场用从由角度元组(θ,φ)指定的所有可能的方向到达的无限数量的不同角频率ω的谐平面波的叠加表示,则可以表明(参见2004年10月J.Acoust.Soc.Am.第4(116)卷第2149–2157页的B.Rafaely的"Plane-wave decomposition of the sound fieldon a sphere by spherical convolution"),相应的平面波复幅度函数C(ω,θ,φ)可以用以下球谐展开表达:
Figure BDA0001265459590000243
其中,展开系数
Figure BDA0001265459590000248
按照
Figure BDA0001265459590000251
与展开系数
Figure BDA0001265459590000255
相关。
假定各个系数
Figure BDA0001265459590000256
是角频率ω的函数,逆傅里叶变换(用
Figure BDA0001265459590000257
表示)的应用对于每个阶次n和度数m提供以下时域函数:
Figure BDA0001265459590000252
这些时域函数在这里被称为连续时间HOA系数序列,这些连续时间HOA系数序列可以通过以下方程收集在单个矢量c(t)中:
Figure BDA0001265459590000253
矢量c(t)内的HOA系数序列
Figure BDA00012654595900002510
的位置索引由n(n+1)+1+m给出。矢量c(t)中的元素的总数由O=(N+1)2给出。
最终的高保真立体声格式如下使用采样频率fs来提供c(t)的采样版本:
{c(lTS)}l∈N={c(TS),c(2TS),c(3TS),c(4TS),...} (49)
其中,Ts=1/fs表示采样周期。c(lTS)的元素被称为离散时间HOA系数序列,这些离散时间HOA系数序列可以被示出为总是实值的。该性质也适用于连续时间版本
Figure BDA0001265459590000258
实值球谐函数的定义
实值球谐函数
Figure BDA0001265459590000259
(其采取根据UniversitéParis的J.Daniel的2 001年6月的博士论文"Représentation de champs acoustiques,application à la transmissionet à la reproduction de scènes sonores complexes dans un contexte multimédia"第3.1章的SN3D归一化)由以下方程给出:
Figure BDA0001265459590000254
其中,
Figure BDA0001265459590000261
相关联的Legendre函数Pn,m(x)被定义为:
Figure BDA0001265459590000262
该函数具有Legendre多项式Pn(x),并且不同于1999年Applied MathematicalSciences,Academic Press第93卷中E.G.Williams的"Fourier Acoustics"中那样,没有Condon-Shortley相位项(-1)m
球谐变换
如果HOA序列的空间表示在几乎均匀分布在单位球体上的数量O个空间方向Ωo,1≤o≤O上被离散化,则获得O个定向信号c(t,Ωo)。如下将这些信号收集到矢量中:
cSPAT(t):=[c(t,Ω1)...c(t,Ωo)]T (53)
可以通过如下的简单矩阵乘法从方程(48)中定义的连续高保真立体声表示c(t)计算该矢量:
cSPAT(t)=ΨHc(t) (54)
其中,(·)H指示联合转置和共轭,Ψ表示由以下方程定义的模式矩阵:
Ψ:=[S1...So] (55)
其中,
Figure BDA0001265459590000263
因为方向Ωo几乎均匀地分布在单位球体上,所以模式矩阵一般是可逆的。因此,可以通过以下方程从定向信号c(t,Ωo)计算连续高保真立体声表示:
c(t)=Ψ-HcSPAT(t) (57)
这两个方程构成高保真立体声表示和空域之间的变换和逆变换。这些变换被称为球谐变换和逆球谐变换。
因为方向Ωo几乎均匀地分布在单位球体上,所以近似
ΨH≈Ψ-1 (58)
是可用的,其证明使用Ψ-1、而不是方程(54)中的ΨH是合理的。有利地,所提及的所有关系对于离散时域也是有效的。
所描述的处理可以由单个处理器或电子电路执行,或者由并行操作和/或在整个处理的不同部分上操作的几个处理或电子电路执行。
用于根据所描述的处理操作所述一个处理器或多个处理器的指令可以被存储在一个或多个存储器中。所述至少一个处理器被配置为执行这些指令。

Claims (15)

1.一种方法,用于改进声场的低位速率压缩和解压缩的高阶高保真立体声HOA信号表示(C(k)),以便提供参数化环境复制参数集(ΓPAR(k′-1)),其中,所述解压缩提供空间稀疏的解码的HOA表示(D(k′))和该空间稀疏的解码的HOA表示(D(k′))的系数序列的索引集
Figure FDA0002489263730000011
所述方法包括:
-将所述空间稀疏的解码的HOA表示(D(k′))变换为若干(NFB)个复值的频域子带表示
Figure FDA0002489263730000012
并且使用分析滤波器组将所述HOA信号表示的对应延迟版本(C(k′))变换为对应数量(NFB)的复值的频域子带表示
Figure FDA0002489263730000013
-将子带分组为若干(NSB)个子带组,并且在这些子带组中的每个子带组内:
-对于来自所述复值的频域子带表示
Figure FDA0002489263730000014
的子带组中的每个子带,使用去相关滤波器创建与所述复值的频域子带表示
Figure FDA0002489263730000015
无关的若干个经修改的相位谱信号
Figure FDA0002489263730000016
-对于来自所述经修改的相位谱信号
Figure FDA0002489263730000017
的子带组中的每个子带,计算去相关协方差矩阵;
-对于子带组中的每个子带,将所述复值的频域子带表示
Figure FDA0002489263730000018
变换为它的空域表示
Figure FDA0002489263730000019
并且从该空域表示计算对应的协方差矩阵;
-对于子带组中的每个子带,将用于所述HOA信号表示的所述对应延迟版本(C(k′))的复值的频域子带表示
Figure FDA00024892637300000110
变换为它的空域表示
Figure FDA00024892637300000111
并且从该空域表示计算对应的协方差矩阵,
对于每个子带组:
-对于子带组的所有子带,组合所述去相关协方差矩阵以便提供子带组去相关协方差矩阵
Figure FDA00024892637300000112
-对于子带组的所有子带,组合用于所述复值的频域子带表示
Figure FDA00024892637300000113
的所述空域表示
Figure FDA00024892637300000114
的协方差矩阵以便提供子带组协方差矩阵
Figure FDA0002489263730000021
-对于子带组的所有子带,组合用于所述HOA信号表示的所述对应延迟版本(C(k′))的所述复值的频域子带表示
Figure FDA0002489263730000022
的所述空域表示
Figure FDA0002489263730000023
的协方差矩阵以便提供子带组协方差矩阵
Figure FDA0002489263730000024
-形成组合协方差矩阵
Figure FDA0002489263730000025
Figure FDA0002489263730000026
之间的残差,以便提供矩阵Δ∑g(k′-1);
-使用矩阵
Figure FDA0002489263730000027
和矩阵Δ∑g(k′-1)计算对应的混合矩阵(Mg(k′-1));
-对所述混合矩阵进行编码以便提供用于所述子带组的参数集
Figure FDA0002489263730000028
-对用于所述子带组的所述参数集
Figure FDA0002489263730000029
以及编码的子带配置数据(ΓSUBBAND)和参数化环境复制编码参数进行复用以便提供参数化环境复制参数集(ΓPAR(k′-1))。
2.根据权利要求1所述的方法,其中在频域进行混合。
3.根据权利要求1所述的方法,其中,所述空间稀疏的解码的HOA表示由来自尽可能均匀地分布在单位球体上的若干个预定义方向的虚拟扩音器信号表示,
并且其中,对于这些预定义方向中的每个,通过使用所述去相关滤波器修改对应虚拟扩音器信号的相位谱来创建一个不相关的信号,
并且其中,所述经修改的相位谱信号被混合以使得对于每个虚拟扩音器信号和它的特定方向,只有来自该特定方向的邻域的经修改的相位谱信号被使用。
4.根据权利要求3所述的方法,其中,所述去相关滤波器是成对地不同的,并且它们的数量等于预定义方向的所述数量。
5.根据权利要求3所述的方法,其中,预定义方向的所述数量在不同频带中是不同的。
6.根据权利要求3所述的方法,其中,所述虚拟扩音器信号到所述去相关滤波器的分配用置换矩阵表达。
7.一种装置,用于改进声场的低位速率压缩和解压缩的高阶高保真立体声HOA信号表示(C(k)),以便提供参数化环境复制参数集(ΓPAR(k′-1)),其中,所述解压缩提供空间稀疏的解码的HOA表示(D(k′)))和该空间稀疏的解码的HOA表示(D(k′)))的系数序列的索引集
Figure FDA0002489263730000031
所述装置包括适于执行以下操作的部件:
-将所述空间稀疏的解码的HOA表示(D(k′))变换为若干(NFB)个复值的频域子带表示
Figure FDA0002489263730000032
并且使用分析滤波器组将所述HOA信号表示的对应延迟版本(C(k′))变换为对应数量(NFB)的复值的频域子带表示
Figure FDA0002489263730000033
-将子带分组为若干(NSB)个子带组,并且在这些子带组中的每个子带组内:
-对于来自所述复值的频域子带表示
Figure FDA0002489263730000034
的子带组中的每个子带,使用去相关滤波器创建与所述复值的频域子带表示
Figure FDA0002489263730000035
无关的若干个经修改的相位谱信号
Figure FDA0002489263730000036
-对于来自所述经修改的相位谱信号
Figure FDA0002489263730000037
的子带组中的每个子带,计算去相关协方差矩阵;
-对于子带组中的每个子带,将所述复值的频域子带表示
Figure FDA0002489263730000038
变换为它的空域表示
Figure FDA0002489263730000039
并且从该空域表示计算对应的协方差矩阵;
-对于子带组中的每个子带,将用于所述HOA信号表示的所述对应延迟版本(C(k′))的复值的频域子带表示
Figure FDA00024892637300000310
变换为它的空域表示
Figure FDA00024892637300000311
并且从该空域表示计算对应的协方差矩阵,
对于每个子带组:
-对于子带组的所有子带,组合所述去相关协方差矩阵以便提供子带组去相关协方差矩阵
Figure FDA0002489263730000041
-对于子带组的所有子带,组合用于所述复值的频域子带表示
Figure FDA0002489263730000042
的所述空域表示
Figure FDA0002489263730000043
的协方差矩阵以便提供子带组协方差矩阵
Figure FDA0002489263730000044
-对于子带组的所有子带,组合用于所述HOA信号表示的所述对应延迟版本(C(k′))的所述复值的频域子带表示
Figure FDA0002489263730000045
的所述空域表示
Figure FDA0002489263730000046
的协方差矩阵以便提供子带组协方差矩阵
Figure FDA0002489263730000047
-形成组合协方差矩阵
Figure FDA0002489263730000048
Figure FDA0002489263730000049
之间的残差,以便提供矩阵ΔΣg(k′-1);
-使用矩阵
Figure FDA00024892637300000410
和矩阵Δ∑g(k′-1)计算对应的混合矩阵(Mg(k′-1));
-对所述混合矩阵进行编码以便提供用于所述子带组的参数集
Figure FDA00024892637300000411
-对用于所述子带组的所述参数集
Figure FDA00024892637300000412
以及编码的子带配置数据(ΓSUBBAND)和参数化环境复制编码参数进行复用以便提供参数化环境复制参数集(ΓPAR(k′-1))。
8.根据权利要求7所述的装置,其中,在频域中进行混合。
9.根据权利要求7所述的装置,其中,所述空间稀疏的解码的HOA表示由来自尽可能均匀地分布在单位球体上的若干个预定义方向的虚拟扩音器信号表示,
并且其中,对于这些预定义方向中的每个,通过使用所述去相关滤波器修改对应虚拟扩音器信号的相位谱来创建一个不相关的信号,
并且其中,所述经修改的相位谱信号被混合以使得对于每个虚拟扩音器信号和它的特定方向,只有来自该特定方向的邻域的经修改的相位谱信号被使用。
10.根据权利要求9所述的装置,其中,所述去相关滤波器是成对地不同的,并且它们的数量等于预定义方向的所述数量。
11.根据权利要求9所述的装置,其中,预定义方向的所述数量在不同频带中是不同的。
12.根据权利要求9所述的装置,其中,所述虚拟扩音器信号到所述去相关滤波器的分配用置换矩阵表达。
13.一种计算机程序产品,包括当在计算机上被执行时执行根据权利要求1-6中的任一项所述的方法的指令。
14.一种设备,包括:
一个或多个处理器;及
存储器,存储指令,当由一个或多个处理器执行时,该指令使一个或多个处理器执行如权利要求1-6中任一项所述的方法。
15.一种非暂时性计算机可读介质,包括存储在该非暂时性计算机可读介质上的指令,所述指令当被执行时执行如权利要求1-6中任一项所述的方法。
CN201580056173.8A 2014-10-10 2015-09-25 用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置 Active CN107077853B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14306607.4 2014-10-10
EP14306607.4A EP3007167A1 (en) 2014-10-10 2014-10-10 Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
PCT/EP2015/072064 WO2016055284A1 (en) 2014-10-10 2015-09-25 Method and apparatus for low bit rate compression of a higher order ambisonics hoa signal representation of a sound field

Publications (2)

Publication Number Publication Date
CN107077853A CN107077853A (zh) 2017-08-18
CN107077853B true CN107077853B (zh) 2020-09-08

Family

ID=51842455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580056173.8A Active CN107077853B (zh) 2014-10-10 2015-09-25 用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置

Country Status (7)

Country Link
US (1) US10262663B2 (zh)
EP (2) EP3007167A1 (zh)
JP (1) JP6378432B2 (zh)
KR (1) KR101970080B1 (zh)
CN (1) CN107077853B (zh)
TW (1) TW201614638A (zh)
WO (1) WO2016055284A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MC200186B1 (fr) * 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
EP3652735A1 (en) 2017-07-14 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
JP6983484B2 (ja) 2017-07-14 2021-12-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
WO2019012135A1 (en) 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED SOUND FIELD DESCRIPTION USING DIRAC TECHNIQUE EXTENDED IN DEPTH OR OTHER TECHNIQUES
CN109389987B (zh) 2017-08-10 2022-05-10 华为技术有限公司 音频编解码模式确定方法和相关产品
KR102159631B1 (ko) * 2018-11-21 2020-09-24 에스티엑스엔진 주식회사 부대역 조향 공분산 행렬을 이용한 적응형 빔형성기의 신호처리방법
US11601135B2 (en) * 2020-02-27 2023-03-07 BTS Software Solutions, LLC Internet of things data compression system and method

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067931A (zh) * 2007-05-10 2007-11-07 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
CN101411214A (zh) * 2006-03-28 2009-04-15 艾利森电话股份有限公司 用于多信道环绕声音的解码器的方法和装置
CN103250207A (zh) * 2010-11-05 2013-08-14 汤姆逊许可公司 高阶高保真度立体声响复制音频数据的数据结构
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
CN104428833A (zh) * 2012-07-16 2015-03-18 汤姆逊许可公司 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2993665A1 (en) 2014-09-02 2016-03-09 Thomson Licensing Method and apparatus for coding or decoding subband configuration data for subband groups

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101411214A (zh) * 2006-03-28 2009-04-15 艾利森电话股份有限公司 用于多信道环绕声音的解码器的方法和装置
CN101067931A (zh) * 2007-05-10 2007-11-07 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
CN103250207A (zh) * 2010-11-05 2013-08-14 汤姆逊许可公司 高阶高保真度立体声响复制音频数据的数据结构
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
CN104428833A (zh) * 2012-07-16 2015-03-18 汤姆逊许可公司 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
CN104854655A (zh) * 2012-12-12 2015-08-19 汤姆逊许可公司 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备

Also Published As

Publication number Publication date
JP2017534909A (ja) 2017-11-24
TW201614638A (en) 2016-04-16
KR101970080B1 (ko) 2019-04-17
EP3007167A1 (en) 2016-04-13
EP3204940A1 (en) 2017-08-16
JP6378432B2 (ja) 2018-08-22
KR20170055512A (ko) 2017-05-19
US20170243589A1 (en) 2017-08-24
WO2016055284A1 (en) 2016-04-14
CN107077853A (zh) 2017-08-18
US10262663B2 (en) 2019-04-16
EP3204940B1 (en) 2019-08-14

Similar Documents

Publication Publication Date Title
CN107077853B (zh) 用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置
JP6866519B2 (ja) ノイズ削減のための多チャネルhoaオーディオ信号をエンコードする方法および装置ならびにノイズ削減のための多チャネルhoaオーディオ信号をデコードする方法および装置
KR102202973B1 (ko) 사운드 필드를 위해 고차 앰비소닉스 표현을 압축 및 압축 해제하기 위한 방법 및 장치
US8379868B2 (en) Spatial audio coding based on universal spatial cues
CN106471822B (zh) 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
JP5227946B2 (ja) フィルタ適応周波数分解能
KR20160002846A (ko) 고차 앰비소닉스 표현을 압축 및 압축해제하기 위한 방법 및 장치
KR20210034101A (ko) 고차 앰비소닉스 신호 표현의 압축 및 압축 해제 방법 및 장치
CN112216291A (zh) 声音或声场的压缩hoa声音表示的解码方法和装置
CN112908348B (zh) 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN111034225B (zh) 使用立体混响信号的音频信号处理方法和装置
EP3329486A1 (en) Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
CN106663434B (zh) 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
RU2802176C2 (ru) Способ и устройство для декодирования сжатого звукового представления звука или звукового поля с помощью hoa
WO2023126573A1 (en) Apparatus, methods and computer programs for enabling rendering of spatial audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant