CN104428833B - 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备 - Google Patents

用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备 Download PDF

Info

Publication number
CN104428833B
CN104428833B CN201380036698.6A CN201380036698A CN104428833B CN 104428833 B CN104428833 B CN 104428833B CN 201380036698 A CN201380036698 A CN 201380036698A CN 104428833 B CN104428833 B CN 104428833B
Authority
CN
China
Prior art keywords
dsht
channel
rotation
inverse
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380036698.6A
Other languages
English (en)
Other versions
CN104428833A (zh
Inventor
J.贝姆
S.科唐
A.克鲁格
P.贾克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority to CN201710829605.5A priority Critical patent/CN107591159B/zh
Priority to CN201710829639.4A priority patent/CN107424618B/zh
Priority to CN201710829618.2A priority patent/CN107403625B/zh
Priority to CN201710829636.0A priority patent/CN107591160B/zh
Priority to CN201710829638.XA priority patent/CN107403626B/zh
Publication of CN104428833A publication Critical patent/CN104428833A/zh
Application granted granted Critical
Publication of CN104428833B publication Critical patent/CN104428833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于对多信道HOA音频信号进行编码以便降噪的方法,包括以下步骤:使用逆自适应DSHT对信道进行解相关(81),所述逆自适应DSHT包括旋转运算(330)和逆DSHT(810),所述旋转运算旋转iDSHT的空间采样网格;对每个经解相关的信道进行感知编码(82);对旋转信息(SI)进行编码,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储经感知编码的信道和经编码的旋转信息。

Description

用于对多信道HOA音频信号进行编码以便降噪的方法和设备 以及用于对多信道HOA音频信号进行解码以便降噪的方法和 设备
技术领域
本发明涉及用于对多信道高阶高保真度立体声响复制音频信号进行编码以便降噪的方法和设备、以及对多信道高阶高保真度立体声响复制音频信号进行解码以便降噪的方法和设备。
背景技术
高阶高保真度立体声响复制(Higher Order Ambisonics,HOA)是多信道声场表示[4],并且HOA信号是多信道音频信号。在特定扬声器装配上回放某些多信道音频信号表示,特别是HOA表示,需要特殊的呈现,这通常包括矩阵化运算。在解码之后,高保真度立体声响复制(Ambisonics)信号被“矩阵化”,亦即,被映射到与例如扬声器的实际空间位置相对应的新的音频信号。通常,在单个信道之间存在高的互相关性。
问题是经历到在矩阵化运算之后编码噪声增大。在现有技术下,原因似乎是未知的。当在通过感知编码器进行压缩之前例如通过离散球面谐波变换(Discrete SphericalHarmonics Transform,DSHT)将HOA信号变换到空间域时,也发生该效应。
用于高阶高保真度立体声响复制音频信号表示的压缩的通常方法是将独立的感知编码器应用于个体高保真度立体声响复制系数信道[7]。具体地,感知编码器仅考虑对在每个个体单信道信号中发生的噪声掩蔽效应进行编码。然而,这种效应典型地是非线性的。如果将这种单信道矩阵化成新信号,则可能发生噪声去掩蔽(unmasking)。当在用感知编码器进行压缩之前通过离散球面谐波变换将高阶高保真度立体声响复制信号变换到空间域时,也发生该效应[8]。
这种多信道音频信号表示的传输或存储通常要求适当的多信道压缩技术。通常,在最终将I个经解码的信号矩阵化为J个新信号之前,执行与信道无关的感知解码。术语矩阵化表示以加权的方式添加或混合经解码的信号将所有的信号以及所有的新信号布置在根据如下的矢量中:
术语“矩阵化”源自以下事实:在数学上通过以下矩阵运算从获得
其中,A表示由混合权重(mixing weight)构成的混合矩阵(mixing matrix)。在此同义地使用术语“混合”和“矩阵化”。混合/矩阵化用于呈现任何特定扬声器装配的音频信号的目的。矩阵依赖的特定的个体扬声器装配以及因此用于在运算期间的矩阵化的矩阵在感知编码阶段通常是未知的。
发明内容
本发明提供对多信道高阶高保真度立体声响复制音频信号进行编码和/或解码以便获得降噪的改善。具体地,本发明提供对3D音频比率压缩抑制编码噪声解蔽(de-masking)的方式。
本发明描述使(不期望的)噪声去掩蔽效应最小化的自适应离散球面谐波变换(aDSHT)的技术。此外,描述如何可以将aDSHT集成在压缩编码器架构中。所描述的技术至少对于HOA信号是特别有利的。本发明的一个优点是减少要传输的边信息(sideinformation)的量。原则上,仅需要传输旋转轴和旋转角。可以通过所传输的信道的数量,间接地用信号通知DSHT采样网格。与需要传输多于一半的相关矩阵的其它方法(例如Karhunen Loève变换(KLT))相比,该边信息的量非常小。
根据本发明的一个实施例,用于对多信道HOA音频信号进行编码以便降噪的方法包括以下步骤:使用逆自适应DSHT对信道进行解相关,所述逆自适应DSHT包括旋转运算和逆DSHT(iDSHT),所述旋转运算旋转iDSHT的空间采样网格;对每个经解相关的信道进行感知编码;对旋转信息进行编码,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储经感知编码的音频信道和经编码的旋转信息。使用逆自适应DSHT对信道进行解相关的步骤在原则上是空间编码步骤。
根据本发明的一个实施例,用于对具有降低的噪声的经编码的多信道HOA音频信号进行解码的方法包括以下步骤:接收经编码的多信道HOA音频信号和信道旋转信息;对所接收的数据进行解压缩,其中使用感知解码;使用自适应DSHT(aDSHT)对每个信道进行空间解码,使经感知解码和空间解码的信道相关,其中执行根据所述旋转信息的aDSHT的空间采样网格的旋转;以及,对相关的经感知解码和空间解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现的音频信号。
在权利要求11中公开一种用于对多信道HOA音频信号进行编码的设备。在权利要求12中公开一种用于对多信道HOA音频信号进行解码的设备。
一方面,计算机可读介质具有可执行的指令,以使计算机执行包括以上公开的步骤的用于进行编码的方法,或者执行包括以上公开的步骤的用于进行解码的方法。在从属权利要求、下面的描述以及附图中公开本发明的有利的实施例。
附图说明
参考附图描述本发明的示例性实施例,附图中:
图1示出用于对M个系数的块进行比率压缩的已知的编码器和解码器;
图2示出使用传统的DSHT(离散球面谐波变换)和传统的逆DSHT将HOA信号变换到空间域中的已知的编码器和解码器;
图3示出使用自适应DSHT和自适应逆DSHT将HOA信号变换到空间域中的编码器和解码器;
图4示出测试信号;
图5示出在编码器和解码器构建块中使用的码本的球面采样位置的示例;
图6示出信号自适应DSHT构建块(pE和pD);
图7示出本发明的第一实施例;
图8示出编码处理和解码处理的流程图;以及
图9示出本发明的第二实施例。
具体实施方式
图2示出使用逆DSHT将HOA信号变换到空间域中的已知的系统。对信号进行使用iDSHT 21的变换、比率压缩E1/解压缩D1,并且使用DSHT 24重新变换到系数域S24。与此不同,图3示出根据本发明的一个实施例的系统:已知的解决方案的DSHT处理块被替换为分别控制逆自适应DSHT和自适应DSHT的处理块31、34。在比特流bs内传输边信息SI。该系统包括用于对多信道HOA音频信号进行编码的设备的元件以及用于对多信道HOA音频信号进行解码的设备的元件。
在一个实施例中,用于对多信道HOA音频信号进行编码以便降噪的设备ENC包括使用逆自适应DSHT(iaDSHT)对信道B进行解相关的解相关器31,所述逆自适应DSHT包括旋转运算单元311和逆DSHT(iDSHT)310。旋转运算单元旋转iDSHT的空间采样网格。解相关器31提供经解相关的信道Wsd和包括旋转信息的边信息SI。此外,该设备包括用于对每个经解相关的信道Wsd进行感知编码的感知编码器32以及用于对旋转信息进行编码的边信息编码器321。旋转信息包括定义所述旋转运算的参数。感知编码器32提供经感知编码的音频信道和经编码的旋转信息,从而降低数据率。最后,用于进行编码的设备包括用于从经感知编码的音频信道和经编码的边信息创建比特流bs以及用于传输或存储比特流bs的接口装置320。
用于对具有降低的噪声的多信道HOA音频信号进行解码的设备DEC包括:用于接收经编码的多信道HOA音频信号和信道旋转信息的接口装置330;以及用于对所接收的数据进行解压缩的解压缩模块33,其包括用于对每个信道进行感知解码的感知解码器。解压缩模块33提供所恢复的经感知解码的信道W’sd和所恢复的边信息SI’。此外,用于进行解码的设备包括:使用自适应DSHT(aDSHT)使经感知解码的信道W’sd相关的相关器34,其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转;以及用于对相关的经感知解码的信道进行矩阵化的混合器MX,其中获得映射到扬声器位置的可再现的音频信号。在相关器34内的DSHT单元340中,至少可以执行aDSHT。在一个实施例中,在网格旋转单元341中完成空间采样网格的旋转,这在原则上重新计算原始的DSHT采样点。在另一实施例中,在DSHT单元340内执行旋转。
下面给出定义和描述去掩蔽的数学模型。假设给定的离散时间多信道信号包括I个信道xi(m),i=1,...,I,其中m表示时间样本索引(time sample index)。个体信号可以是实数值或复数值。考虑以时间样本索引mSTART+1开始的M个样本的帧,其中假设个体信号是固定的。根据下式在矩阵内布置对应的样本:
X:=[x(mSTART+1), ..., x(mSTART+M)] (1)
其中
x(l):=[x1(m), ..., xI(m)]T (2)
其中(·)T表示转置。对应的经验相关矩阵由下式给出:
ΣX:=XXH (3)
其中(·)H表示联合复共轭和转置。
现在假设多信道信号帧已被编码,从而在重构时引入编码误差噪声。因此,用表示的经重构的帧样本的矩阵根据下式由真实样本矩阵X和编码噪声分量E构成:
其中
E:=[e(mSTART+1), ..., e(mSTART+L)] (5)
并且
e(m):=[e1(m), ..., eI(m)]T (6)
因为假设每个信道已经被独立地编码,所以对于i=1,...,I,可以假设编码噪声信号ei(m)彼此独立。利用该特性以及噪声信号是零均值的假设,噪声信号的经验相关矩阵由如下对角矩阵给出:
这里,表示对角矩阵,在其对角线上具有经验噪声信号幂
另外的基本假设是,执行编码使得对于每个信道满足预定义的信噪比(SNR)。在不失一般性的情况下,假设预定义的SNR是对于每个信道相等的,亦即:
其中
从现在开始,考虑将经重构的信号矩阵化为J个新信号yj(m),j=1,...,J。在不引入任何编码误差的情况下,经矩阵化的信号的样本矩阵可以表示为:
Y=AX (11)
其中表示混合矩阵,并且其中
Y:=[y(mSTART+1), ..., y(mSTART+M)] (12)
其中
y(m):=[y1(m), ..., yJ(m)]T (13)
然而,由于编码噪声,经矩阵化的信号的样本矩阵被给出为:
其中,N是包含经矩阵化的噪声信号的样本的矩阵。其可以表示为:
N=AE (15)
N=[n(mSTART+1) ... n(mSTART+M) (16)
其中
n(m):=[n1(m) ... nJ(m)]T (17)
是在时间样本索引m时的所有的经矩阵化的噪声信号的矢量。
使用等式(11),经矩阵化的无噪声信号的经验相关矩阵可以用公式表示为:
ΣY=AΣXAH (18)
因此,作为ΣY的对角线上的第j个元素的第j个经矩阵化的无噪声信号的经验幂(empirical power)可以写为:
其中aj是根据下式的AH的第j列:
AH=[a1, ..., aJ] (20)
类似地,利用等式(15),经矩阵化的噪声信号的经验相关矩阵可以写为:
ΣN=AΣEAH (21)
作为ΣN的对角线上的第j个元素的第j个经矩阵化的噪声信号的经验幂由下式给出:
因此,对于通过下式定义的经矩阵化的信号的经验SNR,
可以使用等式(19)和(22)重新用公式表示为:
通过将ΣX如下地分解成其对角线分量和非对角线分量:
以及
并且通过利用从假设(7)和(9)以及在所有信道上的SNR常量得到的如下特性:
最终获得关于经矩阵化的信号的经验SNR的所期望的表达式:
从该表达式可以看出,从预定义的SNR(SNRx),通过乘以取决于信号相关矩阵ΣX的对角线分量和非对角线分量的项来获得该SNR。具体地,如果信号xi(m)彼此不相关,使得ΣX,NG变成零矩阵,则经矩阵化的信号的经验SNR等于预定义的SNR,亦即:
对于所有的j=1,...,J,如果ΣX,NG=0I×I (30)
其中0I×I表示具有I个行和I个列的零矩阵。也就是说,如果信号xi(m)是相关的,则经矩阵化的信号的经验SNR可能偏离预定义的SNR。在最差的情况下,可能比SNRx低得多。这种现象在此被称为矩阵化时的噪声去掩蔽。
下面的部分给出对高阶高保真度立体声响复制(HOA)的简要介绍,并定义要处理的信号(数据率压缩)。
高阶高保真度立体声响复制(HOA)基于对在被假设为无声源的所关注的紧密区域内的声场的描述。在该情况下,在时间t时和在所关注的区域内的(以球面坐标的)位置x=[r,θ,φ]T处的声压p(t,x)的时空行为在物理上完全由齐次波动等式来确定。可以示出,相对于时间的声压的傅立叶变换,亦即,
其中ω表示角频率(并且对应于
可以根据[10]展开为球面谐波级数(SHs):
在等式(32)中,cs表示声音的速度,并且表示角波数。此外,jn(·)指示第一类的n阶球面贝塞耳(Bessel)函数,表示n阶m次球面谐波(SH)。关于声场的完整信息实际上包含在声场系数内。
应当注意到,SHs一般是复数值的函数。然而,通过它们的适当的线性组合,能够获得实数值的函数,并且关于这些函数,能够进行展开。
与等式(32)中的压力声场描述相关地,源场(source field)可以被定义为:
其中,源场或幅值密度(amplitude density)[9]D(kcs,Ω)取决于角波数和角方向Ω=[θ,φ]T。源场可以包括远场/近场、离散/连续的源[1]。根据下式[1],源场系数与声场系数相关:
其中是第二类的球面汉克尔(Hankel)函数,rs是离开原点的源距离。
可以在频域或时域中将HOA域中的信号表示为源场或声场系数的逆傅立叶变换。下面的描述将假设使用有限数量的源场系数的时域表示:
所述有限数量:(33)中的无穷级数在n=N处被截断。截断对应于空间带宽限制。系数(或HOA信道)的数量由下式给出:
O3D=(N+1)2 对于3D (36)
或者对于仅仅2D的描述,由O2D=2N+1给出。系数包括用于由扬声器进行稍后再现的一个时间样本m的音频信息。它们可以被存储或传输,并且因此是数据率压缩的主体。系数的单个时间样本m可以由具有O3D个元素的矢量b(m)表示:
并且通过矩阵B表示M个时间样本的块:
B:=[b(mSTART+1),b(mSTART+2),..,b(mSTART+M)] (38)
可以通过圆形谐波的展开来得到声场的二维表示。这可以被看作是使用固定的倾斜系数的不同加权以及减小到O2D个系数(m=±n)的集合的上述一般描述的特殊情况。因此,所有下面的考虑也适用于2D表示,然后术语球面(sphere)需要替换为术语圆形(circle)。
下面描述从HOA系数域到基于信道的空间域的变换,反之亦然。可以对单位球面上的l个离散的空间样本位置Ωl=[θl,φl]T使用时域HOA系数重写等式(33):
假设Lsd=(N+1)2个球面样本位置Ωl,这可以针对HOA数据块B以矢量标记来重写:
W=ΨiB (36)
其中,W:=[w(mSTART+1),w(mSTART+2),..,w(mSTART+M)],并且表示Lsd个多信道信号的单个时间样本,矩阵其中矢量如果非常规律地选择球面样本位置,则存在矩阵Ψf,其中:
ΨfΨi=I, (37)
其中,I是O3D×O3D的单位矩阵。然后,到等式(36)的对应变换可以定义为:
B=ΨfW (38)
等式(38)将Lsd个球面信号变换到系数域,并可重写为正向变换(forwardtransform):
B=DSHT{W}, (39)
其中,DSHT{ }表示离散球面谐波变换。对应的逆变换将O3D系数信号变换到空间域以形成Lsd个基于信道的信号,并且等式(36)变成:
W=iDSHT{B} (40)
这里,离散球面谐波变换的该定义对于关于HOA数据的数据率压缩的考虑是足够的,因为开始于给出的系数B并且仅关注B=DSHT{iDSHT{B}}的情况。在[2]中给出了离散球面谐波变换的更严格的定义。可以在[3]、[4]、[6]、[5]中回顾DSHT的适当的球面样本位置以及得到这样的位置的过程。在图5中示出采样网格的示例。
具体地,图5示出在编码器和解码器构建块pE、pD中使用的码本的球面采样位置的示例,即,在图5a)中对于LSd=4,在图5b)中对于LSd=9,在图5c)中对于LSd=16,并且在图5d)中对于LSd=25。
下面描述高阶高保真度立体声响复制系数数据的比率压缩和噪声去掩蔽。首先,定义测试信号以强调下面使用的一些特性。
位于方向上的单个远场源由M个离散时间样本的矢量g=[g(m),...,g(M)]T表示,并且可以通过编码由HOA系数的块表示:
Bg=ygT (45)
其中,矩阵Bg类似于等式(38),并且编码矢量由在方向上评估的共轭复数球面谐波构成(如果使用实数值的SH,则该共轭无效)。测试信号可以被看作HOA信号的最简单的情况。更复杂的信号由许多这种信号的叠加构成。
考虑HOA信道的直接压缩,下面示出为何在HOA系数信道被压缩时出现噪声去掩蔽。实际的HOA数据块B的O3D系数信道的直接压缩和解压缩将引入类似于等式(4)的编码噪声E:
假设如等式(9)中的常量为了在扬声器上重放该信号,需要呈现该信号。可以将该处理描述为:
其中,解码矩阵(并且AH=[a1,...,aL]),并且矩阵保持L个扬声器信号的M个时间样本。这类似于(14)。应用所有上述考虑,扬声器信道l的SNR可以描述为(类似于等式(29)):
其中,是第o个对角线元素,并且∑B,NG保持:
B=B BH (49)的非对角线元素。
解码矩阵A不应当受到影响(因为其应当能够针对任意的扬声器布局进行解码),因此矩阵∑B需要变成对角线以获得通过等式(45)和(49),(B=Bg),∑B=ygHgyH=cyyH变成具有常量标量值的非对角线c=gTg。与相比,在扬声器信道处的信噪比降低。但是由于声源信号g和扬声器布局在编码阶段通常都是未知的,所以系数信道的直接有损压缩可能导致不可控制的去掩蔽效应,特别是对于低数据率。
下面描述为何在使用DSHT之后在空间域中压缩HOA系数时出现噪声去掩蔽。
在压缩之前使用等式(36)中给出的球面谐波变换将HOA系数数据的当前块B变换到空间域中:
WSd=ΨiB (50)
其中,逆变换矩阵Ψi与LSd≥O3D个空间样本位置有关,并且空间信号矩阵对这些进行压缩和解压缩,并且添加量化噪声(类似于等式(4)):
其中,编码噪声分量E根据等式(5)。再次假设对于所有空间信道均恒定的SNR,即SNRSd。使用变换矩阵Ψf将该信号变换到系数域等式(42),其具有特性(41):ΨfΨi=I。系数的新的块变成:
通过应用解码矩阵将该信号呈现为L个扬声器信号这可以使用(52)和A=ADΨf来重写:
这里,A变成具有的混合矩阵。等式(53)应当被看作类似于等式(14)。再次应用所有上述考虑,扬声器信道l的SNR可以被描述为(类似于等式(29)):
其中,是第l个对角线元素,并且保持:
的非对角线元素。
因为决不会影响AD(由于其应当可以针对任意的扬声器布局来呈现),并且因此决不会对A有任何影响,所以需要变成接近于对角线以保持所期望的SNR:使用来自等式(45)(B=Bg)的简单测试信号,变成:
其中,c=gTg恒定。使用固定的球面谐波变换(Ψi、Ψf固定),可以只在非常稀少的情况下变成对角线,并且变得更差,如上文所述,项取决于系数信号空间特性。因此,球面域中的HOA系数的低比率有损压缩可能导致SNR的降低和不可控制的去掩蔽效应。
本发明的基本思想是通过使用自适应DSHT(aDSHT)来最小化噪声去掩蔽,自适应DSHT由与HOA输入信号的空间特性有关的DSHT的空间采样网格的旋转以及DSHT本身构成。
下面描述具有与HOA系数的数量O3D相匹配的许多球面位置LSd的信号自适应DSHT(aDSHT),(36)。首先,选择如传统的非自适应DSHT中的默认球面样本网格。对于M个时间样本的块,旋转球面样本网格使得最小化项
的对数,其中,(具有矩阵行索引l和列索引j)的元素的绝对值,并且的对角线元素。这等于最小化等式(54)的项
直观化地,如图4所示,该处理对应于以单个空间样本位置匹配最强的源方向的方式的DSHT的球面采样网格的旋转。使用来自等式(45)(B=Bg)的简单测试信号,可以示出等式(55)的项WSd变成矢量(其中,除了一个元素之外的所有元素都接近于零)。因此,变成接近于对角线,并且可以保持所期望的SNR
图4示出被变换到空间域的测试信号Bg。在图4a)中,使用默认的采样网格,并且在图4b)中,使用aDSHT的旋转的网格。通过对应的样本位置周围的Voronoi单元的颜色/灰度变化示出空间信道的相关的的值(以dB)。空间结构的每个单元表示采样点,并且单元的亮度/暗度表示信号强度。如同在图4b)中可以看到的,发现最强的源方向,并且旋转采样网格,使得侧面(side)之一(亦即,单个空间样本位置)匹配最强的源方向。将该侧面图示为白色(对应于强的源方向),而其它侧面是暗的(对应于低的源方向)。在图4a)中,亦即,在旋转之前,没有侧面匹配最强的源方向,并且若干侧面是更深/更浅的灰色,这意味着在相应的采样点处接收到相当大的(但不是最大的)强度的音频信号。
下面描述在压缩编码器和解码器内使用的aDSHT的主要构建块。
在图6中示出编码器和解码器处理构建块pE和pD的细节。两个模块拥有作为DSHT的基础的相同的球面采样位置网格的码本。最初,使用系数的数量O3D根据通用码本选择具有LSd=O3D个位置的模块pE中的基础网格。必须将LSd传输给块pD进行初始化以选择与图3中所指示的相同的基础采样位置网格。通过矩阵描述基础采样网格,其中Ωl=[θl,φl]T定义单位球面上的位置。如上文所述,图5示出基本网格的示例。
对旋转发现块(构建块“发现最佳旋转”)320的输入是系数矩阵B。该构建块负责旋转基础采样网格,使得等式(57)的值最小化。该旋转用“轴-角”表示来表示,并且将与该旋转有关的压缩的轴ψrot和旋转角输出到该构建块作为边信息SI。可以通过从原点到单位球面上的位置的单位矢量来描述旋转轴ψrot。在球面坐标中,这可以通过两个角来结合:ψrot=[θaxis,φaxis]T,具有不需要传输的一个隐含的相关半径。通过用信号通知重用先前使用的值以创建边信息SI的特殊逃逸模式(escape pattern)对三个角θaxis、φaxis进行量化和熵编码。
构建块“构建Ψi”330将旋转轴和角解码为并且将该旋转应用于基础采样网格以得出旋转网格其输出从矢量得出的iDSHT矩阵
在构建块“iDSHT”310中,通过WSd=ΨiB将HOA系数数据的实际块B变换到空间域中。
解码处理块pD的构建块“构建Ψf”350接收旋转轴和角并将其解码为并且将该旋转应用于基础采样网格以得出旋转网格通过用矢量得到iDSHT矩阵并且在解码侧计算DSHT矩阵
在解码器处理块34内的构模块“DSHT”340中,将空间域数据的实际块变换回到系数域数据的块:
下面描述包括压缩编解码器的总体架构的各种有利的实施例。第一实施例使用单个aDSHT。第二实施例使用谱带中的多个aDSHT。
在图7中示出第一(“基本”)实施例。具有O3D个系数信道b(m)的索引m的HOA时间样本首先被存储在缓冲器71中以形成M个样本的块和时间索引μ。在上述的构建块pE 72中使用自适应iDSHT,将B(μ)变换到空间域。将空间信号块WSd(μ)输入到LSd个音频压缩单声道(mono)编码器73(如AAC或mp3编码器)或单个AAC多信道编码器(LSd个信道)。比特流S73包括具有集成的边信息SI的多个编码器比特流帧的复用的帧或集成了边信息SI(优选地作为辅助数据)的单个多信道比特流。
在一个实施例中,相应的压缩解码器构建块包括用于将比特流S73分用为LSd个比特流和边信息SI并且将该比特流馈送给LSd个单声道解码器的分用器D1,将它们解码为具有M个样本的LSd个空间音频信道以形成块并且将和SI馈送给pD。在不对比特流进行复用的另一实施例中,压缩解码器构建块包括接收器74,接收器74用于接收比特流并且将其解码为LSd个多信道信号对SI解包,并且将和SI馈送给pD。
在解码器处理块pD 75中,使用自适应DSHT和SI将变换到系数域,以形成HOA信号的块B(μ),其被存储在缓冲器76中以便解帧,以形成系数的时间信号b(m)。
在某些条件下,上述的第一实施例可能具有两个缺点:首先,由于空间信号分布的改变,可能存在来自先前块(即,来自块μ至μ+1)的组块伪像(blocking artifact);其次,可能同时存在多于一个的强信号,并且aDSHT的解相关效应可能相当小。
在工作于频域中的第二实施例中解决两个缺点。aDSHT应用于组合多个频带数据的标度因子带数据。通过利用重叠添加(Overlay Add,OLA)处理重叠时频变换(TFT)的块来避免组块伪像。可以通过使用本发明在J个谱带内以传输SIj的数据率中的增大的开销的成本来实现改善的信号解相关。
下面描述图9所示的第二实施例的一些更多的细节:对信号b(m)的每个系数信道进行时频变换(TFT)912。广泛使用的TFT的示例是修正余弦变换(MDCT)。在TFT成帧单元911中,构造50%的重叠数据块(块索引μ)。TFT块变换单元912执行块变换。在谱带化单元913中,组合TFT频带以形成J个新的谱带和有关的信号其中KJ表示带j中的频率系数的数量。在多个处理模块914中处理这些谱带。对于这些谱带中的每一个,存在一个创建信号和边信息SIj的处理块pEj。谱带可以匹配有损音频压缩方法的谱带(如AAC/mp3标度因子带),或者具有更粗糙的粒度。在后者的情况下,不利用TFT块915的信道无关的有损音频压缩需要重新布置所述带化。处理块914操作如同将恒定的比特率分配给每个音频信道的频域中的LSd多信道音频编码器。在比特流包装块916中格式化比特流。
解码器接收或存储比特流(至少其若干部分),将其解包921,并且将用于音频数据馈送给不利用TFT进行信道无关的音频解码的多信道音频解码器922,并且将边信息SIj馈送给多个解码处理块pDj 923。用于不利用TFT进行信道无关的音频解码的音频解码器922对音频信息进行解码,并且格式化J个谱带信号作为给解码处理块pDj 923的输入,其中,将这些信号变换到HOA系数域以形成在去谱带化块924中,重组J个谱带以匹配TFT的带化。将它们变换到iTFT和OLA块925中的时域,该块使用块重叠的重叠添加(OLA)处理。最后,在TFT解帧块926中,iTFT和OLA模块925的输出被解帧,以创建信号
本发明基于如下发现:由信道之间的互相关性产生SNR增加。感知编码器仅考虑出现在每个个体单信道信号内的编码噪声掩蔽效应。然而,这种效应典型地是非线性的。因此,在将这样的单信道矩阵化为新的信号时,可能发生噪声去掩蔽。这是通常在矩阵化运算之后编码噪声增大的原因。
本发明提出通过使不需要的噪声去掩蔽效应最小化的自适应离散球面谐波变换(aDSHT)对信道进行解相关。aDSHT被集成在压缩编码器和解码器架构内。因为其包括针对HOA输入信号的空间特性来调节DSHT的空间采样网格的旋转运算,所以其是自适应的。aDSHT包括自适应旋转和实际的传统DSHT。实际的DSHT是可以如现有技术中描述的那样地构造的矩阵。对该矩阵应用自适应旋转,从而导致信道间相关性的最小化,并且因此导致矩阵化之后的SNR增加的最小化。通过自动搜索运算(而不是分析地)发现旋转轴和角。对旋转轴和角进行编码和传输,以使得能够在解码之后和在矩阵化之前进行重新相关,其中使用逆自适应DSHT(iaDSHT)。
在一个实施例中,执行时频变换(TFT)和谱带化,并且将aDSHT/iaDSHT独立地应用于每个谱带。
图8a)示出本发明的一个实施例中的用于对多信道HOA音频信号进行编码以便降噪的方法的流程图。图8b)示出本发明的一个实施例中的用于对多信道HOA音频信号进行解码以便降噪的方法的流程图。
在图8a)所示的实施例中,用于对多信道HOA音频信号进行编码以便降噪的方法包括以下步骤:使用逆自适应DSHT对信道进行解相关81,所述逆自适应DSHT包括旋转运算和逆DSHT 812,所述旋转运算旋转811iDSHT的空间采样网格;对每个经解相关的信道进行感知编码82;对(作为边信息SI的)旋转信息进行编码83,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储84经感知编码的音频信道和经编码的旋转信息。
在一个实施例中,逆自适应DSHT包括以下步骤:选择初始的默认球面样本网格;确定最强的源方向;以及,对M个时间样本的块,旋转球面样本网格,使得单个空间样本位置匹配最强的源方向。
在一个实施例中,旋转球面样本网格,使得以下项的对数最小化:
其中,(具有矩阵行索引l和列索引j)的元素的绝对值,并且的对角线元素,其中并且WSd是音频信道的数量乘以处理样本的块的数量的矩阵,并且WSd是aDSHT的结果。
在图8b)所示的实施例中,一种用于对具有降低的噪声的经编码的多信道HOA音频信号进行解码的方法包括以下步骤:接收85经编码的多信道HOA音频信号和信道旋转信息(在边信息SI内);对接收的数据进行解压缩86,其中使用感知解码;使用自适应DSHT对每个信道进行空间解码87,其中执行DSHT 872和根据所述旋转信息的DSHT的空间采样网格的旋转871,并且其中对经感知解码的信道进行重新相关;以及,对重新相关的经感知解码的信道进行矩阵化88,其中获得映射到扬声器位置的可再现的音频信号。
在一个实施例中,自适应DSHT包括以下步骤:选择自适应DSHT的初始的默认球面样本网格;以及,对M个时间样本的块,根据所述旋转信息来旋转球面样本网格。
在一个实施例中,旋转信息是具有三个分量的空间矢量注意,旋转轴ψrot可以用单位矢量来描述。
在一个实施例中,旋转信息是由3个角构成的矢量:θaxis、φaxis其中,θaxis、φaxis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息,并且定义绕该轴的旋转角。
在一个实施例中,通过用信号通知(亦即,指示)重用先前的值以便创建边信息(SI)的逃逸模式(亦即,专用比特模式),对角进行量化和熵编码。
在一个实施例中,一种用于对多信道HOA音频信号进行编码以便降噪的设备包括:解相关器,用于使用逆自适应DSHT对信道进行解相关,所述逆自适应DSHT包括旋转运算和逆DSHT(iDSHT),其中旋转运算旋转iDSHT的空间采样网格;感知编码器,用于对每个经解相关的信道进行感知编码;边信息编码器,用于对旋转信息进行编码,所述旋转信息包括定义所述旋转运算的参数;以及接口,用于传输或存储经感知编码的音频信道和经编码的旋转信息。
在一个实施例中,一种用于对具有降低的噪声的多信道HOA音频信号进行解码的设备包括:接口装置330,用于接收经编码的多信道HOA音频信号和信道旋转信息;解压缩模块33,用于通过使用用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩;相关器34,用于对经感知解码的信道进行重新相关,其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转;以及混合器,用于对相关的经感知解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现的音频信号。原则上,相关器34用作空间解码器。
在一个实施例中,一种用于对具有降低的噪声的多信道HOA音频信号进行解码的设备包括:接口装置330,用于接收经编码的多信道HOA音频信号和信道旋转信息;解压缩模块33,用于通过用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩;相关器34,用于使用aDSHT对经感知解码的信道进行相关,其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转;以及混合器MX,用于对相关的经感知解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现音频信号。
在一个实施例中,用于进行解码的设备中的自适应DSHT包括用于选择自适应DSHT的初始的默认样本网格的装置、用于对M个时间样本的块根据所述旋转信息旋转默认球面样本网格的旋转处理装置、以及用于对旋转的球面样本网格执行DSHT的变换处理装置。
在一个实施例中,用于进行解码的设备中的相关器34包括用于使用自适应DSHT同时对每个信道进行空间解码的多个空间解码单元922,还包括用于执行去谱带化的去谱带化单元924、以及用于通过重叠添加处理执行逆时频变换的iTFT和OLA单元925,其中所述去谱带化单元将其输出提供给iTFT和OLA单元。
在所有实施例中,术语降低的噪声至少涉及避免编码噪声去掩蔽。
对音频信号的感知编码表示适合于对音频的人类感知的编码。应当注意,在对音频信号进行感知编码时,通常不对宽带音频信号样本而是在与人类感知有关的个体频带中执行量化。因此,信号功率与量化噪声之间的比率可以在个体频带之间变化。因此,感知编码通常包括减少冗余和/或无关信息,而空间编码通常涉及信道之间的空间关系。
上述的技术可以被看作是对使用Karhunen-Loève变换(KLT)的解相关的替代。本发明的一个优点是极大地减少了边信息量,边信息仅包括三个角。KLT需要块相关矩阵的系数作为边信息,因此需要多得多的数据。此外,在此公开的技术允许对旋转进行调整(或微调),以便减少进行到下一个处理块时的过渡伪像(transition artifact)。这有利于后续的感知编码的压缩质量。
表1提供aDSHT与KLT之间的直接比较。尽管存在一些相似性,但是aDSHT提供了超过KLT的显著优点。
表1 aDSHT对KLT的比较
虽然已经示出、描述和指出对本发明的优选的实施例应用的基础的新颖的特征,但是应当理解,本领域的技术人员可以在所描述的设备和方法中,在所公开的装置的形式和细节以及在其操作方面,进行各种省略和替代和变化,而不脱离本发明的精神。显然旨在以基本相同的方式执行基本相同的功能以获得相同的结果的那些元件的所有组合都在本发明的范围内。还充分地预期和设想到从一个所描述的实施例到另一个所描述的实施例的元件的替换。
应当理解的是,仅仅通过示例对本发明进行了描述,可以对细节进行修改,而不脱离本发明的范围。
在本说明书和(适当之处)权利要求书和附图中公开的每个特征可以独立地或以任何适当的组合来提供。
特征可以在适当的情况下被实现为硬件、软件或这二者的组合。连接可以在可应用的情况下被实现为无线连接或者有线的(不必是直接或专用的)连接。
在权利要求中出现的标号仅作为示例,而不应当具有对权利要求的范围的限定效果。
引用的参考文献
[1]T.D.Abhayapala。Generalized framework for spherical microphonearrays:Spatial and frequency decomposition。IEEE International Conference onAcoustics,Speech,and Signal Processing(ICASSP)会议,(接受的)第X卷,页,2008年4月,拉斯维加斯,美国。
[2]James R.Driscoll和Dennis M.Healy Jr.。Computing fourier transformsand convolutions on the 2-sphere。Advances in Applied Mathematics,15:202-250,1994年。
[3] Fliege。Integration nodes for the sphere,http://www.personal.soton.ac.uk/jf1w07/nodes/nodes.html
[4] Fliege和Ulrike Maier。A two-stage approach for computingcubature formulae for the sphere。技术报告,Fachbereich Mathematik,多特蒙德大学,1999年。
[5]R.H.Hardin和N.J.A.Sloane。网页:Spherical designs,spherical t-designs。http://www2.research.att.com/-njas/sphdesigns
[6]R.H.Hardin和N.J.A.Sloane。Mclaren's improved snub cube and othernew spherical designs in three dimensions。Discrete and ComputationalGeometry,15:429-441,1996年。
[7]Erik Hellerud、lan Burnett、Audun Solvang和U.Peter Svensson.Encodinghigher order Ambisonics with AAC。第124届AES会议,阿姆斯特丹,2008年5月。
[8]Peter Jax、Jan-Mark Batke、Johannes Boehm和Sven Kordon。Perceptualcoding of HOA signals in spatial domain。欧洲专利申请EP2469741A1(PD100051)。
[9]Boaz Rafaely。Plane-wave decomposition of the sound field on asphere by spherical convolution。J.Acoust.Soc.Am.,4(116):2149-2157,2004年10月。
[10]Earl G.Williams。Fourier Acoustics,Applied Mathematical Sciences第93卷。Academic Press,1999年。

Claims (15)

1.一种用于对多信道高阶高保真度立体声响复制(HOA)音频信号进行编码以便降噪的方法,包括以下步骤:
-使用逆自适应离散球面谐波变换DSHT对信道进行解相关(81),所述逆自适应DSHT包括旋转运算(811)和逆DSHT(812),其中旋转运算旋转逆DSHT的空间采样网格,其中,旋转球面样本网格,使得以下项的对数最小化
其中,是具有矩阵行索引l和列索引j的的元素的绝对值,并且的对角线元素,LSd是球面样本位置的数量,其中并且WSd是具有音频信道的数量乘以处理样本的块的数量的大小的矩阵,并且WSd是逆自适应DSHT的结果;
-对每个经解相关的信道进行感知编码(82);
-对旋转信息进行编码(83),其中,旋转信息是具有定义所述旋转运算的三个分量的空间矢量以及
-传输或存储(84)经感知编码的音频信道和经编码的旋转信息。
2.根据权利要求1所述的方法,其中,逆自适应DSHT执行以下步骤:
-选择初始的默认球面样本网格;
-确定最强的源方向;以及
-对M个时间样本的块,旋转球面样本网格,使得单个空间样本位置匹配最强的源方向。
3.根据权利要求1所述的方法,其中,空间矢量的三个分量是角θaxis、φaxis其中,θaxis、φaxis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息,并且定义绕旋转轴的旋转角,并且其中,通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式对角进行量化和熵编码。
4.根据权利要求1所述的方法,还包括以下步骤:
-在TFT成帧单元(911)中构造重叠数据块;
-对每个信道的系数执行时频变换(912);
-在谱带化单元(913)中组合经时频变换的频带以形成J个新的谱带;
-在多个处理块(914)中同时处理多个谱带,其中每个处理块执行逆自适应DSHT,所述逆自适应DSHT包括旋转运算和逆DSHT,其中旋转运算旋转逆DSHT的空间采样网格;以及
-在不利用时频变换(915)的情况下执行信道无关的有损音频压缩。
5.一种用于对具有降低的噪声的经编码的多信道高阶高保真度立体声响复制HOA音频信号进行解码的方法,包括以下步骤:
-接收(85)经编码的多信道HOA音频信号和信道旋转信息,所述信道旋转信息包含具有定义旋转运算的三个分量的空间矢量
-对接收的数据进行解压缩(86),其中,使用感知解码,并且获得经感知解码的信道;
-使用自适应离散球面谐波变换DSHT对每个经感知解码的信道进行空间解码(87),其中执行离散球面谐波变换DSHT(872)和根据所述旋转信息的DSHT的空间采样网格的旋转(871);以及
-对经感知解码和空间解码的信道进行矩阵化(88),其中获得映射到扬声器位置的可再现的音频信号。
6.根据权利要求5所述的方法,其中,自适应DSHT包括以下步骤:
-选择自适应DSHT的初始的默认球面样本网格;
-对M个时间样本的块,根据所述旋转信息来旋转默认的球面样本网格;以及
-对旋转的球面样本网格执行DSHT。
7.根据权利要求5所述的方法,其中,使用自适应DSHT对每个信道进行空间解码(87)的步骤针对多个空间解码单元(922)中的所有信道同时进行,还包括去谱带化(924)和通过重叠添加处理执行逆时频变换(925)的步骤。
8.根据权利要求5所述的方法,其中,信道旋转信息由三个角构成:θaxis、φaxis其中,θaxis、φaxis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息,并且定义绕旋转轴的旋转角。
9.根据权利要求5所述的方法,其中,通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式,对空间矢量的三个分量进行量化 和熵编码。
10.一种用于对多信道高阶高保真度立体声响复制(HOA)音频信号进行编码以便降噪的设备,包括:
-解相关器(31),用于使用逆自适应离散球面谐波变换DSHT对信道进行解相关,所述逆自适应DSHT包括旋转运算单元(311)和逆DSHT,其中旋转运算旋转逆DSHT的空间采样网格,其中,旋转球面样本网格,使得以下项的对数最小化
其中,是具有矩阵行索引l和列索引j的的元素的绝对值,并且的对角线元素,LSd是球面样本位置的数量,其中并且WSd是具有音频信道的数量乘以处理样本的块的数量的大小的矩阵,并且WSd是逆自适应DSHT的结果;
-感知编码器(32),用于对每个经解相关的信道进行感知编码;
-边信息编码器(321),用于对旋转信息进行编码,所述旋转信息包括具有定义所述旋转运算的三个分量的空间矢量以及
-接口(320),用于传输或存储经感知编码的音频信道和经编码的旋转信息。
11.根据权利要求10所述的设备,其中,空间矢量的三个分量是角θaxis、φaxis其中,θaxis、φaxis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息,并且定义绕旋转轴的旋转角,并且其中,通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式对角进行量化和熵编码。
12.一种用于对具有降低的噪声的多信道高阶高保真度立体声响复制HOA音频信号进行解码的设备,包括:
-接口装置(330),用于接收经编码的多信道HOA音频信号和信道旋转信息,所述信道旋转信息包含具有定义旋转运算的三个分量的空间矢量
-解压缩模块(33),用于通过用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩;
-相关器(34),用于使用自适应离散球面谐波变换(aDSHT)对经感 知解码的信道进行相关,其中执行离散球面谐波变换DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转;以及
-混合器(MX),用于对相关的经感知解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现的音频信号。
13.根据权利要求12所述的设备,其中,自适应DSHT包括:
-用于选择自适应DSHT的初始的默认样本网格的装置;
-用于对M个时间样本的块根据所述旋转信息旋转默认球面样本网格的旋转处理装置;以及
-用于对旋转的球面样本网格执行DSHT的变换处理装置。
14.根据权利要求12所述的设备,其中,相关器(34)包括用于使用自适应DSHT同时对每个信道进行空间解码的多个空间解码单元(922),还包括用于执行去谱带化的去谱带化单元(924),以及用于通过重叠添加处理执行逆时频变换的iTFT和OLA单元(925),其中,去谱带化单元将其输出提供给iTFT和OLA单元。
15.根据权利要求12所述的设备,其中,通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式,对空间矢量的三个分量进行量化和熵编码。
CN201380036698.6A 2012-07-16 2013-07-16 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备 Active CN104428833B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201710829605.5A CN107591159B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829639.4A CN107424618B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829618.2A CN107403625B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829636.0A CN107591160B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829638.XA CN107403626B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305861.2 2012-07-16
EP12305861.2A EP2688066A1 (en) 2012-07-16 2012-07-16 Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
PCT/EP2013/065032 WO2014012944A1 (en) 2012-07-16 2013-07-16 Method and apparatus for encoding multi-channel hoa audio signals for noise reduction, and method and apparatus for decoding multi-channel hoa audio signals for noise reduction

Related Child Applications (5)

Application Number Title Priority Date Filing Date
CN201710829638.XA Division CN107403626B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829636.0A Division CN107591160B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829618.2A Division CN107403625B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829639.4A Division CN107424618B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829605.5A Division CN107591159B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN104428833A CN104428833A (zh) 2015-03-18
CN104428833B true CN104428833B (zh) 2017-09-15

Family

ID=48874263

Family Applications (6)

Application Number Title Priority Date Filing Date
CN201710829639.4A Active CN107424618B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829636.0A Active CN107591160B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829605.5A Active CN107591159B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829618.2A Active CN107403625B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201380036698.6A Active CN104428833B (zh) 2012-07-16 2013-07-16 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备
CN201710829638.XA Active CN107403626B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质

Family Applications Before (4)

Application Number Title Priority Date Filing Date
CN201710829639.4A Active CN107424618B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829636.0A Active CN107591160B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829605.5A Active CN107591159B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829618.2A Active CN107403625B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710829638.XA Active CN107403626B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质

Country Status (7)

Country Link
US (4) US9460728B2 (zh)
EP (4) EP2688066A1 (zh)
JP (4) JP6205416B2 (zh)
KR (4) KR102126449B1 (zh)
CN (6) CN107424618B (zh)
TW (4) TWI602444B (zh)
WO (1) WO2014012944A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875803B2 (en) 2014-06-27 2024-01-16 Dolby Laboratories Licensing Corporation Methods and apparatus for determining for decoding a compressed HOA sound representation

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) * 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
JP6243060B2 (ja) * 2014-03-21 2017-12-06 ドルビー・インターナショナル・アーベー 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102201726B1 (ko) 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
EP2934025A1 (en) * 2014-04-15 2015-10-21 Thomson Licensing Method and device for applying dynamic range compression to a higher order ambisonics signal
CN109087653B (zh) * 2014-03-24 2023-09-15 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN103888889B (zh) * 2014-04-07 2016-01-13 北京工业大学 一种基于球谐展开的多声道转换方法
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) * 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN106471822B (zh) 2014-06-27 2019-10-25 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN107077852B (zh) 2014-06-27 2020-12-04 杜比国际公司 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示
KR20240047489A (ko) 2014-06-27 2024-04-12 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9736606B2 (en) * 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
WO2016162165A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
US10600425B2 (en) * 2015-11-17 2020-03-24 Dolby Laboratories Licensing Corporation Method and apparatus for converting a channel-based 3D audio signal to an HOA audio signal
HK1221372A2 (zh) * 2016-03-29 2017-05-26 萬維數碼有限公司 種獲得空間音頻定向向量的方法、裝置及設備
CN109416912B (zh) * 2016-06-30 2023-04-11 杜塞尔多夫华为技术有限公司 一种对多声道音频信号进行编码和解码的装置和方法
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
CN110892478A (zh) * 2017-04-28 2020-03-17 Dts公司 音频编解码器窗口和变换实现
EP3651480A4 (en) * 2017-07-05 2020-06-24 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD, AND PROGRAM
US10944568B2 (en) * 2017-10-06 2021-03-09 The Boeing Company Methods for constructing secure hash functions from bit-mixers
US10714098B2 (en) 2017-12-21 2020-07-14 Dolby Laboratories Licensing Corporation Selective forward error correction for spatial audio codecs
US11729406B2 (en) * 2019-03-21 2023-08-15 Qualcomm Incorporated Video compression using deep generative models
US11388416B2 (en) 2019-03-21 2022-07-12 Qualcomm Incorporated Video compression using deep generative models
CN116978387A (zh) 2019-07-02 2023-10-31 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和系统
CN110544484B (zh) * 2019-09-23 2021-12-21 中科超影(北京)传媒科技有限公司 高阶Ambisonic音频编解码方法及装置
CN110970048B (zh) * 2019-12-03 2023-01-17 腾讯科技(深圳)有限公司 音频数据的处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297353A (zh) * 2005-10-26 2008-10-29 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001275197A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 音源選択方法および音源選択装置並びに音源選択制御プログラムを記録した記録媒体
GB2379147B (en) * 2001-04-18 2003-10-22 Univ York Sound processing
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US8370134B2 (en) * 2006-03-15 2013-02-05 France Telecom Device and method for encoding by principal component analysis a multichannel audio signal
US8103006B2 (en) * 2006-09-25 2012-01-24 Dolby Laboratories Licensing Corporation Spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
FR2916079A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US20110188043A1 (en) * 2007-12-26 2011-08-04 Yissum, Research Development Company of The Hebrew University of Jerusalem, Ltd. Method and apparatus for monitoring processes in living cells
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
PL2304723T3 (pl) * 2008-07-11 2013-03-29 Fraunhofer Ges Forschung Urządzenie i sposób dekodowania zakodowanego sygnału audio
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
GB2476747B (en) * 2009-02-04 2011-12-21 Richard Furse Sound system
FR2943867A1 (fr) * 2009-03-31 2010-10-01 France Telecom Traitement d'egalisation de composantes spatiales d'un signal audio 3d
US9020152B2 (en) * 2010-03-05 2015-04-28 Stmicroelectronics Asia Pacific Pte. Ltd. Enabling 3D sound reproduction using a 2D speaker arrangement
CN102823277B (zh) * 2010-03-26 2015-07-15 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103165136A (zh) * 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297353A (zh) * 2005-10-26 2008-10-29 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875803B2 (en) 2014-06-27 2024-01-16 Dolby Laboratories Licensing Corporation Methods and apparatus for determining for decoding a compressed HOA sound representation

Also Published As

Publication number Publication date
US10614821B2 (en) 2020-04-07
KR20200138440A (ko) 2020-12-09
TWI602444B (zh) 2017-10-11
KR102340930B1 (ko) 2021-12-20
KR102126449B1 (ko) 2020-06-24
KR102187936B1 (ko) 2020-12-07
CN107591159B (zh) 2020-12-01
US10304469B2 (en) 2019-05-28
TWI674009B (zh) 2019-10-01
US20170352355A1 (en) 2017-12-07
JP6866519B2 (ja) 2021-04-28
TW202013993A (zh) 2020-04-01
US20150154971A1 (en) 2015-06-04
TWI723805B (zh) 2021-04-01
KR20210156311A (ko) 2021-12-24
TW202103503A (zh) 2021-01-16
US20190318751A1 (en) 2019-10-17
JP6205416B2 (ja) 2017-09-27
EP2873071A1 (en) 2015-05-20
CN107403625B (zh) 2021-06-04
EP2688066A1 (en) 2014-01-22
JP2020091500A (ja) 2020-06-11
JP6453961B2 (ja) 2019-01-16
TW201739272A (zh) 2017-11-01
CN107424618A (zh) 2017-12-01
CN107403626B (zh) 2021-01-08
CN107403626A (zh) 2017-11-28
JP2015526759A (ja) 2015-09-10
EP3327721B1 (en) 2020-11-25
EP3327721A1 (en) 2018-05-30
TW201412145A (zh) 2014-03-16
CN107591160A (zh) 2018-01-16
KR20150032704A (ko) 2015-03-27
EP3813063A1 (en) 2021-04-28
TWI691214B (zh) 2020-04-11
JP2017207789A (ja) 2017-11-24
KR20200077601A (ko) 2020-06-30
CN104428833A (zh) 2015-03-18
CN107424618B (zh) 2021-01-08
CN107403625A (zh) 2017-11-28
JP6676138B2 (ja) 2020-04-08
US9837087B2 (en) 2017-12-05
US9460728B2 (en) 2016-10-04
EP2873071B1 (en) 2017-12-13
CN107591159A (zh) 2018-01-16
CN107591160B (zh) 2021-03-19
US20170061974A1 (en) 2017-03-02
JP2019040218A (ja) 2019-03-14
WO2014012944A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
CN104428833B (zh) 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备
US11798568B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160713

Address after: Amsterdam

Applicant after: Dolby International AB

Address before: I Si Eli Murli Nor, France

Applicant before: Thomson Licensing SA

GR01 Patent grant
GR01 Patent grant