CN107424618B - 用于对hoa音频信号进行解码的方法、设备和计算机可读介质 - Google Patents

用于对hoa音频信号进行解码的方法、设备和计算机可读介质 Download PDF

Info

Publication number
CN107424618B
CN107424618B CN201710829639.4A CN201710829639A CN107424618B CN 107424618 B CN107424618 B CN 107424618B CN 201710829639 A CN201710829639 A CN 201710829639A CN 107424618 B CN107424618 B CN 107424618B
Authority
CN
China
Prior art keywords
hoa
channel
audio signal
rotation
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710829639.4A
Other languages
English (en)
Other versions
CN107424618A (zh
Inventor
J.贝姆
S.科唐
A.克鲁格
P.贾克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN107424618A publication Critical patent/CN107424618A/zh
Application granted granted Critical
Publication of CN107424618B publication Critical patent/CN107424618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了用于对HOA音频信号进行解码的方法、设备和计算机可读介质。一种用于对多信道HOA音频信号进行编码以便降噪的方法,包括以下步骤:使用逆自适应DSHT对信道进行解相关(81),所述逆自适应DSHT包括旋转运算(330)和逆DSHT(810),所述旋转运算旋转iDSHT的空间采样网格;对每个经解相关的信道进行感知编码(82);对旋转信息(SI)进行编码,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储经感知编码的信道和经编码的旋转信息。

Description

用于对HOA音频信号进行解码的方法、设备和计算机可读介质
本申请是基于申请号为201380036698.6、申请日为2013年7月16日、发明名称为“用于对多信道HOA音频信号进行编码以便降噪的方法和设备以及用于对多信道HOA音频信号进行解码以便降噪的方法和设备”的专利申请的分案申请。
技术领域
本发明涉及用于对多信道高阶高保真度立体声响复制音频信号进行编码以便降噪的方法和设备、以及对多信道高阶高保真度立体声响复制音频信号进行解码以便降噪的方法和设备。
背景技术
高阶高保真度立体声响复制(Higher Order Ambisonics,HOA)是多信道声场表示[4],并且HOA信号是多信道音频信号。在特定扬声器装配上回放某些多信道音频信号表示,特别是HOA表示,需要特殊的呈现,这通常包括矩阵化运算。在解码之后,高保真度立体声响复制(Ambisonics)信号被“矩阵化”,亦即,被映射到与例如扬声器的实际空间位置相对应的新的音频信号。通常,在单个信道之间存在高的互相关性。
问题是经历到在矩阵化运算之后编码噪声增大。在现有技术下,原因似乎是未知的。当在通过感知编码器进行压缩之前例如通过离散球面谐波变换 (Discrete SphericalHarmonics Transform,DSHT)将HOA信号变换到空间域时,也发生该效应。
用于高阶高保真度立体声响复制音频信号表示的压缩的通常方法是将独立的感知编码器应用于个体高保真度立体声响复制系数信道[7]。具体地,感知编码器仅考虑对在每个个体单信道信号中发生的噪声掩蔽效应进行编码。然而,这种效应典型地是非线性的。如果将这种单信道矩阵化成新信号,则可能发生噪声去掩蔽(unmasking)。当在用感知编码器进行压缩之前通过离散球面谐波变换将高阶高保真度立体声响复制信号变换到空间域时,也发生该效应[8]。
这种多信道音频信号表示的传输或存储通常要求适当的多信道压缩技术。通常,在最终将I个经解码的信号
Figure GDA0002568056690000021
矩阵化为J个新信号
Figure GDA0002568056690000022
之前,执行与信道无关的感知解码。术语矩阵化表示以加权的方式添加或混合经解码的信号
Figure GDA0002568056690000023
将所有的信号
Figure GDA0002568056690000024
以及所有的新信号
Figure GDA0002568056690000025
布置在根据如下的矢量中:
Figure GDA0002568056690000026
Figure GDA0002568056690000027
术语“矩阵化”源自以下事实:在数学上通过以下矩阵运算从
Figure GDA0002568056690000028
获得
Figure GDA0002568056690000029
Figure GDA00025680566900000210
其中,A表示由混合权重(mixing weight)构成的混合矩阵(mixing matrix)。在此同义地使用术语“混合”和“矩阵化”。混合/矩阵化用于呈现任何特定扬声器装配的音频信号的目的。矩阵依赖的特定的个体扬声器装配以及因此用于在运算期间的矩阵化的矩阵在感知编码阶段通常是未知的。
发明内容
本发明提供对多信道高阶高保真度立体声响复制音频信号进行编码和/ 或解码以便获得降噪的改善。具体地,本发明提供对3D音频比率压缩抑制编码噪声解蔽(de-masking)的方式。
本发明描述使(不期望的)噪声去掩蔽效应最小化的自适应离散球面谐波变换(aDSHT)的技术。此外,描述如何可以将aDSHT集成在压缩编码器架构中。所描述的技术至少对于HOA信号是特别有利的。本发明的一个优点是减少要传输的边信息(sideinformation)的量。原则上,仅需要传输旋转轴和旋转角。可以通过所传输的信道的数量,间接地用信号通知DSHT 采样网格。与需要传输多于一半的相关矩阵的其它方法(例如Karhunen Loève变换(KLT))相比,该边信息的量非常小。
根据本发明的一个实施例,用于对多信道HOA音频信号进行编码以便降噪的方法包括以下步骤:使用逆自适应DSHT对信道进行解相关,所述逆自适应DSHT包括旋转运算和逆DSHT(iDSHT),所述旋转运算旋转iDSHT 的空间采样网格;对每个经解相关的信道进行感知编码;对旋转信息进行编码,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储经感知编码的音频信道和经编码的旋转信息。使用逆自适应DSHT对信道进行解相关的步骤在原则上是空间编码步骤。
根据本发明的一个实施例,用于对具有降低的噪声的经编码的多信道 HOA音频信号进行解码的方法包括以下步骤:接收经编码的多信道HOA音频信号和信道旋转信息;对所接收的数据进行解压缩,其中使用感知解码;使用自适应DSHT(aDSHT)对每个信道进行空间解码,使经感知解码和空间解码的信道相关,其中执行根据所述旋转信息的aDSHT的空间采样网格的旋转;以及,对相关的经感知解码和空间解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现的音频信号。
公开一种用于对多信道HOA音频信号进行编码的设备。公开一种用于对多信道HOA音频信号进行解码的设备。
一方面,计算机可读介质具有可执行的指令,以使计算机执行包括以上公开的步骤的用于进行编码的方法,或者执行包括以上公开的步骤的用于进行解码的方法。在从属权利要求、下面的描述以及附图中公开本发明的有利的实施例。
附图说明
参考附图描述本发明的示例性实施例,附图中:
图1示出用于对M个系数的块进行比率压缩的已知的编码器和解码器;
图2示出使用传统的DSHT(离散球面谐波变换)和传统的逆DSHT将 HOA信号变换到空间域中的已知的编码器和解码器;
图3示出使用自适应DSHT和自适应逆DSHT将HOA信号变换到空间域中的编码器和解码器;
图4示出测试信号;
图5示出在编码器和解码器构建块中使用的码本的球面采样位置的示例;
图6示出信号自适应DSHT构建块(pE和pD);
图7示出本发明的第一实施例;
图8示出编码处理和解码处理的流程图;以及
图9示出本发明的第二实施例。
具体实施方式
图2示出使用逆DSHT将HOA信号变换到空间域中的已知的系统。对信号进行使用iDSHT 21的变换、比率压缩E1/解压缩D1,并且使用DSHT 24 重新变换到系数域S24。与此不同,图3示出根据本发明的一个实施例的系统:已知的解决方案的DSHT处理块被替换为分别控制逆自适应DSHT和自适应DSHT的处理块31、34。在比特流bs内传输边信息SI。该系统包括用于对多信道HOA音频信号进行编码的设备的元件以及用于对多信道HOA 音频信号进行解码的设备的元件。
在一个实施例中,用于对多信道HOA音频信号进行编码以便降噪的设备ENC包括使用逆自适应DSHT(iaDSHT)对信道B进行解相关的解相关器31,所述逆自适应DSHT包括旋转运算单元311和逆DSHT(iDSHT)310。旋转运算单元旋转iDSHT的空间采样网格。解相关器31提供经解相关的信道Wsd和包括旋转信息的边信息SI。此外,该设备包括用于对每个经解相关的信道Wsd进行感知编码的感知编码器32以及用于对旋转信息进行编码的边信息编码器。旋转信息包括定义所述旋转运算的参数。感知编码器32提供经感知编码的音频信道和经编码的旋转信息,从而降低数据率。最后,用于进行编码的设备包括用于从经感知编码的音频信道和经编码的边信息创建比特流bs以及用于传输或存储比特流bs的接口装置320。
用于对具有降低的噪声的多信道HOA音频信号进行解码的设备DEC包括:用于接收经编码的多信道HOA音频信号和信道旋转信息的接口装置 330;以及用于对所接收的数据进行解压缩的解压缩模块33,其包括用于对每个信道进行感知解码的感知解码器。解压缩模块33提供所恢复的经感知解码的信道W’sd和所恢复的边信息SI’。此外,用于进行解码的设备包括:使用自适应DSHT(aDSHT)使经感知解码的信道W’sd相关的相关器34,其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转;以及用于对相关的经感知解码的信道进行矩阵化的混合器MX,其中获得映射到扬声器位置的可再现的音频信号。在相关器34内的DSHT单元340中,至少可以执行aDSHT。在一个实施例中,在网格旋转单元341中完成空间采样网格的旋转,这在原则上重新计算原始的DSHT采样点。在另一实施例中,在DSHT单元340内执行旋转。
下面给出定义和描述去掩蔽的数学模型。假设给定的离散时间多信道信号包括I个信道xi(m),i=1,...,I,其中m表示时间样本索引(time sample index)。个体信号可以是实数值或复数值。考虑以时间样本索引mSTART+1:开始的M个样本的帧,其中假设个体信号是固定的。根据下式在矩阵
Figure GDA0002568056690000056
内布置对应的样本:
X:=[x(mSTART+1),...,x(mSTART+M)] (1)
其中
x(l):=[x1(m),...,xI(m)]T (2)
其中(·)T表示转置。对应的经验相关矩阵由下式给出:
x:=X XH (3)
其中(·)H表示联合复共轭和转置。
现在假设多信道信号帧已被编码,从而在重构时引入编码误差噪声。因此,用
Figure GDA0002568056690000051
表示的经重构的帧样本的矩阵根据下式由真实样本矩阵X和编码噪声分量E构成:
Figure GDA0002568056690000052
其中
E:=[e(mSTART+1),...,e(mSTART+L)] (5)
并且
e(m):=[e1(m),...,eI(m)]T (6)
因为假设每个信道已经被独立地编码,所以对于i=1,...,I,可以假设编码噪声信号ei(m)彼此独立。利用该特性以及噪声信号是零均值的假设,噪声信号的经验相关矩阵由如下对角矩阵给出:
Figure GDA0002568056690000053
这里,
Figure GDA0002568056690000054
表示对角矩阵,在其对角线上具有经验噪声信号幂
Figure GDA0002568056690000055
另外的基本假设是,执行编码使得对于每个信道满足预定义的信噪比(SNR)。在不失一般性的情况下,假设预定义的SNR是对于每个信道相等的,亦即:
Figure GDA0002568056690000061
其中
Figure GDA0002568056690000062
从现在开始,考虑将经重构的信号矩阵化为J个新信号yj(m),j=1,...,J。在不引入任何编码误差的情况下,经矩阵化的信号的样本矩阵可以表示为:
Y=A X (11)
其中
Figure GDA0002568056690000063
表示混合矩阵,并且其中
Y:=[y(mSTART+1),...,y(mSTART+M)] (12)
其中
y(m):=[y1(m),...,yJ(m)]T (13)
然而,由于编码噪声,经矩阵化的信号的样本矩阵被给出为:
Figure GDA0002568056690000064
其中,N是包含经矩阵化的噪声信号的样本的矩阵。其可以表示为:
N=AE (1 5)
N=[n(mSTART+1) ... n(mSTART+M) (16)
其中
n(m):=[n1(m) ... nJ(m)]T (17)
是在时间样本索引m时的所有的经矩阵化的噪声信号的矢量。
使用等式(11),经矩阵化的无噪声信号的经验相关矩阵可以用公式表示为:
Y=A∑XAH (18)
因此,作为∑Y的对角线上的第j个元素的第j个经矩阵化的无噪声信号的经验幂(empirical power)可以写为:
Figure GDA0002568056690000065
其中aj是根据下式的AH的第j列:
AH=[a1,...,aJ] (20)
类似地,利用等式(15),经矩阵化的噪声信号的经验相关矩阵可以写为:
N=A∑EAH (21)
作为∑N的对角线上的第j个元素的第j个经矩阵化的噪声信号的经验幂由下式给出:
Figure GDA0002568056690000071
因此,对于通过下式定义的经矩阵化的信号的经验SNR,
Figure GDA0002568056690000072
可以使用等式(19)和(22)重新用公式表示为:
Figure GDA0002568056690000073
通过将∑X如下地分解成其对角线分量和非对角线分量:
Figure GDA0002568056690000074
以及
Figure GDA0002568056690000075
并且通过利用从假设(7)和(9)以及在所有信道上的SNR常量得到的如下特性:
Figure GDA0002568056690000076
最终获得关于经矩阵化的信号的经验SNR的所期望的表达式:
Figure GDA0002568056690000077
Figure GDA0002568056690000078
从该表达式可以看出,从预定义的SNR(SNRx),通过乘以取决于信号相关矩阵∑x的对角线分量和非对角线分量的项来获得该SNR。具体地,如果信号xi(m)彼此不相关,使得∑X,NG变成零矩阵,则经矩阵化的信号的经验 SNR等于预定义的SNR,亦即:
Figure GDA0002568056690000079
对于所有的j=1,...,J,如果∑X,NG=OI×I (30)
其中OI×I表示具有I个行和I个列的零矩阵。也就是说,如果信号xi(m)是相关的,则经矩阵化的信号的经验SNR可能偏离预定义的SNR。在最差的情况下,
Figure GDA00025680566900000710
可能比SNRx低得多。这种现象在此被称为矩阵化时的噪声去掩蔽。
下面的部分给出对高阶高保真度立体声响复制(HOA)的简要介绍,并定义要处理的信号(数据率压缩)。
高阶高保真度立体声响复制(HOA)基于对在被假设为无声源的所关注的紧密区域内的声场的描述。在该情况下,在时间t时和在所关注的区域内的(以球面坐标的)位置x=[r,θ,φ]T处的声压p(t,x)的时空行为在物理上完全由齐次波动等式来确定。可以示出,相对于时间的声压的傅立叶变换,亦即,
Figure GDA00025680566900000812
其中ω表示角频率(并且
Figure GDA00025680566900000813
对应于
Figure GDA0002568056690000081
可以根据[10]展开为球面谐波级数(SHs):
Figure GDA0002568056690000082
在等式(32)中,cs表示声音的速度,并且
Figure GDA0002568056690000083
表示角波数。此外,jn(·) 指示第一类的n阶球面贝塞耳(Bessel)函数,
Figure GDA0002568056690000084
表示n阶m次球面谐波 (SH)。关于声场的完整信息实际上包含在声场系数
Figure GDA0002568056690000085
内。
应当注意到,SHs一般是复数值的函数。然而,通过它们的适当的线性组合,能够获得实数值的函数,并且关于这些函数,能够进行展开。
与等式(32)中的压力声场描述相关地,源场(source field)可以被定义为:
Figure GDA0002568056690000086
其中,源场或幅值密度(amplitude density)[9]D(k cs,Ω)取决于角波数和角方向Ω=[θ,φ]T。源场可以包括远场/近场、离散/连续的源[1]。根据下式[1],源场系数
Figure GDA0002568056690000087
与声场系数
Figure GDA0002568056690000088
相关:
Figure GDA0002568056690000089
Figure GDA00025680566900000814
其中
Figure GDA0002568056690000091
是第二类的球面汉克尔(Hankel)函数,rs是离开原点的源距离。
可以在频域或时域中将HOA域中的信号表示为源场或声场系数的逆傅立叶变换。下面的描述将假设使用有限数量的源场系数的时域表示:
Figure GDA0002568056690000092
所述有限数量:(33)中的无穷级数在n=N处被截断。截断对应于空间带宽限制。系数(或HOA信道)的数量由下式给出:
O3D=(N+1)2对于3D (36)
或者对于仅仅2D的描述,由O2D=2N+1给出。系数
Figure GDA0002568056690000093
包括用于由扬声器进行稍后再现的一个时间样本m的音频信息。它们可以被存储或传输,并且因此是数据率压缩的主体。系数的单个时间样本m可以由具有O3D个元素的矢量b(m)表示:
Figure GDA0002568056690000094
并且通过矩阵B表示M个时间样本的块:
B:=[b(mSTART+1),b(mSTART+2),..,b(mSTART+M)] (38)
可以通过圆形谐波的展开来得到声场的二维表示。这可以被看作是使用固定的倾斜
Figure GDA0002568056690000095
系数的不同加权以及减小到O2D个系数(m=±n)的集合的上述一般描述的特殊情况。因此,所有下面的考虑也适用于2D表示,然后术语球面(sphere)需要替换为术语圆形(circle)。
下面描述从HOA系数域到基于信道的空间域的变换,反之亦然。可以对单位球面上的l个离散的空间样本位置Ωl=[θl,φl]T使用时域HOA系数重写等式(33):
Figure GDA0002568056690000096
假设Lsd=(N+1)2个球面样本位置Ωl,这可以针对HOA数据块B以矢量标记来重写:
W=Ψi B (36)
其中,W:=[w(mSTART+1),w(mSTART+2),..,w(mSTART+M)],并且
Figure GDA0002568056690000097
表示Lsd个多信道信号的单个时间样本,矩阵
Figure GDA0002568056690000098
其中矢量
Figure GDA0002568056690000099
如果非常规律地选择球面样本位置,则存在矩阵Ψf,其中:
ΨfΨi=I, (37)
其中,I是O3Dx O3D的单位矩阵。然后,到等式(36)的对应变换可以定义为:
B=Ψf W (38)
等式(38)将Lsd个球面信号变换到系数域,并可重写为正向变换(forwardtransform):
B=DSHT{W}, (39)
其中,DSHT{}表示离散球面谐波变换。对应的逆变换将O3D系数信号变换到空间域以形成Lsd个基于信道的信号,并且等式(36)变成:
W=iDSHT{B} (40)
这里,离散球面谐波变换的该定义对于关于HOA数据的数据率压缩的考虑是足够的,因为开始于给出的系数B并且仅关注B=DSHT{iDSHT{B}} 的情况。在[2]中给出了离散球面谐波变换的更严格的定义。可以在[3]、[4]、 [6]、[5]中回顾DSHT的适当的球面样本位置以及得到这样的位置的过程。在图5中示出采样网格的示例。
具体地,图5示出在编码器和解码器构建块pE、pD中使用的码本的球面采样位置的示例,即,在图5a)中对于Lsd=4,在图5b)中对于LSd=9,在图5c)中对于LSd=16,并且在图5d)中对于LSd=25。
下面描述高阶高保真度立体声响复制系数数据的比率压缩和噪声去掩蔽。首先,定义测试信号以强调下面使用的一些特性。
位于方向
Figure GDA0002568056690000101
上的单个远场源由M个离散时间样本的矢量 g=[g(m),...,g(M)]T表示,并且可以通过编码由HOA系数的块表示:
Bg=y gT (45)
其中,矩阵Bg类似于等式(38),并且编码矢量
Figure GDA0002568056690000102
由在方向
Figure GDA0002568056690000103
上评估的共轭复数球面谐波构成(如果使用实数值的SH,则该共轭无效)。测试信号可以被看作 HOA信号的最简单的情况。更复杂的信号由许多这种信号的叠加构成。
考虑HOA信道的直接压缩,下面示出为何在HOA系数信道被压缩时出现噪声去掩蔽。实际的HOA数据块B的O3D系数信道的直接压缩和解压缩将引入类似于等式(4)的编码噪声E:
Figure GDA0002568056690000104
假设如等式(9)中的常量
Figure GDA00025680566900001112
为了在扬声器上重放该信号,需要呈现该信号。可以将该处理描述为:
Figure GDA0002568056690000111
其中,解码矩阵
Figure GDA0002568056690000112
(并且AH=[a1,...,aL]),并且矩阵
Figure GDA0002568056690000113
保持L个扬声器信号的M个时间样本。这类似于(14)。应用所有上述考虑,扬声器信道l的SNR可以描述为(类似于等式(29)):
Figure GDA0002568056690000114
其中,
Figure GDA0002568056690000115
是第o个对角线元素,并且∑B,NG保持:
B=B BH (49)
的非对角线元素。
解码矩阵A不应当受到影响(因为其应当能够针对任意的扬声器布局进行解码),因此矩阵∑B需要变成对角线以获得
Figure GDA0002568056690000116
通过等式(45) 和(49),(B=Bg),∑B=y gHg yH=c yyH变成具有常量标量值的非对角线 c=gTg。与
Figure GDA0002568056690000117
相比,在扬声器信道处的信噪比
Figure GDA00025680566900001113
降低。但是由于声源信号g和扬声器布局在编码阶段通常都是未知的,所以系数信道的直接有损压缩可能导致不可控制的去掩蔽效应,特别是对于低数据率。
下面描述为何在使用DSHT之后在空间域中压缩HOA系数时出现噪声去掩蔽。
在压缩之前使用等式(36)中给出的球面谐波变换将HOA系数数据的当前块B变换到空间域中:
WSd=Ψi B (50)
其中,逆变换矩阵Ψi与LSd≥O3D个空间样本位置有关,并且空间信号矩阵
Figure GDA0002568056690000118
对这些进行压缩和解压缩,并且添加量化噪声(类似于等式 (4)):
Figure GDA0002568056690000119
其中,编码噪声分量E根据等式(5)。再次假设对于所有空间信道均恒定的 SNR,即SNRSd。使用变换矩阵Ψf将该信号变换到系数域等式(42),其具有特性(41):ΨfΨi=I。系数的新的块
Figure GDA00025680566900001110
变成:
Figure GDA00025680566900001111
通过应用解码矩阵
Figure GDA0002568056690000121
将该信号呈现为L个扬声器信号
Figure GDA0002568056690000122
这可以使用(52)和A=ADΨf来重写:
Figure GDA0002568056690000123
这里,A变成具有
Figure GDA0002568056690000124
的混合矩阵。等式(53)应当被看作类似于等式(14)。再次应用所有上述考虑,扬声器信道l的SNR可以被描述为(类似于等式(29)):
Figure GDA0002568056690000125
其中,
Figure GDA0002568056690000126
是第l个对角线元素,并且
Figure GDA0002568056690000127
保持:
Figure GDA0002568056690000128
的非对角线元素。
因为决不会影响AD(由于其应当可以针对任意的扬声器布局来呈现),并且因此决不会对A有任何影响,所以
Figure GDA0002568056690000129
需要变成接近于对角线以保持所期望的SNR:使用来自等式(45)(B=Bg)的简单测试信号,
Figure GDA00025680566900001210
变成:
Figure GDA00025680566900001211
其中,c=gTg恒定。使用固定的球面谐波变换(Ψi、Ψf固定),
Figure GDA00025680566900001212
可以只在非常稀少的情况下变成对角线,并且变得更差,如上文所述,项
Figure GDA00025680566900001213
取决于系数信号空间特性。因此,球面域中的HOA系数的低比率有损压缩可能导致SNR的降低和不可控制的去掩蔽效应。
本发明的基本思想是通过使用自适应DSHT(aDSHT)来最小化噪声去掩蔽,自适应DSHT由与HOA输入信号的空间特性有关的DSHT的空间采样网格的旋转以及DSHT本身构成。
下面描述具有与HOA系数的数量O3D相匹配的许多球面位置LSd的信号自适应DSHT(aDSHT),(36)。首先,选择如传统的非自适应DSHT中的默认球面样本网格。对于M个时间样本的块,旋转球面样本网格使得最小化项
Figure GDA00025680566900001214
的对数,其中,
Figure GDA00025680566900001219
Figure GDA00025680566900001216
(具有矩阵行索引l和列索引j)的元素的绝对值,并且
Figure GDA00025680566900001220
Figure GDA00025680566900001218
的对角线元素。这等于最小化等式(54)的项
Figure GDA0002568056690000131
直观化地,如图4所示,该处理对应于以单个空间样本位置匹配最强的源方向的方式的DSHT的球面采样网格的旋转。使用来自等式(45)(B=Bg) 的简单测试信号,可以示出等式(55)的项WSd变成矢量
Figure GDA0002568056690000132
(其中,除了一个元素之外的所有元素都接近于零)。因此,
Figure GDA0002568056690000133
变成接近于对角线,并且可以保持所期望的SNR
Figure GDA0002568056690000134
图4示出被变换到空间域的测试信号Bg。在图4a)中,使用默认的采样网格,并且在图4b)中,使用aDSHT的旋转的网格。通过对应的样本位置周围的Voronoi单元的颜色/灰度变化示出空间信道的相关的
Figure GDA0002568056690000135
的值(以 dB)。空间结构的每个单元表示采样点,并且单元的亮度/暗度表示信号强度。如同在图4b)中可以看到的,发现最强的源方向,并且旋转采样网格,使得侧面(side)之一(亦即,单个空间样本位置)匹配最强的源方向。将该侧面图示为白色(对应于强的源方向),而其它侧面是暗的(对应于低的源方向)。在图4a)中,亦即,在旋转之前,没有侧面匹配最强的源方向,并且若干侧面是更深/更浅的灰色,这意味着在相应的采样点处接收到相当大的 (但不是最大的)强度的音频信号。
下面描述在压缩编码器和解码器内使用的aDSHT的主要构建块。
在图6中示出编码器和解码器处理构建块pE和pD的细节。两个模块拥有作为DSHT的基础的相同的球面采样位置网格的码本。最初,使用系数的数量O3D根据通用码本选择具有LSd=O3D个位置的模块pE中的基础网格。必须将LSd传输给块pD进行初始化以选择与图3中所指示的相同的基础采样位置网格。通过矩阵
Figure GDA0002568056690000136
描述基础采样网格,其中Ωl=[θl,φl]T定义单位球面上的位置。如上文所述,图5示出基本网格的示例。
对旋转发现块(构建块“发现最佳旋转”)320的输入是系数矩阵B。该构建块负责旋转基础采样网格,使得等式(57)的值最小化。该旋转用“轴 -角”表示来表示,并且将与该旋转有关的压缩的轴ψrot和旋转角
Figure GDA0002568056690000137
输出到该构建块作为边信息SI。可以通过从原点到单位球面上的位置的单位矢量来描述旋转轴ψrot。在球面坐标中,这可以通过两个角来结合:ψrot=[θaxis,φaxis]T,具有不需要传输的一个隐含的相关半径。通过用信号通知重用先前使用的值以创建边信息SI的特殊逃逸模式(escape pattern)对三个角θaxis、φaxis
Figure GDA0002568056690000141
进行量化和熵编码。
构建块“构建Ψi”330将旋转轴和角解码为
Figure GDA0002568056690000142
Figure GDA0002568056690000143
并且将该旋转应用于基础采样网格
Figure GDA0002568056690000144
以得出旋转网格
Figure GDA0002568056690000145
其输出从矢量
Figure GDA0002568056690000146
得出的iDSHT矩阵Ψi=[y1,...,yLsd]。
在构建块“iDSHT”310中,通过WSd=Ψi B将HOA系数数据的实际块 B变换到空间域中。
解码处理块pD的构建块“构建Ψf”350接收旋转轴和角并将其解码为
Figure GDA0002568056690000147
Figure GDA0002568056690000148
并且将该旋转应用于基础采样网格
Figure GDA0002568056690000149
以得出旋转网格
Figure GDA00025680566900001410
通过用矢量
Figure GDA00025680566900001411
得到iDSHT矩阵
Figure GDA00025680566900001412
并且在解码侧计算DSHT矩阵
Figure GDA00025680566900001413
在解码器处理块34内的构模块“DSHT”340中,将空间域数据的实际块
Figure GDA00025680566900001414
变换回到系数域数据的块:
Figure GDA00025680566900001415
下面描述包括压缩编解码器的总体架构的各种有利的实施例。第一实施例使用单个aDSHT。第二实施例使用谱带中的多个aDSHT。
在图7中示出第一(“基本”)实施例。具有O3D个系数信道b(m)的索引 m的HOA时间样本首先被存储在缓冲器71中以形成M个样本的块和时间索引μ。在上述的构建块pE 72中使用自适应iDSHT,将B(μ)变换到空间域。将空间信号块WSd(μ)输入到LSd个音频压缩单声道(mono)编码器73(如AAC 或mp3编码器)或单个AAC多信道编码器(LSd个信道)。比特流S73包括具有集成的边信息SI的多个编码器比特流帧的复用的帧或集成了边信息SI (优选地作为辅助数据)的单个多信道比特流。
在一个实施例中,相应的压缩解码器构建块包括用于将比特流S73分用为LSd个比特流和边信息SI并且将该比特流馈送给LSd个单声道解码器的分用器D1,将它们解码为具有M个样本的LSd个空间音频信道以形成块
Figure GDA00025680566900001416
并且将
Figure GDA00025680566900001417
和SI馈送给pD。在不对比特流进行复用的另一实施例中,压缩解码器构建块包括接收器74,接收器74用于接收比特流并且将其解码为 LSd个多信道信号
Figure GDA00025680566900001418
对SI解包,并且将
Figure GDA00025680566900001420
和SI馈送给pD。
在解码器处理块pD 75中,使用自适应DSHT和SI将
Figure GDA00025680566900001419
变换到系数域,以形成HOA信号的块B(μ),其被存储在缓冲器76中以便解帧,以形成系数的时间信号b(m)。
在某些条件下,上述的第一实施例可能具有两个缺点:首先,由于空间信号分布的改变,可能存在来自先前块(即,来自块μ至μ+1)的组块伪像 (blocking artifact);其次,可能同时存在多于一个的强信号,并且aDSHT 的解相关效应可能相当小。
在工作于频域中的第二实施例中解决两个缺点。aDSHT应用于组合多个频带数据的标度因子带数据。通过利用重叠添加(Overlay Add,OLA)处理重叠时频变换(TFT)的块来避免组块伪像。可以通过使用本发明在J个谱带内以传输SIj的数据率中的增大的开销的成本来实现改善的信号解相关。
下面描述图9所示的第二实施例的一些更多的细节:对信号b(m)的每个系数信道进行时频变换(TFT)912。广泛使用的TFT的示例是修正余弦变换(MDCT)。在TFT成帧单元911中,构造50%的重叠数据块(块索引μ)。 TFT块变换单元912执行块变换。在谱带化单元913中,组合TFT频带以形成J个新的谱带和有关的信号
Figure GDA0002568056690000151
其中KJ表示带j中的频率系数的数量。在多个处理模块914中处理这些谱带。对于这些谱带中的每一个,存在一个创建信号
Figure GDA0002568056690000152
和边信息SIj的处理块ρEj。谱带可以匹配有损音频压缩方法的谱带(如AAC/mp3标度因子带),或者具有更粗糙的粒度。在后者的情况下,不利用TFT块915的信道无关的有损音频压缩需要重新布置所述带化。处理块914操作如同将恒定的比特率分配给每个音频信道的频域中的LSd多信道音频编码器。在比特流包装块916中格式化比特流。
解码器接收或存储比特流(至少其若干部分),将其解包921,并且将用于音频数据馈送给不利用TFT进行信道无关的音频解码的多信道音频解码器922,并且将边信息SIj馈送给多个解码处理块pDj 923。用于不利用TFT 进行信道无关的音频解码的音频解码器922对音频信息进行解码,并且格式化J个谱带信号
Figure GDA0002568056690000153
作为给解码处理块pDj 923的输入,其中,将这些信号变换到HOA系数域以形成
Figure GDA0002568056690000154
在去谱带化块924中,重组J个谱带以匹配TFT的带化。将它们变换到iTFT和OLA块925中的时域,该块使用块重叠的重叠添加(OLA)处理。最后,在TFT解帧块926中,iTFT和OLA 模块925的输出被解帧,以创建信号
Figure GDA0002568056690000155
本发明基于如下发现:由信道之间的互相关性产生SNR增加。感知编码器仅考虑出现在每个个体单信道信号内的编码噪声掩蔽效应。然而,这种效应典型地是非线性的。因此,在将这样的单信道矩阵化为新的信号时,可能发生噪声去掩蔽。这是通常在矩阵化运算之后编码噪声增大的原因。
本发明提出通过使不需要的噪声去掩蔽效应最小化的自适应离散球面谐波变换(aDSHT)对信道进行解相关。aDSHT被集成在压缩编码器和解码器架构内。因为其包括针对HOA输入信号的空间特性来调节DSHT的空间采样网格的旋转运算,所以其是自适应的。aDSHT包括自适应旋转和实际的传统DSHT。实际的DSHT是可以如现有技术中描述的那样地构造的矩阵。对该矩阵应用自适应旋转,从而导致信道间相关性的最小化,并且因此导致矩阵化之后的SNR增加的最小化。通过自动搜索运算(而不是分析地) 发现旋转轴和角。对旋转轴和角进行编码和传输,以使得能够在解码之后和在矩阵化之前进行重新相关,其中使用逆自适应DSHT(iaDSHT)。
在一个实施例中,执行时频变换(TFT)和谱带化,并且将aDSHT/iaDSHT 独立地应用于每个谱带。
图8a)示出本发明的一个实施例中的用于对多信道HOA音频信号进行编码以便降噪的方法的流程图。图8b)示出本发明的一个实施例中的用于对多信道HOA音频信号进行解码以便降噪的方法的流程图。
在图8a)所示的实施例中,用于对多信道HOA音频信号进行编码以便降噪的方法包括以下步骤:使用逆自适应DSHT对信道进行解相关81,所述逆自适应DSHT包括旋转运算和逆DSHT 812,所述旋转运算旋转811 iDSHT的空间采样网格;对每个经解相关的信道进行感知编码82;对(作为边信息SI的)旋转信息进行编码83,所述旋转信息包括定义所述旋转运算的参数;以及,传输或存储84经感知编码的音频信道和经编码的旋转信息。
在一个实施例中,逆自适应DSHT包括以下步骤:选择初始的默认球面样本网格;确定最强的源方向;以及,对M个时间样本的块,旋转球面样本网格,使得单个空间样本位置匹配最强的源方向。
在一个实施例中,旋转球面样本网格,使得以下项的对数最小化:
Figure GDA0002568056690000161
其中,
Figure GDA0002568056690000178
Figure GDA0002568056690000179
(具有矩阵行索引l和列索引j)的元素的绝对值,并且
Figure GDA00025680566900001710
Figure GDA0002568056690000173
的对角线元素,其中
Figure GDA0002568056690000174
并且WSd是音频信道的数量乘以处理样本的块的数量的矩阵,并且WSd是aDSHT的结果。
在图8b)所示的实施例中,一种用于对具有降低的噪声的经编码的多信道HOA音频信号进行解码的方法包括以下步骤:接收85经编码的多信道 HOA音频信号和信道旋转信息(在边信息SI内);对接收的数据进行解压缩86,其中使用感知解码;使用自适应DSHT对每个信道进行空间解码87,其中执行DSHT872和根据所述旋转信息的DSHT的空间采样网格的旋转 871,并且其中对经感知解码的信道进行重新相关;以及,对重新相关的经感知解码的信道进行矩阵化88,其中获得映射到扬声器位置的可再现的音频信号。
在一个实施例中,自适应DSHT包括以下步骤:选择自适应DSHT的初始的默认球面样本网格;以及,对M个时间样本的块,根据所述旋转信息来旋转球面样本网格。
在一个实施例中,旋转信息是具有三个分量的空间矢量
Figure GDA0002568056690000175
注意,旋转轴ψrot可以用单位矢量来描述。
在一个实施例中,旋转信息是由3个角构成的矢量:θaxis、φaxis
Figure GDA0002568056690000176
其中,θaxis、φaxis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息,并且
Figure GDA0002568056690000177
定义绕该轴的旋转角。
在一个实施例中,通过用信号通知(亦即,指示)重用先前的值以便创建边信息(SI)的逃逸模式(亦即,专用比特模式),对角进行量化和熵编码。
在一个实施例中,一种用于对多信道HOA音频信号进行编码以便降噪的设备包括:解相关器,用于使用逆自适应DSHT对信道进行解相关,所述逆自适应DSHT包括旋转运算和逆DSHT(iDSHT),其中旋转运算旋转 iDSHT的空间采样网格;感知编码器,用于对每个经解相关的信道进行感知编码;边信息编码器,用于对旋转信息进行编码,所述旋转信息包括定义所述旋转运算的参数;以及接口,用于传输或存储经感知编码的音频信道和经编码的旋转信息。
在一个实施例中,一种用于对具有降低的噪声的多信道HOA音频信号进行解码的设备包括:接口装置330,用于接收经编码的多信道HOA音频信号和信道旋转信息;解压缩模块33,用于通过使用用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩;相关器34,用于对经感知解码的信道进行重新相关,其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转;以及混合器,用于对相关的经感知解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现的音频信号。原则上,相关器34 用作空间解码器。
在一个实施例中,一种用于对具有降低的噪声的多信道HOA音频信号进行解码的设备包括:接口装置330,用于接收经编码的多信道HOA音频信号和信道旋转信息;解压缩模块33,用于通过用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩;相关器34,用于使用aDSHT对经感知解码的信道进行相关,其中执行DSHT和根据所述旋转信息的DSHT 的空间采样网格的旋转;以及混合器MX,用于对相关的经感知解码的信道进行矩阵化,其中获得映射到扬声器位置的可再现音频信号。
在一个实施例中,用于进行解码的设备中的自适应DSHT包括用于选择自适应DSHT的初始的默认样本网格的装置、用于对M个时间样本的块根据所述旋转信息旋转默认球面样本网格的旋转处理装置、以及用于对旋转的球面样本网格执行DSHT的变换处理装置。
在一个实施例中,用于进行解码的设备中的相关器34包括用于使用自适应DSHT同时对每个信道进行空间解码的多个空间解码单元922,还包括用于执行去谱带化的去谱带化单元924、以及用于通过重叠添加处理执行逆时频变换的iTFT和OLA单元925,其中所述去谱带化单元将其输出提供给 iTFT和OLA单元。
在所有实施例中,术语降低的噪声至少涉及避免编码噪声去掩蔽。
对音频信号的感知编码表示适合于对音频的人类感知的编码。应当注意,在对音频信号进行感知编码时,通常不对宽带音频信号样本而是在与人类感知有关的个体频带中执行量化。因此,信号功率与量化噪声之间的比率可以在个体频带之间变化。因此,感知编码通常包括减少冗余和/或无关信息,而空间编码通常涉及信道之间的空间关系。
上述的技术可以被看作是对使用Karhunen-Loève变换(KLT)的解相关的替代。本发明的一个优点是极大地减少了边信息量,边信息仅包括三个角。KLT需要块相关矩阵的系数作为边信息,因此需要多得多的数据。此外,在此公开的技术允许对旋转进行调整(或微调),以便减少进行到下一个处理块时的过渡伪像(transition artifact)。这有利于后续的感知编码的压缩质量。
表1提供aDSHT与KLT之间的直接比较。尽管存在一些相似性,但是 aDSHT提供了超过KLT的显著优点。
Figure GDA0002568056690000191
Figure GDA0002568056690000201
表1 aDSHT对KLT的比较
虽然已经示出、描述和指出对本发明的优选的实施例应用的基础的新颖的特征,但是应当理解,本领域的技术人员可以在所描述的设备和方法中,在所公开的装置的形式和细节以及在其操作方面,进行各种省略和替代和变化,而不脱离本发明的精神。显然旨在以基本相同的方式执行基本相同的功能以获得相同的结果的那些元件的所有组合都在本发明的范围内。还充分地预期和设想到从一个所描述的实施例到另一个所描述的实施例的元件的替换。
应当理解的是,仅仅通过示例对本发明进行了描述,可以对细节进行修改,而不脱离本发明的范围。
在本说明书和(适当之处)权利要求书和附图中公开的每个特征可以独立地或以任何适当的组合来提供。
特征可以在适当的情况下被实现为硬件、软件或这二者的组合。连接可以在可应用的情况下被实现为无线连接或者有线的(不必是直接或专用的) 连接。
在权利要求中出现的标号仅作为示例,而不应当具有对权利要求的范围的限定效果。
引用的参考文献
[1]T.D.Abhayapala。Generalized framework for spherical microphonearrays:Spatial and frequency decompo sition。IEEE International Conference onAcoustics,Speech,and Signal Processing(ICASSP)会议,(接受的)第X卷,页,2008年4月,拉斯维加斯,美国。
[2]James R.Driscoll和Dennis M.Healy Jr.。Computing fourier transformsand convolutions on the 2-sphere。Advances in Applied Mathematics, 15:202-250,1994年。
[3]
Figure GDA0002568056690000211
Fliege。Integration nodes for the sphere, http://www.personal.soton.ac.uk/jf1w07/nodes/nodes.html
[4]
Figure GDA0002568056690000212
Fliege和Ulrike Maier。A two-stage approach for computingcubature formulae for the sphere。技术报告,Fachbereich Mathematik,多特蒙德大学,1999年。
[5]R.H.Hardin和N.J.A.Sloabe。网页:Spherical designs,spherical t-designs。http://www2.research.att.com/-njas/sphdesigns
[6]R.H.Hardin和N.J.A.Sloane。Mclaren′s improved snub cube and othernew spherical designs in three dimensions。Discrete and ComputationalGeometry,15:429-441,1996年。
[7]Erik Hellerud、lan Bumett、Audun Solvang和U.Peter Svensson. Encodinghigher order Ambisonics with AAC。第124届AES会议,阿姆斯特丹,2008年5月。
[8]Peter Jax、Jan-Mark Batke、Johannes Boehm和Sven Kordon。Perceptualcoding of HOA signals in spatial domain。欧洲专利申请EP2469741A1 (PD100051)。
[9]Boaz Rafaely。Plane-wave decomposition of the sound field on asphere by spherical convolution。J.Acoust.Soc.Am.,4(116):2149-2157,2004年10月。
[10]Earl G.Williams。Fourier Acoustics,Applied Mathematical Sciences第93卷。Academic Press,1999年。

Claims (5)

1.一种用于对编码的高阶高保真度立体声响复制HOA音频信号进行解码的方法,所述方法包括:
接收编码的HOA音频信号和旋转信息;
基于感知解码对所述编码的HOA音频信号进行解压缩以确定与所述编码的HOA音频信号对应的HOA表示,该HOA表示代表经感知解码的信道;
通过根据旋转信息来旋转自适应DSHT的默认的球面样本网格,确定旋转的变换;以及
基于所述旋转的变换和HOA表示的相乘确定旋转的HOA表示。
2.一种用于对编码的高阶高保真度立体声响复制HOA音频信号进行解码的设备,所述设备包括:
接收器,所述接收器用于接收编码的HOA音频信号和旋转信息;
解码器,所述解码器被配置为:
基于感知解码对所述编码的HOA音频信号进行解压缩以确定与所述编码的HOA音频信号对应的HOA表示,该HOA表示代表经感知解码的信道;
通过根据旋转信息来旋转自适应DSHT的默认的球面样本网格,确定旋转的变换;以及
基于所述旋转的变换和HOA表示的相乘确定旋转的HOA表示。
3.一种包含指令的非暂时性计算机可读介质,所述指令在被处理器运行时执行如权利要求1所述的方法。
4.一种设备,包括:
一个或多个处理器,
一个或多个非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质具有存储在其上的指令,所述指令在被所述一个或多个处理器运行时使所述设备执行如权利要求1所述的方法。
5.一种包括用于执行如权利要求1所述的方法的部件的设备。
CN201710829639.4A 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质 Active CN107424618B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305861.2 2012-07-16
EP12305861.2A EP2688066A1 (en) 2012-07-16 2012-07-16 Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
CN201380036698.6A CN104428833B (zh) 2012-07-16 2013-07-16 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380036698.6A Division CN104428833B (zh) 2012-07-16 2013-07-16 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备

Publications (2)

Publication Number Publication Date
CN107424618A CN107424618A (zh) 2017-12-01
CN107424618B true CN107424618B (zh) 2021-01-08

Family

ID=48874263

Family Applications (6)

Application Number Title Priority Date Filing Date
CN201710829639.4A Active CN107424618B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829636.0A Active CN107591160B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829605.5A Active CN107591159B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829618.2A Active CN107403625B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201380036698.6A Active CN104428833B (zh) 2012-07-16 2013-07-16 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备
CN201710829638.XA Active CN107403626B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质

Family Applications After (5)

Application Number Title Priority Date Filing Date
CN201710829636.0A Active CN107591160B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829605.5A Active CN107591159B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201710829618.2A Active CN107403625B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
CN201380036698.6A Active CN104428833B (zh) 2012-07-16 2013-07-16 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备
CN201710829638.XA Active CN107403626B (zh) 2012-07-16 2013-07-16 用于对hoa音频信号进行解码的方法、设备和计算机可读介质

Country Status (7)

Country Link
US (4) US9460728B2 (zh)
EP (4) EP2688066A1 (zh)
JP (4) JP6205416B2 (zh)
KR (4) KR102126449B1 (zh)
CN (6) CN107424618B (zh)
TW (4) TWI602444B (zh)
WO (1) WO2014012944A1 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) * 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
JP6243060B2 (ja) * 2014-03-21 2017-12-06 ドルビー・インターナショナル・アーベー 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102201726B1 (ko) 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
EP2934025A1 (en) * 2014-04-15 2015-10-21 Thomson Licensing Method and device for applying dynamic range compression to a higher order ambisonics signal
CN109087653B (zh) * 2014-03-24 2023-09-15 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN103888889B (zh) * 2014-04-07 2016-01-13 北京工业大学 一种基于球谐展开的多声道转换方法
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) * 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN106471822B (zh) 2014-06-27 2019-10-25 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
CN107077852B (zh) 2014-06-27 2020-12-04 杜比国际公司 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示
KR20240047489A (ko) 2014-06-27 2024-04-12 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9736606B2 (en) * 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
WO2016162165A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
US10600425B2 (en) * 2015-11-17 2020-03-24 Dolby Laboratories Licensing Corporation Method and apparatus for converting a channel-based 3D audio signal to an HOA audio signal
HK1221372A2 (zh) * 2016-03-29 2017-05-26 萬維數碼有限公司 種獲得空間音頻定向向量的方法、裝置及設備
CN109416912B (zh) * 2016-06-30 2023-04-11 杜塞尔多夫华为技术有限公司 一种对多声道音频信号进行编码和解码的装置和方法
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
CN110892478A (zh) * 2017-04-28 2020-03-17 Dts公司 音频编解码器窗口和变换实现
EP3651480A4 (en) * 2017-07-05 2020-06-24 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD, AND PROGRAM
US10944568B2 (en) * 2017-10-06 2021-03-09 The Boeing Company Methods for constructing secure hash functions from bit-mixers
US10714098B2 (en) 2017-12-21 2020-07-14 Dolby Laboratories Licensing Corporation Selective forward error correction for spatial audio codecs
US11729406B2 (en) * 2019-03-21 2023-08-15 Qualcomm Incorporated Video compression using deep generative models
US11388416B2 (en) 2019-03-21 2022-07-12 Qualcomm Incorporated Video compression using deep generative models
CN116978387A (zh) 2019-07-02 2023-10-31 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和系统
CN110544484B (zh) * 2019-09-23 2021-12-21 中科超影(北京)传媒科技有限公司 高阶Ambisonic音频编解码方法及装置
CN110970048B (zh) * 2019-12-03 2023-01-17 腾讯科技(深圳)有限公司 音频数据的处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
FR2943867A1 (fr) * 2009-03-31 2010-10-01 France Telecom Traitement d'egalisation de composantes spatiales d'un signal audio 3d
CN102318372A (zh) * 2009-02-04 2012-01-11 理查德·福塞 声音系统
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001275197A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 音源選択方法および音源選択装置並びに音源選択制御プログラムを記録した記録媒体
GB2379147B (en) * 2001-04-18 2003-10-22 Univ York Sound processing
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
EP1946310A4 (en) * 2005-10-26 2011-03-09 Lg Electronics Inc METHOD FOR CODING AND DECODING A MULTI CHANNEL AUDIO SIGNAL AND DEVICE THEREFOR
US8370134B2 (en) * 2006-03-15 2013-02-05 France Telecom Device and method for encoding by principal component analysis a multichannel audio signal
US8103006B2 (en) * 2006-09-25 2012-01-24 Dolby Laboratories Licensing Corporation Spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
FR2916079A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US20110188043A1 (en) * 2007-12-26 2011-08-04 Yissum, Research Development Company of The Hebrew University of Jerusalem, Ltd. Method and apparatus for monitoring processes in living cells
PL2304723T3 (pl) * 2008-07-11 2013-03-29 Fraunhofer Ges Forschung Urządzenie i sposób dekodowania zakodowanego sygnału audio
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US9020152B2 (en) * 2010-03-05 2015-04-28 Stmicroelectronics Asia Pacific Pte. Ltd. Enabling 3D sound reproduction using a 2D speaker arrangement
CN102823277B (zh) * 2010-03-26 2015-07-15 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103165136A (zh) * 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
CN102318372A (zh) * 2009-02-04 2012-01-11 理查德·福塞 声音系统
FR2943867A1 (fr) * 2009-03-31 2010-10-01 France Telecom Traitement d'egalisation de composantes spatiales d'un signal audio 3d
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置

Also Published As

Publication number Publication date
US10614821B2 (en) 2020-04-07
KR20200138440A (ko) 2020-12-09
TWI602444B (zh) 2017-10-11
KR102340930B1 (ko) 2021-12-20
KR102126449B1 (ko) 2020-06-24
KR102187936B1 (ko) 2020-12-07
CN107591159B (zh) 2020-12-01
US10304469B2 (en) 2019-05-28
TWI674009B (zh) 2019-10-01
US20170352355A1 (en) 2017-12-07
JP6866519B2 (ja) 2021-04-28
TW202013993A (zh) 2020-04-01
US20150154971A1 (en) 2015-06-04
TWI723805B (zh) 2021-04-01
KR20210156311A (ko) 2021-12-24
TW202103503A (zh) 2021-01-16
US20190318751A1 (en) 2019-10-17
JP6205416B2 (ja) 2017-09-27
EP2873071A1 (en) 2015-05-20
CN107403625B (zh) 2021-06-04
EP2688066A1 (en) 2014-01-22
JP2020091500A (ja) 2020-06-11
JP6453961B2 (ja) 2019-01-16
TW201739272A (zh) 2017-11-01
CN107424618A (zh) 2017-12-01
CN107403626B (zh) 2021-01-08
CN107403626A (zh) 2017-11-28
CN104428833B (zh) 2017-09-15
JP2015526759A (ja) 2015-09-10
EP3327721B1 (en) 2020-11-25
EP3327721A1 (en) 2018-05-30
TW201412145A (zh) 2014-03-16
CN107591160A (zh) 2018-01-16
KR20150032704A (ko) 2015-03-27
EP3813063A1 (en) 2021-04-28
TWI691214B (zh) 2020-04-11
JP2017207789A (ja) 2017-11-24
KR20200077601A (ko) 2020-06-30
CN104428833A (zh) 2015-03-18
CN107403625A (zh) 2017-11-28
JP6676138B2 (ja) 2020-04-08
US9837087B2 (en) 2017-12-05
US9460728B2 (en) 2016-10-04
EP2873071B1 (en) 2017-12-13
CN107591159A (zh) 2018-01-16
CN107591160B (zh) 2021-03-19
US20170061974A1 (en) 2017-03-02
JP2019040218A (ja) 2019-03-14
WO2014012944A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
CN107424618B (zh) 用于对hoa音频信号进行解码的方法、设备和计算机可读介质
EP1818910A1 (en) Scalable encoding apparatus and scalable encoding method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1242835

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant