CN106463130A - 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置 - Google Patents

用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置 Download PDF

Info

Publication number
CN106463130A
CN106463130A CN201580033032.4A CN201580033032A CN106463130A CN 106463130 A CN106463130 A CN 106463130A CN 201580033032 A CN201580033032 A CN 201580033032A CN 106463130 A CN106463130 A CN 106463130A
Authority
CN
China
Prior art keywords
subband
index
directions
directional
hoa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580033032.4A
Other languages
English (en)
Other versions
CN106463130B (zh
Inventor
A·克鲁埃格尔
S·科登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN106463130A publication Critical patent/CN106463130A/zh
Application granted granted Critical
Publication of CN106463130B publication Critical patent/CN106463130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

高阶高保真立体声(HOA)信号的编码通常导致高的数据速率。为了降低数据速率,用于对输入的HOA信号的帧的方向信息进行编码的方法(100)包括:在具有全局方向索引的预定义的全局方向之中确定(s101)有效候选方向(MDIR(k));将输入的HOA信号划分(s102)为频率子带(f1,...,fF);对于每个频率子带,在有效候选方向之中确定(s103)有效子带方向;将相对方向索引分配(s104)给每一个子带的每个方向;组装(s105)帧的方向信息,该方向信息包括:有效候选方向(MDIR(k));对于每个频率子带和每个有效候选方向,指示该有效候选方向是否是相应频率子带的有效子带方向的比特;以及对于每个频率子带,子带方向的第二集合中的有效子带方向的相对方向索引;以及传送(s106)组装的方向信息。

Description

用于对HOA信号表示的子带内的主导方向信号的方向进行编 码/解码的方法和装置
技术领域
本发明涉及用于对HOA信号表示的子带内的主导方向信号的方向进行编码的方法、用于对HOA信号表示的子带内的主导方向信号的方向进行解码的方法、用于对HOA信号表示的子带内的主导方向信号的方向进行编码的装置、以及用于对HOA信号表示的子带内的主导方向信号的方向进行解码的装置。
背景技术
除了比如波场合成(WFS)或基于声道的方法(诸如被称为“22.2”的方法)的其它技术之外,高阶高保真立体声(HOA)提供表示三维声音的一种可能性。与基于声道的方法相反,HOA表示提供独立于特定扬声器设置的优点。该灵活性是以在特定扬声器设置上回放HOA表示所需的解码处理为代价的。与其中所需的扬声器的数量通常非常大的WFS方法相比,HOA也可以被渲染到由仅仅几个扬声器组成的设置。HOA的进一步的优点是,相同的表示也可以没有任何修改地用于双耳渲染到耳机。
HOA基于所谓的复平面谐波幅度的空间密度通过截断的球谐函数(SH)展开的表示。每个展开系数是角频率的函数,其可以等同地由时域函数表示。因此,不失一般性,整个HOA声场表示实际上可以被理解为由O个时域函数组成,其中,O表示展开系数的数量。这些时域函数在下面将被等同地称为HOA系数序列或HOA通道。
HOA表示的空间分辨率随着展开的最大阶数N增长而改进。不幸的是,展开系数的数量O随着阶数N二次方地增长,并且特别地,O=(N+1)2。例如,典型的使用阶数N=4的HOA表示需要O=25个HOA(展开)系数。根据以上考虑,给定期望的单声道采样速率fS和每一个采样的比特数Nb,用于传送HOA表示的总比特速率由O·fS·Nb确定。因此,利用每一个采样Nb=16个比特、以fS=48kHz的采样速率传送例如阶数N=4的HOA表示,导致19.2MBits/s的比特速率,该比特速率对于许多实际应用(诸如流传输)是非常高的。因此,HOA表示的压缩是高度期望的。
[4,5,6]中提出了用于压缩HOA声场表示的各种方法。这些方法的共同之处在于,它们执行声场分析,并且将给定的HOA表示分解为方向和残留环境分量。最终的压缩的表示一方面包括若干个量化信号,这些量化信号是从所谓的方向和基于矢量的信号以及环境HOA分量的相关系数序列的感知编码得到的。另一方面,它包括与量化信号相关的附加的边信息(side information),该附加的边信息对于从HOA表示的压缩版本重构HOA表示是必要的。
用于方法[4、5、6]的量化信号的合理的最小数量是八个。因此,假设对于每单个感知编码器数据速率为32kbit/s,则这些方法中的一种方法的数据速率通常不低于256kbit/s。对于某些应用,像例如对移动设备的音频流传输,该总数据速率可能太高。因此,存在对于应对明显较低的数据速率(例如,128kbit/s)的HOA压缩方法的需要。
发明内容
公开了用于对来自压缩的HOA表示的方向信息进行编码的方法和装置以及用于对来自压缩的HOA表示的方向信息进行解码的方法和装置。此外,公开了声场的高阶高保真立体声(HOA)表示的低比特速率压缩和解压缩的实施例。用于声场的HOA表示的低比特速率压缩方法的一个主要方面是,将HOA表示分解为多个频率子带,并且通过截断的HOA表示和基于若干个预测的方向子带信号的表示的组合来近似每个频率子带内的系数。
截断的HOA表示包括数量小的选择的系数序列,其中,选择被允许随时间变化。例如,对于每一个帧进行新的选择。用于表示截断的HOA表示的选择的系数序列被感知编码,并且是最终的压缩的HOA表示的一部分。在一个实施例中,在感知编码之前对选择的系数序列进行去相关,以便提高编码效率并且降低在渲染时的噪声暴露的影响。部分去相关通过将空间变换应用于预定数量的选择的HOA系数序列来实现。为了解压缩,通过再相关来使去相关反向。这样的部分去相关的很大优点是,在解压缩时不需要额外的边信息来恢复去相关。
近似的HOA表示的其它分量通过若干个具有对应方向的方向子带信号表示。这些方向子带信号通过参数化表示进行编码,所述参数化表示包括来自截断的HOA表示的系数序列的预测。在实施例中,每个方向子带信号由截断的HOA表示的系数序列的缩放的和来预测(或表示),其中,缩放一般是复值。为了能够重新合成方向子带信号的HOA表示以供解压缩,压缩的表示包含复值预测缩放因子的量化版本以及方向的量化版本。
在一个实施例中,用于对来自压缩的HOA表示的方向信息进行解码的方法包括:对于压缩的HOA表示的每一个帧,从压缩的HOA表示提取候选方向的集合(其中,每个候选方向是至少一个子带中的潜在的子带信号源方向),对于每个频率子带以及多达最大阈值DSB个潜在的子带信号源方向中的每一个,指示该潜在的子带信号源方向是否是相应频率子带的有效(active)子带方向的比特,和有效子带方向的相对方向索引以及对于每个有效子带方向的方向子带信号信息;对于每个频率子带方向,将相对方向索引转换为绝对方向索引,其中,如果所述比特指示对于相应频率子带,候选方向是有效子带方向,则每个相对方向索引被用作候选方向的集合内的索引;以及从所述方向子带信号信息预测方向子带信号,其中,方向根据所述绝对方向索引分配给方向子带信号。
在一个实施例中,用于对输入的HOA信号的帧的方向信息进行编码的方法包括:从输入的HOA信号确定作为声源的方向的有效候选方向的第一集合,其中,有效候选方向是在Q个全局方向的预定义集合之中确定的,每个全局方向具有全局方向索引;将输入的HOA信号划分为多个频率子带;在有效候选方向的第一集合之中,对于所述频率子带中的每一个,确定多达DSB个有效子带方向的第二集合,其中,DSB<Q;将相对方向索引分配给每一个频率子带的每个方向,方向索引在范围[1,...,NoOfGlobalDirs(k)]中;组装当前帧的方向信息,以及传送组装的方向信息。方向信息包括:有效候选方向,对于每个频率子带和每个有效候选方向,指示该有效候选方向是否是相应频率子带的有效子带方向的比特,以及对于每个频率子带,子带方向的第二集合中的有效子带方向的相对方向索引。
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,所述可执行指令当在计算机上执行时使计算机执行所述用于对方向信息进行编码的方法和所述用于对方向信息进行解码的方法中的至少一个。
在一个实施例中,用于对方向信息进行逐帧编码(从而进行压缩)和/或解码(从而解压缩)的装置包括处理器和用于软件程序的存储器,所述软件程序当在处理器上执行时执行上述用于对方向信息进行编码的方法的步骤和/或上述用于对方向信息进行解码的方法的步骤。
在一个实施例中,用于对来自压缩的HOA表示的方向信息进行解码的装置包括:提取模块,其被配置为从压缩的HOA表示提取候选方向的集合,其中,每个候选方向是至少一个子带中的潜在的子带信号源方向,对于每个频率子带以及多达DSB个潜在的子带信号源方向中的每一个,指示该潜在的子带信号源方向是否是相应频率子带的有效子带方向的比特,和有效子带方向的相对方向索引以及对于每个有效子带方向的方向子带信号信息;转换模块,其被配置为对于每个频率子带方向,将所述相对方向索引转换为绝对方向索引,其中,如果所述比特指示对于相应频率子带,候选方向是有效子带方向,则每个相对方向索引被用作所述候选方向的集合内的索引;以及预测模块,其被配置为从所述方向子带信号信息预测方向子带信号,其中,方向根据所述绝对方向索引分配给方向子带信号。
在一个实施例中,用于对方向信息进行编码的装置至少包括有效候选确定模块、分析滤波器组模块、子带方向确定模块、相对方向索引分配模块、方向信息组装模块以及包装模块。
有效候选确定模块被配置为从输入的HOA信号确定作为声源的方向的有效候选方向的第一集合MDIR(k),其中,有效候选方向是在Q个全局方向的预定义集合之中确定的,并且其中,每个全局方向具有全局方向索引。分析滤波器组模块被配置为将输入的HOA信号划分为多个频率子带。子带方向确定模块被配置为在有效候选方向的第一集合之中,对于所述频率子带中的每一个,确定多达DSB个有效子带方向的第二集合,其中,DSB<Q。相对方向索引分配模块被配置为将相对方向索引(在范围[1,...,NoOfGlobalDirs(k)]中)分配给每一个频率子带的每个方向。方向信息组装模块被配置为组装当前帧的方向信息。方向信息包括:有效候选方向MDIR(k),对于每个频率子带和每个有效候选方向,指示该有效候选方向是否是相应频率子带的有效子带方向的比特,以及对于每个频率子带,子带方向的第二集合中的有效子带方向的相对方向索引。包装模块被配置为传送组装的方向信息。
所公开的方向信息的编码的优点是数据速率降低。进一步的优点是对于每个频率子带的搜索减少并因此搜索更快。
从以下的描述和所附的权利要求的考虑(在结合附图进行时),本发明的进一步的目的、特征和优点将变得清楚。
附图说明
参照附图描述本发明的示例性实施例,附图示出了:
图1空间HOA编码器的架构,
图2方向估计块的架构,
图3感知边信息源编码器,
图4感知边信息源解码器,
图5空间HOA解码器的架构,
图6球坐标系,
图7方向估计处理块,
图8截断的HOA表示的方向、轨迹索引集合和系数,
图9编码方法的流程图,
图10解码方法的流程图,
图11用于对方向信息进行编码的装置,
图12用于对方向信息进行解码的装置,以及
图13方向索引编排。
具体实施方式
所提出的用于声场的HOA表示的低比特速率压缩方法的一个主要构思是,通过以下两个部分的组合来逐帧和逐频率子带(即,在每个HOA帧的单个的频率子带内)地近似原始HOA表示:截断的HOA表示以及基于若干个预测的方向子带信号的表示。下面进一步提供HOA基础的概述。
近似的HOA表示的第一部分是由数量小的选择的系数序列组成的截断的HOA版本,其中,选择被允许随时间(例如,在帧与帧之间)变化。用于表示截断的HOA版本的选择的系数序列然后被感知编码,并且是最终的压缩的HOA表示的一部分。为了提高编码效率并且降低在渲染时噪声暴露的影响,有利的是在感知编码之前对选择的系数序列进行去相关。部分去相关通过向预定义数量的选择的HOA系数序列应用空间变换来实现,这意味着渲染到给定数量的虚拟扬声器信号。该部分去相关的很大优点是,在解压缩时不需要额外的边信息来恢复去相关。
近似的HOA表示的第二部分通过若干个具有对应方向的方向子带信号表示。然而,这些方向子带信号不被传统编码。相反,它们借助于来自第一部分(即,截断的HOA表示)的系数序列的预测被编码为参数化表示。特别地,每个方向子带信号由截断的HOA表示的系数序列的缩放的和来预测,其中,缩放是线性的,并且一般是复值。两个部分共同形成HOA信号的压缩表示,从而实现低比特速率。为了能够重新合成方向子带信号的HOA表示以供解压缩,压缩表示包含复值预测缩放因子的量化版本以及方向的量化版本。特别地,在该上下文中的重要方面是方向和复值预测缩放因子的计算以及如何高效地对它们进行编码。
低比特速率HOA压缩
对于所提出的低比特速率HOA压缩,低比特速率HOA压缩器可以细分为空间HOA编码部分以及感知和源编码部分。图1中示出了空间HOA编码部分的示例性架构,并且图3中描绘了感知和源编码部分的示例性架构。空间HOA编码器10提供第一压缩的HOA表示,该第一压缩的HOA表示包括I个信号,连同描述如何创建其HOA表示的边信息。在感知和边信息源编码器30中,这I个信号在感知编码器31中被感知编码,并且边信息在边信息源编码器32中经受源编码(例如,熵编码)。边信息源编码器32提供编码的边信息然后,由感知编码器31和边信息源编码器32提供的两个编码表示在复用器33中被复用以获得低比特速率压缩的HOA数据流
空间HOA编码
图1所示的空间HOA编码器执行逐帧处理。帧被定义为O个时间连续的HOA系数序列的部分。例如,将被编码的输入的HOA表示的第k帧C(k)相对于时间连续的HOA系数序列的矢量c(t)(参看等式(46))被定义为:
其中,k表示帧索引,L表示帧长(以采样为单位),O=(N+1)2表示HOA系数序列的数量,并且TS指示采样周期。
截断的HOA表示的计算
如图1所示,计算截断的HOA表示中的第一步包括从原始HOA帧C(k)计算11截断的版本CT(k)。该上下文中的截断意味着从输入的HOA表示的O个系数序列中选择I个特定的系数序列,并且将所有其它的系数序列设置为零。用于选择系数序列的各种解决方案从[4,5,6]获知,例如,相对于人类感知具有最大功率或最高相关性的那些。选择的系数序列表示截断的HOA版本。产生包含选择的系数序列的索引的数据集合然后,如下面进一步描述的,截断的HOA版本CT(k)将被部分去相关12,并且部分去相关的截断的HOA版本CI(k)将经受通道分配13,其中,被选的系数序列被分配给可用的I个传输通道。如下面进一步描述的,这些系数序列然后被感知编码30,并且最后是压缩表示的一部分。为了获得平滑信号以供通道分配之后的感知编码,确定在第k帧中被选择、但在第(k+1)帧中不被选择的系数序列。在一个帧中被选择、而在下一个帧中将不被选择的那些系数序列渐减。它们的索引包含在数据集合中,该数据集合的子集。类似地,在第k帧中被选择、但在第(k-1)帧中未被选择的系数序列渐增。它们的索引包含在集合中,该集合也是的子集。对于渐变,可以使用窗函数wOA(l),l=1,...,2L(诸如下面在等式(39)中介绍的函数)。
总起来说,如果截断的版本CT(k)的HOA帧k通过以下等式由O个单个的系数序列帧的L个采样组成:
则可以通过以下等式对于系数序列索引n=1,...,O和采样索引l=1,...,L表达截断:
对于用于选择系数序列的标准,存在几个可能性。例如,一个有利的解决方案是选择表示信号功率中的大部分的那些系数序列。另一个有利的解决方案是选择相对于人类感知最相关的那些系数序列。在后一种情况下,可以例如通过以下来确定相关性,即,将被不同截断的表示渲染到虚拟扬声器信号,确定这些信号和与原始HOA表示对应的虚拟扬声器信号之间的误差,以及最后考虑声音掩蔽效应来解释该误差的相关性。
在一个实施例中,用于在集合中选择索引的合理的策略是总是选择头OMIN个索引1,...,OMIN,其中,OMIN=(NMIN+1)2≤I,并且NMIN表示截断的HOA表示的给定的最小的全阶。然后,根据以上提及的标准中的一个标准从集合{OMIN+1,...,OMAX}选择剩余的I-OMIN个索引,其中,OMAX=(NMAX+1)2≤O,其中NMAX表示考虑要选择的HOA系数序列的最大阶数。注意,OMAX是每一个采样的可转移系数的最大数量,该数量小于或等于系数的总数O。根据该策略,截断处理块11还提供所谓的分配矢量其元素vA,i(k),i=1,...,I-OMIN根据以下等式设置:
vA,i(k)=n (4)
其中,n(n≥OMIN+1))表示C(k)的另外选择的HOA系数序列(这些HOA系数序列以后将分配给第i传输信号yi(k))的HOA系数序列索引。yi(k)的定义在下面的等式(10)中给出。因此,CT(k)的头OMIN个行默认包括HOA系数序列1,...,OMIN,并且在CT(k)的后面的O-OMIN(或者OMAX-OMIN,如果O=OMAX的话)个行之中,存在I-OMIN个行,这I-OMIN个行包括其索引存储在分配矢量vA(k)中的逐帧变化的HOA系数序列。最后,CT(k)的剩余的行包括零。因此,如下面将描述的,可用的I个传输信号的头OMIN个(或者最后OMIN个,如等式(10)中那样)默认分配给HOA系数序列1,...,OMIN,并且剩余的I-OMIN个传输信号分配给其索引存储在分配矢量vA(k)中的逐帧变化的HOA系数序列。
部分去相关
在第二步中,执行选择的HOA系数序列的部分去相关12,以便提高随后的感知编码的效率,并且在渲染时避免在对选择的HOA系数序列进行矩阵化之后将发生的编码噪声暴露。示例性部分去相关12通过将空间变换应用于头OMIN个选择的HOA系数序列(这意味着渲染到OMIN个虚拟扬声器信号)来实现。相应的虚拟扬声器位置借助于图6所示的球坐标系来表达,在该球坐标系中,每个位置假定位于单位球上,即,具有1的半径。因此,位置可以等同地通过方向Ωj=(θj,φj)来表达,其中,1≤j≤OMIN,θj和φj分别表示倾角和方位角(进一步参见下面球坐标系的定义)。这些方向应尽可能均匀地分布在单位球上(参见例如[2],特定方向的计算)。注意,因为HOA一般依赖于NMIN来定义方向,所以在本文中写Ωj的地方,实际上意指
在下面,所有虚拟扬声器信号的帧通过以下等式表示:
其中,wj(k)表示第j虚拟扬声器信号的第k帧。此外,ΨMIN表示相对于虚拟方向Ωj的模式矩阵,其中,1≤j≤OMIN。模式矩阵通过以下等式定义:
其中,
指示相对于虚拟方向Ωi的模式矢量。其每个元素表示下面定义的实值球谐函数(参见等式(48))。通过使用该记法,可以通过以下矩阵乘法来公式化渲染处理:
作为部分去相关12的输出的中间表示CI(k)的信号因此通过以下等式给出:
通道分配
在已计算中间表示CI(k)的帧之后,将其单个的信号cI,n(k)(其中)分配13给可用的I个通道,以提供用于感知编码的传输信号yi(k),i=1,...,I。分配13的一个目的是避免在选择在连续的帧之间改变的情况下可能发生的将被感知编码的信号不连续。分配可以通过以下等式表达:
增益控制
每个传输信号yi(k)最后被增益控制单元14处理,在增益控制单元14中,信号增益被平滑地修改以实现适合于感知编码器的值范围。增益修改需要一种前瞻性,以便避免连续的块之间的严重的增益变化,并因此引入一个帧的延迟。对于每个传输信号帧yi(k),增益控制单元14接收或产生延迟帧yi(k-1),i=1,...,I。增益控制之后的修改信号帧由zi(k-1),i=1,...,I表示。此外,为了能够在空间解码器中恢复所进行的任何修改,提供增益控制边信息。增益控制边信息包括指数ei(k-1)和异常标志βi(k-1),i=1,...,I。对于增益控制的更详细的描述,参见例如[9]第C.5.2.5节或者[3]。因此,截断的HOA版本19包括增益控制的信号帧zi(k-1)以及增益控制边信息ei(k-1),βi(k-1),i=1,...,I。
分析滤波器组
如以上提及的,近似的HOA表示由两个部分(即,截断的HOA版本19以及由具有对应方向的方向子带信号表示的分量,这些方向子带信号是从截断的HOA表示的系数序列预测的)组成。因此,为了计算第二部分的参数化表示,原始HOA表示cn(k),n=1,...,O的单个的系数序列的每个帧首先被分解为单个的子带信号的帧。这是在一个或多个分析滤波器组15中进行的。对于每个子带fj,j=1,...,F,可以将单个的HOA系数序列的子带信号的帧收集到以下子带HOA表示中:
对于j=1,...,F (11)
分析滤波器组15将子带HOA表示提供给方向估计处理块16和一个或多个计算块17以用于方向子带信号计算。
原则上,在分析滤波器组15中可以使用任何类型的滤波器(即,任何复值滤波器组,例如QMF、FFT)。不要求分析和对应的合成滤波器组的连续应用提供延迟的同一性,这将是被称为完美重构性质的要求。注意,与HOA系数序列cn(k)相反,它们的子带表示一般是复值的。此外,与原始时域信号相比,子带信号一般是适时抽取的。因此,帧中的采样数量通常明显小于时域信号帧cn(k)中的采样数量,时域信号帧cn(k)中的采样数量为L。
在一个实施例中,两个或更多个子带信号被组合到子带信号组中,以便使处理更好地适应人类听觉系统的性质。每个组的带宽可以例如通过其子带信号的数量来适应众所周知的Bark尺度。也就是说,尤其是在较高频率中,两个或更多个组可以组合为一个组。注意,在这种情况下,每个子带组由HOA系数序列的集合组成,其中,提取的参数的数量与单个子带是相同的。在一个实施例中,分组是在一个或多个子带信号分组单元(未明确示出)中执行的,这些子带信号分组单元可以合并在分析滤波器组块15中。
方向估计
方向估计处理块16对输入的HOA表示进行分析,并且对于每个频率子带fj,j=1,...,F,计算向声场添加重大贡献的子带普通平面波函数的方向的集合在该上下文中,术语“重大贡献”可以例如是指随着从其它方向射入的子带普通平面波的信号功率变高的信号功率。它还可以是指在人类感知方面的高相关性。注意,在使用子带分组的情况下,不是单个子带,而是子带组可以用于的计算。
在解压缩期间,由于连续的帧之间估计的方向和预测系数的变化,可能出现预测的方向子带信号中的伪像。为了避免这样的伪像,对连结的长帧执行编码期间的方向子带信号的方向估计和预测。连结的长帧由当前帧及其前驱组成。为了解压缩,然后使用对这些长帧估计的量来执行与预测的方向子带信号的重叠相加处理。
用于方向估计的直接方法将是单独对待每个子带。对于方向搜索,在一个实施例中,可以应用例如[7]中提出的技术。该方法对于每一单个子带提供方向估计的平滑时间轨迹,并且能够捕捉突然的方向变化或起始。然而,这种已知方法存在两个缺点。首先,每个子带中的独立的方向估计可能导致如下不期望的影响,即,在存在全带普通平面波(例如,来自某个方向的瞬间的击鼓声)时,单个的子方向中的估计误差可能导致来自不同方向的子带普通平面波,这些子带普通平面波加起来不等于期望的来自一个方向的全带版本。特别地,来自某些方向的瞬态信号是模糊的。
第二,考虑获得低比特速率压缩的意图,从边信息得到的总比特速率必须被记住。在下面,将示出用于这样的朴素方法的比特速率相当高的示例。示例性地,子带的数量F假定为10个,并且每个子带的方向的数量(该数量对应于每个集合中的元素的数量)假定为4个。此外,如[9]中所提出的,假定对于每个子带对Q=900个潜在的方向候选的网格执行搜索。对于单个方向的简单编码,这需要个比特。假定帧速率为每秒大约50帧,则仅对于方向的编码表示所得到的总数据速率为:
即使假定帧速率为每秒25帧,所得到的数据速率10kbit/s仍然相当高。
作为改进,在一个实施例中,在方向估计块20中使用以下方向估计的方法。图2中示出了总体构思。
在第一步中,全带方向估计块21使用以下连结的长帧对由Q个测试方向ΩTEST,q,q=1,...,Q组成的方向网格执行初步的全带方向估计或搜索:
其中,C(k)和C(k-1)是全带原始HOA表示的当前帧和前面的输入帧。该方向搜索提供D(k)≤D个方向候选ΩCAND,d(k),d=1,...,D(k),这些方向候选包含在集合中,即,
每帧的方向候选的最大数量的典型值为D=16个。方向估计可以例如通过[7]中提出的方法来实现:构思是将从输入的HOA表示的方向功率分布获得的信息与用于方向的贝叶斯(Bayesian)推理的简单的源移动模型组合。
在第二步中,由子带方向估计块22每一子带(或子带组)地对每一单个子带执行方向搜索。然而,对于子带的这个方向搜索不需要考虑由Q个测试方向组成的初始的全方向网格,而是仅考虑候选集合该候选集合对于每个子带仅包括D(k)个方向。由DSB(k,fj)表示的第fj子带(j=1,...,F)的方向的数量不大于DSB,该DSB通常明显小于D,例如,DSB=4。像全带方向搜索一样,子带相关的方向搜索也是对子带信号的由前一个帧和当前帧组成的以下长连结帧执行的:
原则上,与用于全带相关的方向搜索的贝叶斯推理方法相同的贝叶斯推理方法可以应用于子带相关的方向搜索。
特定声源的方向可以(但不需要)随时间变化。特定声源的方向的时间序列在本文中被称为“轨迹”。每个子带相关的方向或轨迹分别得到无歧义的索引,这防止不同的轨迹混合,并且提供连续的方向子带信号。这对于下面描述的方向子带信号的预测是重要的。特别地,它允许利用下面进一步定义的连续的预测系数矩阵A(k,fj)之间的时间依赖性。因此,对于第fj子带的方向估计提供元组的集合每个元组由一方面标识单个(有效)的方向轨迹的索引 和另一方面相应的估计方向ΩSB,d(k,fj)组成,即,
根据定义,对于每个j=1,...,F,集合的子集,因为如上所述,子带方向搜索仅在当前帧的方向候选ΩCAND,d(k),d=1,...,D(k)之中执行。这允许相对于方向的边信息的更高效的编码,因为每个索引定义D(k)中的一个方向,而不是Q个候选方向,其中D(k)≤Q。索引d用于跟踪后一个帧中的方向以用于创建轨迹。如图2所示,并且如上所述,一个实施例中的方向估计处理块16包括具有全带方向估计块21的方向估计块20以及对于每个子带或子带组的子带方向估计块22。如图7所示,它可以进一步包括长帧产生块23,该长帧产生块23将以上提及的长帧提供给方向估计块20。长帧产生块23使用例如一个或多个存储器从两个连续的输入帧产生长帧,这两个连续的输入帧每个具有L个采样的长度。长帧在本文中通过“-”指示,并且通过具有两个索引k-1和k来指示。在其它实施例中,长帧产生块23也可以是图1所示的编码器中的单独的块,或者合并在其它块中。
方向子带信号的计算
返回到图1,由分析滤波器组15提供的子带HOA表示帧j=1,...,F还输入到一个或多个方向子带信号计算块17。在方向子带信号计算块17中,所有DSB个潜在的方向子带信号 d=1,...,DSB的长帧以矩阵xk-1;k;fj布置为:
此外,无效的方向子带信号的帧,即,其索引d不包含在集合内的那些长信号帧被设置为零。
剩余的长信号帧即,具有索引的那些,被收集在矩阵内。计算其中所包含的有效方向子带信号的一种可能性是最小化它们的HOA表示和原始的输入的子带HOA表示之间的误差。解决方案通过以下等式给出:
其中,(·)+表示Moore-Penrose伪逆,并且表示相对于集合中的方向估计的模式矩阵。注意,在子带组的情况下,方向子带信号的集合是通过一个矩阵(ΨSB(k,fj))+乘以该组的所有HOA表示计算的。注意,长帧可以由与上述长帧产生块类似的一个或多个更多的长帧产生块产生。类似地,长帧可以在长帧分解块中分解为正常长度的帧。在一个实施例中,用于计算方向子带的块17在它们的输出处向方向子带预测块18提供长帧j=1,...,F。
方向子带信号的预测
如以上提及的,近似的HOA表示部分由有效方向子带信号表示,然而,这些有效方向子带信号不被传统编码。相反,在目前描述的实施例中,使用参数化表示,以便使用于传送编码表示的总数据速率保持低。在参数化表示中,每个有效方向子带信号(即,具有索引)由截断的子带HOA表示的系数序列的加权和来预测,其中,并且其中,权重一般是复值。
因此,假定表示的预测版本,则预测通过矩阵乘法被表达为:
其中,是具有用于子带fj的所有加权因子(或者等同地,预测系数)的矩阵。预测矩阵A(k,fj)的计算是在一个或多个方向子带预测块18中执行的。在一个实施例中,如图1所示,使用每一个子带一个方向子带预测块18。在另一个实施例中,对于多个或所有子带使用单个方向子带预测块18。在子带组的情况下,对每个组计算一个矩阵A(k,fj);然而,它被单个地乘以该组的每个HOA表示从而每一个组地创建矩阵的集合注意,每一个构造,A(k,fj)的除了具有索引的那些行之外的所有行都为零。这意味着仅有效方向子带信号被预测。此外,A(k,fj)的除了具有索引的那些列之外的所有列也都为零。这意味着,对于预测,仅考虑被传送并且在HOA解压缩期间可用于预测的那些HOA系数序列。
对于预测矩阵A(k,fj)的计算必须考虑以下方面。
第一,原始截断的子带HOA表示一般在HOA解压缩时是不可用的。相反,它的感知解码版本将是可用的并且被用于方向子带信号的预测。
在低比特速率下,典型的音频编解码器(比如AAC或USAC)使用频谱带复制(SBR),其中,频谱的较低频和中频被传统编码,而较高频内容(开始于例如5kHz)则使用额外的关于高频包络的边信息从较低频和中频复制。
由于该原因,感知解码之后的截断的HOA分量的重构的子带系数序列的幅值类似于原始HOA分量的子带系数序列的幅值。然而,对于相位,情况并非如此。因此,对于高频子带,对使用复值预测系数的预测利用任何相位关系没有意义。相反,更合理的是仅使用实值预测系数。特别地,定义索引jSBR以使得第fj子带包括用于SBR的起始频率,如下设置预测系数的类型是有利的:
换句话说,在一个实施例中,用于较低子带的预测系数是复值,而用于较高子带的预测系数是实值。
第二,在一个实施例中,使矩阵A(k,fj)的计算策略适应它们的类型。特别地,对于不受SBR影响的低频子带fj,1≤j<jSBR,可以通过最小化和它的预测版本之间的误差的欧几里得范数来确定A(k,fj)的非零元素。感知编码器31定义并提供jSBR(未示出)。以这种方式,所涉及的信号的相位关系被明确地用于预测。对于子带组,该组的所有方向信号上的预测误差的欧几里得范数(即,最小平方预测误差)应当最小化。对于受SBR影响的高频子带fj,jSBR≤j≤F,以上提及的标准是不合理的,因为截断的HOA分量的重构的子带系数序列的相位不能被假定为甚至是基本类似于原始子带系数序列的相位。
在这种情况下,一个解决方案是忽视相位,并且相反,仅集中于信号功率来进行预测。用于确定预测系数的合理标准是最小化以下误差:
其中,运算|·|2假定逐个元素地应用于矩阵。换句话说,预测系数被选为使得截断的HOA分量的所有加权的子带或子带组系数序列的功率的和最佳近似方向子带信号的功率。在这种情况下,非负矩阵因子分解(NMF)技术(参见例如[8])可以用于求解这个优化问题并且获得预测矩阵A(k,fj),j=1,...,F.的预测系数。这些矩阵然后被提供给感知和源编码级30。
感知和源编码
在上述空间HOA编码之后,对对于第(k-1)帧所得到的增益适应的传输信号zi(k-1),i=1,...,I进行编码以获得它们的编码表示这由图3所示的感知和源编码级30处的感知编码器31执行。此外,使分配矢量vA(k-1)、增益控制参数ei(k-1)和βi(k-1),i=1,...,I、预测系数矩阵j=1,...,F、以及集合j=1,...,F中所包含的信息经受源编码来移除冗余,以用于高效的存储或传送。这在边信息源编码器32中执行。所得到的编码表示在复用器33中与编码的传输信号表示i=1,...,I一起被复用以提供最终的编码帧
因为原则上,增益控制参数和分配的源编码可以类似于[9]执行,所以本说明书仅集中于方向和预测参数的编码,下面详细地描述方向和预测参数的编码。
方向的编码
对于单个的子带方向的编码,可以利用根据以上描述的不相关性减少来约束将被选择的单个的子带方向。如已经提及的,这些单个的子带方向不是从所有可能的测试方向ΩTEST,q,q=1,...,Q中选择的,而是从对全带HOA表示的每个帧确定的少量的候选中选择的。示例性地,在以下算法1中概述用于对子带方向进行源编码的可能的方式。
在算法1的第一步中,确定作为子带方向实际确实发生的所有的全带方向候选的集合即,
由NoOfGlobalDirs(k)表示的该集合的元素的数量是方向的编码表示的第一部分。因为根据定义是的子集,所以NoOfGlobalDirs(k)可以利用个比特编码。为了阐明进一步的描述,集合中的方向由ΩFB,d(k),d=1,...,NoOfGlobalDirs(k)表示,即,
在第二步中,借助于可能的测试方向ΩTEST,q(这里称为网格)的索引q=1,...,Q对集合中的方向进行编码。对于每个方向ΩFB,d(k),d=1,...,NoOfGlobalDirs(k),相应的网格索引被编码在具有个比特的大小的数组元素GlobalDirGridIndices(k)[d]中。表示所有编码的全带方向的总数组GlobalDirGridIndices(k)由NoOfGlobalDirs(k)个元素组成。
在第三步中,对于每个子带或子带组fj,j=1,...,F,第d方向子带信号(d=1,...,DSB)是否有效(即,是否)的信息被编码在数组元素bSubBandDirIsActive(k,fj)[d]中。总数组bSubBandDirIsActive(k,fj由DSB个元素组成。如果则借助于相应的全带方向ΩFB,i(k)的索引i将相应的子带方向ΩSB,d(k,fj)编码到数组RelDirIndices(k,fj)中,该数组RelDirIndices(k,fj)由DSB(k,fj)个元素组成。
为了示出这种方向编码方法的效率,计算根据以上示例的方向的编码表示的最大数据速率:假定F=10个子带,每一个子带DSB(k,fj)=DSB=4个方向,Q=900个潜在的测试方向,并且帧速率为每秒25帧。在传统编码方法的情况下,所需的数据速率为10kbit/s。在根据一个实施例的改进的编码方法的情况下,如果全带方向的数量假定为NoOfGlobalDirs(k)=D=8,则每帧需要个比特来对GlobalDirGridIndices(k)进行编码,需要DSB·F=40个比特来对bSubBandDirIsActive(k,fj)进行编码,并且需要 个比特来对RelDirIndices(k,fj)进行编码。这导致240bits/frame·25frames/s=6kbit/s的数据速率,该数据速率明显小于10kbit/s。即使对于更大数量NoOfGlobalDirs(k)=D=16个全带方向,仅7kbit/s的数据速率也是足够的。
图13如Alg.1中那样示出了方向索引编排。集合MDIR(k)具有D(k)个全带候选方向,其中,D(k)≤D,D是预定义值。集合MDIR(k)(MDIR(k)的子集)具有NoOfGlobalDirs(k)个实际使用的方向。GlobalDirIndices是存储全带方向(指的是所谓的例如900个方向的网格)的索引的数组。bSubBandDirIsActive对于多达DSB个轨迹(或方向)中的每一个存储指示“有效”或“无效”的比特。RelDirIndices存储用于bSubBandDirIsActive指示“有效”的轨迹/方向的GlobalDirIndices的索引,其中每个索引log2(NoOfGlobalDirs(k))个比特。
预测系数矩阵的编码
对于预测系数矩阵的编码,可以利用由于方向轨迹、因此方向子带信号的平滑而导致连续帧的预测系数之间存在高度相关的事实。此外,对于每个预测系数矩阵A(k,fj),每一帧存在相对多的DSB(k,fj)·MC,ACT(k-1)个潜在的非零元素,其中,MC,ACT(k-1)表示集合中的元素的数量。如果不使用子带组,则每帧总共存在F个矩阵要编码。如果使用子带组,则对应地每帧存在少于F个矩阵要编码。
在一个实施例中,为了使用于每个预测系数的比特数保持低,每个复值预测系数由其幅值及其角度表示,并且然后对于矩阵A(k,fj)的每个特定元素独立地且在连续帧之间差分编码角度和幅值。如果幅值假定在区间[0,1]内,则幅值差位于区间[-1,1]内。复数的角度差可以假定位于区间[-π,π]内。对于幅值和角度差这二者的量化,相应的区间可以细分为例如相等大小的个子区间。直接的编码于是对于每个幅值和角度差需要NQ个比特。此外,已实验性地发现,由于以上提及的连续帧的预测系数之间的相关,单个的差的发生概率高度不均匀地分布。特别地,幅值中以及角度中的小的差比较大的差显著更频繁地发生。因此,基于将被编码的单个的值的先验概率的编码方法,像例如哈夫曼编码,可以用于显著减少每一个预测系数的平均比特数。换句话说,已发现,通常有利的是对预测矩阵A(k,fj)中的值的幅值和相位、而不是它们的实部和虚部差分编码。然而,可能出现实部和虚部的使用是可接受的情况。
在一个实施例中,以某些间隔(应用特定的,例如,每秒一次)发送特殊的访问帧,这些访问帧包括没有差分编码的矩阵系数。这允许解码器从这些特殊的访问帧重新开始差分解码,因此使得能够实现解码的随机输入。
下面,描述如以上构造的低比特速率压缩的HOA表示的解压缩。解压缩也是逐帧工作的。
原则上,根据实施例的低比特速率HOA解码器包括上述低比特速率HOA编码器组件的对应部分,这些对应部分以相反的次序布置。特别地,低比特速率HOA解码器可以细分为如图4所描绘的感知和源解码部分以及如图6所示的空间HOA解码部分。
感知和源解码
图4示出了一个实施例中的感知和边信息源解码器40。在感知和边信息源解码器40中,低比特速率压缩的HOA比特流首先在解复用器中被解复用s41,这导致I个信号i=1,...,I的感知编码表示以及描述如何创建其HOA表示的编码的边信息然后,执行这I个信号在感知解码器42中的感知解码s42以及边信息在边信息解码器43(例如,熵解码器)中的解码s43。
感知解码器42将I个信号i=1,...,I解码为感知解码信号i=1,...,I。
边信息源解码器43将编码的边信息解码为元组集合 j=1,...,F、用于每个子带或子带组fj(j=1,...,F)的预测系数矩阵A(k+1,fj)、增益校正指数ei(k)和增益校正异常标志βi(k)、以及分配矢量vAMB,ASSIGN(k)。
算法2示例性地概述了如何从编码的边信息创建元组集合j=1,...,F。下面详细地描述子带方向的解码。
首先,从编码的边信息提取全带方向的数量NoOfGlobalDirs(k)。如上所述,这些也被用作子带方向。它利用个比特编码。
在第二步中,提取由NoOfGlobalDirs(k)个元素组成的数组GlobalDirGridIndices(k),每个元素通过个比特编码。该数组包含表示全带方向ΩFB,d(k),d=1,...,NoOfGlobalDirs(k)的网格索引,以使得
ΩFB,d(k)=ΩTEST,GlobalDirGridIndices(k)[d] (23)
然后,对于每个子带或子带组fj,j=1,...,F,提取由DSB个元素组成的数组bSubBandDirIsActive(k,fj),其中,第d元素bSubBandDirIsActive(k,fj)[d]指示第d子带是否有效。此外,计算有效子带方向DSB(k,fj)的总数。
最后,对于每个子带或子带组fj,j=1,...,F,计算元组的集合它由标识单个(有效)的子带方向轨迹的索引以及相应的估计方向ΩSB,d(k,fj)组成。
接着,从编码帧重构用于每个子带或子带组fj,j=1,...,F的预测系数矩阵A(k+1,fj)。在一个实施例中,重构包括每个子带或子带组fj的以下步骤:
首先,通过熵解码来获得每个矩阵系数的角度和幅值差。然后,熵解码的角度和幅值差根据用于它们的编码的比特数NQ重新缩放到它们的实际值范围。最后,通过将重构的角度和幅值差与最近的系数矩阵A(k,fj)(即,前一个帧的系数矩阵)的系数相加来构建当前的预测系数矩阵A(k+1,fj)。
因此,对于当前矩阵A(k+1,fj)的解码,必须知道前一个矩阵A(k,fj)。在一个实施例中,为了使得能够随机访问,以某些间隔接收包括没有差分编码的矩阵系数的特殊的访问帧以从这些帧重新开始差分解码。
感知和边信息源解码器40将感知解码信号i=1,...,I、元组集合j=1,...,F、预测系数矩阵A(k+1,fj)、增益校正指数ei(k)、增益校正异常标志βi(k)以及分配矢量vAMB,ASSIGN(k)输出到随后的空间HOA解码器50。
空间HOA解码
图5示出了一个实施例中的示例性空间HOA解码器50。空间HOA解码器50从I个信号i=1,...,I以及由边信息解码器43提供的上述边信息创建重构的HOA表示。下面详细地描述空间HOA解码器50内的单个的处理单元。
逆增益控制
在空间HOA解码器50中,感知解码信号i=1,...,I、连同相关联的增益校正指数ei(k)和增益校正异常标志βi(k)首先被输入到一个或多个逆增益控制处理块51。逆增益控制处理块提供增益校正的信号帧i=1,...,I。在一个实施例中,I个信号中的每一个被馈送到如图5中的单独的逆增益控制处理块51,以使得第i逆增益控制处理块提供增益校正的信号帧逆增益控制的更详细的描述从例如[9]第11.4.2.1获知。
截断的HOA重构
在截断的HOA重构块52中,I个增益校正的信号帧i=1,...,I根据由分配矢量vAMB,ASSIGN(k)提供的信息重新分布(即,重新分配)到HOA系数序列矩阵,以使得截断的HOA表示被重构。分配矢量vAMB,ASSIGN(k)包括I个分量,该I个分量对于每个传送通道指示它包含原始HOA分量的哪个系数序列。此外,分配矢量的元素形成用于第k帧的所有接收的系数序列的索引(是指原始HOA分量)的集合
截断的HOA表示的重构包括以下步骤:
第一,取决于分配矢量中的信息,解码的中间表示
的单个的分量n=1,...,O被设置为零或者被增益校正的信号帧的对应分量替换,即,
这意味着,如上所述,分配矢量的第i元素(在等式(26)中为n)指示第i系数替换解码的中间表示矩阵的第n行中的
第二,通过将逆空间变换应用于内的头OMIN个信号来执行它们的再相关,提供以下帧:
在该帧中,模式矩阵ΨMIN如等式(6)中那样定义。该模式矩阵取决于分别对每个OMIN或NMIN预定义的给定方向,因此在编码器和解码器处都可以被独立地构造。此外,OMIN(或NMIN)是根据惯例预先定义的。
最后,根据以下等式从再相关的信号以及中间表示的信号n=OMIN+1,...,O组成重构的截断的HOA表示
分析滤波器组
为了进一步计算由预测的方向子带信号表示的第二HOA分量,首先在一个或多个分析滤波器组53中将解压缩的截断的HOA表示的单个的系数序列n的每个帧n=1,...,O分解为单个的子带信号的帧j=1,...,F。对于每个子带fj,j=1,...,F,可以将单个的HOA系数序列的子带信号的帧收集到如下的子带HOA表示中:
对于j=1,...,F (29)
在HOA空间解码级处应用的一个或多个分析滤波器组53与在HOA空间编码级处的那些一个或多个分析滤波器组15是相同的,并且对于子带组,应用来自HOA空间编码级的分组。因此,在一个实施例中,分组信息被包括在编码信号中。下面提供关于分组信息的更多细节。
在一个实施例中,对于HOA压缩级处的截断的HOA表示的计算(参见以上,等式(4)附近)考虑最大阶数NMAX,并且使HOA压缩器和解压缩器的分析滤波器组15、53的应用仅限于具有索引n=1,...,OMAX的那些HOA系数序列具有索引n=OMAX+1,...,O的子带信号帧然后可以被设置为零。
方向子带HOA表示的合成
对于每个子带或子带组,在一个或多个方向子带合成块54中合成方向子带或子带组HOA表示j=1,...,F。在一个实施例中,为了避免由于连续帧之间的方向和预测系数的变化而导致的伪像,方向子带HOA表示的计算基于重叠相加的概念。因此,在一个实施例中,与第fj子带(j=1,...,F)相关的有效方向子带信号的HOA表示被计算为渐减的分量和渐增的分量的和:
在第一步中,为了计算这两个单个的分量,通过以下等式来计算与用于帧k1∈{k,k+1}的预测系数矩阵A(k1,fj)以及用于第k帧的截断的子带HOA表示相关的所有方向子带信号的瞬时帧:
对于k1∈{k,k+1} (31)
对于子带组,将每个组的HOA表示乘以固定矩阵A(k1,fj)来创建该组的子带信号
在第二步中,相对于方向ΩSB,d(k,fj)的方向子带信号的瞬时子带HOA表示(j=1,...,F)被获得为:
其中,表示相对于方向ΩSB,d(k,fj)的模式矢量(如等式(7)中的模式矢量)。对于子带组,对该组的所有信号执行等式(32),其中,矩阵ψ(ΩSB,d(k,fj))对于每个组是固定的。
假定矩阵将通过以下等式由它们的采样组成:
则有效方向子带信号的HOA表示的渐减分量和渐增分量的采样值最后通过以下等式确定:
其中,矢量
表示重叠相加窗函数。窗函数的示例由周期性Hann窗给出,该周期性Hann窗的元素通过以下等式定义:
子带HOA组成
对于每个子带或子带组fj,j=1,...,F,解码的子带HOA表示的系数序列(n=1,...,O)被设置为截断的HOA表示的系数序列,如果它以前被传送的话,否则被设置为由方向子带合成块54中的一个提供的方向HOA分量的系数序列,即,
该子带组成由一个或多个子带组成块55执行。在实施例中,单独的子带组成块55被用于每个子带或子带组,因此用于所述一个或多个方向子带合成块54中的每一个。在一个实施例中,方向子带合成块54及其对应的子带组成块55集成到单个块中。
合成滤波器组
在最后一步中,从所有解码的子带HOA表示j=1,...,F合成解码的HOA表示。解压缩的HOA表示的单个的时域系数序列n=1,...,O由一个或多个合成滤波器组56从对应的子带系数序列j=1,...,F合成,所述一个或多个合成滤波器组56最后输出解压缩的HOA表示
注意,由于连续应用分析和合成滤波器组53、56,合成的时域系数序列通常具有延迟。
图8示例性地示出了对于单个频率子带f1,有效方向候选的集合、它们的被选轨迹以及对应的元组集合。在帧k中,四个方向在频率子带f1中有效。这些方向属于相应的轨迹T1、T2、T3和T5。在前面的帧k-2和k-1中,不同的方向有效,即,分别为T1、T2、T6和T1-T4。帧k中的有效方向的集合MDIR(k)涉及全带,并且包括几个有效方向候选,例如,MDIR(k)={Ω3852101229446581}。每个方向可以以任何方式表达,例如,由两个角度表达或者表达为预定义表格的索引。从有效的全带方向的集合,在子带中实际有效的那些方向以及它们对应的轨迹针对每个频率子带单独地被收集在元组集合MDIR(k,fj),j=1,...,F中。例如,在帧k的第一频率子带中,有效方向为Ω3、Ω52、Ω229和Ω581,并且它们的相关联的轨迹分别为T3、T1、T2和T5。在第二频率子带f2中,有效方向示例性地仅为Ω52和Ω229,并且它们的相关联的轨迹分别为T1和T2
下面是与示例性集合IC,ACT(k)={1,2,4,6}中的系数序列对应的示例性截断的HOA表示CT(k)的系数矩阵的一部分:
根据IC,ACT(k),仅行1、2、4和6的系数不被设置为零(然而,它们可以为零,这取决于信号)。矩阵CT(k)的每一列是指一个采样,并且该矩阵的每一行是系数序列。压缩包括并非所有的系数序列被编码和传送,而是仅一些选择的系数序列(即,其索引分别包括在IC,ACT(k)和分配矢量vA(k)中的那些系数序列)被编码和传送。在解码器处,系数被解压缩,并且被定位到重构的截断的HOA表示的正确的矩阵行中。关于行的信息从分配矢量vAMB,ASSIGN(k)获得,该分量矢量vAMB,ASSIGN(k)另外还提供用于每个传送的系数序列的传输通道。剩余的系数序列利用零填充,并且以后根据接收的边信息(例如,预测矩阵)从接收的(通常是非零的)系数预测。
子带分组
在一个实施例中,所使用的子带具有适应人类听觉的心理声学性质的不同带宽。可替代地,组合来自分析滤波器组53的若干子带以便形成具有拥有不同带宽的子带的适合的滤波器组。来自分析滤波器组53的一组相邻子带使用相同的参数进行处理。如果使用多组组合的子带,则在编码器侧应用的对应的子带配置对于解码器侧必须是已知的。在实施例中,配置信息被传送,并且被解码器使用以设置其合成滤波器组。在实施例中,配置信息包括用于多个预定义的已知配置(例如,在列表中)之中的一个配置的标识符。
在另一个实施例中,使用以下灵活的解决方案,该解决方案减少定义子带配置所需的比特数。为了对子带配置进行高效编码,第一个、倒数第二个和最后一个子带组的数据被与其它子带组不同地对待。此外,在编码中使用子带组带宽差值。原则上,子带分组信息编码方法适合于对针对音频信号的一个或多个帧奏效的子带组的子带配置数据进行编码,其中,每个子带组是一个或多个相邻的原始子带的组合,并且原始子带的数量是预先定义的。在一个实施例中,后一个子带组的带宽大于或等于当前子带组的带宽。该方法包括利用表示NSB-1的固定比特数对NSB个子带组进行编码,并且如果NSB>1,则对于第一子带组g1,利用表示BSB[1]-1的一元码对带宽值BSB[1]进行编码。如果NSB=3,则对于第二子带组g2,编码具有固定比特数的带宽差值ΔBSB[2]=BSB[2]-BSB[1]。如果NSB>3,则对于子带组利用一元码对对应数量的带宽差值ΔBSB[g]=BSB[g]-BSB[g-1]进行编码,并且对于最后一个子带组编码具有固定比特数的带宽差值ΔBSB[NSB-1]=BSB[NSB-1]-BSB[NSB-2]。子带组的带宽值被表达为若干相邻的原始子带。对于最后一个子带组gSB,没有对应的值需要包括在编码的子带配置数据中。
下面,对高阶高保真立体声的一些基本特征进行解释。
高阶高保真立体声(HOA)是基于感兴趣的紧凑区域内的声场的描述,该区域假定是没有声源的。在该情况下,在感兴趣区域内的位置x、时间t处的声压p(t,x)的时空行为在物理上完全由齐次波方程式确定。下面,我们假定如图6所示的球坐标系。在该坐标系中,x轴指向前面的位置,y轴指向左边,z轴指向顶部。空间x=(r,θ,φ)T中的位置由半径r>0(即,到坐标原点的距离)、从极轴z(!)测量的倾角θ∈[0,π]、以及在x-y平面中从x轴逆时针测量的方位角φ∈[0,2π[表示。此外,(·)T表示转置。
于是,可以证明[11],由所表示的相对于时间的声压的傅里叶变换,即,
(其中,ω表示角频率,并且i指示虚数单位)可以根据以下等式展开为球谐级数:
在等式(42)中,cs表示声音的速度,并且k表示角波数,其通过与角频率ω相关。此外,jn(·)表示第一类的球贝塞尔函数,并且表示以上定义的阶数n和次数m的实值球谐函数。展开系数仅取决于角波数k。注意,已隐含地假定声压是空间带限的。因此,级数相对于阶数索引n在上限N处被截断,该上限N被称为HOA表示的阶数。
如果声场由从角度元组(θ,φ)指定的所有可能的方向到达且无限数量的不同角频率ω的平面谐波的叠加来表示,则可以证明[10],相应的平面波复数幅度函数C(ω,θ,φ)可以由以下球谐函数展开来表达:
其中,展开系数通过以下等式与展开系数相关:
假定单个的系数是角频率ω的函数,则逆傅里叶变换(由表示)的应用对于每个阶数n和次数m提供以下时域函数:
这些时域函数在这里被称为连续时间HOA系数序列,这些HOA系数序列可以通过以下等式收集在单个矢量c(t)中:
HOA系数序列在矢量c(t)内的位置索引由n(n+1)+1+m给出。
矢量c(t)中的元素的总数由O=(N+1)2给出。
最终的高保真立体声格式如下使用采样频率fS提供c(t)的采样版本:
其中,TS=1/fS表示采样周期。c(lTS)的元素在这里被称为离散时间HOA系数序列,其可以证明为总是实值。该性质显然对于连续时间版本也成立。
实值球谐函数的定义
实值球谐函数(采用SN3D规范化[1,第3.1章])由以下等式给出:
其中,
相关联的勒让德(Legendre)函数Pn,m(x)利用勒让德多项式Pn(x)定义为:
并且不同于[11]中那样,没有Condon-Shortley相位项(-1)m
在一个实施例中,用于HOA信号表示(从复值滤波器组获得)的子带或子带组内的主导方向信号的方向的逐帧确定和高效编码的方法包括对于每个当前帧k:确定HOA信号中的全带方向候选的集合MDIR(k)、集合MDIR(k)中的元素的数量NoOfGlobalDirs(k)以及对该数量的元素进行编码所需的数量D(k)=log2(NoOfGlobalDirs(k)),其中,每个全带方向候选具有与预定义的Q个可能的方向的全集相关的全局索引q(q∈[1,...,Q]),对于当前帧k的每个子带或子带组j,确定集合MDIR(k)中的全带方向候选中的哪些方向作为有效子带方向发生,确定子带或子带组中的任何一个中的作为有效子带方向发生的使用的全带方向候选(全部包含在HOA信号中的全带方向候选的集合MDIR(k)中)的集合MFB(k)、以及使用的全带方向候选的集合MFB(k)中的元素的数量NoOfGlobalDirs(k),并且对于当前帧k的每个子带或子带组j:确定集合MDIR(k)中的全带方向候选之中的多达d(d∈[1,...,D])个方向中的哪些方向是有效子带方向,对于每个有效子带方向确定轨迹和轨迹索引,将轨迹索引分配给每个有效子带方向,并且利用D(k)个比特通过相对索引对当前子带或子带组j中的每个有效子带方向进行编码。
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,这些可执行指令当在计算机上被执行时使计算机执行以上公开的用于主导方向信号的方向的逐帧确定和高效编码的方法。
此外,在一个实施例中,用于HOA信号表示的子带内的主导方向信号的方向的解码的方法包括以下步骤:接收将被解码的HOA信号表示的最大数量D个方向的索引,接收每一个子带的有效方向信号的索引,重构将被解码的HOA信号表示的最大数量D个方向中的方向,从将被解码的HOA信号表示的重构的D个方向以及每一个子带的有效方向信号的索引重构每一个子带的有效方向,预测子带的方向信号,其中,子带的当前帧中的方向信号的预测包括确定该子带的前一个帧的方向信号,并且其中,如果方向信号的索引在前一个帧中为零、而在当前帧中为非零,则创建新的方向信号,如果方向信号的索引在前一个帧中为非零、而在当前帧中为零,则取消前一方向信号,并且如果方向信号的索引从第一方向变为第二方向,则将该方向信号的方向从第一方向移动到第二方向。
在一个实施例中,如图1和图3所示,并且如以上所讨论的,用于对具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的HOA信号的帧进行编码的装置包括至少一个硬件处理器和非暂时性的有形计算机可读存储介质,该计算机可读存储介质有形地包含至少一个软件组件,该软件组件当在所述至少一个硬件处理器上执行行时引起以下操作:
计算11具有数量减少的非零系数序列的截断的HOA表示CT(k),确定11截断的HOA表示中所包括的有效的系数序列的索引的集合IC,ACT(k),从输入的HOA信号估计16候选方向的第一集合MDIR(k),将输入的HOA信号划分15为多个频率子带f1,...,fF,其中,获得频率子带的系数序列对于每个频率子带估计16方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,每个有效方向也包括在输入的HOA信号的候选方向的第一集合MDIR(k)中,对于每个频率子带,根据相应频率子带的方向的第二集合MDIR(k,f1),...,MDIR(k,fF)从频率子带的系数序列计算17方向子带信号对于每个频率子带,使用相应频率子带的有效的系数通道的索引的集合IC,ACT(k)从频率子带的系数序列计算18适于预测方向子带信号的预测矩阵A(k,f1),...,A(k,fF),并且对候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、预测矩阵A(k,f1),...,A(k,fF)以及截断的HOA表示CT(k)进行编码。
在一个实施例中,如图4和图5所示,并且如以上所讨论的,用于对压缩的HOA表示进行解码的装置包括至少一个硬件处理器和非暂时性的有形计算机可读存储介质,该计算机可读存储介质有形地包含至少一个软件组件,该软件组件当在所述至少一个硬件处理器上执行时引起以下操作:
从压缩的HOA表示提取s41、s42、s43多个截断的HOA系数序列指示或包含所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)、子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多个预测矩阵A(k+1,f1),...,A(k+1,fF)、以及增益控制边信息e1(k),β1(k),...,eI(k),βI(k);
从所述多个截断的HOA系数序列增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重构s51、s52截断的HOA表示
在分析滤波器组53中将重构的截断的HOA表示分解为多个即F个频率子带的频率子带表示
在方向子带合成块54中对于每个频率子带表示,从重构的截断的HOA表示的相应的频率子带表示子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及预测矩阵A(k+1,f1),...,A(k+1,fF)合成s54预测的方向HOA表示
在子带组成块55中对于所述F个频率子带中的每一个,组成s55具有系数序列n=1,...,O的解码的子带HOA表示所述系数序列n=1,...,O从截断的HOA表示的系数序列获得,如果系数序列具有包括在分配矢量vAMB,ASSIGN(k)中的索引n的话,否则从由方向子带合成块54中的一个提供的预测的方向HOA分量的系数序列获得;以及
在合成滤波器组56中合成s56解码的子带HOA表示以获得解码的HOA表示
图9示出了一个实施例中的解码方法的流程图。用于对来自压缩的HOA表示的方向信息进行解码的方法90包括对于压缩的HOA表示的每个帧:
从压缩的HOA表示提取s91-s93候选方向的集合MFB(k),其中,每个候选方向是至少一个频率子带中的潜在的子带信号源方向,对于每个频率子带以及多达DSB个潜在的子带信号源方向中的每一个,指示该潜在的子带信号源方向是否是相应频率子带的有效子带方向的比特bSubBandDirIsActive(k,fj),和有效子带方向的相对方向索引RelDirIndices(k,fj)以及对于每个有效子带方向的方向子带信号信息;
对于每个频率子带方向,将相对方向索引RelDirIndices(k,fj)转换s60为绝对方向索引,其中,如果所述比特bSubBandDirIsActive(k,fj)指示对于相应频率子带,候选方向是有效子带方向,则每个相对方向索引被用作候选方向的集合MFB(k)内的索引;以及
从所述方向子带信号信息预测s70方向子带信号,其中,方向根据所述绝对方向索引被分配给方向子带信号。
在实施例中,当前帧中的方向子带信号的预测s70包括确定前一个帧的子带的方向子带信号,其中,如果方向子带信号的索引在前一个帧中为零、而在当前帧中为非零,则创建新的方向子带信号,如果方向信号的索引在前一个帧中为非零、而在当前帧中为零,则取消前一方向子带信号,并且如果方向子带信号的索引从第一方向变为第二方向,则将方向子带信号的方向从第一方向移动到第二方向。
在实施例中,至少一个子带是两个或更多个频率子带的子带组。
在实施例中,方向子带信号信息至少包括多个截断的HOA系数序列指示或包含所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)以及多个预测矩阵A(k+1,f1),...,A(k+1,fF)。在实施例中,所述方法进一步包括以下步骤:从所述多个截断的HOA系数序列和分配矢量vAMB,ASSIGN(k)重构s51、s52截断的HOA表示在分析滤波器组53中将重构的截断的HOA表示分解s53为多个即F个频率子带的频率子带表示其中,所述预测方向子带信号的步骤使用所述频率子带表示和所述多个预测矩阵A(k+1,f1),...,A(k+1,fF)。
在实施例中,提取包括对压缩的HOA表示进行解复用s91以获得感知编码的部分和编码的边信息部分,感知编码的部分包括截断的HOA系数序列并且编码的边信息部分包括有效候选方向的集合MDIR(k)、有效子带方向的相对方向索引RelDirIndices(k,fj)、所述分配矢量vAMB,ASSIGN(k)、所述预测矩阵A(k+1,f1),...,A(k+1,fF)以及所述比特bSubBandDirIsActive(k,fj),所述比特bSubBandDirIsActive(k,fj)指示对于每个频率子带和每个有效候选方向,所述有效候选方向是有效子带方向。
在实施例中,所述方法进一步包括在感知解码器42中对提取的截断的HOA系数序列进行感知解码s92以获得截断的HOA系数序列在实施例中,所述方法进一步包括在边信息源解码器43中对编码的边信息部分进行解码s93以获得子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、预测矩阵A(k+1,f1),...,A(k+1,fF)、增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)。
在实施例中,提取包括提取增益控制边信息e1(k),β1(k),...,eI(k),βI(k),增益控制边信息在重构s51、s52截断的HOA表示中被使用。
在实施例中,所述方法进一步包括在方向子带合成块54中对于每个频率子带表示,从重构的截断的HOA表示的相应的频率子带表示子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及预测矩阵A(k+1,f1),...,A(k+1,fF)合成s54预测的方向HOA表示在子带组成块55中对于所述F个频率子带中的每一个,组成s55具有系数序列n=1,...,O的解码的子带HOA表示所述系数序列n=1,...,O从截断的HOA表示的系数序列获得,如果系数序列具有包括在分配矢量vAMB,ASSIGN(k)中的索引n的话,否则从由方向子带合成块54中的一个提供的预测的方向HOA分量的系数序列获得;以及在合成滤波器组56中合成s56解码的子带HOA表示以获得解码的HOA表示在实施例中,方向子带信号信息包括有效方向的集合MDIR(k)以及元组集合MDIR(k+1,f1),...,MDIR(k+1,fF),该元组集合MDIR(k+1,f1),...,MDIR(k+1,fF)包括具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的集合MDIR(k)内的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,轨迹是特定声源的方向的时间序列。
在一个实施例中,用于对方向信息进行解码的装置包括处理器和存储器,该存储器存储当被执行时使所述装置执行权利要求1的步骤的指令。
图10示出了一个实施例中的编码方法的流程图。用于对输入的HOA信号的帧的方向信息进行编码的方法100包括:从输入的HOA信号确定s101作为声源的方向的有效候选方向的第一集合MDIR(k),其中,有效候选方向是在Q个全局方向的预定义集合之中确定的,每个全局方向具有全局方向索引;将输入的HOA信号划分s102为多个频率子带f1,...,fF;在有效候选方向的第一集合MDIR(k)之中,对于每个频率子带,确定s103多达DSB个有效子带方向的第二集合,其中,DSB<Q;将相对方向索引分配s104给每一个频率子带的每个方向,方向索引在范围[1,...,NoOfGlobalDirs(k)]中;组装s105当前帧的方向信息;以及传送s106组装的方向信息。
方向信息包括:有效候选方向MDIR(k),对于每个频率子带和每个有效候选方向,指示该有效候选方向是否是相应频率子带的有效子带方向的比特bSubBandDirIsActive(k,fj),以及对于每个频率子带,子带方向的第二集合中的有效子带方向的相对方向索引RelDirIndices(k,fj)。
在一个实施例中,所述方法进一步包括从输入的HOA信号组成s107截断的HOA表示CT(k)和方向子带信号的步骤,截断的HOA表示是其中一个或多个系数序列被设置为零的HOA信号,并且其中,方向信息提供方向子带信号所指的方向,并且其中,所述传送进一步包括传送截断的HOA表示CT(k)以及定义方向子带信号的信息。
在一个实施例中,定义方向子带信号的信息包括预测矩阵A(k,f1),...,A(k,fF)。在一个实施例中,所述方法进一步包括以下步骤:在有效候选方向的第一集合之中确定s105a使用在频率子带中的至少一个中的使用的候选方向的集合MFB(k)、以及使用的候选方向的集合的元素的数量NoOfGlobalDirs(k),其中,所述组装方向信息s105的步骤中的有效候选方向是所述使用的候选方向;以及通过使用的候选方向的全局方向索引对使用的候选方向进行编码s105b,并且通过log2(D)个比特对所述数量的元素进行编码,其中,D是(全带)候选方向的预定义的最大数量。图10b)示出了这些后面的实施例的组合。
在一个实施例中,所述方法进一步包括确定s104a有效子带方向的轨迹,其中,有效子带方向是频率子带的声源的方向,并且其中,轨迹是特定声源的方向的时间序列,并且其中,将当前帧的当前频率子带的有效子带方向与前一个帧的同一个频率子带的有效子带方向进行比较,并且其中,确定同样的或相邻的有效子带方向属于同一个轨迹。
在一个实施例中,分配s104给每一个子带的每个方向的方向索引是轨迹索引,并且所述方法进一步包括以下步骤:将轨迹索引分配s104b给每个确定的轨迹;以及对于每个频率子带产生s104c包括索引元组的元组集合MDIR(k,f1),...,MDIR(k,fF),其中,每个索引元组包括当前频率子带的有效子带方向的索引以及对于有效子带方向确定的轨迹的轨迹索引。图10c)示出了这些后面的实施例的组合。在一个实施例中,创建两个或更多个频率子带的至少一个组,并且使用所述至少一个组,而不是单个频率子带,并且以与单个频率子带相同的方式对待所述至少一个组。
在一个实施例中,用于编码的装置包括处理器和存储器,该存储器存储当被执行时使所述装置执行权利要求7的步骤的指令。
图11示出了一个实施例中的用于对输入的HOA信号的帧的方向信息进行编码的装置,该装置包括:有效候选确定模块101,其被配置为从输入的HOA信号确定s101作为声源的方向的有效候选方向的第一集合MDIR(k),其中,有效候选方向是在Q个全局方向的预定义集合之中确定的,每个全局方向具有全局方向索引;分析滤波器组模块102(具有分析滤波器组15),其被配置为将输入的HOA信号划分s102为多个频率子带f1,...,fF;子带方向确定模块103,其被配置为在有效候选方向的第一集合MDIR(k)之中,对于每个频率子带,确定s103多达DSB个有效子带方向的第二集合,其中,DSB<Q;相对方向索引分配模块104,其被配置为将相对方向索引分配s104给每一个频率子带的每个方向,方向索引在范围[1,...,NoOfGlobalDirs(k)]中;方向信息组装模块105,其被配置为组装s105当前帧的方向信息;以及包装模块106,其被配置为包装(并且存储或传送)s106组装的方向信息。方向信息包括:有效候选方向MDIR(k),对于每个频率子带和每个有效候选方向,指示该有效候选方向是否是相应频率子带的有效子带方向的比特bSubBandDirIsActive(k,fj),以及对于每个频率子带,子带方向的第二集合中的有效子带方向的相对方向索引RelDirIndices(k,fj)。模块101-106可例如通过使用可以由相应软件配置的一个或多个硬件处理器来实现。
在一个实施例中,所述装置进一步包括:使用的候选方向确定模块105a,其被配置为在有效候选方向的第一集合之中确定使用在频率子带中的至少一个中的使用的候选方向的集合MFB(k),并且确定使用的候选方向的集合的元素的数量,其中,方向信息组装模块105组装的所述方向信息中所包括的有效候选方向是使用的候选方向,以及编码器105b,其被配置为通过使用的候选方向的全局方向索引对使用的候选方向进行编码,并且通过log2(D)个比特对所述数量的元素进行编码,其中,D是全带候选方向(即,对于全带来说)的预定义的最大数量。
在一个实施例中,所述装置进一步包括:轨迹确定模块104a,其被配置为确定有效子带方向的轨迹,其中,有效子带方向是频率子带的声源的方向,并且其中,轨迹是特定声源的方向的时间序列,并且其中,一个或多个方向比较器将当前帧的当前频率子带的有效子带方向与前一个帧的同一个频率子带的有效子带方向进行比较,并且其中,确定同样的或相邻的有效子带方向属于同一个轨迹。
在一个实施例中,相对方向索引分配模块104分配给每一个子带的每个方向的方向索引是轨迹索引,并且相对方向索引分配模块104进一步包括:轨迹索引分配模块104b,其被配置为将轨迹索引分配给每个确定的轨迹;以及元组集合产生器104c,其被配置为对于每个频率子带产生包括索引元组的元组集合MDIR(k,f1),...,MDIR(k,fF),其中,每个索引元组包括当前频率子带的有效子带方向的索引和对于有效子带方向确定的轨迹的轨迹索引。
在一个实施例中,所述装置进一步包括被配置为创建两个或更多个频率子带的至少一个组的至少一个分组模块,其中,使用所述至少一个组,而不是单个频率子带,并且以与单个频率子带相同的方式处理所述至少一个组。
图12示出了一个实施例中的用于对来自压缩的HOA表示的方向信息进行解码以获得HOA信号的帧的方向信息的装置。所述装置包括:提取模块40,其被配置为从压缩的HOA表示提取候选方向的集合MFB(k),其中,每个候选方向是至少一个子带中的潜在的子带信号源方向,对于每个频率子带以及多达最大DSB个潜在的子带信号源方向中的每一个,指示该潜在的子带信号源方向是否是相应频率子带的有效子带方向的比特bSubBandDirIsActive(k,fj),和有效子带方向的相对方向索引RelDirIndices(k,fj)以及对于每个有效子带方向的方向子带信号信息;转换模块60,其被配置为对于每个频率子带方向,将相对方向索引RelDirIndices(k,fj)转换为绝对方向索引,其中,如果所述比特bSubBandDirIsActive(k,fj)指示对于相应频率子带,候选方向是有效子带方向,则每个相对方向索引被用作候选方向的集合MFB(k)内的索引,以及预测模块70,其被配置为从所述方向子带信号信息预测方向子带信号,其中,方向根据所述绝对方向索引被分配给方向子带信号。模块40、60、70可例如通过使用可以由相应软件配置的一个或多个硬件处理器来实现。
在一个实施例中,用于对具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的HOA信号的帧进行编码(从而进行压缩)的方法包括以下步骤:确定将被包括在截断的HOA表示中的有效的系数序列的索引的集合IC,ACT(k),计算具有数量减少的非零系数序列(即,与输入的HOA信号相比,较少的非零系数序列,因此较多的零系数序列)的截断的HOA表示CT(k);从输入的HOA信号估计候选方向的第一集合MDIR(k),将输入的HOA信号划分为多个频率子带,其中,获得这些频率子带的系数对于每个频率子带,估计方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,每个有效方向也包括在输入的HOA信号的候选方向的第一集合MDIR(k)中(即,方向的第二集合中的有效子带方向是全带方向的第一集合的子集),对于每个频率子带,根据相应频率子带的方向的第二集合MDIR(k,f1),...,MDIR(k,fF)从频率子带的系数 计算方向子带信号对于每个频率子带,使用相应频率子带的有效的系数序列的索引的集合IC,ACT(k)从频率子带的系数计算适于预测方向子带信号的预测矩阵A(k,f1),...,A(k,fF),以及对候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、预测矩阵A(k,f1),...,A(k,fF)以及截断的HOA表示CT(k)进行编码。
方向的第二集合与频率子带相关。候选方向的第一集合与全频带相关。有利地,在对每个频率子带估计方向的第二集合的步骤中,仅需要在全带HOA信号的方向MDIR(k)之中搜索频率子带的方向MDIR(k,f1),...,MDIR(k,fF),因为子带方向的第二集合是全带方向的第一集合的子集。在一个实施例中,每个元组内的第一索引和第二索引的相继次序被交换,即,第一索引是当前频率子带的有效方向的索引,而第二索引是有效方向的轨迹索引。
完整HOA信号包括多个系数序列或系数通道。其中这些系数序列中的一个或多个被设置为零的HOA信号在本文中被称为截断的HOA表示。计算或产生截断的HOA表示一般包括选择有效的、并因此将不被设置为零的系数序列,并且将无效的系数序列设置为零。该选择可以根据各种标准(例如,通过选择包括最大能量的那些系数序列或者感知最相关的那些系数序列作为将不被设置为零的系数序列、或者任意地选择系数序列等等)来进行。将HOA信号划分为频率子带可以由包括例如正交镜像滤波器(QMF)的分析滤波器组执行。
在一个实施例中,对截断的HOA表示CT(k)进行编码包括截断的HOA通道序列的部分去相关、用于将(相关的或去相关的)截断的HOA通道序列y1(k),...,yI(k)分配给传输通道的通道分配、对每个传输通道执行增益控制(其中,产生用于每个传输通道的增益控制边信息ei(k-1),βi(k-1))、在感知编码器中对增益控制的截断的HOA通道序列z1(k),...,zI(k)进行编码、在边信息源编码器中对增益控制边信息ei(k-1),βi(k-1)、候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)以及预测矩阵A(k,f1),...,A(k,fF)进行编码、以及对感知编码器和边信息源编码器的输出进行复用以获得编码的HOA信号帧
此外,在一个实施例中,用于对压缩的HOA表示进行解码(从而进行解压缩)的方法包括:从压缩的HOA表示提取多个截断的HOA系数序列指示(或包含)所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)、子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多个预测矩阵A(k+1,f1),...,A(k+1,fF)、以及增益控制边信息e1(k),β1(k),...,eI(k),βI(k),从所述多个截断的HOA系数序列增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重构截断的HOA表示在分析滤波器组中将重构的截断的HOA表示分解为多个即F个频率子带的频率子带表示在方向子带合成块中对于每个频率子带表示,从重构的截断的HOA表示的相应的频率子带表示子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及预测矩阵A(k+1,f1),...,A(k+1,fF)合成预测的方向HOA表示在子带组成块中对于所述F个频率子带中的每一个,组成具有系数序列n=1,...,O的解码的子带HOA表示所述系数序列n=1,...,O从截断的HOA表示的系数序列获得,如果系数序列具有被包括在分配矢量vAMB,ASSIGN(k)中(即,分配矢量vAMB,ASSIGN(k)的元素)的索引n的话,否则从由方向子带合成块中的一个提供的预测的方向HOA分量的系数序列获得;以及在合成滤波器组中合成解码的子带HOA表示以获得解码的HOA表示在一个实施例中,提取包括对压缩的HOA表示进行解复用以获得感知编码的部分和编码的边信息部分。在一个实施例中,感知编码的部分包括感知编码的截断的HOA系数序列并且提取包括在感知解码器中对感知编码的截断的HOA系数序列进行解码以获得截断的HOA系数序列在一个实施例中,提取包括在边信息源解码器中对编码的边信息部分进行解码以获得子带相关的方向的集合MDIR(k+1,f1),...,MDIR(k+1,fF)、预测矩阵A(k+1,f1),...,A(k+1,fF)、增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)。
在一个实施例中,用于对HOA信号进行解码的装置包括:提取模块,其被配置为从压缩的HOA表示提取多个截断的HOA系数序列指示或包含所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)、子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多个预测矩阵A(k+1,f1),...,A(k+1,fF)以及增益控制边信息e1(k),β1(k),...,eI(k),βI(k);重构模块,其被配置为从所述多个截断的HOA系数序列、增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重构截断的HOA表示分析滤波器组模块53,其被配置为将重构的截断的HOA表示分解为多个即F个频率子带的频率子带表示至少一个方向子带合成模块54,其被配置为对于每个频率子带表示,从重构的截断的HOA表示的相应的频率子带表示子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及预测矩阵A(k+1,f1),...,A(k+1,fF)合成预测的方向HOA表示至少一个子带组成模块55,其被配置为对于所述F个频率子带中的每一个,组成具有系数序列n=1,...,O的解码的子带HOA表示所述系数序列n=1,...,O从截断的HOA表示的系数序列获得,如果系数序列具有被包括在分配矢量vAMB,ASSIGN(k)中的索引n的话,否则从由方向子带合成模块54中的一个提供的预测的方向HOA分量的系数序列获得;以及合成滤波器组模块56,其被配置为合成解码的子带HOA表示以获得解码的HOA表示
子带一般是从复值滤波器组获得的。分配矢量的一个目的是指示传送/接收的、并因此包含在截断的HOA表示中的系数序列的序列索引,以便使得能够将这些系数序列分配给最终的HOA信号。换句话说,分配矢量对于截断的HOA表示的每个系数序列指示它对应于最终的HOA信号中的哪个系数序列。例如,如果截断的HOA表示包含四个系数序列并且最终的HOA信号具有九个系数序列,则分配矢量可以是[1,2,5,7](原则上),从而指示截断的HOA表示的第一、第二、第三和第四系数序列实际上是最终的HOA信号中的第一、第二、第五和第七系数序列。
在一个实施例中,被配置为预测当前帧中的方向子带信号的预测模块被进一步配置为:确定前一个帧的子带的方向子带信号,如果方向子带信号的索引在前一个帧中为零、而在当前帧中为非零,则创建新的方向子带信号,如果方向信号的索引在前一个帧中为非零、而在当前帧中为零,则取消前一方向子带信号,并且如果方向子带信号的索引从第一方向变为第二方向,则将方向子带信号的方向从第一方向移动到第二方向。在一个实施例中,至少一个子带是两个或更多个频率子带的子带组。在一个实施例中,方向子带信号信息至少包括多个截断的HOA系数序列、指示或包含所述截断的HOA系数序列的序列索引的分配矢量以及多个预测矩阵,并且所述装置进一步包括:截断的HOA表示重构模块,其被配置为从所述多个截断的HOA系数序列和分配矢量重构截断的HOA表示,以及一个或多个分析滤波器组,其被配置为将重构的截断的HOA表示分解为多个即F个频率子带的频率子带表示,其中,预测模块使用所述频率子带表示和所述多个预测矩阵来对方向子带信号进行所述预测。在一个实施例中,提取模块被进一步配置为对压缩的HOA表示进行解复用以获得感知编码的部分和编码的边信息部分,其中,感知编码的部分包括截断的HOA系数序列,并且其中,编码的边信息部分包括有效候选方向的集合MDIR(k)、有效子带方向的相对方向索引、所述分配矢量、所述预测矩阵以及所述比特,所述比特指示对于每个频率子带和每个有效候选方向,所述有效候选方向是有效子带方向。在一个实施例中,方向子带信号信息包括有效方向的集合和元组集合,该元组集合包括具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的集合内的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,轨迹是特定声源的方向的时间序列。
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,这些可执行指令当在计算机上执行时使计算机执行用于对输入的HOA信号的帧的方向信息进行编码的方法,该方法包括:从输入的HOA信号确定作为声源的方向的有效候选方向的第一集合MDIR(k),其中,有效候选方向是在Q个全局方向的预定义集合之中确定的,每个全局方向具有全局方向索引,将输入的HOA信号划分为多个频率子带,在有效候选方向的第一集合MDIR(k)之中,对于每个频率子带,确定多达DSB个有效子带方向的第二集合,其中,DSB<Q,将相对方向索引分配给每一个频率子带的每个方向,方向索引在范围[1,...,NoOfGlobalDirs(k)]中,组装当前帧的方向信息,该方向信息包括:有效候选方向MDIR(k),对于每个频率子带和每个有效候选方向,指示该有效候选方向是否是相应频率子带的有效子带方向的比特,以及对于每个频率子带,子带方向的第二集合中的有效子带方向的相对方向索引,以及传送组装的方向信息。进一步的实施例可以类似于以上公开的编码方法导出。
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,这些可执行指令当在计算机上执行时使计算机执行用于对来自压缩的HOA表示的方向信息进行解码的方法,该方法包括对于压缩的HOA表示的每个帧:
从压缩的HOA表示提取候选方向的集合MFB(k)(其中,每个候选方向是至少一个子带中的潜在的子带信号源方向),对于每个频率子带以及多达DSB个潜在的子带信号源方向中的每一个,指示该潜在的子带信号源方向是否是相应频率子带的有效子带方向的比特bSubBandDirIsActive(k,fj),和有效子带方向的相对方向索引以及对于每个有效子带方向的方向子带信号信息,对于每个频率子带方向,将相对方向索引转换为绝对方向索引,其中,如果所述比特指示对于相应频率子带,候选方向是有效子带方向,则每个相对方向索引被用作候选方向的集合MFB(k)内的索引,以及从所述方向子带信号信息预测方向子带信号,其中,方向根据所述绝对方向索引分配给方向子带信号。进一步的实施例可以类似于以上公开的解码方法导出。
尽管已经示出、描述并指出了本发明的应用于其优选实施例时的基本的新颖特征,但是将理解,在不背离本发明的精神的情况下,所描述的装置和方法中的在所公开的设备的形式和细节上的以及在它们的操作上的各种省略、替换和改变可以由本领域技术人员做出。明确的意图是以实现相同结果的基本上相同的方式执行基本上相同的功能的那些元件的所有组合在本发明的范围内。从一个所描述的实施例到另一个所描述的实施例的元件替换也被充分预期和构想。将理解,已纯粹以示例的方式描述了本发明,在不背离本发明的范围的情况下,可以进行细节的修改。在说明书和(在适当情况下)权利要求以及附图中公开的每个特征可以独立地或者以任何适当的组合提供。在适当的情况下,特征可以以硬件、软件或这二者的组合来实现。在适用的情况下,连接可以实现为无线连接或有线的、但不一定是直接的或专用的连接。在一个实施例中,以上提及的模块或单元(诸如提取模块、增益控制单元、子带信号分组单元、处理单元及其它)中的每一个至少部分通过使用至少一个硅组件来以硬件实现。
参考文献
[1]Daniel.Représentation de champs acoustiques,application àla transmission et à la reproduction de scènes sonores complexes dans uncontexte multimédia.PhD thesis,UniversitéParis 6,2001年.
[2]Fliege和Ulrike Maier.A two-stage approach for computingcubature formulae for the sphere.Technical report,Fachbereich Mathematik,Dortmund,1999年.节点号在http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html上找到.
[3]Sven Kordon和Alexander Krueger.Adaptive value range control forHOA signals.专利申请(Technicolor内部参考:PD130016),2013年7月.
[4]Alexander Krueger和Sven Kordon.Intelligent signal extraction andpacking for compression of HOA sound field representations.专利申请EP13305558.2(Technicolor内部参考:PD130015),2013年4月29日提交.
[5]A.Krueger、S.Kordon和J.Boehm.HOA compression by decomposition intodirectional and ambient components.公开的专利申请EP2743922(Technicolor内部参考:PD120055),2012年12月.
[6]Alexander Krüger、Sven Kordon、Johannes Boehm和Jan-Mark Batke.Methodand apparatus for compressing and decompressing a higher order ambisonicssignal representation.公开的专利申请EP2665208(Technicolor内部参考:PD120015),2012年5月.
[7]Alexander Krüger.Method and apparatus for robust sound sourcedirection tracking based on Higher Order Ambisonics.公开的专利申请EP2738962(Technicolor内部参考:PD120049),2012年12月.
[8]Daniel D.Lee和H.Sebastian Seung.Learning the parts of objects bynonnegative matrix factorization.Nature,401:788–791,1999年.
[9]ISO/IEC JTC 1/SC 29N.Text of ISO/IEC 23008-3/CD,MPEG-H3d audio,2014年4月.
[10]Boaz Rafaely.Plane-wave decomposition of the sound field on asphere by spherical convolution.J.Acoust.Soc.Am.,4(116):2149–2157,2004年10月.
[11]Earl G.Williams.Fourier Acoustics,volume 93 of AppliedMathematical Sciences.Academic Press,1999年.

Claims (25)

1.一种用于对来自压缩的高阶高保真立体声(HOA)表示的方向信息进行解码的方法(90),包括对于压缩的HOA表示的每一个帧:
-从所述压缩的HOA表示提取(s91-s93):候选方向的集合(MFB(k)),其中,每个候选方向是至少一个子带中的潜在的子带信号源方向,
对于每个频率子带和多达DSB个潜在的子带信号源方向中的每一个潜在的子带信号源方向,指示所述潜在的子带信号源方向是否是相应频率子带的有效子带方向的比特(bSubBandDirIsActive(k,fj)),以及
有效子带方向的相对方向索引(RelDirIndices(k,fj))和对于每个有效子带方向的方向子带信号信息;
-对于每个频率子带方向,将所述相对方向索引(RelDirIndices(k,fj))转换(s60)为绝对方向索引,其中,如果所述比特(bSubBandDirIsActive(k,fj))指示对于相应频率子带,候选方向是有效子带方向,则每个相对方向索引被用作所述候选方向的集合(MFB(k))内的索引;以及
-从所述方向子带信号信息预测(s70)方向子带信号,其中,方向根据所述绝对方向索引被分配给所述方向子带信号。
2.根据权利要求1所述的方法,其中,当前帧中的方向子带信号的所述预测(s70)包括确定前一个帧的子带的方向子带信号,并且其中,
如果方向子带信号的索引在前一个帧中为零、而在当前帧中为非零,则创建新的方向子带信号,
如果方向信号的索引在前一个帧中为非零、而在当前帧中为零,则取消前一方向子带信号,以及
如果方向子带信号的索引从第一方向变为第二方向,则将方向子带信号的方向从第一方向移动到第二方向。
3.根据权利要求1或2所述的方法,其中,至少一个子带是两个或更多个频率子带的子带组。
4.根据权利要求1-3中的一项所述的方法,其中,所述方向子带信号信息至少包括多个截断的HOA系数序列分配矢量(vAMB,ASSIGN(k))以及多个预测矩阵(A(k+1,f1),...,A(k+1,fF)),所述分配矢量(vAMB,ASSIGN(k))指示或包含所述截断的HOA系数序列的序列索引,所述方法进一步包括以下步骤:
-从所述多个截断的HOA系数序列和所述分配矢量(vAMB,ASSIGN(k))重构(s51,s52)截断的HOA表示以及
-在分析滤波器组(53)中将所述重构的截断的HOA表示分解(s53)为多个即F个频率子带的频率子带表示
其中,所述预测方向子带信号的步骤使用所述频率子带表示和所述多个预测矩阵(A(k+1,f1),...,A(k+1,fF))。
5.根据权利要求1-4中的一项所述的方法,其中,所述提取包括对所述压缩的HOA表示进行解复用(s91)以获得感知编码的部分和编码的边信息部分,所述感知编码的部分包括所述截断的HOA系数序列并且所述编码的边信息部分包括有效候选方向的集合(MDIR(k))、所述有效子带方向的相对方向索引(RelDirIndices(k,fj))、所述分配矢量(vAMB,ASSIGN(k))、所述预测矩阵(A(k+1,f1),...,A(k+1,fF))以及所述比特(bSubBandDirIsActive(k,fj)),所述比特(bSubBandDirIsActive(k,fj))指示对于每个频率子带和每个有效候选方向,所述有效候选方向是有效子带方向。
6.根据权利要求1-5中的一项所述的方法,其中,所述方向子带信号信息包括有效方向的集合(MDIR(k))和元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF)),所述元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF))包括具有第一索引和第二索引的索引元组,所述第二索引是当前频率子带的有效方向的集合(MDIR(k))内的有效方向的索引,并且所述第一索引是所述有效方向的轨迹索引,其中,轨迹是特定声源的方向的时间序列。
7.一种用于对输入的高阶高保真立体声(HOA)信号的帧的方向信息进行编码的方法(100),包括:
-从输入的HOA信号确定(s101)作为声源的方向的有效候选方向的第一集合(MDIR(k)),其中,所述有效候选方向是在Q个全局方向的预定义集合之中确定的,每个全局方向具有全局方向索引;
-将所述输入的HOA信号划分(s102)为多个频率子带(f1,...,fF);
-在所述有效候选方向的第一集合(MDIR(k))之中,对于所述频率子带中的每一个,确定(s103)多达DSB个有效子带方向的第二集合,其中,DSB<Q;
-将相对方向索引分配(s104)给每一个频率子带的每个方向,所述方向索引在范围[1,...,NoOfGlobalDirs(k)]中;
-组装(s105)当前帧的方向信息,所述方向信息包括:
有效候选方向(MDIR(k)),
对于每个频率子带和每个有效候选方向,指示所述有效候选方向是否是相应频率子带的有效子带方向的比特(bSubBandDirIsActive(k,fj)),以及
对于每个频率子带,所述子带方向的第二集合中的有效子带方向的相对方向索引(RelDirIndices(k,fj));以及
-传送(s106)组装的方向信息。
8.根据权利要求7所述的方法,进一步包括从所述输入的HOA信号组成(s107)截断的HOA表示(CT(k))和方向子带信号的步骤,所述截断的HOA表示是其中一个或多个系数序列被设置为零的HOA信号,并且其中,所述方向信息提供方向子带信号所指的方向,并且其中,所述传送进一步包括传送所述截断的HOA表示(CT(k))和定义所述方向子带信号的信息。
9.根据权利要求8所述的方法,其中,定义所述方向子带信号的信息包括预测矩阵(A(k,f1),...,A(k,fF))。
10.根据权利要求7-9中的一项所述的方法,进一步包括以下步骤:
-在所述有效候选方向的第一集合之中确定(s105a)使用在所述频率子带中的至少一个中的使用的候选方向的集合(MFB(k))、以及所述使用的候选方向的集合的元素的数量(NoOfGlobalDirs(k)),其中,所述组装方向信息的步骤(s105)中的有效候选方向是使用的候选方向;以及
-通过使用的候选方向的全局方向索引对所述使用的候选方向进行编码(s105b),并且通过log2(D)个比特对所述数量的元素进行编码,其中,D是候选方向(全带)的预定义的最大数量。
11.根据权利要求7-10中的一项所述的方法,进一步包括确定(s104a)有效子带方向的轨迹的步骤,其中,有效子带方向是频率子带的声源的方向,并且其中,轨迹是特定声源的方向的时间序列,并且其中,将当前帧的当前频率子带的有效子带方向与前一个帧的同一个频率子带的有效子带方向进行比较,并且其中,确定同样的或相邻的有效子带方向属于同一个轨迹。
12.根据权利要求11所述的方法,其中,分配(s104)给每一个子带的每个方向的方向索引是轨迹索引,所述方法进一步包括以下步骤:
-将轨迹索引分配(s104b)给每个确定的轨迹;以及
-对于每个频率子带产生(s104c)包括索引元组的元组集合(MDIR(k,f1),...,MDIR(k,fF)),其中,每个索引元组包括当前频率子带的有效子带方向的索引和对于有效子带方向确定的轨迹的轨迹索引。
13.根据权利要求7-12中的一项所述的方法,其中,创建两个或更多个频率子带的至少一个组,并且其中,使用所述至少一个组,而不是单个频率子带,并且以与单个频率子带相同的方式对待所述至少一个组。
14.一种用于对来自压缩的高阶高保真立体声(HOA)表示的方向信息进行解码的装置,包括:
-提取模块(40),所述提取模块(40)被配置为从所述压缩的HOA表示提取:候选方向的集合(MFB(k)),其中,每个候选方向是至少一个子带中的潜在的子带信号源方向,
对于每个频率子带和多达最大值(DSB)个潜在的子带信号源方向中的每一个潜在的子带信号源方向,指示所述潜在的子带信号源方向是否是相应频率子带的有效子带方向的比特(bSubBandDirIsActive(k,fj)),以及
有效子带方向的相对方向索引(RelDirIndices(k,fj))和对于每个有效子带方向的方向子带信号信息;
-转换模块(60),所述转换模块(60)被配置为对于每个频率子带方向,将所述相对方向索引(RelDirIndices(k,fj))转换为绝对方向索引,其中,如果所述比特(bSubBandDirIsActive(k,fj))指示对于相应频率子带,候选方向是有效子带方向,则每个相对方向索引被用作所述候选方向的集合(MFB(k))内的索引;以及
-预测模块(70),所述预测模块(70)被配置为从所述方向子带信号信息预测方向子带信号,其中,方向根据所述绝对方向索引被分配给所述方向子带信号。
15.根据权利要求14所述的装置,其中,被配置为预测当前帧中的方向子带信号的所述预测模块(70)被进一步配置为:
-确定前一个帧的子带的方向子带信号;
-如果方向子带信号的索引在前一个帧中为零、而在当前帧中为非零,则创建新的方向子带信号;
-如果方向信号的索引在前一个帧中为非零、而在当前帧中为零,则取消前一方向子带信号;以及
-如果方向子带信号的索引从第一方向变为第二方向,则将方向子带信号的方向从第一方向移动到第二方向。
16.根据权利要求14或15所述的装置,其中,至少一个子带是两个或更多个频率子带的子带组。
17.根据权利要求14-16中的一项所述的装置,其中,所述方向子带信号信息至少包括多个截断的HOA系数序列分配矢量(vAMB,ASSIGN(k))以及多个预测矩阵(A(k+1,f1),...,A(k+1,fF)),所述分配矢量(vAMB,ASSIGN(k))指示或包含所述截断的HOA系数序列的序列索引,所述装置进一步包括:
-截断的HOA表示重构模块,所述截断的HOA表示重构模块被配置为从所述多个截断的HOA系数序列和所述分配矢量(vAMB,ASSIGN(k))重构截断的HOA表示以及
-一个或多个分析滤波器组(53),所述一个或多个分析滤波器组(53)被配置为将所述重构的截断的HOA表示分解为多个即F个频率子带的频率子带表示
其中,所述预测模块(70)使用所述频率子带表示和所述多个预测矩阵(A(k+1,f1),...,A(k+1,fF))来对方向子带信号进行所述预测。
18.根据权利要求14-17中的一项所述的装置,其中,所述提取模块(40)被进一步配置为对所述压缩的HOA表示进行解复用以获得感知编码的部分和编码的边信息部分,
其中,所述感知编码的部分包括所述截断的HOA系数序列并且
其中,所述编码的边信息部分包括有效候选方向的集合(MDIR(k))、所述有效子带方向的相对方向索引(RelDirIndices(k,fj))、所述分配矢量(vAMB,ASSIGN(k))、所述预测矩阵(A(k+1,f1),...,A(k+1,fF))以及所述比特(bSubBandDirIsActive(k,fj)),所述比特(bSubBandDirIsActive(k,fj))指示对于每个频率子带和每个有效候选方向,所述有效候选方向是有效子带方向。
19.根据权利要求14-18中的一项所述的装置,其中,所述方向子带信号信息包括有效方向的集合(MDIR(k))和元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF)),所述元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF))包括具有第一索引和第二索引的索引元组,所述第二索引是当前频率子带的有效方向的集合(MDIR(k))内的有效方向的索引,并且所述第一索引是所述有效方向的轨迹索引,其中,轨迹是特定声源的方向的时间序列。
20.一种用于对输入的高阶高保真立体声(HOA)信号的帧的方向信息进行编码的装置,包括:
-有效候选确定模块(101),所述有效候选确定模块(101)被配置为从输入的HOA信号确定(s101)作为声源的方向的有效候选方向的第一集合(MDIR(k)),其中,所述有效候选方向是在Q个全局方向的预定义集合之中确定的,每个全局方向具有全局方向索引;
-分析滤波器组模块(102),所述分析滤波器组模块(102)被配置为将所述输入的HOA信号划分(s102)为多个频率子带(f1,...,fF);
-子带方向确定模块(103),所述子带方向确定模块(103)被配置为在所述有效候选方向的第一集合(MDIR(k))之中,对于所述频率子带中的每一个,确定(s103)多达DSB个有效子带方向的第二集合,其中,DSB<Q;
-相对方向索引分配模块(104),所述相对方向索引分配模块(104)被配置为将相对方向索引分配(s104)给每一个频率子带的每个方向,所述方向索引在范围[1,...,NoOfGlobalDirs(k)]中;
-方向信息组装模块(105),所述方向信息组装模块(105)被配置为组装(s105)当前帧的方向信息,所述方向信息包括:
有效候选方向(MDIR(k)),
对于每个频率子带和每个有效候选方向,指示所述有效候选方向是否是相应频率子带的有效子带方向的比特(bSubBandDirIsActive(k,fj)),以及
对于每个频率子带,所述子带方向的第二集合中的有效子带方向的相对方向索引(RelDirIndices(k,fj));以及
-包装模块(106),所述包装模块(106)被配置为传送(s106)组装的方向信息。
21.根据权利要求20所述的装置,其中,定义所述方向子带信号的信息包括预测矩阵(A(k,f1),...,A(k,fF))。
22.根据权利要求20或21所述的装置,进一步包括:
-使用的候选方向确定模块(105a),所述使用的候选方向确定模块(105a)被配置为:在所述有效候选方向的第一集合之中确定使用在所述频率子带中的至少一个中的使用的候选方向的集合(MFB(k)),并且确定所述使用的候选方向的集合的元素的数量(NoOfGlobalDirs(k)),其中,所述方向信息组装模块(105)组装的所述方向信息中包括的有效候选方向是使用的候选方向;以及
-编码器(105b),所述编码器(105b)被配置为:通过使用的候选方向的全局方向索引对所述使用的候选方向进行编码,并且通过log2(D)个比特对所述数量的元素进行编码,其中,D是全带的候选方向的预定义的最大数量。
23.根据权利要求20-22中的一项所述的装置,进一步包括轨迹确定模块(104a),所述轨迹确定模块(104a)被配置为确定有效子带方向的轨迹,其中,有效子带方向是频率子带的声源的方向,并且其中,轨迹是特定声源的方向的时间序列,并且其中,一个或多个方向比较器将当前帧的当前频率子带的有效子带方向与前一个帧的同一个频率子带的有效子带方向进行比较,并且其中,确定同样的或相邻的有效子带方向属于同一个轨迹。
24.根据权利要求23所述的装置,其中,所述相对方向索引分配模块(104)分配给每一个子带的每个方向的方向索引是轨迹索引,并且其中,所述相对方向索引分配模块(104)进一步包括:
-轨迹索引分配模块(104b),所述轨迹索引分配模块(104b)被配置为将轨迹索引分配给每个确定的轨迹;以及
-元组集合产生器(104c),所述元组集合产生器(104c)被配置为对于每个频率子带产生包括索引元组的元组集合(MDIR(k,f1),...,MDIR(k,fF)),其中,每个索引元组包括当前频率子带的有效子带方向的索引和对于有效子带方向确定的轨迹的轨迹索引。
25.根据权利要求20-24中的一项所述的装置,进一步包括至少一个分组模块,所述至少一个分组模块被配置为创建两个或更多个频率子带的至少一个组,并且其中,使用所述至少一个组,而不是单个频率子带,并且以与单个频率子带相同的方式处理所述至少一个组。
CN201580033032.4A 2014-07-02 2015-07-02 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置 Active CN106463130B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14306077.0 2014-07-02
EP14306077 2014-07-02
EP14194182.3 2014-11-20
EP14194182.3A EP2963948A1 (en) 2014-07-02 2014-11-20 Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
PCT/EP2015/065082 WO2016001352A1 (en) 2014-07-02 2015-07-02 Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation

Publications (2)

Publication Number Publication Date
CN106463130A true CN106463130A (zh) 2017-02-22
CN106463130B CN106463130B (zh) 2020-12-08

Family

ID=51220511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580033032.4A Active CN106463130B (zh) 2014-07-02 2015-07-02 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置

Country Status (8)

Country Link
US (1) US10194257B2 (zh)
EP (2) EP2963948A1 (zh)
JP (1) JP6585094B2 (zh)
KR (1) KR102327149B1 (zh)
CN (1) CN106463130B (zh)
BR (1) BR112016029148A2 (zh)
TW (1) TW201606751A (zh)
WO (1) WO2016001352A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
WO2022242480A1 (zh) * 2021-05-17 2022-11-24 华为技术有限公司 三维音频信号编码方法、装置和编码器

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9800986B2 (en) * 2014-07-02 2017-10-24 Dolby Laboratories Licensing Corporation Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
EP3281194B1 (en) * 2015-04-10 2019-05-01 Dolby International AB Method for performing audio restauration, and apparatus for performing audio restauration
CN107945810B (zh) * 2016-10-13 2021-12-14 杭州米谟科技有限公司 用于编码和解码hoa或多声道数据的方法和装置
CN110800048B (zh) 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
CN110476960B (zh) * 2019-09-19 2021-06-15 河北省农林科学院植物保护研究所 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1971734A (zh) * 2006-10-20 2007-05-30 宁波大学 一种数字音乐作品认证信息的嵌入与提取方法
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US20140016784A1 (en) * 2012-07-15 2014-01-16 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
CN103548077A (zh) * 2011-05-19 2014-01-29 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN103795364A (zh) * 2010-02-11 2014-05-14 杜比实验室特许公司 用于对编码输入信号进行解码的方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9800986B2 (en) * 2014-07-02 2017-10-24 Dolby Laboratories Licensing Corporation Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1971734A (zh) * 2006-10-20 2007-05-30 宁波大学 一种数字音乐作品认证信息的嵌入与提取方法
CN103795364A (zh) * 2010-02-11 2014-05-14 杜比实验室特许公司 用于对编码输入信号进行解码的方法和设备
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
CN103548077A (zh) * 2011-05-19 2014-01-29 杜比实验室特许公司 参数化音频编译码方案的取证检测
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US20140016784A1 (en) * 2012-07-15 2014-01-16 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
WO2022242480A1 (zh) * 2021-05-17 2022-11-24 华为技术有限公司 三维音频信号编码方法、装置和编码器
TWI834163B (zh) * 2021-05-17 2024-03-01 大陸商華為技術有限公司 三維音頻訊號編碼方法、裝置和編碼器

Also Published As

Publication number Publication date
CN106463130B (zh) 2020-12-08
JP6585094B2 (ja) 2019-10-02
TW201606751A (zh) 2016-02-16
US10194257B2 (en) 2019-01-29
BR112016029148A2 (pt) 2017-08-22
EP2963948A1 (en) 2016-01-06
EP3165006A1 (en) 2017-05-10
JP2017520024A (ja) 2017-07-20
KR20170026367A (ko) 2017-03-08
WO2016001352A1 (en) 2016-01-07
US20170156016A1 (en) 2017-06-01
EP3165006B1 (en) 2018-09-26
KR102327149B1 (ko) 2021-11-16

Similar Documents

Publication Publication Date Title
CN106663432B (zh) 对压缩的hoa表示编码和解码的方法和装置
CN106471579B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106463130B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106463132B (zh) 对压缩的hoa表示编码和解码的方法和装置
CN106463131B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1233041

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant