CN106663432B - 对压缩的hoa表示编码和解码的方法和装置 - Google Patents

对压缩的hoa表示编码和解码的方法和装置 Download PDF

Info

Publication number
CN106663432B
CN106663432B CN201580033215.6A CN201580033215A CN106663432B CN 106663432 B CN106663432 B CN 106663432B CN 201580033215 A CN201580033215 A CN 201580033215A CN 106663432 B CN106663432 B CN 106663432B
Authority
CN
China
Prior art keywords
hoa
subband
dir
index
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580033215.6A
Other languages
English (en)
Other versions
CN106663432A (zh
Inventor
A·克鲁格
S·科顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN106663432A publication Critical patent/CN106663432A/zh
Application granted granted Critical
Publication of CN106663432B publication Critical patent/CN106663432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

高阶高保真立体声(HOA)信号的编码通常导致高的数据速率。用于对具有系数序列的输入的HOA信号的帧进行低比特速率编码的方法包括:计算(s110)截断的HOA表示(CT(k));确定(s111)有效系数序列(IC,ACT(k));估计(s16)候选方向(MDIR(k));将输入的HOA信号划分(s15)为多个频率子带(f1,…,fF);对于每个频率子带估计(s161)作为有效方向(MDIR(k,f1),...,MDIR(k,fF))的候选方向的子集(MDIR(k))以及对于每个有效方向估计(s161)轨迹;对于每个频率子带,根据有效方向从频率子带的系数序列计算(s17)方向子带信号;对于每个频率子带,使用相应的有效系数序列(IC,ACT(k))从频率子带的系数序列计算(s18)可以用于预测方向子带信号的预测矩阵(A(k,f1),...,A(k,fF));以及对候选方向、有效方向、预测矩阵以及截断的HOA表示进行编码(s19)。

Description

对压缩的HOA表示编码和解码的方法和装置
技术领域
本发明涉及用于对具有给定数量的系数序列的输入的HOA信号的帧进行编码的方法、用于对HOA信号进行解码的方法、用于对具有给定数量的系数序列的输入的HOA信号的帧进行编码的装置以及用于对HOA信号进行解码的装置。
背景技术
除了比如波场合成(WFS)或基于声道的方法(诸如被称为“22.2”的方法)的其它技术之外,高阶高保真立体声(HOA)提供表示三维声音的一种可能性。与基于声道的方法相反,HOA表示提供独立于特定扬声器设置的优点。该灵活性是以在特定扬声器设置上回放HOA 表示所需的解码处理为代价的。与其中所需的扬声器的数量通常非常大的WFS方法相比,HOA也可以被渲染到由仅仅几个扬声器组成的设置。HOA的进一步的优点是,相同的表示也可以没有任何修改地用于双耳渲染到耳机。
HOA基于所谓的复平面谐波幅度的空间密度通过截断的球谐函数(SH)展开的表示。每个展开系数是角频率的函数,其可以等同地由时域函数表示。因此,不失一般性,整个HOA声场表示实际上可以被理解为由O个时域函数组成,其中,O表示展开系数的数量。这些时域函数在下面将被等同地称为HOA系数序列或HOA通道。
HOA表示的空间分辨率随着展开的最大阶数N增长而改进。不幸的是,展开系数的数量O随着阶数N二次方地增长,并且特别地, O=(N+1)2。例如,典型的使用阶数N=4的HOA表示需要O=25个 HOA(展开)系数。根据以上考虑,给定期望的单声道采样速率fS和每一个采样的比特数Nb,用于传送HOA表示的总比特速率由 O·fS·Nb确定。因此,利用每一个采样Nb=16个比特、以fS=48kHz的采样速率传送例如阶数N=4的HOA表示,导致19.2M Bits/s的比特速率,该比特速率对于许多实际应用(诸如流传输)是非常高的。因此, HOA表示的压缩是高度期望的。
[4,5,6]中提出了用于压缩HOA声场表示的各种方法。这些方法的共同之处在于,它们执行声场分析,并且将给定的HOA表示分解为方向和残留环境分量。最终的压缩的表示一方面包括若干个量化信号,这些量化信号是从所谓的方向和基于矢量的信号以及环境HOA 分量的相关系数序列的感知编码得到的。另一方面,它包括与量化信号相关的附加的边信息(side information),该附加的边信息对于从 HOA表示的压缩版本重构HOA表示是必要的。
用于方法[4、5、6]的量化信号的合理的最小数量是八个。因此,假设对于每单个感知编码器数据速率为32kbit/s,则这些方法中的一种方法的数据速率通常不低于256kbit/s。对于某些应用,像例如对移动设备的音频流传输,该总数据速率可能太高。因此,存在对于应对明显较低的数据速率(例如,128kbit/s)的HOA压缩方法的需要。
发明内容
公开了用于声场的高阶高保真立体声(HOA)表示的低比特速率压缩的新的方法和装置。
用于声场的HOA表示的低比特速率压缩方法的一个主要方面是,将HOA表示分解为多个频率子带,并且通过截断的HOA表示和基于若干个预测的方向子带信号的表示的组合来近似每个频率子带(即,子带)内的系数。
截断的HOA表示包括数量小的选择的系数序列,其中,选择被允许随时间变化。例如,对于每一个帧进行新的选择。用于表示截断的HOA表示的选择的系数序列被感知编码,并且是最终的压缩的 HOA表示的一部分。在一个实施例中,在感知编码之前对选择的系数序列进行去相关,以便提高编码效率并且降低在渲染时的噪声暴露的影响。部分去相关通过将空间变换应用于预定数量的选择的HOA系数序列来实现。为了解压缩,通过再相关来使去相关反向。这样的部分去相关的很大优点是,在解压缩时不需要额外的边信息来恢复去相关。
近似的HOA表示的其它分量通过若干个具有对应方向的方向子带信号表示。这些方向子带信号通过参数化表示进行编码,所述参数化表示包括来自截断的HOA表示的系数序列的预测。在实施例中,每个方向子带信号由截断的HOA表示的系数序列的缩放的和来预测 (或表示),其中,缩放一般是复值。为了能够重新合成方向子带信号的HOA表示以供解压缩,压缩的表示包含复值预测缩放因子的量化版本以及方向的量化版本。
在一个实施例中,用于对具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的HOA信号的帧进行编码(从而进行压缩)的方法包括以下步骤:
确定将被包括在截断的HOA表示中的有效的系数序列的索引的集合IC,ACT(k),
计算具有数量减少的非零系数序列(即,与输入的HOA信号相比,较少的非零系数序列,因此较多的零系数序列)的截断的HOA 表示CT(k),
从输入的HOA信号估计候选方向的第一集合MDIR(k),
将输入的HOA信号划分为多个频率子带,其中,获得这些频率子带的系数序列
Figure BDA0001184402410000031
对于每个频率子带,估计方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,每个有效方向也包括在输入的HOA信号的候选方向的第一集合MDIR(k)中(即,方向的第二集合中的有效子带方向是全带方向的第一集合的子集),
对于每个频率子带,根据相应频率子带的方向的第二集合 MDIR(k,f1),...,MDIR(k,fF)从频率子带的系数序列
Figure BDA0001184402410000041
计算方向子带信号
Figure BDA0001184402410000042
对于每个频率子带,使用相应频率子带的有效的系数序列的索引的集合IC,ACT(k)从频率子带的系数序列
Figure BDA0001184402410000043
计算适于预测方向子带信号
Figure BDA0001184402410000044
的预测矩阵A(k,f1),...,A(k,fF),以及
对候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),..., MDIR(k,fF)、预测矩阵A(k,f1),...,A(k,fF)以及截断的HOA表示CT(k)进行编码。
方向的第二集合与频率子带相关。候选方向的第一集合与全频带相关。有利地,在对每个频率子带估计方向的第二集合的步骤中,仅需要在全带HOA信号的方向MDIR(k)之中搜索频率子带的方向 MDIR(k,f1),...,MDIR(k,fF),因为子带方向的第二集合是全带方向的第一集合的子集。在一个实施例中,每个元组内的第一索引和第二索引的相继次序被交换,即,第一索引是当前频率子带的有效方向的索引,而第二索引是有效方向的轨迹索引。
完整HOA信号包括多个系数序列或系数通道。其中这些系数序列中的一个或多个被设置为零的HOA信号在本文中被称为截断的 HOA表示。计算或产生截断的HOA表示一般包括选择将被设置为零或者将不被设置为零的系数序列。该选择可以根据各种标准(例如,通过选择包括最大能量的那些系数序列或者感知最相关的那些系数序列作为将不被设置为零的系数序列、或者任意地选择系数序列等等) 来进行。将HOA信号划分为频率子带可以由包括例如正交镜像滤波器(QMF)的分析滤波器组执行。
在一个实施例中,对截断的HOA表示CT(k)进行编码包括截断的 HOA通道序列的部分去相关、用于将(相关的或去相关的)截断的 HOA通道序列y1(k),...,yI(k)分配给传输通道的通道分配、对每个传输通道执行增益控制(其中,产生用于每个传输通道的增益控制边信息 ei(k-1),βi(k-1))、在感知编码器中对增益控制的截断的HOA通道序列z1(k),...,zI(k)进行编码、在边信息源编码器中对增益控制边信息 ei(k-1),βi(k-1)、候选方向的第一集合MDIR(k)、方向的第二集合 MDIR(k,f1),...,MDIR(k,fF)以及预测矩阵A(k,f1),...,A(k,fF)进行编码、以及对感知编码器和边信息源编码器的输出进行复用以获得编码的HOA信号帧
Figure BDA0001184402410000051
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,以使计算机执行所述用于对输入的HOA信号的帧进行编码或压缩的方法。
在一个实施例中,用于对具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的HOA信号的帧进行逐帧编码(从而进行压缩)的装置包括处理器和用于软件程序的存储器,所述软件程序当在处理器上执行时执行上述用于对输入的HOA信号的帧进行编码或压缩的方法的步骤。
此外,在一个实施例中,用于对压缩的HOA表示进行解码(从而进行解压缩)的方法包括:
从压缩的HOA表示提取多个截断的HOA系数序列
Figure BDA0001184402410000052
指示(或包含)所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)、子带相关的方向信息MDIR(k+1,f1),..., MDIR(k+1,fF)、多个预测矩阵A(k+1,f1),...,A(k+1,fF)、以及增益控制边信息e1(k),β1(k),...,eI(k),βI(k),
从所述多个截断的HOA系数序列
Figure BDA0001184402410000053
增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重构截断的 HOA表示
Figure BDA0001184402410000054
在分析滤波器组中将重构的截断的HOA表示
Figure BDA0001184402410000055
分解为多个即 F个频率子带的频率子带表示
Figure BDA0001184402410000056
在方向子带合成块中对于每个频率子带表示,从重构的截断的 HOA表示的相应的频率子带表示
Figure BDA0001184402410000057
子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及预测矩阵A(k+1,f1),...,A(k+1,fF) 合成预测的方向HOA表示
Figure BDA0001184402410000058
在子带组成块中对于所述F个频率子带中的每一个,组成具有系数序列
Figure BDA0001184402410000061
n=1,...,O的解码的子带HOA表示
Figure BDA0001184402410000062
所述系数序列
Figure BDA0001184402410000063
n=1,...,O从截断的HOA 表示
Figure BDA0001184402410000064
的系数序列获得,如果系数序列具有被包括在分配矢量 vAMB,ASSIGN(k)中(即,分配矢量vAMB,ASSIGN(k)的元素)的索引n的话,否则从由方向子带合成块中的一个提供的预测的方向HOA分量
Figure BDA0001184402410000065
的系数序列获得,以及
在合成滤波器组中合成解码的子带HOA表示
Figure BDA0001184402410000066
以获得解码的HOA表示
Figure BDA0001184402410000067
在一个实施例中,提取包括对压缩的HOA表示进行解复用以获得感知编码的部分和编码的边信息部分。在一个实施例中,感知编码的部分包括感知编码的截断的HOA系数序列
Figure BDA0001184402410000068
并且提取包括在感知解码器中对感知编码的截断的HOA系数序列
Figure BDA0001184402410000069
进行解码以获得截断的HOA系数序列
Figure BDA00011844024100000610
在一个实施例中,提取包括在边信息源解码器中对编码的边信息部分进行解码以获得子带相关的方向的集合MDIR(k+1,f1),...,MDIR(k+1,fF)、预测矩阵A(k+1,f1),...,A(k+1,fF)、增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)。
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,以使计算机执行所述用于主导方向信号的方向的解码的方法。
在一个实施例中,用于对压缩的HOA表示进行逐帧解码(从而进行解压缩)的装置包括处理器和用于软件程序的存储器,所述软件程序当在处理器上执行时执行上述用于对输入的HOA信号的帧进行解码或解压缩的方法的步骤。
在一个实施例中,用于对HOA信号进行解码的装置包括:第一模块,其被配置为接收将被解码的HOA信号表示的最大数量D个方向的索引;第二模块,其被配置为重构将被解码的HOA信号表示的最大数量D个方向中的方向;第三模块,其被配置为接收每一个子带的有效方向信号的索引;第四模块,其被配置为从将被解码的HOA 信号表示的重构的D个方向重构每一个子带的有效方向;以及第五模块,其被配置为预测子带的方向信号,其中,子带的当前帧中的方向信号的预测包括确定该子带的前一个帧的方向信号,并且其中,如果方向信号的索引在前一个帧中为零、而在当前帧中为非零,则创建新的方向信号,如果方向信号的索引在前一个帧中为非零、而在当前帧中为零,则取消前一方向信号,并且如果方向信号的索引从第一方向变为第二方向,则将方向信号的方向从第一方向移动到第二方向。
子带一般是从复值滤波器组获得的。分配矢量的一个目的是指示传送/接收的、并因此包含在截断的HOA表示中的系数序列的序列索引,以便使得能够将这些系数序列分配给最终的HOA信号。换句话说,分配矢量对于截断的HOA表示的每个系数序列指示它对应于最终的HOA信号中的哪个系数序列。例如,如果截断的HOA表示包含四个系数序列并且最终的HOA信号具有九个系数序列,则分配矢量可以是[1,2,5,7](原则上),从而指示截断的HOA表示的第一、第二、第三和第四系数序列实际上是最终的HOA信号中的第一、第二、第五和第七系数序列。
从以下的描述和所附的权利要求的考虑(在结合附图进行时),本发明的进一步的目的、特征和优点将变得清楚。
附图说明
参照附图描述本发明的示例性实施例,附图示出了:
图1空间HOA编码器的架构,
图2方向估计块的架构,
图3感知边信息源编码器,
图4感知边信息源解码器,
图5空间HOA解码器的架构,
图6球坐标系,
图7方向估计处理块,
图8截断的HOA表示的方向、轨迹索引集合和系数,
图9MPEG中使用的传统音频编码器,
图10MPEG中可用的改进的音频编码器,
图11MPEG中使用的传统音频解码器,
图12MPEG中可用的改进的音频解码器,
图13编码方法的流程图,以及
图14解码方法的流程图。
具体实施方式
所提出的用于声场的HOA表示的低比特速率压缩方法的一个主要构思是,通过以下两个部分的组合来逐帧和逐频率子带(即,在每个HOA帧的单个的频率子带内)地近似原始HOA表示:截断的HOA 表示以及基于若干个预测的方向子带信号的表示。下面进一步提供HOA基础的概述。
近似的HOA表示的第一部分是由数量小的选择的系数序列组成的截断的HOA版本,其中,选择被允许随时间(例如,在帧与帧之间)变化。用于表示截断的HOA版本的选择的系数序列然后被感知编码,并且是最终的压缩的HOA表示的一部分。为了提高编码效率并且降低在渲染时噪声暴露的影响,有利的是在感知编码之前对选择的系数序列进行去相关。部分去相关通过向预定义数量的选择的HOA 系数序列应用空间变换来实现,这意味着渲染到给定数量的虚拟扬声器信号。该部分去相关的很大优点是,在解压缩时不需要额外的边信息来恢复去相关。
近似的HOA表示的第二部分通过若干个具有对应方向的方向子带信号表示。然而,这些方向子带信号不被传统编码。相反,它们借助于来自第一部分(即,截断的HOA表示)的系数序列的预测被编码为参数化表示。特别地,每个方向子带信号由截断的HOA表示的系数序列的缩放的和来预测,其中,缩放一般是复值。两个部分共同形成HOA信号的压缩表示,从而实现低比特速率。为了能够重新合成方向子带信号的HOA表示以供解压缩,压缩表示包含复值预测缩放因子的量化版本以及方向的量化版本。特别地,在该上下文中的重要方面是方向和复值预测缩放因子的计算以及如何高效地对它们进行编码。
低比特速率HOA压缩
对于所提出的低比特速率HOA压缩,低比特速率HOA压缩器可以细分为空间HOA编码部分以及感知和源编码部分。图1中示出了空间HOA编码部分的示例性架构,并且图3中描绘了感知和源编码部分的示例性架构。空间HOA编码器10提供第一压缩的HOA表示,该第一压缩的HOA表示包括I个信号,连同描述如何创建其HOA表示的边信息。在感知和边信息源编码器30中,这I个信号在感知编码器31中被感知编码,并且边信息在边信息源编码器32中经受源编码。边信息源编码器32提供编码的边信息
Figure BDA0001184402410000092
然后,由感知编码器31和边信息源编码器32提供的两个编码表示在复用器33中被复用以获得低比特速率压缩的HOA数据流
Figure BDA0001184402410000093
空间HOA编码
图1所示的空间HOA编码器执行逐帧处理。帧被定义为O个时间连续的HOA系数序列的部分。例如,将被编码的输入的HOA表示的第k帧C(k)相对于时间连续的HOA系数序列的矢量c(t)(参看等式 (46))被定义为:
Figure BDA0001184402410000091
其中,k表示帧索引,L表示帧长(以采样为单位),O=(N+1)2表示HOA系数序列的数量,并且TS指示采样周期。
截断的HOA表示的计算
如图1所示,计算截断的HOA表示中的第一步包括从原始HOA 帧C(k)计算11截断的版本CT(k)。该上下文中的截断意味着从输入的 HOA表示的O个系数序列中选择I个特定的系数序列,并且将所有其它的系数序列设置为零。用于选择系数序列的各种解决方案从[4,5, 6]获知,例如,相对于人类感知具有最大功率或最高相关性的那些。选择的系数序列表示截断的HOA版本。产生包含选择的系数序列的索引的数据集合
Figure BDA0001184402410000101
然后,如下面进一步描述的,截断的HOA 版本CT(k)将被部分去相关12,并且部分去相关的截断的HOA版本 CI(k)将经受通道分配13,其中,被选的系数序列被分配给可用的I 个传输通道。如下面进一步描述的,这些系数序列然后被感知编码30,并且最后是压缩表示的一部分。为了获得平滑信号以供通道分配之后的感知编码,确定在第k帧中被选择、但在第(k+1)帧中不被选择的系数序列。在一个帧中被选择、而在下一个帧中将不被选择的那些系数序列渐减。它们的索引包含在数据集合
Figure BDA0001184402410000102
中,该数据集合
Figure BDA0001184402410000103
Figure BDA0001184402410000104
的子集。类似地,在第k帧中被选择、但在第 (k-1)帧中未被选择的系数序列渐增。它们的索引包含在集合
Figure BDA0001184402410000105
中,该集合
Figure BDA0001184402410000106
也是
Figure BDA0001184402410000107
的子集。对于渐变,可以使用窗函数wOA(l),l=1,...,2L(诸如下面在等式(39)中介绍的函数)。
总起来说,如果截断的版本CT(k)的HOA帧k通过以下等式由O 个单个的系数序列帧的L个采样组成:
Figure BDA0001184402410000108
则可以通过以下等式对于系数序列索引n=1,...,O和采样索引l=1,...,L 表达截断:
Figure BDA0001184402410000109
对于用于选择系数序列的标准,存在几个可能性。例如,一个有利的解决方案是选择表示信号功率中的大部分的那些系数序列。另一个有利的解决方案是选择相对于人类感知最相关的那些系数序列。在后一种情况下,可以例如通过以下来确定相关性,即,将被不同截断的表示渲染到虚拟扬声器信号,确定这些信号和与原始HOA表示对应的虚拟扬声器信号之间的误差,以及最后考虑声音掩蔽效应来解释该误差的相关性。
在一个实施例中,用于在集合
Figure BDA0001184402410000111
中选择索引的合理的策略是总是选择头OMIN个索引1,...,OMIN,其中,OMIN=(NMIN+1)2≤I,并且NMIN表示截断的HOA表示的给定的最小的全阶。然后,根据以上提及的标准中的一个标准从集合{OMIN+1,...,OMAX}选择剩余的 I-OMIN个索引,其中,OMAX=(NMAX+1)2≤O,其中NMAX表示考虑要选择的HOA系数序列的最大阶数。注意,OMAX是每一个采样的可转移系数的最大数量,该数量小于或等于系数的总数O。根据该策略,截断处理块11还提供所谓的分配矢量
Figure BDA0001184402410000112
其元素vA,i(k), i=1,...,I-OMIN根据以下等式设置:
vA,i(k)=n (4)
其中,n(n≥OMIN+1))表示C(k)的另外选择的HOA系数序列(这些HOA系数序列以后将分配给第i传输信号yi(k))的HOA系数序列索引。yi(k)的定义在下面的等式(10)中给出。因此,CT(k)的头OMIN个行默认包括HOA系数序列1,...,OMIN,并且在CT(k)的后面的O-OMIN (或者OMAX-OMIN,如果O=OMAX的话)个行之中,存在I-OMIN个行,这I-OMIN个行包括其索引存储在分配矢量vA(k)中的逐帧变化的HOA 系数序列。最后,CT(k)的剩余的行包括零。因此,如下面将描述的,可用的I个传输信号的头OMIN个(或者最后OMIN个,如等式(10) 中那样)默认分配给HOA系数序列1,...,OMIN,并且剩余的I-OMIN个传输信号分配给其索引存储在分配矢量vA(k)中的逐帧变化的HOA系数序列。
部分去相关
在第二步中,执行选择的HOA系数序列的部分去相关12,以便提高随后的感知编码的效率,并且在渲染时避免在对选择的HOA系数序列进行矩阵化之后将发生的编码噪声暴露。示例性部分去相关12 通过将空间变换应用于头OMIN个选择的HOA系数序列(这意味着渲染到OMIN个虚拟扬声器信号)来实现。相应的虚拟扬声器位置借助于图6所示的球坐标系来表达,在该球坐标系中,每个位置假定位于单位球上,即,具有1的半径。因此,位置可以等同地通过方向Ωj=(θj,φj来表达,其中,1≤j≤OMIN,θj和φj分别表示倾角和方位角(进一步参见下面球坐标系的定义)。这些方向应尽可能均匀地分布在单位球上(参见例如[2],特定方向的计算)。注意,因为HOA一般依赖于 NMIN来定义方向,所以在本文中写Ωj的地方,实际上意指
Figure BDA0001184402410000121
在下面,所有虚拟扬声器信号的帧通过以下等式表示:
Figure BDA0001184402410000122
其中,wj(k)表示第j虚拟扬声器信号的第k帧。此外,ΨMIN表示相对于虚拟方向Ωj的模式矩阵,其中,1≤j≤OMIN。模式矩阵通过以下等式定义:
Figure BDA0001184402410000123
其中,
Figure BDA0001184402410000124
指示相对于虚拟方向Ωi的模式矢量。其每个元素
Figure BDA0001184402410000125
表示下面定义的实值球谐函数(参见等式(48))。通过使用该记法,可以通过以下矩阵乘法来公式化渲染处理:
Figure BDA0001184402410000126
作为部分去相关12的输出的中间表示CI(k)的信号因此通过以下等式给出:
Figure BDA0001184402410000127
通道分配
在已计算中间表示CI(k)的帧之后,将其单个的信号cI,n(k)(其中
Figure BDA0001184402410000131
)分配13给可用的I个通道,以提供用于感知编码的传输信号yi(k),i=1,...,I。分配13的一个目的是避免在选择在连续的帧之间改变的情况下可能发生的将被感知编码的信号不连续。分配可以通过以下等式表达:
Figure BDA0001184402410000132
增益控制
每个传输信号yi(k)最后被增益控制单元14处理,在增益控制单元14中,信号增益被平滑地修改以实现适合于感知编码器的值范围。增益修改需要一种前瞻性,以便避免连续的块之间的严重的增益变化,并因此引入一个帧的延迟。对于每个传输信号帧yi(k),增益控制单元 14接收或产生延迟帧yi(k-1),i=1,...,I。增益控制之后的修改信号帧由zi(k-1),i=1,...,I表示。此外,为了能够在空间解码器中恢复所进行的任何修改,提供增益控制边信息。增益控制边信息包括指数 ei(k-1)和异常标志βi(k-1),i=1,...,I。增益控制的更详细的描述例如在[9]第C.5.2.5节或者[3]中可获得。因此,截断的HOA版本19包括增益控制的信号帧zi(k-1)以及增益控制边信息ei(k-1), βi(k-1),i=1,...,I。
分析滤波器组
如以上提及的,近似的HOA表示由两个部分(即,截断的HOA 版本19以及由具有对应方向的方向子带信号表示的分量,这些方向子带信号是从截断的HOA表示的系数序列预测的)组成。因此,为了计算第二部分的参数化表示,原始HOA表示cn(k),n=1,...,O的单个的系数序列的每个帧首先被分解为单个的子带信号
Figure BDA0001184402410000141
的帧。这是在一个或多个分析滤波器组15中进行的。对于每个子带fj,j=1,...,F,可以将单个的HOA系数序列的子带信号的帧收集到以下子带HOA表示中:
Figure BDA0001184402410000142
分析滤波器组15将子带HOA表示提供给方向估计处理块16和一个或多个计算块17以用于方向子带信号计算。
原则上,在分析滤波器组15中可以使用任何类型的滤波器(即,任何复值滤波器组,例如QMF、FFT)。不要求分析和对应的合成滤波器组的连续应用提供延迟的同一性,这将是被称为完美重构性质的要求。注意,与HOA系数序列cn(k)相反,它们的子带表示
Figure BDA0001184402410000143
一般是复值的。此外,与原始时域信号相比,子带信号
Figure BDA0001184402410000144
一般是适时抽取的。因此,帧
Figure BDA0001184402410000145
中的采样数量通常明显小于时域信号帧 cn(k)中的采样数量,时域信号帧cn(k)中的采样数量为L。
在一个实施例中,两个或更多个子带信号被组合到子带信号组中,以便使处理更好地适应人类听觉系统的性质。每个组的带宽可以例如通过其子带信号的数量来适应众所周知的Bark尺度。也就是说,尤其是在较高频率中,两个或更多个组可以组合为一个组。注意,在这种情况下,每个子带组由HOA系数序列的集合
Figure BDA0001184402410000146
组成,其中,提取的参数的数量与单个子带是相同的。在一个实施例中,分组是在一个或多个子带信号分组单元(未明确示出)中执行的,这些子带信号分组单元可以合并在分析滤波器组块15中。
方向估计
方向估计处理块16对输入的HOA表示进行分析,并且对于每个频率子带fj,j=1,...,F,计算向声场添加重大贡献的子带普通平面波函数的方向的集合
Figure BDA0001184402410000147
在该上下文中,术语“重大贡献”可以例如是指随着从其它方向射入的子带普通平面波的信号功率变高的信号功率。它还可以是指在人类感知方面的高相关性。注意,在使用子带分组的情况下,不是单个子带,而是子带组可以用于
Figure BDA0001184402410000151
的计算。
在解压缩期间,由于连续的帧之间估计的方向和预测系数的变化,可能出现预测的方向子带信号中的伪像。为了避免这样的伪像,对连结的长帧执行编码期间的方向子带信号的方向估计和预测。连结的长帧由当前帧及其前驱组成。为了解压缩,然后使用对这些长帧估计的量来执行与预测的方向子带信号的重叠相加处理。
用于方向估计的直接方法将是单独对待每个子带。对于方向搜索,在一个实施例中,可以应用例如[7]中提出的技术。该方法对于每一单个子带提供方向估计的平滑时间轨迹,并且能够捕捉突然的方向变化或起始。然而,这种已知方法存在两个缺点。首先,每个子带中的独立的方向估计可能导致如下不期望的影响,即,在存在全带普通平面波(例如,来自某个方向的瞬间的击鼓声)时,单个的子方向中的估计误差可能导致来自不同方向的子带普通平面波,这些子带普通平面波加起来不等于期望的来自一个方向的全带版本。特别地,来自某些方向的瞬态信号是模糊的。
第二,考虑获得低比特速率压缩的意图,从边信息得到的总比特速率必须被记住。在下面,将示出用于这样的朴素方法的比特速率相当高的示例。示例性地,子带的数量F假定为10个,并且每个子带的方向的数量(该数量对应于每个集合
Figure BDA0001184402410000152
中的元素的数量) 假定为4个。此外,如[9]中所提出的,假定对于每个子带对Q=900 个潜在的方向候选的网格执行搜索。对于单个方向的简单编码,这需要
Figure BDA0001184402410000154
个比特。假定帧速率为每秒大约50帧,则仅对于方向的编码表示所得到的总数据速率为:
Figure BDA0001184402410000153
即使假定帧速率为每秒25帧,所得到的数据速率10kbit/s仍然相当高。
作为改进,在一个实施例中,在方向估计块20中使用以下方向估计的方法。图2中示出了总体构思。
在第一步中,全带方向估计块21使用以下连结的长帧对由Q个测试方向ΩTEST,q,q=1,...,Q组成的方向网格执行初步的全带方向估计或搜索:
Figure BDA0001184402410000161
其中,C(k)和C(k-1)是全带原始HOA表示的当前帧和前面的输入帧。该方向搜索提供D(k)≤D个方向候选ΩCAND,d(k),d=1,...,D(k),这些方向候选包含在集合
Figure BDA0001184402410000162
中,即,
Figure BDA0001184402410000163
每帧的方向候选的最大数量的典型值为D=16个。方向估计可以例如通过[7]中提出的方法来实现:构思是将从输入的HOA表示的方向功率分布获得的信息与用于方向的贝叶斯(Bayesian)推理的简单的源移动模型组合。
在第二步中,由子带方向估计块22每一子带(或子带组)地对每一单个子带执行方向搜索。然而,对于子带的这个方向搜索不需要考虑由Q个测试方向组成的初始的全方向网格,而是仅考虑候选集合
Figure BDA0001184402410000164
该候选集合
Figure BDA0001184402410000165
对于每个子带仅包括D(k)个方向。由 DSB(k,fj)表示的第fj子带(j=1,...,F)的方向的数量不大于DSB,该DSB通常明显小于D,例如,DSB=4。像全带方向搜索一样,子带相关的方向搜索也是对子带信号的由前一个帧和当前帧组成的以下长连结帧执行的:
Figure BDA0001184402410000166
原则上,与用于全带相关的方向搜索的贝叶斯推理方法相同的贝叶斯推理方法可以应用于子带相关的方向搜索。
特定声源的方向可以(但不需要)随时间变化。特定声源的方向的时间序列在本文中被称为“轨迹”。每个子带相关的方向或轨迹分别得到无歧义的索引,这防止不同的轨迹混合,并且提供连续的方向子带信号。这对于下面描述的方向子带信号的预测是重要的。特别地,它允许利用下面进一步定义的连续的预测系数矩阵A(k,fj)之间的时间依赖性。因此,对于第fj子带的方向估计提供元组的集合
Figure BDA0001184402410000171
每个元组由一方面标识单个(有效)的方向轨迹的索引
Figure BDA0001184402410000172
Figure BDA0001184402410000173
和另一方面相应的估计方向ΩSB,d(k,fj)组成,即,
Figure BDA0001184402410000174
根据定义,对于每个j=1,...,F,集合
Figure BDA0001184402410000175
Figure BDA0001184402410000176
的子集,因为如上所述,子带方向搜索仅在当前帧的方向候选ΩCAND,d(k),d=1,...,D(k)之中执行。这允许相对于方向的边信息的更高效的编码,因为每个索引定义D(k)中的一个方向,而不是Q个候选方向,其中D(k)≤Q。索引d用于跟踪后一个帧中的方向以用于创建轨迹。如图2所示,并且如上所述,一个实施例中的方向估计处理块16包括具有全带方向估计块21的方向估计块20以及对于每个子带或子带组的子带方向估计块22。如图7所示,它可以进一步包括长帧产生块23,该长帧产生块23将以上提及的长帧提供给方向估计块20。长帧产生块23使用例如一个或多个存储器从两个连续的输入帧产生长帧,这两个连续的输入帧每个具有L个采样的长度。长帧在本文中通过“-”指示,并且通过具有两个索引k-1和k来指示。在其它实施例中,长帧产生块23也可以是图1所示的编码器中的单独的块,或者合并在其它块中。
方向子带信号的计算
返回到图1,由分析滤波器组15提供的子带HOA表示帧
Figure BDA0001184402410000177
还输入到一个或多个方向子带信号计算块17。在方向子带信号计算块17中,所有DSB个潜在的方向子带信号
Figure BDA0001184402410000178
Figure BDA0001184402410000179
的长帧以矩阵xk-1;k;fj布置为:
Figure BDA00011844024100001710
此外,无效的方向子带信号的帧,即,其索引d不包含在集合
Figure BDA00011844024100001711
内的那些长信号帧
Figure BDA00011844024100001712
被设置为零。
剩余的长信号帧
Figure BDA0001184402410000181
即,具有索引
Figure BDA0001184402410000182
的那些,被收集在矩阵
Figure BDA0001184402410000183
内。计算其中所包含的有效方向子带信号的一种可能性是最小化它们的HOA表示和原始的输入的子带HOA表示之间的误差。解决方案通过以下等式给出:
Figure BDA0001184402410000184
其中,(·)+表示Moore-Penrose伪逆,并且
Figure BDA0001184402410000185
表示相对于集合
Figure BDA0001184402410000186
中的方向估计的模式矩阵。注意,在子带组的情况下,方向子带信号的集合
Figure BDA0001184402410000187
是通过一个矩阵(ΨSB(k,fj))+乘以该组的所有HOA表示
Figure BDA0001184402410000188
计算的。注意,长帧可以由与上述长帧产生块类似的一个或多个更多的长帧产生块产生。类似地,长帧可以在长帧分解块中分解为正常长度的帧。在一个实施例中,用于计算方向子带的块17在它们的输出处向方向子带预测块18提供长帧
Figure BDA0001184402410000189
方向子带信号的预测
如以上提及的,近似的HOA表示部分由有效方向子带信号表示,然而,这些有效方向子带信号不被传统编码。相反,在目前描述的实施例中,使用参数化表示,以便使用于传送编码表示的总数据速率保持低。在参数化表示中,每个有效方向子带信号
Figure BDA00011844024100001810
(即,具有索引
Figure BDA00011844024100001811
)由截断的子带HOA表示
Figure BDA00011844024100001812
Figure BDA00011844024100001813
的系数序列的加权和来预测,其中,
Figure BDA00011844024100001814
并且其中,权重一般是复值。
因此,假定
Figure BDA00011844024100001815
表示
Figure BDA00011844024100001816
的预测版本,则预测通过矩阵乘法被表达为:
Figure BDA00011844024100001817
其中,
Figure BDA00011844024100001818
是具有用于子带fj的所有加权因子(或者等同地,预测系数)的矩阵。预测矩阵A(k,fj)的计算是在一个或多个方向子带预测块18中执行的。在一个实施例中,如图1所示,使用每一个子带一个方向子带预测块18。在另一个实施例中,对于多个或所有子带使用单个方向子带预测块18。在子带组的情况下,对每个组计算一个矩阵A(k,fj);然而,它被单个地乘以该组的每个HOA表示
Figure BDA0001184402410000191
从而每一个组地创建矩阵的集合
Figure BDA0001184402410000192
注意,每一个构造,A(k,fj)的除了具有索引
Figure BDA0001184402410000193
的那些行之外的所有行都为零。这意味着仅有效方向子带信号被预测。此外,A(k,fj) 的除了具有索引
Figure BDA0001184402410000194
的那些列之外的所有列也都为零。这意味着,对于预测,仅考虑被传送并且在HOA解压缩期间可用于预测的那些HOA系数序列。
对于预测矩阵A(k,fj)的计算必须考虑以下方面。
第一,原始截断的子带HOA表示
Figure BDA0001184402410000195
一般在HOA解压缩时是不可用的。相反,它的感知解码版本
Figure BDA0001184402410000196
将是可用的并且被用于方向子带信号的预测。
在低比特速率下,典型的音频编解码器(比如AAC或USAC) 使用频谱带复制(SBR),其中,频谱的较低频和中频被传统编码,而较高频内容(开始于例如5kHz)则使用额外的关于高频包络的边信息从较低频和中频复制。
由于该原因,感知解码之后的截断的HOA分量
Figure BDA0001184402410000197
的重构的子带系数序列的幅值类似于原始HOA分量
Figure BDA0001184402410000198
的子带系数序列的幅值。然而,对于相位,情况并非如此。因此,对于高频子带,对使用复值预测系数的预测利用任何相位关系没有意义。相反,更合理的是仅使用实值预测系数。特别地,定义索引jSBR以使得第fj子带包括用于SBR的起始频率,如下设置预测系数的类型是有利的:
Figure BDA0001184402410000199
换句话说,在一个实施例中,用于较低子带的预测系数是复值,而用于较高子带的预测系数是实值。
第二,在一个实施例中,使矩阵A(k,fj)的计算策略适应它们的类型。特别地,对于不受SBR影响的低频子带fj,1≤j<jSBR,可以通过最小化
Figure BDA00011844024100001910
和它的预测版本
Figure BDA00011844024100001911
之间的误差的欧几里得范数来确定A(k,fj)的非零元素。感知编码器31定义并提供 jSBR(未示出)。以这种方式,所涉及的信号的相位关系被明确地用于预测。对于子带组,该组的所有方向信号上的预测误差的欧几里得范数(即,最小平方预测误差)应当最小化。对于受SBR影响的高频子带fj,jSBR≤j≤F,以上提及的标准是不合理的,因为截断的HOA 分量
Figure BDA0001184402410000201
的重构的子带系数序列的相位不能被假定为甚至是基本类似于原始子带系数序列的相位。
在这种情况下,一个解决方案是忽视相位,并且相反,仅集中于信号功率来进行预测。用于确定预测系数的合理标准是最小化以下误差:
Figure BDA0001184402410000202
其中,运算|·|2假定逐个元素地应用于矩阵。换句话说,预测系数被选为使得截断的HOA分量的所有加权的子带或子带组系数序列的功率的和最佳近似方向子带信号的功率。在这种情况下,非负矩阵因子分解(NMF)技术(参见例如[8])可以用于求解这个优化问题并且获得预测矩阵A(k,fj),j=1,...,F.的预测系数。这些矩阵然后被提供给感知和源编码级30。
感知和源编码
在上述空间HOA编码之后,对对于第(k-1)帧所得到的增益适应的传输信号zi(k-1),i=1,...,I进行编码以获得它们的编码表示
Figure BDA0001184402410000203
这由图3所示的感知和源编码级30处的感知编码器31执行。此外,使分配矢量vA(k-1)、增益控制参数ei(k-1)和βi(k-1), i=1,...,I、预测系数矩阵
Figure BDA0001184402410000204
以及集合
Figure BDA0001184402410000205
中所包含的信息经受源编码来移除冗余,以用于高效的存储或传送。这在边信息源编码器32中执行。所得到的编码表示
Figure BDA0001184402410000206
在复用器33中与编码的传输信号表示
Figure BDA0001184402410000207
Figure BDA0001184402410000208
一起被复用以提供最终的编码帧
Figure BDA0001184402410000209
因为原则上,增益控制参数和分配的源编码可以类似于[9]执行,所以本说明书仅集中于方向和预测参数的编码,下面详细地描述方向和预测参数的编码。
方向的编码
对于单个的子带方向的编码,可以利用根据以上描述的不相关性减少来约束将被选择的单个的子带方向。如已经提及的,这些单个的子带方向不是从所有可能的测试方向ΩTEST,q,q=1,...,Q中选择的,而是从对全带HOA表示的每个帧确定的少量的候选中选择的。示例性地,在以下算法1中概述用于对子带方向进行源编码的可能的方式。
Figure BDA0001184402410000211
在算法1的第一步中,确定作为子带方向实际确实发生的所有的全带方向候选的集合
Figure BDA0001184402410000212
即,
Figure BDA0001184402410000213
由NoOfGlobalDirs(k)表示的该集合的元素的数量是方向的编码表示的第一部分。因为
Figure BDA0001184402410000221
根据定义是
Figure BDA0001184402410000222
的子集,所以 NoOfGlobalDirs(k)可以利用
Figure BDA0001184402410000228
个比特编码。为了阐明进一步的描述,集合
Figure BDA0001184402410000223
中的方向由ΩFB,d(k),d=1,...,NoOfGlobalDirs(k)表示,即,
Figure BDA0001184402410000224
在第二步中,借助于可能的测试方向ΩTEST,q(这里称为网格)的索引q=1,...,Q对集合
Figure BDA0001184402410000225
中的方向进行编码。对于每个方向ΩFB,d(k),d=1,...,NoOfGlobalDirs(k),相应的网格索引被编码在具有
Figure BDA0001184402410000229
个比特的大小的数组元素GlobalDirGridIndices(k)[d]中。表示所有编码的全带方向的总数组GlobalDirGridIndices(k)由 NoOfGlobalDirs(k)个元素组成。
在第三步中,对于每个子带或子带组fj,j=1,...,F,第d方向子带信号(d=1,...,DSB)是否有效(即,是否
Figure BDA0001184402410000226
)的信息被编码在数组元素bSubBandDirIsActive(k,fj)[d]中。总数组 bSubBandDirIsActive(k,fj由DSB个元素组成。如果
Figure BDA0001184402410000227
则借助于相应的全带方向ΩFB,i(k)的索引i将相应的子带方向ΩSB,d(k,fj编码到数组RelDirIndices(k,fj)中,该数组RelDirIndices(k,fj)由 DSB(k,fj)个元素组成。
为了示出这种方向编码方法的效率,计算根据以上示例的方向的编码表示的最大数据速率:假定F=10个子带,每一个子带 DSB(k,fj)=DSB=4个方向,Q=900个潜在的测试方向,并且帧速率为每秒25帧。在传统编码方法的情况下,所需的数据速率为10kbit/s。在根据一个实施例的改进的编码方法的情况下,如果全带方向的数量假定为NoOfGlobalDirs(k)=D=8,则每帧需要
Figure BDA00011844024100002210
个比特来对GlobalDirGridIndices(k)进行编码,需要DSB·F=40个比特来对bSubBandDirIsActive(k,fj)进行编码,并且需要DSB·F
Figure BDA00011844024100002211
个比特来对RelDirIndices(k,fj)进行编码。这导致240bits/frame·25frames/s=6kbit/s的数据速率,该数据速率明显小于10kbit/s。即使对于更大数量NoOfGlobalDirs(k) D=16个全带方向,仅7kbit/s的数据速率也是足够的。
预测系数矩阵的编码
对于预测系数矩阵的编码,可以利用由于方向轨迹、因此方向子带信号的平滑而导致连续帧的预测系数之间存在高度相关的事实。此外,对于每个预测系数矩阵A(k,fj),每一帧存在相对多的DSB(k,fj)· MC,ACT(k-1)个潜在的非零元素,其中,MC,ACT(k-1)表示集合
Figure BDA0001184402410000231
中的元素的数量。如果不使用子带组,则每帧总共存在F 个矩阵要编码。如果使用子带组,则对应地每帧存在少于F个矩阵要编码。
在一个实施例中,为了使用于每个预测系数的比特数保持低,每个复值预测系数由其幅值及其角度表示,并且然后对于矩阵A(k,fj)的每个特定元素独立地且在连续帧之间差分编码角度和幅值。如果幅值假定在区间[0,1]内,则幅值差位于区间[-1,1]内。复数的角度差可以假定位于区间[-π,π]内。对于幅值和角度差这二者的量化,相应的区间可以细分为例如相等大小的2NQ个子区间。直接的编码于是对于每个幅值和角度差需要NQ个比特。此外,已实验性地发现,由于以上提及的连续帧的预测系数之间的相关,单个的差的发生概率高度不均匀地分布。特别地,幅值中以及角度中的小的差比较大的差显著更频繁地发生。因此,基于将被编码的单个的值的先验概率的编码方法,像例如哈夫曼编码,可以用于显著减少每一个预测系数的平均比特数。换句话说,已发现,通常有利的是对预测矩阵A(k,fj)中的值的幅值和相位、而不是它们的实部和虚部差分编码。然而,可能出现实部和虚部的使用是可接受的情况。
在一个实施例中,以某些间隔(应用特定的,例如,每秒一次) 发送特殊的访问帧,这些访问帧包括没有差分编码的矩阵系数。这允许解码器从这些特殊的访问帧重新开始差分解码,因此使得能够实现解码的随机输入。
下面,描述如以上构造的低比特速率压缩的HOA表示的解压缩。解压缩也是逐帧工作的。
原则上,根据实施例的低比特速率HOA解码器包括上述低比特速率HOA编码器组件的对应部分,这些对应部分以相反的次序布置。特别地,低比特速率HOA解码器可以细分为如图4所描绘的感知和源解码部分以及如图6所示的空间HOA解码部分。
感知和源解码
图4示出了一个实施例中的感知和边信息源解码器40。在感知和边信息源解码器40中,低比特速率压缩的HOA比特流
Figure BDA0001184402410000241
首先被解复用41,这导致I个信号
Figure BDA0001184402410000242
的感知编码表示以及描述如何创建其HOA表示的编码的边信息
Figure BDA0001184402410000243
接着,执行这I个信号的感知解码以及边信息的解码。
感知解码器42将I个信号
Figure BDA0001184402410000244
解码为感知解码信号
Figure BDA0001184402410000245
Figure BDA0001184402410000246
边信息源解码器43将编码的边信息
Figure BDA0001184402410000247
解码为元组集合
Figure BDA0001184402410000248
Figure BDA0001184402410000249
用于每个子带或子带组fj(j=1,...,F)的预测系数矩阵 A(k+1,fj)、增益校正指数ei(k)和增益校正异常标志βi(k)、以及分配矢量vAMB,ASSIGN(k)。
算法2示例性地概述了如何从编码的边信息
Figure BDA00011844024100002410
创建元组集合
Figure BDA00011844024100002411
下面详细地描述子带方向的解码。
Figure BDA0001184402410000251
首先,从编码的边信息
Figure BDA0001184402410000252
提取全带方向的数量NoOfGlobalDirs(k)。如上所述,这些也被用作子带方向。它利用
Figure BDA0001184402410000255
个比特编码。
在第二步中,提取由NoOfGlobalDirs(k)个元素组成的数组GlobalDirGridIndices(k),每个元素通过
Figure BDA0001184402410000256
个比特编码。该数组包含表示全带方向ΩFB,d(k),d=1,...,NoOfGlobalDirs(k)的网格索引,以使得
ΩFB,d(k)=ΩTEST,GlobalDirGridIndices(k)[d] (23)
然后,对于每个子带或子带组fj,j=1,...,F,提取由DSB个元素组成的数组bSubBandDirIsActive(k,fj),其中,第d元素 bSubBandDirIsActive(k,fj)[d]指示第d子带是否有效。此外,计算有效子带方向DSB(k,fj)的总数。
最后,对于每个子带或子带组fj,j=1,...,F,计算元组的集合
Figure BDA0001184402410000253
它由标识单个(有效)的子带方向轨迹的索引
Figure BDA0001184402410000254
以及相应的估计方向ΩSB,d(k,fj)组成。
接着,从编码帧
Figure BDA0001184402410000261
重构用于每个子带或子带组fj,j=1,...,F的预测系数矩阵A(k+1,fj)。在一个实施例中,重构包括每个子带或子带组fj的以下步骤:
首先,通过熵解码来获得每个矩阵系数的角度和幅值差。然后,熵解码的角度和幅值差根据用于它们的编码的比特数NQ重新缩放到它们的实际值范围。最后,通过将重构的角度和幅值差与最近的系数矩阵A(k,fj)(即,前一个帧的系数矩阵)的系数相加来构建当前的预测系数矩阵A(k+1,fj)。
因此,对于当前矩阵A(k+1,fj)的解码,必须知道前一个矩阵 A(k,fj)。在一个实施例中,为了使得能够随机访问,以某些间隔接收包括没有差分编码的矩阵系数的特殊的访问帧以从这些帧重新开始差分解码。
感知和边信息源解码器40将感知解码信号
Figure BDA0001184402410000262
元组集合
Figure BDA0001184402410000263
预测系数矩阵A(k+1,fj)、增益校正指数ei(k)、增益校正异常标志βi(k)以及分配矢量vAMB,ASSIGN(k)输出到随后的空间HOA解码器50。
空间HOA解码
图5示出了一个实施例中的示例性空间HOA解码器50。空间 HOA解码器50从I个信号
Figure BDA0001184402410000264
以及由边信息解码器43提供的上述边信息创建重构的HOA表示。下面详细地描述空间HOA解码器50内的单个的处理单元。
逆增益控制
在空间HOA解码器50中,感知解码信号
Figure BDA0001184402410000265
连同相关联的增益校正指数ei(k)和增益校正异常标志βi(k)首先被输入到一个或多个逆增益控制处理块51。逆增益控制处理块提供增益校正的信号帧
Figure BDA0001184402410000266
在一个实施例中,I个信号
Figure BDA0001184402410000267
中的每一个被馈送到如图5中的单独的逆增益控制处理块51,以使得第i逆增益控制处理块提供增益校正的信号帧
Figure BDA0001184402410000271
逆增益控制的更详细的描述从例如[9]第11.4.2.1获知。
截断的HOA重构
在截断的HOA重构块52中,I个增益校正的信号帧
Figure BDA0001184402410000272
Figure BDA0001184402410000273
根据由分配矢量vAMB,ASSIGN(k)提供的信息重新分布(即,重新分配)到HOA系数序列矩阵,以使得截断的HOA表示
Figure BDA0001184402410000274
被重构。分配矢量vAMB,ASSIGN(k)包括I个分量,该I个分量对于每个传送通道指示它包含原始HOA分量的哪个系数序列。此外,分配矢量的元素形成用于第k帧的所有接收的系数序列的索引(是指原始HOA 分量)的集合
Figure BDA0001184402410000275
Figure BDA0001184402410000276
截断的HOA表示
Figure BDA0001184402410000277
的重构包括以下步骤:
第一,取决于分配矢量中的信息,解码的中间表示
Figure BDA0001184402410000278
的单个的分量
Figure BDA0001184402410000279
被设置为零或者被增益校正的信号帧
Figure BDA00011844024100002710
的对应分量替换,即,
Figure BDA00011844024100002711
这意味着,如上所述,分配矢量的第i元素(在等式(26)中为n) 指示第i系数
Figure BDA00011844024100002712
替换解码的中间表示矩阵
Figure BDA00011844024100002713
的第n行中的
Figure BDA00011844024100002714
第二,通过将逆空间变换应用于
Figure BDA00011844024100002715
内的头OMIN个信号来执行它们的再相关,提供以下帧:
Figure BDA00011844024100002716
在该帧中,模式矩阵ΨMIN如等式(6)中那样定义。该模式矩阵取决于分别对每个OMIN或NMIN预定义的给定方向,因此在编码器和解码器处都可以被独立地构造。此外,OMIN(或NMIN)是根据惯例预先定义的。
最后,根据以下等式从再相关的信号
Figure BDA0001184402410000281
以及中间表示的信号
Figure BDA0001184402410000282
组成重构的截断的HOA表示
Figure BDA0001184402410000283
Figure BDA0001184402410000284
分析滤波器组
为了进一步计算由预测的方向子带信号表示的第二HOA分量,首先在一个或多个分析滤波器组53中将解压缩的截断的HOA表示
Figure BDA0001184402410000285
的单个的系数序列n的每个帧
Figure BDA0001184402410000286
分解为单个的子带信号的帧
Figure BDA0001184402410000287
对于每个子带fj,j=1,...,F,可以将单个的HOA系数序列的子带信号的帧收集到如下的子带HOA表示
Figure BDA0001184402410000288
中:
Figure BDA0001184402410000289
在HOA空间解码级处应用的一个或多个分析滤波器组53与在 HOA空间编码级处的那些一个或多个分析滤波器组15是相同的,并且对于子带组,应用来自HOA空间编码级的分组。因此,在一个实施例中,分组信息被包括在编码信号中。下面提供关于分组信息的更多细节。
在一个实施例中,对于HOA压缩级处的截断的HOA表示的计算 (参见以上,等式(4)附近)考虑最大阶数NMAX,并且使HOA压缩器和解压缩器的分析滤波器组15、53的应用仅限于具有索引 n=1,...,OMAX的那些HOA系数序列
Figure BDA00011844024100002810
具有索引n=OMAX+ 1,...,O的子带信号帧
Figure BDA00011844024100002811
然后可以被设置为零。
方向子带HOA表示的合成
对于每个子带或子带组,在一个或多个方向子带合成块54中合成方向子带或子带组HOA表示
Figure BDA0001184402410000291
在一个实施例中,为了避免由于连续帧之间的方向和预测系数的变化而导致的伪像,方向子带HOA表示的计算基于重叠相加的概念。因此,在一个实施例中,与第fj子带(j=1,...,F)相关的有效方向子带信号的HOA表示
Figure BDA0001184402410000292
被计算为渐减的分量和渐增的分量的和:
Figure BDA0001184402410000293
在第一步中,为了计算这两个单个的分量,通过以下等式来计算与用于帧k1∈{k,k+1}的预测系数矩阵A(k1,fj)以及用于第k帧的截断的子带HOA表示
Figure BDA0001184402410000294
相关的所有方向子带信号
Figure BDA0001184402410000295
的瞬时帧:
Figure BDA0001184402410000296
对于子带组,将每个组的HOA表示
Figure BDA0001184402410000297
乘以固定矩阵 A(k1,fj)来创建该组的子带信号
Figure BDA0001184402410000298
在第二步中,相对于方向ΩSB,d(k,fj)的方向子带信号
Figure BDA0001184402410000299
的瞬时子带HOA表示
Figure BDA00011844024100002910
Figure BDA00011844024100002911
被获得为:
Figure BDA00011844024100002912
其中,
Figure BDA00011844024100002913
表示相对于方向ΩSB,d(k,fj)的模式矢量(如等式(7)中的模式矢量)。对于子带组,对该组的所有信号执行等式 (32),其中,矩阵ψ(ΩSB,d(k,fj))对于每个组是固定的。
假定矩阵
Figure BDA00011844024100002914
Figure BDA00011844024100002915
将通过以下等式由它们的采样组成:
Figure BDA00011844024100002916
Figure BDA00011844024100002917
Figure BDA0001184402410000301
则有效方向子带信号的HOA表示的渐减分量和渐增分量的采样值最后通过以下等式确定:
Figure BDA0001184402410000302
Figure BDA0001184402410000303
其中,矢量
Figure BDA0001184402410000304
表示重叠相加窗函数。窗函数的示例由周期性Hann窗给出,该周期性Hann窗的元素通过以下等式定义:
Figure BDA0001184402410000305
子带HOA组成
对于每个子带或子带组fj,j=1,...,F,解码的子带HOA表示
Figure BDA0001184402410000306
的系数序列
Figure BDA0001184402410000307
被设置为截断的HOA表示
Figure BDA0001184402410000308
的系数序列,如果它以前被传送的话,否则被设置为由方向子带合成块54中的一个提供的方向HOA分量
Figure BDA0001184402410000309
的系数序列,即,
Figure BDA00011844024100003010
该子带组成由一个或多个子带组成块55执行。在实施例中,单独的子带组成块55被用于每个子带或子带组,因此用于所述一个或多个方向子带合成块54中的每一个。在一个实施例中,方向子带合成块 54及其对应的子带组成块55集成到单个块中。
合成滤波器组
在最后一步中,从所有解码的子带HOA表示
Figure BDA00011844024100003011
合成解码的HOA表示。解压缩的HOA表示
Figure BDA00011844024100003012
的单个的时域系数序列
Figure BDA00011844024100003013
由一个或多个合成滤波器组56从对应的子带系数序列
Figure BDA0001184402410000311
合成,所述一个或多个合成滤波器组56最后输出解压缩的HOA表示
Figure BDA0001184402410000312
注意,由于连续应用分析和合成滤波器组53、56,合成的时域系数序列通常具有延迟。
图8示例性地示出了对于单个频率子带f1,有效方向候选的集合、它们的被选轨迹以及对应的元组集合。在帧k中,四个方向在频率子带f1中有效。这些方向属于相应的轨迹T1、T2、T3和T5。在前面的帧k-2和k-1中,不同的方向有效,即,分别为T1、T2、T6和T1-T4。帧k中的有效方向的集合MDIR(k)涉及全带,并且包括几个有效方向候选,例如,MDIR(k)={Ω3852101229446581}。每个方向可以以任何方式表达,例如,由两个角度表达或者表达为预定义表格的索引。从有效的全带方向的集合,在子带中实际有效的那些方向以及它们对应的轨迹针对每个频率子带单独地被收集在元组集合MDIR(k,fj), j=1,...,F中。例如,在帧k的第一频率子带中,有效方向为Ω3、Ω52、Ω229和Ω581,并且它们的相关联的轨迹分别为T3、T1、T2和T5。在第二频率子带f2中,有效方向示例性地仅为Ω52和Ω229,并且它们的相关联的轨迹分别为T1和T2
下面是与示例性集合IC,ACT(k)={1,2,4,6}中的系数序列对应的示例性截断的HOA表示CT(k)的系数矩阵的一部分:
Figure BDA0001184402410000313
根据IC,ACT(k),仅行1、2、4和6的系数不被设置为零(然而,它们可以为零,这取决于信号)。矩阵CT(k)的每一列是指一个采样,并且该矩阵的每一行是系数序列。压缩包括并非所有的系数序列被编码和传送,而是仅一些选择的系数序列(即,其索引分别包括在IC,ACT(k) 和分配矢量vA(k)中的那些系数序列)被编码和传送。在解码器处,系数被解压缩,并且被定位到重构的截断的HOA表示的正确的矩阵行中。关于行的信息从分配矢量vAMB,ASSIGN(k)获得,该分量矢量 vAMB,ASSIGN(k)另外还提供用于每个传送的系数序列的传输通道。剩余的系数序列利用零填充,并且以后根据接收的边信息(例如,子带或子带组相关的预测矩阵和方向)从接收的(通常是非零的)系数预测。
子带分组
在一个实施例中,所使用的子带具有适应人类听觉的心理声学性质的不同带宽。可替代地,组合来自分析滤波器组53的若干子带以便形成具有拥有不同带宽的子带的适合的滤波器组。来自分析滤波器组 53的一组相邻子带使用相同的参数进行处理。如果使用多组组合的子带,则在编码器侧应用的对应的子带配置对于解码器侧必须是已知的。在实施例中,配置信息被传送,并且被解码器使用以设置其合成滤波器组。在实施例中,配置信息包括用于多个预定义的已知配置(例如,在列表中)之中的一个配置的标识符。
在另一个实施例中,使用以下灵活的解决方案,该解决方案减少定义子带配置所需的比特数。为了对子带配置进行高效编码,第一个、倒数第二个和最后一个子带组的数据被与其它子带组不同地对待。此外,在编码中使用子带组带宽差值。原则上,子带分组信息编码方法适合于对针对音频信号的一个或多个帧奏效的子带组的子带配置数据进行编码,其中,每个子带组是一个或多个相邻的原始子带的组合,并且原始子带的数量是预先定义的。在一个实施例中,后一个子带组的带宽大于或等于当前子带组的带宽。该方法包括利用表示NSB-1的固定比特数对NSB个子带组进行编码,并且如果NSB>1,则对于第一子带组g1,利用表示BSB[1]-1的一元码对带宽值BSB[1]进行编码。如果NSB=3,则对于第二子带组g2,编码具有固定比特数的带宽差值ΔBSB[2]=BSB[2]-BSB[1]。如果NSB>3,则对于子带组
Figure BDA0001184402410000322
利用一元码对对应数量的带宽差值ΔBSB[q]=BSB[q]-BSB[g-1]进行编码,并且对于最后一个子带组
Figure BDA0001184402410000321
编码具有固定比特数的带宽差值ΔBSB[NSB-1]=BSB[NSB-1]-BSB[NSB-2]。子带组的带宽值被表达为若干相邻的原始子带。对于最后一个子带组gSB,没有对应的值需要包括在编码的子带配置数据中。
图9示出了传统的MPEG-H 3D音频编码器的HOA编码路径的一般化框图。提取两种类型的主要声音信号:方向声音提取块DSE中的方向信号以及VVec声音提取块VSE中的基于矢量的信号VVec。属于基于矢量的信号VVec的矢量(V-vector)表示声场对于对应的基于矢量的信号的空间分布。此外,环境分量也被在用于残留/环境CRA 的计算器中被编码,由此来自方向声音提取块DSE和VVec声音提取块VSE的输出数据中的任何一个或两个可以被使用,或者均不被使用。环境信号经受空间分辨率降低块SRR、部分去相关PD以及增益控制GCA。框内的块由声音场景分析SSA控制。在被馈送到通用语音和音频编码器USAC3D中之前,主要声音信号还被相应的增益控制块GCD、 GCV处理。最后,USAC3D编码器ENCC&HEPC将HOA空间边信息包装到HOA扩展有效载荷中。
图10示出了根据一个实施例的MPEG中可用的改进的音频编码器。所公开的技术以用于低带宽的比特流是已知的MPEG-H 3D音频格式的真正超集的方式对目前的MPEG-H 3D音频系统进行修正。与图9相比,在声音场景分析SSA中,添加了包括两个新的块的路径。这些是应用于环境信号的QMF分析滤波器组QAC以及用于计算方向子带信号的参数的方向子带计算块DSCC。这些参数允许基于发送的环境信号来合成方向信号。另外,计算允许再现丢失的环境信号的参数。用于合成处理的边信息参数被移交给USAC3D编码器ENC&HEP,该USAC3D编码器ENC&HEP将它们包装到压缩的输出信号HOAC,O的HOA扩展有效载荷中。有利地,压缩比利用图9的布置实现的传统压缩更高效。
图11示出了传统的MPEG-H 3D音频解码器的一般化框图。首先,从压缩的输入比特流HOAC,I提取HOA边信息,并且USAC3D和HOA 扩展有效载荷解码器DECC&HEPC再现传送通道波形信号。这些被馈送到对应的逆增益控制块IGCD、IGCV、IGCA中。这里,编码器中应用的规范化反向。对应的传送信号与边信息一起用来分别在HOA方向声音合成块DSS和/或VVec声音合成块VSS中合成主要声音信号 (方向和/或基于矢量的)。在第三路径中,环境分量由逆部分去相关 IPD和HOA环境合成HAS块再现。后面的HOA组成块HCC组合主要声音分量和环境来构建解码的HOA信号。这被馈送到HOA渲染器 HR以生成输出信号HOA’D,O,即,最终的扩音器馈送。
图12示出了根据一个实施例的MPEG中可用的改进的音频解码器。如编码器中那样,添加了路径。它包括用于计算子带信号的解码器侧QMF分析块QAD以及用于合成参数化编码的方向子带信号的方向子带信号合成块DSCD。计算的子带信号与对应的传送的边信息一起用来合成方向信号的HOA表示。随后,合成的信号分量使用QMF 合成滤波器组OS被变换到时域中。它的输出信号另外被馈送到增强 HOA组成块HC中。后面的用于提供解码的HOA输出信号HOAD,O的HOA渲染块HR保持不变。
下面,对高阶高保真立体声的一些基本特征进行解释。
高阶高保真立体声(HOA)是基于感兴趣的紧凑区域内的声场的描述,该区域假定是没有声源的。在该情况下,在感兴趣区域内的位置x、时间t处的声压p(t,x)的时空行为在物理上完全由齐次波方程式确定。下面,我们假定如图6所示的球坐标系。在该坐标系中,x轴指向前面的位置,y轴指向左边,z轴指向顶部。空间x=(r,θ,φ)T中的位置由半径r>0(即,到坐标原点的距离)、从极轴z(!)测量的倾角θ∈[0,π]、以及在x-y平面中从x轴逆时针测量的方位角φ∈[0,2π[表示。此外,(·)T表示转置。
于是,可以证明[11],由
Figure BDA0001184402410000341
所表示的相对于时间的声压的傅里叶变换,即,
Figure BDA0001184402410000342
(其中,ω表示角频率,并且i指示虚数单位)可以根据以下等式展开为球谐级数:
Figure BDA0001184402410000351
在等式(42)中,cs表示声音的速度,并且k表示角波数,其通过
Figure BDA0001184402410000352
与角频率ω相关。此外,jn(·)表示第一类的球贝塞尔函数,并且
Figure BDA0001184402410000353
表示以上定义的阶数n和次数m的实值球谐函数。展开系数
Figure BDA0001184402410000354
仅取决于角波数k。注意,已隐含地假定声压是空间带限的。因此,级数相对于阶数索引n在上限N处被截断,该上限N被称为HOA 表示的阶数。
如果声场由从角度元组(θ,φ)指定的所有可能的方向到达且无限数量的不同角频率ω的平面谐波的叠加来表示,则可以证明[10],相应的平面波复数幅度函数C(ω,θ,φ)可以由以下球谐函数展开来表达:
Figure BDA0001184402410000355
其中,展开系数
Figure BDA0001184402410000356
通过以下等式与展开系数
Figure BDA0001184402410000357
相关:
Figure BDA0001184402410000358
假定单个的系数
Figure BDA0001184402410000359
是角频率ω的函数,则逆傅里叶变换(由
Figure BDA00011844024100003510
表示)的应用对于每个阶数n和次数m提供以下时域函数:
Figure BDA00011844024100003511
这些时域函数在这里被称为连续时间HOA系数序列,这些HOA系数序列可以通过以下等式收集在单个矢量c(t)中:
Figure BDA00011844024100003512
HOA系数序列
Figure BDA00011844024100003513
在矢量c(t)内的位置索引由n(n+1)+1+m 给出。
矢量c(t)中的元素的总数由O=(N+1)2给出。
最终的高保真立体声格式如下使用采样频率fS提供c(t)的采样版本:
Figure BDA00011844024100003514
其中,TS=1/fS表示采样周期。c(lTS)的元素在这里被称为离散时间 HOA系数序列,其可以证明为总是实值。该性质显然对于连续时间版本
Figure BDA0001184402410000361
也成立。
实值球谐函数的定义
实值球谐函数
Figure BDA0001184402410000362
(采用SN3D规范化[1,第3.1章])由以下等式给出:
Figure BDA0001184402410000363
其中,
Figure BDA0001184402410000364
相关联的勒让德(Legendre)函数Pn,m(x)利用勒让德多项式Pn(x) 定义为:
Figure BDA0001184402410000365
并且不同于[11]中那样,没有Condon-Shortley相位项(-1)m
在一个实施例中,用于HOA信号表示(从复值滤波器组获得) 的子带或子带组内的主导方向信号的方向的逐帧确定和高效编码的方法包括:
对于每个当前帧k:确定HOA信号中的全带方向候选的集合 MDIR(k)、集合MDIR(k)中的元素的数量NoOfGlobalDirs以及对该数量的元素进行编码所需的数量D(k)=log2(NoOfGlobalDirs),其中,每个全带方向候选具有与预定义的Q个可能的方向的全集相关的全局索引 q(q∈[1,...,Q]),
对于当前帧k的每个子带或子带组j,确定集合MDIR(k)中的全带方向候选中的哪些方向作为有效子带方向发生,确定子带或子带组中的任何一个中的作为有效子带方向发生的使用的全带方向候选(全部包含在HOA信号中的全带方向候选的集合MDIR(k)中)的集合MFB(k)、以及使用的全带方向候选的集合MFB(k)中的元素的数量 NoOfGlobalDirs(k),并且
对于当前帧k的每个子带或子带组j:确定集合MDIR(k)中的全带方向候选之中的多达d(d∈[1,...,D])个方向中的哪些方向是有效子带方向,对于每个有效子带方向确定轨迹和轨迹索引,并将轨迹索引分配给每个有效子带方向,并且
利用D(k)个比特通过相对索引对当前子带或子带组j中的每个有效子带方向进行编码。
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,以使计算机执行该用于主导方向信号的方向的逐帧确定和高效编码的方法。
此外,在一个实施例中,用于HOA信号表示的子带内的主导方向信号的方向的解码的方法包括以下步骤:接收将被解码的HOA信号表示的最大数量D个方向的索引,重构将被解码的HOA信号表示的最大数量D个方向中的方向,接收每一个子带的有效方向信号的索引,从将被解码的HOA信号表示的重构的D个方向以及每一个子带的有效方向信号的索引重构每一个子带的有效方向,预测子带的方向信号,其中,子带的当前帧中的方向信号的预测包括确定该子带的前一个帧的方向信号,并且其中,如果方向信号的索引在前一个帧中为零、而在当前帧中为非零,则创建新的方向信号,如果方向信号的索引在前一个帧中为非零、而在当前帧中为零,则取消前一方向信号,并且如果方向信号的索引从第一方向变为第二方向,则将该方向信号的方向从第一方向移动到第二方向。
在一个实施例中,如图1和图3所示,并且如以上所讨论的,用于对具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的HOA信号的帧进行编码的装置包括至少一个硬件处理器和非暂时性的有形计算机可读存储介质,该计算机可读存储介质有形地包含至少一个软件组件,该软件组件当在所述至少一个硬件处理器上执行行时使硬件处理器:
计算11具有数量减少的非零系数序列的截断的HOA表示CT(k),
确定11截断的HOA表示中所包括的有效的系数序列的索引的集合IC,ACT(k),
从输入的HOA信号估计16候选方向的第一集合MDIR(k);
将输入的HOA信号划分15为多个频率子带f1,...,fF,其中,获得频率子带的系数序列
Figure BDA0001184402410000381
对于每个频率子带估计16方向的第二集合MDIR(k,f1),..., MDIR(k,fF),其中,方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,每个有效方向也包括在输入的 HOA信号的候选方向的第一集合MDIR(k)中,
对于每个频率子带,根据相应频率子带的方向的第二集合 MDIR(k,f1),...,MDIR(k,fF)从频率子带的系数序列
Figure BDA0001184402410000382
Figure BDA0001184402410000383
计算17方向子带信号Xk-1,k,f1,...,Xk-1,k,fF,
对于每个频率子带,使用相应频率子带的有效的系数序列的索引的集合IC,ACT(k)从频率子带的系数序列
Figure BDA0001184402410000384
计算18适于预测方向子带信号
Figure BDA0001184402410000385
的预测矩阵A(k,f1),...,A(k,fF),并且
对候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),..., MDIR(k,fF)、预测矩阵A(k,f1),...,A(k,fF)以及截断的HOA表示CT(k)进行编码。
在一个实施例中,如图4和图5所示,并且如以上所讨论的,用于对压缩的HOA表示进行解码的装置包括至少一个硬件处理器和非暂时性的有形计算机可读存储介质,该计算机可读存储介质有形地包含至少一个软件组件,该软件组件当在所述至少一个硬件处理器上执行时使硬件处理器:从压缩的HOA表示提取41、42、43多个截断的 HOA系数序列
Figure BDA0001184402410000386
指示或包含所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)、子带相关的方向信息 MDIR(k+1,f1),...,MDIR(k+1,fF)、多个预测矩阵A(k+1,f1),...,A(k+1,fF)、以及增益控制边信息e1(k),β1(k),...,eI(k),βI(k);
从所述多个截断的HOA系数序列
Figure BDA0001184402410000387
增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重构51、52 截断的HOA表示
Figure BDA0001184402410000388
在一个或多个分析滤波器组53中将重构的截断的HOA表示
Figure BDA0001184402410000391
分解为多个即F个频率子带的频率子带表示
Figure BDA0001184402410000392
在方向子带合成块54中对于每个频率子带表示,从重构的截断的 HOA表示的相应的频率子带表示
Figure BDA0001184402410000393
子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及预测矩阵A(k+1,f1),...,A(k+1,fF) 合成54预测的方向HOA表示
Figure BDA0001184402410000394
在子带组成块55中对于所述F个频率子带中的每一个,组成55 具有系数序列
Figure BDA0001184402410000395
的解码的子带HOA表示
Figure BDA0001184402410000396
所述系数序列
Figure BDA0001184402410000397
从截断的HOA 表示
Figure BDA0001184402410000398
的系数序列获得,如果系数序列具有包括在分配矢量 vAMB,ASSIGN(k)中的索引n的话,否则从由方向子带合成块54中的一个提供的预测的方向HOA分量
Figure BDA0001184402410000399
的系数序列获得;以及在一个或多个合成滤波器组56中合成56解码的子带HOA表示
Figure BDA00011844024100003910
以获得解码的HOA表示
Figure BDA00011844024100003911
在一个实施例中,用于对具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的HOA信号的帧进行编码的装置10包括:计算和确定模块11,其被配置为计算具有数量减少的非零系数序列的截断的HOA表示CT(k),并且被进一步配置为确定包括在截断的HOA 表示中的有效系数序列的索引的集合IC,ACT(k);
分析滤波器组模块15,其被配置为将输入的HOA信号划分为多个频率子带f1,...,fF,,其中,获得所述频率子带的系数序列
Figure BDA00011844024100003912
方向估计模块16,其被配置为从输入的HOA信号估计候选方向的第一集合MDIR(k),并且被进一步配置为对于每个频率子带,估计方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,每个有效方向也包括在输入的HOA信号的候选方向的第一集合MDIR(k) 中;至少一个方向子带计算模块17,其被配置为对于每个频率子带,根据相应频率子带的方向的第二集合MDIR(k,f1),...,MDIR(k,fF)从频率子带的系数序列
Figure BDA0001184402410000401
计算方向子带信号
Figure BDA0001184402410000402
至少一个方向子带预测模块18,其被配置为对于每个频率子带,使用相应频率子带的有效系数序列的索引集合IC,ACT(k)从频率子带的系数序列
Figure BDA0001184402410000403
计算适于预测方向子带信号
Figure BDA0001184402410000404
的预测矩阵 A(k,f1),...,A(k,fF);以及编码模块30,其被配置为对候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、预测矩阵 A(k,f1),...,A(k,fF)以及截断的HOA表示CT(k)进行编码。
在一个实施例中,所述装置进一步包括:部分去相关器12,其被配置为对截断的HOA通道序列进行部分去相关;通道分配模块13,其被配置为将截断的HOA通道序列y1(k),...,yI(k)分配给传输通道;以及至少一个增益控制单元14,其被配置为对传输通道执行增益控制,其中,产生用于每个传输通道的增益控制边信息ei(k-1),βi(k-1)。
在一个实施例中,编码模块30包括:感知编码器31,其被配置为对增益控制的截断的HOA通道序列z1(k),...,zI(k)进行编码;边信息源编码器32,其被配置为对增益控制边信息ei(k-1),βi(k-1)、候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)以及预测矩阵A(k,f1),...,A(k,fF)进行编码;以及复用器33,其被配置为对感知编码器31和边信息源编码器32的输出进行复用以获得编码的 HOA信号帧
Figure BDA0001184402410000405
在一个实施例中,用于对HOA信号进行解码的装置50包括:
提取模块40,其被配置为从压缩的HOA表示提取多个截断的 HOA系数序列
Figure BDA0001184402410000406
指示或包含所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)、子带相关的方向信息 MDIR(k+1,f1),...,MDIR(k+1,fF)、多个预测矩阵A(k+1,f1),...,A(k+1,fF)、以及增益控制边信息e1(k),β1(k),...,eI(k),βI(k);重构模块51、52,其被配置为从所述多个截断的HOA系数序列
Figure BDA0001184402410000407
增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重构截断的 HOA表示
Figure BDA0001184402410000411
分析滤波器组模块53,其被配置为将重构的截断的 HOA表示
Figure BDA0001184402410000412
分解为多个即F个频率子带的频率子带表示
Figure BDA0001184402410000413
至少一个方向子带合成模块54,其被配置为对于每个频率子带表示,从重构的截断的HOA表示的相应的频率子带表示
Figure BDA0001184402410000414
子带相关的方向信息 MDIR(k+1,f1),...,MDIR(k+1,fF)以及预测矩阵A(k+1,f1),...,A(k+1,fF)合成预测的方向HOA表示
Figure BDA0001184402410000415
至少一个子带组成模块55,其被配置为对于所述F个频率子带中的每一个,组成具有系数序列
Figure BDA0001184402410000416
的解码的子带HOA 表示
Figure BDA0001184402410000417
如果系数序列具有包括在分配矢量 vAMB,ASSIGN(k)中的索引n,则所述系数序列
Figure BDA0001184402410000418
从截断的HOA表示
Figure BDA0001184402410000419
的系数序列获得,否则从由方向子带合成块 54中的一个提供的预测的方向HOA分量
Figure BDA00011844024100004110
的系数序列获得;以及
合成滤波器组模块56,其被配置为合成解码的子带HOA表示
Figure BDA00011844024100004111
以获得解码的HOA表示
Figure BDA00011844024100004112
在一个实施例中,提取模块40至少包括:解复用器41,其用于获得编码的边信息部分和感知编码的部分,该感知编码的部分包括编码的截断的HOA系数序列
Figure BDA00011844024100004113
感知解码器42,其被配置为对编码的截断的HOA系数序列
Figure BDA00011844024100004114
进行感知解码s42以获得截断的HOA系数序列
Figure BDA00011844024100004115
以及边信息源解码器43,其被配置为对编码的边信息进行解码(s43)以获得子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、预测矩阵A(k+1,f1),...,A(k+1,fF)、增益控制边信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)。
图13示出了一个实施例中的低比特速率编码方法的流程图。用于具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的 HOA信号的帧的低比特速率编码的方法包括:
计算s110具有数量减少的非零系数序列的截断的HOA表示CT(k);确定s111截断的HOA表示中包括的有效系数序列的索引的集合 IC,ACT(k);从输入的HOA信号估计s16候选方向的第一集合MDIR(k);将输入的HOA信号划分s15为多个频率子带f1,...,fF,其中,获得所述频率子带的系数序列
Figure BDA0001184402410000421
对于每个频率子带,估计s161方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,第二索引是当前频率子带的有效方向的索引,而第一索引是有效方向的轨迹索引,其中,每个有效方向也包括在输入的HOA信号的候选方向的第一集合MDIR(k)中;
对于每个频率子带,根据相应频率子带的方向的第二集合 MDIR(k,f1),...,MDIR(k,fF)从频率子带的系数序列
Figure BDA0001184402410000422
Figure BDA0001184402410000423
计算s17方向子带信号Xk-1,k,f1,...,Xk-1,k,fF;
对于每个频率子带,使用相应频率子带的有效系数序列的索引的集合IC,ACT(k)从频率子带的系数序列
Figure BDA0001184402410000424
计算s18适于预测方向子带信号
Figure BDA0001184402410000425
的预测矩阵A(k,f1),...,A(k,fF);以及对候选方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、预测矩阵A(k,f1),...,A(k,fF)以及截断的HOA 表示CT(k)进行编码s19。
在一个实施例中,所述对截断的HOA表示CT(k)进行编码包括截断的HOA通道序列的部分去相关s12、用于将截断的HOA通道序列 y1(k),...,yI(k)分配给传输通道的通道分配s13、对每个传输通道执行增益控制s14(其中,产生用于每个传输通道的增益控制边信息ei(k-1), βi(k-1))、在感知编码器31中对增益控制的截断的HOA通道序列 z1(k),...,zI(k)进行编码s31、在边信息源编码器32中对增益控制边信息 ei(k-1),βi(k-1)、候选方向的第一集合MDIR(k)、方向的第二集合 MDIR(k,f1),...,MDIR(k,fF)以及预测矩阵A(k,f1),...,A(k,fF)进行编码s32、以及对感知编码器31和边信息源编码器32的输出进行复用以获得编码的 HOA信号帧
Figure BDA0001184402410000426
在一个实施例中,用于对具有给定数量的系数序列(其中,每个系数序列具有索引)的输入的HOA信号的帧进行编码的装置包括处理器和存储指令的存储器,这些指令当被处理器执行时使处理器执行权利要求8的步骤。
图14示出了一个实施例中的解码方法的流程图。用于对低比特速率压缩的HOA表示进行解码的方法包括:从压缩的HOA表示提取 s41、s42、s43多个截断的HOA系数序列
Figure BDA0001184402410000431
指示或包含所述截断的HOA系数序列的序列索引的分配矢量vAMB,ASSIGN(k)、子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多个预测矩阵 A(k+1,f1),...,A(k+1,fF)、以及增益控制边信息e1(k),β1(k),...,eI(k),βI(k);从所述多个截断的HOA系数序列
Figure BDA0001184402410000432
增益控制边信息 e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重构s51、s52 截断的HOA表示
Figure BDA0001184402410000433
在分析滤波器组53中将重构的截断的HOA 表示
Figure BDA0001184402410000434
分解s53为多个即F个频率子带的频率子带表示
Figure BDA0001184402410000435
在方向子带合成块54中对于每个频率子带表示,从重构的截断的HOA表示的相应的频率子带表示
Figure BDA0001184402410000436
子带相关的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF) 以及预测矩阵A(k+1,f1),...,A(k+1,fF)合成s54预测的方向HOA表示
Figure BDA0001184402410000437
在子带组成块55中对于所述F个频率子带中的每一个,组成s55具有系数序列
Figure BDA0001184402410000438
的解码的子带 HOA表示
Figure BDA0001184402410000439
如果系数序列具有包括在分配矢量 vAMB,ASSIGN(k)中的索引n,则所述系数序列
Figure BDA00011844024100004310
从截断的HOA表示
Figure BDA00011844024100004311
的系数序列获得,否则从由方向子带合成块 54中的一个提供的预测的方向HOA分量
Figure BDA00011844024100004312
的系数序列获得;以及在合成滤波器组56中合成s56解码的子带HOA表示
Figure BDA00011844024100004313
以获得解码的HOA表示
Figure BDA00011844024100004314
在实施例中,提取包括以下操作中的一个或多个:对压缩的HOA 表示进行解复用s41以获得感知编码的部分和编码的边信息部分、对解码的截断的HOA系数序列进行感知解码s42、以及在边信息源解码器43中对编码的边信息进行解码s43。在实施例中,从所述多个截断的HOA系数序列重构截断的HOA表示
Figure BDA0001184402410000441
包括以下操作中的一个或多个:执行逆增益控制s51、以及重构s52截断的HOA表示
Figure BDA0001184402410000442
在一个实施例中,计算机可读介质具有存储在其上的可执行指令,以使计算机执行所述用于主导方向信号的方向的解码的方法。
在一个实施例中,用于对压缩的HOA信号进行解码的装置包括处理器和存储指令的存储器,这些指令当被处理器执行时使处理器执行权利要求1的步骤。
明确的意图是以实现相同结果的基本上相同的方式执行基本上相同的功能的那些元件的所有组合在本发明的范围内,并且在说明书和(在适当情况下)权利要求以及附图中公开的每个特征可以独立地或者以任何适当的组合提供。在适当的情况下,特征可以以硬件、软件或这二者的组合来实现。在适用的情况下,连接可以实现为无线连接或有线的、但不一定是直接的或专用的连接。在一个实施例中,以上提及的模块或单元(诸如提取模块、增益控制单元、子带信号分组单元、处理单元及其它)中的每一个至少部分通过使用至少一个硅组件来以硬件实现。
参考文献
[1]
Figure BDA0001184402410000452
Daniel.Représentation de champs acoustiques,application àla transmission et à la reproduction de scènes sonores complexes dans uncontexte multimédia.PhD thesis,UniversitéParis 6,2001年.
[2]
Figure BDA0001184402410000453
Fliege和Ulrike Maier.A two-stage approach for computingcubature formulae for the sphere.Technical report,Fachbereich Mathematik,
Figure BDA0001184402410000451
Dortmund,1999年.节点号在 http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/ nodes/nodes.html上找到.
[3]Sven Kordon和Alexander Krueger.Adaptive value range control forHOA signals.专利申请(Technicolor内部参考:PD130016),2013 年7月.
[4]Alexander Krueger和Sven Kordon.Intelligent signal extraction andpacking for compression of HOA sound field representations.专利申请EP13305558.2(Technicolor内部参考:PD130015),2013年4 月29日提交.
[5]A.Krueger、S.Kordon和J.Boehm.HOA compression by decomposition intodirectional and ambient components.公开的专利申请EP2743922(Technicolor内部参考:PD120055),2012年12月.
[6]Alexander Krüger、Sven Kordon、Johannes Boehm和Jan-Mark Batke.Methodand apparatus for compressing and decompressing a higher order ambisonicssignal representation.公开的专利申请 EP2665208(Technicolor内部参考:PD120015),2012年5月.
[7]Alexander Krüger.Method and apparatus for robust sound sourcedirection tracking based on Higher Order Ambisonics.公开的专利申请EP2738962(Technicolor内部参考:PD120049),2012年12月.
[8]Daniel D.Lee和H.Sebastian Seung.Learning the parts of objects bynonnegative matrix factorization.Nature,401:788–791,1999年.
[9]ISO/IEC JTC 1/SC 29N.Text of ISO/IEC 23008-3/CD,MPEG-H 3d audio,2014年4月.
[10]Boaz Rafaely.Plane-wave decomposition of the sound field on asphere by spherical convolution.J.Acoust.Soc.Am., 4(116):2149–2157,2004年10月.
[11]Earl G.Williams.Fourier Acoustics,volume 93of AppliedMathematical Sciences.Academic Press,1999年.

Claims (25)

1.一种用于对压缩的HOA表示进行解码的方法,所述方法包括:
-从压缩的HOA表示提取(s41,s42,s43)多个截断的HOA系数序列
Figure FDA0002762349600000011
指示或包含所述截断的HOA系数序列的序列索引的分配矢量(vAMB,ASSIGN(k))、子带相关的方向信息、多个预测矩阵(A(k+1,f1),...,A(k+1,fF))、以及增益控制边信息;
-从所述多个截断的HOA系数序列
Figure FDA0002762349600000012
增益控制边信息以及分配矢量(vAMB,ASSIGN(k))重构(s51,s52)截断的HOA表示
Figure FDA0002762349600000013
-在分析滤波器组(53)中将重构的截断的HOA表示
Figure FDA0002762349600000014
分解(s53)为多个频率子带的频率子带表示
Figure FDA0002762349600000015
-在方向子带合成块(54)中对于所述频率子带表示中的每一个,从所述重构的截断的HOA表示的相应频率子带表示
Figure FDA0002762349600000016
所述子带相关的方向信息以及所述预测矩阵(A(k+1,f1),...,A(k+1,fF))合成(s54)预测的方向HOA表示
Figure FDA0002762349600000017
-在子带组成块(55)中对于所述多个频率子带中的每一个,组成(s55)具有系数序列
Figure FDA0002762349600000018
的解码的子带HOA表示
Figure FDA0002762349600000019
如果所述解码的子带HOA表示的系数序列具有包括在所述分配矢量(vAMB,ASSIGN(k))中的索引n,则所述解码的子带HOA表示的系数序列
Figure FDA00027623496000000110
从截断的HOA表示
Figure FDA00027623496000000111
的系数序列获得,否则从由所述方向子带合成块(54)中的一个提供的预测的方向HOA分量
Figure FDA00027623496000000112
的系数序列获得;以及
-在合成滤波器组(56)中合成(s56)所述解码的子带HOA表示
Figure FDA00027623496000000113
以获得解码的HOA表示
Figure FDA00027623496000000114
2.根据权利要求1所述的方法,其中,所述提取包括获得包括编码的截断的HOA系数序列
Figure FDA0002762349600000021
的感知编码的部分,并且进一步包括在感知解码器(42)中对所述编码的截断的HOA系数序列
Figure FDA0002762349600000022
进行感知解码(s42)以获得截断的HOA系数序列
Figure FDA0002762349600000023
3.根据权利要求2所述的方法,其中,所述提取包括获得编码的边信息部分,并且进一步包括在边信息源解码器(43)中对所述编码的边信息部分进行解码(s43)以获得所述子带相关的方向信息、预测矩阵(A(k+1,f1),...,A(k+1,fF))、增益控制边信息以及分配矢量(vAMB,ASSIGN(k))。
4.根据权利要求1、3中的一项所述的方法,其中,所述子带相关的方向信息包括候选方向的集合(MDIR(k))和元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF)),所述元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF))包括具有第一索引和第二索引的索引元组,所述第二索引是当前频率子带的候选方向的集合(MDIR(k))内的有效方向的索引,并且所述第一索引是所述有效方向的轨迹索引,其中,轨迹是特定声源的方向的时间序列。
5.根据权利要求4所述的方法,其中,至少一个频率子带表示包括两个或更多个频率子带的子带组。
6.根据权利要求5所述的方法,其中,从所述压缩的HOA表示接收或提取子带组配置信息,并且所述子带组配置信息用于设置所述合成滤波器组(56)。
7.一种用于对具有给定数量的系数序列的输入的HOA信号的帧进行编码的方法,其中,每个系数序列具有索引,所述方法包括:
-确定(s111)将被包括在截断的HOA表示中的有效系数序列的索引的集合(IC,ACT(k));
-计算(s110)具有比所述给定数量少的数量的非零系数序列的截断的HOA表示(CT(k));
-从所述输入的HOA信号估计(s16)候选方向的第一集合(MDIR(k));
-将所述输入的HOA信号划分(s15)为多个频率子带(f1,...,fF),其中,获得所述频率子带的系数序列
Figure FDA0002762349600000031
-对于所述频率子带中的每一个,估计(s161)方向的第二集合(MDIR(k,f1),...,MDIR(k,fF)),其中,所述方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,所述第二索引是当前频率子带的有效方向的索引,并且所述第一索引是所述有效方向的轨迹索引,其中,每个有效方向也被包括在所述输入的HOA信号的候选方向的第一集合(MDIR(k))中;
-对于所述频率子带中的每一个,根据相应频率子带的方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))从所述频率子带的系数序列
Figure FDA0002762349600000032
计算(s17)方向子带信号
Figure FDA0002762349600000033
-对于所述频率子带中的每一个,使用相应频率子带的有效系数序列的索引的集合(IC,ACT(k))从所述频率子带的系数序列
Figure FDA0002762349600000034
Figure FDA0002762349600000035
计算(s18)适于预测所述方向子带信号
Figure FDA0002762349600000036
的预测矩阵(A(k,f1),...,A(k,fF));以及
-对所述候选方向的第一集合(MDIR(k))、方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))、预测矩阵(A(k,f1),...,A(k,fF))以及截断的HOA表示(CT(k))进行编码(s19)。
8.根据权利要求7所述的方法,其中,创建两个或更多个频率子带的至少一个组,并且其中,使用所述至少一个组,而不是单个频率子带,并且以与单个频率子带相同的方式对待所述至少一个组。
9.根据权利要求7或8所述的方法,其中,所述对截断的HOA表示(CT(k))进行编码包括:
-截断的HOA通道序列的部分去相关(s12);
-用于将所述截断的HOA通道序列(y1(k),...,yI(k))分配给传输通道的通道分配(s13);
-对所述传输通道中的每一个执行增益控制(s14),其中,产生用于每个传输通道的增益控制边信息;
-在感知编码器(31)中对增益控制的截断的HOA通道序列(z1(k),...,zI(k))进行编码(s31);
-在边信息源编码器(32)中对所述增益控制边信息、候选方向的第一集合(MDIR(k))、方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))以及预测矩阵(A(k,f1),...,A(k,fF))进行编码(s32);以及
-对所述感知编码器(31)和边信息源编码器(32)的输出进行复用(s33)以获得编码的HOA信号帧
Figure FDA0002762349600000041
10.根据权利要求9所述的方法,其中,在对于所述频率子带中的每一个估计(s161)方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))的步骤中,仅在全带HOA信号的方向之中搜索频率子带的方向。
11.根据权利要求7-8、10中的一项所述的方法,进一步包括确定有效方向的轨迹的步骤,其中,有效方向是声源的方向,并且其中,轨迹是特定声源的方向的时间序列。
12.根据权利要求11所述的方法,其中,截断的HOA表示是一个或多个系数序列被设置为零的HOA信号。
13.一种用于对HOA信号进行解码的装置(50),所述装置(50)包括:
-提取模块(40),所述提取模块(40)被配置为从压缩的HOA表示提取多个截断的HOA系数序列
Figure FDA0002762349600000051
指示或包含所述截断的HOA系数序列的序列索引的分配矢量(vAMB,ASSIGN(k))、子带相关的方向信息、多个预测矩阵(A(k+1,f1),...,A(k+1,fF))、以及增益控制边信息;
-重构模块(51、52),所述重构模块(51、52)被配置为从所述多个截断的HOA系数序列
Figure FDA0002762349600000052
增益控制边信息以及分配矢量(vAMB,ASSIGN(k))重构截断的HOA表示
Figure FDA0002762349600000053
-分析滤波器组模块(53),所述分析滤波器组模块(53)被配置为将重构的截断的HOA表示
Figure FDA0002762349600000054
分解为多个频率子带的频率子带表示
Figure FDA0002762349600000055
-至少一个方向子带合成模块(54),所述至少一个方向子带合成模块(54)被配置为对于所述频率子带表示中的每一个,从所述重构的截断的HOA表示的相应频率子带表示
Figure FDA0002762349600000056
所述子带相关的方向信息以及所述预测矩阵(A(k+1,f1),...,A(k+1,fF))合成预测的方向HOA表示
Figure FDA0002762349600000057
-至少一个子带组成模块(55),所述至少一个子带组成模块(55)被配置为对于所述多个频率子带中的每一个,组成具有系数序列
Figure FDA0002762349600000058
的解码的子带HOA表示
Figure FDA0002762349600000059
如果所述解码的子带HOA表示的系数序列具有包括在所述分配矢量(vAMB,ASSIGN(k))中的索引n,则所述解码的子带HOA表示的系数序列
Figure FDA00027623496000000510
从截断的HOA表示
Figure FDA00027623496000000511
的系数序列获得,否则从由所述方向子带合成模块(54)中的一个提供的预测的方向HOA分量
Figure FDA00027623496000000512
的系数序列获得;以及
-合成滤波器组模块(56),所述合成滤波器组模块(56)被配置为合成所述解码的子带HOA表示
Figure FDA00027623496000000513
以获得解码的HOA表示
Figure FDA00027623496000000514
14.根据权利要求13所述的装置,其中,所述提取模块(40)至少包括:
-解复用器(41),所述解复用器(41)用于获得编码的边信息部分和感知编码的部分,所述感知编码的部分包括编码的截断的HOA系数序列
Figure FDA0002762349600000061
15.根据权利要求13或14所述的装置,其中,所述提取模块(40)获得编码的边信息部分,进一步包括边信息源解码器(43),所述边信息源解码器(43)被配置为对所述编码的边信息部分进行解码(s43)以获得所述子带相关的方向信息、预测矩阵(A(k+1,f1),...,A(k+1,fF))、增益控制边信息以及分配矢量(vAMB,ASSIGN(k))。
16.根据权利要求15所述的装置,其中,所述子带相关的方向信息包括候选方向的集合(MDIR(k))和元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF)),所述元组集合(MDIR(k+1,f1),...,MDIR(k+1,fF))包括具有第一索引和第二索引的索引元组,所述第二索引是当前频率子带的候选方向的集合(MDIR(k))内的有效方向的索引,并且所述第一索引是所述有效方向的轨迹索引,其中,轨迹是特定声源的方向的时间序列。
17.根据权利要求13-14、16中的一项所述的装置,其中,至少一个频率子带表示包括两个或更多个频率子带的子带组。
18.根据权利要求17所述的装置,其中,从所述压缩的HOA表示接收或提取子带组配置信息,并且所述子带组配置信息用于设置所述合成滤波器组模块(56)。
19.一种用于对具有给定数量的系数序列的输入的HOA信号的帧进行编码的装置(10),其中,每个系数序列具有索引,所述装置(10)包括:
-计算和确定模块(11),所述计算和确定模块(11)被配置为计算具有比所述给定数量少的数量的非零系数序列的截断的HOA表示(CT(k)),并且被进一步配置为确定被包括在截断的HOA表示中的有效系数序列的索引的集合(IC,ACT(k));
-分析滤波器组模块(15),所述分析滤波器组模块(15)被配置为将所述输入的HOA信号划分为多个频率子带(f1,...,fF),其中,获得所述频率子带的系数序列
Figure FDA0002762349600000071
-方向估计模块(16),所述方向估计模块(16)被配置为从所述输入的HOA信号估计候选方向的第一集合(MDIR(k)),并且被进一步配置为对于所述频率子带中的每一个,估计方向的第二集合(MDIR(k,f1),...,MDIR(k,fF)),其中,所述方向的第二集合的每个元素是具有第一索引和第二索引的索引元组,所述第二索引是当前频率子带的有效方向的索引,并且所述第一索引是所述有效方向的轨迹索引,其中,每个有效方向也被包括在所述输入的HOA信号的候选方向的第一集合(MDIR(k))中;
-至少一个方向子带计算模块(17),所述至少一个方向子带计算模块(17)被配置为对于所述频率子带中的每一个,根据相应频率子带的方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))从所述频率子带的系数序列
Figure FDA0002762349600000072
计算方向子带信号
Figure FDA0002762349600000073
-至少一个方向子带预测模块(18),所述至少一个方向子带预测模块(18)被配置为对于所述频率子带中的每一个,使用相应频率子带的有效系数序列的索引的集合(IC,ACT(k))从所述频率子带的系数序列
Figure FDA0002762349600000074
计算适于预测所述方向子带信号
Figure FDA0002762349600000075
的预测矩阵(A(k,f1),...,A(k,fF));以及
-编码模块(30),所述编码模块(30)被配置为对所述候选方向的第一集合(MDIR(k))、方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))、预测矩阵(A(k,f1),...,A(k,fF))以及截断的HOA表示(CT(k))进行编码。
20.根据权利要求19所述的装置,其中,创建两个或更多个频率子带的至少一个组,并且其中,使用所述至少一个组,而不是单个频率子带,并且以与单个频率子带相同的方式对待所述至少一个组。
21.根据权利要求19或20所述的装置,进一步包括:
-部分去相关器(12),所述部分去相关器(12)被配置为对截断的HOA通道序列进行部分去相关;
-通道分配模块(13),所述通道分配模块(13)被配置为将所述截断的HOA通道序列(y1(k),...,yI(k))分配给传输通道;以及
-至少一个增益控制单元(14),所述至少一个增益控制单元(14)被配置为对所述传输通道执行增益控制,其中,产生用于每个传输通道的增益控制边信息;
并且其中,所述编码模块(30)包括:
-感知编码器(31),所述感知编码器(31)被配置为对增益控制的截断的HOA通道序列(z1(k),...,zI(k))进行编码;
-边信息源编码器(32),所述边信息源编码器(32)被配置为对所述增益控制边信息、候选方向的第一集合(MDIR(k))、方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))以及预测矩阵(A(k,f1),...,A(k,fF))进行编码;以及
-复用器(33),所述复用器(33)被配置为对所述感知编码器(31)和边信息源编码器(32)的输出进行复用以获得编码的HOA信号帧
Figure FDA0002762349600000081
22.根据权利要求21所述的装置,其中,当对于所述频率子带中的每一个估计方向的第二集合(MDIR(k,f1),...,MDIR(k,fF))时,所述方向估计模块(16)仅在全带HOA信号的方向之中搜索频率子带的方向。
23.根据权利要求19-20、22中的一项所述的装置,进一步包括轨迹确定模块,所述轨迹确定模块被配置为确定有效方向的轨迹,其中,有效方向是声源的方向,并且其中,轨迹是特定声源的方向的时间序列。
24.根据权利要求23所述的装置,其中,截断的HOA表示是一个或多个系数序列被设置为零的HOA信号。
25.一种具有存储在其上的可执行指令的计算机可读介质,所述可执行指令在计算机上执行时使所述计算机执行根据权利要求1-12中的任一项所述的方法。
CN201580033215.6A 2014-07-02 2015-07-02 对压缩的hoa表示编码和解码的方法和装置 Active CN106663432B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14306080.4 2014-07-02
EP14306080 2014-07-02
EP14194186.4 2014-11-20
EP14194186.4A EP2963949A1 (en) 2014-07-02 2014-11-20 Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
PCT/EP2015/065086 WO2016001356A1 (en) 2014-07-02 2015-07-02 Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation

Publications (2)

Publication Number Publication Date
CN106663432A CN106663432A (zh) 2017-05-10
CN106663432B true CN106663432B (zh) 2021-02-02

Family

ID=51220514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580033215.6A Active CN106663432B (zh) 2014-07-02 2015-07-02 对压缩的hoa表示编码和解码的方法和装置

Country Status (7)

Country Link
US (1) US9774975B2 (zh)
EP (2) EP2963949A1 (zh)
JP (1) JP6542269B2 (zh)
KR (1) KR102296067B1 (zh)
CN (1) CN106663432B (zh)
TW (1) TWI657434B (zh)
WO (1) WO2016001356A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110800048B (zh) 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
CN109521731B (zh) * 2017-09-19 2021-07-30 沈阳高精数控智能技术股份有限公司 一种基于公差带的G2连续Bézier刀具轨迹平滑算法
US11322164B2 (en) 2018-01-18 2022-05-03 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
JP7261807B2 (ja) * 2018-02-01 2023-04-20 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法
DE112019004193T5 (de) * 2018-08-21 2021-07-15 Sony Corporation Audiowiedergabevorrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm
CN110476960B (zh) * 2019-09-19 2021-06-15 河北省农林科学院植物保护研究所 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用
CN115376530A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
CN115546323B (zh) * 2022-08-31 2023-06-09 广东工业大学 一种基于球坐标主成分分析的图像压缩重构方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06338861A (ja) * 1993-05-27 1994-12-06 Sony Corp ディジタル信号処理装置及び方法、並びに記録媒体
CN1411679A (zh) * 1999-11-02 2003-04-16 数字剧场系统股份有限公司 在多声道音频环境中提供互动式音频的系统和方法
EP1400955A2 (en) * 2002-09-04 2004-03-24 Microsoft Corporation Quantization and inverse quantization for audio signals
CN101202043A (zh) * 2007-12-28 2008-06-18 清华大学 音频信号的编码方法和系统与解码方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5075880A (en) * 1988-11-08 1991-12-24 Wadia Digital Corporation Method and apparatus for time domain interpolation of digital audio signals
JP3995383B2 (ja) * 2000-02-15 2007-10-24 三洋電機株式会社 水素吸蔵合金電極の製造方法
US8446947B2 (en) * 2003-10-10 2013-05-21 Agency For Science, Technology And Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06338861A (ja) * 1993-05-27 1994-12-06 Sony Corp ディジタル信号処理装置及び方法、並びに記録媒体
CN1411679A (zh) * 1999-11-02 2003-04-16 数字剧场系统股份有限公司 在多声道音频环境中提供互动式音频的系统和方法
EP1400955A2 (en) * 2002-09-04 2004-03-24 Microsoft Corporation Quantization and inverse quantization for audio signals
CN101202043A (zh) * 2007-12-28 2008-06-18 清华大学 音频信号的编码方法和系统与解码方法和系统

Also Published As

Publication number Publication date
TWI657434B (zh) 2019-04-21
JP2017523451A (ja) 2017-08-17
CN106663432A (zh) 2017-05-10
TW201603004A (zh) 2016-01-16
US20170164131A1 (en) 2017-06-08
EP2963949A1 (en) 2016-01-06
US9774975B2 (en) 2017-09-26
KR102296067B1 (ko) 2021-09-01
EP3165005A1 (en) 2017-05-10
WO2016001356A1 (en) 2016-01-07
KR20170024581A (ko) 2017-03-07
EP3165005B1 (en) 2018-11-28
JP6542269B2 (ja) 2019-07-10

Similar Documents

Publication Publication Date Title
CN106663432B (zh) 对压缩的hoa表示编码和解码的方法和装置
CN106471579B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106463130B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106463132B (zh) 对压缩的hoa表示编码和解码的方法和装置
CN106463131B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1233040

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant