CN109478406A - 一种用于对多声道音频信号进行编解码的装置及方法 - Google Patents
一种用于对多声道音频信号进行编解码的装置及方法 Download PDFInfo
- Publication number
- CN109478406A CN109478406A CN201680087347.1A CN201680087347A CN109478406A CN 109478406 A CN109478406 A CN 109478406A CN 201680087347 A CN201680087347 A CN 201680087347A CN 109478406 A CN109478406 A CN 109478406A
- Authority
- CN
- China
- Prior art keywords
- meta data
- associated metadata
- metadata elements
- input audio
- data block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Abstract
本发明涉及一种用于对输入音频信号进行编码的装置(110),其中,所述输入音频信号包括多个输入音频通道。所述装置(110)包括基于KLT的预处理器(111),用于将所述多个输入音频通道转换为多个本征通道,并以多个元数据元素的形式提供元数据,其中,所述元数据支持基于所述多个本征通道重构所述多个输入音频通道;元数据重排单元(114),用于基于重排方案将所述多个元数据元素重新排列到一个或多个元数据块,其中,所述一个或多个元数据块中的每一个元数据块为一个多维阵列;元数据编码器(115),用于对所述一个或多个元数据块中的每一个元数据块进行编码。
Description
技术领域
本发明涉及音频信号处理领域。更具体地,本发明涉及一种基于KL变换(Karhunen-Loève Transform,KLT)对多声道音频信号进行编解码的装置及方法。
背景技术
在多声道空间音频编码领域,未来有两个挑战将变得日益突出:一是处理具有任意数量的记录的音频通道的输入音频信号;二是处理多个任意放置的麦克风,特别是放置角度。当前日益先进的录音设备如球形麦克风(Eigenmike)的流行趋势是这种现象的一个原因。此外,当前另一个趋势是各种传统录音设备也同时用于产生多声道音频信号。因此,需要一种能够应对上述挑战的通用音频编码方案。
目前,以流媒体和存储为目的的各种多声道音频编码方案在沉浸声领域具有很多可能的新应用,例如,应用于电影院、虚拟现实以及远程呈现等,从而日益普及。当前典型的多声道音频编解码方案有采用基于多通道对象编码的杜比全景声(Dolby Atmos)、结合通道对象的MPEG-H 3D音频以及基于Ambisonics的编码方式。然而,当前这些现有的多声道编解码方案仍局限于某些特定数量的音频通道,例如,ITU-R BS.2159-4等工业标准所要求的5.1、7.1或22.2声道。
处理具有任意数量的记录的音频通道的输入音频信号的方法基于KL变换(Karhunen-Loève Transform,KLT),该方法公开于Yang等人于2003年7月发表在IEEE音频与语言处理汇刊(IEEE Trans.on Speech and Audio Proc.)第四期11卷的《采用KL变换的高保真多声道音频编码》(High-Fidelity Multichannel Audio Coding with Karhunen-Loève Transform)。传统的基于KLT的音频编码方法的缺点在于,通常需要高元数据比特率来支持基于压缩音频信号重构具有足够感知质量的原始音频信号。这是因为在音频质量和元数据比特率之间存在一种关系,元数据比特率越高,音频质量越好,反之亦然。如此,降低元数据比特率最终会影响压缩音频质量。
在Yang等人的文章中,建议使用矢量量化器(vector quantizer,VG)压缩元数据,其是一维压缩技术,即矢量量化器(VQ)。然而,这种方法具有以下缺点:它通常不适用于任意数量的多声道输入音频信号;难以获得良好的VQ码本(训练);实现VQ架构相当困难;在码本大小较小的情况下,提供的表示非常粗略。
因此,需要一种基于KLT的改进装置和用于对多声道音频信号进行编码的改进方法,与传统装置和方法相比,其提供一种改进的元数据压缩方案,以类似或更低的元数据比特率提供了更好的音频质量。
发明内容
本发明的目的在于提供一种用于对多声道音频信号进行编解码的改进装置和方法。
通过独立权利要求的标的物,实现上述以及其他目的。通过从属权利要求、说明书和附图清楚地描述具体的实现方式。
根据第一方面,本发明涉及一种用于对输入音频信号进行编码的装置,所述输入音频信号是多声道音频信号,即包括多个输入音频通道。所述装置包括基于KL变换(Karhunen-Loève transform,KLT)的预处理器。所述基于KLT的预处理器用于将所述多个输入音频通道转换为多个本征通道,并以多个元数据元素的形式提供元数据,其中,所述元数据支持基于所述多个本征通道重构所述多个输入音频通道。所述装置还包括元数据重排单元,用于基于重排方案将所述多个元数据元素重新排列到一个或多个元数据块,其中,所述一个或多个元数据块中的每一个元数据块为一个多维阵列。所述装置还包括元数据编码器,用于对所述一个或多个元数据块中的每一个元数据块进行编码。在一种实现方式中,该装置还可以包括本征通道编码器,用于对一个或多个所述本征通道进行编码。从而可以提高压缩比。
所有元数据块可以具有相同的大小。这样有助于高效的处理。例如,所述一个或多个元数据块可以均为D维阵列,其中,D等于2、3或4。特别地,元数据块可以是正方形或立方体(取决于D的数值),因为这样可以显著提高压缩比。
根据第一方面,在所述装置的第一种实现方式中,所述重排方案基于一组相关度值,每个所述相关度值为所述多个元数据元素中的至少两个元数据元素之间的相关度的值。从而可以提高压缩比。
根据第一方面的第一种实现方式,在所述装置的第二种实现方式中,所述装置还包括机器学习单元(也称学习单元),用于根据一组训练输入音频信号来确定该组相关度值。此外,可以在部署阶段期间更新基于该组训练输入音频信号确定的相关度值。从而可以提高压缩比。
根据第一方面的第一或第二种实现方式,在所述装置的第三种实现方式中,所述重排方案用于将高度相关的元数据元素放在彼此接近的位置,例如,彼此相邻。从而可以提高压缩比。这里,“接近”用来描述所述多维阵列的两个元素之间的距离。例如,在2D阵列(即二维矩阵)中,索引为(i,j)的元素与索引为(i',j')的元素之间的距离是(i–i')**2+(j–j')**2。符号**或^表示“幂”。
根据第一方面的第一至第三种实现方式中的任一种,在所述装置的第四种实现方式中,所述重排方案用于至少近似地使代价函数最小化,其中,所述代价函数为一组候选重排方案中的每一个候选重排方案赋予各自的代价值。从而可以提高压缩比。
根据第一方面的第四种实现方式,在所述装置的第五种实现方式中,所述代价函数是相关距离乘积的幂和。例如,所述代价函数可以定义为:
∑i|cidi|2,
其中,索引i指第i个元数据元素子集并且适用于所有子集,每个子集具有相同数量的元数据元素(例如,2个、3个或4个),ci表示第i个元数据元素子集的相关度值,并且di表示根据重排方案的第i个子集的元数据元素之间的距离的度量。通常,所述代价函数也可以定义为:
∑i|cidi|n,
其中,n为整数或实数,如n=1,2,…或n=0.5,…。
在本发明中,元数据元素子集(例如,一对元数据元素)的相关度值理解为所述子集的元数据元素之间的相关度的值。例如,所述子集的元数据元素之间的相关度可以为所述子集的元数据元素的两两相关度的总和。
根据第一方面的第四或第五种实现方式,在所述装置的第六种实现方式中,所述重排方案包括以下操作序列的一次或多次迭代:
定义剩余元数据元素集合,所述剩余元数据元素集合包括等待重排的多个元数据元素的一些元数据元素,即尚未为其分配一个或多个元数据块的位置的元数据元素;
从所述剩余元数据元素集合中选择相关度值最高的包括M个元数据元素的子集,其中,M大于或等于2(此处以及整个说明书中,子集的相关度可以定义为子集中元素的两两相关度的总和);
将所选择的包括M个元数据元素的子集重新排列到所述一个或多个元数据块中的一个元数据块。从而可以使用相对较少且简单的操作来提高压缩比。
根据第一方面的第六种实现方式,在所述装置的第七种实现方式中,每个所述元数据块包括M个元素。从而可以提高压缩比。
根据第一方面的第四或第五种实现方式,在所述装置的第八种实现方式中,所述重排方案包括:
从所述多个元数据元素中选择第一元数据元素;
将所述第一元数据元素重新排列到所述一个或多个元数据块中的第一元数据块;
以及以下操作序列的一次或多次迭代:
定义剩余元数据元素集合,所述剩余元数据元素集合包括等待重排的多个元数据元素中的一些元数据元素,即尚未为其分配一个或多个元数据块的位置的元数据元素(所述剩余元数据元素集合是在此处和权利要求中为了解释的目的而定义的逻辑结构;实际中可以通过隐性的方式定义);
在所述第一元数据块中选择与占用位置相邻的空闲位置(所述占用位置是已放置有元数据元素的元数据块中的元素);
从所述剩余元数据元素集合中选择与所述占用位置处的元数据元素相关度最高的元数据元素;
将所选元数据元素重新排列到所选空闲位置。从而可以使用相对较少且简单的操作来提高压缩比。
根据第一方面的第一至第八种实现方式中的任一种,在所述装置的第九种实现方式中,所述元数据编码器包括块变换单元用于,针对所述一个或多个元数据块中的每一个元数据块,对相应的元数据块进行离散块变换,以在空间上去相关所述元数据元素,从而生成所述相应元数据块的多个变换系数;并对所述多个变换系数进行编码。从而可以提高压缩比。
根据第一方面的第九种实现方式,在所述装置的第十种实现方式中,所述元数据编码器用于,针对所述一个或多个元数据块中的每一个元数据块,对所述相应的元数据块的多个变换系数进行重新排列,特别是基于所述多个变换系数各自的大小进行重新排列,从而提供一个变换系数序列;并对所述编码变换系数序列进行有效编码。从而可以提高压缩比。
根据第一方面的第九至第十一种实现方式中的任一种,在所述装置的第十一种实现方式中,所述离散块变换为离散余弦变换(discrete cosine transform,DCT)、离散正弦变换(discrete sine transform,DST)或离散傅立叶变换(discrete Fourier transform,DFT)。从而可以提高压缩比。
根据第二方面,本发明涉及一种用于对输入音频信号进行解码的相应装置,所述输入音频信号包括经编码的元数据。所述装置包括元数据解码器,用于对所述经编码的元数据进行解码,其中,所述经编码的元数据包括排列在一个或多个元数据块中的元数据元素,所述一个或多个元数据块中的每一个元数据块为多维阵列;元数据重排单元,用于基于重排方案重新排列所述多个元数据元素;基于KLT的后处理器,用于基于所述多个重新排列的元数据元素提供包括多个输出音频通道的输出音频信号。从而可以提高压缩比。
本发明第二方面所述的解码装置的具体实现方式直接参考本发明第一方面所述的编码装置的相应实现方式。
根据第三方面,本发明涉及一种用于对输入音频信号进行编码的方法,所述输入音频信号包括多个输入音频通道。所述方法包括:将所述多个输入音频通道转换为多个本征通道,并以多个元数据元素的形式提供元数据,其中,所述元数据支持基于所述多个本征通道重构所述多个输入音频通道;基于重排方案将所述多个元数据元素重新排列到一个或多个元数据块,其中,所述一个或多个元数据块中的每一个元数据块为一个多维阵列;对所述一个或多个元数据块中的每一个元数据块进行编码。从而可以提高压缩比。
本发明第三方面所述的编码方法可以由本发明第一方面所述的编码装置执行。本发明第三方面所述的编码方法的具体特征和实现方式直接参考本发明第一方面所述的编码装置的功能及其不同的实现方式。
根据第四方面,本发明涉及一种用于对输入音频信号进行解码的方法,所述输入音频信号包括经编码的元数据,所述方法包括:对所述经编码的元数据进行解码,其中,所述经编码的元数据包括排列在一个或多个元数据块中的元数据元素,所述一个或多个元数据块中的每一个元数据块为多维阵列;基于重排方案重新排列所述多个元数据元素;基于所述多个重新排列的元数据元素提供包括多个输出音频通道的输出音频信号。从而可以提高压缩比。
本发明第四方面所述的解码方法可以由本发明第二方面所述的解码装置执行。本发明第四方面所述的解码方法的具体特征和实现方式直接参考本发明第二方面所述的解码装置的功能及其不同的实现方式。
根据第五方面,本发明涉及一种计算机程序,所述计算机程序包括程序代码,当在计算机上执行时,用于执行本发明第三方面所述的编码方法或本发明第四方面所述的解码方法。从而可以提高压缩比。
本发明可以在硬件和/或软件中实现。
附图说明
本发明的具体实施例将结合以下附图进行描述:
图1示出了一种基于KLT的音频编码系统的示意图,其中,所述系统包括一实施例提供的用于对音频信号进行编码的装置和一实施例提供的用于对编码的音频信号进行解码的装置;
图2示出了一实施例提供的用于对音频信号进行编码的装置中实现的元数据编码方案的示意图;
图3示出了一实施例提供的用于对音频信号进行解码的装置中实现的元数据解码方案的示意图;
图4示出了一实施例提供的编码装置或一实施例提供的解码装置中实现的一种元数据重排方案的示意图;
图5示出了一实施例提供的编码装置或一实施例提供的解码装置中实现的另一种元数据重排方案的示意图;
图6示出了一实施例提供的用于对多声道音频信号进行编码的方法示意图;
图7示出了一实施例提供的用于对多声道音频信号进行解码的方法示意图。
在各图中,完全相同或至少在功能上等同的特征使用相同的附图标记表示。
具体实施方式
以下结合附图进行描述,所述附图是本公开的一部分,并通过图解说明的方式示出本发明的具体方面。应当理解,本发明可以应用于其他方面,可以在不超出本发明范围的情况下做出结构或逻辑上的改变。因此,以下详细的描述并不当作限定,本发明的范围由所附权利要求书界定。
例如,可以理解的是,与所描述的方法有关的内容对于与用于执行方法对应的设备或系统也同样适用,反之亦然。例如,如果描述了一个具体的方法步骤,对应的设备可以包括用于执行所描述方法步骤的单元,即使此类单元未在图中详细阐述或说明。
此外,在以下详细描述及权利要求中,描述了包括功能块或处理单元的实施例,这些功能块或处理单元彼此连接或交换信号。应当理解,本发明还涵盖包括附加功能块或处理单元的实施例,所述附加功能块或处理单元设置在下文述实施例的功能块或处理单元之间。
最后,应理解,除非另有具体说明,否则本文描述的各种示例性方面的特征可互相组合。
图1示出了一种音频编解码系统100的示意图,其中,所述系统包括一实施例提供的用于对多声道音频信号进行编码的装置110和一实施例提供的用于对编码的多声道音频信号进行解码的装置120。编码装置110和解码装置120实现基于KLT的音频编码方法。关于本方法的详细的进一步描述,参考Yang等人于2003年7月发表在IEEE音频与语言处理汇刊(IEEE Trans.on Speech and Audio Proc.)第四期11卷的《采用KL变换的高保真多声道音频编码》(High-Fidelity Multichannel Audio Coding with Karhunen-LoèveTransform),其全部内容通过引用结合在本申请中。
编码装置110包括基于KLT的预处理器111,用于将Q个输入音频通道变换为P个本征通道,并以多个元数据元素的形式提供元数据。元数据支持基于多个本征通道重构多个输入音频通道。在一个实施例中,基于KLT的预处理器111用于以元数据元素的一维阵列的形式提供元数据。在一个实施例中,所述元数据包括与所述Q个输入音频通道关联的协方差矩阵的非冗余元素和/或所述协方差矩阵的特征向量的非冗余元素。
编码装置110还包括元数据重排单元114,用于基于重排方案将所述多个元数据元素重新排列到一个或多个元数据块。所述一个或多个元数据块中的每一个元数据块为多维阵列。下面将对可以在所述元数据重排单元144中实现的重排方案的不同实施例进行详细描述。
此外,编码装置110包括元数据编码器115,用于对所述一个或多个元数据块中的每一个元数据块进行编码。
在图1所示的实施例中,编码装置110还包括本征通道编码器,用于对所述基于KLT的预处理器111提供的P个本征通道进行编码。
解码装置120包括元数据解码器125,用于对经编码的元数据进行解码,其中,所述经编码的元数据包括排列在一个或多个元数据块中的元数据元素,所述一个或多个元数据块中的每一个元数据块为多维阵列。解码装置120还包括:元数据重排单元124,用于基于重排方案对所述多个解码的元数据元素进行重新排列;基于KLT的后处理器121,用于提供基于所述多个重新排列的解码元数据元素的Q个输出音频通道。在图1所示的实施例中,解码装置110还包括本征通道解码器123,用于解码由编码装置110的本征通道编码器113提供的P个本征通道。
图2示出了一实施例提供的编码装置110中实现的元数据编码方案的示意图。在步骤201中,基于重排方案将元数据重新排列到一个或多个多维元数据块。如上所述,该步骤201由元数据重排单元114执行。
可以在步骤203中对重新排列的元数据元素进行归一化。通过归一化提高了压缩比。然后,在步骤205中对元数据元素的所述一个或多个多维块进行离散块变换。为此,在一个实施例中,编码装置110,特别是元数据编码器115,可以包括块变换单元(图1中未示出),用于针对所述一个或多个元数据块中的每一个元数据块,对相应的元数据块进行离散块变换,从而生成所述相应元数据块的多个变换系数。在一个实施例中,离散块变换是离散余弦变换(discrete cosine transform,DCT)、离散正弦变换(discrete sine transform,DST)或离散傅立叶变换(discrete Fourier transform,DFT)。
在步骤207中,基于各自的大小对所述变换系数进行重新排序。在一个实施例中,元数据编码器115用于针对所述一个或多个元数据块中的每一个元数据块执行该步骤,即对所述相应的元数据块的多个变换系数进行重新排列。
最后,在步骤209中,元数据编码器115对重新排列的变换系数进行编码。
图3示出了一实施例提供的解码装置120中实现的相应元数据解码方案的示意图。由于图3中所示的步骤301至309基本上就是图2中所示的步骤201至209的逆操作,因此可以参考图2中所示的步骤201至209的上述描述。
图4和5示出了一实施例提供的编码装置110的元数据重排单元114或者一实施例提供的解码装置120的元数据重排单元124中实现的元数据重排方案的实施例的相应示意图。
图4和图5中所示的元数据重排方案基于一组相关度值,其中,每个相关度值为所述多个元数据元素中的至少两个元数据元素之间的相关度的度量。在一个实施例中,用于在编码装置110的元数据重排单元114中实现的重排方案的该组相关度值是从一组训练输入音频信号得到的。为此,编码装置110可以包括相应的机器学习单元。此外,可以在部署阶段期间更新基于该组训练输入音频信号确定的相关度值,例如,使用部署阶段的输入音频信号作为附加的训练输入音频信号。
在一个实施例中,重排方案用于将高度相关的元数据元素放在彼此接近的位置。
在一个实施例中,所述重排方案用于至少近似地使代价函数最小化,其中,所述代价函数为一组候选重排方案中的每一个候选重排方案赋予各自的代价值。
在一个实施例中,所述代价函数是相关距离乘积的幂和。例如,代价函数可以定义为:
∑i|cidi|2,
其中,索引i指第i个元数据元素子集并且适用于所有子集,每个子集具有相同数量的元数据元素(例如,2个、3个或4个),ci表示第i个元数据元素子集的相关度值,并且di表示根据重排方案的第i个子集的元数据元素之间的距离的度量。通常,所述代价函数也可以定义为:
∑i|cidi|n,
其中,n为整数或实数,如n=1,2,…或n=0.5,…。
在本发明中,元数据元素子集(例如,一对元数据元素)的相关度值理解为所述子集的元数据元素之间的相关度的值。例如,所述子集的元数据元素之间的相关度可以为所述子集的元数据元素的两两相关度的总和。
图4中所示的步骤401、403和405涉及从一组训练输入音频信号中获取该组相关度值。
在图4的步骤407中,分配具有接收元数据元素的ND个时隙的新元数据块,其中,D表示所述元数据块的维度,例如2、3或4,并且N表示所述元数据块一个维度上的时隙的数量。
在图4的步骤409中,选择索引i0,以挑选所述新元数据块中至少部分待重排的多个元数据元素中的第一元数据元素。在一个实施例中,索引i0可以预先定义或随机选取。在另一实施例中,通过选择与最大相关度值关联的索引来选择索引i0。
在图4的步骤411中,将与所选索引i0关联的元数据元素存储在元数据块中,并从仍需重新排列的元数据元素集合S中移除所选索引i0。
如果集合S不为空且元数据块尚未完全填充元数据元素(步骤413和415),则在图4的步骤417中,确定与所述索引为i0的元数据元素的相关度值最高的索引为j0的元数据元素。这样确定的索引j0成为新的索引i0,并将相应的元数据元素存储在所述元数据块的下一个空闲时隙中。重复该循环,直到所述仍需重新排列的元数据元素的S为空(步骤413)或者所述元数据块已经完全填充元数据元素(步骤415)。在后一种情况下,分配与第一元数据块大小相同的另一元数据块(步骤407),并基于所述另一元数据块执行上述步骤。
一旦所有元数据元素都完成重新排列,就可以将所述元数据块的任意空闲时隙填充零(步骤421)。
图5中所示的步骤501、503和505涉及从一组训练输入音频信号中获取该组相关度值。然而,在这种情况下,在图5的步骤505中为M个元数据元素的每一种可能组合确定相关度度量,其中,M表示一个元数据块可以接收的元数据元素的数量。在一个实施例中,M个元数据元素的每一种可能组合的相关度度量基于M个元数据元素的两两相关度的总和。
在图5的步骤507中,分配具有接收元数据元素的M=ND个时隙的新元数据块,其中,D表示所述元数据块的维度,例如2、3或4,并且N表示所述元数据块一个维度上的时隙的数量。
在图5的步骤509中,选择元数据元素的索引,所述元数据元素为具有最大相关度度量的M个元数据元素的组合的一部分。
在图5的步骤511中,将相应的元数据元素存储在所述新元数据块中,并从仍需重新排列的元数据元素的集合S中移除这些元数据元素的索引。
如图5中所示的实施例中,由于在步骤509中选择了M个元数据元素,在步骤511中将这些元数据元素存储在所述元数据块中将完全填充所述元数据块。因此,只要仍需重新排列的元数据元素集合S是非空的,就在步骤507中分配具有接收元数据元素的M=ND个时隙的新元数据块,并在图5的步骤511中填充元数据元素的组合。
一旦所有元数据元素都完成重新排列,就可以将所述元数据块的任意空闲时隙填充零(步骤515)。
图6示出了一种用于对输入音频信号进行编码的方法600的示意图,其中,所述输入音频信号包括多个输入音频通道。所述方法600包括:601将所述多个输入音频通道转换为多个本征通道,并以多个元数据元素的形式提供元数据,其中,所述元数据支持基于所述多个本征通道重构所述多个输入音频通道;603基于重排方案将所述多个元数据元素重新排列到一个或多个元数据块,其中,所述一个或多个元数据块中的每一个元数据块为多维阵列;605对所述一个或多个元数据块中的每一个元数据块进行编码。
图7示出了一种用于对输入音频信号进行解码的方法700的示意图,其中,输入音频信号包括经编码的元数据。所述方法700包括:701对所述经编码的元数据进行解码,其中,所述经编码的元数据包括排列在一个或多个元数据块中的元数据元素,所述一个或多个元数据块中的每一个元数据块为多维阵列;703基于重排方案重新排列所述多个元数据元素;705基于所述多个重新排列的元数据元素,提供包括多个输出音频通道的输出音频信号。
本发明实施例支持通过将该过程转移到更高维度域(例如,2D/3D)来改进基于KLT的音频编码压缩率。通过利用该域,本发明实施例具有以下优点。本发明实施例在给定任意数量的多声道输入音频信号的情况下实现了可缩放性,因为压缩是在固定大小的小数据块中进行的。本发明实施例支持直接实现,并且可以复用现有的2D/3D信号处理工具。本发明实施例支持高精度数字数据的编码。
尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开,但此类特征或方面可以和其它实施方式或实施例中的一个或多个特征或方面相结合,只要是任何给定或特定的应用所需要或对其有利的。此外,在一定程度上,术语“包括”、“有”、“具有”或这些词的其他变体在详细的说明书或权利要求书中使用,这类术语和所述术语“包含”类似,都是表示包括的含义。同样,术语“示例性地”、“举例来说”以及“例如”仅表示示例,而不是最好或最优的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于表明两个元件彼此协作或交互,而不管它们是直接物理接触还是电接触,或者它们彼此不直接接触。
尽管本文中已说明和描述特定方面,但本领域的技术人员应了解,各种替代和/或等效实施方式可在由不脱离本发明的范围的情况下所示和描述的特定方面替代。该申请旨在覆盖本文论述的具体方面的任何修改或变更。
尽管以下权利要求书中的元件以具有相应标记的特定顺序列举,但除非权利要求书中暗示用于实现这些元件中的一些或全部的特定序列,否则这些元件不必限于以所述特定顺序来实现。
通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,所属领域的技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明,但所属领域的技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实践本发明。
Claims (16)
1.一种用于对输入音频信号进行编码的装置(110),其特征在于,所述输入音频信号包括多个输入音频通道,所述装置(110)包括:
基于KLT的预处理器(111),用于将所述多个输入音频通道转换为多个本征通道,并以多个元数据元素的形式提供元数据,其中,所述元数据支持基于所述多个本征通道重构所述多个输入音频通道;
元数据重排单元(114),用于基于重排方案将所述多个元数据元素重新排列到一个或多个元数据块,其中,所述一个或多个元数据块中的每一个元数据块为一个多维阵列;
元数据编码器(115),用于对所述一个或多个元数据块中的每一个元数据块进行编码。
2.根据权利要求1所述的装置(110),其特征在于,所述重排方案是基于一组相关度值,每个所述相关度值为所述多个元数据元素中的至少两个元数据元素之间的相关度的值。
3.根据权利要求2所述的装置(110),其特征在于,所述装置还包括学习单元(116),用于根据一组训练输入音频信号来确定该组相关度值。
4.根据权利要求2或3所述的装置(110),其特征在于,所述重排方案用于将高度相关的元数据元素放在彼此接近的位置。
5.根据权利要求2至4中任一项所述的装置(110),其特征在于,所述重排方案用于至少近似地使代价函数最小化,其中,所述代价函数为一组候选重排方案中的每一个候选重排方案赋予各自的代价值。
6.根据权利要求5所述的装置(110),其特征在于,所述代价函数是相关距离乘积的幂的和。
7.根据权利要求5或6所述的装置(110),其特征在于,所述重排方案包括以下操作序列的一次或多次迭代:
定义剩余元数据元素集合,所述剩余元数据元素集合包括等待重排的多个元数据元素中的一些元数据元素;
从剩余元数据元素集合中选择相关度值最高的包括M个元数据元素的子集,其中,M大于或等于2;
将所选择的包括M个元数据元素的子集重新排列到所述一个或多个元数据块中的一个元数据块。
8.根据权利要求7所述的装置(110),其特征在于,每个所述元数据块包括M个元素。
9.根据权利要求5或6所述的装置(110),其特征在于,所述重排方案包括:
从所述多个元数据元素中选择第一元数据元素;
将所述第一元数据元素重新排列到所述一个或多个元数据块中的第一元数据块;
以及以下操作序列的一次或多次迭代:
定义剩余元数据元素集合,所述剩余元数据元素集合包括等待重排的多个元数据元素中的一些元数据元素;
在所述第一元数据块中选择与占用位置相邻的空闲位置;
从所述剩余元数据元素集合中选择与所述占用位置处的元数据元素相关度最高的元数据元素;
将所选元数据元素重新排列到所选空闲位置。
10.根据前述权利要求中的任一项所述的装置(110),其特征在于,所述元数据编码器(115)包括块变换单元,用于针对所述一个或多个元数据块中的每一个元数据块,将离散块变换应用于相应的元数据块,从而生成相应元数据块的多个变换系数并对多个变换系数进行编码。
11.根据权利要求10所述的装置(110),其特征在于,所述元数据编码器(115)用于,针对所述一个或多个元数据块中的每一个元数据块,对所述相应的元数据块的多个变换系数进行重新排列,特别是基于所述多个变换系数各自的大小进行重新排列,从而提供一个变换系数序列;并对所述编码变换系数序列进行有效编码。
12.根据权利要求10或11所述的装置(110),其特征在于,所述离散块变换为离散余弦变换(DCT)、离散正弦变换(DST)或离散傅立叶变换(DFT)。
13.一种用于对输入音频信号进行解码的装置(120),其特征在于,所述输入音频信号包括经编码的元数据,所述装置(120)包括:
元数据解码器(125),用于对经编码的元数据进行解码,其中,所述经编码的元数据包括排列在一个或多个元数据块中的元数据元素,所述一个或多个元数据块中的每一个元数据块为多维阵列;
元数据重排单元(124),用于基于重排方案重新排列所述多个元数据元素;
基于KLT的后处理器(121),用于基于所述多个重新排列的元数据元素提供包括多个输出音频通道的输出音频信号。
14.一种编码输入音频信号的方法(600),其特征在于,所述输入音频信号包括多个输入音频通道,所述方法(600)包括:
将所述多个输入音频通道转换(601)为多个本征通道,并以多个元数据元素的形式提供元数据,其中,所述元数据支持基于所述多个本征通道重构所述多个输入音频通道;
基于重排方案将所述多个元数据元素重新排列(603)到一个或多个元数据块,其中,所述一个或多个元数据块中的每一个元数据块为一个多维阵列;
对所述一个或多个元数据块中的每一个元数据块进行编码(605)。
15.一种用于对输入音频信号进行解码的方法(700),其特征在于,所述输入音频信号包括经编码的元数据,所述方法(700)包括:
对所述经编码的元数据进行解码(701),其中,所述经编码的元数据包括排列在一个或多个元数据块中的元数据元素,所述一个或多个元数据块中的每一个元数据块为多维阵列;
基于重排方案重新排列(703)所述多个元数据元素;
基于所述多个重新排列的元数据元素提供(705)包括多个输出音频通道的输出音频信号。
16.一种计算机程序,其特征在于,所述计算机程序包括程序代码,当在计算机上执行时,用于执行权利要求14所述的方法(600)或权利要求15所述的方法(700)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/065363 WO2018001489A1 (en) | 2016-06-30 | 2016-06-30 | Apparatuses and methods for encoding and decoding a multichannel audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109478406A true CN109478406A (zh) | 2019-03-15 |
CN109478406B CN109478406B (zh) | 2023-06-27 |
Family
ID=56345116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680087347.1A Active CN109478406B (zh) | 2016-06-30 | 2016-06-30 | 一种用于对多声道音频信号进行编解码的装置及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10861469B2 (zh) |
EP (1) | EP3469589A1 (zh) |
CN (1) | CN109478406B (zh) |
WO (1) | WO2018001489A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556799A (zh) * | 2009-05-14 | 2009-10-14 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
CN102150207A (zh) * | 2008-07-24 | 2011-08-10 | Dts(英属维尔京群岛)有限公司 | 通过二维变换压缩音频比例因子 |
US20120155653A1 (en) * | 2010-12-21 | 2012-06-21 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US20160133267A1 (en) * | 2013-07-22 | 2016-05-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US20160155448A1 (en) * | 2013-07-05 | 2016-06-02 | Dolby International Ab | Enhanced sound field coding using parametric component generation |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326775B2 (en) * | 2005-10-26 | 2012-12-04 | Cortica Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US8543228B2 (en) * | 2007-04-06 | 2013-09-24 | Nokia Corporation | Coded domain audio analysis |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
CN104282309A (zh) * | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
US9959884B2 (en) * | 2015-10-09 | 2018-05-01 | Cirrus Logic, Inc. | Adaptive filter control |
-
2016
- 2016-06-30 WO PCT/EP2016/065363 patent/WO2018001489A1/en unknown
- 2016-06-30 CN CN201680087347.1A patent/CN109478406B/zh active Active
- 2016-06-30 EP EP16734628.7A patent/EP3469589A1/en active Pending
-
2018
- 2018-12-21 US US16/230,009 patent/US10861469B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102150207A (zh) * | 2008-07-24 | 2011-08-10 | Dts(英属维尔京群岛)有限公司 | 通过二维变换压缩音频比例因子 |
CN101556799A (zh) * | 2009-05-14 | 2009-10-14 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
US20120155653A1 (en) * | 2010-12-21 | 2012-06-21 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US20160155448A1 (en) * | 2013-07-05 | 2016-06-02 | Dolby International Ab | Enhanced sound field coding using parametric component generation |
US20160133267A1 (en) * | 2013-07-22 | 2016-05-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
Non-Patent Citations (1)
Title |
---|
DAI YANG等: "HIGH-FIDELITY MULTICHANNEL AUDIO CODING WITH KARHUNEN-LOEVE TRASFORM", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
Also Published As
Publication number | Publication date |
---|---|
EP3469589A1 (en) | 2019-04-17 |
WO2018001489A1 (en) | 2018-01-04 |
US20190122677A1 (en) | 2019-04-25 |
CN109478406B (zh) | 2023-06-27 |
US10861469B2 (en) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107004420B (zh) | 高阶立体混响声(hoa)架构中于预测及非预测量化技术间切换 | |
US9685163B2 (en) | Transforming spherical harmonic coefficients | |
CN102263949B (zh) | 用于管理在存储单元和解码器之间的信息传送的视频处理系统和方法 | |
TW201603006A (zh) | 寫碼自高階立體混響聲音訊信號分解之向量 | |
CN105580072A (zh) | 用于声场的空间分量的压缩的量化步长 | |
JP2013017167A5 (zh) | ||
CN106971738A (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
CN106981292B (zh) | 一种基于张量建模的多路空间音频信号压缩和恢复方法 | |
Boussakta et al. | Fast algorithm for the 3-D DCT-II | |
CN105659320B (zh) | 音频编码器和解码器 | |
US11606557B2 (en) | Method and apparatus for performing low complexity computation in transform kernel for video compression | |
CN102158692B (zh) | 编码方法、解码方法、编码器和解码器 | |
CN101605259B (zh) | 对多媒体数据进行变换编、解码的装置及方法 | |
CN109478406A (zh) | 一种用于对多声道音频信号进行编解码的装置及方法 | |
US10979736B2 (en) | Method and apparatus for performing low-complexity computation of transform kernel for video compression | |
KR101395143B1 (ko) | 영상처리의 정수변환 방법 및 정수변환 장치 | |
CN105981100A (zh) | 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置 | |
CN103517022B (zh) | 一种图像数据压缩和解压缩方法、装置 | |
CN102843560A (zh) | 图像变换处理方法、设备和系统 | |
US20230038394A1 (en) | Audio signal encoding and decoding method, and encoder and decoder performing the methods | |
CN109526234A (zh) | 对多声道音频信号进行编码和解码的装置和方法 | |
CN114998457B (zh) | 图像压缩方法、图像解压方法及相关设备、可读存储介质 | |
Chen | A lattice vector quantization using a geometric decomposition | |
Liu et al. | Construction of parametric biorthogonal wavelet filter banks with two parameters for image coding | |
Mahfoodh et al. | Compression of image ensembles using tensor decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |