CN109416912B - 一种对多声道音频信号进行编码和解码的装置和方法 - Google Patents
一种对多声道音频信号进行编码和解码的装置和方法 Download PDFInfo
- Publication number
- CN109416912B CN109416912B CN201680087245.XA CN201680087245A CN109416912B CN 109416912 B CN109416912 B CN 109416912B CN 201680087245 A CN201680087245 A CN 201680087245A CN 109416912 B CN109416912 B CN 109416912B
- Authority
- CN
- China
- Prior art keywords
- input audio
- eigenvectors
- metadata
- channels
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims description 37
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于对输入音频信号进行编码的装置(110),其中所述输入音频信号包括多个输入音频通道。所述装置(110)包括基于KLT的预处理器(111),用于将多个输入音频通道转换为多个本征通道并提供与所述多个本征通道相关的元数据,其中每个本征通道与本征值和本征向量相关,所述元数据支持基于多个本征通道重构所述多个输入音频通道;选择器,用于基于本征值的几何平均值选择与多个选定的本征通道对应的多个本征向量的子集;本征通道编码器(113),用于对所述多个选定的本征通道进行编码;元数据编码器(115),用于对所述元数据进行编码。
Description
技术领域
本发明涉及音频信号处理领域。更具体地,本发明涉及基于KL变换(Karhunen-Loeve Transform,简称KLT)对多声道音频信号进行编码和解码的装置和方法。
背景技术
在多声道空间音频编码领域,以下的两个挑战将变得日益突出:(1)处理具有任意数量的记录的音频声道的输入音频信号;(2)处理多个任意放置的麦克风,特别是在角度方面。这种发展的一个原因是目前提供的音频记录设备越来越趋于先进,例如Eigenmike设备。此外,当前另一个趋势是同时使用各种传统的记录设备来产生多声道音频信号。因此,需要一种能够满足上述挑战的通用音频编码方案。
目前,由于在沉浸式声音领域中可能存在很多新的应用程序,例如电影院,虚拟现实,远程呈现等,用于流媒体和存储目的的多声道音频编码活动越来越受欢迎。当前典型的多声道音频编解码器是杜比全景声,其使用基于多通道对象的编码方式,即,MPEG-H 3D音频,其结合了通道对象和基于Ambisonics的编码方式。然而,当前这些现有的多声道编解码器仍限于某些具体数量的音频通道,例如按照工业标准所需的5.1、7.1或22.2通道,例如ITU-R BS.2159-4。
因此,需要一种改进的通用音频编码方案,特别是支持处理具有任意数量的音频通道的音频信号以及基于音频记录设备的任意结构获取的多声道音频信号。
发明内容
本发明的目的在于提供改进的装置和方法,以对多声道音频信号进行编码和解码。
通过独立权利要求所描述的标的物,可以实现上述以及其他目的。进一步地,从属权利要求、说明书和附图揭示了实现形式。
根据第一方面,本发明涉及一种用于对输入音频信号进行编码的装置,所述输入音频信号是多声道音频信号,即,包括多个输入音频通道。该装置包括基于KL变换(Karhunen-Loeve transformation,简称KLT)的预处理器,即基于KLT的预处理器。基于KLT的预处理器用于将多个输入音频通道转换为多个本征通道(也称为转换系数),并提供与所述多个本征通道相关的元数据,其中每个本征通道与本征值和本征向量相关,所述元数据支持基于多个本征通道重构所述多个输入音频通道。该装置还包括:选择器,用于基于本征值的几何平均值选择与多个选定的本征通道对应的多个本征向量的子集;本征通道编码器,用于对多个选定的本征通道进行编码。此外,该装置可以包括用于对元数据进行编码的元数据编码器。所述选择器可以作为基于KLT的预处理器的一部分实现。
根据第一方面,在所述装置的第一种实现形式,选定的本征通道的数量P小于或等于输入音频通道的数量Q。
根据第一方面或第一方面的第一种实现形式,在所述装置的第二种实现形式中,所述元数据包括与所述多个输入音频通道相关的协方差矩阵和与所述多个输入音频通道相关的协方差矩阵的本征向量中的一个或多个。
根据第一方面或第一方面的第一种或第二种实现形式,在所述装置的第三种实现形式中,所述选择器用于:通过选择具有本征值的本征向量来选择所述多个本征向量的子集,其中,所述本征值大于比第一阈值大的本征值的几何平均值。在一种实现形式中,所述第一阈值为零或近似为零。
根据第一方面的第三种实现形式,在所述装置的第四种实现形式中,所述选择器用于:如果比第一阈值大的本征值的几何平均值和比第一阈值大的本征值的算术平均值之间的绝对差值小于第二阈值,则通过仅选择具有最大本征值的本征向量来选择所述多个本征向量的子集。
根据第一方面的第四种实现形式,在所述装置的第五种实现形式中,所述输入音频信号包括多个频带,所述选择器用于支持所述第二阈值对于不同的频带取不同的值。即,每个频带可以有其自己的阈值。在一种实现形式中,每个频带可以划分为多个频点,其中所述第二阈值对于不同的频段可以取不同的值。
根据所述第一方面或所述第一方面的第一至第五种实现形式的任一种,在所述装置的第六种实现形式中,所述选择器还用于基于大于第一阈值的最小本征值来归一化大于所述第一阈值的本征值。
根据所述第一方面或所述第一方面的第一至第六种实现形式的任一种,在所述装置的第七种实现形式中,所述装置还包括控制单元,用于根据预定义码率阈值在第一编码模式和第二编码模式之间进行选择,其中,在所述第一编码模式中,通过对所述多个选定的本征通道和元数据进行编码来对所述输入音频信号进行编码,其中,在所述第二编码模式中,通过对所述多个输入音频通道进行编码来对所述输入音频信号进行编码。
根据所述第一方面的第七种实现形式,在所述装置的第八种实现形式中,所述控制单元用于:估计与所述多个选定的本征通道和元数据的编码相关的码率;如果估计的码率小于所述预定义码率阈值,则选择所述第一编码模式。
根据第二方面,本发明涉及一种用于对输入音频信号进行解码的装置,所述输入音频信号包括多个编码的本征通道和编码的元数据。该装置包括:本征通道解码器,用于对多个编码的本征通道进行解码,其中每个本征通道与本征值和本征向量相关;元数据解码器,用于对编码的元数据进行解码;选择器,用于根据所述本征值的几何平均值选择多个本征向量的子集,以及基于KLT的后处理器,用于根据选定的本征向量将解码的本征通道转换为多个输出音频通道。
根据所述第二方面,在所述装置的第一种实现形式,所述选择器用于:通过选择具有本征值的本征向量来选择所述多个本征向量的子集,其中,所述本征值大于比第一阈值大的本征值的几何平均值。
根据本发明第二方面的解码装置的进一步实现形式直接参照根据本发明第一方面的编码装置的相应实现形式。
根据第三方面,本发明涉及一种用于对输入音频信号进行编码的方法,所述输入音频信号包括多个输入音频通道。所述方法包括以下步骤:将所述多个输入音频通道转换为多个本征通道并提供与所述多个本征通道相关的元数据,其中每个本征通道与本征值和本征向量相关,所述元数据支持基于多个本征通道重构所述多个输入音频通道;基于本征值的几何平均值选择多个本征通道的子集,对所述多个选定的本征通道进行编码,并对所述元数据进行编码。
根据本发明第三方面所述的编码方法可以由本发明第一方面所述的编码装置执行。本发明第三方面提供的编码方法进一步的特征直接源于本发明第一方面提供的编码装置的功能及其不同的实现形式。
根据第四方面,本发明涉及一种用于对输入音频信号进行解码的方法,所述输入音频信号包括多个编码的本征通道和编码的元数据。该方法包括以下步骤:对所述多个编码的本征通道进行解码,其中每个本征通道与本征值和本征向量相关,对编码的元数据进行解码,根据所述本征值的几何平均值选择多个本征向量的子集,以及根据选定的本征向量将解码的本征通道转换为多个输出音频通道。
本发明第四方面提供的所述解码方法可以由本发明第二方面所述的解码装置执行。本发明第四方面提供的解码方法进一步的特征直接源于本发明第二方面提供的解码装置的功能及其不同的实现形式。
根据第五方面,本发明涉及一种计算机程序,包括:在计算机上执行时,用于执行根据本发明第三方面的编码方法或根据本发明第四方面的解码方法的程序代码。
本发明可以通过硬件和/或软件实现。
附图说明
本发明的具体实施方式将结合以下附图进行描述,其中:
图1示出了根据一实施例提供的包括用于对音频信号进行编码的装置和根据一实施例提供的用于对编码的音频信号进行解码的装置的音频编码系统的示意图;
图2a示出了根据一实施例提供的用于对音频信号进行编码的装置的基于KLT的预处理器的示意图;
图2b示出了根据一实施例提供的用于对音频信号进行解码的装置的基于KLT的后处理器的示意图;
图3示出了根据一实施例提供的选择多个本征向量的子集的过程的流程示意图;
图4a示出了根据一实施例提供的用于对音频信号进行编码的装置的基于KLT的预处理器的示意图;
图4b示出了根据一实施例提供的用于对音频信号进行解码的装置的基于KLT的后处理器的示意图;
图5示出了根据一实施例提供的包括用于对音频信号进行编码的装置和根据一实施例提供的用于对编码的音频信号进行解码的装置的音频编码系统的示意图;
图6示出了根据一实施例提供的用于对多声道音频信号进行编码的方法示意图;
图7示出了根据一实施例提供的用于对多声道音频信号进行解码的方法示意图。
在各种示图中,相同的附图标记将用于相同的或至少功能上等同的特征。
具体实施方式
以下结合附图进行描述,所述附图是描述的一部分,并通过图解说明的方式示出本发明的具体方面。应当理解,本发明适用于其他方面,并且可以在不超出本发明范围的情况下进行结构或逻辑上的改变。因此,以下详细的描述并不构成限定,本发明的范围由所附权利要求书限定。
例如,可以理解的是,与所描述的方法有关的内容对于与用于执行方法对应的设备或系统也同样适用,反之亦然。例如,如果描述了一个具体的方法步骤,对应的设备可以包括用于执行所描述方法步骤的单元,即使此类单元未在图中详细阐述或说明。
此外,在以下详细描述及权利要求中,描述了包括功能块或处理单元的实施例,这些功能块或处理单元彼此连接或交换信号。应当理解,本发明还涵盖包括附加功能块或处理单元的实施例,所述附加功能块或处理单元设置在下述实施例的功能块或处理单元之间。
最后,应理解,除非另有具体说明,否则本文描述的各种示例性方面的特征可互相组合。
图1示出了根据一实施例提供的包括用于对多声道音频信号进行编码的装置110和根据一实施例提供的用于对编码的多声道音频信号进行解码的装置120的音频编码系统100的示意图。如下进一步详述,编码装置110和解码装置120可实现基于KLT的音频编码方法。关于本方法的详细的进一步描述,参考杨教授等人于2003年7月在“IEEE Trans.onSpeech and Audio Proc”第四期11卷发表的“使用KL变换的高保真多声道音频编码”,其全部内容通过引用结合在本申请中。
用于对由Q个输入音频通道组成的输入音频信号进行编码的装置110包括基于KLT的预处理器111,用于将Q个输入音频通道转换为P个本征通道并提供与P个本征通道相关的元数据,所述元数据支持基于P个本征通道重构所述Q个输入音频通道。每个本征通道与本征值和本征向量相关。在一实施例中,所述元数据可以包括与Q个输入音频通道相关的协方差矩阵的非冗余元素和/或与Q个输入音频通道相关的协方差矩阵的本征向量。
装置110还包括选择器114,其实施例将在下文中结合图2a和4a进行更详细的描述。选择器114用于基于本征值的几何平均值来选择Q个本征通道的子集,从而通过选择P个本征向量来获得P个选定的本征通道,其中,P小于或等于Q。
此外,装置110包括:本征通道编码器113,用于基于本征值的几何平均值对由选择器114选择的P个本征通道进行编码,以及元数据编码器115,用于对由基于KLT的预处理器111提供的元数据进行编码。
从图1可以看出,用于对编码的多声道音频信号进行解码的装置120包括与上述编码装置110的组件相对应的组件。更具体地,解码装置120包括:本征通道解码器123,用于对由本征通道编码器113编码的P个选定的本征通道进行解码;元数据解码器125,用于对由元数据编码器115编码的元数据进行解码;以及基于KLT的后处理器121,其将在下文中结合图2b和图4b进行更详细的描述。
图2a示出了根据一实施例图1示出的编码装置110的基于KLT的预处理器111的示意图。基于KLT的预处理器111包括用于对协方差和子空间进行估计的单元112,所述单元112包括协方差估计单元112a,用于确定与Q个输入音频通道相关的协方差矩阵;以及子空间估计单元112b,用于确定多个本征向量。
所述用于对协方差和子空间进行估计的单元112将基于Q个输入音频通道确定的Q个本征向量提供给选择器114。如上所述,所述选择器114用于基于本征值的几何平均数从Q个本征向量中选择P个选定的本征向量。基于本征值的几何平均值选择P个本征向量的过程,在一实施例中由选择器114执行,并在下文中结合图3对该过程进行描述。此外,图2a所示的基于KLT的预处理器111包括基于信号的下混单元116,用于提供P个本征通道。在一实施例中,这些P个本征通道对应于选择器114选择的P个本征向量。
图2b示出了图1所示的解码装置120的基于KLT的后处理器121的示意图。同样在此情况下,图2b所示的基于KLT的后处理器121包括与上述图2a所示的基于KLT的预处理器111的组件相对应的组件。更具体地,基于KLT的后处理器121包括:子空间估计单元122b,用于基于解码的元数据来估计Q个本征向量;选择器124,用于基于本征值的几何平均值从Q个本征向量中选择P个本征向量;单元126,用于确定P个选定的本征向量的广义逆阵,以及基于信号的上混单元128,用于基于P个本征通道和由所述单元126提供的反向本征向量来提供解码的Q个信道。
图3示出了从原来的Q个本征向量中选择P个本征向量的子集的过程的实施例的示意流程图,该过程可以在编码装置110的选择器114和/或解码装置120的选择器124中实现。在该过程的开始301,初始化索引和计数器,并假设Q个本征值按降序排列。
在步骤303中,选择器114、124确定最小“非零”本征值,并将该本征值的索引m设置为最大索引(m<=Q)并作为本征值的最大维度。在一实施例中,选择器114、124可用于通过确定大于等于第一正非零阈值T1的最小本征值来确定最小“非零”本征值。
在步骤305中,选择器114、124丢弃具有大于m的索引并且小于第一阈值T1的本征值,即,T1为零或接近于零。
在步骤309a和步骤309b中,选择器114、124可以分别确定m个归一化本征值的算术平均值μλ和几何平均值ηλ。
在步骤311中,选择器114、124检查m个归一化本征值的算术平均值μλ和几何平均值ηλ之间的绝对差值是否小于第二阈值T。如果是,则选择器114、124将选择一个本征值(和相应的本征向量),即最大本征值(参考步骤313、321和323)。这确保了在本征值非常相似的情况下,选择器114、124至少选择一个本征值(以及相应的本征向量和本征通道)。
如果选择器114、124在步骤311中确定m个归一化本征值的算术平均值μλ与几何平均值ηλ之间的绝对差值不小于第二阈值T(这意味着本征值显著不同),选择器114、124进入由步骤315、317和319组成的循环。该循环从最大的归一化本征值开始,选择器114、124在步骤315检查最大归一化本征值是否大于几何平均值ηλ。如果是,只要各自的归一化本征值大于所述几何平均值ηλ,选择器114、124将针对随后的归一化本征值重复该步骤。这样,选择器114、124基本上通过选择具有归一化本征值的本征向量来选择P个本征向量,所述归一化特征值大于m个归一化本征值的几何平均值ηλ,即大于第一阈值T1的本征值。
在一实施例中,图3所示的选择过程可以在选择器114、124中针对不同的频带或频点实现。在这样的实施例中,第一阈值T1和第二阈值T对于不同的频带或频点可以是不同的值。例如,考虑到一些感知上重要的标准(例如,较低的频点/频带可能具有较高的值),对于每个频点/频带,所述值T1和T可以不同。在一实施例中,选择器114、124可用于动态地调整值T1和T,例如取决于本征值的动态范围。
图4a和4b分别示出了编码装置110的基于KLT的预处理器111和解码装置120的基于KLT的后处理器121的进一步实施例的示意图。图4a、4b所示的实施例与图2a、2b所示的实施例之间的主要区别在于,在图4a、4b所示的实施例中,以选择器114选择的P个本征向量的形式提供元数据,而在图2a、2b所示的实施例中,由协方差估计单元112a以协方差矩阵(或其冗余元素)的形式提供元数据。
图5示出了音频编码系统100的另一实施例的示意图,该系统包括用于对由Q个输入音频通道组成的输入音频信号进行编码的装置110的另一个实施例。与图1所示的编码装置110相比,图5所示的编码装置110还包括控制单元119,用于选择用于对Q个输入音频通道进行编码的第一编码模式或第二编码模式。在第一编码模式中,由编码装置110(其基本上对应于图1所示的编码装置110)的下分支B对所述Q个输入音频通道进行编码,即通过使用本征通道编码器113对P个选定的本征通道进行编码,通过元数据编码器115对元数据进行编码。在第二编码模式中,由附加基线编码器113'对所述Q个输入音频通道进行简单编码,该附加基线编码器113'可以基于已知的音频编解码器并提供输出的Q个编码的输入音频通道。
在一实施例中,所述控制单元119用于基于预定义码率阈值在第一编码模式和第二编码模式之间进行选择。在一实施例中,所述控制单元119用于估计与P个选定的本征通道和元数据的编码相关的码率,并且如果估计的码率小于预定义码率阈值,则选择第一编码模式。
更具体地,在图5所示的实施例中,所述控制单元119用于判断开关“s”是否将到达上分支“A”或下分支“B”。为此,所述控制单元119基本上可以使用其已具有的来自音频编码系统100系统配置的信息,例如输入音频通道的数量、最大传输速率,即预定义码率阈值,基线编码器113'所需的码率,以及P的实际数量加上元数据码率估量,进行判断。
在一实施例中,本领域的编码器的当前水平,其通常支持单声道或立体声声道输入,号称能提供极高的音频质量,可用于本征通道编码器113和/或基线编码器113'。此外,当前可用的专有多声道音频编解码器也可在本征通道编码器113和/或基线编码器113'中实现。
为了更详细地描述图5所示的编码设备110的控制单元119,提供如下示例。为此目的,假设音频编码系统100具有以下配置:Q=32个信道,最大传输速率(即预定义码率阈值)为1.2Mbps,单声道基线编解码器能够支持一组码率8、16、24、32、48kbps,其中16kbps提供可接受的基线质量(服务质量/QoS保障)。
在第一种场景中,所述控制单元119用于从第一编码方案和第二编码方案中选择编码方案,所述编码方案提供最佳质量,同时保持总码率低于最大传输速率。为此,所述控制单元119首先计算每信道的基线最大码率:1.2Mbps/32信道=每信道37.5kbps。由于不支持此码率,因此采用了每信道码率32kbps,从而得到32kbps*32信道=1.024Mbps基线最大码率。根据基于KLT的预处理器111的输出,其输出数量P和元数据码率估计,所述控制单元119计算对应的每信道的KLT专用音频码率:(1.2Mbps–元数据码率)/P=X Mbps每信道。因此,在一实施例中,如果X大于等于计算的每信道的基线最大码率,即32kbps每信道,则所述控制单元119将选择基于KLT的编码(即节点B)。
在第二种场景中,所述控制单元119用于从第一编码方案和第二编码方案中选择编码方案,所述编码方案鉴于可接受基线质量设定的质量提供了可实现的最低可能码率。首先,由于最低可接受基线质量码率为16kbps,所述控制单元119确定以下码率:16kbps*32信道=512kbps为基线最大码率。根据基于KLT的预处理器111的输出,其输出数量P和元数据比特率估计,所述控制单元119计算相应的基于KLT的整体码率:16kbps*P+元数据码率=X Mbps每信道。因此,在一实施例中,如果X小于等于计算的基线最大码率,即512kbps,则所述控制单元119将选择基于KLT的编码(即节点B)。
图6示出了根据一实施例提供的用于对多声道音频信号进行编码的方法600的示意图。所述方法600包括:步骤601,从多个输入音频通道估计与多个本征向量相关的元数据,其中每个本征通道与本征值和本征向量相关,所述元数据支持基于多个本征通道重构所述多个输入音频通道。步骤603,基于本征值的几何平均值选择所述多个本征向量的子集;步骤604,基于所述输入音频通道和选定的本征向量计算本征通道;步骤605,对多个选定的本征通道进行编码;步骤607,对元数据进行编码。
图7示出了根据一实施例提供的用于对多声道音频信号进行解码的方法700的示意图。所述方法700包括:步骤701,对多个编码的本征通道进行解码,其中每个本征通道与本征值和本征向量相关;步骤703,对编码的元数据进行解码;步骤705,基于本征值的几何平均值选择多个本征向量的子集;步骤707,基于选定的本征向量将选定的本征通道转换为多个输出音频通道。
尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开,但此类特征或方面可以和其它实施方式或实施例中的一个或多个特征或方面相结合,只要对于任何给定或特定的应用是有需要或有利。此外,在一定程度上,术语“包括”、“有”、“具有”或这些词的其他变体在详细的说明书或权利要求书中使用,这类术语和所述术语“包含”类似,都是表示包括的含义。同样,术语“示例性地”,“例如”仅表示为示例,而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于表明两个元件彼此协作或交互,而不管它们是直接物理接触还是电接触,或者它们彼此不直接接触。
尽管本文中已说明和描述特定方面,但所属领域的技术人员应了解,各种替代和/或等效实施方式可由不脱离本发明的范围的情况下所示和描述的特定方面替代。该申请旨在覆盖本文论述的具体方面的任何修改或变更。
尽管以下权利要求书中的元件以具有相应标记的特定顺序列举,但除非权利要求书中暗示用于实现这些元件中的一些或全部的特定序列,否则这些元件不必限于以所述特定顺序来实现。
通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,所属领域的技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明,但所属领域的技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实践本发明。
Claims (14)
1.一种用于对输入音频信号进行编码的装置(110),其特征在于,所述输入音频信号包括多个输入音频通道,所述装置(110)包括:
基于KLT的预处理器(111),用于将所述多个输入音频通道转换为多个本征通道并提供与所述多个本征通道相关的元数据,其中每个本征通道与本征值和本征向量相关,所述元数据支持基于多个本征通道重构所述多个输入音频通道;
选择器(114),用于基于本征值的几何平均值来选择与多个选定的本征通道对应的多个本征向量的子集;
本征通道编码器(113),用于对多个选定的本征通道进行编码;
元数据编码器(115),用于对所述元数据进行编码。
2.如权利要求1所述的装置(110),其特征在于,所述选定的本征通道的数量P小于或等于输入音频通道的数量Q。
3.根据权利要求1或2所述的装置(110),其特征在于,所述元数据包括与多个输入音频通道相关的协方差矩阵和与多个输入音频通道相关的协方差矩阵的本征向量中的一个或多个。
4.根据权利要求1或2所述的装置(110),其特征在于,所述选择器(114)用于:通过选择具有本征值的本征向量来选择所述多个本征向量的子集,其中,所述本征值大于比第一阈值大的本征值的几何平均值。
5.根据权利要求4所述的装置(110),其特征在于,所述选择器(114)用于:如果比第一阈值大的本征值的几何平均值和比第一阈值大的本征值的算术平均值之间的绝对差值小于第二阈值,则通过仅选择具有最大本征值的本征向量来选择所述多个本征向量的子集。
6.根据权利要求5所述的装置(110),其特征在于,所述输入音频信号包括多个频带,所述选择器(114)用于支持所述第二阈值对于不同的频带取不同的值。
7.根据权利要求1或2所述的装置(110),其特征在于,所述选择器(114)还用于基于大于第一阈值的最小本征值来归一化大于所述第一阈值的本征值。
8.根据权利要求1或2所述的装置(110),其特征在于,所述装置(110)还包括控制单元(119),其中,所述控制单元(119)用于根据预定义码率阈值在第一编码模式和第二编码模式之间进行选择,其中,在所述第一编码模式中,通过对所述多个选定的本征通道和元数据进行编码来对所述输入音频信号进行编码,其中,在所述第二编码模式中,通过对所述多个输入音频通道进行编码来对所述输入音频信号进行编码。
9.如权利要求8所述的装置(110),其特征在于,所述控制单元(119)用于:估计与所述多个选定的本征通道和元数据的编码相关的码率;如果估计的码率小于所述预定义码率阈值,则选择所述第一编码模式。
10.根据权利要求1或2所述的装置(110),其特征在于,所述基于KLT的预处理器(111)包括所述选择器(114)。
11.一种用于对输入音频信号进行解码的装置(120),其特征在于,所述输入音频信号包括多个编码的本征通道和编码的元数据,所述装置(120)包括:
本征通道解码器(123),用于对所述多个编码的本征通道进行解码,其中每个本征通道与本征值和本征向量相关;
元数据解码器(125),用于对所述编码的元数据进行解码;
子空间估计单元(122b),用于基于解码的元数据来估计多个本征向量;
选择器(124),用于基于本征值的几何平均值来选择多个估计的本征向量的子集;
基于KLT的后处理器(121),用于基于选择的本征向量将解码的本征通道转换为多个输出音频通道。
12.如权利要求11所述的装置(120),其特征在于,所述选择器(124)用于:通过选择具有本征值的本征向量来选择所述多个本征向量的子集,其中,所述本征值大于比第一阈值大的本征值的几何平均值。
13.一种对输入音频信号进行编码的方法(600),其特征在于,所述输入音频信号包括多个输入音频通道,所述方法(600)包括:
(601)从多个输入音频信号中估计与多个本征向量相关的元数据,其中每个本征通道与本征值和本征向量相关,所述元数据支持基于多个本征通道重构所述多个输入音频通道;
(603)基于本征值的几何平均值来选择所述多个本征向量的子集;
(604)基于输入音频通道和选定的本征向量计算本征通道;
(605)对所述多个选定的本征通道进行编码;
(607)对所述元数据进行编码。
14.一种对输入音频信号进行解码的方法(700),其特征在于,所述输入音频信号包括多个编码的本征通道和编码的元数据,所述方法(700)包括:
(701)对所述多个编码的本征通道进行解码,其中每个本征通道与本征值和本征向量相关;
(703)对所述编码的元数据进行解码;
基于解码的元数据来估计多个本征向量;
(705)基于本征值的几何平均值来选择多个估计的本征向量的子集;
(707)基于选择的本征向量将解码的本征通道转换为多个输出音频通道。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/065395 WO2018001493A1 (en) | 2016-06-30 | 2016-06-30 | Apparatuses and methods for encoding and decoding a multichannel audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109416912A CN109416912A (zh) | 2019-03-01 |
CN109416912B true CN109416912B (zh) | 2023-04-11 |
Family
ID=56345118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680087245.XA Active CN109416912B (zh) | 2016-06-30 | 2016-06-30 | 一种对多声道音频信号进行编码和解码的装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10916255B2 (zh) |
EP (1) | EP3469590B1 (zh) |
CN (1) | CN109416912B (zh) |
WO (1) | WO2018001493A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113948095A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号的编解码方法和装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3506138B2 (ja) * | 2001-07-11 | 2004-03-15 | ヤマハ株式会社 | 複数チャンネルエコーキャンセル方法、複数チャンネル音声伝送方法、ステレオエコーキャンセラ、ステレオ音声伝送装置および伝達関数演算装置 |
US20090281798A1 (en) * | 2005-05-25 | 2009-11-12 | Koninklijke Philips Electronics, N.V. | Predictive encoding of a multi channel signal |
US7639738B2 (en) * | 2006-06-21 | 2009-12-29 | Acorn Technologies, Inc. | Efficient channel shortening in communication systems |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
JP2012108451A (ja) * | 2010-10-18 | 2012-06-07 | Sony Corp | 音声処理装置および方法、並びにプログラム |
JP2013102411A (ja) * | 2011-10-14 | 2013-05-23 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
US9516446B2 (en) * | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
WO2014046916A1 (en) * | 2012-09-21 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
CN108806706B (zh) * | 2013-01-15 | 2022-11-15 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
WO2014138633A2 (en) * | 2013-03-08 | 2014-09-12 | Board Of Regents, The University Of Texas System | Systems and methods for digital media compression and recompression |
CN104282309A (zh) * | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
EP3017446B1 (en) * | 2013-07-05 | 2021-08-25 | Dolby International AB | Enhanced soundfield coding using parametric component generation |
-
2016
- 2016-06-30 CN CN201680087245.XA patent/CN109416912B/zh active Active
- 2016-06-30 WO PCT/EP2016/065395 patent/WO2018001493A1/en unknown
- 2016-06-30 EP EP16734630.3A patent/EP3469590B1/en active Active
-
2018
- 2018-12-21 US US16/229,921 patent/US10916255B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10916255B2 (en) | 2021-02-09 |
EP3469590B1 (en) | 2020-06-24 |
CN109416912A (zh) | 2019-03-01 |
EP3469590A1 (en) | 2019-04-17 |
US20190147892A1 (en) | 2019-05-16 |
WO2018001493A1 (en) | 2018-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3874492B1 (en) | Determination of spatial audio parameter encoding and associated decoding | |
WO2014108738A1 (en) | Audio signal multi-channel parameter encoder | |
US20230197086A1 (en) | The merging of spatial audio parameters | |
US20230402053A1 (en) | Combining of spatial audio parameters | |
WO2014174344A1 (en) | Audio signal encoder | |
CN109416912B (zh) | 一种对多声道音频信号进行编码和解码的装置和方法 | |
WO2019106221A1 (en) | Processing of spatial audio parameters | |
KR102380454B1 (ko) | 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품 | |
JP6909301B2 (ja) | 符号化装置及び符号化方法 | |
JP7149936B2 (ja) | 符号化装置及び符号化方法 | |
WO2014068817A1 (ja) | オーディオ信号符号化装置及びオーディオ信号復号装置 | |
KR20170125063A (ko) | 오디오 신호 처리 장치들 및 방법들 | |
EP4320876A1 (en) | Separating spatial audio objects | |
RU2648632C2 (ru) | Классификатор многоканального звукового сигнала | |
CN109526234B (zh) | 对多声道音频信号进行编码和解码的装置和方法 | |
GB2595871A (en) | The reduction of spatial audio parameters | |
EP3948861A1 (en) | Determination of the significance of spatial audio parameters and associated encoding | |
JP2022528881A (ja) | パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム | |
JP2018518875A (ja) | オーディオ信号処理装置および方法 | |
WO2024097485A1 (en) | Low bitrate scene-based audio coding | |
WO2022200666A1 (en) | Combining spatial audio streams | |
WO2022129672A1 (en) | Quantizing spatial audio parameters | |
WO2023179846A1 (en) | Parametric spatial audio encoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |