CN105637581A - 用于音频信号的参数重建的去相关器结构 - Google Patents
用于音频信号的参数重建的去相关器结构 Download PDFInfo
- Publication number
- CN105637581A CN105637581A CN201480056084.9A CN201480056084A CN105637581A CN 105637581 A CN105637581 A CN 105637581A CN 201480056084 A CN201480056084 A CN 201480056084A CN 105637581 A CN105637581 A CN 105637581A
- Authority
- CN
- China
- Prior art keywords
- signal
- coefficients
- wet
- audio
- downmix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 184
- 238000013507 mapping Methods 0.000 claims abstract description 73
- 239000011159 matrix material Substances 0.000 claims description 72
- 238000000034 method Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 229940050561 matrix product Drugs 0.000 claims description 4
- 239000000047 product Substances 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
编码系统将数个音频信号(X)与湿上混系数和干上混系数(P,C)一起编码为下混信号(Y)。在解码系统中,预乘法器(101)通过根据第一组系数(Q)线性映射下混信号计算中间信号(W);去相关部(102)基于中间信号输出去相关信号(Z);湿上混部(103)通过根据湿上混系数线性映射去相关信号计算湿上混信号;干上混部(104)通过根据干上混系数线性映射下混信号计算干上混信号;组合部(105)通过组合湿上混信号和干上混信号提供多维重建信号(X);并且转换器(106)基于湿上混系数和干上混系数计算第一组系数并且将其供给到预乘法器。
Description
对相关申请的交叉引用
本申请要求在2014年4月1日提交的美国临时专利申请No.61/973646和在2013年10月21日提交的美国临时专利申请No.61/893770的优先权,在这里通过引用加入它们的全部内容。
技术领域
这里公开的本发明总体上涉及音频信号的编码和解码,尤其是涉及从下混信号和相关元数据进行多个音频信号的参数重建。
背景技术
包括多个扬声器的音频回放系统经常被用于再现由多个音频信号代表的音频场景,其中,各音频信号在相应的扬声器上被回放。例如,音频信号可能已经通过多个声学换能器被记录,或者可能由音频创作设备产生。在许多情况下,对于向回放设备传送音频信号存在带宽限制,并且/或者,对于在计算机存储器中或者在便携式存储装置上存储音频信号存在空间限制。存在用于对音频信号进行参数代码化(coding)以减小所需要的带宽或存储大小的音频代码化系统。在编码器侧,这些系统一般将音频信号下混成下混信号,该下混一般是单声(一个通道)或立体声(两个通道)下混,并且提取通过诸如水平差和互相关的参数描述音频信号的性能的副信息。下混和副信息然后被编码和发送到解码器侧。在解码器侧,在副信息的参数的控制下,从下混重建(即,近似)该多个音频信号。去相关器常常被用作参数重建的一部分以用于增加由下混提供的音频内容的维度,以便允许更忠实地重建多个音频信号。如何设计和实现去相关器可能是增加重建的保真度的关键因素。
鉴于可用于回放代表音频场景的多个音频信号的各种各样不同类型的装置和系统(包含目标是在家最终用户的新兴环节),需要新的和替代性的方式以高效地编码多个音频信号,以便减少带宽要求和/或存储所需要的存储器大小,并且/或者有利于解码器侧的多个音频信号的重建。
附图说明
以下,将参照附图更详细地描述示例性实施例,其中,
图1是根据示例性实施例的用于基于下混信号以及相关联的湿上混系数和干上混系数重建多个音频信号的参数重建部的一般框图;
图2是根据示例性实施例的包含图1所示的参数重建部的音频解码系统的一般框图;
图3是根据示例性实施例的用于将多个音频信号编码为适于参数重建的数据的参数编码部的一般框图;
图4是根据示例性实施例的包含图3所示的参数编码部的音频编码系统的一般框图;
所有附图都是示意性的,并且一般仅示出阐明本发明所必需的部分,而其它部分可能被省略或仅仅被建议。
具体实施方式
这里,音频信号可以是与元数据相组合的纯音频信号、视听信号或多媒体信号的音频部分、或者它们中的任一种。
这里,通道是与预定的/固定的空间位置/取向或未限定的空间位置(诸如“左”或“右”)相关联的音频信号。
这里,音频对象或音频对象信号是与易于时间变化的空间位置(即,其值可能随时间被重新分配或更新的空间位置)相关联的音频信号。
I.概要
根据第一方面,示例性实施例提出了用于重建多个音频信号的音频解码系统以及方法和计算机程序产品。根据第一方面,提出的解码系统、方法和计算机程序产品可一般共享相同的特征和优点。
根据示例性实施例,提供了一种用于重建多个音频信号的方法。该方法包括:接收下混信号的时间/频率块(tile)以及相关联的湿上混系数和干上混系数,其中,下混信号包含比要重建的音频信号的数量少的通道;作为下混信号的线性映射计算被称为中间信号的具有一个或更多个通道的第一信号,其中,第一组系数被应用于下混信号的通道作为计算中间信号的一部分;通过处理中间信号的一个或更多个通道,产生被称为去相关信号的具有一个或更多个通道的第二信号;作为去相关信号的线性映射计算被称为湿上混信号的具有多个通道的第三信号,其中,第二组系数被应用于去相关信号的一个或更多个通道作为计算湿上混信号的一部分;作为下混信号的线性映射计算被称为干上混信号的具有多个通道的第四信号,其中,第三组系数被应用于下混信号的通道作为计算干上混信号的一部分;和组合湿上混信号和干上混信号,以获得与要重建的多个音频信号的时间/频率块对应的多维重建信号。在本示例性实施例中,第二组系数和第三组系数分别与接收的湿上混系数和干上混系数对应;并且,第一组系数是基于湿上混系数和干上混系数根据预定的规则被计算的。
添加去相关信号用于增加收听者感知到的多维重建信号的内容的维度,并且增加多维重建信号的保真度。去相关信号的一个或更多个通道中的每一个可具有与中间信号的一个或更多个通道中的对应通道至少大致相同的频谱,或者可具有与中间信号的一个或更多个通道中的对应通道的频谱的重新缩放/归一化版本对应的频谱,并且,去相关信号的一个或更多个通道可至少大致互不相关。去相关信号的一个或更多个通道可优选地与中间信号的一个或更多个通道和下混信号的通道至少大致不相关。虽然能够从来自例如白噪声的给定频谱合成互不相关的信号,但是,根据本示例性实施例,通过处理中间信号产生去相关信号的一个或更多个通道,这种处理例如包含向中间信号的各一个或更多个通道应用相应的全通滤波器或者重新组合中间信号的各一个或更多个通道的多个部分,以保留尽可能多的中间信号的性能,特别局部静态性能,包含诸如音色的中间信号的相对更敏感的心理声学调节性能。
发明人认识到,导出去相关信号的中间信号的选择会影响重建的音频信号的保真度,并且,如果要重建的音频信号的某些性能改变,例如,如果要重建的音频信号是具有时间改变位置的音频对象,那么,如果获得中间信号的计算被适应性调整,那么重建的音频信号的保真度会增加。在本示例性实施例中,计算中间信号包含向下混信号的通道应用第一组系数,因此第一组系数允许对于如何计算中间信号进行至少一些控制,这允许增加重建的音频信号的保真度。
发明人还认识到,分别被用于计算湿上混信号和干上混信号的所接收的湿上混系数和干上混系数承载可用于计算第一组系数的合适值的信息。通过基于湿上混系数和干上混系数根据预定规则计算第一组系数,减少了使得能够重建多个音频信号所需要的信息的量,从而允许减少与下混信号一起从编码器侧传送的元数据的量。通过减少参数重建所需要的数据的量,传送要重建的多个音频信号的参数表示所需要的带宽和/或存储这种表示所需要的存储器大小可减小。
第二组系数和第三组系数分别与接收的湿上混系数和干上混系数对应指的是第二组系数和第三组系数分别与湿上混系数和干上混系数一致,或者第二组系数和第三组系数分别由湿上混系数和干上混系数唯一地控制(或者可从其导出)。例如,即使湿上混系数的数量比第二组系数中的系数的数量少,例如,如果用于从湿上混系数确定第二组系数的预定公式在解码器侧是已知的,则仍可从湿上混系数导出第二组系数。
组合湿上混信号和干上混信号可包含将来自湿上混信号的各通道的音频信号与干上混信号的各对应通道的音频内容相加,诸如在每个采样或者每个变换系数的基础上的加法混合。
中间信号是下混信号的线性映射指的是通过向下混信号应用第一线性变换来获得中间信号。该第一变换以预定数量的通道为输入,并且提供预定数量的一个或更多个通道作为输出,并且,第一组系数包含限定该第一线性变换的定量性能的系数。
湿上混信号是去相关信号的线性映射指的是通过向去相关信号施加第二线性变换来获得湿上混信号。该第二变换以预定数量的一个或更多个通道为输入,并且提供预定(第二)数量的通道作为输出,并且第二组系数包含限定该第二线性变换的定量性能的系数。
干上混信号是下混信号的线性映射指的是通过向下混信号施加第三线性变换来获得干上混信号。该第三变换以预定(第三)数量的通道为输入,并且提供预定数量的通道作为输出,并且,第三组系数包含限定该第三线性变换的定量性能的系数。
音频编码/解码系统一般例如通过向输入的音频信号应用合适的滤波器组将时间频率空间分成时间/频率块。时间/频率块一般指的是与时间间隔和频率子带对应的时间频率空间的一部分。时间间隔可一般与音频编码/解码系统中使用的时间帧的持续期对应。频率子带可一般与由编码/解码系统中使用的滤波器组限定的一个或几个相邻的频率子带对应。在频率子带与由滤波器组限定的几个相邻的频率子带对应的情况下,这允许在音频信号的解码/重建处理中具有不均匀的频率子带,例如,对更高频率的音频信号具有更宽的频率子带。在音频编码/解码系统在整个频率范围上操作的宽带情况下,时间/频率块的频率子带可与整个频率范围对应。依据对一个这种时间/频率块重建多个音频信号的步骤描述根据本示例性实施例的方法。但是,应当理解,可对音频编码/解码系统的每一时间/频率块重复该方法。而且,还应理解,可同时重建数个时间/频率块。一般地,相邻的时间/频率块可能不相交或者可以部分重叠。
在示例性实施例中,可通过干上混信号的线性映射获得要处理成去相关信号的中间信号,即,可通过向干上混信号应用线性变换来获得中间信号。通过使用可通过作为下混信号的线性映射被计算的干上混信号的线性映射获得的中间信号,可以降低获得去相关信号所需要的计算的复杂性,从而允许在计算上更高效地重建音频信号。在至少一些示例性实施例中,干上混系数可能已在编码器侧被确定,使得在解码器侧计算的干上混信号近似要重建的音频信号。基于可通过这种近似的线性映射获得的中间信号的去相关信号的产生可增加重建的音频信号的保真度。
在示例性实施例中,可通过向干上混信号应用作为湿上混系数的绝对值的一组系数,获得中间信号。例如,中间信号可通过将中间信号的一个或更多个通道形成为干上混信号的通道的相应的一个或更多个线性组合而被获得,其中,湿上混系数的绝对值可作为一个或更多个线性组合中的增益被应用于各干上混信号通道。通过使用可通过映射干上混信号获得的中间信号,通过应用作为湿上混系数的绝对值的一组系数,由于湿上混系数具有不同的符号,可以降低在来自干上混信号的各通道的贡献之间在中间信号中发生抵消的风险。通过降低中间信号中抵消的风险,从中间信号产生的去相关信号的能量/振幅与重建的音频信号匹配,并且,湿上混系数的突然波动可被避免或者可以更少地发生。
在示例性实施例中,可通过根据预定规则处理湿上混系数并且将处理后的湿上混系数与干上混系数相乘,计算第一组系数。例如,处理后的湿上混系数和干上混系数可被布置为各自的矩阵,并且,第一组系数可与计算为这两个矩阵的矩阵积的矩阵对应。
在示例性实施例中,用于处理湿上混系数的预定规则可包含元素级绝对值运算。
在示例性实施例中,湿上混系数和干上混系数可被布置为各自的矩阵,并且,用于处理湿上混系数的预定规则可按任何顺序包含计算所有元素的元素级绝对值和重新布置元素以允许与干上混系数的矩阵的直接矩阵相乘。在本示例性实施例中,要重建的音频信号通过中间信号所基于的下混信号有助于去相关信号的一个或更多个通道,并且,去相关信号的一个或更多个通道通过湿上混信号有助于重建的音频信号。发明人认识到,为了增加重建的音频信号的保真度,可能希望力求遵从以下的原理:去相关信号的给定通道在参数重建中有助于的音频信号应通过下混信号有助于产生去相关信号的给定通道的中间音频信号的相同通道,并且优选地贡献匹配的/等同的量。根据本示例性实施例,可以说,预定规则反映了该原理。
通过在用于处理湿上混系数的预定规则中包含元素级绝对值运算,可以降低由于湿上混系数具有不同的符号而在来自干上混信号的各通道的贡献之间在中间信号中发生抵消的风险。通过降低中间信号中抵消的风险,从中间信号产生的去相关信号的能量/振幅匹配重建的音频信号,并且,湿上混系数的突然波动可被避免或者可以更少地发生。
在示例性实施例中,可对于信号的正交镜像滤波器(QMF)域表示执行计算和组合的步骤。
在示例性实施例中,可以接收湿上混系数和干上混系数的多个值,其中,各值与特定的锚定点相关联。在本示例性实施例中,方法还可包括:基于与两个连续的锚定点相关联的湿上混系数和干上混系数的值,计算第一组系数的对应值;然后,基于已计算的第一组系数的值,插值对于包含于连续锚定点之间的至少一个时间点的第一组系数的值。换句话说,对两个连续锚定点计算的第一组系数的值被用于对该两个连续锚定点之间的插值,以便获得对于包含于该两个连续锚定点之间的至少一个时间点的第一组系数的值。这避免了不必要地重复基于湿上混系数和干上混系数的第一组系数的相对更高成本的计算。
根据示例性实施例,提供了一种音频解码系统,其具有适于接收下混信号的时间/频率块以及相关联的湿上混系数和干上混系数并且重建多个音频信号的参数重建部,其中,下混信号具有比要重建的音频信号的数量少的通道。参数重建部包含:被配置为接收下混信号的时间/频率块且输出通过根据第一组系数线性映射下混信号(即,通过采用第一组系数形成下混信号的通道的一个或更多个线性组合)计算的中间信号的预乘法器;被配置为接收中间信号且基于其输出去相关信号的去相关部;被配置为接收湿上混系数以及去相关信号并且通过根据湿上混系数线性映射去相关信号(即,通过采用湿上混系数形成去相关信号的一个或更多个通道的线性组合)计算湿上混信号的湿上混部;被配置为接收干上混系数并且与预乘法器并行地接收下混信号的时间/频率块且输出通过根据干上混系数线性映射下混信号(即,通过采用干上混系数形成下混信号的通道的线性组合)计算的干上混信号的干上混部;以及被配置为接收湿上混信号和干上混信号并且组合这些信号以获得与要重建的多个音频信号的时间/频率块对应的多维重建信号的组合部。参数重建部还包含被配置为接收湿上混系数和干上混系数、根据预定规则计算第一组系数并且将其(即,第一组系数)供给到预乘法器的转换器。
根据第二方面,示例性实施例提出了用于编码多个音频信号的音频编码系统以及方法和计算机程序产品。根据第二方面,提出的编码系统、方法和计算机程序产品可一般共享相同的特征和优点。此外,以上给出的根据第一方面的解码系统、方法和计算机程序产品的特征的优点可一般对于根据第二方面的编码系统、方法和计算机程序产品的对应特征是有效的。
根据示例性实施例,提供了一种用于将多个音频信号编码为适于参数重建的数据的方法。该方法包括:接收所述多个音频信号的时间/频率块;通过根据下混规则形成音频信号的线性组合来计算下混信号,其中,下混信号包含比要重建的音频信号的数量少的通道;确定干上混系数以便限定近似要在时间/频率块中编码的音频信号的下混信号的线性映射;基于接收的音频信号的协方差和通过下混信号的线性映射近似的音频信号的协方差,确定湿上混系数;以及将下混信号与湿上混系数和干上混系数一起输出,这些系数自身使得能够根据预定规则进行限定作为音频信号的参数重建的一部分的预去相关线性映射的另一组系数的计算。在本上下文中,预去相关线性映射可例如使得能够完全或部分地恢复音频信号的协方差。
湿上混系数和干上混系数自身使得能够根据预定规则计算另一组系数指的是一旦湿上混系数和干上混系数(的值)已知,就可在不访问从编码器侧发送的任何附加系数(的值)的情况下根据预定规则计算该另一组系数。例如,该方法可包括仅输出下混信号、湿上混系数和干上混系数。
在解码器侧,音频信号的参数重建可一般包含组合通过下混信号的线性映射获得的干上混信号与来自基于下混信号产生的去相关信号的贡献。另一组系数限定作为音频信号的参数重建的一部分的预去相关线性映射指的是另一组系数包含限定如下线性变换的定量性能的系数,该线性变换以下混信号为输入并且输出被称为中间信号的具有一个或更多个通道的信号,对该中间信号执行去相关过程以产生去相关信号。
由于基于湿上混系数和干上混系数根据预定规则计算该另一组系数,因此能够实现多个音频信号的重建所需要的信息的量减少,从而允许减少与下混信号一起传送到解码器侧的元数据的量。通过减少参数重建所需要的数据的量,可以减少用于传送要重建的多个音频信号的参数表示所需要的带宽和/或存储这种表示所需要的存储器大小。
在计算下混信号时使用的下混规则限定了音频信号的线性组合的定量性能,即,在形成线性组合时要应用于各音频信号的系数。
干上混系数限定近似要编码的音频信号的下混信号的线性映射指的是干上混系数是限定如下线性变换的定量性能的系数,该线性变换以下混信号为输入且输出近似要编码的音频信号的一组音频信号。例如,确定的一组干上混系数可限定与音频信号的最小均方误差近似对应的下混信号的线性映射,即,确定的一组干上混系数可限定在下混信号的一组线性映射中的在最小均方意义上最佳地近似音频信号的线性映射。
例如,可基于接收的音频信号的协方差与通过下混信号的线性映射近似的音频信号的协方差之间的差值或者通过比较这两者来确定湿上混系数。
在示例性实施例中,可以接收音频信号的多个时间/频率块,并且,可根据预定的下混规则均一地计算下混信号。换句话说,在形成音频信号的线性组合时被应用于各音频信号的系数被预定并且在连续的时间帧上恒定。例如,下混规则可适合于提供向后兼容的下混信号,即提供可在使用标准化通道配置的传统回放设备上回放的下混信号。
在示例性实施例中,可以接收音频信号的多个时间/频率块,并且,可根据信号自适应下混规则计算下混信号。换句话说,形成音频信号的线性组合时应用的系数中的至少一个是信号自适应的,即,可基于一个或更多个音频信号的音频内容由编码系统调整/选择系数中的至少一个且优选数个的值。
在示例性实施例中,可通过以下过程确定湿上混系数:设定目标协方差以补充通过下混信号的线性映射近似的音频信号的协方差;将目标协方差分解为矩阵及其自身的转置的积,其中,矩阵的元素在可选的列级重新缩放之后与湿上混系数对应。在本示例性实施例中,目标协方差分解成(即,当乘以其自身的转置时产生目标协方差)的矩阵可以是方矩阵或非方矩阵。根据至少一些示例性实施例,可基于形成为接收的音频信号的协方差矩阵与通过下混信号的线性映射近似的音频信号的协方差矩阵之间的差值的矩阵的一个或更多个特征矢量确定目标协方差。
在示例性实施例中,方法还可包括目标协方差被分解成的矩阵的列级重新缩放,即,目标协方差分解为矩阵及其自身的转置的积,其中,矩阵的元素在列级重新缩放之后与湿上混系数对应。在本示例性实施例中,列级重新缩放可确保在限定预去相关线性映射的系数根据预定规则被计算的情况下,由向下混信号应用预去相关线性映射得到的各信号的方差等于在列级重新缩放中使用的对应重新缩放因子的平方反比。可在解码器侧使用预去相关线性映射,以产生用于在要重建的音频信号的参数重建中补充下混信号的去相关信号。通过根据本示例性实施例的列级重新缩放,湿上混系数限定了提供与目标协方差对应的协方差的去相关信号的线性映射。
在示例性实施例中,预定规则可意味着该另一组系数与湿上混系数之间的线性缩放关系,并且,列级重新缩放可相当于乘以取-1/4次幂的矩阵积(absV)TCRyyCTabsV的对角部分,其中,absV表示目标协方差被分解为的矩阵的元素级绝对值,并且,CRyyCT是与通过下混信号的线性映射近似的音频信号的协方差对应的矩阵。例如以上的矩阵积的给定矩阵的对角部分指的是通过在给定的矩阵中将所有非对角元素设定为零而获得的对角矩阵。将这种对角矩阵取-1/4次幂指的是对角矩阵中的矩阵元素中的每一个被取-1/4次幂。另一组系数与湿上混系数之间的线性缩放关系可例如为使得目标协方差分解成的矩阵的列级重新缩放与具有该另一组系数作为矩阵元素的矩阵的行级或列级重新缩放对应,其中,具有该另一组系数作为矩阵元素的矩阵的行级或列级重新缩放使用与在目标协方差分解成的矩阵的列级重新缩放中使用的重新缩放因子相同的重新缩放因子。
可以在解码器侧使用预去相关线性映射,以产生用于在要重建的音频信号的参数重建中补充下混信号的去相关信号。通过根据本示例性实施例的列级重新缩放,假定限定预去相关线性映射的系数根据预定规则被计算,则湿上混系数限定了提供与目标协方差对应的协方差的去相关信号的线性映射。
在示例性实施例中,目标协方差可被选择为使得目标协方差与通过下混信号的线性映射近似的音频信号的协方差的和与接收的音频信号的协方差近似或者至少基本一致,从而允许基于下混信号以及湿上混参数和干上混参数在解码器侧参数重建的音频信号具有与接收的音频信号的协方差近似或者至少基本一致的协方差。
在示例性实施例中,方法还可包括通过以下过程执行能量补偿:确定接收的音频信号的估计总能量与基于下混信号、湿上混系数和干上混系数被参数重建的音频信号的估计总能量的比;并且通过所述比的平方根倒数重新缩放干上混系数。在本示例性实施例中,重新缩放的干上混系数可与下混信号和湿上混系数一起被输出。在至少一些示例性实施例中,预定规则可意味着另一组系数与干上混系数之间的线性缩放关系,使得在干上混系数上执行的能量补偿在另一组系数中具有对应的效果。根据本示例性实施例,能量补偿允许基于下混信号以及湿上混参数和干上混参数在解码器侧参数重建的音频信号具有近似所接收的音频信号的总能量的总能量。
在至少一些示例性实施例中,可在执行能量补偿之前确定湿上混系数,即,可基于还没有被能量补偿的湿上混系数来确定湿上混系数。
根据示例性实施例,提供了一种包括适于将多个音频信号编码为适于参数重建的数据的参数编码部的音频编码系统。参数编码部包含:被配置为接收多个音频信号的时间/频率块并且通过根据下混规则形成音频信号的线性组合来计算下混信号的下混部,其中,下混信号包含比要重建的音频信号的数量少的通道;被配置为确定干上混系数以便限定近似要在时间/频率块中编码的音频信号的下混信号的线性映射的第一分析部;以及被配置为基于接收的音频信号的协方差和通过下混信号的线性映射近似的音频信号的协方差确定湿上混系数的第二分析部。在本示例性实施例中,参数编码部被配置为将下混信号与湿上混系数和干上混系数一起输出,其中,这些系数自身使得能够根据预定规则进行限定作为音频信号的参数重建的一部分的预去相关线性映射的另一组系数的计算。
根据示例性实施例,提供了一种计算机程序产品,包括具有用于执行第一方面和第二方面的方法的指令的计算机可读介质。
根据示例性实施例,多个音频信号中的至少一个可涉及或者可被用于代表与空间定位器相关联的音频对象信号,即,虽然多个音频信号可包含例如与静止空间位置/取向相关联的通道,但是多个音频信号也可包含与时变空间位置相关联的一个或更多个音频对象。
在从属权利要求中限定了其它的示例性实施例。应当注意,即使特征被记载于相互不同的权利要求中,示例性实施例仍包括特征的所有组合。
II.示例性实施例
以下,提供了编码和解码的数学描述。要得到更详细的理论背景,参见Hotho等在IEEETransactionsonAudio,Speech,andLanguageProcessing,Vo.16,No.1,January2008中的文章“ABackward-CompatibleMultichannelAudioCodec”。
在将参照图3和图4描述的编码器侧,通过根据下式形成多个音频信号xn,n=1,…,N的线性组合,计算下混信号Y=[y1,…,yM]T。
这里,dn,m是由下混矩阵D代表的下混系数,并且音频信号xn,n=1,…,N被收集在矩阵X=[x1,…,xN]T中。下混信号Y包含M个通道,并且,多个音频信号X包含N个音频信号,这里,N>M>1。在将参照图1和图2描述的解码器侧,根据下式执行多个音频信号X的参数重建:
这里,cn,m是由矩阵上混矩阵C代表的干上混系数,pn,k是由湿上混矩阵P代表的湿上混系数,并且,zk是去相关信号Z=[z1,…zK]T的K个通道,这里,K≥1。去相关信号Z是基于如下获得的中间信号W=[w1,…,wK]T产生的:
这里,系数qk,m由限定下混信号Y的预去相关线性映射的预去相关矩阵Q代表。去相关信号Z的K个通道是通过去相关运算从中间信号W的各K个通道获得的,该去相关运算保留中间信号W的各通道的能量/方差,但使得去相关信号Z的通道相互不相关,即,去相关信号Z可表达为:
Z=decorr(W).(4)
这里,decorr()表示该去相关运算。
从式(1)、(3)和(4)可以看出,要重建的音频信号X通过下混信号Y和中间信号W有助于去相关信号Z的通道,并且,从式(2)可以看出,去相关信号Z的通道通过湿上混信号DZ有助于重建的音频信号。发明人认识到,为了增加重建的音频信号的保真度,可能希望力求遵从以下的原理:
去相关信号Z的给定通道在参数重建中有助于的音频信号应通过下混信号Y有助于从其产生去相关信号Z的给定通道的中间音频信号W的相同通道,并且优选地贡献对应的/匹配的量。
一种遵从该原理的方法是根据下式计算预去相关系数Q:
Q=(absP)TC(5)
这里absP表示通过取得湿上混矩阵P的元素的绝对值而获得的矩阵。式(3)和(5)指的是可通过可视为要重建的音频信号X的近似的“干”上混信号CY的线性映射获得要处理成去相关信号Z的中间信号W。这反映了上述的用于导出去相关信号Z的原理。用于计算预去相关系数Q的规则(5)仅包含具有相对低的复杂性的计算,因此可在解码器侧被方便地使用。设想基于干上混系数C和湿上混系数P计算预去相关系数Q的替代性方法。例如,它可被计算为Q=(absP0)TC,这里,通过归一化P的各列获得矩阵P0。用于计算预去相关系数Q的该替代性方法的效果在于,通过式(2)提供的参数重建随湿上混矩阵P的幅值线性缩放。
例如,可通过在最小平方的意义上计算最佳的可能的“干”上混信号CY(即,通过求解以下的正规方程)确定干上混系数C:
CYYT=XYR.(6)
通过形成下式,通过干上混CY近似的音频信号的协方差矩阵可与要重建的音频信号X的协方差矩阵Rxx相比:
ΔR=Rxx-CRyyCT,(7)
这里,Ryy是下混信号Y的协方差矩阵,ΔR是可完全或部分由“湿”上混信号PZ提供的“缺失(missing)”协方差。缺失协方差ΔR可通过特征分解(即,基于其特征值和相关的特征矢量)被分析。如果要在使用不多于K个去相关器(即,通过具有K个通道的去相关信号Z)的解码器侧执行根据式(2)的参数重建,那么可通过仅保持ΔR的特征分解的与和最大特征值幅值相关联的K个特征矢量对应的那些部分(即,通过去除缺失协方差ΔR的与其它特征矢量对应的那些部分),对湿上混信号PZ设定目标协方差Rwet。如果根据式(1)在编码器侧使用的下混矩阵D是不退化的,那么可能表明缺失协方差ΔR的秩最多为N-M,并且,需要不大于K=N-M个去相关器以提供全缺失协方差ΔR。要得到证据,例如参见Hotho等在IEEETransactionsonAudio,Speech,andLanguageProcessing,Vo.16,No.1,January2008中的文章“ABackward-CompatibleMultichannelAudioCodec”。通过保持与最大特征值相关联的贡献,即使在解码器侧仅使用更少数量K<N-M个去相关器,也可通过湿上混信号PZ再现缺失协方差ΔR的感知上重要/显著的部分。特别地,与没有去相关的参数重建相比,使用单个去相关器(即,K=1)已提供了重建的音频信号的保真度的明显改善,而解码器侧计算复杂度具有相对较低的附加成本。通过增加即去相关器的数量,可以以要传送的附加湿上混参数P为代价增加重建音频信号的保真度。使用的下混通道的数量M和使用的去相关器的数量K可例如基于用于向解码器侧传送数据的目标位率和重建的音频信号所需要的保真度/质量被选择。
假定已经基于与K个特征值相关联的缺失协方差ΔR的多个部分设定了目标协方差Rwet,则目标协方差Rwet可被分解为:
Rwet=VVT,(8)
这里,V是具有N行和K列的矩阵,并且,可通过以下形式获得湿上混矩阵P:
P=VS,(9)
这里,S是具有提供矩阵V的列级重新缩放的正元素的对角矩阵。对于具有式(9)的湿上混矩阵P和求解方程(6)的干上混矩阵C,重建信号的协方差矩阵可被表达为:
这里,diag()表示将矩阵的所有非对角元素设定为零的运算。因此,用于使得湿上混信号PZ满足目标协方差Rwet的条件可表达为:
VSdiag(QRyyQ1)STVT=VVT,(10)
如果由矩阵S给出的列级重新缩放确保由于向下混信号Y应用预去相关线性映射而导致的各信号的方差(即,具有作为方差的QRyyQT的对角元素的通过式(3)获得的中间信号W的通道)等于矩阵S中的对应列级重新缩放因子的平方反比,则满足该条件。通过具有式(5)的预去相关矩阵Q,在湿上混系数P与允许在式(10)中收集矩阵S的多个实例的预去相关系数Q之间存在线性缩放关系,从而导致以下的充分条件:
S4diag((absV)TCRyyCT(absV))=I,
这里,I是单位矩阵。由此,可以获得湿上混系数P为P=VS,这里,
S=((absV)TCRyyCT(absV))-1/4.(11)
图3是根据示例性实施例的参数编码部300的一般化框图。参数编码部300被配置为根据式(2)将多个音频信号X=[x1,…,xN]T编码为适于参数重建的数据。参数编码部300包含下混部301,其接收多个音频信号X的时间/频率块并且通过根据式(1)形成音频信号X的线性组合来计算下混信号Y=[y1,…,yM]T的,其中,下混信号Y包含比要重建的音频信号X的数量N少的通道M。在本示例性实施例中,多个音频信号X包含与时变空间位置相关联的音频对象信号,并且,根据信号自适应规则计算下混信号Y,即,在根据式(1)形成线性组合时使用的下混系数D依赖于音频信号X。在本示例性实施例中,由下混部301基于与包含于多个音频信号X中的音频对象相关联的空间位置确定下混系数D,以确保位置相对远离的对象被编码到下混信号Y的不同通道中,而位置相对相互接近的对象可被编码到下混信号Y的相同通道中。这种信号自适应下混规则的效果在于:它有利于在解码器侧重建音频对象信号,并且/或者能够实现收听者感知的音频对象信号的更忠实的重建。
在本示例性实施例中,第一分析部302确定由干上混矩阵C代表的干上混系数,以便限定近似要重建的音频信号X的下混信号Y的线性映射。下混信号Y的该线性映射由式(2)中的CY表示。在本示例性实施例中,根据式(6)确定干上混系数C,使得下混信号Y的线性映射CY与要重建的音频信号X的最小均方近似对应。第二分析部303基于接收的音频信号X的协方差矩阵和通过下混信号Y的线性映射CY近似的(即,基于式(7)中的缺失协方差ΔR的)音频信号的协方差矩阵确定由湿上混矩阵P代表的湿上混系数。在本示例性实施例中,第一处理部304计算接收的音频信号X的协方差矩阵。乘法部305通过将下混信号Y与湿上混矩阵C相乘来计算下混信号Y的线性映射CY,并且将其提供给第二处理部306,该第二处理部306计算由下混信号Y的线性映射CY近似的音频信号的协方差矩阵。
在本示例性实施例中,确定的湿上混系数P意图用于根据式(2)的参数重建,其中去相关信号Z具有K个通道。因此,第二分析部303基于与式(7)中的缺失协方差ΔR的最大特征值(幅值)相关联的K个特征矢量设定目标协方差Rwet,并且,根据式(8)分解目标协方差Rwet。然后,根据式(9)和(11),从目标协方差Rwet分解成的矩阵V在由矩阵S进行列级重新缩放之后获得湿上混系数P。在本示例性实施例中,可根据式(5)从干上混系数C和湿上混系数P导出称为预去相关系数的另一组系数Q,并且,该另一组系数Q限定由式(3)给出的下混信号Y的预去相关线性映射。
在本示例性实施例中,K<N-M,使得湿上混信号PZ不提供式(7)中的全缺失协方差ΔR。由此,重建的音频信号一般具有比要重建的音频信号X低的能量,并且,第一分析部302可以可选地在通过第二分析部303确定了湿上混系数之后通过重新缩放干上混系数CY来执行能量补偿。而在K=N-M的示例性实施例中,湿上混信号PZ可提供式(7)中的全缺失协方差ΔR,并且,可能不使用能量补偿。
如果要执行能量补偿,那么第一分析部302确定接收的音频信号X的估计总能量与根据式(2)即基于下混信号Y、湿上混系数P和干上混系数C重建的音频信号的估计总能量的比。第一分析部302然后通过所确定的比的平方根倒数重新缩放先前确定的干上混系数C。参数编码部300然后将下混信号Y与湿上混系数P和重新缩放的干上混系数C一起输出。由于根据由式(5)给出的预定规则确定预去相关系数Q,因此在干上混系数C与预去相关系数Q之间存在线性缩放关系。由此,干上混系数C的重新缩放在根据式(2)的在解码器侧的参数重建中导致干上混信号CY和湿上混信号PZ两者的重新缩放。
图4是包含参照图3描述的参数编码部300的、根据示例性实施例的音频编码系统400的一般化框图。在本示例性实施例中,以多个音频信号X的形式提供例如通过一个或更多个声学换能器401记录的或者通过音频创作设备401产生的音频内容。正交镜像滤波器(QMF)分析部402以逐个时间段的方式将音频信号X变换至QMF域,以用于参数编码部300以时间/频率块的形式处理音频信号X。QMF域的使用适于例如用于执行上/下混和参数重建的音频信号的处理,并且,允许解码器侧的音频信号的大致无损重建。
通过参数编码部300输出的下混信号Y通过QMF合成部403从QMF域被变换回,并且通过变换部404变换到修改离散余弦变换(MDCT)域中。量化部405和406分别量化干上混系数C和湿上混系数C。例如,可以使用步长大小为0.1或0.2(无量纲)的均匀量化,随后是Huffman编码的形式的熵编码。可例如使用具有步长大小0.2的较粗量化以节省传送带宽,并且,可例如使用具有步长大小0.1的较细量化以提高解码器侧的重建的保真度。然后,MDCT变换下混信号Y和量化干上混系数C以及湿上混系数P通过多路复用器407被组合成位流B,以传送到解码器侧。音频编码系统400还可包括核心编码器(图4未示出),其被配置为在下混信号Y被提供给多路复用器407之前通过使用诸如DolbyDigital或MPEGAAC的感知音频编解码器编码下混信号Y。
由于多个音频信号X包含与时变空间位置或空间定位器相关联的音频对象信号,因此,可例如通过音频编码系统400在位流B中编码包含这种空间定位器的呈现元数据R,以用于解码器侧的音频对象信号的呈现。呈现元数据R可例如由用于产生多个音频信号X的音频创作设备401被提供给多路复用器407。
图1是根据示例性实施例的参数重建部100的一般化框图,该参数重建部100适于基于下混信号Y以及相关联的湿上混系数P和干上混系数C重建多个音频信号X。预乘法器101接收下混信号Y的时间/频率块,并且,输出通过根据第一组系数(即,根据式(3))线性映射下混信号而计算的中间信号W,其中,第一组系数是由预去相关矩阵Q代表的一组预去相关系数。去相关部102接收中间信号W,并且,基于其输出去相关信号Z=[z1,…zK]T。在本示例性实施例中,通过处理中间信号W的K个通道、包含向中间信号W的通道应用相应的全通滤波器,导出去相关信号Z的K个通道,以提供相互不相关且具有与中间音频信号W频谱类似并且被接听者感知为与中间音频信号W类似的音频内容的通道。去相关信号Z用于增加接听者感知的多个音频信号X的重建版本的维度。在本示例性实施例中,去相关信号Z的通道具有与中间音频信号W的相应通道至少大致相同的能量或方差。湿上混部103接收湿上混系数P以及去相关信号Z,并且通过根据湿上混系数P即根据式(2)线性映射去相关信号Z来计算湿上混信号,其中,湿上混信号由PZ表示。干上混部104接收干上混系数C,并且还与预乘法器101并行地接收下混信号Y的时间/频率块。干上混部103输出通过根据一组干上混系数C线性映射下混信号Y而计算的、由式(2)中的CY表示的干上混信号。组合部105接收干上混信号CY和湿上混信号PZ,并且组合这些信号以获得与要重建的多个音频信号X的时间/频率块对应的多维重建信号在本示例性实施例中,组合部105通过根据式(2)组合干上混信号CY的各通道的音频内容与湿上混信号PZ的相应通道而获得多维重建信号参数重建部100还包括转换器106,其接收湿上混系数P和干上混系数C,并且根据由式(5)给出的预定规则计算第一组系数、即预去相关系数Q并且将第一组系数Q供给到预乘法器101。
在本示例性实施例中,参数重建部100可以可选地使用插值。例如,参数重建部100可接收湿上混系数和干上混系数P、C的多个值,这里,各值与特定的锚定点相关联。转换器106基于与两个连续的锚定点相关联的湿上混系数和干上混系数P、C的值计算第一组系数Q的对应值。计算的值被供给到第一插值器107,该第一插值器107例如通过基于已计算的第一组系数Q的值插值对于包含于连续的锚定点之间的至少一个时间点的第一组系数Q的值,执行两个连续锚定点之间的第一组系数Q的插值。使用的插值方案可例如是线性插值。作为替代方案,可以使用陡峭插值,这里,第一组系数Q的旧值保持使用,直到例如在位流B中编码的元数据所示的某个时间点,在该时间点,第一组系数Q的新值要替代旧值。也可在湿上混系数和干上混系数P、C自身上使用插值。第二插值器108可接收湿上混系数的多个值,并且可在向湿上混部103供给湿上混系数P之前执行时间插值。类似地,第三插值器109可接收干上混系数C的多个值,并且可在向干上混部104供给干上混系数C之前执行时间插值。对湿上混系数和干上混系数P、C使用的插值方案可以是与对第一组系数Q使用的插值方案相同的插值方案,或者可以是不同的插值方案。
图2是根据示例性实施例的音频解码系统200的一般化框图。音频解码系统200包括参照图1描述的参数重建部100。例如包含解复用器的接收部201接收从参照图4描述的音频编码系统400传送的位流B并且从位流B提取下混信号Y以及相关联的干上混系数C和湿上混系数P。在通过使用诸如DolbyDigital或MPEGAAC的感知音频编解码器在位流B中编码下混信号Y的情况下,音频解码系统200可包含被配置为解码从位流B提取的下混信号Y的核心解码器(图2未示出)。变换部202通过执行逆MDCT来变换下混信号Y,并且,QMF分析部203将下混信号Y变换至QMF域,以用于参数重建部100以时间/频率块的形式对下混信号Y进行处理。在将干上混系数C和湿上混系数P供给到参数重建部100之前,去量化部204和205将它们例如从熵编码格式去量化。如参照图4描述的那样,可能已用例如为0.1或0.2的两个不同步长大小中的一个执行量化。使用的实际步长大小可被预定,或者可例如通过位流B从编码器侧被信令到音频解码系统200。
在本示例性实施例中,通过参数重建部100输出的多维重建音频信号通过QMF合成部206从QMF域被变换回,并然后被提供给呈现器207。在本示例性实施例中,要被重建的音频信号X包含与时变空间位置相关联的音频对象信号。包含音频对象的空间定位器的呈现元数据R可能已在编码器侧被编码在位流B中,并且,接收部201可提取呈现元数据R并且将其提供给呈现器207。基于重建的音频信号和呈现元数据R,呈现器207呈现重建的音频信号以通过适于在多扬声器系统208中回放的格式输出呈现器207的通道。呈现器207可例如包含于音频解码系统200中,或者可以是从音频解码系统200接收输入数据的分离的设备。
III.等同物、扩展、替代和杂项
本领域技术人员在研究以上的描述之后很容易想到本公开的其它实施例。尽管本说明书和附图公开了实施例和例子,但本公开不限于这些特定的例子。在不背离由所附的权利要求限定的本公开的范围的情况下,可以提出大量的修改和变化。在权利要求中出现的任何附图标记不应被理解为限制它们的范围。
另外,本领域技术人员在通过研究附图、本公开和所附的权利要求而实施本公开时可以理解和实施公开的实施例的变更例。在权利要求中,词语“包括”不排除其它的元素或步骤,并且,不定冠词“一个”或“一种”不排除多个。仅仅在多个相互不同的从属权利要求中记载某些措施并不表示这些措施的组合不能被有利地利用。
以上公开的装置和方法可实为软件、固件、硬件或它们的组合。在硬件实现中,在以上的描述中提到的功能单元之间的任务的分割未必与分成多个物理单元对应;相反,一个物理部件可具有多个功能,并且,可通过协作的几个物理部件实施一个任务。某些部件或所有部件可实现为由数字信号处理器或微处理器执行的软件,或者实现为硬件或应用特定集成电路。这种软件可分布于可包含计算机存储介质(或非暂时性介质)或通信介质(或暂时性介质)的计算机可读介质上。本领域技术人员很容易理解,术语计算机存储介质包括在任何方法或技术中实现的易失性和非易失性、可去除和不可去除介质,这些介质用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息。计算机存储介质包括但不限于RAM、ROM、EEPROM、快擦写存储器或其它存储器技术、CD-ROM、数字万用盘(DVD)或其它光盘存储器、磁盒、磁带、磁盘存储器或其它磁存储装置或可用于存储希望的信息并且可通过计算机访问的任何其它介质。并且,对于本领域技术人员来说,众所周知,通信介质一般体现计算机可读指令、数据结构、程序模块或诸如载波或其它传输机构的调制数据信号中的其它数据,并且包含任何信息传输媒介。
Claims (20)
1.一种用于重建多个音频信号(X)的方法,包括:
接收下混信号(Y)的时间/频率块以及相关联的湿上混系数和干上混系数(P,C),其中,下混信号包含比要被重建的音频信号的数量少的通道;
作为下混信号的线性映射计算中间信号(W),其中,第一组系数(Q)被应用于下混信号的通道;
通过处理中间信号的一个或更多个通道,产生去相关信号(Z);
作为去相关信号的线性映射计算湿上混信号,其中,第二组系数(P)被应用于去相关中间信号的一个或更多个通道;
作为下混信号的线性映射计算干上混信号,其中,第三组系数(C)被应用于下混信号的通道;和
组合湿上混信号和干上混信号,以获得与要被重建的所述多个音频信号的时间/频率块对应的多维重建信号其中,
所述第二组系数和第三组系数分别与接收的湿上混系数和干上混系数对应,以及
所述第一组系数是基于湿上混系数和干上混系数根据预定规则被计算的。
2.根据权利要求1所述的方法,其中,能够通过干上混信号的线性映射获得要被处理成去相关信号的中间信号。
3.根据权利要求2所述的方法,其中,能够通过应用作为湿上混系数的绝对值的一组系数来映射干上混信号以获得中间信号。
4.根据前面的权利要求中的任一项所述的方法,其中,通过根据预定规则处理湿上混系数并且将干上混系数和处理后的湿上混系数相乘来计算所述第一组系数。
5.根据权利要求4所述的方法,其中,用于处理湿上混系数的所述预定规则包含元素级绝对值运算。
6.根据权利要求5所述的方法,其中,湿上混系数和干上混系数被配置为各自的矩阵,并且,用于处理湿上混系数的所述预定规则包含计算所有元素的元素级绝对值并且重新布置元素以允许与干上混系数的矩阵的直接矩阵相乘。
7.根据前面的权利要求中的任一项所述的方法,其中,对于信号的正交镜像滤波器QMF域表示执行所述计算和组合的步骤。
8.根据前面的权利要求中的任一项所述的方法,其中,所述湿上混系数和干上混系数的多个值被接收,每个值与特定锚定点相关联,该方法还包括:
基于与两个连续的锚定点相关联的湿上混系数和干上混系数的值,计算所述第一组系数的对应值;
然后,基于已计算的第一组系数的值,来插值对于包含于所述连续锚定点之间的至少一个时间点的所述第一组系数的值。
9.一种具有适于接收下混信号(Y)的时间/频率块以及相关联的湿上混系数和干上混系数(P,C)并且重建多个音频信号(X)的参数重建部(100)的音频解码系统(200),其中,下混信号具有比要被重建的音频信号的数量少的通道,所述参数重建部包含:
预乘法器(101),被配置为接收下混信号的时间/频率块,并且输出通过根据第一组系数(Q)线性映射下混信号而计算的中间信号(W);
去相关部(102),被配置为接收中间信号且基于其输出去相关信号(Z);
湿上混部(103),被配置为接收湿上混系数(P)以及去相关信号,并且通过根据湿上混系数线性映射去相关信号计算湿上混信号;
干上混部(104),被配置为接收干上混系数(C)并且与预乘法器并行地接收下混信号的时间/频率块,并且输出通过根据干上混系数线性映射下混信号而计算的干上混信号;以及
组合部(105),被配置为接收湿上混信号和干上混信号,并且组合这些信号以获得与要被重建的所述多个音频信号的时间/频率块对应的多维重建信号
其中,参数重建部还包含被配置为接收湿上混系数和干上混系数以根据预定规则计算第一组系数并且将其供给到预乘法器的转换器(106)。
10.一种用于将多个音频信号(X)编码为适于参数重建的数据的方法,包括:
接收所述多个音频信号的时间/频率块;
通过根据下混规则形成音频信号的线性组合来计算下混信号(Y),其中,下混信号包含比要重建的音频信号的数量少的通道;
确定干上混系数(C),以便限定近似要在时间/频率块中编码的音频信号的下混信号的线性映射;
基于接收的音频信号的协方差和通过下混信号的线性映射而近似的音频信号的协方差,确定湿上混系数(P);和
将下混信号与湿上混系数和干上混系数一起输出,这些系数自身使得能够根据预定规则进行限定作为音频信号的参数重建的一部分的预去相关线性映射的另一组系数(Q)的计算。
11.根据权利要求10所述的方法,其中,音频信号的多个时间/频率块被接收,并且,下混信号根据预定下混规则被统一地计算。
12.根据权利要求10所述的方法,其中,音频信号的多个时间/频率块被接收,并且,下混信号根据信号自适应下混规则被计算。
13.根据权利要求10~12中的任一项所述的方法,其中,湿上混系数通过以下的过程被确定:
设定目标协方差以补充通过下混信号的线性映射近似的音频信号的协方差;
将目标协方差分解为矩阵及其自身的转置的积,其中,所述矩阵的元素在可选的列级重新缩放之后与湿上混系数对应。
14.根据权利要求13所述的方法,还包括目标协方差被分解成的所述矩阵的列级重新缩放,其中,列级重新缩放确保在限定预去相关线性映射的系数根据预定规则被计算的情况下,由于向下混信号应用所述预去相关线性映射而导致的各信号的方差等于在列级重新缩放中使用的对应重新缩放因子的平方反比。
15.根据权利要求14所述的方法,其中,所述预定规则意味着另一组系数与湿系数之间的线性缩放关系,其中,列级重新缩放相当于乘以取-1/4次幂的矩阵积(absV)TCRyyCTabsV的对角部分,其中,absV表示目标协方差分解成的矩阵的元素级绝对值,并且,CRyyCT是与通过下混信号的线性映射近似的音频信号的协方差对应的矩阵。
16.根据权利要求13~15中的任一项所述的方法,其中,目标协方差被选择为使得目标协方差与通过下混信号的线性映射近似的音频信号的协方差的和近似于接收的音频信号的协方差。
17.根据权利要求10~15中的任一项所述的方法,还包括通过以下过程执行能量补偿:
确定所接收的音频信号的估计总能量与基于下混信号、湿上混系数和干上混系数被参数重建的音频信号的估计总能量的比;和
以所述比的平方根倒数来重新缩放干上混系数,
其中,重新缩放后的干上混系数被与下混信号和湿上混系数一起输出。
18.一种包括适于将多个音频信号(X)编码为适于参数重建的数据的参数编码部(300)的音频编码系统(400),该参数编码部包含:
下混部(301),被配置为接收所述多个音频信号的时间/频率块,并且通过根据下混规则形成音频信号的线性组合来计算下混信号(Y),其中,下混信号包含比要重建的音频信号的数量少的通道;
第一分析部(302),被配置为确定干上混系数(C)以便限定近似要在时间/频率块中编码的音频信号的下混信号的线性映射;和
第二分析部(303),被配置为基于接收的音频信号的协方差和通过下混信号的线性映射近似的音频信号的协方差来确定湿上混系数(P),
其中,参数编码部被配置为将下混信号与湿上混系统和干上混系数一起输出,这些系数自身使得能够根据预定规则进行限定作为音频信号的参数重建的一部分的预去相关线性映射的另一组系数(Q)的计算。
19.一种计算机程序产品,包括具有用于执行权利要求1~8和10~17中的任一项的方法的指令的计算机可读介质。
20.根据前面的权利要求中的任一项所述的方法或装置,其中,所述多个音频信号中的至少一个涉及与空间定位器相关联的音频对象信号。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361893770P | 2013-10-21 | 2013-10-21 | |
US61/893,770 | 2013-10-21 | ||
US201461973646P | 2014-04-01 | 2014-04-01 | |
US61/973,646 | 2014-04-01 | ||
PCT/EP2014/072568 WO2015059152A1 (en) | 2013-10-21 | 2014-10-21 | Decorrelator structure for parametric reconstruction of audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105637581A true CN105637581A (zh) | 2016-06-01 |
CN105637581B CN105637581B (zh) | 2019-09-20 |
Family
ID=51830286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480056084.9A Active CN105637581B (zh) | 2013-10-21 | 2014-10-21 | 用于音频信号的参数重建的去相关器结构 |
Country Status (15)
Country | Link |
---|---|
US (1) | US9848272B2 (zh) |
EP (1) | EP3061088B1 (zh) |
JP (1) | JP6201047B2 (zh) |
KR (1) | KR101805327B1 (zh) |
CN (1) | CN105637581B (zh) |
AU (1) | AU2014339065B2 (zh) |
BR (1) | BR112016008426B1 (zh) |
CA (1) | CA2926243C (zh) |
ES (1) | ES2659019T3 (zh) |
IL (1) | IL244785B (zh) |
MX (1) | MX354832B (zh) |
RU (1) | RU2641463C2 (zh) |
SG (1) | SG11201602628TA (zh) |
UA (1) | UA117258C2 (zh) |
WO (1) | WO2015059152A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018162472A1 (en) | 2017-03-06 | 2018-09-13 | Dolby International Ab | Integrated reconstruction and rendering of audio signals |
CN113242508B (zh) | 2017-03-06 | 2022-12-06 | 杜比国际公司 | 基于音频数据流渲染音频输出的方法、解码器系统和介质 |
BR112021025265A2 (pt) | 2019-06-14 | 2022-03-15 | Fraunhofer Ges Forschung | Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070233293A1 (en) * | 2006-03-29 | 2007-10-04 | Lars Villemoes | Reduced Number of Channels Decoding |
WO2008131903A1 (en) * | 2007-04-26 | 2008-11-06 | Dolby Sweden Ab | Apparatus and method for synthesizing an output signal |
CN101401455A (zh) * | 2006-03-15 | 2009-04-01 | 杜比实验室特许公司 | 使用子带滤波器的立体声呈现技术 |
US20100085102A1 (en) * | 2008-09-25 | 2010-04-08 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
EP2214162A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
CN101860784A (zh) * | 2004-04-16 | 2010-10-13 | 杜比国际公司 | 多声道音频信号表示方法 |
WO2010149700A1 (en) * | 2009-06-24 | 2010-12-29 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages |
CN102165520A (zh) * | 2008-09-25 | 2011-08-24 | Lg电子株式会社 | 处理信号的方法和装置 |
US20120243690A1 (en) * | 2009-10-20 | 2012-09-27 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer program and bitstream using a distortion control signaling |
CN103069721A (zh) * | 2010-08-24 | 2013-04-24 | 杜比国际公司 | 降低调频无线电广播噪声中的伪不相关性 |
CN103180898A (zh) * | 2010-08-25 | 2013-06-26 | 弗兰霍菲尔运输应用研究公司 | 用于利用合成单元和混频器解码包括瞬时的信号的设备 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6252965B1 (en) * | 1996-09-19 | 2001-06-26 | Terry D. Beard | Multichannel spectral mapping audio apparatus and method |
GB2343347B (en) | 1998-06-20 | 2002-12-31 | Central Research Lab Ltd | A method of synthesising an audio signal |
EP1500084B1 (en) | 2002-04-22 | 2008-01-23 | Koninklijke Philips Electronics N.V. | Parametric representation of spatial audio |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
EP1618763B1 (en) | 2003-04-17 | 2007-02-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesis |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
CA2992097C (en) | 2004-03-01 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
SE0402652D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
SE0402649D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
US7809580B2 (en) * | 2004-11-04 | 2010-10-05 | Koninklijke Philips Electronics N.V. | Encoding and decoding of multi-channel audio signals |
ATE433182T1 (de) | 2005-07-14 | 2009-06-15 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
US8626503B2 (en) | 2005-07-14 | 2014-01-07 | Erik Gosuinus Petrus Schuijers | Audio encoding and decoding |
EP1921606B1 (en) | 2005-09-02 | 2011-10-19 | Panasonic Corporation | Energy shaping device and energy shaping method |
KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
BRPI0706285A2 (pt) | 2006-01-05 | 2011-03-22 | Ericsson Telefon Ab L M | métodos para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico e para transmitir dados digitais representando som a uma unidade móvel, decodificador envolvente paramétrico para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico, e, terminal móvel |
KR101218776B1 (ko) | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
KR100803212B1 (ko) | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
KR101464977B1 (ko) | 2007-10-01 | 2014-11-25 | 삼성전자주식회사 | 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치 |
CA2701360C (en) * | 2007-10-09 | 2014-04-22 | Dirk Jeroen Breebaart | Method and apparatus for generating a binaural audio signal |
US8091836B2 (en) * | 2007-12-19 | 2012-01-10 | Pratt & Whitney Rocketdyne, Inc. | Rotary wing system with ion field flow control |
KR101629862B1 (ko) | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더 |
EP2144229A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Efficient use of phase information in audio encoding and decoding |
EP2175670A1 (en) | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
JP5358691B2 (ja) * | 2009-04-08 | 2013-12-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 位相値平滑化を用いてダウンミックスオーディオ信号をアップミックスする装置、方法、およびコンピュータプログラム |
EP2422344A1 (en) | 2009-04-21 | 2012-02-29 | Koninklijke Philips Electronics N.V. | Audio signal synthesizing |
EP2461321B1 (en) | 2009-07-31 | 2018-05-16 | Panasonic Intellectual Property Management Co., Ltd. | Coding device and decoding device |
EP2360681A1 (en) | 2010-01-15 | 2011-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
WO2012045203A1 (en) | 2010-10-05 | 2012-04-12 | Huawei Technologies Co., Ltd. | Method and apparatus for encoding/decoding multichannel audio signal |
EP2477188A1 (en) * | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
US9728194B2 (en) | 2012-02-24 | 2017-08-08 | Dolby International Ab | Audio processing |
US9042867B2 (en) | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
US9818412B2 (en) | 2013-05-24 | 2017-11-14 | Dolby International Ab | Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder |
KR102244379B1 (ko) * | 2013-10-21 | 2021-04-26 | 돌비 인터네셔널 에이비 | 오디오 신호들의 파라메트릭 재구성 |
-
2014
- 2014-10-21 CN CN201480056084.9A patent/CN105637581B/zh active Active
- 2014-10-21 ES ES14790039.3T patent/ES2659019T3/es active Active
- 2014-10-21 WO PCT/EP2014/072568 patent/WO2015059152A1/en active Application Filing
- 2014-10-21 MX MX2016004918A patent/MX354832B/es active IP Right Grant
- 2014-10-21 EP EP14790039.3A patent/EP3061088B1/en active Active
- 2014-10-21 BR BR112016008426-8A patent/BR112016008426B1/pt active IP Right Grant
- 2014-10-21 JP JP2016524453A patent/JP6201047B2/ja active Active
- 2014-10-21 SG SG11201602628TA patent/SG11201602628TA/en unknown
- 2014-10-21 AU AU2014339065A patent/AU2014339065B2/en active Active
- 2014-10-21 CA CA2926243A patent/CA2926243C/en active Active
- 2014-10-21 UA UAA201604348A patent/UA117258C2/uk unknown
- 2014-10-21 KR KR1020167010187A patent/KR101805327B1/ko active IP Right Grant
- 2014-10-21 RU RU2016115360A patent/RU2641463C2/ru active
- 2014-10-21 US US15/029,023 patent/US9848272B2/en active Active
-
2016
- 2016-03-28 IL IL244785A patent/IL244785B/en active IP Right Grant
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101860784A (zh) * | 2004-04-16 | 2010-10-13 | 杜比国际公司 | 多声道音频信号表示方法 |
CN101401455A (zh) * | 2006-03-15 | 2009-04-01 | 杜比实验室特许公司 | 使用子带滤波器的立体声呈现技术 |
US20070233293A1 (en) * | 2006-03-29 | 2007-10-04 | Lars Villemoes | Reduced Number of Channels Decoding |
WO2008131903A1 (en) * | 2007-04-26 | 2008-11-06 | Dolby Sweden Ab | Apparatus and method for synthesizing an output signal |
US20100085102A1 (en) * | 2008-09-25 | 2010-04-08 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
CN102165520A (zh) * | 2008-09-25 | 2011-08-24 | Lg电子株式会社 | 处理信号的方法和装置 |
EP2214162A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
CN102334158A (zh) * | 2009-01-28 | 2012-01-25 | 弗劳恩霍夫应用研究促进协会 | 用于把下混音频信号向上混合的向上混合器、方法与计算机程序 |
WO2010149700A1 (en) * | 2009-06-24 | 2010-12-29 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages |
US20120243690A1 (en) * | 2009-10-20 | 2012-09-27 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer program and bitstream using a distortion control signaling |
CN103069721A (zh) * | 2010-08-24 | 2013-04-24 | 杜比国际公司 | 降低调频无线电广播噪声中的伪不相关性 |
CN103180898A (zh) * | 2010-08-25 | 2013-06-26 | 弗兰霍菲尔运输应用研究公司 | 用于利用合成单元和混频器解码包括瞬时的信号的设备 |
Non-Patent Citations (1)
Title |
---|
ENGDEGARD J ET AL.: "Spatial Audio Object Coding(SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 《AUDIO ENGINEERING SOCIETY》 * |
Also Published As
Publication number | Publication date |
---|---|
RU2641463C2 (ru) | 2018-01-17 |
BR112016008426B1 (pt) | 2022-09-27 |
JP2016539358A (ja) | 2016-12-15 |
AU2014339065A1 (en) | 2016-04-21 |
KR20160056324A (ko) | 2016-05-19 |
KR101805327B1 (ko) | 2017-12-05 |
US20160261967A1 (en) | 2016-09-08 |
EP3061088A1 (en) | 2016-08-31 |
MX2016004918A (es) | 2016-07-11 |
JP6201047B2 (ja) | 2017-09-20 |
IL244785A0 (en) | 2016-04-21 |
SG11201602628TA (en) | 2016-05-30 |
AU2014339065B2 (en) | 2017-04-20 |
EP3061088B1 (en) | 2017-12-27 |
IL244785B (en) | 2019-02-28 |
US9848272B2 (en) | 2017-12-19 |
CN105637581B (zh) | 2019-09-20 |
CA2926243C (en) | 2018-01-23 |
CA2926243A1 (en) | 2015-04-30 |
RU2016115360A (ru) | 2017-11-28 |
MX354832B (es) | 2018-03-21 |
BR112016008426A2 (zh) | 2017-08-01 |
WO2015059152A1 (en) | 2015-04-30 |
UA117258C2 (uk) | 2018-07-10 |
ES2659019T3 (es) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769516B2 (en) | Parametric reconstruction of audio signals | |
US8249883B2 (en) | Channel extension coding for multi-channel source | |
CN105917408B (zh) | 指示用于译码向量的帧参数可重用性 | |
AU2007208482B2 (en) | Complex-transform channel coding with extended-band frequency coding | |
US9830918B2 (en) | Enhanced soundfield coding using parametric component generation | |
CN107112020B (zh) | 音频信号的参数化混合 | |
AU2014339065B2 (en) | Decorrelator structure for parametric reconstruction of audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |