CN101325060A

CN101325060A - 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备

Info

Publication number: CN101325060A
Application number: CNA2008101113001A
Authority: CN
Inventors: 约翰内斯·贝姆; 斯文·科尔顿
Original assignee: Thomson Licensing SAS
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2007-06-14
Filing date: 2008-06-13
Publication date: 2008-12-17
Anticipated expiration: 2028-06-13
Also published as: KR20080110542A; EP2003643B1; EP2015293A1; KR101445396B1; JP2008310327A; JP5627843B2; EP2003643A1; US20090012797A1; CN101325060B; US8095359B2

Abstract

感知音频编解码器利用滤波器组和MDCT，以便通过从原始音频信号中去除冗余度和不相关性来获得音频信号的紧凑表示。在音频信号的似稳态部分期间，为了获得高的编码增益，滤波器组的高的频率分辨率是有利的，但是，这个高频率分辨率被耦合到粗的时间分辨率，而由于产生可听见的前回声效应，这变成了瞬时信号部分期间的一个问题。本发明通过在第一滤波器组的输出上施加第二不均匀的滤波器组，即级联的MDCT，而获得了改善的编码/解码质量。本发明的编解码器利用到附加的扩展滤波器组(或多分辨率的滤波器组)的切换，以便重组瞬态或快速变化的音频信号部分期间的时间－频率表示。通过施加对应的切换控制，避免了前回声效应，并获得了高的编码增益和低的编码延迟。

Description

频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备

技术领域

本发明涉及一种利用频谱域中的变换编码和时间分辨率的自适应切换对音频信号进行编码和解码的方法和设备。

背景技术

感知音频编解码器利用滤波器组(filter bank)和MDCT(Modified Discrete Cosine Transform，改进的离散余弦变换，该变换是一种正向变换)，以获取音频信号的紧凑表示(即冗余度降低)，并能够从原始音频信号中降低不相关性。在音频信号的似稳态部分期间，为了获得高的编码增益，滤波器组的高频率或谱分辨率是有利的，但是，这个高频率分辨率被耦合到粗的时间分辨率，会变成了瞬态信号部分期间的一个问题。一个众所周知的结果就是产生可听见的前回声效应。

B.Edler在″Codierung von Audiosignalen mitüberlappender Transformation und adaptivenFensterfunktionen″(Frequenz，卷43，第9号，第252-256页，1989年9月)中公开了时域中的自适应窗切换和/或变换长度切换，所述切换是通过交替使用具有不同长度的两个窗函数在两个分辨率之间进行的切换。

US-A-6029126描述了一种长变换，其中，通过利用矩阵乘法来组合频谱带，使时间分辨率增加。在不同的固定分辨率之间进行切换，以避免在时域中进行窗切换。这可用于创建具有两个不同分辨率的不均匀的滤波器组。

WO-A-03/019532公开了余弦调制的滤波器组中的子带合并，这是一种非常复杂的滤波器设计方式，适于多相位滤波器组的构造。

发明内容

由于长预测造成的延迟长，而短块的频率分辨率低，使得不能提供足够的分辨率用于最优的不相关性降低处理，因此，上述由Edler公开的窗和/或变换长度切换是次优的。

本发明要解决的一个问题是：通过对瞬态音频信号部分施加高的频率分辨率及高的时间分辨率，提供改善的编码/解码增益。这个问题通过权利要求1和3揭露的方法来解决。权利要求2和4揭露了利用这些方法的设备。

本发明通过在第一滤波器组的输出上施加第二不均匀的滤波器组(即级联的MDCT)而获得了改善的编码/解码质量。本发明的编解码器利用到附加的扩展滤波器组(或多分辨率的滤波器组)的切换，以便重组瞬态或快速变化的音频信号部分期间的时间-频率表示。

通过施加对应的切换控制，避免了前回声效应，并获得了高的编码增益。有利的是，本发明的编解码器具有低的编码延迟(因为避免了预测)。

原理上，本发明的编码方法适于通过以下过程对输入信号，如音频信号，进行编码：利用被施加到所述输入信号的第一长度部分的、到频域的第一正向变换，并利用时间分辨率的自适应切换，随后对所得到的频域槽(frequency domain bin)的值进行量化和熵编码，其中对所述切换、量化和/或熵编码的控制是从对所述输入信号的心理声学分析得到的，该方法包括以下步骤：

-通过执行第二正向变换来实现对所述时间分辨率的自适应控制，所述第二正向变换在所述第一正向变换之后，并被施加到所述的经变换的第一长度部分中的第二长度部分，其中所述第二长度小于所述第一长度，并且在所述量化和熵编码的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理；

-将对应的时间分辨率控制信息作为辅助信息(sideinformation)附着到编码输出信号。

原理上，本发明的编码设备适于对输入信号，如音频信号，进行编码，所述设备包括：

-第一正向变换装置，适于将所述输入信号的第一长度部分变换到频域中；

-第二正向变换装置，适于对所述的经变换的第一长度部分中的第二长度部分进行变换，其中所述第二长度小于所述第一长度；

-适于对所述第一正向变换装置的输出值或所述第二正向变换装置的输出值进行量化和熵编码的装置；

-适于对所述量化和/或熵编码进行控制并自适应地控制所述量化和熵编码装置是处理所述第一正向变换装置的输出值还是处理所述第二正向变换装置的输出值的装置，其中所述控制是从对所述输入信号的心理声学分析中得到的；

-适于将对应的时间分辨率控制信息作为辅助信息附着到所述编码设备的输出信号的装置。

原理上，本发明的解码方法适于对经编码的信号，如音频信号，进行解码，所述经编码的信号是利用被施加到所述输入信号的第一长度部分的、到频域的第一正向变换来编码的，其中通过执行第二正向变换对时间分辨率进行自适应切换，所述第二正向变换在所述第一正向变换之后，并被施加到所述的经变换的第一长度部分中的第二长度部分，其中所述第二长度小于所述第一长度，并且在量化和熵编码的过程中对所述第一正向变换的输出值或者对所述第二正向变换的输出值进行处理；其中对所述切换、量化和/或熵编码的控制是从对所述输入信号的心理声学分析得到的，并且对应的时间分辨率控制信息作为辅助信息被附着到编码输出信号，所述解码方法包括以下步骤：

-从所述经编码的信号中提供所述辅助信息；

-对所述经编码的信号进行反量化和熵解码；

-对应于所述辅助信息，执行到时域的第一正向反变换，或者，在执行所述第一正向反变换之前，以第二正向反变换对所述的经反量化和熵解码的信号中的第二长度部分进行处理。所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度信号部分上进行，并且所述第一正向反变换提供经解码的信号。

原理上，本发明的解码设备适于对经编码的信号，如音频信号，进行解码，所述经编码的信号是利用被施加到所述输入信号的第一长度部分的、到频域的第一正向变换来编码的，其中通过执行第二正向变换对时间分辨率进行自适应切换，所述第二正向变换在所述第一正向变换之后，并被施加到所述的经变换的第一长度部分中的第二长度部分，其中所述第二长度小于所述第一长度，并且在量化和熵编码的过程中对所述第一正向变换的输出值或者对所述第二正向变换的输出值进行处理；其中对所述切换、量化和/或熵编码的控制是从对所述输入信号的心理声学分析得到的，并且对应的时间分辨率控制信息被附着到编码输出信号作为辅助信息，所述设备包括：

-适于从所述经编码的信号中提供所述辅助信息并对所述经编码的信号进行反量化和熵解码的装置；

-适于对应于所述辅助信息，或者执行到时域的第一正向反变换，或者在执行所述第一正向反变换之前以第二正向反变换对所述的经反量化和熵解码的信号中的第二长度部分进行处理的装置，所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度信号部分上进行，并且所述第一正向反变换提供经解码的信号。

本发明的另外的有利实施例在各从属权利要求中公开。

附图说明

参考附图对本发明的示范性实施例进行描述，在所述附图中：

图1示出了本发明的编码器；

图2示出了本发明的解码器；

图3示出了利用长MDCT变换和加窗的一块音频采样以及施加到频率数据的不均匀的MDCT系列；

图4示出了通过改变MDCT的块长度来改变时间-频率分辨率；

图5示出了转换窗；

图6示出了用于第二级MDCT的窗序列示例；

图7示出了用于第一和最后的MDCT的起始和停止窗；

图8示出了一个瞬态的时域信号、第一MDCT级的时间/频率(T/F)图以及具有8倍的时间分辨率拓扑的第二MDCT级的T/F图；

图9示出了示出了一个瞬态的时域信号、具有1倍、2倍、4倍和8倍的时间分辨率拓扑的第二级滤波器组的时间/频率(T/F)图；

图10示出了用于根据图6的窗处理的细节图。

具体实施方式

在图1中，编码器输入音频信号CIS的采样的每个相继的交叠块或段或部分的幅度值(magnitude value)通过窗函数来加权，并在提供对应的变换系数或频率槽(frequency bin)的长(即高频率分辨率)的MDCT滤波器组或变换级(transform stage)或步骤MDCT-1中被变换。在瞬态音频信号部分期间，优选地具有不同的较短变换长度的多分辨率MDCT滤波器组或具有较短的固定变换长度的第二MDCT滤波器组或变换级或步骤MDCT-2被施加到第一正向变换的频率槽(即在同一块上)，以便改变频率和时间滤波器分辨率，即将一系列的不均匀的MDCT施加到频率数据，由此生成不均匀的时间/频率表示。在第二级变换之前，通过窗函数对所述第一正向变换的频率槽的每个相继的交叠部分的幅度值进行加权。参考图4到图7以及等式(3)和等式(4)，对用于加权的窗函数进行说明。在MDCT或整数MDCT变换的情况下，各部分是50％交叠的。在使用某不同变换的情况下，交叠程度可以是不同的。

在仅两个不同的变换长度被用于级或步骤MDCT-2的情况下，当单独考虑时，该步骤或级与上文提及的Edler编解码器相似。

第二MDCT滤波器组MDCT-2的接通或断开是利用第一和第二开关SW1和SW2来进行的，并且通过滤波器组控制单元或步骤FBCTL来控制；该滤波器组控制单元或步骤FBCTL被集成在心理声学分析器级或步骤PSYM中，或与该心理声学分析器级或步骤PSYM并行工作；所述滤波器组控制单元或步骤FBCTL以及心理声学分析器级或步骤PSYM二者均接收信号CIS。第二级滤波器MDCT-2的拓扑或状态作为辅助信息被编码入编码器输出比特流COS。从开关SW2输出的频率数据在量化器和熵编码级或步骤QUCOD中被量化和熵编码；该量化器和熵编码级或步骤QUCOD(特别是量化步长)是由心理声学分析器PSYM来控制的。来自级QUCOD(经编码的频率槽)和FBCTL(拓扑或状态信息或者时间分辨率控制信息或者切换信息SWI或辅助信息)的输出在流打包器步骤或级STRPCK中被组合，并形成输出比特流COS。

量化可由插入失真信号来替代。

在图2中，在解码器侧，在解包、解码和重新量化级或步骤DPCRQU中，将解码器输入比特流DIS解包，且相应地解码并反量化(或重新量化)；该解包、解码和重新量化级或步骤DPCRQU相应地提供经解码的频率槽和切换信息SWI。如果经由切换信息SWI的比特流这样发信号告知，则利用例如开关SW3和SW4将对应的不均匀的反MDCT步骤或级iMDCT-2施加到这些经解码的频率槽。在步骤或级iMDCT-2中的变换之后，通过窗函数对经反变换的各值的每个相继部分的幅度值进行加权；该加权之后是交叠相加(overlap-add)处理。通过将对应的高分辨率反MDCT步骤或级iMDCT-1施加到经解码的频率槽或施加到步骤或级iMDCT-2的输出，信号被重构。在步骤或级iMDCT-1中的变换之后，通过窗函数对经反变换的各值的每个相继部分的幅度值进行加权；该加权之后是交叠相加处理。之后，PCM音频解码器输出信号DOS。在解码侧施加的变换长度镜像反映在编码侧施加的对应的传输长度，即所接收的值的同一块被反变换两次。

参考图4到图7以及等式(3)和等式(4)对用于加权的窗函数进行说明。在反MDCT或整数反MDCT变换的情况下，各部分是50％交叠的。在使用某不同的反变换的情况下，交叠程度可以是不同的。

图3示出了上文提及的处理，即施加第一和第二级滤波器组。在左侧，时域采样块被加窗，并用长MDCT被变换到频域。在瞬态音频信号部分，将一系列的不均匀的MDCT施加到频率数据，以生成不均匀的时间/频率表示，如图3的右侧所示。所述时间/频率表示以灰度或阴影来显示。

第一级变换或滤波器组MDCT-1的时间/频率表示(在左侧)提供了高的频率或频谱分辨率，该高的频率或频谱分辨率对于稳态信号部分的编码是最优的。滤波器组MDCT-1和iMDCT-1表示具有50％交叠块的恒定尺寸的MDCT和iMDCT对。交叠和相加(Overlay-and-add，OLA)被用于滤波器组iMDCT-1中，以去除时域混叠。因此，滤波器组对MDCT-1和iMDCT-1具有理论上完全重构的能力。

利用与人体感知相匹配的分辨率或利用表示与时间/频率协调的最大信号压缩的分辨率，时间/频率更好地表示快速变化的信号部分(特别是瞬态信号)。这是通过将第二变换滤波器组MDCT-2施加到第一正向变换滤波器组MDCT-1的所选频率槽的块上来实现的。

第二正向变换的特点是利用不同尺寸的50％交叠的窗，当从一个尺寸切换到另一尺寸时利用转换窗函数(即“Edler窗函数”，每个Edler窗函数具有不对称的斜度(slope))，如图3的中间部分所示。窗尺寸从长度4到长度2n，其中n是大于2的整数。窗尺寸“4”将两个频率槽组合起来，并使时间分辨率加倍，窗尺寸“2n”将2(n-1)个频率槽组合起来，并使时间分辨率增加到2(n-1)倍。在MDCT系列的开始和终止处使用特殊的起始和停止窗函数(转换窗)。在解码侧，滤波器组iMDCT-2施加包括OLA的反变换。因此，滤波器组对MDCT-2/iMDCT-2具有理论上完全重构的能力。

滤波器组MDCT-2的输出数据与在施加滤波器组MDCT-2时不被包括在内的滤波器组MDCT-1的单分辨率槽(single-resolution bin)组合在一起。

滤波器组MDCT-2的每个MDCT或变换的输出可以被解释为第一正向变换的组合频率槽的“时间反转的”(time-reversed)时间采样。有利的是，如图3右侧所示的不均匀的时间/频率表示的构造现在变得可行。

滤波器组控制单元或步骤FBCTL利用来自心理声学分析器级或步骤PSYM中的心理声学模型的时间数据和激励图案来执行对实际处理块的信号分析。在一个简化的实施例中，在瞬态信号部分期间，其切换到滤波器组MDCT-2的固定滤波器拓扑，该滤波器组可以利用人体感知的时间/频率分辨率。有利的是，仅需几个比特的辅助信息作为码本(code-book)入口，用于向解码侧发信号告知所期望的滤波器组iMDCT-2的拓扑。

在一个较复杂的实施例中，滤波器组控制单元或步骤FBCTL评估输入信号CIS的频谱和时间平坦性，并确定滤波器组MDCT-2的灵活的滤波器拓扑。在该实施例中，将转换窗、起始窗的经编码的起始定位和停止窗位置传送到解码器，足以实现滤波器组iMDCT-2的构造。

心理声学模型利用相当于滤波器组MDCT-1的分辨率的高的频谱分辨率，并同时利用频谱分辨率粗但时间分辨率高的信号分析。该第二分辨率可以与滤波器组MDCT-2的最粗的频率分辨率相匹配。

作为替选，心理声学模型还可以由滤波器组MDCT-1的输出来直接驱动，并且在施加滤波器组MDCT-2之后，在瞬态信号部分期间由图3的右侧所示的时间/频率表示来驱动。下面提供更为详细的系统描述。

MDCT

改进的离散余弦变换(Modified Discrete CosineTransformation，MDCT)和反MDCT(inverse MDCT，iMDCT)可以被视为表示临界采样的滤波器组。MDCT起初被J.P.Princen和A.B.Bradley在″Analysis/synthesis filter bank design based ontime domain aliasing cancellation″(IEEE Transactions onAcoust.Speech Sig.Proc.ASSP-34(5)，第1153-1161页，1986年)称为“奇堆叠的时域混叠消除变换(Oddly-stacked timedomain alias cancellation transform)”。

H.S.Malvar(″Signal processing with lapped transform″，Artech House Inc.，Norwood，1992年)和M.Temerinac，B.Edler(″A unified approach to lapped orthogonaltransforms″，IEEE Transactions on Image Processing，卷1，第1号，第111-116页，1992年)将其称为“调制的重叠变换(Modulated Lapped Trans form，MLT)”，并且示出了其与重叠的正交变换的大体关系，而且还证明了该变换是QMF滤波器组的一种特殊情况。

等式(1)和(2)给出了该变换和反变换的等式：

X (k) = \sqrt{\frac{2}{N}} Σ_{n = 0}^{N - 1} h (n) \cdot x (n) \cdot \cos [\frac{π}{K} \cdot (n + \frac{K + 1}{2}) \cdot (k + \frac{1}{2})]

，k＝0，1..，K-1；K＝N/2 (1)

x (n) = \sqrt{\frac{2}{N}} Σ_{k = 0}^{K - 1} h (n) \cdot X (k) \cdot \cos [\frac{π}{K} \cdot (n + \frac{K + 1}{2}) \cdot (k + \frac{1}{2})]

，n＝0，1..，N-1 (2)

在这些变换中，处理50％交叠的块。在编码侧，在每种情况下，具有N个采样的块被加窗，并且幅度值通过窗函数h(n)被加权，然后被变换为K＝N/2个频率槽，其中N是整数。在解码侧，所述反变换在每种情况下将M个频率槽变换成N个时间采样，之后通过用窗函数h(n)对幅度值加权，其中M和N是整数。之后的交叠相加过程去除时间混叠。为了实现完全重构，窗函数h(n)必须满足某些限制，请参见等式(3)和(4)：

h²(n+N/2)+h²(n)＝1 (3)

h(n)＝h(N-n-1) (4)

分析和合成窗函数还可以是不同的，但用于解码的反变换长度对应于用于编码的变换长度。然而，在此不考虑该种情况。等式(5)中给出的正弦窗函数是一个适合的窗函数：

h_{\sin} (n) = \sin (π \cdot \frac{n + 0.5}{N}),

n＝0...N-1 (5)

在上文提及的论文中，Edler还说明了利用转换窗来切换MDCT时间-频率分辨率。图4的下部示出了利用转换窗1、10从一个长变换切换到8个短变换的示例，该图4在垂直方向上示出了窗函数的增益G，并在水平方向上示出了时间，即输入信号采样。在该图的上部，示出了在稳态条件下施加的三个相继的基本窗函数A、B和C。

转换窗函数具有所述长变换的长度N_L。在较小的窗侧端，有r个零幅度的窗函数采样。向着位于N_L/2的窗函数中心，跟随着用于小变换(具有N_short个采样的长度)的镜像的半窗函数，另外跟随该镜像的半窗函数的是具有值为“1”(即常数“一”)的r个窗函数采样。图5的左侧示出了转换到短窗的原理，而图5的右侧示出了从短窗转换的原理。值r通过下列等式给出：

r＝(N_L-N_short)/4 (6)

多分辨率滤波器组

第一级滤波器组MDCT-1、iMDCT-1是高分辨率的MDCT滤波器组，其子带滤波器带宽例如为15Hz-25Hz。对于例如32kHz-48kHz的音频采样率，N_L的典型长度为2048个采样。窗函数h(n)满足等式(3)和(4)。在优选的实施例中，在施加了滤波器MDCT-1之后，存在1024个频率槽。对于稳态的输入信号部分，根据心理声学考虑因素，对这些槽进行量化。

由施加到第一MDCT的槽的附加的MDCT来处理快速变化的瞬态输入信号部分。该附加的步骤或级合并了2个、4个、8个、16个或更多个子带，因此提高了时间分辨率，如图3的右部所示。

图6示出了频域内所施加的用于第二级MDCT的加窗的示例性序列。因此，横轴涉及“f/bins(f/槽)”。转换窗函数是根据图5和等式(6)设计的，如同在时域中那样。特殊的起始窗函数STW和停止窗函数SPW处理经变换的信号的起始和终止部分，即第一和最后的MDCT。图7示出了这些起始和停止窗函数的设计原理。这些窗函数的一半镜像反映了正规或正则窗函数NW(如根据等式(5)的正弦窗函数)的半窗函数。在这些窗函数的另一半中，相邻的一半具有连续的增益“1”(即常数“一”)，而另一半具有增益“零”。

由于MDCT的属性，执行MDCT-2还可以被视为部分反变换。当施加第二级MDCT的正向MDCT时，这样的新MDCT(MDCT-2)的每一个可以被视为组合了原始加窗的槽的一个新频率线(槽)，而该新MDCT的时间反转的(time-reversed)的输出可以被视为新的时间块。图8和图9所示即基于该假设或条件。

图6中的索引数ki表示变化的时间分辨率的区域。从位置零开始直到位置k1-1的频率槽拷贝自(即表示)与单个时间分辨率对应的第一正向变换(MDCT-1)。从索引数k1-1到索引数k2的槽被变换为g1个频率线。g1等于所执行的变换的数目(该数目对应于交叠窗的数目，并可被视为第二或上变换级MDCT-2中的频率槽的数目)。因为索引数k1被选为图6中的第一正向变换中的第二采样(第一采样具有零幅度，也请参见图10a)，所以起始索引数是槽k1-1。

g1＝(加窗的槽的数目)/(N/2)-1＝(k2-k1+1)/2-1，

其中N是例如4个槽的正则窗尺寸，该尺寸产生具有加倍的时间分辨率的部分。

从索引数k2-3到索引数k3+4的槽被组合成g2个频率线(变换)，即g2＝(k3-k2+2)/4-1。正则窗尺寸即例如8个槽，该尺寸产生具有4倍的时间分辨率的部分。

图6中的下一部分由跨例如16个槽的窗(变换长度)来变换，该尺寸产生具有8倍的时间分辨率的部分。加窗始于槽k3-5。如果这是所选的最后的分辨率(如图6所示的)，则其终止于槽k4+4，否则终止于槽k4。

其中第二级变换的阶(即长度)在相继的变换块上是可变的，所述相继的变换块始于与低频率线对应的频率槽，第一个第二级MDCT从小阶数开始，而后面的第二级MDCT将具有较高的阶。使用满足完全重构特性的转换窗。

图10中进一步解释了根据图6的处理，图10示出了标记第二(即级联的)变换(MDCT-2)的区域的频率索引数的采样准确的分配，该第二变换实现了较好的时间分辨率。圆圈表示槽的位置，即第一或初始变换(NDCT-1)的频率线。

图10a示出了4点的第二级MDCT的区域，用于提供加倍的时间分辨率。所示的5个MDCT部分产生5个新的谱线。图10b示出了8点的第二级MDCT的区域，用于提供4倍的时间分辨率。示出了3个MDCT部分。图10c示出了16点的第二级MDCT的区域，用于提供8倍的时间分辨率。示出了4个MDCT部分。

在解码器侧，利用滤波器组iMDCT-1、包括交叠相加过程(OLA)的长变换块的iMDCT来恢复平稳信号，以去除时间混叠。

当在比特流中如此发信号告知时，在施加滤波器组iMDCT-1之前，通过根据所告知的拓扑(包括OLA)施加iMDCT的序列，解码或解码器被分别切换到多分辨率的滤波器组iMDCT-2。

将滤波器组拓扑告知解码器

最简单的实施例是滤波器组MDCT-2/iMDCT-2使用单个的固定拓扑，并利用所传递的比特流中的单个比特来发信号告知这个单个的拓扑。在使用更多个固定拓扑组的情况下，使用对应数目的比特来告知多个拓扑中当前所用的一个。更先进的实施例从一组固定码本拓扑中挑选最好的一个，并在比特流内发信号告知对应的码本入口。

在第二级变换的滤波器拓扑不固定的实施例中，在编码输出比特流中传送对应的辅助信息。优选的是，传送索引数k1，k2，k3，k4，...，kend。

以4倍的分辨率开始，k2以与等于槽0的k1中的值相同的值来传送。在以比最大时间分辨率粗的时间分辨率终止的拓扑中，在kend中传送的值被拷贝到k4，k3，...。

在下面的表中，这用一些示例来示出。bi是作为某频率槽的占位符的一个值。

由于人体听觉系统在时间上的心理声学属性，将这限制为具有随频率升高的时间分辨率的拓扑就足够了。

滤波器组拓扑示例

图8和图9示出第二级滤波器组的多分辨率T/F(时间/频率)能量图的两个示例。图8示出了一个“仅8x时间分辨率”的拓扑。图8a中的时域信号瞬态示出为随时间的幅度变化(时间以采样来表示)。图8b示出了第一级MDCT的对应的T/F能量图(频率以与一个变换块对应的随归一化的时间的槽来表示)，而图8c示出了第二级MDCT的对应的T/F图(8＊128个时间-频率片)。

图9示出了一个“1x、2x、4x、8x的拓扑”。图9a中的时域信号瞬态被示出为随时间的幅度变化(时间以采样来表示)。图9b示出了第二级MDCT的对应的T/F图，由此，用于较低频带部分的频率分辨率被选择为与人体听觉系统的感知的带宽(临界带)成比例，其中对于总共1024个系数，bN1＝16，bN2＝16，bN4＝16，bN8＝114(这些数字具有如下的含义：具有单倍的时间分辨率的16个频率线、具有双倍的时间分辨率的16个频率线、具有4倍的时间分辨率的16个频率线、具有8倍的时间分辨率的114个频率线)。对于低频，有单次分割，随后是2次和4次分割，而且在约f＝50以上，有8次分割。

滤波器组控制

最简单的实施例可以使用任何现有技术的瞬态检测器，以切换到固定的拓扑匹配，或用于接近人体感知的T/F分辨率。优选的实施例使用更先进的控制处理：

-在功率谱密度Pm的M个频率线(f_bin)的所选频带上，利用具有N_L个采样(即MDCT-1的长度)(所选频带与临界带成比例)的长变换块的加窗信号的离散傅立叶变换，例如根据等式(7)来计算谱平坦性量度SFM；

-将N_L个采样的分析块划分成S≥8个交叠块，并在子块上施加S个加窗的DFT。根据每个DFT的频率线的数目，将结果排列成具有S列(时间分辨率，t_block)和多个行的矩阵，S是整数；

-计算S个谱图Ps，例如，总的功率谱密度或以心理声学方式成形的谱图(或激励图案(excitation pattern))；

-对于每个频率线，根据等式(8)确定时间平坦性量度(TFM)；

-使用SFM矢量来确定音调或噪声频带，并使用TFM矢量来识别所述频带内的时间变化。使用阈值来决定是否切换到多分辨率的滤波器组以及挑选哪个拓扑。

= \frac{1}{M} \cdot \underset{m}{Σ} Pm / {(\underset{M}{Π} Pm)}^{\frac{1}{M}} - - - (7)

= \frac{1}{S} \cdot \underset{s}{Σ} Ps / {(\underset{s}{Π} Ps)}^{\frac{1}{S}} - - - (8)

在一个不同的实施例中，通过以下步骤来确定拓扑：

-通过为所选频带确定变换槽的谱功率并以所述谱功率值的算术均值除以其几何均值，利用所述的第一正向变换来执行谱平坦性量度SFM；

-将未加权的输入信号部分子分割，在m个子部分上进行加权和短变换，其中这些变换的频率分辨率对应于所选频带；

-对于由m个变换段构成的每个频率线，确定谱功率，并通过确定用m个段的算术均值除以其几何均值的来计算时间平坦性量度TFM；

-通过利用SFM值来确定音调或噪声频带；

-利用TFM值来识别这些频带中的时间变化。使用阈值，以针对所述的噪声频带而切换到更精细的时间分辨率。

MDCT可以用DCT来代替，特别是用DCT-4来代替。除了将本发明应用于音频信号外，本发明还可以用相应的方式应用到视频信号，在这种情况下，心理声学分析器PSYM用考虑了人体视觉系统属性的分析器来代替。

本发明可以用于水印嵌入器。与直接嵌入相比，利用本发明的多分辨率滤波器组将数字水印信息嵌入音频或视频信号的优点在于：改善了水印信息发送和接收器侧的水印信息检测的鲁棒性。

在本发明的一个实施例中，级联的滤波器组与音频水印系统一起使用。在水印编码器中，进行第一(整数)MDCT。通过利用心理声学控制的嵌入过程，将第一水印插入到槽0至k1-1。该水印的目的可以是水印解码器侧的帧同步。将第二级的可变尺寸(整数)的MDCT施加到始于槽索引k1的各槽，如上所述。该第二级的输出被重新排序，以通过将该输出解释为时间反转的时间块并将每个第二级MDCT解释为一个新的频率线(槽)而获得时间-频率表示。通过利用由心理声学考虑因素控制的衰减因子将第二水印信号添加到这些新频率线的每一个上。数据被重新排序，并进行反(整数)MDCT(与上述第二级MDCT有关)，包括加窗及交叠/相加，如针对以上实施例(解码器)所描述的。与第一正向变换有关的全频谱得以恢复。对该数据执行全尺寸的反(整数)MDCT，加窗及交叠/相加恢复嵌入了水印的时间信号。

在水印解码器中还使用多分辨率的滤波器组。在此，第二级MDCT的拓扑通过本申请来确定。

Claims

1.一种用于对输入信号(CIS)，如音频信号，进行编码的方法，所述编码通过以下来进行：利用被施加到所述输入信号的第一长度(N_L)部分的、到频域的第一正向变换(MDCT-1)，并利用时间分辨率的自适应切换，随后对所得到的频域槽的值进行量化和熵编码(QUCOD)，其中对所述切换、量化和/或熵编码的控制(PSYM，FBCTL)是从对所述输入信号的心理声学分析得到的，特征在于所述方法包括以下步骤：

-在所述第一正向变换(MDCT-1)之后，通过执行第二正向变换(MDCT-2)对所述时间分辨率进行自适应控制(SW1，SW2，SWI)，所述第二正向变换被施加到所述的经变换的第一长度部分中的第二长度(N_short)部分，其中所述第二长度小于所述第一长度(N_L)，并且在所述量化和熵编码(QUCOD)的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理；

-将对应的时间分辨率控制信息(SWI)作为辅助信息附着(STRPCK)到编码输出信号(COS)。

2.一种用于对输入信号(CIS)，如音频信号，进行编码的设备，所述设备包括：

-第一正向变换装置(MDCT-1)，适于将所述输入信号的第一长度(N_L)部分变换到频域中；

-第二正向变换装置(MDCT-2)，适于对所述的经变换的第一长度部分中的第二长度(N_short)部分进行变换，其中所述第二长度小于所述第一长度(N_L)；

-适于对所述第一正向变换装置的输出值或所述第二正向变换装置的输出值进行量化和熵编码的装置(QUCOD)；

-适于对所述量化和/或熵编码进行控制，并自适应地控制在所述量化和熵编码装置中是处理所述第一正向变换装置的输出值还是处理所述第二正向变换装置的输出值的装置(PSYM，FBCTL)，其中所述控制是从对所述输入信号的心理声学分析中得到的；

-适于将对应的时间分辨率控制信息(SWI)作为辅助信息附着到所述编码设备的输出信号(COS)的装置(STRPCK)。

3.一种用于对经编码的信号(DIS)，如音频信号，进行解码的方法，所述经编码的信号是利用被施加到所述输入信号的第一长度(N_L)部分的，到频域的第一正向变换(MDCT-1)来编码的，其中通过执行第二正向变换(MDCT-2)对时间分辨率进行自适应切换(SW1，SW2)，所述第二正向变换在所述第一正向变换(MDCT-1)之后，并被施加到所述的经变换的第一长度部分中的第二长度(N_short)部分，其中所述第二长度小于所述第一长度(N_L)，并且在量化和熵编码(QUCOD)的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理；其中对所述切换、量化和/或熵编码的控制(PSYM，FBCTL)是从对所述输入信号的心理声学分析得到的，并且对应的时间分辨率控制信息(SWI)作为辅助信息被附着(STRPCK)到编码输出信号(COS)，所述解码方法包括以下步骤：

-从所述经编码的信号(DIS)中提供(DPCRQU)所述辅助信息(SWI)；

-对所述经编码的信号(DIS)进行反量化和熵解码(DPCRQU)；

-对应于所述辅助信息，执行(SW3，SW4)到时域的第一正向反变换(iMDCT-1)，或者，在执行所述第一正向反变换(iMDCT-1)之前，以第二正向反变换(iMDCT-2)对所述的经反量化和熵解码的信号中的第二长度(N_short)部分进行处理，所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度(N_L)信号部分上进行，并且所述第一正向反变换提供经解码的信号(DOS)。

4.一种用于对经编码的信号(DIS)，如音频信号，进行解码的设备，所述经编码的信号是利用被施加到所述输入信号的第一长度(N_L)部分的，到频域的第一正向变换(MDCT-1)来编码的，其中通过执行第二正向变换(MDCT-2)对时间分辨率进行自适应切换(SW1，SW2)，所述第二正向变换在所述第一正向变换(MDCT-1)之后，并被施加到所述的经变换的第一长度部分中的第二长度(N_short)部分，其中所述第二长度小于所述第一长度(N_L)，并且在量化和熵编码(QUCOD)的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理；其中对所述切换、量化和/或熵编码的控制(PSYM，FBCTL)是从对所述输入信号的心理声学分析得到的，并且对应的时间分辨率控制信息(SWI)作为辅助信息被附着(STRPCK)到编码输出信号(COS)，所述设备包括：

-适于从所述经编码的信号(DIS)中提供所述辅助信息(SWI)并对所述经编码的信号进行反量化和熵解码的装置(DPCRQU)；

-适于对应于所述辅助信息执行到时域的第一正向反变换，或者在执行所述第一正向反变换之前，以第二正向反变换对所述的经反量化和熵解码的信号中的第二长度(N_short)部分进行处理的装置(iMDCT-1，iMDCT-2，SW3，SW4)，所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度(N_L)信号部分上进行，并且所述第一正向反变换提供经解码的信号(DOS)。

5.根据权利要求1或3所述的方法，或根据权利要求2或4所述的设备，其中所述第一和第二正向变换分别是MDCT或整数MDCT或DCT-4或DCT变换，并且所述第一和第二正向反变换分别是反MDCT或整数的反MDCT或反DCT-4或反DCT变换。

6.根据权利要求1、3或5所述的方法，或根据权利要求2、4或5所述的设备，其中，在编码侧的所述变换之前并且在解码侧的所述变换之后，利用窗函数对所述第一长度部分和所述第二长度部分的幅度值进行加权，并施加用于所述第一长度部分和第二长度部分的交叠相加处理，并且其中，对于转换窗，所述幅度值利用不对称的窗函数来加权，并且其中对于所述第二长度部分，使用起始和停止窗函数。

7.根据权利要求1、3、5或6所述的方法，或根据权利要求2及4至6中的一项所述的设备，其中，在使用多于一个的不同第二长度的情况下，为了发信号告知所施加的不同第二长度的拓扑，在所述辅助信息中包含用于指示变化的时间分辨率的区域的几个索引数或用于表示可在解码侧访问的对应的码本的匹配入口的索引数。

8.根据权利要求1、3及5至7中的一项所述的方法，或根据权利要求2及4至7中的一项所述的设备，其中，在相继地使用多于一个的不同第二长度的情况下，所述长度从表示低频率线的频率槽开始增加。

9.根据权利要求7或8所述的方法或设备，其中所述拓扑通过以下步骤来确定：

-通过为所选频带确定变换槽的谱功率并用所述谱功率值的算术均值除以其几何均值，利用所述的第一正向变换来执行谱平坦性量度SFM；

-对于由m个变换段构成的每个频率线，确定谱功率，并通过确定m个段的算术均值除以其几何均值来计算时间平坦性量度TFM；

-利用所述SFM的值来确定音调或噪声频带；

-利用所述TFM的值来识别这些频带中的时间变化，并利用阈值，以针对所识别的噪声频带而切换到更精细的时间分辨率。

10.根据权利要求1和5至9中的一项所述的方法来编码的一种数字视频信号。

11.一种存储介质，如光盘，所述存储介质包含或存储或者在其上记录有一种根据权利要求10的数字视频信号。

12.根据权利要求1和5至9中的一项所述的方法在水印嵌入器中的应用。