CN101371295B

CN101371295B - 用于编码和解码信号的设备和方法

Info

Publication number: CN101371295B
Application number: CN2007800026620A
Authority: CN
Inventors: 郑亮源; 吴贤午; 金孝镇; 崔升钟; 李东锦; 姜泓求; 李在晟
Original assignee: IND ACADEMIC COOP; LG Electronics Inc
Current assignee: IND ACADEMIC COOP; LG Electronics Inc
Priority date: 2006-01-18
Filing date: 2007-01-18
Publication date: 2011-12-21
Anticipated expiration: 2027-01-18
Also published as: CN101371296B; CN101371295A; CN101371296A; CN101371297A

Abstract

提供编码和解码设备与编码和解码方法。解码方法包括：从输入位流提取多个编码信号和所述编码信号的分割信息；确定多个解码方法中的哪一个将用于解码每个编码信号；使用所确定的解码方法解码编码信号；和参考所述分割信息合成所述解码信号。因此，通过根据信号的特性将信号分类为一个或多个类别并使用可最佳满足相应信号所属的类别的编码单元来编码每个信号，能够以最佳位率编码具有不同特性的信号。此外，可以高效地编码包括音频和语音信号的各种信号。

Description

用于编码和解码信号的设备和方法

技术领域

本发明涉及编码和解码设备与编码和解码方法，并且更具体地，涉及可以根据信号的特性以最佳位率编码或解码信号的编码和解码设备与编码和解码方法。

背景技术

常规音频编码器可以以48kbps或更大的高位率提供高质量音频信号，但对于处理语音信号来说是低效率的。另一方面，常规语音译码器可以以12kbps或更小的低位率高效地编码语音信号，但对于编码各种音频信号来说是低效率的。

发明内容

本发明提供可以以最佳位率编码或解码具有不同特性的信号(例如，语音和音频信号)的编码和解码设备与编码和解码方法。

技术方案

根据本发明的一个方面，提供了一种解码方法，包括：从输入位流提取多个编码信号和所述编码信号的分割信息；确定多个解码方法中的哪一个将用于解码每个编码信号；使用所确定的解码方法解码编码信号；和参考所述分割信息合成所述解码信号。

根据本发明的另一方面，提供了一种解码设备，包括：位解包模块，它从输入位流提取多个编码信号和所述编码信号的分割信息；解码器确定模块，它确定多个解码单元中的哪一个将用于解码每个编码信号；解码模块，它使用所确定的解码单元解码所述编码信号；和合成模块，它参考所述分割信息合成所述解码信号。

根据本发明的另一方面，提供了一种编码方法，包括：将输入信号分割为多个分割信号；根据所述分割信号的特性将所述分割信号分类为一个或多个类别；使用所确定的编码方法编码分割信号；和基于已编码的分割信号产生位流。

根据本发明的另一方面，提供了一种编码设备，包括：分类模块，它将输入信号分割为多个分割信号，并且根据所述分割信号的特性将所述分割信号分类为一个或多个类别；编码模块，它使用所确定的编码方法编码分割信号；和位封包模块，它基于已编码的分割信号产生位流。

有利效果

因此，通过根据信号的特性将信号分类为一个或多个类别并使用可最佳满足相应信号所属的类别的编码单元编码每个信号，能够以最佳位率编码具有不同特性的信号。此外，可以高效地编码包括音频和语音信号的各种信号。

附图说明

图1是根据本发明的实施例的编码设备的框图；

图2是图1中示出的分类模块的实施例的框图；

图3是图2中示出的预处理单元的实施例的框图；

图4是根据本发明的实施例的用来计算输入信号的感知熵的设备的框图；

图5是图1中示出的分类模块的另一实施例的框图；

图6是图5中示出的信号分割单元的实施例的框图；

图7和8是用来说明根据本发明的实施例的合并多个分割信号的方法的视图；

图9是图5中示出的信号分割单元的另一实施例的框图；

图10是用来说明根据本发明的实施例的将输入信号分割为多个分割信号的方法的视图；

图11是图5中示出的确定单元的实施例的框图；

图12是图1中示出的编码单元的实施例的框图；

图13是图1中示出的编码单元的另一实施例的框图；

图14是根据本发明的另一实施例的编码设备的框图；

图15是根据本发明的实施例的解码设备的框图；

图16是图15中示出的合成单元的实施例的框图。

具体实施方式

下面将参考附图更充分地描述本发明，在附图中示出了本发明的示例性实施例。

图1是根据本发明的实施例的编码设备的框图。参考图1，编码设备包括分类模块100、编码模块200和位封包模块300。

编码模块200包括执行不同编码方法的第一编码单元210至第m编码单元220的多个编码单元。

分类模块100将输入信号分割为多个分割信号，并且将分割信号的每一个匹配到第一编码单元210至第m编码单元220中的一个。第一编码单元210至第m编码单元220中的一些可匹配两个或更多个分割信号或根本不匹配分割信号。

分类模块100可分配位量以编码每个分割信号或确定要编码分割信号的次序。

使用第一编码单元210至第m编码单元220中的任何一个编码每个分割信号的编码模块200被匹配到相应的分割信号。分类模块100分析每个分割信号的特性，并选择第一编码单元210至第m编码单元220中可最高效地根据分析结果来编码每个分割信号的一个。

可最高效地编码分割信号的编码单元可被认为能够实现最高的压缩效率。

例如，可容易地建模为系数和余量的分割信号可由语音译码器高效地编码，而不能容易地建模为系数和余量的分割信号可由音频编码器高效地编码。

如果通过建模分割信号而获得的余量的能量对分割信号的能量的比率小于预定义的阈值，则分割信号可认为是可容易地建模的信号。

由于在时间轴上呈现高冗余的分割信号可使用其中基于先前信号预测当前信号的线性预测方法被良好地建模，因此，使用线性预测译码方法的语音译码器可最高效地编码该分割信号。

位封包模块300基于由编码模块200提供的已编码的分割信号和关于已编码的分割信号的附加编码信息而产生要被传输的位流。位封包模块300可使用位无格式(bit-plain)方法或位片(bit sliced)算术编码方法而产生具有可变位率的位流。

由于位率限制而没有编码的分割信号或带宽可从由使用内插、外插或复制方法的解码器提供的解码信号或带宽恢复。而且，关于没有被编码的分割信号的补偿信息可包括在要被传输的位流中。

参考图1，分类模块110可包括第一分类单元110至第n分类单元120的多个分类单元。第一分类单元110至第n分类单元120中的每一个可将输入信号分割为多个分割信号、转换信号的域、提取输入信号的特性、根据输入信号的特性对输入信号进行分类或将输入信号匹配到第一编码单元210至第m编码单元220中的一个。

第一分类单元110至第n分类单元120中的一个可以是预处理单元，该预处理单元对输入信号执行预处理操作使得输入信号可被转换为可被高效地编码的信号。预处理单元可将输入信号分割为多个分量，例如系数分量和信号分量，并且可在其它分类单元执行它们的操作之前对输入信号执行预处理操作。

可根据输入信号的特性、外部环境因素和目标位率，选择性地预处理输入信号，并且仅仅可选择性地预处理从输入信号获得的多个分割信号中的一些。

分类模块100可根据由心理声学建模模块400提供的输入信号的感知特性信息而对输入信号进行分类。感知特性信息的例子包括掩蔽阈值、信噪比(SMR)和感知熵。

换句话说，根据输入信号的感知特性信息，例如输入信号的掩蔽阈值和SNR，分类模块100可将输入信号分割为多个分割信号或可将每个分割信号匹配到第一编码单元210至第m编码单元220中的一个或多个。

此外，分类模块100可接收诸如输入信号的音调、零交叉率(ZCR)和线性预测系数的信息和先前帧的分类信息，并且可根据所接收的信息而对输入信号进行分类。

参考图1，由编码模块200输出的已编码的结果信息可被反馈到分类模块100。

一旦输入信号被分类模块100分割为多个分割信号并且确定了将要由第一编码单元210至第m编码单元220中的哪一个、使用什么位量、以什么次序来编码分割信号，就根据所确定的结果来编码分割信号。实际上用于编码每个分割信号的位量可以不必相同于由分类模块100分配的位量。

详细说明实际使用的位量和所分配的位量之间的差异的信息可被反馈到分类模块100，使得分类模块100可为其它分割信号增加所分配的位量。如果实际位量大于所分配的位量，则分类模块100可为其它分割信号减小所分配的位量。

实际编码分割信号的编码单元可以不必相同于由分类模块100匹配到分割信号的编码单元。在这种情况下，信号可被反馈到分类模块100，指示实际编码分割信号的编码单元不同于由分类模块100匹配到分割信号的编码单元。然后，分类模块100可将分割信号匹配到除了先前匹配到分割信号的编码单元之外的编码单元。

分类模块100根据反馈到其的已编码的结果信息可再次将输入信号分割为多个分割信号。在这种情况下，分类模块100可获得具有与先前获得的分割信号的结构不同的结构的多个分割信号。

如果分类模块100所选择的编码操作不同于实际执行的编码操作，则关于它们之间的差异的信息可反馈到分类模块100，使得分类模块100可再次完全确定编码操作相关的信息。

图2是图1中示出的分类模块100的实施例的框图。参考图2，第一分类单元可以是预处理单元，该预处理单元对输入信号执行预处理操作，使得输入信号可被高效地编码。

参考图2，第一分类单元110可包括执行不同预处理方法的第一预处理器111至第n预处理器112的多个预处理器。第一分类单元110可使用第一预处理器111至第n预处理器112中的一个以根据输入信号的特性、外部环境因素和目标位率来对输入信号执行预处理。而且，第一分类单元110可使用第一预处理器111至第n预处理器112对输入信号执行两个或更多个预处理操作。

图3是图2中示出的第一预处理器111至第n预处理器112的实施例的框图。参考图3，预处理器包括系数提取器113和余量提取器114。

系数提取器113分析输入信号并从输入信号提取代表输入信号的特性的系数。余量提取器114从输入信号提取已使用所提取的系数从其去除冗余分量的余量。

预处理器可对输入信号执行线性预测译码操作。在这种情况下，系数提取器113通过对输入信号执行线性预测分析而从输入信号提取线性预测系数，并且余量提取器114使用由系数提取器113提供的线性预测系数从输入信号提取余量。从其已去除冗余的余量可具有与白噪音相同的格式。

下面将详细描述根据本发明的实施例的线性预测分析方法。

通过线性预测分析而获得的预测信号可由先前的输入信号的线性组合组成，如方程(1)所表示的：

数学图形1

\hat{x} (n) = Σ_{j = 1}^{p} α_{j} x (n - j)

其中，p表示线性预测阶数，₁到_p表示通过最小化输入信号和估计信号之间的均方差(MSE)而获得的线性预测系数。

用于线性预测分析的传递函数P(z)可由方程(2)表示：

数学图形2

P (z) = Σ_{k = 1}^{p} α_{k} z^{- k}

参考图3，预处理器可使用卷曲线性预测译码(WLPC)方法从输入信号提取线性预测系数和余量，该卷曲线性预测译码方法是另一类型的线性预测分析。通过替换具有关于单位延迟Z^-1的传递函数A(z)的全通滤波器，可实现WLPC方法。传递函数A(z)可由方程(3)表示：

数学图形3

A (z) = [\frac{z^{- 1} - λ}{1 - λ z^{- 1}}]

其中，λ表示全通系数。通过改变全通系数，可以改变要分析的信号的分辨率。例如，如果要被分析的信号高度集中在某一频带，例如，如果要被分析的信号是高度集中在低频带的音频信号，则通过设定全通系数使得低频带信号的分辨率能够得以增加而可以高效地编码要被分析的信号。

在WLPC方法中，与高频信号相比，以较高的分辨率分析低频信号。这样，WLPC方法对于低频信号可实现高的预测性能并且可更好地对低频信号进行建模。

全通系数可根据输入信号的特性、外部环境因素和目标位率而沿时间轴变化。如果全通系数随时间变化，则通过解码而获得的音频信号可能显著失真。这样，当全通系数变化时，修匀方法可应用到全通系数使得全通系数可逐渐地变化，并且使得信号失真可最小化。可确定为当前全通系数值的值的范围可通过先前全通系数值来确定。

代替原始信号，掩蔽阈值可用作用来估计线性预测系数的输入。更具体地，掩蔽阈值可转换为时域信号，并且可使用时域信号作为输入来执行WLPC。还可使用余量作为输入来执行线性预测系数的预测。换句话说，线性预测分析可执行超过一次，因此获得进一步白化的余量。

参考图2，第一分类单元110可包括：第一预处理器111，它执行上面参考方程(1)和(2)描述的线性预测分析；和第二预处理器(未示出)，它执行WLPC。第一分类单元100可选择第一处理器111和第二预处理器中的一个，或者可根据输入信号的特性、外部环境因素和目标位率来决定不对输入信号执行线性预测分析。

如果全通系数的值为0，则第二预处理器可以与第一预处理器111相同。在这种情况下，第一分类单元110可仅仅包括第二预处理器，并且根据全通系数的值来选择线性预测分析方法和WLPC方法中的一个。而且，第一分类单元110可执行线性预测分析，或者线性预测分析方法和WLPC方法中的任何方法在帧单元中被选择。

指示是否执行线性预测分析的信息以及指示线性预测分析方法和WLPC方中的哪一个被选择的信息可包括在要被传输的位流中。

位封包模块300从第一分类单元110接收线性预测系数、指示是否执行线性预测译码的信息和识别实际使用的线性预测编码器的信息。然后，位封包模块300将所有接收的信息插入要被传输的位流。

用来将输入信号编码为音质与原始输入信号的音质几乎不能被区分的信号所需的位量可通过计算输入信号的感知熵而被确定。

图4是根据本发明的实施例的用来计算感知熵的设备的框图。参考图4，该设备包括滤波器组115、线性预测单元116、心理声学建模单元117、第一位计算单元118和第二位计算单元119。

输入信号的感知熵PE可使用方程(4)来计算：

数学图形4

PE = \frac{1}{2 π} {&Integral;}_{0}^{π} \max [0 {, \log}_{2} \frac{X (e^{jw})}{T (e^{jw})}] dw (bit / sample)

其中，X(e^jw)表示原始输入信号的能量级，T(e^jw)表示掩蔽阈值。

在涉及使用全通滤波器的WLPC方法中，可使用输入信号的余量的能量和余量的掩蔽阈值的比率来计算输入信号的感知熵。更具体地，使用WLPC方法的编码设备可使用方程(5)来计算输入信号的感知熵PE：

数学图形5

PE = \frac{1}{2 π} {&Integral;}_{0}^{π} \max [0, \log_{2} \frac{R (e^{jw})}{T^{'} (e^{jw})}] dw (bit / sample)

其中，R(e^jw)表示输入信号的余量的能量，T′(e^jw)表示余量的掩蔽阈值。

掩蔽阈值T′(e^jw)可由方程(6)表示：

数学图形6

T′(e^jw)＝T(e^jw)/|H(e^jw)|²

其中，T(e^jw)表示原始信号的掩蔽阈值，H(e^jw)表示用于WLPC的传递函数。心理声学建模单元320使用传递函数H(e^jw)和比例因子带域中的掩蔽阈值T(e^jw)可计算掩蔽阈值T′(e^jw)。

参考图4，第一位计算单元118接收由线性预测单元116所执行的WLPC获得的余量和由心理声学建模单元117输出的掩蔽阈值。滤波器组116可对原始信号执行频率转换，并且频率转换的结果可输入到心理声学建模单元117和第二位计算单元119。滤波器组115可对原始信号执行傅立叶变换。

第一位计算单元118可使用被WLPC合成滤波器的传递函数的谱除的原始信号的掩蔽阈值和余量的能量的比率来计算感知熵。

分割成60个或更多个具有不同带宽的不均匀分隔带的信号的卷曲感知熵WPE可使用WLPC被计算出，如方程(7)所示：

数学图形7

WPE = - Σ_{b = 1}^{b \max} (w_{high} (b) - w_{low} (b)) \cdot \log_{10} (\frac{{nb}_{res} (b)}{e_{res} (b)})

e_{res} (b) = Σ_{w = w_{low} (b)}^{w_{high} (b)} res {(w)}^{2}

{nb}_{res} (b) = Σ_{w = w_{low} (b)}^{w_{high} (b)} \frac{{nb}_{linear} (w)}{h {(w)}^{2}}

其中，b表示使用心理声学模型获得的分隔带的指数，e_res(b)表示分隔带b中的余量的能量的和，w_low(b)和w_high(b)分别表示分隔带b中的最低和最高频率，nb_linear(w)表示线性映射的分隔带的掩蔽阈值，h(w)²表示帧的线性预测译码(LPC)能量谱，nb_res(w)表示对应于余量的线性掩蔽阈值。

另一方面，分割成60个或更多个具有相同带宽的均匀分隔带的信号的卷曲感知熵WPE_sub可使用WLPC被计算出，如方程(8)所示：

数学图形8

{nb}_{sub} (s) = \min_{s_{low} (s) < w < s_{high} (s)} (\frac{{nb}_{linear} (w)}{h {(w)}^{2}})

{WPE}_{sub} = - Σ_{s = 1}^{s \max} (s_{high} (s) - s_{low} (s)) \cdot \log_{10} (\frac{{nb}_{sub} (s)}{e_{sub} (s)})

e_{sub} (s) = Σ_{w = s_{low} (s)}^{s_{high} (s)} res {(w)}^{2}

其中，s表示线性分隔的子带的指数，s_low(w)和s_high(w)分别表示线性分隔的子带s中的最低和最高频率，nb_sub(s)表示线性分隔的子带s的掩蔽阈值，e_sub(s)表示线性分隔的子带s的能量，即线性分隔的子带s中的频率的和。掩蔽阈值nb_sub(s)是线性分隔的子带s中的多个掩蔽阈值的最小值。

对于具有相同带宽且具有高于输入频谱的和的阈值的带，不能计算感知熵。这样，方程(8)的卷曲感知熵WPE_sub可低于为低频带提供高分辨率的方程(7)的卷曲感知熵WPE。

使用WLPC可以为具有不同带宽的比例因子带计算卷曲感知熵WPE_sf，如方程(9)所表示的：

数学图形9

{nb}_{sf} (s) = \min_{{sf}_{low} (s) < w < {sf}_{high} (s)} (\frac{{nb}_{linear} (w)}{h {(w)}^{2}})

{WPE}_{sf} = - Σ_{f = 1}^{f \max} (s_{high} (f) - s_{low} (f)) \cdot \log_{10} (\frac{{nb}_{sf} (f)}{e_{sf} (f)})

e_{sf} (s) = Σ_{w = {sf}_{low} (s)}^{{sf}_{high} (s)} res {(w)}^{2}

其中，f表示比例因子带的指数，nb_sf(f)表示比例因子带f的最小掩蔽阈值，WPE_sf表示比例因子带f的输入信号和比例因子带f的掩蔽阈值的比率，e_sf(s)表示比例因子带f中的所有频率的和，即比例因子带f的能量。

图5是图1中示出的分类模块100的另一实施例的框图。参考图5，分类模块包括信号分割单元121和确定单元122。

更具体地，信号分割单元121将输入信号分割为多个分割信号。例如，信号分割单元121可使用子带滤波器将输入信号分割为多个频带。频带可具有相同的带宽或不同的带宽。如上所述，通过可最佳满足分割信号的特性的编码单元，分割信号可被与其它分割信号分离地编码。

信号分割单元121可将输入信号分割为多个分割信号，例如，多个带信号，使得带信号之间的干扰可最小化。信号分割单元121可具有双滤波器组结构。在这种情况下，信号分割单元121还可分割每个分割信号。

关于由信号分割单元121获得的分割信号的分割信息，例如分割信号的总数目和每个分割信号的带信息，可包括在要被传输的位流中。解码设备可分离地解码分割信号并参考分割信息合成解码信号，由此恢复原始输入信号。

分割信息可存储为表格。位流可包括用于分割原始输入信号的表格的标识信息。

可以确定每个分割信号(例如，多个频带信号)对音质的重要性，并且可以根据所确定的结果为每个分割信号调节位率。更具体地，分割信号的重要性可定义为固定值或根据每个帧的输入信号的特性而变化的非固定值。

如果语音和音频信号混合入输入信号，则信号分割单元121可根据语音信号的特性和音频信号的特性将输入信号分割为语音信号和音频信号。

确定单元122可确定编码模块200中的第一编码单元210至第m编码单元220中的哪一个可以最高效地编码每个分割信号。

确定单元122将分割信号分类为若干组。例如，确定单元122可将分割信号分类为N个类别，并且通过将N个类别的每一个类别匹配到第一编码单元210至第m编码单元220中的一个，确定第一编码单元210至第m编码单元220中的哪一个将用于编码每个分割信号。

更具体地，假定编码模块200包括第一编码单元210至第m编码单元220，则确定单元122可将分割信号分割为第一至第m类别，该第一至第m类别可以分别由第一编码单元210至第m编码单元220最高效地编码。

为此，可由第一编码单元210至第m编码单元220中的每一个最高效地编码的信号的特性可被预先确定，并且根据该确定的结果可限定第一至第m类别的特性。此后，确定单元122可提取每个分割信号的特性，并且根据所提取的结果而将每个分割信号分类为与相应的分割信号共享相同特性的第一至第m类别中的一个类别。

第一至第m类别的例子包括浊音语音类别、清音语音类别、背景噪音类别、无声类别、音调音频类别、非音调音频类别和浊音语音/音频混合类别。

通过参考由心理声学建模模块400提供的关于分割信号的感知特性信息，例如分割信号的掩蔽阈值、SMR或感知熵级，确定单元122可确定第一编码单元210至第m编码单元220中的哪一个将用于编码每个分割信号。

通过参考关于分割信号的感知特性信息，确定单元122可确定位量以便编码每个分割信号，或者确定要编码分割信号的次序。

要被传输的位流内可包括由确定单元122执行的确定所获得的信息，例如，指示通过第一编码单元210至第m编码单元220中的哪一个和要被编码的每个分割信号具有的位量的信息以及指示编码分割信号的次序的信息。

图6是图5中示出的信号分割单元121的实施例的框图。参考图6，信号分割单元包括分割器123和合并器124。

分割器123可将输入信号分割为多个分割信号。合并器124可将具有类似特性的分割信号合并为单个信号。为此，合并器124可包括合成滤波器组。

例如，分割器123可将输入信号分割为256个带。256个带中，具有类似特性的这些带可由合并器124合并为单个带。

参考图7，合并器124可将彼此邻近的多个分割信号合并为单个合并信号。在这种情况下，合并器124可根据预定义的规则将多个相邻的分割信号合并为单个合并信号，而不考虑相邻的分割信号的特性。

可选地，参考图8，合并器124可将具有类似特性的多个分割信号合并为单个合并信号，而与分割信号是否彼此相邻无关。在这种情况下，合并器124可将可由相同的编码单元高效地编码的多个分割信号合并为单个合并信号。

图9是图5中示出的信号分割单元121的另一实施例的框图。参考图9，信号分割单元包括第一分割器125、第二分割器126和第三分割器127。

更具体地，信号分割单元121可分级地分割输入信号。例如，输入信号可由第一分割器125分割为两个分割信号，两个分割信号中的一个可由第二分割器126分割为三个分割信号，并且三个分割信号中的一个可由第三分割器127分割为三个分割信号。以这种方式，输入信号可分割为总共6个分割信号。信号分割单元121可分级地将输入信号分割为具有不同带宽的多个带。

在图9示出的实施例中，根据3级分级分割输入信号，但本发明不限于此。换句话说，根据2级或者4级或更多级分级，输入信号可分割为多个分割信号。

信号分割单元121中的第一到第三分割器125到127中的一个可将输入信号分割为多个时域信号。

图10说明信号分割单元121将输入信号分割为多个分割信号的实施例。

在短的帧长度周期期间，语音或音频信号通常是稳态的。然而，有时，例如在过渡周期期间，语音或音频信号可具有非稳态特性。

为了高效地分析非稳态信号并提高编码这种非稳态信号的效率，根据本实施例的编码设备可使用小波或经验模式分解(EMD)方法。换句话说，根据本实施例的编码设备可使用不固定的变换函数来分析输入信号的特性。例如，信号分割单元121可使用不固定的频带子带滤波方法将输入信号分割为具有可变带宽的多个带。

下面将详细描述通过EMD将输入信号分割为多个分割信号的方法。

在EMD方法中，输入信号可分解为一个或多个固有模式函数(IMF)。IMF必须满足下列条件：极值数目和零交叉数目必须相等或至多相差一个；由局部最大值确定的包迹和由局部最小值确定的包迹的平均值为零。

IMF代表类似于简单调和函数中的分量的简单振荡模式，因此使其可以使用EMD方法高效地分解输入信号。

更具体地，为了从输入信号s(t)提取IMF，通过连接由输入信号s(t)的局部最大值使用三次样条内插方法确定的所有局部极值可产生上包迹，并且通过连接由输入信号s(t)的局部最小值使用三次样条内插方法确定的所有局部极值可产生下包迹。输入信号s(t)可具有的所有值可处于上包迹和下包迹之间。

此后，可计算上包迹和下包迹的平均值m(t)。此后，通过从输入信号s(t)减去平均值m(t)可计算第一分量h₁(t)，如方程(10)所示：

数学图形10

s(t)-m₁(t)＝h₁(t)

如果第一分量h₁(t)不满足上述IMF条件，则第一分量h₁(t)可被确定为与输入信号s(t)相同，并且可再次执行上述操作直到获得满足上述IMF条件的第一IMF C₁(t)为止。

一旦获得第一IMF C₁(t)，就通过减去第一IMF C₁(t)获得余量r₁(t)，如方程(11)所示：

数学图形11

s(t)-c₁(t)＝r₁(t)

此后，可使用余量r₁(t)作为新的输入信号再次执行上述IMF提取操作，从而获得第二IMF C₂(t)和余量r₂(t)。

如果在上述IMF提取操作期间获得的余量r_n(t)具有常数值或者是单调增加函数或仅有一个极值或根本没有极值的单周期函数，则可终止上述IMF提取操作。

作为上述IMF提取操作的结果，输入信号s(t)可由多个IMF C₀(t)到C_M(t)和最终余量r_m(t)的和表示，如方程(12)所示：

数学图形12

s (t) = Σ_{m = 0}^{M} C_{m} (t) + r_{m} (t)

其，M表示提取的IMF的总数目。最终余量r_m(t)可反映输入信号s(t)的总特性。

图10示出通过使用EMD方法分解原始输入信号而获得的十一个IMF和最终余量。参考图10，在IMF提取的早期从原始输入信号获得的IMF的频率高于在IMF提取的晚期从原始输入信号获得的IMF的频率。

使用先前余量h_1(k-1)和当前余量h_1k之间的标准偏差SD可简化IMF提取，如方程(13)所示：

数学图形13

SD = Σ_{t = 0}^{T} [\frac{{| h_{1 (k - 1)} (t) - h_{1 k} (t) |}^{2}}{h_{1 (k - 1)}^{2} (t)}]

如果标准偏差SD小于例如0.3的参考值，则当前余量h_1k可看作IMF。

同时，信号x(t)可通过希尔伯特变换而变换为解析信号，如方程(14)所示：

数学图形14

z(t)＝x(t)+jH{x(t)}＝a(t)e^jθ(t)

其中，(t)表示瞬时幅值，(t)表示瞬时相位，并且H{}表示希尔伯特变换。

作为希尔伯特变换的结果，输入信号可转换为由实分量和虚分量组成的解析信号。

通过将希尔伯特变换应用到平均值为0的信号，可获得可以为时域和频域提供高分辨率的频率分量。

下面将详细描述图4中示出的确定单元122如何确定多个编码单元中的哪一个将用于编码通过分解输入信号而获得的多个分割信号中的每一个。

确定单元122可确定语音译码器和音频编码器的哪一个可更高效地编码每个分割信号。换句话说，确定单元122可决定对使用第一编码单元210至第m编码单元220中的任何一个的语音译码器可高效地编码的分割信号进行编码的是语音译码器，并且决定对使用第一编码单元210至第m编码单元220中的任何一个的音频编码器可高效地编码的分割信号进行编码的是音频编码器。

下面将详细描述确定单元122如何确定语音译码器和音频编码器的哪一个可更高效地编码分割信号。

确定单元122可测量分割信号中的变化，并且如果测量的结果大于预定义的参考值，则确定语音译码器可以比音频编码器更高效地编码分割信号。

可选地，确定单元122可测量包括在分割信号的某一部分中的音调分量，并且如果测量的结果大于预定义的参考值，则确定语音译码器可以比音频编码器更高效地编码分割信号。

图11是图5中示出的确定单元122的实施例的框图。参考图11，确定单元包括语音编码/解码单元500、第一滤波器组510、第二滤波器组520、确定单元530和心理声学建模单元540。

图11中示出的确定单元可确定语音译码器和音频编码器的哪一个可更高效地编码每个分割信号。

参考图11，输入信号由语音编码/解码单元500编码，并且编码信号由语音编码/解码单元500解码，从而恢复原始输入信号。语音编码/解码单元500可包括自适应多速率宽带(AMR-WB)语音编码器/解码器，并且AMR-WB语音编码器/解码器可具有代码激励线性预测(CELP)结构。

输入信号可在输入到语音编码/解码单元500之前被欠采样(down-sampled)。语音编码/解码单元500输出的信号可被过采样(up-sampled)，由此恢复输入信号。

输入信号可通过第一滤波器组510进行频率变换。

由语音编码/解码单元500输出的信号被第二滤波器组520转换为频域信号。第一过滤器组510或第二过滤器组520可对输入到它的信号执行余弦变换，例如，修正离散余弦变换(MDCT)。

第一滤波器组510输出的原始输入信号的频率分量和第二滤波器组520输出的恢复的输入信号的频率分量都被输入到确定单元530。确定单元530可基于输入到它的频率分量确定语音译码器和音频编码器的哪一个可更高效地编码输入信号。

更具体地，基于输入到确定单元的频率分量，通过使用方程(15)来计算每个频率分量的感知熵PE_i，确定单元530可确定语音译码器和音频编码器的哪一个可更高效地编码输入信号：

数学图形15

{PE}_{i} = Σ_{j = j_{low} (i)}^{j_{high} (i)} N (j)

其中

N (j) = \{\begin{matrix} 0, x (j) = 0 \\ \log_{2} (2 | nint (\frac{x (j)}{δ}) | + 1) \end{matrix}, x (j) &NotEqual; 0

其中，x(j)表示频率分量的系数，j表示频率分量的指数，i表示量化步长，nint()是将最接近的整数返回到其自变量的函数，j_low(i)和j_high(i)分别是比例因子带的开始频率指数和结束频率指数。

确定单元530可使用方程(15)计算原始输入信号的频率分量的感知熵和恢复的输入信号的频率分量的感知熵，并且基于计算的结果来确定对于用来编码输入信号而言音频编码器和语音译码器的哪一个更高效。

例如，如果原始输入信号的频率分量的感知熵小于恢复的输入信号的频率分量的感知熵，则确定单元530可确定音频编码器可以比语音译码器更高效地编码输入信号。另一方面，如果恢复的输入信号的频率分量的感知熵小于原始输入信号的频率分量的感知熵，则确定单元530可确定语音译码器可以比音频编码器更高效地编码输入信号。

图12是图1中示出的第一编码单元210至第m编码单元220中的一个的实施例的框图。图12中示出的编码单元可以是语音译码器。

通常，语音译码器可在帧单元内对输入信号执行LPC，并且使用Levinson-Durbin算法从输入信号的每个帧提取LPC系数，例如16阶LPC系数。通过自适应码本搜索或固定码本搜索，可量化激励信号。使用代数码激励的线性预测方法，可量化激励信号。使用具有共轭结构的量化表格，可对激励信号的增益执行矢量量化。

图12中示出的语音译码器包括线性预测分析单元600、音高估计单元610、码本搜索单元620、线谱对(LSP)单元630和量化单元640。

线性预测分析单元600使用自相关系数对输入信号执行线性预测分析，该自相关系数通过使用不对称窗而获得。如果导前(look-ahead)周期，即不对称窗，具有30ms的长度，则线性预测分析单元600可使用5ms导前周期执行线性预测分析。

自相关系数使用Levinson-Durbin算法转换为线性预测系数。对于量化和线性内插，LSP单元630将线性预测系数转换为LSP。量化单元640量化LSP。

音高估计单元610估计开环音高，以便减小自适应码本搜索的复杂性。更具体地，音高估计单元610使用每个帧的加权的语音信号域来估计开环音高周期。此后，使用所估计的开环音高构造谐波噪音成形滤波器。此后，使用谐波噪音成形滤波器、线性预测合成滤波器和共振峰感知加权滤波器来计算脉冲响应。脉冲响应可用于产生用来量化激励信号的目标信号。

码本搜索单元620执行自适应码本搜索和固定码本搜索。通过闭环音高搜索且通过过去的激励信号的内插，计算自适应码本矢量，在子帧单元中可执行自适应码本搜索。自适应码本参数可包括音高周期和音高滤波器的增益。通过线性预测合成滤波器可产生激励信号，以便简化闭环搜索。

固定码本结构基于交织单脉冲置换(ISSP)设计而形成。将包括分别定位64个脉冲的64个位置的码本矢量分割成四个轨道，每个轨道包括16个位置。根据传输速率，预定数目的脉冲可位于四个轨道的每一个。由于码本指数指示轨道部位和脉冲符号，因此不需要存储码本，并且可以仅使用该码本指数产生激励信号。

图12中示出的语音译码器可在时域中执行上述译码过程。而且，如果由图1中示出的分类模块100使用线性预测译码方法编码输入信号，则线性预测分析单元600可以是任选的。

本发明不限于图12中示出的语音译码器。换句话说，在本发明的范围内可以使用除了图12中示出的语音译码器外、可高效地编码语音信号的各种语音译码器。

图13是图1中示出的第一编码单元210至第m编码单元220中的一个的另一实施例的框图。图13中示出的编码单元可以是音频编码器。

参考图13，音频编码器包括滤波器组700、心理声学建模单元710和量化单元720。

滤波器组700将输入信号转换为频域信号。滤波器组700可对输入信号执行余弦变换，例如，修正离散余弦变换(MDCT)。

心理声学建模单元710计算输入信号的掩蔽阈值或输入信号的SMR。量化单元720使用由心理声学建模单元710计算出的掩蔽阈值来量化由滤波器组700输出的MDCT系数。可选地，为了在给定位率范围内最小化听觉失真，量化单元720可使用输入信号的SMR。

图13中示出的音频编码器可在频域中执行上述编码过程。

本发明不限于图13中示出的音频编码器。换句话说，在本发明的范围内可以使用除了图13中示出的音频编码器外、可高效地编码音频信号的各种音频编码器(例如，高级音频译码器)。

高级音频译码器执行瞬时噪音成形(TNS)、强度/耦合、预测和中/侧(M/S)立体声译码。TNS是在滤波器组窗中适当分布时域量化噪音使得量化噪音可以变得听不见的操作。强度/耦合是一种操作，通过编码音频信号并且仅仅基于高带中声音方向的感知主要取决于能量的时间尺度这一事实来传输音频信号的能量，该操作能够减小要传输的空间信息的量。

预测是通过使用帧的谱分量之间的相关性从统计特性不变化的信号去除冗余的操作。M/S立体声译码是传输立体声信号而不是左和右通道信号的标准化的和(即，中)和差(即，侧)的操作。

进行TNS、强度/耦合、预测和M/S立体声译码的信号由量化器量化，该量化器使用从心理声学模型获得的SMR执行合成分析(AbS)。

如上所述，由于音频编码器使用诸如线性预测译码方法的建模方法编码输入信号，因此图5中示出的确定单元122可根据预定的一组规则来确定输入信号是否可被容易地建模。此后，如果确定输入信号可被容易地建模，则确定单元122可决定使用语音译码器编码输入信号。另一方面，如果确定输入信号不能被容易地建模，则确定单元122可决定使用音频编码器编码输入信号。

图14是根据本发明的另一实施例的编码设备的框图。在图1到14中，相同的附图标记代表相同的要素，并且因此，将跳过其详细描述。

参考图14，分类模块100将输入信号分割为第一至第n分割信号的多个分割信号并确定多个编码单元230、240、250、260和270中的哪一个将用于对第一至第n分割信号中的每一个进行编码。

参考图14，编码单元230、240、250、260和270可顺序地分别对第一至第n分割信号进行编码。并且，如果输入信号被分割为多个频带信号，则可以按照从最低频带信号到最高频带信号的次序对该频带信号进行编码。

在顺序编码分割信号的情况下，先前信号的编码误差可用于编码当前信号。结果，可以使用不同的编码方法编码分割信号，如此以防止信号失真并提供带宽伸缩性。

参考图14，编码单元230编码第一分割信号，解码已编码的第一分割信号，并将解码信号和第一分割信号之间的误差输出到编码单元240。编码单元240使用编码单元230输出的误差来编码第二分割信号。以这种方式，考虑它们各自的先前分割信号的编码误差，编码第二至第m分割信号。因此，可以实现无误差编码并提高音质。

图14中示出的编码设备通过逆向地执行图1到14中示出的编码设备所执行的操作可从输入位流恢复信号。

图15是根据本发明的实施例的解码设备的框图。参考图15，解码设备包括位解包模块800、解码器确定模块810、解码模块820和合成模块830。

位解包模块800从输入位流提取一个或多个编码信号以及解码该编码信号所需的附加信息。

解码模块820包括执行不同解码方法的第一解码单元821至第m解码单元822的多个解码单元。

解码确定模块810确定第一解码单元821至第m解码单元822中的哪一个可最高效地解码每个编码信号。解码器确定模块810可使用与图1中示出的分类模块100的方法类似的方法来确定第一解码单元821至第m解码单元822中的哪一个可最高效地解码每个编码信号。换句话说，解码器确定模块810可基于每个编码信号的特性来确定第一解码单元821至第m解码单元822中的哪一个可最高效地解码每个编码信号。优选地，解码器确定模块810可基于从输入位流提取的附加信息来确定第一解码单元821至第m解码单元822中的哪一个可最高效地对每个编码信号进行解码。

附加信息可包括：类别信息，通过编码设备标识被分类的编码的信息所属的类别；编码单元信息，标识用于产生该编码信号的编码单元；和解码单元信息，标识要用于解码该编码信号的解码单元。

例如，解码器确定模块810可基于附加信息而确定编码信号属于哪个类别，并且为编码信号选择第一解码单元821至第m解码单元822中对应于编码信号的类别的任何一个解码单元。在这种情况下，所选定的解码单元可具有一种结构使得它可最高效地解码属于与编码信号的类别相同的类别的信号。

可选地，解码器确定模块810可基于附加信息来识别用于产生编码信号的编码单元，并且为编码信号选择第一解码单元821至第m解码单元822中对应于所识别的编码单元的任何一个解码单元。例如，如果已经由语音译码器产生了编码信号，则解码器确定模块810可以为编码信号选择第一解码单元821至第m解码单元822中是语音解码器的任何一个解码单元。

可选地，解码器确定模块810可基于附加信息来识别可解码编码信号的解码单元，并且为编码信号选择第一解码单元821至第m解码单元822中对应于所识别的解码单元的任何一个解码单元。

可选地，解码器确定模块810可从附加信息获得解码信号的特性，并选择第一解码单元821至第m解码单元822中可最高效地解码具有与编码信号的特性相同的特性的信号的任何一个解码单元。

以这种方式，从输入位流提取的每个编码信号由第一解码单元821至第m解码单元822中确定为能够最高效地解码相应的编码信号的任何一个解码单元编码。解码信号由合成模块830合成，由此恢复原始信号。

位解包模块800提取关于编码信号的分割信息，例如编码信号的数目和每个编码信号的带信息，并且合成模块830可参考分割信息合成解码模块820提供的解码信号。

合成模块830可包括第一合成单元831至第n合成单元832的多个合成单元。第一合成单元831至第n合成单元832中的每一个都可合成解码模块820所提供的解码信号，或者对解码信号中的一些或全部执行域转换或附加的解码。

第一合成单元831至第n合成单元832中的一个可对合成的信号执行后处理操作，该后处理操作是编码设备执行的预处理操作的逆操作(inverse)。可从输入位流提取指示是否要执行后处理操作的信息和用于执行后处理操作的解码信息。

参考图16，第一合成单元831至第n合成单元832中的一个，具体地，第二合成单元833，可包括第一后处理器834至第n后处理器835的多个后处理器。第一合成单元831将多个解码信号合成为单个信号，并且第一后处理器834至第n后处理器835中的一个对通过合成而获得的单个信号执行后处理操作。

指示第一后处理器834至第n后处理器835中的哪一个要对通过合成而获得的单个信号执行后处理操作的信息可包括在输入位流中。

第一合成器831至第n合成器832中的一个可使用从输入位流提取的线性预测系数对通过合成而获得的单个信号执行线性预测解码，从而恢复原始信号。

本发明可实现为写在计算机可读取记录介质上的计算机可读取代码。计算机可读取记录介质可以是以计算机可读取的方式存储数据的任何类型的记录装置。计算机可读取记录介质的例子包括ROM、RAM、CD-ROM、磁带、软盘、光学数据存储器和载波(例如，通过因特网的数据传输)。计算机可读取记录介质可分布在连接到网络的多个计算机系统上，使得计算机可读取代码被写到其上并以分散的方式从其执行。本领域技术人员可以容易地构造实现本发明所需的函数程序、代码和代码段。

虽然已经参考本发明的示例性实施例具体地示出并描述了本发明，但本领域技术人员将理解，这里可以作出形式和细节的各种改变而不偏离如权利要求所限定的本发明的精神和范围。

工业实用性

如上所述，根据本发明，通过根据信号的特性将信号分类为一个或多个类别并使用可最佳满足相应信号所属的类别的编码单元来对每个信号进行编码，能够以最佳位率编码具有不同特性的信号。因此，可以高效地对包括音频和语音信号的各种信号进行编码。

Claims

1.一种解码方法，包括：

接收包括音频信号和语音信号的至少一个的信号和识别解码方式以解码所述信号的解码单元信息；以及

基于所述解码单元信息根据相应的解码方式解码所述信号；

其中，所述解码方式包括语音解码方式和音频解码方式，以及

其中，所述语音解码方式使用LPC系数，以及所述音频解码方式使用滤波器组。

2.根据权利要求1所述的解码方法，其中所述语音信号解码方式在每个帧中使用所述LPC系数。

3.根据权利要求1所述的解码方法，其中，所述语音解码方式在时域中解码所述信号，所述音频解码方式在频域中解码所述信号。

4.一种解码设备，包括：

位解包模块，提取包括音频信号和语音信号的至少一个的信号和识别解码方式以解码所述信号的解码单元信息；

解码器确定模块，它基于所述解码单元信息确定解码方式；

解码模块，它基于所述解码单元信息根据相应的解码方式解码所述信号；

其中，所述解码模块包括根据所述语音解码方式解码所述信号的语音解码器和根据所述音频解码方式解码所述信号的音频解码器；和

其中，所述语音解码器使用LPC系数，以及所述音频解码器使用滤波器组。

5.根据权利要求4所述的解码设备，其中所述语音信号解码模块在每个帧中使用所述LPC系数。

6.根据权利要求4所述的解码设备，其中所述语音解码模块在时域中解码所述信号，所述音频解码模块在频域中解码所述信号。