CN1408146A

CN1408146A - 音频信号的参数编码

Info

Publication number: CN1408146A
Application number: CN01805969A
Authority: CN
Inventors: R·瓦芬; R·霍伊斯登斯; S·L·J·D·E·范德帕; W·B·克莱恩
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-11-03
Filing date: 2001-10-25
Publication date: 2003-04-02
Also published as: US20020120445A1; JP2004513557A; BR0107420A; KR20020070374A; US7020615B2; WO2002037688A1; EP1340317A1

Abstract

改进在音频信号中的瞬变的方法，包括修正瞬变位置，使瞬变只发生在正弦段的开始处。修正过程包括：用具有两个矩形滑窗的基于能量的方法检测瞬变的开始和结束；将在瞬变开始和结束之间的样本移动到由使用的时段确定的位置；和对瞬变间的信号部分进行时间扭曲，以充填在修正的瞬变间的间隔。

Description

音频信号的参数编码

本发明有关信号编码方法和用于存储，发射，接收或重现信号的装置。

存储音频信号的一种通用的方法是使用参数编码以表示音频信号，特别是以非常低的比特率，一般是从6kbps到90kbps。以这种方式使用参数编码的例子可见于“Low bit rate high quality audiocoding with combined harmonic and wavelet representation”(声学，语音和信号处理IEEE国际会议论文集，第二期，pp1045-1048，1996)，“Advances in Parametric Audio Coding”(有关信号处理在音频和声学上的应用的1999年IEEE工作组论文集，ppW99-1-w99-4，1999)和“A 6kbps to 85 kbps scalable audiocoder”(声学，语音和信号处理IEEE国际会议论文集，第二期，pp877-880，2000)。在这些例子中，描述了一个参数音频编码器，其中，一个音频信号由一个模型表示，该模型的参数被估计和译码。这些例子使用了一个音频信号的一个参数表达式，其根据是，将一个原始信号分解为三个部分：一个瞬时分量，一个音调(正弦)分量和一个噪声分量。如以上三个文件中所描述的，每个分量都由一组相应的参数表示。一个音频信号的瞬时分量可以被称为该音频信号的一个孤立成分，其存活期相当短，并且可由该音频信号能量的急剧增加代表。

已经发现，对于一个有突然冲击的音频信号部分，为该音频信号的瞬时分量提供一个专用模型很有好处，这是因为正弦和噪声模型不容易描述这类感性上很重要的事件，并且，差的模型会导致诸如前回声之类的可闻复制品。当建模误差将瞬变事件分配到瞬变开始前的样本上时，以及当所引起的失真足够大以至于能听到时，出现前回波。建模误差分配到瞬变开始前的样本上这一事件是由对一个音频编码器的输入信号进行逐段分析引起的。若一个瞬变出现在一个分析段的中间，则要么需要大量的编码资源以准确地对该瞬变建模，要么使建模误差分配到整个分析段。一般来说，瞬变前面的样本的建模误差听起来比瞬变后面的样本的建模误差更明显，这是因为瞬变事件自身有一个更弱的掩蔽。

在“Residual modeling in music analysis-synthesis”(声学，语音和信号处理IEEE国际会议论文集，第二期，pp1005-1008，1996)中，可以看到，单靠正弦和噪声模型不能很好地表示瞬时分量。

利用带指数调制幅值的正弦曲线(以下称为阻尼正弦曲线)可以有效地对瞬时分量建模，可见于“Robust exponential modeling ofaudio signals”(声学，语音和信号处理IEEE国际会议论文集，第六期，pp3581-3584，1998)。在下文中，阻尼系数可以是任何实数，并且，正数对应于增加幅值，而非减小幅值。在“Robust exponentialmodeling of audio signals”(见上文)中，逐段分析一个音频信号，并且，每一段都由一个阻尼正弦曲线的和表示。当一个瞬时分量起始于一个给定段的中间时，这种编码方法会出现问题。与瞬时分量开始于一个段的起始位置的情况相比，这种情况下，对该瞬时分量建模所需的阻尼正弦曲线数明显增加。若对一个瞬时分量建的模型不好，则建模误差会分布到整个给定段，引起可闻前回波。

在MPEG-1层III音频编码算法中，简单地由长和短窗口的长度来定义分段。该算法的描述见于“ISO-MPEG-1 Audio：a generic standardfor coding of high-quality digital audio”(声频技术协会杂志，第42期，pp780-792，1994年10月)。

本发明的一个目的是解决上面提到的缺点。为此，本发明提供了一种编码方法和一种用于按附加权利要求中定义的方法编码的装置。在附加权利要求中定义了推荐的实例。

按本发明的第一方面，对一个输入信号的编码包括：

-估算该输入信号的一个时段中至少一个瞬时分量的位置；

-修改该瞬时分量的位置，使每个瞬时分量都出现在一个预定时标上的指定位置处，获得一个修改的信号；

-对该修改的信号建模。

使用约束时段(其形式是一个预定时标上的一个指定位置)为瞬时分量提供唯一的位置，有助于减少描述该段所需的比特数。而且，与完全精确的分段过程相比，该修改过程的计算复杂度较低。

每个瞬时分量最好被重新定位到该预定时标上的多个可能位置中最近的一个指定位置。

该预定时标上的指定位置可由一个预定的最小时段大小的整数倍定义。该预定的最小时段大小的长度可以从大约1ms到9ms，最好是从4ms到6ms。

如果使用信息率失真控制，将编码资源在被建模输入信号的瞬时、正弦和噪声分量间进行分配，则使用约束时段会明显简化建模过程。

建模最好使用阻尼正弦曲线。

推荐使用大约5到50kHz的速率采样音频信号，最好是8，16，32，44.1或48kHz。推荐使用大约5到20MHz的速率采样视频信号。

约束时段也可用于一个输入信号的音调和/或噪声分量。

可以利用一个基于能量的方案执行瞬时分量位置的估算，推荐使用移动窗口方案，最好是用双滑动窗。

基于能量方案的使用允许方便地估算非常短的瞬时分量和较长的瞬时分量。

对瞬时分量的定位包括定位每个瞬时分量的开始和结束位置。

推荐使用一个剪切和粘贴方法，将每个已定位的瞬时分量从其原始位置移开，使其开始于预定时标上的一个位置。

剪切和粘贴方法简单地将被标识为瞬时分量的输入信号部分移开，并将其移动到一个新的位置。因此，该步骤实现起来很简单。

最好对两个已定位并修改的瞬时分量之间的输入信号的剩余部分进行时间扭曲，以填满重新定位后留下的缺口。该时间扭曲可以是对所述剩余部分的伸长或缩短。

通过使用声音感觉知识(包括音调感觉和瞬时屏蔽效果)，时间扭曲是一种简单的方法，利用该方法可以在瞬时分量修改后恢复剩余的信号。

时间扭曲最好保留已修改信号边界点的幅值，最好使用一个带限插补方法。

推荐以下列方法执行时间扭曲，即，在剩余部分的基频(f_o)变化小于0.3％(最好小于0.2％)的地方进行插补。

或者，剩余部分最好被划分为一个第一长度(紧挨在已修改瞬时分量之后)和一个第二长度。第一长度大约8ms到12ms，最好是10ms。对于第一长度，若所引起的基频变化不超过1.6％到2.4％(最好不超过2％)，最好插补该第一长度。至于第二长度，基频变化不要超过0.16％到0.24％，最好是不超过0.2％。

若插补不足以填满剩余部分中的一个缺口，推荐使用重叠相加过程。

可利用一个到频域的变换执行每个瞬时分量位置的修改，最好是使用离散余弦变换。随后利用一个Hanning窗对所得到的正弦曲线表达式进行分析，找出瞬时分量的位置。Hanning窗的长度最好是大约512个样本(其中，一个样本的长度是一除输入信号的采样频率)，最好在256个样本的Hanning窗间有一个重叠。

输入信号最好被划分为多个时间段。时间段的长度可以在大约0.5s到2s之间，最好是1s。

相邻时段最好重叠，推荐重叠其长度的5％到15％，最好是时段长度的大约10％，该重叠可以是大约0.1s。在瞬时分量位于相邻时段重叠处时，在瞬时分量的位置最居中的时段内修改该瞬时分量的位置。

在相邻时段提供重叠，使得能够选择瞬时分量位置最居中的时段，或者，更重要的是，瞬时分量最远离该时段的开始和结束位置。

本发明还可对按照本发明第一方面编码的音频或视频信号进行译码。

依照本发明的一个实例的一个装置可以是一个音频设备，例如一个固态音频设备。

此处所描述的所有特性都可以任意组合形式，同以上的任一方面相结合。

本发明推荐实例提供了一种信号编码方法，该编码方法与以前所描述的方法相比，有更简化的分析过程，该编码方法与其等价方法相比有更低的计算费用，该编码方法能使描述一个分段信号所需的比特数更少。

在译码器端，可以在比特流中包含附加的边信息以恢复经过扭曲的信号。通过合适的去扭曲，可以避免立体信号的时间偏差。

下面，参照附图，以举例的方式描述本发明的具体实例。

图1显示了对于第一实例，在对一个音频信号进行约束分段的情况下，对于一个原始瞬时分量和一个时间移位瞬时分量来说，一个阻尼正弦模型的性能；

图2显示了一个原始瞬时分量及其有25个阻尼正弦曲线的重构形式；

图3显示了对于第一个实例，一个时间偏移瞬时分量及其有25个阻尼正弦曲线的重构形式；

图4显示了第一个实例中的音频信号编码方法所涉及的步骤的流程图。

图5举例说明了在一个第二实例中，瞬时分量位置的修改。

图6的内容类似于图5；

图7示出了一个原始瞬时分量及其重构；

图8示出了一个偏移后的瞬时分量及其按照第二个实例所得出的重构；

图9是一个流程图，描述了第二实例中包含的步骤；

图10概略示出了一个音频编码器和一个音频译码器，其中使用了此处所描述的方法。

此处所描述的第一种方法见图4，该方法使用一个约束时段，其中利用一个最小预定分段尺寸(在该例中用的是5ms，当然，也可以是别的尺寸)的整数倍来定义一个音频信号的段。鉴于该约束时段，修改音频信号中的瞬时分量，使其只能在一个段的起始位置开始。随后，对修改后的信号建模，该例中使用的是阻尼正弦模型。得到的是一个具有阻尼正弦曲线的瞬时分量的有效表达式。

音频信号编码所包含的第一个步骤是，修改信号中瞬时分量的位置，以使瞬时分量只出现在由相对较粗糙的时间格定义的位置，如以下将介绍的。为了修改音频信号中瞬时分量的位置，需要采取以下步骤：

1.估计一个原始音频信号中的瞬时分量并将其从原始音频信号中减去，生成一个残余信号。

2.随后，修改所估计瞬时分量的位置，其方式是，瞬时分量只能出现在指定在一个网格上指定的位置处。

已经证实，在瞬时分量的估计和修改期间，当已修改瞬时分量信号与以上第一步得到的残余信号相加时，所获得的信号与原始音频信号之间感觉不到区别。

为修改瞬时分量位置，必须对要编码的原始音频信号的瞬时分量进行估计。在音频信号的参量编码中，可能使用不同的瞬态模型。已经使用过的一个瞬态模型的例子是基于时域和频域之间的二元性的，见于“Transient modeling synthesis：a flexibleanalysis/synthesis tool for transient signals”(国际计算机音乐会议文集，pp 25-30，1997)。

更具体的，以上参考文献中出现的瞬态估计模型是基于时域和频域之间的二元性的。时域中的一个单位脉冲对应于频域中的一个正弦波。此外，时域中的一个陡的瞬时分量对应于一个频域信号，该信号可以有效地由一个正弦波的和表示。更具体的，利用以下步骤来估计瞬时分量：

1.利用一个离散余弦变换(DCT)将一个时域段变换到频域。段的大小(等价于DCT大小)应该足够大，以确保一个瞬时分量在时间上是一个小的事件(因此，在变换到频域后，该瞬时分量可以由正弦曲线有效地建模)。已经发现，大约ls的块长是足够的。

2.利用一个正弦模型分析频域(DCT域)信号。已经使用过的一个例子是一个具有Hanning分窗正弦波的一致性迭代正弦分析/综合，见于“High quality consistent analysis-synthesis insinusoidal coding”(声频技术协会第17次会议论文集“Highquality audio coding”，pp 244-250，1999)。

一个DCT域段的正弦分析是逐段进行。其结果是，DCT域段表示为：

S_{i} (l) = Σ_{j = 1}^{J} h (l) A_{i, j} \cos (ω_{i, j} (l - \frac{L - 1}{2}) - φ_{i, j}) - - - (1)

l＝0，…，L-1， I＝1，…，I

其中，L是正弦段的长度(正弦段之间的偏移是L/2)。正弦段的长度L是DCT大小N的一小部分。H(1)是Hanning窗的样本，{A_ij，ω_ij，φ_ij}分别是所估计正弦波的幅值，频率和相位。下标i表示DCT域段中的一个具体正弦波段，下标j表示该正弦波段中的一个具体正弦波。有关时域段中一个瞬时分量位置的信息包含在相应正弦波的频率参数中。一个段开头处的一个瞬时分量得出低的正弦频率，而一个段结尾处的瞬时分量得出高的正弦频率。正弦模型的频率分辨率由估计瞬时分量位置时所要求的分辨率决定。若所要求的时间分辨率是一个样本，则所要求的频率分辨率由DCT大小的倒数定义。

由于时域段中瞬时分量位置和相应正弦波频率之间的二义性，修改瞬时分量位置的一个明显的途径是修改相应的频率(在相位参数中加一个校正)。时域段中瞬时分量的位置记为n₀，离一个时间网格最近的允许位置被记为

。这样，所期望的时间偏移被定义为：

Δn = n_{0} - \hat{n} - - - (2)

为了将瞬时分量的位置移动Δn，对应于该瞬时分量的频率ω_ij和相位φ_ij应按下式修改：

{\hat{ω}}_{i, j} = ω_{i, j} - \frac{Δnπ}{N} - - - (3)

{\hat{φ}}_{i, j} = φ_{i, j} + \frac{Δnπ}{N} (\frac{L - 1}{2} + (i - 1) \frac{L}{2}) - - - (4)

幅值A_ij不需要改动。

应指出，上述过程与正弦参数的独立量化不同。与一个瞬时分量相对应的所有频率都按同样的数量修改。这一过程同上面公式(4)中的相位校正一起，确保了能够保留时域瞬时分量的形状，而只改变位置。

由于DCT的大小相对较大，因此，在一个时域段中可以出现不止一个瞬时分量。在这种情况下，该模型必须识别与不同的瞬时分量相对应的正弦参数。其做法是，将相近的正弦频率ω_ij声明为代表同一个瞬时分量。具体地，频率相差不大于ε_ω的两个正弦波代表同一个瞬时分量，频率相差大于ε_ω的两个正弦波代表不同的瞬时分量。这样，就可以独立地改变所有瞬时分量的位置。以下，当参考一组频率ω_ij时，也即参考与一个具体的瞬时分量相对应的频率。

一个瞬时分量可以出现在一个时域段的开始或结尾处。在这种情况下，对正弦频率的修改可得出低于0或高于π的频率。这就引起时域瞬时分量形状的失真。为补偿这一点，允许在时域段(0.1秒)间进行叠加。此时，一个瞬时分量可以出现在两个叠加段中，即，出现在互相重叠的区域中。由于该重叠区域足够大，若该瞬时分量离重叠段之一的边界非常近，则它位于另一个段边界的安全距离处。此时就可以直接从正弦波的频率识别瞬时分量的位置，因此，很容易知道两个重叠段中的估计正弦波频率，以识别一个瞬时分量何时出现在这两个段中。若出现这样一种情况，则在该瞬时分量距离相应的边界较近的段中，取消该相应的正弦波。

一个典型的瞬时分量持续不止一个时间采样。一个很自然的问题时，哪里是该瞬时分量的位置n₀。在位置修改之后，该瞬时分量的相应样本将被放置在位置

，位置对应于由时间网格定义的一个段的开始处。因此，重要的是估计值n₀对应于瞬时分量的起始位置。已经证明，以下将描述的时域方案能得到好的结果。首先，识别出对应于频率值最小min(ω_ij)和最大max(ω_ij)的时间采样n_min和n_max，这里，ω_ij是与一个特定瞬时分量相对应的正弦频率。随后，找出时间段[n_min，n_max]内所估计的瞬时信号的最高幅值。然后，瞬时分量n₀的开始样本被定义为时间段[n_min，n_max]内的第一个样本，其幅值高于最高幅值的10％。

一般，一个音频信号的估计瞬时分量包含小幅值的样本(在样本n₀之前)。由于时间采样n₀被声明为该瞬时分量的第一个样本，并且在该瞬时分量之前由ε_ω定义的一个距离内不会出现瞬时分量，因此，n₀之前相应的采样必须是零幅值。其结果是，这些样本被划归残余信号，具有其原始幅值。

在按照以上所描述方法估计并修改瞬时分量位置之后，可以对已修改信号建模，以便对其进行编码。

一个阻尼正弦模型被用于对已修改信号建模，其目的在于利用一个具有指数调制模型的正弦波之和近似一个信号s，即：

= Σ_{m = 1}^{M} γ_{m} P_{m}^{n}, n = 0, . . . K - 1

其中，

γ_{m} P_{m}^{n} &Element; C,

k∈N是段的长度。公式(5)将(n)表示为M个阻尼(复)指数之和。参数γ_m决定初始相位和幅值，而P_m决定频率和阻尼。为了确定M个指数的参数γ_m和P_m，使用了匹配追踪算法，其描述见于“Matching pursuits with time-frequency dictionaries”(IEEE信号处理学报，第41期，pp 3397-3415，1993年12月)。匹配追踪算法利用一个对从一个冗余词典中选出的元素进行的有限扩充来近似一个信号。令D＝(g_r)_reг为一个单位范数元素的完全词典。匹配追踪算法是一个渴求迭代算法，它将一个信号s投影到与该信号最匹配的词典元素g_r上，并减去该投影以生成一个残留信号，在下一次迭代中在对该残余信号进行近似。寻找最佳的匹配词典元素的步骤包括计算内积＜s，g_r＞并挑选使该内积最大的元素。为了找出参数γ_m和P_m，需要构造一个包含阻尼指数的词典，g_α，v＝ce^αne^ivn，n＝0，…，K-1 (6)

此处引入常数c，以具备单位范数词典元素，并计算第m次迭代时的残余信号S_m和公式6中所定义的词典元素的内积：

< S_{m}, g_{α, v} > = c Σ_{n = 0}^{K - 1} S_{m} (n) e^{αn} e^{- ivn} - - - (7)

对于不同的α值，在一个半径为e^α的复z平面中的圆上计算变换函数S_m(Z)。

以上所述方法已经进行过试验验证，以下给出在音频信号上执行的计算机仿真和非正式的听音测试的结果和讨论。所选用的音频选段是一个响板信号，由ABBA，Celine Dion，Metallica演唱的歌和Suzanne Vega的发音。信号的采样率是44.1kHz。DCT大小为44288个样本(大约1s)，时域段间的重叠时4410个样本(0.1秒)。DCT域信号的正弦分析是利用长度为512个样本并且互相重叠256个样本的Hanning窗进行的。该信号的瞬时分量被估计并被减去以生成残留信号。随后，按照220个样本(大约5ms)的一个时间网格改变该瞬时分量的位置。

确保瞬时分量位置的改变不会引入任何可闻失真是很重要的。要验证这一点，就要将已改变的瞬时分量与残余信号相加。然后进行听力测验以验证所得到的信号听起来与原始音频信号没有区别。

下面，介绍这一修改过程所带来的性能改善。还将讨论对于原始瞬时信号(即，开始于任意位置处的瞬时信号)和修改后的瞬时信号(开始于一个段的起始处的瞬时信号)来说，使用约束分段的阻尼正弦模型的性能。找出阻尼正弦波的最佳约束时段(最小段大小为220个样本)的技术见于“Flexible tree-structured signal expansionsusing time-varying wavelet packets”(IEEE信号处理学报第45期，pp 333-345，1997年2月)。利用信噪比(SNR)-阻尼正弦波数(NDS)来研究其性能，并在图1中举例说明，其中，显示了一个响板信号的特定瞬时分量的结果；A代表原始瞬时分量，B代表移位后的瞬时分量。该修改过程可以使按一定质量复现该瞬时信号所需的阻尼正弦波数量更小(与修改以前的情况相比)。图2和图3中下面的曲线，分别示出了利用原始和修改后的瞬时分量的25个阻尼正弦波进行的重构。在这些图中，t[ms]以微秒表示时间。原始瞬时分量没有位于段的开始处，其结果是，建模误差分布到了该瞬时分量之前的样本。引起可闻前回波。反之，修改后的瞬时分量位于该段的开始处，其结果是消除了前回波问题。

图4示出了第一实例的一个流程图，其中包括步骤S1到S6，这里：

S1表示：通过到频域的变换，估计一个原始信号中一个第一时间段内瞬时分量的位置。

S2表示：通过修改相应的频率，将空间域中该瞬时分量的位置改到一个预定时标上的位置。

S3表示：通过到频域的变换，估计该瞬时信号的第二和随后的段中瞬时分量的位置。

S4表示：通过修改相应的频率，将空间域中瞬时分量的位置改到一个预定时标上的位置。

S5表示：将一个音频信号分解为瞬时分量，音调和噪声分量。

S6表示：重新组合被分解的信号以便传输或回放。

在一个完全精确的可变分段(不进行信号修改)情况下，也可能得与上述情况类似的改进。不过，约束分段和修改过程所需的总的计算量非常低。而且，需要非常少的边信息来描述该约束分段。

编码方法的第二个实例包括一个不同的估计输入信号内瞬时分量位置的方法和一个不同的修改过程。改变瞬时分量位置的方法是，该瞬时分量只能位于一个正弦段的开始位置，该正弦段是由一个指定的段大小定义的(可以是5ms)；这被称为约束分段，相应于第一个实例中的约束分段。参考一个正弦段的开始处等于参考第一个实例中一个时间网格开始处；有关正弦波只简单地提及所用的建模过程。

第二个实例与第一个实例的相同点在于，改变瞬时分量的位置以改善信号，特别是音频信号的模型。不过，该第二实例提供了一种改变瞬时分量位置的改进方法。

总结第一种方法，利用一个基于输入信号的时域和频域之间的二元性的模型，估计瞬时分量的位置，修改该输入信号；减去该瞬时分量；改变该瞬时分量的位置，使它们只能开始于正弦段和一个约束段的起始位置；将修改后的瞬时分量加入残余信号中获得一个修改后的音频信号。

概括来说，第二实例的方法包括：利用一个使用两个滑动矩形窗的基于能量的方案(见于“Audio subband coding with improvedrepresentaton of transient signal segments”(EUSIPCO论文集，pp 2345-2348，Greece 1998)，在此引用以供参考)，检测瞬时分量和音频信号的起始和结束位置；随后，将所识别出的瞬时分量移动到由一个选定时间网格或正弦分段网格指定的位置；并对识别出的瞬时分量之间的信号部分进行时间扭曲，以填满改变后的瞬时分量间的间隔。

瞬时分量检测方案的描述见于前面提到的“Audio subband codingwith improved representation of transient signal segments”，该方案是根据对判别函数c(n)的估算：

C (n) = \log (\frac{E_{R} (n)}{E_{l} (n)}) \cdot E_{R} (n),

E_{l} (n) = Σ_{k = n - N}^{n - 1} s^{2} (k), E_{R} (n) = Σ_{k = n + 1}^{n + N} s^{2} (k),

这里，n是时间采样，E_l(n)和E_R(n)是该时间采样n左侧和右侧长度为N的矩形窗内的输入信号能量。判别函数C(n)中明显的峰值对应于瞬时分量的起始点。通过搜索瞬时分量开始点之后，第一个刚刚低于某阈值的值C(n)，定义一个瞬时分量的结束点。

一旦利用上述方法找到了瞬时分量的开始和结束位置，就能有效地利用一个剪切和粘贴方法，简单地将其从信号中移出并重新放置在指定的正弦段网格上最近的位置。该过程的这一部分很直接，并且对于本技术专业人员来说易于实现。

由于瞬时分量位置的改变，一个音频信号中两个连续瞬时分量间的距离会变得较长(例如，若一个向前移并且另一个向后移)，或者该距离会变得更短(例如，第一个瞬时分量向后移并且第二个瞬时分量在时间上向前移)。在图5中瞬时分量变化的例子中，该距离增加了，而在图6的例子中瞬时分量间的距离缩短了。为了填满修改后的瞬时分量间的间隔，必须以一些方式改变其间的信号部分，以允许瞬时分量间更大或更小的距离。

通过时间扭曲的方法来改变该信号，这是通过这样一种方式进行的，即，保持瞬时分量间该信号边界点的正确幅值，从而，在一个瞬时分量之前或之后，没有引入不连续性，如以下将介绍的。该时间扭曲使得瞬时分量间的信号伸长(如图5所示)或压缩(如图6所示)了。为了根据原始样本的已知幅值计算新的整数采样位置处的幅值，使用了一个基于sinc函数的有限带宽插补方法(有限带宽插补方法的描述见于Proakis和Manolakis所著的“Digital Signal Processing.Principle，Algorithms and Applications”，Prentice-HallInternational，1996)。使用修改后的Hanning窗。为了计算每个新样本的幅值，需要使用8个原始样本的幅值，在新样本的每一侧使用四个。

一个信号的伸长或压缩会引起音调信号中基础频率f₀的一个相应变化。该修改过程的目的是确保所引入的f₀的变化不被听到。

为了获得这种修改，使用以下算法对两个被标识并修改的瞬时分量间的信号部分进行时间扭曲；

(a)若所要求的两个瞬时分量间信号部分长度的变化引起的f₀的变化不超过0.2％，则只需简单地对该信号使用基于sinc函数的有限带宽插补方法。在图5a和图6a中示出了这种情况的例子。若f₀的改变大于0.2％，则使用随后的步骤b)。

使用0.2％这一限定条件的原因是：从心理声学的文献中已知，音调的f₀变化0.2％就可以被听见，其描述见于“An introduction to thepsychology of hearing”(学术论文，1997)。我们自己的试验也验证了这一点。

(b)该信号部分在两个瞬时分量之间划分为两个不重叠的区间；第一个区间紧挨在第一个瞬时分量之后并持续10ms(如图5b和6b中的区间1)，第二个区间是剩余部分，即，它一直持续到第二个瞬时分量开始(如图5b和6b中的区间2)。按不同的数量修改两个区间的长度。若所要求的两个瞬时分量之间信号部分长度的改变可通过下列方式完成，即，第一区间内f₀的变化小于2％，第二区间内f₀的变化小于0.2％，则这两个区间内的信号相应地被时间扭曲(如图5b和6b下半部分所示)。否则，转入以下将描述的步骤c)。

步骤b)的原因是，紧挨在一个瞬时分量之后的区间是瞬时分量的掩蔽效果最强的区间。因此，在这一区间内的信号能被听见之前，对它们进行更大的改变是可能的。我们的试验证实，在紧挨在一个瞬时分量结尾处之后的10ms的区间内，对f₀进行小于2％的修改是听不见的。

(c)对两个区间内的信号进行时间扭曲，使得f₀的变化在区间1内小于0.2％，在区间2内小于2％。若所得到的长度变化不足以填满移位后瞬时分量之间的距离，则随后使用一个重叠相加过程，该过程使用一个修改的Hanning窗，利用来自两个区间的样本，以增加或减小该信号的长度。为确保两个区间之间的平滑过渡，所选择的重叠相加区间的长度应比所要求的大，以获得两个瞬时分量之间信号的正确长度(图5c和6c)。

在图5和6中，用小箭头表示瞬时分量的新的开始位置。在图5中，两个瞬时分量之间的信号部分变得更长了。在图6中，两个瞬时分量之间的信号部分变得更短了。在图6c的较低部分，为清楚起见，显示了一个小的垂直位移。

已经执行了第二个实例的方法的各种计算机仿真，以及非正式的听音测试。所使用的音频片断有：响板，低音，小号，Celine Dion，Metallica，harpsichod，Eddie Rabit，Stravinsky和Orff。信号以44.1kHz采样。按照220个样本(大约5ms)的时间网格改变瞬时分量位置。

确保瞬时分量位置的改变不会引入任何可闻失真是很重要的。已经进行过的听音测验证实，修改后的信号听起来与原始音频信号没有区别。

下面证明由于该修改过程所带来的信号建模方面的改善。对一个原始瞬时信号(在任意位置开始的瞬时信号)和一个修改后的瞬时信号(如本发明所定义的，在一个段的起始位置开始的瞬时信号)的约束分段阻尼正弦模型的性能进行了比较。图7和8的下半部分分别显示了对原始和修改后的瞬时分量所作的利用25个阻尼正弦波进行的重构。原始瞬时分量没有位于一个段的开始处，因此，建模误差分布到了瞬时分量之前的样本。这会引起一个可闻的前回波，由图7的下半部分中5ms和7.5ms之间的信号幅值表示，在图7上半部分的原始瞬时分量中，没有该幅值。反之，已修改瞬时分量位于该段的开始处，因此，消除了前回波，如图8所示，图中上半部分和下半部分的信号幅值都在5ms之后立即从零变化，即在同一时间变化。

图9显示了第二实例的流程图，包括步骤T1到T6：

T1表示：通过一个基于能量的方法，估计一个输入信号中第一时间段内瞬时分量的位置(开始位置和结束位置)。

T2表示：通过剪切和粘贴，将瞬时分量的位置改到一个预定时标上的位置，并对瞬时分量之间的信号部分进行时间扭曲。

T3表示：估计该输入信号的第二和随后的段中瞬时分量的位置。

T4表示：利用上面的方法改变瞬时分量的位置，并对瞬时分量之间的信号部分进行时间扭曲。

T5表示：将一个音频信号分解为瞬时分量，音调和噪声分量。

T6表示：重新组合被分解的信号以便传输或回放。

第二实例中描述的方法提供了一种更通用的过程并提供了好的结果，是对第一个实例的改进。时间扭曲的应用是基于对声音感知方面的认识，并且，第二实例的过程实现和应用起来复杂度更低。

与以前的技术方法和第一实例相比，第二实例的优点在于：瞬时分量检测模型更通用，并能为各种瞬时分量提供好的结果，不仅仅是对短的瞬时分量。还有，对瞬时分量之间的信号部分的时间扭曲是基于对声音感知属性的认识，例如音调感觉和瞬时掩蔽效果。另外，第二实例的方法可以使计算复杂度明显降低。

此处描述的两种方法都提供了一个特别有利的音频和视频信号编码方法。尤其是，约束瞬时分量的位置能明显地简化音频编码器中的分析过程(包括瞬时，正弦和噪声模型)。而且，由于在所描述的两个实例中经常使用约束分段，因此，与相应的分段有关的边信息也减少了。

另外，所引入的瞬时分量位置的差别在感觉上并不重要。

该方法可以在用来存储，发射，接收或复现音频和/或视频信号的设备(例如固态音频设备)中实现。图10显示了一个音频编码器10和一个音频解码器12，分别用于接收一个音频信号(A)以便编码和一个编码信号(C)以便解码，解码器12输出音频信号A。特别是，音频编码器可以包含在一个发射或记录设备中，还包括一个源或接收机，用来获得音频信号，和一个输出单元，用来向一个传输介质或存储介质(例如一个固态存储器)发射/输出编码信号。对于立体声信号，在声音的定位(即，对距离声源的方向和距离的感觉)中起主要作用的是一个信号到达两个耳朵的时间和强度。更准确地说，是信号到达两只耳朵的时间差(两耳时差)和强度差(两耳强度差)形成所谓的立体感。此处，我们论及音频信号的时间变化是为了有效地建模。因此，以下我们重点考虑所引起的两耳间(信道间)时间差。

信道间时间差的可闻性和瞬时分量及其前向部分在形成立体感觉时的相对重要性由许多因素决定，包括声音的周期，频率内容，重复率(瞬时分量)。不过，重要的结果是，仅仅10微秒级的信道间时间差就能被听觉系统检测到(利用来自瞬时分量和前向部分的线索)。

在改变瞬时分量位置的时候，由于时间偏移和时间扭曲，前向部分也被改变，即，出现了两个重点线索。因此，必须留意不要破坏原来的立体感。

如果将两个立体信道中瞬时分量的位置都改变到正弦段的开始位置，则可以获得一个有效的阻尼正弦模型。不过，两个信道中独立的改变常会破坏立体感。对这一问题的一个可能的解决方法是在利用阻尼正弦曲线建模之前，按照正弦分段改变瞬时分量的位置，并向译码器发送附加信息，该附加信息描述两个信道中相应的瞬时分量之间原来的时间差。随后，在译码器中，根据该原来的时间差，对其中一个信道中的合成信号去扭曲。其结果是，合成的瞬时分量的位置通常与其原来的位置不同，但能够保持两个瞬时分量间的信道间时间差。这一解决方法特别适用于高度相关的立体信道，能得到低信道间时间差的相似的检测瞬时分量。

应指出，上述实例是为了例证本发明，并非为了限定本发明，本技术专业人员可以设计许多不同的实例，并不脱离附加权利要求的范围。在权利要求中，括号内的任何参考符号并不限定该权利要求。“包含”一词并不排除出现一个权利要求中所列出元素之外的元素的可能性。本发明可由包含若干分立元件的硬件实现，也可通过适当编程的计算机实现。在一个列举了若干元件的设备的权利要求中，这些元件中的若干个可由同一项硬件实现。一些方法是在互相不同的相关权利要求中陈述的，这并不表明不能使用这些方法的一个组合。

总的来说，一种改进的复现音频信号中的瞬时分量的方法包括：改变瞬时分量的位置，使其只能出现在一个正弦段的开始位置。该修改过程包括以下步骤：

-利用一个带两个滑动矩形窗的基于能量的方案，确定一个瞬时分量的开始和结束位置；

-将该瞬时分量开始和结束位置之间的采样移动到由所用的分段方法指定的位置；

-对瞬时分量间的信号部分进行时间扭曲，以填充改变后的瞬时分量之间的区间。

Claims

1.一种编码输入信号的方法，该方法包括：

-估计输入信号的一个时间段内至少一个瞬时分量的位置；

该方法的特点在于：

-改变该瞬时分量的位置，使其出现在一个预定时标上的一个指定位置，获得一个改变后的瞬时分量；并

-对该改变后的瞬时分量建模。

2.权利要求1中所声明的编码方法，其中每个瞬时分量都被重新放置在预定时标上的多个可能位置中最近的一个指定位置处。

3.权利要求1中所声明的编码方法，其中预定时标上的指定位置是由一个预定的最小时段大小的整数倍定义的。

4.权利要求3中所声明的编码方法，其中该预定的最小时段大小的长度范围是从大约1毫秒到大约9毫秒。

5.权利要求1中所声明的编码方法，其中利用正弦曲线建模，以表示改变后的输入信号。

6.权利要求1中所声明的编码方法，其中对输入信号的音调和/或噪声分量也使用一个约束时间分段。

7.权利要求1中所声明的编码方法，其中利用一个基于能量的方案来估计瞬时分量的位置。

8.权利要求7中所声明的编码方法，其中利用两个滑动窗来估计瞬时分量的位置。

9.权利要求1中所声明的编码方法，其中瞬时分量的位置包括每个瞬时分量的一个开始位置和一个结束位置。

10.权利要求1中所声明的编码方法，其中利用一个剪切和粘贴方法，将每个被定位的瞬时分量从其原来的位置移开，使其开始于预定时标上的一个位置。

11.权利要求10中所声明的编码方法，其中，对输入信号的剩余部分(即两个已定位并已被改变位置的瞬时分量之间的信号部分)进行时间扭曲，以填满重新定位后留下的缺口。

12.权利要求11中所声明的编码方法，其中，时间扭曲是伸长或缩短所述剩余部分。

13.权利要求11中所声明的编码方法，其中，时间扭曲保留修改后信号边界点的幅值。

14.权利要求11中所声明的编码方法，其中，在剩余部分的基频变化小于0.3％的地方，通过插补的方法执行时间扭曲。

15.权利要求11中所声明的编码方法，其中，在剩余部分的基频变化大于或等于0.3％的地方，剩余部分被划分为一个紧挨在已修改瞬时分量之后的第一长度，和一个第二长度。

16.权利要求15中所声明的编码方法，其中，第一长度大约是8ms到12ms。

17.权利要求14中所声明的编码方法，其中，在插补方法不足以填满剩余部分中的缺口时，使用一个重叠相加过程。

18.权利要求1中所声明的编码方法，其中利用一个到频域的变换来改变每一个瞬时分量的位置。

19.权利要求1中所声明的编码方法，其中，该方法包括将边信息包含在已建模的改变后的信号中，该边信息描述至少两个信道中对应的瞬时分量之间的原始时间差。

20.一种译码方法，包括接收一个已建模的改变后的信号，该信号中，至少两个信道的瞬时分量的位置已被改变，已建模的改变后的信号还包括边信号，该边信息描述对应的瞬时分量之间原始的时间差，该方法包括：

为至少两个信道合成一个综合信号，并

根据原始的时间差，对该合成信号去扭曲。

21.一个已建模的改变后的信号，其中，至少两个信道中瞬时分量的位置已被改变，该信号还包含边信号，该边信息描述至少两个信道中对应的瞬时分量之间的原始的时间差。

22.一个存储介质，其上存储权利要求21中所声明的已建模的改变后的信号。

23.译码器包括：

接收装置，接收一个已建模的改变后的信号，其中，至少两个信道中瞬时分量的位置已被改变的，该信号还包含边信号，该边信息描述至少两个信道中对应的瞬时分量之间的原始时间差，和

合成装置，用于为至少两个信道合成一个合成信号，并根据原始的时间差对该合成信号去扭曲。

24.音频播放器，包含一个如权利要求23所述的译码器，和一个用于复现去扭曲合成信号的复现装置。

25.信号编码装置(10)包含一个电子处理器，用于：

-估计一个音频或视频信号的一个时段内的一个或多个瞬时分量的位置；

其特点在于，该处理器能改变每一个瞬时分量的位置，以使每个瞬时分量都出现在一个预定时标上的一个指定位置，并且，该处理器能对改变后的输入信号建模。

26.权利要求19中所描述的装置(10)是一个音频设备。