CN1315033A

CN1315033A - 用于音频信号的时标和/或间距修改的信号处理技术

Info

Publication number: CN1315033A
Application number: CN99810151A
Authority: CN
Inventors: S·M·J·赫克
Original assignee: SIGMA AUDIO RESEARCH Ltd
Current assignee: SIGMA AUDIO RESEARCH Ltd; Sigma Audio Res Ltd
Priority date: 1998-08-28
Filing date: 1999-08-27
Publication date: 2001-09-26
Anticipated expiration: 2019-08-27
Also published as: CN1128436C; EP1127349B1; US6266003B1; JP2002524759A; EP1127349A4; AU5454899A; JP4527287B2; WO2000013172A1; EP1127349A1

Abstract

揭示了一种用于音频信号的时标和/或间距修改的信号处理方法。该方法涉及对波形编码和再合成,从而把波形采样成为一系列帧,把每个帧乘以一开窗函数,其中开窗函数的峰值近似于以每个帧的零点为中心。然后,使获得的函数经历快速傅里叶变换,从而产生一频域波形。把获得的波形与一可变核函数卷积,此可变核函数的特性随频率而变化。定位每个经卷积的帧的幅度谱中的最大值和相关的最小值,从而每个局部最大值和相关的最小值限定多个区域。每个区域相应于该信号的频率分量。通过对落在限定区域中的复数频率分量或箱加成一信号矢量来分开地分析频域表象中的每个区域。可有用地改变可变核函数,以实现信号频率范围内频率与时间分辨率之间的不同折衷。

Description

用于音频信号的时标和/或间距修改的信号处理技术

技术领域

本发明涉及数字信号的编码和处理。尤其是，本发明涉及音频信号的时标和/或间距(pitch)修改，但这不是排他的。同样，这里所述的信号分析和再合成方法不限于音频信号。可设想，本发明可找到以这里所述的(类似于子波)方法对其它信号进行编码的应用。这样的应用的一个例子包括图象压缩。实质上，本发明可应用于希望以不同的时间/空间分辨率同时分析频域不同区域的场合。

背景技术

在本领域内有许多公知的用于音频信号的时标/间距调制的现有技术。这些技术可大致如下分类。

(a)时域方法：

这些技术试图通过检测音频信号中的周期性活动来估计音乐信号的基本周期。通过此过程，输入信号被延迟且乘以未延迟的信号，然后在低通滤波器中对其积进行平滑，以提供自相关函数的近似测量。然后，使用自相关函数来检测可能隐藏在噪声中的一非周期性信号或一周期性差的信号。一旦找到音乐信号的基本周期，则重复此过程，并重叠信号经分析的部分。这些技术一个明显缺点是，大多数音频信号没有基本周期。例如，多音乐器、混响录音和打击声都没有可识别的基本周期。此外，在应用这些方法时，音乐中的瞬变被重复。这导致音符具有多个开始和结尾。该技术的另一个问题在于音乐的延迟部分的重叠可能产生金属、机械或表现出类似于回声性质的音频效果。

(b)正弦曲线分析方法：

这些技术假定输入信号由纯粹的正弦曲线构成。因此，这种方法的固有缺点是不言而喻的。

正弦曲线分析技术使用短时快速傅里叶变换(FFT)来估计组成正弦曲线的频率。然后，以一组音频发生器(tone generator)来合成得到的信号，以产生想要的输出。短时傅里叶分析通过选中的窗函数来俘获有关信号在一时间间隔内的频率内容的信息。这种技术的一个明显缺点是，把单个时域窗应用于该信号的所有频率内容，因此，信号分析不能准确地对应于人对信号内容的感觉。此外，常规的正弦曲线分析方法使用幅度谱的局部最大值搜索来确定组成正弦曲线的频率，包括考虑分析帧之间的相对相位变化。这一技术忽略了位于每一局部最大值附近的任何边带信息。其后果是把发生在单个分析帧内的任何信号调制排除在外，导致声音模糊不清(smearing)且几乎完全丢失瞬变。在音频的情况下，这样的瞬变的一个例子是吉它的弹拨。

(c)相位声码器(vocoder)方法：

这种类型的技术把快速傅里叶变换用作一大组滤波器，并分开地处理每个滤波器的输出。使用输入的两个连续分析之间的相对相位变化来估计每一箱(bin)内信号内容的频率。从此信息来合成获得的频域信号，把每个箱看作一个分开的信号。与正弦曲线分析技术不同，本方法保留了原始信号的频谱能量分布。然而，它破坏了任何瞬变信息的相对相位。因此，获得的声音模糊不清且类似于回声。

因此，针对现有技术，希望如此分析和处理音频信号，从而获得的输出保留原始信号的音调特性，并能准确地俘获瞬变声音，而不使输出信号变得模糊不清或引入类似于回声的性质。

相应地，本发明的一个目的是提供一种用于处理音频信号的技术，该技术实现了如上所述的目标，改善了已有技术中所固有的至少一些缺点，或至少给公众提供了一个有用的选择。此外，本发明的另一个目的是提供一种信号分析和合成方法，这一方法通常还可应用于信号的编码。

发明内容

在本发明的一个方面，提供了一种用于对波形编码和再合成的方法，该方法包括：

对此波形进行采样以获得一系列分立的样本，并由它们构成一系列帧，每个帧跨越多个样本；

把每个帧乘以一开窗(最好是升余弦)函数，其中开窗函数的峰值基本上以每个帧的零点为中心；

把快速傅里叶变换应用于每个帧，从而产生一频域波形；

把获得的频域数据与可变核函数(其特性随频率而变化)进行卷积；

对每个经卷积的帧的幅度谱中的局部最大值和周围的最小值进行定位，其中每个局部最大值及相关的最小值限定多个区域，每个区域对应于该信号的一个频率分量；以及

通过把落在限定区域内的复数频率分量的各箱求和成一信号矢量来分开地分析频域表象中的每个区域；其中可有用地改变可变核函数，以在信号的频率范围内实现频率与时间分辨率之间的不同折衷。

在一较佳实施例中，此波形相应于一数字化音频频率波形，其中可改变核函数以接近人耳的感觉特性。

在波形相应于一音频信号的情况下，最大值的位置相应于可感觉到的频率分量的间距。

该方法还可包括处理该信号同时把它表示为信号矢量的步骤。

此处理可采取修改间距或时标(音频信号中)或进一步简化(reduce)数据的形式，以适用于有效的信号存储和/或发送。

在修改音频信号的情况下，可根据需要移动被分析的信号矢量的频率位置和相位，以实现时间和/或间距的定标。

可通过把一等效信号(其分量相应于在分析原始信号中所确定的那些信号矢量)累积到频域中来实现转换回信号的经采样的时域表象。

最好，可应用逆快速傅里叶变换，从而可给出可被适当开窗和累积来产生经解码的信号的时域信号。

最好，通过主观地评价合成输出的质量，以经验来确定卷积函数的形式。

最好，把核函数对频域数据的应用实现为对所述数据的单极点(pole)低通滤波器操作，极点的位置随频率而变化。

最好，在分析音频信号的情况下，可通过以下形式的控制函数s(f)来指定极点：

s(f)=0.4+0.26arctan(41n(0.1f)-18)

这里，f是以赫兹为单位的频率(周期/秒)。

可通过以下关系来指定频域滤波器：

your(f)=[1-s(f)]yin(f)+s(f)yout(f-1)

最好，为了处理音频信号，分开地处理每个信号矢量；为了间距移动，把该分量的频率乘以实部值(real value)间距因子；为了间距移动和时标修改，计算和应用无低频干扰(glitch)重建必要的相移。

最好，本方法包括以下进一步的步骤：

使频域输出阵列为零，对于每个被分析的频率，把分量表示为被分析的信号矢量，把实部值频率映射到两个最近的整数值频率箱；以及

使被分析的信号矢量正比于1减去实部值频率及各箱的位置在两个箱之间分布。

在另一个方面，可按频率来平移(translate)获得的区域，从而对最大值的位置进行定标，同时平移周围的区域。

对于具有最大值以及第一和第二相关最小值的每个区域，为了音频信号的间距移动，以间距移动因子对帧中的每个最大值的位置进行定标，把第一和第二最小值之间的有关谐波信息平移到被定标的最大值周围的各个位置。

为了对信号进行时间拉伸(stretch)或压缩，使每个最大值保持频域中的同一位置，同时拉伸或压缩与最大值相关的频域带或谐波信息，从而拉伸谐波的幅度和频率调制，同时保持输入信号的间距。

此方法还可包括以下进一步的步骤：

对每一帧中的数据重新采样成为多个箱；

把每个箱映射到输出帧中的一个实部值位置，在该位置处，对于最大值在频率freqmax处的频带内的箱x而言，输出频域中的实部值位置为y，其中

y = {feeq}_{\max} \times shift + \frac{(x - {freq}_{\max})}{(scale)}

这里，shift等于频移，scale等于时间扩展比。

最好，y下舍入到小于或等于y的最接近的整数z，其中把输出箱z和z+1相加，以正比于1减去y与这些箱的整数位置之差。

在另一个方面，本发明提供了适用于上述方法的软件。

在又一个方面，本发明提供了适用于上述方法的硬件。

附图概述

现在将仅通过示例并参考附图来描述本发明，其中：

图1：示出本发明方法的一个实施例的简化示意方框图(分散于第28到30页)；

图2：示出本发明另一个方法的一个实施例的简化示意方框图(分散于第31到33页)；

图3：示出搜索最大值/最小值的过程的示意图；

图5a和5b：示出相对于两个最大值的间距和时间拉伸。

本发明的较佳实施方式

参考图1，简化的流程图示出信号处理方法的一个实施例中的所有步骤。为了清楚，此示意图分散于第15到17页。

把一输入的音频信号数字化成为帧10。然后如下处理每个这样的帧：

以(例如)宽的余弦函数30对每个帧10开窗(20)，从而产生输入信号帧10的经时域调制的表象。然后，把快速傅里叶变换50应用于该帧，从而产生输入信号60的频域表象60。

然后，以s(f)来确定参数的滤波函数71对频域数据60进行滤波。也可把滤波函数看作本例中的一个低通单极点滤波器。函数s(f)70指定了滤波器的行为如何随频率而变化。可通过以下的递归关系来描述滤波函数71：

yout(f)=[1-s(f)]yin(f)+s(f)yout(f-1)

因而，s(f)控制滤波器71的‘剧烈程度(severity)’。因此，实际上，把不同的卷积核用于每个频率箱。分开地卷积每个箱的实部和虚部。在本示例实施例中，滤波或卷积函数71具有使频域信息“模糊(blur)”的效果，因此可把卷积函数叫做模糊函数。频域数据的模糊或扩展相应于时域帧中等效窗口的变窄。因此，有效地计算了快速傅里叶变换的每个频率箱，就象在FFT操作前已应用不同尺寸的时域窗口一样。

滤波器的效果不一定是对数据进行模糊。例如，把时域样本平移窗口尺寸的一半使得必须对频域数据进行高通滤波，以在时域中实现等效的开窗。

按升序把频域滤波器71应用于每个箱子，然后按频率箱的降序应用。这保证了在频域数据中不引入相移。

本发明的一个关键方面在于，在处理音频频率数据的情况下选择控制函数s(f)，从而接近位于人耳内的耳底膜上的人体纤毛的刺激响应。实际上，如此选择函数s(f)，从而接近人耳的时间/频率响应。

在本较佳实施例中，通过估量输出或合成波形在变化环境下的质量，以经验来确定控制函数s(f)的形式。虽然，这是一种主观的过程，但已发现对合成声音的质量进行重复变化的评估产生了非常令人满意的卷积函数。

控制函数s(f)的一个较佳形式是：

s(f)=0.4+0.26arctan(41n(0.1f)-18)

这里，f是以赫兹为单位的频率(周期/秒)。

实际上，上述步骤类似于通过一大组滤波器来处理信号的有效方法，其中每个滤波器的带宽可独立地由控制函数s(f)来控制。

一旦应用滤波器71，则分析(90)经卷积的频域数据80，以确定局部最大值和相关局部最小值的位置。

为了执行此步骤，已发现，使用强度谱更有效。因此，对于每个频率，如果I(f)＞I(f-1)且I(f)＞I(f+1)，则该数据为局部最大值。如果I(f)＜I(f-1)且I(f)＜I(f+1)，则存在局部最小值。这里，

Mag (f) = \sqrt{real {(f)}^{2} + im {(f)}^{2}}

，强度(f)=real(f)²+im(f)²。

参考图2，使用每个最大值和相关的局部最小值来限定相应于原始音频频率信号中可听见的谐波的区域(由图3中的阴影箭头所示)。频域中最大值的位置相应于感觉到的谐波的间距，最大值周围的频域信息带代表该谐波的任何相关幅度或频率调制。由于重要的是不能丢失该信息，所以使用此峰值周围整个频带的总和来给出信号矢量。这样，分析样本的时间分辨率将与所发生的任何调制的带宽匹配。

依据以下技术分开地处理每个区域。确定每个最大值的位置的准确估计。参考图3中下面的图，大的箭头a(300)为三个强度箭头(max-1)中的最小强度与最大强度(max)之差。小的箭头b(310)为最小(max-1)与中间强度(max+1)之差。使用这两者之比来偏移整数最大值。

在图1中由标号130示意地示出间距移动和时标修改。在该点处，通过数据简化(133)或发送/存储(134)步骤示出其它应用。在图1中示出这些可供选择的选项。

依据以下方法再合成经处理的数据：

对于第ⅰ个经分析的频率分量，矢量(ⅱ)在频域输出中有一实部值位置y。

把y下舍入到小于或等于y的最接近的整数，并由z来表示。因而，z=Int(y)。

然后，正比于1减去y与此箱整数位置之差，把输出箱z和z+1与矢量(ⅰ)相加。

Bin[z]=Bin[z]+[1-(y-z)]矢量(ⅰ)

Bin[z+1]=Bin[z+1]+(y-z)矢量(ⅰ)

这里对复数实行所有的操作。

为了修改被分析信号的时标或间距，必须补偿任何相移，从而使合成的输出一致(即，无低频干扰)。为此，把任一帧中的输出信号及时向前移动固定的样本数。因此，对于给定的间距测量，可确定输出相位应变化多少，从而使输出平滑地与先前合成的帧相接。

然而，输入时间帧正移动一些其它的样本数。因此，在分析窗口通过输入数据时，被分析的相位值已改变。

因此，计算输入相位的变化率与输出相位的所需变化率之差。这些相位之差是多快地旋转分析与合成之间的频域数据的相位的量度。以上所限定的每个信号矢量都具有一频率测量值。使用该测量值来计算多快地旋转幅度为1的矢量，其中该矢量为复数表象。把该矢量乘以此信号矢量，以为合成提供必要的相移，而不影响每个区域的衰减(decay)特性或其它调制的定时。

由下式给出此相移(以弧度为单位)：

这里，t_r=样本中的重建时间步长，t_a=样本中的分析时间步长，t₂=样本中的FFT尺寸。

由于频率的测量值提供了一合成帧与下一合成帧之间相位差的量度，所以在合成进行时必须对这些差值累加。

把累积的和仅应用于一个区域，因此，必须从一合成帧到下一合成帧对区域进行跟踪。

已开发了方便的数据结构从一个合成帧到下一合成帧对区域进行跟踪，参照图4a和4b对此数据结构进行描述。一整数阵列包含在一区域内对应于该区域中所有箱的局部最大值的位置。一相应的阵列包含用来旋转该区域相位的最后一个相位值(以弧度为单位)。以与最大值的位置相同的索引在箱中存储此相位值。

因此，在分析一个新的帧并检测局部最大值时，使用最大值的位置来编索引至该整数阵列中。这样提供了前一个帧中所存在的最大值的索引。然后，使用该索引来访问该阵列，该阵列包含用于前一个合成帧中相应区域的最后一个相位值。这在图3a和b中示出，为此把分析帧n与最接近的最大值阵列和相位阵列一起示出。考虑第n+1个分析帧，第一频率最大值为7。从前一个帧开始，最接近的最大值阵列的相应第七个元为5。从前一个帧n开始，相位阵列帧的第五个元为12度。使用局部最大值的估计对此进行更新，然后用位置7存储在下一帧的相位阵列中。对于第二个区域410，从前一个分析帧n开始，最接近的最大值阵列的第十三个元给出16。从前一个分析帧n的相位阵列，给出相位为57度。使用频率估计来更新此相位值，并把它置于下一相位阵列的位置13中。

从已知的信号分量来构成信号的频域表象。对于每个信号矢量，把该矢量加到频域输出阵列。由于频率位置是实部值，所以来自信号矢量的能量分布于最接近的两个(整数值)箱的位置之间。然后，对频域表象进行逆傅里叶变换(第16页，图1中的150)，以提供合成信号的时域表象。由于在不同的频率处以不同的时间分辨率来分析信号，所以合成的时域信号仅在等效于所使用的最高时间分辨率的区域中才有效。为此，在以重叠的方式加到(172)最后的合成信号(180)前，以(相对)小的正余弦窗(170)对合成时域信号开窗(160)。

处理信息以实现间距移动和时间拉伸的一个变化(但等效)方法如下。

另一种方法基本上类似于第一种方法，它们共享开窗(420)、傅里叶变换(450)、滤波(460)、最小值和最大值检测(490)这些步骤。这两种方法之间的主要区别在于以下这点。第一种方法将每个区域的内容加成，而另一种方法明确地保留每个区域的内容(510)。然后，分别依据间距移动和时间拉伸因子平移每个区域的内容并进行定标(530)。对于间距移动操作，如此平移一区域的内容，从而按频率对最大值定标。对于时间拉伸操作，以时间拉伸因子对一区域的内容定标，从而最大值的频率不改变。

基本上如以上参考图4a和4b所述来实行相移补偿。为了合成输出，从傅里叶变换步骤未改变的输出拷贝待合成的频域数据，每次一个区域。以与第一方法相同的方式，把每个区域的内容累积到输出频域缓冲器中。

在实现这两种技术时有许多变化，这些变化对本领域内的技术人员来说是清楚的。然而，本发明的关键特征在于使用控制函数s(f)以不同频率改变频域滤波器。这样对随频率改变的等效时域数据产生了开窗的效果。在处理音频频率信号的情况下，选择此控制函数，以反映人体纤毛对音频频率范围的响应。虽然以经验来确定此曲线的形状，但可证明其它曲线适用于其它处理技术和应用。

本发明的进一步特征在于识别和定位最大值和相关的最小值。目前所揭示的技术在计算上是高效的，且允许对音频信号进行快速的高质量时间拉伸和间距移动。

实验表明，本技术所产生的声音的音调质量明显增强，相信这主要是通过保留局部频率最大值的边带中的谐波信息而实现的。

就本发明的实际实现而言，可设想以软件或硬件来实现该技术。在后者的情况下，硬件可形成诸如音频放音机等音频部件的一部分。本发明的潜在应用包括声音记录行业，在该行业中普遍需要音频信号处理/合成，以满足非常高的再现质量标准。其它应用包括在娱乐行业中的那些应用，可预期，本技术可能在想要改变间距和时间的声音再现/发送系统中有应用。还可预期，这些应用可能在普通的信号处理、数据简化和/或数据发送和存储中。在后一种情况下，可改变对特定卷积函数的选择。

在以上描述中已参考具有公知等价物的元或整数，包括这些等价物，就象它们被独立提出一样。

虽然通过举例并参考特定实施例描述了本发明，但可理解，可进行修改和/或改进，而不背离所附权利要求书的范围。

Claims

1．一种对波形编码和再合成的方法，该方法包括以下步骤：

对波形采样以获得一系列分立的样本，从这些样本构成一系列帧，每个帧跨越多个样本；

把每个帧乘以一开窗函数，其中此开窗函数的峰值基本上以每个帧的零点为中心；

把快速傅里叶变换应用于每个帧，从而产生一频域波形；

把获得的频域数据与可变核函数进行卷积，可变核函数的特性随频率而改变；

在每个经卷积的帧的幅度谱中定位局部最大值和周围的最小值，其中每个局部最大值和相关的最小值限定多个区域，每个区域对应于信号的一个频率分量；以及

通过将落在限定区域内的复数频率分量或箱求和成一信号矢量来分开地分析频域表象中的每个区域，其中可有用地改变可变核函数，以实现信号频率范围内频率与时间分辨率之间的不同折衷。

2．如权利要求1所述的对波形编码和再合成的方法，其特征在于开窗函数为升余弦函数。

3．如权利要求1所述的对波形编码和再合成的方法，其特征在于此波形相应于一数字化频率波形，其中改变核函数，以接近人耳的感觉特性。

4．如权利要求1所述的对波形编码和再合成的方法，其特征在于此波形相应于一音频信号，最大值的位置相应于感觉到的频率分量的间距。

5．如权利要求1所述的对波形编码和再合成的方法，其特征在于还包括处理该信号同时把它表示为信号矢量的步骤。

6．如权利要求1所述的对波形编码和再合成的方法，其特征在于所述处理采用适用于有效信号存储和/或发送的修改间距或时标(音频信号中)或进一步数据简化的形式。

7．如权利要求1所述的对波形编码和再合成的方法，其特征在于在修改音频信号的情况下，依据预定量移动被分析的信号矢量的频率位置和相位，以实现时间和/或间距的定标。

8．如权利要求1所述的对波形编码和再合成的方法，其特征在于通过把一等效信号累积到频域中来实现转换回到信号的经采样时域表象，其中该等效信号的分量相应于在分析原始信号中所确定的那些信号矢量。

9．如权利要求1所述的对波形编码和再合成的方法，其特征在于应用逆快速傅里叶变换，从而给出可被适当开窗和累积来产生经解码的信号的时域信号。

10．如权利要求1所述的对波形编码和再合成的方法，其特征在于通过主观地评价合成输出的质量，以经验来确定卷积函数的形式。

11．如权利要求1所述的对波形编码和再合成的方法，其特征在于把核函数对频域数据的应用实现为对所述数据的单极点低通滤波器操作，极点的位置随频率而变化。

12．如权利要求1所述的对波形编码和再合成的方法，其特征在于在分析音频信号的情况下，通过以下形式的控制函数s(f)来指定极点：

s(f)=0.4+0.26arctan(41n(0.1f)-18)

这里，f是以赫兹为单位的频率(周期/秒)。

13．如权利要求1所述的对波形编码和再合成的方法，其特征在于可通过以下关系来指定频域滤波器：

yout(f)=[1-s(f)]yin(f)+s(f)yout(f-1)

14．如权利要求1所述的对波形编码和再合成的方法，其特征在于为了处理音频信号，分开地处理每个信号矢量；为了间距移动，把该分量的频率乘以实部值间距因子；为了间距移动和时标修改，计算和应用无低频干扰重建必要的相移。

15．如权利要求1所述的对波形编码和再合成的方法，其特征在于本方法包括以下进一步的步骤：

使频域输出阵列为零，对于每个被分析的频率，把分量表示为被分析的信号矢量；

把实部值频率映射到两个最近的整数值频率箱；以及

16．如权利要求1所述的对波形编码和再合成的方法，其特征在于把频域中获得的区域绕每个最大值平移到不同的频率，最大值和获得的信号的位置是最大值的频率的倍数，从而对最大值的位置进行定标，同时平移周围的区域。

17．如权利要求16所述的对波形编码和再合成的方法，其特征在于对于具有最大值以及第一和第二相关最小值的每个区域，为了音频信号的间距移动，对帧中的每个最大值的位置定标，把第一和第二最小值与最大值之间的有关谐波信息平移到最大值周围的各个位置。

18．如权利要求16或17所述的对波形编码和再合成的方法，其特征在于为了对信号进行时间拉伸，使每个最大值保持频域中的同一位置，同时压缩与最大值相关的频域带或谐波信息，从而拉伸谐波的幅度和频率调制，同时保持输入信号的间距。

19．如权利要求所述的对波形编码和再合成的方法，其特征在于还包括以下进一步的步骤：

对每一帧中的数据重新采样成为多个箱；

把每个箱映射到输出帧中的一个实部值位置，在该位置处，对于最大值在频率freq_max处的频带内的箱x而言，输出频域中的实部值位置为y，其中

y = {freq}_{\max} \times shift + \frac{(x - {freq}_{\max})}{(scale)}

这里，shift等于频移，scale等于时间扩展比。

20．如权利要求19所述的对波形编码和再合成的方法，其特征在于y下舍入到小于或等于y的最接近的整数z，其中把输出箱z和z+1相加，以正比于1减去y与这些箱的整数位置之差。

21．一种依据如权利要求1到20所述的方法进行操作的软件。

22．一种构成执行依据如权利要求1到20所述的方法的装置。