CN102214464B

CN102214464B - 音频信号的瞬态检测方法以及基于该方法的时长调整方法

Info

Publication number: CN102214464B
Application number: CN201010139991.3A
Authority: CN
Inventors: 林中松; 商世东; 王生九
Original assignee: Freescale Semiconductor Inc
Current assignee: NXP USA Inc
Priority date: 2010-04-02
Filing date: 2010-04-02
Publication date: 2015-02-18
Anticipated expiration: 2030-04-02
Also published as: US8489404B2; CN102214464A; US20110246205A1

Abstract

一种用于检测音频信号中的瞬态的方法，所述音频信号分为帧，所述方法包括获得所述帧的时域特征以及将所述时域特征与预定值相比较。若所述时域特征大于所述预定值，则将所述帧判定为瞬态，并且若所述时域特征小于所述预定值，则将所述帧判定为非瞬态。本方法的计算开销较小，由此非常适用于处理源受限的设备。

Description

音频信号的瞬态检测方法以及基于该方法的时长调整方法

技术领域

本发明涉及数字信号处理，尤其涉及一种音频信号中的瞬态检测。

背景技术

音频信号的时长调整(Time-scale modification，TSM)是在保持音频原始特性(诸如基音、音色等)不变的前提下，调整音频信号的时间长度。TSM的目的系对听音速率进行调整的同时保持其原本的属性。

现已提出多种算法进行高质量的音频时长调整。采用时域的同步叠加法(synchronous overlap-and-add，SOLA)的时长调整算法，如波形相似叠加法(waveform similarity overlap-and-add，WSOLA)，可以以较低的计算开销达到非常好的效果，因此适用于实时合成系统。由W.Verhelst和M.Roelands提出的“An Overlap-Add TechniqueBased on Waveform Similarity(WSOLA)For High QualityTime-Scale Modification of Speech(IEEE 1993)”一文揭露了WSOLA算法的例子。

然而，当进行时长调整时，诸如起音和衰减之类的瞬态会被添加至音频或从音频去除，这两种情况都会引入伪差，从而导致可感觉的质量降级。可通过保持瞬态部分不对其进行调整来而使时长调整的质量有所增进。因此，需要瞬态的精确检测。

瞬态系指持续时间很短的音频信号，并且通常为高频噪声或者能量冲击的形式。图1为示出英文单词“too”的发音的波形图。“t”的未发声部分被认为是瞬态。图2为示出器乐曲中的能量冲击的波形图。所述能量冲击由信号中的尖峰信号表示。

由Shahaf Grofit提出的“Time-Scale Modification of AudioSignals Using Enhanced WSOLA With Management of Transients(IEEE 2008)”一文揭露了一种与公知WSOLA算法一起使用的瞬态检测方法以达成更佳的声音质量。所述文献提出了两种瞬态定位和选择方法。

第一种方法使用基于Mel频率倒谱系数(Mel frequency cepstrumcoefficients，MFCC)的距离函数。Mel倒谱是音频信号的一种最常见的频谱表示。其基于人类听觉系统的特性，如非线性频率感知和存在临界频带。基于和归一化互相关来对瞬态进行定位和选择。MFCC已知在多种语音及扬声器识别算法中非常有效。第二种方法使用归一化互相关数据，其作为叠加法的一部分进行计算。所述归一化互相关可用作瞬态检测的附加检测。

然而，这些方法的计算复杂性较高，且不适用于便携设备。因此，需要有改进的方法来检测音频信号中的瞬态。

发明内容

根据本发明提供的实施例，克服了上述以及其他问题，并且得到了其他的优点。

一实施例中，本发明提供了一种检测音频信号瞬态的方法，其中所述音频信号被分为多帧以进行处理。所述方法包括获得所述帧的时域特征并且将所述时域特征与预定值相比较。若时域特征大于预定值，所述帧则被认为是瞬态。若所述时域特征小于所述预定值，所述帧则被认为是非瞬态。

另一实施例中，本发明提供了一种带有瞬态检测的音频信号时长调整方法。所述音频信号被分为多帧以进行处理，然后如前所述地进行瞬态帧的检测。然后对所述多帧进行处理，其中使用相声码器或这WSOLA中的一个对非瞬态帧进行时长调整，并且对瞬态帧不进行时长调整。直接输出所述未经时长调整的帧。

附图说明

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。其中：

图1为单词“too”之发音的声音信号波形图，其中“t”的未发声部分被认为是瞬态；

图2为示出乐器中能量冲击的声音信号波形图；

图3为示出根据本发明实施例的瞬态检测的流程图；及

图4为示出基于WSOLA的优化时长调整处理方法的流程图，所述方法带有根据本发明实施例的时域瞬态检测。

具体实施方式

结合附图，下文以示例的方式详细描述了本发明的一或多个较佳实施例的。尽管本发明与这些实施例相联系，应理解，本发明并不限于任何实施例。与此相反，本发明的范围仅由所附之权利要求所限定，并且本本发明涵盖多种代替、修改及等同物。为了示范之目的，下文的描述中提出了许多具体的细节，以便完全理解本发明。

本发明提供了使用基于音频信号的时域特征测量以及时变阈值的瞬态检测方法。所述方法的计数开销较小，因此适用于手机、便携式数字录音机等计算能力受限的设备。

一些实施例中，基于时域特征的瞬态检测由两种判定标准的组合来达成，即，帧中的能量和过零率(ZCR)。

谓帧的能量系指帧的输出信号强度，并且其很容易计算获得。过零率是另一种容易计算得到的声音特征。一般而言，无声音的过零率大于具有清晰可辨之音高的有声音的过零率，因此是区别有声音与无声音的重要标志。此外，过零率还反应音频信号的频域特征。

过零率或者能量的巨大变化，都可认为是存在“瞬态”的良好表征。人的无声音的能量较低但过零率较高，而音乐起音的过零率较低但能量较高。因此，本发明既可用于人声的处理，也可用于音乐的处理。

现参考图3描述根据本发明第一实施例的瞬态检测方法。第一步骤30中，将音频信号分为多帧。当进行音频信号处理时，通常以“短时距分析”(Short-term Analysis)为主，因为音频信号在短时间内是相对稳定的，例如每帧20ms左右。帧若太大，就无法抓出音频信号的随时间变化的特征；反之，帧若太小，就无法抓出音频信号的有效声音特征。一般而言，帧必须能够包含数个音频信号的基本周期。一实施例中，待处理的音频信号的帧长为业界常用的20ms帧。

瞬态的持续时间通常非常短，例如，人声的不发声部分的时间小于20ms，一般持续4-5ms。因此，为了便于瞬态检测，最好将输入帧分为连续的等长小段。由此，一实施例中，将所述输入帧再分为等长的四小段。

在步骤S32，提取所述帧的时域信号。一实施例中，所述时域特征包括能量和过零率。提取时域特征的步骤如下所述。

计算输入帧的各段的能量，并且计算所述输入帧的过零计数。所述过零计数为当前段中前一样本与后一样本的符号发生变化的次数。由此，获得了输入帧中各段的能量和过零率。

接着，在步骤34中，使用各段的以上述方法提取的特征进行瞬态检测。并且，步骤36和38示出了步骤34的择一性结果，即，段(帧)被判定为瞬态(步骤36)，或者，段(帧)被判定为非瞬态(步骤38)。更具体地，若满足下列条件中的至少之一，输入帧的段则被判定为瞬态。比前一段的能量相比，具有预定量的能量的段被认为是瞬态。即，与前一段之间的能量差大于等于一个预定能量差值的段，被认为是瞬态。

过零率过高的段也被认为是瞬态。更具体地，其过零率大于等于预定过零率值的段被认为是瞬态。一实施例中，所述预定过零率值为输入音频信号的平均过零率。步骤40中，(一实施例中该步骤在步骤36和38之间进行)，更新各帧(也可能是各段)的所述预定能量差值和预定过零率值。

本发明的一实施例中，仅在当前段未被判定为瞬态时对所述预定能量差值和平均过零率进行更新。一些实施例中，一些实施例中，可使用作为经验值的适应系数来计数平均过零率，以更精确地调整所述平均过零率。

这些阈值(即，预定能量差值和平均过零率)的判定是一种平衡。若选择的阈值过低，则仅能检测出很少瞬态而会对其他瞬态进行时长调整，从而导致音频信号质量的降级。若阈值过高，音频信号中的大部分会不经过时长调整而直接进行输出，从而导致音速失真。所述设定值与采样率以及音频特性无关。

重复步骤30-40，直至对所述音频信号的所有帧进行了处理。

现参考图4描述根据本发明的瞬态检测的第二实施例。图4为示出示于WSOLA的优化时长调整处理方法的流程图，所述方法带有根据本发明实施例的时域瞬态检测。为了举例说明，本实施例的输入音频设为16位的单声道/立体声音频。然而，如本技术领域的技术人员所应理解的，本发明还可应用于其他音频信号，如32位信号。

本时长调整方法可以以运行在处理器上的软件、软件和硬件的组合、甚至是定制电路实现。本发明的较佳实施例中，本方法以在微处理器上执行的软件实现。所述软件包括一些常量，包括：(1)每样本的段的数量；(2)用于瞬态检测的能量比；(3)过零率的高阈值；(4)过零率的低阈值；(5)用于平均过零率计算的适应系数；及(6)输入音频信号的两帧之间的绝对差的最大值。

如前所述，将输入音频分为多帧，并且将帧分为多段。较佳地，帧长相等(例如，20ms)，并且段长相等(例如，4ms)。如下文将详述地，数据的两帧可一起用于瞬态检测。即，若检测到瞬态，该帧的数据可与前一帧的数据的部分或全部进行比较，以用于WSOLA合成。

图4示出了包括两个基本阶段的方法，即瞬态检测阶段50和WSOLA阶段52。首先，接收音频信号并且将其提供值瞬态检测阶段50。在第一步骤54中，进行瞬态检测，所述瞬态检测包括接收音频数据的帧。将接收到的帧分为段，然后以段为单位对所述音频信号进行分析。若某段的能量比上一段的能量大得多，或者该段的过零率很高，该段则被判定为瞬态。

使用段的能量和过零率来检测瞬态，并且当未检测到瞬态时对用于能量和过零率比较的数值进行更新。瞬态检测步骤54计算当前帧的帧能量。步骤56中，若当前帧能量大于预定值，则判定具有瞬态，并且进行步骤58。反之，若当前帧能量未超过预定值，则未检测到瞬态，并且将音频信号提供值SWOLA阶段52。

步骤58中，不对瞬态帧进行调整而直接输出，并且更新所述帧能量(预定帧能量比较值)和所述平均过零率，然后处理返回至步骤54以处理音频信号数据的下一帧。一实施例中，所述预定能量比较值作为简单运行平均值计算，而过零率是通过对段中的不同符号数值(即，表示大于零的正数和小于零的复数)出现次数进行计数而计算得到。

如前所述，若这这个检测都未示出检测到瞬态，则将音频信号提供值SWOLA阶段52，并且执行步骤60。步骤60中，使用相似波形模块来从先前处理的音频信号定位相似的波形。这种情况下，相似系指相似波形之间的距离。由于第二声道与第一声道类似，仅需在输入音频信号的第一声道进行这一处理。步骤62判定是否满足相似性要求。若音频数据相似，则在步骤64进行窗分析和交叠。若数据信号不相似，则通过业已描述的步骤58直接输出输入音频帧。

再参考步骤60，本方法的目的是找到具有最大波形相似性的波形。为了使得波形相似性计算尽可能地简单，本发明的一个实施例中，计算波形之间的绝对差，并且选出与当前波形的绝对差最小的波形。若输入为立体声声道，由于第二声道类除了相差之外与第一声道类似，因此只需对第一声道进行这一处理。

若经判定的最小绝对差大于预定值，则判定所述波形并不非常相似，并且由此判定进行窗分析和交叠处理(步骤64)可能会使得信号的声音质量降级。在此情况下，本方法进行步骤58，不进行调整而直接输出帧。否则，在步骤64中，对音频数据的帧进行窗分析和交叠。

尽管依次定义了本方法的步骤，但本技术领域的技术人员应理解，其中一些步骤或者子步骤可与其他步骤并列进行以减少处理耗时。此外，应理解，本发明可以以多种方式实现，包括方法、装置、系统、或计算机可读存储介质之类的计算机可读介质或者通过光纤或电信链接发送程序指令的计算机网络。应注意，除非明确指出，所揭露之方法的步骤的顺序可在本发明的范围之内变化。此外，应理解，本发明可使用相声码器来实现，以代替WSOLA阶段52.由于仅使用能量来检测瞬态，因此使用相声码器的瞬态检测较为简单。

使用不同的算法进行主观听觉测试，并且汇编测试结果。选择了7种测试例以进行播放速率不同的时长调整，所述时长调整由五种算法进行：WSOLA、带瞬态检测的WSOLA、相声码器、带瞬态检测的相声码器、及Windows媒体播放器(其输出由计算机记录)。测试的结果表示带有瞬态检测的WSOLA的结果最近，其次是SWOLA、带有瞬态检测的相声码器、媒体播放器和相声码器。所述测试数据还表明，瞬态检测所耗费的计算小于SWOLA计算的10％。

本发明具有如下优点：(1)提出了一种计算开销很小的基于时域特征的瞬态检测方法；(2)将20ms的输入音频帧分为5ms的段，以对通常在快速音乐和人声中发生的瞬态进行快速检测。由此，提供了高精度的检测；(3)(3)使用过零率来防止无声音之类的高频且无音高的音频段的扩展；(4)用于和瞬态检测的平均过零率可包括作为经验值的适应系数，以精确调整平均过零率；(5)由于本发明的瞬态检测基于时域特征，其可提供用于立体声的解决方案，而不会影响左右声道之间的相差；及(6)并不对测得的瞬态进行调整(例如，不进行时长调整)，这使得声音质量胶质对所有数据帧进行修改的方法的声音质量得以改进。

综上所述，本说明书中所述的只是本发明的几种较佳具体实施例。凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在本发明的权利要求保护范围内。

Claims

1.一种用于对音频信号进行时长调整的方法，包括：

接收所述音频信号；

将所述音频信号分为多个帧；

获得各所述帧的至少一个时域特征，包括：

将所述帧分为多个依次等长的段；以及

计算所述段的平均信号能量和所述段的平均过零率中的至少一个，其中所述至少一个时域特征包括所述平均信号能量和所述平均过零率中的至少一个；

分析所述多个帧的当前帧以检测瞬态，其中所述分析包括将所述当前帧的所述至少一个时域特征与预定值相比较，其中若所述时域特征大于所述预定值，所述帧则判定为包括瞬态，其中

所述预定值包括所述平均信号能量和所述平均过零率中的至少一个，其中若当前段的能量差大于所述平均信号能量，则含有所述当前段的所述当前帧被判定为包括瞬态，并且若所述当前段的过零率超过所述平均过零率，则含有所述当前段的所述当前帧被判定为包括瞬态，并且其中通过使得所述平均过零率与适应系数相乘而调整所述平均过零率；

处理所述多个帧，其中对不包括瞬态的帧进行时长调整，并且对包括瞬态的帧不进行时长调整；并且

输出经处理的帧。

2.如权利要求1所述的音频信号的时长调整方法，其中根据波形相似叠加法(WSOLA)来进行所述时长调整。

3.如权利要求1所述的音频信号的时长调整方法，其中根据相声码器来进行所述时长调整。