CN100543731C

CN100543731C - 参数化的时间特征分析

Info

Publication number: CN100543731C
Application number: CNB2004800106744A
Authority: CN
Inventors: D·J·布里巴亚特; M·F·麦金尼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-04-24
Filing date: 2004-04-21
Publication date: 2009-09-23
Anticipated expiration: 2024-04-21
Also published as: JP2006524359A; US8311821B2; EP1620811A1; JP4795934B2; KR20060021299A; WO2004095315A1; US20060196337A1; KR101101384B1; CN1777891A

Abstract

一种用于将至少一个音频信号(A)分类为至少一个音频类别(AC)的方法(1)，该方法(1)包括以下步骤：分析(10)所述音频信号以提取至少一个预定的音频特征；对在不同时刻的所述音频特征的一组值进行(12)频率分析；基于所述频率分析来获取(12)至少一个另外的音频特征，该另外的音频特征表示所述音频特征的时间特性；以及基于所述另外的音频特征来分类(14)所述音频信号。利用该另外的音频特征获得了有关音频特征的时间波动的信息，这对于音频分类是有利的。

Description

参数化的时间特征分析

本发明涉及将至少一个音频信号分类为至少一个音频类别。

因特网和广播技术的发展使用户能够享受大量的多媒体内容。随着数据量如此快速地增长，用户需要自动的方法来过滤、处理和存储输入数据。这些功能中的一些将得到所附的提供与内容相关的信息的元数据的帮助。然而，由于事实上有时得不到元数据、元数据不够准确或者甚至不准确，并且由于本地处理能力已大大提高，因此，本地的自动多媒体分析得到了更多关注。多媒体分析可以包括音频信号的自动分类。在音频信号的自动分类中，低级信号特征被映射到语义，即所分析的音频内容的分类。通过举例而非限制，分类可以区分音乐、语音、背景噪声或静音。也可能是其他分类，例如音乐流派分类、特定音频突显部分(highlight)的自动检测或自动的说话人识别。音频的分类通常包括两个阶段。第一阶段分析输入波形并提取至少一个音频特征，所述音频特征给出有关音频信号的预定特性的信息。特征提取过程通常导致信息的大幅度减少。第二阶段基于所提取的音频特征进行分类。

E.Wold等人在“Content-based classification，search andretrieval of audio”IEEE Multimedia，Fall：27-36，1996中提出了可用于音频分类的许多音频特征。这些音频特征是音频信号的响度、音调、亮度和带宽。音频特征会随时间而改变，这造成所谓的音频特征的轨迹(trajectory)。为了获取有关特征轨迹的信息，即音频特征的时间(temporal)波动，引入了许多另外的音频特征。这些另外的音频特征包括在特征轨迹上音频特征的平均值、特征轨迹上音频特征的方差以及在小的滞后时特征轨迹上音频特征的自相关。

本发明的目的在于以有利的方式获取与音频特征的时间波动有关的信息。为此，本发明提供一种如独立权利要求中所述的方法、系统、音乐系统、多媒体系统以及介质。有利的实施例被定义在从属权利要求中。

根据本发明的一个方面，为了获取与音频特征的时间特性有关的信息，基于对不同时刻(time instance)的所述音频特征的一组值进行频率分析而引入另外的音频特征。本发明是基于这样的理解，即尽管音频特征在时间上的平均值和方差的确提供与音频特征的时间波动有关的信息，但它并不提供与音频特征的时间波动速度有关的任何信息。而且，音频特征的平均值和方差通常是相关的。例如，如果信号缩放两倍，那么短期能量的平均值和标准偏差也以同样的因子缩放。如果所分析的音频特征是不相关的，那么大多数分类算法更有效地起作用。接下来，Wold等人所引入的音频特征的自相关可以是对音频特征是否随时间变化并且是否为周期性的量度。然而，自相关并没有给出音频特征的时间特性的详细描述。自相关可以及时给出音频特征变化有多快的指示，但是该指示在整个信号上是平均的。因此，使用音频特征的自相关仅给出与音频特征的时间波动有关的有限的信息。使用根据本发明的另外的音频特征解决了上述的至少一个缺点。

根据本发明的另一方面，用作频率分析的输入的音频特征可以是现有技术中已知的至少一个音频特征。通过举例而非限制，音频特征可以从多个音频特征中进行选择，所述多个音频特征例如是均方根(RMS)电平、频谱矩心(centroid)、带宽、零交叉率、频谱跌落(roll-off)频率、带能量比、delta频谱幅度、音调以及音调强度。这些音频特征是现有技术中已知的常用特征。使用这些音频特征的优势在于它们相对来说易于计算，这对于所需的计算负荷来说是有利的。音频特征的另一个可能的选择是使用至少一个mel频率倒谱系数(MFCC)。MFCC系数表示音频信号的振幅频谱的参数化描述。MFCC系数由于其简洁而用于音频分类算法中，即MFCC系数能够只利用几个参数来表示频谱包络，而且，MFCC系数对于语音信号和音乐近似是不相关的。此外，除了作为整个信号电平的函数的第0阶MFCC系数之外，其余的系数均不依赖于输入电平，也就是它们是增益独立的。音频特征另外一个可能的选择是使用公知的心理声学特征。通过举例而非限制，这些特征可以是音频信号的响度和锐度(sharpness)。响度是强度的感觉，而锐度是与频谱密度和高频能量的相对强度有关的感觉。选择这些特征以获取另外的音频特征是有利的，因为心理声学特征是与人对声音的感觉相关的。

在本发明的实施例中，为了得到另外的音频特征，计算了在不同时刻音频特征的一组值的平均(DC)值，定义了至少一个频带，根据所述频率分析来计算在所述频带中的能量的数量；并且所述另外的音频特征被定义为依赖于所述平均(DC)值的所述能量的数量。使用频带的优势在于该频带可以被选择以相应于对音频分类会很重要的特定的感知现象。例如，语音信号包含3-15Hz范围内主要的包络调制，其中该范围与音节速率相对应。而其他音频信号，例如音乐音频信号，在这个范围内具有相对较少的调制。因此，如果需要对语音音频信号进行分类，那么使用表示3-15Hz范围内的包络调制的数量的另外的音频特征是可能有利的。而且，20-150Hz范围内的包络调制在感觉上是粗糙的(roughness)，即音乐不和谐。因此，为了从和谐或平滑的声音中区分出不和谐或粗糙的声音，使用表示20-150Hz范围内的包络调制的数量的另外的音频特征可能是有利的。接下来，在很低频率如在1-2Hz范围内的包络调制被感觉为响度的变化。因此，为了区分具有不同响度变化率的声音，使用表示1-2Hz范围内的包络调制的数量的另外的音频特征是有利的。此外，音乐节拍信息被表示在1-2Hz范围内。要注意的是，上述频带是通过举例而非限制来给出的。可以选择其他频带而不背离本发明的范围。还需要注意的是，频带可以是重叠的，并且可能在时间上依赖于音频信号、处理结果、其他外部或内部参数或它们的组合而变化。

在本发明的另一个实施例中，另外的音频特征是通过对所述频率分析的结果进行离散余弦变换(DCT)而得到至少一个系数来确定的。使用至少一个DCT系数的优势在于它们独立于信号电平。而且，DCT系数可以高度不相关，这对音频分类会是有利的。此外，随着DCT系数的个数的增加，频率分析结果的更多细节被包含进来。以该种方式，能够结合所得的处理负荷来选择细节水平。

参考下文所描述的实施例，本发明的上述以及其他方面将是显而易见的并将被阐明。

在附图中：

图1显示了表示根据本发明对音频信号进行分类的方法的实施例的框图。

图2显示了根据本发明的音乐系统的实施例。

图3显示了根据本发明的多媒体系统的实施例。

图1显示了表示根据本发明对音频信号进行分类的过程的实施例的框图1。使用音频信号A以作为该过程的输入。音频信号A可以是长度为N₁的PCM采样帧x[n]。音频信号A用作特征提取步骤10的输入。在特征提取步骤10中，确定至少一个预定的音频特征F。可能的是，所提取的音频特征F是下面音频特征中的至少一个，即均方根(RMS)电平、频谱矩心、带宽、零交叉率、频谱跌落频率、带能量比、delta频谱幅度、音调和音调强度。长度为N的音频帧的RMS电平可以被计算为：

RMS = \sqrt{\frac{1}{N} Σ_{n = 0}^{N - 1} x {[n]}^{2}} - - - (1)

频谱矩心以音频信号A的功率谱P[k]为基础。功率谱P[k]可以由FFT运算获得：

P [k] = {| | \frac{1}{N} Σ_{n = 0}^{N - 1} x [n] \exp (2 πkn / N) | |}^{2} - - - (2)

其中k是功率谱bin的数量，其根据下列公式而与频率f相关：

f [k] = \frac{{kf}_{s}}{N} - - - (3)

其中f_s是输入信号的抽样率。频谱矩心S_f可以定义为功率谱P[k]的质心：

S_{f} = \frac{Σ_{k} f [k] P [k]}{Σ_{k} P [k]} - - - (4)

功率谱P[k]的带宽B_f可以定义为：

B_{f} = \sqrt{\frac{Σ_{k} {(f [k] - S_{f})}^{2} P [k]}{Σ_{k} P [k]}} - - - (5)

零交叉率R_z可以定义为在预定时间帧内出现的音频信号A的零交叉的数量，例如每秒零交叉的数量。频谱跌落频率f_r可以定义为这样的频率，即低于该频率的能量是总信号能量的预定比率p(0<p<1)：

f_{r} = f [\max_{q} (Σ_{k = 0}^{q} P [k] < p Σ_{k = 0}^{N / 2} P [k])] - - - (6)

带能量比B_r可以定义为在预定频率范围f₁-f₂Hz内存在的能量相对量：

B_{r} = \frac{Σ_{k [f = f_{1}]}^{k [f = f_{3}]} P [k]}{Σ_{k} P [k]} - - - (7)

delta频谱幅度f_d是频谱中的变化的相关。如果两个连续的时间帧具有(归一化的)功率谱P_i[k]和P_i+1[k]，那么delta频谱幅度可以定义为：

f_{d} = \sqrt{\frac{2}{N} \underset{k}{Σ} {(\sqrt{P_{i} [k]} - \sqrt{P_{i + 1} [k]})}^{2}} - - - (8)

音调T可以通过在有限延迟范围内取自相关函数中的最大值来计算。音调强度S可以定义为与音调值相对应的归一化自相关函数的最大峰值的高度。

接着提取上述的音频特征，所提取的音频特征F也可以是至少一个mel频率倒谱系数(MFCC)。为了确定MFCC系数，对于给定的音频帧x[n]，其中0≤n≤N-1，例如能够通过利用x[n]的傅里叶变换来计算，从而得到X[k]：

X [k] = \frac{1}{N} Σ_{n = 0}^{N - 1} x [n] h [n] e^{(- 2 πjkn) / N)} - - - (9)

其中h[n]表示时间窗口。这种窗口的例子是现有技术中已知的Hanning窗。X[k]的振幅频谱|X[k]|乘以一组滤波器内核。这些滤波器的中心频率常量分离于依赖于频率f的mel频率比例f_m，其中f_m可以定义为：

f_m＝2595log₁₀(1+f/700) (10)

利用具有k_n个三角形状的滤波器G[k，k_n]的滤波器组将输入频谱转换为mel频率频谱，该滤波器的间距和带宽在mel频率比例上线性隔开。然后，通过滤波器内核和振幅频谱的内积的对数来给出mel频率倒谱：

C[k_n]＝log₁₀(∑|X[k]|G[k，k_n]) (11)

为了获得mel频率倒谱系数(MFCC)c[n]，计算mel频率频谱的离散余弦变换：

c [n] = Σ_{k_{m}}^{K} C [k_{m}] \cos [n (k_{m} - 1 / 2) π / K] - - - (12)

选择所提取的音频特征F的另一个可能是使用至少一个心理声学(PA)音频特征，例如音频信号的响度或锐度。定义响度的例子在1999年第二版的Springer series on information sciences，Springer-Verlag，Berlin的第22卷中、在Eberhard Zwicker等人的“Psychoacoustics：Facts and Models”中被提出。定义锐度的例子在1974年Acustica，30：159-172，“Sharpness as an attributeof the timbre of steady sounds”中给出。现有技术中已知的多种方法用于提取心理声学特征，根据本发明可以选择心理声学特征来获取另外的音频特征。

在另外的音频特征提取步骤12中获得另外的音频特征。在另外的特征提取步骤12中，定义了不同时刻的音频特征F的一组值。可能的是，多组值可以具有固定的大小或者可以是可变的。此外，多组值可以是重叠的。接着，对在时间t＝[0...T]内的音频特征F的该组值F(t)进行频率分析，从而得到特征对数功率谱|F(f)|²：

{| F (f) |}^{2} = {| {&Integral;}_{0}^{T} F (t) \exp (- 2 πjft) dt |}^{2} - - - (13)

为了参数化特征对数功率谱，通过将在至少一个预定频带内的能量求和而合并功率谱的频率轴。求和也可以是能量的加权和，例如取决于频率或取决于能量本身。通过举例而非限制，预定的频带可以是频带1-2Hz、3-15Hz以及20-150Hz中的至少一个频带。1-2Hz的频带可以优选地区分具有不同响度变化率的声音，因为以非常低频率的包络调制被感知为响度的变化。此外，音乐节拍信息可以从该频率范围获得。3-15Hz的频带可以优选地用于分类语音信号，所述语音信号包含3-15Hz范围内主要的包络调制，所述范围对应于音节速率。其他音频信号，例如音乐音频信号，在这个范围内具有相对较少的调制。20-150Hz的频带可以优选地从和谐或平滑的声音中区分出不和谐或粗糙的声音，因为20-150Hz范围内的包络调制被感知为粗糙的，即音乐不和谐。最后，将预定频带内的能量的数量可以除以音频特征的连续值的平均值(DC)以得到相对调制深度。所述平均值可以通过估计特征功率谱|F|中的0Hz的能量来获得。该计算的结果是能够用于分类音频信号的另外的音频特征F_mod。参数化特征对数功率谱的另一种方法是利用离散余弦变换(DCT)将对数功率频谱|F(f)|²转换为至少一个系数C(m)：

C (m) = {&Integral;}_{f_{a}}^{f_{b}} \cos (\frac{(f - f_{a}) πm}{f_{b} - f_{a}}) \log \frac{{| F (f) |}^{2}}{{| F (0) |}^{2}} df - - - (14)

其中f_a和f_b表示感兴趣频带的开始和结束频率。通常较高频率f_b是采样频率f_s的一半。现在，系数C(m)用作另一个音频特征F_mod。C(0)表示调制的总数按对数比例平均，因此C(0)与整个调制深度有关。由于|F(x)|²除以|F(0)|²，所以调制深度参数是独立于信号电平的。而且，要注意的是，DCT系数可以高度不相关，这对音频分类是有利的。此外，要注意的是随着系数C(m)中数量m的增加，特征对数功率谱|F(f)|²的更多细节被包含进来。

音频信号的分类是在音频分类步骤14中执行的。基于音频特征对音频进行分类的各种方法在现有技术中是已知的。这些方法的任何一种都可以用于音频分类步骤14，现在使用另外的音频特征F_mod，也可能结合特征提取步骤10中获得的音频特征F。通过举例而非限制，音频分类步骤14包括多元高斯模型、高斯混合模型、自组织映射、神经网络、k-最近邻方案及隐式马尔可夫模型中的至少一个。这些音频分类方法在现有技术中是已知的，并且详细讨论它们就超出了本发明的范围。分类步骤14的结果是至少一个音频类别AC。要注意的是，音频分类也可以包括相似性量度，例如找出相似的音乐。分类可以进一步包括分割过程，例如利用音频特征来识别场景变化。

图2显示了根据本发明的音乐系统2的实施例。音乐系统2包括存有音频数据的介质22。介质22可以是诸如光盘之类的可移动介质，或者介质22也可以被结合在音乐系统2中，例如结合在系统中的硬盘。音乐系统可以表示音频接收器。在这种情况下，介质22在另一个位置，而音频数据经由例如无线电、因特网或卫星被广播到音频接收器。介质22也可以是诸如话筒或乐器之类的音频数据产生设备。音频数据被传送到音频数据处理设备24。音频数据处理设备24可以包括音频放大器，也可以进一步包括用于修改音频数据的音频处理装置，以及用于控制音频分类过程的控制装置。从音频数据处理设备24得到的信号被传送到诸如扬声器之类的声音产生设备26。音乐系统2进一步包括音频分类系统20。根据本发明，音频分类系统从音频数据中提取特征，并将音频数据分类为至少一个预定的音频类别。音频数据可以从音频数据处理设备24中获得或可以直接从介质22获得。得到的一个或多个音频类别被传送到音频数据处理设备24以进行进一步处理。例如，基于音频类别，音频数据可被播放或不被播放，或基于音频类别向用户给出有关正在收听的内容的信息。用于分类的特征可从伴有音频数据的信号获得，该信号包括至少一个根据本发明所获得的另外的音频特征。当音乐系统2表示音频接收器时，音频接收器可以进一步包括接收信号的装置，所述信号包括至少一个根据本发明所获得的另外的音频特征，该另外的音频特征可以用于分类。

图3显示了根据本发明的多媒体系统3的实施例。多媒体系统3包括存有音频和视频数据的介质32。可以存在包含音频或视频数据的不同介质。所述介质可以是可移动介质，或者可被结合在系统3中或者可通过广播而获得。音频和视频数据被传送到音频和视频处理设备34。音频和视频处理设备34包括处理音频和视频的装置，以用于在音频和视频播放设备36上播放该音频和视频数据。音频和视频播放设备36例如可以是电视、监视器或放映机。音频和视频播放设备36可以被结合在系统3中，但这并不是必要的。音频和视频处理设备34可以进一步包括控制视频分析系统38的控制装置。视频分析系统38能够分析直接从介质32或从音频和视频处理设备34所获得的视频数据。通过举例而非限制，视频分析系统38可以包括视频解码器以用于解码以压缩形式提供的视频数据，例如现有技术中已知的例子：MPEG解码器、商业块(commercial block)检测器、电影检测器或视频分类系统。视频分析系统38的结果被传送到音频和视频处理设备34。音频和视频处理设备34可以进一步包括控制音频分类系统20的装置。音频分类系统20以与在音乐系统2中同样的方式运行。而且，音频和视频处理设备34可以包括将来自视频分析系统38和音频分类系统20的结果相结合的装置。例如，当由视频分析系统38检测到电影时，音频分类系统20可以将电影中的语音分类为在电影中演出的某一演员的语音的类别。

应该注意的是，上述实施例是说明而不是限制本发明，并且本领域的技术人员能够在不脱离所附权利要求书的范围的情况下设计许多可替换的实施例。在权利要求书中，括号中的任何参考标记都不应该解释为对权利要求的限制。措词“包括”并不排除除了权利要求中所列的那些之外的其他元件或步骤的存在。本发明能够通过包括若干不同元件的硬件以及通过适当编程的计算机来实现。在枚举几个装置的设备权利要求中，这些装置中的几个能够由同一个硬件来实现。某些措施仅仅在相互不同的从属权利要求中被陈述并不表示这些措施的组合不能被有利地利用。

Claims

1.一种用于将至少一个音频信号分类为至少一个音频类别的方法，该方法包括以下步骤：

-分析所述音频信号以提取至少一个预定音频特征；

-对所述预定音频特征在不同时刻的一组值进行频率分析，得到所述音频特征的特征对数功率谱；

-通过参数化所述音频特征的特征对数功率谱来获取至少一个另外的音频特征，该另外的音频特征表示所述预定音频特征的时间特性；以及

-基于所述另外的音频特征来分类所述音频信号。

2.如权利要求1所述的方法，其中所述至少一个预定音频特征包括下列音频特征中的至少一个：

-均方根电平；

-频谱矩心；

-带宽；

-零交叉率；

-频谱跌落频率；

-带能量比；

-delta频谱幅度；

-音调；以及

-音调强度。

3.如权利要求1所述的方法，其中所述预定音频特征包括至少一个me1频率倒谱系数。

4.如权利要求1所述的方法，其中所述预定音频特征包括心理声学音频特征响度和锐度中的至少一个。

5.如权利要求1所述的方法，其中所述获取步骤包括以下步骤：

-计算在不同时刻的所述预定音频特征的所述组的值的平均值；

-定义至少一个频带；

-根据所述频率分析来计算所述频带中的能量的数量；以及

-定义所述另外的音频特征为所述能量的数量除以所述平均值。

6.如权利要求5所述的方法，其中下列调制频带中的至少一个用于所述参数化步骤：

-1-2Hz；

-3-15Hz；以及

-20-150Hz。

7.如权利要求1所述的方法，其中所述至少一个另外的音频特征被定义为至少一个系数，该系数是通过对所述预定音频特征的特征对数功率谱进行离散余弦变换而获得的。

8.一种用于将至少一个音频信号分类到至少一个音频类别中的系统，该系统包括：

-分析所述音频信号以提取至少一个预定音频特征的装置；

-对所述预定音频特征在不同时刻的一组值进行频率分析以得到所述音频特征的特征对数功率谱的装置；

-通过参数化所述音频特征的特征对数功率谱来获取至少一个另外的音频特征的装置，该另外的音频特征表示所述预定音频特征的时间特性；以及

-基于所述另外的音频特征来分类所述音频信号的装置。

9.一种音乐系统，包括：

-用于从介质播放音频数据的装置；以及

-如权利要求8中所述的用于将至少一个音频信号分类到至少一个音频类别中的系统。

10.一种多媒体系统，包括：

-用于从介质播放音频数据的装置；

-如权利要求8中所述的用于将至少一个音频信号分类到至少一个音频类别中的系统；

-用于从另一个介质显示视频数据的装置；

-用于分析所述视频数据的装置；以及

-用于将分析所述视频数据所获得的结果与分类所述音频数据所获得的结果相结合的装置。