CN101685446A

CN101685446A - 音频数据分析装置和方法

Info

Publication number: CN101685446A
Application number: CN200810161401A
Authority: CN
Inventors: 刘昆; 吴伟国
Original assignee: Sony China Ltd
Current assignee: Sony China Ltd
Priority date: 2008-09-25
Filing date: 2008-09-25
Publication date: 2010-03-31

Abstract

本发明提供了一种用SVM方法对音频数据进行分析的分析装置，其特征在于，包括：输入单元，用于输入音频流；预处理单元，用于对所述音频流进行预处理，得到所述音频流的每一帧的特征参数；分类单元，按照所述特征参数分析所述每一帧所属的类别；以及后处理单元，对所述分类单元的分类结果进行后处理，得到最终的分段结果，其中，所述特征参数包括：短时平均能量、子带能量、过零率、Mel频域倒谱系数、ΔMel频域倒谱系数、谱通量和基音频率。根据本发明，实现了精彩内容的快速检索，能够节省观众的时间，满足观众的观看需求。

Description

音频数据分析装置和方法

技术领域

本发明涉及音频数据分析装置和方法，具体来说，本发明涉及一种使用SVM方法对音频数据进行分析的分析装置和方法。

背景技术

当前，大量体育比赛涌入观众的视野。越来越多的体育视频冲击，使得人们对体育视频的有效检索和管理的要求也越来越迫切。就足球比赛来说，整场比赛时间大约为2小时，而且，有时候会在深夜进行实况直播。然而，在整个比赛时间内，足球迷们真正关心的内容和想看的部分通常只占据节目的很小一部分。在这种情况下，球迷们期望有一种有效的内容分析和检索系统。利用这种技术，体育迷们不仅能够有选择地观看比赛，而且能够节省大量时间。

足球比赛的内容分析是基于内容的多媒体检索的一个应用之一。其中，基于视频分析的研究主要集中在提取颜色、纹理、场景、镜头和运动等视觉特征，进而分析实现多媒体从无结构到结构化的过程。而对于音频的分析，通常采用音频切分和分类的方法来进行分析，这种方法可以分为两个主要类别。一是用来检测强调部分、新主题的开始，或者对音频内容进行分析总结和检测；二是对一定音频内容或者类别进行分类和识别。根据特征空间的不同，可以分为时域和频域两类。根据是否使用感知模型，音频特征可以分为物理和感知两类。

虽然从视频角度来分析精度较高，但算法复杂，处理时间过长。而从音频角度分析，一方面可以利用音频分类进行音频分割，再利用不同类别音频组合来判断出现事件的概率；另一方面可以利用语音的内容信息进行检索提高事件检出的概率。

近来，对用于精彩内容检测的音频分类及切分的研究由于其潜在的应用而越来越引起关注。

就音频类型定义方面而言，非专利文献1将足球比赛音频流切分成比赛、广告和演播室这几种类型，以此来结构化视频内容。然而，这三种类型的区分无法真正满足观众的需求。非专利文献2设计了一种基于决策树的层次化分类方法，其中，音频流被分成五类：噪声、解说员语音、哨声、欢呼声和带背景噪声的语音。然而，音频流的背景环境是非常复杂的，很少有不带背景噪声的语音。对于精彩内容的检测来说，区分带噪声和不带噪声的语音并没有实际意义。非专利文献3从三个方面分析了体育比赛：音频、视频和纹理。在该系统中，音频流被分成三类：解说员激动的解说声、击球声和标志性声音(欢呼声、鼓掌声)，用来检索三类视频，即，会议视频、电影及广播新闻和体育视频。该方法对于具体的体育比赛(例如，足球比赛)来说效果不好，这是因为击球声和鼓掌声不是非常明显，在比赛期间过于平稳。非专利文献4致力于基于体育比赛的索引及检索。定义了四种音频类型：解说员的语音、观众的语音、与球有关的声音和背景噪声。由于解说员的语音通过占据大部分的比赛时间，因此这种分类方法可能对于结构化切分比较有效，但对于精彩内容的检测效果不好。

就音频特征选择方面而言，非专利文献5提取clip-level和shot-level两个层面的声音特征。其中，每一段的长度固定为1秒钟。使用的声学特征有10维：1维音量特征，1维能量，4维子带能量，4维谱通量。精度可以达到94.9％(37/39)，召回率为90.2％(37/41)，但仅完成了对进球的检测。非专利文献1中，结合足球视频的特点，采用基于HMM音频自动分类模型将足球视频的音频分为比赛、广告和演播室三类音频，实现足球视频的切分。采用了26维音频特征：短时平均能量、过零率、12维MFCC和12维ΔMFCC。在从三场比赛中选取的三小段比赛中进行切分，切分分类平均精度为88％，分割点偏差在0～5个片断的百分比仅占70％以上。非专利文献6同时利用音频和视频特征对体育比赛进行场景分类，在音频方面，主要是利用能量特征来进行比较，如果能量大于预定的第一个阈值，则认为该场景重要性为最高；利用两个连续场运动行为(motion activity)的差值大于预定的第二个阀值，则认为该场景重要性为次高；而能量和差值均小于预定门限的话，则认为该场景重要性最低。进而，根据重要性级别对体育场景进行分类。

如上所述，可以看到，为了获得高效的足球比赛精彩内容的检测，应定义合理的音频类型。而且，所采用的音频特征参数也应该更好地表征与精彩内容相关的音频类型的特性。

非专利文献1：Jianyun Chen，Yunhao Li，etc.，″Automatic audioclassification and segmentation for soccer video structuring″，Journal ofNational University of Defense Technology，Vol.26(6)，2004，pp.49-53。

非专利文献2：Junqing Yu，Yuqiang Cui，etc.，″Audio featureextraction and automatic classification in soccer games″，Journal ofHuazhong University of Science and Technology(Nature ScienceEdition)，Vol.10，2007。

非专利文献3：Ziyou Xiong，Xiang Sean Zhou，Qi Tian，Yong Rui，Huangm TS，″Semantic retrieval of video-review of research on videoretrieval in meetings，movies and broadcast news，and sports″，IEEESignal Processing Magazine，Vol.23(2)，March 2006，pp.18-27。

非专利文献4：A.Kokaram，N.Rea，R.Dahyot，M.Tekalp，P.Bouthemy，P.Gros，and I.Sezan，“Browsing sports video：trends insports-related indexing and retrieval work”，IEEE Signal ProcessingMagazine，Vol.23(2)，March 2006，pp.47-58。

非专利文献5：Shu-Ching Chen，Mei-ling Shyu，Min Chen，Chengcui Zhang，“A decision tree-based multimodal data miningframework for soccer goal detection”，2004IEEE InternationalConference on Multimedia and Expo，Vol.1，June 2004，pp.265-268。

非专利文献6：Masaru Sugano，Hiromasa Yanagihara，YasuyukiHakaj ima，“Classification apparatus for sports videos and methodthereof”，U.S.Patent Application Publication，No.：US 2005/0195331A1，Pub.Date：Sep.8，2005。

发明内容

鉴于以上技术问题，本发明提供了一种用SVM方法对音频数据进行分析的分析装置及方法，其采用34维特征参数作为表征音频数据的特征，并且，利用两级均值滤波处理对分类结果进行后处理。

根据本发明第一方面的用SVM方法对音频数据进行分析的分析装置，包括：输入单元，用于输入音频流；预处理单元，用于对音频流进行预处理，得到音频流的每一帧的特征参数；分类单元，按照特征参数分析每一帧所属的类别；以及后处理单元，对分类单元的分类结果进行后处理，得到最终的分段结果，其中，所述特征参数包括：短时平均能量、子带能量、过零率、Mel频域倒谱系数、ΔMel频域倒谱系数、谱通量和基音频率。

在上述训练系统中，预处理单元包括：特征提取部，对音频流进行分帧和加窗，并提取经过分帧和加窗得到的每一帧的特征参数。

优选地，在上述训练系统中，预处理单元还包括：切分部，通过检测低能量声音和过零率，将音频流粗略切分成多段，其中，特征提取部对经过粗略切分得到的多段音频流进行分帧和加窗，并提取每一帧的特征参数。

在上述训练系统中，后处理单元包括：第一后处理部，用5帧的窗长对哨声进行均值滤波；第二后处理部，用25帧的窗长对除哨声之外的声音类别进行均值滤波；以及合并部，对音频流中连续相邻同类别的帧进行合并，得到最终的分段结果。

在上述训练系统中，分类单元包括：计算部，计算特征参数对每种类型音频的概率，并根据预定的样板判断概率最大的所在类别是该帧所属的类别。

优选地，在上述训练系统中，所输入音频流包括体育比赛的音频数据，该音频数据包括主音频数据和副音频数据，其中，主音频数据包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐，以及，副音频数据包括静音、环境噪音；其中，所述类别至少包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐。

优选地，在上述训练系统中，音乐包括广告音乐、纯音乐；裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声；观众欢呼声包括出现精彩镜头时观众的响应；以及，解说员激动的解说声包括当出现精彩镜头时解说员的激动解说。

根据本发明第二方面的用SVM方法对音频数据进行分析的分析方法，包括：输入步骤，用于输入音频流；预处理步骤，用于对音频流进行预处理，得到音频流的每一帧的特征参数；分类步骤，按照特征参数分析每一帧所属的类别；以及后处理步骤，对分类步骤的分类结果进行后处理，得到最终的分段结果，其中，特征参数包括：短时平均能量、子带能量、过零率、Mel频域倒谱系数、ΔMel频域倒谱系数、谱通量和基音频率。

在上述训练方法中，预处理步骤包括：特征提取步骤，对音频流进行分帧和加窗，并提取经过分帧和加窗得到的每一帧的特征参数。

优选地，在上述训练方法中，预处理步骤还包括：切分步骤，通过检测低能量声音和过零率，将音频流粗略切分成多段，其中，特征提取步骤对经过粗略切分得到的多段音频流进行分帧和加窗，并提取每一帧的特征参数。

在上述训练方法中，后处理步骤包括：第一后处理步骤，用5帧的窗长对哨声进行均值滤波；第二后处理步骤，用25帧的窗长对除所述哨声之外的声音类别进行均值滤波；以及合并步骤，对音频流中连续相邻同类别的帧进行合并，得到最终的分段结果。

在上述训练方法中，分类步骤包括：计算步骤，计算特征参数对每种类型音频的概率，并根据预定的样板判断概率最大的所在类别是该帧所属的类别。

优选地，在上述训练方法中，所输入音频流包括体育比赛的音频数据，所述音频数据包括主音频数据和副音频数据，其中，主音频数据包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐，以及，副音频数据包括静音、环境噪音；其中，所述类别至少包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐。

优选地，在上述训练方法中，音乐包括广告音乐、纯音乐；裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声；观众欢呼声包括当出现精彩镜头时观众的响应；以及，解说员激动的解说声包括当出现精彩镜头时解说员的激动解说。

根据本发明的分析装置及方法，实现了精彩内容的快速检索，能够节省观众的时间，满足体育迷的观看需求。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1A和图1B是说明L范数谱通量的范数因子选择的示意图；

图2是本发明的第一实施例的分析装置200的结构框图；

图3是图2中的预处理单元204的结构框图；

图4是包括切分部402和特征提取部404的预处理单元204的结构框图；

图5是示出切分处理和分帧处理的示意图；

图6是分类单元206的结构框图；

图7是后处理单元208的结构框图；以及

图8是本发明的第二实施例的分析方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

下面，以足球比赛为例，首先描述用在本发明的分析装置和方法中的分类器。

在本发明的第一实施例中，针对足球比赛的特点，定义了五种音频类型，包括裁判哨声、观众欢呼声、解说员激动的解说声、音乐及其他，用来检测足球比赛中的精彩内容，例如进球得分和任意球等。所选择的这五种类型有助于更好地分析与上述精彩内容相关的音频流，其中，裁判哨声、观众欢呼声和解说员激动的解说声是用来查找进球得分和任意球的线索。由于在实况转播足球比赛中场休息的广告时段中会有大量的音乐，因此，应将这些广告部分去除，从而缩短待分析的内容。除此之外，足球比赛音频流中存在很多其他的音频现象，例如复杂的背景噪声、多种类型的声音重叠、静音、解说员的正常解说等等，它们通常会占据待分析音频流中的大量空间，对于上述两类精彩内容的检测并没有贡献。因此，加入了“其他”这一音频类型来更好地描述音频流。

具体来说，音乐包括广告音乐、纯音乐；裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声；观众欢呼声包括当出现精彩镜头时观众的响应；解说员激动的解说声包括当出现精彩镜头时解说员的激动解说；其他类型的音频数据包括静音、环境噪音、解说员正常的解说和其他乐器发出的声响。

为了获得对于这五种音频类型的高质量的分类器，首先手动选出针对各种音频类型的训练数据。由于在足球比赛的音频流中，背景噪声非常复杂，因此，音频类型可通过比较各种类型的音频成分的音量由占主导地位的音频成分来确定。

经过训练数据选择后，获得70分钟的训练数据。因为裁判哨声的长度相对较短，通常在0.25秒到0.6秒的范围内变化，因此，分析窗长被设定为200ms，帧移为60ms，以确保最短的哨声也能够被分成至少两帧进行分析。具体来说，对训练数据进行分帧和加窗，使得帧长为200ms，帧移为60ms，然后对每帧数据提取34维特征参数。

下面对上述特征参数进行详细说明。

▲L-范数谱通量(L-norm Spectral Flux)

谱通量是由音频数据测得的频谱序列中各个频带之间的能量改变的量度。通常，谱通量被定义为连续谱帧之间的欧氏距离(Euclidean distance)。其由式(1)表示如下：

{SF}_{p} (n) = {| X_{k} (n) - X_{k} (n - 1) |}_{p} = {(\underset{k}{Σ} {| X (n, k) - X (n - 1, k) |}^{p})}^{1 / p} . . . . . . (1)

其中，X_k(n)表示第n帧x(n)第k个谱单元(spectral bin)的值；|·|_p是单元数相对于范数的序列；是连续帧之间的第k个谱单元的差，P是范数因子。

为了设定合适的参数p，针对如图1A中的包括预先定义的五种音频类型的短音频数据计算具有5个不同值的谱通量。在图1B中，该音频数据具有7段，从左至右依次是哨声、纯音乐、带语音的音乐、激动的解说声、欢呼声、静音和解说声。由图1A可以看出，当参数p为1时，谱通量中无法明确地表示出频谱的改变。当参数p被设为2或3时，在一种音频类型的中间的有些谱通量值会发生剧烈振动。而当参数被设为4或5时，谱通量的值能够较好地表示出变化边界。在本实施例中，参数p被设为4。

▲短时平均能量(Short-time Mean Energy)

短时平均能量指的是在一个短时音频窗口内采样点信号所聚集的平均能量。假定每个短时帧大小为N，x(n)为用Nyquist频率采样后的离散音频信号。对于第m个短时帧，短时平均能量可以使用下面的式(2)计算：

E_{m} = \frac{1}{N} \underset{m}{Σ} {[x (n)]}^{2} . . . . . . (2)

▲过零率(Zero Crossing Rate，ZCR)

过零率指在一个时间段内，采样信号值由正到负和由负到正变化的次数，定义如下：

z = \frac{1}{2} Σ_{i = 1}^{N - 1} | sign (s_{i}) - sign (s_{i - 1}) | . . . . . . (3)

过零率可以用来确定清音语声(unvoiced speech)。通常，清音信号能量比较低，过零率却很高。因此，通过综合过零率和音量特征，可以防止一部分能量小的清音语声被错误分类为静音。过零率对于语音和音乐两种不同音频信号有很好的区分性。

▲基音频率(Pitch)

基音频率是语音、音乐分析和合成的一个重要参数。通常只有浊音才有明确的基音频率(音调)。但是，仍然可以用基音频率来表示任何声波的基本频率。要从音频信号中准确可靠地提取基频特征并不容易。根据准确度和复杂度的不同要求，可以使用不同的基频估计方法，包括自回归模型(auto-regressive model)、平均量差函数(average magnitude difference function)、最大后验概率方法等。本文采用的中央削波自相关法自相关方法。

▲Mel频域倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)

前面所述的各种音频特征主要是描述信号的时域特性，此外还有一些特征是描述信号频域特性的，其中使用最广泛的就是MFCC。MFCC最初是在语音识别研究中提出的，与LPC(线性预测系数)相比，MFCC更符合人耳的听觉特征，在有信道噪声和频谱失真的情况下，能产生更高的识别精度。

通常要对帧内信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。预加重的定义式如下面的式(4)所示：

s_i＝s_i-as_i-1 0.9≤a≤1.0 ......(4)

参数a通常取0.97。加窗的定义如下面的式(5)所示：

s_{i}^{'} = s_{i} w (i) . . . . . . (5)

其中w为窗函数，汉明(Hamming)窗函数是较常用的一个，如下面的式(6)所示：

w (i) = 0.54 - 0.46 \cos (\frac{2 π \cdot i}{N - 1}), 0 \leq i \leq N - 1 . . . . . . (6)

然后对处理后的采样信号进行快速傅里叶变换，得到这个音频帧在每个频率上的大小。如果音频信号的采样率为16kHz，那么由采样定理知，音频帧的最大频率为8kHz。也就是说音频帧在0到8kHz的频带上具有能量。为了表达人耳的感知特性，需要把一般频率上的能量映射到更加符合人类听觉的Mel频谱上，如下面的式(7)所示：

Mel (f) = 2595 \log_{10} (1 + \frac{f}{100}) . . . . . . (7)

Mel滤波是通过一组三角滤波器实现的，它们在Mel频谱上是等间隔的。为了更加有效地表示，还需要对能量系数取对数值，并进行离散余弦变换(Discrete Cosine Transform，DCT)，最后得到的系数就是MFCC特征。再加上1维能量共13维。

▲ΔMFCC(共13维)

d_{t} = \frac{Σ_{θ = 1}^{Θ} θ (c_{t + θ} - c_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}} . . . . . . (8)

其中，Θ是差分阶数，本实施例中取值为2，θ∈[1，Θ]，c是上面求出的MFCC系数，t是当前帧。

▲子带能量(Sub-band Energy)

在从0Hz到19500Hz范围内，存在25个关键频带。由于本实施例中分析的音频以每秒16kHz的采样率进行采样，因此，在整个频带范围[0～8000Hz]内有大约22个关键频带。考虑到人耳的知觉特性，并且哨声的频谱分布在3700Hz以上，因此在本实施例中，将整个频带分成4个子带。具体来说，这4个子带的频率范围为0～510Hz，510Hz～1480Hz，1480Hz～3700Hz和3700Hz～8000Hz。

各个子带的能量按照下面的式(9)进行计算：

E_{i} = Σ_{W_{iL}}^{W_{iH}} {| F (w) |}^{2}, (1 \leq i \leq 4) . . . . . . (9)

其中，E_i是第i个子带的能量，W_iH和W_iL分别是第i个子带的上沿和下沿，F(w)是信号s(n)的FFT。

在获得了每一帧的音频特征参数之后，使用SVM(SupportVector Machine，支持向量机)方法来训练得到上述五种类型的音频的分类器，其中，SVM方法采用的核函数是径向基核函数(RadialBasis Function，RBF)。具体来说，在进行模型训练之前，将得自所选数据的特征定标(scale)为[-1，1]。然后，选择RBF内核将这些特征映射到较高维数空间中。其参数(C，γ)在回归后被设为(8.0，2.0)。

从而，得到了针对以上五种音频类型的高质量的分类器。在获得了该分类器之后，即可利用该分类器进行音频流数据的分析，包括音频分类和分段。

下面，描述根据本发明的实施例的分析装置和分析方法。

图2是本发明第一实施例的用SVM方法对音频数据进行分析的分析装置200的结构框图，如图2所示，该分析装置200包括：输入单元202，用于输入音频流；预处理单元204，用于对音频流进行预处理，得到音频流的每一帧的特征参数；分类单元206，按照特征参数分析每一帧所属的类别；以及后处理单元208，对分类单元206的分类结果进行后处理，得到最终的分段结果，其中，所述特征参数包括：短时平均能量、子带能量、过零率、Mel频域倒谱系数、ΔMel频域倒谱系数、谱通量和基音频率。

图3是上述预处理单元204的结构框图，如图3所示，预处理单元204包括特征提取部302，对输入的音频流进行分帧和加窗，使得帧长为200ms，帧移为60ms，然后对经过分帧和加窗得到的每帧数据提取34维特征参数。即，每一帧的帧长与训练过程中相同，特征参数提取方法也与训练过程相同。

具体来说，对于给出的体育比赛，首先提取出音频流，并以每秒16kHz进行采样。然后，对音频流进行分帧，并以汉明窗函数(Hamming Window)进行加窗。每一帧的帧长与训练过程中相同。使用与训练过程中相同的特征参数提取方法，提取出每一帧的相应的特征参数，包括短时平均能量、过零率、子带能量、基音频率、谱通量、MFCC和ΔMFCC一共34维特征参数。

一般而言，由于整场足球比赛的长度为大约2小时，因此，首先应该检测出粗略的边界，以进行结构化切分。为了加快粗略切分的速度，仅考虑低能量声音或者静音。因此，选择低能量声音和过零率来检测整个音频流的分界点。该处理在时域中进行，并且，针对这两个参数分别设定了两个阈值。经过处理之后，音频流将被切分成多段，各段的长度彼此之间各不相同。在各个音频片段中，提取出每一帧的34维特征参数，并与训练过程一样被定标为[-1，1]。图4示出了包括有通过检测低能量声音和过零率来将音频流粗略切分成多段的切分部402的预处理单元204的结构，其中，切分部402通过检测低能量声音和过零率，将音频流粗略切分成多段，然后，特征提取部404对经过粗略切分得到的多段音频流进行分帧和加窗，并提取每一帧的特征参数。

图5示出了切分部402对音频流进行切分处理以及特征提取部404进行分帧处理的示意图。

图6是分类单元206的结构框图，包括：计算部602，计算特征参数对每种类型音频的概率，并根据训练获得的预定样板判断概率最大的所在类别是该帧所属的类别。

在得到了分类结果之后，由于分析窗长仅为200ms，而且得到的分类结果对于进一步的分析来说太过琐碎，因此，优选对得到的分类结果进行平滑和合并以进行良好的分段。在本发明的实施例中，采用了基于两级均值滤波处理的后处理过程。其原因在于：哨声远远短于其他四种类型的音频。如果只采用一种窗长的滤波处理，将发生两种不利情况：若窗长设定得很短，以确保不错失哨声的检测，那么其他类型的音频将被切分成非常细小的片段；若窗长较长，有些较短的哨声将被平滑掉，从而被错误地归入其他的音频类型。因此，哨声和其他四种音频类型应当分开来检测，从而，在本发明的实施例中，提出了两级均值滤波的后处理单元。

图7是后处理单元208的结构框图，在该后处理单元208中，第一后处理部702利用5帧的窗长对哨声进行均值滤波；第二后处理部704利用25帧的窗长对除哨声之外的声音类别进行均值滤波；以及合并部706对音频流中连续相邻同类别的帧进行合并，得到最终的分段结果。

在经过分类及后处理之后，整个音频流被切分成多段，每一段都具有一种音频类型。

图8是本发明第二实施例的分析方法的流程图，包括以下步骤：输入步骤S802，用于输入音频流；预处理步骤S804，用于对音频流进行预处理，得到音频流的每一帧的特征参数；分类步骤S806，按照特征参数分析每一帧所属的类别；以及后处理步骤S808，对分类步骤S806的分类结果进行后处理，得到最终的分段结果，其中，所述特征参数包括：短时平均能量、子带能量、过零率、Mel频域倒谱系数、ΔMel频域倒谱系数、谱通量和基音频率。

在图8的流程图中的预处理步骤S804中，包括：特征提取步骤，对音频流进行分帧和加窗，并提取经过分帧和加窗得到的每一帧的特征参数。

另外，预处理步骤S804还可包括切分步骤，通过检测低能量声音和过零率，将音频流粗略切分成多段，然后，对经过粗略切分得到的多段音频流进行分帧和加窗，并提取每一帧的特征参数。

在图8的流程图中的分类步骤S806中，包括：计算步骤，计算特征参数对每种类型音频的概率，并根据预定的样板判断概率最大的所在类别是该帧所属的类别。

此外，在图8的流程图中的后处理步骤S808中，包括：第一后处理步骤，用5帧的窗长对哨声进行均值滤波；第二后处理步骤，用25帧的窗长对除哨声之外的声音类别进行均值滤波；以及合并步骤，对音频流中连续相邻同类别的帧进行合并，得到最终的分段结果。

利用本发明，对9个半场足球比赛进行了测试，其中总共有18个进球得分和20个任意球。测试结果示于表1。

表1：精彩事件检测结果

其中，H表示“命中”；HR表示命中率，衡量的是被正确检测出的事件所占百分比；PR表示正确率，指相对于所有检出的事件来说正确检测事件的百分比。

由该表可知，只利用视频信息时，进球得分和任意球的命中率分别为88.9％和90％。而结合了音频分类结果后，进球得分和任意球的命中率分别升至94.4％和95％。同时，进球得分的准确率从90％升至95％，任意球则从64.3％升至67.9％。因此，音频分类显著改善了精彩事件的检测。

在上述实施例中，本发明利用音频数据对足球比赛进行分析，由于赛事中场休息、比赛开始之前或比赛结束以后会有广告或者音乐等音频，因此，本发明将足球比赛的音频内容分为五类：音乐、裁判哨声、观众欢呼声、解说员激动的解说声和其他类。结合分析音频的特性，在音频分析过程中，为每帧提取了34维音频特征进行SVM模型训练。在后处理过程中，首先采用中值滤波的方法进行平滑，接着再进行二级后处理：第一级是用小窗长(5帧)对哨声进行均值滤波；第二级是用大窗长(25帧)对其他类别进行均值滤波。得到91.8％的分类正确性，最终得到分段后的结果。从而实现了精彩内容的快速检索，节省了观众的时间，满足了体育迷的观看需求。

应该注意的是，以上所述仅为本发明应用在足球比赛音频分析的一个实施例，其特征分析、分类和后处理都可以应用于其他类别体育比赛音频的分析。由于不同体育比赛的语音流中包含的声学信号有各自的一些特点，在向其他体育类别进行扩展时，仅需要根据其音频特征对该类体育音频的类别进行重新定义，按照定义标定训练语料，训练相应的分类器，其对应的特征分析、分类及后处理不变。

以上所述仅为本发明的优选实施例，并不用以限制本发明。本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种用SVM方法对音频数据进行分析的分析装置，其特征在于，包括：

输入单元，用于输入音频流；

预处理单元，用于对所述音频流进行预处理，得到所述音频流的每一帧的特征参数；

分类单元，按照所述特征参数分析所述每一帧所属的类别；以及

后处理单元，对所述分类单元的分类结果进行后处理，得到最终的分段结果，

其中，所述特征参数包括：

短时平均能量；

子带能量；

过零率；

Mel频域倒谱系数；

ΔMel频域倒谱系数；

谱通量；和

基音频率。

2.根据权利要求1所述的分析装置，其特征在于，所述预处理单元包括：

特征提取部，对所述音频流进行分帧和加窗，并提取经过分帧和加窗得到的每一帧的所述特征参数。

3.根据权利要求2所述的分析装置，其特征在于，所述预处理单元还包括：

切分部，通过检测低能量声音和过零率，将所述音频流粗略切分成多段，其中

所述特征提取部对经过粗略切分得到的所述多段音频流进行分帧和加窗，并提取每一帧的所述特征参数。

4.根据权利要求1所述的分析装置，其特征在于，所述后处理单元包括：

第一后处理部，用5帧的窗长对哨声进行均值滤波；

第二后处理部，用25帧的窗长对除所述哨声之外的声音类别进行均值滤波；以及

合并部，对所述音频流中连续相邻同类别的帧进行合并，得到最终的分段结果。

5.根据权利要求1所述的分析装置，其特征在于，所述分类单元包括：

计算部，计算所述特征参数对每种类型音频的概率，并根据预定的样板判断概率最大的所在类别是该帧所属的类别。

6.根据权利要求5所述的分类装置，其特征在于：

所述输入音频流包括体育比赛的音频数据，所述音频数据包括主音频数据和副音频数据，其中

所述主音频数据包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐，以及

所述副音频数据包括静音、环境噪音；

其中，所述类别至少包括裁判哨声、观众欢呼声、解说员激动的解说声和音乐。

7.根据权利要求6所述的分类装置，其特征在于：

所述音乐包括广告音乐、纯音乐；

所述裁判哨声包括裁判员在出现犯规、进球、比赛开始、中场休息和比赛结束时吹的哨声；

所述观众欢呼声包括出现精彩镜头时观众的响应；以及

所述解说员激动的解说声包括当出现精彩镜头时解说员的激动解说。

8.一种用SVM方法对音频数据进行分析的分析方法，其特征在于，包括：

输入步骤，用于输入音频流；

预处理步骤，用于对所述音频流进行预处理，得到所述音频流的每一帧的特征参数；

分类步骤，按照所述特征参数分析所述每一帧所属的类别；以及

后处理步骤，对所述分类步骤的分类结果进行后处理，得到最终的分段结果，

其中，所述特征参数包括：

短时平均能量；

子带能量；

过零率；

Mel频域倒谱系数；

ΔMel频域倒谱系数；

谱通量；和

基音频率。

9.根据权利要求8所述的分析方法，其特征在于，所述预处理步骤包括：

特征提取步骤，对所述音频流进行分帧和加窗，并提取经过分帧和加窗得到的每一帧的所述特征参数。

10.根据权利要求9所述的分析方法，其特征在于，所述预处理步骤还包括：

切分步骤，通过检测低能量声音和过零率，将所述音频流粗略切分成多段，其中

所述特征提取步骤对经过粗略切分得到的所述多段音频流进行分帧和加窗，并提取每一帧的所述特征参数。

11.根据权利要求8所述的分析方法，其特征在于，所述后处理步骤包括：

第一后处理步骤，用5帧的窗长对哨声进行均值滤波；

第二后处理步骤，用25帧的窗长对除所述哨声之外的声音类别进行均值滤波；以及

合并步骤，对所述音频流中连续相邻同类别的帧进行合并，得到最终的分段结果。

12.根据权利要求8所述的分析方法，其特征在于，所述分类步骤包括：

计算步骤，计算所述特征参数对每种类型音频的概率，并根据预定的样板判断概率最大的所在类别是该帧所属的类别。

13.根据权利要求12所述的分类方法，其特征在于：

所述副音频数据包括静音、环境噪音；

14.根据权利要求13所述的分类方法，其特征在于：

所述音乐包括广告音乐、纯音乐；

所述观众欢呼声包括当出现精彩镜头时观众的响应；以及