CN101398826A

CN101398826A - 自动提取体育节目精彩片断的方法和设备

Info

Publication number: CN101398826A
Application number: CNA2007101517693A
Authority: CN
Inventors: 史媛媛; 朱璇; 邓菁
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd; Samsung C&T Corp
Priority date: 2007-09-29
Filing date: 2007-09-29
Publication date: 2009-04-01

Abstract

本发明提供了一种从音频信号自动提取体育节目精彩片断的方法和设备。所述方法包括：确定在音频信号中由特定运动动作引起的冲击激励的位置；识别音频信号所属的声音类别并进行高层结构分析，以识别不同的音频内容；和在时间上将冲击激励的位置和识别分析后的音频内容结合，并且如果存在与特定运动动作相应的特定音频内容，则确定由所述特定运动动作和所述特定音频内容组成的精彩片断。因此，可高精度可靠地检测到精彩片段。

Description

自动提取体育节目精彩片断的方法和设备

技术领域

本发明涉及音频信号分析，更具体地讲，涉及仅从音频信号自动提取体育节目精彩片断。

背景技术

近来，随着音频信号分析技术的发展，可将与体育节目相关的多媒体内容自动分析并总结为精彩片断。传统上，编辑精彩片断是人们的工作。但是，随着多媒体互联网和广播的发展，用户可通过数字TV、互联网广播、移动网络等访问大量多媒体内容。因此，如果内容被自动分析并总结为精彩片断，则可作为帮助用户发现他们想要欣赏的内容的索引。

在多媒体内容分析领域中，存在大量关于体育节目精彩片断的提取和总结的文献，例如，B.Li，M.I.Sezan，＂Semantic Sports Video Analysis：Approachesand New Applications＂，in Proc.of IEEE International Conference on ImageProcessing，vo.1，pp17-20，2003；M.Yeung，B.Yeo，B.Liu，＂Extracting Story Unitsfrom Long Programs for Video Browsing and Navigation＂，in Proc.InternationalConference on Multimedia Computing and Systems，1996；Y.Takahashi，N.Nitta，N.Babaguchi，＂Video Summarization for Large Sports Video Archives＂，in proc.ofIEEE International Conference on Multimedia and Expo，pp1170～1173，2005；J.Wang，C.Xu，E.Chng，K，Wan，Q.Tian，＂Automatic Replay Generation for SoccerVideo Broadcasting＂，in proc.of ACM Multimedia.2004；L.Xie，S.F.Chang，A.Divakaran，H.Sun，＂Structure Analysis of Soccer Video with Hidden MarkovModels＂，in Proc.of the 2002 IEEE International Conference on Acoustics，Speech，and Signal Processing，2002；A.Hanjalic，＂Adaptive Extraction ofHighlights from A Sport Video Based on Exciting Modeling＂，in IEEE trans.onMultimedia，vo.7，no6，pp1114～1122，2005；H.C.Shih，C.L.Huang，＂MSN：Statistical Understanding of Broadcasted Sports Video Using Multi-level SemanticNetwork＂，in IEEE trans.on Broadcasting，pp.449～459，2005。上述文献目的在于通过使用计算机视觉和信号处理技术检测事件，提取情节单元，产生精彩片断，或自动将精彩片断分等，以在内容层面(semantic level)上理解视频。典型的统计学习方法被采用。基于模板(P.Wang，Z.Liu，S.Yang，＂A ProbabilisticTemplate-based Approach to Discovering Repetitive Patterns in Broadcast Videos＂，in proc.of ACM Multimedia，2005)、统计聚类(C.X.Liu，Q.M.Huang，S.Q.Jiang，W.G.Zhang，＂Extracting Story Units in Sports Video Based on Unsupervised VideoScene Clustering＂，proc.of IEEE International Conference on Multimedia andExpo，2006)、隐马尔可夫模型(L.Xie，S.F.Chang，A.Divakaran，H.Sun，＂Structure Analysis of Soccer Video with Hidden Markov Models＂，in Proc.of the2002 IEEE International Conference on Acoustics，Speech，and Signal Processing，2002；E.Kijak，G.Gravier，P.Gros，L.Oisel，F.Bimbot，＂HMM Based Structure ofTennis Videos Using Visual and Audio Cues＂，in Proc.int.conf.on Multimediaand Expo，2003；G.Xu，Y.F.Ma，H.J.Zhang，S.Q.Yang，＂A HMM Based SemanticAnalysis Framework for Sports Game Event Detection＂，in Proc.of IEEEInternational Conference on Image Processing，pp.25-28，2003)、支持向量机(J.Wang，C.Xu，E.Chng，K，Wan，Q.Tian，＂Automatic Replay Generation forSoccer Video Broadcasting＂，in proc.of ACM Multimedia.2004)和各种贝叶斯网络(C.Y.Chao，C.L.Huang，H.C.Shih，＂Semantic-based Highlight Extraction ofSoccer Program Using DBN＂，Proc.of the 2005 IEEE International Conference onAcoustics，Speech，and Signal Processing，2005；J.G.Li，T.Wang，W.Hu，M.L.Sun，Y.M.Zhang，＂Soccer Highlight Detection Using Two-Dependent BayesianNetwork＂，Proc.int.conf.on Multimedia and Expo，2006)已经被研究和发表。

当关注于仅通过音频信号来检测精彩片断时，为了通过定位与精彩片断紧密相关的声音类别或声音事件来提取精彩片断，已经使用大量的音频特性，如声音分类或语音识别的特征、频谱分析方法、频谱内容建模方法来对不同的声音类别(例如，评论员激动的评述、鼓掌、欢呼等)建模。例如，第2006/0252536号美国专利申请使用音调(pitch)的变化作为提取精彩片断的特征(cue)来搜索激动的评述。第2006/0149693号美国专利申请给出划分几种与精彩片断相关的典型声音种类的方法。第2006/0059120号美国专利申请还提出了为了检测精彩片断而在多媒体内容中搜索典型音频对象。第2005/0125223号美国专利申请提出通过高斯混合模型(GMM)模型方法识别几种为精彩片断定义的典型音频对象。相似地，第2004/0167767号美国专利申请使用音频特征(如，MFCC、音调、MPEG-7描述符)来区分几种定义的典型音频类型。此外，为了提取精彩片断，语音识别或关键字识别技术也通过分析和理解评论员或其他发言者的评述内容而被广泛地用于提取精彩片断。第6,973,256号美国专利申请是一个示例。

然而，在自动提取体育节目精彩片断的领域中存在两个有待被解决的问题。

第一个问题涉及检测自然冲击声的相关方法和技术。对于需要检测击球、驾驶、射击等时刻的某些体育运动，所述技术必须检测和检验这些时刻的声音。因为这样的声音属于具有短时间内发生和终止的瞬时信号特性的非常典型的动态声音，所以这种信号特性不适于由被开发用来处理稳态或准稳态信号的传统的声音分类方法来处理。因此，在大多数情况下不能保证其性能。另一方面，没有现有技术适合于解决这一问题。

在大多数情况下，与冲击信号相关的处理方法和技术比传统的声音分类方法更复杂。因此，提出使用两种方法来解决这一问题，即，冲击声的激励检测和频谱内容检验。

另一个问题涉及如何以有效可靠的方式分割音频内容。在大多数现有技术中，采用统计方法和基于规则的方法。但是，以上两种方法都有各自的局限性。

在统计方法中，大多数现有技术使用隐马尔可夫模型(HMM)或其他的贝叶斯网络来对随时间变化的内容进行建模和解码。在所述方法中两个基本参数被训练。一个是利用GMM或是高斯分布模型对声音信号观测量的分布进行建模的训练结果，这是声学建模中的核心方面。另一个是对状态转移概率或(在拓扑结构中不同路径的)权重的训练结果，这是对不同事件之间的逻辑或时间关系建模的有意义的方面。但是实际上，在大多数情况下，关于观测节点的信息不能被有效地训练，其原因在于：没有足够的训练数据，节点之间的关系太松散或随机，以及真实关系和模型假设之间的不匹配。因此，在大多数情况下，训练的参数对于揭示时间或逻辑上的关系的作用不大。因此，基本上，统计模型仍旧降低为GMM。内容结构仍然在没有真正考虑约束的情况下通过匹配声音信号观测量被分割。

在基于规则的方法中，其局限性在于必须专门精心地设计规则。虽然有时如果规则与情况较好匹配而结果可能非常好，但是在更多的一般情况下难以保证可靠的结果。

发明内容

本发明的目的在于通过规则加最优化搜索来解决所述问题。基本上，它仍然是基于规则的。但是规则非常普通和简单。因此，最优化搜索发展为能够无任何前提假设的情况下给出最佳结果。

本发明提供了一种从音频信号自动提取体育运动精彩片断的方法和设备。

本发明还提供了一种用于检测冲击声的方法和设备。

本发明还提供了一种用于声音分类的方法和设备。

根据本发明的一方面，提供了一种用于检测冲击声的设备，所述设备包括：激励检测单元，确定音频信号中的激励候选的位置，以用于指示音频信号中冲击声的存在和位置；时频特征化单元，将从激励检测单元输出的每一激励候选附近的频谱内容压缩为时频域的特征矩阵；和冲击声检验单元，基于从时频特征化单元输出的特征矩阵，使用统计假设检验方法确定激励候选是否由特定运动动作引起，并输出由所述特定运动动作引起的激励的位置。

根据本发明的另一方面，提供了一种用于声音分类的设备，所述设备包括：特征提取单元，从音频信号提取声学特征，声学特征包括18阶Mel频率倒谱系数(MFCC)及其前四阶差分系数和第一阶加速系数；声音分类单元，根据音频信号的声学特征，通过使用具有多种高斯密度的贝叶斯分类器识别音频信号所属的声音类别；和内容分段单元，基于不同音频内容的占有率，在时间上重新划分声音分类单元识别出的不同声音类别的不同音频内容。

根据本发明的另一方面，提供了一种从音频信号自动提取体育节目精彩片断的设备，所述设备包括：用于检测冲击声的模块，其确定在音频信号中由特定运动动作引起的冲击激励的位置；用于声音分类的模块，其识别音频信号所属的声音类别并重新划分不同声音类别的不同音频内容；和精彩片断提取单元，在时间上将冲击激励的位置和重新划分的音频内容结合，并且如果存在与特定运动动作相应的特定音频内容，则确定由所述特定运动动作和所述特定音频内容组成的精彩片断。

根据本发明的另一方面，提供了一种用于检测冲击声的方法，所述方法包括：确定音频信号中的激励候选的位置，以用于指示音频信号中冲击声的存在和位置；将每一激励候选附近的频谱内容压缩为时频域的特征矩阵；和基于特征矩阵使用统计假设检验方法确定激励候选是否由特定运动动作引起，并输出由所述特定运动动作引起的激励的位置。

根据本发明的另一方面，提供了一种用于声音分类的方法，所述方法包括：从音频信号提取声学特征，声学特征包括18阶Mel频率倒谱系数及其前四阶差分系数和第一阶加速系数；根据音频信号的声学特征，通过使用具有多种高斯密度的贝叶斯分类器识别音频信号所属的声音类别；和基于不同音频内容的占有率，在时间上重新划分识别出的不同声音类别的不同音频内容。

根据本发明的另一方面，提供了一种从音频信号自动提取体育节目精彩片断的方法，所述方法包括：确定在音频信号中由特定运动动作引起的冲击激励的位置；识别音频信号所属的声音类别并重新划分不同声音类别的不同音频内容；和在时间上将冲击激励的位置和重新划分的音频内容结合，并且如果存在与特定运动动作相应的特定音频内容，则确定由所述特定运动动作和所述特定音频内容组成的精彩片断。

附图说明

通过下面结合附图对实施例进行的描述，本发明的这些和/或其他方面和优点将会变得清楚和更易于理解，其中：

图1是示出根据本发明的自动提取体育节目精彩片断的设备的示图；

图2示出从冲击信号计算的轨迹；

图3示出对数能量曲线及其指数函数逼近的几个示例；

图4示出演播室语音(STD)、音乐或音乐与现场语音(SOM)和鼓掌(APP)的占有率；

图5示出根据本发明的在内容分段单元中执行的内容搜索算法的示例；

图6示出在SOM占有率曲线上搜索SOM的示例；和

图7示出根据本发明的内容分段单元的输出的示例。

具体实施方式

现在对本发明实施例进行详细的描述，其示例表示在附图中，其中，相同的标号始终表示相同部件。下面通过参照附图对实施例进行描述以解释本发明。

如上所述，精彩片断与特定运动动作相关，如击球、驾驶、射击等。随着特定运动动作产生冲击声。在实施例中，为了更容易理解系统设计和实现方法，将高尔夫运动用作示例。在高尔夫运动中，特定运动动作是击球动作，而冲击声则是挥杆声。但是，根据本发明的系统也可应用于其他体育运动，如足球、棒球、网球等。

图1是示出根据本发明的自动提取体育节目精彩片断的设备的示图。

所述自动提取体育节目精彩片断的设备包括声音分类模块200、冲击声检测模块300和精彩片断提取单元400。音频输入100被声音分类模块200和冲击声检测模块300分别处理，直到它们的输出在精彩片断提取单元400中被结合。

声音分类模块200用于通过声音分类方法将音频流分割为除了挥杆声以外的几种声音类别，并且包括Mel频率倒谱系数(MFCC)提取单元201、声音分类单元202和内容分段单元203。

首先，在MFCC提取单元201中，在短帧中提取声学特征。

其次，在声音分类单元202中，通过贝叶斯理论将每个一秒的声音片断分类为五种声音类别之一。所述五种声音类别包括：背景声音(SIL)，指示背景声；演播室语音(STD)，指示演播室中录制的语音；现场语音(SPC)，指示现场产生的语音；音乐或音乐与现场语音(SOM)，指示背景音乐或者背景音乐与现场语音的混合；以及鼓掌(APP)，指示鼓掌声音。

最后，内容分段单元203将每个一秒的声音类别重新划分为较长的音频内容段。根据高尔夫比赛的规则和时间结构，提出了迭代搜索算法，该算法基于声音类别的占有率重新组织声音类别。

冲击声检测模块300可包括激励检测单元301、时频(T-F)特征化单元302和冲击声检验单元303。在激励检测单元301中，从通过多个频带计算的特征预测冲击激励。然后，在T-F特征化单元302中，特定激励附近的频谱内容被压缩为时频域的特征矩阵。在冲击声检验单元303中，将该特征矩阵与挥杆和其他非挥杆的冲击激励引起的特征矩阵的分布进行比较。只有其附近的频谱组成挥杆情节的激励被用于定位挥杆情节。

精彩片断提取单元400将声音分类模块200和冲击声检测模块300的结果结合，对精彩片断的级别分等，并输出最终结果，该最终结果可被渲染为自动的重播500。

在下文中，将参照图1至图6详细描述自动提取体育节目精彩片断的设备的操作。

激励检测单元301接收语音信号并定位冲击激励的位置，冲击激励用于指示挥杆声的存在和位置。

在第一步骤中，激励检测单元301计算音频信号的子带能量增量比率、对数能量和对数能量变化量。以下函数(1)-(4)是它们的计算方法。在等式(1)中，Y1和Y2是N(偶数)个窗口采样的第一半帧和最后半帧的频谱，th是阈值且th≥0，s(t)是阶跃函数。

s (t) = \{\begin{matrix} 1, t > 0, \\ 0, otherwise \end{matrix} . . . (2)

图2示出第一步骤中操作的效果。作为参考，图2示出从具有激励的冲击信号计算的轨迹，其中，图2中的(a)示出子带能量增量比率的轨迹，图2中的(b)示出能量的轨迹，图2中的(c)示出对数能量的轨迹，图2中的(d)示出对数能量变化量的轨迹。

在第二步骤中，激励检测单元301通过激励滤波器来处理这些轨迹。激励滤波器的脉冲响应如下所示。

h (n) = (1 - e^{1 / τ_{e}}) e^{n / τ_{e}} - (1 - e^{1 / τ_{i}}) e^{n / τ_{i}}, n = 1,2,3, Λ

如上所述的二阶滤波器由两个一阶延时叠加滤波器组成。τ_i和τ_e是一阶延时叠加滤波器的时间常数且τ_i≤τ_e。激励滤波器对输入信号中的快速变化比对缓慢变化更敏感，因此激励滤波器可从其他渐变的调制信号强调激励的快速上升和下降。

在第三步骤中，激励检测单元301定位激励候选，在所述激励候选中，经激励滤波的轨迹中的每一个都高于特定阈值。定位在激励滤波器的相同的零以上部分的激励候选被合并为一个。

在第四步骤中，激励检测单元301如下所示执行另一项测试，以筛除不是合格的冲击激励的激励候选。每个激励候选必须遵守以下约束：

(5)能量峰值具有不低于特定阈值的绝对强度和相对强度；

(6)能量增加速率高于特定阈值；

(7)以新形式出现；和

(8)从峰值以适当的方式衰减。

在以上约束中，约束(1)和(2)被很好地定义并与理想冲击一致。约束(3)表明冲击不能从最近预测出。约束(4)表明只有从激励到衰减的整个事件是冲击时，该事件才是合格的冲击。具体地讲，对数能量的近似线性衰减给出了这种条件的范例。实际声音很少具有这种线性斜率。因此，使用指数函数(例如exp((·)^λ))来逼近对数能量的这种斜率。指数λ＝1属于理想的单模振荡。λ越小，下降沿越陡。只有具有适当范围(接近1并小于阈值)内的λ的激励候选可通过约束(4)，并且属于适当的冲击事件。图3示出对数能量曲线及其指数函数逼近的几个示例。图3中的(a)、(b)和(c)是冲击事件，而图3中的(d)是虚假冲击，其也有陡的上升沿并通过约束(1)-(3)。图3中，粗实线表示对数能量，细实线表示估计的指数函数。此外，图3中的(6)示出具有接近1的λ的近乎理想的冲击。

T-F特征化单元302接收从激励检测单元301输出的激励候选的位置。对于指示特定冲击声的存在的可能性的每一激励候选，为了识别特定脉冲声，T-F特征化单元302将激励附近的频谱压缩为特征矩阵。

具体地讲，在高尔夫运动中，由挥杆引起的冲击事件具有能量聚积-释放的特征。聚积部分包括从激励到能量峰值的间隔。它反映了受迫振荡的机械过程，其中，震荡系统从外力获得能量。释放部分包括下降到噪声级的下降时间段。它反映了自由振荡的过程，其中，没有外力作用于振荡系统，并且系统以其自身的特性模式运动。

聚积部分和释放部分的每一个被均分成两段。然后，对每段进行傅立叶分析，分析窗长12ms，帧迭6ms。通过傅立叶分析获得的每段的频谱在对数频域上被均分成4个子带。然后，每段在每个子带中的幅度谱相加并除以该段内的帧数量，从而获得4段在4个子带中的系数。因此，一个冲击事件的4段组成一个4×4系数矩阵。然后，通过使用系数的最大值，特征矩阵的系数被归一化。这样，给出了T-F特征矩阵。

冲击声检验单元303从T-F特征化单元302接收特定激励候选的4×4特征矩阵，并做出用于检验激励候选是否是由体育运动中的特定运动运动动作引起的目标冲击事件的1/0判定。在高尔夫运动中，特定运动动作是击球动作。

统计假设检验方法被用于基于T-F特征矩阵来检验运动动作的目标冲击事件。假设涉及：H1，事件由特定运动动作引起；H0，事件不是由特定运动动作引起。正确假设(H1)的模型通过训练数据中的击球事件的特征矩阵来训练。错误假设(H0)的模型通过训练数据中激励候选的冲击事件的虚警的特征矩阵来训练。这里，训练过程中使用最大似然准则。

当从T-F特征化单元302接收到特定激励候选的4×4特征矩阵时，从高斯混合模型计算激励候选的特征矩阵匹配H1的似然度和匹配H0的似然度，以给出1/0判定。具体地讲，如果H1的似然度大于H0的似然度，则做出正确的判定，从而将事件确定为击球动作，并且激励的位置被用作击球动作的位置并被输出到精彩片断提取单元400。

在下文中，将详细描述声音分类模块200的操作。

MFCC提取单元201接收音频信号并从音频信号提取用于声音分类的声学特征。声学特征包括18阶Mel频率倒谱系数(MFCC)及其前四阶差分系数和第一阶加速系数。

声学特征的处理非常普遍，可从任意的相关教科书(例如，语音识别教科书)中找到。因此，将省略对其的描述。

声音分类单元202从MFCC提取单元201接收一条信号片段(例如，一秒的片段)的声学特征向量，并通过训练良好的声学模型(如GMM)来识别特定音频信号所属的声音类别。

具有多种高斯密度的贝叶斯分类器执行分类。通过最大似然估计算法使用手动标出的数据来训练参数。然后，一秒的片段被分类到五种声音类别中似然度累积最大的一种类别中。所述五种类别包括SIL、STD、SPC、SOM和APP。在本实施例中，SWN指示属于冲击声的挥杆声音。

内容分段单元203从声音分类单元202接收对一秒的片段的声音分类结果，以及系统预先提供的音频内容的持续时间的若干统计值。声音分类单元202已将音频信号按每秒分类为多种声音类别。但是，还没有对高尔夫节目的编辑结构和时间结构进行研究。因此，最重要的步骤是去除与结构不一致的噪声影响，以重新合理分割随时间变化的音频内容，这将由内容分段单元203来完成。

限定的音频内容具有不同的结构化功能。STD和SOM用于定位节目的编辑结构。如果它们被定位，则它们之间的部分就是提取精彩片断的现场视频。而SWN和APP则是定位组成精彩片断的情节单元的重要特征。因此，内容分段的基本思想就是精确定位四个重要的音频内容(即，SOM、STD、SPC和APP)。

STD和SOM受到编辑的约束。STD总是出现在节目的两端。有时，一段或两段STD被插入节目的中间或三分之一(也可能是三分之二)的位置。这种具有在演播室中录制的STD总是持续较长时间，例如，30秒、45秒或2分钟。SOM由编辑者使用，伴随文本显示在屏幕上时出现，并且也持续相当长的时间。通常，SOM会持续15秒、20秒或1分钟。STD和SOM的特定编辑功能确保它们不会像SPC那样频繁和随机地出现。APP是非常重要的特征，它可以比APP更精确地被检测，以指示情节单元的完成。在大多数情况下，APP的出现受到体育运动的速度的约束。由于SWN本身的瞬时和动态特性，所以SWN是最难被精确定位的。

设计内容搜索算法来完成内容分段单元203的功能。该算法基于被称为占有率的值。这种方法可去除在不应有的时间发生或持续不适当的时间长度的噪声音频内容，将受到噪声音频内容干扰的音频内容合并在一起以形成具有适当持续时间和位置的完整的音频内容，并将音频内容改变为其持续时间和位置与时间约束更对应的另一音频内容。

内容分段单元203的操作过程如下。步骤1，计算STD音频内容的占有率；步骤2，在占有率曲线上进行搜索，以确定STD的位置和持续时间；步骤3，把被识别成STD，但在占有率曲线上没有搜索到的片断设置成SOM；步骤4，在剩下的音频流中计算SOM音频内容的占有率；步骤5，在占有率曲线上进行搜索，以确定SOM的位置和持续时间；步骤6，把被识别成SOM，但是在占有率曲线上没有搜索到的片断设置成SPC；步骤7，在剩下的音频流中计算APP音频内容的占有率；步骤8，在占有率曲线上进行搜索，以确定APP的位置和持续时间；步骤9，把被识别APP，但是在占有率曲线上没有搜索到的片断设置成SIL。通过以上操作，内容分段单元203可输出重新划分的声音类别。

所述占有率是一个特定音频内容的百分率，如下计算占有率：

R(*)＝D(*)/W(*)。

这里，*表示一个特定音频内容，可以是STD、SOM或APP。W(*)是观测特定音频内容的时间窗的持续时间。D(*)是该特定音频内容在该时间窗内的持续时间。R(STD)、R(SOM)和R(APP)分别在W(STD)为30秒、W(SOM)为15秒和W(APP)为3秒的情况下被计算。当计算三个占有率时，W(*)每次移动1秒。W(*)的窗口长度应该与内容的平均长度一致。

占有率揭示了音频内容在一个固定持续时间中占有的百分比。对于STD，固定持续时间为30秒，这是因为STD持续时间的平均值大约为30秒。此外，15秒和3秒是SOM和APP的持续时间的平均值。图4示出STD、SOM和APP的占有率，它们在一小时的高尔夫节目中被计算。可以看出，虽然一秒的片段的声音分类结果不总是正确，但是占有率的较大的值显示了更可靠的音频内容分段。

图5示出在内容分段单元203中执行的内容搜索算法的示例。图5中的BASIC指示特定音频内容。在本实施例中，APP可以是特定音频内容。但是，SOM和STD也可以是特定音频内容。

在内容搜索算法中，OCP_TH()和NOCP_TH()是占有率阈值。在本实施例中，OCP_TH(STD)＝0.8，NOCP_TH(STD)＝0；OCP_TH(SOM)＝0.5，NOCP_TH(SOM)＝0.2；OCP_TH(APP)＝0.5，NOCP_TH(APP)＝0。

内容搜索算法目的在于在占有率峰值的邻域内搜索一个音频内容的开始时间和结束时间，这意味着持续足够长时间的音频内容才是有效的。图6示出在SOM占有率曲线上搜索SOM的示例。

在内容搜索算法中使用折半搜索(half section search)来估计特定音频内容的开始时间和结束时间。这里，以搜索开始时间为例来进行解释。但是，可从此归纳出搜索结束时间。开始时间被定义为这样的时间点，在该时间点之前音频内容的占有率总是小于1/2，而在该时间点之后所述音频内容的占有率总是不小于1/2。采用折半搜索通过估计猜测的时间点之前和之后的瞬时占有率来自适应地估计时间点。

折半搜索是一种递归程序。在t1和t2之间的时间段内搜索开始时间。在每次开始时，仅需要判定前半部分是否仍然是音频内容。如果确定是音频内容，则折半搜索回归到前半部分，否则折半搜索回归到后半部分。当时间段减小为1秒时停止回归，此时的开始时间被估计为开始时间。这里，RI，1或R_I，2用于做出判定。R_I，1和R_I，2是音频内容在前半部分和后半部分的瞬时占有率，下面的等式给出。R_I，1和R_I，2的计算方法。

R_{I, i} = \frac{D_{i} (BASIC)}{(t 2 - t 1) / 2}, i = 1,2 .

这里，D1(*)是音频内容在前半部分的持续时间，D2(*)是音频内容在后半部分的持续时间。

图7示出内容分段单元203的输出的示例。通过内容分段单元203，STD、SOM和APP被更可靠地检测。可以看出，凌乱的音频内容被重组为更清晰合理的高尔夫节目结构。

精彩片断提取单元400在时间上将从冲击声检测模块300输出的冲击激励的位置和从声音分类模块200输出的重新划分的音频内容结合，确定导致冲击激励的特定运动动作与特定音频内容是否可组成情节单元，并根据特定音频内容的持续时间给出精彩片段。在本实施例中，特定运动动作可以是击球动作，特定音频内容可以是APP。如果从SWN到APP的间隔小于特定阈值，则确定存在完整的情节单元。此外，伴随着精彩片断，提供推荐精彩片断的精彩程度的值以便用户浏览选择时参考。同时，可从APP的强度和持续时间推断情节单元的刺激等级。这给出了如何将情节单元管理为精彩片断的技术方案。

毫无疑问，并不是所有的情节单元都是吸引人的。因此，APP的持续时间被用作对情节单元的刺激等级进行分等的依据。情节单元被划分为三种：精彩击球、良好击球和普通击球。使用以下规则将情节单元组成精彩片断的总结结果。第一，精彩击球，APP的持续时间大于8秒；第二，良好击球，APP的持续时间在3秒到10秒的范围内；第三，普通击球，APP的持续时间小于5秒，或者在本次SWN和下次SWN之间没有检测到APP。

有时，只检测到APP，而没有紧接在APP之前的SWN。这有两种原因，一是击球动作太弱而没有被检测到；二是击球动作与掌声的冲击太接近而被包括在APP中。在这两种情况下，APP自身组成了情节单元。此时，情节单元的开始时间可以比APP的开始时间早预定的量。

综上所述，在根据本发明的自动提取体育节目精彩片断的设备中，在用于频谱分析的适当持续时间内定义的静态声音被分类到定义为体育运动音频流的内容的一种声音类别。动态声音被检测和检验为定义为体育运动音频流的内容的一种声音类别。通过最优化搜索，使用运动规则和/或时间结构的约束在音频内容中分割声音类别。从而，精彩片断被高精度可靠地检测。

虽然已经参照本发明的示例性实施例具体显示和描述了本发明，但是本领域普通技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以在形式和细节上对这些实施例进行各种变动。

Claims

1、一种用于检测冲击声的设备，所述设备包括：

激励检测单元，确定音频信号中的激励候选的位置，以用于指示音频信号中冲击声的存在和位置；

时频特征化单元，将从激励检测单元输出的每一激励候选附近的频谱内容压缩为时频域的特征矩阵；和

冲击声检验单元，基于从时频特征化单元输出的特征矩阵，使用统计假设检验方法确定激励候选是否由特定运动动作引起，并输出由所述特定运动动作引起的激励的位置。

2、如权利要求1所述的设备，其中，所述激励检测单元包括：

计算单元，计算音频信号的子带能量增量比率、对数能量和对数能量变化量；

激励滤波单元，使用2阶滤波器对计算单元计算的信号的轨迹进行滤波；

激励候选确定单元，确定经激励滤波的轨迹中的每一个都高于其特定阈值的激励候选的位置；和

检测单元，使用冲击激励应该遵循的特定约束筛除不是合格的冲击激励的激励候选，以确定属于冲击激励的激励候选的位置。

3、如权利要求2所述的设备，其中，冲击激励应该遵循的特定约束包括：

(1)能量峰值具有不低于特定阈值的绝对强度和相对强度；

(2)能量增加速率高于特定阈值；

(3)以新形式出现；和

(4)从峰值迅速衰减。

4、如权利要求1所述的设备，其中，特征矩阵是4×4系数矩阵，所述系数指示激励候选在时间上的4段在4个子带中的平均幅度谱。

5、一种用于声音分类的设备，所述设备包括：

特征提取单元，从音频信号提取声学特征，声学特征包括18阶Mel频率倒谱系数及其前四阶差分系数和第一阶加速系数；

声音分类单元，根据音频信号的声学特征，通过使用具有多种高斯密度的贝叶斯分类器识别音频信号所属的声音类别；和

内容分段单元，基于不同音频内容的占有率，在时间上重新划分声音分类单元识别出的不同声音类别的不同音频内容。

6、如权利要求5所述的设备，其中，占有率是一个音频内容在一个持续时间中占有的百分比，占有率如下计算，

R(*)＝D(*)/W(*)，

其中，*表示一个音频内容，W(*)是观测音频内容的时间窗的持续时间，D(*)是该音频内容在该时间窗内的持续时间。

7、如权利要求6所述的设备，其中，内容分段单元基于不同音频内容的占有率来执行内容搜索算法以确定不同音频内容的位置和持续时间，从而重新划分不同的音频内容。

8、如权利要求7所述的设备，其中，内容搜索算法是折半搜索算法。

9、一种从音频信号自动提取体育节目精彩片断的设备，所述设备包括：

用于检测冲击声的模块，其确定在音频信号中由特定运动动作引起的冲击激励的位置；

用于声音分类的模块，其识别音频信号所属的声音类别并重新划分不同声音类别的不同音频内容；和

精彩片断提取单元，在时间上将冲击激励的位置和重新划分的音频内容结合，并且如果存在与特定运动动作相应的特定音频内容，则确定由所述特定运动动作和所述特定音频内容组成的精彩片断。

10、如权利要求9所述的设备，其中，精彩片断提取单元根据所述特定音频内容的持续时间将精彩片断的等级分等。

11、如权利要求10所述的设备，其中，所述特定运动动作是击球动作。

12、如权利要求10所述的设备，其中，所述特定音频内容是鼓掌。

13、如权利要求9所述的设备，其中，用于检测冲击声的模块包括：

14、如权利要求13所述的设备，其中，所述激励检测单元包括：

15、如权利要求14所述的设备，其中，冲击激励应该遵循的特定约束包括：

(1)能量峰值具有不低于特定阈值的绝对强度和相对强度；

(2)能量增加速率高于特定阈值；

(3)以新形式出现；和

(4)从峰值迅速衰减。

16、如权利要求13所述的设备，其中，特征矩阵是4×4系数矩阵，所述系数指示激励候选在时间上的4段在4个子带中的平均幅度谱。

17、如权利要求9所述的设备，其中，用于声音分类的模块包括：

18、如权利要求17所述的设备，其中，占有率是一个音频内容在一个持续时间中占有的百分比，占有率如下计算，

R(*)＝D(*)/W(*)，

19、如权利要求18所述的设备，其中，内容分段单元基于不同音频内容的占有率来执行内容搜索算法以确定不同音频内容的位置和持续时间，从而重新划分不同的音频内容。

20、如权利要求19所述的设备，其中，内容搜索算法是折半搜索算法。

21、一种用于检测冲击声的方法，所述方法包括：

确定音频信号中的激励候选的位置，以用于指示音频信号中冲击声的存在和位置；

将每一激励候选附近的频谱内容压缩为时频域的特征矩阵；和

基于特征矩阵使用统计假设检验方法确定激励候选是否由特定运动动作引起，并输出由所述特定运动动作引起的激励的位置。

22、如权利要求21所述的方法，其中，确定音频信号中的激励候选的位置的步骤包括：

计算音频信号的子带能量增量比率、对数能量和对数能量变化量；

使用2阶滤波器对计算的信号的轨迹进行滤波；

确定经滤波的轨迹中的每一个都高于其特定阈值的激励候选的位置；和

使用冲击激励应该遵循的特定约束筛除不是合格的冲击激励的激励候选，以确定属于冲击激励的激励候选的位置。

23、如权利要求22所述的方法，其中，冲击激励应该遵循的特定约束包括：

(1)能量峰值具有不低于特定阈值的绝对强度和相对强度；

(2)能量增加速率高于特定阈值；

(3)以新形式出现；和

(4)从峰值迅速衰减。

24、如权利要求21所述的方法，其中，特征矩阵是4×4系数矩阵，所述系数指示激励候选在时间上的4段在4个子带中的平均幅度谱。

25、一种用于声音分类的方法，所述方法包括：

从音频信号提取声学特征，声学特征包括18阶Mel频率倒谱系数及其前四阶差分系数和第一阶加速系数；

根据音频信号的声学特征，通过使用具有多种高斯密度的贝叶斯分类器识别音频信号所属的声音类别；和

基于不同音频内容的占有率，在时间上重新划分识别出的不同声音类别的不同音频内容。

26、如权利要求25所述的方法，其中，占有率是一个音频内容在一个持续时间中占有的百分比，占有率如下计算，

R(*)＝D(*)/W(*)，

27、如权利要求26所述的方法，其中，重新划分不同音频内容的步骤包括：基于不同音频内容的占有率来执行内容搜索算法以确定不同音频内容的位置和持续时间，从而重新划分不同的音频内容。

28、如权利要求27所述的方法，其中，内容搜索算法是折半搜索算法。

29、一种从音频信号自动提取体育节目精彩片断的方法，所述方法包括：

确定在音频信号中由特定运动动作引起的冲击激励的位置；

识别音频信号所属的声音类别并重新划分不同声音类别的不同音频内容；和

在时间上将冲击激励的位置和重新划分的音频内容结合，并且如果存在与特定运动动作相应的特定音频内容，则确定由所述特定运动动作和所述特定音频内容组成的精彩片断。

30、如权利要求29所述的方法，还包括：根据所述特定音频内容的持续时间将精彩片断的等级分等。

31、如权利要求30所述的方法，其中，所述特定运动动作是击球动作。

32、如权利要求30所述的设备，其中，所述特定音频内容是鼓掌。

33、如权利要求29所述的方法，其中，确定在音频信号中由特定运动动作引起的冲击激励的位置的步骤包括：

34、如权利要求33所述的方法，其中，确定音频信号中的激励候选的位置的步骤包括：

使用2阶滤波器对计算的信号的轨迹进行滤波；

35、如权利要求34所述的方法，其中，冲击激励应该遵循的特定约束包括：

(1)能量峰值具有不低于特定阈值的绝对强度和相对强度；

(2)能量增加速率高于特定阈值；

(3)以新形式出现；和

(4)从峰值迅速衰减。

36、如权利要求33所述的方法，其中，特征矩阵是4×4系数矩阵，所述系数指示激励候选在时间上的4段在4个子带中的平均幅度谱。

37、如权利要求29所述的方法，其中，识别音频信号所属的声音类别并重新划分不同声音类别的不同音频内容的步骤包括：

38、如权利要求37所述的方法，其中，占有率是一个音频内容在一个持续时间中占有的百分比，占有率如下计算，

R(*)＝D(*)/W(*)，

39、如权利要求38所述的方法，其中，重新划分不同音频内容的步骤包括：基于不同音频内容的占有率来执行内容搜索算法以确定不同音频内容的位置和持续时间，从而重新划分不同的音频内容。

40、如权利要求39所述的方法，其中，内容搜索算法是折半搜索算法。