CN101009801A

CN101009801A - 一种运动影片的检索方法

Info

Publication number: CN101009801A
Application number: CN 200610002372
Authority: CN
Inventors: 王蓓; 叶家宏; 施宣辉; 郭宗杰
Original assignee: MAVs Lab Inc
Current assignee: MAVs Lab Inc
Priority date: 2006-01-27
Filing date: 2006-01-27
Publication date: 2007-08-01

Abstract

本发明利用运动影片当中所收录的观众喝采声做为将运动影片区隔成为若干区段的检索条件，因为观众对于运动员精采的表现倾向给予喝采，且愈精采的表现，喝采声愈激烈，因此依据喝采声的激烈程度予以评分，再撷取这些喝采区段并且依照各个区段的评分加以排序，而可对运动影片提供具有简单的声音甚至于包含影像特性的内容区段索引。

Description

一种运动影片的检索方法

技术领域

本发明有关一种影片的画面内容分析、区段索引及检索技术，旨在针对运动影片提供一种具有简单的声音及影像特性的内容区段索引。

背景技术

就以内容为主的影片索引、检索及数据处理于当今时下愈来愈受注重，且此研究成果能够广泛应用在数字图书馆、非线性影片索引及随选视讯服务等领域，特别是运用在运动影片的分析时，观察运动影片可发现声音信息比视觉分析在侦测事件上更有效益且更清晰。

例如，篮球是全世界最普遍的运动之一，整年度有许多职业及非职业的比赛场次，大部分时间而言，人们并不想观看耗时2～3钟头的全场比赛，而只是对那些具吸引力的剪辑，诸如精采的攻击及防守、引人注目的犯规及决定性的暂停等等，因此全场篮球比赛的内容检索方法必然成为一引人注目的多媒体应用；再者，篮球或是类似的运动赛事皆具有诸多相同的特性，比如球场(比赛现场)为具有杂音的环境，亦即当有令人激动的时刻发生时，实况播音员的现场报导通极有可能会被观众的喝采声所淹没。

发明内容

有鉴于此，本发明即利用运动影片当中所收录的观众喝采声做为将运动影片区隔成为若干区段的检索条件，因为观众对于运动员精采的表现倾向给予喝采，且愈精采的表现，喝采声愈激烈，因此依据喝采声的激烈程度予以评分，再撷取这些喝采区段并且依照各个区段的评分加以排序，俾可对运动影片提供具有简单的声音甚至于包含影像特性的内容区段索引；尤其，整个运动影片索引所使用的声音特性为时域，因此分析、检索方法的运算成本低于其它频域特性。

附图说明

图1为本发明的演算流程图；

图2A为本发明中播音员的说话在无喝采的波形图；

图2B为本发明中播音员的说话在有喝采的波形图；

图3A为本发明中5分钟的篮球比赛连续片段的喝采率图；

图3B为本发明中5分钟的篮球比赛连续片段的峰态图；

图3C为本发明中喝采域性(Cheer Dominant Feature，CDF)图；

图3D为图3C喝采域性的平滑结果图；

图4为本发明中10分钟篮球比赛片段的浮动定限位准的结果图；

图5A、B、C为本发明中摄影取景分别为远程取景、中程取景及近程取景画面示意图。

具体实施方式

本发明为一种应用在运动影片的画面内容分析、区段索引及检索技术，主要利用运动影片当中所收录的观众喝采声做为将运动影片区隔成为若干区段的检索条件，因为观众对于运动员精采的表现倾向给予喝采，且愈精采的表现，喝采声愈激烈，因此依据喝采声的激烈程度予以评分，再撷取这些喝采区段并且依照各个区段的评分加以排序，而可对运动影片提供具有简单的声音甚至于包含影像特性的内容区段索引。

在图1的演算流程图当中，使用的声音特性是基于在时域中的喝采性质，以篮球比赛的影片为例，在一般情境下，篮球实况转播节目有两位播音员描述情境，他们的(声波)波形于时域下显示出明显及清楚的语音特性；当有精采的攻击及防守，观众当场立即对于篮球球员倾向给予喝采及鼓掌，我们称之为「噪声(noise)」，因为此种声音并无显现周期性讯息，无基频(fundamental frequency)，类似「白噪声(white noise)」行为。它们在时域的波形看起来就像两种讯号的迭加，其一纯为语音，另一为语音加白噪声，就如同说话讯号埋藏于噪声中，以致于纯语音的波包看起来不再清晰。

例如播音员的说话在无喝采的图2A，以及有喝采的图2B情形下的差别，在图2A以及图2B所示的波形当中，可观察到纯说话的短期性质(short time property)，但是在图2B因为有噪声的加入而不清晰，上述波形的X轴为时间，Y轴为振幅其直接关联于能量，由以上的图形比较可结论出，当喝采发生时，其能量的平均值大于没喝采时；而且两个图形的波包看起来相当不同(在短期窗口，图2A的波形标准偏差大于图2B)；总上所述，当喝采发生时，此短期能量平均值会随着标准偏差变小而变大，因此我们定义一新的性质称之为「喝采率(cheer ratio)」；而且，喝采率(cheer ratio)＝标准偏差(Std)/能量平均值(mean)。

当喝采发生时，有大的能量平均值及小的标准差，因此喝采率小。直观上，在能量上的改变是显著的，因此我们指出第一阶瞬间(firstorder moment)值有比第二阶(second order moment)更具不同的较大的比重(weight)。我们也发现第四中心瞬间(fourth central moment)值有与喝采率性质相似的结果。第四瞬间值为峰态(Kurtosis)，其可由测量一分布的波尾波动而得。在图3A及图3B当中，以一个5分钟的篮球比赛连续片段揭示有关喝采率及峰态；其中，两个图形的波包(envelope)相似，唯一不同处在于刻度，为了更正确撷取，我们期望有大的刻度，因此我们更进一步定义一性质称之为「喝采域性(Cheer Dominant Feature，CDF)＝峰态/喝采率」，以取得一较大的刻度结果，在图3C当中的黑线，即利用一大略的定限位准(threshold)来指称喝采区域，其相当于「波谷(valley)」区域，然后我们将其通过低通滤波器(low-pass filter)而得到较平滑结果，如图3D所示，在黑线下的波谷容易于分辨出。

由于，喝采愈激烈，喝采率的值愈小，因此我们可以依据此性质给予每个区段一评分(score)。由图3D，我们可看出有数个波谷低于黑线(定限位准)，其相当于数个喝采区段。然而，它们的深度及宽度各有不同，因此我们利用一「水平提升(water-level raisingup)」来计算每个喝采区段的评分，此评分是藉由两个参数所决定，在定限位准(threshold)之下的波谷深度(比重weight)及在定限位准(threshold)的波谷宽度(持续期间)，评分＝比重*持续期间(亦即Score＝weight*time duration)。

又，由于深度提供了更显著的讯息，因此较深的水平的比重比较浅者为大，我们定义：

比重weight＝(1/水平water level)2

当我们设立一法则，给予喝采区段评分来评级，我们面临另一问题，就是如何设定定限位准来决定喝采区段持续期间，我们不预期全时比赛中有一相同的定限位准，我们期望有一藉由区域讯息判断的浮动定限位准设定法则(a dynamic threshold setting rule)，我们让一有750个samples的滑动窗口通过平滑结果，且其重叠处为250个samples。在每个滑动窗口，我们为每个水平计算「类零交叉比(zero-crossing-like ratio)」，每个水平的中间步骤可为线性或非线性之一。

我们在类零交叉法则下计算定限位准，因为我们预期喝采发生点将在时域给予一不稳定性质，因此让最高改变率符合浮动定限位准于时域中为适当的。当我们得到具有最高类零交叉比的水平后，就可确定此定限位准是最高比值。由图4，我们可以看到设定一个10分钟篮球比赛片段的浮动定限位准的结果。

再者，为了使得故事更完整及独立，我们也平衡地进行简单的影像处理程序，例如：提供一组场景改变索引(shot change index)。除此之外，我们也利用了视觉特性-摄影取景(camera view)，且大致上将摄影取景分为远程取景(long view)、中程取景(middle view)及近程取景(close view)，分别图标于图5A、图5B及图5C。在篮球比赛过程中，近程取景与远程取景通常与比赛精采区段内容并无直接相关，然而中程取景则被使用于精采区段发生时，因此我们便专注及标示此有关中程取景的画面部分。我们从场景改变索引(shotchange index)所提供的信息中，排除有关近程取景及远程取景的场景，接下来更结合中程取景信息与声音部分的信息。

就每个波谷(喝采区段cheer segment)而言，有开始时间索引Ab及结束时间索引Ae。我们使用半深度水准(半定限位准halfthreshold)当作索引，开始时间及结束时间，来发现相当的影像画面及锁定一独立的场景(shot)，现在我们有另一组根据视觉信息的时间索引，视觉开始时间索引Vb及视觉结束时间索引Ve称之为[Vb，Ve]。最后的喝采时间索引为喝采开始时间索引Fb及喝采结束时间索引[Fb，Fe]，由Fb＝max(Ab，Vb)及Fe＝min(Ae，Ve)所决定。因此，我们所撷取的区段是完整且独立的，并且指定给每个喝采区段一个评分，然后依照激动程度，等级排列这些区段，而对运动影片提供具有简单的声音甚至于包含影像特性的内容区段索引，可让使用者自由决定多少区段或想看多久时间。

如上所述，本发明提供运动影片较佳的画面内容分析、区段索引及检索技术，于是依法提呈发明专利的申请；然而，以上的实施说明及图式所示，是本发明较佳实施例，并非以此局限本发明，是以，举凡与本发明的构造、装置、特征等近似、雷同的，均应属本发明的创设目的及申请专利范围之内。

Claims

1、一种运动影片的检索方法，依据运动影片当中据喝采声的激烈程度予以评分，再撷取这些喝采区段的声音，并且依照各个区段的评分加以排序，做为将运动影片区隔成为若干区段的检索机制。

2、一种运动影片的检索方法，依据运动影片当中据喝采声的激烈程度予以评分，再撷取这些喝采区段的声音及影像，并且依照各个喝采区段的评分加以排序，做为将运动影片区隔成为若干区段的检索机制。

3、如权利要求1或2所述一种运动影片的检索方法，其中各个喝采区段的评分＝比重×持续期间，该比重为位在定限位准(threshold)之下的波谷深度，该持续期间为位在定限位准(threshold)的波谷宽度；喝采区段评分的排序，藉由区域讯息判断的浮动定限位准设定法则，将每个水平计算类零交叉比，每个水平的中间步骤可为线性或非线性之一；在类零交叉法则下计算定限位准，让最高改变率符合浮动定限位准于时域中为适当的，在得到具有最高类零交叉比的水平后，此定限位准即为最高比值。

4、如权利要求2所述一种运动影片的检索方法，其中各影像区段依照每个喝采区段的开始时间索引Ab及结束时间索引Ae，利用半定限位准当作索引，开始时间及结束时间，藉以发现相当的影像画面及锁定一独立的场景shot。

5、如权利要求2所述一种运动影片的检索方法，其中各影像区段根据视觉信息的时间索引，称为[Vb，Ve]。最后的喝采时间索引为[Fb，Fe]，由Fb＝max(Ab，Vb)及Fe＝min(Ae，Ve)所决定，而可撷取完整且独立的影像区段。

6、一种找寻运动影片当中喝采区段的方法，先以一大略的定限位准来指称喝采区域，再将其通过低通滤波器而得到较平滑结果，始得到喝采区段。

7、如权利要求6所述一种找寻运动影片当中喝采区段的方法，其中该喝采域性＝峰态/喝采率，该喝采率＝标准差/能量平均值，该峰态为测量一分布的波尾波动所取得结果与喝采率性质相似峰态。