CN101324957A

CN101324957A - 一种面向移动设备的足球视频智能播放方法

Info

Publication number: CN101324957A
Application number: CNA200810040640XA
Authority: CN
Inventors: 颜红波; 刘志; 李伟伟; 顾建栋; 韩忠民
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2008-07-16
Filing date: 2008-07-16
Publication date: 2008-12-17
Anticipated expiration: 2028-07-16
Also published as: CN101324957B

Abstract

本发明涉及一种面向移动设备的足球视频智能播放方法。本方法是首先对足球场面进行建模，得到场地的基本统计信息，将场地和其它对象分割开；然后，在场地模型的基础上实现对镜头的聚类；最后，动态提取和播放比赛中的感兴趣区域。本发明充分利用了足球比赛自身的一些特点，实现了在移动设备中智能地实时播放足球比赛视频。本发明是基于区域的，模型简单，但是高效实用，具备很高的实时性能。

Description

一种面向移动设备的足球视频智能播放方法

技术领域

本发明涉及到一种面向移动设备实时播放足球比赛视频的方法。此方法采用一种完全基于区域的算法，能够实现在普通移动设备的低分辨率环境下智能地实时播放足球视频，具有新颖实用、准确度高且实时性好的特点，能够为观看者提供与高分辨率显示设备上几乎一样的视觉效果。

背景技术

随着多媒体技术的飞速发展，在移动设备中实时播放电视节目已成为现实；随着人们生活水平的日益提高，越来越多的人表现出对体育运动的喜爱，在移动设备中观看体育比赛也随之变得越来越流行，在移动设备中观看足球比赛的实时转播尤其受到人们的关注。但是由于移动设备本身的限制，如屏幕尺寸十分有限，会给用户在观看实时转播时带来很大的不便。这一点主要表现在视觉效果差、分辨率降低和精彩细节部分的丢失上。针对这些问题，迫切需要一个能够提高视觉效果的智能播放方法。本发明就是为解决当前问题而设计。

和众多的体育视频一样，足球视频有其自身的特点，它和普通的电视、电影视频有着很大的区别。如在播放时，画面中总是会出现大面积的绿色区域，而这个区域的像素具有共同的颜色和纹理特性。同时足球视频的镜头分类十分简单，大致可以分为以下三种传统类型的镜头：长景(Long-shot)，中景(Middle-shot)，特写(Close-up)，如图2所示。此外，在实时播放过程中，观众基本上只对足球场内的事件和对象感兴趣，对场外的情况和事件基本不以关注。利用这些特征，我们设计了一个智能播放方法，能够实现镜头的精准分类、足球的准确跟踪和感兴趣区域的动态提取与显示。三种典型的镜头类型中，中景和特写本身的视野范围并不是很广，对于这两类镜头，观众在移动设备上基本能够看清和理解播放内容，播放效果虽较高清晰电视有所下降，但是还是能够达到清晰和完整的要求，因此本方法并不对这两种进行特殊处理。对于长景，由于宽阔的视野和拍摄距离，在移动设备中播放，会给观看带来很大的不便，对于这种镜头我们确定其感兴趣区域，在移动设备中只播放这个感兴趣区域的内容。

发明内容

本发明的目的在于针对已有技术存在的缺陷，提供一种面向移动设备的足球视频智能播放方法，能够克服传统方法的弊端，极大地改善视觉效果。本方法把足球比赛中最精彩的部分(本方法中定义为感兴趣区域)提取出来，然后加以放大处理再展现给观众，使观众在低分辨率的移动设备中能够更好地欣赏比赛中的精彩部分，如图3所示。从美学的角度来讲，本方法做到了使美的东西更加清晰，精彩的部分更加清楚。

为了达到上述目的，本方法思路是：首先对足球场进行建模，得到场地的基本统计信息，将场地和其它对象分割开；然后，在场地模型的基础上实现对镜头的聚类；最后，动态提取和播放比赛中的感兴趣区域。

根据上面的思路和方法流程图(如图1所示)，本发明采用的技术方案如下：

一种面向移动设备的足球视频智能播放方法，其特征在于将镜头分为三种典型的类型：长景，中景和特写；针对长景通过动态定位和提取其感兴趣区域然后放大来解决分辨率降低的问题；

实现步骤是：

a.场地建模和球场检测：首先通过在HSV空间对视频进行直方图分析得到反映场地本身情况的一些参数，从而实现场地基本特征的提取；然后通过所提取的场地特征参数和一些先验知识来对场地建模；在所构建模型的基础上，对场地颜色进行阈值判断，最终实现对足球场和其它对象的准确分离；

b.镜头分类：在场地分割的基础上，利用场地像素在长景、中景和特写三种镜头内所占比例的不同这一显著特性来对镜头进行准确的分类；

c.感兴趣区域的提取：在镜头分类的基础上，对于长景，根据比赛的进行动态地定位和提取其最精彩的部分，然后放大显示这个最精彩的部分。

上述步骤a中的场地建模和球场检测按下述步骤进行：

足球比赛视频有其自身的特点，绝大部分镜头都包含足球场，正常条件下足球场地的颜色总是绿色的，所以在大部分镜头中绿色区域总会占据很大的面积。在直方图上这一点表现为集中在某个像素区间上出现较大值。当然，直方图在不同类型的镜头中是非常不同的，但是考虑到只有三种类型的镜头我们就可以利用颜色特征对场地进行检测和建模。本方法中我们选择在HSV空间中分析场地特征，因为HSV色彩模型更加符合人眼的视觉特征。

A.场地建模

首先，利用视频的前若干帧(本发明取为30帧，即1秒的视频长度)，分别计算出每一帧的Hue，Saturation和Value通道的直方图：

\{\begin{matrix} H_{hu e_{i}} [k] = Hu e_{i}, 0 \leq k \leq N_{H} \\ H_{saturatio n_{i}} [k] = Saturatio n_{i}, 0 \leq k \leq N_{S} \\ H_{valu e_{i}} [k] = Valu e_{i}, 0 \leq k {\leq N}_{V} \end{matrix} - - - (1)

Hue、Saturarion和Value的直方图，N_H，N_S，N_V分别对应其像素级，其中Hue为色调，Saturaion为饱和度，Value为像素值；

和

分别为第i帧对应的三个通道的直方图，N_H，N_S，N_V分别对应其像素级。本方法种定义N_H，N_S，N_V的值分别为64，64和256，如图4所示。

为了能够更加准确地对场地进行建模，我们得出前30帧的累积直方图，如下式所示：

\{\begin{matrix} hue [k] = Σ_{i = 0}^{29} H_{hu e_{i}} [k], 0 \leq k \leq N_{H} \\ saturation [k] = Σ_{i = 0}^{29} H_{saturatio n_{i}} [k], 0 \leq k \leq N_{S} \\ value [k] = Σ_{i = 0}^{29} H_{valu e_{i}} [k], 0 \leq k \leq N_{V} \end{matrix} - - - (2)

hue，saturation和value表示前30帧的累积直方图，它们包含了前三十帧场地的累积统计信息，横坐标同样定义为N_H，N_S，N_V。但是前30帧的累积直方图并不一定能够反映出场地的真实情况，我们规定只有满足下式才算对场地的累积统计信息收集成功，即：

GndAlys= \{\begin{matrix} 1 & if 0.7 \times frame . width \times 30 \times frame . height \leq Σ_{k = 9}^{21} hue [k] \\ 0 & others \end{matrix} - - - (3)

其中，GndAlys表示场地分析标志，frame.width和frame.height分别表示视频帧的宽和高，if为若，others为其它；若GndAlys为0，表示信息收集不成功，舍弃当前30帧，继续分析接下来30帧，直到GndAlys为1止。若满足(3)式，表示通过计算累积直方图我们已经获得了场地的基本累积信息，下面我们就可以对场地进行建模了。通过累积直方图我们得到如下两个统计量，它们足够反映场地的基本情况和条件。

\{\begin{matrix} ValuePeelIndex = k_{0}, if \begin{matrix}  \end{matrix} \{\begin{matrix} value [k_{0}] &GreaterEqual; value [i] \\ and \\ i, k_{0} &Element; [0, N_{H} - 1] \end{matrix} \\ SaturationMean = \frac{Σ_{i = 0}^{N_{S} - 1} i \cdot saturation [i]}{Σ_{i = 0}^{N_{S} - 1} saturation [i]} \end{matrix} - - - (4)

其中ValuePeakIndex表示Value通道累积直方图中最大值所对应的像素，它直接与足球场地中绿色像素的多少的相对应；SaturationMean表示Saturation通道的加权平均，它对应场地绿的程度。

B.球场检测：在上一步建模的基础上，可以对场地进行检测。通过如下两式来判断出某个像素是属于足球场地还是其它对象。

\{\begin{matrix} S = \frac{Max (r, g, b) - Min (r, g, b)}{Max (r, g, b)} \\ V = Max (r, g, b) \end{matrix} - - - (5)

S代表HSV色彩空间的饱和度分量，V代表HSV色彩空间的像素值分量，r，g，b代表RGB色彩空间的红，绿，蓝分量。Max(r，g，h)代表r，g，b的最大值，Min(r，g，b)代表r，g，b的最小值，Ground(x，y)代表当前像素是否为场地像素。(5)式为某一像素从RGB色彩空间到HSV空间的转换，通过(6)式就可以将球场和其它对象分离出来，从而实现对场地的检测，球场检测结果如图5所示。

综上所叙，场地的建模和检测都是基于区域的，不涉及到复杂的模型分析过程。与传统方法相比，如利用高斯混和模型或其它方法来对场地建模，本方法具备很高的实时性，有很高的实用价值。

上述步骤b中镜头分类实现步骤是：构造场方地块，镜头切换检测，确定黄金地带，镜头分类。镜头分类的方法有很多种，鉴于实时性的要求，同时为了充分利用足球比赛本身的特点，本方法提出一种基于区域的“黄金地带比例法”，具体方法下面将详细介绍。

A.构造场地方块

将当前帧分成一系列16×16的小块，每个小块是否属于场地用GroundSquare(i，j)来表示，如(7)式

\{\begin{matrix} GroundSquare (i, j) = \{\begin{matrix} 1 & GroundPixel &GreaterEqual; 0.5 \cdot Size \\ 0 & others \end{matrix} \\ 0 \leq i \leq frame . widht / 16,0 \leq j \leq frame . height / 16 \end{matrix} - - - (7)

其中GroundPixel，Size分别为GroundSquare(i，j)内场地像素的个数和该场地块的大小。本方法中我们规定：如果GroundSquare(i，j)中场地像素个数大于或等于该方块中总像素的一半，就设为1，否则就设为0。经过这样处理后，我们就得到一个二维的二值矩阵。

B.镜头切换检测：定义TBD_i为当前时刻i的帧相似性指数，它代表相邻帧的相似程度。本方法中，我们利用下列异或运算来检测镜头切换。

TB D_{i} = \underset{x}{Σ} \underset{y}{Σ} GroundSquar e_{i - 3} (x, y) &CircleTimes; GroundSquar e_{i} (x, y) - - - (8)

其中GroundSquare_i为当前帧的场地方块矩阵，GroundSquare_i-3为当前帧之前的第三帧的场地方块矩阵。可以利用相邻两帧的相似性指数来判断当前帧是否属于镜头切换，判别式如下：

Shotboundary = \{\begin{matrix} 1 & {TBD}_{i - 1} < θ_{shotboundary} & AND & {TBD}_{i} &GreaterEqual; θ_{shotboundary} \\ 0 & otherwise \end{matrix} - - - (9)

θ_shotboundary为以固定阈值，本方法中设它为30。如果(9)式中Shotboundary为1就判决当前帧为镜头切换帧，否则判决当前帧仍属于当前镜头。

C.确定“黄金地带”：在镜头边缘检测的基础上，我们定义当前帧的中心矩形区域为黄金地带，如图6所示。根据大量的观察和统计，我们发现在长景、中景和特写这三类镜头中，每一帧的中心矩形区域中的场地像素比例是有很大的差别的。我们可以利用足球比赛的这个特征来进行镜头分类。定义(P_retx1，P_rety1)和(P_retx2，P_rety2)分别表示中心矩形区域的左上角和右下角坐标，并且设置它们的值如下

\{\begin{matrix} P_{retx 1} = frame . width \cdot 0.2, P_{rety 1} = frame . height \cdot 0.2 \\ P_{retx 2} = frame . width \cdot 0.8, P_{rety 2} = frame . height \cdot 0.8 \end{matrix} - - - (10)

设S_goldenfield为这个中心矩形区域的面积，即

S_goldenfield＝abs(P_retx1-P_retx2)·abs(P_rety1-P_rety2)(11)

D.镜头分类：定义S_ground为场地像素的面积，我们通过下列判别式来确定当前镜头到底属于哪一类。

Ratio = \frac{S_{ground}}{Size} - - - (12)

ShotType = \{\begin{matrix} longshot, Ratio > β_{longshot} \\ mediumshot, β_{closeup} < Ratio < β_{longshot} \\ closeup, Ratio < β_{closeup} \end{matrix} - - - (13)

其中，Ratio为当前帧黄金地带中场地像素所占的比例，ShotType表示当前帧的镜头类型，Size代表核心区域的面积。longshot，mediumshot，closeup分别对应长景，中景和特写，β_longshot，β_closeup分别为两个固定的阈值。本方法中我们设定它们分别为0.7和0.4，实验结果如图7所示。

以上充分利用了足球比赛自身的特点，从统计角度出发设计了一种高效快捷的镜头分类算法。

上述步骤C中的感兴趣区域(ROI)的提取：一般来说，观众最关注的部分总是以球为中心的周围部分。因为整个比赛基本上是围绕球进行的，双方队员都会极力争夺球、控制球和传接球，所以以球为中心的周围区域自然是最精彩的区域。那么只要检测出球，然后根据比赛的进行，就可以动态地确定感兴趣区域。本方法中我们用矩形框来标出感兴趣区域，具体方法如下：

A.球的检测：在第一步球场检测的基础上，计算并且标记足球场内的连通区域，如图6所示，然后在标记的连通区域中检测出球。

1.检测出可能是球的区域

定义potential_ball为当前帧内任意一可能是球的区域，本方法中利用颜色、面积和形状等特征来检测，如下式所示

\{\begin{matrix} object = potential_ball if \{\begin{matrix} 3 < M < 20 AND \\ 1.5 < \frac{width \times height}{M} \\ AND 0.6 \leq aspect_ratio \leq 1.7 AND \\ Intesity > ValuePeakIndex \end{matrix} \\ object = OTHERS \end{matrix} - - - (14)

其中，object代表检测出来的对象，AND代表条件与运算，ValuePeakIndex代表(4)式检测出的最大像素值对应的横坐标。M表示该连通区域内所含像素的个数，width，height表示该连通区域外接矩形的宽和高，aspect_ratio为球场中连同区域的宽和高的比率，即aspect_ratio＝width/height，Intensity为该连通区域中某像素点的亮度值，即Intensity＝(r+g+b)/3。可能是球区的域检测结果如图8中红色标记所示。将当前帧内所有可能是球的区域的中心位置坐标依次保存到队列L₁中，同样将下一帧中所有可能是球的区域的中心位置坐标保存到另一队列L₂中，然后利用两帧之间球的相对位移来最终确定球的位置。

2.球的检测：在上一步检测出的所有可能是球的区域基础上，本方法按如下机制来检测出球。队列L₁和L₂分别保存了相邻两帧中所有可能是球区域的中心位置坐标，我们通过比较这两个队列来检测出球。比较的标准为相邻两帧间potential_ball的相对偏移。

设(x₁，y₁)为L₁中第i个potential_ball的中心位置坐标，(x₂，y₂)为L₂中第j个potential_ball的中心位置坐标，设Shift为相对偏移量：

Shift = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}} - - - (15)

球的判别式：

\{\begin{matrix} ball = L_{1} [i] & ifShift &GreaterEqual; β_{dis} \\ i = i + 1, j = j + 1 & otherwise \end{matrix} - - - (16)

其中ball表示检测出球的实际位置。上式表明当Shift大小满足某一特定值时就表示得出的potential_ball的位置是真实的球位置，如不满足，就继续比较直到找到为止，球的检测结果如图9黑色标记所示。

B.感兴趣区域的提取步骤如下：

1.初始化

\{\begin{matrix} windo w_{i} = lo b_{i} \\ {disp}_{i} = 0 \\ {diff}_{i} = {lob}_{i} - {window}_{i - 1} \end{matrix} - - - (17)

\{\begin{matrix} S_{\min} = frame . width \cdot 0.5 \cdot frame . height \cdot 0.5 \\ S_{\max} = frame . width \cdot 0.7 \cdot frame . height \cdot 0.7 \\ S_{current} = S_{\min} \end{matrix} - - - (18)

window_i为矩形窗的中心位置，lob_i为球的中心位置，disp_i为偏移量，diff_i为参考偏移量。S_min，S_max，S_current分别为窗口大小的最小值、最大值和当前大小，frame.width，frame.height分别代表当前帧的宽和高。设窗口的初始大小为最小值，它们的初始值如(17)和(18)式所示。

2.动态更新：ROI窗口的动态更新包括两部分：窗口的位置移动和尺寸的自适应调整。为了更好地给观众舒适的观赏效果，移动和调整都应与比赛的内容相适应，尽量把比赛中最精彩的部分更加清晰地展现给观众。下面就详细介绍窗口更新的过程：

(a)窗口位置的移动：为了便于分析，我们规定diff_i≥0。分析这种情况不会丢失一般性，与之相对应有以下三种情况。

(1).球的偏移量不是很大

\{\begin{matrix} if 0 \leq {diff}_{i} \leq {disp}_{i} \\ then \{\begin{matrix} windo w_{i} = {window}_{i - 1} \\ {disp}_{i + 1} = α \cdot {disp}_{i} \end{matrix} \end{matrix} - - - (19)

(2).球的偏移增大到某一程度

\{\begin{matrix} ifdis p_{i} \leq {diff}_{i} \leq frame . widht / 2 \\ then \{\begin{matrix} {window}_{i} = {window}_{i - 1} + {disp}_{i} \\ {disp}_{i + 1} = {disp}_{i} + α_{1} \cdot sign ({diff}_{i}) \end{matrix} \end{matrix} - - - (20)

(3).球的偏移增大到更大范围

\{\begin{matrix} ifframe . widht / 2 \leq {diff}_{i} \leq frame . width \\ then \{\begin{matrix} {window}_{i} = {window}_{i - 1} + {disp}_{i} \\ {disp}_{i + 1} = {disp}_{i} + α_{2} \cdot sign ({diff}_{i}) \end{matrix} \end{matrix} - - - (21)

其中sign(t)为符号函数，为符号函数，当t＞时sign(t)为1，t＜0时sign(t)为0。本方法中用来控制ROI窗口的移动方向，分别为三个加速因子，用它来控制窗口移动的快慢。

(b)尺寸自适应调整：动态更新中，步骤(a)只实现了窗口位置的改变，为了能让观众更加舒适、方便地在移动设备上观看比赛，还必须使窗口的尺寸能够随比赛的进行动态有节奏的变化。本方法中，我们根据当前ROI窗口中球员的个数来自适应调整当前窗口的大小。若球员个数增多，则需要扩大窗口的大小；若减少，则需要缩小窗口；否则保持大小不变。

当前窗口大小S_current可以用(22)式来计算：

S_current＝abs(P_x1-P_x2)·abs(P_y1-P_y2)(22)

abs代表绝对值运算

其中(P_x1，P_y1)和(P_x2，P_y2)分别为矩形的左上角和右下角坐标，可以通过改变(P_x1，P_y1)和(P_x2，P_y2)来调整其大小。当(P_x1，P_y1)增大，(P_x2，P_y2)减小时，窗口就变小；当(P_x1，P_y1)减小，(P_x2，P_y2)增大时，窗口就变大。

设{N(t)，0≤t＜T_LongShot}，T_LongShot表示当前长景镜头的总长度，N(t)为当前帧ROI窗口内球员的个数。可以根据(23)式来判别是否应调整窗口大小：

\{\begin{matrix} l = N (t) / N (t - 1) \\ SizeAdaptation = \{\begin{matrix} Shrinkage, l {< l}_{1}; \\ Expansion, l > l_{2} \\ Stay, others \end{matrix} \end{matrix} - - - (23)

其中SizeAdaptation当前帧感兴趣区域窗口的状态，N(t)和N(t-1)表示相邻两帧内ROI窗口内球员的个数，而Shrinkage，Expansion和Stay分别表示窗口缩小，扩大和不变。上式表明可以根据相邻两帧内ROI区域相对变化率来实时调整大小，如图10所示。为了使播放更加稳定和流畅，并不是对每相邻的两帧都进行统计窗口内球员的个数，而是每隔8帧进行窗口大小的调整。

由上述可知，通过准确地检测出球，可以根据比赛的内容动态地定位和显示ROI区域，从而把最精彩的部分更加清晰地展现给用户。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：本发明充分利用了足球比赛自身的一些特点，实现了在移动设备中智能地实时播放足球比赛视频。该发明中所有环节采用的方法均是基于区域的，模型简单但是高效实用，具备很高的实时性能。同时该发明想法新颖，有很大的潜在商业价值。

附图说明

图1是本发明一个实施例的程序流程图。

图2是典型的镜头类型(图中图(a)为长景图，图(b)为中景图，图(c)为特写图)。

图3是长景的特殊处理图(图中的图(a)为原始长景图，图(b)为处理后长景图)。

图4是长景和其对应H，S和V通道直方图(图中的图(a)为长景图，图(b)为Hue通道直方图，图(c)为Saturation通道直方图，图(d)为Value通道直方图)。

图5是场地检测图(图中(a)为检测前，(b)为检测后)。

图6是黄金地带图。

图7是三种镜头和其相应的黄金地带图(图中(A)为中景和其黄金地带图，(B)为长景及其黄金地带图，(C)为特写及其黄金地带图)。

图8是可能是球的区域检测图(图中(a)为第10帧，(b)为第11帧)。

图9是球的检测图。

图10是ROI窗口自适应调整图(图中的(A)为窗口内球员多时窗口稍大，(B)为窗口内球员少时窗口稍小)。

图11是三种镜头的处理图(图中的(A)为长景的处理图，(B)为中景的处理图，(C)为特写的处理图)。

图12是视频1中长景的处理结果图(图中的(A)为第20帧，(B)为第30帧，(C)为第90帧)。

图13是视频2中长景的处理结果图(图中的(A)为第20帧，(B)为第40帧，(C)为第50帧)。

图14是视频3中长景的处理结果图(图中的(A)为第30帧，(B)为第40帧，(C)为第50帧)。

具体实施方式

本发明的一个实施例子结合附图详述如下：

本发明实现在低分辨率环境下的移动设备中清晰地实时播放足球比赛，程序框架图如图1所示。在CPU为3.0GHz、内存1024M的PC测试平台上编程实现，图3-10给出了处理过程中的一些结果。

本发明充分挖掘足球比赛自身的特征，实现在移动设备中清晰地实时播放足球比赛。将镜头分为三种典型的类型：长景，中景和特写。针对不同类型的镜头采取不同的处理措施：中景和特写的视野范围并不宽广，即使在移动设备中的低分辨率环境下用户也能够清晰地观看，鉴于这个特点同时为了降低运算的复杂度，我们并不对它们进行特别的处理；长景的视野范围十分广豁，在移动设备中播放时其分辨率会明显的降低，会给用户在观看时带来很大的不舒适感，本发明中通过动态定位和提取其感兴趣区域然后放大来解决分辨率降低的问题。

具体的实现步骤是：

a.场地的建模和球场检测：首先通过在HSV空间对视频进行直方图分析得到反映场地本身情况的一些参数，从而实现场地基本特征的提取。然后通过所提取的场地特征参数和一些先验知识来对场地建模。在所构建模型的基础上，对场地颜色进行阈值判断，最终实现对足球场和其它对象的准确分离。

b.镜头分类：在场地分割的基础上，利用场地像素在三种镜头内所占比列的不同这一显著特性来对镜头进行准确的分类。

c.感兴趣区域(ROI)的提取：在前面镜头分类的基础上，对于长景，根据比赛的进行动态地定位和提取其最精彩的部分，然后放大显示这个最精彩的部分。

上述场地建模和球场检测的步骤是：

(1)在HSV空间中计算当前帧各个通道的直方图，如式(1)所示；计算每个通道前三十帧的累积直方图，如式(2)所示；进行场地识别判断，若满足(3)式说明对场地统计信息的搜集已达到要求，否则表示还未达到要求，舍弃当前的搜集结果重复(1)，(2)直到满足(3)式为止；若场地识别成功，在累积直方图中提取反映场地自身特性的特征参数，如式(4)所示；

(2)利用特征参数和先验知识进行对象分割，从而分离场地和其它对象，如图5所示；

上述镜头分类处理实现步骤：

(1)构造场地块，进行镜头切换检测，如公式(7)，(8)，(9)所示；

(2)定义当前帧的“黄金地带”，如公式(10)和图6所示；

(3)计算当前帧“黄金地带”内场地像素所占的比例，如式(12)所示：

(4)利用“黄金地带”内场地像素的不同比例从而对镜头类型进行检测，结果如图7所示；

上述ROI窗口的动态定位和显示的实现步骤：

(1)在相邻两帧内，利用式(14)检测出球场内可能是球的区域，并将每帧检测出的结果压入到两个队列中。结果如图8红色标记所示；

(2)利用相邻两帧中可能是球的区域的相对偏移来检测出球的实际位置，如式(15)，(16)所示，检测结果如图9黑色标记所示；

(3)初始化ROI窗口的位置和大小，如式(17)，(18)所示；

(4)ROI窗口的位置和大小的动态更新。位置的变化取决于球的位置和相邻三帧球的相对偏移大小；尺寸的改变取决于当前帧内ROI窗口中球员的个数：当球员个数增多时暗示ROI窗口应该自适应增大，相反就应该自适应减小，如图10所示。

如上所述已经能够实现在移动设备中的低分辨率环境下实时地播放足球比赛，该发明可以有效地解决视频效果因分辨率下降而导致细节丢失和观赏性降低的问题。根据图2的程序流程图，以下给出实现的实例，视频主要来至于实际的比赛，如欧洲冠军联赛和英格兰超级联赛，图3至图10给出了处理过程中相应的结果。下面结合程序流程图来进行各部分试验的说明。

试验：在长景中动态地定位，提取和放大感兴趣区域是本算法的目的。根据图1可以看出在低分辨率环境下中景和特写仍然能够比较清晰地将比赛展现给移动设备用户，而长景的视觉效果在低分辨率下就变得比较差，其观赏性也随之降低了。根据图2所示的程序流程图，第一步为利用视频的前若干帧进行建模和分割，实验结果如图4，5所示；第二步为在前面的基础上进行镜头分类，得到三类基本的典型镜头，实验结果如6，7所示；第三步为动态的定位，提取和放大显示ROI区域的内容，实验结果为8，9，10所示。

为了进一步说明本发明的实用性，图11至图12给出了更多的实验结果。图11说明不同类型的镜头的不同处理方法；图12至14为用本方法所处理的三段视频的ROI提取和放大显示。从实验结果可以看出，本方法可以动态地定位、提取和放大显示视频中长景镜头的ROI，从而提高了视觉效果和增强了观赏性。

Claims

1.一种面向移动设备的足球视频智能播放方法，其特征在于将镜头分为三种典型的类型：长景，中景和特写；针对长景通过动态定位和提取其感兴趣区域然后放大来解决分辨率降低的问题；实现步骤是：

2.根据权利要求书1所述的面向移动设备的足球视频智能播放方法，其特征在于所步骤a中的场地建模和球场检测的步骤是：

A.场地建模

利用视频的前若干帧，设定为前30帧，即1秒的视频长度，分别计算出每一帧的Hue，Saturation和Value通道的直方图，计算公式如下：

\{\begin{matrix} H_{hu e_{i}} [k] = {Hue}_{i}, 0 \leq k \leq N_{H} \\ H_{saturatio n_{i}} [k] = Saturatio n_{i}, 0 \leq k \leq N_{S} \\ H_{valu e_{i}} [k] = {Value}_{i}, 0 \leq k \leq N_{V} \end{matrix} - - - (1)

其中，

和

分别为第i帧对应的三个通道Hue、Saturarion和Value的直方图，N_H，N_S，N_V分别对应其像素级，其中Hue为色调，Saturaion为饱和度，Value为像素值；

正常条件下足球场地的颜色总是绿色的，所以在大部分镜头中绿色区域总会占据很大的面积；在直方图上这一点表现为集中在某个像素区间上出现较大值，通过计算累积直方图来获取场地的统计信息，计算累积直方图的公式如下：

\{\begin{matrix} hue [k] = Σ_{i = 0}^{29} H_{hu e_{i}} [k], 0 \leq k \leq N_{H} \\ saturation [k] = Σ_{i = 0}^{29} H_{saturatio n_{i}} [k], 0 \leq k \leq N_{S} \\ value [k] = Σ_{i = 0}^{29} H_{valu e_{i}} [k], 0 \leq k \leq N_{V} \end{matrix} - - - (2)

hue，saturation和value表示前30帧的累积直方图，它们包含了前三十帧场地的累积统计信息，横坐标同样定义为N_H，N_S，N_V；前30帧的累积直方图并不一定能够反映出场地的真实情况，我们规定只有满足下式才算对场地的累积统计信息收集成功，即：

GndAlys = \{\begin{matrix} 1 & if & 0.7 \times frame . width \times 30 \times frame . height \leq Σ_{k = 9}^{21} hue [k] \\ 0 & others \end{matrix} - - - (3)

其中，GndAlys表示场地分析标志，frame.width和frame.height分别表示视频帧的宽和高，if为若，others为其它；GndAlys为0，表示信息收集不成功，舍弃当前30帧，继续分析接下来30帧，直到GndAlys为1止；若满足(3)式，表示通过计算累积直方图我们已经获得了场地的基本累积信息，下面我们就可以对场地进行建模了；通过累积直方图我们得到如下两个统计量，它们足够反映场地的基本情况和条件：

\{\begin{matrix} ValuePeelIndex = k_{0}, if \{\begin{matrix} value [k_{0}] &GreaterEqual; value [i] \\ and \\ i, k_{0} &Element; [0, N_{H} - 1] \end{matrix} \\ SaturationMean = \frac{Σ_{i = 0}^{N_{S} - 1} i \cdot saturation [i]}{Σ_{i = 0}^{N_{S} - 1} saturation [i]} \end{matrix} - - - (4)

其中ValuePeakIndex表示Value通道累积直方图中最大值所对应的像素，它直接与足球场地中绿色像素的多少的相对应；SaturationMean表示Saturation通道的加权平均，它对应场地绿的程度；

B.球场检测：在上一步建模的基础上，可以对场地进行检测，通过如下两式来判断出某个像素是属于足球场地还是其它对象：

\{\begin{matrix} S = \frac{Max (r, g, b) - Min (r, g, b)}{Max (r, g, b)} \\ V = Max (r, g, b) \end{matrix} - - - (5)

其中，S代表HSV色彩空间的饱和度分量，V代表HSV色彩空间的像素值分量，r，g，b代表RGB色彩空间的红，绿，蓝分量。Max(r，g，h)代表r，g，b的最大值，Min(r，g，b)代表r，g，b的最小值，Ground(x，y)代表当前像素是否为场地像素。(5)式为某一像素从RGB色彩空间到HSV空间的转换，通过(6)式就可以将球场和其它对象分离出来，从而实现对场地的检测

3.根据权利要求书1所述的面向移动设备的足球视频智能播放方法，其特征在于所述步骤b中的镜头分类实现步骤是：构造场方地块；镜头切换检测；确定黄金地带；镜头分类；其中最后的镜头分类如下：

定义S_ground为场地像素的面积，通过下列判别式来确定当前镜头到底属于哪一类：

Ratio = \frac{S_{ground}}{Size} - - - (7)

ShotType = \{\begin{matrix} longshot, Ratio > β_{longshot} \\ mediumshot, β_{closeup} < Ratio < β_{longshot} \\ closeup, Ratio < β_{closeup} \end{matrix} - - - (8)

其中，Ratio为当前帧黄金地带中场地像素所占的比例，ShotType表示当前帧的镜头类型，longshot，mediumshot，closeup分别对应长景，中景和特写，β_longshot，β_closeup分别为长景和特写的固定阈值；Size代表整个核心区域的大小。

4.根据权利要求书1所述的面向移动设备的足球视频智能播放方法，其特征在于所述步骤C中的感兴趣区域的提取步骤是：首先找出球，然后确定以球为中心的矩形区域为感兴趣区域；球的检测步骤如下：

A.球的检测

(1).检测出可能是球的区域：定义potential_ball为当前帧内任意一可能是球的区域，利用颜色、面积和形状特征来检测，按下式所示

\{\begin{matrix} object = potential_ballif \{\begin{matrix} 3 < M < 20 AND \\ 1.5 < \frac{width \times height}{M} \\ AND 0.6 \leq aspect_ratio \leq 1.7 AND \\ Intesity > ValuePeakIndex \end{matrix} \\ object = OTHERS \end{matrix} - - - (9)

其中，object表示当前检测出的对象的标志，M表示该连通区域内所含像素的个数，width，height表示该连通区域外接矩形的宽和高，aspect_ratio为球场中连同区域的宽和高的比率，即aspect_ratio＝width/height，Intensity为该连通区域中某像素点的亮度值，即Intensity＝(r+g+b)/3，AND代表……，ValuePeakIndex为(4)中得到的最大值对应的横坐标。将当前帧内所有可能是球的区域的中心位置坐标依次保存到队列L₁中，同样将下一帧中所有可能是球的区域的中心位置坐标保存到另一队列L₂中，然后利用两帧之间球的相对位移来最终确定球的位置；

(2).球的检测：在上一步检测出的所有可能是球的区域基础上，按如下机制来检测出球，队列L₁和L₂分别保存了相邻两帧中所有可能是球区域的中心位置坐标，我们通过比较这两个队列来检测出球；比较的标准为相邻两帧间potential_ball的相对偏移。

Shift = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}} - - - (10)

球的判别式：

\{\begin{matrix} ball = L_{1} [i] & if & Shift &GreaterEqual; β_{dis} \\ i = i + 1, j = j + 1 & otherwise \end{matrix} - - - (11)

其中ball表示检测出球的实际位置；上式表明当Shift大小满足某一特定值时就表示得出的potential_ball的位置是真实的球位置，如不满足，就继续比较直到找到为止；

B.感兴趣区域的提取步骤如下：

1).初始化

\{\begin{matrix} {window}_{i} = {lob}_{i} \\ {disp}_{i} = 0 \\ {diff}_{i} = {lob}_{i} - {window}_{i - 1} \end{matrix} - - - (12)

\{\begin{matrix} S_{\min} = frame . width \cdot 0.5 \cdot frame . height \cdot 0.5 \\ S_{\max} = frame . width \cdot 0.7 \cdot frame . height \cdot 0.7 \\ S_{current} = S_{\min} \end{matrix} - - - (13)

window_i为矩形窗的中心位置，lob_i为球的中心位置，disp_i为偏移量，diff_i为参考偏移量。S_min，S_max，S_current分别为窗口大小的最小值、最大值和当前大小，frame.width，frame.height分别代表当前帧的宽和高。设窗口的初始大小为最小值。它们的初始值如(12)和(13)式所示。

2)动态更新：感兴趣区域窗口的动态更新包括两部分：窗口的位置移动和尺寸的自适应调整。为了更好地给观众舒适的观赏效果，移动和调整都应与比赛的内容相适应，把比赛中最精彩的部分更加清晰地展现给观众；下面就详细介绍窗口更新的过程：

(a)窗口位置的移动：为了便于分析，我们规定diff_i≥0，分析这种情况不会丢失一般性，与之相对应有以下三种情况：

i.球的偏移量不是很大

\{\begin{matrix} if 0 \leq {diff}_{i} \leq {disp}_{i} \\ then \{\begin{matrix} {window}_{i} = {window}_{i - 1} \\ {disp}_{i + 1} = α \cdot {disp}_{i} \end{matrix} \end{matrix} - - - (14)

ii.球的偏移增大到某一程度

\{\begin{matrix} ifd {isp}_{i} \leq {diff}_{i} \leq frame . widht / 2 \\ then \{\begin{matrix} {window}_{i} = {window}_{i - 1} + {disp}_{i} \\ {disp}_{i + 1} = {disp}_{i} + α_{1} \cdot sign ({diff}_{i}) \end{matrix} \end{matrix} - - - (15)

iii.球的偏移增大到更大范围

\{\begin{matrix} ifframe . widht / 2 \leq {diff}_{i} \leq frame . width \\ then \{\begin{matrix} {window}_{i} = {window}_{i - 1} + {disp}_{i} \\ {disp}_{i + 1} = {disp}_{i} + α_{2} \cdot sign ({diff}_{i}) \end{matrix} \end{matrix} - - - (16)

其中sign(t)为符号函数，当t＞时sign(t)为1，t＜0时sign(t)为0。本方法中用来控制ROI窗口的移动方向，

分别为三个加速因子，用它来控制窗口移动的快慢；

(b)尺寸自适应调整

动态更新中，步骤(a)只实现了窗口位置的改变，为了能让观众更加舒适、方便地在移动设备上观看比赛，还必须使窗口的尺寸能够随比赛的进行动态有节奏的变化；感兴趣冈域根据当前窗口中球员的个数来自适应调整当前窗口的大小；若球员个数增多，则需要扩大窗口的大小；若减少，则需要缩小窗口；否则保持大小不变；

当前窗口大小S_current可以用下式来计算：

S_current＝abs(P_x1-P_x2)·abs(P_y1-P_y2) (17)

其中abs表示求绝对值，(P_x1，P_y1)和(P_x2，P_y2)分别为矩形的左上角和右下角坐标，可以通过改变(P_x1，P_y1)和(P_x2，P_y2)来调整其大小；当(P_x1，P_y1)增大，(P_x2，P_y2)减小时，窗口就变小；当(P_x1，P_y1)减小，(P_x2，P_y2)增大时，窗口就变大；

设{N(t)，0≤t＜T_LongShot}，T_LongShot表示当前长景镜头的总长度，N(t)为当前帧ROI窗口内球员的个数，根据下式来判别是否应调整窗口大小：

\{\begin{matrix} l = N (t) / N (t - 1) \\ SizeAdaptation = \{\begin{matrix} Shrinkage, l < l_{1}; \\ Expansion, l > l_{2} \\ Stay, others \end{matrix} \end{matrix} - - - (18)

其中SizeAdaptation感兴趣区域窗口的状态类型。N(t)和N(t-1)表示相邻两帧内ROI窗口内球员的个数，Shrinkage，Expansion和Stay分别表示窗口缩小，扩大和不变；上式表明根据相邻两帧内感兴趣区域相对变化率来实时调整大小；为了使播放更加稳定和流畅，并不是对每相邻的两帧都进行统计窗口内球员的个数，而是每隔8帧进行窗口大小的调整。