CN101329766A

CN101329766A - 运动图像分析装置、方法及系统

Info

Publication number: CN101329766A
Application number: CNA2008100093852A
Authority: CN
Inventors: 吴伟国; 芦原隆之; 韩博; 胡一川
Original assignee: Sony China Ltd
Current assignee: Sony China Ltd
Priority date: 2007-06-18
Filing date: 2008-02-28
Publication date: 2008-12-24
Anticipated expiration: 2028-02-28
Also published as: CN101329766B; JP2008312215A; JP5420199B2; EP2034426A1

Abstract

本发明提供一种运动图像分析装置、方法及系统，该运动图像分析装置包括：运动图像读入单元，用于读入运动图像；关注区域提取单元，用于从所述运动图像的各帧图像中提取关注区域；对象特征提取单元，用于在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及镜头剪接检测单元，用于根据图像的色彩特征、关注区域的所述对象特征、以及运动信息在各帧图像之间的差别来检测镜头剪接。本发明通过评价图像内的运动信息的可靠性，能够除去根据色彩分布特征和关注区域的尺寸特征而误检测出的镜头剪接，提高镜头剪接的检测精度。

Description

运动图像分析装置、方法及系统

技术领域

本发明涉及一种数字信息提取及分析技术，特别涉及关于运动图像的提取和分析装置、方法及系统。

背景技术

随着互联网技术、广播、通信、娱乐、医疗、教育等领域中的数字化技术的急速发展，采用多媒体信息的方式存储影音资料已经成为最常规的存储手段之一。随之而来的，从庞大的多媒体信息中能够简单且高速地仅存取必要的信息这样的需求变得越来越高。其中，特别是从想要有效地管理并处理储存在网络、家庭服务器中的大量的影像内容的需求出发，正在积极地开展用于影像内容的含义提取和分析的图像识别技术的研究开发。

具体举例来说，正在研究开发如下技术，例如，在普及硬盘录像装置、数字家电时，用于实现只观看想看的内容、一边录像一边享受放映等之类的与新生活方式相应的娱乐方式的“类似图像检索技术”；随着数字照相机、数字摄像机以及互联网的普及，用于简单地编辑各种图像、运动图像、制作并保存自己的创作摘要影像的“摘要影像制作技术”等。另外，为了满足图像检索的需求，由Google等利用关键字的图像检索技术也正在实际应用。还包括能够自由自在地阅览运动图像内容的Browsing技术、可视通信中的“影像会议记录”制作技术等。

但是，在利用关键字的图像检索技术中，赋予必要的关键字需要花费劳力和时间，而且容易发生存在大量相同关键字的图像的情况，因此，实际利用时往往无法得到满意的检索结果。另外，研究了很多自动提取影像内的元信息(Meta information)并根据这些元信息找出想要的图像内容的检索技术、自动制作“影像会议记录”的技术、Browsing技术等，但是高精度地提取图像内的必要特征量、正确地进行镜头剪接检测和分类、摘要自动制作、精彩场面自动提取并不容易，因此，现有技术中并没有确立可实际利用的影像检索技术、摘要制作技术、Browsing技术。

因此，进一步出现了不是基于上述关键字的图像检索，而是以人的直观感觉来处理影像内容，从而更有效率地管理并处理影像内容的普通的影像分析技术。相关的技术可以参考日本特开2002-344872及日本特开2006-54622。

但是，特别涉及运动影像内的精彩场面提取和摘要制作，在实际应用中，常常会发生如下所述的镜头剪接检测错误：背景的色彩分布特性由于摄像机的高速运动和/或对象的高速运动而发生变化，有时将原本不是镜头转换的内容检测为镜头剪接；有时难以区分远景和中景的色彩分布特性和关注区域特征的变化，无法检测出原本为镜头转换的内容。

发明内容

本发明的目的在于解决现有技术中的上述问题，即，提供一种运动图像分析装置和方法，使得即使背景的色彩分布特性由于摄像机的高速运动或对象的高速运动而变化，也能正确地检测出镜头剪接。

本发明的另一目的在于提供一种运动图像分析装置、方法，使得即使对于远景、中景之类的变化，也能正确地检测出镜头剪接。

此外，本发明的另一目的在于提供能够利用运动图像分析装置自动进行摘要制作的摘要自动制作系统、自动提取精彩场面的精彩场面自动提取系统。

根据本发明第一方面的运动图像分析装置，包括：运动图像读入单元，用于读入运动图像；关注区域提取单元，用于从所述运动图像的各帧图像中提取关注区域；对象特征提取单元，用于在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及镜头剪接检测单元，用于根据图像的色彩特征、关注区域的对象特征和运动信息在各帧图像之间的差别来检测镜头剪接。

根据本发明第二方面的运动图像分析方法，包括：运动图像读入步骤，读入运动图像；关注区域提取步骤，从所述运动图像的各帧图像中提取关注区域；对象特征提取步骤，在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及镜头剪接检测步骤，根据图像的色彩特征、关注区域的特征、以及运动信息在各帧图像之间的差别来检测镜头剪接。

根据本发明第三方面的摘要自动制作系统，包括上述的运动图像分析装置；以及摘要自动制作单元，根据所述运动图像分析装置的分析结果，自动制作摘要。

根据本发明第四方面的精彩场面自动提取系统，包括上述的运动图像分析装置；以及精彩场面自动提取单元，根据所述运动图像分析装置的分析结果，自动提取精彩场面。

本发明的技术效果在于：通过评价图像内的运动信息的可靠性，能够除去根据色彩分布特征和关注区域的尺寸特征而误检测出的镜头剪接，提高镜头剪接的检测精度。而且，根据本发明，还能够高精度地提取图像内的特征量，正确地进行镜头分类，自动制作摘要和提取精彩场面。

附图说明

图1表示本发明的运动图像分析装置的第一实施例的框图。

图2表示本发明的运动图像分析装置的第二实施例的的框图。图3表示本发明的运动影像分析方法的一个实施例的流程图。

图4(a)是表示足球比赛影像内的赛场的检测例；图4(b)是该赛场内部和相邻区域中的图像和对象特征的示例。

图5(a)和图5(b)表示为了检测足球等运动影像的赛场而使用的3D HSV直方图特征，其中，图5(a)表示足球比赛中的代表性的图像样本；图5(b)表示将这些图像样本的3D HVS直方图投影到各个1D上的图表。

图6表示根据各种足球比赛影像收集的图像样本。

图7(a)表示为了求出此次3D HSV直方图统计模型而实际使用的训练用图像的示例；图7(b)表示赛场检测的结果。

图8(a)至8(c)是利用上述HSV直方图模型来表示所关注的赛场检测结果；其中，图8(a)表示利用HSV直方图模型的主要颜色检测方法，图8(b)表示图像采样，图8(c)表示主要颜色区域的检测结果。

图9表示除去噪声的过滤处理的实验结果。

图10示出了在关注赛场内部存在对象(运动员)的情况下的对象特征。

图11表示关注赛场的边界和其直线的角度以及交叉位置的检测方法。

图12表示球门检测方法。

图13表示利用球门的语义(semantic)规则检测出球门区域。

图14(a)和图14(b)表示通过上述方法检测出的球门的结果；其中图14(a)表示图像采样，图14(b)表示球门检测结果。

图15表示所关注的赛场中的角球位置的检测方法及其结果。

图16表示其他的对象特征的提取示例。

图17表示镜头剪接的种类。

图18表示在本发明中为了检测镜头剪接而利用的特征量。

图19表示镜头剪接检测算法的流程图。

图20表示镜头剪接检测的实施例。

图21(a)表示在摄像机高速移动的情况下，原本应该为相同镜头的内容中的背景区域的变化，而作为镜头剪接被误检测的情况；图21(b)表示没有检测出镜头剪接的情况，在镜头转换的场景中，前后帧之间的色彩特性的变化和关注区域(绿色球场)的变化不大的情形。

图22给出了镜头剪接检测示例(统一确认时的示例)的流程图。

图23表示对于使用运动信息的可靠性评价的镜头检测方法。

图24示出了从前后帧之间的运动信息估计图像内运动信息的“可靠性评价用参数(x，y)”的流程图。

图25(a)示出了利用上述运动信息可靠性评价的特征量；图25(b)示出了完成的M_MV屏蔽的例子。

图26(a)及图26(b)示出运动可靠性图像W_MV的估计方法。

图27表示使用色彩特征和关注区域的特征无法检测出的镜头检测失误的改善方法。

图28表示使用通过学习数据得到的运动信息的可靠性辨别器的可靠性评价值。

图29示出了用上述方法检测实际图像内有可靠性的动作区域的检测结果。

图30示出了正确地检测出“检测失误”的镜头剪接。

图31(a)至31(c)表示用上述方法检测出镜头剪接的结果；其中，图31(a)表示错误检测：摄影机快速移动；图31(b)逐步镜头剪接：图像擦除；图31(c)表示逐步镜头剪接：镜头分解。

图32示出了使用由学习数据得到的识别函数和特征量确认可除去这些误检测。

具体实施方式

为了有效地管理并方便地处理储存在网络上、家庭服务器等中的庞大的影像内容，其运动图像内容的分析与含义提取、以及元信息的赋予变得越来越重要。其中，分析体育比赛等的节目、并提取最精彩的场面以及自动地制作摘要的需求很高，但现状是无法高精度地实现。因此，鉴于上述技术问题，本发明提出了开发作为运动图像分析的基本技术的镜头剪接检测技术，并将该技术应用于提取体育比赛等节目的精彩场面、自动制作摘要等上。下面将以足球比赛为例进行说明，但需要说明的是，以下的实施例仅作为说明本发明的优选实施例，而非用以限定本发明，本发明可用于对任何运动图像进行分析。

一般来说，视频内容的不同会导致图像特征量的处理方法也有很大变化，因此本发明着重于实际中会被经常使用的“运动图像分析”的技术，进行用于实现提取其运动图像内的精彩场面和制作摘要的基本技术和架构的开发。具体来说，在足球比赛等的影像分析之中，分析各帧图像内的图像特征，使用通过预先学习而得到的关注区域(例如，足球场)的图像特性(例如，HSV直方图模型)，判断在这些图像内是否存在关注区域，在不存在关注区域的情况下，判断为外景运动图像(外景运动图像)；在存在关注区域的情况下，可靠地检测该区域。另外，将结合了该关注区域和图像内的色彩特征的内容作为特征量，评价图像间的特征量的相似性，在特征量相差较大的情况下，检测为镜头剪接(shot cut，镜头切换点)。

另一方面，正如背景技术中所说明的那样，在实际应用中，常常会发生如下所述的镜头剪接检测错误：背景的色彩分布特性由于摄像机的高速运动和/或对象的高速运动而发生变化，有时将原本不是镜头转换的内容检测为镜头剪接；有时难以区分远景和中景的色彩分布特性和关注区域特征的变化，无法检测出原本为镜头转换的内容。

因此，在本发明中，为了减少上述的镜头剪接的检测错误，提高如上所述的镜头剪接检测精度，除了利用上述的色彩分布特征和关注区域的色彩特征以外，还利用图像内的运动信息。具体来说：

(1)利用前后帧之间的块匹配，算出误差评价值。

(2)利用这些误差评价值，利用二次曲面模型进行拟合(Fitting)处理，估计该二次曲面模型的参数。

(3)将这些参数与事先学习的结果进行比较，仅检测可靠的运动信息。

(4)对于这些可靠的运动信息，通过在某时间轴上进行的统计处理，检测出可靠性更高的运动信息。

(5)利用这些可靠性高的运动信息，能够正确地检测出由于色彩分布特性和关注区域特征造成的误检测的内容、或未检测出的镜头剪接。

(6)对于摄像机的高速运动、对象物体的运动，该运动区域大多存在于图像的中心附近的位置，因此通过学习来制作这样的运动区域，利用该运动区域，能够进一步改善由高速摄像机运动造成的镜头剪接检测错误等。

在本发明中，通过利用色彩分布特征、关注区域的对象特征和运动信息对镜头剪接进行检测，将相邻的两个帧的图像的色彩分布特征、关注区域的对象特征和运动信息进行对比，如果对比结果为近似，则判断相邻的两个帧的图像属于同一个镜头，也就是说，在这两帧之间没有镜头剪接，如果对比结果相邻的前后两帧之间的色彩特征、关注区域的对象特征和运动信息存在差别，则判断上述这两帧图像不属于同一个镜头，也就是说在这两帧之间存在镜头剪接，并对通过检测出的镜头剪接所获得的每个镜头利用关注区域内的对象特征进行分类，镜头分为：远景镜头(long shot)、中景镜头(middle shot)、近景镜头(zoom-up shot)和外景镜头(outside shot)镜头四种，其中远景镜头、中景镜头和近景镜头属于室内景镜头，外景镜头也可称为场外镜头。

进而，通过将上述特征量和镜头剪接检测结果作为影像内的说明信息进行附加，从而能够将本发明应用于足球比赛中的精彩场面提取和摘要制作。

以下参考附图，详细说明本发明的实施例。

图1表示本发明的运动图像分析装置第一实施例的框图。如图1所示，运动图像分析装置100包括：用于读入运动图像的运动图像读入单元110，在足球比赛中读入比赛的视频序列；关注区域提取单元120，用于从读入的运动图像的各帧图像中提取关注区域，例如足球比赛的赛场；对象特征提取单元130，用于在关注区域内或与关注区域相邻的区域内提取对象特征，在足球比赛中，该对象特征例如是运动员的脸、球门区域、球、角球位置、赛场区域及其轮廓等；镜头剪接检测单元140，用于根据图像的色彩特征、关注区域的对象特征和运动信息在各帧图像之间的差别来检测判定镜头剪接。

其中，关注区域提取单元120利用通过预先学习而得到的关注区域的图像特征来判断在各帧图像中是否存在关注区域(例如足球比赛中的赛场)。在关注区域提取单元120提取了关注区域后，对象特征提取单元120自动在关注区域内或与关注区域相邻的区域内提取对象特征。关注区域的图像特征基于HSV直方图模型

图2表示本发明的运动图像分析装置第二实施例的框图。如图2所示，运动图像分析装置200包括运动图像读入单元210、关注区域提取单元220、对象特征提取单元230、镜头剪接检测单元240、具有可靠性的运动信息提取单元250、镜头分类单元260，其中上述的运动图像读入单元210、关注区域提取单元220、对象特征提取单元230与第一实施例中的运动图像读入单元110、关注区域提取单元120、对象特征提取单元130作用相同，这里省略对其的说明。此外，该镜头剪接检测单元240包括：第一镜头剪接检测单元242，用于根据图像的色彩特征、关注区域的对象特征在各帧图像之间的差别来检测镜头剪接；以及第二镜头剪接检测单元244，用于根据图像的运动信息在各帧图像之间的差别来检测镜头剪接。

此外，运动图像分析装置还包括该具有可靠性的运动信息提取单元250，镜头剪接检测单元240(第二镜头剪接检测单元244)利用该具有可靠性的运动信息提取单元250计算出的具有可靠性的运动信息进行检测。

第一镜头剪接检测单元242和第二镜头剪接检测单元244可以依次工作也可以同时工作，当第一镜头剪接检测单元242和第二镜头剪接检测单元244同时工作时，该镜头剪接检测单元240同时根据图像的色彩特征、关注区域的对象特征和运动信息在各帧图像之间的差别来检测镜头剪接，将前后帧之间色彩特征、关注区域的特征和运动信息相似的帧图像检测为一个镜头，反之，将前后帧之间色彩特征、关注区域的特征和运动信息差别较大的帧图像检测为不同的镜头。

镜头分类单元260对利用镜头剪接检测单元240的检测结果所获得的镜头进行分类，判定该镜头中是否存在基于色彩特征(在足球比赛中是指赛场的绿色)的关注区域，当不存在该关注区域时，将该镜头划分为外景该关注区域存在时，使用该关注区域内的对象特征将该镜头划分为室内景镜头中的远景镜头、中景镜头和近景镜头sho中的一个。

图2中的各单元既可以作为硬件各自独立存在，也可以整合成若干个单元，还可以通过基于控制程序的软件处理来进行。

图3表示本发明的运动图像分析方法的一个实施例的流程图。如图3所示，首先，读入足球比赛等的视频影像，该运动图像可以是视频图像、新闻图像或者电影电视图像等(步骤S301)，从运动图像的各帧图像中提取关注区域，例如在足球比赛中，利用通过预先学习而得到的所关注的赛场的图像特征模型(HSV直方图，HSV是指色彩模型，其中，Hue：色度，Saturation：饱和度，Value：亮度))来判断影像内有无赛场(步骤S302)。在存在赛场的情况下，提取该关注区域(步骤S303)，在不存在赛场的情况下，返回步骤S301。然后，在该赛场的内部或相邻的区域中，提取对象特征(步骤S304)。之后，利用色彩特征、提取的关注区域的对象特征和运动信息在各帧图像间的不同来检测镜头剪接(S305)，利用提取出的各镜头内部的图像特征，例如足球比赛的时候，判定该镜头中是否存在基于绿色的赛场，当该镜头中不存在赛场时，将该镜头划分为外景镜头，当该镜头中存在赛场时，划分为远景镜头、中景镜头和近景镜头中的一个(步骤S306)。接着，根据通过镜头剪接检测步骤S305而获得的检测结果和通过镜头分类步骤S306而获得的分类结果进行摘要制作或精彩场面提取(步骤S307)。

图4(a)表示足球比赛影像内的赛场的检测例，图4(b)表示该赛场内部和相邻区域中的图像和对象特征的示例。如图4(a)所示，图4(a.1)和图4(a.3)表示输入图像，图4(a.2)和图4(a.4)表示检测赛场，图4(a.3)表示，图4(a.4)表示，此外，如图4(b)所示，在图4(b)中的对象特征包括图4(b.1)的运动员，尤其运动员的脸部，、图4(b.2)球门区域、图4(b.3)球及角球位置、图4(b.4)的赛场区域，当然对象特征还包括除此之外的其他的特征，例如，赛场轮廓等。

图5(a)和图5(b)表示为了检测足球等运动影像的赛场而使用的3D HSV直方图特征，图5(a)表示足球比赛中的代表性的图像样本，图5(b)表示将这些图像样本的3D HSV直方图投影到各个1D上的图表。其中，在图5(a)中的三幅图像分别列举了远景、中景和近景三种样本图像。

图6表示根据各种足球比赛影像收集的图像样本(白天、傍晚、夜晚等各种时间的图像，以及晴、多云、雨等各种天气时的图像)的3D HSV直方图特征进行分析，通过统计处理得到的统计数据的结果。

例如，所关注的赛场区域中的HSV的可变范围分别为H[22，68]、S[32，255]、V[64，175]，另外，其区域幅度最大为H：16、S：128、V：64。也就是说，明确了如下情形：赛场区域内的HSV平均值根据比赛的时间段、气候等而改变，但是其分布值被限制在大致H：16、S：128、V：64之内。利用这样的HSV特征，能够可靠地检测出赛场。

图7(a)表示为了求出此次3D HSV直方图统计模型而实际使用的主要颜色例如足球场草地的绿色各不相同的训练用图像的示例，图7(b)示出了赛场检测结果。从其结果可知，在HSV模型的学习中使用色彩特征不同的各种训练样本图像，因此能够正确检测出各种照明条件下的赛场。

图8(a)至8(c)利用上述HSV直方图模型来表示所关注的赛场检测结果。图8(a)表示利用上述HSV直方图模型的所关注的赛场的检测方法，如图8(a)所示，该检测方法包括以下步骤：帧下采样、搜索压缩的三维直方图峰值、搜索一维本地直方图的塔式、分割主要颜色、进行降低噪声的滤波处理。为了提高处理速度、除去图像内的噪声，降低了输入图像的分辨率。另外，为了减少照明变化的影响、提高检测处理的可靠性，将HSV各成分的分辨率从8比特压缩到2-3比特。之后，检测出各HSV成分的峰值，将其作为HSV的中心值(平均值)，应用上述的HSV分布值，由此能够可靠地检测出所关注的赛场。图8(b)表示图像采样，图8(c)表示主要颜色区域的检测结果。在图8(b)和图8(c)中示出了利用该方法检测出的不同照明环境中的赛场的示例。从图8(b)和图8(c)示出的结果来看，能够在各种照明环境中可靠且实时地检测出所关注的赛场。

另外，为了除去赛场内的直线等，也可以进行后处理(用于除去噪声的过滤处理)。图9表示其实验结果。其中，图9(a1)和图9(b1)表示图像采样，图9(a2)和图9(b2)表示主演颜色区域分段，图9(a3)和图9(b3)表示滤波结果，从该结果可得到如下启示：通过检测关注赛场，提取该赛场内部和相邻区域中的对象特征(选手、罚球区、直线、角球位置等)是可能的。

以下，说明赛场内部及其相邻区域中的图像/对象特征提取方法。

图10示出了在关注赛场内部存在对象(选手)的情况下的对象特征。在此，用式(1)表示关注赛场的像素M(i，j)。

M(i，j)i∈{1，2，…，H}，j∈{1，2，…，W}式(1)

分别用式(2)中的P_h(i)、P_v(j)来表示水平、垂直方向的对象特征。

P_{h} (i) = \frac{1}{W} Σ_{j = 1}^{W} M (i, j)

P_{v} (j) = \frac{1}{H} Σ_{i = 1}^{H} M (i, j)

式(2)

在此，H和W分别表示图像的Y和X方向的大小。

关于该特征量，在P_v(j)的变化大、P_h(i)的变化小的情况下，意味着在赛场内部存在大的对象(人物)。另外，在P_v(j)的变化小的情况下、或者P_h(i)的变化大的情况下，意味着在赛场内部存在小的对象(人物)。

图11表示关注赛场的边界和其直线的角度以及交叉位置的检测方法。首先，检测其边界的位置B(i)。然后，将其宽W像素的边界在横方向上分割为30个部分，进行低分辨率化，求出该低分辨率图像中的各像素位置上的角度A(i)。其目的在于为了降低接近边界的人物、图形等的影响(噪声)。之后，根据下述式(3)计算左和右的角度A₁(n)和A_r(n)(n＝1、2、......、30)的二级(class)角度，并计算各自的分布值D₁(n)和D_r(n)。此时，将下述式中最小的N作为左右两直线的交叉位置。最后，在像素位置N中的角度A₁(n)和A_r(n)的角度差为10度以上的情况下，检测出两条直线，将其交叉位置检测为角球位置(参照实验结果)。

A_l(n)＝median{A(1)，…，A(n)} A_r(n)＝median{A(n+1)，…，A(30)}

D_{l} (n) = {\frac{1}{n} Σ_{i = 1}^{n} {[A (i) - A_{l} (n)]}^{2}}^{1 / 2}

D_{r} (n) = {\frac{1}{30 - n} Σ_{i = n + 1}^{30} {[A (i) - A_{r} (n)]}^{2}}^{1 / 2}

N＝arg min_n{[D_l(n)+D_r(n)]/[A_l(n)-A_r(n)]}

式(3)

图12表示球门检测方法。依次包括以下步骤：主要颜色区域的检测；球场边界的检测；垂直方向的白线检测；水平方向的白线检测；利用球门的语义规则(竞赛规则中对球门的规定)进行球门检测。对于如上所述检测出的关注赛场，检测与该赛场相接的垂直方向上的白线。因此，在纵方向上检测出两条平行直线的情况下，确认在由该平行直线包围的区域内是否存在水平方向的白线。在纵方向上检测出两条平行直线以及在横方向上检测出一条白线的情况下，将其作为球门的候选进行处理。

图13表示利用球门的语义规则检测出球门区域，如图13所示，利用球门的语义(semantic)规则(也就是说，球门区域的门柱高度与横梁长度、以及横梁长度与赛场宽度之间的比例关系)，能够正确地检测出球门区域。

图14(a)和14(b)表示通过上述方法检测出的球门的结果。尽管有复杂的背景，也能够可靠地检测出球门区域。

图15表示所关注的赛场中的角球位置的检测方法及其结果。角球位置检测利用了与图11的边界检测相同的方法。

图16(a)至16(f)表示其他的对象特征的提取示例。如图16所示，图16(a)、图16(b)、图16(c)示出了所关注的赛场内的选手区域、图形区域、球的检测示例。另外，图16(d)、图16(e)、图16(f)示出了裁判(颜色)、球员动作、教练(脸)等的检测示例。

图17表示镜头剪接的种类。通常，镜头剪接包括硬剪接(hardcut)、淡入/淡出切换、图形弧刷剪接(graphics wiper cut)这三种。通常硬剪接在一两帧等数帧之间发生变化，所以很容易检测出其变化，而淡入/淡出剪接、图形弧刷剪接在10-30等数十帧之间发生变化，所以难于准确地检测出该镜头的变化。例如本实施例中的硬剪接大体上在1帧之间进行切换，淡入/淡出剪接大体上在大于15帧之间进行切换，图形弧刷剪接大约每30帧左右切换。

图18表示在本发明中为了检测镜头剪接而利用的特征量。在此，为了正确检测镜头剪接，认为需要(1)保持对摄像机的移动、图像内的选手的水平运动的可靠性的同时，(2)对图像内的色彩特征分布的变化灵敏地进行检测。

因此，为了实现对(1)的水平方向的图像特征变化的可靠性，并且检测出(2)的图像内色彩特征变化，首先如图18所示，通过将区域分割成若干个，可以更准确有效地检测出每帧之间的差异。例如，在实施例中以2∶5∶3的比例进行了分割。然后，对各个区域计算上述的三维HSV分布作为色彩分布特征量。本实施例中采用了色彩分布特征，当然也可以采用色彩的RGB特征、色彩的绝对值特征等，另外，为了提高对图像内的噪声等的可靠性，设分别以2比特表示HSV的各成分，以6比特的色彩特征量表示整体的HSV分布特征。然后，作为表示帧之间的区别的一个特征，使用了下述式(4)所示的特征量。

Σ_{i = 0}^{63} | H_{t} (i) - H_{t - Δ} (i) | / 2 Σ_{i = 0}^{63} H_{t} (i)

式(4)

在此，H_t(i)是6比特的HSV色彩分布特征，Δ是表示是否求出与几帧前的特征量之间的区别的常数。在该式的计算结果比预先设定的阈值T1大的情况下，检测为不同的镜头，从运动影像统计地求得阈值T1。

另外，在足球比赛之类的运动影像中，通过利用关注区域的特征，可以更加可靠地检测镜头剪接。在此，设为兼用上述R2区域(即，图18的画面中心部分的区域)内的关注色彩特征。首先，确认是否存在R2区域内的关注色彩的区域，在该关注色彩区域的比例占到50％以上时，作为镜头剪接检测的第二特征量进行利用。此时，通过下述式(5)计算t时刻和(t-Δ)时刻的R2区域中的关注色彩区域的区别，在该区别大于预先设定的阈值T2的情况下，检测为不同的镜头。同样地，从运动比赛影像统计地求得阈值T2。

|R2_t-R2_t-Δ|/R2_t 式(5)

图19表示镜头剪接检测算法的流程图。如上所述，计算当前时刻的以6比特表示的HSV分布H_t(i)，求出与(t-Δ)时刻的HSV分布H_t-Δ(i)之间的区别。在该区别大于阈值T1的情况下，检测为镜头剪接。否则，检测R2区域内的关注色彩区域(在足球比赛的情况下，是绿色球场)，在该区域的尺寸超过R2区域的50％的情况下，计算当前时刻t与时刻(t-Δ)的区域尺寸的区别，在该区别大于阈值T2的情况下，检测为镜头剪接。

图20表示镜头剪接检测的实施例。通过评价各个区域R1、R2、R3的HSV分布的区别、和R2区域内的关注色彩(绿色区域)的区别，能够检测镜头剪接。例如使用上述的DC特征、RH特征、MV特征学习镜头剪接用的SVM分类器，通过该被学习的SVM分类器检测镜头剪接。

如图21(a)所示，在摄像机高速移动的情况下，原本应该为相同镜头的内容由于背景区域的变化，前后帧之间的色彩特性变化较大，常常发生检测为镜头转换的“误检测”的情况。也就是在不需要镜头剪接的时候进行了剪接。

相反的，在如图21(b)所示的镜头转换的场景中，前后帧之间的色彩特性的变化、关注区域(绿色球场)的变化并不那么大，因此常常发生判断为同一镜头的镜头转换的“检测失误”的情况。也就是在需要进行镜头剪接的时候未进行剪接。

因此，为了改善如上所述的“误检测”和“检测失误”，提出了利用运动信息的镜头检测方法。图22示出了该方法的详细的步骤。

图22给出了镜头剪接检测的示例(统一确认时的示例。)首先，通过前述利用色彩特征和关注区域特征的方法，进行利用色彩特征和关注区域的特征的第一镜头剪接检测(S2201)；然后进行利用运动信息的第二镜头剪接检测(S2202)；再根据第一镜头剪接检测和第二镜头剪接检测的检测结果判断镜头剪接(S2203)。表1对图22的步骤S2203中的判断作出说明。

表1

S2201	S2202	S2203
S2201	S2202	S2203	有镜头切换(shot change)	有镜头切换	确定S2201中作为不同的镜头剪接(shotcut)被检测出的检测结果。
有镜头切换	无镜头切换	合并S2201中作为不同的镜头剪接被检测出的内容作为同一镜头剪接。	有镜头切换(shot change)	有镜头切换	确定S2201中作为不同的镜头剪接(shotcut)被检测出的检测结果。
有镜头切换	无镜头切换	合并S2201中作为不同的镜头剪接被检测出的内容作为同一镜头剪接。	无镜头切换	有镜头切换	分割S2201中作为同一镜头剪接被检测出的内容作为不同的镜头剪接。
无镜头切换	无镜头切换	确定S2201中作为同一镜头剪接被检测出的检测结果。	无镜头切换	有镜头切换	分割S2201中作为同一镜头剪接被检测出的内容作为不同的镜头剪接。

在上述利用色彩特征和关注区域特征的进行镜头剪接检测时，既可以如图22所示在镜头剪接检测完成后利用运动信息确认误检测，也可以在每次检测镜头时进行确认，还可以在每次检测镜头剪接时进行确认，对每个镜头分别进行处理的具体步骤如下：

步骤B1：针对镜头k利用色彩特征和关注区域的第一镜头剪接检测；

步骤B2：判断步骤B1的检测结果和之前的镜头(k-1)是否为统一镜头剪接(镜头(k-1)和镜头k之间有无镜头切换)；

若上述步骤B2判断结果为“是”，则进行步骤B3-1，即，对于镜头k-1和镜头k之间是否没有镜头切换，通过利用运动信息的第二镜头剪接检测进行确认；否则，进行步骤B3-2，即，对于镜头(k-1)和镜头k是否有镜头切换，通过利用运动信息的第二镜头剪接检测进行确认。

在完成步骤B3-1或B3-2的处理后，进一步判断是否已针对放入的动画中的所有的镜头完成镜头剪接检测，若判断结果为“是”，则操作完成；否则，k＝k+1，并返回步骤B1。

以下给出图22所示的统一处理的模式的两个具体实施例：

例1：

S2201中利用色彩特征和关注区域的检测结果，当仅仅检测出Shot Cut #1(由镜头(shot)1，2，...，6构成)为远景时，通过S2202，利用运动信息确认镜头1～6之间是否真的没有镜头切换(镜头剪接)。

例2：

S2201中利用色彩特征和关注区域的检测结果，当检测出ShotCut #1(由镜头1，2，3构成)为远景、Shot Cut #2(由镜头4，5，6构成)为中景、以及Shot Cut #3(由镜头7，8，9构成)为远景这3种不同的镜头剪接时，通过S2202，利用运动信息，确认镜头3和镜头4之间以及镜头6和镜头7之间是否含有镜头切换(相当于上述步骤B3-2)，如果没有，则将其看作和之前紧邻的镜头为同一镜头剪接，并确认镜头1～3、镜头4～6、镜头7～9之间分别是否真的没有镜头切换，(相当于上述步骤B3-1)，如果有，则分割为多个镜头剪接。

通过S2202的处理，执行确认是否含有镜头切换的步骤可不分先后顺序。

如果进行了相当于上述步骤B3-2的确认，对于被分割成多个镜头剪接的镜头，则不需要进行相当于上述步骤B3-1的确认；

如果进行了相当于上述步骤B3-1的确认，对于作为和之前紧邻的镜头相同的镜头剪接被合成的镜头，则不需要进行相当于上述步骤B3-2的确认。

以下给出对每个镜头分别处理的模式的具体实施例：

例3：

步骤B1中利用色彩特征和关注区域的检测结果，当检测出Shot Cut #1(由镜头1，2，3构成)为远景、以及Shot Cut #2(由镜头4，5，6构成)为中景这2种不同的镜头剪接时，在紧接着镜头1检测完镜头2的时点(k＝2)上，通过步骤B3-1，利用运动特征确认是否不含镜头切换。

在紧接着镜头2检测完镜头3的时点(k＝3)上也同样进行步骤B3-1的处理。

对于镜头4因为判断为是不同的镜头剪接，所以在紧接着镜头3检测完镜头4的时点(k＝4)上，通过步骤B3-2，利用运动特征确认镜头切换的判断是否正确。

在紧接着镜头4之后镜头5被检测完的时点(k＝5)上，在紧接着镜头5之后镜头6被检测完的时点(k＝6)上进行步骤B3-1的处理。

当步骤B3-1中不含镜头切换(和步骤B1的检测结果相同)时，该镜头将之前的状态和之前紧邻的被检测出的镜头作为同一镜头剪接被保存。

当步骤B3-1中含有镜头切换(和步骤B1的检测结果不同)时，检测该镜头中的镜头剪接，并分割为多个镜头(其结果是：由于远景和中景混在一起引起的误检测导致的镜头剪接检测遗漏可得到改善)。

当步骤B3-2中含有镜头切换(和步骤B1的检测结果相同)时，该镜头将之前的状态作为和之前紧邻的被检测出的镜头不同的镜头剪接被保存。

当步骤B3-1中不含镜头切换(和步骤B1的检测结果不同)时，将该镜头和之前紧邻的被检测出的镜头作为同一镜头剪接处理(其结果是：由摄像头的高速运动以及图像模糊等造成的镜头剪接的误检测可得到改善)。

图23表示对于由使用上述色彩特征和关注区域的特征的镜头检测方法进行的误检测，使用运动信息的可靠性评价的镜头检测方法。首先，根据前后帧之间的运动信息估计，估计图像内运动信息的“可靠性评价用参数(x，y)”(S2301)。然后，使用利用统计数据得到的运动信息可靠性判断器来进行可靠性运动区域屏蔽制作(M_MV)(S2302)。之后，进一步将含有人物的图像利用为学习数据，使用根据这些学习数据得到的表示图像内的人物运动的发生频率的“运动信息的权重(weight)W_MV”、以及上述“有可靠性的动作区域屏蔽M_MV”，如下式(6)那样算出在固定的时间间隔内的运动可靠性评价值F_L(S2303)。最后，通过利用统计数据的运动可靠性评价值的学习结果，能够判断当前的镜头剪接是否为误检测(S2304)。

F_{L} (t) = Σ_{i = 1}^{N_{V}} Σ_{j = 1}^{N_{H}} [W_{MV} (i, j, t) \cdot M_{MV} (i, j, t)] / Σ_{i = 1}^{N_{V}} Σ_{j = 1}^{N_{H}} M_{MV} (i, j, t)

式(6)

图24示出了从前后帧之间的运动信息估计图像内运动信息的“可靠性评价用参数(x，y)”的方法。根据需要(例如，为了计算的高速化)从输入图像制作低分辨率图像(S2201)。然后对于图像内的全部像素(i，j)，将固定尺寸(例如，16×16)的块作为模板(S2202)，在前一帧图像内搜索相同区域(例如，搜索区域为32×32)(S2203)。另外，搜索时的错误评价使用SAD评价值(Dss)，Dss的计算方法如下式(7)所示。利用搜索区域内的各像素位置(X_MV，Y_MV)的评价值(Dss)，使下述二次曲面模型拟合，计算该模型的参数(a，b，c)。最后，通过x＝(a×b)^1/2、y＝c，将参数(a，b，c)变换为(x，y)，将该(x，y)作为运动信息可靠性评价的特征量(S2204)。

D_{SS} = a \cdot X_{MV}^{2} + b \cdot Y_{MV}^{2} + c

式(7)

图25(a)示出了利用上述运动信息可靠性评价的特征量(x，y)，制作可信赖的运动区域的屏蔽M_MV的过程。在此，利用特征量(x，y)，在判断为是可靠的运动信息的情况下，将屏蔽M_MV的值设为1。另外，通过使用统计数据的学习，得到用于进行可靠性判定的判断器。图25(b)示出了完成的M_MV屏蔽的例子。

图26(a)及图26(b)示出运动可靠性图像W_MV的估计方法，其是用于去除具有人物运动的剪接的误检测。通常，在放大的情况下，对于移动摄像机来追踪选手的场景，常常会发生镜头剪接的误检测。对于这个问题，为了进一步降低误检测率，利用这些影像场景作为学习数据，能够根据如上述那样求得的运动信息的可靠性屏蔽，制作表示图像内的人物运动特征的运动可靠度图像W_MV。如图26(a)所示，首先，生成M_MV屏蔽(0、1的二值图像)(S2601)，计算∑[M_MV](S2602)。接下来，判断是否完成了全部学习数据(S2603)，如果是，则算出可靠性图像W_MV，W_MV＝∑[M_MV]/N(S2604)，反之，则返回步骤S2601。图26(b)示出W_MV的例子。

M_MV的计算方法是这样的：仅仅收集摄像机面板的含有人物的图像，用同样的方法计算运动的可靠度，将具有可靠度的运动领域作为屏蔽。其结果是，由于在画面的中央附近出现人物的情况比较多(通过统计处理得出的)，如图26(b)所示，在画面的中央附近，作成有存在具有可靠度的运动领域这样的屏蔽。

最终，利用上述的动作可靠性屏蔽M_MV和可靠度图像W_MV，如下式那样计算可靠性评价值F_L(式(8))，能够将该评价值作为特征来判断有无镜头剪接的误检测。这里，判断有无镜头剪接的误检的阈值Thd01是通过学习数据得到的值。

F_{L} (t) = Σ_{i = 1}^{N_{V}} Σ_{j = 1}^{N_{H}} [W_{MV} (i, j, t) \cdot M_{MV} (i, j, t)] / Σ_{i = 1}^{N_{V}} Σ_{j = 1}^{N_{H}} M_{MV} (i, j, t)

式(8)

至此，说明了除去镜头误检测的方法。

图27利用上述运动信息，表示使用色彩特征和关注区域的特征无法检测出的镜头检测失误的改善方法。与图23相同，首先，估计运动信息可靠性评价参数(x，y)(S2701)，制作运动信息可靠性判断器的可靠的动作区域屏蔽(M_MV)(S2702)。然后，如式(9)那样，作为特征量F_p计算屏蔽M_MV的可靠的运动信息的比例(0～100％)(S2703)，进而判断特征量是否小于检测失误判断的阈值Thd02(S2704)，在该特征量小于检测失误判断的阈值Thd02的情况下，判断为镜头剪接的检测失误，反之，则判断为无检测失误。

F_{P} (t) = Σ_{i = 1}^{N_{V}} Σ_{j = 1}^{N_{H}} M_{MV} (i, j, t) / (N_{H} \times N_{V})

式(9)

这里的用于判断是否存在检测失误的阈值Thd02是通过学习数据得到的值。

图28表示使用通过学习数据得到的运动信息的可靠性辨别器来估计上述运动信息可靠性评价的特征值(x，y)时的可靠性评价值。

图29示出了用上述方法检测实际图像内有可靠性的动作区域的检测结果。从该结果可知，能确认可以将人物的运动信息检测为可靠性高，另外，关于由摄像机的动作造成的背景变化，判断为动作的可靠性低。

在图30中，对于由基于到此为止的色彩特征的镜头剪接检测方法无法检测出的“检测失误”，根据运动信息的可靠性评价，使用以动作可靠性屏蔽M_MV的可靠的运动信息的比例为特征的特征量F_p，由此也能够正确地检测出“检测失误”的镜头剪接。

图31(a)至31(c)表示用上述方法检测出镜头剪接的结果。在图31(a)中，对于利用色彩特征而误检测出的镜头剪接，能够使用本方法的运动信息的可靠性来除去该误检测。另外，在图31(b)、图31(c)中，即使对利用色彩特征而检测出的镜头剪接，进行本方法的运动信息的可靠性评价，也判断为正确的镜头剪接。

在图32中，对由摄像机的高速移动造成的误检测，使用由学习数据得到的识别函数和本发明提出的特征量F_L，能够确认可以除去这些误检测。

用上述的方法检测影像内的各镜头剪接，进而识别各镜头的类型(通常分为远景、中景、近景、外景这四种)，根据这些镜头之间前后的相关特性、镜头内部的各帧图像之间的特征的相关性(视野(View)的位置、运动方向)、以及各帧影像内的对象特征(例如，球门区域、角球、选手等)等，能够检测出角球、任意球、射门(goal kick)等精彩场面。

本发明的技术效果如下：

(1)本发明利用颜色分布特征，可靠地检测关注的色彩区域，由此检测足球比赛等的运动影像内的对象及镜头剪接，通过将这些结果作为元信息附加，能够进行影像内容的自动分析。

(2)为了提高相对摄像机水平运动、人物水平运动的可靠性，将图像整体分割为多个区域，并通过使用各区域内的色彩分布特征以及关注区域的尺寸特征，能够进行高精度的镜头剪接检测。

(3)进而，通过评价图像内的运动信息的可靠性，能够更高精度地检测根据上述(2)的色彩分布特征以及关注区域的尺寸特征无法检测出的镜头剪接等。

(4)另外，通过评价图像内的运动信息的可靠性，能够除去根据上述(2)的色彩分布特征和关注区域的尺寸特征而误检测出的镜头剪接，提高镜头剪接的检测精度。

(5)利用图像内的对象检测结果和高精度的镜头剪接检测结果，最终能实现影像内的各种精彩场面提取和摘要影像的自动制作。

(6)在本发明中，通过同时使用色彩分布特征、关注区域的色彩特征和运动特征，能够检测出足球比赛等的运动图像的镜头剪接。

(7)使用关注区域内的对象特征能够进行各个镜头剪接的分类。

此外，本发明可实施在本技术构思范围内的各种变形。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种运动图像分析装置，其特征在于，所述运动图像分析装置包括：

运动图像读入单元，用于读入运动图像；

关注区域提取单元，用于从所述运动图像的各帧图像中提取关注区域；

对象特征提取单元，用于在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及

镜头剪接检测单元，用于根据图像的色彩特征、所述关注区域的对象特征和运动信息在所述各帧图像之间的差别来检测镜头剪接。

2.根据权利要求1所述的运动图像分析装置，其特征在于，还包括镜头分类单元，用于对根据所述镜头剪接检测单元的检测结果而获得的镜头进行分类。

3.根据权利要求1所述的运动图像分析装置，其特征在于，所述关注区域提取单元利用通过预先学习而得到的所述关注区域的图像特征来判断在所述各帧图像中是否存在所述关注区域。

4.根据权利要求3所述的运动图像分析装置，其特征在于，所述关注区域的图像特征基于HSV直方图模型。

5.根据权利要求1所述的运动图像分析装置，其特征在于，在所述关注区域提取单元提取了所述关注区域后，所述对象特征提取单元自动在所述关注区域内或与所述关注区域相邻的区域内提取所述对象特征。

6.根据权利要求1所述的运动图像分析装置，其特征在于，还包括具有可靠性的运动信息提取单元，所述镜头剪接检测单元利用该具有可靠性的运动信息提取单元计算出的具有可靠性的运动信息进行检测。

7.根据权利要求6所述的运动图像分析装置，其特征在于，所述镜头剪接检测单元基于检测运动信息的可靠性的结果，对所述运动信息赋予二值化的可靠性模板。

8.根据权利要求7所述的运动图像分析装置，其特征在于，所述镜头剪接检测单元通过计算前后帧之间的运动信息并将所述运动信息向二次曲面模型拟合，来计算检测运动信息的可靠性的特征量。

9.根据权利要求8所述的运动图像分析装置，其特征在于，所述镜头剪接检测单元通过对搜索区域内的各像素位置和前后帧图像内搜索相同区域的匹配进行计算来取得匹配评价值，将所述取得的匹配评价值向所述二次曲面模型拟合推算二次曲面的参数，计算检测运动信息的可靠性的特征量。

10.根据权利要求9所述的运动图像分析装置，其特征在于，基于多个运动信息的可靠性模板，所述镜头剪接检测单元计算运动可靠度参数，

基于所述可靠性模板和所述运动可靠度参数，所述镜头剪接检测单元计算表示镜头剪接的检测结果是否可靠的可靠性评价值。

11.一种运动图像分析方法，其特征在于，所述运动图像分析方法包括：

运动图像读入步骤，读入运动图像；

关注区域读取步骤，从所述运动图像的各帧图像中提取关注区域；

对象特征提取步骤，在所述关注区域内或与所述关注区域相邻的区域内提取对象特征；以及

镜头剪接检测步骤，根据图像的色彩特征、所述关注区域的对象特征、以及运动信息在各帧图像之间的差别来检测镜头剪接。

12.根据权利要求11所述的运动图像分析方法，其特征在于，还包括：镜头分类步骤，对根据检测出的所述镜头剪接而获得的镜头进行分类。

13.根据权利要求11所述的运动图像分析方法，其特征在于，在所述关注区域提取步骤中，利用通过预先学习而得到的关注区域的图像特征来判断在所述各帧图像中是否存在关注区域。

14.根据权利要求13所述的运动图像分析方法，其特征在于，所述关注区域的图像特征基于HSV直方图模型。

15.根据权利要求11所述的运动图像分析方法，其特征在于，在所述关注区域提取步骤中提取了关注区域后，在所述对象特征提取步骤中自动在所述关注区域内或与所述关注区域相邻的区域内提取所述对象特征。

16.根据权利要求11所述的运动图像分析方法，其特征在于：在所述镜头剪接检测步骤中包括具有可靠性的运动信息提取步骤，在所述镜头剪接检测步骤中，利用通过所述具有可靠性的运动信息提取步骤计算出的具有可靠性的运动信息进行检测。

17.根据权利要求16所述的运动图像分析方法，其特征在于，在所述镜头剪接检测步骤中，基于检测运动信息的可靠性的结果，对所述运动信息赋予二值化的可靠性模板。

18.根据权利要求17所述的运动图像分析方法，其特征在于，在所述镜头剪接检测步骤中，通过计算前后帧之间的运动信息并将所述运动信息向二次曲面模型拟合，来计算检测运动信息的可靠性的特征量。

19.根据权利要求18所述的运动图像分析方法，其特征在于，在所述镜头剪接检测步骤中，通过对搜索区域内的各像素位置和前后帧图像内搜索相同区域的匹配进行计算来取得匹配评价值，将所述取得的匹配评价值向所述二次曲面模型拟合推算二次曲面的参数，计算检测运动信息的可靠性的特征量。

20.根据权利要求19所述的运动图像分析方法，其特征在于，在所述镜头剪接检测步骤中，基于多个运动信息的可靠性模板，计算运动可靠度参数，

基于所述可靠性模板和所述运动可靠度参数，计算表示所述镜头剪接检测步骤的检测结果是否可靠的可靠性评价值。

21.一种摘要自动制作系统，其特征在于包括：

根据权利要求1至10中任一项所述的运动图像分析装置；

以及

摘要自动制作单元，根据所述运动图像分析装置的分析结果，自动制作摘要。

22.一种精彩场面自动提取系统，其特征在于包括：

根据权利要求1至10中任一项所述的运动图像分析装置；

以及

精彩场面自动提取单元，根据所述运动图像分析装置的分析结果，自动提取精彩场面。