CN101072305A

CN101072305A - 镜头分类方法、场景提取方法、摘要生成方法及装置

Info

Publication number: CN101072305A
Application number: CN 200710126117
Authority: CN
Inventors: 毛一强; 张勤伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-06-08
Filing date: 2007-06-08
Publication date: 2007-11-14
Anticipated expiration: 2027-06-08
Also published as: CN100591103C

Abstract

本发明涉及视频处理技术，公开镜头分类方法、精彩场景提取方法和视频摘要生成方法；所述镜头分类方法包括：在镜头的代表帧图像中获得目标区域；获取所述目标区域中，比赛场地的像素所占的比率；根据所述比赛场地的像素所占的比率对所述镜头进行分类。所述精彩场景提取方法包括：对比赛视频进行镜头切分，获得多个镜头；分别对所述多个镜头进行自动分类；根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景。本发明还公开相应的视频处理装置。本发明实现例提供的精彩场景提取方法具有较好的通用性。

Description

镜头分类方法、场景提取方法、摘要生成方法及装置

技术领域

本发明涉及视频处理技术，尤其涉及体育比赛视频中的镜头分类方法、精彩场景提取方法、视频摘要生成方法及视频处理装置。

背景技术

随着人们对多媒体信息需求的不断增加，多媒体数据大量涌现，视频作为一种主要的多媒体类型，在丰富人们的生活、教育、娱乐等方面起到越来越突出的作用，如何有效地组织、管理、查询、检索和浏览视频数据，成为迫切需要解决的问题。

视频摘要是解决上述问题的一个有效的途径，视频摘要是指对视频的结构和内容进行分析，从视频中提取出有意义的部分，并将它们以某种方式进行组合，形成简洁的、能够充分表现视频语义内容的视频概要。视频摘要主要可以分为以下两种：一种是将视频中一系列镜头的代表帧进行组合，形成视频摘要，该方法实现较为简单，然而，由于镜头的代表帧通常是静态的图像，丢失了视频中的时序运动信息，因此，以镜头的代表帧生成的视频摘要无法充分的表现视频语义内容；另一种是将从视频中提取出的一段或几段精彩场景(主要指精彩的视频片段)进行组合，形成视频摘要，该方法生成的视频摘要能够更加充分的表现视频内容，但是精彩场景的提取实现起来较为复杂。

当然，可以通过人工方式进行精彩场景的提取，然而，面对海量的数据，采用人工的方式实现时，效率无疑会非常低下，因此，如何实现精彩场景的自动提取成为需要解决的主要问题之一。

视频信息的类型非常丰富，而不同的视频类型对精彩场景的定义也是千差万别，因此，对于精彩场景的自动提取很难建立通用的解决方案；本发明主要关注体育比赛视频，尤其是类似于足球等比赛视频中的精彩场景的自动提取。

以足球比赛为例，足球比赛具有场次多，持续时间长等特点，比赛视频的数据量非常庞大；而另一方面，对于普通观众来说，在足球比赛中真正能够吸引他们注意力的通常只是如射门、进球等一些较少的特殊场景，因此，在足球比赛中，可以将这些特殊场景作为精彩场景进行组合，形成比赛的视频摘要，从而实现比赛视频的管理、查询、检索和浏览等。

在足球比赛视频中，当比赛中出现如射门、进球等特殊场景时，通常会出现一些特写或回放镜头，在有些比赛视频中，视频制作者(通常是电视台)会在特写或回放镜头的图像帧中加入特定标识(如世界杯的奖杯图象)，基于此，现有技术提供一种自动提取精彩场景的方案，其基本思想是：对比赛视频中的图像帧进行检测，得到加入特定标识的图像帧，然后将出现特定标识前的一段视频直接从视频中提取出来作为精彩场景。该方案在一定程度上可以达到精彩场景提取的目的，然而，当出现特写或回放镜头中无特定标识的情况时，该方案则无法实现精彩场景的自动提取。

发明内容

本发明的实施例要解决的技术问题是提供体育比赛视频中的镜头分类方法、精彩场景提取方法、视频摘要生成方法及视频处理装置。

为解决上述技术问题，本发明的实施例提供以下技术方案：

一种镜头分类方法，包括：

在镜头的代表帧图像中获得目标区域；

获取所述目标区域中，比赛场地的像素所占的比率；

根据所述比赛场地的像素所占的比率对所述镜头进行分类。

一种精彩场景提取方法，包括：

对比赛视频进行镜头切分，获得多个镜头；

分别对所述多个镜头进行自动分类；

根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景。

一种精彩场景提取方法，包括：

对比赛视频进行镜头切分，获得多个镜头；

分别对所述多个镜头进行自动分类；

根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景；

其中，所述对镜头进行自动分类具体包括：

在镜头的代表帧图像中获得目标区域；

获取所述目标区域中，比赛场地的像素所占的比率；

根据所述比赛场地的像素所占的比率对所述镜头进行分类。

一种视频处理装置，包括：

目标区域获取单元，用于在镜头的代表帧图像中获得目标区域；

比率获取单元，用于获取所述目标区域中，比赛场地的像素所占的比率并输出；

分类单元，根据所述比赛场地的像素所占的比率对所述镜头进行分类。

一种视频处理装置，包括：

镜头切分单元，对比赛视频进行镜头切分，获得多个镜头；

镜头分类单元，分别对所述多个镜头进行自动分类；

精彩场景提取单元，根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景。

一种视频摘要生成方法，包括：

获得比赛视频；

对比赛视频进行镜头切分，获得多个镜头；

分别对所述多个镜头进行自动分类；

根据所述精彩场景生成视频摘要；

其中，所述对镜头进行自动分类具体包括：

在镜头的代表帧图像中获得目标区域；

获取所述目标区域中，比赛场地的像素所占的比率；

根据所述比赛场地的像素所占的比率对所述镜头进行分类。

从以上技术方案可以看出，本发明实施例通过将视频中的镜头进行自动分类，并根据对镜头的自动分类结果，最终实现比赛视频中精彩场景的提取；由于本发明对镜头进行自动分类时，主要依据镜头中比赛场地的像素所占的比率，并不是依赖于比赛视频中视频制作者加入的特写标识，这样，即使出现特写镜头中无特定标识的情况时，本发明仍然能够完成镜头的自动分类，从而实现精彩场景的自动提取，因此，与现有技术相比，本发明实现例的方案具有更好的通用性。

附图说明

图1是本发明镜头分类方法实施例的基本流程图；

图2是本发明镜头分类方法实施例一的流程图；

图3是本发明镜头分类方法实施例二的流程图；

图4是本发明镜头分类方法实施例中获取比赛场地的色度范围的流程图；

图5是本发明视频处理装置实施例一的结构图；

图6是本发明视频处理装置实施例二的结构图。

具体实施方式

下面结合附图，对本发明提供的镜头分类方法、精彩场景提取方法、视频摘要生成方法及视频处理装置的推荐实施例进行详细描述。在以下实施例中，主要以对足球比赛视频的处理为例进行描述，可以理解，本发明实施例也可以应用于与足球比赛相类似的其他体育比赛视频的处理。

本发明精彩场景提取方法实施例的基本流程如图1所示，包括：

A1、获取比赛视频，对比赛视频进行镜头切分，获得多个镜头；

视频是连续的图像序列，对视频进行的处理通常建立在对视频结构的分析之上；对于视频来说，可以按层次进行结构的划分，一般来说，可以将视频自下而上划分为视频帧、镜头和场景：

视频帧是静态的图像，是组成视频的最小逻辑单元，将时间上连续的视频帧序列按等间隔进行连续播放，就可以形成动态的视频；镜头是由一系列视频帧组成的一段视频，通常是由单个摄像机的连续拍摄所产生的连续视频帧序列；场景是一个有意义的故事单元，可能包含多个镜头，也可能只包含一个镜头中的一段视频帧序列；

面对数据量巨大的视频内容，如果逐帧处理将会耗费很多的时间，因此，在对视频进行分析和处理时，通常以镜头为基本单元对视频进行切分(即镜头切分)，之后在每个镜头中抽取代表帧(又称为关键帧)，用于代表相应的镜头；

镜头切分主要通过镜头边界检测来实现，镜头边界检测就是检测出前后两个镜头之间的边界，从而实现镜头划分的过程；近年来，出现了较多的镜头边界检测算法，如时空切片比较法、块比较法、直方图比较法等，在具体实现时，可参考该领域的相关算法，本发明中不再赘述；

镜头的代表帧主要是从组成镜头的视频帧序列中抽取出的静态图像，在本发明实施例中，镜头的代表帧的选取具有一定的任意性，如可以直接选择序列中的第一帧或最后一帧作为代表帧。

A2、分别对所述多个镜头进行分类；

基于足球比赛视频本身的一些特点，本发明中将镜头划分为两种类型，即全局镜头和特写镜头：全局镜头主要是指反映赛场整体的比赛情况的镜头，包括比赛正常进行中的镜头，以及回放镜头；全局镜头以外的镜头属于特写镜头，通常反映赛场上或看台上的局部情况；

A3、根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景；

在几乎所有的足球比赛中，如果发生一些特殊的事件，如射门、进球等，在比赛视频中都会出现一系列的特写镜头或者回放镜头，而一般情况下，这些事件正是能够吸引观众注意力的场景，同时，这些事件也可以在一定程度上代表整场比赛的内容，因此本发明认为，进行了特写或者回放的场景可能是场景精彩，另一方面，并不是所有进行了特写或者回放的场景都是精彩场景，例如，足球比赛中，足球滚出边线后，可能会有对掷界外球的球员的特写，而这样的场景则不属于精彩场景之列。

如前面所述，全局镜头通常反映赛场整体的比赛情况，因此，全局镜头的代表帧图像中，通常也是以比赛场地作为主要的背景，因此，可以直接通过统计镜头的代表帧图像中比赛场地的像素所占的比率来对镜头进行分类，若比赛场地的像素所占的比率大于预定的阈值，则将镜头分类为全局镜头，若比赛场地的像素所占的比率小于该阈值，则将镜头分类为特写镜头；

上述镜头分类方法实现较为简单，但是当全局镜头中包含较多非比赛场地像素时(例如，全局镜头中包含较大面积的观众席)，或者特写镜头中包含较多比赛场地像素时，由于只对代表帧图像整体进行简单的统计，可能会发生错误的分类；为减少上述情况下发生错误分类的问题，本发明实施例中对镜头进行分类时，可以采用以下的区域化统计的方法。

本发明镜头分类方法实施例一，流程如图2所示，在本实施例中，主要根据横向目标区域中的比赛场地像素的统计实现镜头的分类，包括：

B1、获取待分类镜头的代表帧图像，在镜头的代表帧图像中，根据预定初始位置获得横向目标区域；

所述的目标区域可以是具有规则形状的区域，优选的，为便于处理，可以采用矩形区域；

B2、判断所获得的横向目标区域中，比赛场地的像素所占的比率是否大于预定的阈值，若是，执行B3；若否，执行B4；

B3、直接将所述镜头分类为全局镜头，结束流程；

B4、判断对于所述代表帧图像，是否已完成所有可能的竖向偏移处理，若是，执行B6；若否，执行B5；

B5、基于所述横向目标区域，在所述代表帧图像中获得竖向偏移的图像区域，以该图像区域为当前的横向目标区域，返回执行B2；

所述基于所述横向目标区域，在所述代表帧图像中获得竖向偏移的图像区域可以通过以下方法实现：

根据预定的竖向偏移方向和预定的偏移参数，将所述横向目标区域中的各像素点分别按照相应方向和相应步长进行偏移，从而获得竖向偏移的图像区域；

其中，所述的偏移参数可以是一个或多个像素；

B6、将所述镜头分类为特写镜头，结束流程。

在本实施例中，所述横向矩形区域的横向宽度可以是所述代表帧图像的宽度，竖向高度值可以在所述代表帧图像高度的1/4～3/4间选取；

与横向矩形区域的形状特征相对应，所述比赛场地的像素所占的比率是否大于预定的阈值中所述的阈值可以在0.9～0.75之间选择，横向矩形区域的竖向高度值越大，相应的阈值取值越小；

优选的，所述横向矩形区域的横向宽度是所述代表帧图像的宽度，其竖向高度值可以在所述代表帧图像高度的1/3～2/3间选取，相应的，所述比赛场地的像素所占的比率是否大于预定的阈值中所述的阈值可以在0.85～0.75选取；

本发明镜头分类方法实施例二，流程如图3所示，在本实施例中，依次对横向目标区域和竖向目标区域中比赛场地的像素进行统计，实现镜头的分类，包括：包括：

C1、获取待分类镜头的代表帧图像，在镜头的代表帧图像中，根据预定初始位置获得横向目标区域；

C2、判断所获得的横向目标区域中，比赛场地的像素所占的比率是否大于预定的阈值，若是，执行C3；若否，执行C9；

C3、在所述代表帧图像中，根据预定初始位置获得竖向目标区域；

同样，所述的目标区域可以是具有规则形状的区域，优选的，为便于处理，可以采用矩形区域；

C4、判断所述竖向目标区域内非比赛场地像素所占的比率与代表帧内非比赛场地像素所占的比率之间的比值是否大于预定阈值；若是，执行C5；若否，执行C6；

C5、将所述镜头分类为特写镜头，结束流程；

C6、判断对于所述代表帧图像，是否已完成所有可能的横向偏移处理，若是，执行C8；若否，执行C7；

C7、基于所述竖向目标区域，在所述代表帧图像中获得横向偏移的图像区域，以该区域为当前的竖向目标区域，返回执行C4；

所述基于所述竖向目标区域，在所述代表帧图像中获得横向偏移的图像区域可以通过以下方法实现；

根据预定的横向偏移方向和预定的偏移参数，将所述竖向目标区域中的各像素点分别按照相应方向和相应步长进行偏移，从而获得横向偏移的图像区域；

其中，所述的偏移参数可以是一个或多个像素；

C8、将所述镜头分类为全局镜头，结束流程；

C9、判断对于所述代表帧图像，是否已完成所有可能的竖向偏移处理，若是，执行C11；若否，执行C10；

C10、基于所述横向目标区域，在所述代表帧图像中获得竖向偏移的图像区域，以该图像区域为当前的横向目标区域，返回执行C2；

其中，所述的偏移参数可以是一个或多个像素；

C11、将所述镜头分类为特写镜头，结束流程。

竖向矩形区域的竖向宽度可以是所述代表帧图像的高度，横向宽度值可以在较大的范围内取值，如可以在所述代表帧图像宽度的1/10～9/10间选取；值得注意的是，如果该值取得太大或者太小时，较易受到干扰；

与竖向矩形区域的形状特征相对应，所述竖向目标区域内非比赛场地像素所占的比率与代表帧内非比赛场地像素所占的比率之间的比值是否大于预定阈值中所述的阈值可以在2.0～1.5间选取；竖向矩形区域的横向宽度值越大，相应的阈值取值越小；

所述竖向矩形区域的横向宽度可以是在代表帧图像宽度的1/5～4/5间选取，其竖向高度是所述图像帧的高度，相应的，所述竖向目标区域内的非比赛场地的像素在代表帧图像内的所有非比赛场地的像素中，所占的比率是否大于预定的阈值中所述的阈值可以在2.0～1.5间选取。

本发明镜头分类方法实施例三，在本实施例中，主要根据竖向目标区域中的比赛场地像素的统计实现镜头的分类，包括：

S1、获取待分类镜头的代表帧图像，在镜头的代表帧图像中，根据预定初始位置获得竖向目标区域；

S2、判断所获得的竖向目标区域中，比赛场地的像素所占的比率是否小于预定的阈值，若是，执行S3；若否，执行S4；

S3、直接将所述镜头分类为特写镜头，结束流程；

S4、判断对于所述代表帧图像，是否已完成所有可能的横向偏移处理，若是，执行S6；若否，执行S5；

S5、基于所述竖向目标区域，在所述代表帧图像中获得横向偏移的图像区域，以该图像区域为当前的竖向目标区域，返回执行S2；

所述基于所述竖向目标区域，在所述代表帧图像中获得横向偏移的图像区域可以通过以下方法实现：

其中，所述的偏移参数可以是一个或多个像素；

S6、将所述镜头分类为全局镜头，结束流程。

在本发明镜头分类方法更多实施例中，还可以依次对竖向目标区域和横向目标区域中比赛场地的像素进行统计，从而实现镜头的分类，其实现原理与镜头分类方法实施例二类似。

在本发明镜头分类方法实施例中，所述比赛场地的像素具体可以是指色度值在比赛场地的色度范围内的像素；若像素的色度值不在比赛场地的色度范围内，则可被归为非比赛场地的像素；

其中，比赛场地的色度范围可以是通过对同类型的多场比赛视频中的比赛场地的色度范围进行统计而获得；通过该方法获得的比赛场地的色度范围具有较好的通用性；

另外，比赛场地的色度范围还可以通过以下方法获得，该方法的流程可参考图4，包括：

D1、从包括所述镜头的比赛视频中提取多个视频帧；

其中，所述多个视频帧具体可以是通过从所述比赛视频的多个镜头中分别提取的代表帧；也可以是从所述比赛视频中时长大于预定阈值的镜头中提取的视频帧；

D2、对所述多个视频帧中像素点的色度进行统计；

D3、根据所述统计的结果，获得多个对应像素点最多的色度值；

D4、分别获得所述多个色度值对应的色度范围；

可以按照预定的规则分别获得所述色度值对应的色度范围，例如，可以色度值为中心，左右各浮动一个预定的数值获得色度值对应的色度范围；

D5、对所述多个色度范围内的像素点进行统计，确定包含像素点最多的色度范围为比赛场地的色度范围。

由于上述方法是从被处理的比赛视频本身提取的多个视频帧进行统计，具有一定的针对性，因此，可以保证所获取的比赛场地的色度范围具有更好的聚合性，从而降低当某些非比赛场地像素点的色度与比赛场地的色度比较接近时，将这样非比赛场地像素点误判断为比赛场地的像素点的可能性，进而提高镜头分类的准确性。

本发明精彩场景提取方法实施例；该方法包括：

E1、对比赛视频进行镜头切分，获得多个镜头；

如前面所述，对比赛视频进行镜头切分，可以参考该领域的相关算法实现，本发明中不做赘述；

E2、分别对所述多个镜头进行分类；

在本实施例中，对镜头进行分类可以参考上述本发明镜头分类方法的各实施例实现；

E3、根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景；

如前面所述，精彩场景主要存在于进行了特写或者回放的场景，因此，可以根据对镜头的分类结果，提取视频中的精彩场景；具体可以通过以下方法实现：判断特写镜头是否符合预定条件，若是，则从所述特写镜头之前的全局镜头中，提取出预定时长的视频帧序列；

所述预定时长的视频帧可以是指该全局镜头中最后一段视频帧；

其中，所述判断特写镜头是否符合预定条件具体可以是：判断单个或连续特写镜头的时长是否大于预定的阈值；

由于通常情况下，当出现精彩场景时，给予的特写以及回放镜头时间会比较长，因此，可以直接根据特写镜头的时长来判断在该特写镜头之前是否出现精彩场景；因此，本实施例方法具有实现简单、高效的优点。

在本发明精彩场景提取方法更多实施例中，所述判断特写镜头是否符合预定条件还可以是：判断连续特写镜头的时长以及镜头个数是否分别大于预定的阈值；

在本发明精彩场景提取方法更多实施例中，所述根据对所述多个镜头的分类结果，提取所述比赛视频的精彩场景也可以通过以下方法实现：从所述比赛视频中获取预定数目的时长最大的单个或连续特写镜头，从所述特写镜头之前的全局镜头中，提取出预定时长的视频帧序列。

在上述精彩镜头提取方法实施例中，通过将视频中的镜头进行自动分类，并根据对镜头的自动分类结果，最终实现比赛视频中精彩场景的提取；由于本发明对镜头进行自动分类时，主要依据镜头中比赛场地的像素所占的比率，并不是依赖于比赛视频中视频制作者加入的特写标识，这样，即使出现特写镜头中无特定标识的情况时，本发明仍然能够完成镜头的自动分类，从而实现精彩场景的自动提取，因此，与现有技术中通过特定标识提取精彩场景相比，本发明实现例的方案具有更好的通用性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可以包括如下步骤：在镜头的代表帧图像中获得目标区域；获取所述目标区域中，比赛场地的像素所占的比率；根据所述比赛场地的像素所占的比率对所述镜头进行分类。这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

本发明实施例还提供一种视频摘要生成方法，包括：

P1、获得比赛视频；

P2、对比赛视频进行镜头切分，获得多个镜头；

P3、分别对所述多个镜头进行自动分类；

P4、根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景；

上述P2至P5可参考本发明精彩场景提取方实施例实现；

P5、根据所提取的精彩场景生成视频摘要；

所述生成视频摘要具体可以是将所提取的精彩场景按照时序，或其他方式进行组合而实现。

本发明实施例还提供相应的视频处理装置，下面对所述装置的推荐实施例进行描述。

本发明视频处理装置实施例一；参考图5的结构图，该装置包括：

目标区域获取单元510，用于在镜头的代表帧图像中获得目标区域；

比率获取单元520，用于获取所述目标区域中，比赛场地的像素所占的比率并输出；

分类单元530，用于根据所述比赛场地的像素所占的比率对所述镜头进行分类；

其中，目标区域获取单元510所获得的目标区域可以是横向目标区域，所述分类单元530根据比赛场地的像素所占的比率对所述镜头进行分类具体可以包括：判断所述目标区域中，比赛场地的像素所占的比率是否大于预定的阈值；若判断结果为是，则将所述镜头分类为全局镜头。

其中，目标区域获取单元510所获得的目标区域还可以是竖向目标区域，分类单元530根据比赛场地的像素所占的比率对所述镜头进行分类具体可以包括：判断所述目标区域中，比赛场地的像素所占的比率是否小于预定的阈值；若判断结果为是，则将所述镜头分类为特写镜头。

场地特征获取单元540，用于获取比赛场地的颜色特征；

其中，所述比赛场地的颜色特征具体是指比赛场地的色度范围；

所述场地特征获取单元540具体包括：

统计单元541，用于对多个视频帧中像素点的色度进行统计，所述多个视频帧是从包括所述镜头的比赛视频中提取的；

色度范围获取单元542，用于根据所述统计的结果，获得多个对应像素点最多的色度值；分别获得所述多个色度值对应的色度范围；以及对所述多个色度范围内的像素点进行统计，确定包含像素点最多的色度范围为比赛场地的色度范围。

本发明视频处理装置实施例二；参考图6的结构图，该装置包括：

镜头切分单元610，对比赛视频进行镜头切分，获得多个镜头；

镜头分类单元620，分别对所述多个镜头进行分类；

精彩场景提取单元630，根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景；

其中，所述镜头分类单元620具体包括目标区域获取单元621、比率获取622和分类单元623：

目标区域获取单元621，用于在镜头的代表帧图像中获得目标区域；

判断单元622，获取所述目标区域中，比赛场地的像素所占的比率并输出；

分类单元623，用于根据所述比赛场地的像素所占的比率对所述镜头进行分类。

所述精彩场景提取单元630具体包括镜头判断单元631和提取单元632：

镜头判断单元631，用于根据所述分类单元623输出的分类结果，判断特写镜头是否符合预定条件，并输出判断结果；

提取单元632，用于在判断单元631输出的判断结果为是时，从所述特写镜头之前的全局镜头中，提取出预定时长的视频帧序列。

本发明视频处理装置实施例三；本实施例与视频处理装置实施例二基本相同，区域之处在于，在本实施例中，所述精彩场景提取单元具体包括特写镜头获取单元和提取单元：

特写镜头获取单元，用于根据分类单元输出的分类结果，从所述比赛视频中获取预定数目的时长最大的单个或连续特写镜头；

提取单元，用于从所述特写镜头之前的全局镜头中，提取出预定时长的视频帧序列。

在本发明视频处理装置实施例中，所述的视频处理装置的类型具体可以是录像机、计算机终端或机顶盒等具有存储及处理单元的装置。

综上所述，本发明实施例中，通过将视频中的镜头进行自动分类，并根据对镜头的自动分类结果，最终实现比赛视频中精彩场景的提取；由于本发明对镜头进行自动分类时，主要依据镜头中比赛场地的像素所占的比率，并不是依赖于比赛视频中视频制作者加入的特写标识，这样，即使出现特写镜头中无特定标识的情况时，本发明仍然能够实现精彩场景的自动提取，因此，与现有技术中通过特定标识提取精彩场景相比，本发明实现例的方案具有更好的通用性。

另外，在本发明实施例中，在获取比赛场地的色度范围时，由于是从被处理的比赛视频本身提取的多个视频帧进行统计，具有一定的针对性，因此，可以保证所获取的比赛场地的色度范围具有更好的聚合性，从而降低当某些非比赛场地像素点的色度与比赛场地的色度比较接近时，将这样非比赛场地像素点误判断为比赛场地的像素点的可能性，进而提高镜头分类的准确性。

以上对本发明实施例所提供的镜头分类方法、精彩场景提取方法、视频摘要生成方法及视频处理装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种镜头分类方法，其特征在于，包括：

获取镜头的代表帧图像；

在镜头的代表帧图像中获得目标区域；

获取所述目标区域中，比赛场地的像素所占的比率；

根据所述比赛场地的像素所占的比率对所述镜头进行分类。

2、如权利要求1所述的镜头分类方法，其特征在于，

所述在镜头的代表帧图像中获得目标区域具体是：在镜头的代表帧图像中获得横向目标区域；

所述根据所述比赛场地的像素所占的比率对所述镜头进行分类具体包括：

判断所述目标区域中，比赛场地的像素所占的比率是否大于预定的阈值；若判断结果为是，则将所述镜头分类为全局镜头。

3、如权利要求2所述的镜头分类方法，其特征在于，所述判断所述目标区域中，比赛场地的像素所占的比率是否大于预定的阈值后还包括：

若判断结果为否，则基于所述横向目标区域获得竖向偏移的图像区域，以该区域为当前的横向目标区域，继续上述判断；若直到完成所有可能的竖向偏移处理，判断结果均为否，则将所述镜头分类为特写镜头。

4、如权利要求1所述的镜头分类方法，其特征在于，

判断所述目标区域中，比赛场地的像素所占的比率是否大于预定的阈值；若判断结果为是，则在所述代表帧图像中获得竖向目标区域；

判断所述竖向目标区域内非比赛场地像素所占的比率与代表帧内非比赛场地像素所占的比率之间的比值是否大于预定阈值；若判断结果为是，则将所述镜头分类为特写镜头。

5、如权利要求2或3或4所述的镜头分类方法，其特征在于，所述目标区域具体是矩形区域。

6、如权利要求5所述的镜头分类方法，其特征在于，

所述横向矩形区域的横向宽度是所述代表帧图像的宽度，其竖向高度在所述代表帧图像高度的1/3～2/3间选取；

相应的，所述比赛场地的像素所占的比率是否大于预定的阈值中所述的阈值具体在0.85～0.75间选取。

7、如权利要求6所述的镜头分类方法，其特征在于，

所述竖向矩形区域的横向宽度是在代表帧图像宽度的1/5～4/5间选取，其竖向高度是所述图像帧的高度；

相应的，所述竖向目标区域内非比赛场地像素所占的比率和代表帧内非比赛场地像素所占的比率之间的比值是否大于预定阈值中，所述的阈值是在2.0～1.5间选取。

8、如权利要求1所述的镜头分类方法，其特征在于，

所述在镜头的代表帧图像中获得目标区域具体是：在镜头的代表帧图像中获得竖向目标区域；

判断所述目标区域中，比赛场地的像素所占的比率是否小于预定的阈值；若判断结果为是，则将所述镜头分类为特写镜头。

9、如权利要求8所述的镜头分类方法，其特征在于，判断所述竖向目标区域中，比赛场地的像素所占的比率是否小于预定的阈值后还包括；

若判断结果为否，则基于所述竖向目标区域获得横向偏移的图像区域，以该区域为当前的竖向目标区域，继续上述判断；若直到完成所有可能的横向偏移处理，判断结果均为否，则将所述镜头分类为全局镜头。

10、如权利要求8或9所述的镜头分类方法，其特征在于，所述竖向目标区域具体是竖向矩形区域。

11、如权利要求1至4任一项或8或9所述的镜头分类方法，其特征在于，所述比赛场地的像素具体是指：色度值在比赛场地的色度范围内的像素。

12、如权利要求11所述的镜头分类方法，其特征在于，比赛场地的色度范围具体是通过以下方法获得：

从包括所述镜头的比赛视频中提取多个视频帧；

对所述多个视频帧中像素点的色度进行统计；

根据所述统计的结果，获得多个对应像素点最多的色度值；

分别获得所述多个色度值对应的色度范围；

对所述多个色度范围内的像素点进行统计，确定包含像素点最多的色度范围为比赛场地的色度范围。

13、如权利要求12所述的镜头分类方法，其特征在于，所述多个视频帧具体是从所述比赛视频的多个镜头中分别提取的代表帧；或者，是从所述比赛视频中时长大于预定阈值的镜头中提取的视频帧。

14、一种精彩场景提取方法，其特征在于，包括：

获取比赛视频；

对比赛视频进行镜头切分，获得多个镜头；

分别对所述多个镜头进行自动分类；

其中，所述根据对所述多个镜头的分类结果，提取所述比赛视频中的精彩场景具体包括：

判断特写镜头是否符合预定条件，若是，则从所述特写镜头之前的全局镜头中，提取出预定时长的视频帧序列。

15、一种精彩场景提取方法，其特征在于，包括：

获取比赛视频；

对比赛视频进行镜头切分，获得多个镜头；

分别对所述多个镜头进行自动分类；

其中，所述对镜头进行自动分类具体包括：

在镜头的代表帧图像中获得目标区域；

获取所述目标区域中，比赛场地的像素所占的比率；

根据所述比赛场地的像素所占的比率对所述镜头进行分类。

16、如权利要求15所述的精彩场景提取方法，其特征在于，

17、如权利要求15所述的精彩场景提取方法，其特征在于，

18、如权利要求15至17任一项所述的精彩场景提取方法，其特征在于，所述根据对所述多个镜头的分类结果，提取所述比赛视频的精彩场景具体包括：

19、如权利要求18所述的精彩场景提取方法，其特征在于，所述判断特写镜头是否符合预定条件具体是指：

判断单个或连续特写镜头的时长是否大于预定的阈值；或者，

判断连续特写镜头的时长以及镜头个数是否分别大于预定的阈值；

20、如权利要求15至17任一项所述的精彩场景提取方法，其特征在于，所述根据对所述多个镜头的分类结果，提取所述比赛视频的精彩场景具体包括：

从所述比赛视频中获取预定数目的时长最大的单个或连续特写镜头，从所述特写镜头之前的全局镜头中，提取出预定时长的视频帧序列。

21、一种视频处理装置，其特征在于，包括：

22、如权利要求21所述的视频处理装置，其特征在于，所述视频处理装置还包括：场地特征获取单元，用于获取比赛场地的颜色特征。

23、如权利要求22所述的视频处理装置，其特征在于，所述比赛场地的颜色特征具体是指色度范围；

所述场地特征获取单元具体包括：

统计单元，用于对多个视频帧中像素点的色度进行统计，所述多个视频帧是从包括所述镜头的比赛视频中提取的；

色度范围获取单元，用于根据所述统计的结果，获得多个对应像素点最多的色度值；分别获得所述多个色度值对应的色度范围；以及对所述多个色度范围内的像素点进行统计，确定包含像素点最多的色度范围为比赛场地的色度范围。

24、如权利要求21或22或23所述的视频处理装置，其特征在于，所述视频处理装置的类型具体是：录像机、计算机终端或机顶盒。

25、一种视频处理装置，其特征在于，包括：

镜头切分单元，对比赛视频进行镜头切分，获得多个镜头；

镜头分类单元，分别对所述多个镜头进行自动分类；

26、如权利要求25所述的视频处理装置，其特征在于，所述镜头分类单元具体包括：

27、如权利要求26所述的视频处理装置，其特征在于，所述精彩场景提取单元具体包括：

镜头判断单元，用于根据分类单元的分类结果，判断特写镜头是否符合预定条件，并输出判断结果；

提取单元，用于在判断单元输出的判断结果为是时，从所述特写镜头之前的全局镜头中，提取出预定时长的视频帧序列。

28、如权利要求26所述的视频处理装置，其特征在于，所述精彩场景提取单元具体包括：

特写镜头获取单元，用于根据分类单元的分类结果，从所述比赛视频中获取预定数目的时长最大的单个或连续特写镜头；

29、如权利要求25至28任一项所述的视频处理装置，其特征在于，所述视频处理装置的类型具体是：录像机、计算机终端或机顶盒。

30、一种视频摘要生成方法，其特征在于，包括：

获得比赛视频；

对比赛视频进行镜头切分，获得多个镜头；

分别对所述多个镜头进行自动分类；

根据所述精彩场景生成视频摘要；

其中，所述对镜头进行自动分类具体包括：

在镜头的代表帧图像中获得目标区域；

获取所述目标区域中，比赛场地的像素所占的比率；

根据所述比赛场地的像素所占的比率对所述镜头进行分类。