CN102625028B

CN102625028B - 对视频中存在的静态徽标进行检测的方法和设备

Info

Publication number: CN102625028B
Application number: CN201110035996.6A
Authority: CN
Inventors: 韩博; 李沫楠
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-01-30
Filing date: 2011-01-30
Publication date: 2016-09-14
Anticipated expiration: 2031-01-30
Also published as: CN102625028A

Abstract

本发明公开了一种对视频中存在的静态徽标进行检测的方法和设备。根据本发明的静态徽标检测方法包括：输入视频；检测所述视频中的运动强烈程度和镜头变化频度中的至少一个；基于检测到的所述运动强烈程度和所述镜头变化频度中的至少一个，调整用于检测所述视频中存在的静态徽标的时间窗口的长度；在长度被调整的所述时间窗口内，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征；基于提取的所述特征进行分类，以确定在所述至少部分位置的像素或像素区域处是否出现所述静态徽标；以及根据所述分类的结果进行空间上的区域分割，以形成出现所述静态徽标的连通区域。

Description

对视频中存在的静态徽标进行检测的方法和设备

技术领域

本发明涉及图像处理技术领域，特别涉及一种对视频(运动图像)中存在的静态徽标进行检测的方法和设备。

背景技术

视频内容是人们日常生活中的一种重要的信息获取渠道。徽标信息(主要包括图形和文字)，作为对视频信息进行注释和补充的有效手段，被广泛采用。常见的徽标类型包括：表明视频内容的标题徽标；表明内容来源和版权的制作者徽标；表明内容的关键信息的注释徽标(例如体育比赛视频中的比分信息)；以及表明语音内容的字幕。其中，数字化的字幕信息经常可以在视频信息之外获得，而其他的徽标则或者包含图形，或者即使是文字也采用特别的字体形式。因此，大部分徽标信息的自动检测需要通过视频分析技术来实现。

徽标信息可以用来进行视频内容分析、视频检索和视频摘要。

在如下参考文件1中，作者选择20帧图片，计算这20帧图片的平均灰度图，然后计算该图的均值与标准差。通过如下公式对其进行二值化：

其中，A为平均灰度图，B为二值化图像，M为均值，STD为标准差，k为参数，文章中k取2.2。这样，获得二值化图像中的白色区域即为可能的比分区域。如下的参考文件2采用的也是类似的方法。

参考文件1：Yih-Ming Su and Chaur-Heh Hsieh，“A NovelModel-basedSegmentation Approach to Extract Caption Contents onSports Videos”，ICME 2006。

参考文件2：Chaur-Heh Hsieh，Chin-Pan Huang，and Mao-HsiungHung，“Detection and Recognition of Scoreboard for Baseball Videos”，ICIC 2008。

如下参考文件3中采用的是记分牌在视频中保持不变的特性及纹理丰富的特性来确定记分牌区域的。

参考文件3：Guangyi Miao，Guangyu Zhu，Shuqiang Jiang，QingmingHuang，Changsheng Xu，Wen Gao，“A REAL-TIME SCOREDETECTION AND RECOGNITION APPROACHFOR BROADCASTBASKETBALL VIDEO”，ICME 2007。

如下参考文件4中采用角点(SALIENT POINTS)的方法来检测记分牌。它首先检测视频的角点，通过角点提取的方法大大地减少了计算量，再通过时域和空域上的特征来去掉那些不满足条件的角点，得到最终的记分牌区域。

参考文件4：M.Bertini，C.Colombo，A.Del Bimbo，“AUTOMATICCAPTIONLOCALIZATION IN VIDEOS USING SALIENT POINTS”，ICME 2001。

如下参考文件5采用边缘特征的方法来进行时钟检测，利用的也是时钟在视频中保持不变以及按时间周期演变的性质。

参考文件5：Yiqun Li，Changsheng Xu，Kong Wah Wan，Xin Yan，Xinguo Yu，“Reliable Video Clock Time Recognition”，ICPR 2006。

如下参考文件6采用的是多帧合成的方法来进行比分牌的识别。它获得两幅灰度图，一幅是最小灰度图，另一幅是最大灰度图。计算公式如下：

{MinImage}_{i} (x, y) \min_{j &Element; Ci} (p_{i} (x, y))

{MaxImage}_{i} (x, y) \max_{j &Element; Ci} (p_{i} (x, y))

其中Ci是为生成序号为i的最小、最大灰度图所选取的30帧图像，j是视频中帧的序号。之后通过Sobel滤波获得记分牌相关区域。

参考文件6：Rongrong Wang，Wanjun Jin，Lide Wu，“A Novel VideoCaptionDetection Approach Using Multi-Frame Integration”，ICPR2004。

以上参考文件1-6的整体内容全都通过引用结合于此。

以上参考文件1-6基本上都是利用了记分牌帧间的不变性、颜色的亮度和饱和度、以及纹理的丰富性等特点来进行识别的。

徽标的帧间不变性是静态徽标检测的关键特征，而“不变”这一概念本身，就和时间窗口的长度和位置紧密相关。换言之，由于视频中的徽标一般并不是从开始到结束一直出现并不变，应用中都希望能够在徽标出现并不变的时段内灵敏并且准确地完成检测。

最简单的检测方案就是单一滑动窗口法，即固定窗口长度，并改变窗口位置进行扫描。这也是现有技术中所采用的方案。窗口越短，则对于出现时间较短的徽标的检测灵敏度越高；窗口越长，则抗干扰能力越强，检测准确率越高。但是，固定窗口长度将使检测性能受到限制。对不同视频、视频内的不同时间位置采用不同的时间窗口长度，则可以获得更优的检测结果。

本发明的目的就是提供一种基于视频内运动和镜头变化信息的自适应窗口长度调整方案。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。

本发明公开了视频处理/分析中的一种关键技术：静态徽标的检测。本发明利用视频中一个时间窗口内的多帧图像中提取的特征来检测该时段内视频中出现的静态徽标区域。所述时段的长度是根据视频中的运动强烈程度以及镜头变化频度来自适应地确定的。本发明通过自适应地调整静态徽标检测的时间窗口长度，可以提高静态徽标检测的灵敏度和准确率。

根据本发明的一方面，提供了一种对视频中存在的静态徽标进行检测的方法，其包括如下步骤：输入所述视频；检测所述视频中的运动强烈程度和镜头变化频度中的至少一个；基于检测到的所述运动强烈程度和所述镜头变化频度中的至少一个，调整用于检测所述视频中存在的静态徽标的时间窗口的长度；在长度被调整的所述时间窗口内，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征；基于提取的所述特征进行分类，以确定在所述至少部分位置的像素或像素区域处是否出现所述静态徽标；以及根据所述分类的结果进行空间上的区域分割，以形成出现所述静态徽标的连通区域。

根据本发明的另一方面，还提供了一种对视频中存在的静态徽标进行检测的设备，其包括：输入单元，用于输入所述视频；检测单元，用于检测通过所述输入单元输入的所述视频中的运动强烈程度和镜头变化频度中的至少一个；调整单元，用于基于通过所述检测单元检测到的所述运动强烈程度和所述镜头变化频度中的至少一个，调整用于检测所述视频中存在的静态徽标的时间窗口的长度；特征提取单元，用于在长度被所述调整单元调整的所述时间窗口内，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征；分类单元，用于基于通过所述特征提取单元提取的所述特征进行分类，以确定在所述至少部分位置的像素或像素区域处是否出现所述静态徽标；以及区域分割单元，用于根据通过所述分类单元进行的分类的结果进行空间上的区域分割，以形成出现所述静态徽标的连通区域。

根据本发明的另一方面，还提供了一种通用计算机，其能够读取和执行存储在程序产品中的机器可读指令代码，以执行根据本发明的对视频中存在的静态徽标进行检测的上述方法。

本发明提出一种对视频中的静态徽标进行检测的方法和设备，其适用于各种不用格式、不同内容的视频的处理和分析，它的应用不受特征定义和分类器形式等因素的限制。本发明提出的根据视频中的运动和镜头变化信息自适应调整窗口参数的方法和设备，可以同时提高静态徽标检测的灵敏度和准确率，更好地满足实际应用的需求。

附图说明

本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示出根据本发明实施例的对视频中存在的静态徽标进行检测的方法的流程图；

图2是示出根据本发明实施例的静态徽标例子的示意图；

图3是示出根据本发明实施例的时间窗口长度调整例子的示意图；

图4是示出根据本发明实施例的静态徽标检测的结果的例子的示意图；

图5是示出根据本发明实施例的对视频中存在的静态徽标进行检测的设备的框图；以及

图6是其中可以实现根据本发明实施例的方法和/或设备的通用计算机的示例性结构的框图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其它元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其它细节。

下面参照附图详细描述根据本发明实施例的对视频中存在的静态徽标进行检测的方法。

图1是示出根据本发明实施例的对视频中存在的静态徽标进行检测的方法的流程图。

首先，在步骤S110中，输入视频。

本发明中的视频指的是运动图像数据。在视频中可能存在静态徽标。根据本发明的优选实施例，静态徽标可以包括标题徽标、制作者徽标、注释徽标和字幕中的至少一个。关于静态徽标，可参见图2，图2是示出根据本发明实施例的静态徽标例子的示意图。例如，在图2中的左上角框出了表明内容来源和版权的制作者徽标，在图2中的右上角框出了表明视频内容的标题徽标，而在图2的下部则框出了表明内容的关键信息的注释徽标。

下一步，在步骤S120中，检测视频中的运动强烈程度和镜头变化频度中的至少一个。

由于视频中的徽标一般并不是从开始到结束一直出现并不变，应用中都希望能够在徽标出现并不变的时段内灵敏并且准确地完成检测。本发明基于视频中的运动强烈程度和镜头变化频度中的至少一个来更好地实现这一点。

关于检测视频中的镜头变化频度的具体技术方案，本发明对此并没有特殊限制。例如，本领域技术人员可参见发明名称为“运动图像分析装置、方法及系统”的中国发明专利申请第200810009385.2号，以及发明名称为“镜头转换检测方法及装置”的中国发明专利申请第200910176225.1号，这两个发明专利申请的整体内容全都通过引用结合于此。

另外，关于检测视频中的运动强烈程度的具体技术方案，本发明对此也没有特殊限制。例如，本领域技术人员可参见发明名称为“对视频中的运动矢量进行可靠性分类的方法和系统”的中国发明专利申请第200910119521.8号，以及如下参考文件7和8，该发明专利申请以及参考文件7和8的整体内容全都通过引用结合于此。

参考文件7：Gagan B.Rath，Anamitra Makur，“Iterative LeastSquares andCompression Based Estimations for a Four-ParameterLinear Global Motion Modeland Global Motion Compensation”，IEEETRANSACTIONS ON CIRCUITS AND SYSTEMS FORVIDEOTECHNOLOGY，VOL.9，NO.7，pages 1075-1099，OCTOBER 1999。

参考文件8：陈正华，章毓晋；“基于运动矢量可靠性分析的视频全局运动估计”，清华大学学报(自然科学版)，2010年04期。

下一步，在步骤S130中，基于检测到的运动强烈程度和镜头变化频度中的至少一个，调整用于检测视频中存在的静态徽标的时间窗口的长度。

图3是示出根据本发明实施例的时间窗口长度调整例子的示意图。图3中的上半部分和下半部分分别示出了在不同情况下进行徽标检测的最佳时间窗口的大小。在图3中上半部分的示例片段中，视频在中间时间段的运动强烈程度很小，因此最佳时间窗口较大，以准确检测一直存在的徽标。在图3中下半部分的示例片段中，视频在整个时间段的运动强烈程度都很大，因此最佳时间窗口较小，以保证检测到仅在中间时间段存在的徽标。本发明的目的，就是要通过自适应地调整静态徽标检测的时间窗口长度，来提高静态徽标检测的灵敏度和准确率。

根据本发明的优选实施例，在视频中的运动强烈程度被检测的情况下，运动强烈程度越大，则时间窗口的长度被调整得越短。

根据本发明的优选实施例，在视频中的镜头变化频度被检测的情况下，镜头变化频度越大，则时间窗口的长度被调整得越短。

下一步，在步骤S140中，在长度被调整的时间窗口内，提取视频中包含的帧中的至少部分位置的像素或像素区域的特征。

对于本领域技术人员而言已知的是，单个像素是图像中最小的区域。以像素为单位进行检测，其空间精度是最高的。在实际应用中，为了提高检测速度，很可能以区域为单位进行检测。最简单的以区域为单位的特征提取方法就是用区域中心像素的特征作为整个区域的特征。当然，存在很多更为复杂的特征提取方法，本发明对此并没有特殊限制。

下一步，在步骤S150中，基于提取的特征进行分类，以确定在至少部分位置的像素或像素区域处是否出现静态徽标。

最后，在步骤S160中，根据分类的结果进行空间上的区域分割，以形成出现静态徽标的连通区域。

需要说明的是，根据本发明的方法中的特征提取步骤(S140)、分类步骤(S150)和区域分割步骤(S160)可以采用本领域中已知的现有技术，本发明对此并没有特殊限制。

根据本发明实施例的对视频中存在的静态徽标进行检测的上述方法，可以更加有效地得到空域中所有的出现静态徽标的连通区域。

根据本发明的优选实施例，在进行区域分割而得到出现静态徽标的连通区域之后，还可以进一步执行合并步骤，对在不同的时间窗口内的出现静态徽标的至少部分重叠的连通区域进行合并，以得到在至少部分重叠的连通区域处出现静态徽标的起始时间和结束时间。同样地，本发明对于执行合并步骤的具体方法也没有特殊限制。

另外，本发明的发明人发现，在执行特征提取步骤(S140)时，不同的特征提取方法会对最终的静态徽标检测结果产生很大的影响(将在下文中进一步描述)。因此，本发明的发明人对已知的特征提取步骤提出了改进。虽然使用本领域已知的其它特征提取方法可以实现根据本发明的静态徽标检测方法，但是使用本发明的改进的特征提取步骤，可以得到更好的静态徽标检测结果。

根据本发明的优选实施例，提取视频中包含的帧中的至少部分位置的像素或像素区域的特征(特征提取步骤)可以包括：针对至少两组帧对分别计算至少部分位置的像素或像素区域的至少一个通道的帧间差；以及计算针对至少两组帧对分别计算的帧间差的平均值或者最大值，并将所述平均值或者最大值作为各个像素或像素区域的特征。

代替地或者另外，提取视频中包含的帧中的至少部分位置的像素或像素区域的特征(特征提取步骤)可以包括：在至少两个通道中分别计算至少部分位置的像素或像素区域的像素平均值；计算所述至少两个通道的像素平均值分别与对应于相应通道的参数值的差的绝对值；以及将计算的绝对值按照大小顺序进行排序，并将排序后的绝对值作为各个像素或像素区域的特征。

代替地或者另外，提取视频中包含的帧中的至少部分位置的像素或像素区域的特征(特征提取步骤)可以包括：对视频中包含的至少部分帧进行平均以得到平均图；以及计算所述至少部分位置的像素或像素区域所处的至少一个空间窗口内的平均图的边缘个数，并将计算出的边缘个数作为各个像素或像素区域的特征。

代替地或者另外，提取视频中包含的帧中的至少部分位置的像素或像素区域的特征(特征提取步骤)可以包括：将视频中包含的至少部分帧合并成大图；以及对大图进行颜色聚类，以得到各种颜色占总体颜色的百分比，并将所述至少部分位置的像素或像素区域的颜色的百分比作为各个像素或像素区域的特征。

为了使根据本发明的方法易于理解，下面将通过例子来进一步描述本发明。需要注意的是，这些例子并不构成对本发明的限制。

例如，在调整时间窗口的长度时，可以首先固定一个时间窗口的一端。然后，根据此端朝另一端方向上的视频内容变化程度来确定另一端的位置，从而实现自适应地调整时间窗口长度。在向另一端方向扫描时，对视频中的变化(包括镜头转变和全局运动)的程度进行累积，当累积量达到一个预设的阈值时，停止扫描并将另一端置于对应位置。在累积过程中，当遇到一个镜头转变时，累积量增加a。当新的一帧图像不属于镜头转变时，累积量增加b×摄像机变焦量+c×摄像机移动量+d。其中，a、b、c、d分别为镜头转变、变焦、移动和帧数的加权系数。前后窗口之间的位置关系，既可以是相接而不重迭的，也可以是有部分重迭的。重迭的比例越高，则检测过程的运算量越高，检测的时域分辨能力越高。

进一步，关于根据本发明的特征提取步骤，可以参见下面给出的具体例子。同样，这些例子并不构成对本发明的限制。

对当前的长度根据视频内容变化程度调整确定的时间窗口进行分析时，可以根据窗口的长度，在其中等间隔地取21帧图像(记为P₁-P₂₁)。设其中当前帧的序号为t，第i帧在位置(x，y)上的像素值为P_i(x，y)。从而，根据本发明的用于提取特征的公式如下。

1、帧间差(3通道)：

D_{t}^{c} (x, y) = \frac{1}{N - 1} \underset{j &Element; [1, N], i &NotEqual; t}{Σ} | P_{t}^{c} (x, y) - P_{i}^{c} (x, y) |, c &Element; {R, G, B} - - - (1)

或者

D_{t}^{c} (x, y) = \underset{i &Element; [1, N], i &NotEqual; t}{MAX} {| P_{c}^{t} (x, y) - P_{i}^{c} (x, y) |}, c &Element; {R, G, B} - - - (2)

其中，N为所选取的帧的总数，在当前的例子中选择21。通过公式(1)来计算帧间差的平均值，而通过公式(2)来计算帧间差的最大值。这三通道的值按照大小顺序排序后作为特征。

2、像素平均值显著度(3通道)：

M_{t}^{c} (x, y) = | 128 - \frac{1}{N} \underset{i &Element; [1, N]}{Σ} P_{i}^{c} (x, y) |, c &Element; {R, G, B} - - - (3)

其中，N取21。像素值在每个通道中的范围都是[0，255]，128是中间值。这三通道的值也是按照大小顺序排序后作为特征。

3、平均图中以当前像素(x，y)为中心的多个不同大小空域窗口内的边缘点比例，即先求得21幅图像的平均图，然后转成灰度图，再采用Canny算子提取该灰度图的边缘。下面的公式可以用于计算窗口内边缘的比例：

4、当前像素(x，y)的颜色对应的颜色类别所占的百分比。将21帧图像合并成一张大图，对其进行颜色聚类分析(主颜色分析)，将像素聚类后的颜色类别对应的像素数占大图像素数的百分比作为特征。

在当前的例子中，可以选择这些特征作为当前像素最后的特征。

其中，3个通道的帧间差主要反映的徽标区域不变的特性。选择彩色图像3通道而不是简单的灰度图的原因是可能存在一些灰度值相同但是实际颜色不同的像素，这样可以避免产生误识。对3个通道帧差进行排序的目的是忽略各通道之间的差异性，只考虑是否存在变化很大的通道，若存在，则一般不是徽标区域。

另外，3个通道的像素平均值主要反映了徽标区域在亮度、色彩上会很鲜明的特性。一般来说，为了让观众看清楚，徽标区域都会与背景反差强烈，或者很亮或者很暗或者色彩很鲜艳，因此，这里选择像素的平均值与中间值的差作为特征。选择3个通道的原因与前面的理由一样。对3通道也进行排序的目的则是忽略颜色间的差异，因为徽标的颜色不一定都是白色或黑色，有可能是蓝色、绿色、黄色或是红色等。因此这里只考虑像素是否则够鲜明，而不管它是什么颜色。

空域窗口内平均图的边缘比例主要是反映了徽标区域的不变性及纹理丰富两种特性。徽标区域由于存在较多的文字、数字和图形结构，因此纹理很丰富。另外，对多帧做平均，这样可消除某些单帧中较明显的边缘。而徽标的不变性使得平均后它的纹理依旧明显，因此这也是分析徽标区域的一个好方法。窗口选择不同的尺寸，是由于对大量视频的徽标进行分析，发现徽标的大小(相对视频尺寸)往往有所区别但都在一定范围内变化。这是因为，徽标太小则观众不容易看清楚；徽标太大则会影响对视频主要内容的观赏。因此，根据实际情况选择多个不同的窗口尺寸。

颜色聚类也称为主颜色分析，将图片中的所有颜色聚类到几个颜色类中，便于实现图像的分割等。在当前的例子中，主要是用于区别徽标区域与一些干扰像素区域。如在足球比赛中，即使摄像机运动，许多像素可能在多帧图像中都对应于绿色的场地，没有明显变化；对处于场地边界的绿色像素，其周围又有明显的边缘特征，这样该处的帧间差等特征很接近于徽标区域，容易造成误识。因此加入该特征，如果发现该颜色在整幅图像中占据比例较大的话，那它很可能属于大面积的背景区域，而不是徽标区域。具体的做法是将21帧图像合并成一个大图，并在其中进行颜色聚类。相关的内容可参见发明名称为“主颜色提取装置和方法”的中国发明专利申请第200810210101.6号，该发明专利申请的整体内容通过引用结合于此。

以体育视频中的记分牌检测为例，与本领域的现有技术相比，根据本发明的特征提取步骤可以带来如下有益效果。

首先，将帧间差的RGB三通道剥离开，分别作为特征，同时按照大小对这三通道的值进行排序。这有别于以往的特征提取方法，这样做的好处是对于记分牌区域这样的不变区域，三通道的帧间差均很小，不论怎样排序，三个值都接近于0，特征相似。这可以很好地排除一些亮度基本不变但是颜色变化较大的像素，相比于以往只取灰度值的帧间差的方法要更加可靠，更具区分度。

其次，将平均图颜色的RGB三通道剥离开，分别计算显著度并作为特征，同时按照大小对这三通道的显著度进行排序。在以往的徽标检测研究中，颜色特征使用较少，多数都是将平均图亮度作为特征。而通过对记分牌区域的分析，可以得出如下结论：由于记分牌区域需要方便人们的观看，因此在颜色选取上要保证与非徽标区域的反差比较明显。尤其是将多帧图像做平均后，记分牌区域的颜色特征会更加明显。因此，在当前的例子中，对于那些平均颜色值有两个以上的通道接近0或255的，其作为记分牌区域的可能性就很大。这与以往的平均图亮度方法相比较，考虑了更多的情况，降低了漏检率。

第三，对多帧图像取平均图，做纹理分析。这与以往对单帧图像进行纹理分析方法不同，它在考虑纹理信息的同时还加入了帧之间的变化信息。对多帧图像取平均，多数区域由于不断的变化，平均后的值比较接近中间值，因此这些区域就比较平滑，没有显著的纹理。而记分牌区域则不同，它包含众多文字，本身纹理就很丰富。记分牌在各帧之间还保持不变，因而平均后依旧保持着原来的纹理信息。这样，可以准确地通过纹理信息分析找出记分牌区域。以往针对一幅图像提取纹理的方法，可能由于其他的一些复杂纹理区域而产生误检，而根据本发明的方法在对图像做平均后，则消除了其他干扰，只保留了记分牌区域的纹理信息。

第四，将多帧图像合并成一张大图，对其进行颜色聚类分析(主颜色分析)，将像素聚类后对应的颜色类别所占的百分比作为特征。主颜色分析主要目的是区别一些特殊情况。如在足球比赛中，场景中大部分都是绿色的草地，因此场地上的某一像素的帧间差很可能接近于0，并且多帧平均颜色是显著的绿色，让分类器误以为它是记分牌区域，产生误检。如果对图像进行了主颜色分析，就会消除这种情况，对于那些聚类后颜色百分比很高的像素，它作为记分牌的可能性就很小。因为记分牌的颜色与场地的颜色一定存在较大反差，否则会影响观众的观看，所以，记分牌区域的颜色对应的聚类后的颜色百分比必然较小。同时，将多帧图像合并成大图后再做主颜色分析，而不是只针对当前帧图像做主颜色分析，这样的好处是能准确把握整段视频的主颜色，而不会被个别近景镜头所干扰，能准确地分辨出可能引起误检的主颜色像素。

像素特征提取完毕后，接下来就是训练和分类了。采用SVM(支持向量机)对每个像素进行分类，共分为两类：“是徽标区域”1与“非徽标区域”0。进行训练前需要先标注图像，提取训练样本。在当前的检测体育视频中的记分牌的例子中，共标注了20个不同体育视频里面的不同特色记分牌，最后共标注获得正样本2万多，随机选取负样本4万多。用这些数据行进训练，从而获得可用于分类的模型。

在分类结束后，为了将徽标区域连接起来，可以对分类结果二值图像(每个像素值都是1或0)采用先膨胀后腐蚀的方法，然后通过区域生长方法获得连通区域，对每个连通区域求最小外结矩形，从而获得徽标区域。

在当前的例子中，最终的静态徽标检测结果可以参见图4。图4是示出根据本发明实施例的静态徽标检测的结果的例子的示意图。参照图4中的具体检测结果，可以更好地理解上面描述的本发明的特征提取步骤，这里不再详述。

下面参照附图详细描述根据本发明实施例的对视频中存在的静态徽标进行检测的设备。

图5是示出根据本发明实施例的对视频中存在的静态徽标进行检测的设备600的框图。

如图5所示，根据本发明实施例的设备600包括输入单元610、检测单元620、调整单元630、特征提取单元640、分类单元650和区域分割单元660。

输入单元610用于输入视频。

检测单元620用于检测通过输入单元610输入的视频中的运动强烈程度和镜头变化频度中的至少一个。

调整单元630用于基于通过检测单元620检测到的运动强烈程度和镜头变化频度中的至少一个，调整用于检测视频中存在的静态徽标的时间窗口的长度。

特征提取单元640用于在长度被调整单元630调整的时间窗口内，提取视频中包含的帧中的至少部分位置的像素或像素区域的特征。

分类单元650用于基于通过特征提取单元640提取的特征进行分类，以确定在至少部分位置的像素或像素区域处是否出现静态徽标。

区域分割单元660用于根据通过分类单元650进行的分类的结果进行空间上的区域分割，以形成出现静态徽标的连通区域。

根据本发明的实施例，设备600可以进一步包括合并单元(未示出)，该合并单元用于对在不同的时间窗口内的出现静态徽标的至少部分重叠的连通区域进行合并，以得到在至少部分重叠的连通区域处出现静态徽标的起始时间和结束时间。

根据本发明的实施例，在检测单元620检测视频中的运动强烈程度的情况下，运动强烈程度越大，则时间窗口的长度被调整单元630调整得越短。

根据本发明的实施例，在检测单元620检测视频中的镜头变化频度的情况下，镜头变化频度越大，则时间窗口的长度被调整单元630调整得越短。

根据本发明的实施例，静态徽标可以包括标题徽标、制作者徽标、注释徽标和字幕中的至少一个。

根据本发明的实施例，特征提取单元640可以进一步用于：针对至少两组帧对分别计算至少部分位置的像素或像素区域的至少一个通道的帧间差；以及计算针对至少两组帧对分别计算的帧间差的平均值或者最大值，并将所述平均值或者最大值作为各个像素或像素区域的特征。

根据本发明的实施例，特征提取单元640可以进一步用于：在至少两个通道中分别计算至少部分位置的像素或像素区域的像素平均值；计算至少两个通道的像素平均值分别与对应于相应通道的参数值的差的绝对值；以及将计算的绝对值按照大小顺序进行排序，并将排序后的绝对值作为各个像素或像素区域的特征。

根据本发明的实施例，特征提取单元640可以进一步用于：对视频中包含的至少部分帧进行平均以得到平均图；以及计算至少部分位置的像素或像素区域所处的至少一个空间窗口内的平均图的边缘个数，并将计算出的边缘个数作为各个像素或像素区域的特征。

根据本发明的实施例，特征提取单元640可以进一步用于：将视频中包含的至少部分帧合并成大图；以及对大图进行颜色聚类，以得到各种颜色占总体颜色的百分比，并将至少部分位置的像素或像素区域的颜色的百分比作为各个像素或像素区域的特征。

该设备600中的上述各个单元的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本发明的上述方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

如图6所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本发明的设备和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种对视频中存在的静态徽标进行检测的方法，包括：

输入所述视频；

检测所述视频中的运动强烈程度和镜头变化频度中的至少一个；

基于检测到的所述运动强烈程度和所述镜头变化频度中的至少一个，调整用于检测所述视频中存在的静态徽标的时间窗口的长度；

在长度被调整的所述时间窗口内，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征；

基于提取的所述特征进行分类，以确定在所述至少部分位置的像素或像素区域处是否出现所述静态徽标；以及

根据所述分类的结果进行空间上的区域分割，以形成出现所述静态徽标的连通区域。

2.根据权利要求1所述的方法，进一步包括：

对在不同的所述时间窗口内的出现所述静态徽标的至少部分重叠的连通区域进行合并，以得到在所述至少部分重叠的连通区域处出现所述静态徽标的起始时间和结束时间。

3.根据权利要求1所述的方法，其中，在所述视频中的所述运动强烈程度被检测的情况下，所述运动强烈程度越大，则所述时间窗口的长度被调整得越短。

4.根据权利要求1所述的方法，其中，在所述视频中的所述镜头变化频度被检测的情况下，所述镜头变化频度越大，则所述时间窗口的长度被调整得越短。

5.根据权利要求1所述的方法，其中，所述静态徽标包括标题徽标、制作者徽标、注释徽标和字幕中的至少一个。

6.根据权利要求1所述的方法，其中，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征包括：

针对至少两组帧对分别计算所述至少部分位置的像素或像素区域的至少一个通道的帧间差；以及

计算针对至少两组帧对分别计算的所述帧间差的平均值或者最大值，并将所述平均值或者最大值作为各个像素或像素区域的特征。

7.根据权利要求1所述的方法，其中，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征包括：

在至少两个通道中分别计算所述至少部分位置的像素或像素区域的像素平均值；

计算所述至少两个通道的像素平均值分别与对应于相应通道的参数值的差的绝对值；以及

将计算的所述绝对值按照大小顺序进行排序，并将排序后的所述绝对值作为各个像素或像素区域的特征。

8.根据权利要求1所述的方法，其中，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征包括：

对所述视频中包含的至少部分帧进行平均以得到平均图；以及

计算所述至少部分位置的像素或像素区域所处的至少一个空间窗口内的所述平均图的边缘个数，并将计算出的所述边缘个数作为各个像素或像素区域的特征。

9.根据权利要求1所述的方法，其中，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征包括：

将所述视频中包含的至少部分帧合并成大图；以及

对所述大图进行颜色聚类，以得到各种颜色占总体颜色的百分比，并将所述至少部分位置的像素或像素区域的颜色的百分比作为各个像素或像素区域的特征。

10.一种对视频中存在的静态徽标进行检测的设备，包括：

输入单元，用于输入所述视频；

检测单元，用于检测通过所述输入单元输入的所述视频中的运动强烈程度和镜头变化频度中的至少一个；

调整单元，用于基于通过所述检测单元检测到的所述运动强烈程度和所述镜头变化频度中的至少一个，调整用于检测所述视频中存在的静态徽标的时间窗口的长度；

特征提取单元，用于在长度被所述调整单元调整的所述时间窗口内，提取所述视频中包含的帧中的至少部分位置的像素或像素区域的特征；

分类单元，用于基于通过所述特征提取单元提取的所述特征进行分类，以确定在所述至少部分位置的像素或像素区域处是否出现所述静态徽标；以及

区域分割单元，用于根据通过所述分类单元进行的分类的结果进行空间上的区域分割，以形成出现所述静态徽标的连通区域。

11.根据权利要求10所述的设备，进一步包括：

合并单元，用于对在不同的所述时间窗口内的出现所述静态徽标的至少部分重叠的连通区域进行合并，以得到在所述至少部分重叠的连通区域处出现所述静态徽标的起始时间和结束时间。

12.根据权利要求10所述的设备，其中，在所述检测单元检测所述视频中的所述运动强烈程度的情况下，所述运动强烈程度越大，则所述时间窗口的长度被所述调整单元调整得越短。

13.根据权利要求10所述的设备，其中，在所述检测单元检测所述视频中的所述镜头变化频度的情况下，所述镜头变化频度越大，则所述时间窗口的长度被所述调整单元调整得越短。

14.根据权利要求10所述的设备，其中，所述静态徽标包括标题徽标、制作者徽标、注释徽标和字幕中的至少一个。

15.根据权利要求10所述的设备，其中，所述特征提取单元进一步用于：

16.根据权利要求10所述的设备，其中，所述特征提取单元进一步用于：

17.根据权利要求10所述的设备，其中，所述特征提取单元进一步用于：

18.根据权利要求10所述的设备，其中，所述特征提取单元进一步用于：

将所述视频中包含的至少部分帧合并成大图；以及