CN101510260B

CN101510260B - 字幕存在时间确定装置和方法

Info

Publication number: CN101510260B
Application number: CN2008100741253A
Authority: CN
Inventors: 白洪亮; 孙俊; 胜山裕; 藤本克仁; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-02-14
Filing date: 2008-02-14
Publication date: 2012-02-22
Anticipated expiration: 2028-02-14
Also published as: CN101510260A

Abstract

本发明公开了字幕存在时间确定装置和方法。该字幕存在时间确定方法包括以下步骤：获得视频中的初步判断为含有字幕区域的多个图像，即多个局部图像；获得所述多个局部图像的稳定全局特征；利用所述稳定全局特征确定开始帧和结束帧。

Description

字幕存在时间确定装置和方法

技术领域

本发明涉及确定视频中字幕的存在时间的装置和方法。

背景技术

近年来，随着广播电视电影的发展，产生了大量的视频。同时，随着数码相机和数码摄像机的普及，普通大众也制作出了各种视频。对这些视频进行分析和检索成为许多人的要求。视频中通常包含字幕信息。对现有的图像应用视频处理、光学字符识别技术来提取字幕信息，为有效的视频分析和检索提供了重要的信息。字幕信息包括事件发生时间、地点、当事人、体育比赛的比分、天气预报、商品的价格、股票的行情等等。

在视频中，一个字幕可以在空间和时间上表示。在空间上，字幕存在于视频中某一帧图像的某一位置上，在时间上，它开始于视频序列中的某一帧，结束于视频序列的某一帧。所以，对整个字幕表达处理过程包括两个步骤：第一个步骤是确定字幕在图像中的位置，第二个步骤是确定在视频中的时间位置，这个时间包括字幕的开始时间和结束时间。连续的一段时间相对于单帧图像更有意义，它可以向用户提供更全面的信息。

对于第一个步骤，可以基于不同的特征来提取字幕区域。例如，连通域特征、边缘特征和纹理特征。基于连通域特征的方法算法简单、运算速度快，但很难适应复杂的背景情况。在基于边缘特征的方法中，有效地统计边缘特征是一个复杂问题。在基于纹理特征的方法中，运算时间消耗大，通常要利用视频解码算法来提取运动矢量信息。运动矢量的提取本身就是一个困难问题，所以使用这种特征的方法很少。本申请的发明人已经在其它专利中提出了基于角点特征的多尺度视频定位方法。本申请主要解决如何确定字幕的时间的问题。

确定字幕出现时间的文献相对很少。专利文献1和2使用基于signature算法跟踪视频中的文本。由于要对二值图进行直方图统计，所以其性能受图像分割的结果影响。专利文献3简单地使用字幕的位置信息确定音乐视频中字幕的开始和结束时间，如果视频中连续的两个字幕出现在相似的位置上，该专利就会失效。专利文献4使用相似颜色和位置信息作为特征来跟踪字幕，同样也要受到上面特殊情况的影响。非专利文献5的方法使用基于SSD(Sum of Square Difference)的图像匹配算法来跟踪文本区域，这种匹配算法是针对灰度图像进行的，并没有考虑到文本的本质特征，如纹理和边缘信息，同时由于该方法利用原始的图像信息，因此对那些背景比较复杂的情况适应性不好。非专利文献6的方法使用QSDD(Quantized Spatial Difference Density)来检测字幕发生变化的帧的位置，相对于SSD该技术有一定的改进，但是它也仅利用连续的两帧而已，过去帧的信息被忽略，没有一个逐步学习的过程。非专利文献7和专利文献8由于利用识别引擎产生的字符的编码和可信度等比较上层的特征，确定连续帧之间的关系，所以跟踪效果在时间的效率不是很高，而且如何合并这些结果也是一个复杂的问题。

专利文献1：Rainer Wolfgang，Lienhart，Axel Wernicke，Generalizedtext localization in images，Patent No.6,470,094[美国]

专利文献2：Rainer Wolfgang Lienhart，Axel Wernicke，Estimating textcolor and segmentation of images，Patent No.6,473,522[美国]

专利文献3：Lu Lie，Sun Yan-Feng，Li Mingjing，Hua Xian-Sheng，Zhang Hong-Jiang，Automatic detection and segmentation of music videos inan audio/video stream，Pub.No.：2004/0170392[美国]

专利文献4：Sanghoon Sull，Hyeokman Kim，Min Chung，SangwookLee，Sangwook Oh，System and method for indexing，searching，identifying，and editing multimedia files，Pub.No.：2007/0038612[美国]

非专利文献5：Huiping Li等，Text enhancement in digital video usingmultiple frame integration.ACM Multimedia，pp.19-22，1999

非专利文献6：Xiaoou Tang等，A spatial-temporal approach for videocaption detection and recognition，IEEE Transactions on Neural Networks，Vol.13，No.4，pp.961-971，2002

非专利文献7：Takeshi Mita等，Improvement of Video Recognition byCharacter Selection，ICDAR，pp.1089-1093，2001

专利文献8：三田雄志等，テロツプ情報処理装置及びテロツプ情報表示装置，特開2001-285716[日本]

传统的字幕方法的流程图如图1所示。首先在步骤101对一段视频进行解码、采样，抽出所需要的单帧图像信息，然后在步骤102，针对解码出的图像，尽可能多地检测出字幕的位置；步骤103提取检测出的字幕区域的局部特征，所述局部特征可以是边缘、颜色和角点等特征；步骤104将当前特征和前一帧或前几帧的帧信息进行比较，计算出相似度；在步骤105对相似度进行判断，如果相似度大于某一个设定的阈值T，则进入步骤106对字幕进行跟踪，并由在步骤108确定字幕的开始帧位置。否则，如果相似度小于或等于该阈值T，则在步骤107确定该字幕的结束帧的位置，或者作为噪声被去掉，传统的方法流程有两个问题，(1)特征比较时选择的特征仅仅是当前特征和以前的几帧，没有充分用到所有的信息，(2)以前特征的选择不够健壮，不能够适应字幕背景的复杂变化。

发明内容

本发明针对现有的技术缺点提出的解决方案，用以解决上述问题中一个或更多个。本发明的目的是提供一种确定在视频中某个字幕的存在时间的方法和装置。字幕的存在时间包括字幕开始出现时间和字幕消失时间。

为了实现上述目的，本申请提供了以下发明。

发明1、一种字幕存在时间确定方法，该方法包括以下步骤：获得视频中的初步判断为含有字幕区域的多个图像，即多个局部图像；获得所述多个局部图像的稳定全局特征；利用所述稳定全局特征确定开始帧和结束帧。

发明2、根据发明1的字幕存在时间确定方法，其特征在于，获得所述多个局部图像的稳定全局特征的步骤包括：局部特征获取步骤，获取所述局部图像的局部特征；初步确定全局特征；将各所述局部图像的局部特征与所述全局特征进行比较，根据比较结果，更新所述全局特征；将最后更新得到的全局特征设为稳定全局特征。

发明3、根据发明2所述的字幕存在时间确定方法，其特征在于，将各所述局部图像的局部特征与所述全局特征进行比较，根据比较结果更新所述全局特征的步骤包括：对所述多个局部图像中的第一个局部图像(1)计算所述局部图像的字幕区域的字幕特征，将所述字幕特征称为局部特征；(2)将该局部特征设为全局特征；针对所述多个局部图像中的下一个局部图像，(3)计算该局部图像的局部特征，并进行相似度判断，判断该局部特征与所述全局特征是否相似；(4)在所述相似度判断步骤判断出该局部特征与所述全局特征相似时，利用该局部图像的局部特征更新所述全局特征；对于所述多个局部图像中的其它局部图像，重复进行上述步骤(3)和(4)，直到所述步骤(3)判断出该局部特征与所述全局特征不相似，此时，(5)将最后更新过的全局特征确定为稳定全局特征。

发明4、根据发明1所述的字幕存在时间确定方法，其特征在于，采用投票更新法来利用所述各该局部图像的局部特征更新所述全局特征。

发明5、根据发明1所述的字幕存在时间确定方法，其特征在于，在进行所述相似度判断时，同时判断位置相似度和边缘相似度。

位置相似度可以是两个区域的共同面积与这两个区域中的较大区域的面积的比值。

边缘相似度可以是局部特征区域(局部特征)和全局特征区域(全局特征)中两者重合的白色像素点占这两个区域中的全部白色像素点的比例。也可以采用边缘内的笔画的颜色是否一致的判别方法来判别边缘相似度。

发明6、根据发明1所述的字幕存在时间确定方法，其特征在于，所述方法还包括：计算平均图像的步骤，计算所述视频中多个图像的平均图像；

字幕区域计算步骤，针对所述平均图像，计算字幕区域，当存在字幕区域时，将所述多个图像设定为局部图像。

发明7、根据发明3所述的字幕存在时间确定方法，其特征在于，所述方法还包括噪声判断步骤，根据所述第一局部图像与所述步骤(3)判断出该局部特征与所述全局特征不相似时的局部图像的距离，判断所述字幕区域是否为噪声。

发明8、根据发明1所述的字幕存在时间确定方法，其特征在于，确定开始帧的步骤包括：确定开始帧扫描范围；以及逐一计算所述开始帧扫描范围内的各局部图像的局部特征与所述稳定全局特征的相似性，并在从所述开始帧扫描范围从后向前扫描的情况下将第一个不相似的局部图像所在的帧确定为开始帧，或在从所述开始帧扫描范围从前向后扫描的情况下将第一个相似的局部图像所在的帧确定为开始帧。

发明9、根据发明1所述的字幕存在时间确定方法，其特征在于，确定结束帧的步骤包括：确定结束帧扫描范围；逐一计算所述结束帧扫描范围内的各局部图像的局部特征与所述稳定全局特征的相似性，并在从所述结束帧扫描范围从后向前扫描的情况下将第一个相似的局部图像所在的帧确定为结束帧，或在从所述结束帧扫描范围从前向后扫描的情况下将第一个不相似的局部图像所在的帧确定为结束帧。

发明10、根据发明1所述的字幕存在时间确定方法，其特征在于，所述方法还包括字幕区域核实步骤，该步骤利用连通域分析来确定所述字幕区域确实包括字幕。

发明11、根据发明1所述的字幕存在时间确定方法，其特征在于，所述方法还包括字幕划分步骤，对确定过所述起始帧和结束帧的所述字幕区域进行划分，以准确定位各字幕区域的位置。

发明12、一种字幕存在时间确定装置，该装置包括：局部图像获取装置，用于获得视频中的初步判断为含有字幕区域的多个图像，即多个局部图像；稳定全局特征获得装置，用于获得所述多个局部图像的稳定全局特征；字幕开始帧结束帧确定装置，利用所述稳定全局特征获得所述视频中的字幕的开始帧和结束帧。

发明13、根据发明12所述的字幕存在时间确定装置，其特征在于，所述稳定全局特征获得装置包括：

局部特征获取装置，用于获取各所述局部特征的字幕区域的特征，即局部特征；

相似度计算判断装置，用于将各所述局部特征与所述多个局部图像的全局特征进行比较，计算相似度，判断是否相似；

全局特征更新装置，用于设定所述多个局部图像的初始全局特征，根据所述相似度计算判断装置的判断结果，对所述全局特征进行更新，并最终确定稳定全局特征。

发明14、根据发明13所述的字幕存在时间确定装置，其特征在于，

所述全局特征更新装置采用投票更新法来利用所述各该局部图像的局部特征更新所述全局特征。

发明15、根据发明13所述的字幕存在时间确定装置，其特征在于，所述相似度计算判断装置在进行所述相似度判断时，同时判断位置相似度和边缘相似度。

发明16、根据发明13所述的字幕存在时间确定装置，其特征在于，所述相似度计算判断装置还包括：

平均图像计算装置，计算所述视频中多个图像的平均图像；

字幕区域计算装置，针对所述平均图像，计算字幕区域，当存在所述字幕区域时，将所述多个图像作为局部图像。

发明17、根据发明13所述的字幕存在时间确定装置，其特征在于，所述方法还包括噪声判断装置，根据获得所述初始全局特征时的帧与获得所述稳定全局特征时的帧之间的时间距离，判断所述字幕区域是否为噪声。

发明18、根据发明13所述的字幕存在时间确定装置，其特征在于，字幕开始帧结束帧确定装置如下地确定开始帧：

确定开始帧扫描范围；

逐一计算所述开始帧扫描范围内的各局部图像的局部特征与所述稳定全局特征的相似性，并在从所述开始帧扫描范围从后向前扫描的情况下将第一个不相似的局部图像所在的帧确定为开始帧，或在从所述开始帧扫描范围从前向后扫描的情况下将第一个相似的局部图像所在的帧确定为开始帧。

发明19、根据发明13至18任一项所述的字幕存在时间确定装置，其特征在于，字幕开始帧结束帧确定装置如下地确定结束帧：

确定结束帧扫描范围；

逐一计算所述结束帧扫描范围内的各局部图像的局部特征与所述稳定全局特征的相似性，并在从所述结束帧扫描范围从后向前扫描的情况下将第一个相似的局部图像所在的帧确定为结束帧，或在从所述结束帧扫描范围从前向后扫描的情况下将第一个不相似的局部图像所在的帧确定为结束帧。

发明20、一种计算机程序，可以由计算机或逻辑处理部件执行，使所述计算机或所述逻辑处理部件用作上述发明所述的字幕存在时间确定装置或使所述计算机或所述逻辑处理部件实现上述发明所述的字幕存在时间确定方法。

发明21、一种计算机可读介质，其上存储有发明20所述的计算机程序。

附图说明

所包括的附图用于进一步解释本发明，与说明书一起用于解释本发明的原理。

图1示出了传统的确定字幕存在时间的方法的流程图。

图2是字幕画面的一例的示意图。

图3是字幕跟踪的系统框图。

图4是字幕时间分割示意图。

图5表示确定字幕结束帧的方法的流程。

图6表示确定字幕开始帧的方法的流程。

图7表示两个水平字幕位置过近的情况。

图8表示水平字幕和垂直字幕位置过近的情况。

图9表示水平字幕距离过近的解决算法部分。

图10表示计算区别点个数的方法的流程图。

图11表示水平和垂直字幕距离过近的解决算法部分。

图12表示对感兴趣区域的解释。

图13表示依据本发明的一个实施例的字幕存在时间确定装置。

图14表示依据本发明的另一个实施例的字幕存在时间确定装置。

具体实施方式

图2示出了字幕画面的一个示例的示意图。在图2所示的画面中，包含了三个典型的字幕“富士通ふじつ”，字幕201是小字体字幕，字幕202是正常字体垂直字幕，字幕203是正常字体水平字幕。

图3示出了依据本发明的一种实施方式的确定字幕存在时间的方法的流程图。

如图3所示，首先在步骤301中进行视频解码(例如利用解码器)，获得单帧图像信息。为了提高字幕检测的速度，还可进行采样，即根据需要，按照预定的采样速率抽出单帧图像信息。在这种情况下，例如在每个T时间内设置N个采样点，T和N都是大于1的正整数(可参见图4)。

在步骤302，它首先对这N个采样点的图像进行平均(即在各采样点上各得到一帧图像，然后平均从N个采样点得到的图像)，获得平均图像(即平均帧)，然后针对该平均图像计算字幕特征，检测出字幕可能存在的区域，即字幕区域。这里，字幕区域个数不是确定的，因为实际中每一帧图像中的字幕区域数目是不确定的，可能没有，可能有多个。在没有字幕区域的情况下，不进行后面的计算，当存在字幕区域时，将所述平均图像所涉及的多个图像作为局部图像。在以下的说明中，针对检测出一个字幕区域的情况。

利用平均图像获得多个局部图像能够增加字幕区域检测健壮性和检测率。也可以利用其它的方法进行检测，例如2007年8月9日提交的第200710140327.9号中国专利申请中的介绍和说明的其它方法。

如图2所示，字幕区域一般为矩形。但也可以是其他形状，例如圆形或三角形。为方便说明，本文以矩形的字幕区域为例进行说明。

在东方文字(比如日文和中文)中，由于笔画特点，所以角点特征非常明显。角点多发生在笔画的起点、交叉点和终点，而背景的角点特征不是很明显。因而，在本文中，以角点特征作为字幕特征的示例。对于其他的文字，也可以采用角点特征。

这里所说的角点例如是Harris角点特征，Harris角点是检测图像中兴趣点的一个重要特征，它具有对于旋转、尺度和光照变化的不变性。关于Harris角点提取的细节，可以下述参考文献：

C.Harris and M.J.Stephens，“A combined corner and edge detector”，InAlvey Vision Conference，pp.147-152，1988

另外，虽然在本说明书中是基于Harris角点对本发明进行详细说明的，但是本发明并不限于Harris角点，也可以使用其他的角点(如Susan角点)。

根据Harris角点对字幕区域进行检测的方法，例如可以参见2007年8月9日提交的第200710140327.9号中国专利申请“字幕区域提取装置和方法”，通过引用将其并入本文中。下面对其方法进行简要的说明。应该注意，字幕区域的检测也可以采用其他方法进行。

在该专利申请中所公开的字幕提取方法包括以下步骤：对所述视频信号进行解码，生成多帧图像；按照时间顺序把所述多帧图像分成预定大小的图像组，对于每个图像组，基于边缘特征选择预定数量的图像；对于各个所述图像组，对所述选择的图像进行平均处理，得到平均图像；以及从所述平均图像中提取角点，基于所述角点从所述平均图像中提取出字幕区域。

在提取字幕区域时，可以在多个尺度下、在水平和垂直方向上分别提取水平字幕区域和垂直字幕区域，并对所述多个尺度下提取的字幕区域进行聚类处理。或者可以根据所述角点的密度提取特征直线，并根据所述特征直线的密度提取字幕区域。具体地，从所述平均图像中提取Harris角点，对于每个Harris角点，计算以该Harris角点为中心的预定尺寸的窗口内的Harris角点的数目，若所述数目未达到预定的阈值，则抛弃该Harris角点。

接着，在步骤303中，提取字幕区域的局部特征，即提取所述多个局部图像的字幕区域的局部特征。在本文中，局部的定义是时间上的各个采样点，全局的定义是时间上包含一定数目采样点的一段时间。在时间上，对每一个采样点上的图像提取字幕区域，然后提取这个字幕区域的局部特征。

另外，在以上的步骤中，利用平均图像获得了字幕区域，即字幕区域的起始点等，然后利用该字幕区域的起始点等，确定各采样点图像中的字幕区域，对于各采样点的图像中的该字幕区域，提取该字幕区域的特征，作为局部特征。

在本文中，例如采用Canny边缘，当然也可以采用其他指标作为局部特征。在采用Canny边缘的情况下，这个边缘图像就定义为局部特征。计算Canny边缘的算法可以参考下面的文献，

Canny，John，“A Computational Approach to Edge Detection，”IEEETransactions on Pattern Analysis and Machine Intelligence，Vol.8，No.6，1986，pp.679-698.

在步骤304，将所提取的局部特征与全局特征进行比较，计算相似度。全局特征是在一定时间间隔内，对其中的所有局部特征进行投票统计而计算出的。在初始情况下，全局特征与局部特征是相同的。

相似度包括两个方面的相似度，一个是位置上的相似度，表示局部特征和全局特征在空间上的重合程度的一种度量。另一个是图像边缘的相似度，表示局部特征和全局特征在边缘点位置的重合程度的度量。在本发明中，要判断位置上的相似度和边缘的相似度这两者，在下面的例子中，对如何判断位置上的相似度和边缘的相似度这两者进行说明。

图像位置的相似度S_p定义为，

S_p＝AREA(R_L∩R_G)/max(AREA(R_G)，AREA(R_G)) (1)

在公式1中，R_L和R_G分别表示局部特征区域和全局特征区域，AREA(.)表示区域面积。也就是说，位置相似度可以是两个区域的共同面积与这两个区域中的较大区域的面积的比值。

另一方面，图像边缘相似度S_e的计算是比较某一区域内特征图像的对应像素差异度，如下式

S_{e} = \frac{2 \times Σ_{R} (L (x, y) = G (x, y)) \cap (L (x, y) = 255)}{Σ_{R_{G}} (G (x, y) = 255) + Σ_{R_{L}} (L (x, y) = 255)} - - - (2)

在公式2中，分母表示局部特征区域内白色像素点的数目加上全局特征区域内白色像素点的数目，分子表示局部特征区域和全局特征区域内，同一位置均为白色像素点的个数。即局部特征区域和全局特征区域中两者重合的白色像素点占这两个区域中的全部白色像素点的比例。

在公式2中，R_L和R_G分别表示局部特征区域和全局特征区域。R为特征计算的区域，即包含当前的局部特征区域和全局特征区域的最大的外接矩形，记做R＝R_L∪R_G。L(x，y)是局部特征在(x，y)的值，G(x，y)是全局特征在(x，y)的值。在这里∑_R(.)表示在区域R内，满足某一个条件的像素的个数，例如

Σ_{R_{G}} (G (x, y) = 255)

表示R_G区域中满足G(x，y)＝255的条件的像素的个数。

对于边缘相似度的计算，例如也可以采用边缘内的笔画的颜色是否一致的判别方法。

如果这个位置相似度S_p大于某一预先定义的阈值TP，同时边缘的相似度S_e也大于某一阈值TE，则认为该字幕区域已经被跟踪上。

在步骤305，对步骤304所获得的相似度进行判断，即判断位置相似度S_p是否大于阈值TP，并且同时边缘的相似度S_e是否大于TE。由于在初始情况下，局部特征与全局特征完全相同，所以在初始时，步骤305中的判断结果为是。在步骤305中的判断结果为是的情况下，在步骤306中进行局部特征投票，并随后在步骤307中进行全局特征更新。

投票的含义是多数代表决策结果。在本文中将图像中的各像素点分成两类，一类为文本边缘点，一个是非文本边缘点。对于字幕区域的某一点，对从开始时间到目前时间这段时间内的所有局部特征在该点的值进行累加，如果这个累加值大于某一个预先定义的阈值，那么该点就被判别为文本边缘点，否则就是非文本边缘点。

具体地，在局部特征投票处理中，投票的过程是对于跟踪上的某一个字幕，它的开始时间为T₁，目前的时刻为T_c，如下式，

I (x, y) = \frac{1}{T_{c} - T_{1}} Σ_{t = T_{1}}^{t = T_{c}} E_{canny} (x, y) - - - (3)

在公式3中，E_canny(x，y)是局部特征，∑E_canny(x，y)指的是局部特征在(x，y)点处的像素值的累加，I(x，y)是对于局部特征位置(x，y)上的投票后的结果。

然后在步骤307，根据在步骤306的投票结果，进行全局特征的更新。对于全局特征的更新，例如可以采用以下公式4，

G (x, y) = \{\begin{matrix} 255 & I (x, y) &GreaterEqual; T_{V} \\ 0 & I (x, y) < T_{V} \end{matrix} - - - (4)

在公式4中，T_V为投票结果设定的阈值。如果投票结果大于T_V，表明从时间T₁到时间T_c，在位置(x，y)上的局部特征的值变化不大，符合字幕保持位置不变的特征。以上通过局部特征投票来更新全局特征的方法称为投票更新法。

当对于区域R(R＝R_L∪R_G)中所有的像素进行了公式4的判别之后，就得到了全局特征图像G。

更新完全局特征后，处理返回步骤303，计算下一局部图像(包括对于下一平均图像中所涉及的局部图像)的字幕区域的特征，作为下一字幕局部特征，然后重复进行步骤304、305、306和307，直到对于某一个字幕局部特征，其和全局特征的位置相似度小于阈值TP或者边缘相似度小于阈值TH。这表示字幕即将消失。此时的时间定义为T₂。

在出现了这样的字幕局部特征时，即在步骤305的判断结果为否时，处理进行到步骤308，在步骤308判断该字幕是否是噪声。

一般来说，很多背景噪声也可以产生局部特征。字幕区域显著的特征是它可以持续一段时间。如果字幕的持续时间(即从T₁到T₂之间的时间)大于时间阈值T_T，则该字幕为噪声，处理结束。即，在步骤308中，判断T₂-T₁＞T_T是否成立，如果不成立，则为噪声，处理结束。

在步骤308中判断出该字幕区域不是噪声时(步骤308，否)，优选地，在步骤309中再次精确地判定其是否确实为字幕，该判定例如可以采用连通域分析法。对跟踪后的字幕区域的全局特征进行连通域分析，得出多个可能的字符组件，去除那些宽度和高度都小于某一设定的阈值的组件，对剩余的组件的的全局特征计算它含有的白像素点的个数占整个全局特征区域的比率，如果这个比率大于某一个预先设定的阈值，那么该区域就是字幕区域，否则就会被去除。

应该注意到，步骤308和309的步骤都是可选的，只在要求字幕判断精度较高时使用。

在步骤310利用最后更新的全局特征(也称为稳定全局特征)，确定字幕结束帧和开始帧。可以先确定开始帧，后确定结束帧，也可以先确定结束帧，后确定开始帧。下面对确定开始帧和结束帧的具体方法进行说明。

图5示出了确定字幕结束帧的方法的流程。应该注意，上面确定的时间T₂和字幕的真实结束帧在一般情况下是不相同的，可能大也可能小。因而首先确定字幕结束时间搜索区域。考虑到该时间一般在T₂±T的范围内(这是因为使用T间隔内的图像平均处理，在确定字幕结束帧是某一特定帧时，它可能在上一个T内，或者是下一个T内)，因而在本发明中将字幕结束时间搜索区域确定为区间T₂-T到T₂+T。

确定字幕结束帧的方法的总体思路是对字幕结束时间搜索区域(例如从T₂-T到T₂+T)的所有采样的视频帧信息，依次与稳定全局特征进行比较，计算相似度，相似度突然低于阈值(为方便说明，将阈值描述为Th1，但实际上可能是边缘相似度和位置相似度分别与各自的阈值相比较)的时间，这个时间定义为视频的结束时间T_e。

具体地，如图5所示，首先，在步骤501将变量i设置为字幕结束时间搜索区域中的第一帧，T₂-T。然后在步骤502判断该帧是否是字幕结束时间搜索区域的最后一帧。这例如可以通过判断该帧是否超过最后一帧T₂+T来判断。如果该帧已经是最后一帧(步骤502，否)，则表明已经对所有帧进行了判断，因而在步骤503结束该流程，将最后一帧作为结束帧。如果不是最后一帧(步骤502，是)，则处理进行到步骤504。在步骤504，计算该第i帧中的该字幕区域内的局部特征和稳定全局特征之间的相似度。然后在步骤506，判断该相似度是否小于阈值Th1，如果小于阈值Th1，则表明其为真正的结束帧，在步骤507将结束帧设为帧i。否则，如果步骤506的判断结果为否，则进行下一帧的判断，即在步骤505，将下一帧设置为当前帧，具体地，使i＝i+1。

图6示出了确定字幕开始帧的方法的流程图。这个方法的总体思路是将字幕开始时间搜索区域(例如T₁+T到T₁-T)中的所有采样的视频帧中字幕区域的局部特征分别与稳定全局特征进行比较，计算边缘相似度，相似度突然低于阈值Th2的时间，这个时间定义为视频的开始时间T_s。

首先，在步骤601将变量i设置为字幕开始时间搜索区域中的最后一帧，T₁+T。然后在步骤602判断该帧是否是字幕开始时间搜索区域中的第一帧。这例如可以通过判断该帧是否到达字幕开始时间搜索区域中的第一帧T₁-T来判断。如果该帧已经是第一帧(步骤602，否)，则表明已经对所有帧进行了判断，因而在步骤603结束该流程，将第一帧作为结束帧。如果不是第一帧(步骤602，是)，则处理进行到步骤604。在步骤604，计算该第i帧中的该字幕区域内的局部特征和稳定全局特征之间的相似度。然后在步骤606，判断该相似度是否小于阈值Th2，如果小于阈值Th2，则表明其为真正的开始帧，在步骤607将开始帧设为帧i。否则，如果步骤606的判断结果为否，则进行下一帧的判断，即在步骤605，将下一帧设置为当前帧，具体地，使i＝i-1。

根据本发明的实施例，从图4中可以看出，得到稳定全局特征的过程是一个不断更新的过程，全局特征是不断更新的，因而尽可能利用了以前的所有信息，逐步得出了没有背景噪声的模板。另外，由于稳定全局特征不含有噪声，因此可以更有效地适应不同的背景条件。

回到图3，在确定了开始帧和结束帧之后，还可以进一步进行相交的水平字幕和垂直字幕的分离。这一步骤主要解决字幕距离太近，造成错误跟踪的问题，这一步骤对应于本发明的字幕划分步骤。

这可以分为两种情况，一种情况是两个水平字幕的位置过近问题，如图7所示，另一种情况是一个是水平字幕和一个垂直字幕位置过近的问题，如图8所示。

对于图7和图8的情况，根据其特征，分别设计了不同的解决方案。对于图7的情况，一般发生在视频帧的上部，所以如果一个字幕位于视频的上部，进行针对于图7的解决方案的操作，否则不进行针对于图7的解决方案的操作；对于图8的情况是对于每一个跟踪后的字幕都要进行如下的两种操作。

对于图7所示的情况，可以采用图9的方法来分离水平的两个字幕。

该方法的主要思路是将特定位置的水平字幕依次按水平坐标划分为左右两个部分，计算各水平坐标所划分出的左部分与右部分的区别点的个数，并获得区别点个数最多时的水平坐标，在该最多区别点个数满足一定的条件时，按该水平坐标划分所述水平字幕。

如图9所示，首先，在步骤901中输入字幕跟踪结果，字幕跟踪结果包含字幕的开始时间和结束时间、四个顶点的位置、字幕的全局特征信息(稳定全局特征)和区域内的角点信息。

然后在步骤902，根据该字幕跟踪结果判断该字幕是否是水平字幕，并且判断其位置是否在帧的上部。之所以要判断其是否在上部是因为在实践中，这种情况一般发生在视频帧的上部。具体地，假定该被跟踪的字幕为矩形区域R(x，y，w，h)。在这里x，y分别为矩形的中心的横、纵坐标，w，h分别为矩形的宽度和高度。如果满足下面的条件(5)、(6)以及(7)，则认为其是水平字幕，并且位置在帧的上部。

w/h＞5 (5)

w＞0.7W (6)

y≤0.2H (7)

在这里，条件(5)是为了满足其为水平字幕，条件(6)是为了满足它比较长，条件(7)是为了满足它位于帧图像的上部，在这里的W为输入视频帧的宽度，H为输入视频帧的高度。以上公式中的5、0.7、0.2等三个值是判定的三个阈值，可以取其他的值。

如果判断出该字幕是水平字幕并且位置在帧的上部(步骤902，是)，则在步骤903中，对该字幕内的所有角点按横坐标X值排序，x₁≤X₂，…，≤X_n，n为角点的个数。

随后，在步骤904，进行初始化，获得第一个划分点。划分点是以该点为分界点做一条垂直线，把区域分为左右两个区域的角点。具体地，在本实施例中，将变量i设为1。

然后，在步骤905，以X_i(1＜i＜n)为界，把区域分为左右两个部分，记做RL和RR，并将RL和RR中角点的个数记为NL和NR。

在步骤906中对以字幕区域的每个角点为中心的窗口内的颜色进行量化，量化的目的是便于比较颜色，可以使运算速度加快，如果不进行这个操作也可以，可能系统的运算速度会慢些。在本实施方式中，任意选取一个角点，以它的所处的位置为中心，做一个正方形的区域，窗口的大小宽度为W_c，高度为H_c。首先把颜色从RGB空间转化到L^*a^*b^*空间，然后以下表1中提供的颜色为中心颜色(如果把所有的颜色空间用某几种颜色来表示，而这些颜色的在感觉上各不相同，那么选择的这几种颜色就是中心颜色)，把每个颜色转化成离它最近的中心颜色值。

表1

说明	16进制	红	绿	蓝
					White (白)	#FFFFFF	255	255	255
Red (红)	#FF0000	255	0	0
					Green (绿)	#00FF00	0	255	0
Blue (蓝)	#0000FF	0	0	255
					Magenta (洋红)	#FF00FF	255	0	255
Cyan 青色	#00FFFF	0	255	255
					Yellow 黄色	#FFFF00	255	255	0
Black 黑色	#000000	0	0	0
					Aquamarine 宝石蓝	#70DB93	112	219	147
Brass 铜黄	#B5A642	181	166	66
					Cadet Blue 警察蓝	#5F9F9F	95	159	159
Copper 铜色	#B87333	184	115	51
					Dark Green 深绿	#2F4F2F	47	79	47
Dark Orchid 暗兰	#9932CD	153	50	205
					Dark Purple 深紫	#871F78	135	31	120
Dark Wood 黑木	#855E42	133	94	66
					Dim Grey 淡灰	#545454	84	84	84

Firebrick 砖色	#8E2323	142	35	35
					Flesh 肉色	#F5CCB0	245	204	176
Forest Green 森林绿	#238E23	35	142	35
					Gold 金	#CD7F32	205	127	50
Goldenrod 金棒色	#DBDB70	219	219	112
					Grey 灰色	#C0C0C0	192	192	192
Green Copper 绿铜色	#527F76	82	127	118
					Khaki 卡其色	#9F9F5F	159	159	95
Maroon 褐紫红色	#8E236B	142	35	107
					Midnight Blue 黑蓝色	#2F2F4F	47	47	79
New Tan 新棕褐色	#EBC79E	235	199	158
					Old Gold 旧金色	#CFB53B	207	181	59
Orange 橙	#FF7F00	255	127	0
					Orchid 兰	#DB70DB	219	112	219
Quartz 石英色	#D9D9F3	217	217	243
					Rich Blue 深蓝	#5959AB	89	89	171
Scarlet 猩红	#8C1717	140	23	23
					Sea Green 海绿	#238E68	35	142	104
Semi-Sweet Chocolate 半甜巧克力色	#6B4226	107	66	38
					Sienna 黄褐色	#8E6B23	142	107	35
Slate Blue 板岩蓝	#007FFF	0	127	255
					Spring Green 春绿	#00FF7F	0	255	127
Steel Blue 钢蓝	#236B8E	35	107	142
					Summer Sky 夏蓝	#38B0DE	56	176	222
Tan 棕褐色	#DB9370	219	147	112
					Turquoise 绿松石	#ADEAEA	173	234	234
Very Dark Brown 深棕	#5C4033	92	64	51
					Violet 紫罗兰	#4F2F4F	79	47	79
Violet Red 紫红	#CC3299	204	50	153
					Yellow Green 黄绿	#99CC32	153	204	50

对于上表1的详细说明可以参见http://www.two4u.com/color/small-txt.html。通过引用将其并入本文中。可以采用其它的对颜色进行量化的方法。

应该注意，该颜色量化的步骤也可在判断出是水平字幕，并且该水平字幕在帧的上部之后进行，也可在其它位置进行，即其位置是灵活的。

然后在步骤907中计算左区域和右区域中的区别点的个数。其计算方法在后文说明。在步骤907中，还将计算出的区别点数目与对应的划分点横坐标值Xi、左区域或右区域中的角点的个数相对应地存储起来。在本发明中，说明存储左区域中的角点的个数的情况。

然后，在步骤908中获得下一划分点。具体地在本实施例中，使i等于i+1。并在步骤909中判断该下一划分点是否存在，如果存在(步骤908，否)，则重复步骤905至909，直至完成所有水平角点的判断(步骤909，是)。然后在步骤910，获取所存储的区别点数目中的最大区别点数目，并获得与该最大区别点数目对应的Xi值，记为Xmax。

然后，在步骤911中判断该最大区别点数目是否满足预定的条件。该预定的条件例如可以是该Nmax是否大于在Xmax作为划分点时的左区域内角点个数的一半(即，0.5NL)。该预定的条件可以通过实验获得。

如果满足了该预定的条件(步骤911，是)，则以该划分点将该水平字幕区域分成两个区域(步骤912)，否则保持该水平字幕区域不变，即不进行划分(步骤913)。

下面，说明计算区别点个数的流程。图10示出了计算区别点个数的方法的流程图。该流程图对应于图9的步骤907。

如图10所示，首先在步骤9071获取左区域中的第一个角点，具体地，将变量j设为1。

然后在步骤9072，计算左区域中坐标为Xj的角点到右区域中的每一个角点的距离D_jk。并在步骤9073计算满足条件D_j＞T3的角点个数N；然后在步骤9074中对N是否满足预定条件进行判断(例如N是否大于0.5NR，如上所述，该条件也可通过实验获得)，如果满足了预定条件，则在步骤9075将这个角点(坐标为Xj的角点)定义为区别点。区别点表明这个角点在颜色上与右侧的角点在颜色上不一样，所以可能在两个不同的字幕上。

然后通过9076的设置和9077的判断，重复进行步骤9072至9076的操作，直到判断完左区域中所有的角点。

本领域技术人员应该意识到，也可以使用右边的区域进行这种判断。

然后在步骤9078中确定区别点的个数。该个数即左右区域的区别点的个数。

对于图8所示的情况，本专利采取的方法的流程图如图11所示。其基本思想是通过选择感兴趣区域，避开可能的交叉区域，利用投影算法和字幕的直线填充度(每个字幕区域都是由很多特征直线生成的，直线填充度表示该字幕是由多少特征直线生成的，直线越多，说明该字幕检测的越可靠，反之亦然)来修改字幕的边界的方法。

如图11所示，在步骤1001开始之后，在步骤1002输入字幕跟踪结果，在步骤1003选择感兴趣的区域。如图12虚线部分所示，感兴趣的区域是距矩形(即字幕区域)左边0.2W1，距矩形右边0.2W1的中间区域。这里的两个系数0.2和0.2可以相互不同，并可以改变，但是它有一个合理的范围，既不能太小以至于不能达到分离的目的，又不要太多而影响精度。在图12中，k₁和k₂是水平字幕的垂直分割线，它们到左右边界的距离相等，都是0.2w，在这里w为矩形的宽度。两条垂直分割线之间的矩形区域为感兴趣区域。

然后在步骤1004对感兴趣区域的角点特征进行水平投影(即投影在y轴上)，投影值的第一个非零值和最后非零值确定为水平字幕的上下边界。在步骤1005根据确定出的字幕的上下边界，对修改后的上下边界和原来的左右边界组成的矩形区域内的角点特征做垂直方向投影(投影在x轴上)，投影值的第一个和最后非零值确定为水平字幕的左右边界；利用在图3的步骤302中得到的特征直线(特征直线表示每个字幕区域都是由很多特征直线生成的，它是用角点特征经过一定的规则组合而成的)，计算新确定区域的直线填充度Cer

Cer = \frac{Σ_{i = 1}^{N} Len (l_{i})}{AREA} - - - (8)

在公式8中，AREA是候选区域的面积，Len是字幕区域内特征直线的长度，N是特征直线的数目。

在步骤1007确定该字幕是否为有效字幕。具体地，判断是否大于阈值TR。如果填充度大于阈值TR，说明字符笔画的数目很多，比较可靠。如果在步骤1007的判断结果为否，则水平和垂直字幕边界不改变(步骤1009)；如果在步骤1007的判断结果为是，则在步骤1008修改水平字幕的区域，修改的方法是将字幕区域的左右位置设置为步骤1005确定的位置。并在步骤1010去除新的水平字幕区域内的所有角点；在步骤1011中利用剩余角点确定垂直字幕的准确边界；并在步骤1012输出最后水平字幕和垂直字幕边界。

图13示出了依据本发明的一个实施例的字幕存在时间确定装置，如图13所示，该装置包括：局部图像获取装置131、局部特征获取装置132、相似度计算判断装置133、全局特征更新装置134、开始帧结束帧确定装置135。其中局部特征获取装置132、相似度计算判断装置133、全局特征更新装置134构成了本发明的稳定全局特征获得装置。

局部图像获取装置131用于获得视频中的多个图像，即多个局部图像。该局部图像获取装置131可用于完成图3中的步骤301。另外局部图像获取装置131可以包括：平均图像计算装置1311，计算所述视频中多个图像的平均图像；字幕区域计算装置1312，针对所述平均图像，计算字幕区域，当存在所述字幕区域时，将所述多个图像作为局部图像。

局部特征获取装置132用于获取各所述局部图像的字幕区域的特征，即局部特征。该局部特征获取装置132可用于完成图3中的步骤303。

相似度计算判断装置133用于将各所述局部特征与所述多个局部图像的全局特征进行比较，计算相似度，判断是否相似。相似度计算判断装置133可用于完成图3中的步骤304、305。这里的相似度如前所述包括位置上的相似度和边缘上的相似度。

全局特征更新装置134用于设定所述多个局部图像的初始全局特征，根据所述相似度计算判断装置的判断结果，对所述全局特征进行更新，并最终确定稳定全局特征。该全局特征更新装置134例如可以用于完成图3中的步骤303中的对初始全局特征的设定，图3中步骤306的局部特征投票和图3中步骤307的全局特征更新。但对全局特征的更新可以采用投票更新法以外的方法。

图14示出了依据本发明的另一个实施例的字幕存在时间确定装置。如图14所示，与图3中所示的装置相比，其还包括：噪声判断装置141，用于根据所述相似度判断装置判断出否定结果时的局部图像与所述多个局部图像中的第一局部图像的距离，判断所述字幕区域是否为噪声区域，其例如对应于图3中的步骤308；字幕确认装置142，用于确认所述字幕区域是否确实包含字幕，其例如对应于图3中的步骤309；以及字幕区域划分装置143，用于对确定出开始帧和结束帧的字幕区域进行划分，以更准确地确定字幕的位置。

本发明的方法也可以由计算机程序来实现。本发明涉及这样的计算机程序，并包括保存上述计算机程序的存储介质。所述存储介质例如可以是磁盘、光盘、DVD、CVD、磁带、MO、闪存等等。

应该注意，上述说明只是解释性和示例性的，不是对本发明的范围的限制。本领域的技术人员可以在本发明的精神和范围内进行各种变型和修改，这些变型和修改都在本发明的范围之内。本发明的范围有权利要求及其等同物确定。

Claims

1.一种字幕存在时间确定方法，该方法包括以下步骤：

局部图像获得步骤，获得视频中的初步判断为含有字幕区域的多个图像，即多个局部图像；

稳定全局特征获得步骤，获得所述多个局部图像的稳定全局特征；以及

开始帧和结束帧确定步骤，利用所述稳定全局特征确定开始帧和结束帧，

其中，所述稳定全局特征获得步骤包括：

局部特征获取步骤，获取各所述局部图像的局部特征；

初步确定全局特征；

将各所述局部图像的局部特征与所述全局特征进行比较，根据比较结果，采用投票更新的方法，利用与所述全局特征相似的局部特征，更新所述全局特征；以及

将最后获得的全局特征设为稳定全局特征，

其中，确定开始帧的步骤包括：

确定开始帧扫描范围；以及

逐一计算所述开始帧扫描范围内的各局部图像的局部特征与所述稳定全局特征的相似度，并在从所述开始帧扫描范围从后向前扫描的情况下将第一个不相似的局部图像所在的帧确定为开始帧，或在从所述开始帧扫描范围从前向后扫描的情况下将第一个相似的局部图像所在的帧确定为开始帧；

确定结束帧的步骤包括：

确定结束帧扫描范围；

逐一计算所述结束帧扫描范围内的各局部图像的局部特征与所述稳定全局特征的相似度，并在从所述结束帧扫描范围从后向前扫描的情况下将第一个相似的局部图像所在的帧确定为结束帧，或在从所述结束帧扫描范围从前向后扫描的情况下将第一个不相似的局部图像所在的帧确定为结束帧。

2.根据权利要求1所述的字幕存在时间确定方法，其特征在于，

所述初步确定全局特征的步骤包括：

(1)将所述多个局部图像中的第一个局部图像的局部特征设为全局特征；

将各所述局部图像的局部特征与所述全局特征进行比较，根据比较结果，采用投票更新的方法，利用与所述全局特征相似的局部特征，更新所述全局特征的步骤包括：

针对所述多个局部图像中的下一个局部图像，

(2)进行相似度判断，判断该局部图像的局部特征与所述全局特征是否相似；

(3)在所述相似度判断步骤判断出该局部特征与所述全局特征相似时，采用投票更新的方法，利用该局部图像的局部特征更新所述全局特征；

对于所述多个局部图像中的其它局部图像，重复进行上述步骤(2)和(3)，直到所述步骤(2)判断出该局部特征与所述全局特征不相似。

3.根据权利要求2所述的字幕存在时间确定方法，其特征在于，在进行所述相似度判断时，要判断位置相似度和边缘相似度这两者。

4.根据权利要求1所述的字幕存在时间确定方法，其特征在于，所述局部图像获得步骤包括：

计算平均图像的步骤，计算所述视频中多个图像的平均图像；

5.根据权利要求2所述的字幕存在时间确定方法，其特征在于，所述方法还包括噪声判断步骤，根据所述第一个局部图像与所述步骤(2)中所判断出的该局部特征与所述全局特征不相似时的局部图像的距离，判断所述字幕区域是否为噪声。

6.一种字幕存在时间确定装置，该装置包括：

局部图像获取装置，用于获得视频中的初步判断为含有字幕区域的多个图像，即多个局部图像；

稳定全局特征获得装置，用于获得所述多个局部图像的稳定全局特征；以及

字幕开始帧结束帧确定装置，利用所述稳定全局特征获得所述视频中的字幕的开始帧和结束帧，

其中，所述稳定全局特征获得装置包括：

局部特征获取装置，用于获取各所述局部图像的字幕区域的特征，即局部特征；

全局特征更新装置，用于设定所述多个局部图像的初始全局特征，根据所述相似度计算判断装置的判断结果，利用与所述全局特征相似的局部特征，采用投票更新的方法，对所述全局特征进行更新，并最终确定稳定全局特征，

其特征在于，所述字幕开始帧结束帧确定装置如下地确定开始帧：

确定开始帧扫描范围；以及

所述字幕开始帧结束帧确定装置如下地确定结束帧：

确定结束帧扫描范围；