CN101453575A

CN101453575A - 一种视频字幕信息提取方法

Info

Publication number: CN101453575A
Application number: CNA2007101788318A
Authority: CN
Inventors: 刘安安; 宋砚; 庞琳; 李锦涛; 张勇东; 唐胜
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-12-05
Filing date: 2007-12-05
Publication date: 2009-06-10
Anticipated expiration: 2027-12-05
Also published as: CN101453575B

Abstract

本发明提供一种视频字幕信息提取方法，包括：对需要提取字幕的视频图像进行预处理；对预处理后的视频图像进行多尺度的字幕区域检测，得到代表字幕区域大小与位置的矩形块；利用所述的矩形块，对检测到的字幕区域进行分割；对分割得到的字幕区域增强对比度；采用K均值聚类的方法实现对字幕的提取。本发明对字幕的不同语言类型、字体、尺寸以及视频节目类型都具有通用性；具有字幕区域检测和文字识别准确率高，速度快的优点；在字幕区域检测时不需要进行模型的训练，减少了模型训练不好影响预测结果的可能性。

Description

一种视频字幕信息提取方法

技术领域

本发明涉及视频中的字幕信息提取，特别涉及一种利用视频语义信息提取视频字幕的方法。

背景技术

近年来，数字视频技术的发展相当迅速，在广播电视领域逐步取代了传统的存储和发送模式，在互联网上的应用更是以惊人的速度得到扩展。数字视频具有采集和存取方便、信息量大的优势，但同时也存在数据量大、描述困难的特点。随着视频数据的海量增长，人们迫切需要先进的视频处理技术从而实现有效的视频索引，摘要，浏览以及检索。视频字幕信息因其相对易于提取，直接表征视频语义和便于基于文本的视频检索等特点而具有重要的研究和应用价值。

现有视频字幕信息提取方法主要分为三类。第一类为基于连通区域的提取方法。该方法可以实现文本区域的快速定位和提取，但是对背景复杂度非常敏感，鲁棒性差。第二类为基于纹理的区域检测方法。该算法实现起来较简单，但是由于与字幕具有相近纹理区域的影响，使得检测准确率较低。第三类是基于边缘的检测方法。该方法计算复杂度低，但是在一定程度上受视频分辨率和背景信息的影响。此外，还存在一些通过分类器建立文字区域模型的方法，但是该类方法对训练样本有很强的依赖性，模型建立比较复杂。

在上述的基于边缘的检测方法中，实现字幕检测、提取时所要完成的基本步骤包括：1、预处理操作；2、字幕区域检测操作；3、字幕区域分割操作；4、字幕区域增强操作；5、字幕提取操作；6、文字识别操作。

其中，在字幕区域检测时，通常采用机器学习的方法，如支持向量机或神经网络等，这种机器学习的方法需要收集样本集并且进行模型的训练，如果样本集选取的不好，可能训练出的模型并不适合现实中的各种情况，影响视频字幕检测的准确性。而且字幕区域检测中所要完成的多尺度变换方法一般只采用图像下采样的方法，这样不利于对视频中的小字体的检测。

在做字幕区域增强的过程中，现有技术通过边缘图做匹配，以检测具有相同字幕的视频帧，但由于阈值选择对边缘提取的影响很大，所以对不同帧提取边缘图变化较大，很难通过准确的阈值设定来检测具有相同字幕的视频帧。

而在字幕提取的过程中，现有技术或者采用基于阈值的方法，或者采用基于笔画的方法。无论是采用基于阈值的方法，还是基于笔画的方法都有各自的缺陷。例如，基于阈值的方法具有通用性不强，对复杂背景的情况很难适应的缺陷，而基于笔画的方法则具有笔画交叉部分很难被找到，从而影响字幕识别的缺陷。

鉴于现有的视频字幕提取方法在各个实现步骤中存在着各自的问题，而在实际检测的各种视频中又因为以下四个因素制约视频字幕信息提取的准确性和鲁棒性：1.背景的复杂度；2.视频图像的低分辨率；3.字体，尺寸，颜色及排列方式等的变化；4.不同语言字符的特性。因此，需要一种新的视频字幕提取方法以提高视频字幕信息提取的准确性和鲁棒性。

发明内容

因此，本发明的任务是克服现有的视频字幕提取方法在字幕区域检测、字幕区域分割、字幕区域增强、字幕提取等步骤的实现上所存在的不足，从而影响字幕提取的准确性与鲁棒性的缺陷，从而提供一种具有更高准确性和鲁棒性的视频字幕提取方法。

为了实现上述目的，本发明提供了一种视频字幕信息提取方法，包括以下步骤：

步骤1)、对需要提取字幕的视频图像进行预处理；

步骤2)、对预处理后的视频图像进行多尺度的字幕区域检测，得到代表字幕区域大小与位置的矩形块；

步骤3)、利用所述的矩形块，对检测到的字幕区域进行分割；

步骤4)、对分割得到的字幕区域增强对比度；

步骤5)、采用K均值聚类的方法实现对字幕的提取。

上述技术方案中，所述的步骤2)包括以下步骤：

步骤21)、对预处理后的视频图像进行尺度大小的变换操作，得到多个不同尺度大小的图像；

步骤22)、对步骤21)所得到的多个不同尺度大小的图像中的所有象素点求取边缘强度；

步骤23)、在各个图像中，对步骤22)所得到的象素点的边缘强度做二值化处理，得到相应的边缘图；

步骤24)、对各个尺度的图像进行字幕区域粗检测，得到各个图像中字幕所在的大致区域。

上述技术方案中，在所述的步骤21)中，对预处理后的视频图像进行尺度大小的变换操作时，同时采用了图像上采样和图像下采样的方法，得到与原图相比尺度更大与更小的多个变换后图像。

上述技术方案中，在所述的步骤22)中，所述的求取边缘强度的过程中采用了水平和垂直Sobel算子。

上述技术方案中，在所述的步骤24)中，对各个尺度的图像进行字幕区域粗检测包括以下步骤：

步骤241)、为各个尺度图像的边缘图建立DCT图

步骤242)、对所得到的DCT图做连通区域分析，为DCT图中的每个连通区域得到一个外接的矩形

步骤243)、根据步骤242)中所得到的外接矩形，实现对图像中的字幕区域的粗检测。

上述技术方案中，在所述的步骤241)中，为各个尺度图像的边缘图建立DCT图包括以下步骤：

步骤2411)、在一个边缘图中，用一个滑动窗口对所述边缘图的横向和纵向分别进行扫描，统计所述滑动窗口中上、下、左、右四个子窗口内的边缘象素个数n_a，n_b，n_c，n_d；

步骤2412)、计算表示每个窗口边缘象素分布散度的值n，其中

n＝n_a×n_b×n_c×n_d；

步骤2413)、建立DCT图，所述DCT图中每个象素对应一个所述的滑动窗口，当所述n值大于0时，所述DCT图中的象素值为1，当所述n值为0时，所述DCT图中的象素值为0。

上述技术方案中，还可以对所建立的DCT图进行腐蚀处理，去掉孤立点；在腐蚀处理过程中，在DCT图的水平方向上，对于值为“1”的某象素点，若其左右连续两个点象素值都为“0”或者三面相临象素点值都为“0”，则该点作为孤立点，并将其象素值改为“0”。

上述技术方案中，所述的滑动窗口的大小为4×4。

上述技术方案中，在所述的步骤243)中，对图像中的字幕区域的粗检测包括以下步骤：

步骤2431)、将所述DCT图中的连通区域的外接矩形对应到所述边缘图中的位置，在所述边缘图中得到相应的矩形；

步骤2432)、对所述边缘图中满足条件的矩形块进行合并；

步骤2433)、对所述边缘图中的所有矩形块进行尺寸大小的检测，去掉尺寸过小的块；

步骤2434)、将不同尺度图像中的检测结果都变换到原始尺度的图像中，然后再将所有的检测结果进行合并。

上述技术方案中，在所述的步骤2432)中，所述的合并条件包括：

a、对两个矩形块相交的情况，只要相交部分的面积大于0，则将两个相交的矩形块进行合并；

b、对两个矩形块在垂直方向上投影的结果有交集，并且它们在水平方向上距离足够近的情况，用d1表示两个块的水平方向上的距离，d2表示两个块上面的边在垂直方向上的距离，d3表示两个块下面的边在垂直方向上的距离，当0<d1<8，0<d2<4，0<d3<4时，两个矩形块可以合并，其中的数值表示象素点的个数；

c、对于两个矩形块在水平方向上投影的结果有交集，并且它们在垂直方向上距离足够近的情况，用d4表示两个块在垂直方向上的距离，用d5表示下方矩形块的右边和上方矩形块的左边在水平方向上的距离，用d6表示下方矩形块的左边和上方矩形块的右边在水平方向上的距离，当d4<4，d5>0，d6>0时，两个矩形块可以合并；

d、对一个矩形块的右下角和另一个矩形块的左上角顶点在水平方向上和垂直方向上距离都足够近的情况，用d7表示下方矩形块的上边和上方矩形块的下边在垂直方向上的距离，用d8表示下方矩形块的左边和上方矩形块的右边在水平方向上的距离，当0<d7<4，0<d8<8时，两个矩形块可以合并；

e、一个矩形块的右上角和另一个矩形块的左下角顶点在水平方向上和垂直方向上距离都足够近的情况，用d9表示下方矩形块的上边和上方矩形块的下边在垂直方向上的距离，d10表示下方矩形块的右边和上方矩形块的左边在水平方向上的距离，当0<d9<4，0<d10<8时，两个矩形块可以合并。

上述技术方案中，在所述的步骤3)中，所述的对检测到的字幕区域进行分割包括以下步骤：

步骤31)、为一个图像中所有字幕区域所对应的矩形块建立一个队列L1，并建立一个空队列L2，将所有的矩形块安放在队列L1中；

步骤32)、从所述队列L1中取出一个矩形块，判断在水平方向是否可以分割，若水平方向不能分割则将该矩形块加入所述队列L2后执行下一步，否则进行水平方向的分割；

步骤33)、判断所述队列L1是否为空，若不为空，则对所述队列L1中的矩形块重复执行上述的步骤32，否则执行下一步；

步骤34)、从所述队列L2中取出一个矩形块，判断在垂直方向是否可以分割，若垂直方向不能分割，则将该矩形块加入所述队列L1后执行下一步，否则进行垂直方向的分割；

步骤35)、判断所述队列L2是否为空，若为空，则重复步骤34)，否则执行下一步；

步骤36)、判断在所述队列L1中是否还包含水平方向或者垂直方向可分割的矩形块，若存在，则进入步骤32)，否则执行下一步；

步骤37)、对经过分割操作后的矩形块根据合并条件进行合并操作；

步骤38)、对当前矩形块的大小进行检查，去掉宽度小于阈值minTextBlockWidth以及高度大于阈值maxTextBlockHeight的矩形块。

上述技术方案中，在所述的步骤32)中，所述的水平方向的分割包括：

步骤321)、对矩形块做水平投影，用HP表示各行象素投影所包含的值为“1”的象素点数；

步骤322)、找出一个矩形块中HP的最大值hp_max；

步骤323)、将HP从大到小排序，计算前1/3个H的算术平均值AVE1；

步骤324)、从最大值hp_max在矩形块中垂直方向上的位置向两边找到第一个小于AVE1的位置y1，y2；

步骤325)、在y1和y2处做分割操作，中间的部分标为水平方向不能再分割，加入所述队列L2；

步骤326)、对除去中间部分后所得到的剩余两部分，判断它们的高度是否大于一个阈值minTextBlockHeight，若是，则加入队列L2后执行步骤33)，若不大于上述阈值，则直接执行步骤33)。

上述技术方案中，所述的阈值minTextBlockHeight的大小为8，单位为象素点。

上述技术方案中，在所述的步骤34)中，所述的垂直方向的分割包括：

步骤341)、对所述的矩形块做垂直投影，用V表示各列象素投影所包含的值为“1”的象素点数；

步骤342)、计算所述V的算术平均AVE2；

步骤343)、对垂直投影从左开始，查找一个点，该点应满足它本身和其后一点的V值都大于三分之一的AVE2且后两点V值大于二分之一的AVE2，查找到该点后，该点被设为开始点x1；

步骤344)、从x1向右寻找第一个V值小于三分之一的AVE2且其后4个连续点的V值均小于三分之一的AVE2的点，该点被设为结束点x2；

步骤345)、从所述的x1和x2处做分割，中间的部分被判定为垂直方向不能再分割，将中间部分加入队列L1；

步骤346)、对除去中间部分后的余下部分，判断其宽度是否大于其高度的1/2，若是则加入队列L1后执行步骤35)，否则直接执行步骤35)。

上述技术方案中，在所述的步骤37)中，所述的合并条件为：

当两个块高度相似，它们的上面的边在垂直方向上距离相近，而且它们在水平方向上距离也足够近时，对这两个矩形块做合并操作；其中，H1，h2表示两个矩形块各自的高度。d11表示它们上面的边在垂直方向上的距离，d12表示它们在水平方向上的距离，只有当同时满足h1>3/5×h2，h2>3/5×h1，|d11|<(1/3×h1)，|d11|<(1/3×h2)，|d12|<16时，才对相应的矩形块进行合并。

上述技术方案中，在所述的步骤38)中，所述阈值maxTextBlockHeight的值为90，所述阈值minTextBlockWidth的值为60，上述数值的单位为象素点。

上述技术方案中，在所述的步骤4)中，采用二分法查找具有相似字幕区域的帧，对所查找到的相似帧的字幕区域增强对比度。

上述技术方案中，所述的采用二分法查找具有相似字幕区域的帧包括以下步骤：

步骤41)、将视频的当前帧作为参考帧Ref，然后计算第j(j＝Ref+Step)帧与参考帧Ref的相似度Sim；所述Sim为Ref帧中各字幕候选块与第j帧中对应区域的相似度的最大值，所述Step为搜索步长；

步骤42)、判断步骤41)所得到的相似度Sim是否大于阈值T1，若大于，则进入视频的下一帧，然后重新执行步骤41)，否则执行下一步；

步骤43)、在第(j-Step)帧和第j帧区间内进行二分查找，寻找与参考帧不相似的最小帧号N，然后将从Ref帧到第(N-1)帧的所有帧都判定为与Ref帧相似的图像。

上述技术方案中，在所述的步骤41)中，所述的Ref帧中各字幕候选块与第j帧中对应区域的相似度通过直方图的交进行计算。

上述技术方案中，所述的对所查找到的相似帧的字幕区域增强对比度通过将与Ref帧相似的图像中的字幕区域的象素点取最小值得到。

上述技术方案中，在所述的步骤5)中，所述的采用K均值聚类的方法实现对字幕的提取包括：

首先，设置K个类的初始聚类中心点；

其次，对所有点进行聚类，找到距离它们最近的中心点，将点归于相应的类；

接着，根据聚类结果修改聚类中心点，并重新聚类；

然后，迭代上次操作直到聚类中心不再改变；

最后，将聚类中心值最大一类的所有点的灰度值与其他点的灰度值设为不同的值，以实现字幕与背景间的区分。

上述技术方案中，所述的K取值为3。

上述技术方案中，所述的聚类中心值最大一类的所有点的灰度值设为255，其他点的灰度值设为0。

本发明的优点在于：

1、本发明的视频字幕提取方法在字幕区域检测的过程中，同时对原图采用了上采样和下采样的方法，使得在提取字幕时不会受到字体大小的影响。

2、本发明的视频字幕提取方法在字幕区域检测的过程中，不需要进行模型的训练，减少了模型训练不好影响预测结果的可能性；提高了识别准确率，加快了识别速度。

3、本发明的视频字幕提取方法在字幕区域增强的过程中，利用二分法检测与当前帧具有相同字幕的的视频帧，具有较高的检测效率；且在检测具有相同字幕的视频帧时，通过对图像直方图求交的方法实现检测，具有较高的鲁棒性，克服了现有方法采用阈值设定方式时鲁棒性较低的缺陷。

4、本发明的视频字幕提取方法在视频字幕提取的过程中，采用了K均值聚类的方法，避免了现有基于阈值或基于笔画方法所带来的缺陷。

5、本发明的视频字幕提取方法本身没有用到基于语言特征、字体大小、节目类型的知识，因此不会受到语言类型、字体大小、节目类型等因素的影响，具有广泛的通用性。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1为本发明视频字幕提取方法在一个实施方式中的流程图；

图2(a)为本发明的视频字幕提取方法在一个实施方式中所采用的水平Sobel算子的示意图；

图2(b)为本发明的视频字幕提取方法在一个实施方式中所采用的垂直Sobel算子的示意图；

图3为本发明的视频字幕提取方法在一个实施方式中进行字幕区域粗检测时的合并规则；

图4为本发明的视频字幕提取方法在一个实施方式中进行字幕区域分割时的合并规则。

具体实施方式

下面结合附图和具体实施方式对本发明的方法做进一步的说明。

如图1所示，本发明的视频字幕提取方法包括以下步骤：

步骤10、对需要提取字幕的视频图像进行预处理。在本实施方式中，对视频图像的预处理主要是对视频图像提取亮度分量，然后对亮度分量做灰度化操作。假设在本实施方式中的视频图像采用RGB方式进行编码，则对亮度分量Y做灰度化操作时，遵循以下公式：

Y＝0.299R+0.587G+0.114B

本领域的普通技术人员应当了解，在YUV或YCrCb空间中，亮度分量由Y表示，因此可根据上述公式提取亮度分量，然后进行灰度化操作。而在HIS或HSV空间中，无需提取亮度分量I或V，可直接对亮度分量I或V进行灰度化操作。

步骤20、对预处理后的视频图像进行多尺度的字幕区域粗检测，从而得到代表字幕区域大小与位置的矩形块。在本实施方式中，初始化操作是要对视频图像做灰度化操作，因此，多尺度的字幕区域检测的对象是与视频图像相对应的灰度图。

步骤30、在视频图像中对粗检测到的字幕区域进行分割操作，在分割操作过程中对步骤20所得到的矩形块做进一步的处理。

步骤40、对分割得到的字幕区域增强对比度。考虑到视频中的字幕都是编辑者人为添加的，而且为了满足观众的需求，字幕都有一定的持续时间，通常至少在2秒以上，利用视频文字在时间上的这一冗余特性对文字进行跟踪并增强字幕区域的对比度，对于视频字幕的提取有很大的作用。在本实施方式中，采用二分法进行跟踪，对于具有相同内容的字幕区域还要通过最小值方法进行融合。

步骤50、采用K均值聚类的方法实现对字幕进行提取。在提取过程中，对增强对比度后的每个字幕区域对应灰度图中相应部分的象素的灰度值进行K均值聚类，然后根据K均值聚类的结果区分文字与背景部分。

步骤60、将上一步骤中所提取的字幕通过现有的技术实现字幕识别。

下面对上述步骤的具体实现过程进行详细的说明。

在步骤20中，多尺度的字幕区域检测具体包括以下步骤：

步骤21、采用图像金字塔的方法对预处理后的视频图像进行尺度大小的变换操作，得到多个不同尺度大小的图像。变换操作的目的是要克服由于视频图像中所包含的字体大小不一致所造成的对不同大小的字幕在检测准确率上的偏差。在现有技术中，一般采用图像下采样的方式实现图像的多尺度变换，因此只能得到尺度大小较原图更小的变换后图像。但在实际应用中，若原图中的字体可能太小，则只采用图像下采样的方式进行图像变换不利于对字体的检测，因此本步骤在进行图像尺度大小的变换时同时采用了图像上采样和图像下采样的方法，从而得到与原图相比尺度更大与更小的多个变换后图像。

在本实施方式中，假设初始化后的视频图像是一幅尺寸为W×H的图像，采用Shannon插值方法将其分别变换为尺寸为2W×2H的图像和0.5W×0.5H的图像。本实施方式中所采用的Shannon插值方法是成熟的现有技术，可参见参考文献1：“Text Enhancement in Digital Video，Huiping Li，OmidKia，David Doermann，Proc.of SPIE Document Recognition and RetrievalVI，1999”。本领域的普通技术人员应当了解，在变换过程中也可以采用其他类型的插值方法。

步骤22、选取水平和垂直Sobel算子，对步骤21所得到的不同尺度图像中的象素点求取边缘强度。

在本实施方式中，所采用的水平和垂直Sobel算子大小为3×3，在图2中对这两个算子做了具体的说明，上述两个算子都可以增强边缘部分，滤去非边缘部分，其中的水平Sobel算子可以保留横向内容，而垂直Sobel算子可以保留竖向内容。利用水平Sobel算子可得到水平边缘强度h(x，y)，利用垂直Sobel算子可以得到垂直边缘强度v(x，y)，通过下列公式计算点的边缘强度e(x，y)：

e (x, y) = \sqrt{h^{2} (x, y) + {\dot{v}}^{2} (x, y)}

步骤23、在各个图像中，对步骤22中所得到的象素点的边缘强度做二值化处理，得到相应的边缘图。在本实施方式中，从前面的描述可以知道，一幅视频图像在尺度变换后可以得到三幅图像，对这三幅图像中的象素点的边缘强度都要做二值化处理，从而得到三幅对应的边缘图。上述的二值化处理通过设定阈值的方法实现。二值化处理方法的具体实现如下：首先计算边缘强度图的灰度直方图，该图包含256bin，选取最大的bin对应的灰度值的三分之一作为阈值；对于边缘强度图中灰度值大于阈值的象素点，其灰度值设为“1”；否则，灰度值设为“0”，从而实现图像的二值化，获得边缘图。

步骤24、对各个尺度的图像进行字幕区域粗检测，得到各个图像中字幕所在的大致区域。本步骤的具体操作如下：

步骤24-1、为各个尺度图像的边缘图建立DCT图。它包括以下操作：

24-1-1、在一个边缘图中，用大小为4×4的滑动窗口对边缘图的横向和纵向分别以步长为4进行扫描，统计窗口内上、下、左、右四个2×2子窗口内的边缘象素个数n_a，n_b，n_c，n_d。

24-1-2、计算表现每个窗口边缘象素分布散度的值n，它的计算公式如下：

n＝n_a×n_b×n_c×n_d。

24-1-3、建立DCT图，所建立的DCT图的宽和高均为原图宽和高的1/4，该图每个象素对应上述一个4×4大小的窗口，DCT图中的象素值d的判断方式如下：

d = \{\begin{matrix} 1, n > 0 \\ 0, n = 0 \end{matrix}

24-1-4、对所得到的DCT图进行腐蚀处理，在腐蚀处理过程中按下面的规则去掉孤立点：在水平方向上，对于值为“1”的某象素点，若其左右连续两个点象素值都为“0”或者三面相临象素点值都为“0”，则该点作为孤立点，并将其象素值改为“0”。

步骤24-2、对所得到的DCT图做连通区域分析，为DCT图中的每个连通区域得到一个外接的矩形。在本步骤中，在连通区域分析时采用了现有技术，在本实施方式中，可以采用序贯法，关于序贯法的相关技术细节可参见参考文献2“计算机视觉，贾云得，北京：科学出版社，2000。”

步骤24-3、对图像中的字幕区域进行粗检测，在粗检测过程中，应当尽可能的选取包含字幕的区域。粗检测操作的具体实现如下：

步骤24-3-1、将DCT图中的连通区域的外接矩形对应到边缘图中的位置，在边缘图中得到相应的矩形。设外接矩形左上，右上，左下，右下四个顶点的坐标为(x1，y1)，(x1，y2)，(x2，y1)，(x2，y2)，则在原图中的对应的矩形四个顶点的坐标分别为(x1×4，y1×4)，(x1×4，y2×4)，(x2×4，y1×4)，(x2×4，y2×4)。本步骤中，之所以要将坐标值乘以4，是因为在生成DCT的过程中，边缘图中每4个象素对应生成DCT图中的一个象素。

步骤24-3-2、对边缘图中满足条件的矩形块进行合并。在图3中，对矩形块的合并条件进行了说明。对于如图3(a)、图3(b)那样两个矩形块相交的情况，只要相交部分(图中的阴影部分)的面积大于0，则可将两个相交的矩形块进行合并。对于如图3(c)那样两个矩形块在垂直方向上投影的结果有交集，并且它们在水平方向上距离足够近(如d1<8)的情况，用d1表示两个块的水平方向上的距离，d2表示两个块上面的边在垂直方向上的距离，d3表示两个块下面的边在垂直方向上的距离，当0<d1<8，0<d2<4，0<d3<4时，两个矩形块可以合并，其中的数值表示象素点的个数。对于如图3(d)那样两个块在水平方向上投影的结果有交集，并且它们在垂直方向上距离足够近的情况，用d4表示两个块在垂直方向上的距离，用d5表示下面的块的右边和上面的块的左边在水平方向上的距离，用d6表示下面的块的左边和上面的块的右边在水平方向上的距离。当d4<4，d5>0，d6>0时，两个矩形块可以合并。对于如图3(e)那样一个块的右下角和另一个块的左上角顶点在水平方向上和垂直方向上距离都足够近的情况，用d7表示下面的块的上边和上面的块的下边在垂直方向上的距离，用d8表示下面的块的左边和上面的块的右边在水平方向上的距离。当0<d7<4，0<d8<8时，两个矩形块可以合并。对于如图3(f)那样一个块的右上角和另一个块的左下角顶点在水平方向上和垂直方向上距离都足够近的情况，用d9表示下面的块的上边和上面的块的下边在垂直方向上的距离，d10表示下面的块的右边和上面的块的左边在水平方向上的距离。当0<d9<4，0<d10<8时，两个矩形块可以合并。

步骤24-3-3、对边缘图中的所有矩形块进行尺寸大小的检测，去掉尺寸过小的块。在本实施方式中，对于宽度小于12个象素的块并且高度小于8个象素的块进行删除。

步骤24-3-4、对图像中的文字区域进行合并操作。在合并操作前，首先要将不同尺度图像的边缘图中的检测结果都变换到原始尺度的图像的边缘图中，然后再将所有的检测结果进行合并。在本实施方式中，将尺度大小为2W×2H的图像和0.5W×0.5H的图像都变换到W×H的尺度，此时，这些图像中的矩形块的尺寸大小也做相应的变换。在合并操作时，结合步骤24-3-2中涉及的合并条件，采用“或”操作实现矩形块的合并。

在步骤30中，对粗检测到的字幕区域进行分割的具体实现过程如下：

步骤31、为一个图像中所有字幕区域所对应的矩形块建立一个队列L1，并建立一个空队列L2，将所有的矩形块安放在队列L1中；

步骤32、从队列L1中取出一个矩形块，判断在水平方向是否可以分割，若水平方向不能分割则将该矩形块加入队列L2后执行下一步，否则进行水平方向的分割。水平方向分割的实现方法为：

步骤32-1、对矩形块做水平投影，用HP(Horizontal Projection，水平投影)表示各行象素投影所包含的值为“1”的象素点数；

步骤32-2、找出一个图像中HP的最大值hp_max；

步骤32-3、将HP从大到小排序，计算前1/3个H的算术平均值AVE1；

步骤32-4、从最大值hp_max在矩形块中垂直方向上的位置向两边找到第一个小于AVE1的位置y1，y2；

步骤32-5、在y1和y2处做分割操作，中间的部分标为水平方向不能再分割，加入队列L2；

步骤32-6、对除去中间部分后所得到的剩余两部分，判断它们的高度是否大于一个阈值minTextBlockHeight，若是，则加入队列L2后执行下一步，若不大于上述阈值，则直接执行下一步。在本步骤中，所述的阈值minTextBlockHeight是一个根据实验得到的经验值，常见的取值范围为7-9。

步骤33、判断队列L1是否为空，若不为空，则对队列L1中的矩形块重复执行上述的步骤32，否则执行下一步；

步骤34、从队列L2中取出一个矩形块，判断在垂直方向是否可以分割，若垂直方向不能分割，则将该矩形块加入队列L1后执行下一步，否则进行垂直方向的分割。垂直方向分割的实现方法为：

步骤.34-1、对矩形块做垂直投影，用V表示各列象素投影所包含的值为“1”的象素点数；

步骤34-2、计算V的算术平均AVE2；

步骤34-3、对垂直投影从左开始，查找一个点，该点应满足它本身和其后一点的V值都大于三分之一的AVE2且后两点V值大于二分之一的AVE2，查找到该点后，该点被设为开始点x1；

步骤34-4、从x1向右寻找第一个V值小于三分之一的AVE2且其后4个连续点的V值均小于三分之一的AVE2的点，该点被设为结束点x2；

步骤34-5、从x1和x2处做分割，中间的部分被判定为垂直方向不能再分割，将中间部分加入队列L1；

步骤34-6、对除去中间部分后的余下部分，判断其宽度是否大于其高度的1/2，若是则加入队列L1后执行下一步，否则直接执行下一步；

步骤35、判断队列L2是否为空，若为空，则重复步骤34，否则执行下一步；

步骤36、判断在队列L1中是否还包含水平方向或者垂直方向可分割的矩形块，若存在，则进入步骤32，否则执行下一步；

步骤37、对经过分割操作后的矩形块进行合并操作，图4对合并时应满足的条件进行了说明。当两个块高度相似，它们的上面的边在垂直方向上距离相近，而且它们在水平方向上距离也足够近时，这两个块很可能是同一行字被分割成两段的情况，此时对这两个矩形块可做合并操作。其中，H1，h2表示两个矩形块各自的高度。d11表示它们上面的边在垂直方向上的距离，d12表示它们在水平方向上的距离。只有当同时满足h1>3/5×h2，h2>3/5×h1，|d11|<(1/3×h1)，|d11|<(1/3×h2)，|d12|<16时，才对相应的矩形块进行合并。

步骤38、对当前矩形块的大小进行检查，去掉宽度小于阈值minTextBlockWidth以及高度大于阈值maxTextBlockHeight的矩形块。在本实施方式中，阈值minTextBlockHeight＝8，maxTextBlockHeight＝90，minTextBlockWidth＝60，上述数值的单位为象素点。

在步骤40中，对分割得到的字幕区域增强对比度的具体实现如下：

步骤41、将视频的当前帧作为参考帧Ref，然后计算第j(j＝Ref+Step)帧与参考帧Ref的相似度Sim。

其中，Sim为Ref帧中各字幕候选块(即前一步骤所得到的矩形块)与第j帧中对应区域的相似度的最大值。各字幕候选块与第j帧中对应区域的相似度可通过直方图的交进行计算，具体实现方法可参见参考文献3：“网上多媒体信息分析与检索，庄越挺，潘云鹤，吴飞，北京：清华大学出版社，2002”。在本步骤中所涉及的Step为搜索步长，本实施方式中选择Step为20。

步骤42、判断步骤41所得到的相似度Sim是否大于阈值T1，若大于，则进入视频的下一帧，然后重新执行步骤41，否则执行下一步；本步骤中的T1通过试验得到，其取值在0.7至0.9之间。

步骤43、在第(j-Step)帧和第j帧区间内进行二分查找，寻找与参考帧不相似的最小帧号N，然后将从Ref帧到第(N-1)帧的所有帧都判定为与Ref帧相似的图像。在本步骤中，所述的与参考帧不相似的情况是指相似度Sim小于或等于阈值T1的情况。在本步骤中所采用的二分查找方法属于现有技术，在本领域中具有广泛的应用，其具体的实现细节可参见参考文献4：“C算法(第一卷：基础、数据结构、排序和搜索)，RobertSedgewick，人民邮电出版社，2004。”

步骤44、将与Ref帧相似的图像中的字幕区域的象素点取最小值，以增强字幕与背景间的对比度。

由于在一定时间内，视频图像中的字幕是静止的，而大部分背景物体是运动的，所以对于各帧相同位置的象素点，若它属于背景，则变化较大，若属于字幕，则变化较小。通常字幕象素点的亮度高于背景物体，所以将Ref帧到第(N-1)帧相同位置的象素点取最小值来增强字幕与背景的对比度。在本步骤中，之所以要对象素点取最小值，是因为在实际应用中，视频字幕通常为高亮度的。

在步骤50中，K均值聚类的目的是有利于字幕与背景的分割。在做K值聚类时，首先人为设置k个类的初始聚类中心点，对所有点进行聚类，即找到距离它们最近的中心点，然后归入该类，再根据聚类结果修改聚类中心点，重新聚类，如此迭代直到聚类中心不再改变(或者满足其他设定的条件)。本实施方式中，K取值为3，K值聚类的具体实现方法可以参见参考文献5：“模式分类，Richard O.Duda，Perter E.Hart等，北京：机械工业出版社，2005。”在本实施方式中，认为聚类中心灰度值最大的那一类做为文字，而其余类的点都是背景点。因此，在提取字幕时，将聚类中心值最大一类的所有点的灰度值设为255，其他点的灰度值设为0，这样做即可实现字幕与背景的区分。

在步骤60中，对字幕的识别可采用本领域的现有技术，在本实施方式中，可采用汉王公司开发的OCR软件“HWSDK1.2”进行字幕识别。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种视频字幕信息提取方法，包括以下步骤：

步骤1)、对需要提取字幕的视频图像进行预处理；

步骤4)、对分割得到的字幕区域增强对比度；

步骤5)、采用K均值聚类的方法实现对字幕的提取。

2、根据权利要求1所述的视频字幕信息提取方法，其特征在于，所述的步骤2)包括以下步骤：

3、根据权利要求2所述的视频字幕信息提取方法，其特征在于，在所述的步骤21)中，对预处理后的视频图像进行尺度大小的变换操作时，同时采用了图像上采样和图像下采样的方法，得到与原图相比尺度更大与更小的多个变换后图像。

4、根据权利要求2所述的视频字幕信息提取方法，其特征在于，在所述的步骤22)中，所述的求取边缘强度的过程中采用了水平和垂直Sobel算子。

5、根据权利要求2所述的视频字幕信息提取方法，其特征在于，在所述的步骤24)中，对各个尺度的图像进行字幕区域粗检测包括以下步骤：

步骤241)、为各个尺度图像的边缘图建立DCT图

6、根据权利要求5所述的视频字幕信息提取方法，其特征在于，在所述的步骤241)中，为各个尺度图像的边缘图建立DCT图包括以下步骤：

步骤2412)、计算表示每个窗口边缘象素分布散度的值n，其中n＝n_a×n_b×n_c×n_d；

7、根据权利要求6所述的视频字幕信息提取方法，其特征在于，还可以对所建立的DCT图进行腐蚀处理，去掉孤立点；在腐蚀处理过程中，在DCT图的水平方向上，对于值为“1”的某象素点，若其左右连续两个点象素值都为“0”或者三面相临象素点值都为“0”，则该点作为孤立点，并将其象素值改为“0”。

8、根据权利要求6或7所述的视频字幕信息提取方法，其特征在于，所述的滑动窗口的大小为4×4。

9、根据权利要求5所述的视频字幕信息提取方法，其特征在于，在所述的步骤243)中，对图像中的字幕区域的粗检测包括以下步骤：

步骤2432)、对所述边缘图中满足条件的矩形块进行合并；

10、根据权利要求9所述的视频字幕信息提取方法，其特征在于，在所述的步骤2432)中，所述的合并条件包括：

11、根据权利要求1所述的视频字幕信息提取方法，其特征在于，在所述的步骤3)中，所述的对检测到的字幕区域进行分割包括以下步骤：

12、根据权利要求11所述的视频字幕信息提取方法，其特征在于，在所述的步骤32)中，所述的水平方向的分割包括：

步骤322)、找出一个矩形块中HP的最大值hp_max；

13、根据权利要求12所述的视频字幕信息提取方法，其特征在于，所述的阈值minTextBlockHeight的大小为8，单位为象素点。

14、根据权利要求11所述的视频字幕信息提取方法，其特征在于，在所述的步骤34)中，所述的垂直方向的分割包括：

步骤342)、计算所述V的算术平均AVE2；

15、根据权利要求11所述的视频字幕信息提取方法，其特征在于，在所述的步骤37)中，所述的合并条件为：

当两个块高度相似，它们的上面的边在垂直方向上距离相近，而且它们在水平方向上距离也足够近时，对这两个矩形块做合并操作；其中，H1，h2表示两个矩形块各自的高度，d11表示它们上面的边在垂直方向上的距离，d12表示它们在水平方向上的距离，只有当同时满足h1>3/5×h2，h2>3/5×h1，|d11|<(1/3×h1)，|d11|<(1/3×h2)，|d12|<16时，才对相应的矩形块进行合并。

16、根据权利要求11所述的视频字幕信息提取方法，其特征在于，在所述的步骤38)中，所述阈值maxTextBlockHeight的值为90，所述阈值minTextBlockWidth的值为60，上述数值的单位为象素点。

17、根据权利要求1所述的视频字幕信息提取方法，其特征在于，在所述的步骤4)中，采用二分法查找具有相似字幕区域的帧，对所查找到的相似帧的字幕区域增强对比度。

18、根据权利要求17所述的视频字幕信息提取方法，其特征在于，所述的采用二分法查找具有相似字幕区域的帧包括以下步骤：

19、根据权利要求18所述的视频字幕信息提取方法，其特征在于，在所述的步骤41)中，所述的Ref帧中各字幕候选块与第j帧中对应区域的相似度通过直方图的交进行计算。

20、根据权利要求17所述的视频字幕信息提取方法，其特征在于，所述的对所查找到的相似帧的字幕区域增强对比度通过将与Ref帧相似的图像中的字幕区域的象素点取最小值得到。

21、根据权利要求1所述的视频字幕信息提取方法，其特征在于，在所述的步骤5)中，所述的采用K均值聚类的方法实现对字幕的提取包括：

首先，设置K个类的初始聚类中心点；

接着，根据聚类结果修改聚类中心点，并重新聚类；

然后，迭代上次操作直到聚类中心不再改变；

22、根据权利要求21所述的视频字幕信息提取方法，其特征在于，所述的K取值为3。

23、根据权利要求21所述的视频字幕信息提取方法，其特征在于，所述的聚类中心值最大一类的所有点的灰度值设为255，其他点的灰度值设为0。