CN1585458A

CN1585458A - 利用支持向量机进行视频字幕定位和提取的方法

Info

Publication number: CN1585458A
Application number: CN 200410024680
Authority: CN
Inventors: 程治国; 刘允才
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2004-05-27
Filing date: 2004-05-27
Publication date: 2005-02-23

Abstract

一种利用支持向量机进行视频字幕定位和提取的方法，首先提取待检测视频图像像素特征，将其分成11×11像素的图像子块，并用“米”字形模型提取各个图像子块的像素灰度值作为支持向量机的输入，然后利用支持向量机工具LIBSVM构造支持向量机分类学习机，应用大量样本对支持向量机进行训练，使其能正确识别字幕块与非字幕块，再采用金字塔模型对原始图像分辨率逐次进行缩小，并在每一阶都单独使用支持向量机进行字幕检测，将各阶检测结果都还原到原始图像分辨率下合成，生成最终检测结果，最后对检测到的图像子块进行后期处理，清除噪声得到合并后的字幕区域。本发明采用学习机制处理视频字幕的多变因素，检测效率很高并有很强的鲁棒性。

Description

利用支持向量机进行视频字幕定位和提取的方法

技术领域

本发明涉及一种利用支持向量机进行视频字幕定位和提取的方法，用于视频图像的处理和计算机视觉方面。属于计算机信息图像处理技术领域。

背景技术

视频流所包含的字幕表达了丰富语义，可以在原始视频流的分析理解过程中发挥有效作用。例如，视频新闻报道中字幕一般都概括叙述了所报道新闻发生的时间、地点、人物和主要事件等重要信息。视频字幕为相应的视频流提供了高度概括的语义，可以在自动定位、提取和识别后对相应视频流进行分割标注，从而实现基于语义视频流的浏览和检索。视频流字幕可以分为两类，一类是通过后期制作合成到视频流中的人工字幕，另一类是录制过程环境和物体本身所携带的文字内容。无论哪种字幕，首先要对视频流字幕出现的区域进行定位，以便自动准确地将融入背景的字幕提取识别出来进行视频语义标注。现有的视频字幕定位提取方法可以分为两类：基于模块的方法和基于纹理(Zhong Yu，ZhangHongjiang，Jain A nil K.Automatic caption localization in compressedvideo[J].Pattern Analysis and Machine Intelligence，2000，22(4)：385-392)的方法。这两种方法都是利用了视频字幕的三个属性；(1)字幕字符大小是在一定范围内；(2)字幕按水平方向排列聚集在一起；(3)字幕和背景存在很大的色彩反差。

然而，仅仅利用字幕本身属性来对视频流字幕进行定位面临很多困难：(1)视频流字幕的大小尺寸经常发生变化，在同一场景视频图像序列中，大尺寸和小尺寸字幕会同时出现；(2)视频流字幕字体呈现多样性，不同语种的字符形式不一样，即使对同一语种来说，也存在形状多样的字符；(3)视频字幕的颜色可以是各种各样的，视频背景颜色也可以多样，而字幕又是嵌入视频背景中的，因此字幕色彩信息是不可预测和复杂的；(4)在有些情况下，字幕进行左右平移或上下垂直移动，在定位提取时要考虑字幕的运动状态。

发明内容

本发明的目的在于针对现有技术的不足，提出一种利用支持向量机进行视频字幕定位和提取的方法，采用支持向量机的学习机制去处理字幕的多变因素，避免只考虑字幕单一固有属性的局限性，从而提高检测成功率。

为实现这样的目的，本发明的技术方案为：首先，提取待检测视频图像像素特征，将其分成11×11像素的图像子块，并使用“米”字形模型提取各个图像子块的像素灰度值作为支持向量机的输入；其次，利用支持向量机工具LIBSVM构造支持向量机分类学习机，应用大量样本对支持向量机进行训练，使其能正确识别字幕块与非字幕块；第三，对于待检测图像，采用金字塔模型对原始图像分辨率逐次进行三次缩小，在每一阶都将原始图像长宽缩小为原来的

并在每一阶都单独使用支持向量机进行字幕检测，最后将各阶的检测结果都还原到原始图像分辨率下合成，生成最终检测结果；第四，对检测到的字幕图像子块进行后期处理，清除噪声和合并字幕区域，得到最终检测到的字幕区域。

本发明的字幕定位和提取方法主要包括以下几个步骤：

1.提取待检测视频图像像素特征

根据像素相互之间存在的相关性，提取一些特定像素点的灰度值作为整幅图像的像素特征，以减少计算量：将每幅图像分割为11×11的子块，对每一个图像子块，使用“米”字形模型提取像素的灰度值作为像素特征值，从而将一幅图像子块的特征维数由11×11缩减到4×11-3，将4×11-3个像素值作为支持向量机的输入。

2.构造并训练支持向量机

利用支持向量机工具LIBSVM，同时选择径向基函数作为支持向量机的核函数，从而构造出支持向量机分类学习机。然后对支持向量机进行训练，其方法为选择1000个11×11像素的视频图像块(既有字幕块，也有非字幕块)，提取每个图像块的4×11-3个像素值，将其输入到支持向量机进行训练，使支持向量机能正确识别出字幕块与非字幕块。

3.对待检测图像采用金字塔模型处理并应用于支持向量机识别

采用金字塔模型处理视频字幕，即对原始图像分辨率逐次进行缩小。每缩小一次，在每一阶都将原图像长宽缩小为原来的然后在每一阶都单独使用训练好的支持向量机进行字幕检测，最后将各阶的检测结果都还原到原始图像分辨率下予以合成，生成最终的检测结果，以备后期处理。

视频字幕的大小经常发生变化，当字体极大时，11×11的图像子块就有可能完全落在一个笔划内而呈现同一灰度值，这对判定该子块是否为字幕块造成了不利影响，采用金字塔模型处理视频字幕，可以避免字体大小的干扰。

4.图像后期处理

对每个图像子块作出是否为字幕块的分类判断后，根据字形学知识，对图像进行后期处理，以清除噪声并得到合并后的字幕区域。

在提取像素特征时，本发明不仅仅局限于将图像分割为11×11的子块，也可以根据需要扩展为N×N，N为小于图像宽度及高度的整数。

本发明对视频字幕的定位和提取的方法不同于传统的只考虑字幕本身固有特征的方法，而是强调采用一种学习机制去处理这些视频字幕的多变因素，即构造一个学习机，使之实现对字幕与非字幕进行分类，然后再经过后期图像处理得到字幕的准确位置。此方法经大量实验证明可靠有效，可检测到各种大小和类型的字幕，具有很强的鲁棒性。

附图说明

图1为本发明实施例中采用的待检测视频图像。

图2为像素“米”字型模型。

图3为视频图像的金字塔模型。

图4为视频图像字幕检测序列图。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图和实施例作进一步的详细描述。

1.提取待检测视频图像像素特征。图1为一幅原始视频图像，本发明的目的即是为了定位和提取其中下方的字幕。考虑到图像的像素点之间不是独立的，相互之间存在相关性，可以提取一些特定像素点的灰度值，而不是整幅图像的灰度值以作为一幅图像的像素特征，从而减少计算量：即先将每幅图像分割为11×11的子块，对每一图像子块，标注为字幕块(+1)或者非字幕块(-1)；然后使用“米”字形模型(如图2所示，其为11×11像素的示意图，其中黑框处构成一个“米”字)提取每个图像子块的黑色部分的像素的灰度值，从而将一幅图像子块的特征维数由11×11缩减到4×11-3，将4×11-3个像素灰度值作为选定和训练好的支持向量机的输入。

2.构造并训练支持向量机。利用支持向量机工具LIBSVM，同时选择径向基函数

K (x . y) = \exp {- \frac{{| x - y |}^{2}}{σ^{2}}}

作为支持向量机的核函数，从而构造出支持向量机分类学习机。然后对支持向量机进行训练，其方法为选择1000个多种多样的11×11像素大小的视频图像块，其既有字幕块，也有非字幕块。然后对每个图像子块，按“米”字型模型提取其中的4×11-3个像素的值，并对其像素值进行归一化，然后按照字幕块定义为+1，非字幕块定义为-1的原则输入到支持向量机中进行训练，使其能正确识别出字幕块与非字幕块。由此得到经过训练的支持向量机学习机，以用于在下一步中对待检测的图像子块进行判别是否为字幕块。

3.对待检测图像采用金字塔模型处理并应用于支持向量机识别。视频字幕的大小经常是不确定的，对于字体极大的情况，11×11的图像子块相对字体来说就很小，其有可能完全落在同一个笔划内而使4×11-3个像素呈现同一灰度值，这对该图像子块的判定造成了不利影响。因此，本发明采用金字塔模型处理大小经常发生变化的视频字幕。金字塔模型如图3所示，即是对原始图像分辨率逐次进行缩小(实施例中缩小3次)，每缩小一次，在每一阶都将图像长宽缩小为原来的

然后在每一阶都单独使用训练好的支持向量机进行字幕块的判别，并得到检测结果。最后将各阶的检测结果都还原到原始图像分辨率下予以合成，生成最终的检测结果，以备后期处理。这样就克服了图像字幕尺寸大小对学习机检测结果的影响。

4.图像后期处理。对每个图像子块作出分类判断后，为了清除噪声和合并字幕区域，还必须进行后期处理。

由于背景图像的复杂性，因此部分背景图像也体现出字幕块特性而被错判为字幕块。字形学知识表明：字幕一般沿水平方向聚集在一起。应用这一性质，可以消除绝大多数孤立噪声块。具体算法流程如下：

(1)对每一图像子块作出是否为字幕块的判定之后，得到所有候选字幕块的集合；

(2)构造每个候选字幕块(i，j)(i，j＝1，2...n)的扩充块(i，j)^*。其中(i，j)^*包括(i，j)及和它左右相邻的两个子块(i-1，j)和(i+1，j)。如果某个候选字幕块(i，j)的扩充块(i，j)^*与任何一个其它候选字幕块或其扩充块是连通的，则判断(i，j)为字幕块，否则为噪音块，从候选字幕块集合中去除(i，j)；

(3)去除噪声块后，就已经从水平方向上将所有真正字暮块连接起来，最后要做的工作就是对每一个联通字幕块集合，确定出其包围矩形，位于包围矩形中的区域就是最后确定的字幕区域；

经过上述的步骤，即可得到视频图像中的字幕区域，进一步应用OCR(光学字符识别)技术，就可以实现字幕识别。视频字幕自动定位可以避免对整幅图像进行OCR识别，因而提高了识别效率。

图4为检测视频字幕区域及处理过程。图4中，a为采用支持向量机进行检测的结果，识别区域都填充为白色，可以发现，大部分字幕块能正确识别，也有部分图像块被误识别为字幕块；b为检测到的字幕块进行了后期处理，去除了噪声块及根据字幕学知识，将字幕块互联，形成完整的字幕区；c则为最终检测得到的区域与其上字幕的叠加，所有字幕块均包含在该区域中。该区域被准确定位，可以进一步OCR处理。

Claims

1、一种利用支持向量机进行视频字幕定位和提取的方法，其特征在于包括如下具体步骤：

1)提取待检测视频图像像素特征：首先将每幅视频图像分割为11×11的子块，对每一图像子块，标注为字幕块(+1)或者非字幕块(-1)两类；然后使用“米”字形模型提取像素的灰度值作为支持向量机的输入；

2)构造并训练支持向量机：利用支持向量机工具LIBSVM，同时选择径向基函数作为支持向量机的核函数，从而构造出支持向量机分类学习机。然后对支持向量机进行训练，其方法为选择1000个11×11像素的字幕子块，对每一子块提取4×11-3像素值，并按其是否为字幕输入到支持向量机进行训练，使其能正确识别出字幕块与非字幕块；

3)对待检测图像采用金字塔模型处理并应用于支持向量机识别：对原始图像采用金字塔模型，将其分辨率逐次进行缩小，每缩小一次，在每一阶都将原图像长宽缩小为原来的

然后在每一阶都单独使用训练好的支持向量机进行字幕检测，最后将各阶的检测结果都还原到原始图像分辨率下予以合成，生成最终的检测结果，以备后期处理；

4)图像后期处理：对每个图像子块作出是否为字幕块的分类判断后，根据字形学知识，对图像进行后期处理，以清除噪声并得到合并后的字幕区域。