CN1585458A - 利用支持向量机进行视频字幕定位和提取的方法 - Google Patents

利用支持向量机进行视频字幕定位和提取的方法 Download PDF

Info

Publication number
CN1585458A
CN1585458A CN 200410024680 CN200410024680A CN1585458A CN 1585458 A CN1585458 A CN 1585458A CN 200410024680 CN200410024680 CN 200410024680 CN 200410024680 A CN200410024680 A CN 200410024680A CN 1585458 A CN1585458 A CN 1585458A
Authority
CN
China
Prior art keywords
captions
svms
image
piece
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410024680
Other languages
English (en)
Inventor
程治国
刘允才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN 200410024680 priority Critical patent/CN1585458A/zh
Publication of CN1585458A publication Critical patent/CN1585458A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Systems (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

一种利用支持向量机进行视频字幕定位和提取的方法,首先提取待检测视频图像像素特征,将其分成11×11像素的图像子块,并用“米”字形模型提取各个图像子块的像素灰度值作为支持向量机的输入,然后利用支持向量机工具LIBSVM构造支持向量机分类学习机,应用大量样本对支持向量机进行训练,使其能正确识别字幕块与非字幕块,再采用金字塔模型对原始图像分辨率逐次进行缩小,并在每一阶都单独使用支持向量机进行字幕检测,将各阶检测结果都还原到原始图像分辨率下合成,生成最终检测结果,最后对检测到的图像子块进行后期处理,清除噪声得到合并后的字幕区域。本发明采用学习机制处理视频字幕的多变因素,检测效率很高并有很强的鲁棒性。

Description

利用支持向量机进行视频字幕定位和提取的方法
技术领域
本发明涉及一种利用支持向量机进行视频字幕定位和提取的方法,用于视频图像的处理和计算机视觉方面。属于计算机信息图像处理技术领域。
背景技术
视频流所包含的字幕表达了丰富语义,可以在原始视频流的分析理解过程中发挥有效作用。例如,视频新闻报道中字幕一般都概括叙述了所报道新闻发生的时间、地点、人物和主要事件等重要信息。视频字幕为相应的视频流提供了高度概括的语义,可以在自动定位、提取和识别后对相应视频流进行分割标注,从而实现基于语义视频流的浏览和检索。视频流字幕可以分为两类,一类是通过后期制作合成到视频流中的人工字幕,另一类是录制过程环境和物体本身所携带的文字内容。无论哪种字幕,首先要对视频流字幕出现的区域进行定位,以便自动准确地将融入背景的字幕提取识别出来进行视频语义标注。现有的视频字幕定位提取方法可以分为两类:基于模块的方法和基于纹理(Zhong Yu,ZhangHongjiang,Jain A nil K.Automatic caption localization in compressedvideo[J].Pattern Analysis and Machine Intelligence,2000,22(4):385-392)的方法。这两种方法都是利用了视频字幕的三个属性;(1)字幕字符大小是在一定范围内;(2)字幕按水平方向排列聚集在一起;(3)字幕和背景存在很大的色彩反差。
然而,仅仅利用字幕本身属性来对视频流字幕进行定位面临很多困难:(1)视频流字幕的大小尺寸经常发生变化,在同一场景视频图像序列中,大尺寸和小尺寸字幕会同时出现;(2)视频流字幕字体呈现多样性,不同语种的字符形式不一样,即使对同一语种来说,也存在形状多样的字符;(3)视频字幕的颜色可以是各种各样的,视频背景颜色也可以多样,而字幕又是嵌入视频背景中的,因此字幕色彩信息是不可预测和复杂的;(4)在有些情况下,字幕进行左右平移或上下垂直移动,在定位提取时要考虑字幕的运动状态。
发明内容
本发明的目的在于针对现有技术的不足,提出一种利用支持向量机进行视频字幕定位和提取的方法,采用支持向量机的学习机制去处理字幕的多变因素,避免只考虑字幕单一固有属性的局限性,从而提高检测成功率。
为实现这样的目的,本发明的技术方案为:首先,提取待检测视频图像像素特征,将其分成11×11像素的图像子块,并使用“米”字形模型提取各个图像子块的像素灰度值作为支持向量机的输入;其次,利用支持向量机工具LIBSVM构造支持向量机分类学习机,应用大量样本对支持向量机进行训练,使其能正确识别字幕块与非字幕块;第三,对于待检测图像,采用金字塔模型对原始图像分辨率逐次进行三次缩小,在每一阶都将原始图像长宽缩小为原来的
Figure A20041002468000041
并在每一阶都单独使用支持向量机进行字幕检测,最后将各阶的检测结果都还原到原始图像分辨率下合成,生成最终检测结果;第四,对检测到的字幕图像子块进行后期处理,清除噪声和合并字幕区域,得到最终检测到的字幕区域。
本发明的字幕定位和提取方法主要包括以下几个步骤:
1.提取待检测视频图像像素特征
根据像素相互之间存在的相关性,提取一些特定像素点的灰度值作为整幅图像的像素特征,以减少计算量:将每幅图像分割为11×11的子块,对每一个图像子块,使用“米”字形模型提取像素的灰度值作为像素特征值,从而将一幅图像子块的特征维数由11×11缩减到4×11-3,将4×11-3个像素值作为支持向量机的输入。
2.构造并训练支持向量机
利用支持向量机工具LIBSVM,同时选择径向基函数作为支持向量机的核函数,从而构造出支持向量机分类学习机。然后对支持向量机进行训练,其方法为选择1000个11×11像素的视频图像块(既有字幕块,也有非字幕块),提取每个图像块的4×11-3个像素值,将其输入到支持向量机进行训练,使支持向量机能正确识别出字幕块与非字幕块。
3.对待检测图像采用金字塔模型处理并应用于支持向量机识别
采用金字塔模型处理视频字幕,即对原始图像分辨率逐次进行缩小。每缩小一次,在每一阶都将原图像长宽缩小为原来的 然后在每一阶都单独使用训练好的支持向量机进行字幕检测,最后将各阶的检测结果都还原到原始图像分辨率下予以合成,生成最终的检测结果,以备后期处理。
视频字幕的大小经常发生变化,当字体极大时,11×11的图像子块就有可能完全落在一个笔划内而呈现同一灰度值,这对判定该子块是否为字幕块造成了不利影响,采用金字塔模型处理视频字幕,可以避免字体大小的干扰。
4.图像后期处理
对每个图像子块作出是否为字幕块的分类判断后,根据字形学知识,对图像进行后期处理,以清除噪声并得到合并后的字幕区域。
在提取像素特征时,本发明不仅仅局限于将图像分割为11×11的子块,也可以根据需要扩展为N×N,N为小于图像宽度及高度的整数。
本发明对视频字幕的定位和提取的方法不同于传统的只考虑字幕本身固有特征的方法,而是强调采用一种学习机制去处理这些视频字幕的多变因素,即构造一个学习机,使之实现对字幕与非字幕进行分类,然后再经过后期图像处理得到字幕的准确位置。此方法经大量实验证明可靠有效,可检测到各种大小和类型的字幕,具有很强的鲁棒性。
附图说明
图1为本发明实施例中采用的待检测视频图像。
图2为像素“米”字型模型。
图3为视频图像的金字塔模型。
图4为视频图像字幕检测序列图。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图和实施例作进一步的详细描述。
1.提取待检测视频图像像素特征。图1为一幅原始视频图像,本发明的目的即是为了定位和提取其中下方的字幕。考虑到图像的像素点之间不是独立的,相互之间存在相关性,可以提取一些特定像素点的灰度值,而不是整幅图像的灰度值以作为一幅图像的像素特征,从而减少计算量:即先将每幅图像分割为11×11的子块,对每一图像子块,标注为字幕块(+1)或者非字幕块(-1);然后使用“米”字形模型(如图2所示,其为11×11像素的示意图,其中黑框处构成一个“米”字)提取每个图像子块的黑色部分的像素的灰度值,从而将一幅图像子块的特征维数由11×11缩减到4×11-3,将4×11-3个像素灰度值作为选定和训练好的支持向量机的输入。
2.构造并训练支持向量机。利用支持向量机工具LIBSVM,同时选择径向基函数 K ( x . y ) = exp { - | x - y | 2 σ 2 } 作为支持向量机的核函数,从而构造出支持向量机分类学习机。然后对支持向量机进行训练,其方法为选择1000个多种多样的11×11像素大小的视频图像块,其既有字幕块,也有非字幕块。然后对每个图像子块,按“米”字型模型提取其中的4×11-3个像素的值,并对其像素值进行归一化,然后按照字幕块定义为+1,非字幕块定义为-1的原则输入到支持向量机中进行训练,使其能正确识别出字幕块与非字幕块。由此得到经过训练的支持向量机学习机,以用于在下一步中对待检测的图像子块进行判别是否为字幕块。
3.对待检测图像采用金字塔模型处理并应用于支持向量机识别。视频字幕的大小经常是不确定的,对于字体极大的情况,11×11的图像子块相对字体来说就很小,其有可能完全落在同一个笔划内而使4×11-3个像素呈现同一灰度值,这对该图像子块的判定造成了不利影响。因此,本发明采用金字塔模型处理大小经常发生变化的视频字幕。金字塔模型如图3所示,即是对原始图像分辨率逐次进行缩小(实施例中缩小3次),每缩小一次,在每一阶都将图像长宽缩小为原来的
Figure A20041002468000062
然后在每一阶都单独使用训练好的支持向量机进行字幕块的判别,并得到检测结果。最后将各阶的检测结果都还原到原始图像分辨率下予以合成,生成最终的检测结果,以备后期处理。这样就克服了图像字幕尺寸大小对学习机检测结果的影响。
4.图像后期处理。对每个图像子块作出分类判断后,为了清除噪声和合并字幕区域,还必须进行后期处理。
由于背景图像的复杂性,因此部分背景图像也体现出字幕块特性而被错判为字幕块。字形学知识表明:字幕一般沿水平方向聚集在一起。应用这一性质,可以消除绝大多数孤立噪声块。具体算法流程如下:
(1)对每一图像子块作出是否为字幕块的判定之后,得到所有候选字幕块的集合;
(2)构造每个候选字幕块(i,j)(i,j=1,2...n)的扩充块(i,j)*。其中(i,j)*包括(i,j)及和它左右相邻的两个子块(i-1,j)和(i+1,j)。如果某个候选字幕块(i,j)的扩充块(i,j)*与任何一个其它候选字幕块或其扩充块是连通的,则判断(i,j)为字幕块,否则为噪音块,从候选字幕块集合中去除(i,j);
(3)去除噪声块后,就已经从水平方向上将所有真正字暮块连接起来,最后要做的工作就是对每一个联通字幕块集合,确定出其包围矩形,位于包围矩形中的区域就是最后确定的字幕区域;
经过上述的步骤,即可得到视频图像中的字幕区域,进一步应用OCR(光学字符识别)技术,就可以实现字幕识别。视频字幕自动定位可以避免对整幅图像进行OCR识别,因而提高了识别效率。
图4为检测视频字幕区域及处理过程。图4中,a为采用支持向量机进行检测的结果,识别区域都填充为白色,可以发现,大部分字幕块能正确识别,也有部分图像块被误识别为字幕块;b为检测到的字幕块进行了后期处理,去除了噪声块及根据字幕学知识,将字幕块互联,形成完整的字幕区;c则为最终检测得到的区域与其上字幕的叠加,所有字幕块均包含在该区域中。该区域被准确定位,可以进一步OCR处理。

Claims (1)

1、一种利用支持向量机进行视频字幕定位和提取的方法,其特征在于包括如下具体步骤:
1)提取待检测视频图像像素特征:首先将每幅视频图像分割为11×11的子块,对每一图像子块,标注为字幕块(+1)或者非字幕块(-1)两类;然后使用“米”字形模型提取像素的灰度值作为支持向量机的输入;
2)构造并训练支持向量机:利用支持向量机工具LIBSVM,同时选择径向基函数作为支持向量机的核函数,从而构造出支持向量机分类学习机。然后对支持向量机进行训练,其方法为选择1000个11×11像素的字幕子块,对每一子块提取4×11-3像素值,并按其是否为字幕输入到支持向量机进行训练,使其能正确识别出字幕块与非字幕块;
3)对待检测图像采用金字塔模型处理并应用于支持向量机识别:对原始图像采用金字塔模型,将其分辨率逐次进行缩小,每缩小一次,在每一阶都将原图像长宽缩小为原来的
Figure A2004100246800002C1
然后在每一阶都单独使用训练好的支持向量机进行字幕检测,最后将各阶的检测结果都还原到原始图像分辨率下予以合成,生成最终的检测结果,以备后期处理;
4)图像后期处理:对每个图像子块作出是否为字幕块的分类判断后,根据字形学知识,对图像进行后期处理,以清除噪声并得到合并后的字幕区域。
CN 200410024680 2004-05-27 2004-05-27 利用支持向量机进行视频字幕定位和提取的方法 Pending CN1585458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410024680 CN1585458A (zh) 2004-05-27 2004-05-27 利用支持向量机进行视频字幕定位和提取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410024680 CN1585458A (zh) 2004-05-27 2004-05-27 利用支持向量机进行视频字幕定位和提取的方法

Publications (1)

Publication Number Publication Date
CN1585458A true CN1585458A (zh) 2005-02-23

Family

ID=34600934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410024680 Pending CN1585458A (zh) 2004-05-27 2004-05-27 利用支持向量机进行视频字幕定位和提取的方法

Country Status (1)

Country Link
CN (1) CN1585458A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100360901C (zh) * 2005-09-19 2008-01-09 西安理工大学 基于模糊核函数支持向量机的空气预热器热点检测方法
CN100461217C (zh) * 2007-03-29 2009-02-11 杭州电子科技大学 一种复杂性测度的图像纹理分割方法
CN100562074C (zh) * 2007-07-10 2009-11-18 北京大学 一种视频字幕提取的方法
CN100565559C (zh) * 2007-03-14 2009-12-02 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
CN101102419B (zh) * 2007-07-10 2010-06-09 北京大学 一种定位视频字幕区域的方法
CN101394489B (zh) * 2008-08-28 2010-06-23 新奥特(北京)视频技术有限公司 一种基于模板和参数步长的字幕渲染效率瓶颈自动定位的方法
CN101453575B (zh) * 2007-12-05 2010-07-21 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN102202018A (zh) * 2011-06-16 2011-09-28 北京工业大学 一种基于支持向量机的信道估计方法
CN102957963A (zh) * 2011-08-17 2013-03-06 浪潮乐金数字移动通信有限公司 一种信息识别方法、装置及移动终端
CN106530232A (zh) * 2016-11-10 2017-03-22 河北工业大学 一种图像缩放方法
CN107636659A (zh) * 2015-05-11 2018-01-26 西门子保健有限责任公司 使用深度神经网络检测医学图像中的地标的方法和系统
CN108347643A (zh) * 2018-03-05 2018-07-31 成都索贝数码科技股份有限公司 一种基于深度学习的字幕叠加截图的实现方法
CN109271988A (zh) * 2018-08-30 2019-01-25 中国传媒大学 一种基于图像分割及动态阈值的字幕提取方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100360901C (zh) * 2005-09-19 2008-01-09 西安理工大学 基于模糊核函数支持向量机的空气预热器热点检测方法
CN100565559C (zh) * 2007-03-14 2009-12-02 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
CN100461217C (zh) * 2007-03-29 2009-02-11 杭州电子科技大学 一种复杂性测度的图像纹理分割方法
CN100562074C (zh) * 2007-07-10 2009-11-18 北京大学 一种视频字幕提取的方法
CN101102419B (zh) * 2007-07-10 2010-06-09 北京大学 一种定位视频字幕区域的方法
CN101453575B (zh) * 2007-12-05 2010-07-21 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN101394489B (zh) * 2008-08-28 2010-06-23 新奥特(北京)视频技术有限公司 一种基于模板和参数步长的字幕渲染效率瓶颈自动定位的方法
CN102202018B (zh) * 2011-06-16 2013-10-23 北京工业大学 一种基于支持向量机的信道估计方法
CN102202018A (zh) * 2011-06-16 2011-09-28 北京工业大学 一种基于支持向量机的信道估计方法
CN102957963A (zh) * 2011-08-17 2013-03-06 浪潮乐金数字移动通信有限公司 一种信息识别方法、装置及移动终端
CN102957963B (zh) * 2011-08-17 2017-11-07 浪潮乐金数字移动通信有限公司 一种信息识别方法、装置及移动终端
CN107636659A (zh) * 2015-05-11 2018-01-26 西门子保健有限责任公司 使用深度神经网络检测医学图像中的地标的方法和系统
CN106530232A (zh) * 2016-11-10 2017-03-22 河北工业大学 一种图像缩放方法
CN106530232B (zh) * 2016-11-10 2019-09-06 河北工业大学 一种图像缩放方法
CN108347643A (zh) * 2018-03-05 2018-07-31 成都索贝数码科技股份有限公司 一种基于深度学习的字幕叠加截图的实现方法
CN108347643B (zh) * 2018-03-05 2020-09-15 成都索贝数码科技股份有限公司 一种基于深度学习的字幕叠加截图的实现方法
CN109271988A (zh) * 2018-08-30 2019-01-25 中国传媒大学 一种基于图像分割及动态阈值的字幕提取方法

Similar Documents

Publication Publication Date Title
Liu et al. Fots: Fast oriented text spotting with a unified network
CN105046196B (zh) 基于级联卷积神经网络的前车车辆信息结构化输出方法
CN111415329B (zh) 一种基于深度学习的工件表面缺陷检测方法
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
CN112434695B (zh) 一种基于深度学习的上拉杆故障检测方法
CN103761531B (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN101453575B (zh) 一种视频字幕信息提取方法
CN106934386B (zh) 一种基于自启发式策略的自然场景文字检测方法及系统
CN1585458A (zh) 利用支持向量机进行视频字幕定位和提取的方法
Kulkarni et al. Automatic number plate recognition (anpr) system for indian conditions
CN112215819A (zh) 基于深度特征融合的机场道面裂缝检测方法
CN113962951B (zh) 检测分割模型的训练方法及装置、目标检测方法及装置
Zhao et al. Research on detection method for the leakage of underwater pipeline by YOLOv3
CN111368703A (zh) 一种基于fpn的台标检测与识别的方法
CN113657305A (zh) 一种基于视频的黑烟车辆及林格曼黑度等级智能检测方法
CN111414861A (zh) 基于深度学习实现行人及非机动车辆检测处理的方法
CN113361467A (zh) 基于领域适应的车牌识别方法
Sheng et al. Real-time anti-interference location of vehicle license plates using high-definition video
CN116259032A (zh) 基于改进YOLOv5的道路交通标志检测与识别算法
CN116704526B (zh) 工尺谱扫描机器人及其方法
Gui et al. A fast caption detection method for low quality video images
CN105913008A (zh) 基于假设检验的人群异常事件检测方法
CN114596242A (zh) 缺陷检测方法、装置、电子设备及计算机可读存储介质
Darma et al. Segmentation of balinese script on lontar manuscripts using projection profile
CN113011315B (zh) 一种基于超快速结构感知深度网络的地铁轨道识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication