CN102663382B - 基于子网格特征自适应加权的视频图像文字识别方法 - Google Patents

基于子网格特征自适应加权的视频图像文字识别方法 Download PDF

Info

Publication number
CN102663382B
CN102663382B CN201210124376.4A CN201210124376A CN102663382B CN 102663382 B CN102663382 B CN 102663382B CN 201210124376 A CN201210124376 A CN 201210124376A CN 102663382 B CN102663382 B CN 102663382B
Authority
CN
China
Prior art keywords
grid
character
sub
feature
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210124376.4A
Other languages
English (en)
Other versions
CN102663382A (zh
Inventor
尚凤军
胡晓冬
王斌辅
臧李立
苏畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bolaa Network Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201210124376.4A priority Critical patent/CN102663382B/zh
Publication of CN102663382A publication Critical patent/CN102663382A/zh
Application granted granted Critical
Publication of CN102663382B publication Critical patent/CN102663382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

一种基于子网格特征自适应加权的视频图像文字识别方法。针对现有视频图像文字识别中存在的技术问题,本发明给出了一种给合边缘特征的图像文字二值化方法;获取到文字的二值图像后,采用弹性网格方法对图像文字进行区域网格划分,在计算其弹性网格特征之前,提出相邻网格的笔画结构相关性的判定。通过结合以上方法,使字符特征提取在稳定性和健壮性方面得以提高,从而有利于视频图像文字的识别率。

Description

基于子网格特征自适应加权的视频图像文字识别方法
技术领域
本发明涉及视频图像文字识别技术,具体是一种基于子网格特征自适应加权的视频图像文字识别方法。
背景技术
近年来,随着多媒体技术和计算机网络的飞速发展,数字视频的容量正以惊人的速度增长。这样,从数字视频中抓取到的图像中包含有重要的文字信息,在一定程度上对图像主要内容进行简练描述和说明,这在基于内容的视频数据库检索(黄祥林,沈兰荪.基于内容的图像检索技术研究[J].电子学报.2002,30(7):1065-1071.)中起到重要的作用。对于嵌于图像中的文本信息进行检测与识别,使用户能更加快捷和准确地获取蕴于图像中的丰富的信息。所以,如何从含有背景的图像和视频图像中快速而准确地定位和提取文本信息,成为现今国际上热门的研究课题。
视频图像色彩变化具有复杂多变性,针对这类具有复杂背景图像文字的定位算法,目前主要可以分为基于连通域和基于纹理的两种类型方法。基于连通域(田破荒,彭天强,李弼程.基于文字穿越线和笔画连通性的视频文字提取方法[J].电子学报,2009,37(1):72-78;Michele Merler,JohnR.Kender.Semantic Keyword Extraction Via Adaptive TextBinarization of Unstructured UnsourcedVideo.Image Processing.2009,11.p261-264.)的方法是首先利用颜色或灰度等属性从图像中提取出连通域,然后根据几何特征来对它们进行鉴别,最后将通过鉴别的连通域合并成文字定位的结果。基于纹理(Zhong Y,Zhang H,JainA K.Automatic caption localization in compressed videos[J].IEEE Transactions onPattern Analysis and Machine Intelligence.2000,22(4):P385-392.)的方法是通过考察像素的邻域,应用纹理分析的方法确定出文字区域。
特征选择在模式识别领域中有十分广泛的应用,提取方法也是影响识别率的关键因素。上个世纪60年代最初由Casey和Nagy提出的模板匹配方法识别出了1000个印刷体汉字,我国是从70年代末期开始进行汉字识别方面的研究,经过这几十年的努力,已经有成熟的光学字符识别(OCR,Optical Character Recognition)系统在实现生活中得到应用。然而,现有的OCR系统往往是针对较为简单的文档形式的图像文字,对于视频图像等较为复杂的图像涉及的并不多。
目前,对于中文字符比较常用的表示方法有结构特征和统计特征。
结构模式识别是以字符的组成结构为出发点。从字符的结构上来看,汉字是由横竖撇捺四个笔划和偏旁部首共同组成的。结构模式识别就是提取出其内部所具备的结构特征,优点是能够适应字符在字体形式上的变化,对区分相似字的能力强,缺点是对特征的描述较为复杂,使得特征匹配方法有较高的复杂度。
统计模式识别是以字符的像素点阵作为一个整体,在此之上经过大量的统计获取到所表示的特征。统计特征的优点是具备较强的抗干扰性,特征匹配与分类的方法简单,易于实现。缺点是在于细分能力较弱,对于相似字的特征区分能力差一些。
发明内容
针对现有视频图像文字识别中存在的上述技术问题,本发明提出一种基于子网格特征自适应加权的视频图像文字识别方法,包括如下步骤:获取文字的二值图像,采用按笔画密度进行的弹性网格方法对图像文字进行区域网格划分,根据相邻网格的笔画结构相关性进行判定,计算弹性网格特征。具体包括:
一种基于子网格特征自适应加权的视频图像文字识别方法,在指定图像中确定文本区域,可采用边缘的粗文字区域定位与精确文字区域定位;采用文字二值化将图像文字从背景中分割出来;对图像文字进行分割,将分割出来的图像文字区域划分成一个以单字字符为主的区域;根据字符水平投影处峰值的变化进行文本行分割,根据相邻文本区域的位置关系确定对相邻文本区域进行合并;从文本区域的右上角开始进行种子搜索,种子点汇聚成种子区域,将被搜索分割开来的种子区域进行组合合并,从而得到构成单个独立的字符区域;在字符区域内,对图像文字在水平和垂直方向上进行笔划密度投影H(i)和V(j),将大小为M×N的图像文字划分出P×Q个子网格;依据邻域子网格共同的偏移方向判断中心子网格是否受到其邻域的影响,采用模糊隶属度函数确定邻域子网格的贡献率。
本发明通过以上方法,使字符特征提取在稳定性和健壮性方面得以提高,从而有利于视频图像文字的识别率。本发明包括视频图像的文字提取和识别。视频图像文字提取包括图像中文字区域的检测与定位,对文字区域进行二值化过滤背景图像,以及图像文字分割。视频图像文字识别包括图像文字的动态网格划分,基于笔画相关性网格特征提取。能动态定位文本位置,通过动态网格划分,方便提取文字特征,提高了文字的识别率,本方法操作简单,容易实现。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1本发明识别方法的流程图;
图2本发明横笔画子网格相关性示意图;
图3本发明子网格笔画相关性示意图;
图4本发明邻域子网格的笔画贡献示意图。
具体实施方式
以下针对附图对本发明的实时方式进行具体描述。本发明设计一种基于子网格特征自适应加权的视频图像文字识别方法。该方法包括如下步骤。
采用Sobel算子提取出图像的边缘特征信息,在边缘特征图上进行文本检测,清除复杂图像中背景信息的边缘,将检测到的边缘信息依次提取出区域位置,再把位置信息逐步合并,从而构成完整的文本区域,通知字符切分获取到独立单个字符的区域信息。然后在对各个字符区域上提取到基于笔画相关性的特征,将得到的特征与字库包含的特征进行比较。使用多级分类的方式,逐级过滤筛选,最后把最佳匹配值对应的字符作为识别结果。
1、视频图像文字定位
在对图像中的文字进行识别之前,首先执行图像文字区域提取,也就是在指定的图像中,有效的确定出文本区域,并将字符图像与背景图像分离开,为字符特征提取做准备。一般说来,在该阶段要进行的操作主要有两部分组成:文本定位和字符切分。
(1)文字区域定位
为了能够准确提取出视频图像中的文字,首先要区分识别图像中文字部分与所对应的背景部分,准确找出文字部分,文字区域定位可以通过执行以下方法来完成定位工作:可采用边缘的粗文字区域定位与精确文字区域定位。
目前,彩色图像占据几乎所有影视场景,在这种情况下,首先对图像进行灰度化,并进行高斯平滑降噪处理,获得灰度图像。粗文字区域定位可基于边缘提取,如可采用文献(李闯,丁晓青,吴佑寿.基于边缘的字符串定位算法[J].清华大学学报(自然科学版).2005,45(10):1335-1338.;卢海彦,程义民,何兵兵,张玲.基于自适应阈值的视频文本检测方法[J].计算机仿真.2008,25(9):204-207,214.)中提到的方法。
提取出边缘图,依据其边缘投影直方图确定文字区域。该方法的具体步骤为:
Step1,使用Sobel算子提取出灰度图的边缘信息。Sobel算子为两组3×3的矩阵,分别为横向及纵向,将之与图像作平面卷积,即可分别得出横向及纵向的边缘梯度,然后通过取模计算求出其近似边缘强度值;
Step2,去除灰度强度小于全局阈值的边缘曲线。全局阈值的计算方法如下:
Th g = Σ i = 1 M Σ j = 1 N f ( i , j ) M × N - - - ( 1 )
其中,f(i,j)表示像素点的灰度值,M和N表示图片的宽度和高度。
Step3,统计出像素点周围窗口大小为n×n的区域内水平与垂直边缘数量,以及边缘强度的平均值和边缘强度最大值。依据检测字体的大小,n的取值最优可为13。在每个窗口内,动态的计算出一个局部阈值Ti。局部阈值调用公式计算得到:
T i = ( 1 - edgeNum n × n ) × ( max Edge - avgEdge ) - - - ( 2 )
其中,edgeNum表示在窗口区域中的边缘数量;area表示当前窗口的区域面积,此处为n×n;maxEdge表示在窗口区域中的最大边缘强度值;avgEdge表示在窗口区域中的平均边缘强度值。
Step4,计算水平和垂直方向的边缘点数量,一旦该值大于30时,则删除该边缘特征。一般图像中背景事物比较规则的几何图形,在衍生图中会留下出水平或垂直方向的边缘,通过上述方法删除相关的边缘;
Step5,统计像素点周围m×m的模板内边缘的加权平均值,如果当前像素小于平均值,则将当前像素点置为平均值,此处取m=5。文字一般都是由多笔画组成,换而言之,就是说文字区域中的某个像素点周围一定会有较多笔画边缘。依据这一特征可采用该方法对边缘进行修复,以减少对文字的损伤;
Step6,对边缘曲线进行水平和垂直投影确定文字区域边界。通过水平投影确定出文字区域的上边界和下边界,通过垂直投影确定出文字区域的左边界和右边界。
通过以上步骤完成图像文字区域的粗定位。在粗定位中,文本基于边缘提取的方法,使用全局阈值,去除了灰度图像中强度较弱的边缘特征;使用局部阈值,去除了灰度图像中在指定窗口中的弱边缘曲线;之后又对边缘特征进行修复,为精确文字区域定位提供依据。为进一步对文字区域进行准确定位,可对经过粗定位的文字进行精确文字区域定位。
精确文字区域定位又称之为文字区域的验证,就是对文字区域进行筛选,删除错误的文字区域。首先对粗定位的文字区域进行二值化处理,保留二值化后文字区域的高度与粗定位平均行高比例在0.5~1.65范围之内的区域,同时从灰度图中以行为单位把极亮点去除。之后,通过每个边缘的外接矩形的合并融合完成文字区域的精确定位。
(2)文字二值化
文字二值化的目的是将图像文字从背景中分割出来。文献(叶芗芸,戚飞虎,吴健渊.文本图像的快速二值化方法[J].红外与毫米波学报.1997,16(5):48-53)对方法进行了描述。文本使用了以边缘点的像素灰度值做参考,通过计算与周围像素的加权平均值,完成二值化操作。这里的二值化阈值是通过利用Sobel边缘及其附近像素点提取出的。该算法描述如下:
Step1,首先获取图像中的Sobel边缘,然后设定一个阈值将Sobel边缘点进行二值化,边缘强度较弱的点将会去除,较强的点则被保留;
Step2,对于每个边缘曲线,以它的外接矩形作为基准线,向外延伸w行,取得其灰度图上该矩形内部的像素点的灰度平均值avgEdgeVal。取灰度图上与边缘曲线对应的所有像素的加权灰度平均值avgEdgeVal:
avgEdgeVal = Σf ( i , j ) × ( edgeVal ( i , j ) 255 ) 2 - - - ( 3 )
其中,f(i,j)为灰度图上对应点的值,edgeVal(i,j)为边缘图上对应点的值。
Step3,通过比较avgGrayVal和avgEdgeVal对灰度图像进行二值化,满足的条件:
当avgGrayVal>avgEdgeVal,且f(i,j)≤avgEdge时,该像素点(i,j)为黑点(背景为白点);当avgGrayVal≤avgEdgeVal,且f(i,j)>avgEdge,该像素点为黑点。f(i,j)为像素点(i,j)处的灰度值。
将所有的边缘线条所在区域进行二值化,并把没有线条的区域置为白色,于是得到了整个图像的二值图。
(3)字符分割
图像分割(Rafael C.Gonzalez,Richard E.Woods.Digital Image Processing Second[B].2003)是将图像细分成为构成其子区域的对象,图像分割的程度取决于要解决的问题。本文中,图像文字分割是指将已经处理过的文字区域,划分成一个以单字字符为主的区域。可采用文献(陈艳,孙羽菲,张玉志.基于连通域的汉字切分技术研究[J].计算机应用研究,2005,22(6):246-248)公开的方法。
在经过之前的操作之后,图像中要识别的文字部分得到确定,如何将单个字符从整个文字区域中分离出来。
(4)文本行分割
对现代语言来说,文字的排列一般采用横排的形式出现,而行与行之间会留有少量的空白间隙,于是可以使用这条间隙作为文本行分割的依据。
在经过Sobel二值化处理之后,设文字区域内某个像素值为f(i,j)。当f(i,j)=1时,表示该像素点为文字部分,当f(i,j)=0时,表示该像素点为背景部分。对视频图像中的文本区域进行水平方向投影,于是可得第i行的投影值:
H ( i ) = Σ j = 1 N f ( i , j ) i=1,2,…,M    (4)
其中,M为文本区域的高度,N为文本区域的宽度。通过水平投影计算可知,在字符密集的地方H(i)较大,由于字符高度的差异在其顶部和底部H(i)会偏小。而对于行与行之间的空隙来说,H(i)在理想状态情况下为0,但是H(i)值的变化不会影响字符处的投影值。于是,可以根据字符水平投影处峰值的变化进行文本行分割。
定义:连续投影值不为0处的行高pm,连续投影值为0处的行高gn,以及连续投影值不为0处的平均值pAvg。由上文本区域水平方向投影值的计算可知,空白行的投影值确定为0。满足以下规则:
规则一、水平方向投影值为0的行,则在该行确定没有字符的出现。由于噪声不可避免会产生一定的影响,所以有噪声的行其水平方向投影处的值不会为0。投影处的值不为0的地方也不能完全确定有字符的出现;
规则二、水平方向投影值不为0的行,则在该行可能有字符的出现。在文字区域图像上进行从上向下进行行搜索,当第i行的H(i)不为0值时,则在该行可能有字符,直到发现第j行的H(j)为0值时,则此时的pm应为j-i-1。其中,水平投影值等于0表明文本区域中的当前行没有字符像素,可确定字符没有分布在该行。继续扫描行的水平投影信息,直到H(k)大于0值时,则此时的gn值应为k-j-1。于是得到
Figure BDA0000157305100000062
得到pAvg值后,重新进行一次行扫描,将水平投影值较小的行从字符分布中给删除,消除噪声的干扰。然后就依据投影特征,将投影处较大的连继行划分成文本行,而上下邻接最近的空白投影区域就作为边界。这样就初步完成了对文本行的切分,由于字符稠密不均,当行内字符也较少时,可能会对文本行从中间误切分。
在每个文本区域中都完成了行切分,因此区域内的行可视为上下结构。而图像字符中检测到多个区域,在位置上有左右结构,因此区域间的行则视为左右结构。在对所有文本行检测时,当相邻的两文本行满足如下给出的三个条件时,则被看作完整的文本行被分开成两行,需要将它们合并。
条件一、若上下相邻两行行高g值的和大于合并之后高度unionHeight×σ1时,其中最优σ1=0.7,或左右相邻区域有边界的包含关系时,就对这两区域进行合并;
条件二、对于左右相邻的两行,若它们之间的最小距离小于其最大宽度,并且其高度差小于合并之后的unionHeight×σ2时,其中最优σ2=0.5时,那么就对这两区域进行合并;
条件三、如果有区域存在相交的情况,那么将它们合并。
在上述条件中,unionHeight为文本行合并之后的高度。
(5)行内字符分割
区域生长是将像素或子区域聚合成更大区域的过程,基本的方法是,采用种子代表像素信息,以一组“种子”点开始将与种子性质相似的相邻像素附加到生长区域的每个种子上。
对于种子的定义:
Figure BDA0000157305100000071
首先,从文本区域的右上角开始进行种子搜索。遇到种子之后,则向当前种子的周围继续进行搜索,如果发现有新的种子,那么将这些种子做统一标识。经过探索之后,种子汇聚成一个种子区域,并对各个区域采用唯一的标识符来标记。在中文字符中,以左右结构为例,如“加”被分成左右不相连的两部分,这在种子区域搜索之后则形成两个字符对待。因此,接下来就对种子区域集合进行二次判断,将被搜索分割开来的种子区域进行组合合并,构成字符区域,这样也为后来的识别做好准备。接下来分析一下种子区域合并成字符区域的条件。
种子区域在搜索后,将其扩展成矩形,这样则存在有较多的区域之间有重叠。因为字符与字符之间一般都会有少量间隙存在,这样有重叠出现的区域,都可以看成是一个字符的一部分,所以需要将它们进行合并,合并之后的矩形则根据原有种子区域进行新的边界划定。由于前面已经执行过文本行切分,所以,对于“二”这种上下结构的,上下两个种子区域分离开来的字符,在没有实质性的重叠或相交发生时,可以其左右边界来断定出有重叠或相交产生,所以将这种种子区域同样进行合并处理。
经过以上操作,完成了对种子区域的初次简单合并操作。在常见左右结构字符中,如“阴”符合上面所述的第一种情况,“阝”和“月”两个种子区域的矩形有重叠,因此容易将其执行合并操作。而对于“顺”和“川”这种结构的种子区域有不重叠或相交的情况,针对于这类字符将采用以下算法将其进行修正。
对初次合并之后的所有字符进行宽度估算。对字符进行宽度调用公式估算:
w 0 = min ( curLineHeight , 1 R Σ i = 1 R cur Rt i , Width ) - - - ( 6 ) .
其中,curLineHeight为当前文本本行的行高,curRti.Weight表示第i个字符的宽度,R为字符总数量。
修正字符估计宽度w0。当满足curRti.Width>w0条件时才将其纳入字符宽度的统计当中。此时
w all = 1 R Σ i = 1 R curRt i . Width , (curRti.Width>w0)      (7)
若满足条件的种子区域个数为S,则w0=wall/S。这是为了减少被拆分开的字符和标点符号对字符合并时的影响。
合并剩下左右(左中右)结构字符。将相邻两字符区域进行合并,如果合并后的字符宽度满足以下条件进行合并操作,否则不再进行合并
max(curRti.Width,curRti+1.Width)<unionRti+1.Width<lineHeight×β
其中,curRti.Width表示为字符区域的宽度,unionRti+1.Width表示为合并后字符区域的宽度,lineHeight表示为文本行的高度,β为常数,最优可取值1.3。
2、视频图像文字识别
文字特征提取在整个图像文字的识别过程中起着至关重要的作用,稳定的特征提取能够达到较好的识别结果。这里采用弹性网格划分,依据邻域网格在对应笔画上是否构成影响,使用模糊隶属度计算子网格产生的贡献率,由此可分别计算出各个子网格的方向统计特征。
(1)构建文字弹性网格
在文字识别初期,人们大多是以均匀划分的固定网格作为特征提取的前提。固定网格是强制性的对图像文字域划分依据某个固定值进行划分,划分出的小区域边界处笔画会因为粗细等多种情况发生一定的位移,这在后面的特征提取时会造成比较大的误差。针对以上网格的固定划分,提出了弹性网格技术,是根据图像文字区域中笔画像素的密度分布而自动构建出的多块小区,对于每个区域就称之为网格。整个网格的构建都是由当前所识别的图像文字自身的笔画密度所决定,因此,将这种网格也称作为动态网格。
为了将大小为M×N的图像文字划分出P×Q个子网格,首先对图像文字在水平和垂直方向上进行笔划密度投影H(i)和V(j):
H ( i ) = Σ j = 1 N d ( i , j ) i=1,2,…,M    (8)
V ( j ) = Σ i = 1 M d ( i , j ) j=1,2,…,N    (9)
其中,d(i,j)=f(i,j)表示笔画密度。
于是可以得到弹性网格在水平与垂直方向的坐标:
P s = min { k | s - 1 P Σ i = 1 M H ( i ) ≤ Σ i = 1 k H ( i ) ≤ s P Σ i = 1 M H ( i ) } , 1≤s≤P    (10)
Q t = min { k | t - 1 Q Σ j = 1 N V ( j ) ≤ Σ j = 1 k V ( j ) ≤ t Q Σ j = 1 N V ( j ) } , 1≤t≤Q    (11)
因此,根据水平和垂直方向上的坐标Ps和Qt,可以得到网格mesh(i,j)有如下定义:
mesh(i,j)={(i,j)|Ps≤i≤Ps+1,Qt≤j≤Qt+1}         (12)
其中,(i,j)表示字符区域内的像素点位置。
(2)自适应加权弹性网格特征提取
弹性网格的划分,将完整的字符被分成P×Q个子网格。由于字符都是相连的,这样在划分出的子网格之间就存在一定的联系,如横笔画会分布在水平相连的子网格中,如图2所示。由于这种笔画结构之间的相关性,为了能够合理的获取8邻域子网格带来的影响,这里拟采用邻域子网格的梯度方向特征与质心相结合的方法,依据邻域子网格共同的偏移方向来判断中心子网格是否受到其邻域的影响,而邻域子网格的贡献率采用模糊隶属度函数来确定。
对于子网格Bk的横笔画方向特征,首先考虑其邻域的方向性,而Bk的横笔画只受到水平相邻子网格
Figure BDA0000157305100000095
是影响,邻接的其它子网格将不对其横笔画构成影响。当质心偏移的方向与其子网格的方向性相同时,就说明该子网格对Bi的特征提取有贡献作用,可以依据其贡献率进行获取。
计算子网格内每个像素点的梯度方向θ(i,j)和幅值m(i,j)。分别为:
θ(i,j)=tan-1((f(i,j+1)-f(i,j-1))/(f(i+1,j)-f(i-1,j)))  (13)
m ( i , j ) = ( f ( i + 1 , j ) - f ( i - 1 , f ) ) 2 + ( f ( i , j + 1 ) - f ( i , j - 1 ) ) 2 - - - ( 14 )
窗口内每个像素点梯度的幅值利用高斯函数进行加权,高斯函数表达式可为:
G ( i , j , σ ) = 1 2 π σ 2 exp ( - i 2 + j 2 2 σ 2 ) - - - ( 15 )
其中,σ为弹性网格特征窗口大小的一半,i和j分别是像素点水平和垂直方向的坐标。
在窗口内统计计算8个方向上(即:上、下、左、右、左上、左下、右上、右下)的图像梯度方向直方图。若某个像素点梯度方向落在8个方向的其中一个方向上,则把对应梯度高斯加权幅值相加到该方向上,箭头长度代表这个方向上的梯度加权幅值的累加和。
计算子网格质心位置。
对于子网格Bk,它的质心位置计算公式如下:
i c = Σ ( i , j ) ∈ B k f ( i , j ) × i Σ ( i , j ) ∈ B k f ( i , j ) j c = Σ ( i , j ) ∈ B k f ( i , j ) × j Σ ( i , j ) ∈ B k f ( i , j ) - - - ( 16 )
其中,(ic,jc)为子网格Bk的质心坐标,f(i,j)为该点的像素值。
若子网格Bk质心的位置临近水平左指向子网格
Figure BDA0000157305100000103
为Bk
Figure BDA0000157305100000105
的横笔画特征起到贡献作用;若质心的位置临近水平右指向子网格
Figure BDA0000157305100000106
Figure BDA0000157305100000107
为Bk
Figure BDA0000157305100000108
的横笔画特征同样起到贡献作用,至此,在计算Bk的横笔画方向特征时只需要加入
Figure BDA0000157305100000109
Figure BDA00001573051000001010
的贡献率。对于子网格Bk的竖笔画方向特征,受到垂直上相邻子网格
Figure BDA00001573051000001011
和垂直下相邻子网格的影响,该两方向对子网格Bk有贡献作用;对于子网格Bk的撇笔画方向特征,受到左下相邻子网格
Figure BDA00001573051000001013
和右上相邻子网格
Figure BDA00001573051000001014
的影响,该两方向对子网格Bk有贡献作用;对于子网格Bk的捺笔画方向特征,受到左上相邻子网格和右下相邻子网格
Figure BDA00001573051000001016
的影响,该两方向对子网格Bk有贡献作用。如图3所示。其梯度方向与质心位置的计算与横笔画相似。
在子网格质心位置落在指定中心网格的方向是的附近时,采用模糊隶属度获取其弹性网格特征。这里采用质心位置与网格中心位置的夹角来判断其方向,若夹角的大小与指定方向的角度相差15度以内,则认为在其附近。隶属度函数可设定为:
μ ( a , b ) = exp ( - ( 3 a / ( a + b ) ) 2 2 ) - - - ( 17 )
其中a表示子网格指向指定子网格Bk方向上的梯度幅值,b表示指定子网格Bk指向子网格在对应方向上的梯度幅值。若子网格质心没有落在指定笔画方向,则μ(a,b)=0。
在对Bk的弹性网格特征计算时,横竖撇捺四个方向上的特征分别用fH(i,j)、fV(i,j)、fL(i,j)、fR(i,j)来表示。因为来自其8邻域子网格的影响程度不同,所以为相邻子网格提供不同的隶属度μ(a,b)值。从而结合考虑Bk与其8邻域子网格的笔画贡献情况(如图3所示),可获知子网格Bk的弹性网格特征。
针对单个字符来看,在经过弹性网格划分构成的P×Q个子网格中,连续的笔画往往会划分在相邻的网格里。从字符基本的构成笔画(横竖撇捺)来看,子网格之间可以通过完整的笔画建立联系,这种联系也满足字符的结构组成和分布特征。如对于横笔画会被分割在水平方向相接的网格中,其它笔画也会有类似的分布情况。正是由于笔画结构在网格分布上存在着这种关联性,并且在特征表现上也更为稳定。将网格8邻接网格对中心网格的贡献,从而提高显著特征的表达。
对于Bk的横笔画特征有:
D h k = ∫ ∫ B k f H ( i , j ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 3 k f H ( i , j ) μ r ( a , b ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 7 k f H ( i , j ) μ l ( a , b ) didj ∫ ∫ B k f ( i , j ) didj - - - ( 18 )
其中μr
Figure BDA0000157305100000112
对Bk的横笔画的贡献率,μl
Figure BDA0000157305100000113
对Bk的横笔画的贡献率。
对于Bk的竖笔画特征有:
D V k = ∫ ∫ B k f V ( i , j ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 1 k f V ( i , j ) μ t ( a , b ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 5 k f V ( i , j ) μ b ( a , b ) didj ∫ ∫ B k f ( i , j ) didj - - - ( 19 )
其中μt
Figure BDA0000157305100000115
对Bk的竖笔画的贡献率,μb
Figure BDA0000157305100000116
对Bk的竖笔画的贡献率。
对于Bk的撇笔画特征有:
D L k = ∫ ∫ B k f L ( i , j ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 2 k f L ( i , j ) μ t ( a , b ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 6 k f V ( i , j ) μ lb ( a , b ) didj ∫ ∫ B k f ( i , j ) didj - - - ( 20 )
其中μrt
Figure BDA0000157305100000118
对Bk的撇笔画的贡献率,μlb对Bk的撇笔画的贡献率。
对于Bk的捺笔画特征有:
D R k = ∫ ∫ B k f R ( i , j ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 4 k f R ( i , j ) μ rb ( a , b ) didj ∫ ∫ B k f ( i , j ) didj + ∫ ∫ B 8 k f R ( i , j ) μ lt ( a , b ) didj ∫ ∫ B k f ( i , j ) didj - - - ( 21 )
其中μlt
Figure BDA0000157305100000122
对Bk的捺笔画的贡献率,μlt
Figure BDA0000157305100000123
对Bk的捺笔画的贡献率。
Figure BDA0000157305100000124
分别表示第k个子网格的横竖撇捺特征值。使用欧式距离建立多级相似性度量,将提取到的特征与字库内的特征比较,经过特征的分级匹配之后,最终以相似性最近的字符特征作为匹配结果。
本发明针对现有视频图像文字识别中存在的技术问题,给出了一种给合边缘特征的图像文字二值化方法;获取到文字的二值图像后,采用弹性网格方法对图像文字进行区域网格划分,在计算其弹性网格特征之前,提出相邻网格的笔画结构相关性的判定。通过结合以上方法,使字符特征提取在稳定性和健壮性方面得以提高,从而有利于视频图像文字的识别率。

Claims (8)

1.一种基于子网格特征自适应加权的视频图像文字识别方法,其特征在于,在指定图像中确定图像文字区域;采用文字二值化将图像文字从背景中分割出来;将分割出来的图像文字区域划分成一个以单字字符为主的区域;根据字符水平投影处峰值的变化进行文本行分割,根据相邻文本区域的位置关系确定对相邻文本区域进行合并;采用种子代表像素信息,从文本区域的右上角开始进行种子搜索,种子点汇聚成种子区域,将被搜索分割开的种子区域进行组合合并,构成字符区域;对图像文字在水平和垂直方向上进行笔划密度投影H(k)和V(k),得到弹性网格在水平与垂直方向的坐标,根据水平和垂直方向上的坐标得到网格,将大小为M×N的图像文字划分出P×Q个子网格;计算指定子网格质心位置,在指定子网格质心位置与中心子网格中心位置的夹角与指定方向的角度相差15度以内时,调用公式:
Figure FDA0000367545800000011
计算模糊隶属度函数,采用模糊隶属度函数结合指定子网格与其8邻域子网格的笔画贡献情况获知指定子网格的弹性网格特征,将弹性网格特征与字库内的特征比较,经过特征的分级匹配,相似性最近的字符特征作为匹配结果,其中,a表示任意子网格指向指定子网格方向上的梯度幅值,b表示指定子网格指向任意子网格在对应方向上的梯度幅值。 
2.根据权利要求1所述的方法,其特征在于,采用边缘的粗文字区域定位与精确文字区域定位确定图像文字区域。 
3.根据权利要求1所述的方法,其特征在于,文本行分割具体包括:对视频图像中的文本区域进行水平方向投影,得到第i行的投影值,根据字符水平投影处峰值的变化进行文本行分割,水平方向投影值为0的行,则确定该行没有字符出现;水平方向投影值不为0的行,则该行可能有字符出现。 
4.根据权利要求1所述的方法,其特征在于,当满足以下三个条件之一 时,将相邻文本区域进行合并:条件一、若上下相邻区域的两行行高g值和大于unionHeight×0.7,或左右相邻区域有边界的包含关系;条件二、对于相邻区域,若左右距离小于相邻区域的最大宽度,并且其高度差小于unionHeight×0.5;条件三、如果有区域存在相交,其中,unionHeight为合并之后的高度。 
5.根据权利要求1所述的方法,其特征在于,对种子区域进行组合合并具体为:将搜索后的种子区域扩展成矩形,对两个种子区域的矩形有重叠的进行合并;对种子区域不重叠或不相交的,若相邻两字符区域在合并之后的宽度满足max(curRti.Width,curRti+1.Width)<unionRti+1.Width<lineHeight×β时,则这两区域合并,形成新的字符区域定位,否则,将不再进行合并,其中,curRti.Width表示为字符区域宽度,unionRti+1.Width表示为合并后字符区域宽度,lineHeight表示文本行的高度,β为行常数,i表示字符数。 
6.根据权利要求1所述的方法,其特征在于,计算子网格内每个像素点的梯度方向和幅值,窗口内每个像素点梯度的幅值利用高斯函数进行加权,在窗口内统计计算上、下、左、右、左上、左下、右上、右下8个方向上的图像梯度方向直方图,若某个像素点梯度方向落在8个方向的其中一个方向上,则把对应梯度高斯加权幅值加到所在的方向上。 
7.根据权利要求1所述的方法,其特征在于,计算子网格质心位置,对于子网格Bk,若子网格Bk质心位置临近水平左指向子网格
Figure FDA0000367545800000021
Figure FDA0000367545800000022
为Bk的横笔画特征起贡献作用,若质心位置临近水平右指向子网格
Figure FDA0000367545800000024
为Bk的横笔画特征起贡献作用;对于子网格Bk的竖笔画方向特征,垂直上相邻子网格
Figure FDA0000367545800000025
和垂直下相邻子网格
Figure FDA0000367545800000026
起贡献作用;对于子网格Bk的撇笔画方向特征,左下相邻子网格
Figure FDA0000367545800000027
和右上相邻子网格
Figure FDA0000367545800000028
起贡献作用;对于子网格Bk的捺笔画方向特征,左上相邻子网格
Figure FDA0000367545800000029
和右下相邻子网格
Figure FDA00003675458000000210
起贡献作用。 
8.根据权利要求2所述的方法,其特征在于,所述粗文字区域定位具体为:采用Sobel算子提取出灰度图像的边缘;去掉水平和垂直方向的边缘点数量大于全局阈值的边缘曲线,对边缘曲线进行水平和垂直投影确定文字区域边界。 
CN201210124376.4A 2012-04-25 2012-04-25 基于子网格特征自适应加权的视频图像文字识别方法 Active CN102663382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210124376.4A CN102663382B (zh) 2012-04-25 2012-04-25 基于子网格特征自适应加权的视频图像文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210124376.4A CN102663382B (zh) 2012-04-25 2012-04-25 基于子网格特征自适应加权的视频图像文字识别方法

Publications (2)

Publication Number Publication Date
CN102663382A CN102663382A (zh) 2012-09-12
CN102663382B true CN102663382B (zh) 2014-02-12

Family

ID=46772866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210124376.4A Active CN102663382B (zh) 2012-04-25 2012-04-25 基于子网格特征自适应加权的视频图像文字识别方法

Country Status (1)

Country Link
CN (1) CN102663382B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346609B (zh) * 2013-08-01 2018-05-04 阿里巴巴集团控股有限公司 一种识别印刷品上字符的方法及装置
CN104702432B (zh) * 2014-01-15 2018-03-30 杭州海康威视系统技术有限公司 基于位置区域划分进行告警的方法及服务器
CN104282025A (zh) * 2014-10-17 2015-01-14 中山大学 一种生物医学图像特征提取方法
CN104680539B (zh) * 2015-03-12 2018-11-09 华东理工大学 一种基于色彩相似性的数字图像过分割边缘移除方法
CN105721738B (zh) * 2016-01-15 2018-05-01 天津大学 一种彩色扫描文档图像预处理方法
CN107688807B (zh) * 2016-08-05 2019-10-25 腾讯科技(深圳)有限公司 图像处理方法及图像处理装置
CN107016365A (zh) * 2017-04-01 2017-08-04 深圳天珑无线科技有限公司 图像处理方法及装置
CN108171115B (zh) * 2017-12-04 2021-08-20 昆明理工大学 一种残缺英文单词识别方法
CN108241861A (zh) * 2018-01-05 2018-07-03 新华智云科技有限公司 一种数据可视化方法及设备
CN108460385A (zh) * 2018-03-02 2018-08-28 山东超越数控电子股份有限公司 一种文本图像分割方法与装置
CN109753967A (zh) * 2018-12-29 2019-05-14 北京师范大学 一种图片文字识别方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN111984746B (zh) * 2019-05-21 2024-04-05 北京京东乾石科技有限公司 一种基于网格地图生成仿真地图的方法和装置
CN110188774B (zh) * 2019-05-27 2022-12-02 昆明理工大学 一种基于深度学习的电涡流扫描图像分类识别方法
CN111639646B (zh) * 2020-05-18 2021-04-13 山东大学 一种基于深度学习的试卷手写英文字符识别方法及系统
CN111914847B (zh) * 2020-07-23 2023-11-17 厦门商集网络科技有限责任公司 一种基于模板匹配的ocr识别方法及其系统
CN112101347B (zh) * 2020-08-27 2021-04-30 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN112633243B (zh) * 2020-12-31 2023-01-03 安徽鸿程光电有限公司 信息识别方法、装置、设备及计算机存储介质
CN114648756B (zh) * 2022-05-24 2022-09-23 之江实验室 一种基于指向向量的书本文字识别指读方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216947B (zh) * 2008-01-18 2010-08-18 北京语言大学 基于笔段网格的手写汉字输入方法和汉字识别方法
CN101408933A (zh) * 2008-05-21 2009-04-15 浙江师范大学 基于粗网格特征提取和bp神经网络的车牌字符识别方法
CN101458770B (zh) * 2008-12-24 2011-07-06 北京文通科技有限公司 一种文字识别的方法和系统

Also Published As

Publication number Publication date
CN102663382A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102663382B (zh) 基于子网格特征自适应加权的视频图像文字识别方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN102163287B (zh) 一种基于类Haar特征和支持向量机的车牌字符识别方法
Kang et al. The comparative research on image segmentation algorithms
CN105261110B (zh) 一种高效dsp纸币冠字号识别方法
CN105931295B (zh) 一种地质图专题信息提取方法
CN102622607B (zh) 一种基于多特征融合的遥感图像分类方法
US8655070B1 (en) Tree detection form aerial imagery
CN102496013B (zh) 用于脱机手写汉字识别的汉字字符切分方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN109919159A (zh) 一种针对边缘图像的语义分割优化方法及装置
CN105321176A (zh) 一种基于分层高阶条件随机场的图像分割方法
CN106529532A (zh) 一种基于积分特征通道与灰度投影的车牌识别系统
CN103473551A (zh) 基于sift算子的台标识别方法及系统
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN101515325A (zh) 基于字符切分和颜色聚类的数字视频中的字符提取方法
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN104134219A (zh) 基于直方图的彩色图像分割算法
CN104616006B (zh) 一种面向监控视频的胡须人脸检测方法
CN105574531A (zh) 一种基于交点特征提取的数字识别方法
CN103295009B (zh) 基于笔画分解的车牌字符识别方法
CN102096816A (zh) 基于最小生成树的多尺度多层次影像分割方法
CN103714181A (zh) 一种层级化的特定人物检索方法
CN105701490B (zh) 一种基于图像熵的集装箱箱号自适应定位方法
CN103198479A (zh) 基于语义信息分类的sar图像分割方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190121

Address after: 401121 17 Blocks, 106 Jinkai Avenue West Section, Yubei District, Chongqing

Patentee after: BOLAA NETWORK Co.,Ltd.

Address before: 400065 No. 2 Chongwen Road, Huang Jue ya, Nan'an District, Chongqing

Patentee before: Chongqing University of Posts and Telecommunications

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Video image character recognition based on adaptive weighting of sub grid features

Effective date of registration: 20220520

Granted publication date: 20140212

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: BOLAA NETWORK Co.,Ltd.

Registration number: Y2022500000028

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230614

Granted publication date: 20140212

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: BOLAA NETWORK Co.,Ltd.|Chongqing Wingshengda Technology Co.,Ltd.

Registration number: Y2022500000028

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Video Image Text Recognition Method Based on Subgrid Feature Adaptive Weighting

Effective date of registration: 20230809

Granted publication date: 20140212

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: BOLAA NETWORK Co.,Ltd.|Chongqing Wingshengda Technology Co.,Ltd.

Registration number: Y2023500000055

PE01 Entry into force of the registration of the contract for pledge of patent right