CN102663382B

CN102663382B - 基于子网格特征自适应加权的视频图像文字识别方法

Info

Publication number: CN102663382B
Application number: CN201210124376.4A
Authority: CN
Inventors: 尚凤军; 胡晓冬; 王斌辅; 臧李立; 苏畅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Bolaa Network Co ltd
Priority date: 2012-04-25
Filing date: 2012-04-25
Publication date: 2014-02-12
Anticipated expiration: 2032-04-25
Also published as: CN102663382A

Abstract

一种基于子网格特征自适应加权的视频图像文字识别方法。针对现有视频图像文字识别中存在的技术问题，本发明给出了一种给合边缘特征的图像文字二值化方法；获取到文字的二值图像后，采用弹性网格方法对图像文字进行区域网格划分，在计算其弹性网格特征之前，提出相邻网格的笔画结构相关性的判定。通过结合以上方法，使字符特征提取在稳定性和健壮性方面得以提高，从而有利于视频图像文字的识别率。

Description

基于子网格特征自适应加权的视频图像文字识别方法

技术领域

本发明涉及视频图像文字识别技术，具体是一种基于子网格特征自适应加权的视频图像文字识别方法。

背景技术

近年来，随着多媒体技术和计算机网络的飞速发展，数字视频的容量正以惊人的速度增长。这样，从数字视频中抓取到的图像中包含有重要的文字信息，在一定程度上对图像主要内容进行简练描述和说明，这在基于内容的视频数据库检索(黄祥林，沈兰荪.基于内容的图像检索技术研究[J].电子学报.2002，30(7)：1065-1071.)中起到重要的作用。对于嵌于图像中的文本信息进行检测与识别，使用户能更加快捷和准确地获取蕴于图像中的丰富的信息。所以，如何从含有背景的图像和视频图像中快速而准确地定位和提取文本信息，成为现今国际上热门的研究课题。

视频图像色彩变化具有复杂多变性，针对这类具有复杂背景图像文字的定位算法，目前主要可以分为基于连通域和基于纹理的两种类型方法。基于连通域(田破荒，彭天强，李弼程.基于文字穿越线和笔画连通性的视频文字提取方法[J].电子学报，2009，37(1)：72-78；Michele Merler，JohnR.Kender.Semantic Keyword Extraction Via Adaptive TextBinarization of Unstructured UnsourcedVideo.Image Processing.2009，11.p261-264.)的方法是首先利用颜色或灰度等属性从图像中提取出连通域，然后根据几何特征来对它们进行鉴别，最后将通过鉴别的连通域合并成文字定位的结果。基于纹理(Zhong Y，Zhang H，JainA K.Automatic caption localization in compressed videos[J].IEEE Transactions onPattern Analysis and Machine Intelligence.2000，22(4)：P385-392.)的方法是通过考察像素的邻域，应用纹理分析的方法确定出文字区域。

特征选择在模式识别领域中有十分广泛的应用，提取方法也是影响识别率的关键因素。上个世纪60年代最初由Casey和Nagy提出的模板匹配方法识别出了1000个印刷体汉字，我国是从70年代末期开始进行汉字识别方面的研究，经过这几十年的努力，已经有成熟的光学字符识别(OCR，Optical Character Recognition)系统在实现生活中得到应用。然而，现有的OCR系统往往是针对较为简单的文档形式的图像文字，对于视频图像等较为复杂的图像涉及的并不多。

目前，对于中文字符比较常用的表示方法有结构特征和统计特征。

结构模式识别是以字符的组成结构为出发点。从字符的结构上来看，汉字是由横竖撇捺四个笔划和偏旁部首共同组成的。结构模式识别就是提取出其内部所具备的结构特征，优点是能够适应字符在字体形式上的变化，对区分相似字的能力强，缺点是对特征的描述较为复杂，使得特征匹配方法有较高的复杂度。

统计模式识别是以字符的像素点阵作为一个整体，在此之上经过大量的统计获取到所表示的特征。统计特征的优点是具备较强的抗干扰性，特征匹配与分类的方法简单，易于实现。缺点是在于细分能力较弱，对于相似字的特征区分能力差一些。

发明内容

针对现有视频图像文字识别中存在的上述技术问题，本发明提出一种基于子网格特征自适应加权的视频图像文字识别方法，包括如下步骤：获取文字的二值图像，采用按笔画密度进行的弹性网格方法对图像文字进行区域网格划分，根据相邻网格的笔画结构相关性进行判定，计算弹性网格特征。具体包括：

一种基于子网格特征自适应加权的视频图像文字识别方法，在指定图像中确定文本区域，可采用边缘的粗文字区域定位与精确文字区域定位；采用文字二值化将图像文字从背景中分割出来；对图像文字进行分割，将分割出来的图像文字区域划分成一个以单字字符为主的区域；根据字符水平投影处峰值的变化进行文本行分割，根据相邻文本区域的位置关系确定对相邻文本区域进行合并；从文本区域的右上角开始进行种子搜索，种子点汇聚成种子区域，将被搜索分割开来的种子区域进行组合合并，从而得到构成单个独立的字符区域；在字符区域内，对图像文字在水平和垂直方向上进行笔划密度投影H(i)和V(j)，将大小为M×N的图像文字划分出P×Q个子网格；依据邻域子网格共同的偏移方向判断中心子网格是否受到其邻域的影响，采用模糊隶属度函数确定邻域子网格的贡献率。

本发明通过以上方法，使字符特征提取在稳定性和健壮性方面得以提高，从而有利于视频图像文字的识别率。本发明包括视频图像的文字提取和识别。视频图像文字提取包括图像中文字区域的检测与定位，对文字区域进行二值化过滤背景图像，以及图像文字分割。视频图像文字识别包括图像文字的动态网格划分，基于笔画相关性网格特征提取。能动态定位文本位置，通过动态网格划分，方便提取文字特征，提高了文字的识别率，本方法操作简单，容易实现。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1本发明识别方法的流程图；

图2本发明横笔画子网格相关性示意图；

图3本发明子网格笔画相关性示意图；

图4本发明邻域子网格的笔画贡献示意图。

具体实施方式

以下针对附图对本发明的实时方式进行具体描述。本发明设计一种基于子网格特征自适应加权的视频图像文字识别方法。该方法包括如下步骤。

采用Sobel算子提取出图像的边缘特征信息，在边缘特征图上进行文本检测，清除复杂图像中背景信息的边缘，将检测到的边缘信息依次提取出区域位置，再把位置信息逐步合并，从而构成完整的文本区域，通知字符切分获取到独立单个字符的区域信息。然后在对各个字符区域上提取到基于笔画相关性的特征，将得到的特征与字库包含的特征进行比较。使用多级分类的方式，逐级过滤筛选，最后把最佳匹配值对应的字符作为识别结果。

1、视频图像文字定位

在对图像中的文字进行识别之前，首先执行图像文字区域提取，也就是在指定的图像中，有效的确定出文本区域，并将字符图像与背景图像分离开，为字符特征提取做准备。一般说来，在该阶段要进行的操作主要有两部分组成：文本定位和字符切分。

(1)文字区域定位

为了能够准确提取出视频图像中的文字，首先要区分识别图像中文字部分与所对应的背景部分，准确找出文字部分，文字区域定位可以通过执行以下方法来完成定位工作：可采用边缘的粗文字区域定位与精确文字区域定位。

目前，彩色图像占据几乎所有影视场景，在这种情况下，首先对图像进行灰度化，并进行高斯平滑降噪处理，获得灰度图像。粗文字区域定位可基于边缘提取，如可采用文献(李闯，丁晓青，吴佑寿.基于边缘的字符串定位算法[J].清华大学学报(自然科学版).2005，45(10)：1335-1338.；卢海彦，程义民，何兵兵，张玲.基于自适应阈值的视频文本检测方法[J].计算机仿真.2008，25(9)：204-207，214.)中提到的方法。

提取出边缘图，依据其边缘投影直方图确定文字区域。该方法的具体步骤为：

Step1，使用Sobel算子提取出灰度图的边缘信息。Sobel算子为两组3×3的矩阵，分别为横向及纵向，将之与图像作平面卷积，即可分别得出横向及纵向的边缘梯度，然后通过取模计算求出其近似边缘强度值；

Step2，去除灰度强度小于全局阈值的边缘曲线。全局阈值的计算方法如下：

{Th}_{g} = \frac{Σ_{i = 1}^{M} Σ_{j = 1}^{N} f (i, j)}{M \times N} - - - (1)

其中，f(i，j)表示像素点的灰度值，M和N表示图片的宽度和高度。

Step3，统计出像素点周围窗口大小为n×n的区域内水平与垂直边缘数量，以及边缘强度的平均值和边缘强度最大值。依据检测字体的大小，n的取值最优可为13。在每个窗口内，动态的计算出一个局部阈值T_i。局部阈值调用公式计算得到：

T_{i} = (1 - \frac{edgeNum}{n \times n}) \times (\max Edge - avgEdge) - - - (2)

其中，edgeNum表示在窗口区域中的边缘数量；area表示当前窗口的区域面积，此处为n×n；maxEdge表示在窗口区域中的最大边缘强度值；avgEdge表示在窗口区域中的平均边缘强度值。

Step4，计算水平和垂直方向的边缘点数量，一旦该值大于30时，则删除该边缘特征。一般图像中背景事物比较规则的几何图形，在衍生图中会留下出水平或垂直方向的边缘，通过上述方法删除相关的边缘；

Step5，统计像素点周围m×m的模板内边缘的加权平均值，如果当前像素小于平均值，则将当前像素点置为平均值，此处取m＝5。文字一般都是由多笔画组成，换而言之，就是说文字区域中的某个像素点周围一定会有较多笔画边缘。依据这一特征可采用该方法对边缘进行修复，以减少对文字的损伤；

Step6，对边缘曲线进行水平和垂直投影确定文字区域边界。通过水平投影确定出文字区域的上边界和下边界，通过垂直投影确定出文字区域的左边界和右边界。

通过以上步骤完成图像文字区域的粗定位。在粗定位中，文本基于边缘提取的方法，使用全局阈值，去除了灰度图像中强度较弱的边缘特征；使用局部阈值，去除了灰度图像中在指定窗口中的弱边缘曲线；之后又对边缘特征进行修复，为精确文字区域定位提供依据。为进一步对文字区域进行准确定位，可对经过粗定位的文字进行精确文字区域定位。

精确文字区域定位又称之为文字区域的验证，就是对文字区域进行筛选，删除错误的文字区域。首先对粗定位的文字区域进行二值化处理，保留二值化后文字区域的高度与粗定位平均行高比例在0.5～1.65范围之内的区域，同时从灰度图中以行为单位把极亮点去除。之后，通过每个边缘的外接矩形的合并融合完成文字区域的精确定位。

(2)文字二值化

文字二值化的目的是将图像文字从背景中分割出来。文献(叶芗芸，戚飞虎，吴健渊.文本图像的快速二值化方法[J].红外与毫米波学报.1997，16(5)：48-53)对方法进行了描述。文本使用了以边缘点的像素灰度值做参考，通过计算与周围像素的加权平均值，完成二值化操作。这里的二值化阈值是通过利用Sobel边缘及其附近像素点提取出的。该算法描述如下：

Step1，首先获取图像中的Sobel边缘，然后设定一个阈值将Sobel边缘点进行二值化，边缘强度较弱的点将会去除，较强的点则被保留；

Step2，对于每个边缘曲线，以它的外接矩形作为基准线，向外延伸w行，取得其灰度图上该矩形内部的像素点的灰度平均值avgEdgeVal。取灰度图上与边缘曲线对应的所有像素的加权灰度平均值avgEdgeVal：

avgEdgeVal = Σf (i, j) \times {(\frac{edgeVal (i, j)}{255})}^{2} - - - (3)

其中，f(i，j)为灰度图上对应点的值，edgeVal(i，j)为边缘图上对应点的值。

Step3，通过比较avgGrayVal和avgEdgeVal对灰度图像进行二值化，满足的条件：

当avgGrayVal＞avgEdgeVal，且f(i，j)≤avgEdge时，该像素点(i，j)为黑点(背景为白点)；当avgGrayVal≤avgEdgeVal，且f(i，j)＞avgEdge，该像素点为黑点。f(i，j)为像素点(i，j)处的灰度值。

将所有的边缘线条所在区域进行二值化，并把没有线条的区域置为白色，于是得到了整个图像的二值图。

(3)字符分割

图像分割(Rafael C.Gonzalez，Richard E.Woods.Digital Image Processing Second[B].2003)是将图像细分成为构成其子区域的对象，图像分割的程度取决于要解决的问题。本文中，图像文字分割是指将已经处理过的文字区域，划分成一个以单字字符为主的区域。可采用文献(陈艳，孙羽菲，张玉志.基于连通域的汉字切分技术研究[J].计算机应用研究，2005，22(6)：246-248)公开的方法。

在经过之前的操作之后，图像中要识别的文字部分得到确定，如何将单个字符从整个文字区域中分离出来。

(4)文本行分割

对现代语言来说，文字的排列一般采用横排的形式出现，而行与行之间会留有少量的空白间隙，于是可以使用这条间隙作为文本行分割的依据。

在经过Sobel二值化处理之后，设文字区域内某个像素值为f(i，j)。当f(i，j)＝1时，表示该像素点为文字部分，当f(i，j)＝0时，表示该像素点为背景部分。对视频图像中的文本区域进行水平方向投影，于是可得第i行的投影值：

H (i) = Σ_{j = 1}^{N} f (i, j)

i＝1，2，…，M (4)

其中，M为文本区域的高度，N为文本区域的宽度。通过水平投影计算可知，在字符密集的地方H(i)较大，由于字符高度的差异在其顶部和底部H(i)会偏小。而对于行与行之间的空隙来说，H(i)在理想状态情况下为0，但是H(i)值的变化不会影响字符处的投影值。于是，可以根据字符水平投影处峰值的变化进行文本行分割。

定义：连续投影值不为0处的行高p_m，连续投影值为0处的行高g_n，以及连续投影值不为0处的平均值pAvg。由上文本区域水平方向投影值的计算可知，空白行的投影值确定为0。满足以下规则：

规则一、水平方向投影值为0的行，则在该行确定没有字符的出现。由于噪声不可避免会产生一定的影响，所以有噪声的行其水平方向投影处的值不会为0。投影处的值不为0的地方也不能完全确定有字符的出现；

规则二、水平方向投影值不为0的行，则在该行可能有字符的出现。在文字区域图像上进行从上向下进行行搜索，当第i行的H(i)不为0值时，则在该行可能有字符，直到发现第j行的H(j)为0值时，则此时的p_m应为j-i-1。其中，水平投影值等于0表明文本区域中的当前行没有字符像素，可确定字符没有分布在该行。继续扫描行的水平投影信息，直到H(k)大于0值时，则此时的g_n值应为k-j-1。于是得到

得到pAvg值后，重新进行一次行扫描，将水平投影值较小的行从字符分布中给删除，消除噪声的干扰。然后就依据投影特征，将投影处较大的连继行划分成文本行，而上下邻接最近的空白投影区域就作为边界。这样就初步完成了对文本行的切分，由于字符稠密不均，当行内字符也较少时，可能会对文本行从中间误切分。

在每个文本区域中都完成了行切分，因此区域内的行可视为上下结构。而图像字符中检测到多个区域，在位置上有左右结构，因此区域间的行则视为左右结构。在对所有文本行检测时，当相邻的两文本行满足如下给出的三个条件时，则被看作完整的文本行被分开成两行，需要将它们合并。

条件一、若上下相邻两行行高g值的和大于合并之后高度unionHeight×σ₁时，其中最优σ₁＝0.7，或左右相邻区域有边界的包含关系时，就对这两区域进行合并；

条件二、对于左右相邻的两行，若它们之间的最小距离小于其最大宽度，并且其高度差小于合并之后的unionHeight×σ₂时，其中最优σ₂＝0.5时，那么就对这两区域进行合并；

条件三、如果有区域存在相交的情况，那么将它们合并。

在上述条件中，unionHeight为文本行合并之后的高度。

(5)行内字符分割

区域生长是将像素或子区域聚合成更大区域的过程，基本的方法是，采用种子代表像素信息，以一组“种子”点开始将与种子性质相似的相邻像素附加到生长区域的每个种子上。

对于种子的定义：

首先，从文本区域的右上角开始进行种子搜索。遇到种子之后，则向当前种子的周围继续进行搜索，如果发现有新的种子，那么将这些种子做统一标识。经过探索之后，种子汇聚成一个种子区域，并对各个区域采用唯一的标识符来标记。在中文字符中，以左右结构为例，如“加”被分成左右不相连的两部分，这在种子区域搜索之后则形成两个字符对待。因此，接下来就对种子区域集合进行二次判断，将被搜索分割开来的种子区域进行组合合并，构成字符区域，这样也为后来的识别做好准备。接下来分析一下种子区域合并成字符区域的条件。

种子区域在搜索后，将其扩展成矩形，这样则存在有较多的区域之间有重叠。因为字符与字符之间一般都会有少量间隙存在，这样有重叠出现的区域，都可以看成是一个字符的一部分，所以需要将它们进行合并，合并之后的矩形则根据原有种子区域进行新的边界划定。由于前面已经执行过文本行切分，所以，对于“二”这种上下结构的，上下两个种子区域分离开来的字符，在没有实质性的重叠或相交发生时，可以其左右边界来断定出有重叠或相交产生，所以将这种种子区域同样进行合并处理。

经过以上操作，完成了对种子区域的初次简单合并操作。在常见左右结构字符中，如“阴”符合上面所述的第一种情况，“阝”和“月”两个种子区域的矩形有重叠，因此容易将其执行合并操作。而对于“顺”和“川”这种结构的种子区域有不重叠或相交的情况，针对于这类字符将采用以下算法将其进行修正。

对初次合并之后的所有字符进行宽度估算。对字符进行宽度调用公式估算：

w_{0} = \min (curLineHeight, \frac{1}{R} Σ_{i = 1}^{R} cur {Rt}_{i}, Width) - - - (6) .

其中，curLineHeight为当前文本本行的行高，curRt_i.Weight表示第i个字符的宽度，R为字符总数量。

修正字符估计宽度w₀。当满足curRt_i.Width＞w₀条件时才将其纳入字符宽度的统计当中。此时

w_{all} = \frac{1}{R} Σ_{i = 1}^{R} {curRt}_{i} . Width,

(curRt_i.Width＞w₀) (7)

若满足条件的种子区域个数为S，则w₀＝w_all/S。这是为了减少被拆分开的字符和标点符号对字符合并时的影响。

合并剩下左右(左中右)结构字符。将相邻两字符区域进行合并，如果合并后的字符宽度满足以下条件进行合并操作，否则不再进行合并

max(curRt_i.Width，curRt_i+1.Width)＜unionRt_i+1.Width＜lineHeight×β

其中，curRt_i.Width表示为字符区域的宽度，unionRt_i+1.Width表示为合并后字符区域的宽度，lineHeight表示为文本行的高度，β为常数，最优可取值1.3。

2、视频图像文字识别

文字特征提取在整个图像文字的识别过程中起着至关重要的作用，稳定的特征提取能够达到较好的识别结果。这里采用弹性网格划分，依据邻域网格在对应笔画上是否构成影响，使用模糊隶属度计算子网格产生的贡献率，由此可分别计算出各个子网格的方向统计特征。

(1)构建文字弹性网格

在文字识别初期，人们大多是以均匀划分的固定网格作为特征提取的前提。固定网格是强制性的对图像文字域划分依据某个固定值进行划分，划分出的小区域边界处笔画会因为粗细等多种情况发生一定的位移，这在后面的特征提取时会造成比较大的误差。针对以上网格的固定划分，提出了弹性网格技术，是根据图像文字区域中笔画像素的密度分布而自动构建出的多块小区，对于每个区域就称之为网格。整个网格的构建都是由当前所识别的图像文字自身的笔画密度所决定，因此，将这种网格也称作为动态网格。

为了将大小为M×N的图像文字划分出P×Q个子网格，首先对图像文字在水平和垂直方向上进行笔划密度投影H(i)和V(j)：

H (i) = Σ_{j = 1}^{N} d (i, j)

i＝1，2，…，M (8)

V (j) = Σ_{i = 1}^{M} d (i, j)

j＝1，2，…，N (9)

其中，d(i，j)＝f(i，j)表示笔画密度。

于是可以得到弹性网格在水平与垂直方向的坐标：

P_{s} = \min {k | \frac{s - 1}{P} Σ_{i = 1}^{M} H (i) \leq Σ_{i = 1}^{k} H (i) \leq \frac{s}{P} Σ_{i = 1}^{M} H (i)},

1≤s≤P (10)

Q_{t} = \min {k | \frac{t - 1}{Q} Σ_{j = 1}^{N} V (j) \leq Σ_{j = 1}^{k} V (j) \leq \frac{t}{Q} Σ_{j = 1}^{N} V (j)},

1≤t≤Q (11)

因此，根据水平和垂直方向上的坐标P_s和Q_t，可以得到网格mesh(i，j)有如下定义：

mesh(i，j)＝{(i，j)|P_s≤i≤P_s+1，Q_t≤j≤Q_t+1} (12)

其中，(i，j)表示字符区域内的像素点位置。

(2)自适应加权弹性网格特征提取

弹性网格的划分，将完整的字符被分成P×Q个子网格。由于字符都是相连的，这样在划分出的子网格之间就存在一定的联系，如横笔画会分布在水平相连的子网格中，如图2所示。由于这种笔画结构之间的相关性，为了能够合理的获取8邻域子网格带来的影响，这里拟采用邻域子网格的梯度方向特征与质心相结合的方法，依据邻域子网格共同的偏移方向来判断中心子网格是否受到其邻域的影响，而邻域子网格的贡献率采用模糊隶属度函数来确定。

对于子网格B^k的横笔画方向特征，首先考虑其邻域的方向性，而B^k的横笔画只受到水平相邻子网格

和是影响，邻接的其它子网格将不对其横笔画构成影响。当质心偏移的方向与其子网格的方向性相同时，就说明该子网格对Bⁱ的特征提取有贡献作用，可以依据其贡献率进行获取。

计算子网格内每个像素点的梯度方向θ(i，j)和幅值m(i，j)。分别为：

θ(i，j)＝tan^-1((f(i，j+1)-f(i，j-1))/(f(i+1，j)-f(i-1，j))) (13)

m (i, j) = \sqrt{{(f (i + 1, j) - f (i - 1, f))}^{2} + {(f (i, j + 1) - f (i, j - 1))}^{2}} - - - (14)

窗口内每个像素点梯度的幅值利用高斯函数进行加权，高斯函数表达式可为：

G (i, j, σ) = \frac{1}{2 π σ^{2}} \exp (- \frac{i^{2} + j^{2}}{2 σ^{2}}) - - - (15)

其中，σ为弹性网格特征窗口大小的一半，i和j分别是像素点水平和垂直方向的坐标。

在窗口内统计计算8个方向上(即：上、下、左、右、左上、左下、右上、右下)的图像梯度方向直方图。若某个像素点梯度方向落在8个方向的其中一个方向上，则把对应梯度高斯加权幅值相加到该方向上，箭头长度代表这个方向上的梯度加权幅值的累加和。

计算子网格质心位置。

对于子网格B^k，它的质心位置计算公式如下：

\{\begin{matrix} i_{c} = \frac{Σ_{(i, j) &Element; B^{k}} f (i, j) \times i}{Σ_{(i, j) &Element; B^{k}} f (i, j)} \\ j_{c} = \frac{Σ_{(i, j) &Element; B^{k}} f (i, j) \times j}{Σ_{(i, j) &Element; B^{k}} f (i, j)} \end{matrix} - - - (16)

其中，(i_c，j_c)为子网格B^k的质心坐标，f(i，j)为该点的像素值。

若子网格B^k质心的位置临近水平左指向子网格

则为B^k

的横笔画特征起到贡献作用；若质心的位置临近水平右指向子网格

则

为B^k

的横笔画特征同样起到贡献作用，至此，在计算B^k的横笔画方向特征时只需要加入

和

的贡献率。对于子网格B^k的竖笔画方向特征，受到垂直上相邻子网格

和垂直下相邻子网格的影响，该两方向对子网格B^k有贡献作用；对于子网格B^k的撇笔画方向特征，受到左下相邻子网格

和右上相邻子网格

的影响，该两方向对子网格B^k有贡献作用；对于子网格B^k的捺笔画方向特征，受到左上相邻子网格和右下相邻子网格

的影响，该两方向对子网格B^k有贡献作用。如图3所示。其梯度方向与质心位置的计算与横笔画相似。

在子网格质心位置落在指定中心网格的方向是的附近时，采用模糊隶属度获取其弹性网格特征。这里采用质心位置与网格中心位置的夹角来判断其方向，若夹角的大小与指定方向的角度相差15度以内，则认为在其附近。隶属度函数可设定为：

μ (a, b) = \exp (- \frac{{(3 a / (a + b))}^{2}}{2}) - - - (17)

其中a表示子网格指向指定子网格B^k方向上的梯度幅值，b表示指定子网格B^k指向子网格在对应方向上的梯度幅值。若子网格质心没有落在指定笔画方向，则μ(a，b)＝0。

在对B^k的弹性网格特征计算时，横竖撇捺四个方向上的特征分别用f_H(i，j)、f_V(i，j)、f_L(i，j)、f_R(i，j)来表示。因为来自其8邻域子网格的影响程度不同，所以为相邻子网格提供不同的隶属度μ(a，b)值。从而结合考虑B^k与其8邻域子网格的笔画贡献情况(如图3所示)，可获知子网格B^k的弹性网格特征。

针对单个字符来看，在经过弹性网格划分构成的P×Q个子网格中，连续的笔画往往会划分在相邻的网格里。从字符基本的构成笔画(横竖撇捺)来看，子网格之间可以通过完整的笔画建立联系，这种联系也满足字符的结构组成和分布特征。如对于横笔画会被分割在水平方向相接的网格中，其它笔画也会有类似的分布情况。正是由于笔画结构在网格分布上存在着这种关联性，并且在特征表现上也更为稳定。将网格8邻接网格对中心网格的贡献，从而提高显著特征的表达。

对于B^k的横笔画特征有：

D_{h}^{k} = \frac{{&Integral; &Integral;}_{B^{k}} f_{H} (i, j) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{3}^{k}} f_{H} (i, j) μ_{r} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{7}^{k}} f_{H} (i, j) μ_{l} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} - - - (18)

其中μ_r为

对B^k的横笔画的贡献率，μ_l为

对B^k的横笔画的贡献率。

对于B^k的竖笔画特征有：

D_{V}^{k} = \frac{{&Integral; &Integral;}_{B^{k}} f_{V} (i, j) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{1}^{k}} f_{V} (i, j) μ_{t} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{5}^{k}} f_{V} (i, j) μ_{b} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} - - - (19)

其中μ_t为

对B^k的竖笔画的贡献率，μ_b为

对B^k的竖笔画的贡献率。

对于B^k的撇笔画特征有：

D_{L}^{k} = \frac{{&Integral; &Integral;}_{B^{k}} f_{L} (i, j) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{2}^{k}} f_{L} (i, j) μ_{t} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{6}^{k}} f_{V} (i, j) μ_{lb} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} - - - (20)

其中μ_rt为

对B^k的撇笔画的贡献率，μ_lb为对B^k的撇笔画的贡献率。

对于B^k的捺笔画特征有：

D_{R}^{k} = \frac{{&Integral; &Integral;}_{B^{k}} f_{R} (i, j) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{4}^{k}} f_{R} (i, j) μ_{rb} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} + \frac{{&Integral; &Integral;}_{B_{8}^{k}} f_{R} (i, j) μ_{lt} (a, b) didj}{{&Integral; &Integral;}_{B^{k}} f (i, j) didj} - - - (21)

其中μ_lt为

对B^k的捺笔画的贡献率，μ_lt为

对B^k的捺笔画的贡献率。

分别表示第k个子网格的横竖撇捺特征值。使用欧式距离建立多级相似性度量，将提取到的特征与字库内的特征比较，经过特征的分级匹配之后，最终以相似性最近的字符特征作为匹配结果。

本发明针对现有视频图像文字识别中存在的技术问题，给出了一种给合边缘特征的图像文字二值化方法；获取到文字的二值图像后，采用弹性网格方法对图像文字进行区域网格划分，在计算其弹性网格特征之前，提出相邻网格的笔画结构相关性的判定。通过结合以上方法，使字符特征提取在稳定性和健壮性方面得以提高，从而有利于视频图像文字的识别率。

Claims

1.一种基于子网格特征自适应加权的视频图像文字识别方法，其特征在于，在指定图像中确定图像文字区域；采用文字二值化将图像文字从背景中分割出来；将分割出来的图像文字区域划分成一个以单字字符为主的区域；根据字符水平投影处峰值的变化进行文本行分割，根据相邻文本区域的位置关系确定对相邻文本区域进行合并；采用种子代表像素信息，从文本区域的右上角开始进行种子搜索，种子点汇聚成种子区域，将被搜索分割开的种子区域进行组合合并，构成字符区域；对图像文字在水平和垂直方向上进行笔划密度投影H(k)和V(k)，得到弹性网格在水平与垂直方向的坐标，根据水平和垂直方向上的坐标得到网格，将大小为M×N的图像文字划分出P×Q个子网格；计算指定子网格质心位置，在指定子网格质心位置与中心子网格中心位置的夹角与指定方向的角度相差15度以内时，调用公式：

计算模糊隶属度函数，采用模糊隶属度函数结合指定子网格与其8邻域子网格的笔画贡献情况获知指定子网格的弹性网格特征，将弹性网格特征与字库内的特征比较，经过特征的分级匹配，相似性最近的字符特征作为匹配结果，其中，a表示任意子网格指向指定子网格方向上的梯度幅值，b表示指定子网格指向任意子网格在对应方向上的梯度幅值。

2.根据权利要求1所述的方法，其特征在于，采用边缘的粗文字区域定位与精确文字区域定位确定图像文字区域。

3.根据权利要求1所述的方法，其特征在于，文本行分割具体包括：对视频图像中的文本区域进行水平方向投影，得到第i行的投影值，根据字符水平投影处峰值的变化进行文本行分割，水平方向投影值为0的行，则确定该行没有字符出现；水平方向投影值不为0的行，则该行可能有字符出现。

4.根据权利要求1所述的方法，其特征在于，当满足以下三个条件之一时，将相邻文本区域进行合并：条件一、若上下相邻区域的两行行高g值和大于unionHeight×0.7，或左右相邻区域有边界的包含关系；条件二、对于相邻区域，若左右距离小于相邻区域的最大宽度，并且其高度差小于unionHeight×0.5；条件三、如果有区域存在相交，其中，unionHeight为合并之后的高度。

5.根据权利要求1所述的方法，其特征在于，对种子区域进行组合合并具体为：将搜索后的种子区域扩展成矩形，对两个种子区域的矩形有重叠的进行合并；对种子区域不重叠或不相交的，若相邻两字符区域在合并之后的宽度满足max(curRt_i.Width,curRt_i+1.Width)<unionRt_i+1.Width<lineHeight×β时，则这两区域合并，形成新的字符区域定位，否则，将不再进行合并，其中，curRt_i.Width表示为字符区域宽度，unionRt_i+1.Width表示为合并后字符区域宽度，lineHeight表示文本行的高度，β为行常数，i表示字符数。

6.根据权利要求1所述的方法，其特征在于，计算子网格内每个像素点的梯度方向和幅值，窗口内每个像素点梯度的幅值利用高斯函数进行加权，在窗口内统计计算上、下、左、右、左上、左下、右上、右下8个方向上的图像梯度方向直方图，若某个像素点梯度方向落在8个方向的其中一个方向上，则把对应梯度高斯加权幅值加到所在的方向上。

7.根据权利要求1所述的方法，其特征在于，计算子网格质心位置，对于子网格B^k，若子网格B^k质心位置临近水平左指向子网格