CN107437084B

CN107437084B - 一种脱机手写体文本识别的字符重心定位方法

Info

Publication number: CN107437084B
Application number: CN201710606575.1A
Authority: CN
Inventors: 王寅同; 郑豪; 刘维周; 王小正; 王晓波
Original assignee: Nanjing Xiaozhuang University
Current assignee: Nanjing Xiaozhuang University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2020-12-08
Anticipated expiration: 2037-07-24
Also published as: CN107437084A

Abstract

本发明公开了一种脱机手写体文本识别的字符重心定位方法，属于文字识别技术领域，包括如下步骤：对待识别的脱机手写体文本图像进行预处理；运用连通域分析法进行字符高度估计；运用信息量传播方式构造脱机手写体文本的信息量矩阵；运用信息量矩阵的局部峰值分析以完成字符重心定位。本发明既可以准确地得到单个字符在文本图像中的位置，又可以由字符重心来区分不同字符；对于倾斜文本行、不规则文本片段以及粘连字符的脱机手写体文本，字符重心定位方法能够快速准确地区分不同字符，进而为后续单字符或多字符识别以及非显著切分式脱机手写体文本识别提供有力的支持。

Description

一种脱机手写体文本识别的字符重心定位方法

技术领域

本发明涉及一种字符重心定位方法，特别涉及一种脱机手写体文本识别的字符重心定位方法，属于文字识别技术领域。

背景技术

脱机手写体文本识别是目前文字识别领域的最困难问题之一，与联机手写识别相比，缺少必要的字符位置和轨迹信息，其中，后者可以根据字符位置和书写经验来近似获得，因此字符位置的判定对脱机手写体文本识别效率的影响甚大，由于手写体字符书写随意性导致相邻字符之间的位置关系复杂，造成脱机手写体文本中的字符位置定位要比印刷体字符定位难很多，尤其是行倾斜、不规则行片段以及粘连字符的文本中的字符位置判定。

目前，对脱机手写体文本的字符位置判定主要是由字符切分来实现，常用的切分技术有基于统计的切分方法、基于字型结构切分和基于识别的汉字统计切分方法等，其中，基于统计的切分方法是根据字符的总体统计分布特征，确定字符之间的界线，判别时以字符的平均宽度作辅助判别，统计分布特征的代表性和稳定性对切分的正确性及收敛性起很重要作用，如投影法和连通域法，该方法适合汉字字符间距较宽，无粘连字符的切分，算法效率高，该方法无法用于粘连或交叉字符串的切分，基于笔划结构切分是一种很有潜力的切分方法，可以从另一个角度解决笔画粘连问题。

常见的笔画分割方法有笔画连接盒的动态算法和黑游程跟踪提取笔画算法两种，有学者提出采用先提取笔画再合并的方法，但该方法对汉字切分的好坏很大程度上依赖于笔画提取的好坏，如何有效地提取笔划信息仍有待进一步研究，此外，笔画先提取后合并使算法过于复杂，即该方法的主要应用障碍在于准确提取笔划难度较大，基于识别的字符统计切分方法是将字符切分和识别视为整体，切分后的字符送入相应分类器并获得一个分类结果，再由分类结果反作用于字符切分，从而获得更有的字符切分效果，这一过程不断地迭代，直至满足某一终止条件，该方法结合了前两类方法的优点，能获得更好的字符切分效果，但对于有限的时间和空间资源下获得字符切分结果的情况却是不适用，时间复杂度和空间复杂度远超过前两类方法。

一般意义上，重心是在重力场中物体处于任何方位时所有各组成质点的重力的合力都通过的那一点，在脱机手写体文本识别中，字符重心可以理解为字符中所有像素点合力作用下的点，字形对称的字符重心是其所在区域的中心位置。反之，字形不对称的字符重心将偏向于像素点密集的一侧，与真实物体重心性质不同，真实物体的重心不一定在物体上，如一根弯曲的竹子重心往往偏向于内弧侧，而单个字符重心则一定处于字符所占区域，该区域是由字符的最左、最右、最上和最下四个极值位置的像素点共同确定的。因此，脱机手写体文本识别的字符重心也就可以定位该字符在文本图像的位置。

发明内容

本发明的主要目的是为了提供一种脱机手写体文本识别的字符重心定位方法，引入汉字笔迹像素点的信息量传播方式实现信息量聚集，以形成字符重心的局部峰值，而相邻字符之间产生信息量低谷，进而准确地完成字符重心定位。

本发明的目的可以通过采用如下技术方案达到：

一种脱机手写体文本识别的字符重心定位方法，包括如下步骤：

步骤1：对待识别的脱机手写体文本图像进行预处理，预处理包括对图像进行灰度化、背景色移除和图像二值化；

步骤2：运用连通域分析法进行字符高度估计，多个离散位置的像素点进行连通域分析以获得对应文字或部首的连通区域，避免单个像素点所产生的连通区域导致高度估值偏差；

步骤3：运用信息量传播方式构造脱机手写体文本的信息量矩阵，该矩阵的局部峰值对应汉字重心位置，该矩阵的信息量低谷将汉字与汉字相互区别开来；

步骤4：运用信息量矩阵的局部峰值分析以完成字符重心定位，将脱机手写体文本的汉字重心定位为信息量的局部峰值位置或区域的中心。

进一步的，所述步骤1中，所述脱机手写体文本图像X＝{x_ij}_n×m，其中i和j代表图像的第i行j列的像素位置；x_ij代表对应位置像素的值，二值化处理后的像素取值为0或1；n和m代表图像的大小，即图像X包含的像素数目为n×m。

进一步的，所述步骤1中，对待识别的脱机手写体文本图像预处理是为了减少噪声信息对后续识别效率的影响；通过扫描仪、照相机或手机获取彩色或灰度图像，通过图像灰度化、背景色移除和图像二值化的方法完成字符与背景分离，再对图像二值化后的图像进行滤波去噪声信息处理，降低噪声信息对字符重心定位的影响。

进一步的，所述步骤2中，运用连通域分析法进行字符高度估计，包括如下步骤：

步骤21：直接建立文字高度h与文本图像的字符大小的关联，文字高度h作为一个自适应变量；

步骤22：建立相邻像素点，每个像素点除边缘位置外的相邻像素点的数目为八个，相邻像素点分别处于该像素点的左方、右方、上方、下方、左上方、右上方、左下方和右下方八个位置；

步骤23：建立笔迹像素点的连通域，每个连通域均是由若干个有效笔迹像素点组成的序列，该连通域的高度是最上方笔迹像素点位置与最下方笔迹像素点位置之差；

步骤24：运用连通域分析法进行文字高度估计。

进一步的，所述步骤24中，运用连通域分析法进行文字高度估计，包括如下步骤：

步骤241：选择五个初始像素点，即邻近文本图像中心的字符笔迹像素点的有效像素点，包括文本图像中心至左上方、右上方、左下方和右下方的四个中间位置的笔迹像素点；

步骤242：对五个初始像素点逐一进行连通域分析并得到对应笔迹连通域的高度分别为h1、h2、h3、h4和h5；

步骤243：采用如下不等式对笔迹连通域的高度值有效性评估：

|h_i-h_j|≤ε，1≤i,j≤5，i≠j，ε≥0 (1)

其中：ε表示两个高度值之差的容错区间值，用300dpi规格扫描仪扫描A4尺寸的文本图像，ε取值为8；

步骤244：若满足所述步骤243中的不等式，则输出h1、h2、h3、h4和h5的均值作为字符高度估计值h＝avg(h1,h2,h3,h4,h5)，结束；

步骤245：将h1、h2、h3、h4和h5按从大到小排序，优先取最大值，判断其它四个像素点的某一相邻的连通域的高度是否满足所述步骤243中的不等式，若满足，则执行所述步骤244；反之，随机划定文本图像的一部分区域，执行所述步骤241。

进一步的，所述步骤3中，运用信息量传播方式构造脱机手写体文本的信息量矩阵，包括如下步骤：

步骤31：设第i行j列非零值的像素点x_ij含有的信息量为1个单位；

步骤32：设受像素点x_ij信息传播影响的最远像素点距离为k，该最远像素点收到像素点x_ij信息的传播量为0或趋近于0；

步骤33：对像素点x_ij构造大小为(2k+1)×(2k+1)的影响力矩阵Info_{(2k+1)×(2k+1)}，其中，Info_k+1,k+1＝1代表像素点x_ij对自身信息传播量为1个单位，对其邻近k范围内的像素点x_i'j'的信息传播量为Info_i',j'＝fun(dist_i'j')，其中dist_i'j'＝sqrt((k+1-i')^2+(k+1-j')^2)；

步骤34：设图像X中每个像素点对应的信息量矩阵为Info⁺ _n×m，大小为n×m，初始值为0；

步骤35：依次进行第i行j列非零值的像素点x_ij对相邻像素点的信息矩阵Info的运算，并将其与Info⁺ _n×m相加，其数学表达式为：

Info⁺ _i±k，j±k＝Info⁺ _i±k，j±k+Info_i，j (2)

其中，Info_i，j表示2k+1行2k+1列矩阵，Info⁺ _(i±k,j±k)表示矩阵Info⁺的第i-k到i+k行、第j-k到j+k列的子矩阵，将该矩阵原始值与Info_i,j相加之后再覆盖其原始值。

进一步的，所述步骤31中，信息传播量与距离的函数关系Info＝fun(dist)采用一次函数、二次函数、指数函数或对数函数，近邻像素点的信息传播量Info与它们的距离dist成反比。

进一步的，所述步骤35中，图像X边缘像素点的信息量化处理，第1行1列的像素点x_1,1仅对处于其第四象限的像素点发挥作用，第n行m列的像素点x_n,m仅对处于其第二象限的像素点发挥作用。

进一步的，所述步骤4中，运用信息量矩阵的局部峰值分析以完成字符重心定位，包括如下步骤：

步骤41：建立脱机手写体文本的字符笔画上的像素点以自身为1个单位的影响力，并逐渐较小地影响至距离为k的像素点；

步骤42：对式(2)进行求和，形成单个字符影响力的峰值区域或字符之间影响力的低谷区域。

进一步的，所述步骤42中，若Info⁺ _n×m上存在坐标(i,j)的局部峰值L_max＝Info⁺ _i,j，其中，(i,j)是Info⁺ _n×m的第i行j列像素；或是若Info⁺ _n×m上存在多个相邻像素的中心坐标位置，则坐标(i,j)即为一个字符的重心，其不等式如下：

L_max＝Info⁺ _i,j＞Fun_neighbor(Info⁺ _i,j) (3)

其中，函数Fun_neighbor(Info⁺ _i,j)表示坐标(i,j)的相邻像素点的信息量。

本发明的有益技术效果：按照本发明的脱机手写体文本识别的字符重心定位方法，本发明提供的脱机手写体文本识别的字符重心定位方法，字符重心定位方法既可以准确地得到单个字符在文本图像中的位置，又可以由字符重心来区分不同字符，对于倾斜文本行、不规则文本片段以及粘连字符的脱机手写体文本，字符重心定位方法能够快速准确地区分不同字符，进而为后续单或多字符识别以及非显著切分式文本识别提供有力的支持；本发明可以有效地解决倾斜文本行、不规则文本片段以及粘连字符的重心定位，具有较高的字符重心定位准确率和效率。

附图说明

图1为按照本发明的脱机手写体文本识别的字符重心定位方法的一优选实施例的脱机手写体文本识别的字符重心定位过程演示图；

图2为按照本发明的脱机手写体文本识别的字符重心定位方法的一优选实施例的方法流程图；

图3为按照本发明的脱机手写体文本识别的字符重心定位方法的一优选实施例的某个像素点A的八个相邻像素点；

图4为按照本发明的脱机手写体文本识别的字符重心定位方法的一优选实施例的信息传播量Info与信息量矩阵Info⁺的关系图；

图5为按照本发明的脱机手写体文本识别的字符重心定位方法的一优选实施例的局部峰值L_max与最近邻像素点的信息量关系。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图2所示，本实施例提供的一种脱机手写体文本识别的字符重心定位方法，包括如下步骤：

步骤1：对待识别的脱机手写体文本图像进行预处理，预处理包括对图像进行灰度化、背景色移除和图像二值化；所述脱机手写体文本图像X＝{x_ij}_n×m，其中i和j代表图像的第i行j列的像素位置；x_ij代表对应位置像素的值，二值化处理后的像素取值为0或1；n和m代表图像的大小，即图像X包含的像素数目为n×m；对待识别的脱机手写体文本图像预处理是为了减少噪声信息对后续识别效率的影响；通过扫描仪、照相机或手机获取彩色或灰度图像，通过图像灰度化、背景色移除和图像二值化的方法完成字符与背景分离，再对图像二值化后的图像进行滤波去噪声信息处理，降低噪声信息对字符重心定位的影响；

步骤2：运用连通域分析法进行字符高度估计，多个离散位置的像素点进行连通域分析以获得对应文字或部首的连通区域，避免单个像素点所产生的连通区域导致高度估值偏差，包括如下步骤：

步骤22：如图3所示，建立相邻像素点，每个像素点除边缘位置外的相邻像素点的数目为八个，相邻像素点分别处于该像素点的左方、右方、上方、下方、左上方、右上方、左下方和右下方八个位置；

步骤24：运用连通域分析法进行文字高度估计，包括如下步骤：

|h_i-h_j|≤ε，1≤i,j≤5，i≠j，ε≥0 (1)

步骤245：将h1、h2、h3、h4和h5按从大到小排序，优先取最大值，判断其它四个像素点的某一相邻的连通域的高度是否满足所述步骤243中的不等式，若满足，则执行所述步骤244；反之，随机划定文本图像的一部分区域，执行所述步骤241；

步骤3：运用信息量传播方式构造脱机手写体文本的信息量矩阵，该矩阵的局部峰值对应汉字重心位置，该矩阵的信息量低谷将汉字与汉字相互区别开来,包括如下步骤：

步骤31：设第i行j列非零值的像素点xij含有的信息量为1个单位,信息传播量与距离的函数关系Info＝fun(dist)采用一次函数、二次函数、指数函数或对数函数，近邻像素点的信息传播量Info与它们的距离dist成反比；

步骤33：如图4和图5所示，为了便于展示，设受像素点x_ij信息传播影响的最远像素点距离k取5，对像素点x_ij构造大小为(2k+1)×(2k+1)的影响力矩阵Info_{(2k+1)×(2k+1)}，其中，Info_k+1,k+1＝1代表像素点x_ij对自身信息传播量为1个单位，对其邻近k范围内的像素点x_i'j'的信息传播量为Info_i',j'＝fun(dist_i'j')，其中dist_i'j'＝sqrt((k+1-i')^2+(k+1-j')^2)，需要强调的是，本实施例中K的取值不做具体限制，其优选的范围是30-50；

Info⁺ _i±k，j±k＝Info⁺ _i±k，j±k+Info_i，j (2)

其中，Info_i，j表示2k+1行2k+1列矩阵，Info⁺ _(i±k,j±k)表示矩阵Info⁺的第i-k到i+k行、第j-k到j+k列的子矩阵，将该矩阵原始值与Info_i,j相加之后再覆盖其原始值，图像X边缘像素点的信息量化处理，第1行1列的像素点x_1,1仅对处于其第四象限的像素点发挥作用，第n行m列的像素点x_n,m仅对处于其第二象限的像素点发挥作用。

步骤4：运用信息量矩阵的局部峰值分析以完成字符重心定位，将脱机手写体文本的汉字重心定位为信息量的局部峰值位置或区域的中心，包括如下步骤：

步骤42：对式(2)进行求和，形成单个字符影响力的峰值区域或字符之间影响力的低谷区域；若Info⁺ _n×m上存在坐标(i,j)的局部峰值L_max＝Info⁺ _i,j，其中，(i,j)是Info⁺ _n×m的第i行j列像素；或是若Info⁺ _n×m上存在多个相邻像素的中心坐标位置，则坐标(i,j)即为一个字符的重心，其不等式如下：

L_max＝Info⁺ _i,j＞Fun_neighbor(Info⁺ _i,j) (3)

图1为脱机手写体文本识别的字符重心定位过程演示的结果。

综上所述，在本实施例中，按照本实施例的脱机手写体文本识别的字符重心定位方法，本实施例提供的脱机手写体文本识别的字符重心定位方法，字符重心定位方法既可以准确地得到单个字符在文本图像中的位置，又可以由字符重心来区分不同字符，对于倾斜文本行、不规则文本片段以及粘连字符的脱机手写体文本，字符重心定位方法能够快速准确地区分不同字符，进而为后续单或多字符识别以及非显著切分式文本识别提供有力的支持；本发明可以有效地解决倾斜文本行、不规则文本片段以及粘连字符的重心定位，具有较高的字符重心定位准确率和效率。

以上所述，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种脱机手写体文本识别的字符重心定位方法，其特征在于：包括如下步骤：

步骤3：运用信息量传播方式构造脱机手写体文本的信息量矩阵，该矩阵的局部峰值对应汉字重心位置，该矩阵的信息量低谷将汉字与汉字相互区别开来，所述信息量传播方式为信息量与距离的反比关系；

2.根据权利要求1所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤1中，所述脱机手写体文本图像X＝{x_ij}_n×m，其中i和j代表图像的第i行j列的像素位置；x_ij代表对应位置像素的值，二值化处理后的像素取值为0或1；n和m代表图像的大小，即图像X包含的像素数目为n×m。

3.根据权利要求1所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤1中，对待识别的脱机手写体文本图像预处理是为了减少噪声信息对后续识别效率的影响；通过扫描仪、照相机或手机获取彩色或灰度图像；

若获取图像为彩色图像，对所述彩色图像进行图像灰度化处理、背景色移除和图像二值化的方法完成字符与背景分离，再对图像二值化后的图像进行滤波去噪声信息处理，降低噪声信息对字符重心定位的影响；若获取图像为灰度图像，直接进行背景色移除、图像二值化和滤波去噪声信息处理。

4.根据权利要求1所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤2中，运用连通域分析法进行字符高度估计，包括如下步骤：

步骤24：运用连通域分析法进行文字高度估计。

5.根据权利要求4所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤24中，运用连通域分析法进行文字高度估计，包括如下步骤：

步骤242：对五个初始像素点逐一进行连通域分析并得到对应笔迹连通域的高度分别为h₁、h₂、h₃、h₄和h₅；

|h_i-h_j|≤ε，1≤i,j≤5，i≠j，ε≥0 (1)

步骤244：若满足所述步骤243中的不等式，则输出h₁、h₂、h₃、h₄和h₅的均值作为字符高度估计值h＝avg(h₁,h₂,h₃,h₄,h₅)，结束；若不满足所述步骤243中的不等式，则执行步骤245；

步骤245：将h₁、h₂、h₃、h₄和h₅按从大到小排序，优先取最大值，判断其它四个像素点的某一相邻的连通域的高度是否满足所述步骤243中的不等式，若满足，则执行所述步骤244；反之，随机划定文本图像的一部分区域，执行所述步骤241。

6.根据权利要求1所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤3中，运用信息量传播方式构造脱机手写体文本的信息量矩阵，包括如下步骤：

步骤32：设受像素点x_ij信息传播影响的最远像素点距离为k，该最远像素点收到像素点x_ij信息的传播量为0；

Info⁺ _i±k，j±k＝Info⁺ _i±k，j±k+Info_i，j (2)

7.根据权利要求6所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：信息传播量与距离的函数关系Info＝fun(dist)采用一次函数、二次函数、指数函数或对数函数，近邻像素点的信息传播量Info与它们的距离dist成反比。

8.根据权利要求6所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤35中，图像X边缘像素点的信息量化处理，第1行1列的像素点x_1,1仅对处于其第四象限的像素点发挥作用，第n行m列的像素点x_n,m仅对处于其第二象限的像素点发挥作用。

9.根据权利要求6所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤4中，运用信息量矩阵的局部峰值分析以完成字符重心定位，包括如下步骤：

10.根据权利要求9所述的一种脱机手写体文本识别的字符重心定位方法，其特征在于：所述步骤42中，若Info⁺ _n×m上存在坐标(i,j)的局部峰值L_max＝Info⁺ _i,j，其中，(i,j)是Info⁺ _n×m的第i行j列像素；或是若Info⁺ _n×m上存在多个相邻像素的中心坐标位置，则坐标(i,j)即为一个字符的重心，其不等式如下：

L_max＝Info⁺ _i,j＞Fun_neighbor(Info⁺ _i,j) (3)