CN106611175A

CN106611175A - 用于图像文字识别的字符图片自动切分系统

Info

Publication number: CN106611175A
Application number: CN201611254185.4A
Authority: CN
Inventors: 景亮; 刘世林; 唐涔轩; 康青杨
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-03

Abstract

本发明涉及图像识别处理领域，特别涉及用于图像文字识别的字符图片自动切分系统；包含图像输入模块，二值化转化模块和字符切分模块；图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中，所述字符切分模块在进行字符切分时，采用层层判断过滤切分的方式，对于粘连的字符和左右结构的字符进行自动判断和切分，在进行粘连字符切分时，将切分位置与字符边缘的距离作为了确定切分点的考虑因素；切分的准确率更高；对于左右结构的汉字字符本发明系统能够自动进行识别和合并，字符的切分结果更加合理准确。用户自需要将待识别字符输入本系统中就能完成图像文字字符的自动切分，为图像文字识别和处理提供有力工具。

Description

用于图像文字识别的字符图片自动切分系统

技术领域

本发明图像识别领域，特别涉及用于图像文字识别的字符图片自动切分系统。

背景技术

随着社会的发展和科技的进步，人类创造的知识正以指数级的数量增加，在电子书籍出现之前，大部分的知识是以图书的方式进行传承，中华上下五千年，产生了大量优秀书籍，这些书籍在历史的长河中，或多或少都遭到了不同程度的损坏，因此对这些书籍进行数字化存储迫在眉睫；在图书管理领域，书籍内容的快速搜索对于快速定位书籍很有帮助，而由于书籍数量太多，加上早期印刷的图书没有作者的电子文稿，因此纸质书籍的电子化很有必要。

光学字符识别软件就是处理这种纸质图书到电子文档转化的利器，其主要利用大量的字符样本，经过复杂网络的学习，生成相应的模型文件，从而达到识别图片中字符的目的。

光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，现有技术中在进行图像中文字的识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影法找到两个文字之间的分界线，根据分界线将文字切分开来。然而当图像中的文字之间具有粘连，且图像中包含左右结构的汉字时，简单的投影方法就很难实现较好的切分效果；正是因为这个原因使得切分一直是OCR识别的难点，切分的质量将直接影响到文字的识别效果。现有技术缺乏能实现自动图像文字切分的相关工具。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供用于图像文字识别的字符图片自动切分系统，使用投影法确定初始切分位置进行切分，对经过切分后的子图片进行判断和再次切分和合并，切分点的确定在字符图片列投影幅值的基础上引入修正值，使得切分点的判断更加合理准确，本发明系统对粘连的汉字具有很好的切分效果。

为了实现上述发明目的，本发明提供了以下技术方案：用于图像文字识别的字符图片自动切分系统，包含图像输入模块，二值化转化模块和字符切分模块；图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中；

所述字符切分模块在进行字符切分时包含以下实现过程：

(1)使用投影法待识别图像文字进行切分，切分成子图片序列；将其中的数字、字母和标点符号标记出来；

(2)对未标记的子图片进行判断：是否满足L≤M*h，L为子图片字符投影的宽度，M为系数，h为行高；

对于不满足条件的子图片进行切分，切分位置根据以下公式进行确定：

f(x)＝g(x)t(x)

重复执行步骤(2)，直到序列中未标记的子图片均满足条件：L≤M*h；

(3)对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断：是否满足L_合≤M*h；

如果满足，依序对满足条件的相邻子图片进行合并；

重复执行步骤(3)直到除数字、字母和标点以外的相邻子图片总宽度均不满足L_合≤M*h；

(4)对序列中未标记的子图片进行判断：如果序列中存在三个相邻的子图片，且三个子图片满足：第一子图片和第三子图片的宽度L≤0.5h，且中间子图片的宽度L≥h，则将中间子图片根据公式：

f(x)＝g(x)t(x)

所确定的切分点进行切分；根据确定的切分点，将中间子图片切分成第一中间子图片和第二中间子图片；

将第一子图片和第一中间子图片合并；

将第二中间子图片和第二中间图片合并。

进一步的，0.95≤M≤1.3。

作为一种优选：M＝1.2。

作为一种优选，

所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点：

A：子图片满足：L≤0.4h；

B：子图片的像素高宽比大于1.2。

进一步的，所述系统为加载有上述字符图片自动切分功能程序的计算机或者服务器。

与现有技术相比，本发明的有益效果：本发明提供用于图像文字识别的字符图片自动切分系统，包含图像输入模块，二值化转化模块和字符切分模块；所述图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中，所述字符切分模块在进行字符切分时，采用层层判断过滤切分的方式，对于粘连的字符和左右结构的字符进行自动判断和切分，在进行粘连字符切分时，将切分位置与字符边缘的距离作为了确定切分点的考虑因素；切分的准确率更高；对于左右结构的汉字字符本发明系统能够自动进行识别和合并，字符的切分结果更加合理准确。在使用时，用户自需要将待识别字符输入本系统中，就能完成图像文字字符的自动切分，为图像文字识别和处理，提供有力工具。

附图说明：

图1为本发明系统实现过程示意图。

图2为本发明系统实现步骤示意图。

图3为待识别图像样例图。

图4为粘连文字图像样例图。

图5为修正值g(x)的分布示意图。

图6为图4中字符的幅值分布示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明系统提供用于图像文字识别的字符图片自动切分系统，用于图像文字识别的字符图片自动切分系统如图1所示，包含图像输入模块，二值化转化模块和字符切分模块；所述图像输入模块可以是扫描仪、和图像存储设备；所述图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化(将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像)后输入字符切分模块中；

所述字符切分模块在进行字符切分时包含如图2所示的以下实现步骤：

f(x)＝g(x)t(x)

式中f(x)为幅值，x为列投影点在行方向上的坐标，h为当前字符的行高，g(x)为修正值，t(x)为行投影值，两者共同决定投影点的幅值，当幅值最小时，即为两个字符之间的切割点；经过g(x)的修正所找到最小幅值点作为切分点，相比于简单的最小行投影值，本系统中所寻找的切分点，引入了切分点位置与字符边缘距离的考量因素，因此具有更高的准确性，而且当遇到特殊结构字符时出现多个较小值，或者极值点时，通过本公式可以快速的找出最优化的切分点，增加了切分的准确性，提高了切分的效率。

重复执行步骤(2)，直到序列中未标记的子图片均满足条件：L≤M*h；经过循环执行本步骤，将序列中明显过大的字图片进行细切分，直到全部满足单个字符的条件，相当于对所以子图片进行了层层筛滤，并不满足条件的子图片进行了层层切分，这样，将字符间相互粘连的字符图片切分开来。

如果满足，依序对满足条件的相邻子图片进行合并；

汉字字符中包含大量的左右结构的字符，使用投影法进行切分时，由于左右结构的字体的部首之间是相互分离的，很大的可能会将左右的部首切分开，在进行识别时，需要将这些分离的部首进行重新的合并，使用本步骤实现分离字符的合并直到没有可合并的字符时结束；

f(x)＝g(x)t(x)

将第一子图片和第一中间子图片合并；

将第二中间子图片和第二中间图片合并。

在某些情况下：连续的两个左右结构的字符图片，中间具有粘连，那么在利用投影法进行切分时，可能将前后字符中间的部首切开，但是对于两个字符之间粘连的部首识别不了，而当成一个字符切分出来的情况；本发明系统对于这种情况有较好的处理效果，对于粘连的中间部分通过上述公式寻找到最佳的切分点，并将切分后的前后字符的部首进行重新的整合，达到了较好的切分效果。

在使用时，用户自需要将待识别字符输入本系统中，就能完成图像文字字符的自动切分，为图像文字识别和处理，提供有力工具。

进一步的，0.95≤M≤1.3。

作为一种优选：M＝1.2。

作为一种优选，

A：子图片满足：L≤0.4h；

B：子图片的像素高宽比大于1.2。

实施例1

如图所示3，用户在进行对图像中的文字进行识别时，将图像输入本发明系统中，所述二值化处理模块对图像文字进行二值化处理后将图像输入到字符切分模块中，所述字符切分模块经过行投影，将图像中的文字行切分出来，对每一行文字图像进行列投影，找出初始切分点，根据初始切分对文字图片进行初步的切分，形成子图片，切分成的子图片中的数字、字母和标点子图片标记出来。

在此基础上，对数字、字母和标点以外的文字字符子图片进行判断和处理，(切分后的子图片可能将相互粘连的字符切分到一起(粘连切分后字符如图4所示))，判断过程如下：序列中未标记的子图片宽度是否满足L≤1.2h？对于不满足上述条件的子图片进行切分：使用以下公式来进行切分点的判断：

f(x)＝g(x)t(x)

如图4所示的子图片，经过投影后像素的幅值分布为图5所示，可以发现当x点与行高h相距为0时，其修正值g(x)(分布如图6所示)最小，为0.5，当x与h相距越大，修正越大，由于本文假设字符的宽度与行高相当，因此可以理解为字符投影点越靠近该字符所处的宽度处时，其修正值越小，这样可以避免幅值出现多个极值点。本子图片中字符的幅值在x＝19和20处出现极小值，该子图片字符的行高为19，经g(x)的修正，可以得出f(19)＝0.5000，f(20)＝0.5025；x＝19时f(x)的值最小，x＝19确定为切分点，并根据该切分点，将子图片字符切分出来。

在上述处理的基础上，对于序列中切分满足总宽度L_合≤M*h相邻子图片进行合并，直到没有满足合并条件的子图片为止。

对于序列中的子图片进行再次判断，将满足三个子图片满足：第一子图片和第三子图片的宽度L≤0.5h，且中间子图片的宽度L≥h，使用步骤(4)中的公式进行再次切分；将切分后的前后字符两两合并；直到没有满足条件的子图片为止；完成了所有子图片的切分，并将切分后的子图片按照序列顺序输入。

Claims

1.用于图像文字识别的字符图片自动切分系统，其特征在于，包含图像输入模块，二值化转化模块和字符切分模块；图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中；

所述字符切分模块在进行字符切分时包含以下实现过程：

f(x)＝g(x)t(x)

g (x) = \frac{1}{1 + e^{- 0.01 | x - h |}}

如果满足，依序对满足条件的相邻子图片进行合并；

f(x)＝g(x)t(x)

g (x) = \frac{1}{1 + e^{- 0.01 | x - 0.5 h |}}

将第一子图片和第一中间子图片合并；

将第二中间子图片和第三子图片合并。

2.如权利要求1所述的系统，其特征在于，0.95≤M≤1.3。

3.如权利要求2所述的系统，其特征在于，M＝1.2。

4.如权利要求1至3之一所述的系统，其特征在于，所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点：

A：子图片满足：L≤0.4h；

B：子图片的像素高宽比大于1.2。

5.如权利要求4所述的系统，其特征在于：所述系统为加载有所述字符图片自动切分功能程序的计算机或者服务器。