CN106611175A - 用于图像文字识别的字符图片自动切分系统 - Google Patents

用于图像文字识别的字符图片自动切分系统 Download PDF

Info

Publication number
CN106611175A
CN106611175A CN201611254185.4A CN201611254185A CN106611175A CN 106611175 A CN106611175 A CN 106611175A CN 201611254185 A CN201611254185 A CN 201611254185A CN 106611175 A CN106611175 A CN 106611175A
Authority
CN
China
Prior art keywords
pictures
sub
character
cutting
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611254185.4A
Other languages
English (en)
Inventor
景亮
刘世林
唐涔轩
康青杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201611254185.4A priority Critical patent/CN106611175A/zh
Publication of CN106611175A publication Critical patent/CN106611175A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Abstract

本发明涉及图像识别处理领域,特别涉及用于图像文字识别的字符图片自动切分系统;包含图像输入模块,二值化转化模块和字符切分模块;图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中,所述字符切分模块在进行字符切分时,采用层层判断过滤切分的方式,对于粘连的字符和左右结构的字符进行自动判断和切分,在进行粘连字符切分时,将切分位置与字符边缘的距离作为了确定切分点的考虑因素;切分的准确率更高;对于左右结构的汉字字符本发明系统能够自动进行识别和合并,字符的切分结果更加合理准确。用户自需要将待识别字符输入本系统中就能完成图像文字字符的自动切分,为图像文字识别和处理提供有力工具。

Description

用于图像文字识别的字符图片自动切分系统
技术领域
本发明图像识别领域,特别涉及用于图像文字识别的字符图片自动切分系统。
背景技术
随着社会的发展和科技的进步,人类创造的知识正以指数级的数量增加,在电子书籍出现之前,大部分的知识是以图书的方式进行传承,中华上下五千年,产生了大量优秀书籍,这些书籍在历史的长河中,或多或少都遭到了不同程度的损坏,因此对这些书籍进行数字化存储迫在眉睫;在图书管理领域,书籍内容的快速搜索对于快速定位书籍很有帮助,而由于书籍数量太多,加上早期印刷的图书没有作者的电子文稿,因此纸质书籍的电子化很有必要。
光学字符识别软件就是处理这种纸质图书到电子文档转化的利器,其主要利用大量的字符样本,经过复杂网络的学习,生成相应的模型文件,从而达到识别图片中字符的目的。
光学字符识别软件主要功能是识别拍摄、扫描图片中的字符,现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影法找到两个文字之间的分界线,根据分界线将文字切分开来。然而当图像中的文字之间具有粘连,且图像中包含左右结构的汉字时,简单的投影方法就很难实现较好的切分效果;正是因为这个原因使得切分一直是OCR识别的难点,切分的质量将直接影响到文字的识别效果。现有技术缺乏能实现自动图像文字切分的相关工具。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供用于图像文字识别的字符图片自动切分系统,使用投影法确定初始切分位置进行切分,对经过切分后的子图片进行判断和再次切分和合并,切分点的确定在字符图片列投影幅值的基础上引入修正值,使得切分点的判断更加合理准确,本发明系统对粘连的汉字具有很好的切分效果。
为了实现上述发明目的,本发明提供了以下技术方案:用于图像文字识别的字符图片自动切分系统,包含图像输入模块,二值化转化模块和字符切分模块;图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中;
所述字符切分模块在进行字符切分时包含以下实现过程:
(1)使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
(2)对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
重复执行步骤(2),直到序列中未标记的子图片均满足条件:L≤M*h;
(3)对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤(3)直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
(4)对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第二中间图片合并。
进一步的,0.95≤M≤1.3。
作为一种优选:M=1.2。
作为一种优选,
所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点:
A:子图片满足:L≤0.4h;
B:子图片的像素高宽比大于1.2。
进一步的,所述系统为加载有上述字符图片自动切分功能程序的计算机或者服务器。
与现有技术相比,本发明的有益效果:本发明提供用于图像文字识别的字符图片自动切分系统,包含图像输入模块,二值化转化模块和字符切分模块;所述图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中,所述字符切分模块在进行字符切分时,采用层层判断过滤切分的方式,对于粘连的字符和左右结构的字符进行自动判断和切分,在进行粘连字符切分时,将切分位置与字符边缘的距离作为了确定切分点的考虑因素;切分的准确率更高;对于左右结构的汉字字符本发明系统能够自动进行识别和合并,字符的切分结果更加合理准确。在使用时,用户自需要将待识别字符输入本系统中,就能完成图像文字字符的自动切分,为图像文字识别和处理,提供有力工具。
附图说明:
图1为本发明系统实现过程示意图。
图2为本发明系统实现步骤示意图。
图3为待识别图像样例图。
图4为粘连文字图像样例图。
图5为修正值g(x)的分布示意图。
图6为图4中字符的幅值分布示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明系统提供用于图像文字识别的字符图片自动切分系统,用于图像文字识别的字符图片自动切分系统如图1所示,包含图像输入模块,二值化转化模块和字符切分模块;所述图像输入模块可以是扫描仪、和图像存储设备;所述图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化(将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像)后输入字符切分模块中;
所述字符切分模块在进行字符切分时包含如图2所示的以下实现步骤:
(1)使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
(2)对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
式中f(x)为幅值,x为列投影点在行方向上的坐标,h为当前字符的行高,g(x)为修正值,t(x)为行投影值,两者共同决定投影点的幅值,当幅值最小时,即为两个字符之间的切割点;经过g(x)的修正所找到最小幅值点作为切分点,相比于简单的最小行投影值,本系统中所寻找的切分点,引入了切分点位置与字符边缘距离的考量因素,因此具有更高的准确性,而且当遇到特殊结构字符时出现多个较小值,或者极值点时,通过本公式可以快速的找出最优化的切分点,增加了切分的准确性,提高了切分的效率。
重复执行步骤(2),直到序列中未标记的子图片均满足条件:L≤M*h;经过循环执行本步骤,将序列中明显过大的字图片进行细切分,直到全部满足单个字符的条件,相当于对所以子图片进行了层层筛滤,并不满足条件的子图片进行了层层切分,这样,将字符间相互粘连的字符图片切分开来。
(3)对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤(3)直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
汉字字符中包含大量的左右结构的字符,使用投影法进行切分时,由于左右结构的字体的部首之间是相互分离的,很大的可能会将左右的部首切分开,在进行识别时,需要将这些分离的部首进行重新的合并,使用本步骤实现分离字符的合并直到没有可合并的字符时结束;
(4)对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第二中间图片合并。
在某些情况下:连续的两个左右结构的字符图片,中间具有粘连,那么在利用投影法进行切分时,可能将前后字符中间的部首切开,但是对于两个字符之间粘连的部首识别不了,而当成一个字符切分出来的情况;本发明系统对于这种情况有较好的处理效果,对于粘连的中间部分通过上述公式寻找到最佳的切分点,并将切分后的前后字符的部首进行重新的整合,达到了较好的切分效果。
在使用时,用户自需要将待识别字符输入本系统中,就能完成图像文字字符的自动切分,为图像文字识别和处理,提供有力工具。
进一步的,0.95≤M≤1.3。
作为一种优选:M=1.2。
作为一种优选,
所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点:
A:子图片满足:L≤0.4h;
B:子图片的像素高宽比大于1.2。
进一步的,所述系统为加载有上述字符图片自动切分功能程序的计算机或者服务器。
实施例1
如图所示3,用户在进行对图像中的文字进行识别时,将图像输入本发明系统中,所述二值化处理模块对图像文字进行二值化处理后将图像输入到字符切分模块中,所述字符切分模块经过行投影,将图像中的文字行切分出来,对每一行文字图像进行列投影,找出初始切分点,根据初始切分对文字图片进行初步的切分,形成子图片,切分成的子图片中的数字、字母和标点子图片标记出来。
在此基础上,对数字、字母和标点以外的文字字符子图片进行判断和处理,(切分后的子图片可能将相互粘连的字符切分到一起(粘连切分后字符如图4所示)),判断过程如下:序列中未标记的子图片宽度是否满足L≤1.2h?对于不满足上述条件的子图片进行切分:使用以下公式来进行切分点的判断:
f(x)=g(x)t(x)
如图4所示的子图片,经过投影后像素的幅值分布为图5所示,可以发现当x点与行高h相距为0时,其修正值g(x)(分布如图6所示)最小,为0.5,当x与h相距越大,修正越大,由于本文假设字符的宽度与行高相当,因此可以理解为字符投影点越靠近该字符所处的宽度处时,其修正值越小,这样可以避免幅值出现多个极值点。本子图片中字符的幅值在x=19和20处出现极小值,该子图片字符的行高为19,经g(x)的修正,可以得出f(19)=0.5000,f(20)=0.5025;x=19时f(x)的值最小,x=19确定为切分点,并根据该切分点,将子图片字符切分出来。
在上述处理的基础上,对于序列中切分满足总宽度L≤M*h相邻子图片进行合并,直到没有满足合并条件的子图片为止。
对于序列中的子图片进行再次判断,将满足三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,使用步骤(4)中的公式进行再次切分;将切分后的前后字符两两合并;直到没有满足条件的子图片为止;完成了所有子图片的切分,并将切分后的子图片按照序列顺序输入。

Claims (5)

1.用于图像文字识别的字符图片自动切分系统,其特征在于,包含图像输入模块,二值化转化模块和字符切分模块;图像输入模块将需要识别的图像输入到二值化转化模块中进行二值化转化后输入字符切分模块中;
所述字符切分模块在进行字符切分时包含以下实现过程:
(1)使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
(2)对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
g ( x ) = 1 1 + e - 0.01 | x - h |
重复执行步骤(2),直到序列中未标记的子图片均满足条件:L≤M*h;
(3)对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤(3)直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
(4)对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
g ( x ) = 1 1 + e - 0.01 | x - 0.5 h |
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
2.如权利要求1所述的系统,其特征在于,0.95≤M≤1.3。
3.如权利要求2所述的系统,其特征在于,M=1.2。
4.如权利要求1至3之一所述的系统,其特征在于,所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点:
A:子图片满足:L≤0.4h;
B:子图片的像素高宽比大于1.2。
5.如权利要求4所述的系统,其特征在于:所述系统为加载有所述字符图片自动切分功能程序的计算机或者服务器。
CN201611254185.4A 2016-12-29 2016-12-29 用于图像文字识别的字符图片自动切分系统 Pending CN106611175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254185.4A CN106611175A (zh) 2016-12-29 2016-12-29 用于图像文字识别的字符图片自动切分系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254185.4A CN106611175A (zh) 2016-12-29 2016-12-29 用于图像文字识别的字符图片自动切分系统

Publications (1)

Publication Number Publication Date
CN106611175A true CN106611175A (zh) 2017-05-03

Family

ID=58636758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254185.4A Pending CN106611175A (zh) 2016-12-29 2016-12-29 用于图像文字识别的字符图片自动切分系统

Country Status (1)

Country Link
CN (1) CN106611175A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942074A (zh) * 2018-09-25 2020-03-31 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684891A (en) * 1991-10-21 1997-11-04 Canon Kabushiki Kaisha Method and apparatus for character recognition
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
CN101515325A (zh) * 2009-04-08 2009-08-26 北京邮电大学 基于字符切分和颜色聚类的数字视频中的字符提取方法
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN102479326A (zh) * 2010-11-30 2012-05-30 方正国际软件(北京)有限公司 一种图文识别人工校对辅助方法及系统
CN103295009A (zh) * 2013-06-20 2013-09-11 电子科技大学 基于笔画分解的车牌字符识别方法
CN104636747A (zh) * 2013-11-11 2015-05-20 北京大学 一种字符去粘连的方法及系统
CN104636744A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种数字切分方法及系统
CN104992449A (zh) * 2015-08-06 2015-10-21 西安冉科信息技术有限公司 基于机器视觉的信息识别及表面缺陷在线检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684891A (en) * 1991-10-21 1997-11-04 Canon Kabushiki Kaisha Method and apparatus for character recognition
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
CN101515325A (zh) * 2009-04-08 2009-08-26 北京邮电大学 基于字符切分和颜色聚类的数字视频中的字符提取方法
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN102479326A (zh) * 2010-11-30 2012-05-30 方正国际软件(北京)有限公司 一种图文识别人工校对辅助方法及系统
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN103295009A (zh) * 2013-06-20 2013-09-11 电子科技大学 基于笔画分解的车牌字符识别方法
CN104636747A (zh) * 2013-11-11 2015-05-20 北京大学 一种字符去粘连的方法及系统
CN104636744A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种数字切分方法及系统
CN104992449A (zh) * 2015-08-06 2015-10-21 西安冉科信息技术有限公司 基于机器视觉的信息识别及表面缺陷在线检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RICHARD G. CASEY等: "A Survey of Methods and Strategies in Character Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLGENCE》 *
安艳辉等: "粘连搭接字符切分方法研究", 《河北师范大学学报(自然科学版)》 *
张振绘等: "女书文字切分算法的设计与实现", 《中国科技信息》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942074A (zh) * 2018-09-25 2020-03-31 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质
WO2020063314A1 (zh) * 2018-09-25 2020-04-02 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质
CN110942074B (zh) * 2018-09-25 2024-04-09 京东科技控股股份有限公司 字符切分识别方法、装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
CN109117836B (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
US8041113B2 (en) Image processing device, image processing method, and computer program product
CN103824053B (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
CN109376658A (zh) 一种基于深度学习的ocr方法
CN106682671A (zh) 图像文字识别系统
CN106611174A (zh) 一种非常见字体的ocr识别方法
CN104239909B (zh) 一种图像的识别方法和装置
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN106682667A (zh) 非常见字体的图像文字ocr识别系统
CN106682698A (zh) 基于模板匹配的ocr识别方法
Arai et al. Method for automatic e-comic scene frame extraction for reading comic on mobile devices
CN107766854B (zh) 一种基于模板匹配实现快速页码识别的方法
CN111401353A (zh) 一种数学公式的识别方法、装置及设备
CN110879963A (zh) 一种敏感表情包检测方法、装置与电子设备
CN113221711A (zh) 一种信息提取方法及装置
CN111738994A (zh) 一种轻量级的pcb缺陷检测方法
CN110135407A (zh) 样本标注方法及计算机存储介质
CN112861865A (zh) 一种基于ocr技术的辅助审计方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN109685061A (zh) 适用于结构化的数学公式的识别方法
JPH11213160A (ja) 画像処理方法及び装置及びその記憶媒体
CN112016560A (zh) 覆盖文本识别方法、装置、电子设备及存储介质
CN106778759A (zh) 用于图像文字识别的特征图片自动生成系统
CN110728119B (zh) 一种海报生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503

WD01 Invention patent application deemed withdrawn after publication