CN106778758A - 用于图像文字识别的字符切分方法 - Google Patents

用于图像文字识别的字符切分方法 Download PDF

Info

Publication number
CN106778758A
CN106778758A CN201611250740.6A CN201611250740A CN106778758A CN 106778758 A CN106778758 A CN 106778758A CN 201611250740 A CN201611250740 A CN 201611250740A CN 106778758 A CN106778758 A CN 106778758A
Authority
CN
China
Prior art keywords
pictures
sub
cutting
character
cut
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611250740.6A
Other languages
English (en)
Inventor
景亮
刘世林
唐涔轩
康青杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201611250740.6A priority Critical patent/CN106778758A/zh
Publication of CN106778758A publication Critical patent/CN106778758A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及图像识别处理领域,特别涉及用于图像文字识别的字符切分方法;使用相应的规则条件,逐级的来判断切分后的子图片的切分质量,并对切分后的子图片进行相应的处理,层层筛选和处理的方式,保证子图片的切分质量;为最终的识别率,进一步准备了条件。此外相比于传统的切分方法,本发明方法在幅值的基础上引入了修正值,将切分位置与字符边缘的距离作为了确定切分点的考虑因素,因此具有更高的准确性,而且当遇到特殊结构字符时出现多个较小值,或者极值点时,通过本公式可以快速的找出最优化的切分点,增加了切分的准确性,提高了切分的效率;对粘连字符的切分效果更好。

Description

用于图像文字识别的字符切分方法
技术领域
本发明图像识别领域,特别涉及用于图像文字识别的字符切分方法。
背景技术
随着社会的发展和科技的进步,人类创造的知识正以指数级的数量增加,在电子书籍出现之前,大部分的知识是以图书的方式进行传承,中华上下五千年,产生了大量优秀书籍,这些书籍在历史的长河中,或多或少都遭到了不同程度的损坏,因此对这些书籍进行数字化存储迫在眉睫;在图书管理领域,书籍内容的快速搜索对于快速定位书籍很有帮助,而由于书籍数量太多,加上早期印刷的图书没有作者的电子文稿,因此纸质书籍的电子化很有必要。
光学字符识别软件就是处理这种纸质图书到电子文档转化的利器,其主要利用大量的字符样本,经过复杂网络的学习,生成相应的模型文件,从而达到识别图片中字符的目的。
光学字符识别软件主要功能是识别拍摄、扫描图片中的字符,现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影法找到两个文字之间的分界线,根据分界线将文字切分开来。然而当图像中的文字之间具有粘连,且图像中包含左右结构的汉字时,简单的投影方法就很难实现较好的切分效果;正是因为这个原因使得切分一直是OCR识别的难点,切分的质量将直接影响到文字的识别效果。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供用于图像文字识别的字符切分方法,使用投影法确定初始切分位置进行切分,对经过切分后的子图片进行判断和再次切分和合并,切分点的确定在字符图片列投影幅值的基础上引入修正值,使得切分点的判断更加合理准确,本发明方法对粘连的汉字具有很好的切分效果。
为了实现上述发明目的,本发明提供了以下技术方案:用于图像文字识别的字符切分方法,包含以下实现过程:使用投影法找出文字字符图片的初始切分位置,根据初始切分位置将待识别图像片切分成初始子图片序列;
对于切分后宽度L>M*行高h的子图片进行再次切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
式中f(x)为幅值,x为列投影点在行方向上的坐标,h为当前字符的行高,g(x)为修正值,t(x)为行投影值,当幅值最小时,即为两个字符之间的切割点。
具体的:本用于图像文字识别的字符切分方法包含以下实现步骤:
(1)使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
(2)对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
重复执行步骤(2),直到序列中未标记的子图片均满足条件:L≤M*h;
(3)对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤(3)直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
(4)对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
进一步的,0.95≤M≤1.3。
作为一种优选:M=1.2。
作为一种优选,
所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点
A:子图片满足:L≤0.4h;
B:子图片的像素高宽比大于1.2。
与现有技术相比,本发明的有益效果:本发明提供用于图像文字识别的字符切分方法,使用投影法确定初始切分位置进行切分,对经过切分后的子图片进行判断和再次切分和合并,本发明使用相应的规则条件,逐级的来判断切分后的子图片的切分质量,并对切分后的子图片进行相应的处理,层层筛选和处理的方式,保证子图片的切分质量;为最终的识别率,进一步准备了条件。
此外相比于传统的切分方法,本发明方法在幅值的基础上引入了修正值,将切分位置与字符边缘的距离作为了确定切分点的考虑因素,因此具有更高的准确性,而且当遇到特殊结构字符时出现多个极值点时,通过本发明方法公式可以快速的找出最优化的切分点,增加了切分的准确性,提高了切分的效率;对粘连字符的切分效果更好。
附图说明:
图1为本发明方法实现过程示意图。
图2为本发明方法实现步骤示意图。
图3为待识别图像样例图。
图4为粘连文字图像样例图。
图5为修正值g(x)的分布示意图。
图6为图5中字符的幅值分布示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明方法提供用于图像文字识别的字符切分方法,使用投影法找出文字字符图片的初始切分位置,根据初始切分位置将待识别图像片切分成初始子图片序列;
对于切分后宽度L>M*行高h的子图片进行再次切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
式中f(x)为幅值,x为列投影点在行方向上的坐标,h为当前字符的行高,g(x)为修正值,t(x)为行投影值,当幅值最小时,即为两个字符之间的切割点。
具体的:本用于图像文字识别的字符切分方法包含如1和图2所示的以下实现步骤:
(1)使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
(2)对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
式中f(x)为幅值,x为列投影点在行方向上的坐标,h为当前字符的行高,g(x)为修正值,t(x)为行投影值,两者共同决定投影点的幅值,当幅值最小时,即为两个字符之间的切割点;经过g(x)的修正所找到最小幅值点作为切分点,相比于简单的最小行投影值,本中所寻找的切分点,引入了切分点位置与字符边缘距离的考量因素,因此具有更高的准确性,而且当遇到特殊结构字符时出现 多个较小值,或者极值点时,通过本公式可以快速的找出最优化的切分点,增加了切分的准确性,提高了切分的效率。
重复执行步骤(2),直到序列中未标记的子图片均满足条件:L≤M*h;经过循环执行本步骤,将序列中明显过大的字图片进行细切分,直到全部满足单个字符的条件,相当于对所以子图片进行了层层筛滤,并不满足条件的子图片进行了层层切分,这样,将字符间相互粘连的字符图片切分开来。
(3)对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤(3)直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
汉字字符中包含大量的左右结构的字符,使用投影法进行切分时,由于左右结构的字体的部首之间是相互分离的,很大的可能会将左右的部首切分开,在进行识别时,需要将这些分离的部首进行重新的合并,使用本步骤实现分离字符的合并直到没有可合并的字符时结束;
(4)对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
在某些情况下:连续的两个左右结构的字符图片,中间具有粘连,那么在利用投影法进行切分时,可能将前后字符中间的部首切开,但是对于两个字符之间粘连的部首识别不了,而当成一个字符切分出来的情况;本发明方法对于这种情况有较好的处理效果,对于粘连的中间部分通过上述公式寻找到最佳的切分点,并将切分后的前后字符的部首进行重新的整合,达到了较好的切分效果。
进一步的,0.95≤M≤1.3。
作为一种优选:M=1.2。
作为一种优选,
所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点:
A:子图片满足:L≤0.4h;
B:子图片的像素高宽比大于1.2。
实施例1
如图所示3,对图像中的文字进行识别时,将图像文字进行二值化处理后,经过行投影,将图像中的文字行切分出来,对每一行文字图像进行列投影,找出初始切分点,根据初始切分对文字图片进行初步的切分,形成子图片,切分成的子图片中的数字、字母和标点子图片标记出来。
在此基础上,对数字、字母和标点以外的文字字符子图片进行判断和处理,(切分后的子图片可能将相互粘连的字符切分到一起(粘连切分后字符如图4 所示)),判断过程如下:序列中未标记的子图片宽度是否满足L≤1.2h?对于不满足上述条件的子图片进行切分:使用以下公式来进行切分点的判断:
f(x)=g(x)t(x)
如图4所示的子图片,经过投影后像素的幅值分布为图5所示,可以发现当x点与行高h相距为0时,其修正值g(x)(分布如图6所示)最小,为0.5,当x与h相距越大,修正越大,由于本文假设字符的宽度与行高相当,因此可以理解为字符投影点越靠近该字符所处的宽度处时,其修正值越小,这样可以避免幅值出现多个极值点。本子图片中字符的幅值在x=19和20处出现极小值,该子图片字符的行高为19,经g(x)的修正,可以得出f(19)=0.5000,f(20)=0.5025;x=19时f(x)的值最小,x=19确定为切分点,并根据该切分点,将子图片字符切分出来。
在上述处理的基础上,对于序列中切分满足总宽度L≤M*h相邻子图片进行合并,直到没有满足合并条件的子图片为止。
对于序列中的子图片进行再次判断,将满足三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,使用步骤(4)中的公式进行再次切分;将切分后的前后字符两两合并;直到没有满足条件的子图片为止;完成了所有子图片的切分。

Claims (5)

1.用于图像文字识别的字符切分方法,其特征在于,包含以下实现过程:
使用投影法找出文字字符图片的初始切分位置,根据初始切分位置将待识别图像片切分成初始子图片序列;
对于切分后宽度L>M*行高h的子图片进行再次切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
g ( x ) = 1 1 + e - 0.01 | x - h |
式中f(x)为幅值,x为列投影点在行方向上的坐标,h为当前字符的行高,g(x)为修正值,t(x)为行投影值,当幅值最小时,即为两个字符之间的切割点。
2.如权利要求1所述的方法,其特征在于,所述切分过程包含以下实现步骤:
(1)使用投影法待识别图像文字进行切分,切分成子图片序列;将其中的数字、字母和标点符号标记出来;
(2)对未标记的子图片进行判断:是否满足L≤M*h,L为子图片字符投影的宽度,M为系数,h为行高;
对于不满足条件的子图片进行切分,切分位置根据以下公式进行确定:
f(x)=g(x)t(x)
g ( x ) = 1 1 + e - 0.01 | x - h |
重复执行步骤(2),直到序列中未标记的子图片均满足条件:L≤M*h;
(3)对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断:是否满足L≤M*h;
如果满足,依序对满足条件的相邻子图片进行合并;
重复执行步骤(3)直到除数字、字母和标点以外的相邻子图片总宽度均不满足L≤M*h;
(4)对序列中未标记的子图片进行判断:如果序列中存在三个相邻的子图片,且三个子图片满足:第一子图片和第三子图片的宽度L≤0.5h,且中间子图片的宽度L≥h,则将中间子图片根据公式:
f(x)=g(x)t(x)
g ( x ) = 1 1 + e - 0.01 | x - 0.5 h |
所确定的切分点进行切分;根据确定的切分点,将中间子图片切分成第一中间子图片和第二中间子图片;
将第一子图片和第一中间子图片合并;
将第二中间子图片和第三子图片合并。
3.如权利要求2所述的方法,其特征在于,0.95≤M≤1.3。
4.如权利要求3所述的方法,其特征在于,M=1.2。
5.如权利要求1至4之一所述的方法,其特征在于,所述步骤(1)中使用以下规则来判断所切分出的子图片是否属于数字、字母和标点:
A:子图片满足:L≤0.4h;
B:子图片的像素高宽比大于1.2。
CN201611250740.6A 2016-12-29 2016-12-29 用于图像文字识别的字符切分方法 Pending CN106778758A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611250740.6A CN106778758A (zh) 2016-12-29 2016-12-29 用于图像文字识别的字符切分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611250740.6A CN106778758A (zh) 2016-12-29 2016-12-29 用于图像文字识别的字符切分方法

Publications (1)

Publication Number Publication Date
CN106778758A true CN106778758A (zh) 2017-05-31

Family

ID=58928008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611250740.6A Pending CN106778758A (zh) 2016-12-29 2016-12-29 用于图像文字识别的字符切分方法

Country Status (1)

Country Link
CN (1) CN106778758A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766893A (zh) * 2019-01-09 2019-05-17 北京数衍科技有限公司 适于购物小票的图片文字识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5253304A (en) * 1991-11-27 1993-10-12 At&T Bell Laboratories Method and apparatus for image segmentation
JPH08305795A (ja) * 1995-04-28 1996-11-22 Nippon Steel Corp 文字認識方法
CN101017533A (zh) * 2007-03-09 2007-08-15 清华大学 印刷体蒙古文字符识别方法
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
JP2014127161A (ja) * 2012-12-27 2014-07-07 Nidec Sankyo Corp 文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
CN104751194A (zh) * 2015-04-27 2015-07-01 陈包容 一种财务费用报销的处理方法及装置
CN105069456A (zh) * 2015-07-30 2015-11-18 北京邮电大学 一种车牌字符分割方法及装置
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5253304A (en) * 1991-11-27 1993-10-12 At&T Bell Laboratories Method and apparatus for image segmentation
JPH08305795A (ja) * 1995-04-28 1996-11-22 Nippon Steel Corp 文字認識方法
CN101017533A (zh) * 2007-03-09 2007-08-15 清华大学 印刷体蒙古文字符识别方法
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
JP2014127161A (ja) * 2012-12-27 2014-07-07 Nidec Sankyo Corp 文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
CN104751194A (zh) * 2015-04-27 2015-07-01 陈包容 一种财务费用报销的处理方法及装置
CN105069456A (zh) * 2015-07-30 2015-11-18 北京邮电大学 一种车牌字符分割方法及装置
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苗红霞,张龙,徐文杰,齐本胜: "一种身份证图像字符分割的改进方法", 《微处理机》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766893A (zh) * 2019-01-09 2019-05-17 北京数衍科技有限公司 适于购物小票的图片文字识别方法

Similar Documents

Publication Publication Date Title
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
CN106682698A (zh) 基于模板匹配的ocr识别方法
CN106611174A (zh) 一种非常见字体的ocr识别方法
US9785867B2 (en) Character recognition device, image display device, image retrieval device, character recognition method, and computer program product
CN102054178B (zh) 一种基于局部语义概念的国画图像识别方法
CN107093172B (zh) 文字检测方法及系统
CN106682671A (zh) 图像文字识别系统
CN106682667A (zh) 非常见字体的图像文字ocr识别系统
CN106649597A (zh) 一种基于图书内容的图书书后索引自动构建方法
CN104239909B (zh) 一种图像的识别方法和装置
CN108509425A (zh) 一种基于新颖度的中文新词发现方法
CN104317891B (zh) 一种对页面标注标签的方法及装置
US20070081179A1 (en) Image processing device, image processing method, and computer program product
US20110229035A1 (en) Image processing apparatus, image processing method, and storage medium
CN106228183A (zh) 一种半监督学习分类方法与装置
CN105447522A (zh) 一种复杂图像文字识别系统
CN105512611A (zh) 一种表格图像检测识别方法
CN106886576A (zh) 一种基于预分类的短文本关键词提取方法及系统
CN103593338B (zh) 一种信息处理方法及装置
RU2010122947A (ru) Способ анализа изображения, в частности, для мобильного устройства
CN109685061A (zh) 适用于结构化的数学公式的识别方法
Boiangiu et al. Voting-based layout analysis
CN106778759A (zh) 用于图像文字识别的特征图片自动生成系统
CN106682666A (zh) 用于非常见字体ocr识别的特征模板制备方法
CN108288061A (zh) 一种基于mser快速在自然场景中定位倾斜文本的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170531

WD01 Invention patent application deemed withdrawn after publication