CN102184383B - 一种印刷体字符图像样本的自动生成方法 - Google Patents

一种印刷体字符图像样本的自动生成方法 Download PDF

Info

Publication number
CN102184383B
CN102184383B CN 201110096820 CN201110096820A CN102184383B CN 102184383 B CN102184383 B CN 102184383B CN 201110096820 CN201110096820 CN 201110096820 CN 201110096820 A CN201110096820 A CN 201110096820A CN 102184383 B CN102184383 B CN 102184383B
Authority
CN
China
Prior art keywords
character
document
sample
image
locating piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110096820
Other languages
English (en)
Other versions
CN102184383A (zh
Inventor
夏勇
王宽全
左旺孟
黎捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN 201110096820 priority Critical patent/CN102184383B/zh
Publication of CN102184383A publication Critical patent/CN102184383A/zh
Application granted granted Critical
Publication of CN102184383B publication Critical patent/CN102184383B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

一种印刷体字符图像样本的自动生成方法,它涉及字符图像样本的自动生成方法。本发明解决了现有的字符采集方法分割精度低,需人工校验,从而造成样本采集速度慢的技术问题。本发明:将印刷体字符处理成样本字符,设计带有定位区的文档模板,将样本字符输到文档模板的字符区,转换为PDF格式后打印纸质文档,再扫描或照相后,得到实际图像;将PDF格式文档变换为图像,得到理想图像;再从PDF格式文档中抽取字符的位置信息,得到理想图像的字符基准;将理想图像与实际图像配准,建立两幅图像的映射关系,根据射影变换模型将理想图像的字符位置信息映射到实际图像中,将字符图像提取出来,编码保存。本发明适于任何语种的印刷体字符图像。

Description

一种印刷体字符图像样本的自动生成方法
技术领域
本发明涉及字符图像样本的自动生成方法。
背景技术
印刷体字符的光学字符识别技术已经有了较为广泛的商业应用,但对于低质量或低分辨率的文档图像而言识别率还有待进一步提高。为了提高字符识别的精度,一般需要采集大量的字符图像样本来进行学习。学习样本的好坏往往直接决定了字符识别性能的高低,所以字符样本的采集非常重要。现有的字符采集方法一般是先将文本输入到字符编辑软件中,选择相应的字体和字号,然后打印成纸质文档,接着使用扫描仪转换为图像格式。为了得到单个字符样本,需要设计一个特别的字符分割算法,一般是利用字符间的间隙作为特征来进行分割。由于扫描的过程中会带来一定的噪声,以及在打印或扫描时由于纸质的放置不当会导致文档出现一定程度的倾斜,所以字符分割结果往往难以达到100%的精度。由于不同字符样本是一种串行的排列,一旦出现一个分割错误,将导致所有后续单元全部出现串位的现象。所以,在样本采集时,分割错误是不能容忍的。为了保证分割的有效性,一般在自动化分割结束后,还需要人工对分割结果进行校验。如果出现错误,还需要人工进行纠正。显然,字符样本的校验是一个繁琐且枯燥的工作,且人眼容易产生视觉疲劳而导致漏检等现象。
对于中文字符识别而言,识别的字符范围从一级国标的3755类开始,后来逐渐扩充到二级国标,字符类别数量增加到6763类,现在常用的GB18030-2000字库,字符类别已经达到了27533类,以及最新的GB18030-2005字库,字符类别已经达到了70244。中文字体也从最初的6种常用字体(宋体、黑体、楷体、隶书、幼圆、仿宋)扩充到现在的数十种。如果考虑字号从一号到小六共12个字号,字体共20种,字符类别为GB18030-2000中的27533类,则不同的字符样本数量为12×20×27533=6607920。如果再考虑不同的扫描分辨率及其它扫描参数,字符样本数量将达到上亿个。如此巨大的样本数量,如果完全人工进行校验,需要耗费大量的时间与精力,且容易出现漏检或误操作。
同时,随着基于照相机的字符识别技术的发展,传统的基于扫描仪的字符样本并不是最恰当的学习样本,最好是直接基于照相机来采集字符样本,这样更有针对性。由于照相机得到的文档会存在透视变形,所以给自动化的文档字符分割带来了更大的难度。如何提取照相机得到的字符样本也成为了一个非常迫切的问题。
可见,一个具有100%分割精度的快速字符分割算法是值得期待的,这样可以免去人工的校验步骤,大大提高字符样本的采集速度与效率。该方法适用于任何语种的印刷体字符图像样本的生成。
发明内容
本发明是要解决现有的字符采集方法分割精度低,需进行人工校验,从而造成的样本采集的速度慢的技术问题,而提供一种印刷体字符图像样本的自动生成方法。
本发明的一种印刷体字符图像样本的自动生成方法按以下步骤进行:
步骤一:将印刷体字符输入到一个文本文件index.txt中,相邻两个字符之间插入一个空格,得到样本字符;
步骤二:在字符编辑软件中设计一个文档模板,并把文档模板区域内距四周边缘1cm~1.5cm的位置设置“矩形框状”定位区,定位区的框的宽度为0.9cm~1.2cm,在定位区内散布放置n个字号为m个points的定位块‘●’,其中n至少为4个,m的范围为12points~28points,再在定位区所包围的区域的上部划出来字符区,在定位区所包围的区域的下部划出来标题区,其中字符区和标题区相距0.5cm~1.0cm,字符区与定位区相距0.5cm~1.0cm,标题区与定位区相距0.5cm~1.0cm,将步骤一所述的样本字符输入到字符区,将标明样本字符内容特性的标识输入到标题区,得到文档D1;
步骤三:将文档D1转换为PDF格式的文档D2;
步骤四:将D2打印成纸质文档,用扫描仪扫描或照相机照相,得到图像格式的文档D3,其中扫描时采用的分辨率为g个dpi;
步骤五:从步骤三所述的文档D2中提取每个字符的外接矩形框的四个角点的位置坐标信息作为字符的坐标位置信息,从文档D2中提取每个定位块‘●’的外接矩形框的四个角点的位置坐标信息作为定位块‘●’的坐标位置信息,从文档D2中提取每个字符和定位块‘●’的ASCII码信息,再把字符的坐标位置信息、定位块‘●’的坐标位置信息、字符的ASCII码信息和定位块‘●’的ASCII码信息用XML格式进行保存,得到文档D4;
步骤六:将步骤二所述的文档D2转换为图像格式,得到文档D5;
步骤七:将步骤四所述的文档D3进行二值化,得到二值化图像D6;
步骤八:在步骤七所述的图像D6中检测定位块‘●’,提取定位块‘●’的质心q1(x1,y1)、q2(x2,y2)、q3(x3,y3)......qn(xn,yn);
步骤九:根据步骤五所述的文档D4计算出定位块‘●’的质心p1(u1,v1)、p2(u2,v2)、p3(u3,v3)......pn(un,vn);
步骤十:将质心q1(x1,y1)与p1(u1,v1)对应,q2(x2,y2)与p2(u2,v2)对应、q3(x3,y3)与p3(u3,v3)对应.......qn(xn,yn)与pn(un,vn)对应,作为射影变换模型的对应特征点代入到该射影变换模型中,求出射影变换模型的参数a1、b1、c1、a2、b2、c2、a3和b3,得到射影变换模型;其中该射影变换模型为
Figure BDA0000055922830000031
其中i=1、2、3、......、n;
步骤十一:根据步骤十所得的射影变换模型,将步骤六所述的文档D5中的所有字符单元位置坐标映射到图像D6中,然后保存为XML标引文档D7;
步骤十二:基于标引文档D7,得到文档中所有的字符样本图像,并进行编码与保存,然后建立字符与文件名的索引表,完成印刷体字符图像样本的自动生成过程。
本发明将所有需要制作样本的字符ASCII码编辑为一个电子文档,通过设置不同的字体、字号即可获得不同类型的样本来源,然后将文档打印、扫描或照相,即可得到图像格式样本文档;为了将文档中的字符自动进行分割,本发明采用了将实际图像文档与通过电子化文档合成的图像文档进行配准,这两种文档之间的变换可近似看成为一个射影变换过程,在字符样本文档设计时,在文档四周加入了多个定位标记块,所以在配准时,需先将两幅图像中的定位块检测到,然后将定位块的重心作为对应的特征点,从而估计出射影变换模型中所有的参数,然后基于该射影变换模型,将合成图像中字符的坐标变换到实际文档图像中,从而得到了实际文档中每个字符单元的坐标信息,实现了基于模板的字符的精确配准与分割。字符样本的坐标偏差不超过1个像素。由于电子文档中字符外接矩形框与实际字符之间一般都有1个像素以上的空白边缘,所以基于该发明,字符图像样本可以毫无残缺的被采集到。
此外,现有的字符样本编码方法往往只包含了字符的图像宽度、高度及图像数据等信息,这主要是由于以前的字符训练方法只需要这些信息就足够了,不同的字符样本可以通过文件名来进行区分,且将文件名与字符ASCII码建立索引即可。目前字符识别追求的目标是全字体全字号识别,但随着类别数量越来越大,实际图像的质量也是千差万别,所以识别精度难以达到很高的精度,特别是低质量文档图像。为了提高识别精度,本发明可以根据实际问题的需要,仅利用与应用相关的样本进行学习,这样可以有效提高低质量图像文档的识别率。在实际应用,利用本发明的方法,收集一些识别错误样本,并将这些样本定期的加入到学习样本中,从而有效提高识别率,所以本发明的方法的样本编码方法能适应各种学习目的及性能评估,方便样本管理。
除了打印与扫描或照相环节需要人工参与以外,其它字符样本生成过程均可以通过计算机编程自动实现,从而具有快速准确地生成大规模字符样本集的特性。
本发明可以得到高精度的字符样本,无需人工进行校验,大大提高了样本采集的速度,从而成本低廉,性价比高。此外,该发明不仅适用于接触式的平板扫描仪,也适用于非接触式的照相机或摄像机等成像设备。最后,字符样本文档的制作非常简单,提高了工作效率。
附图说明
图1是具体实施方式一的印刷体字符图像样本的自动生成方法的流程图简略示意图;图2是具体实施方式一的步骤二中所述的文档模板示意图;图中1为定位区,2为定位块,3为字符区,4为标题区;图3是具体实施方式六中经步骤二得到的文档D1的示意图,图中1为定位区,2为定位块,3为字符区,4为标题区;图4是具体实施方式六经步骤二得到文档D1中包含的字符样本图。
具体实施方式
具体实施方式一:(参见附图1和2)本实施方式的一种印刷体字符图像样本的自动生成方法按以下步骤进行:
步骤一:将印刷体字符输入到一个文本文件index.txt中,相邻两个字符之间插入一个空格,得到样本字符;
步骤二:在字符编辑软件中设计一个文档模板,并把文档模板区域内距四周边缘1cm~1.5cm的位置设置“矩形框状”定位区1,定位区1的框的宽度为0.9cm~1.2cm,在定位区1内散布放置n个字号为m个points的定位块‘●’2,其中n至少为4个,m的范围为12points~28points,再在定位区1所包围的区域的上部划出来字符区3,在定位区1所包围的区域的下部划出来标题区4,其中字符区3和标题区4相距0.5cm~1.0cm,字符区3与定位区1相距0.5cm~1.0cm,标题区4与定位区1相距0.5cm~1.0cm,将步骤一所述的样本字符输入到字符区3,将标明样本字符内容特性的标识输入到标题区4,得到文档D1;
步骤三:将文档D1转换为PDF格式的文档D2;
步骤四:将D2打印成纸质文档,用扫描仪扫描或照相机照相,得到图像格式的文档D3,其中扫描时采用的分辨率为g个dpi;
步骤五:从步骤三所述的文档D2中提取字符的ASCII码信息及仅包含单个字符图像区域的外接矩形框(Bounding Box)的4个角点的位置坐标信息,然后把字符的ASCII码信息及坐标位置信息用XML格式进行保存,得到文档D4;
步骤六:将步骤二所述的文档D2转换为图像格式,得到文档D5;
步骤七:将步骤四所述的文档D3进行二值化,得到二值化图像D6;
步骤八:在步骤七所述的图像D6中检测定位块‘●’2,提取定位块‘●’2的质心q1(x1,y1)、q2(x2,y2)、q3(x3,y3)......qn(xn,yn);
步骤九:根据步骤五所述的文档D4计算出定位块‘●’2的质心p1(u1,v1)、p2(u2,v2)、p3(u3,v3)......pn(un,vn);
步骤十:将质心q1(x1,y1)与p1(u1,v1)对应,q2(x2,y2)与p2(u2,v2)对应、q3(x3,y3)与p3(u3,v3)对应......qn(xn,yn)与pn(un,vn)对应,作为射影变换模型的对应特征点代入到该射影变换模型中,求出射影变换模型的参数a1、b1、c1、a2、b2、c2、a3和b3,得到射影变换模型;其中该射影变换模型为
Figure BDA0000055922830000051
其中i=1、2、3、......、n;
步骤十一:根据步骤十所述的射影变换模型,将步骤六所述的文档D5中的所有字符单元位置坐标映射到图像D6中,然后保存为XML标引文档D7;
步骤十二:基于标引文档D7,得到文档中所有的字符样本图像,并进行编码与保存,然后建立字符与文件名的索引表,完成印刷体字符图像样本的自动生成过程。
本实施方式的步骤二中字号的单位points的中文意思为字符处理软件word中文字字号单位:磅。
本实施方式的步骤四中的分辨率g的单位dpi的中文意思为每英寸所打印的点数,用来表示打印精度。
本实施方式中步骤四得到的图像格式文档D3为实际的含有噪声的样本文档图像。
本实施方式中步骤六得到的文档D5为无噪声的理想样本文档图像。
本实施方式的印刷体字符图像样本的自动生成方法除了打印与扫描或照相环节需要人工参与以外,其它字符样本生成过程均可以通过计算机编程自动实现,从而具有快速准确地生成大规模字符样本集的特性。本实施方式可以得到高精度的字符样本,无需人工进行校验,大大提高了样本采集的速度,从而成本低廉,性价比高。此外,该发明不仅适用于接触式的平板扫描仪,也适用于非接触式的照相机或摄像机等成像设备。最后,字符样本文档的制作非常简单,提高了工作效率。
具体实施方式二:本实施方式与具体实施方式一不同的是步骤七中所述的二值化的方法为大津二值化(OSTU)方法。其它与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是步骤八所述的检测定位块‘●’2的方法按以下步骤进行:
步骤a、对图像进行连通域分析,并保存连通域内的黑点数量s、连通域的外接矩形框的4个角点坐标及连通域的宽w和高h;
步骤b、对每一个连通域判断s  是否满足下式:
Figure BDA0000055922830000061
其中g为步骤四中扫描时采用的分辨率,单位为dpi,m为步骤二中定位块‘●’的字号,单位为points,如果s不满足则忽略该连通域,直至找到满足条件的所有的连通域;
步骤c、对在步骤b所找到的满足条件的连通域计算
Figure BDA0000055922830000062
若不满足2.83<f<3.45,则删除当前的连通域;若满足2.83<f<3.45,则判定该连通域为一个定位块。其它与具体实施方式一相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是步骤十中射影变换模型参数的求解方法按以下步骤进行:
将质心q1(x1,y1)与p1(u1,v1)对应,q2(x2,y2)与p2(u2,v2)对应、q3(x3,y3)与p3(u3,v3)对应......qn(xn,yn)与pn(un,vn)对应代入到射影变换模型中
x i y i = 1 a 3 u i + b 3 v i + 1 a 1 u i + b 1 v i + c 1 a 2 u i + b 2 v i + c 2 , 其中i=1,2,3,......,n。
上式可变形为:
b = x 1 y 1 x 2 y 2 . . . . . . x n y n , A = u 1 v 1 1 0 0 0 - u 1 x 1 - v 1 x 1 0 0 0 u 1 v 1 1 - u 1 y 1 - v 1 y 1 u 2 v 2 1 0 0 0 - u 2 x 2 - v 2 x 2 0 0 0 u 2 v 2 1 - u 2 y 2 - v 2 y 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u n v n 1 0 0 0 - u n x n - v n x n 0 0 0 u n v n 1 - u n y n - v n y n , p = a 1 b 1 c 1 a 2 . . . . . . a 3 b 3
ATb=ATAp
求解方程即可得到参数的唯一解。其它与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是步骤十二中的编码时按表1所述的字符样本图像文件格式定义进行,
表1字符样本图像文件格式定义
Figure BDA0000055922830000071
其它与具体实施方式一至四之一相同。
具体实施方式六:(请参考附图1、3和4)本实施方式的一种印刷体字符图像样本的自动生成方法按以下步骤进行:
步骤一:将印刷体字符输入到一个文本文件index.txt中,相邻两个字符之间插入一个空格;
步骤二:在字符编辑软件中设计一个文档模板,并把文档模板区域距四周边缘1cm的位置设置“口”字形定位区1,定位区1的宽度为1.0cm,在定位区1的四个角上放置字号为20号的4个定位块‘●’2,再把定位区1所包围的区域划分为字符区3和标题区4,其中字符区3和标题区4相距0.6cm,字符区3与定位区1相距0.6cm,标题区4与定位区1相距相距0.6cm,将样本字符输入到字符区3,将标明样本字符内容特性的标识输入到标题区4,得到文档D1;
步骤三:将文档D1转换为PDF格式文档D2;
步骤四:将D2打印成纸质文档,用扫描仪扫描或照相机照相,得到图像格式文档D3,其中扫描时采用的分辨率g为300dpi;
步骤五:从步骤三所述的文档D2中提取字符的ASCII码信息及字符外围的由定位块‘●’2的坐标表示的位置信息,然后把字符的ASCII码信息及坐标位置信息用XML格式进行保存,得到文档D4;
步骤六:将步骤二所述的文档D2转换为图像格式格式,得到文档D5;
步骤七:用大津(OTSU)二值化方法,将步骤四所述的文档D3进行二值化,得到二值化图像D6;
步骤八:在步骤七所述的图像D6中检测定位块‘●’2,提取定位块‘●’2的质心q1(x1,y1)、q2(x2,y2)、q3(x3,y3),q4(x4,y4);
本步骤中所述的检测定位块‘●’2的方法按以下步骤进行:
步骤a、对图像进行连通域分析,并保存连通域内的黑点数量s、连通域的外接矩形框的4个角点坐标及连通域的宽w和高h;假定第i个连通域的4个角点分别为ai(左上角),bi(右上角),ci(左下角),di(右下角),其中i=1,2,3,4;
步骤b、对每一个连通域判断s是否满足下式:
Figure BDA0000055922830000081
其中g为步骤四中扫描时采用的分辨率,为300dpi,m为步骤二中定位块‘●’2的字号,为20points,如果s不满足则忽略该连通域,直至找到满足条件的所有的连通域;
步骤c、图像D6中定位块的数量是4个,且分别位于图像的4个角上,则
步骤(1)、先找到4个角上最外侧的4个连通域单元,即通过下式进行查找,
p 1 = arg min a i ( x ( a i ) + y ( a i ) )
p 2 = arg max b i ( x ( b i ) - y ( b i ) )
p 3 = arg min c i ( x ( c i ) - y ( c i ) )
p 4 = arg max d i ( x ( d i ) + y ( d i ) )
x(ai)表示点ai的横作标,y(ai)表示点ai的纵坐标;找到了代表文档4个角上的最外侧的点p1,p2,p3和p4
步骤(2)、对上一步找到的连通域单元计算
Figure BDA0000055922830000095
若满足2.83<f<3.45,则判定该连通域为一个定位块;若上述条件不满足,则在该点的查找方向上查找下一个候选点;
步骤九:根据步骤五所述的文档D4计算出定位块‘●’2的质心p1(u1,v1)、p2(u2,v2)、p3(u3,v3)和p4(u4,v4);
本步骤中定位块‘●’2的质心的计算的方法是:定位块‘●’2外接矩形左上角点坐标为(x1,y1),右下角点坐标为(x4,y4),则定位块‘●’2的质心的横坐标为x1+(x4-x1)/2,纵坐标为y1+(y4-y1)/2。
步骤十:将质心q1(x1,y1)与p1(u1,v1)对应,q2(x2,y2)与p2(u2,v2)对应、q3(x3,y3)与p3(u3,v3)对应,q4(x4,y4)与p4(u4,v4)对应,作为射影变换模型的对应特征点代入到该射影变换模型中,求出射影变换模型的参数a1、b1、c1、a2、b2、c2、a3和b3,得到射影变换模型;
本步骤中射影变换模型参数的求解方法为:
步骤八中图像D6中定位块‘●’2的质心qi的坐标为(xi,yi),其中i=1,2,3,4;步骤九中文档D4中定位块‘●’2的质心pi的坐标为(ui,vi),其中其中i=1,2,3,4;
则点pi经过射影变换为qi的模型如下:
x i y i = 1 a 3 u i + b 3 v i + 1 a 1 u i + b 1 v i + c 1 a 2 u i + b 2 v i + c 2
上式可变形为:
x i y i = u i v i 1 0 0 0 - u i x i - v i x i 0 0 0 u i v i 1 - u i y i - v i y i · a 1 b 1 c 1 a 2 b 2 c 2 a 3 b 3
将4个点的对应关系方程联立起来为:
x 1 y 1 x 2 y 2 x 3 y 3 x 4 y 4 = u 1 v 1 1 0 0 0 - u 1 x 1 - v 1 x 1 0 0 0 u 1 v 1 1 - u 1 y 1 - v 1 y 1 u 2 v 2 1 0 0 0 - u 2 x 2 - v 2 x 2 0 0 0 u 2 v 2 1 - u 2 y 2 - v 2 y 2 u 3 v 3 1 0 0 0 - u 3 x 3 - v 3 x 3 0 0 0 u 3 v 3 1 - u 3 y 3 - v 3 y 3 u 4 v 4 1 0 0 0 - u 4 x 4 - v 4 x 4 0 0 0 u 4 v 4 1 - u 4 y 4 - v 4 y 4 · a 1 b 1 c 1 a 2 b 2 c 2 a 3 b 3
上述方程组有8个未知参数,而又有8个独立方程,具有线性无关性,所以可以得到唯一解;
步骤十一:根据步骤十所述的射影变换模型,将步骤六所述的文档D5中的所有字符单元位置坐标映射到图像D6中,然后保存为XML标引文档D7;
步骤十二:基于标引文档D7,得到文档中所有的字符样本图像,并进行按表1的字符样本图像文件格式进行编码与保存,然后建立字符与文件名的索引表,完成印刷体字符图像样本的自动生成过程。
表1字符样本图像文件格式定义
Figure BDA0000055922830000103
Figure BDA0000055922830000111
本实施方式步骤十二中的编码与保存时,一个字符的样本文件有两个部分组成,一个是文件头信息CSHEADERINFO,另一个是图像信息CSIMGDATA。文件头信息主要包括两个变量,即字符样本文件标识符“CS(Character Sample)”和文件的总字节数。一个样本由一个CSIMGDATA表示,当有多个样本时,即为多个CSIMGDATA数据的串联。ImgSize表示单个样本图像存储的总字节数。BitCount表示一个像素点由几位表示,暂仅考虑1和8两个值。BitCount=1表示该图像为二值图像,一个像素对应1个存储位;BitCount=8表示该图像为灰度图像,一个像素对应8个存储位,即256个灰度级。Data为实际图像数据,单个像素按位或按字节存储。当某个变量值未知时,该值的所有位可赋值为全1即可。表中的变量类型WORD表示unsigned short,DWORD表示unsigned int,BYTE表示unsigned char。
本实施方式步骤二中所述的文档模板如图3所示。本实施方式的经步骤二得到文档D1中包含的字符样本如图4所示,该样本文件包含了6种字体(黑体HT,楷体KT,仿宋FS,隶书LS,幼圆YY,宋体ST)和12个字号(一号至六号1-6,小一至小六7-12),扫描分辨率为200DPI,共72个样本。该图中显示了字符样本的宽、高、字体、字号等信息。
本实施方式的字符样本编码是一个通用的编码方式,适合各种语言的字符。由于编码中包含了字体、字号及扫描分辨率等属性,可以方便样本的增加及其它管理功能,可以灵活抽取与应用问题相关的样本构建特定的分类器,如低分辨率小字号字符分类器等。此外,由于CSIMGDATA内包含的样本信息非常全面,所以可以将不同字符类别的样本放在同一个文件中而不至于混淆,这对于一些希望随机遍历字符样本的学习方法会比较方便。

Claims (4)

1.一种印刷体字符图像样本的自动生成方法,其特征在于印刷体字符图像样本的自动生成方法按以下步骤进行:
步骤一:将印刷体字符输入到一个文本文件index.txt中,相邻两个字符之间插入一个空格,得到样本字符;
步骤二:在字符编辑软件中设计一个文档模板,并把文档模板区域内距四周边缘1cm~1.5cm的位置设置“矩形框状”定位区(1),定位区(1)的框的宽度为0.9cm~1.2cm,在定位区(1)内散布放置n个字号为m个points的定位块‘●’(2),其中n至少为4个,m的范围为12points~28points,再在定位区1所包围的区域的上部划出来字符区(3),在定位区(1)所包围的区域的下部划出来标题区(4),其中字符区(3)和标题区(4)相距0.5cm~1.0cm,字符区(3)与定位区(1)相距0.5cm~1.0cm,标题区(4)与定位区(1)相距0.5cm~1.0cm,将步骤一所述的样本字符输入到字符区(3),将标明样本字符内容特性的标识输入到标题区(4),得到文档D1;
步骤三:将文档D1转换为PDF格式的文档D2;
步骤四:将D2打印成纸质文档,用扫描仪扫描或照相机照相,得到图像格式的文档D3,其中扫描时采用的分辨率为g个dpi;
步骤五:从步骤三所述的文档D2中提取每个字符的外接矩形框的四个角点的位置坐标信息作为字符的坐标位置信息,从文档D2中提取每个定位块‘●’(2)的外接矩形框的四个角点的位置坐标信息作为定位块‘●’(2)的坐标位置信息,从文档D2中提取每个字符和定位块‘●’(2)的ASCII码信息,再把字符的坐标位置信息、定位块‘●’(2)的坐标位置信息、字符的ASCII码信息和定位块‘●’(2)的ASCII码信息用XML格式进行保存,得到文档D4;
步骤六:将步骤三所述的文档D2转换为图像格式,得到文档D5;
步骤七:将步骤四所述的文档D3进行二值化,得到二值化图像D6;
步骤八:在步骤七所述的图像D6中检测定位块‘●’(2),提取定位块‘●’的质心q1(x1,y1)、q2(x2,y2)、q3(x3,y3)……qn(xn,yn);
步骤九:根据步骤五所述的文档D4计算出定位块‘●’(2)的质心p1(u1,v1)、p2(u2,v2)、p3(u3,v3)……pn(un,vn);
步骤十:将质心q1(x1,y1)与p1(u1,v1)对应,q2(x2,y2)与p2(u2,v2)对应、q3(x3,y3)与p3(u3,v3)对应……qn(xn,yn)与pn(un,vn)对应,作为射影变换模型的对应特征点代入到该射影变换模型中,求出射影变换模型的参数a1、b1、c1、a2、b2、c2、a3和b3,得到射影变换模型;其中该射影变换模型为 x i y i = 1 a 3 u i + b 3 v i + 1 a 1 u i + b 1 v i + c 1 a 2 u i + b 2 v i + c 2 , 其中i=1、2、3、……、n;
步骤十一:根据步骤十所得的射影变换模型,将步骤六所述的文档D5中的所有字符单元位置坐标映射到图像D6中,然后保存为XML标引文档D7;
步骤十二:基于标引文档D7,得到文档中所有的字符样本图像,并进行编码与保存,然后建立字符与文件名的索引表,完成印刷体字符图像样本的自动生成过程。
2.根据权利要求1所述的一种印刷体字符图像样本的自动生成方法,其特征在于步骤七中所述的二值化的方法为大津二值化法。
3.根据权利要求1或2所述的一种印刷体字符图像样本的自动生成方法,其特征在于步骤八所述的检测定位块‘●’(2)的方法按以下步骤进行:
步骤a、对图像进行连通域分析,并保存连通域内的黑点数量s、连通域的外接矩形框的4个角点坐标及连通域的宽w和高h;
步骤b、对每一个连通域判断s  是否满足下式: 0.8 &times; &pi; &times; ( 0.3515 &times; 0.7 &times; m &times; g 2 &times; 25.4 ) 2 < s < 1.2 &times; &pi; &times; ( 0.3515 &times; 0.7 &times; m &times; g 2 &times; 25.4 ) 2 , 其中g为步骤四中扫描时采用的分辨率,单位为dpi,m为步骤二中定位块‘●’(2)的字号,单位为points,如果s不满足则忽略该连通域,直至找到满足条件的所有的连通域;
步骤c、对在步骤b所找到的满足条件的连通域计算
Figure FDA00002292361800023
若不满足2.83<f<3.45,则删除当前的连通域;若满足2.83<f<3.45,则判定该连通域为一个定位块。
4.根据权利要求1或2所述的一种印刷体字符图像样本的自动生成方法,其特征在于步骤十二中的编码是按下表所述的字符样本图像文件格式定义进行:
Figure FDA00002292361800031
CN 201110096820 2011-04-18 2011-04-18 一种印刷体字符图像样本的自动生成方法 Expired - Fee Related CN102184383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110096820 CN102184383B (zh) 2011-04-18 2011-04-18 一种印刷体字符图像样本的自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110096820 CN102184383B (zh) 2011-04-18 2011-04-18 一种印刷体字符图像样本的自动生成方法

Publications (2)

Publication Number Publication Date
CN102184383A CN102184383A (zh) 2011-09-14
CN102184383B true CN102184383B (zh) 2013-04-10

Family

ID=44570557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110096820 Expired - Fee Related CN102184383B (zh) 2011-04-18 2011-04-18 一种印刷体字符图像样本的自动生成方法

Country Status (1)

Country Link
CN (1) CN102184383B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366165B (zh) * 2012-03-30 2016-06-29 富士通株式会社 图像处理装置、图像处理方法以及设备
CN107590155B (zh) * 2016-07-08 2020-09-08 富士通株式会社 文档图像的字符真值获取装置及方法、电子设备
CN110210505B (zh) * 2018-02-28 2020-12-01 北京三快在线科技有限公司 样本数据的生成方法、装置及电子设备
CN108885703B (zh) * 2018-03-05 2021-11-26 香港应用科技研究院有限公司 机器学习人工字符生成
CN109615671A (zh) * 2018-10-25 2019-04-12 北京中关村科金技术有限公司 一种字库样本自动生成方法、计算机装置及可读存储介质
CN109360236B (zh) * 2018-10-26 2022-05-17 郑州轻工业学院 一种向日葵花盘尺寸测量方法
CN109753967A (zh) * 2018-12-29 2019-05-14 北京师范大学 一种图片文字识别方法
CN110427948A (zh) * 2019-07-29 2019-11-08 杭州云深弘视智能科技有限公司 字符样本的生成方法及其系统
WO2023146417A1 (en) * 2022-01-28 2023-08-03 John Chu Database generation method and apparatus, electronic device and medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0740263A2 (en) * 1995-04-28 1996-10-30 Xerox Corporation Method of training character templates for use in a recognition system
CN1570958A (zh) * 2004-04-23 2005-01-26 清华大学 多字体多字号印刷体藏文字符识别方法
CN101344925A (zh) * 2007-07-10 2009-01-14 富士通株式会社 字符识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8000529B2 (en) * 2007-07-11 2011-08-16 Hewlett-Packard Development Company, L.P. System and method for creating an editable template from a document image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0740263A2 (en) * 1995-04-28 1996-10-30 Xerox Corporation Method of training character templates for use in a recognition system
CN1570958A (zh) * 2004-04-23 2005-01-26 清华大学 多字体多字号印刷体藏文字符识别方法
CN101344925A (zh) * 2007-07-10 2009-01-14 富士通株式会社 字符识别方法

Also Published As

Publication number Publication date
CN102184383A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN102184383B (zh) 一种印刷体字符图像样本的自动生成方法
CN109840519B (zh) 一种自适应的智能单据识别录入装置及其使用方法
CN109657665B (zh) 一种基于深度学习的发票批量自动识别系统
CN109948510B (zh) 一种文档图像实例分割方法及装置
CN110597806A (zh) 一种基于批阅识别的错题集生成与答题统计系统及方法
US9824604B2 (en) Creating assessment model for educational assessment system
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
CN110659584B (zh) 一种基于图像识别的智能留痕阅卷系统
CN103093240A (zh) 书法字识别方法
CN101901338A (zh) 一种试卷分数统计方法及系统
WO2007024216A1 (en) Test scoring system and method
CN106446882A (zh) 一种基于8字码的智能留痕阅卷方法
CN105447522A (zh) 一种复杂图像文字识别系统
CN103488711A (zh) 一种快速制作矢量字库的方法及系统
CN108537219A (zh) 一种用于财务报表外框的智能检测方法及装置
CN107038438A (zh) 一种基于图像识别的评阅方法
CN105260751A (zh) 一种文字识别方法及其系统
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
CN105740857A (zh) 一种基于ocr的快速纸笔投票结果自动采集与识别系统
CN116704523B (zh) 一种用于出版印刷设备的文字排版图像识别系统
CN108052936B (zh) 一种盲文图像自动倾斜校正方法及系统
CN113159014A (zh) 基于手写题号的客观题批阅方法、装置、设备及存储介质
CN111145124A (zh) 一种图像倾斜的校正方法及装置
CN108052955B (zh) 一种高精度盲文识别方法及系统
CN116108804B (zh) 点码文件生成方法、内容审阅方法和内容审阅系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130410

Termination date: 20140418