CN111553336B - 基于连体段的印刷体维吾尔文文档图像识别系统及方法 - Google Patents
基于连体段的印刷体维吾尔文文档图像识别系统及方法 Download PDFInfo
- Publication number
- CN111553336B CN111553336B CN202010341026.8A CN202010341026A CN111553336B CN 111553336 B CN111553336 B CN 111553336B CN 202010341026 A CN202010341026 A CN 202010341026A CN 111553336 B CN111553336 B CN 111553336B
- Authority
- CN
- China
- Prior art keywords
- image
- document image
- connected segment
- segment
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于连体段的印刷体维吾尔文文档图像识别系统及方法,其实现的步骤为:(1)建立印刷体维吾尔文连体段的特征模板库;(2)输入待识别的印刷体维吾尔文文档图像;(3)对输入的文档图像进行预处理;(4)生成连体段图像;(5)对连体段图像进行预处理;(6)提取连体段图像的Gabor特征向量;(7)对连体段图像进行分类识别;(8)输出识别的文档图像对应的文本格式文档。本发明能对包含多个单词的印刷体维吾尔文文档图像进行识别,识别准确度高、识别速度快,能够按照印刷体维吾尔文文档图像的书写顺序和格式将文档图像转换为文本文档。
Description
技术领域
本发明属于光学字符识别技术领域,更进一步涉及光学字符识别技术领域中的一种基于连体段的印刷体维吾尔文文档图像识别系统及方法。本发明可用于识别印刷体维吾尔文文档图像,并将印刷体维吾尔文文档图像以文本格式输出,实现印刷体维吾尔文纸质文档的电子化。
背景技术
印刷体维吾尔文纸质文档电子化,有助于维吾尔族文化的继承与发扬,有助于新疆地区的信息化发展,有助于民族团结。对于印刷体维吾尔文识别技术的研究按识别对象可分为基于字符、基于连体段和基于单词。目前,针对印刷体维吾尔文文档识别的研究通常选取单词或字符为识别单位。由于维吾尔文属于粘连型拼音文字,字符虽然数目较少,但字符高宽比不统一,字符之间相似度较高且多为粘连状态,导致字符切分极其困难,字符切分准确率较低、识别准确率较低;而对于单词而言,单词种类数目繁多,导致数据采集工作耗时耗力,对其分类识别时速度较慢;相较于字符和单词,选取连体段为识别单位有以下优势:连体段切分难度适中;连体段之间相似度适中;连体段种类数目适中。
新疆大学在其申请的专利文献“一种印刷体维吾尔文图像单词的高精度匹配算法”(申请号:CN201811612926.0,申请公开号:CN 109766420 A,申请日:2018-12-27)中公开了一种印刷体维吾尔文单词图像的高精度匹配算法,该算法可用于印刷体维吾尔文单词图像之间的高精度匹配。该匹配算的实现步骤是:步骤1,利用SIFT特征,得到检索图片和匹配图片的局部特征点;步骤2,对局部特征点进行特征匹配;步骤3,对匹配的结果数目进行一次预匹配;步骤4,对预匹配后的特征对象进行一次映射处理后再进行投射变换,根据投射变换的结果对匹配词进行检索结果鉴定,完成检索图片和匹配图片之间的高精度匹配。该方法虽然能实现对印刷体维吾尔文单词图像进行高精度匹配,并且经过优化之后,该方法检索一个单词会匹配到包含这个单词的所有单词组合,但是,该方法仍然存在的不足之处是:该方法适用于只包含一个单词的文档图像识别,无法适用于包含多个单词的文档图像识别,原因是包含多个单词的文档图像需要经过切分处理后得到单个的单词图像,才可直接使用该方法,所以该方法无法直接适用于包含多个单词的文档图像识别。
中科软科技股份有限公司在其申请的专利文献“一种维语图片字符的识别方法及系统”(申请号:CN201910583713.8,申请公开号:CN 110287952 A,申请日:2019-09-27)中公开了一种维语图片字符的识别方法及系统。该方法采用了深度学习技术,能实现对维语图片字符的检测与识别。该方法具体实现步骤是:步骤1,采集原始图片并对图片进行标记,将标记后的图片作为待训练样本;步骤2,将待训练样本输入到CNN+BiLSTM模型中以提取特征向量,生成维文文本区域定位网络模型;步骤3,将待训练样本输入到CNN网络和BiLSTM+CTC模型中,生成维语字符识别网络模型;步骤4,检测并识别待检测的维语图片中的字符。该方法存在的不足之处是:该方法对采集的原始图片要求具有多样性和多量性,繁多复杂的原始图片也导致标记过程十分耗费人力,并且在标记过程中要求标记人员具有一定的维吾尔文语言基础,才能完成对原始图片的无差错标记。因此待训练样本采集过程不稳定因素较多,采集过程十分不易。由于待训练样本是后续工作的基础,所以原始图片采集和标记过程中的不稳定因素会导致后续工作中对字符检测或识别错误。该专利文献公开的系统包括采集模块、区域定位模型生成模块、第一识别模块、字符识别网络模型生成模块、第二识别模块,可以检测图片中是否包含维语字符并识别维语图片中的字符。该系统存在的不足之处是:该系统的第二识别模块虽然可以识别维语图片中的字符,但该模块识别字符时并未关注字符之间的书写顺序和格式,导致该系统识别维语图片时,输出的字符与图片中字符的顺序和格式有所出入,需要人工校正其输出的字符顺序和格式。
发明内容
本发明的目的在于针对上述现有技术的不足,提供一种基于连体段的印刷体维吾尔文文档图像识别系统及方法,以解决现有技术无法识别包含多个单词的文档图像、无法按文档图像的书写顺序和格式输出等问题。
实现本发明目的的具体思路是:建立印刷体维吾尔文连体段的特征模板库,通过将输入的印刷体维吾尔文文档图像进行切分,生成连体段图像,将生成的连体段图像与建立的印刷体维吾尔文连体段的特征模板库进行匹配识别,将识别后的连体段图像按照印刷体维吾尔文文档图像的书写顺序和格式以可编辑格式输出的方式,实现将输入的印刷体维吾尔文文档图像转变为文本格式的文档。
本发明的印刷体维吾尔文文档图像识别系统包括连体段数据库模块、文档图像输入模块、文档图像预处理模块、文档图像切分模块、连体段图像预处理模块、连体段图像特征提取模块、连体段分类识别模块和文档图像输出模块。其中:
所述的连体段数据库模块,用于通过采集不同字体不同字号的常用印刷体维吾尔文连体段,构建印刷体维吾尔文连体段的特征模板库,并将特征模板库发送给连体段分类识别模块;
所述的文档图像输入模块,用于输入待识别的印刷体维吾尔文文档图像,并将输入的待识别的印刷体维吾尔文文档图像发送给文档图像预处理模块;
所述的文档图像预处理模块,用于对待识别的印刷体维吾尔文文档图像进行二值化、去噪和倾斜矫正处理,得到预处理后的文档图像,并将预处理后的文档图像发送给文档图像切分模块;
所述的文档图像切分模块,用于通过对预处理后的文档图像进行切分处理,生成连体段图像,并将生成的连体段图像发送给连体段图像预处理模块;
所述的连体段图像预处理模块,用于对连体段图像进行尺寸归一化处理,得到预处理后的连体段图像,并将预处理后的连体段图像发送给连体段图像特征提取模块;
所述的连体段图像特征提取模块,用于提取预处理后的连体段图像的特征向量,并将连体段图像的特征向量发送给连体段分类识别模块;
所述的连体段分类识别模块,用于对连体段图像进行分类识别,并将识别结果发送给文档图像输出模块;
所述的文档图像输出模块,用于输出识别的文档图像对应的文本格式文档。
本发明的印刷体维吾尔文文档图像识别方法的具体步骤包括如下:
(1)建立印刷体维吾尔文连体段的特征模板库:
(1a)连体段数据库模块以常用维吾尔文连体段为采集对象,建立至少50套不同字体不同字号且只包含常用维吾尔文连体段的印刷体维吾尔文文档图像;
(1b)对每套印刷体维吾尔文文档图像进行切分处理,将生成的多幅连体段图像样本组成印刷体维吾尔文连体段图像的数据样本库;
(1c)连体段数据库模块利用双三次插值算法,对数据样本库中的每个连体段图像样本进行尺寸归一化处理后,再提取每个连体段图像样本的Gabor特征向量,将所有Gabor特征向量组成印刷体维吾尔文连体段的特征模板库;
(2)输入待识别的印刷体维吾尔文文档图像:
文档图像输入模块输入一幅只包含维吾尔文的待识别的印刷体维吾尔文文档图像;
(3)对输入的文档图像进行预处理:
(3a)文档图像预处理模块利用最大类间方差算法对输入的文档图像进行二值化处理;
(3b)文档图像预处理模块利用中值滤波算法,对二值化处理后的图像进行去噪处理;
(3c)文档图像预处理模块利用傅里叶变换算法和霍夫变换算法相结合的方法,对去噪后的二值图像进行倾斜矫正处理,得到预处理后的文档图像;
(4)生成连体段图像:
(4a)文档图像切分模块对预处理后的文档图像进行水平积分投影,将预处理后的文档图像中每个连续水平积分投影不为零的区域的上下边界作为每幅行文档图像的上下边界,得到多幅行文档图像;
(4b)文档图像切分模块从多幅行文档图像中选取任意一幅未选过的行文档图像,利用形态学膨胀算法对所选行文档图像进行膨胀处理,对膨胀后的行文档图像进行垂直积分投影,将膨胀后的行文档图像中每个连续垂直积分投影不为零的区域的左右边界作为每幅单词图像的左右边界,得到多幅单词图像;
(4c)文档图像切分模块判断是否选取完多幅行文档图像中的所有行文档图像,若是,得到多幅行文档图像中的所有单词图像后执行步骤(4d),否则,执行步骤(4b);
(4d)文档图像切分模块从多幅单词图像中选取任意一幅单词图像,采用八邻域种子填充连通域算法,依次提取所选取的单词图像中所有的连通域,根据每个连通域的面积、连通域之间的距离以及连体段中主笔画部分和附加笔画部分的关联位置关系对连通域进行合并,得到多幅连体段图像;
(4e)文档图像切分模块判断是否选取完多幅单词图像中的所有单词图像,若是,得到多幅单词图像中的所有连体段图像后执行步骤(5),否则,执行步骤(4d);
(5)对连体段图像进行预处理:
连体段图像预处理模块利用双三次插值算法,对每个连体段图像的尺寸进行归一化处理,得到预处理后的连体段图像;
(6)提取连体段图像的Gabor特征向量:
(6a)连体段图像特征提取模块对每个预处理后的连体段图像进行反色处理,得到反色后的连体段图像;
(6b)连体段图像特征提取模块按照下式,根据二维Gabor滤波器的高度和宽度,对每个反色后的连体段图像的上下两个方向各加Gh行像素值为0的像素点,左右两个方向各加Gw列像素值为0的像素点,得到加边后的连体段图像:
其中,Gh表示对反色后的连体段图像上下两个方向上增加的像素点的行数,GaborHeigh表示Gabor滤波器窗口的高度,GaborWidth表示Gabor滤波器窗口的宽度,Gw表示对反色后的连体段图像左右两个方向上增加的像素点的列数;
(6c)连体段图像特征提取模块利用二维Gabor滤波器,对加边后的连体段图像中的每个像素点与二维Gabor滤波器的实部做卷积运算,得到滤波后的连体段图像;
(6d)连体段图像特征提取模块将滤波后的连体段图像按照高度和宽度均匀的划分为n×n份,得到n×n个图像块;
(6e)连体段图像特征提取模块计算每个图像块的能量,将所有图像块的能量值构成滤波后的连体段图像的特征向量,得到待识别的连体段图像的Gabor特征向量;
(7)对连体段图像进行分类识别:
(7a)连体段分类识别模块计算待识别的连体段图像的特征向量与连体段数据库模块中建立的特征模板库中每个连体段样本的特征向量之间的欧氏距离;
(7b)连体段分类识别模块按照从小到大的顺序,对待识别的连体段图像的特征向量与连体段数据库模块中建立的特征模板库中每一个连体段样本的特征向量之间的欧氏距离进行排序;
(7c)连体段分类识别模块选取特征模板库中与待识别连体段的欧氏距离最小的连体段的类别,作为待识别连体段图像的首选类别;
(8)输出识别的文档图像对应的文本格式文档:
文档图像输出模块将待识别连体段图像的首选类别,按输入的印刷体维吾尔文文档图像中的书写顺序和书写格式,以可编辑格式输出首选类别对应的连体段,对文档图像中的所有连体段进行输出,得到文档图像对应的文本格式文档。
本发明与现有技术相比较具有如下的优点:
第一,本发明的印刷体维吾尔文文档图像识别方法是以包含多个单词的印刷体维吾尔文文档图像为识别对象,可以对包含多个单词的文档图像进行识别,克服了现有技术只能对包含一个单词的文档图像进行识别的问题,使得本发明的方法具有能够识别包含多个单词的文档图像的优点。
第二,本发明的印刷体维吾尔文文档图像识别方法,对印刷体维吾尔文文档图像进行切分生成连体段图像,再以连体段图像为识别单位对印刷体维吾尔文文档图像进行识别,克服了现有技术以维吾尔文字符为识别单位对印刷体维吾尔文文档图像进行识别时,由于字符之间粘连现象严重,导致印刷体维吾尔文文档图像切分生成字符图像时切分准确率不高、印刷体维吾尔文文档图像识别准确率低的问题,也克服了现有技术以维吾尔文单词为识别单位对印刷体维吾尔文文档图像进行识别时,由于单词种类繁多,对单词进行分类识别时耗时较久,导致印刷体维吾尔文文档图像的识别速度较慢的问题,使得本发明的方法具有对印刷体维吾尔文文档图像的切分准确率较高、识别准确率较高、识别速度较快的优点。
第三,本发明印刷体维吾尔文识别系统中的文档图像输出模块,将待识别连体段图像的首选类别,按印刷体维吾尔文文档图像中的书写顺序和书写格式,以可编辑格式输出首选类别对应的连体段,克服了现有技术中识别系统无法按照印刷体维吾尔文文档图像中的书写顺序和格式将其输出的问题,使得本发明具有能够按照印刷体维吾尔文文档图像的书写顺序和格式,将印刷体维吾尔文文档图像转换为文本文档的优点。
附图说明
图1为本发明系统的结构框图;
图2为本发明方法的流程图;
图3为本发明仿真实验中输入的印刷体维吾尔文文档图像;
图4为本发明仿真实验中输出的印刷体维吾尔文文档图像的识别结果图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照附图1,对本发明系统的结构做进一步的描述。
本发明的系统包括连体段数据库模块、文档图像输入模块、文档图像预处理模块、文档图像切分模块、连体段图像预处理模块、连体段图像特征提取模块、连体段分类识别模块和文档图像输出模块。连体段数据库模块的输出端与连体段分类识别模块的输入端相连,文档图像输入模块的输出端与文档图像预处理模块的输入端相连,文档图像预处理模块的输出端与文档图像切分模块的输入端相连,文档图像切分模块的输出端与连体段图像预处理模块的输入端相连,连体段图像预处理模块的输出端与连体段图像特征提取模块的输入端相连,连体段图像特征提取模块的输出端与连体段分类识别模块的输入端相连,连体段分类识别模块的输出端与文档图像输入模块相连。
连体段数据库模块,用于通过采集不同字体不同字号的常用印刷体维吾尔文连体段,构建印刷体维吾尔文连体段的特征模板库,并将特征模板库发送给连体段分类识别模块。
文档图像输入模块,用于输入待识别的印刷体维吾尔文文档图像,并将输入的待识别的印刷体维吾尔文文档图像发送给文档图像预处理模块。
文档图像预处理模块,用于对待识别的印刷体维吾尔文文档图像进行二值化、去噪和倾斜矫正处理,得到预处理后的文档图像,并将预处理后的文档图像发送给文档图像切分模块。
文档图像切分模块,用于通过对预处理后的文档图像进行切分处理,生成连体段图像,并将生成的连体段图像发送给连体段图像预处理模块。
连体段图像预处理模块,用于对连体段图像进行尺寸归一化处理,得到预处理后的连体段图像,并将预处理后的连体段图像发送给连体段图像特征提取模块。
连体段图像特征提取模块,用于提取预处理后的连体段图像的特征向量,并将连体段图像的特征向量发送给连体段分类识别模块。
连体段分类识别模块,用于对连体段图像进行分类识别,并将识别结果发送给文档图像输出模块。
文档图像输出模块,用于输出识别的文档图像对应的文本格式文档。
参照附图2,对本发明的方法做进一步的描述。
步骤1,建立印刷体维吾尔文连体段的特征模板库。
连体段数据库模块以常用维吾尔文连体段为采集对象,建立至少50套不同字体不同字号且只包含常用维吾尔文连体段的印刷体维吾尔文文档图像。
对每套印刷体维吾尔文文档图像进行切分处理,将生成的多幅连体段图像样本组成印刷体维吾尔文连体段图像的数据样本库。
连体段数据库模块利用双三次插值算法,对数据样本库中的每个连体段图像样本进行尺寸归一化处理后,再提取每个连体段图像样本的Gabor特征向量,将所有Gabor特征向量组成印刷体维吾尔文连体段的特征模板库。
步骤2,输入待识别的印刷体维吾尔文文档图像。
文档图像输入模块输入一幅只包含维吾尔文的待识别的印刷体维吾尔文文档图像。
步骤3,对输入的文档图像进行预处理。
文档图像预处理模块利用最大类间方差算法对输入的文档图像进行二值化处理,所述最大类间方差算法具体步骤如下:
第1步,按照下式,计算每个像素值的像素点总数占待识别的印刷体维吾尔文文档图像中像素点总数的百分比:
其中,i表示像素点的值,i=0,1,...,255,pi表示像素值为i的像素点总数占待识别的印刷体维吾尔文文档图像中像素点总数的百分比,pi>0且ni表示待识别的印刷体维吾尔文文档图像中像素值为i的像素点总数,N表示待识别的印刷体维吾尔文文档图像中像素点总数。
第2步,按照下式,计算待识别的印刷体维吾尔文文档图像中所有像素点的平均灰度级μT:
其中,fmin表示待识别的印刷体维吾尔文文档图像中所有像素点的像素值的最小值,fmax表示待识别的印刷体维吾尔文文档图像中所有像素点的像素值的最大值;
第3步,从[fmin,fmax]中任选一个未选过的整数值t,将印刷体维吾尔文文档图像中像素值小于t的所有像素点作为印刷体维吾尔文文档图像中前景部分的像素点,其余的作为背景部分的像素点。
第5步,判断是否选取完[fmin,fmax]中的所有整数值,若是,则执行本步骤的第6步,否则,执行本步骤的第3步。
第6步,在[fmin,fmax]范围内选择使类间方差达到最大值时的t*值作为二值化阈值T。
第7步,将印刷体维吾尔文文档图像中像素值大于二值化阈值T的每个像素点的像素值均赋值为255,其余像素点的像素值均赋值为0,得到二值化后的印刷体维吾尔文文档图像。
文档图像预处理模块利用中值滤波算法,对二值化处理后的图像进行去噪处理。
文档图像预处理模块利用傅里叶变换算法和霍夫变换算法相结合的方法,对去噪后的二值图像进行倾斜矫正处理,得到预处理后的文档图像。
所述傅里叶变换算法和霍夫变换算法相结合的方法具体步骤如下:
第1步,对去噪后的二值图像进行傅里叶变换,得到去噪后的二值图像的傅里叶频谱中的幅度谱图像,幅度谱图像的低频部分在其四角区域,高频部分在其中心区域。
第2步,利用傅里叶变换的平移性质对幅度谱图像的低频部分区域和高频部分区域进行交换,将幅度谱图像的低频部分平移到幅度谱图像的中心区域,高频部分平移到幅度谱图像的四角区域,得到中心化后的幅度谱图像。
第3步,按照下式,对中心化后的幅度谱图像中经过中心点的倾斜直线进行倾斜角度检测,得到去噪后的二值图像的倾斜角度:
xcosθ+ysinθ=r
其中,x表示中心化后的幅度谱图像中倾斜直线上所有点的横坐标,y表示中心化后的幅度谱图像中倾斜直线上所有点的纵坐标,r表示中心化后的幅度谱图像中倾斜直线上所有点到原点的距离,θ表示中心化后的幅度谱图像的倾斜直线与x轴的夹角,即去噪后的二值图像的倾斜角度。
第4步,按照下式,利用仿射变换矩阵,对去噪后的二值图像中的每一个像素点的平面坐标进行变换,从而完成对去噪后的二值图像的倾斜校正:
其中,x和y表示位置变换前的去噪后的二值图像的平面坐标,x'和y'表示位置变换前后的去噪后的二值图像的平面坐标,tx和ty表示去噪后的二值图像的中心位置,a0和a1表示倾斜角θ在x轴和y轴上的分量,a2和a3取1。
步骤4,生成连体段图像。
文档图像切分模块对预处理后的文档图像进行水平积分投影,将预处理后的文档图像中每个连续水平积分投影不为零的区域的上下边界作为每幅行文档图像的上下边界,得到多幅行文档图像。
文档图像切分模块从多幅行文档图像中选取任意一幅未选过的行文档图像,利用形态学膨胀算法对所选行文档图像进行膨胀处理,对膨胀后的行文档图像进行垂直积分投影,将膨胀后的行文档图像中每个连续垂直积分投影不为零的区域的左右边界作为每幅单词图像的左右边界,得到多幅单词图像。
文档图像切分模块从多幅单词图像中选取任意一幅单词图像,采用八邻域种子填充连通域算法,依次提取所选取的单词图像中所有的连通域,根据每个连通域的面积、连通域之间的距离以及连体段中主笔画部分和附加笔画部分的关联位置关系对连通域进行合并,得到多幅连体段图像。
所述连体段中主笔画部分和附加笔画部分的关联位置关系是指,主笔画部分包含附加笔画部分、主笔画部分与附加笔画部分相交、附加笔画部分位于主笔画部分上方、附加笔画部分位于主笔画部分下方这四种位置关系。
所述对连通域进行合并的具体步骤如下:
第1步,从所选取的单词图像中所有的连通域中选取任意一个连通域,并搜索与所选连通域相邻的最近连通域。
第2步,确定连体段的主笔画部分和附加笔画部分,将选取的连通域和与其最近的连通域按照面积大小分类,将面积较大的连通域设为连体段的主笔画部分A,将面积较小的连通域设为连体段的附加笔画部分B。
第3步,根据连体段中主部笔画部分和附加笔画部分的关联位置关系,判断A和B的位置关系是否属于连体段中主部笔画部分和附加笔画部分的关联位置的任意一种,若是,则将将A和B作为一个连体段的主笔画部分和附加笔画部分进行合并,否则,执行本步骤的第4步。
第4步,若A最近的连通域中无符合连体段中主笔画部分和附加笔画部分的位置关系条件的连通域B,则A为单独的连体段,并将A作为得到的连体段图像。
第5步,判断所选取的单词图像中所有的连通域是否选取完,若是,得到多幅连体段图像,否则,执行本步骤的第1步。
步骤5,对连体段图像进行预处理。
连体段图像预处理模块利用双三次插值算法,对每个连体段图像的尺寸进行归一化处理,得到预处理后的连体段图像。
步骤6,提取连体段图像的Gabor特征向量。
连体段图像特征提取模块对每个预处理后的连体段图像进行反色处理,得到反色后的连体段图像。
连体段图像特征提取模块按照下式,根据二维Gabor滤波器的高度和宽度,对每个反色后的连体段图像的上下两个方向各加Gh行像素值为0的像素点,左右两个方向各加Gw列像素值为0的像素点,得到加边后的连体段图像:
其中,Gh表示对反色后的连体段图像上下两个方向上增加的像素点的行数,GaborHeigh表示Gabor滤波器窗口的高度,GaborWidth表示Gabor滤波器窗口的宽度,Gw表示对反色后的连体段图像左右两个方向上增加的像素点的列数。
连体段图像特征提取模块利用二维Gabor滤波器,对加边后的连体段图像中的每个像素点与二维Gabor滤波器的实部做卷积运算,得到滤波后的连体段图像。
连体段图像特征提取模块将滤波后的连体段图像按照高度和宽度均匀的划分为n×n份,得到n×n个图像块。
连体段图像特征提取模块计算每个图像块的能量,将所有图像块的能量值构成滤波后的连体段图像的特征向量,得到待识别的连体段图像的Gabor特征向量。其中,计算每个图像块的能量是由下式得到的:
其中,e(k)表示n×n个图像块中第k个图像块的能量,s表示第k个图像块中像素点的总数,表示开平方操作,i表示第k个图像块中像素点的序号,i=1,2,...,s,∑表示求和操作,p(i)表示第k个图像块中第i个像素点的像素值,|·|表示取绝对值操作。
步骤7,对连体段图像进行分类识别。
连体段分类识别模块计算待识别的连体段图像的特征向量与连体段数据库模块中建立的特征模板库中每个连体段样本的特征向量之间的欧氏距离;其中,所述的计算待识别的连体段图像的特征向量与特征模板库中每个连体段样本的特征向量之间的欧氏距离是由下式得到的:
其中,dxy表示待识别的连体段图像的特征向量中的特征值与特征模板库中每一个连体段样本的特征向量中的特征值之间的欧氏距离,Xj表示待识别的连体段图像的特征向量中第j个特征值,j=1,2,...,m,m表示连体段图像的特征向量维度,Yj表示特征模板库中某一个连体段样本的特征向量中第j个特征值。
连体段分类识别模块按照从小到大的顺序,对待识别的连体段图像的特征向量与连体段数据库模块中建立的特征模板库中每一个连体段样本的特征向量之间的欧氏距离进行排序。
连体段分类识别模块选取特征模板库中与待识别连体段的欧氏距离最小的连体段的类别,作为待识别连体段图像的首选类别。
步骤8,输出识别的文档图像对应的文本格式文档。
文档图像输出模块将待识别连体段图像的首选类别,按输入的印刷体维吾尔文文档图像中的书写顺序和书写格式,以可编辑格式输出首选类别对应的连体段,对文档图像中的所有连体段进行输出,得到文档图像对应的文本格式文档。
本发明的效果可通过以下仿真实验进一步说明。
1.仿真实验条件。
本发明的仿真试验是在计算机硬件配置为Intel(R)Core(TM)-i5-4200U@1.60GHz、4.0GB RAM的硬件环境和计算机软件配置为vs2012的软件环境下进行的。
2.仿真实验内容及结果分析。
识别系统通过连接扫描仪对一个印刷体维吾尔文文档进行扫描,输入扫描后的印刷体维吾尔文文档图像,或者以打开图片的方式,输入一幅印刷体维吾尔文文档图像,图3为本发明仿真实验时输入的一幅只包含维吾尔文的待识别的印刷体维吾尔文文档图像。采用本发明的系统和方法对输入的印刷体维吾尔文文档图像图3进行识别,识别结果如图4所示。
图4是基于连体段的印刷体维吾尔文文档图像识别方法对输入图像图3识别得到的识别结果图,通过将图4与图3对比可以看出,识别结果图4与输入的印刷体维吾尔文文档图像图3中的书写顺序和书写格式保持一致,并以可编辑格式输出印刷体维吾尔文文档图像,验证了本发明可以按照输入的印刷体维吾尔文文档图像的书写顺序和格式,输出印刷体维吾尔文文档图像对应的文本文档,实现对印刷体维吾尔文文档图像的电子化。
Claims (6)
1.基于连体段的印刷体维吾尔文文档图像识别系统,其特征在于,该识别系统包括连体段数据库模块、文档图像输入模块、文档图像预处理模块、文档图像切分模块、连体段图像预处理模块、连体段图像特征提取模块、连体段分类识别模块和文档图像输出模块;
所述连体段数据库模块,用于通过采集不同字体不同字号的常用印刷体维吾尔文连体段,构建印刷体维吾尔文连体段的特征模板库,并将特征模板库发送给连体段分类识别模块;
所述文档图像输入模块,用于输入待识别的印刷体维吾尔文文档图像,并将输入的待识别的印刷体维吾尔文文档图像发送给文档图像预处理模块;
所述文档图像预处理模块,用于对待识别的印刷体维吾尔文文档图像进行二值化、去噪和倾斜矫正处理,得到预处理后的文档图像,并将预处理后的文档图像发送给文档图像切分模块;
所述文档图像切分模块,用于通过对预处理后的文档图像进行切分处理,生成连体段图像,并将生成的连体段图像发送给连体段图像预处理模块;
所述连体段图像预处理模块,用于对连体段图像进行尺寸归一化处理,得到预处理后的连体段图像,并将预处理后的连体段图像发送给连体段图像特征提取模块;
所述连体段图像特征提取模块,用于提取预处理后的连体段图像的特征向量,并将连体段图像的特征向量发送给连体段分类识别模块;
所述连体段分类识别模块,用于对连体段图像进行分类识别,并将识别结果发送给文档图像输出模块;
所述文档图像输出模块,用于输出识别的文档图像对应的文本格式文档。
2.根据权利要求1所述的基于连体段的印刷体维吾尔文文档图像识别系统,其特征在于,所述文档图像输入模块是以连接扫描仪或打开图片的方式输入印刷体维吾尔文文档图像。
3.根据权利要求1所述系统的一种基于连体段的印刷体维吾尔文文档图像识别方法,其特征在于,建立印刷体维吾尔文连体段的特征模板库,通过与输入的印刷体维吾尔文文档图像中的连体段图像进行匹配,将输入的印刷体维吾尔文文档图像中的连体段图像以可编辑格式输出,实现将输入的印刷体维吾尔文文档图像转变为文本格式的文档;该方法的具体步骤如下:
(1)建立印刷体维吾尔文连体段的特征模板库:
(1a)连体段数据库模块以常用维吾尔文连体段为采集对象,建立至少50套不同字体不同字号且只包含常用维吾尔文连体段的印刷体维吾尔文文档图像;
(1b)对每套印刷体维吾尔文文档图像进行切分处理,将生成的多幅连体段图像样本组成印刷体维吾尔文连体段图像的数据样本库;
(1c)连体段数据库模块利用双三次插值算法,对数据样本库中的每个连体段图像样本进行尺寸归一化处理后,再提取每个连体段图像样本的Gabor特征向量,将所有Gabor特征向量组成印刷体维吾尔文连体段的特征模板库;
(2)输入待识别的印刷体维吾尔文文档图像:
文档图像输入模块输入一幅只包含维吾尔文的待识别的印刷体维吾尔文文档图像;
(3)对输入的文档图像进行预处理:
(3a)文档图像预处理模块利用最大类间方差算法对输入的文档图像进行二值化处理;
(3b)文档图像预处理模块利用中值滤波算法,对二值化处理后的图像进行去噪处理;
(3c)文档图像预处理模块利用傅里叶变换算法和霍夫变换算法相结合的方法,对去噪后的二值图像进行倾斜矫正处理,得到预处理后的文档图像;
(4)生成连体段图像:
(4a)文档图像切分模块对预处理后的文档图像进行水平积分投影,将预处理后的文档图像中每个连续水平积分投影不为零的区域的上下边界作为每幅行文档图像的上下边界,得到多幅行文档图像;
(4b)文档图像切分模块从多幅行文档图像中选取任意一幅未选过的行文档图像,利用形态学膨胀算法对所选行文档图像进行膨胀处理,对膨胀后的行文档图像进行垂直积分投影,将膨胀后的行文档图像中每个连续垂直积分投影不为零的区域的左右边界作为每幅单词图像的左右边界,得到多幅单词图像;
(4c)文档图像切分模块判断是否选取完多幅行文档图像中的所有行文档图像,若是,得到多幅行文档图像中的所有单词图像后执行步骤(4d),否则,执行步骤(4b);
(4d)文档图像切分模块从多幅单词图像中选取任意一幅单词图像,采用八邻域种子填充连通域算法,依次提取所选取的单词图像中所有的连通域,根据每个连通域的面积、连通域之间的距离以及连体段中主笔画部分和附加笔画部分的关联位置关系对连通域进行合并,得到多幅连体段图像;
(4e)文档图像切分模块判断是否选取完多幅单词图像中的所有单词图像,若是,得到多幅单词图像中的所有连体段图像后执行步骤(5),否则,执行步骤(4d);
(5)对连体段图像进行预处理:
连体段图像预处理模块利用双三次插值算法,对每个连体段图像的尺寸进行归一化处理,得到预处理后的连体段图像;
(6)提取连体段图像的Gabor特征向量:
(6a)连体段图像特征提取模块对每个预处理后的连体段图像进行反色处理,得到反色后的连体段图像;
(6b)连体段图像特征提取模块按照下式,根据二维Gabor滤波器的高度和宽度,对每个反色后的连体段图像的上下两个方向各加Gh行像素值为0的像素点,左右两个方向各加Gw列像素值为0的像素点,得到加边后的连体段图像:
其中,Gh表示对反色后的连体段图像上下两个方向上增加的像素点的行数,GaborHeigh表示Gabor滤波器窗口的高度,GaborWidth表示Gabor滤波器窗口的宽度,Gw表示对反色后的连体段图像左右两个方向上增加的像素点的列数;
(6c)连体段图像特征提取模块利用二维Gabor滤波器,对加边后的连体段图像中的每个像素点与二维Gabor滤波器的实部做卷积运算,得到滤波后的连体段图像;
(6d)连体段图像特征提取模块将滤波后的连体段图像按照高度和宽度均匀的划分为n×n份,得到n×n个图像块;
(6e)连体段图像特征提取模块计算每个图像块的能量,将所有图像块的能量值构成滤波后的连体段图像的特征向量,得到待识别的连体段图像的Gabor特征向量;
(7)对连体段图像进行分类识别:
(7a)连体段分类识别模块计算待识别的连体段图像的特征向量与连体段数据库模块中建立的特征模板库中每个连体段样本的特征向量之间的欧氏距离;
(7b)连体段分类识别模块按照从小到大的顺序,对待识别的连体段图像的特征向量与连体段数据库模块中建立的特征模板库中每一个连体段样本的特征向量之间的欧氏距离进行排序;
(7c)连体段分类识别模块选取特征模板库中与待识别连体段的欧氏距离最小的连体段的类别,作为待识别连体段图像的首选类别;
(8)输出识别的文档图像对应的文本格式文档:
文档图像输出模块将待识别连体段图像的首选类别,按输入的印刷体维吾尔文文档图像中的书写顺序和书写格式,以可编辑格式输出首选类别对应的连体段,对文档图像中的所有连体段进行输出,得到文档图像对应的文本格式文档。
4.根据权利要求3所述的基于连体段的印刷体维吾尔文文档图像识别方法,其特征在于,步骤(4d)中所述的连体段中主部笔画部分和附加笔画部分的关联位置关系是指,主笔画部分包含附加笔画部分、主笔画部分与附加笔画部分相交、附加笔画部分位于主笔画部分上方、附加笔画部分位于主笔画部分下方这四种位置关系。
5.根据权利要求3所述的基于连体段的印刷体维吾尔文文档图像识别方法,其特征在于,步骤(4d)中所述对连通域进行合并的具体步骤如下:
第1步,从所选取的单词图像中所有的连通域中选取任意一个连通域,并搜索与所选连通域相邻的最近连通域;
第2步,确定连体段的主笔画部分和附加笔画部分,将选取的连通域和与其最近的连通域按照面积大小分类,将面积较大的连通域设为连体段的主笔画部分A,将面积较小的连通域设为连体段的附加笔画部分B;
第3步,根据连体段中主部笔画部分和附加笔画部分的关联位置关系,判断A和B的位置关系是否属于连体段中主部笔画部分和附加笔画部分的关联位置的任意一种,若是,则将将A和B作为一个连体段的主笔画部分和附加笔画部分进行合并,否则,执行第4步;
第4步,若A最近的连通域中无符合连体段中主笔画部分和附加笔画部分的位置关系条件的连通域B,则A为单独的连体段,并将A作为得到的连体段图像;
第5步,判断所选取的单词图像中所有的连通域是否选取完,若是,得到多幅连体段图像,否则,执行第1步。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010341026.8A CN111553336B (zh) | 2020-04-27 | 2020-04-27 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010341026.8A CN111553336B (zh) | 2020-04-27 | 2020-04-27 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553336A CN111553336A (zh) | 2020-08-18 |
CN111553336B true CN111553336B (zh) | 2023-03-24 |
Family
ID=72007782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010341026.8A Active CN111553336B (zh) | 2020-04-27 | 2020-04-27 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553336B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1570958A (zh) * | 2004-04-23 | 2005-01-26 | 清华大学 | 多字体多字号印刷体藏文字符识别方法 |
CN101286202A (zh) * | 2008-05-23 | 2008-10-15 | 中南民族大学 | 多字体多字号的基于彝文字符集的印刷体字符识别方法 |
JP2009048641A (ja) * | 2007-08-20 | 2009-03-05 | Fujitsu Ltd | 文字認識方法および文字認識装置 |
CN101751569A (zh) * | 2010-01-15 | 2010-06-23 | 西安电子科技大学 | 用于脱机手写维吾尔文单词的字符切分方法 |
US8233726B1 (en) * | 2007-11-27 | 2012-07-31 | Googe Inc. | Image-domain script and language identification |
CN102629322A (zh) * | 2012-03-12 | 2012-08-08 | 华中科技大学 | 一种基于边界点笔画形状的字符特征提取方法及应用 |
CN103927539A (zh) * | 2014-03-24 | 2014-07-16 | 新疆大学 | 离线式维吾尔文手写签名识别的一种高效的特征提取方法 |
CN104899601A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学宁波信息技术研究院 | 一种手写维吾尔文单词识别方法 |
CN106295631A (zh) * | 2016-07-27 | 2017-01-04 | 新疆大学 | 一种图像维吾尔文单词识别方法及装置 |
CN106372639A (zh) * | 2016-08-19 | 2017-02-01 | 西安电子科技大学 | 基于形态学与积分投影的印刷体维吾尔文文档切分方法 |
WO2017162069A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 一种图像文本的识别方法和装置 |
CN108090489A (zh) * | 2018-01-15 | 2018-05-29 | 兰州理工大学 | 基于计算机的依据字素分割的脱机手写维文单词识别方法 |
CN110298350A (zh) * | 2019-06-18 | 2019-10-01 | 新疆大学 | 一种高效的印刷体维吾尔文单词分割算法 |
WO2020063314A1 (zh) * | 2018-09-25 | 2020-04-02 | 京东数字科技控股有限公司 | 字符切分识别方法、装置、电子设备、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1459761B (zh) * | 2002-05-24 | 2010-04-21 | 清华大学 | 基于Gabor滤波器组的字符识别技术 |
-
2020
- 2020-04-27 CN CN202010341026.8A patent/CN111553336B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1570958A (zh) * | 2004-04-23 | 2005-01-26 | 清华大学 | 多字体多字号印刷体藏文字符识别方法 |
JP2009048641A (ja) * | 2007-08-20 | 2009-03-05 | Fujitsu Ltd | 文字認識方法および文字認識装置 |
US8233726B1 (en) * | 2007-11-27 | 2012-07-31 | Googe Inc. | Image-domain script and language identification |
CN101286202A (zh) * | 2008-05-23 | 2008-10-15 | 中南民族大学 | 多字体多字号的基于彝文字符集的印刷体字符识别方法 |
CN101751569A (zh) * | 2010-01-15 | 2010-06-23 | 西安电子科技大学 | 用于脱机手写维吾尔文单词的字符切分方法 |
CN102629322A (zh) * | 2012-03-12 | 2012-08-08 | 华中科技大学 | 一种基于边界点笔画形状的字符特征提取方法及应用 |
CN103927539A (zh) * | 2014-03-24 | 2014-07-16 | 新疆大学 | 离线式维吾尔文手写签名识别的一种高效的特征提取方法 |
CN104899601A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学宁波信息技术研究院 | 一种手写维吾尔文单词识别方法 |
WO2017162069A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 一种图像文本的识别方法和装置 |
CN106295631A (zh) * | 2016-07-27 | 2017-01-04 | 新疆大学 | 一种图像维吾尔文单词识别方法及装置 |
CN106372639A (zh) * | 2016-08-19 | 2017-02-01 | 西安电子科技大学 | 基于形态学与积分投影的印刷体维吾尔文文档切分方法 |
CN108090489A (zh) * | 2018-01-15 | 2018-05-29 | 兰州理工大学 | 基于计算机的依据字素分割的脱机手写维文单词识别方法 |
WO2020063314A1 (zh) * | 2018-09-25 | 2020-04-02 | 京东数字科技控股有限公司 | 字符切分识别方法、装置、电子设备、存储介质 |
CN110298350A (zh) * | 2019-06-18 | 2019-10-01 | 新疆大学 | 一种高效的印刷体维吾尔文单词分割算法 |
Non-Patent Citations (2)
Title |
---|
基于HOG特征和MLP分类器的印刷体维吾尔文识别方法;于丽等;《微型电脑应用》;20170620(第06期);全文 * |
连通域结合重叠度的维吾尔文档图像文字切分;姑丽祖热.吐尔逊等;《计算机工程与设计》;20160716(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111553336A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lawgali | A survey on Arabic character recognition | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
Hallale et al. | Twelve directional feature extraction for handwritten English character recognition | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN113723252A (zh) | 一种表格型文本图片的识别方法和系统 | |
Dhanikonda et al. | An efficient deep learning model with interrelated tagging prototype with segmentation for telugu optical character recognition | |
Geetha et al. | Implementation of text recognition and text extraction on formatted bills using deep learning | |
Tawde et al. | An overview of feature extraction techniques in ocr for indian scripts focused on offline handwriting | |
Al-Sheikh et al. | A review of arabic text recognition dataset | |
Kaundilya et al. | Automated text extraction from images using OCR system | |
Ntzios et al. | An old greek handwritten OCR system based on an efficient segmentation-free approach | |
CN114005127A (zh) | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 | |
Aravinda et al. | Template matching method for Kannada handwritten recognition based on correlation analysis | |
Raj et al. | Grantha script recognition from ancient palm leaves using histogram of orientation shape context | |
Dhandra et al. | Kannada handwritten vowels recognition based on normalized chain code and wavelet filters | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
CN111553336B (zh) | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 | |
CN116543391A (zh) | 一种结合图像校正的文本数据采集系统及方法 | |
Thilagavathy et al. | Recognition of distorted character using edge detection algorithm | |
Jameel et al. | A REVIEW ON RECOGNITION OF HANDWRITTEN URDU CHARACTERS USING NEURAL NETWORKS. | |
Salagar et al. | Analysis of PCA usage to detect and correct skew in document images | |
KRISHNA et al. | Digitization, Preservation and Character Recognition in Ancient Documents Using Image Processing Techniques–A Review | |
Mahmoud et al. | The use of radon transform in handwritten Arabic (Indian) numerals recognition | |
Koundal et al. | Punjabi optical character recognition: a survey | |
Sandyal et al. | Segmentation approach for offline handwritten Kannada scripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |