CN106650736A - 一种基于深度学习的汉字识别系统的实现方法 - Google Patents

一种基于深度学习的汉字识别系统的实现方法 Download PDF

Info

Publication number
CN106650736A
CN106650736A CN201610858307.4A CN201610858307A CN106650736A CN 106650736 A CN106650736 A CN 106650736A CN 201610858307 A CN201610858307 A CN 201610858307A CN 106650736 A CN106650736 A CN 106650736A
Authority
CN
China
Prior art keywords
picture
text
word
character recognition
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610858307.4A
Other languages
English (en)
Inventor
衣秀
陈安猛
房善华
王本强
郭运艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201610858307.4A priority Critical patent/CN106650736A/zh
Publication of CN106650736A publication Critical patent/CN106650736A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids

Abstract

本发明公开了一种基于深度学习的汉字识别系统的实现方法,属于图像处理技术领域,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。本发明使用图像处理技术完成灰度化、二值化,泛化能力强,抗干扰能力强。

Description

一种基于深度学习的汉字识别系统的实现方法
技术领域
本发明涉及图像处理技术领域,具体地说是一种基于深度学习的汉字识别系统的实现方法。
背景技术
随着互联网和人工智能的迅猛发展,交流和信息传递方式从文字向图片和语音的方式转变,图片文字信息的识别的成为一个重要需求。
传统的文字信息识别方法,通过计算图片像素、图片中文字的外围结构、笔划方向等,生成单个文字特征库,识别环节通过与特征库比对找出最小距离,从而判断文字类别,对于不同字号、横纵拉伸及旋转的文字图片识别能力差。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于深度学习的汉字识别系统的实现方法,使用图像处理技术完成灰度化、二值化,泛化能力强,抗干扰能力强。
本发明解决其技术问题所采用的技术方案是:
一种基于深度学习的汉字识别系统的实现方法,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:
1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;
2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;
3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;
4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。
汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。
使用技术:基于汉字识别的图片质量和性能要求,整个识别系统采用C/C++编写,图像处理模块部分调用opencv的处理接口,深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。
图像预处理:输入的文字图像多为多通道、有噪声和有倾斜的图片,在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片,然后将其通过阈值转化为只有0和1的二值化图片,接着分析图片中的文字区域,将其切割出来,对切割图片进行倾斜校正,尽量保证行是水平的,最后对文字区域进行行切割,对每行进行字切割。其中切割部分采用投影方法,行切割中,对每行进行投影,根据行间的空白部分,统计切割出每一行;对于每行文字,采用列投影,根据字间隔统计字的大致宽度及字之间的间隔距离,然后在切割中对每个字宽和左右部首宽度做具体策略,先统计后切割,根据输入图片动态调整阈值,最终实现窄字符及左右或左中右结构汉字不被切割错,完成字切割。
图像识别:图像识别指单个文字图像的识别,包括训练和模型使用两部分。训练过程中,先生成训练和测试两个数据集合,本发明主要针对印刷体的宋体、仿宋、黑体和楷体四种类型,字号采用小四,扫描后切割出单个字符图像,通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合,组合北邮的手写样本1000*3755,最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测,通过模型调节和测试,最终产出网络模型和参数权重文件。
汉字识别系统流程实现:前端部分为图片输入,后端对输入的图像进行预处理、行字切割,调用深度网络模型识别单个图像汉字类别,并按照原始图像的段落重新组合出文本段,然后调用自然语言处理的相关接口,完成文本校正,并将其返回到前端。对于用户使用,只需将待检测图片上传,服务器经过一系列运算,将识别结果返回给用户。
使用时,用户只需要将待识别的文字图片上传,通信服务器将图片转发至后端服务器。后端服务器首先将图片进行灰度化、二值化、倾斜校正、行字切分,调用深度网络模型,计算得到分类预测。然后将单字图片的预测文字按照行和段组合,并调用自然语言处理词库进行文本校正,最后将校正后的文本段返回给用户。
本发明的一种基于深度学习的汉字识别系统的实现方法和现有技术相比,具有以下有益效果:
用户使用移动端或web端上传待识别文字图片后,后端服务器实时计算,完成图片预处理、分割和识别,文本校正后返回给用户。整个后端多任务并发执行,快速反馈结果,并且可以同时响应多个用户的请求;
前端提供用户编辑接口,用户可以标注版面、调整图片倾斜等,满足自主编辑,同时提供一键化识别;
引入深度网络结构,使识别准确率比传统方法提升,同时降低开发者对图像及文字相关专业知识的大量学习成本。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
一种基于深度学习的汉字识别系统的实现方法,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;使用技术:基于汉字识别的图片质量和性能要求,整个识别系统采用C/C++编写,图像处理模块部分调用opencv的处理接口,深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。
包括:
1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片。输入的文字图像多为多通道、有噪声和有倾斜的图片,在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片,然后将其通过阈值转化为只有0和1的二值化图片,接着分析图片中的文字区域,将其切割出来,对切割图片进行倾斜校正,尽量保证行是水平的,最后对文字区域进行行切割,对每行进行字切割。其中切割部分采用投影方法,行切割中,对每行进行投影,根据行间的空白部分,统计切割出每一行;对于每行文字,采用列投影,根据字间隔统计字的大致宽度及字之间的间隔距离,然后在切割中对每个字宽和左右部首宽度做具体策略,先统计后切割,根据输入图片动态调整阈值,最终实现窄字符及左右或左中右结构汉字不被切割错,完成字切割。
2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字。
3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果。图像识别指单个文字图像的识别,包括训练和模型使用两部分。训练过程中,先生成训练和测试两个数据集合,本发明主要针对印刷体的宋体、仿宋、黑体和楷体四种类型,字号采用小四,扫描后切割出单个字符图像,通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合,组合北邮的手写样本1000*3755,最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测,通过模型调节和测试,最终产出网络模型和参数权重文件。
汉字识别系统流程实现:前端部分为图片输入,后端对输入的图像进行预处理、行字切割,调用深度网络模型识别单个图像汉字类别,并按照原始图像的段落重新组合出文本段,然后调用自然语言处理的相关接口,完成文本校正,并将其返回到前端。对于用户使用,只需将待检测图片上传,服务器经过一系列运算,将识别结果返回给用户。
4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。
汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。
使用时,用户只需要将待识别的文字图片上传,通信服务器将图片转发至后端服务器。后端服务器首先将图片进行灰度化、二值化、倾斜校正、行字切分,调用深度网络模型,计算得到分类预测。然后将单字图片的预测文字按照行和段组合,并调用自然语言处理词库进行文本校正,最后将校正后的文本段返回给用户。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (2)

1.一种基于深度学习的汉字识别系统的实现方法,其特征在于将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:
1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;
2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;
3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;
4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。
2.根据权利要求1所述的一种基于深度学习的汉字识别系统的实现方法,其特征在于汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。
CN201610858307.4A 2016-09-28 2016-09-28 一种基于深度学习的汉字识别系统的实现方法 Pending CN106650736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610858307.4A CN106650736A (zh) 2016-09-28 2016-09-28 一种基于深度学习的汉字识别系统的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610858307.4A CN106650736A (zh) 2016-09-28 2016-09-28 一种基于深度学习的汉字识别系统的实现方法

Publications (1)

Publication Number Publication Date
CN106650736A true CN106650736A (zh) 2017-05-10

Family

ID=58853441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610858307.4A Pending CN106650736A (zh) 2016-09-28 2016-09-28 一种基于深度学习的汉字识别系统的实现方法

Country Status (1)

Country Link
CN (1) CN106650736A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107767531A (zh) * 2017-10-24 2018-03-06 深圳怡化电脑股份有限公司 纸币识别方法及系统
CN108319945A (zh) * 2018-01-09 2018-07-24 佛山科学技术学院 一种分离式ocr识别方法及其系统
CN108596181A (zh) * 2018-04-16 2018-09-28 腾讯科技(深圳)有限公司 文本识别方法、系统、机器设备和计算可读存储介质
CN109242400A (zh) * 2018-11-02 2019-01-18 南京信息工程大学 一种基于卷积门控循环神经网络的物流快递单号识别方法
CN109308478A (zh) * 2018-09-26 2019-02-05 新华三信息安全技术有限公司 一种字符识别方法及装置
CN109886978A (zh) * 2019-02-20 2019-06-14 贵州电网有限责任公司 一种基于深度学习的端到端告警信息识别方法
CN110143067A (zh) * 2019-04-26 2019-08-20 深圳市金城保密技术有限公司 一种双面打印控制系统
CN110443249A (zh) * 2019-07-19 2019-11-12 杭州安恒信息技术股份有限公司 基于投影方式的图片切割模型
CN110781885A (zh) * 2019-10-24 2020-02-11 泰康保险集团股份有限公司 基于图像处理的文本检测方法、装置、介质及电子设备
CN110858317A (zh) * 2018-08-24 2020-03-03 北京搜狗科技发展有限公司 手写识别方法及装置
CN111385424A (zh) * 2018-12-25 2020-07-07 佳能株式会社 图像处理系统和图像处理方法
CN111539437A (zh) * 2020-04-27 2020-08-14 西南大学 基于深度学习的甲骨文偏旁的检测与识别方法
CN111626294A (zh) * 2020-05-27 2020-09-04 北京微智信业科技有限公司 一种基于自然语言语义分析的文本识别方法
CN112699890A (zh) * 2021-01-07 2021-04-23 北京美斯齐文化科技有限公司 一种图片文字切割系统
CN113111869A (zh) * 2021-04-06 2021-07-13 上海交通大学 提取文字图片及其描述的方法和系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194400B (zh) * 2017-05-31 2019-12-20 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107767531A (zh) * 2017-10-24 2018-03-06 深圳怡化电脑股份有限公司 纸币识别方法及系统
CN108319945A (zh) * 2018-01-09 2018-07-24 佛山科学技术学院 一种分离式ocr识别方法及其系统
CN108596181A (zh) * 2018-04-16 2018-09-28 腾讯科技(深圳)有限公司 文本识别方法、系统、机器设备和计算可读存储介质
CN108596181B (zh) * 2018-04-16 2022-02-25 腾讯科技(深圳)有限公司 文本识别方法、系统、机器设备和计算可读存储介质
CN110858317A (zh) * 2018-08-24 2020-03-03 北京搜狗科技发展有限公司 手写识别方法及装置
CN109308478A (zh) * 2018-09-26 2019-02-05 新华三信息安全技术有限公司 一种字符识别方法及装置
CN109308478B (zh) * 2018-09-26 2021-02-05 新华三信息安全技术有限公司 一种字符识别方法及装置
CN109242400A (zh) * 2018-11-02 2019-01-18 南京信息工程大学 一种基于卷积门控循环神经网络的物流快递单号识别方法
US11216695B2 (en) 2018-12-25 2022-01-04 Canon Kabushiki Kaisha Image processing system and image processing method
CN111385424A (zh) * 2018-12-25 2020-07-07 佳能株式会社 图像处理系统和图像处理方法
CN109886978A (zh) * 2019-02-20 2019-06-14 贵州电网有限责任公司 一种基于深度学习的端到端告警信息识别方法
CN110143067B (zh) * 2019-04-26 2020-07-03 深圳市金城保密技术有限公司 一种双面打印控制系统
CN110143067A (zh) * 2019-04-26 2019-08-20 深圳市金城保密技术有限公司 一种双面打印控制系统
CN110443249A (zh) * 2019-07-19 2019-11-12 杭州安恒信息技术股份有限公司 基于投影方式的图片切割模型
CN110781885A (zh) * 2019-10-24 2020-02-11 泰康保险集团股份有限公司 基于图像处理的文本检测方法、装置、介质及电子设备
CN111539437A (zh) * 2020-04-27 2020-08-14 西南大学 基于深度学习的甲骨文偏旁的检测与识别方法
CN111626294A (zh) * 2020-05-27 2020-09-04 北京微智信业科技有限公司 一种基于自然语言语义分析的文本识别方法
CN112699890A (zh) * 2021-01-07 2021-04-23 北京美斯齐文化科技有限公司 一种图片文字切割系统
CN113111869A (zh) * 2021-04-06 2021-07-13 上海交通大学 提取文字图片及其描述的方法和系统
CN113111869B (zh) * 2021-04-06 2022-12-09 上海交通大学 提取文字图片及其描述的方法和系统

Similar Documents

Publication Publication Date Title
CN106650736A (zh) 一种基于深度学习的汉字识别系统的实现方法
CN104966097B (zh) 一种基于深度学习的复杂文字识别方法
CN109871851B (zh) 一种基于卷积神经网络算法的汉字书写规范性判定方法
CN108664996A (zh) 一种基于深度学习的古文字识别方法及系统
CN107330444A (zh) 一种基于生成对抗网络的图像自动文本标注方法
CN110363194A (zh) 基于nlp的智能阅卷方法、装置、设备及存储介质
CN110751137A (zh) 一种自动求解数学题的方法和系统
CN102013010B (zh) 一种交互式篇章级手写识别方法及系统
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN110969129A (zh) 一种端到端税务票据文本检测与识别方法
CN109190630A (zh) 字符识别方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN109918991A (zh) 基于深度学习的软笔书法临摹评价方法
CN111652332A (zh) 基于二分类的深度学习手写中文字符识别方法及系统
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
CN107463866A (zh) 一种用于成绩评价的识别手写实验报告的方法
CN106682671A (zh) 图像文字识别系统
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN113537227B (zh) 一种结构化文本识别方法及系统
CN110503101A (zh) 字形评价方法、装置、设备及计算机可读存储介质
CN101697200B (zh) 一种旋转无关的手写中文草书词组识别方法
CN105022843A (zh) 一种基于在线手写的交互方法及系统
CN114495124A (zh) 一种试题成绩分析及练习提高系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170510