CN106650736A - 一种基于深度学习的汉字识别系统的实现方法 - Google Patents
一种基于深度学习的汉字识别系统的实现方法 Download PDFInfo
- Publication number
- CN106650736A CN106650736A CN201610858307.4A CN201610858307A CN106650736A CN 106650736 A CN106650736 A CN 106650736A CN 201610858307 A CN201610858307 A CN 201610858307A CN 106650736 A CN106650736 A CN 106650736A
- Authority
- CN
- China
- Prior art keywords
- picture
- text
- word
- character recognition
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 238000012937 correction Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000005215 recombination Methods 0.000 abstract 1
- 230000006798 recombination Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
Abstract
本发明公开了一种基于深度学习的汉字识别系统的实现方法,属于图像处理技术领域,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。本发明使用图像处理技术完成灰度化、二值化,泛化能力强,抗干扰能力强。
Description
技术领域
本发明涉及图像处理技术领域,具体地说是一种基于深度学习的汉字识别系统的实现方法。
背景技术
随着互联网和人工智能的迅猛发展,交流和信息传递方式从文字向图片和语音的方式转变,图片文字信息的识别的成为一个重要需求。
传统的文字信息识别方法,通过计算图片像素、图片中文字的外围结构、笔划方向等,生成单个文字特征库,识别环节通过与特征库比对找出最小距离,从而判断文字类别,对于不同字号、横纵拉伸及旋转的文字图片识别能力差。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于深度学习的汉字识别系统的实现方法,使用图像处理技术完成灰度化、二值化,泛化能力强,抗干扰能力强。
本发明解决其技术问题所采用的技术方案是:
一种基于深度学习的汉字识别系统的实现方法,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:
1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;
2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;
3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;
4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。
汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。
使用技术:基于汉字识别的图片质量和性能要求,整个识别系统采用C/C++编写,图像处理模块部分调用opencv的处理接口,深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。
图像预处理:输入的文字图像多为多通道、有噪声和有倾斜的图片,在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片,然后将其通过阈值转化为只有0和1的二值化图片,接着分析图片中的文字区域,将其切割出来,对切割图片进行倾斜校正,尽量保证行是水平的,最后对文字区域进行行切割,对每行进行字切割。其中切割部分采用投影方法,行切割中,对每行进行投影,根据行间的空白部分,统计切割出每一行;对于每行文字,采用列投影,根据字间隔统计字的大致宽度及字之间的间隔距离,然后在切割中对每个字宽和左右部首宽度做具体策略,先统计后切割,根据输入图片动态调整阈值,最终实现窄字符及左右或左中右结构汉字不被切割错,完成字切割。
图像识别:图像识别指单个文字图像的识别,包括训练和模型使用两部分。训练过程中,先生成训练和测试两个数据集合,本发明主要针对印刷体的宋体、仿宋、黑体和楷体四种类型,字号采用小四,扫描后切割出单个字符图像,通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合,组合北邮的手写样本1000*3755,最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测,通过模型调节和测试,最终产出网络模型和参数权重文件。
汉字识别系统流程实现:前端部分为图片输入,后端对输入的图像进行预处理、行字切割,调用深度网络模型识别单个图像汉字类别,并按照原始图像的段落重新组合出文本段,然后调用自然语言处理的相关接口,完成文本校正,并将其返回到前端。对于用户使用,只需将待检测图片上传,服务器经过一系列运算,将识别结果返回给用户。
使用时,用户只需要将待识别的文字图片上传,通信服务器将图片转发至后端服务器。后端服务器首先将图片进行灰度化、二值化、倾斜校正、行字切分,调用深度网络模型,计算得到分类预测。然后将单字图片的预测文字按照行和段组合,并调用自然语言处理词库进行文本校正,最后将校正后的文本段返回给用户。
本发明的一种基于深度学习的汉字识别系统的实现方法和现有技术相比,具有以下有益效果:
用户使用移动端或web端上传待识别文字图片后,后端服务器实时计算,完成图片预处理、分割和识别,文本校正后返回给用户。整个后端多任务并发执行,快速反馈结果,并且可以同时响应多个用户的请求;
前端提供用户编辑接口,用户可以标注版面、调整图片倾斜等,满足自主编辑,同时提供一键化识别;
引入深度网络结构,使识别准确率比传统方法提升,同时降低开发者对图像及文字相关专业知识的大量学习成本。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
一种基于深度学习的汉字识别系统的实现方法,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;使用技术:基于汉字识别的图片质量和性能要求,整个识别系统采用C/C++编写,图像处理模块部分调用opencv的处理接口,深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。
包括:
1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片。输入的文字图像多为多通道、有噪声和有倾斜的图片,在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片,然后将其通过阈值转化为只有0和1的二值化图片,接着分析图片中的文字区域,将其切割出来,对切割图片进行倾斜校正,尽量保证行是水平的,最后对文字区域进行行切割,对每行进行字切割。其中切割部分采用投影方法,行切割中,对每行进行投影,根据行间的空白部分,统计切割出每一行;对于每行文字,采用列投影,根据字间隔统计字的大致宽度及字之间的间隔距离,然后在切割中对每个字宽和左右部首宽度做具体策略,先统计后切割,根据输入图片动态调整阈值,最终实现窄字符及左右或左中右结构汉字不被切割错,完成字切割。
2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字。
3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果。图像识别指单个文字图像的识别,包括训练和模型使用两部分。训练过程中,先生成训练和测试两个数据集合,本发明主要针对印刷体的宋体、仿宋、黑体和楷体四种类型,字号采用小四,扫描后切割出单个字符图像,通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合,组合北邮的手写样本1000*3755,最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测,通过模型调节和测试,最终产出网络模型和参数权重文件。
汉字识别系统流程实现:前端部分为图片输入,后端对输入的图像进行预处理、行字切割,调用深度网络模型识别单个图像汉字类别,并按照原始图像的段落重新组合出文本段,然后调用自然语言处理的相关接口,完成文本校正,并将其返回到前端。对于用户使用,只需将待检测图片上传,服务器经过一系列运算,将识别结果返回给用户。
4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。
汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。
使用时,用户只需要将待识别的文字图片上传,通信服务器将图片转发至后端服务器。后端服务器首先将图片进行灰度化、二值化、倾斜校正、行字切分,调用深度网络模型,计算得到分类预测。然后将单字图片的预测文字按照行和段组合,并调用自然语言处理词库进行文本校正,最后将校正后的文本段返回给用户。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (2)
1.一种基于深度学习的汉字识别系统的实现方法,其特征在于将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:
1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;
2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;
3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;
4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。
2.根据权利要求1所述的一种基于深度学习的汉字识别系统的实现方法,其特征在于汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610858307.4A CN106650736A (zh) | 2016-09-28 | 2016-09-28 | 一种基于深度学习的汉字识别系统的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610858307.4A CN106650736A (zh) | 2016-09-28 | 2016-09-28 | 一种基于深度学习的汉字识别系统的实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106650736A true CN106650736A (zh) | 2017-05-10 |
Family
ID=58853441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610858307.4A Pending CN106650736A (zh) | 2016-09-28 | 2016-09-28 | 一种基于深度学习的汉字识别系统的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106650736A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194400A (zh) * | 2017-05-31 | 2017-09-22 | 北京天宇星空科技有限公司 | 一种财务报销全票据图片识别处理方法 |
CN107767531A (zh) * | 2017-10-24 | 2018-03-06 | 深圳怡化电脑股份有限公司 | 纸币识别方法及系统 |
CN108319945A (zh) * | 2018-01-09 | 2018-07-24 | 佛山科学技术学院 | 一种分离式ocr识别方法及其系统 |
CN108596181A (zh) * | 2018-04-16 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 文本识别方法、系统、机器设备和计算可读存储介质 |
CN109242400A (zh) * | 2018-11-02 | 2019-01-18 | 南京信息工程大学 | 一种基于卷积门控循环神经网络的物流快递单号识别方法 |
CN109308478A (zh) * | 2018-09-26 | 2019-02-05 | 新华三信息安全技术有限公司 | 一种字符识别方法及装置 |
CN109886978A (zh) * | 2019-02-20 | 2019-06-14 | 贵州电网有限责任公司 | 一种基于深度学习的端到端告警信息识别方法 |
CN110143067A (zh) * | 2019-04-26 | 2019-08-20 | 深圳市金城保密技术有限公司 | 一种双面打印控制系统 |
CN110443249A (zh) * | 2019-07-19 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 基于投影方式的图片切割模型 |
CN110781885A (zh) * | 2019-10-24 | 2020-02-11 | 泰康保险集团股份有限公司 | 基于图像处理的文本检测方法、装置、介质及电子设备 |
CN110858317A (zh) * | 2018-08-24 | 2020-03-03 | 北京搜狗科技发展有限公司 | 手写识别方法及装置 |
CN111385424A (zh) * | 2018-12-25 | 2020-07-07 | 佳能株式会社 | 图像处理系统和图像处理方法 |
CN111539437A (zh) * | 2020-04-27 | 2020-08-14 | 西南大学 | 基于深度学习的甲骨文偏旁的检测与识别方法 |
CN111626294A (zh) * | 2020-05-27 | 2020-09-04 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN112699890A (zh) * | 2021-01-07 | 2021-04-23 | 北京美斯齐文化科技有限公司 | 一种图片文字切割系统 |
CN113111869A (zh) * | 2021-04-06 | 2021-07-13 | 上海交通大学 | 提取文字图片及其描述的方法和系统 |
-
2016
- 2016-09-28 CN CN201610858307.4A patent/CN106650736A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194400B (zh) * | 2017-05-31 | 2019-12-20 | 北京天宇星空科技有限公司 | 一种财务报销全票据图片识别处理方法 |
CN107194400A (zh) * | 2017-05-31 | 2017-09-22 | 北京天宇星空科技有限公司 | 一种财务报销全票据图片识别处理方法 |
CN107767531A (zh) * | 2017-10-24 | 2018-03-06 | 深圳怡化电脑股份有限公司 | 纸币识别方法及系统 |
CN108319945A (zh) * | 2018-01-09 | 2018-07-24 | 佛山科学技术学院 | 一种分离式ocr识别方法及其系统 |
CN108596181A (zh) * | 2018-04-16 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 文本识别方法、系统、机器设备和计算可读存储介质 |
CN108596181B (zh) * | 2018-04-16 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 文本识别方法、系统、机器设备和计算可读存储介质 |
CN110858317A (zh) * | 2018-08-24 | 2020-03-03 | 北京搜狗科技发展有限公司 | 手写识别方法及装置 |
CN109308478A (zh) * | 2018-09-26 | 2019-02-05 | 新华三信息安全技术有限公司 | 一种字符识别方法及装置 |
CN109308478B (zh) * | 2018-09-26 | 2021-02-05 | 新华三信息安全技术有限公司 | 一种字符识别方法及装置 |
CN109242400A (zh) * | 2018-11-02 | 2019-01-18 | 南京信息工程大学 | 一种基于卷积门控循环神经网络的物流快递单号识别方法 |
US11216695B2 (en) | 2018-12-25 | 2022-01-04 | Canon Kabushiki Kaisha | Image processing system and image processing method |
CN111385424A (zh) * | 2018-12-25 | 2020-07-07 | 佳能株式会社 | 图像处理系统和图像处理方法 |
CN109886978A (zh) * | 2019-02-20 | 2019-06-14 | 贵州电网有限责任公司 | 一种基于深度学习的端到端告警信息识别方法 |
CN110143067B (zh) * | 2019-04-26 | 2020-07-03 | 深圳市金城保密技术有限公司 | 一种双面打印控制系统 |
CN110143067A (zh) * | 2019-04-26 | 2019-08-20 | 深圳市金城保密技术有限公司 | 一种双面打印控制系统 |
CN110443249A (zh) * | 2019-07-19 | 2019-11-12 | 杭州安恒信息技术股份有限公司 | 基于投影方式的图片切割模型 |
CN110781885A (zh) * | 2019-10-24 | 2020-02-11 | 泰康保险集团股份有限公司 | 基于图像处理的文本检测方法、装置、介质及电子设备 |
CN111539437A (zh) * | 2020-04-27 | 2020-08-14 | 西南大学 | 基于深度学习的甲骨文偏旁的检测与识别方法 |
CN111626294A (zh) * | 2020-05-27 | 2020-09-04 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN112699890A (zh) * | 2021-01-07 | 2021-04-23 | 北京美斯齐文化科技有限公司 | 一种图片文字切割系统 |
CN113111869A (zh) * | 2021-04-06 | 2021-07-13 | 上海交通大学 | 提取文字图片及其描述的方法和系统 |
CN113111869B (zh) * | 2021-04-06 | 2022-12-09 | 上海交通大学 | 提取文字图片及其描述的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650736A (zh) | 一种基于深度学习的汉字识别系统的实现方法 | |
CN104966097B (zh) | 一种基于深度学习的复杂文字识别方法 | |
CN109871851B (zh) | 一种基于卷积神经网络算法的汉字书写规范性判定方法 | |
CN108664996A (zh) | 一种基于深度学习的古文字识别方法及系统 | |
CN107330444A (zh) | 一种基于生成对抗网络的图像自动文本标注方法 | |
CN110363194A (zh) | 基于nlp的智能阅卷方法、装置、设备及存储介质 | |
CN110751137A (zh) | 一种自动求解数学题的方法和系统 | |
CN102013010B (zh) | 一种交互式篇章级手写识别方法及系统 | |
CN104809481A (zh) | 一种基于自适应色彩聚类的自然场景文本检测的方法 | |
CN110969129A (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN109190630A (zh) | 字符识别方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN109918991A (zh) | 基于深度学习的软笔书法临摹评价方法 | |
CN111652332A (zh) | 基于二分类的深度学习手写中文字符识别方法及系统 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
CN107463866A (zh) | 一种用于成绩评价的识别手写实验报告的方法 | |
CN106682671A (zh) | 图像文字识别系统 | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN113762269A (zh) | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN110503101A (zh) | 字形评价方法、装置、设备及计算机可读存储介质 | |
CN101697200B (zh) | 一种旋转无关的手写中文草书词组识别方法 | |
CN105022843A (zh) | 一种基于在线手写的交互方法及系统 | |
CN114495124A (zh) | 一种试题成绩分析及练习提高系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |