CN112052852A - 一种基于深度学习的手写气象档案资料的字符识别方法 - Google Patents

一种基于深度学习的手写气象档案资料的字符识别方法 Download PDF

Info

Publication number
CN112052852A
CN112052852A CN202010938889.3A CN202010938889A CN112052852A CN 112052852 A CN112052852 A CN 112052852A CN 202010938889 A CN202010938889 A CN 202010938889A CN 112052852 A CN112052852 A CN 112052852A
Authority
CN
China
Prior art keywords
image
pictures
recognition
data
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010938889.3A
Other languages
English (en)
Other versions
CN112052852B (zh
Inventor
鞠晓慧
张强
战云健
陈东辉
王妍
兰平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Meteorological Information Center
Original Assignee
National Meteorological Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Meteorological Information Center filed Critical National Meteorological Information Center
Priority to CN202010938889.3A priority Critical patent/CN112052852B/zh
Publication of CN112052852A publication Critical patent/CN112052852A/zh
Application granted granted Critical
Publication of CN112052852B publication Critical patent/CN112052852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • G06T3/608Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习的手写气象档案资料的字符识别方法,包括如下步骤:A、图像预处理与字符识别数据集制作;B、字符识别;C、检查识别效果。本发明将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集。最后将数据集样本送入CRNN识别模型进行识别。本发明准备了高低质量两个数据集,分别训练了两个具有识别差异的CRNN模型,将相同的识别结果作为输出值,利用数据集间的差异剔除涂改字符。本发明方法在粘连字符识别问题上有明显的优势,且能准确的甄别出涂改字符。实验结果表明本发明可以显著减少人工工作量,提高工作效率。

Description

一种基于深度学习的手写气象档案资料的字符识别方法
技术领域
本发明涉及手写气象档案资料识别技术领域。具体地说是一种基于深度学习的手写气象档案资料的字符识别方法。
背景技术
气象档案为气象监测与科学研究等各个领域提供着重要的数据支持,具有很高的保存与研究价值。现存许多的历史气象档案多为手写纸质档案,为了更妥善的保存与保护,利用科技手段数字化储存十分有必要。气象档案数字化的常规方法是人工比对数据并录入,最终以电子档案的形式进行保存。人工整理流程繁杂,录入精度较低且耗时太长,通常需要投入大批量的人力物力,效率也得不到保障。近些年来,人工智能技术取得长足进步,为工业生产带来了诸多便利,以人工智能代替人工是时代的潮流。采用深度学习的方法对要录入的内容进行自动识别,减少人工工作量,提升工作效率。纸质气象档案数字化将大大方便档案的管理、传播与使用。为了长久的保护保存档案,更有效的利用气象资料,将气象档案数字化非常有必要。
字符识别是气象档案数字化的重要任务。字符识别任务可分为手写字识别和印刷字识别,手写字符识别又可分为联机识别与脱机识别。印刷体字符形状规则,结构清晰,便于识别。手写字符受每个人的用笔方式,书写习惯,文化背景等因素的影响,书写的字符差异较大,较难识别。脱机识别是指先将纸质文字信息通过扫描仪等扫描仪器转换为图片信息,再进行快速识别的过程,大多用于工整清晰的印刷体字符识别。联机识别是指利用触压电子屏,电子手写板等仪器手动书写,仪器根据书写的笔画与顺序进行识别,现在广泛应用于移动设备输入法程序的手写输入识别,识别精度较高。纸质气象档案数字化属于脱机识别,但手写字符的复杂性加大了识别的难度。
近年来,人工智能发展迅猛,深度学习技术在各个领域都有着十分广泛的应用,包括数字图像处理,语音识别,数据分析等。以人工智能代替人工是大势所趋。在图像识别领域,深度神经网络以图像各通道像素值为输入数据,通过隐含层的层层计算,得到预测结果,通过大量的图片数据反复训练,不断修改隐含层的参数值,减少预测值与真实标签数据之间的差异,使预测值逼近真实值,不断提高预测精度。手写字识别是计算机图像处理的重要组成部分,深度学习对此有着广泛的研究。
发明内容
为此,本发明所要解决的技术问题在于提供一种基于深度学习的手写气象档案资料的字符识别方法,该方法针对手写字体的问题,在粘连字符识别问题上有明显的优势,且能准确的甄别出涂改字符,能够显著减少工作量,提高工作效率。
为解决上述技术问题,本发明提供如下技术方案:
一种基于深度学习的手写气象档案资料的字符识别方法,包括如下步骤:
(1)图像预处理与字符识别数据集制作:将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集;
(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;
(3)检查识别结果。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(1)中,图像预处理包括:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(1)中,利用CTPN算法进行文本定位制作数据集:
先随机选取了50张扫描图片,用Xnview软件或其他截图软件将字符从扫描图片中截取并保存;然后将数据分成小批量送入模型,利用CTPN网络结构进行模型训练,每一批32张图片,共训练20轮次,得到文本定位后的结果;在CTPN定位模型训练完成后,又以定位模型对文本目标位置进行提取,自动裁剪保存。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(1)中,制作人工书写数据集:使用人工书写的方式按照档案数据的形式将数据誊写与纸面上,再将这些数据送入扫描仪成像,作为字符识别的数据集,裁剪保存;
邀请10人按照档案数据的形式将数据誊写于纸面上,再将这些数据送入扫描仪成像,裁剪保存;所有裁剪图片由人工比对图片字符信息进行命名,总共120178张;
在人工命名过程中,将裁剪图片中含有涂改字符的图片挑出,共5516张,命名为‘错’,即对应标签为‘错’,并不是对应修改后的信息;
挑出字迹不清难以区分,可能影响训练精度的图片,标签为字符信息,共7124张;
将所有挑出的图片单独存于一个文件夹,再从剩余字迹清晰无涂改的图片中随机挑选12000张图片,共24640张图片共同作为低质量数据集;
剩余图片制作高质量数据集,取出剩余图片的十分之一作为测试集;
低质量数据集和高质量数据集这两个数据集分别将所有裁剪图像的图片路径与标签名称按行存储于单独的txt文件中,作为两个数据集的标签文件。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(2)中,包括:
(2-1)特征序列提取:采用VGG网络作为卷积提取网络提取图像特征,并对输出张量的形状做变换,以作为特征序列输入RNN;
(2-2)在VGG网络之后,构造BLSTM双向循环网络来对输入序列逐一预测;
(2-3)转录结构位于CRNN的顶部,用于将循环结构的预测序列转换成结果序列,是最终的输出结果;
整个网络用统一的损失函数进行训练及优化。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(2-1)中,特征序列提取是在将图片输入CRNN模型前,所有图像都将高度设为统一的定值,宽度随比例变换;经过VGG网络的卷积池化层从输入图像中提取出空间特征信息,再输入到循环网络;特征序列是一组有序特征向量,而每个特征向量都是卷积输出特征图上的一列数据,从左到右顺序排列;特征向量的宽度为一个特征点,由于输入图像高度相同,所以特征向量的高度是不变的,特征向量的个数为特征图的宽度。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(2-2)中:
构造BLSTM双向循环网络:序列标注是设RNN输入特征序列为x=x1,...,xT,向量xt的输出标签为yt;RNN的神经元由输入层、隐含层、输出层相互连接;输入的序列向量xt,经由非线性函数推算后,获得内部状态ht,以ht推算预测值yt;此函数除了当前输入xt以外,还将上一时刻内部状态ht-1作为输入参数,即ht=g(xt,ht-1);以此方式获取上一时刻的信息{xt'}t'<t用以预测。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(2-3)中,转录是将RNN得到的预测序列转换为标签序列的过程,取每一帧概率最大的预测标签;CRNN采用了CTC转录方法,将所有预测标签进行去重整合处理,得到最后的结果;
若字符较宽,则同一个字符可能被两个序列预测,CTC会将邻近的字符序列去重处理;若含有重复字符的序列,CTC加入空白符机制,用‘-’代表空白符作为分隔。
上述一种基于深度学习的手写气象档案资料的字符识别方法,网络训练中训练集表示为χ={Ii,Ii},训练图像表示为Ii,标签序列表示为Ii,经过卷积层和循环层得到的预测值表示为yi
最终以预测的条件概率的负对数似然作为损失函数:
Figure BDA0002672931720000051
损失函数值越小,预测结果越逼近真实标签,训练过程转化为寻找梯度值为零的过程;
采用动态学习率AdaDelta方法根据梯度自动计算每一维的学习率,最后根据之前准备的两个高质量数据集和低质量数据集分别训练两个识别模型。
上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(3)中,CRNN模型的识别结果按行保存在txt文件中,一个图片名对应一个识别结果;在测试集中对CRNN模型进行精度验证,对于两个模型都检测错误的判定为检测失败。
本发明的技术方案取得了如下有益的技术效果:
本发明将纸质气象档案扫描为数字图像格式,先做图像预处理和定位字符数据集,根据档案特点提取出表格区域,再使用CTPN深度学习模型在小区域范围内定位字符位置。最后将定位好的文本送入识别模型进行识别。字符识别选择了对序列信息敏感,能够识别粘连字符的CRNN模型,但CRNN方法无法识别涂改字符,会将划掉的字符一并识别为错误的字符。为了解决涂改字符识别的问题,本发明准备了高低质量两个数据集,分别训练了两个具有识别差异的CRNN模型,将相同的识别结果作为输出值,结果不同的数据需要人工修改,利用数据集间的差异剔除涂改字符。为了提高训练精度,本发明准备了大量的训练数据,花费了较多的时间整理数据标签,最终达到很高的识别正确率。实验结果表明本发明工作可以显著减少人工工作量,提高工作效率。
在1000张测试图片中将涂改字符全部剔除出来,并达到了99.7%的识别精度。本发明提出的方法定位出了所有的字符,能够准确识别出粘连字符,并且利用模型间的差异,将涂改字符剔除出来,设置结果为“错”,用于后期人工修改,保证了最终的识别精度。
对于涂改字符的识别,本发明构建了两个特征不完全相同的训练数据集分别训练两个模型,数据集之间的差异性使训练的两个模型之间同样具有差异性,最后根据差异剔除涂改字符。
发明采用了不需要手动设定的动态学习率AdaDelta方法,AdaDelta方法根据梯度自动计算每一维的学习率。AdaDelta方法的模型优化收敛速度更快。
附图说明
图1本发明手写气象档案资料的字符识别方法的流程示意图。
具体实施方式
本实施例的手写气象档案资料的字符识别方法的流程如图1所示,具体包括如下三个步骤:
(1)图像预处理与字符识别数据集制作:图像预处理主要实施在表格提取的步骤,预处理主要包括降噪、二值化、倾斜矫正、表格提取、按表格截取局部图像;字符识别数据集制作主要包括利用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集。
(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;使用CRNN网络结构,采用VGG网络作为卷积提取网络提取图像特征,并对输出张量的形状做变换,以作为特征序列输入RNN。在VGG网络之后,构造了BLSTM双向循环网络来对输入序列逐一预测。转录结构位于CRNN的顶部,用于将循环结构的预测序列转换成结果序列,是最终的输出结果。整个网络用统一的损失函数进行训练及优化。
(3)检查识别结果。本发明提出的字符识别方法能够准确识别出粘连字符,并且利用模型间的差异,将涂改字符剔除出来,设置结果为“错”,用于后期人工修改,保证了最终的识别精度。
在步骤(1)中,图像预处理主要实施在表格提取的步骤,预处理操作有:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
字符识别数据集制作:
字符识别数据集中已经保存了部分人工勾画的字符位置数据,使用Python语言调用OpenCV开源库进行图像处理,读取图像及对应txt文件中的字符位置信息,自动裁剪保存。
仅仅有这些数据是不够的,为了增加数据量,利用CTPN算法进行文本定位制作数据集:随机选取了50张扫描图片,用Xnview软件或其他截图软件将字符从扫描图片中截取并保存;然后将数据分成小批量送入模型,利用CTPN网络结构进行模型训练,每一批32张图片,共训练20轮次,得到文本定位后的结果;在CTPN定位模型训练完成后,又以定位模型对文本目标位置进行提取,自动裁剪保存。
为了增加样本的多样性,增强模型的稳定性,制作人工书写数据集:使用人工书写的方式按照档案数据的形式将数据誊写与纸面上,再将这些数据送入扫描仪成像,作为字符识别的数据集,裁剪保存。
具体为:邀请10人按照档案数据的形式将数据誊写于纸面上,再将这些数据送入扫描仪成像,裁剪保存;所有裁剪图片由人工比对图片字符信息进行命名,总共120178张;
在人工命名过程中,将裁剪图片中含有涂改字符的图片挑出,共5516张,命名为‘错’,即对应标签为‘错’,并不是对应修改后的信息;
挑出字迹不清难以区分,可能影响训练精度的图片,标签为字符信息,共7124张;
将所有挑出的图片单独存于一个文件夹,再从剩余字迹清晰无涂改的图片中随机挑选12000张图片,共24640张图片共同作为低质量数据集;
剩余图片制作高质量数据集,取出剩余图片放的十分之一作为测试集;
低质量数据集和高质量数据集这两个数据集分别将所有裁剪图像的图片路径与标签名称按行存储于单独的txt文件中,作为两个数据集的标签文件。
在步骤(2)中:
(2-1)特征序列提取是在将图片输入CRNN模型前,所有图像都将高度设为统一的定值,宽度随比例变换;经过VGG网络的卷积池化层从输入图像中提取出空间特征信息,再输入到循环网络;特征序列是一组有序特征向量,而每个特征向量都是卷积输出特征图上的一列数据,从左到右顺序排列;特征向量的宽度为一个特征点,由于输入图像高度相同,所以特征向量的高度是不变的,特征向量的个数为特征图的宽度。
(2-2)序列标注是设RNN输入特征序列为x=x1,...,xT,向量xt的输出标签为yt;RNN的神经元由输入层、隐含层、输出层相互连接;输入的序列向量xt,经由非线性函数推算后,获得内部状态ht,以ht推算预测值yt;此函数除了当前输入xt以外,还将上一时刻内部状态ht-1作为输入参数,即ht=g(xt,ht-1);以此方式获取上一时刻的信息{xt'}t'<t用以预测。
然而随着循环的开始,反向传播随层数的增加造成了梯度消失的问题。梯度消失是困扰传统RNN的最大问题,有效的上下文范围被限制。LSTM的出现,解决了这个问题。LSTM由存储单元,输入门,输出门以及遗忘门组成。与传统RNN仅有一个隐藏层状态相比,LSTM增加了一个用于保存长期信息的单元状态,这个设计使其能够获得远距离的依赖关系。
(2-3)转录是将RNN得到的预测序列转换为标签序列的过程,取每一帧概率最大的预测标签;CRNN采用了CTC转录方法,将所有预测标签进行去重整合处理,得到最后的结果。
因为预测序列对应原图的宽度是固定的,若字符较宽,则同一个字符可能被两个序列预测,CTC会将邻近的字符序列去重处理;若含有重复字符的序列,CTC加入空白符机制,用‘-’代表空白符作为分隔。
例如手写字符‘ab’可能会被识别为‘aaabb’,CTC会将邻近的字符序列去重处理;对于‘good’这类本就含有重复字符的序列,CTC加入了空白符机制,用‘-’代表空白符作为分隔,则序列‘gggooo-oodd’会被映射为‘good’。
整个网络用统一的损失函数进行训练及优化。
网络训练中训练集表示为χ={Ii,Ii},训练图像表示为Ii,标签序列表示为Ii,经过卷积层和循环层得到的预测值表示为yi
最终以预测的条件概率的负对数似然作为损失函数:
Figure BDA0002672931720000101
损失函数值越小,预测结果越逼近真实标签,所以训练过程转化为寻找最优解(梯度值为零)的过程。本发明选用了随机梯度下降进行训练。利用反向传播算法迭代计算梯度。
在学习率的设置上,本发明采用了不需要手动设定的动态学习率AdaDelta方法,AdaDelta方法根据梯度自动计算每一维的学习率。模型优化收敛速度比一般方法更快是选用AdaDelta方法的另一个重要因素。最后根据之前准备的两个高低质量数据集分别训练两个识别模型。
其中对于涂改字符的识别,本发明构建了两个特征不完全相同的训练数据集分别训练两个模型,数据集之间的差异性使训练的两个模型之间同样具有差异性,最后根据差异剔除涂改字符。
在步骤(3)中:CRNN模型的识别结果按行保存在txt文件中,一个图片名对应一个识别结果。在测试集中对CRNN模型进行精度验证,对于两个模型都检测错误的判定为检测失败。
在1000张测试图片中将涂改字符全部剔除出来,并达到了99.7%的识别精度。
本发明提出的方法定位出了所有的字符,能够准确识别出粘连字符,并且利用模型间的差异,将涂改字符剔除出来,设置结果为“错”,用于后期人工修改,保证了最终的识别精度。
通过对手写气象档案资料的字符识别方法的验证,表明本发明方法定位和识别的字符能达到较高的精度,具有较高的实用性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本专利申请权利要求的保护范围之中。

Claims (10)

1.一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,包括如下步骤:
(1)图像预处理与字符识别数据集制作:将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集;
(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;
(3)检查识别结果。
2.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,图像预处理包括:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
3.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,利用CTPN算法进行文本定位制作数据集:
先随机选取了50张扫描图片,用Xnview软件或其他截图软件将字符从扫描图片中截取并保存;然后将数据分成小批量送入模型,利用CTPN网络结构进行模型训练,每一批32张图片,共训练20轮次,得到文本定位后的结果;在CTPN定位模型训练完成后,又以定位模型对文本目标位置进行提取,自动裁剪保存。
4.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,制作人工书写数据集:使用人工书写的方式按照档案数据的形式将数据誊写与纸面上,再将这些数据送入扫描仪成像,作为字符识别的数据集,裁剪保存;
邀请10人按照档案数据的形式将数据誊写于纸面上,再将这些数据送入扫描仪成像,裁剪保存;所有裁剪图片由人工比对图片字符信息进行命名,总共120178张;
在人工命名过程中,将裁剪图片中含有涂改字符的图片挑出,共5516张,命名为‘错’,即对应标签为‘错’,并不是对应修改后的信息;
挑出字迹不清难以区分,可能影响训练精度的图片,标签为字符信息,共7124张;
将所有挑出的图片单独存于一个文件夹,再从剩余字迹清晰无涂改的图片中随机挑选12000张图片,共24640张图片共同作为低质量数据集;
剩余图片制作高质量数据集,取出剩余图片的十分之一作为测试集;
低质量数据集和高质量数据集这两个数据集分别将所有裁剪图像的图片路径与标签名称按行存储于单独的txt文件中,作为两个数据集的标签文件。
5.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(2)中,包括:
(2-1)特征序列提取:采用VGG网络作为卷积提取网络提取图像特征,并对输出张量的形状做变换,以作为特征序列输入RNN;
(2-2)在VGG网络之后,构造BLSTM双向循环网络来对输入序列逐一预测;
(2-3)转录结构位于CRNN的顶部,用于将循环结构的预测序列转换成结果序列,是最终的输出结果;
整个网络用统一的损失函数进行训练及优化。
6.根据权利要求5所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(2-1)中,特征序列提取是在将图片输入CRNN模型前,所有图像都将高度设为统一的定值,宽度随比例变换;经过VGG网络的卷积池化层从输入图像中提取出空间特征信息,再输入到循环网络;特征序列是一组有序特征向量,而每个特征向量都是卷积输出特征图上的一列数据,从左到右顺序排列;特征向量的宽度为一个特征点,由于输入图像高度相同,所以特征向量的高度是不变的,特征向量的个数为特征图的宽度。
7.根据权利要求5所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(2-2)中:
构造BLSTM双向循环网络:序列标注是设RNN输入特征序列为x=x1,...,xT,向量xt的输出标签为yt;RNN的神经元由输入层、隐含层、输出层相互连接;输入的序列向量xt,经由非线性函数推算后,获得内部状态ht,以ht推算预测值yt;此函数除了当前输入xt以外,还将上一时刻内部状态ht-1作为输入参数,即ht=g(xt,ht-1);以此方式获取上一时刻的信息{xt'}t'<t用以预测。
8.根据权利要求5所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(2-3)中,转录是将RNN得到的预测序列转换为标签序列的过程,取每一帧概率最大的预测标签;CRNN采用了CTC转录方法,将所有预测标签进行去重整合处理,得到最后的结果;
若字符较宽,则同一个字符可能被两个序列预测,CTC会将邻近的字符序列去重处理;若含有重复字符的序列,CTC加入空白符机制,用‘-’代表空白符作为分隔。
9.根据权利要求5所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,网络训练中训练集表示为χ={Ii,Ii},训练图像表示为Ii,标签序列表示为Ii,经过卷积层和循环层得到的预测值表示为yi
最终以预测的条件概率的负对数似然作为损失函数:
Figure FDA0002672931710000041
损失函数值越小,预测结果越逼近真实标签,训练过程转化为寻找梯度值为零的过程;
采用动态学习率AdaDelta方法根据梯度自动计算每一维的学习率,最后根据之前准备的两个高质量数据集和低质量数据集分别训练两个识别模型。
10.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(3)中,CRNN模型的识别结果按行保存在txt文件中,一个图片名对应一个识别结果;在测试集中对CRNN模型进行精度验证,对于两个模型都检测错误的判定为检测失败。
CN202010938889.3A 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的字符识别方法 Active CN112052852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010938889.3A CN112052852B (zh) 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010938889.3A CN112052852B (zh) 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的字符识别方法

Publications (2)

Publication Number Publication Date
CN112052852A true CN112052852A (zh) 2020-12-08
CN112052852B CN112052852B (zh) 2023-12-29

Family

ID=73611464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010938889.3A Active CN112052852B (zh) 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的字符识别方法

Country Status (1)

Country Link
CN (1) CN112052852B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633429A (zh) * 2020-12-21 2021-04-09 安徽七天教育科技有限公司 一种学生手写选择题识别方法
CN112861736A (zh) * 2021-02-10 2021-05-28 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN112949471A (zh) * 2021-02-27 2021-06-11 浪潮云信息技术股份公司 基于国产cpu的电子公文识别复现方法及系统
CN113947778A (zh) * 2021-10-12 2022-01-18 钧宏科技(北京)有限公司 一种基于档案文件数字化处理方法
CN114359696A (zh) * 2022-01-07 2022-04-15 博微(宁波)新技术有限公司 一种天气图特征类型识别及相似度匹配系统和方法
CN114494678A (zh) * 2021-12-02 2022-05-13 国家计算机网络与信息安全管理中心 文字识别方法和电子设备
CN114565912A (zh) * 2022-02-28 2022-05-31 崂应海纳人工智能(青岛)有限公司 一种基于改进ocr算法的数显屏数据自动识别方法和系统
CN115457561A (zh) * 2022-08-30 2022-12-09 东南大学 基于集成式深度学习的轮胎压印字符识别通用算法
CN116935396A (zh) * 2023-06-16 2023-10-24 北京化工大学 一种基于crnn算法的ocr高考招生指南智能采集方法

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298696A (zh) * 2010-06-28 2011-12-28 方正国际软件(北京)有限公司 一种字符识别方法及系统
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN107169504A (zh) * 2017-03-30 2017-09-15 湖北工业大学 一种基于扩展非线性核残差网络的手写字符识别方法
CN107797987A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN107967251A (zh) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的命名实体识别方法
CN107977353A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于lstm-cnn的混合语料命名实体识别方法
CN108898137A (zh) * 2018-05-25 2018-11-27 黄凯 一种基于深度神经网络的自然图像字符识别方法及系统
WO2019019199A1 (en) * 2017-07-28 2019-01-31 Shenzhen United Imaging Healthcare Co., Ltd. SYSTEM AND METHOD FOR IMAGE CONVERSION
JP6465427B1 (ja) * 2018-08-15 2019-02-06 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN109685100A (zh) * 2018-11-12 2019-04-26 平安科技(深圳)有限公司 字符识别方法、服务器及计算机可读存储介质
CN110321788A (zh) * 2019-05-17 2019-10-11 平安科技(深圳)有限公司 训练数据处理方法、装置、设备及计算机可读存储介质
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取系统及方法
WO2019232849A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 汉字模型训练方法、手写字识别方法、装置、设备及介质
WO2019232872A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写字模型训练方法、汉字识别方法、装置、设备及介质
WO2019232873A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
WO2019232874A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
KR102055920B1 (ko) * 2018-12-19 2019-12-13 (주)린치핀 온라인 파츠북 서비스 제공 방법 및 시스템
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法
US20200026951A1 (en) * 2018-07-19 2020-01-23 Tata Consultancy Services Limited Systems and methods for end-to-end handwritten text recognition using neural networks
KR20200087347A (ko) * 2018-12-31 2020-07-21 부산대학교 산학협력단 Tsn을 이용한 도로 감시 카메라 영상의 강우량 인식방법 및 장치

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298696A (zh) * 2010-06-28 2011-12-28 方正国际软件(北京)有限公司 一种字符识别方法及系统
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN107169504A (zh) * 2017-03-30 2017-09-15 湖北工业大学 一种基于扩展非线性核残差网络的手写字符识别方法
WO2019019199A1 (en) * 2017-07-28 2019-01-31 Shenzhen United Imaging Healthcare Co., Ltd. SYSTEM AND METHOD FOR IMAGE CONVERSION
CN107797987A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN107967251A (zh) * 2017-10-12 2018-04-27 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的命名实体识别方法
CN107977353A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于lstm-cnn的混合语料命名实体识别方法
CN108898137A (zh) * 2018-05-25 2018-11-27 黄凯 一种基于深度神经网络的自然图像字符识别方法及系统
WO2019232874A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
WO2019232849A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 汉字模型训练方法、手写字识别方法、装置、设备及介质
WO2019232872A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 手写字模型训练方法、汉字识别方法、装置、设备及介质
WO2019232873A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
US20200026951A1 (en) * 2018-07-19 2020-01-23 Tata Consultancy Services Limited Systems and methods for end-to-end handwritten text recognition using neural networks
JP6465427B1 (ja) * 2018-08-15 2019-02-06 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN109685100A (zh) * 2018-11-12 2019-04-26 平安科技(深圳)有限公司 字符识别方法、服务器及计算机可读存储介质
KR102055920B1 (ko) * 2018-12-19 2019-12-13 (주)린치핀 온라인 파츠북 서비스 제공 방법 및 시스템
KR20200087347A (ko) * 2018-12-31 2020-07-21 부산대학교 산학협력단 Tsn을 이용한 도로 감시 카메라 영상의 강우량 인식방법 및 장치
CN110321788A (zh) * 2019-05-17 2019-10-11 平安科技(深圳)有限公司 训练数据处理方法、装置、设备及计算机可读存储介质
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取系统及方法
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633429A (zh) * 2020-12-21 2021-04-09 安徽七天教育科技有限公司 一种学生手写选择题识别方法
CN112861736A (zh) * 2021-02-10 2021-05-28 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN112861736B (zh) * 2021-02-10 2022-08-09 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN112949471A (zh) * 2021-02-27 2021-06-11 浪潮云信息技术股份公司 基于国产cpu的电子公文识别复现方法及系统
CN113947778A (zh) * 2021-10-12 2022-01-18 钧宏科技(北京)有限公司 一种基于档案文件数字化处理方法
CN114494678A (zh) * 2021-12-02 2022-05-13 国家计算机网络与信息安全管理中心 文字识别方法和电子设备
CN114359696A (zh) * 2022-01-07 2022-04-15 博微(宁波)新技术有限公司 一种天气图特征类型识别及相似度匹配系统和方法
CN114565912A (zh) * 2022-02-28 2022-05-31 崂应海纳人工智能(青岛)有限公司 一种基于改进ocr算法的数显屏数据自动识别方法和系统
CN115457561A (zh) * 2022-08-30 2022-12-09 东南大学 基于集成式深度学习的轮胎压印字符识别通用算法
CN115457561B (zh) * 2022-08-30 2023-09-22 东南大学 基于集成式深度学习的轮胎压印字符识别通用方法
CN116935396A (zh) * 2023-06-16 2023-10-24 北京化工大学 一种基于crnn算法的ocr高考招生指南智能采集方法
CN116935396B (zh) * 2023-06-16 2024-02-23 北京化工大学 一种基于crnn算法的ocr高考招生指南智能采集方法

Also Published As

Publication number Publication date
CN112052852B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN112052852B (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
CN110032938B (zh) 一种藏文识别方法、装置及电子设备
CN108664996A (zh) 一种基于深度学习的古文字识别方法及系统
CN110598581B (zh) 基于卷积神经网络的光学乐谱识别方法
CN111523622B (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
Tardón et al. Optical music recognition for scores written in white mensural notation
CN113139457A (zh) 一种基于crnn的图片表格提取方法
Nikitha et al. Handwritten text recognition using deep learning
CN112883795A (zh) 一种基于深度神经网络的表格快速自动提取方法
CN113139535A (zh) 一种ocr文档识别方法
CN110781898A (zh) 一种中文ocr后处理的无监督学习方法
CN109508712A (zh) 一种基于图像的汉语文字识别方法
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN115880704A (zh) 一种病例的自动编目方法、系统、设备及存储介质
Kataria et al. CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review
CN118135584A (zh) 一种基于深度学习的手写表单自动识别方法和系统
Mohammad et al. Contour-based character segmentation for printed Arabic text with diacritics
CN113628113A (zh) 一种图像拼接方法及其相关设备
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
Ovodov Optical Braille recognition using object detection CNN
Song et al. A handwritten character extraction algorithm for multi-language document image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant