CN112052853A - 一种基于深度学习的手写气象档案资料的文本定位方法 - Google Patents

一种基于深度学习的手写气象档案资料的文本定位方法 Download PDF

Info

Publication number
CN112052853A
CN112052853A CN202010938905.9A CN202010938905A CN112052853A CN 112052853 A CN112052853 A CN 112052853A CN 202010938905 A CN202010938905 A CN 202010938905A CN 112052853 A CN112052853 A CN 112052853A
Authority
CN
China
Prior art keywords
image
text
positioning
meteorological
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010938905.9A
Other languages
English (en)
Other versions
CN112052853B (zh
Inventor
鞠晓慧
张强
王妍
陈东辉
范邵华
罗岚心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Meteorological Information Center
Original Assignee
National Meteorological Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Meteorological Information Center filed Critical National Meteorological Information Center
Priority to CN202010938905.9A priority Critical patent/CN112052853B/zh
Publication of CN112052853A publication Critical patent/CN112052853A/zh
Application granted granted Critical
Publication of CN112052853B publication Critical patent/CN112052853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • G06T3/608Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开一种基于深度学习的手写气象档案资料的文本定位方法,图像预处理与数据集准备:将纸质气象档案扫描为数字图像格式,先做图像预处理,再提取表格制作文本定位数据集;文本定位:将数据集图像裁剪成小区域,使用CTPN深度学习模型在小区域范围内定位字符位置;检查定位效果。本发明使用的CTPN网络使用强大的深层卷积自动获取图中的文本特征信息,结合LSTM内循环架构编码上下文信息,利用特有的文本锚点准确定位文本位置,实验结果表明本发明定位出了所有的字符,精度完全能够满足应用要求,高精度的定位结果为后续的应用打下了基础。

Description

一种基于深度学习的手写气象档案资料的文本定位方法
技术领域
本发明涉及文本定位技术领域。具体地说是一种基于深度学习的手写气象档案资料的文本定位方法。
背景技术
气象观测资料是指在特定监测区域利用各种方法,各种观测设备获取的气温、气压、风速、风向等的气象数据。气象资料是天气预测、污染防治、农业生产、科学研究等领域的数据基础,气象资料的记录与保存有十分重要的意义。早期档案的记录都由观测人员手写记录在纸质文件中,随着时间的推移,纸质档案会发生老化损毁与丢失,记录的数据也会变得模糊,不利于长久的保存。且纸质档案在信息传播过程中往往是点到点的传递,或是小范围点到面的传递,传播速度慢,覆盖面积小,很难充分利用其经济与社会价值,也很难跟上现代化的高速发展。将数字信号存储于计算机中统一管理,建立数字化档案信息库,可结合网络共享资源。纸质气象档案数字化将大大方便档案的管理、传播与使用。为了长久的保护保存档案,更有效的利用气象资料,将气象档案数字化非常有必要。
气象资料主要由数字与气象符号组成,保存的形式多种多样。结合计算机技术、扫描技术、光学字符识别等高新技术把模拟信号转换为数字信号。纸质气象档案数字化的传统方法是由人工比对纸质档案,将气象数据录入到计算机中保存为电子档案。采用人工录入的方法耗费大量的时间与费用,且精度得不到保证。用计算机代替人工是最佳选择。
正确的将纸质资料的文本位置定位是气象档案由纸质转化到数字化技术的前提,但气象档案资料中数据的位置变化很大,分布也不均匀,文本目标较小,字符间存在空隙,边缘也不明显,很容易出现漏提、误提的情况,无法根据固定位置进行提取。而且手写气象数据存在两面同时记录的情况,随着时间的推移,墨迹会逐渐渗透,行与行之间存在空隙太小或无空隙的情况。传统方法在如此复杂的条件下是无法准确定位的,而一般的目标检测深度学习模型不适用于文本定位。
近年来,人工智能发展迅猛,深度学习技术在各个领域都有着十分广泛的应用,包括数字图像处理,语音识别,数据分析等。以人工智能代替人工是大势所趋。在图像识别领域,深度神经网络以图像各通道像素值为输入数据,通过隐含层的层层计算,得到预测结果,通过大量的图片数据反复训练,不断修改隐含层的参数值,减少预测值与真实标签数据之间的差异,使预测值逼近真实值,不断提高预测精度。文本定位是计算机图像处理的重要组成部分,深度学习对此有着广泛的研究。
发明内容
为此,本发明所要解决的技术问题在于提供一种基于深度学习的手写气象档案资料的文本定位方法,该方法针对手写字体的问题,对于手写文本定位问题上有明显的优势,能够显著减少工作量,提高工作效率。
为解决上述技术问题,本发明提供如下技术方案:
一种基于深度学习的手写气象档案资料的文本定位方法,包括如下步骤:
(1)图像预处理与数据集准备:将纸质气象档案扫描为数字图像格式,先做图像预处理,再提取表格制作文本定位数据集;
(2)文本定位:将数据集图像裁剪成小区域,使用CTPN深度学习模型在小区域范围内定位字符位置;
(3)检查定位效果。
上述一种基于深度学习的手写气象档案资料的文本定位方法,在步骤(1)中包括如下步骤:
图像预处理包括:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
上述一种基于深度学习的手写气象档案资料的文本定位方法,提取表格制作文本定位数据集的方法为:采用人工勾画的方式,将按表格区域裁剪出的图像以矩形框的形式对目标字符进行框选,目标字符的位置信息会以HTML文件的格式与图片一一对应保存,位置信息为矩形框在图像中的点坐标;一张区域图像含有多行字符数据信息,提取HTML文件中所有目标的位置信息,按行储存于一个txt文件中,在区域图片与对应的标签txt文件中取十分之一作为测试集,其余作为训练集。
上述一种基于深度学习的手写气象档案资料的文本定位方法,在步骤(2)中:
(2-1)在用深度学习模型进行定位前,将扫描图像根据表格区域图片先行裁开,对裁开的图像进行训练;
(2-2)数据分成小批量送入CTPN模型,每一批32张图片,共训练20轮次,以10的-4次方作为初始学习率,随批次衰减,衰减率为0.3%;
使用CTPN网络结构以VGG-16作为特征提取网络,经过五次卷积四次下采样得到大小为W H C的特征图,W代表特征图的宽,H代表特征图的高,C为通道数;将获得的特征作为输入数据送入双向LSTM网络,得到的输出张量大小为W×256,再将这个张量送入全连接层;经过分类与回归最终得到建议框的高度以及建议框中心y坐标、建议框的类别信息、建议框的水平偏移量三部分输出结果,最后得到锚点预测框;建议框的类别信息为是否包含字符;
将整体分为多个任务,联合优化,采用三种瞬时函数:
Figure BDA0002672931800000041
代表计算文本/非文本损失函数,
Figure BDA0002672931800000042
代表坐标点损失函数,
Figure BDA0002672931800000043
代表边缘细化损失函数,得到最终损失函数:
Figure BDA0002672931800000044
其中式(Ⅰ)中,i代表所有锚点建议框索引,j代表有效锚点建议框索引,k是侧锚建议框的索引,侧锚指位于真实文本框左侧或右侧32像素内的锚点;
si指第i个锚点建议框内存在文本的概率预测值,
Figure BDA0002672931800000045
为第i个锚点内有无文本的真值,取值0或1;
vj,
Figure BDA0002672931800000046
分别代表第j个锚点中心坐标纵轴预测值和真实坐标值;ok,
Figure BDA0002672931800000047
分别代表第k个锚点在坐标横轴上的文本框预测偏移量与真实偏移量;Ns、Nv、No分别代表三个损失函数使用的锚点个数,λ1与λ2为损失函数权重,分别为1和2;
(2-3)使用标准反向传播与随机梯度下降对模型进行端到端的训练。
上述一种基于深度学习的手写气象档案资料的文本定位方法,设置IOU>=0.7作为标准,判定在锚点预测框内有无文本,IOU>=0.7的锚点设置为正锚点,反之设置为负锚点。
上述一种基于深度学习的手写气象档案资料的文本定位方法,将纸质气象档案扫描为数字图像时,图片高重采样为600,图片宽随比例缩放来去除图像大小对模型训练的影响。
上述一种基于深度学习的手写气象档案资料的文本定位方法,在步骤(3)中,将先前预备的测试集送入训练完毕的定位模型,检验模型精度。
本发明的技术方案取得了如下有益的技术效果:
本发明主要针对纸质载体的手写气象资料进行数字化,通过深度学习的方法对档案进行文本定位。
本发明将纸质气象档案扫描为数字图像格式,提出从局部到整体的文本定位思路,将数据集图像裁剪成小区域,先做图像预处理,根据档案特点提取出表格区域,再用深度学习模型进行定位前将扫描图像根据表格区域先行裁开,对裁开的图像进行训练。这样既加大了训练样本数量又降低了训练难度,模型更容易收敛,又提高了文本定位精度。再使用CTPN深度学习模型在小区域范围内定位字符位置。本发明使用的CTPN网络使用强大的深层卷积自动获取图中的文本特征信息,结合LSTM内循环架构编码上下文信息,利用特有的文本锚点准确定位文本位置,将文本建议框按顺序连接在一起,避免在复杂条件下产生的字符精度不高的情况。实验结果表明本发明定位出了所有的字符,精度完全能够满足应用要求,高精度的定位结果为后续的应用打下了基础。
附图说明
图1本发明手写气象档案资料的文本定位方法的流程示意图。
具体实施方式
本实施例中的基于深度学习的手写气象档案资料的文本定位方法,包括如下步骤:
(1)图像预处理与数据集准备:图像预处理主要实施在表格提取的步骤,将纸质气象档案扫描为数字图像格式,先做图像预处理,再提取表格制作文本定位数据集;数据集的制作主要包括定位模型数据集制作。
(2)文本定位:将数据集图像裁剪成小区域,使用CTPN深度学习模型在小区域范围内定位字符位置;
本发明采用对序列信息有较强学习能力的CTPN模型作为文本定位的方法。但由于字符区域大小相对于扫描图像,目标区域太小,定位目标过多,会加大训练难度。为了降低训练难度,精准定位微小字符,本发明提出了从局部到整体的定位思路。在用深度学习模型进行定位前将扫描图像根据表格区域先行裁开,对裁开的图像进行训练。这样既加大了训练样本数量又降低了训练难度,模型更容易收敛,又提高了文本定位精度。
(3)检查定位效果。本发明提出了从局部到整体的文本定位思路,字符目标不会因为过小而难以定位,同时大大降低了CTPN模型的训练难度,定位出了所有的字符,精度完全能够满足应用要求,高精度的定位结果也为后续的应用打下了基础。
一、图像预处理与数据集准备
1、图像预处理
图像预处理主要实施在表格提取的步骤。
预处理操作有:降噪、二值化、霍夫直线检测、倾斜矫正、表格提取和按表格截取局部图像步骤。
(a)中值滤波:对图像做中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
2、数据集准备
采用人工勾画的方式,将按表格区域裁剪出的图像以矩形框的形式对目标字符进行框选,目标字符的位置信息(矩形框在图像中的点坐标)会以HTML文件的格式与图片一一对应保存;一张区域图像含有多行字符数据信息,提取HTML文件中所有目标的位置信息,按行储存于一个txt文件中,在区域图片与对应的标签txt文件中取十分之一作为测试集,其余作为训练集。在定位模型训练完成后,又以定位模型对文本目标位置进行提取,自动裁剪保存。
本实施例中在304张区域图片与对应的304个标签txt文件中取十分之一作为测试集,其余作为训练集。
二、文本定位
用对序列信息有较强学习能力的CTPN模型作为文本定位的方法。但由于字符区域大小相对于扫描图像,目标区域太小,定位目标过多,会加大训练难度。为了降低训练难度,精准定位微小字符,本发明提出了从局部到整体的定位思路。在用深度学习模型进行定位前将扫描图像根据表格区域先行裁开,对裁开的图像进行训练。这样既加大了训练样本数量又降低了训练难度,模型更容易收敛,又提高了文本定位精度。
1、根据从局部到整体的定位思路,在用深度学习模型进行定位前将扫描图像根据表格区域先行裁开,对裁开的图像进行训练。
2、使用的CTPN网络结构以VGG-16作为特征提取网络,经过五次卷积四次下采样得到大小为W H C的特征图,W代表特征图的宽,H代表特征图的高,C为通道数。将获得的特征作为输入数据送入双向LSTM网络,得到的输出张量大小为W 256,再将这个张量送入全连接层。经过分类与回归最终得到建议框的高度以及建议框中心y坐标、建议框的类别信息(是否包含字符)、建议框的水平偏移量三部分输出结果,最后得到锚点预测框。
数据分成小批量送入CTPN模型,每一批32张图片,共训练20轮次,以10的-4次方作为初始学习率,随批次衰减,衰减率为0.3%;
在损失函数的选择上,为了改善网络参数,将整体分为多个任务,联合优化。采用三种瞬时函数:
Figure BDA0002672931800000081
代表计算文本/非文本损失函数,
Figure BDA0002672931800000082
代表坐标点损失函数,
Figure BDA0002672931800000083
代表边缘细化损失函数,得到最终损失函数:
Figure BDA0002672931800000084
其中式(Ⅰ)中,i代表所有锚点建议框索引,j代表有效锚点建议框索引,k是侧锚建议框的索引,侧锚指位于真实文本框左侧或右侧32像素内的锚点;
si指第i个锚点建议框内存在文本的概率预测值,
Figure BDA0002672931800000085
为第i个锚点内有无文本的真值,取值0或1;
vj,
Figure BDA0002672931800000086
分别代表第j个锚点中心坐标纵轴预测值和真实坐标值;ok,
Figure BDA0002672931800000087
分别代表第k个锚点在坐标横轴上的文本框预测偏移量与真实偏移量;Ns、Nv、No分别代表三个损失函数使用的锚点个数,λ1与λ2为损失函数权重,根据以往经验设置为1和2。
训练中使用标准反向传播与随机梯度下降对模型进行端到端的训练,设置IOU>=0.7作为标准,判定在锚点内有无文本,IOU>=0.7的锚点设置为正锚点,反之设置为负锚点。
将图片高重采样为600,图片宽随比例缩放来去除图像大小对模型训练的影响。
三、检查定位效果
将先前预备的测试集送入训练完毕的定位模型,检验模型精度。测试精度与定位效果完全可以满足后期字符识别的要求。
由于文本目标较小,CTPN模型对于微小目标的定位能力较差。若将扫描图像整张进行训练,则会出现大量漏检误检现象。对此提出了从局部到整体的文本定位思路,字符目标不会因为过小而难以定位,同时大大降低了CTPN模型的训练难度。本实施例中用一百张裁剪过的数据来测试训练好的CTPN网络,在一百张验证数据中共有2312个需要定位的字符区域,全部定位成功,精度完全能够满足应用要求,高精度的定位结果也为字符识别打下了基础。
通过手写气象档案资料的文本定位方法,表明本发明方法定位的字符能到达到较高的精度,具有较高的实用性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本专利申请权利要求的保护范围之中。

Claims (7)

1.一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,包括如下步骤:
(1)图像预处理与数据集准备:将纸质气象档案扫描为数字图像格式,先做图像预处理,再提取表格制作文本定位数据集;
(2)文本定位:将数据集图像裁剪成小区域,使用CTPN深度学习模型在小区域范围内定位字符位置;
(3)检查定位效果。
2.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,在步骤(1)中包括如下步骤:
图像预处理包括:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
3.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,提取表格制作文本定位数据集的方法为:采用人工勾画的方式,将按表格区域裁剪出的图像以矩形框的形式对目标字符进行框选,目标字符的位置信息会以HTML文件的格式与图片一一对应保存,位置信息为矩形框在图像中的点坐标;一张区域图像含有多行字符数据信息,提取HTML文件中所有目标的位置信息,按行储存于一个txt文件中,在区域图片与对应的标签txt文件中取十分之一作为测试集,其余作为训练集。
4.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,在步骤(2)中:
(2-1)在用深度学习模型进行定位前,将扫描图像根据表格区域图片先行裁开,对裁开的图像进行训练;
(2-2)数据分成小批量送入CTPN模型,每一批32张图片,共训练20轮次,以10的-4次方作为初始学习率,随批次衰减,衰减率为0.3%;
使用CTPN网络结构以VGG-16作为特征提取网络,经过五次卷积四次下采样得到大小为W H C的特征图,W代表特征图的宽,H代表特征图的高,C为通道数;将获得的特征作为输入数据送入双向LSTM网络,得到的输出张量大小为W×256,再将这个张量送入全连接层;经过分类与回归最终得到建议框的高度以及建议框中心y坐标、建议框的类别信息、建议框的水平偏移量三部分输出结果,最后得到锚点预测框;建议框的类别信息为是否包含字符;
将整体分为多个任务,联合优化,采用三种瞬时函数:
Figure FDA0002672931790000021
代表计算文本/非文本损失函数,
Figure FDA0002672931790000022
代表坐标点损失函数,
Figure FDA0002672931790000023
代表边缘细化损失函数,得到最终损失函数:
Figure FDA0002672931790000024
其中式(Ⅰ)中,i代表所有锚点建议框索引,j代表有效锚点建议框索引,k是侧锚建议框的索引,侧锚指位于真实文本框左侧或右侧32像素内的锚点;
si指第i个锚点建议框内存在文本的概率预测值,
Figure FDA0002672931790000031
为第i个锚点内有无文本的真值,取值0或1;
vj,
Figure FDA0002672931790000032
分别代表第j个锚点中心坐标纵轴预测值和真实坐标值;ok,
Figure FDA0002672931790000033
分别代表第k个锚点在坐标横轴上的文本框预测偏移量与真实偏移量;Ns、Nv、No分别代表三个损失函数使用的锚点个数,λ1与λ2为损失函数权重,分别为1和2;
(2-3)使用标准反向传播与随机梯度下降对模型进行端到端的训练。
5.根据权利要求4所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,设置IOU>=0.7作为标准,判定在锚点预测框内有无文本,IOU>=0.7的锚点设置为正锚点,反之设置为负锚点。
6.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,将纸质气象档案扫描为数字图像时,图片高重采样为600,图片宽随比例缩放来去除图像大小对模型训练的影响。
7.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,在步骤(3)中,将先前预备的测试集送入训练完毕的定位模型,检验模型精度。
CN202010938905.9A 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的文本定位方法 Active CN112052853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010938905.9A CN112052853B (zh) 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的文本定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010938905.9A CN112052853B (zh) 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的文本定位方法

Publications (2)

Publication Number Publication Date
CN112052853A true CN112052853A (zh) 2020-12-08
CN112052853B CN112052853B (zh) 2024-02-02

Family

ID=73610463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010938905.9A Active CN112052853B (zh) 2020-09-09 2020-09-09 一种基于深度学习的手写气象档案资料的文本定位方法

Country Status (1)

Country Link
CN (1) CN112052853B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766073A (zh) * 2020-12-31 2021-05-07 贝壳技术有限公司 表格提取方法、装置、电子设备及可读存储介质
CN112818785A (zh) * 2021-01-22 2021-05-18 国家气象信息中心(中国气象局气象数据中心) 一种气象纸质表格文档的快速数字化方法及系统
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统
CN113065396A (zh) * 2021-03-02 2021-07-02 国网湖北省电力有限公司 基于深度学习的扫描档案图像的自动化归档处理系统及方法
CN113762109A (zh) * 2021-08-23 2021-12-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113947778A (zh) * 2021-10-12 2022-01-18 钧宏科技(北京)有限公司 一种基于档案文件数字化处理方法
CN117423117A (zh) * 2023-12-18 2024-01-19 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习技术的机构文档识别方法
CN117853509A (zh) * 2023-12-29 2024-04-09 北京航星永志科技有限公司 档案图像边缘裁剪方法、装置、设备及介质
CN117877038A (zh) * 2024-03-12 2024-04-12 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质
CN117877038B (zh) * 2024-03-12 2024-06-04 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180033144A1 (en) * 2016-09-21 2018-02-01 Realize, Inc. Anomaly detection in volumetric images
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN109800852A (zh) * 2018-11-29 2019-05-24 电子科技大学 一种多模态的垃圾邮件识别方法
CN109977945A (zh) * 2019-02-26 2019-07-05 博众精工科技股份有限公司 基于深度学习的定位方法和系统
US20190266435A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for extracting information in histogram
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110399455A (zh) * 2019-06-05 2019-11-01 福建奇点时空数字科技有限公司 一种基于cnn和lstm的深度学习数据挖掘方法
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
KR102046789B1 (ko) * 2019-04-05 2019-11-20 호서대학교 산학협력단 웹 어플리케이션에 대한 딥러닝 기반의 침입탐지 방법, 시스템 및 컴퓨터 프로그램
WO2019227615A1 (zh) * 2018-06-01 2019-12-05 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110991435A (zh) * 2019-11-27 2020-04-10 南京邮电大学 一种基于深度学习的快递运单关键信息定位方法和装置
KR20200087347A (ko) * 2018-12-31 2020-07-21 부산대학교 산학협력단 Tsn을 이용한 도로 감시 카메라 영상의 강우량 인식방법 및 장치
AU2020101011A4 (en) * 2019-06-26 2020-07-23 Zhejiang University Method for identifying concrete cracks based on yolov3 deep learning model

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180033144A1 (en) * 2016-09-21 2018-02-01 Realize, Inc. Anomaly detection in volumetric images
US20190266435A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for extracting information in histogram
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
WO2019227615A1 (zh) * 2018-06-01 2019-12-05 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN109800852A (zh) * 2018-11-29 2019-05-24 电子科技大学 一种多模态的垃圾邮件识别方法
KR20200087347A (ko) * 2018-12-31 2020-07-21 부산대학교 산학협력단 Tsn을 이용한 도로 감시 카메라 영상의 강우량 인식방법 및 장치
CN109977945A (zh) * 2019-02-26 2019-07-05 博众精工科技股份有限公司 基于深度学习的定位方法和系统
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
KR102046789B1 (ko) * 2019-04-05 2019-11-20 호서대학교 산학협력단 웹 어플리케이션에 대한 딥러닝 기반의 침입탐지 방법, 시스템 및 컴퓨터 프로그램
CN110399455A (zh) * 2019-06-05 2019-11-01 福建奇点时空数字科技有限公司 一种基于cnn和lstm的深度学习数据挖掘方法
AU2020101011A4 (en) * 2019-06-26 2020-07-23 Zhejiang University Method for identifying concrete cracks based on yolov3 deep learning model
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法
CN110991435A (zh) * 2019-11-27 2020-04-10 南京邮电大学 一种基于深度学习的快递运单关键信息定位方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766073A (zh) * 2020-12-31 2021-05-07 贝壳技术有限公司 表格提取方法、装置、电子设备及可读存储介质
CN112818785A (zh) * 2021-01-22 2021-05-18 国家气象信息中心(中国气象局气象数据中心) 一种气象纸质表格文档的快速数字化方法及系统
CN112836650B (zh) * 2021-02-05 2022-12-06 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统
CN113065396A (zh) * 2021-03-02 2021-07-02 国网湖北省电力有限公司 基于深度学习的扫描档案图像的自动化归档处理系统及方法
CN113762109A (zh) * 2021-08-23 2021-12-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113762109B (zh) * 2021-08-23 2023-11-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113947778A (zh) * 2021-10-12 2022-01-18 钧宏科技(北京)有限公司 一种基于档案文件数字化处理方法
CN117423117A (zh) * 2023-12-18 2024-01-19 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习技术的机构文档识别方法
CN117423117B (zh) * 2023-12-18 2024-05-14 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习技术的机构文档识别方法
CN117853509A (zh) * 2023-12-29 2024-04-09 北京航星永志科技有限公司 档案图像边缘裁剪方法、装置、设备及介质
CN117877038A (zh) * 2024-03-12 2024-04-12 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质
CN117877038B (zh) * 2024-03-12 2024-06-04 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112052853B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN112052853A (zh) 一种基于深度学习的手写气象档案资料的文本定位方法
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN108664996B (zh) 一种基于深度学习的古文字识别方法及系统
US10817741B2 (en) Word segmentation system, method and device
CN112052852B (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
CN108805076B (zh) 环境影响评估报告书表格文字的提取方法及系统
CN107833213A (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN112446370B (zh) 一种电力设备铭牌文本信息识别的方法
CN106503711A (zh) 一种文字识别方法
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN113919443B (zh) 一种基于图像分析烟叶成熟度状态概率计算方法
CN109784272A (zh) 一种集装箱识别系统及集装箱识别方法
CN111340022A (zh) 身份证信息识别方法、装置、计算机设备及存储介质
CN111626292A (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN112541504A (zh) 一种针对文本中单个字符目标的检测方法
Sun et al. Image recognition technology in texture identification of marine sediment sonar image
CN111899247A (zh) 脉络膜血管的管腔区域识别方法、装置、设备及介质
CN111652117A (zh) 一种对多文档图像分割的方法及介质
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN206897873U (zh) 一种基于检测产品特性的图像处理与检测系统
Raj et al. Grantha script recognition from ancient palm leaves using histogram of orientation shape context
CN111738264A (zh) 一种机房设备显示面板数据的智能采集方法
CN112364687A (zh) 一种基于改进的Faster R-CNN加油站静电标志识别方法及系统
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN116363655A (zh) 一种财务票据识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant