CN112052853A

CN112052853A - 一种基于深度学习的手写气象档案资料的文本定位方法

Info

Publication number: CN112052853A
Application number: CN202010938905.9A
Authority: CN
Inventors: 鞠晓慧; 张强; 王妍; 陈东辉; 范邵华; 罗岚心
Original assignee: National Meteorological Information Center
Current assignee: National Meteorological Information Center
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-08
Anticipated expiration: 2040-09-09
Also published as: CN112052853B

Abstract

本发明公开一种基于深度学习的手写气象档案资料的文本定位方法，图像预处理与数据集准备：将纸质气象档案扫描为数字图像格式，先做图像预处理，再提取表格制作文本定位数据集；文本定位：将数据集图像裁剪成小区域，使用CTPN深度学习模型在小区域范围内定位字符位置；检查定位效果。本发明使用的CTPN网络使用强大的深层卷积自动获取图中的文本特征信息，结合LSTM内循环架构编码上下文信息，利用特有的文本锚点准确定位文本位置，实验结果表明本发明定位出了所有的字符，精度完全能够满足应用要求，高精度的定位结果为后续的应用打下了基础。

Description

一种基于深度学习的手写气象档案资料的文本定位方法

技术领域

本发明涉及文本定位技术领域。具体地说是一种基于深度学习的手写气象档案资料的文本定位方法。

背景技术

气象观测资料是指在特定监测区域利用各种方法，各种观测设备获取的气温、气压、风速、风向等的气象数据。气象资料是天气预测、污染防治、农业生产、科学研究等领域的数据基础，气象资料的记录与保存有十分重要的意义。早期档案的记录都由观测人员手写记录在纸质文件中，随着时间的推移，纸质档案会发生老化损毁与丢失，记录的数据也会变得模糊，不利于长久的保存。且纸质档案在信息传播过程中往往是点到点的传递，或是小范围点到面的传递，传播速度慢，覆盖面积小，很难充分利用其经济与社会价值，也很难跟上现代化的高速发展。将数字信号存储于计算机中统一管理，建立数字化档案信息库，可结合网络共享资源。纸质气象档案数字化将大大方便档案的管理、传播与使用。为了长久的保护保存档案，更有效的利用气象资料，将气象档案数字化非常有必要。

气象资料主要由数字与气象符号组成，保存的形式多种多样。结合计算机技术、扫描技术、光学字符识别等高新技术把模拟信号转换为数字信号。纸质气象档案数字化的传统方法是由人工比对纸质档案，将气象数据录入到计算机中保存为电子档案。采用人工录入的方法耗费大量的时间与费用，且精度得不到保证。用计算机代替人工是最佳选择。

正确的将纸质资料的文本位置定位是气象档案由纸质转化到数字化技术的前提，但气象档案资料中数据的位置变化很大，分布也不均匀，文本目标较小，字符间存在空隙，边缘也不明显，很容易出现漏提、误提的情况，无法根据固定位置进行提取。而且手写气象数据存在两面同时记录的情况，随着时间的推移，墨迹会逐渐渗透，行与行之间存在空隙太小或无空隙的情况。传统方法在如此复杂的条件下是无法准确定位的，而一般的目标检测深度学习模型不适用于文本定位。

近年来，人工智能发展迅猛，深度学习技术在各个领域都有着十分广泛的应用，包括数字图像处理，语音识别，数据分析等。以人工智能代替人工是大势所趋。在图像识别领域，深度神经网络以图像各通道像素值为输入数据，通过隐含层的层层计算，得到预测结果，通过大量的图片数据反复训练，不断修改隐含层的参数值，减少预测值与真实标签数据之间的差异，使预测值逼近真实值，不断提高预测精度。文本定位是计算机图像处理的重要组成部分，深度学习对此有着广泛的研究。

发明内容

为此，本发明所要解决的技术问题在于提供一种基于深度学习的手写气象档案资料的文本定位方法，该方法针对手写字体的问题，对于手写文本定位问题上有明显的优势，能够显著减少工作量，提高工作效率。

为解决上述技术问题，本发明提供如下技术方案：

一种基于深度学习的手写气象档案资料的文本定位方法，包括如下步骤：

(1)图像预处理与数据集准备：将纸质气象档案扫描为数字图像格式，先做图像预处理，再提取表格制作文本定位数据集；

(2)文本定位：将数据集图像裁剪成小区域，使用CTPN深度学习模型在小区域范围内定位字符位置；

(3)检查定位效果。

上述一种基于深度学习的手写气象档案资料的文本定位方法，在步骤(1)中包括如下步骤：

图像预处理包括：

(a)中值滤波：对图像做了中值滤波处理，平滑图像信息，为图像二值化做准备；

(b)OTSU二值化：采取OTSU算法自动选取二值化阈值，将降噪过的图片做自适应阈值二值化处理；

(c)霍夫直线检测：使用霍夫变换检测倾斜角度并校正图像，霍夫变换将图片信息由图像空间变换到霍夫空间，图像空间当中的相交直线转换为霍夫空间中的点，在霍夫空间形成峰值，峰值就是相交直线的个数；采用霍夫变换对二值化图片中的长直线进行提取，获得各个直线的倾斜角度；

(d)倾斜校正：对扫描图像进行倾斜矫正，取所有倾斜角的均值，用旋转函数将图像进行校正，以保证后面的步骤能够顺利进行；

(e)表格提取：对倾斜校正过的二值图做形态学开运算，先做腐蚀后做膨胀，其中腐蚀与膨胀的核分别为N*1与1*N，只保留竖线，剔除了横线；再做1*N的腐蚀和N*1的膨胀，只保留了横线，剔除了竖线；腐蚀操作会将文字非直线像素抹消，再将两次操作的结果叠合；

(f)按表格截取局部图像：调用OpenCV函数搜索图中轮廓，根据轮廓信息裁剪原始图像并保存。

上述一种基于深度学习的手写气象档案资料的文本定位方法，提取表格制作文本定位数据集的方法为：采用人工勾画的方式，将按表格区域裁剪出的图像以矩形框的形式对目标字符进行框选，目标字符的位置信息会以HTML文件的格式与图片一一对应保存，位置信息为矩形框在图像中的点坐标；一张区域图像含有多行字符数据信息，提取HTML文件中所有目标的位置信息，按行储存于一个txt文件中，在区域图片与对应的标签txt文件中取十分之一作为测试集，其余作为训练集。

上述一种基于深度学习的手写气象档案资料的文本定位方法，在步骤(2)中：

(2-1)在用深度学习模型进行定位前，将扫描图像根据表格区域图片先行裁开，对裁开的图像进行训练；

(2-2)数据分成小批量送入CTPN模型，每一批32张图片，共训练20轮次，以10的-4次方作为初始学习率，随批次衰减，衰减率为0.3％；

使用CTPN网络结构以VGG-16作为特征提取网络，经过五次卷积四次下采样得到大小为W H C的特征图，W代表特征图的宽，H代表特征图的高，C为通道数；将获得的特征作为输入数据送入双向LSTM网络，得到的输出张量大小为W×256，再将这个张量送入全连接层；经过分类与回归最终得到建议框的高度以及建议框中心y坐标、建议框的类别信息、建议框的水平偏移量三部分输出结果，最后得到锚点预测框；建议框的类别信息为是否包含字符；

将整体分为多个任务，联合优化，采用三种瞬时函数：

代表计算文本/非文本损失函数，

代表坐标点损失函数，

代表边缘细化损失函数，得到最终损失函数：

其中式(Ⅰ)中，i代表所有锚点建议框索引，j代表有效锚点建议框索引，k是侧锚建议框的索引，侧锚指位于真实文本框左侧或右侧32像素内的锚点；

s_i指第i个锚点建议框内存在文本的概率预测值，

为第i个锚点内有无文本的真值，取值0或1；

v_j,

分别代表第j个锚点中心坐标纵轴预测值和真实坐标值；o_k,

分别代表第k个锚点在坐标横轴上的文本框预测偏移量与真实偏移量；N_s、N_v、N_o分别代表三个损失函数使用的锚点个数，λ₁与λ₂为损失函数权重，分别为1和2；

(2-3)使用标准反向传播与随机梯度下降对模型进行端到端的训练。

上述一种基于深度学习的手写气象档案资料的文本定位方法，设置IOU>＝0.7作为标准，判定在锚点预测框内有无文本，IOU>＝0.7的锚点设置为正锚点，反之设置为负锚点。

上述一种基于深度学习的手写气象档案资料的文本定位方法，将纸质气象档案扫描为数字图像时，图片高重采样为600，图片宽随比例缩放来去除图像大小对模型训练的影响。

上述一种基于深度学习的手写气象档案资料的文本定位方法，在步骤(3)中，将先前预备的测试集送入训练完毕的定位模型，检验模型精度。

本发明的技术方案取得了如下有益的技术效果：

本发明主要针对纸质载体的手写气象资料进行数字化，通过深度学习的方法对档案进行文本定位。

本发明将纸质气象档案扫描为数字图像格式，提出从局部到整体的文本定位思路，将数据集图像裁剪成小区域，先做图像预处理，根据档案特点提取出表格区域，再用深度学习模型进行定位前将扫描图像根据表格区域先行裁开，对裁开的图像进行训练。这样既加大了训练样本数量又降低了训练难度，模型更容易收敛，又提高了文本定位精度。再使用CTPN深度学习模型在小区域范围内定位字符位置。本发明使用的CTPN网络使用强大的深层卷积自动获取图中的文本特征信息，结合LSTM内循环架构编码上下文信息，利用特有的文本锚点准确定位文本位置，将文本建议框按顺序连接在一起，避免在复杂条件下产生的字符精度不高的情况。实验结果表明本发明定位出了所有的字符，精度完全能够满足应用要求，高精度的定位结果为后续的应用打下了基础。

附图说明

图1本发明手写气象档案资料的文本定位方法的流程示意图。

具体实施方式

本实施例中的基于深度学习的手写气象档案资料的文本定位方法，包括如下步骤：

(1)图像预处理与数据集准备：图像预处理主要实施在表格提取的步骤，将纸质气象档案扫描为数字图像格式，先做图像预处理，再提取表格制作文本定位数据集；数据集的制作主要包括定位模型数据集制作。

本发明采用对序列信息有较强学习能力的CTPN模型作为文本定位的方法。但由于字符区域大小相对于扫描图像，目标区域太小，定位目标过多，会加大训练难度。为了降低训练难度，精准定位微小字符，本发明提出了从局部到整体的定位思路。在用深度学习模型进行定位前将扫描图像根据表格区域先行裁开，对裁开的图像进行训练。这样既加大了训练样本数量又降低了训练难度，模型更容易收敛，又提高了文本定位精度。

(3)检查定位效果。本发明提出了从局部到整体的文本定位思路，字符目标不会因为过小而难以定位，同时大大降低了CTPN模型的训练难度，定位出了所有的字符，精度完全能够满足应用要求，高精度的定位结果也为后续的应用打下了基础。

一、图像预处理与数据集准备

1、图像预处理

图像预处理主要实施在表格提取的步骤。

预处理操作有：降噪、二值化、霍夫直线检测、倾斜矫正、表格提取和按表格截取局部图像步骤。

(a)中值滤波：对图像做中值滤波处理，平滑图像信息，为图像二值化做准备；

(e)表格提取：对校正过的二值图做形态学开运算，先做腐蚀后做膨胀，其中腐蚀与膨胀的核分别为N*1与1*N，只保留竖线，剔除了横线；再做1*N的腐蚀和N*1的膨胀，只保留了横线，剔除了竖线；腐蚀操作会将文字非直线像素抹消，再将两次操作的结果叠合；

2、数据集准备

采用人工勾画的方式，将按表格区域裁剪出的图像以矩形框的形式对目标字符进行框选，目标字符的位置信息(矩形框在图像中的点坐标)会以HTML文件的格式与图片一一对应保存；一张区域图像含有多行字符数据信息，提取HTML文件中所有目标的位置信息，按行储存于一个txt文件中，在区域图片与对应的标签txt文件中取十分之一作为测试集，其余作为训练集。在定位模型训练完成后，又以定位模型对文本目标位置进行提取，自动裁剪保存。

本实施例中在304张区域图片与对应的304个标签txt文件中取十分之一作为测试集，其余作为训练集。

二、文本定位

用对序列信息有较强学习能力的CTPN模型作为文本定位的方法。但由于字符区域大小相对于扫描图像，目标区域太小，定位目标过多，会加大训练难度。为了降低训练难度，精准定位微小字符，本发明提出了从局部到整体的定位思路。在用深度学习模型进行定位前将扫描图像根据表格区域先行裁开，对裁开的图像进行训练。这样既加大了训练样本数量又降低了训练难度，模型更容易收敛，又提高了文本定位精度。

1、根据从局部到整体的定位思路，在用深度学习模型进行定位前将扫描图像根据表格区域先行裁开，对裁开的图像进行训练。

2、使用的CTPN网络结构以VGG-16作为特征提取网络，经过五次卷积四次下采样得到大小为W H C的特征图，W代表特征图的宽，H代表特征图的高，C为通道数。将获得的特征作为输入数据送入双向LSTM网络，得到的输出张量大小为W 256，再将这个张量送入全连接层。经过分类与回归最终得到建议框的高度以及建议框中心y坐标、建议框的类别信息(是否包含字符)、建议框的水平偏移量三部分输出结果，最后得到锚点预测框。

数据分成小批量送入CTPN模型，每一批32张图片，共训练20轮次，以10的-4次方作为初始学习率，随批次衰减，衰减率为0.3％；

在损失函数的选择上，为了改善网络参数，将整体分为多个任务，联合优化。采用三种瞬时函数：

代表计算文本/非文本损失函数，

代表坐标点损失函数，

代表边缘细化损失函数，得到最终损失函数：

s_i指第i个锚点建议框内存在文本的概率预测值，

为第i个锚点内有无文本的真值，取值0或1；

v_j,

分别代表第j个锚点中心坐标纵轴预测值和真实坐标值；o_k,

分别代表第k个锚点在坐标横轴上的文本框预测偏移量与真实偏移量；N_s、N_v、N_o分别代表三个损失函数使用的锚点个数，λ₁与λ₂为损失函数权重，根据以往经验设置为1和2。

训练中使用标准反向传播与随机梯度下降对模型进行端到端的训练，设置IOU>＝0.7作为标准，判定在锚点内有无文本，IOU>＝0.7的锚点设置为正锚点，反之设置为负锚点。

将图片高重采样为600，图片宽随比例缩放来去除图像大小对模型训练的影响。

三、检查定位效果

将先前预备的测试集送入训练完毕的定位模型，检验模型精度。测试精度与定位效果完全可以满足后期字符识别的要求。

由于文本目标较小，CTPN模型对于微小目标的定位能力较差。若将扫描图像整张进行训练，则会出现大量漏检误检现象。对此提出了从局部到整体的文本定位思路，字符目标不会因为过小而难以定位，同时大大降低了CTPN模型的训练难度。本实施例中用一百张裁剪过的数据来测试训练好的CTPN网络，在一百张验证数据中共有2312个需要定位的字符区域，全部定位成功，精度完全能够满足应用要求，高精度的定位结果也为字符识别打下了基础。

通过手写气象档案资料的文本定位方法，表明本发明方法定位的字符能到达到较高的精度，具有较高的实用性。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本专利申请权利要求的保护范围之中。

Claims

1.一种基于深度学习的手写气象档案资料的文本定位方法，其特征在于，包括如下步骤：

(3)检查定位效果。

2.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法，其特征在于，在步骤(1)中包括如下步骤：

图像预处理包括：

3.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法，其特征在于，提取表格制作文本定位数据集的方法为：采用人工勾画的方式，将按表格区域裁剪出的图像以矩形框的形式对目标字符进行框选，目标字符的位置信息会以HTML文件的格式与图片一一对应保存，位置信息为矩形框在图像中的点坐标；一张区域图像含有多行字符数据信息，提取HTML文件中所有目标的位置信息，按行储存于一个txt文件中，在区域图片与对应的标签txt文件中取十分之一作为测试集，其余作为训练集。

4.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法，其特征在于，在步骤(2)中：

将整体分为多个任务，联合优化，采用三种瞬时函数：