CN112818785A

CN112818785A - 一种气象纸质表格文档的快速数字化方法及系统

Info

Publication number: CN112818785A
Application number: CN202110090678.3A
Authority: CN
Inventors: 韩瑞; 石明远; 陈东辉
Original assignee: National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Current assignee: National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-18
Anticipated expiration: 2041-01-22
Also published as: CN112818785B

Abstract

本发明提供了一种气象纸质表格文档的快速数字化方法及系统，属于气象数据处理领域。所述快速数字化方法包括：获取气象纸质表格文档的图像；对图像进行预处理后，提取表格线并进行字符识别，完成对字符的提取和定位，存储为第一类字符；对处理完的表格文档图像进行切割，对每个子图像进行文字录入；将录入的文字对第一类字符进行定位匹配及校验；校验通过时，存储字符；校验不通过时，丢弃字符，以当前子图像作为表格文档图像，转入预处理；遍历所有子图像且校验通过时，输出所有字符作为数字化结果。本发明实现了气象表格文档的快速数字化，简化了基于语义分割的文字检测，实现了对包含印刷和手写字符的表格文档高精度、高准确度的字符提取。

Description

一种气象纸质表格文档的快速数字化方法及系统

技术领域

本发明属于气象数据处理领域，具体涉及一种气象纸质表格文档的快速数字化方法及系统。

背景技术

在气象观测中，初始的观测结果是气象图像，各地方通过对气象图像的数字化，采集到地方气象数据，并上传到气象中心，气象中心对所有气象数据进行统计与分析。各地方在进行气象数据采集时，由于气象数据的时间序列性及多参数性，通常需要通过表格来对数据进行整理；气象纸质表格文档的整理，一般通过人工观测并手写填写纸质表格，再通过对纸质表格的识别，例如，人工智能中的OCR文字识别方法，获得数字化表格文档图像文件；再通过数字化表格文档图像文件获得气象表格信息。

现有技术中，中国气象局对各省数字化图像资料进行收集外，还没有一个统一的系统将收集的数字化图像文件进行数据校验，无法保证数字化图像文件中提取的气象表格信息的准确性。

表格是一种高度精炼，集中信息表达的手段，纸质表格中的大量信息常常需要输入到计算机进行整理、归类、排序和分析等。对纸质表格信息的提取，一般首先获取表格文档图像，再对图像进行处理获取表格信息。纸质表格文档图像的信息提取方法，是字符识别过程。其中，表格字符准确识别与定位是表格字符提取最困难也是最关键的环节之一。

表格字符提取，可以通过基于深度学习的网络模型自动获取图像中的文本特征，结合分类和回归进行字符定位。基于边界框回归的方法进行了文本定位，在图像上按区域设置大量不同大小形状的边界框，经过卷积网络的特征学习，判断边界框内是否含有字符，一般按标签边界框与实际标签所重合的面积(IOU，Intersection Over Union)大小判定，字符定位一般以IOU>＝0.7为标准判定边界框内是否存在字符目标。然后对边界框的位置进行回归，定位精确的边界。基于边界框回归的方法依赖边界框形状大小的设置，若设置形状与所要检查的目标差别较大，则定位效果较差。基于语义分割法的字符定位，通过卷积与反卷积对每一个像素做一个二分类，判别每一个像素是否属于字符像素，最终根据字符区域定位。

目前，对上述数字化表格字符的识别及定位方法，包括图像倾斜校正、图像二值化、表格字符定位、单任务分组统计校验及可视化展示。在图像倾斜校正中，目前无法保证对含手写数字的表格文档图像取得较好的精度。在图像二值化过程中，二值化方法比较单一，在实际应用中往往无法较好的适应各种不同条件下的情况，如：扫描结果亮度不均匀、笔划灰度较浅、图像直方图灰度值分布较均匀等。在表格字符定位过程中，包括利用先验知识定位和通过表格线检测定位；其中，先验知识方法需要借助先验知识，无法自动适应各种不同格式的表格；表格线检测方法包括侧向投影法、轮廓提取法、表格线交叉点分析法、霍夫变换法；侧向投影法简单、速度快，但较容易受到表格倾斜和字符粘连表格线的影响；轮廓提取法也很容易因表格线断裂或字符粘连表格线而产生错误；表格线交叉点分析法则通过对相邻交叉点进行分类和匹配来迭代地构建出表格中的所有单元格，但该方法比较耗时，且容易受断裂表格线的影响。

发明内容

鉴于上述问题，本发明实施例提供了一种气象纸质表格文档的快速数字化方法及系统，在获取文档图像的基础上，通过基于语义分割的DB模型进行表格字符定位，同时通过众筹式人工输入对定位字符进行检验，从而完成气象表格文档的快速数字化，简化基于分割方法的文字检测，实现对包含印刷字符和手写字符的表格文档图像中字符的高精度、高准确度的提取。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供了一种气象纸质表格文档的快速数字化方法，所述快速数字化方法包括如下步骤：

步骤S1，获取所述气象纸质表格文档的图像；

步骤S2，对表格文档图像进行预处理；

步骤S3，从所述处理完的表格文档图像中提取表格线；

步骤S4，基于表格线，对表格文档图像进行字符识别，完成对字符的提取和定位，将带有定位信息的字符存储为第一类字符；

步骤S5，对所述处理完的表格文档图像进行切割，并基于切割后的子图像发起众筹，对每个子图像进行文字录入；

步骤S6，将录入的文字与第一类字符进行定位匹配，对相同位置处的第一类字符进行校验；校验通过时，将当前第一类字符存储在临时文档中；校验不通过时，丢弃第一类字符，以当前子图像作为表格文档图像，转入步骤S2；遍历所有子图像且全部校验通过时，进入步骤S7。

步骤S7，输出临时文档中的所有第一类字符，作为当前气象纸质表格文档的数字化结果。

作为本发明的一个优选实施例，所述步骤S2中的预处理，包括对获取的表格文档图像进行倾斜校正和降噪。

作为本发明的一个优选实施例，所述降噪，采用适用于表格文档图像的自适应阈值二值化方法，去除表格文档图像的噪声。

作为本发明的一个优选实施例，步骤S3中表格线，包括表格横线、竖线和边框。

作为本发明的一个优选实施例，步骤S3采用霍夫变换方法实现表格线提取，具体步骤如下：

步骤S31，采用霍夫变换方法进行表格线检测。根据表格线与周围像素灰度差异，最短直线长度和最长直线长度，确定表格横线、竖线和边框，获取表格线初步提取结果；

步骤S32，对初步提取表格线进行结果优化，获得完整的表格线。

作为本发明的一个优选实施例，所述对初步提取表格线进行结果优化，包括：

直线融合，对断裂的直线进行连线，获得完整的表格横线和竖线；

直线筛选，对多提的直线且不属于表格线的部分去除；

表格边框补齐，对表格边界进行补齐。

作为本发明的一个优选实施例，所述步骤S4采用基于语义分割的DB深度学习模型实现表格字符定位，具体实现步骤如下：

步骤S41，采集字符定位数据集；

步骤S42，基于深度学习算法，构建字符提取和定位的DB模型；

步骤S43，基于所采信的字符定位数据集，对DB模型进行训练；

步骤S44，采用训练获得的DB模型，对所述表格文档图像进行字符提取和定位，将带有定位信息的字符存储为第一类字符。

作为本发明的一个优选实施例，所述步骤S43中对表格文档图像进行字符提取和定位，将扫描并预处理后的气象表格文档图像送入训练过的DB模型，得到表格中的字符坐标与中心点坐标，将中心点坐标对比表格线坐标得到字符目标与表格的一一对应位置，完成定位。

作为本发明的一个优选实施例，步骤S5具体包括：

步骤S51，将需要数字化的气象纸质表格文档图像汇交至数据中心，在数据中心统一对表格文档图像进行批量分割；

步骤S52，将分割的图片进行按照图片来源地理位置、图片id、图片名、图片路径等信息存储在数据库中；对各省汇交数据进行入库，日志信息录入数据库表；

步骤S53，在数据中心服务器上搭建图片访问服务器；

步骤S54，通知相关用户登录图片访问服务器，访问相应切割后的子图像，并根据图片信息执行录入操作，将录入结果上传至数据中心，完成文字录入。

作为本发明的一个优选实施例，所述气象纸质表格文档的数字化方法，还包括：

步骤S8，搭建可视化展示框架，对所述数字化结果进行展示；

步骤S9，基于数据中心设置统一访问接口，通过所述统一访问接口为用户提供数据服务。

第二方面，本发明实施例还提供了一种气象纸质表格文档的快速数字化系统，所述系统包括图像获取模块、图像预处理模块、表格线提取模块、字符识别模块、图像切割众筹模块、字符匹配模块、输出模块及存储模块；其中，

所述图像获取模块与所述图像预处理模块相连，用于获取所述气象纸质表格文档的图像，并发送给所述图像预处理模块；

所述图像预处理模块与所述表格线提取模块、字符识别模块和图像切割众筹相连，用于对图像获取模块发送的表格文档图像进行预处理；

所述表格线提取模块与所述字符识别模块相连，用于读取图像预处理模块预处理完成的图像，并从所述处理完的表格文档图像中提取表格线，并将所提取的表格线发送给所述字符识别模块；

所述字符识别模块与所述存储模块相连，用于读取表格线提取模块所提供的表格线，并读取图像预处理模块预处理完的与所述表格线对应的表格文档图像，基于表格线，对表格文档图像进行字符识别，完成对字符的提取和定位，将带有定位信息的字符作为第一类字符存储在存储模块中；

所述图像切割众筹模块与所述存储模块相连，同时具有外网连接接口，用于读取图像预处理模块预处理完的当前表格文档图像，对所述处理完的表格文档图像进行切割，并基于切割后的子图像发起网络众筹，对每个子图像进行文字录入，并将录入的文字存储在存储模块中；

所述字符匹配模块与所述存储模块、预处理模块和输出模块相连，用于从所述存储模块中读取当前表格文档的第一类字符和录入文字，将录入的文字与第一类字符进行定位匹配，对相同位置处的第一类字符进行校验；校验通过时，将当前第一类字符存储在临时文档中；校验不通过时，丢弃第一类字符，以当前子图像作为表格文档图像，发送给所述预处理模块；遍历所有子图像且全部校验通过时，将所有第一类字符发送给输出模块；

所述输出模块用于输出临时文档中的所有第一类字符，作为当前气象纸质表格文档的数字化结果。

本发明具有如下有益效果：

(1)本发明通过霍夫变换算法和深度学习DB模型实现了高精度的表格字符定位。适用于不同形式的表格字符，如印刷体汉字、数字、字母和复杂多变的手写字体。解决了表格数据自动获取，为后续的字符识别提供保障，从而实现表格字符自动识别和录入，大大减少人工成本，提高效率。

(2)针对收集的数字化图像观测数据进行分割，实现了从单纯依赖专门数字化公司录入气象表格文档图像数据，到发动气象数据用户共同完成气象表格文档图像的数字化；同时结合深度学习模型识别提取结果，进行联合校验，确保数据的准确定性。

(3)对符号图标进行分类存储、完整的数字化图像与切分的数字化图像进行分表存储、数字化各省统计进行存储，极大减轻了数据存储数据本身给数据库带来的压力，提高检索效率，使用户可以更快，更便捷的检索需要的数据。

(4)使用rest和web service相结合的方式访问接口，用户可通过在浏览器中，使用REST服务的URI，在页面中直接查看数据，提高了用户访问效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施方式提供的气象纸质表格文档的数字化方法流程图；

图2是本发明实施方式中通过DB模型对文档图像进行字符识别的流程图；

图3是本发明实施方式提供的气象纸质表格文档的数字化系统结构示意图。

具体实施方式

下面通过参考示范性实施例，并结合附图，对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非在这里进行定义，否则不会用理想化或过于正式的含义来解释。

本发明实施方式提供了一种气象纸质表格文档的快速数字化方法，在获得表格文档图像的基础上，采用深度学习DB模型，从字符本身出发，自主学习和挖掘字符特征，结合字符多尺度特征，获取更精准的字符位置，实现表格字符的高精度定位，按照规定的图像命名规范，对表格文档图像进行分割裁剪并用训练后的模型进行识别和定位，并提取和存储字符，通过采用表格字符定位、表格框线检测和字线分离算法，合理地利用全局统计特性和局部位置关系，针对表格文档图像特点，实现图像中表格线完整提取；针对表格字符中，字符与表格线粘连，字符笔画缺失、字符重叠等问题，利用深度学习模型，实现复杂的多种字符的定位和提取，按照规定的图像命名规范，对数字化图像进行分割裁剪；同时采用人工智能中的OCR文字识别进行对图像文字的初始化录入，需要将切分的数字化图像集成在基于气象大数据云平台建立的气象大数据资源在线汇交系统中，用户在登录全国数据资源汇交系统时录入文档图像内容，最终实现对气象表格文档的精准、快速数字化。

所述快速数字化方法涉及以下几部分内容：表格文档图像获取、图像预处理、表格线提取、字符提取、图像切割、众筹式录入、校验及输出数字化结果。图1示出了本发明实施方式所提供的气象纸质表格文档的快速数字化方法流程图。如图1所示，所述快速数字化方法包括如下步骤：

步骤S1，获取所述气象纸质表格文档的图像。

本步骤中，一般通过扫描获取表格文档图像。

步骤S2，对表格文档图像进行预处理。

本步骤中，所述预处理，包括对获取的表格文档图像进行降噪、倾斜校正等处理。

在表格文档扫描成图像的过程中，表格在图像中或多或少会出现一定角度的倾斜，直接给表格单元格定位、字符定位等造成困难，本步骤通过对图像进行倾斜校正避免倾斜对数字化过程带来的影响。优选地，本发明实施方式中采用霍夫变换方法进行图像的倾斜校正。

同时，本实施方式中采用中值滤波算法对表格文档图像降噪，获得平滑的表格文档图像。倾斜校正之后，为了进一步提取出表格文档图像前景中的表格线和字符，还必须对图像进行二值化处理，基于表格文档图像的特点，本实施方式中采用适用于表格文档图像的自适应阈值二值化方法，能够获得较好的二值化效果。

步骤S3，从所述处理完的表格文档图像中提取表格线。

本步骤中，利用霍夫变换提取表格文档图像中的表格线，并进行优化，获得干净完整的表格线，包括表格横线、竖线和边框。

本发明实施方式中表格线提取包括直线检测及提取。优选地，采用霍夫变换方法实现表格线提取。具体步骤如下：

步骤S31，采用霍夫变换方法进行表格线检测。根据表格线与周围像素灰度差异，最短直线长度和最长直线长度，确定表格横线、竖线和边框，获取表格线初步提取结果。

步骤S32，对初步提取表格线结果优化，获得完整的表格线。

初步结果中存在直线断开、直线多提等问题，针对这些问题，对结果进行优化，包括：

①直线融合，对断裂的直线进行连线，获得完整的表格横线和竖线；

②直线筛选，对多提的直线且不属于表格线的部分去除；

③表格边框补齐，对表格边界进行补齐。

所述表格线提取过程，去除了干扰直线，便于后续的表格字符定位。

步骤S4，基于表格线，对表格文档图像进行字符识别，完成对字符的提取和定位，将带有定位信息的字符存储为第一类字符。

本步骤中，基于深度学习的DB模型，实现表格字符的定位和提取。

优选地，本发明实施方式采用基于语义分割的DB深度学习模型实现表格字符定位。如图2所示，具体实现步骤如下：

步骤S41，采集字符定位数据集。

DB模型的训练依赖于大量的数据，因此制作字符定位数据集是至关重要的一步。随机选取500张扫描获取的表格文档图像，使用LabelImg软件进行标签的人工勾画，对要识别的字符部分进行人工标注，使每一张图像对应一张字符标注后标签。

步骤S42，基于深度学习算法，构建字符提取和定位的DB模型。

本步骤中，以Tensorflow平台为开发环境，搭建DB网络，对字符定位数据集进行学习和训练。

步骤S43，基于所采信的字符定位数据集，对DB模型进行训练。

本步骤中，将扫描并预处理后的气象表格文档图像，经过中值滤波降噪、图像二值化、霍夫直线检测、倾斜校正、表格线提取，在输入模型前，判断是否完成所有汇交图像完成表格线提取，若未完成，可通过人工修正完成表格线提取；完成表格线提取后，将所述表格文档图像送入训练过的DB模型，得到表格中的字符坐标与中心点坐标，将中心点坐标对比表格线坐标得到字符目标与表格的一一对应位置，完成定位。将定位信息绑定在相应的字符信息中，存储为第一类字符。

步骤S5，对所述处理完的表格文档图像进行切割，并基于切割后的子图像发起众筹，对每个子图像进行文字录入。

本步骤具体包括：

步骤S53，在数据中心服务器上搭建图片访问服务器；

进一步地，本发明实施方式提供的气象纸质表格文档的数字化方法，还可以包括：

步骤S8，搭建可视化展示框架，对所述数字化结果进行展示。

步骤S9，基于数据中心设置统一访问接口，通过所述统一访问接口为用户提供数据获取功能，包括：表格文档图像路径查询、特殊符号图标查询、各省纸质表格文档图像汇总情况查询等。

本发明还提供了一种气象纸质表格文档的快速数字化系统。如图3所示，所述系统包括图像获取模块10、图像预处理模块20、表格线提取模块30、字符识别模块40、图像切割众筹模块50、字符匹配模块60、输出模块70及存储模块80。

其中，所述图像获取模块10与所述图像预处理模块20相连，用于获取所述气象纸质表格文档的图像，并发送给所述图像预处理模块20；

所述图像预处理模块20与所述表格线提取模块30、字符识别模块40和图像切割众筹50相连，用于对图像获取模块发送的表格文档图像进行预处理；

所述表格线提取模块30与所述字符识别模块40相连，用于读取图像预处理模块预处理完成的图像，并从所述处理完的表格文档图像中提取表格线，并将所提取的表格线发送给所述字符识别模块40；

所述字符识别模块40与所述存储模块80相连，用于读取表格线提取模块30所提供的表格线，并读取图像预处理模块20预处理完的与所述表格线对应的表格文档图像，基于表格线，对表格文档图像进行字符识别，完成对字符的提取和定位，将带有定位信息的字符作为第一类字符存储在存储模块80中；

所述图像切割众筹模块50与所述存储模块80相连，同时具有外网连接接口，用于读取图像预处理模块20预处理完的当前表格文档图像，对所述处理完的表格文档图像进行切割，并基于切割后的子图像发起网络众筹，对每个子图像进行文字录入，并将录入的文字存储在存储模块80中；

所述字符匹配模块60与所述存储模块80、预处理模块20和输出模块70相连，用于从所述存储模块80中读取当前表格文档的第一类字符和录入文字，将录入的文字与第一类字符进行定位匹配，对相同位置处的第一类字符进行校验；校验通过时，将当前第一类字符存储在临时文档中；校验不通过时，丢弃第一类字符，以当前子图像作为表格文档图像，发送给所述预处理模块20；遍历所有子图像且全部校验通过时，将所有第一类字符发送给输出模块70；

所述输出模块70用于输出临时文档中的所有第一类字符，作为当前气象纸质表格文档的数字化结果。

需要说明的是，本实施例中所述气象表格文档图像的快速数字化系统与所述气象表格文档图像的快速数字化方法是对应的，对所述快速数字化方法的描述与限定同样适用于所述快速数字化系统，在此不再赘述。

由以上技术方案可以看出，本发明实施方式所提供的气象表格文档图像的快速数字化方法及系统，采用表格框线检测和字线分离算法，合理地采用深度学习DB模型，从字符本身出发，自主学习和挖掘字符特征，结合字符多尺度特征，获取更精准的字符位置，实现表格字符的高精度定位，按照规定的图像命名规范，对数字化图像进行分割裁剪并用训练后的模型进行识别并存储；校验统计部分采用了同一任务多用户分组进行统计，根据批量处理，直至形成最终唯一的统计结果，确保了数据的正确性；使用图表展示各省汇总情况，利用HTML5和CSS3的优势，同时也兼容旧的浏览器访问，具有跨平台、易拓展、兼容性好等优势；使用Rest和web service相结合方式统一访问接口，提供数据获取功能，包括：图片信息查询、数字化图像汇总情况查询等，根据不同的应用模式和开发运行环境，提供包括REST服务和web service服务的多种服务方式，实现前后台交互使用。

以上所述是本发明的优选实施方式，应当指出，本发明并不受限于以上所公开的示范性实施例，说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种气象纸质表格文档的快速数字化方法，其特征在于，所述快速数字化方法包括如下步骤：

步骤S1，获取所述气象纸质表格文档的图像；

步骤S2，对表格文档图像进行预处理；

步骤S3，从所述处理完的表格文档图像中提取表格线；

2.根据权利要求1所述的气象纸质表格文档的快速数字化方法，其特征在于，所述步骤S2中的预处理，包括对获取的表格文档图像进行倾斜校正和降噪。

3.根据权利要求1所述的气象纸质表格文档的快速数字化方法，其特征在于，步骤S3中表格线，包括表格横线、竖线和边框。

4.根据权利要求3所述的气象纸质表格文档的快速数字化方法，其特征在于，步骤S3采用霍夫变换方法实现表格线提取，具体步骤如下：

5.根据权利要求4所述的气象纸质表格文档的快速数字化方法，其特征在于，所述对初步提取表格线进行结果优化，包括：

直线筛选，对多提的直线且不属于表格线的部分去除；

表格边框补齐，对表格边界进行补齐。

6.根据权利要求1所述的气象纸质表格文档的快速数字化方法，其特征在于，所述步骤S4采用基于语义分割的DB深度学习模型实现表格字符定位，具体实现步骤如下：

步骤S41，采集字符定位数据集；

7.根据权利要求6所述的气象纸质表格文档的快速数字化方法，其特征在于，所述步骤S43中对表格文档图像进行字符提取和定位，将扫描并预处理后的气象表格文档图像送入训练过的DB模型，得到表格中的字符坐标与中心点坐标，将中心点坐标对比表格线坐标得到字符目标与表格的一一对应位置，完成定位。

8.根据权利要求1所述的气象纸质表格文档的快速数字化方法，其特征在于，步骤S5具体包括：

步骤S53，在数据中心服务器上搭建图片访问服务器；

9.根据权利要求1至8任一项所述的气象纸质表格文档的快速数字化方法，其特征在于，所述气象纸质表格文档的数字化方法，还包括：

10.一种气象纸质表格文档的快速数字化系统，其特征在于，所述系统包括图像获取模块、图像预处理模块、表格线提取模块、字符识别模块、图像切割众筹模块、字符匹配模块、输出模块及存储模块；其中，