CN108805076B

CN108805076B - 环境影响评估报告书表格文字的提取方法及系统

Info

Publication number: CN108805076B
Application number: CN201810583398.4A
Authority: CN
Inventors: 陈建海; 储蓉蓉; 陈奇; 何钦铭; 翁海琴; 沈钦仙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2021-01-08
Anticipated expiration: 2038-06-07
Also published as: CN108805076A

Abstract

本发明公开了一种环境影响评估报告书表格文字的提取方法，包括以下步骤：(1)从环境影响评估报告书中识别出所有的表格，将识别出的表格以图片格式保存；(2)基于卷积神经网络，从所有表格图片中识别出记录有项目基本信息的目标表格图片；(3)从所述的目标表格图片中提取文字信息。本发明还公开了环境影响评估报告书表格文字的提取系统。本发明的表格文字提取方法将环境影响评估报告中的基本信息和相关项目信息的表格识别出来，并提取其中的文字信息，方便于对环境影响评估报告的管理，并方便于将相关项目和环境联系起来，正确处理环境相关问题，减轻不利环境的影响。

Description

环境影响评估报告书表格文字的提取方法及系统

技术领域

本发明涉及计算机视觉OCR领域和深度学习领域，尤其涉及一种基于卷积神经网络的环境影响评估报告书表格文字的提取方法及系统。

背景技术

环境影响评估报告书，简称环评报告，是环保局对于各种项目进行环境影响预见性评估的说明书，其中评估了项目建成之后对环境的影响。环境影响评估报告书中的建设项目环境保护审批登记表记录了项目基本信息，可以从中提取环境影响评估报告的有效信息去辅助解决目前面临的环境问题，或者支持未来项目的决议，其意义重大。但是，每份环评报告几乎都在百页以上，如果用人工去审阅信息，费时、费力且管理不便。

由于环评报告书通常以PDF或者word文档的形式存在，所以目前已知的对于环境影响评估报告的信息抽取是基于自然语言处理的方式，利用规则匹配文本，或者利用统计学习方法获得文字分布规律。但是，前者太依赖于所制定的规则和所应用的文本，没有很好的可移植性；后者虽然有很好的可移植性，但是其准确率受到了限制，而且会提取出无关信息，这是由于目前中文自然语言处理方面还有很大的进步空间，技术并未完全成熟。

目前计算机视觉领域研究成熟，尤其是图像方面取得了很大的进步，在不同场景中应用时的准确率较高。另外，如果把文档类型均转换为图片类型，也将会减少工作负担，不用分别处理不同类型的文档。因此，可以提取环境影响评估报告中记录信息的表格图片，并识别表格图像中的文字，从而实现信息的提取，这属于计算机视觉的分支OCR领域。

OCR(Optical Character Recognition，光学字符识别)利用光学技术以及计算机技术将图片中的文字读取出来，并将其转换成一种计算机可以接受、人又可以理解的格式。OCR的概念诞生于1929年，随后在邮政编码识别领域中发挥着良好作用，发展到目前为止，OCR的识别技术已然达到了一个较高的水平，被广泛用在新闻、出版、印刷、图书馆和办公自动化等各个行业中，帮助人们快速便捷工作。常见的OCR表格文字识别的流程，包括图文输入、预处理、行列分割和文字识别四个部分。

现有的实现OCR的算法包括支持向量机(SVM)、神经网络等，但是SVM算法对在训练样本规模较大时难以实施，且在解决多分类的问题存在一定困难；传统神经网络结构层次较少，当用多层神经网络训练的时候会出现欠拟合的现象。目前在图像方面效果较好的当属卷积神经网络，其在传统结构上引入了在图像处理中的数据，包括滤波器组和多分辨率分析等，所以取得了令人瞩目的结果。

卷积神经网络在90年代提出，最早用于手写数字识别，并直到现在一直保持着在该问题的首要地位。近年来，随着深度学习的兴起，卷积神经网络被广泛应用于很多场景中，包括语音识别、通用物体识别、人脸识别、自然语言处理、运动分析，甚至在脑电波的分析方面都有突破，这源于其在特征提取和模型拟合上都超过浅层模型，其局部连接、权值共享及池化这些特性和操作，可以减少训练参数的数目，降低网络的复杂度，具有强鲁棒性和容错能力。

发明内容

本发明提供了一种环境影响评估报告书表格文字的提取方法，将环境影响评估报告中带有项目基本信息的目标表格识别出来，并从中提取文字信息，便于相关工作人员管理。

本发明提供了如下技术方案：

一种环境影响评估报告书表格文字的提取方法，包括以下步骤：

(1)从环境影响评估报告书中识别出所有的表格，将识别出的表格以图片格式保存；

(2)基于卷积神经网络，从所有表格图片中识别出记录有项目基本信息的目标表格图片；

(3)从所述的目标表格图片中提取文字信息。

所述的环境影响评估报告书为pdf格式。

本发明利用卷积神经网络，从环境影响评估报告中提取相关项目信息，便于相关工作人员的管理，并且提高环境影响评估报告的开发及利用。

优选的，步骤(1)中，从环境影响评估报告书中识别出所有的表格，包括：

(1-1)采用基于LSD(Line Segment Detector)的直线检测分割算法，识别、分割环境影响评估报告书中的直线，得到若干直线段，并记录各个直线段的端点坐标；

由于表格是由水平和竖直直线组成，通过基于LSD的直线检测分割算法检测环境影响评估报告书中的直线，实现对表格的定位。基于LSD的直线检测分割算法能够很好的减少直线检测干扰。

(1-2)对直线段进行过滤，去除干扰直线段，包括：预设表格直线的长度阈值，若某直线段长度小于预设的长度阈值，则去除该直线段；

步骤(1-1)中得到的直线段包括表格中的长线段和文字中的短线段(如文字的笔画边缘直线)，因此需要通过步骤(1-2)去除文字中的短线段。

(1-3)求取过滤后剩余直线段的交点，方法为：若直线段A的端点a与直线段B的端点b之间的距离小于预设阈值，则认为直线段A与直线段B之间存在交点；求取端点a与端点b的坐标平均值，并将坐标平均值作为直线段A与直线段B的交点；

(1-4)根据所有过滤后剩余直线段之间的交点坐标，确定表格区域位置。

计算得到所有直线段之间的交点坐标之后，利用交点坐标值的大小确定位于表格四个顶点除的四个交点，从而确定表格区域位置；之后根据表格区域位置分割表格，并以图片格式存储。

优选的，步骤(2)包括：

(2-1)从环境影响评估报告书中提取表格图片，并将记录有项目基本信息的表格图片作为目标表格图片，标注为1；否则作为非目标表格图片，标注为0，构建训练集和验证集；

(2-2)构建基于卷积神经网络的表格图片分类器；

利用Keras构建表格图片分类器(Sequential模型)；Keras是基于theano/tensorflow的深度学习框架。

优选的，所述的表格图片分类器包括5个卷积层、7个激活函数层、4个池化层、2个全连接层和1个损失函数层。

(2-3)利用训练集训练表格图片分类器，直至表格图片分类器收敛；再利用验证集对训练后的表格图片分类器进行测试评估；

经过多次训练调整表格图片分类器的模型参数；

(2-4)通过训练好的表格图片分类器从步骤(1)获得的表格图片中识别目标表格图片。

优选的，步骤(3)包括：

(3-1)识别目标表格图片中的表格单元格，并记录表格单元格的坐标位置；

包括：

(3-1a)采用基于LSD的直线检测分割算法，识别、分割目标表格图片中的直线，得到若干直线段，并记录各个直线段的端点坐标；

(3-1b)求取直线段的交点，方法为：若直线段A的端点a与直线段B的端点b之间的距离小于预设阈值，则认为直线段A与直线段B之间存在交点；求取端点a与端点b的坐标平均值，并将坐标平均值作为直线段A与直线段B的交点；

(3-1c)若直线段A与直线段B相交于一点且直线段A与直线段B垂直，则根据直线段A与直线段B，可以确定包含直线段A与直线段B的表格单元格的坐标位置。

(3-2)对表格单元格中的图像进行字符切割，得到包含单个字符的字符图片；

包括：

(3-2a)对表格单元格中的图像进行水平方向上的投影并进行切割，得到若干字符行；

(3-2b)对所述字符行进行垂直方向上的投影并进行切割，得到包含单个字符的字符图片。

投影是对图像进行水平或者垂直方向上像素的统计，根据投影会形成水平或者垂直方向上的统计直方图，在直方图的波谷位置进行切割。该字符切割方法利用的是两行文字或两个文字之间的间隔距离比较大，在像素统计直方图上会形成相对较明显的波谷。

(3-3)构建并训练基于卷积神经网络的文字分类器，通过文字分类器对所述字符图片进行识别，输出相应文字。

构建并训练字体分类器，包括：

(3-3a)收集相应字体的文字图片并进行标注，构建文字分类训练集；

(3-3b)构建基于卷积神经网络的文字分类器；所述的文字分类器包括2个卷积层、2个最大池化层和2个全连接层；

(3-3c)采用文字分类训练集训练文字分类器，直至文字分类器收敛。

优选的，步骤(3-1)中，采用目标检测识别目标表格图片中的表格单元格。

优选的，步骤(3-3)中，所述的文字分类器为长短期记忆网络(LongShort-TermMemory，LSTM)。

长短期记忆网络是一种时间递归神经网络，以卷积神经网络作为特征提取器，再在特征层上构建处理序列数据的分类器，可结合现有词库对其进行训练，增加语义纠错的部分。

优选的，步骤(3-3a)中，文字分类训练集中训练样本的尺寸大小不一。

在训练输入时，将文字分类训练样本的像素尺寸调整为相同即可。采用尺寸大小不一的训练样本对文字分类器进行训练时，可以提高分类器的鲁棒性。

本发明还公开了所述的表格文字的提取方法所依赖的提取系统，包括：

表格识别模块，从环境影响评估报告书中识别出所有的表格，将识别出的表格以图片格式保存；

表格分类模块，基于卷积神经网络从所有表格图片中识别出记录有项目基本信息的目标表格图片；

文字提取模块，从所述的目标表格图片中提取文字信息。

环保领域中的环境影响评估报告累积量很大，但是目前的开发及利用程度不够高，信息没有得到有效利用。

本发明的环境影响评估报书表格文字的提取方法将环境影响评估报告中的基本信息和相关项目信息的表格识别出来，并提取其中的文字信息，方便于对环境影响评估报告的管理，并方便于将相关项目和环境联系起来，正确处理环境相关问题，减轻不利环境的影响。

相较于利用自然语言处理中基于规则提取文本的不可移植性以及基于统计提取文本的低准确率和信息冗余，本发明的表格文字提取方法利用OCR提取表格图片中的文本，更加方便、准确和精炼。在实现OCR时，环评报告的数量庞大，传统机器学习方法不适用于大规模数据，本发明采用深度学习中的卷积神经网络对大规模数据进行训练。

附图说明

图1为本发明的环境影响评估报书表格文字的提取系统的架构和工作流程示意图；

图2为表格区域识别的流程示意图；

图3为表格图片分类器的结构示意图；

图4为从目标表格图片中提取文字的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，环境影响评估报告书表格文字的提取系统包括表格识别模块、表格分类模块和文字提取模块，其工作流程如下：工作人员向表格文字提取系统导入某一篇环境影响评估报告书，经过表格文字提取系统处理，从环境影响评估报告书中识别出记录有项目基本信息的目标表格图片并从中提取文字信息。该过程由表格识别模块、表格分类模块和文字提取模块分步实现。

(1)表格识别模块，从环境影响评估报告书中识别出所有的表格，将识别出的表格以图片格式保存。其工作流程如图2所示，包括：

首先将环评报告pdf文档的每一页都提取为图片；再利用OCR技术进行表格区域的定位，然后将得到的表格存储。

需要结合表格是由竖线和横线组成的特性对其进行定位，具体包括：

(1-1)采用基于LSD(Line Segment Detector)的直线检测分割算法，识别、分割环境影响评估报告书中的直线，并记录各个直线段的端点坐标；

(1-2)预设表格直线的长度阈值，若某直线段长度小于预设的长度阈值，则去除该直线段；

(1-3)求取直线段的交点，方法为：若直线段A的端点a与直线段B的端点b之间的距离小于预设阈值，则认为直线段A与直线段B之间存在交点；求取端点a与端点b的坐标平均值，并将坐标平均值作为直线段A与直线段B的交点；

(1-4)根据所有直线段之间的交点坐标，确定表格区域位置。

(2)表格分类模块，基于卷积神经网络从所有表格图片中识别出记录有项目基本信息的目标表格图片。

环评报告中具有众多的表格，其中的“建设项目环保审批登记表”中记录了环评报告中的重要信息，包括环评报告的基本信息和相关项目信息，提取该表格中的文字信息及可获取该环评报告的重要信息，本发明将该表格作为目标表格。

因此，需要采用表格分类模块从众多表格中识别出目标表格。

表格分类模块的工作流程如下：

(2-1)从环境影响评估报告书中提取表格图片，并将记录有项目基本信息的表格图片标注为目标表格图片，否则标注为非目标表格图片，构建训练集和验证集；

(2-2)构建基于卷积神经网络的表格图片分类器；

如图3所示，所述的表格图片分类器包括5个卷积层、7个激活函数层、4个池化层(采用最大池化)、2个全连接层和1个损失函数层。

经过多次训练调整表格图片分类器的模型参数；

(3)文字提取模块，从所述的目标表格图片中提取文字信息。

文字提取模块对获取的目标表格图片进行文字提取，工作流程如图4所示，首先利用表格的横线与竖线的交叉点定位每一个表格单元格，在各个单元格中进行水平方向和垂直方向上的映射、切割，得到包含单个文字的字符图片，再利用训练好的卷积神经网络识别字符图片并输出，以实现提取出目标表格中的文字。具体如下：

(3-1)识别目标表格图片中的表格单元格，并记录表格单元格的坐标位置；包括：

(3-1a)采用基于LSD的直线检测分割算法，识别、分割目标表格图片中的直线，并记录各个直线段的端点坐标；

(3-2)对表格单元格中的图像进行字符切割，得到包含单个字符的字符图片；包括：

构建并训练字体分类器，包括：

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种环境影响评估报告书表格文字的提取方法，其特征在于，包括以下步骤：

（1）从环境影响评估报告书中识别出所有的表格，将识别出的表格以图片格式保存；从环境影响评估报告书中识别出所有的表格，包括：

（1-1）采用基于LSD的直线检测分割算法，识别、分割环境影响评估报告书中的直线，得到若干直线段，并记录各个直线段的端点坐标；

（1-2）对直线段进行过滤，去除干扰直线段，包括：预设表格直线的长度阈值，若某直线段长度小于预设的长度阈值，则去除该直线段；

（1-3）求取过滤后剩余直线段的交点，方法为：若直线段A的端点a与直线段B的端点b之间的距离小于预设阈值，则认为直线段A与直线段B之间存在交点；求取端点a与端点b的坐标平均值，并将坐标平均值作为直线段A与直线段B的交点；

（1-4）根据所有过滤后剩余直线段之间的交点坐标，确定表格区域位置；

（2）基于卷积神经网络，从所有表格图片中识别出记录有项目基本信息的目标表格图片；包括：

（2-1）从环境影响评估报告书中提取表格图片，并将记录有项目基本信息的表格图片作为目标表格图片，标注为1；否则作为非目标表格图片，标注为0，构建训练集；

（2-2）构建基于卷积神经网络的表格图片分类器；

（2-3）利用训练集训练表格图片分类器，直至表格图片分类器收敛；

（2-4）通过训练好的表格图片分类器从步骤（1）获得的表格图片中识别目标表格图片；

（3）从所述的目标表格图片中提取文字信息，包括：

（3-1）识别目标表格图片中的表格单元格，并记录表格单元格的坐标位置，包括：

（3-1a）采用基于LSD的直线检测分割算法，识别、分割目标表格图片中的直线，得到若干直线段，并记录各个直线段的端点坐标；

（3-1b）求取直线段的交点，方法为：若直线段A的端点a与直线段B的端点b之间的距离小于预设阈值，则认为直线段A与直线段B之间存在交点；求取端点a与端点b的坐标平均值，并将坐标平均值作为直线段A与直线段B的交点；

（3-1c）若直线段A与直线段B相交于一点且直线段A与直线段B垂直，则根据直线段A与直线段B，确定包含直线段A与直线段B的表格单元格的坐标位置；

（3-2）对表格单元格中的图像进行字符切割，得到包含单个字符的字符图片，包括：

（3-2a）对表格单元格中的图像进行水平方向上的投影并进行切割，得到若干字符行；

（3-2b）对所述字符行进行垂直方向上的投影并进行切割，得到包含单个字符的字符图片；

（3-3）构建并训练基于卷积神经网络的文字分类器，通过文字分类器对所述字符图片进行识别，输出相应文字；构建并训练字体分类器，包括：

（3-3a）收集相应字体的文字图片并进行标注，构建文字分类训练集；

（3-3b）构建基于卷积神经网络的文字分类器；

（3-3c）采用文字分类训练集训练文字分类器，直至文字分类器收敛。

2.根据权利要求1所述的环境影响评估报告书表格文字的提取方法，其特征在于，步骤（3-3）中，所述的文字分类器为长短期记忆网络。

3.一种环境影响评估报告书表格文字的提取系统，其特征在于，包括：

文字提取模块，从所述的目标表格图片中提取文字信息；

所述的提取系统根据权利要求1或2所述的提取方法从环境影响评估报告书中提取表格文字。