CN110309746A

CN110309746A - 无通信互联的高等级信息安全区表格数据信息提取方法

Info

Publication number: CN110309746A
Application number: CN201910542921.3A
Authority: CN
Inventors: 梁凯; 贺欢; 焦振; 杨东升; 周博文; 王大千; 张效语; 张化光; 刘鑫蕊; 罗艳红; 孙振奥; 梁雪; 刘振伟; 王智良
Original assignee: State Grid Corp of China SGCC; Northeastern University China; State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Northeastern University China; State Grid Liaoning Electric Power Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-10-08

Abstract

本发明公开一种无通信互联的高等级信息安全区表格数据信息提取方法，包括以下步骤：1)将目标表格从图片中提取出后，对图片映射校正；2)定位表格线的位置坐标，根据坐标间的区域提取目标单元格；3)将目标单元格内的文字依投影法分割成单个字符图片后，接入OCR模块中识别图片；4)将识别后的数据从建成表格显示出来。本发明增加了表格的识别率，能够在一定外部扰动的情况下，将表格中的单元格提取出来并分割，扩展了表格信息提取的适用范围，将受限的内网数据安全实时的导入外网中。

Description

无通信互联的高等级信息安全区表格数据信息提取方法

技术领域

本发明涉及一种高等级信息安全实时交互领域表格数据处理技术，具体为一种无通信互联的高等级信息安全区表格数据信息提取方法。

背景技术

在电网、气象局等保密等级较高的部门，数据只能在本地高保密等级的内网中进行传输。而且出于系统与数据的安全考虑，通常本地高等级信息安全区(内网)与低等级信息安全区(外网)之间存在通信隔离，二者之间无法进行数据信息的实时通信，这样不利于高校或科研机构等第三方机构实时读取相关数据提供辅助服务或第三方咨询服务。因此急需一种安全的网络隔离技术来实现内外网数据的实时交互。

目前，常用的网络隔离技术大体分为一般隔离技术和网闸隔离技术，这两种传统隔离方法在实现网络隔离和数据信息安全交换方面存在不足。与无通信互联的隔离技术相比，由于二者不是完全的信道无耦合，内外网之间存在一定的物理连接，只不过是对连接方式做出了限制。这样使得数据的交互存在一定的限制的同时，也存在着一定的风险。

为了在获取实时数据的同时避免直接通信带来的数据安全问题，采用无通信互联的图片识别技术，将要获取的数据以普通的表格形式表现在内网终端的显示屏幕上，由外网终端进行图像获取及识别。同时，由于所需数据实时变化，需根据实际情况设定图片采样间隔，将识别后的数据按时间保存下来，形成实时更新的数据集。依此法采集到的数据信息可以自动快速更新，减少人工采集工作负担或传统网络隔离下数据交互中存在的风险。

表格处理后的图片识别属于计算机视觉的分支OCR领域，OCR(Optical CharacterRecognition，光学字符识别)利用光学技术以及计算机技术将图片中的光学字符符号读取出来，将图片信息转化成电脑是别的字符信息。OCR的概念起源于1929年由德国科学家Tausheck最先提出来的，随后60年代初期出现第一代OCR产品开始，经过半个世纪的不断发展和改进，包括手写体的各种OCR技术的研究取得了令人瞩目的成果。

但由于表格资料本身的复杂性与结构性，现有方法不能像一般的图像文字识别那样将文字分割后，形成单个文字的小图片。同时，由于表格自身的分割线与目标图像自身的特点或外界因素，如因拍摄角度不正造成表格扭曲等因素，导致计算机通常无法准确识别表格轮廓，提取单元格图片存在困难。因此如何为图像表格信息提取提供一个适用范围广阔的方案成为亟待解决的问题。

发明内容

针对现有技术中计算机通常无法准确识别表格轮廓，提取单元格图片困难等不足，本发明要解决的问题是提供一种能够保证在高等级信息安全区信息安全的前提下提高对应表格数据信息的识别准确性的无通信互联的高等级信息安全区表格数据信息提取方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种无通信互联的高等级信息安全区表格数据信息提取方法，包括以下步骤：

1)将目标表格从图片中提取出后，对图片映射校正；

2)定位表格线的位置坐标，根据坐标间的区域提取目标单元格；

3)将目标单元格内的文字依投影法分割成单个字符图片后，接入OCR模块中识别图片；

4)将识别后的数据从建成表格显示出来。

步骤1)中将目标表格从图片中提取出后，对图片映射校正，包括以下步骤：

101)打开摄像头，从摄像头中读取图片；

102)对读取到的原始图片灰度化，将灰度图高斯模糊处理，设定阈值将灰度图转换成黑白图；

103)将二值化的黑白图像膨胀处理，内积核大小设为m×n，丰富表格边框信息，使表格白色边框在图片黑色背景中更加明显；

104)检测表格图片轮廓，并对轮廓图使用openCV图像处理工具中的findcontours函数检测出图片中所有的轮廓，将轮廓点集放入contours中；

105)将提取到的轮廓使用sorted升序排序，排序依据为轮廓面积contourArea，依目标表格图片的特征，表格轮廓面积最大，依次将表格轮廓点集提取出来；

106)将表格轮廓点按精度逼近成四边形，提取四边形轮廓的四个顶点；

107)计算顶点坐标，根据坐标的位置特性将坐标分成左上点、左下点、右上点、右下点，同时根据四个点之间线段长度求出矩形的平均长宽数据；

108)使用openCV中命令将扭曲的表格轮廓四点坐标与正规矩形四顶点坐标一一对应，将原始图片中的表格按轮廓映射到设定的矩形大小。

步骤2)中，定位表格线的位置坐标，根据坐标间的区域提取目标单元格，包括以下步骤：

201)利用openCV自带的HoughLines检测图片中的直线对检测的线段过滤，确保检测到的线段都是表格的分割线；

202)对检测到的表格线进行分类，首先依据横竖坐标之差，将其分成水平线和竖直线两大类直线，并设定横竖线坐标点空集；

203)对两大类直线依据间隔分成不同位置的表格线；将竖线的横坐标与竖线坐标中的每个元素对比，在一定误差范围内的坐标认为是同一根线，依次循环将竖线分成不同坐标点集；同理对横线进行同样处理；将分类后的横竖线坐标点集按数字大小排序，得出对应线段的标号；

204)依据分好的表格线位置划分单元格，用4个坐标来确定一个矩形单元格的区间。

步骤3)中，将目标单元格内的文字依投影法分割成单个字符图片后，接入OCR模块中识别图片,包括以下步骤：

301)采用拆分通道的方式，将彩色数据图片拆成蓝、绿、红三通道的灰度图处理，提取亮度最暗的通道灰度图，设定一个阈值，转化成黑白图片处理；

302)水平投影，记录单元格图片每行像素点中为255的白色点的个数，形成一维数组；

303)水平分割，将记录下来的一维数组中从黑色到白色像素的点记录下来，为起始点，从白色到黑色像素的点记录为终止点，两点坐标之间的区域为字符区域；

304)重复步骤302)和303)，对分割后的图片竖直投影并分割成多张，保存多个字符图片起始和终止点对。

本发明具有以下有益效果及优点：

1.本发明方法能够保证在高等级信息安全区信息安全的前提下，快速准确的提取出图片中的表格，确定表格分割线位置，提高对应表格数据信息的识别准确性；拍摄后的光学图片通过自动提取带有感兴趣区域的目标表格，将表格映射成规整的矩形，从中提取表格线坐标，根据坐标间区域提取对应单元格，将数据图片依次水平竖直投影分割，提取单字符图片，从中提取光学字符的信息；本发明克服实际提取过程中出现的问题，增加图文识别并提取的适用范围。

2.本发明增加了表格的识别率，能够在一定外部扰动的情况下，将表格中的单元格提取出来并分割，扩展了表格信息提取的适用范围，将受限的内网数据安全实时的导入外网中。

附图说明

图1为本发明方法流程图；

图2为本发明中的优选实施过程的详细流程示意图；

图3为本发明中的实例原始图像；

图4为本发明中提取表格后确定的图像分割坐标；

图5为本发明中提取到的需要识别的数字字符图片；

图6为本发明中字符分割后的字符图片。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

如图1所示，本发明一种无通信互联的高等级信息安全区表格数据信息提取方法，包括以下步骤：

1)将目标表格从图片中提取出后，对图片映射校正；

4)将识别后的数据从建成表格显示出来。

101)打开摄像头，从摄像头中读取图片；由于要获得连续的时序数据，所以设定延时。

102)对读取到的原始图片灰度化，将灰度图高斯模糊处理，设定阈值将灰度图转换成黑白图；无论是接下来对图片的处理与检测，计算机只能识别并处理黑白图。因此对原始图片转化成黑白图时应不断调整参数，确保图片信息最完整地保留下来。

103)将二值化的黑白图像膨胀处理，内积核大小设为m×n，通过加粗边框线丰富表格边框信息，使表格白色边框在图片黑色背景中更加明显；本实施例将内积核大小设为3*3，适当即可。

106)将表格轮廓点按精度逼近成四边形，提取四边形轮廓的四个顶点；从步骤5)得到的表格轮廓点集是由许多点组成的，表格依旧不能直接提取，因此将表格轮廓点按精度逼近成四边形，此时可以提取四边形轮廓的四个顶点。

107)计算顶点坐标，根据坐标的位置特性将坐标分成左上点、左下点、右上点、右下点，同时根据四个点之间线段长度求出矩形的平均长宽数据；求出矩形的平均长宽数据是为映射做准备。

在本发明中从整体表格中提取目标单元格图片的方法，因为实例的表格图片中表格线粗细明暗变化不一，无法做到一根线段对应检测到唯一位置。因此设定了线段的过滤与分类，最后依据分类的线段坐标分割单元格。

所述步骤2)，定位表格线的位置坐标，根据坐标间的区域提取目标单元格，包括以下步骤：

201)利用openCV自带的HoughLines检测图片中的直线对检测的线段过滤，确保检测到的线段都是表格的分割线；在保证单元格内字符不会被误测的同时，不遗落每一根表格分割线。

203)对两大类直线依据间隔分成不同位置的表格线；将竖线的横坐标与竖线坐标中的每个元素对比，在一定误差范围内的坐标认为是同一根线，依次循环将竖线分成不同坐标点集；同理对横线进行同样处理；将分类后的横竖线坐标点集按数字大小排序，得出对应线段的标号；只有与所有元素都有一定误差的坐标，才能认为是新的线段位置坐标。

204)依据分好的表格线位置划分单元格，用4个坐标来确定一个矩形单元格的区间。因为单元格为矩形，所以用4个坐标来确定一个单元格的区间；而要提取对应的单元格，只需知道其对应的四条表格线的编号即可自动提取。

在本实施例中，将单元格内数字图片(如图5所示)分割成单个字符图片(如图6所示)，需要进行字符分割。本发明使用的字符分割方法为投影法，也可以细分成纵向投影和水平投影。对于一般情况下，摄像机拍摄到的图片因外部光线变化对图片分割带来不利影响，本发明也提出了处理解决方案，见步骤3

301)采用拆分通道的方式，将彩色数据图片拆成蓝、绿、红三通道的灰度图处理，提取红色通道灰度图，设定一个适当的阈值(亮度最暗的)，转化成黑白图片处理；

根据实际情况，将字符图片二值化生成黑白图，若原始图片因光线原因，而字符间隔无法显现，将对分割造成影响。因此采用通道拆分方法，从原图片中提取亮度最暗的通道(对比度最小的通道)，作为灰度图二值化操作。保证字符信息的完整的同时没有多余的白色像素点。

本实施例中，由于字符颜色为绿色，所以红色通道的阈值因尽量的小又不能过小，保证图片信息保留的情况下，同时还能过滤干扰像素，不会出现因光线问题，出现字符外的白色像素点，对图片分割造成影象。

正常的对图片二值化在保证字符分开的情况下，会丢失原始图片一部分信息，特别是字符串中的小数点)，因此本发明采用拆分通道的方式，将彩色数据图片拆成蓝绿红3通道的灰度图处理，因为本发明的实例中没有红色字符，因此提取红色通道灰度图，设定一个适当的阈值，转化成黑白图片处理。

分割，最后对分个好的图片OCR识别，并将识别后的数据填入新的信息表格。为使本发明的上述目的、特征和优点能够更明显易懂。下面以实验为实例，并配合所附图片作详细说明。

步骤1)首先了解表格的信息结构，确定需要是别的表格数据类型与单元格位子信息，根据这些具体信息设计表格提取方法。接着打开摄像头，使用摄像头拍摄图片，将拍摄盗的图片处理成黑白图，提取表格轮廓，根据轮廓确定顶点并对表格图片映射到矩形图片上,具体步骤为：

步骤101)想要识别图片，就先要从摄像头中读取拍摄到的图片。因相机默认图片像素的关系，需要将图片调整到适当大小后才能处理。

步骤102)因为要获得连续的时序数据集，所以要不断采集数据。因此要对拍摄作延时处理，设定延时参数time_sleep，使用while循环拍摄图片，在每次拍摄图片之前开始计时为time_start，在循环结束时开始延时，延时时间为：

time_start+time_sleep*i–time_now

其中：i为循环次数；time_now为执行本次延时操作的时间。

步骤103)对读入的图片转换成灰度图并模糊处理、二值化等操作。如图3所示，图片表格为黑底白线，所以二值化中阈值可以适当调低，确保表格线信息尽可能的完整。而光学显示和拍摄管线角度的原因，二值化的图片中表格线的信息可能会有缺失，所以使用膨胀操作，将白色表格线的信息突显出来。这里卷积核的大小应偏小，避免表格内字符与表格线连接在一起。

步骤104)搜索表格中字符与表格的轮廓，并对轮廓使用openCV中的图像处理工具findcontours函数检测出图片中的所有轮廓，将轮廓的点集放入对应的点类中。对提取出来的轮廓按照轮廓面积的大小排序，通过实例图片可知表格的外轮廓面积最大，因此依据面积最大标准提取图片就可以自动识别出表格的轮廓。

步骤105)然而图片中的表格扭曲，不是正规的矩形，无论是单元格的提取还是字符的切割与识别都将会十分困难。因此接下来就必须将提取到的表格映射到正规矩形图片。先将多边形的表格轮廓逼近成四边形，得到近似轮廓的四个顶点。为了将表格图片映射到矩形图片，需要近似轮廓的四角顶点与新矩形图片的4个顶点一一对应(左上点对左上点)。这里使用如下方法提取对应点：

首先将得到的4个顶点的坐标(x_i，y_i)放到4*2的数组中，接着沿着横轴求和，也就是求z_i＝x_i+y_i。由表格特性可知表格左上角顶点的坐标对应的z_i最小，而右下角顶点对应的z_i最大。同样为了区分另外两个顶点，这里同样是沿着横轴作差，也就是求w_i＝x_i-y_i。由表格特性可知表格左下角顶点的坐标对应的w_i值最小，而右上角顶点对应的w_i值最大。让提取出的表格顶点与映射后矩形的顶点一一对应后，使用openCV命令将表格映射到设定好大小矩形图片上，如图4所示。

步骤2)将原始图片，与二值化的后的图片都提取表格并映射。这些操作后的图片可以默认看成横平竖直，单元格内字符都在一条水平线上。这样就可以提取单元格内的图片了。因为图片自身的表格线明暗程度不同，还有单元格内字符的影响。本发明的检测可适当放宽对最大间断点个数参数的设定，但是要限制最小线段长度参数。这样可以保证每一根表格线都可以被检测到，而单元格内的字符不会被错误的判定为直线，具体步骤如图2所示：

步骤201)这里对提取表格后的黑白图片使用openCV自带的HoughLines()直线检测工具，将检测到的直线2个端点坐标放到数组lines中，分别为(x₁，y₁)，(x₂，y₂)，两点之间的连线就是检测到直线。

步骤202)设定两个空的集合，分别为横坐标点集H[]和竖坐标点集V[]。一根线只记录一个对应的位置坐标。

步骤203)因为检测的原因，一根表格线可能被识别成若干根线段叠加起来，所以设定了表格线的二分类方法。对比abs(x₁–x₂)与阈值e₁的大小，小于e₁的直线是竖直线，剩余的直线也可以对比abs(y₁–y₂)与阈值e₂的大小，小于e₂的直线是横直线。这样可以将来通过调整两个阈值的参数来将所有线段分成横竖两类线段。

步骤204)接着将横线集和竖线集中的直线按照位置分类，每个位置上的直线只能由一根直线的横坐标或纵坐标表示，具体方法如下：

从横线集中提取出一根表格横线，提取线段的纵坐标放入横线坐标空集H[]中；

再提取一根其他横线的纵坐标与集合中的坐标元素依次作差求abs(y₁–H[i])与阈值e3对比；

如果小于等于阈值e3，则该直线为已经标记过的坐标，舍去，重复上一步操作提取另一根横线，对其纵坐标与集合H[]内元素作差求距离，再与阈值e3对比；

反之，如果大于阈值e3，则接着与集合H[]中其他坐标值作差对比，如果与集合H[]中所有的值对比后都没有被舍去，则证明这个坐标是一个新的表格线的定位，将其添加到集合H[]中；

遍历所有的横线集中的直线依次做如上操作，将所有横线集中直线按位置分类完成循环；

依据表格图片的像素和表格线间距设定阈值的大小，确每个位置上的横线都被标记上；

竖线集中直线也依此分类，只不过是提取竖线集中竖线的横坐标作差和阈值对比，并将竖线的横坐标保存在集合V[]中。

在本试验的表格中，共有30条直线，其中8条竖线和22条横线。

步骤205)最后将横竖坐标点集a和b中的坐标按数值从小到大排序，这样就可以给每根表格线标上编号。例如，第一根横线，竖线和最后一根横线，竖线组成了整个表格的外轮廓。因此知道表格的结构和所提取的目标单元格区域就可以提取出对应单元格的图片了，这样就可以自动完成表格图片的分割提取了。

步骤3)将目标单元格的图片提取后，接下来要切割图片内的字符图片。本发明依据投影法分割字符串图片。首先将提取后的单元格图片二值化处理。接下来对图片按照水平投影，竖直投影的顺序将实例中的字符串切割成单字符图片，再将最终处理过的图片接入OCR中识别图片字符信息，具体步骤为：

步骤301)将提取后的单元格图片处理成黑白图，因为字符为彩色，所以这里不再与处理表格线那样直接将彩色图转化成灰度图。本发明的实例中实验得出将彩色图片通道拆分后，将红色通道的灰度图片直接二值化，可以在保留原始图片信息的前提下，将字符间隔体现出来。

步骤302)水平投影，将二维图片信息映射到一位数据向量上。遍历每个像素点，统计每行白色像素点个数，以数组形式记录下来。

步骤303)要将图片依据投影后的一串数组分割，就要确定一个阈值。小于阈值的点认为是间断点。因为单元格图片内字符信息为单行数据，所以对于实例中的水平分割只需记录一个起始点和一个终止点。起始点是由黑色像素行进入韩白色像素的行，终止点则反之。将两点之间的像素行提取出来就完成了水平分割，目的是去除多余的黑色背景，提高字符识别的准确率。

步骤304)将提取后的字符串图片分割成单字符图片，也就是竖直投影与分割。原理上与步骤302)和步骤303)一致，细节上有所不同。同样是遍历每个像素点，记录每列白色像素点个数，以数组形式记录。这里将要分割的图片数量不确定，但是有一个上限，因此设置上限为10，创建一个10*2维的空集，用来保留要分割的图片的起始位置与终止位置坐标。

步骤305)依据如上方法将整个单元格内的图片切分出来，并适当调整图片大小(OCR图片识别支持的最佳尺寸大小为300dpi，过大或过小都会导致识别率下降)。将切割好的单字符图片依次接入OCR模块中，再将识别后的输出依据单元格拼接起来。拼接后的输出格式为字符型，因此还要将其转化成浮点型小数对应的数据。这里如果对OCR识别的准确率不满意的话，可以使用jTessBoxEditorFX进行数据校正。

步骤4)每一个单元格的内的图片识别后，根据原始表格与要是别的表格结构重新生成表格，将是别的图片内容填充到新的表格对应位置。

能够保证在高等级信息安全区信息安全的前提下，提高对应表格数据信息的识别准确性。拍摄后的光学图片通过自动提取带有感兴趣区域的目标表格，将表格映射成规整的矩形，从中提取表格线坐标，根据坐标间区域提取对应单元格，将数据图片依次水平竖直投影分割，提取单字符图片，从中提取光学字符的信息。本发明克服实际提取过程中出现的问题，增加图文识别并提取的适用范围。

Claims

1.一种无通信互联的高等级信息安全区表格数据信息提取方法，其特征在于包括以下步骤：

1)将目标表格从图片中提取出后，对图片映射校正；

4)将识别后的数据从建成表格显示出来。

2.根据权利要求1所述的无通信互联的高等级信息安全区表格数据信息提取方，其特征在于步骤1)中将目标表格从图片中提取出后，对图片映射校正，包括以下步骤：

101)打开摄像头，从摄像头中读取图片；

3.根据权利要求1所述的无通信互联的高等级信息安全区表格数据信息提取方，其特征在于步骤2)中，定位表格线的位置坐标，根据坐标间的区域提取目标单元格，包括以下步骤：

4.根据权利要求1所述的无通信互联的高等级信息安全区表格数据信息提取方，其特征在于步骤3)中，将目标单元格内的文字依投影法分割成单个字符图片后，接入OCR模块中识别图片,包括以下步骤：