CN117671708A - 一种电力设备检测报告扫描件的表格提取方法及装置 - Google Patents

一种电力设备检测报告扫描件的表格提取方法及装置 Download PDF

Info

Publication number
CN117671708A
CN117671708A CN202311565532.5A CN202311565532A CN117671708A CN 117671708 A CN117671708 A CN 117671708A CN 202311565532 A CN202311565532 A CN 202311565532A CN 117671708 A CN117671708 A CN 117671708A
Authority
CN
China
Prior art keywords
power equipment
detection report
equipment detection
page
scanning piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311565532.5A
Other languages
English (en)
Inventor
李智
邹建明
熊卫红
曾垂辉
顾德文
金硕
张晓星
周宇
陈珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Central China Grid Co Ltd
Original Assignee
Hubei University of Technology
Central China Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology, Central China Grid Co Ltd filed Critical Hubei University of Technology
Priority to CN202311565532.5A priority Critical patent/CN117671708A/zh
Publication of CN117671708A publication Critical patent/CN117671708A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种电力设备检测报告扫描件的表格提取方法及装置,该方法包括:使用第一矩形结构元素和第二矩形结构元素,分别对电力设备检测报告扫描件的每一页面对应的二值图像进行横向腐蚀膨胀和纵向腐蚀膨胀,得到所述电力设备检测报告扫描件的每一页面对应的表格结构;对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,所述信息数组用于表示单元格的位置、尺寸和页面序号;在表格文档中构造所述电力设备检测报告扫描件对应的表格。本发明实现了电力设备非结构化数据的提取,提高了电力系统数据处理的效率。

Description

一种电力设备检测报告扫描件的表格提取方法及装置
技术领域
本发明涉及电力生产管理技术领域,具体涉及一种电力设备检测报告扫描件的表格提取方法及装置。
背景技术
随着电力系统的发展,电网规模也日益庞大,电力设备的数量也越来越多,积累了大量的检测数据。其中存在着一定数量的非结构化数据(例如图片、扫描件、纸质报告等)。这一类数据难以被计算机直接读取及储存,进而给数据的处理和分析带来了困难。因此,如何此类数据进行提取,将其保存为计算机易读的形式,为后续检测数据的处理提供支撑,成为了亟需解决的问题。
发明内容
有鉴于此,有必要提供一种电力设备检测报告扫描件的表格提取方法及装置,用以解决电力设备非结构化数据难以提取的技术问题。
为了实现上述目的,本发明提供了一种电力设备检测报告扫描件的表格提取方法,包括:
使用第一矩形结构元素和第二矩形结构元素,分别对电力设备检测报告扫描件的每一页面对应的二值图像进行横向腐蚀膨胀和纵向腐蚀膨胀,得到所述电力设备检测报告扫描件的每一页面对应的表格结构;
对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,所述信息数组用于表示单元格的位置、尺寸和页面序号;
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格;
其中,所述第一矩形结构元素的宽度大于所述电力设备检测报告扫描件内非表格结构中横线的最大宽度,且小于所述电力设备检测报告扫描件内表格结构中最短横线的宽度,所述第二矩形结构元素的长度大于所述电力设备检测报告扫描件内非表格结构中竖线的最大高度,且小于所述电力设备检测报告扫描件内表格结构中最短竖线的高度,所述第一矩形结构元素和所述第二矩形结构元素的尺寸单位为像素点。
进一步地,所述对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,包括:
以所述电力设备检测报告扫描件的每一页面的左上角为坐标原点,水平向右为横轴正方向,竖直向下为纵轴正方向,像素点为坐标单位,建立坐标系;
以矩形作为近似轮廓,对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,获取所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格的左上角顶点坐标、宽度和高度,并确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组。
进一步地,所述基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格,包括:
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件对应的表格的行列数以及所述电力设备检测报告扫描件对应的表格的行列对应的坐标,并将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置;
基于所述电力设备检测报告扫描件对应的表格的行列对应的坐标,以及所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列;
将所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列在所述表格文档中合并,在所述表格文档中构造所述电力设备检测报告扫描件对应的表格。
进一步地,所述基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件对应的表格的行列数以及所述电力设备检测报告扫描件对应的表格的行列对应的坐标,并将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置,包括:
从所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组(i,x,y,w,h)中筛选出i值相同但x值不同的数组,以及i值相同但y值不同的数组;
将同一i值下x值不同的信息数组数量作为所述电力设备检测报告扫描件对应的表格第i页的列数,所述电力设备检测报告扫描件对应的表格第i页中每一列的坐标与同一i值下从小到大排列的不同x值一一对应;
将同一i值下y值不同的信息数组数量作为所述电力设备检测报告扫描件对应的表格第i页的行数,所述电力设备检测报告扫描件对应的表格第i页中每一行的坐标与同一i值下从小到大排列的不同y值一一对应;
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组中的x值和y值,将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置;
其中,i表示页面序号,x表示单元格左上角顶点横坐标,y表示单元格左上角顶点纵坐标,w表示单元格的宽度,h表示单元格的高度,i为大于或者等于1的整数。
进一步地,所述电力设备检测报告扫描件对应的表格第i+1页中最小的行索引为所述电力设备检测报告扫描件对应的表格第i页中最大的行索引加1。
进一步地,所述将所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列在所述表格文档中合并,包括:
在所述电力设备检测报告扫描件的每一页面对应的表格结构中任一单元格存在跨页的情况下,若所述任一单元格的信息数组中的y值在同一i+1值下最大,将所述任一单元格与第一单元格合并,若所述任一单元格的信息数组中的y值在同一i+1值下最小,将所述任一单元格与第二单元格合并;
其中,所述第一单元格包括所述电力设备检测报告扫描件对应的表格第i+2页中与所述任一单元格的x值相同且y值最小的单元格,所述第二单元格包括所述电力设备检测报告扫描件对应的表格第i页中与所述任一单元格的x值相同且y值最大的单元格。
进一步地,所述方法还包括:
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,将所述电力设备检测报告扫描件分割为多个单元格切片;
基于光学字符识别确定所述多个单元格切片中每一单元格切片的内容,并将内容为空的单元格切片所对应的单元格确定为跨页单元格。
本发明还提供了一种电力设备检测报告扫描件的表格提取装置,包括:
二值化模块,用于使用第一矩形结构元素和第二矩形结构元素,分别对电力设备检测报告扫描件的每一页面对应的二值图像进行横向腐蚀膨胀和纵向腐蚀膨胀,得到所述电力设备检测报告扫描件的每一页面对应的表格结构;
轮廓检测模块,用于对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,所述信息数组用于表示单元格的位置、尺寸和页面序号;
构造模块,用于基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格;
其中,所述第一矩形结构元素的宽度大于所述电力设备检测报告扫描件内非表格结构中横线的最大宽度,且小于所述电力设备检测报告扫描件内表格结构中最短横线的宽度,所述第二矩形结构元素的长度大于所述电力设备检测报告扫描件内非表格结构中竖线的最大高度,且小于所述电力设备检测报告扫描件内表格结构中最短竖线的高度,所述第一矩形结构元素和所述第二矩形结构元素的尺寸单位为像素点。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如上所述的电力设备检测报告扫描件的表格提取方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的电力设备检测报告扫描件的表格提取方法。
与现有技术相比,本发明的有益效果包括:首先将电力设备检测报告扫描件的所有页面二值化并进行腐蚀膨胀得到表格结构,然后对电力设备检测报告扫描件的所有页面对应的表格结构进行轮廓检测,来获取电力设备检测报告扫描件的所有页面对应的表格结构中所有单元格的信息数组,最后根据电力设备检测报告扫描件的所有页面对应的表格结构中所有单元格的信息数组,来构造电力设备检测报告扫描件对应的表格,从而将电力设备检测报告扫描件转换为计算机能够读取及存储的表格,实现了电力设备非结构化数据的提取,提高了电力系统数据处理的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的电力设备检测报告扫描件的表格提取方法一实施例的流程示意图;
图2为本发明提供的电力设备检测报告扫描件的表格提取及重构方法一实施例的流程示意图;
图3为本发明提供的电力设备检测报告扫描件的表格提取装置一实施例的结构示意图;
图4为本发明提供的电子设备一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。此外,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明的描述中,提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,所描述的实施例可以与其它实施例相结合。
电力系统中存在着一定数量的非结构化数据(例如图片、扫描件、纸质报告等),这些非结构化数据难以被计算机直接读取和储存,进而给数据的处理和分析带来了困难。为了实现这些非结构化数据的读取和储存,本发明提出了一种电力设备检测报告扫描件的表格提取方法,可以此类数据进行提取,将其保存为计算机易读的形式,为后续检测数据的处理提供支撑。
以下分别对具体实施例进行详细说明:
本发明提供了一种电力设备检测报告扫描件的表格提取方法,结合图1来看,图1为本发明提供的电力设备检测报告扫描件的表格提取方法一实施例的流程示意图,包括步骤S101至步骤S103,其中:
在步骤S101中,使用第一矩形结构元素和第二矩形结构元素,分别对电力设备检测报告扫描件的每一页面对应的二值图像进行横向腐蚀膨胀和纵向腐蚀膨胀,得到所述电力设备检测报告扫描件的每一页面对应的表格结构;
在步骤S102中,对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,所述信息数组用于表示单元格的位置、尺寸和页面序号;
在步骤S103中,基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格;
其中,所述第一矩形结构元素的宽度大于所述电力设备检测报告扫描件内非表格结构中横线的最大宽度,且小于所述电力设备检测报告扫描件内表格结构中最短横线的宽度,所述第二矩形结构元素的长度大于所述电力设备检测报告扫描件内非表格结构中竖线的最大高度,且小于所述电力设备检测报告扫描件内表格结构中最短竖线的高度,所述第一矩形结构元素和所述第二矩形结构元素的尺寸单位为像素点。
在本发明实施例中,首先将电力设备检测报告扫描件的所有页面二值化并进行腐蚀膨胀得到表格结构,然后对电力设备检测报告扫描件的所有页面对应的表格结构进行轮廓检测,来获取电力设备检测报告扫描件的所有页面对应的表格结构中所有单元格的信息数组,最后根据电力设备检测报告扫描件的所有页面对应的表格结构中所有单元格的信息数组,来构造电力设备检测报告扫描件对应的表格,从而将电力设备检测报告扫描件转换为计算机能够读取及存储的表格,实现了电力设备非结构化数据的提取,提高了电力系统数据处理的效率。
在本发明一个具体的实施例中,为了应对电力设备检测报告较大的数据量,可以首先遍历电力设备检测报告扫描件的所有页面,然后从第一页开始对电力设备检测报告扫描件的所有页面进行处理。在对电力设备检测报告扫描件的所有页面进行二值化之前,可以先对电力设备检测报告扫描件的所有页面进行灰度化处理,例如可以根据以下公式进行灰度化处理:
然后识别灰度值大于预设阈值的像素点,得到电力设备检测报告扫描件的所有页面对应的二值图像,可以设置一个高度为1个像素点的矩形结构元素进行横向腐蚀膨胀操作以获得表格结构的横线的二值图像,该结构元素的宽度需要大于非表格结构中横线的最大长度(例如某个文字中的横线),而小于表格结构中最短横线的长度,然后可以设置一个宽度为1个像素点的矩形结构元素进行纵向腐蚀膨胀操作以获得表格结构的竖线的二值图像,该结构元素的长度需要大于非表格结构中竖线的最大长度,而小于表格结构中最短竖线的长度,最后将横线的二值图像和竖线的二值图像相加,得到表格结构的二值图像。
在得到电力设备检测报告扫描件的每一页面对应的表格结构之后,可以对这些表格结构进行轮廓检测,得到电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,信息数组可以用于表示单元格的位置、尺寸和页面序号。
最后再根据电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组来构造电力设备检测报告扫描件对应的表格。
作为优选的实施例,所述对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,包括:
以所述电力设备检测报告扫描件的每一页面的左上角为坐标原点,水平向右为横轴正方向,竖直向下为纵轴正方向,像素点为坐标单位,建立坐标系;
以矩形作为近似轮廓,对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,获取所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格的左上角顶点坐标、宽度和高度,并确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组。
在本发明一个具体的实施例中,首先可以以电力设备检测报告扫描件的每一页面的左上角为坐标原点,水平向右为横轴正方向,竖直向下为纵轴正方向,像素点为坐标单位,建立坐标系,然后在对电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测时,可以以矩形作为近似轮廓,获取电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格的左上角顶点坐标、宽度和高度,并确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组。此外,可以根据所有单元格的信息数组对单元格进行分割,得到多个单元格切片,然后可以通过BP神经网络对单元格切片进行去噪,去除图片中由于扫描设备或纸质档污染等原因而导致的非文本像素点。
作为优选的实施例,所述基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格,包括:
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件对应的表格的行列数以及所述电力设备检测报告扫描件对应的表格的行列对应的坐标,并将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置;
基于所述电力设备检测报告扫描件对应的表格的行列对应的坐标,以及所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列;
将所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列在所述表格文档中合并,在所述表格文档中构造所述电力设备检测报告扫描件对应的表格。
在本发明一个具体的实施例中,在确定电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组之后,可以根据这些信息数据确定电力设备检测报告扫描件对应的表格的行列数,以及每一行和每一列在坐标系中对应的坐标,然后根据每个单元格对应的信息数组,可以确定每个单元格在其所在页面中所占的行和列,将每个单元格在其所在页面中所占的行和列合并,可以得到电力设备检测报告扫描件对应的表格。
作为优选的实施例,所述基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件对应的表格的行列数以及所述电力设备检测报告扫描件对应的表格的行列对应的坐标,并将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置,包括:
从所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组(i,x,y,w,h)中筛选出i值相同但x值不同的数组,以及i值相同但y值不同的数组;
将同一i值下x值不同的信息数组数量作为所述电力设备检测报告扫描件对应的表格第i页的列数,所述电力设备检测报告扫描件对应的表格第i页中每一列的坐标与同一i值下从小到大排列的不同x值一一对应;
将同一i值下y值不同的信息数组数量作为所述电力设备检测报告扫描件对应的表格第i页的行数,所述电力设备检测报告扫描件对应的表格第i页中每一行的坐标与同一i值下从小到大排列的不同y值一一对应;
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组中的x值和y值,将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置;
其中,i表示页面序号,x表示单元格左上角顶点横坐标,y表示单元格左上角顶点纵坐标,w表示单元格的宽度,h表示单元格的高度,i为大于或者等于1的整数。
在本发明一个具体的实施例中,可以从所有单元格的信息数组(i,x,y,w,h)中筛选出i值相同但x值不同的数组,以及i值相同但y值不同的数组,然后将同一i值下x值不同的信息数组数量作为电力设备检测报告扫描件对应的表格第i页的列数,并将同一i值下的不同x值从小到大排列,第1个x值对应第一列,第二个x值对应第二列,如此反复。同理,可以将同一i值下y值不同的信息数组数量作为电力设备检测报告扫描件对应的表格第i页的行数,并将同一i值下的不同y值从小到大排列,第1个y值对应第一行,第二个y值对应第二行,如此反复。
作为优选的实施例,所述电力设备检测报告扫描件对应的表格第i+1页中最小的行索引为所述电力设备检测报告扫描件对应的表格第i页中最大的行索引加1。
在本发明一个具体的实施例中,在电力设备检测报告扫描件对应的表格中,不同页面的行索引是连续的,即电力设备检测报告扫描件对应的表格第i+1页中最小的行索引为电力设备检测报告扫描件对应的表格第i页中最大的行索引的值加1。
作为优选的实施例,所述将所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列在所述表格文档中合并,包括:
在所述电力设备检测报告扫描件的每一页面对应的表格结构中任一单元格存在跨页的情况下,若所述任一单元格的信息数组中的y值在同一i+1值下最大,将所述任一单元格与第一单元格合并,若所述任一单元格的信息数组中的y值在同一i+1值下最小,将所述任一单元格与第二单元格合并;
其中,所述第一单元格包括所述电力设备检测报告扫描件对应的表格第i+2页中与所述任一单元格的x值相同且y值最小的单元格,所述第二单元格包括所述电力设备检测报告扫描件对应的表格第i页中与所述任一单元格的x值相同且y值最大的单元格。
在本发明一个具体的实施例中,在某一页面对应的表格结构中的单元格存在跨页的情况时,若跨页单元格的信息数组中的y值在同一i值下最大,则将跨页单元格与该页面的后一页面中与该跨页单元格的x值相同且y值最小的单元格合并,若跨页单元格的信息数组中的y值在同一i值下最小,则将跨页单元格与该页面的前一页面中与该跨页单元格的x值相同且y值最大的单元格合并。
作为优选的实施例,所述方法还包括:
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,将所述电力设备检测报告扫描件分割为多个单元格切片;
基于光学字符识别确定所述多个单元格切片中每一单元格切片的内容,并将内容为空的单元格切片所对应的单元格确定为跨页单元格。
在本发明一个具体的实施例中,可以根据电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,将电力设备检测报告扫描件分割为多个单元格切片,然后通过光学字符识别(Optical Character Recognition,OCR)得到每个单元格切片的内容,在识别时,内容为空的单元格切片所对应的单元格可以识别为跨页单元格。
下面结合一个具体的应用场景,更好地说明本发明技术方案:
结合图2来看,图2为本发明提供的电力设备检测报告扫描件的表格提取及重构方法一实施例的流程示意图,本发明提供的电力设备检测报告扫描件的表格提取方法主要包括表格提取和表格重构两个步骤。
具体地,表格提取包括如下步骤:
1、遍历扫描件表格的所有页。
电力设备检测报告通常数据量庞大,对于同一个表格,往往不止一面,因此在进行处理之前,先遍历扫描件表格的所有页,返回页数i,然后从第1页开始,按页依次进行处理。
2、提取表格结构。
对扫描件进行灰度化,二值化处理,得到扫描件图片的二值图像。设置一个高度为1个像素点的矩形结构元素进行横向腐蚀膨胀操作以获得表格结构的横线的二值图像,该结构元素的宽度需要大于非表格结构中横线的最大长度,而小于表格结构中最短横线的长度,以获得最佳的处理效果。
设置一个宽度为1个像素点的矩形结构元素进行纵向腐蚀膨胀操作以获得表格结构的竖线的二值图像,该结构元素的长度需要大于非表格结构中竖线的最大长度,而小于表格结构中最短竖线的长度,以获得最佳的处理效果。
将横线的二值图像和竖线的二值图像相加,得到表格结构的二值图像。
3、提取表格内容。
以图片的左上角为坐标原点,以水平向右为横轴正方向,竖直向下为纵轴正方向,像素点为单位建立坐标系。
对得到的表格结构的二值图像进行轮廓检测,以矩形作为近似轮廓,提取每一个单元格的左上角顶点的坐标(x,y)及其尺寸(w,h),其中w为单元格的宽度,h为单元格的高度,结合步骤1获取的页数i,构成单元格的信息数组(i,x,y,w,h),将此数组填入空列表中进行保存。
根据单元格的信息数组(i,x,y,w,h)获得单元格4个顶点的坐标(x,y,x+w,y+h),根据4个顶点的坐标对原图进行分割,获得每一个单元格的切片。
使用BP神经网络对单元格的切片进行去噪,以去除图片中由于扫描设备或纸质档污染等原因而导致的非文本像素点。然后使用OCR技术对单元格的切片进行内容识别,若识别结果为空,则该单元格为跨页单元格,其内容在上一页或下一页的单元格。
表格重构包括如下步骤:
1、确定扫描件表格的行列数以及对应坐标。
遍历所有单元格的信息数组(i,x,y,w,h),相同页码i的单元格的信息数组中,相异x值的个数即为该页表格的列数,相异y值的个数即为该页表格的行数。需要说明的是,此处所述的行列数,为表格的最大行列数,即当1个较大的合并单元格附近有多个较小的单元格时,该部分的行列数,是指多个较小的单元格的行列数。如表1所示,其“1号变压器”右侧有“测试点1”、“测试点2”、“测试点3”和“测试点4”4个单元格,此时这一部分存在4个不同的y值,所以在提取表格的行数时,这一部分应该为4行。同时,如表2所示,表2中“4号变压器”的跨页部分内容为空白。
表1
表2
确定单元格行列数后,对相异的y值从小到大进行排序,建立y值与所处行数的对应关系,即最小的对应第1行,/>对应第2行,依此类推;对相异的x值从小到大进行排序,建立x值与所处列数的对应关系,即最小的/>对应第1列,/>对应第2列,依此类推。
对于扫描件的表格中的第1页,其行索引从1开始,从第2页开始,对于扫描件的表格中的第i页,其行索引从第i-1页的最大行数加1开始,而非从1开始。
2、将结果写入excel中。
某一单元格对应的信息数组为,其左上角坐标为,其中/>对应第m列,/>对应第n行,首先根据/>寻找相同的x值对应的列数,然后根据i的值确定行数的范围,在该范围内寻找与/>相同的y值对应的行数,据此确定该单元格在excel中所处的行列数。
3、合并单元格。
根据单元格的信息数组(i,x,y,w,h)得到单元格的四个顶点的坐标(i,x,y,x+w,y+h),x值对应的为第列,x+w值对应第/>列,y值对应的为第/>行,y+h对应第/>行,则该单元格在excel中,待合并的列为/>到/>列,待合并的行为/>到/>行。
对于识别结果为空的跨页单元格,其待合并的行数为到/>,待合并的列数为C到C-1。
若其y值为本页相同x值中最小,其上一页相同x值中,最大y值对应的单元格待合并的行数为到/>,待合并的列数为C到C-1,则将识别结果为空的跨页单元格的待合并行数/>到/>添加到/>到/>,即合并/>到/>行,合并C到C-1列。
若其y值为本页相同x值中最大,其下一页相同x值中,最小y值对应的单元格待合并的行数为到/>,待合并的列数C到C-1,则将识别结果为空的跨页单元格的待合并行数/>到/>添加到/>到/>,即合并/>到/>行,合并C到C-1列。
本发明实施例还提供了一种电力设备检测报告扫描件的表格提取装置,结合图3来看,图3为本发明提供的电力设备检测报告扫描件的表格提取装置一实施例的结构示意图,电力设备检测报告扫描件的表格提取装置300包括:
二值化模块301,用于使用第一矩形结构元素和第二矩形结构元素,分别对电力设备检测报告扫描件的每一页面对应的二值图像进行横向腐蚀膨胀和纵向腐蚀膨胀,得到所述电力设备检测报告扫描件的每一页面对应的表格结构;
轮廓检测模块302,用于对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,所述信息数组用于表示单元格的位置、尺寸和页面序号;
构造模块303,用于基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格;
其中,所述第一矩形结构元素的宽度大于所述电力设备检测报告扫描件内非表格结构中横线的最大宽度,且小于所述电力设备检测报告扫描件内表格结构中最短横线的宽度,所述第二矩形结构元素的长度大于所述电力设备检测报告扫描件内非表格结构中竖线的最大高度,且小于所述电力设备检测报告扫描件内表格结构中最短竖线的高度,所述第一矩形结构元素和所述第二矩形结构元素的尺寸单位为像素点。
电力设备检测报告扫描件的表格提取装置的各个模块的更具体实现方式可以参见对于上述电力设备检测报告扫描件的表格提取方法的描述,且具有与之相似的有益效果,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如上所述的电力设备检测报告扫描件的表格提取方法。
一般来说,用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质,除了临时性地传播中的信号本身。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言,特别是可以使用适于神经网络计算的Python语言和基于TensorFlow、PyTorch等平台框架。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例还提供了一种电子设备,结合图4来看,图4为本发明提供的电子设备一实施例的结构示意图,电子设备400包括处理器401、存储器402及存储在存储器402上并可在处理器401上运行的计算机程序,处理器401执行程序时,实现如上所述的电力设备检测报告扫描件的表格提取方法。
作为优选的实施例,上述电子设备400还包括显示器403,用于显示处理器401执行如上所述的电力设备检测报告扫描件的表格提取方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器402中,并由处理器401执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在电子设备400中的执行过程。例如,计算机程序可以被分割成上述实施例中的二值化模块301、轮廓检测模块302及构造模块303,各模块的具体功能如上所述,在此不一一赘述。
电子设备400可以是带可调摄像头模组的桌上型计算机、笔记本、掌上电脑或智能手机等设备。
其中,处理器401可能是一种集成电路芯片,具有信号的处理能力。上述的处理器401可以是通用处理器,包括中央处理器( CentralProcessingUnit,CPU )、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,存储器402可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。其中,存储器402用于存储程序,所述处理器401在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的方法可以应用于处理器401中,或者由处理器401实现。
其中,显示器403可以是LCD显示屏,也可以是LED显示屏。例如,手机上的显示屏。
可以理解的是,图4所示的结构仅为电子设备400的一种结构示意图,电子设备400还可以包括比图4所示更多或更少的组件。图4中所示的各组件可以采用硬件、软件或其组合实现。
根据本发明上述实施例提供的计算机可读存储介质和电子设备,可以参照根据本发明实现如上所述的电力设备检测报告扫描件的表格提取方法具体描述的内容实现,并具有与如上所述的电力设备检测报告扫描件的表格提取方法类似的有益效果,在此不再赘述。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
本发明公开了一种电力设备检测报告扫描件的表格提取方法及装置,首先将电力设备检测报告扫描件的所有页面二值化并进行腐蚀膨胀得到表格结构,然后对电力设备检测报告扫描件的所有页面对应的表格结构进行轮廓检测,来获取电力设备检测报告扫描件的所有页面对应的表格结构中所有单元格的信息数组,最后根据电力设备检测报告扫描件的所有页面对应的表格结构中所有单元格的信息数组,来构造电力设备检测报告扫描件对应的表格,从而将电力设备检测报告扫描件转换为计算机能够读取及存储的表格,实现了电力设备非结构化数据的提取,提高了电力系统数据处理的效率。
本发明技术方案,提出了将电力设备非结构化数据重构为表格来实现电力设备非结构化数据的提取。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种电力设备检测报告扫描件的表格提取方法,其特征在于,包括:
使用第一矩形结构元素和第二矩形结构元素,分别对电力设备检测报告扫描件的每一页面对应的二值图像进行横向腐蚀膨胀和纵向腐蚀膨胀,得到所述电力设备检测报告扫描件的每一页面对应的表格结构;
对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,所述信息数组用于表示单元格的位置、尺寸和页面序号;
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格;
其中,所述第一矩形结构元素的宽度大于所述电力设备检测报告扫描件内非表格结构中横线的最大宽度,且小于所述电力设备检测报告扫描件内表格结构中最短横线的宽度,所述第二矩形结构元素的长度大于所述电力设备检测报告扫描件内非表格结构中竖线的最大高度,且小于所述电力设备检测报告扫描件内表格结构中最短竖线的高度,所述第一矩形结构元素和所述第二矩形结构元素的尺寸单位为像素点。
2.根据权利要求1所述的电力设备检测报告扫描件的表格提取方法,其特征在于,所述对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,包括:
以所述电力设备检测报告扫描件的每一页面的左上角为坐标原点,水平向右为横轴正方向,竖直向下为纵轴正方向,像素点为坐标单位,建立坐标系;
以矩形作为近似轮廓,对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,获取所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格的左上角顶点坐标、宽度和高度,并确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组。
3.根据权利要求2所述的电力设备检测报告扫描件的表格提取方法,其特征在于,所述基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格,包括:
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件对应的表格的行列数以及所述电力设备检测报告扫描件对应的表格的行列对应的坐标,并将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置;
基于所述电力设备检测报告扫描件对应的表格的行列对应的坐标,以及所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列;
将所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列在所述表格文档中合并,在所述表格文档中构造所述电力设备检测报告扫描件对应的表格。
4.根据权利要求3所述的电力设备检测报告扫描件的表格提取方法,其特征在于,所述基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,确定所述电力设备检测报告扫描件对应的表格的行列数以及所述电力设备检测报告扫描件对应的表格的行列对应的坐标,并将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置,包括:
从所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组(i,x,y,w,h)中筛选出i值相同但x值不同的数组,以及i值相同但y值不同的数组;
将同一i值下x值不同的信息数组数量作为所述电力设备检测报告扫描件对应的表格第i页的列数,所述电力设备检测报告扫描件对应的表格第i页中每一列的坐标与同一i值下从小到大排列的不同x值一一对应,建立单元格所处的列与x值的对应关系;
将同一i值下y值不同的信息数组数量作为所述电力设备检测报告扫描件对应的表格第i页的行数,所述电力设备检测报告扫描件对应的表格第i页中每一行的坐标与同一i值下从小到大排列的不同y值一一对应,建立单元格所处的列与y值的对应关系;
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组中的x值和y值,将所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格对应的光学字符识别结果写入所述表格文档中的对应位置;
其中,i表示页面序号,x表示单元格左上角顶点横坐标,y表示单元格左上角顶点纵坐标,w表示单元格的宽度,h表示单元格的高度,i为大于或者等于1的整数。
5.根据权利要求4所述的电力设备检测报告扫描件的表格提取方法,其特征在于,所述电力设备检测报告扫描件对应的表格第i+1页中最小的行索引为所述电力设备检测报告扫描件对应的表格第i页中最大的行索引加1。
6.根据权利要求4所述的电力设备检测报告扫描件的表格提取方法,其特征在于,所述将所述电力设备检测报告扫描件的每一页面对应的表格结构中每一单元格在所述电力设备检测报告扫描件对应的表格中所包含的行列在所述表格文档中合并,包括:
在所述电力设备检测报告扫描件的每一页面对应的表格结构中任一单元格存在跨页的情况下,若所述任一单元格的信息数组中的y值在同一i+1值下最大,将所述任一单元格与第一单元格合并,若所述任一单元格的信息数组中的y值在同一i+1值下最小,将所述任一单元格与第二单元格合并;
其中,所述第一单元格包括所述电力设备检测报告扫描件对应的表格第i+2页中与所述任一单元格的x值相同且y值最小的单元格,所述第二单元格包括所述电力设备检测报告扫描件对应的表格第i页中与所述任一单元格的x值相同且y值最大的单元格。
7.根据权利要求1至6任一项所述的电力设备检测报告扫描件的表格提取方法,其特征在于,所述方法还包括:
基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,将所述电力设备检测报告扫描件分割为多个单元格切片;
基于光学字符识别确定所述多个单元格切片中每一单元格切片的内容,并将内容为空的单元格切片所对应的单元格确定为跨页单元格。
8.一种电力设备检测报告扫描件的表格提取装置,其特征在于,包括:
二值化模块,用于使用第一矩形结构元素和第二矩形结构元素,分别对电力设备检测报告扫描件的每一页面对应的二值图像进行横向腐蚀膨胀和纵向腐蚀膨胀,得到所述电力设备检测报告扫描件的每一页面对应的表格结构;
轮廓检测模块,用于对所述电力设备检测报告扫描件的每一页面对应的表格结构进行轮廓检测,确定所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,所述信息数组用于表示单元格的位置、尺寸和页面序号;
构造模块,用于基于所述电力设备检测报告扫描件的每一页面对应的表格结构中所有单元格的信息数组,在表格文档中构造所述电力设备检测报告扫描件对应的表格;
其中,所述第一矩形结构元素的宽度大于所述电力设备检测报告扫描件内非表格结构中横线的最大宽度,且小于所述电力设备检测报告扫描件内表格结构中最短横线的宽度,所述第二矩形结构元素的长度大于所述电力设备检测报告扫描件内非表格结构中竖线的最大高度,且小于所述电力设备检测报告扫描件内表格结构中最短竖线的高度,所述第一矩形结构元素和所述第二矩形结构元素的尺寸单位为像素点。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时,实现根据权利要求1至7任一项所述的电力设备检测报告扫描件的表格提取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的电力设备检测报告扫描件的表格提取方法。
CN202311565532.5A 2023-11-22 2023-11-22 一种电力设备检测报告扫描件的表格提取方法及装置 Pending CN117671708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311565532.5A CN117671708A (zh) 2023-11-22 2023-11-22 一种电力设备检测报告扫描件的表格提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311565532.5A CN117671708A (zh) 2023-11-22 2023-11-22 一种电力设备检测报告扫描件的表格提取方法及装置

Publications (1)

Publication Number Publication Date
CN117671708A true CN117671708A (zh) 2024-03-08

Family

ID=90074482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311565532.5A Pending CN117671708A (zh) 2023-11-22 2023-11-22 一种电力设备检测报告扫描件的表格提取方法及装置

Country Status (1)

Country Link
CN (1) CN117671708A (zh)

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US5048099A (en) Polygon-based method for automatic extraction of selected text in a digitized document
US8611662B2 (en) Text detection using multi-layer connected components with histograms
EP0621554B1 (en) Method and apparatus for automatic determination of text line, word and character cell spatial features
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
CN107689070B (zh) 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN112183511A (zh) 一种图像导出表格的方法、系统、存储介质及设备
CN110647885B (zh) 基于图片识别的试卷拆分方法、装置、设备以及介质
CN113850060A (zh) 民航文档数据识别录入方法及系统
CN114121179B (zh) 化学结构式的提取方法及提取装置
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN114495141A (zh) 文档段落位置提取方法、电子设备及存储介质
CN112036294A (zh) 一种纸质表格结构自动识别的方法及装置
CN102915429A (zh) 一种扫描图片匹配方法和装置
CN115019310B (zh) 图文识别方法及设备
CN109145879B (zh) 一种打印字体识别的方法、设备及存储介质
CN117671708A (zh) 一种电力设备检测报告扫描件的表格提取方法及装置
CN116071774A (zh) 表格图像单元格行列信息索引方法、计算机装置及存储介质
CN114529922A (zh) 一种无线框表格图像表格结构识别方法
CN112434700A (zh) 车牌识别方法、装置、设备及存储介质
CN113158999B (zh) 基于模板匹配的电气设计图纸中端子跳线识别方法及装置
CN114064961A (zh) 一种扫描件存档方法及装置
CN116092105B (zh) 表格结构的解析方法和装置
CN113435331B (zh) 图像文字识别方法、系统、电子设备及存储介质
CN111027561B (zh) 数学公式定位方法、系统、可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination