CN114565749A

CN114565749A - 一种电力建设现场签证文档关键内容识别方法及系统

Info

Publication number: CN114565749A
Application number: CN202210155224.4A
Authority: CN
Inventors: 肖斌; 张峥; 陈树藩; 胡健康; 张宇; 王鹏凯
Original assignee: Shanghai Tiexin Geographic Information Co ltd; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai Tiexin Geographic Information Co ltd; State Grid Shanghai Electric Power Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-31

Abstract

本发明涉及一种电力建设现场签证文档关键内容识别方法及系统，其中识别方法包括：获取签证文档，并对文档进行预处理；识别图像中的文档文字、表单填写内容和图章；对识别出的文档文字、表单填写内容和图章进行分类整理，并对表单填写内容进行完整性判断；输出识别结果以及完整性判断结果。与现有技术相比，本发明具有够提高工程文档处理效率和正确率等优点。

Description

一种电力建设现场签证文档关键内容识别方法及系统

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种电力建设现场签证文档关键内容识别方法及系统。

背景技术

一般来说，电力工程建设文档包含的关键要素有表单名称、工程建设项目相关企业称谓、工程名称、工程编号、工程项目关键内容、落款签名印章、签名时间等等，十分复杂。而一页PDF中包含的上述要素通常经过多层审批与叠加，为了确保签名与印章的一致性、合法性，往往需要花费大量人力进行核对校验。显然，这种方法很大程度依赖于工作人员的经验，不够准确也容易出现纰漏，在人力有限的情况下很难平衡审批速度与审批准确性。一旦需要大批量整理工程建设文档时就容易出现各种失误。

为了改进这种通过人力审核整理工程建设文档，就需要将纸质文档电子化，转化为PDF或者图像文件的形式，再通过图像识别、文字识别、印章识别的手段将内容要素整理输出，实现一款图片文档要素识别WEB软件。

处理图像文件中的字符最常见的技术是OCR光学字符识别技术，光学字符识别技术是指利用电子设备(如扫描仪或数码相机等)对印刷在纸上的字符进行检查，通过检测其明暗图案来确定其形状，然后通过字符识别的方法将其转化为计算机字符的过程。它是一种字符打印技术，利用光学的方法将纸质文件中的文本转换成黑白点阵图像文件，并通过识别软件将图像中的文本转换成文本格式，由文字处理软件进行进一步的编辑和处理。通过这项技术，可以将照相机、扫描仪等光学输入仪器所获取的报纸、书籍、手稿等进行形式转换，将其他印刷的图像信息转换成文本信息，由计算机进行识别和处理。

OCR技术是过去国内外较多使用的图片文档转换为文字的方式，对于老旧的纸质文档或文献，通常只能由人工的方式拍摄图片再转化为电子文件，处理方式通常为图像去噪、图像预处理、版面分析，对于拍摄质量较差的文档有较强的适应性，同时这类文档的内容通常也较为多变，从金融行业到重工业，都有着较强的文档电子化管理需求。

深度学习在其中也起着重要的作用，深度学习是一组多层神经网络算法，利用各种机器学习算法来解决图像和文本等各种问题。其核心是特征学习，它将底层特征结合起来，形成更抽象的属性类别或特征的高层表示，从分层网络中获取分层次特征信息，来发现数据的分布式特征表示，从而解决人工特征设计问题。卷积神经网络(CNN)是一种用于深度学习字符识别的神经网络。选择哪种经典网络需要综合考虑，网络训练越深入，最终训练得到的模型就越好，但相应的训练难度会增加，在线部署时预测识别速度会非常慢。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种能够提高工程文档处理效率和正确率的电力建设现场签证文档关键内容识别方法及系统。

本发明的目的可以通过以下技术方案来实现：

一种电力建设现场签证文档关键内容识别方法，所述的识别方法包括：

步骤1：获取签证文档，并对文档进行预处理；

步骤2：识别图像中的文档文字、表单填写内容和图章；

步骤3：对识别出的文档文字、表单填写内容和图章进行分类整理，并对表单填写内容进行完整性判断；

步骤4：输出识别结果以及完整性判断结果。

优选地，所述的步骤1具体为：

判断文档类型，若文档类型为PDF文档，则将PDF文档进行分页处理，将每一页转换为PNG图像格式保存，若文档类型为图片格式，则统一转换为PNG格式保存。

优选地，所述的步骤2具体为：

步骤2-1：利用基于深度学习的OCR模型对文档图片进行文字识别；

步骤2-2：识别表单填写内容；

步骤2-3：识别图章内容。

更加优选地，所述的步骤2-1具体为：

首先，识别出文字区域，通过滑动窗口算法遍历整个图片，对有监督的标记训练样本特征进行判断，找到目标图片进行矩形化后摘取；

其次，对文字区域进行矩形分割，在矩形中做一维滑动窗口移动，判断字符间距，对字符进行划分从而将字符拆分；

然后，根据监督算法对已拆分的字符进行分类预测，不断重复训练，提高模型识别准确率，得到训练好的文字识别模型；

最后，将步骤1处理的图片作为文字识别模型的输入，即可得到对该文档图片识别的结果。

更加优选地，所述的步骤2-2具体为：

首先，对图像进行灰度变换和二值化处理；

其次，进行横向和纵向膨胀和腐蚀操作，获得横线图和纵线图；

再次，将横线图和纵线图经过相加运算获得点图，再将点图浓缩为单个像素点；

从次，对像素点按行遍历，判断这些顶点是否是目标单元格的顶点，全部遍历结束后得到各目标单元格顶点，即可组成矩形框以便分割，完成表格特征的识别和单元格分割；

最后，对文字区域进行聚焦，并对其进行文字识别，识别出表单填写内容。

更加优选地，所述的步骤2-3具体为：

首先，检测圆形边缘，定位圆章中心，并检测圆章半径；

其次，将文字进行转正，将围绕圆心旋转的文字变为水平排列；

再次，利用投影分割将文字分割；

最后，利用CNN网络进行图章文字识别。

优选地，所述的步骤3具体为：

步骤3-1：根据识别出的文档内容中的表头文字确定现场签证文档的类型，并将其进行分类整理；

步骤3-2：分别针对步骤3-1识别出的对应类型的现场签证文档进行表单填写内容完整性识别。

更加优选地，所述的步骤3-1具体为：

现场签证文档类型包括现场签证审批单和设计变更审批单，将识别出的文档内容分类为现场签证审批单和设计变更审批单两类。

更加优选地，所述的步骤3-2具体为：

判断现场签证审批单或设计变更审批单预设的区域内是否填写有文本内容，若对应区域文本内容为空，则判断该表单内容未填写完整，从而实现表单填写完整性的检查判断。

一种用于上述电力建设现场签证文档关键内容识别方法的电力建设现场签证文档关键内容识别系统，所述的识别系统包括：

底层数据库，用于为抓取信息提供存储结构和数据库，同时存储深度学习模型；

人机交互层，用于为用户进行签证文档上传提供交互平台；

解释层，用于对签证文档进行文字识别、表单填写内容识别和图章识别，并将识别内容存入底层数据库；

后处理层，用于对文字信息、图章信息、签名内容和填写内容进行分类整理，并进行填写完整度判断，处理结果通过人机交互层显示。

与现有技术相比，本发明具有以下有益效果：

提高工程文档处理效率和正确率：本发明中的电力建设现场签证文档关键内容识别方法及系统通过深度学习模型进行自动识别的方式，对电力建设现场签证文档的关键内容进行识别，可以识别出文档内容、表单内容以及图章，有效解决了电力建设过程中由于工程变更单数量较多并且内容较繁琐，而导致的人力处理文档遗漏关键要素信息、识别文字和印章内容困难、纸质工程变更单难以电子文档化处理等问题，提高工程文档的处理效率和正确性。

附图说明

图1为本发明中电力建设现场签证文档关键内容识别方法的流程示意图；

图2为本发明中对文档进行预处理的流程示意图；

图3为本发明实施例中文字识别模型的构建过程示意图；

图4为本发明实施例中表单内容识别流程示意图；

图5为本发明实施例中图章识别流程示意图；

图6为本发明中电力建设现场签证文档关键内容识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种电力建设现场签证文档关键内容识别方法，其流程如图1所示，包括：

步骤1：获取签证文档，并对文档进行预处理；

步骤2：识别图像中的文档文字、表单填写内容和图章；

步骤4：输出识别结果以及完整性判断结果。

下面分别对各步骤进行详细描述：

一、步骤1

如图2所示，步骤1具体为：

二、步骤2

步骤2具体为：

步骤2-2：识别表单填写内容；

步骤2-3：识别图章内容。

(1)如图3所示，步骤2-1具体为：

利用基于深度学习的OCR算法对文档图片进行文字识别。文字识别实际上是一个多分类任务。搭建深度学习神经网络，将样本文件添加到训练队列中喂给网络训练，完成充足的训练量后，对模型进行识别准确率评估，并最终将训练得到的识别模型应用于实际场景中的文档图像文字识别实验检测。

模型的具体流程为：

(2)如图4所示，步骤2-2具体为：

首先，对图像进行灰度变换和二值化处理；

色彩信息对表单识别毫无益处，防止这类信息对表单特征的干扰，先进行灰度转换处理，图像的灰度被划分为L＝256个级别，即8位灰度级。彩色图到灰度图的转换遵循如下的公式：

Gray＝0.212671*R+0.715160*G+0.072169*B

图像二值化是将图像上的像素点的灰度值设置为0或255，即将整个图像黑白化，通过二值化，图像的轮廓进一步凸显，表格的框线也将更加清晰，图像二值化处理采用全局阈值化方法，为整个图像设置一个阈值，当图像灰度值大于这个阈值时则设置为白点，反之为黑点，计算公式如下：

膨胀以获取局部最大值，方法为定义一个任意形状和大小的卷积核，且拥有一个单独定义出来的参考点，即描点。通常该卷积核为带参考点的正方形或者圆盘，该核称为模板或掩膜。将卷积核与图像进行卷积，计算卷积核覆盖区域的像素点最大值，将这个最大值赋值给参考点指定的像素。通过膨胀操作后，图像中的高亮区域得到增长。腐蚀与膨胀操作相反，同样定义一个类似的卷积核，与图像进行卷积操作，计算卷积核覆盖区域的像素点最小值，将这个最小值赋值给参考点指定的像素，使得高亮区域逐渐减小。通过膨胀和腐蚀操作，消除噪声，寻找到图像中明显的极大值区或极小值区，最终得到表格的横线图和竖线图。

最后，对文字区域进行聚焦，并对其进行文字识别，识别出表单填写内容；

因为截取出的单元格大小长宽不一定完全相同，不利于后续的文字内容识别，因此还需要将识别重点聚焦的文字区域，即将单元格内的文字区域单独截出，忽略空白部分。聚焦操作为对单元格内的像素点按行、列分别求和。由于经过二值化的点白色像素点值为一，黑色像素点值为0，因此若每行相加的和等于单元格宽度，那么该行只有白色像素点，即为空白区域，若每行相加的和小于单元格宽度，说明黑白相间，为文字区域，由此截取出文字区域。

(3)如图5所示，步骤2-3具体为：

首先，检测圆形边缘，定位圆章中心，并检测圆章半径；

利用霍夫变换来检测圆形，分为检测圆心和检测半径两个部分。检测圆心具体方法为，对输入图像边缘检测，计算图形的梯度，并确定圆周线，其中圆周的梯度就是法线；在二维霍夫空间内，绘出所有图形的梯度直线，某坐标点上累加和的值越大，说明在该点上直线相交的次数越多，也就是越有可能是圆心；在霍夫空间的4邻域内进行非最大值抑制；设定一个阈值，霍夫空间内累加和大于该阈值的点就对应于圆形。

检测半径的具体方法为：计算某一个圆心到所有圆周线的距离，这些距离中就有该圆心所对应的圆的半径的值，这些半径值都是相等的，并且这些圆半径的数量远远大于其他距离值相等的数量；设定两个阈值，定义为最大半径和最小半径，保留距离在这两个半径间的值，着意味着我们检测的圆不能太大，也不能太小；对保留下来的距离进行排序，找到距离相同的值，计算相同值的数量；设定一个阈值，只有相同值的数量大于该阈值，才认为该值是该圆心对应的圆半径，对所有的圆心都做上述处理，就能得到各自对应的圆半径。

完成圆的定位后，将直角坐标系转换为极坐标系，将文字转正，接着进行投影分割，切割文字。投影分割首先要进行横向扫描，切出每一行，再进行纵向分割，得出每个字。横向扫描即为从左到右遍历，得出一行黑色像素的数量，描出横向切割统计图，x轴即为行数，y轴为黑色像素点数，y为0处即为两文字行间的空白区域，不为0处为文字区域。

再次，提取处文字行后，进行纵向扫描，得出纵向扫描统计图，同理，y不为0处为文字区域，即完成每一个字的分割；

最后，将分割后的文字送入训练好的CNN网络进行识别，最终得到识别后的图章。

三、步骤3

步骤3-2：分别针对步骤3-1识别出的对应类型的现场签证文档进行表单填写内容完整性识别，具体为：

本实施例还涉及一种电力建设现场签证文档关键内容识别系统，其结构如图6所示，包括：

人机交互层，用于为用户进行签证文档上传提供交互平台；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的识别方法包括：

步骤1：获取签证文档，并对文档进行预处理；

步骤2：识别图像中的文档文字、表单填写内容和图章；

步骤4：输出识别结果以及完整性判断结果。

2.根据权利要求1所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤1具体为：

3.根据权利要求1所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤2具体为：

步骤2-2：识别表单填写内容；

步骤2-3：识别图章内容。

4.根据权利要求3所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤2-1具体为：

5.根据权利要求3所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤2-2具体为：

首先，对图像进行灰度变换和二值化处理；

6.根据权利要求3所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤2-3具体为：

首先，检测圆形边缘，定位圆章中心，并检测圆章半径；

再次，利用投影分割将文字分割；

最后，利用CNN网络进行图章文字识别。

7.根据权利要求1所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤3具体为：

8.根据权利要求7所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤3-1具体为：

9.根据权利要求7所述的一种电力建设现场签证文档关键内容识别方法，其特征在于，所述的步骤3-2具体为：

10.一种用于如权利要求1所述电力建设现场签证文档关键内容识别方法的电力建设现场签证文档关键内容识别系统，其特征在于，所述的识别系统包括：

人机交互层，用于为用户进行签证文档上传提供交互平台；