CN112949471A

CN112949471A - 基于国产cpu的电子公文识别复现方法及系统

Info

Publication number: CN112949471A
Application number: CN202110221508.4A
Authority: CN
Inventors: 李杨; 段京峰
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-02-27
Filing date: 2021-02-27
Publication date: 2021-06-11

Abstract

本发明公开了一种基于国产CPU的电子公文识别复现方法及系统，本发明的方法包括S1、获取纸质公文的图片格式文件；S2、提取图片内的文字区域，并对其进行预处理；S3、对处理后的内容区域进行元素识别，并进一步进行文字识别；S4、获取识别数据，并解析识别数据；S5、将识别数据在可编辑状态下以电子公文的形式进行展现；S6、对电子公文进行保存和存储。本发明的系统包括包括图片获取模块、图片预处理模块、公文识别模块和人机交互模块。本发明参照相关公文格式的规范，对纸质公文进行内容识别，并以电子公文的方式对纸质公文的内容进行复现，不仅便于保存和日后查看，还降低了计算复杂度，提升处理效率和准确度。

Description

基于国产CPU的电子公文识别复现方法及系统

技术领域

本发明涉及OCR文字识别技术，具体地说是一种基于国产CPU的电子公文识别复现方法及系统。

背景技术

电子公文是指以数字形式存储于磁盘、光盘等存储介质中，依赖计算机系统阅读、处理并可在通信网络上传输的数字化公文，而用于管理这些电子公文的系统为电子公文处理系统，用于电子公文的生命周期的管理以及其他处理事项。

在当前电子政务业务范围内，公文的传输方式有多种。除公开发布形式，包括登报广播、网站发布或张贴之外。逐级、多级或越级的行文发送，受限于信息化基础和保密需要等原因，很多场景中依旧存在纸质公文形式，并在相当长一段时期电子公文和纸质公文并存。这种纸质公文和电子公文及电子公文处理系统长期并存、优势互补综合利用的现实情况下，在公文处理的收文办理环节，收文登记业务作为一个单位收文办理的第一环节，承受了巨大的工作压力和负担。

收文登记是对收进文件及其运转处理的数据进行完整登录的一项工作，通常要求是快速、准确的将来文录入到信息化系统中，然后进行下一步的批示和具体办理的流程流转。针对纸质公文，目前常见的录入方式为人工誊抄公文标题、字号等基本信息，然后将纸质件进行扫描，作为附件发送，进行流转办理。这种方式的缺点是，扫描图片不便于阅读和再次打印分阅。并且在当前档案管理工作的需求角度出发，这类扫描图片形式的数据，不便于归档管理，尤其对正文内容的查询和再次利用。这种情况下，解决方法是在收文登记环节，就把纸质公文转换为计算机可阅读，符合电子公文元数据标准的文件。人工抄写打字输入是一种原始的手段，速度慢出错率高。为提高效率，可以通过OCR文字识别技术，用以辅助扫描图、拍摄图的文字识别，提取图片中的文字，辅助进行文本的输入。

当前市场中，尤其国产操作系统范围内，Linux中的OCR软件通常只提供提取图片文字内容，提供TXT等文本的解决方案。改进方向主要为提高识别率、增加兼容语言和图片格式等方向，尚未有通过OCR文字识别技术针对电子公文和电子公文处理系统进行深度结合。

发明内容

本发明的目的是针对以上不足，提供一种基于国产CPU的电子公文识别复现方法，针对公文的特定格式，利用OCR文字识别技术将纸质公文进行识别处理，转化为电子公文，还提供一种基于上述方法的基于国产CPU的电子公文识别复现系统。

本发明所采用技术方案是：

本发明提供一种基于国产CPU的电子公文识别复现方法，包括如下步骤：

S1、获取纸质公文的图片格式文件；

S2、提取图片内的文字区域，并对其进行预处理；

S3、对处理后的内容区域进行元素识别，并进一步进行文字识别；

S4、获取识别数据，并解析识别数据；

S5、将识别数据在可编辑状态下以电子公文的形式进行展现；

S6、对电子公文进行保存和存储。

作为对本发明方法的进一步优化，本发明步骤S1中，所述获取纸质公文的图片格式文件的过程为将纸质公文通过扫描仪扫描获取所述纸质公文的扫描图片；

或，

通过具有拍摄功能的电子设备对纸质文件进行拍摄获取所述纸质公文的拍摄图片。

作为对本发明方法的进一步优化，本发明步骤S2中，提取图片内的文字区域，并对其进行预处理的过程包括：

S21、识别纸质区域的纸张轮廓，并提取文字区域

S22、确定文字区域的坐标信息；

S23、降低所提取的文字区域图片的分辨率至设定分辨率；

S24、调整所提取的文字区域图片的亮度和对比度至设定值，并进行去噪处理。

作为对本发明方法的进一步优化，本发明步骤S21中，所述的获取图片中的文字区域的过程包括：

S221、对获取的图片进行二值化处理；

S222、通过边缘检测算子获取图片的轮廓图；

S223、通过轮廓提取算法获取最大轮廓；

S224、通过公文格式标准计算文字区域范围，去除冗余区域，并保留冗余区域的去除比例，用于对行高进行校验。

作为对本发明方法的进一步优化，本发明当输入的的图片出现倾斜时，需要对图片进行纠正处理，所述纠正处理的过程为：

S231、提取纸张轮廓；

S232、计算纸张轮廓的倾斜角度并进行矫正；

或：

S231、通过轮廓提取算法获取所有轮廓；

S232、计算最为接近公文文件中红色分割线的轮廓；

S233、对最为接近公文文件中红色分割线的轮廓中像素点通过Sklansky 算法计算出凸包；

S234、通过旋转卡壳算法计算出该轮廓的最小外接矩形；

S235、根据所述最小外接矩形的偏转角度进行图像旋转；

或，

S231、通过轮廓提取算法获取所有轮廓；

S232、计算所有轮廓的倾斜角度，并选择倾斜角度出现频率最高的角度作为文本倾斜角度，依照文本倾斜角度进行矫正。

作为对本发明方法的进一步优化，本发明步骤S3中，对处理后的内容区域进行元素识别以及文字识别的过程包括：

S31、对版头、主体、版记、条形码和印章进行元素识别和分析，获取公文的结构元素，并将识别结果在人机交互端进行展示，并可接收人为调整或增减识别区域；

S32、识别公文图片中用于公文管理的标准条码，获取相对应的内容；

S33、根据识别的所述结构元素套取相应的识别模板；

S34、进行文本识别，并将识别的公文基本信息与条形码中识别的基本信息进行比对，并以条形码识别为准进行修正。

作为对本发明方法的进一步优化，本发明步骤S6中，将所识别的公文信息通过JSON格式进行存储和传输，将二维条形码图片经过Base64编码转换后存储和传输；

将JSON格式进行解析，并套取相应的模板，生成模板中的相应的数据结构。

本发明还提供一种基于国产CPU的电子公文识别复现系统，包括图片获取模块、图片预处理模块、公文识别模块和人机交互模块，其中：

所述图片获取模块用于获取纸质公文的图片格式文件；

所述图片预处理模块用于对获取的所述纸质公文的图片格式文件进行预处理，提升识别效果；

所述公文识别模块用于对预处理的纸质公文的图片格式文件进行内容识别，并获取识别结果；

所述人机交互模块用于对接用户的操作，展示可编辑的公文识别模块的识别结果。

作为对本发明系统的进一步优化，本发明所述图片预处理模块包括文字区域提取组件、图片倾斜处理组件和图片去噪组件，其中：

所述文字区域提取组件用于提取获取的纸质公文的图片中的文字所在区域；

所述图片倾斜处理组件用于在获取的纸质公文的图片为倾斜状态时，对其进行修正；

所述图片去噪组件用于去获取的纸质公文的图片中的噪点进行去除。

作为对本发明系统的进一步优化，本发明所述公文识别模块包括结构化识别组件、二维条形码识别组件和文字识别组件，其中：

所述结构化识别组件用于识别公文图片中的结构化元素，并将识别结构套取对应不同公文格式的识别模板；

所述二维条形码识别组件用与识别公文图片中的公文基本信息，并用于对文字识别的相对应的信息进行比对；

所述文字识别组件用于在识别模板的框架下，进行元素识别，并生成识别数据，并对识别数据解析后在人机交互模块进行展示。

本发明具有以下优点：

1、本发明针对当前纸质公文和电子公文办理交替进行的情况，此专利方法解决将纸质公文转为电子公文进行办理的问题，有效提高电子公文处理中收文办理的效率，和直接登记扫描件进行流转相比，增加了阅读的便捷性。本方法可以完全兼容其它办理方式，可以共存也可以单独使用。

2、本发明由本方法登记录入收文，不增加使用者的额外操作和对系统资源的额外占用，有利于电子公文归档后的文件二次利用和降低对存储资源的需求。因为按照电子公文元数据规范的标准，尽可能将纸质公文中所有信息都转为人机皆可读数据信息，对档案管理事业的发展具有积极意义。

3、本发明进行收文登记录入，将绝大部分人工操作转为了系统程序自动进行计算。理论上，在人工批量扫描文件之后，统一输入后续可以全部由系统程序进行收文操作。将登记好的记录展示在系统中，工作人员只需打开核对以及进行下一步的办理。此专利方法，为电子公文收文登记批量自动录入收文提供基础。

4、本发明在原办公环境的基础上，不增加额外的硬件设备，对硬件配置要求和原业务场景一致。通过有效的技术利用和合理的流程步骤，可以让国产软硬件环境下政务办公的收文办理效率提高到和使用国外主流软硬件环境下的操作效率一致。在一定程度上，弥补因为硬件性能、软件缺乏带来的效率差距。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明：

图1为本发明方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

需要理解的是，在本发明实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。在本发明实施例中的“多个”，是指两个或两个以上。

本发明实施例中的属于“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”关系。

一种基于国产CPU的电子公文识别复现系统，包括图片获取模块、图片预处理模块、公文识别模块和人机交互模块，其中：

所述图片获取模块用于获取纸质公文的图片格式文件；

本实施例所述图片预处理模块包括文字区域提取组件、图片倾斜处理组件和图片去噪组件，其中：

本实施例所述公文识别模块包括结构化识别组件、二维条形码识别组件和文字识别组件，其中：

基于上述系统，本实施例还提供一种基于国产CPU的电子公文识别复现方法，如图1所示，包括如下步骤：

S1、获取纸质公文的图片格式文件；获取公文的图片格式文件可以为将纸质公文通过扫描仪扫描获取所述纸质公文的扫描图片；或，通过具有拍摄功能的电子设备对纸质文件进行拍摄获取所述纸质公文的拍摄图片，当然择优选择专门的扫描设备进行扫描；

S2、提取图片内的文字区域，并对其进行预处理；在上述获取的纸质公文的图片中，由于获取的方式不用，一般扫描设备出来的照片即公文区域为覆盖所有图片的区域，但是如果采用拍摄设备如手机进行拍摄的话，会包含公文外的区域，因此对文件处理时，先对图片进行二值化处理，然后采用边缘检测算子处理或得图片的轮廓图，如Canny算子、laplace算子，然后采用轮廓提取算法处理获取最大轮廓，最大轮廓即为纸质公文的纸张轮廓，去掉纸张轮廓外接矩形外区域。

公文具备统一的边距标准，本实施例所述方法按照公文统一边距标准比例，计算出文字区域范围，去除冗余区域。在去冗余区域后要保留去除比例，通过该比例对行高比例进行校准。

在上述过程中，扫描或者拍摄的图片有会存在倾斜的情况，需要对图片的倾斜情况进行修正，现有技术中，对于图片轮廓比较清晰的情况，一般提取纸张边缘轮廓后，在计算纸张便宜角度，然后进行相对应的旋转修正；而对于纸张边缘不清晰且拥有红色分割线的情况，红色分割线为公文中版头与正文之间的分割线，在提取文字区域之前，轮廓提取算法提取出所有轮廓，判断最为接近红色分割线的轮廓，即轮廓宽度大于0.7倍的图片宽度，高度小于分辨率调整后的16像素点，在对轮廓的像素点集合使用Sklansky算法求出凸包，根据定理对于凸多边形P的一个外接矩形存在一条边与原多边形的边共线利用旋转卡壳算法计算出每个轮廓的最小外接矩形，根据最小外接矩形的偏转角度进行图像旋转，通过红色分割线的距纸张的边距要求可确定纸张边缘；对于对于纸张边缘不清晰且没有红色分割线的图片，对所有轮廓使用Sklansky算法和旋转卡壳算法计算出最小外接矩形集合，统计矩形偏转角度出现频率最高的角度进行旋转，通过先识别文字区域后，再通过文字区域与纸张的边距要求反推纸张边缘。

在公文格式标准中，要求正文首页必须要求正文内容，因此可以确定的是公文每一页中均存在正文内容，且标准中规定了纸张的类型、字号、宽度等信息，可以依据这些信息确定文字区域的坐标信息。

在上述调整后，下一步就是文字识别过程，基于国产硬件的计算能力不足，为了避免在获取的纸质公文的分辨率过高而增加计算负担，因此在获取文字区域的图片后，将图片的分辨率调整降低至设定分辨率，公文正文文字通常为国标仿宋3号，通过验证在国标仿宋3号字体下，图片的分辨率在200dpi下，仍可以保证有效识别，因此可以将图片的分别率择优调整至200dpi。

本实施例为了提升后续的识别准确率，将图片的转换为灰度图像后，并对其亮度和对比度进行调整，对待识别的图像通过调整RGB值分量进行亮度调整，并调整文字在图像中的对比度、色阶，让待识别内容更明显。公文纸张白度通常要求为80％至90％，纸张不透明度大于85％，调整对比度参数可提高识别效率。

而且为了避免噪点对识别结果产生影响，需要对图片进行去噪处理，对图片进行两极化处理，调整黑白图的RGB值为0和255两个极值，使用多个阈值进行两极化处理，再进行噪点计算，选择噪点最少的阈值进行最终处理。

S3、对处理后的内容区域进行元素识别以及文字识别；具体的包括如下步骤：

S31、对版头、主体、版记、条形码和印章进行结构化识别和分析，获取公文的结构元素，并将识别结果在人机交互端进行展示，并可接收人为调整或增减识别区域，实现方式如下：

对公文图片进行行划分，由于公文格式固定为标准的段落格式，可以通过对于每行像素点的RGB值进行统计，统计出有像素点的像素行，再对像素行进行连续区间统计，可以计算出公文中所有文字行区域，对公文进行每一行的划分，在纸质公文中，有可能存在在纸质公文的基础上进行书写标注的内容，为了避免在识别过程中录入这些内容，通过文字区域的识别划分能够将写在纸张边缘处的书写的备注文字进行去除，通过行划分可以去除行间距之间的书写的备注文字，此外为进一步的确保识别的准确性，还可以通过对识别字体进行限定，排除书写字体的识别；

对于公文所用的所有字号和字体在A4纸中所占高度比例进行统计，形成公文元素比例库。对于通用模板，从公文左上角的份号、密级、紧急程度区域开始判断，如判断第一行的行高是否远大于份号行比例乘以图片总高度，若远大于则第一行为发文机关名称行，不存在份号、密级、紧急程度区域，对版头、主体、版记和条形码信息，使用相似判断方式，对于上下行进行关联判断联合公文元素比例库进行行高比较。

提取出识别出的公文元素区域进行结构化识别分析，给图内识别的字符进行标签处理。识别后对识别出的区域及内容进行客户端展示，在客户端标识出的各公文元素区域，即在图片上对每一元素均存在一个矩形框，可手动调整区域或添加删除区域。

S32、识别公文图片中用于公文管理的标准条码，获取相对应的内容，根据相关规范可知，二维条码中包含的信息有条码版本标识符，条码编号，发文单位，公文种类，发文字号，主送单位，标题，秘密等级，紧急程度，成文日期，发布层次，条码制作单位，条码制作日期，自定义字段，通过识别二维条码获取上述信息；

S33、根据识别的所述结构元素套取相应的识别模板；不同文种的公文的在类型格式上存在一定的差异，通过调用内置的识别模板，有针对应的进行识别，能够更提升识别效率和准确率，还能降低计算范围，并获取识别结果。

S34、将识别的公文基本信息与条形码中识别的基本信息进行比对，在具有条形码并成功识别信息的情况下，公文基本信息中的发文单位，公文种类，发文字号，主送单位，标题，秘密等级，紧急程度，成文日期，发布层次等值，以条形码扫描为准，并以条形码识别为准进行修正，

S4、获取识别数据，并解析识别数据；本实施例中，所获取的识别数据采用JSON格式进行存储和传输，因为公文内容在包含多个组成元素，因此在复现时，需不单单是文字的复现，还要对格式参数进行复现，识别数据可以划分成每个元素识别的数据块。而在上述二维条码吗的识别结果通过Base64编码转换后以字符串的形式进行保存和传输。

S5、将识别数据在可编辑状态下以电子公文的形式进行展现；将上述识别的JSON数据通过解析，生成电子公文并展示在屏幕上，并且为可修改的模式，方便用户进行预览和修改，且根据其保密需要等还可进行加密处理。

S6、对电子公文进行保存和存储。对上述确认无误的数据进行保存，同步到数据库列表中，方便后续检索和查看。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于国产CPU的电子公文识别复现方法，其特征在于：包括如下步骤：

S1、获取纸质公文的图片格式文件；

S2、提取图片内的文字区域，并对其进行预处理；

S4、获取识别数据，并解析识别数据；

S6、对电子公文进行保存和存储。

2.根据权利要求1所述的方法，其特征在于：步骤S1中，所述获取纸质公文的图片格式文件的过程为将纸质公文通过扫描仪扫描获取所述纸质公文的扫描图片；

或，

3.根据权利要求1所述的方法，其特征在于：步骤S2中，提取图片内的文字区域，并对其进行预处理的过程包括：

S21、识别纸质区域的纸张轮廓，并提取文字区域

S22、确定文字区域的坐标信息；

S23、降低所提取的文字区域图片的分辨率至设定分辨率；

4.根据权利要求3所述的方法，其特征在于：步骤S21中，所述的获取图片中的文字区域的过程包括：

S221、对获取的图片进行二值化处理；

S222、通过边缘检测算子获取图片的轮廓图；

S223、通过轮廓提取算法获取最大轮廓；

5.根据权利要求4所述的方法，其特征在于：当输入的的图片出现倾斜时，需要对图片进行纠正处理，所述纠正处理的过程为：

S231、提取纸张轮廓；

S232、计算纸张轮廓的倾斜角度并进行矫正；

或：

S231、通过轮廓提取算法获取所有轮廓；

S232、计算最为接近公文文件中红色分割线的轮廓；

S233、对最为接近公文文件中红色分割线的轮廓中像素点通过Sklansky算法计算出凸包；

S234、通过旋转卡壳算法计算出该轮廓的最小外接矩形；

S235、根据所述最小外接矩形的偏转角度进行图像旋转；

或，

S231、通过轮廓提取算法获取所有轮廓；

6.根据权利要求1所述的方法，其特征在于：步骤S3中，对处理后的内容区域进行元素识别以及文字识别的过程包括：

S33、根据识别的所述结构元素套取相应的识别模板；

7.根据权利要求1所述的方法，其特征在于：步骤S6中，将所识别的公文信息通过JSON格式进行存储和传输，将二维条形码图片经过Base64编码转换后存储和传输；

8.一种基于国产CPU的电子公文识别复现系统，其特征在于：包括图片获取模块、图片预处理模块、公文识别模块和人机交互模块，其中：

所述图片获取模块用于获取纸质公文的图片格式文件；

9.根据权利要求8所述的系统，其特征在于：所述图片预处理模块包括文字区域提取组件、图片倾斜处理组件和图片去噪组件，其中：

10.根据权利要求9所述的系统，其特征在于：所述公文识别模块包括结构化识别组件、二维条形码识别组件和文字识别组件，其中：