CN114140808A

CN114140808A - 一种基于国产cpu和操作系统的电子公文识别方法

Info

Publication number: CN114140808A
Application number: CN202111291996.2A
Authority: CN
Inventors: 李利民; 李杨
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-03-04

Abstract

本发明特别涉及一种基于国产CPU和操作系统的电子公文识别方法。该基于国产CPU和操作系统的电子公文识别方法，将图片灰度化得到灰度图；对灰度图进行归一化处理得到初步分割的公文区域数据；建立CTPN神经网络模型，对公文区域进行预测得到切割好的公文区域数据集，输入CRNN+CTC神经网络得到初始公文信息，经卷积和池化，提取特征得到特征图，预测特征图标签分布和最终的标签序列，得到最终预测的公文信息。该基于国产CPU和操作系统的电子公文识别方法，能够在全国产软硬件环境下，自动识别读取纸质公文的正文内容，并转录为电子公文，提高了国产环境下电子公文系统的办公效率，进一步保障了信息安全，同时还能兼容不同国产操作系统和浏览器，适宜推广应用。

Description

一种基于国产CPU和操作系统的电子公文识别方法

技术领域

本发明涉及图文识别与国产软硬件适配技术领域，特别涉及一种基于国产CPU和操作系统的电子公文识别方法。

背景技术

电子公文是指以数字形式存储于磁盘、光盘等媒体，依赖计算机系统阅读、处理并可在通信网络上传输的数字化公文。电子公文处理系统，是指电子公文全生命周期过程或部分环节所使用的信息系统。随着国内政府、企业、事业单位电子政务信息化的发展，政府机关以及事业单位、大型企业越来越依赖于利用信息系统展开其业务运作。在电子公文处理方面，相关应用系统已经发展较为成熟。

在当前电子政务业务范围内，受限于信息化基础和保密需要等原因，在很多场景中依旧存在纸质公文形式，并在相当长一段时期内，电子公文和纸质公文并存。这种情况下，解决方法是在收文登记环节，就把纸质公文转换为在计算机上可阅读，符合电子公文元数据标准的文件。

人工抄写打字输入是一种原始的手段，速度慢出错率高。为提高效率，可以通过OCR文字识别技术，用以辅助扫描图、拍摄图的文字识别，提取图片中的文字，从而辅助进行文本的输入。通过OCR文字识别技术，针对电子公文和电子公文处理系统进行深度结合，可以提供一种简便的专用于纸质公文复现为电子公文的解决方法。

大部分使用国产化软件和硬件系统在政务系统处理上OCR技术无法提高生产工作效率，原因是因为现阶段深度学习框架的应用平台为windows平台和linux平台，基于x86和AMD架构，皆是国外研发的平台。国产化平台的CPU采用飞腾研发的芯片，该芯片使用自研的ARMv8架构。x86等架构采用复杂指令集计算机，ARMv8采用精简指令集计算机。两者的不同导致不同平台的底层指令不同，双方平台的软件无法直接使用。

为了实现更好的技术保密性和技术的自主可控性，针对国产化平台的深度学习研究的不足与国产化平台下需处理OCR识别方面的需求，本发明提出了一种基于国产CPU和操作系统的电子公文识别方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的基于国产CPU和操作系统的电子公文识别方法。

本发明是通过如下技术方案实现的：

一种基于国产CPU和操作系统的电子公文识别方法，其特征在于，包括以下步骤：

第一步，通过图像预处理

为了在不损失文字信息的前提下降低图像维度，将图片灰度化处理得到灰度图；对灰度图进行归一化处理，得到初步分割的公文区域数据；

第二步，建立CTPN(Connectionist Text Proposal Network，文本候选框网络)神经网络模型，对公文区域进行预测得到切割好的公文区域数据集；

第三步，建立CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)+CTC(Connectionist temporal classification，时序类分类)神经网络模型，将切割好的公文区域数据集输入CRNN+CTC神经网络得到初始公文信息，经卷积和池化，提取特征得到特征图，预测特征图标签分布和最终的标签序列，得到最终预测的公文信息。

所述第一步中，基于图像的RGB三分量的加权处理将图片灰度化处理得到一个的灰度矩阵，将待识别图像校正到规范形态，图像的长和宽分别作为矩阵的行m与列n；

所述图片灰度化处理是将原RGB图像的三个通道通过公式(1)进行计算，将待识别图像校正到规范形态；所述公式(1)如下：

Gray＝R*0.2999+G*0.587+B*0.114 (1)

所述第一步中，根据字符识别过程反馈的信息对待识别图像进行再次校正处理，为了避免放大图像导致区分度降低，使用插值算法来填补空缺部分的像素，再对灰度图进行归一化处理。

所述第二步中，CTPN神经网络模型对公文区域进行预测，实现步骤如下：

(1)将初步分割的公文区域切割成为若干个宽度固定的微分区域，输入初步分割的公文区域数据集；

(2)使用VGG(Visual Geometry Group，视觉几何组)卷积神经网络模型前5个Convstage(卷积级)得到特征图，然后使用3*3窗口做卷积得到下一阶段的特征图；

(3)将提取到的特征图输入到长短期记忆网络中处理，所获得结果输出至全连接层，对公文的微分区域高度、中心的Y轴的坐标以及文本的偏移进行预测；

(4)通过回归和分类得到公文的微分区域，确定微分区域高度、中心的Y轴的坐标以及区域的水平偏移量，得到切割好的公文区域数据集。

所述步骤(3)中，所获得结果输出至2个全连接层，通过第一个全连接层对公文的微分区域高度和中心的Y轴的坐标进行预测，通过第二个全连接层对背景和文本的偏移进行预测。

所述第二步中，采用梯度下降方法训练不低于10万次，得到训练好的CTPN神经网络模型。

所述第三步中，初始的公文信息先进入卷积层，进行多次卷积和池化，提取特征得到特征图，然后进入循环层，将提取的特征图输入到双向的长短期记忆网络中，预测标签分布，最后转入转录层预测成为最终的标签序列；

执行端到端的训练，使得标签序列和最终预测公文结果对齐，得到最终预测的公文信息。

所述第三步中，采用梯度下降的方法训练不低于5万次，得到训练好的CRNN+CTC神经网络模型。

本发明的有益效果是：该基于国产CPU和操作系统的电子公文识别方法，能够在全国产软硬件环境下，自动识别读取纸质公文的正文内容，并转录为电子公文，提高了国产环境下电子公文系统的办公效率，进一步保障了信息安全，同时还能兼容不同国产操作系统和浏览器，适宜推广应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明公文格式示意图。

附图2为本发明OCR识别原理示意图。

附图3为本发明OCR电子公文识别步骤示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚，完整的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

该基于国产CPU和操作系统的电子公文识别方法，包括以下步骤：

第一步，通过图像预处理

Gray＝R*0.2999+G*0.587+B*0.114 (1)

所述第一步中，根据字符识别过程反馈的信息对待识别图像进行再次校正处理，如果直接处理则会导致文字笔画过小，容易被当成噪因处理掉，如果把图片进行放大处理则会导致区分度降低，为了避免放大图像导致区分度降低，使用插值算法来填补空缺部分的像素，再对灰度图进行归一化处理。

该基于国产CPU和操作系统的电子公文识别方法，利用国产环境下的OCR模型获取公文信息，并根据公文模板实现标准输出；公文模板包括发文单位，公文种类，发文字号，主送单位，标题，秘密等级，紧急程度，成文日期等基本信息，根据公文模板生成相应的JSON数据格式如附图1所示。

该基于国产CPU和操作系统的电子公文识别方法，电子公文信息保存编辑是在业务系统中展示相关结果，通常在电子公文处理系统的收文管理收文登记功能中进行展示。以电子公文基本信息、正文信息的模式展示识别、计算后的数据。为了便于经办人预览，还要将相关信息字段进行标识对应。

该基于国产CPU和操作系统的电子公文识别方法，还提供可见可得的在线即时修改功能，对修正错误、补充信息或根据保密需要等业务场景进行特殊操作处理。将确认无误的数据保存至数据库相应表，便于后续办公应用系统中进行查询、利用。

以上所述的实施例，只是本发明具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于国产CPU和操作系统的电子公文识别方法，其特征在于，包括以下步骤：

第一步，通过图像预处理

第二步，建立CTPN神经网络模型，对公文区域进行预测得到切割好的公文区域数据集；

第三步，建立CRNN+CTC神经网络模型，将切割好的公文区域数据集输入CRNN+CTC神经网络得到初始公文信息，经卷积和池化，提取特征得到特征图，预测特征图标签分布和最终的标签序列，得到最终预测的公文信息。

2.根据权利要求1所述的基于国产CPU和操作系统的电子公文识别方法，其特征在于：所述第一步中，基于图像的RGB三分量的加权处理将图片灰度化处理得到一个的灰度矩阵，将待识别图像校正到规范形态，图像的长和宽分别作为矩阵的行m与列n；

Gray＝R*0.2999+G*0.587+B*0.114 (1)。

3.根据权利要求1或2所述的基于国产CPU和操作系统的电子公文识别方法，其特征在于：所述第一步中，根据字符识别过程反馈的信息对待识别图像进行再次校正处理，为了避免放大图像导致区分度降低，使用插值算法来填补空缺部分的像素，再对灰度图进行归一化处理。

4.根据权利要求3所述的基于国产CPU和操作系统的电子公文识别方法，其特征在于：所述第二步中，CTPN神经网络模型对公文区域进行预测，实现步骤如下：

(2)使用VGG卷积神经网络模型前5个Conv stage得到特征图，然后使用3*3窗口做卷积得到下一阶段的特征图；

5.根据权利要求4所述的基于国产CPU和操作系统的电子公文识别方法，其特征在于：所述步骤(3)中，所获得结果输出至2个全连接层，通过第一个全连接层对公文的微分区域高度和中心的Y轴的坐标进行预测，通过第二个全连接层对背景和文本的偏移进行预测。

6.根据权利要求1所述的基于国产CPU和操作系统的电子公文识别方法，其特征在于：所述第二步中，采用梯度下降方法训练不低于10万次，得到训练好的CTPN神经网络模型。

7.根据权利要求1或5所述的基于国产CPU和操作系统的电子公文识别方法，其特征在于：所述第三步中，初始的公文信息先进入卷积层，进行多次卷积和池化，提取特征得到特征图，然后进入循环层，将提取的特征图输入到双向的长短期记忆网络中，预测标签分布，最后转入转录层预测成为最终的标签序列；

8.根据权利要求1所述的基于国产CPU和操作系统的电子公文识别方法，其特征在于：所述第三步中，采用梯度下降的方法训练不低于5万次，得到训练好的CRNN+CTC神经网络模型。