CN114140808A - 一种基于国产cpu和操作系统的电子公文识别方法 - Google Patents

一种基于国产cpu和操作系统的电子公文识别方法 Download PDF

Info

Publication number
CN114140808A
CN114140808A CN202111291996.2A CN202111291996A CN114140808A CN 114140808 A CN114140808 A CN 114140808A CN 202111291996 A CN202111291996 A CN 202111291996A CN 114140808 A CN114140808 A CN 114140808A
Authority
CN
China
Prior art keywords
official document
document
image
identification method
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111291996.2A
Other languages
English (en)
Inventor
李利民
李杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN202111291996.2A priority Critical patent/CN114140808A/zh
Publication of CN114140808A publication Critical patent/CN114140808A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明特别涉及一种基于国产CPU和操作系统的电子公文识别方法。该基于国产CPU和操作系统的电子公文识别方法,将图片灰度化得到灰度图;对灰度图进行归一化处理得到初步分割的公文区域数据;建立CTPN神经网络模型,对公文区域进行预测得到切割好的公文区域数据集,输入CRNN+CTC神经网络得到初始公文信息,经卷积和池化,提取特征得到特征图,预测特征图标签分布和最终的标签序列,得到最终预测的公文信息。该基于国产CPU和操作系统的电子公文识别方法,能够在全国产软硬件环境下,自动识别读取纸质公文的正文内容,并转录为电子公文,提高了国产环境下电子公文系统的办公效率,进一步保障了信息安全,同时还能兼容不同国产操作系统和浏览器,适宜推广应用。

Description

一种基于国产CPU和操作系统的电子公文识别方法
技术领域
本发明涉及图文识别与国产软硬件适配技术领域,特别涉及一种基于国产CPU和操作系统的电子公文识别方法。
背景技术
电子公文是指以数字形式存储于磁盘、光盘等媒体,依赖计算机系统阅读、处理并可在通信网络上传输的数字化公文。电子公文处理系统,是指电子公文全生命周期过程或部分环节所使用的信息系统。随着国内政府、企业、事业单位电子政务信息化的发展,政府机关以及事业单位、大型企业越来越依赖于利用信息系统展开其业务运作。在电子公文处理方面,相关应用系统已经发展较为成熟。
在当前电子政务业务范围内,受限于信息化基础和保密需要等原因,在很多场景中依旧存在纸质公文形式,并在相当长一段时期内,电子公文和纸质公文并存。这种情况下,解决方法是在收文登记环节,就把纸质公文转换为在计算机上可阅读,符合电子公文元数据标准的文件。
人工抄写打字输入是一种原始的手段,速度慢出错率高。为提高效率,可以通过OCR文字识别技术,用以辅助扫描图、拍摄图的文字识别,提取图片中的文字,从而辅助进行文本的输入。通过OCR文字识别技术,针对电子公文和电子公文处理系统进行深度结合,可以提供一种简便的专用于纸质公文复现为电子公文的解决方法。
大部分使用国产化软件和硬件系统在政务系统处理上OCR技术无法提高生产工作效率,原因是因为现阶段深度学习框架的应用平台为windows平台和linux平台,基于x86和AMD架构,皆是国外研发的平台。国产化平台的CPU采用飞腾研发的芯片,该芯片使用自研的ARMv8架构。x86等架构采用复杂指令集计算机,ARMv8采用精简指令集计算机。两者的不同导致不同平台的底层指令不同,双方平台的软件无法直接使用。
为了实现更好的技术保密性和技术的自主可控性,针对国产化平台的深度学习研究的不足与国产化平台下需处理OCR识别方面的需求,本发明提出了一种基于国产CPU和操作系统的电子公文识别方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于国产CPU和操作系统的电子公文识别方法。
本发明是通过如下技术方案实现的:
一种基于国产CPU和操作系统的电子公文识别方法,其特征在于,包括以下步骤:
第一步,通过图像预处理
为了在不损失文字信息的前提下降低图像维度,将图片灰度化处理得到灰度图;对灰度图进行归一化处理,得到初步分割的公文区域数据;
第二步,建立CTPN(Connectionist Text Proposal Network,文本候选框网络)神经网络模型,对公文区域进行预测得到切割好的公文区域数据集;
第三步,建立CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)+CTC(Connectionist temporal classification,时序类分类)神经网络模型,将切割好的公文区域数据集输入CRNN+CTC神经网络得到初始公文信息,经卷积和池化,提取特征得到特征图,预测特征图标签分布和最终的标签序列,得到最终预测的公文信息。
所述第一步中,基于图像的RGB三分量的加权处理将图片灰度化处理得到一个的灰度矩阵,将待识别图像校正到规范形态,图像的长和宽分别作为矩阵的行m与列n;
所述图片灰度化处理是将原RGB图像的三个通道通过公式(1)进行计算,将待识别图像校正到规范形态;所述公式(1)如下:
Gray=R*0.2999+G*0.587+B*0.114 (1)
所述第一步中,根据字符识别过程反馈的信息对待识别图像进行再次校正处理,为了避免放大图像导致区分度降低,使用插值算法来填补空缺部分的像素,再对灰度图进行归一化处理。
所述第二步中,CTPN神经网络模型对公文区域进行预测,实现步骤如下:
(1)将初步分割的公文区域切割成为若干个宽度固定的微分区域,输入初步分割的公文区域数据集;
(2)使用VGG(Visual Geometry Group,视觉几何组)卷积神经网络模型前5个Convstage(卷积级)得到特征图,然后使用3*3窗口做卷积得到下一阶段的特征图;
(3)将提取到的特征图输入到长短期记忆网络中处理,所获得结果输出至全连接层,对公文的微分区域高度、中心的Y轴的坐标以及文本的偏移进行预测;
(4)通过回归和分类得到公文的微分区域,确定微分区域高度、中心的Y轴的坐标以及区域的水平偏移量,得到切割好的公文区域数据集。
所述步骤(3)中,所获得结果输出至2个全连接层,通过第一个全连接层对公文的微分区域高度和中心的Y轴的坐标进行预测,通过第二个全连接层对背景和文本的偏移进行预测。
所述第二步中,采用梯度下降方法训练不低于10万次,得到训练好的CTPN神经网络模型。
所述第三步中,初始的公文信息先进入卷积层,进行多次卷积和池化,提取特征得到特征图,然后进入循环层,将提取的特征图输入到双向的长短期记忆网络中,预测标签分布,最后转入转录层预测成为最终的标签序列;
执行端到端的训练,使得标签序列和最终预测公文结果对齐,得到最终预测的公文信息。
所述第三步中,采用梯度下降的方法训练不低于5万次,得到训练好的CRNN+CTC神经网络模型。
本发明的有益效果是:该基于国产CPU和操作系统的电子公文识别方法,能够在全国产软硬件环境下,自动识别读取纸质公文的正文内容,并转录为电子公文,提高了国产环境下电子公文系统的办公效率,进一步保障了信息安全,同时还能兼容不同国产操作系统和浏览器,适宜推广应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明公文格式示意图。
附图2为本发明OCR识别原理示意图。
附图3为本发明OCR电子公文识别步骤示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该基于国产CPU和操作系统的电子公文识别方法,包括以下步骤:
第一步,通过图像预处理
为了在不损失文字信息的前提下降低图像维度,将图片灰度化处理得到灰度图;对灰度图进行归一化处理,得到初步分割的公文区域数据;
第二步,建立CTPN(Connectionist Text Proposal Network,文本候选框网络)神经网络模型,对公文区域进行预测得到切割好的公文区域数据集;
第三步,建立CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)+CTC(Connectionist temporal classification,时序类分类)神经网络模型,将切割好的公文区域数据集输入CRNN+CTC神经网络得到初始公文信息,经卷积和池化,提取特征得到特征图,预测特征图标签分布和最终的标签序列,得到最终预测的公文信息。
所述第一步中,基于图像的RGB三分量的加权处理将图片灰度化处理得到一个的灰度矩阵,将待识别图像校正到规范形态,图像的长和宽分别作为矩阵的行m与列n;
所述图片灰度化处理是将原RGB图像的三个通道通过公式(1)进行计算,将待识别图像校正到规范形态;所述公式(1)如下:
Gray=R*0.2999+G*0.587+B*0.114 (1)
所述第一步中,根据字符识别过程反馈的信息对待识别图像进行再次校正处理,如果直接处理则会导致文字笔画过小,容易被当成噪因处理掉,如果把图片进行放大处理则会导致区分度降低,为了避免放大图像导致区分度降低,使用插值算法来填补空缺部分的像素,再对灰度图进行归一化处理。
所述第二步中,CTPN神经网络模型对公文区域进行预测,实现步骤如下:
(1)将初步分割的公文区域切割成为若干个宽度固定的微分区域,输入初步分割的公文区域数据集;
(2)使用VGG(Visual Geometry Group,视觉几何组)卷积神经网络模型前5个Convstage(卷积级)得到特征图,然后使用3*3窗口做卷积得到下一阶段的特征图;
(3)将提取到的特征图输入到长短期记忆网络中处理,所获得结果输出至全连接层,对公文的微分区域高度、中心的Y轴的坐标以及文本的偏移进行预测;
(4)通过回归和分类得到公文的微分区域,确定微分区域高度、中心的Y轴的坐标以及区域的水平偏移量,得到切割好的公文区域数据集。
所述步骤(3)中,所获得结果输出至2个全连接层,通过第一个全连接层对公文的微分区域高度和中心的Y轴的坐标进行预测,通过第二个全连接层对背景和文本的偏移进行预测。
所述第二步中,采用梯度下降方法训练不低于10万次,得到训练好的CTPN神经网络模型。
所述第三步中,初始的公文信息先进入卷积层,进行多次卷积和池化,提取特征得到特征图,然后进入循环层,将提取的特征图输入到双向的长短期记忆网络中,预测标签分布,最后转入转录层预测成为最终的标签序列;
执行端到端的训练,使得标签序列和最终预测公文结果对齐,得到最终预测的公文信息。
所述第三步中,采用梯度下降的方法训练不低于5万次,得到训练好的CRNN+CTC神经网络模型。
该基于国产CPU和操作系统的电子公文识别方法,利用国产环境下的OCR模型获取公文信息,并根据公文模板实现标准输出;公文模板包括发文单位,公文种类,发文字号,主送单位,标题,秘密等级,紧急程度,成文日期等基本信息,根据公文模板生成相应的JSON数据格式如附图1所示。
该基于国产CPU和操作系统的电子公文识别方法,电子公文信息保存编辑是在业务系统中展示相关结果,通常在电子公文处理系统的收文管理收文登记功能中进行展示。以电子公文基本信息、正文信息的模式展示识别、计算后的数据。为了便于经办人预览,还要将相关信息字段进行标识对应。
该基于国产CPU和操作系统的电子公文识别方法,还提供可见可得的在线即时修改功能,对修正错误、补充信息或根据保密需要等业务场景进行特殊操作处理。将确认无误的数据保存至数据库相应表,便于后续办公应用系统中进行查询、利用。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于国产CPU和操作系统的电子公文识别方法,其特征在于,包括以下步骤:
第一步,通过图像预处理
为了在不损失文字信息的前提下降低图像维度,将图片灰度化处理得到灰度图;对灰度图进行归一化处理,得到初步分割的公文区域数据;
第二步,建立CTPN神经网络模型,对公文区域进行预测得到切割好的公文区域数据集;
第三步,建立CRNN+CTC神经网络模型,将切割好的公文区域数据集输入CRNN+CTC神经网络得到初始公文信息,经卷积和池化,提取特征得到特征图,预测特征图标签分布和最终的标签序列,得到最终预测的公文信息。
2.根据权利要求1所述的基于国产CPU和操作系统的电子公文识别方法,其特征在于:所述第一步中,基于图像的RGB三分量的加权处理将图片灰度化处理得到一个的灰度矩阵,将待识别图像校正到规范形态,图像的长和宽分别作为矩阵的行m与列n;
所述图片灰度化处理是将原RGB图像的三个通道通过公式(1)进行计算,将待识别图像校正到规范形态;所述公式(1)如下:
Gray=R*0.2999+G*0.587+B*0.114 (1)。
3.根据权利要求1或2所述的基于国产CPU和操作系统的电子公文识别方法,其特征在于:所述第一步中,根据字符识别过程反馈的信息对待识别图像进行再次校正处理,为了避免放大图像导致区分度降低,使用插值算法来填补空缺部分的像素,再对灰度图进行归一化处理。
4.根据权利要求3所述的基于国产CPU和操作系统的电子公文识别方法,其特征在于:所述第二步中,CTPN神经网络模型对公文区域进行预测,实现步骤如下:
(1)将初步分割的公文区域切割成为若干个宽度固定的微分区域,输入初步分割的公文区域数据集;
(2)使用VGG卷积神经网络模型前5个Conv stage得到特征图,然后使用3*3窗口做卷积得到下一阶段的特征图;
(3)将提取到的特征图输入到长短期记忆网络中处理,所获得结果输出至全连接层,对公文的微分区域高度、中心的Y轴的坐标以及文本的偏移进行预测;
(4)通过回归和分类得到公文的微分区域,确定微分区域高度、中心的Y轴的坐标以及区域的水平偏移量,得到切割好的公文区域数据集。
5.根据权利要求4所述的基于国产CPU和操作系统的电子公文识别方法,其特征在于:所述步骤(3)中,所获得结果输出至2个全连接层,通过第一个全连接层对公文的微分区域高度和中心的Y轴的坐标进行预测,通过第二个全连接层对背景和文本的偏移进行预测。
6.根据权利要求1所述的基于国产CPU和操作系统的电子公文识别方法,其特征在于:所述第二步中,采用梯度下降方法训练不低于10万次,得到训练好的CTPN神经网络模型。
7.根据权利要求1或5所述的基于国产CPU和操作系统的电子公文识别方法,其特征在于:所述第三步中,初始的公文信息先进入卷积层,进行多次卷积和池化,提取特征得到特征图,然后进入循环层,将提取的特征图输入到双向的长短期记忆网络中,预测标签分布,最后转入转录层预测成为最终的标签序列;
执行端到端的训练,使得标签序列和最终预测公文结果对齐,得到最终预测的公文信息。
8.根据权利要求1所述的基于国产CPU和操作系统的电子公文识别方法,其特征在于:所述第三步中,采用梯度下降的方法训练不低于5万次,得到训练好的CRNN+CTC神经网络模型。
CN202111291996.2A 2021-11-03 2021-11-03 一种基于国产cpu和操作系统的电子公文识别方法 Pending CN114140808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111291996.2A CN114140808A (zh) 2021-11-03 2021-11-03 一种基于国产cpu和操作系统的电子公文识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111291996.2A CN114140808A (zh) 2021-11-03 2021-11-03 一种基于国产cpu和操作系统的电子公文识别方法

Publications (1)

Publication Number Publication Date
CN114140808A true CN114140808A (zh) 2022-03-04

Family

ID=80392342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111291996.2A Pending CN114140808A (zh) 2021-11-03 2021-11-03 一种基于国产cpu和操作系统的电子公文识别方法

Country Status (1)

Country Link
CN (1) CN114140808A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713777A (zh) * 2023-01-06 2023-02-24 山东科技大学 一种合同文件内容识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法
CN110516676A (zh) * 2019-08-21 2019-11-29 河海大学常州校区 一种基于图像处理的银行卡号识别系统
WO2021212763A1 (zh) * 2020-04-20 2021-10-28 Oppo广东移动通信有限公司 高动态范围图像处理系统及方法、电子设备和可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法
CN110516676A (zh) * 2019-08-21 2019-11-29 河海大学常州校区 一种基于图像处理的银行卡号识别系统
WO2021212763A1 (zh) * 2020-04-20 2021-10-28 Oppo广东移动通信有限公司 高动态范围图像处理系统及方法、电子设备和可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713777A (zh) * 2023-01-06 2023-02-24 山东科技大学 一种合同文件内容识别方法

Similar Documents

Publication Publication Date Title
CN107067044B (zh) 一种财务报销全票据智能审核系统
US10817741B2 (en) Word segmentation system, method and device
CN107194400B (zh) 一种财务报销全票据图片识别处理方法
CN109800761A (zh) 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN105654135A (zh) 一种基于递归神经网络的图像文字序列识别系统
CN110765740B (zh) 一种基于dom树的全类型文本替换方法、系统、装置及存储介质
CN114596566A (zh) 文本识别方法及相关装置
US11494588B2 (en) Ground truth generation for image segmentation
CN113763249A (zh) 文本图像超分辨率重建方法及其相关设备
CN111523622B (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
US20200294187A1 (en) Ground truth generation from scanned documents
CN110852324A (zh) 一种基于深度神经网络集装箱箱号检测方法
CN113989484A (zh) 古籍的文字识别方法、装置、计算机设备及存储介质
CN109508712A (zh) 一种基于图像的汉语文字识别方法
Younas et al. FFD: Figure and formula detection from document images
CN111274863A (zh) 一种基于文本山峰概率密度的文本预测方法
CN114140808A (zh) 一种基于国产cpu和操作系统的电子公文识别方法
Aggarwal et al. Survey of mathematical expression recognition for printed and handwritten documents
CN112733857B (zh) 自动分割字符区域的图像文字检测模型训练方法及装置
Kawabe et al. Application of deep learning to classification of braille dot for restoration of old braille books
CN117496521A (zh) 一种表格关键信息抽取方法、系统、装置及可读存储介质
CN116844182A (zh) 一种版式自动识别的卡证文字识别方法
Devi et al. Brahmi script recognition system using deep learning techniques
CN115439850A (zh) 基于审单的图文字符识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination