CN117456536A

CN117456536A - 一种基于深度学习的电子公文归档系统设计方法

Info

Publication number: CN117456536A
Application number: CN202311397890.XA
Authority: CN
Inventors: 王珂; 彭璐
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-26

Abstract

本发明涉及一种基于深度学习的电子公文归档系统设计方法，属于计算机软件领域。本发明利用超分辨率增强版式电子公文特征，利用改进的改进的区域卷积神经网络提取文件流式信息，利用预训练BERT模型挖掘流式信息语义特征，利用卷积神经网络和长短时记忆网络对语义特征进行分类归档的电子公文归档系统设计，省去了传统分类归档系统标记文单要素的繁琐步骤，在提高效率的同时挖掘更深层次的电子公文主题特征。

Description

一种基于深度学习的电子公文归档系统设计方法

技术领域

本发明属于计算机软件领域，具体涉及一种基于深度学习的电子公文归档系统设计方法。

背景技术

随着人工智能技术的不断发展，如今，智能化已经成为信息系统建设的重要方向，传统的电子公文系统归档系统通过文件的文单要素来进行区分与归档，这种方式分类归档的精细度有限，并且文单要素的标记需要办公人员消耗大量精力。所以通过深度学习技术为电子公文归档系统赋能，使其具有智能化的分类归档能力，对于提高办公效率具有重大意义。

通过深度学习为电子公文分类归档系统赋能是利用其强大的模式识别和自动化处理能力，提高电子公文分类归档的处理效率和准确性。可以通过基于深度学习的OCR技术将纸质文档的扫描件或其他版式电子公文转换成可搜索和可编辑的流式文件。流式文件通过深度学习模型，可以识别电子公文中的人名、地点、日期等实体信息，帮助对公文进行分类、归档和索引，与此同时利用自然语言处理可以对电子公文进行语义理解和文本分类，提取文档的关键信息并自动进行分类、标注、主题提取与归档等任务。

现有的OCR技术对于版面复杂的版式文件识别效果差，且对于文本在水平方向上的长度难以预测。对于低分辨率的电子公文文档的文本边缘定位比较困难。而依靠文单要素标记的方式对电子公文分类，使文档分类能力有限，难以挖掘海量文档信息中未被定义的类别与主题，阻碍了信息化系统从大数据中挖掘有效信息的能力。

本发明针对版式公文的识别，利用基于超分辨率的图像预处理可以解决版式电子公文特征丢失的问题，利用基于改进的区域卷积神经网络的双阶段目标识别算法可以更好的提取特征准确定位要素信息的区域。利用预训练BERT模型产生的语义特征，以卷积神经网络和长短时记忆网络模型为基础，可以挖掘电子公文更深层次的主题特征。综合上述技术可以为基于深度学习的电子公文归档系统提供一种解决方案。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种基于深度学习的电子公文归档系统设计方法，以解决现有的OCR技术阻碍了信息化系统从大数据中挖掘有效信息的能力的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种基于深度学习的电子公文归档系统设计方法，该方法包括：

业务系统用户通过客户端/浏览器访问电子公文归档系统，由服务端调用各个归档系统子模块，并基于http协议采用请求-响应模式完成客户端与服务端交互和数据传输；

电子公文归档系统同时支持上传流式文件和版式公文，对于上传文件首先通过预分类模型判断其为流式还是版式，对于版式公文，系统增强其字符特征，并输入至版式公文处理模块，对于流式文件，通过公文域、书签获取要素信息，并输入至流式信息处理模块；版式公文处理模块从特征增强后的文件中，提取流式信息，并将流式信息输入流式信息处理模块，实现文档分类归档；各服务模块独立部署运行，通过web请求的方式访问服务，采用RESTFUL风格接口，通过网关对外提供封装好的文件归档功能；核心业务功能采用Feign Client同步调用方式进行通信，同步执行，共同协作；非核心业务采用消息队列实现异步调用、分散处理，减少服务器资源压力；

利用关系型数据库技术完成业务数据持久化，通过消息队列实现服务间通信；以订阅发布的模式，实现消息在服务间异步传输。

(三)有益效果

本发明提出一种基于深度学习的电子公文归档系统设计方法，与现有技术相比，本发明提出了一种直接对版式电子公文文件挖掘深层语义特征进行分类归档的电子公文归档系统。利用超分辨率增强版式电子公文特征，利用改进的改进的区域卷积神经网络提取文件流式信息，利用预训练BERT模型挖掘流式信息语义特征，利用卷积神经网络和长短时记忆网络对语义特征进行分类归档的电子公文归档系统设计，省去了传统分类归档系统标记文单要素的繁琐步骤，在提高效率的同时挖掘更深层次的电子公文主题特征。

附图说明

图1为本发明的整体架构图；

图2为本发明的电子公文预分类流程图；

图3为本发明的版式公文处理流程图；

图4为本发明的流式信息处理流程图；

图5为本发明的消息机制模型图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明的目的就是提出一个利用深度学习技术直接提取扫描件等版式电子公文文件的深层语义特征，并对其进行分类归档的电子公文归档系统，系统提供端到端的分类归档服务。

1.整体架构

图1为本发明的整体架构图，如图1所示，整体架构包含如下4层：

客户端/浏览器：业务系统用户通过客户端/浏览器访问电子公文归档系统，由服务端调用各个归档系统子模块，并基于http协议采用请求-响应模式完成客户端与服务端交互和数据传输。

归档系统：电子公文归档系统同时支持上传流式文件和版式公文，对于上传文件首先通过预分类模型判断其为流式还是版式，对于版式公文，系统增强其字符特征，并输入至版式公文处理模块，对于流式文件，通过公文域、书签等获取要素信息，并输入至流式信息处理模块。版式公文处理模块从特征增强后的文件中，提取流式信息，并将流式信息输入流式信息处理模块，实现文档分类归档。各服务模块独立部署运行，通过web请求的方式访问服务，采用RESTFUL风格接口，通过网关对外提供封装好的文件归档功能，简化用户操作。核心业务功能采用Feign Client同步调用方式进行通信，同步执行，共同协作。非核心业务采用消息队列实现异步调用、分散处理，减少服务器资源压力，提高核心业务的处理速度和效率。

数据持久化和消息：利用关系型数据库技术完成业务数据持久化，通过消息队列实现服务间通信。以订阅发布的模式，实现消息在服务间异步传输，解耦不同服务间的业务功能调用，有效提高核心业务功能处理速度，非核心业务可在空闲时再进行处理。

基础环境：通用的硬件服务器和运行深度学习模型的GPU服务器、操作系统、编译环境和开发环境(包括JDK8环境、PyTorch化境和GCC环境)为图像处理、上层存储、缓存、消息、应用提供运行支撑。

2.预分类模型

预分类模型为电子公文归档系统提供文件上传入口，同时支持流式文件和版式公文上传以及批量上传，满足用户在不同场景下的文件上传需求，预分类的流程如图2所示。

传统的公文归档系统仅支持对于流式文件提取文单要素，并根据文单要素进行分类归档，对于扫描件等版式公文通常需要人工标记公文文单要素信息，再据此分类归档。这个过程需要消耗办公人员大量精力，并且效率很低。而本发明提出的方法是用户仅需要上传待分类的公文文件，无论是版式还是流式，系统统一处理，提取要素，并分类归档。

在用户上传公文文件后，首先由预分类模型对待分类文档进行预处理工作。

第一步，判断其为流式文件还是版式公文，对于流式文件，系统从流式文件的公文域、书签提取关键字段流式信息，并将关键字段流式信息与公文正文流式信息通过接口的方式输入到流式信息处理模块中。对于版式公文，系统无法直接从版式公文中提取流式信息，所以需要将版式公文通过版式公文处理模块提取流式信息。

在预分类模型中要将用户初始上传的版式公文进行预处理，增强特征，以便版式处理模块更好地提取流式信息。具体方法是在预分类模型通过DocUNet网络，经过连续的上采样与下采样，建立层间特征映射来复原存在弯折问题的版式电子公文。之后利用超分辨率技术进一步提升图像品质、寻找低分辨率图像到高分辨率图像之间的映射关系，并通过这个映射关系完成从低分辨率到高分辨率的重建。这里使用的超分辨率技术需要建立一个三层的卷积神经网络，第一层卷积完成的主要工作是对模型输入进行特征提取。第二层卷积主要工作是对于第一层提取的图像块特征进行非线性映射，在这个环节将经过卷积神经网络的特征图进行上采样，完成高频信息重建，尺度不发生变化。在这一层中将低分辨率的特征映射为高分辨率特征。第三层卷积主要工作是对于第二层卷积映射后的特征进行重建，生成高分辨率图像，完成版式电子公文增强。然后取三色通道的平均值输出灰度图，设定灰度阈值，完成版式电子公文二值化。最后将二值化后的公文文件输入到版式公文处理模块中。

3.版式公文处理

由于版式文件无法直接获取语言信息，用来提取语义特征，所以需要通过版式公文处理的光学字符识别能力提取出语言信息，具体流程如图3所示。

这里将预分类模型输出的版式电子公文输入到卷积神经网络，得到特征映射图。由于卷积神经网络当中深度较低的卷积层的特征表达能力弱于较深的卷积层。为了提高特征图的特征表达能力，对上一步卷积神经网络输出的特征图进一步提取高层特征后再接入一个反卷积层，将高层特征图尺度放大到与低层特征图相同，在低层特征图后接入一个卷积核大小为1的卷积层维持特征图尺度不变。

为了防止梯度爆炸或者权值更新引起的梯度难以收敛，在高层特征与低层特征之间接入归一层，对数据进行归一化。

在归一化之后将同尺度的高层特征与低层特征进行点积运算，完成特征融合。

得到融合特征图后，选取一个固定宽度为10个像素的锚点，通过这个锚点将融合特征图序列化，并将序列特征输入BiLSTM网络中。将BiLSTM网络输出结果通过全连接层分类，将目标概率大于70％的文本框保存为正样本，再利用文本线构造对上一步结果进行合并，得到流式信息区域。

得到流式信息区域后要进一步提取流式信息。将上一步得到的流式信息区域，划分为不同尺度，不同长度的文本框，将其输入深层卷积神经网络得到深度特征。之后对得到的深度特征按照从左到右的顺序划分为连续的时间序列，再将连续的时间序列输入到循环神经网络中，对字符进行序列识别。这里使用的循环神经网络通过引入了注意力机制进行优化，注意力机制模拟了人类视觉在观看图像时的注意力分布方式，人在观察图像时的注意力并不是均匀分布在整个图像之中，而是会将注意力集中在图像的关键信息部分。比如在观察人像图片时注意力会集中在人脸的位置，在看报纸文章时注意力会集中在文章的标题或者段落的开头位置。这样可以保证人在进行图像处理时可以准确高效的提取到图像中最关键的信息。在循环神经网络对卷积神经网络产生的字符特征序列进行识别分类时，若将完整序列的卷积特征以同等权重进行分析识别，则会将背景纹理特征与非当前字符的纹理特征也考虑进来，会极大的影响字符识别的准确率。注意力机制则会将完整的序列特征进行加权处理，这样就会使利于当前字符识别的关键特征信息被尽可能多的保存下来，而对当前识别任务造成干扰的信息则会被尽可能的忽略。在循环神经网络的内部神经元中，将当前时间步的输入和上一个时间步的隐藏层记忆单元的更新值，输入到多层全连接的神经网络中，计算当前输入序列与字符识别模型当前时间步任务的相关程度，并将其转化为概率权重，将权重概率与输入序列相乘得到加权后的输入序列，将加权后的输入序列与上一个时间步的输出作为一个整体，输入到另一个多层全连接神经网络做进一步的加权。经过这种方式处理的输入序列会对当前时间步的任务有更好的识别效果。最后将版式公文处理模块输出的流式信息输入到流式信息处理模块中。

4.流式信息处理

预分类模型和版式公文处理模块输出的流式信息最终都会上传流式信息处理模块进行分类归档。流式信息处理流程如图4所示：

这里使用BERT-base-Chinese模型作为词向量模型，该模型负责将流式公文中的每个词映射到一个高维向量空间，在该空间中能够更好地捕捉词的语义和句法信息，从而辅助理解公文的上下文关系以及深层结构。BERT是一种双向多头自注意力编码器组成的语言模型，其通过增加遮罩语言模型和下句预测改进了模型效果，并通过transformer叠加多层，增强模型的文本表征能力。由于BERT模型也是大规模数据上训练的，这使得BERT预训练模型作为深度学习迁移模型，能以较小的成本，比较好的效果实现流式公文数据自动分类。

下一步将BERT模型输出的流式公文词向量输入到卷积神经网络与长短时记忆网络结合的文本分类模型中来做公文归档分类，由于卷积神经网络可以很好的提取流式公文的局部特征，而长短时记忆网络可以通过对这些特征进行排序来理解流式公文排序，所以可以提高公文分类归档的效果；

在对公文进行归档标记之前可以结合知识库产生的主题语料补充或者结合专家判断提高分类归档的精度。

5.消息通信机制

消息通信机制为电子公文归档系统提供了基础的内部消息服务，支持采用同步或异步方式完成各服务组件间的消息传输和业务调用。具体结构如图5所示，版式公文处理、流式信息处理和文件归档等核心业务之间采用Feign Client同步调用方式进行通信，互相协作，业务之间形成强耦合。被调用方需按约定定义好相关服务接口和参数，并以sdk方式打包发布给服务调用方。调用方在加载sdk开发包后，调用相关接口方法将消息传递给被调用方，并等待被调用方业务处理和响应。

消息通知、日志记录等非核心业务采用消息队列实现异步调用、分散处理，减少服务器资源压力。同时，业务服务与消息队列之间采用主题/订阅模式实现消息的传输和接收。消息提供方，一般为核心业务服务，产生消息并将消息发送到指定主题队列，然后继续处理后续业务，实现非核心业务从核心业务流程中剥离，提高了核心业务处理速度。消息接收方，一般为非核心业务服务，订阅相应主题，从主题队列中接收提供方发送的消息，然后进行相关计算处理，且不影响核心业务流程，实现了业务间解耦和资源优化利用

与现有技术相比，本发明提出了一种直接对版式电子公文文件挖掘深层语义特征进行分类归档的电子公文归档系统。利用超分辨率增强版式电子公文特征，利用改进的改进的区域卷积神经网络提取文件流式信息，利用预训练BERT模型挖掘流式信息语义特征，利用卷积神经网络和长短时记忆网络对语义特征进行分类归档的电子公文归档系统设计，省去了传统分类归档系统标记文单要素的繁琐步骤，在提高效率的同时挖掘更深层次的电子公文主题特征。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度学习的电子公文归档系统设计方法，其特征在于，该方法包括：

2.如权利要求1所述的基于深度学习的电子公文归档系统设计方法，其特征在于，该归档系统的基础环境为通用的硬件服务器和运行深度学习模型的GPU服务器、操作系统、编译环境和开发环境，为图像处理、上层存储、缓存、消息、应用提供运行支撑。

3.如权利要求1所述的基于深度学习的电子公文归档系统设计方法，其特征在于，预分类模型为电子公文归档系统提供文件上传入口，同时支持流式文件和版式公文上传以及批量上传，满足用户在不同场景下的文件上传需求，预分类的流程包括：判断其为流式文件还是版式公文，对于流式文件，系统从流式文件的公文域、书签提取关键字段流式信息，并将关键字段流式信息与公文正文流式信息通过接口的方式输入到流式信息处理模块中；对于版式公文，系统无法直接从版式公文中提取流式信息，所以需要将版式公文通过版式公文处理模块提取流式信息；在预分类模型中要将用户初始上传的版式公文进行预处理，增强特征。

4.如权利要求3所述的基于深度学习的电子公文归档系统设计方法，其特征在于，在预分类模型中将版式公文进行增强特征包括：

在预分类模型通过DocUNet网络，经过连续的上采样与下采样，建立层间特征映射来复原存在弯折问题的版式电子公文；

之后利用超分辨率技术进一步提升图像品质、寻找低分辨率图像到高分辨率图像之间的映射关系，并通过这个映射关系完成从低分辨率到高分辨率的重建；然后取三色通道的平均值输出灰度图，设定灰度阈值，完成版式电子公文二值化；

最后将二值化后的公文文件输入到版式公文处理模块中。

5.如权利要求4所述的基于深度学习的电子公文归档系统设计方法，其特征在于，超分辨率技术需要建立一个三层的卷积神经网络，第一层卷积完成的工作是对模型输入进行特征提取；第二层卷积工作是对于第一层提取的图像块特征进行非线性映射，在这个环节将经过卷积神经网络的特征图进行上采样，完成高频信息重建，尺度不发生变化，在这一层中将低分辨率的特征映射为高分辨率特征；第三层卷积工作是对于第二层卷积映射后的特征进行重建，生成高分辨率图像，完成版式电子公文增强。

6.如权利要求3-5任一项所述的基于深度学习的电子公文归档系统设计方法，其特征在于，版式公文处理模块通过版式公文处理的光学字符识别能力提取出语言信息，具体包括：

将预分类模型输出的版式电子公文输入到卷积神经网络，得到特征映射图；对上一步卷积神经网络输出的特征图进一步提取高层特征后再接入一个反卷积层，将高层特征图尺度放大到与低层特征图相同，在低层特征图后接入一个卷积核大小为1的卷积层维持特征图尺度不变；

为了防止梯度爆炸或者权值更新引起的梯度难以收敛，在高层特征与低层特征之间接入归一层，对数据进行归一化；

在归一化之后将同尺度的高层特征与低层特征进行点积运算，完成特征融合；

得到融合特征图后，选取一个固定宽度为10个像素的锚点，通过这个锚点将融合特征图序列化，并将序列特征输入BiLSTM网络中；将BiLSTM网络输出结果通过全连接层分类，将目标概率大于70％的文本框保存为正样本，再利用文本线构造对上一步结果进行合并，得到流式信息区域；

得到流式信息区域后要进一步提取流式信息。

7.如权利要求6所述的基于深度学习的电子公文归档系统设计方法，其特征在于，提取流式信息包括：

将上一步得到的流式信息区域，划分为不同尺度，不同长度的文本框，将其输入深层卷积神经网络得到深度特征；

之后对得到的深度特征按照从左到右的顺序划分为连续的时间序列，再将连续的时间序列输入到循环神经网络中，对字符进行序列识别；这里使用的循环神经网络通过引入了注意力机制进行优化，注意力机制模拟了人类视觉在观看图像时的注意力分布方式，人在观察图像时的注意力并不是均匀分布在整个图像之中，而是会将注意力集中在图像的关键信息部分；在循环神经网络对卷积神经网络产生的字符特征序列进行识别分类时，若将完整序列的卷积特征以同等权重进行分析识别，则会将背景纹理特征与非当前字符的纹理特征也考虑进来，会极大的影响字符识别的准确率；注意力机制则会将完整的序列特征进行加权处理，这样就会使利于当前字符识别的关键特征信息被尽可能多的保存下来，而对当前识别任务造成干扰的信息则会被尽可能的忽略；在循环神经网络的内部神经元中，将当前时间步的输入和上一个时间步的隐藏层记忆单元的更新值，输入到多层全连接的神经网络中，计算当前输入序列与字符识别模型当前时间步任务的相关程度，并将其转化为概率权重，将权重概率与输入序列相乘得到加权后的输入序列，将加权后的输入序列与上一个时间步的输出作为一个整体，输入到另一个多层全连接神经网络做进一步的加权；经过这种方式处理的输入序列会对当前时间步的任务有更好的识别效果；

最后将版式公文处理模块输出的流式信息输入到流式信息处理模块中。

8.如权利要求7所述的基于深度学习的电子公文归档系统设计方法，其特征在于，预分类模型和版式公文处理模块输出的流式信息最终都会上传流式信息处理模块进行分类归档，流式信息处理流程包括：

使用BERT-base-Chinese模型作为词向量模型，该模型负责将流式公文中的每个词映射到一个高维向量空间，在该空间中能够更好地捕捉词的语义和句法信息，从而辅助理解公文的上下文关系以及深层结构；

下一步将BERT模型输出的流式公文词向量输入到卷积神经网络与长短时记忆网络结合的文本分类模型中来做公文归档分类；

在对公文进行归档标记之前结合知识库产生的主题语料补充或者结合专家判断提高分类归档的精度。

9.如权利要求8所述的基于深度学习的电子公文归档系统设计方法，其特征在于，核心业务之间采用Feign Client同步调用方式进行通信，互相协作，业务之间形成强耦合；核心业务包括：版式公文处理、流式信息处理和文件归档；被调用方需按约定定义好相关服务接口和参数，并以sdk方式打包发布给服务调用方，调用方在加载sdk开发包后，调用相关接口方法将消息传递给被调用方，并等待被调用方业务处理和响应。

10.如权利要求8所述的基于深度学习的电子公文归档系统设计方法，其特征在于，非核心业务采用消息队列实现异步调用、分散处理，减少服务器资源压力，非核心业务包括：消息通知、日志记录；同时，业务服务与消息队列之间采用主题/订阅模式实现消息的传输和接收，消息提供方为核心业务服务，产生消息并将消息发送到指定主题队列，然后继续处理后续业务，实现非核心业务从核心业务流程中剥离，提高了核心业务处理速度；消息接收方为非核心业务服务，订阅相应主题，从主题队列中接收提供方发送的消息，然后进行相关计算处理，且不影响核心业务流程，实现了业务间解耦和资源优化利用。