CN115543915A

CN115543915A - 人事档案目录自动化建库方法及系统

Info

Publication number: CN115543915A
Application number: CN202211164073.5A
Authority: CN
Inventors: 周兵; 秦依; 王培森; 王俊淇; 李凯江; 李世华
Original assignee: Henan Zhengdaoke Information Technology Co ltd; Zhengzhou University
Current assignee: Henan Zhengdaoke Information Technology Co ltd; Zhengzhou University
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-30

Abstract

本发明属于档案管理技术领域，特别涉及一种人事档案目录自动化建库方法及系统，首先，扫描档案图像，并依据预设条例规定建立用于区分档案类别的一级目录；然后，读取扫描后的档案图像，并提取档案图像中数字分类标号、档案图像标题及档案制表时间；将提取到的数字分类标号、档案图像标题及档案制表时间串接成字符串；最后，通过将数字分类标号与一级目录进行匹配来构建由字符串组成的当前档案图像存放路径的二级目录，并将读取的当前档案图像存放至该二级目录的路径中。本发明通过定位并识别人事档案中带连接符的手写数字分类标号、档案标题以及档案制表时间来构建目录名称，并将相应的电子档案自动存入对应目录下，提高档案数字化加工效率，便于档案数字化管理和归档。

Description

人事档案目录自动化建库方法及系统

技术领域

本发明属于档案管理技术领域，特别涉及一种人事档案目录自动化建库方法及系统。

背景技术

人事档案的数字化管理是对纸质档案进行扫描加工后，将其完整的数字影像文件按《人事档案数字化技术规范》的规则建立目录并归档存储。传统的人事档案数字化目录建档采用人工录入归档存储的方式，首先需要专职档案员手动建立十大类别的一级目录，然后逐一识别档案图像的手写数字标号、标题和制表时间，并根据手写数字标号-标题-制表时间规则建立二级目录，最后将扫描文件手动归档至对应的二级分类目录路径。人工全流程目录建库不仅需要专职档案员具备专业的处理技术，而且过多的人工操作处理，存在主观因素导致判错、效率较低等情况的发生。

发明内容

为此，本发明提供一种人事档案目录自动化建库方法及系统，通过定位并识别人事档案中带连接符的手写数字分类标号、档案标题以及档案制表时间来构建目录名称，并将相应的电子档案自动存入对应目录下，提高档案数字化加工效率，便于档案数字化管理和归档。

按照本发明所提供的设计方案，提供一种人事档案目录自动化建库方法，包含如下内容：

扫描档案图像，并依据预设条例规定建立用于区分档案类别的一级目录；

读取扫描后的档案图像，并提取档案图像中数字分类标号、档案图像标题及档案制表时间，其中，数字分类标号为标记在档案类别首页上且带有连接符的手写数字标号；

将提取到的数字分类标号、档案图像标题及档案制表时间串接成字符串；通过将数字分类标号与一级目录进行匹配来构建由字符串组成的当前档案图像存放路径的二级目录，并将读取的当前档案图像存放至该二级目录的路径中。

作为本发明中人事档案目录自动化建库方法，进一步地，提取档案图像中数字分类标号中，首先，获取档案图像中数字分类标号区域，并对图像进行去噪处理；然后，利用投影法获取数字分类标号区域的位置坐标，并通过图像裁剪获取待处理档案图像数据；接着，利用已训练的YOLOX模型对待处理档案图像数据进行分割识别来获取当前档案图像的数字分类标号。

作为本发明中人事档案目录自动化建库方法，进一步地，YOLOX模型训练中，利用图片标注工具标注带有连接符的手写数字标号作为训练数据集，利用该训练数据集来训练YOLOX模型参数，其中，手写数字标号由“0”至“9”中的任一或多个数字及连接字符组成。

作为本发明中人事档案目录自动化建库方法，进一步地，提取档案图像中的数字分类标号时，若读取的当前档案图像中未提取到数字分类标号，则判定当前档案图像不是档案类别首页；针对非首页的档案图像，则按扫描档案图像扫描顺序，将非首页的档案图像放置至与前一页扫描顺序一致的档案图像存放路径中。

作为本发明人事档案目录自动化建库方法，进一步地，提取档案图像标题时，首先，利用已训练的特征提取模型提取档案图像标题边界框的坐标数据；然后，利用坐标数据定位并通过图像裁剪获取档案图像标题；接着，采用CRNN文字识别算法对裁剪得到的档案图像标题进行文字识别，得到档案图像标题文本序列。

作为本发明人事档案目录自动化建库方法，进一步地，特征提取模型采用ResNet50_vd作为主干网络，并利用DB算法进行网络训练，并在训练过程中，通过上采样和卷积操作将网络中特征金字塔特征层进行融合，通过级联方式产生用于预测概率图和阈值图的特征图；并利用概率图和阈值图生成近似二进制映射图，由近似二进制映射图来获取输入图像标题边界框。

作为本发明人事档案目录自动化建库方法，进一步地，采用CRNN文字识别算法进行文字识别中，在卷积层利用深度CNN对输入图像进行特征提取来获取特征序列，在循环层利用双向RNN对特征序列进行预测，对特征序列中的每个特征向量进行学习，并输出预测标签分布；在转录层利用CTC损失将循环层获取的预测标签分布转换成文本序列。

作为本发明人事档案目录自动化建库方法，进一步地，提取档案制表时间时，首先，依据一级目录中档案类别来判定当前档案图像制表时间所在页；然后，在当前档案图像制表时间所在页，利用已训练的推理模型对当前档案图像进行光学字符识别，获取当前档案图像制表时间所在页的文本信息；接着，将识别获取的文本信息串接成字符串，依据预设时间规则并利用正则表达式来匹配制表时间。

作为本发明人事档案目录自动化建库方法，进一步地，利用已训练的推理模型进行光学字符识别中，首先，将输入的档案图像划分为多个区块；然后，通过对多个区块的文字区域分别进行检测来获取文字位置信息和文字类型；接着，筛选出待识别文字区域，并基于待识别文字区域中的文字类型利用文字识别模型来识别出该待识别文字区域中的文本信息。

进一步地，本发明还提供一种人事档案目录自动化建库系统，包含：图像扫描模块、数据提取模块及档案存放模块，其中，

图像扫描模块，用于扫描档案图像，并依据预设条例规定建立用于区分档案类别的一级目录；

数据提取模块，用于读取扫描后的档案图像，并提取档案图像中数字分类标号、档案图像标题及档案制表时间，其中，数字分类标号为标记在档案类别首页上且带有连接符的手写数字标号；

档案存放模块，用于将提取到的数字分类标号、档案图像标题及档案制表时间串接成字符串；通过将数字分类标号与一级目录进行匹配来构建由字符串组成的当前档案图像存放路径的二级目录，并将读取的当前档案图像存放至该二级目录的路径中。

本发明的有益效果：

本发明通过定位并识别人事档案中带连接符的手写数字标号、档案标题以及档案制表时间来构建人事档案的目录名称，并将相应的电子档案自动存入对应目录下。与传统的人工全流程目录建库相比，既可以保证档案管理加工任务的准确度，也可以减轻档案员的工作强度，提高档案管理工作效率，便于档案数字化管理和归档中的应用。

附图说明：

图1为实施例中人事档案目录自动化建库流程示意；

图2为实施例中待处理档案图像样例示意；

图3为实施例中档案一级目录样例示意；

图4为实施例中档案目录样例示意；

图5为实施例中手写数字标号提取流程示意；

图6为实施例中标题获取流程示意；

图7为实施例中制表时间匹配流程示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对数字化档案人工归档存储中主观因素判错及效率低等情形，本发明实施例，提供一种人事档案目录自动化建库方法，首先，扫描档案图像，并依据预设条例规定建立用于区分档案类别的一级目录；然后，读取扫描后的档案图像，并提取档案图像中数字分类标号、档案图像标题及档案制表时间，其中，数字分类标号为标记在档案类别首页上且带有连接符的手写数字标号；接着，将提取到的数字分类标号、档案图像标题及档案制表时间串接成字符串；通过将数字分类标号与一级目录进行匹配来构建由字符串组成的当前档案图像存放路径的二级目录，并将读取的当前档案图像存放至该二级目录的路径中。

参见图1所示，通过定位并识别人事档案中带连接符的手写数字分类标号、档案标题以及档案制表时间，三个部分的识别提取，共同构成目录名称，并将相应的电子档案自动存入对应目录下。例如，根据《干部档案工作条例》规定，档案正本材料可分为履历类材料、自传和思想类材料、考核鉴定类材料等十大类别，其可建立如图3所示一级目录。由于建立二级目录需要整合带连接符的手写数字标号(图2中S1)、标题(图2中S2)以及制表时间(图2中S3)，本案实施例中，可针对手写数字标号、档案标题及制表时间分别进行提取和匹配。

优选实施例，进一步地，提取档案图像中数字分类标号中，首先，获取档案图像中数字分类标号区域，并对图像进行去噪处理；然后，利用投影法获取数字分类标号区域的位置坐标，并通过图像裁剪获取待处理档案图像数据；接着，利用已训练的YOLOX模型对待处理档案图像数据进行分割识别来获取当前档案图像的数字分类标号。

对扫描后的档案图像进行预处理操作。针对位于档案右上方的手写数字标号，本案实施例中，首先裁剪档案图像的右上方区域，减少处理的区域达到提高定位效率的目的。然后进行去红章、灰度化、二值化一系列图像处理操作，降低档案图像中的噪声干扰。YOLOX模型训练中，利用图片标注工具标注带有连接符的手写数字标号作为训练数据集，利用该训练数据集来训练YOLOX模型参数，其中，手写数字标号由“0”至“9”中的任一或多个数字及连接字符组成。

如图5所示，档案中带连接符的手写数字标号(如图2中S1)位于档案图像的右上角，选取档案图像上方40％、右方40％的区域进行裁剪，减少处理的区域，提高定位效率。之后对图像进行去红章操作，以应对标号写在红章上影响后续数字标号定位的情况，接着对图像进行灰度化、二值化操作，得到手写数字标号的大致区域。利用投影法进行手写数字标号定位，按照先水平投影获取手写数字标号的起始行与终结行进而裁剪，将裁剪出的图像进行垂直投影由右向左获取手写数字标号的起始列与终结列进而裁剪，得到带连接符的手写数字标号的定位图像，作为后续分类的数据集。使用训练好的推测模型对带连接符的手写数字标号的定位图像进行分割和识别，得到档案的手写数字标号。

作为优选实施例，进一步地，提取档案图像中的数字分类标号时，若读取的当前档案图像中未提取到数字分类标号，则判定当前档案图像不是档案类别首页；针对非首页的档案图像，则按扫描档案图像扫描顺序，将非首页的档案图像放置至与前一页扫描顺序一致的档案图像存放路径中。

提取档案图像标题时，进一步地，可首先利用已训练的特征提取模型提取档案图像标题边界框的坐标数据；然后，利用坐标数据定位并通过图像裁剪获取档案图像标题；接着，采用CRNN文字识别算法对裁剪得到的档案图像标题进行文字识别，得到档案图像标题文本序列。

如图6所示，使用PPOCRLabel标注步骤一中的档案图像的标题(如图2中S2)，制作标识档案标题的数据集。采用DB算法和以ResNet50_vd作为骨干网络的预训练模型进行档案标题的文本检测的训练。DB算法可设计为如下内容：

输入：原始档案图像I(x,y)

处理：

1.构造ResNet50_vd网络模型作为backbone，用来提取档案图像标题的特征。通过上采样和卷积的方式将特征金字塔的特征层进行融合，输出转换为同一尺寸，级联(cascade)产生特征图F，作为后续分割任务的特征；

2.通过特征图F预测出概率图P和阈值图T，利用下方公式将概率图P和阈值图T生成近似二进制映射图

其中，

是近似二进制映射图，P_i,j是由分割网络生成的概率图，T_i,j是从网络中学习到的自适应阈值图，μ是放大因子，设定为30。

3.从概率图P和近似二值图

获取边界框，即文本边缘坐标位置。

输出：档案文本边界框的坐标位置I(x₁,y₁)、I(x₂,y₂)、I(x₃,y₃)......I(x_n,y_n)。

考虑到图像与图像中标题坐标的联系，可采用PP-YOLO网络作为预训练模型，使模型收敛更快。将档案数据集放入预训练模型中，经训练生成适合档案的推理模型。将扫描后的档案图像放入训练好的推理模型，得到图像中标题边界框的坐标。在原始档案图像上进行裁剪，得到定位后的标题图像。将裁剪出的标题图像使用CRNN算法进行文字识别，得到识别后的标题文字。

采用CRNN(Convolutional Recurrent Neural Network)文字识别算法进行文字识别时，其网络结构(依次为卷积层、循环层和转录层)可设计为：卷积层：使用深度CNN，对输入图像提取特征，得到特征图；循环层：使用双向RNN对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布；转录层：使用CTC损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

作为优选实施例，进一步地，提取档案制表时间时，首先，依据一级目录中档案类别来判定当前档案图像制表时间所在页；然后，在当前档案图像制表时间所在页，利用已训练的推理模型对当前档案图像进行光学字符识别，获取当前档案图像制表时间所在页的文本信息；接着，将识别获取的文本信息串接成字符串，依据预设时间规则并利用正则表达式来匹配制表时间。

如图7所示，根据档案中具体类别的制表样式获取制表时间所在页。例如，第一类的干部履历表的制表时间在最后一页，第九类的工资变动审批表的制表时间在第一页。将找到的页可使用PaddleOCR的推理模型将扫描后的档案图像整体光学字符识别，得到整页档案图像的全部文本信息。其中，PaddleOCR的OCR识别算法可设计为包含如下步骤：

1.输入：原始档案图像

2.处理：

1)将获取的图像划分成多个区域；

2)对多个区域中的文字区域进行检测，以获取文字区域的位置信息和文字区域的文字类型；

3)对文字区域进行筛选，以确定待识别的文字区域；

4)基于待识别的文字区域中的文字类型，使用指定的识别模型对待识别的文字区域中的文字进行OCR识别；

3.输出：文字识别结果

将OCR识别结果串接成字符串，使用正则表达式来匹配时间。由于OCR对手写字体识别不准确，而“年”、“月”、“日”均为印刷体，其识别准确率高。因此，为避免因手写字体识别不准确导致时间匹配失败的情况，这里将正则规则设定为XXXX年XX月XX日或XXXX年XX月或XXXX年，其中，X代表数字，如图2的制表时间为1987年7月13日。

各类别中首页的档案图像经过识别提取处理之后，可以得到档案中带连接符的手写数字标号、档案标题以及档案制表时间，将其串接成字符串形式，如图2样例的字符串规格为4-1-5-高等学校毕业生登记表-(1987年7月13日)。将手写数字标号第一组数字与对应的一级目录进行匹配。例如手写数字标号第一组数字为4，应当匹配至第四类：学历、培训、评聘、评定类材料。如果档案图像经过步骤二没有识别到手写数字标号，表明此页不是该类别的首页。对于非首页的档案图像，按照扫描档案顺序使其与前一页的目录路径一致，并保持页号连续。获取每一页对应的档案目录路径，如图4所示，将原始扫描档案图像放入相应的档案目录路径中，继而实现档案目录的自动化建库。

进一步地，基于上述方法，本发明实施例还提供一种人事档案目录自动化建库系统，包含：图像扫描模块、数据提取模块及档案存放模块，其中，

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人事档案目录自动化建库方法，其特征在于，包含如下内容：

2.根据权利要求1所述的人事档案目录自动化建库方法，其特征在于，提取档案图像中数字分类标号中，首先，获取档案图像中数字分类标号区域，并对图像进行去噪处理；然后，利用投影法获取数字分类标号区域的位置坐标，并通过图像裁剪获取待处理档案图像数据；接着，利用已训练的YOLOX模型对待处理档案图像数据进行分割识别来获取当前档案图像的数字分类标号。

3.根据权利要求1或2所述的人事档案目录自动化建库方法，其特征在于，YOLOX模型训练中，利用图片标注工具标注带有连接符的手写数字标号作为训练数据集，利用该训练数据集来训练YOLOX模型参数，其中，手写数字标号由“0”至“9”中的任一或多个数字及连接字符组成。

4.根据权利要求1或2所述的人事档案目录自动化建库方法，其特征在于，提取档案图像中的数字分类标号时，若读取的当前档案图像中未提取到数字分类标号，则判定当前档案图像不是档案类别首页；针对非首页的档案图像，则按扫描档案图像扫描顺序，将非首页的档案图像放置至与前一页扫描顺序一致的档案图像存放路径中。

5.根据权利要求1所述的人事档案目录自动化建库方法，其特征在于，提取档案图像标题时，首先，利用已训练的特征提取模型提取档案图像标题边界框的坐标数据；然后，利用坐标数据定位并通过图像裁剪获取档案图像标题；接着，采用CRNN文字识别算法对裁剪得到的档案图像标题进行文字识别，得到档案图像标题文本序列。

6.根据权利要求5所述的人事档案目录自动化建库方法，其特征在于，特征提取模型采用ResNet50_vd作为主干网络，并利用DB算法进行网络训练，并在训练过程中，通过上采样和卷积操作将网络中特征金字塔特征层进行融合，通过级联方式产生用于预测概率图和阈值图的特征图；并利用概率图和阈值图生成近似二进制映射图，由近似二进制映射图来获取输入图像标题边界框。

7.根据权利要求5所述的人事档案目录自动化建库方法，其特征在于，采用CRNN文字识别算法进行文字识别中，在卷积层利用深度CNN对输入图像进行特征提取来获取特征序列；在循环层利用双向RNN对特征序列进行预测，对特征序列中的每个特征向量进行学习，并输出预测标签分布；在转录层利用CTC损失将循环层获取的预测标签分布转换成文本序列。

8.根据权利要求1所述的人事档案目录自动化建库方法，其特征在于，提取档案制表时间时，首先，依据一级目录中档案类别来判定当前档案图像制表时间所在页；然后，在当前档案图像制表时间所在页，利用已训练的推理模型对当前档案图像进行光学字符识别，获取当前档案图像制表时间所在页的文本信息；接着，将识别获取的文本信息串接成字符串，依据预设时间规则并利用正则表达式来匹配制表时间。

9.根据权利要求8所述的人事档案目录自动化建库方法，其特征在于，利用已训练的推理模型进行光学字符识别中，首先，将输入的档案图像划分为多个区块；然后，通过对多个区块的文字区域分别进行检测来获取文字位置信息和文字类型；接着，筛选出待识别文字区域，并基于待识别文字区域中的文字类型利用文字识别模型来识别出该待识别文字区域中的文本信息。

10.一种人事档案目录自动化建库系统，其特征在于，包含：图像扫描模块、数据提取模块及档案存放模块，其中，