CN109446997A

CN109446997A - 文档编号自动识别方法

Info

Publication number: CN109446997A
Application number: CN201811282479.7A
Authority: CN
Inventors: 段磊; 梁卫国; 刘涛; 李伟鹏; 张宁; 夏红燕; 于萌; 赵彦龙
Original assignee: Zibo Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Zibo Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-03-08

Abstract

本发明涉及涉密载体管理技术领域，具体涉及一种文档编号自动识别方法，通过图像采集装置扫描文档编号，并区分文档编号书写形式，分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法，本发明针对当前涉密文档信息化建设中的文档编号自动识别方法开展研究，通过提出融合欧拉数和模板匹配的机打编号自动识别算法，有效改善了传统模板匹配算法在相似字符识别中错误率较高的不足，而且较大幅度的提升了自动识别的速率。另外，针对不同人手写编号差距较大，难以采用传统识别方法实现编号识别的困难，本发明构建了大规模数据集，训练了深度稀疏自动编码器网络模型，实现了手写编号的高准确度自动识别。

Description

文档编号自动识别方法

技术领域

本发明涉及涉密载体管理技术领域，具体涉及一种文档编号自动识别方法。

背景技术

随着信息技术和网络技术的不断发展，涉密文件档案的信息化建设和智能化管理在档案事业发展中扮演着越来越重要的角色。因涉密文档材料的特殊性，在一定程度上影响了其数字化的进程，例如，目前实体涉密文件收发登记方式仍然需要通过人工录入等手段，将相关信息在数据库中进行归集、汇总和索引，以便于信息的检索和查询。

在文档资料管理过程中，通常需要为每一份文档分配一组唯一的文档编号，作为该文档的识别码，这不仅方便于文档的分类存放，也便于文档查询。因此，在实体涉密文件的收发登记时，可以通过图像采集的方式获取文档编号，然后基于文档编号自动识别技术实现涉密文件的自动收发登记。因此，文档编号的自动识别成为涉密文件收发信息准确登记的关键影响因素。按照书写形式不同，文档编号分为机打编号和手写编号两种，且文档编号通常由英文字母、数字、连接线混合编写组成。正是由于文档编号书写形式不同和复杂的组编方式，导致文档编号识别的准确度与实际需求产生较大差距。

目前已有编号自动识别算法主要针对纯数字序号或机打印书体编号，编号模式比较简单，数据量较小。这些编号自动识别算法无法直接应用于文档编号的自动识别中。

显然，现有的涉密文档收发文登记方式已不能够满足智能化管理的需要，因此急需通过一套先进的管理系统对各类收发文件进行归类登记和汇总，在减少人员投入的同时，确保重要文件数量及传阅路径的全过程管控，利用信息化手段提高工作效率。

发明内容

为了解决上述技术问题中的不足，本发明的目的在于：提供一种文档编号自动识别方法，较大幅度的提升了自动识别的速率和准确度。

本发明为解决其技术问题所采用的技术方案为：

所述文档编号自动识别方法，通过图像采集装置扫描文档编号，并区分文档编号书写形式，分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法，所述基于特征匹配的机打编号识别方法包括以下步骤：

(1)构建样本标准模板库，样本标准模板库中的标准样本是经过二值化处理的数字模板，且模板大小相同；

(2)将采集的文档编号标准化为与二值化处理的数字模板大小相同；

(3)通过计算文档编号欧拉数进行前期粗分类，然后进行模板匹配识别；

(4)通过模板匹配相似度计算公式，进行模板匹配识别，从待识别文档编号中提取若干特征量与已有数字模板相应的特征量逐个进行比较，计算它们之间规格化的相关量，其中相关量最大的一个就表示其间相似程度最高，可将文档编号归于该类；

(5)对于未正确识别的文档编号，则采用人工更正方式保证录入文档收发系统的文档编号正确；

所述基于稀疏自动编码器的手写编号识别方法包括以下步骤：

1)对手写的文档编号进行预处理，主要包括去噪增强预处理，字体校正处理，并进行文档编号分割，将所有手写文档编号大小归一化为同一像素，用做网络输入；

2)对深度稀疏自动编码器设置初始网络参数，对手写的文档编号进行识别；

3)不断调整网络参数，通过贪婪训练方法逐层训练每一级稀疏自动编码器，最终整完成个网络的训练，不断提高对手写的文档编号识别率，获得丰富的手写文档编号特征，构建鲁棒性更强的分类模型。

进一步优选，模板匹配相似度计算公式如下：

其中，f表示二值模板图像，g表示待识别的二值图像，两幅图像的大小一致，均为M×N， T_f和T_g分别表示对应于二值图像中值为1的像素个数，∧表示与运算。

进一步优选，深度稀疏自动编码器由多层稀疏自动编码器级联而成，前一级稀疏自动编码器的网络隐层输出作为后一级稀疏自动编码器网络输入。

与现有技术相比，本发明具有以下有益效果：

本发明针对当前涉密文档信息化建设中的文档编号自动识别方法开展研究，通过提出融合欧拉数和模板匹配的机打编号自动识别算法，有效改善了传统模板匹配算法在相似字符识别中错误率较高的不足，而且较大幅度的提升了自动识别的速率。另外，针对不同人手写编号差距较大，难以采用传统识别方法实现编号识别的困难，本发明构建了大规模数据集，训练了深度稀疏自动编码器网络模型，实现了手写编号的高准确度自动识别，本发明研究的文档编号自动识别理论，可以在多种场合的编号识别中进行应用。

具体实施方式

下面对本发明实施例做进一步描述：

实施例1

本发明所述文档编号自动识别方法，通过图像采集装置扫描文档编号，并区分文档编号书写形式，分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法，所述基于特征匹配的机打编号识别方法包括以下步骤：

其中，模板匹配相似度计算公式如下：

简单模板匹配能够实现基本的文档编号识别功能，但是对于相似性较强的字符，也容易产生误识，例如字符G和Q，C和O，B和8。为了克服误识情况的发生，提高文档编号识别准确度，本发明提出通过计算字符图像欧拉数进行前期粗分类，然后进行模板匹配识别的思路，对于未正确识别的字符，则采用人工更正方式保证录入文档收发系统的编号正确。

欧拉数定义为E，它表示一幅图像区域中的孔数H和连接部分数C的差，即：

E＝C-H (2)

其中，连接部分数C是指图像中的有多少个单独连接的部分，而其中的每一个部分都是连接在一块的，例如字母A，连接数C为1，孔洞数H为1，则欧拉数为0。

自动编码器介绍如下：

深度网络是一种具有多层结构的神经网络，通过逐层的自动学习实现输入数据的深层次特征表达和分类。自动编码器(autoencoder，简称AE)是一种包含输入层、隐层和输出层的 3层神经网络，其中，隐含层实现了对数据的特征提取，输出层则实现了对特征数据的重构。自动编码器的训练目标是使网络输出与输入数据的重构误差最小。

编码过程如下式：

h＝s_f(Wx+p) (3)

其中，s_f表示隐含层激活函数，通常为sigmoid函数s_f(t)＝1/(1+exp(-t))，W^d×n是权重矩阵，p∈R^n×1表示输入层神经元偏执向量，输入向量为x∈R^n×1，编码输出为h∈R^d×1，h是输入向量x的特征表达形式。

解码过程如下式：

x′＝s_g(W′h+q) (4)

其中，s_g表示输出层激活函数，W′是隐层到输出层权重矩阵，其数值与权重矩阵W^d ^×n的转置相同，q∈R^d×1是隐层神经元偏执向量，解码结果x′∈R^n×1作为重构数据输出。

通过训练，自动编码器可实现权重矩阵和偏置向量参数θ＝{W,W′,p,q}的自动调整，并使得输入x与输出x′之间的重构误差最小。重构误差函数如下：

其中，m为样本的数量，x_i为输入向量，x′_i为输出向量，θ为网络中全体参数的集合。稀疏自动编码器介绍如下：

通常情况下，自动编码器隐层节点少于输入层节点，从而实现输入数据特征提取。但当隐层节点数量较大，超过输入层节点数量时，自动编码器仍可实现输入数据特征提取，但所得特征往往存在冗余信息，且增加了参数数量，使训练复杂程度增加。因此，研究者提出加入稀疏性限制的思想，并提出稀疏自动编码器(sparse autoencoder，SAE)，其核心思想是：对隐层进行约束，使其变得稀疏。

稀疏自动编码器使用KL散度，为自动编码器添加稀疏性限制：

其中，为隐层平均活跃度，ρ是接近于0的常量。KL(ρ||ρ_j)表示分别以ρ和ρ_j为均值的两个变量之间的相对熵，计算如下：

则稀疏自动编码器的总重构误差如下：

其中，β是控制稀疏限制的权重因子。

本发明采用的深度稀疏自动编码器由多层稀疏自动编码器级联而成，前一级网络隐层输出作为后一级网络的输入，并通过贪婪训练方法逐层训练每一级稀疏自动编码器，最终整完成个网络的训练。

实验与分析过程及结果如下：

为了验证本发明所提文档编号自动识别算法的有效性，实验采用MATLAB R2014a软件实现，实验分为机打编号自动识别和手写编号自动识别，其中编号测试样本均由英文字母、数字、连接线随机组合而成。

机打编号识别实验：

本发明实验中采用了50组机打档案编号作为测试样本，档案编号长度不少于6个字符。机打字符模板构建已在第2节中介绍，本发明构建的标准模板样本共63个模式，分别为26个大写英文字母、26个小写英文字母、10个数字、1个连接线字符。由于机打编号格式较为规范，所以前期的图像预处理工作较少，字符分割过程中，本发明利用图像灰度值垂直投影形成的空白间隙将单个字符分割出来，然后将分割得到的字符进行标准化处理，进一步用于计算欧拉数和模板匹配。

为了说明本发明所采用的基于欧拉数的前期粗分类和模板匹配相结合的识别方法的有效性，实验中与经典的模板匹配方法进行了实验对比，实验结果如表1所示。

表1机打编号自动识别实验数据

实验数据表明了本发明所提方法的有效性，经过基于欧拉数的前期粗分类，不仅有效避免了不同字符之间的干扰作用，提升了识别准确率，而且缩小了模板匹配过程中的搜索范围，有效缩短了模板匹配时间，平均识别时间得到大幅降低。

手写编号识别实验

手写编号识别实验中采用了50组随机手写的档案编号作为测试样本，档案编号长度不少于6个字符。稀疏自动编码器训练过程中，采用了3900幅大写手写英文字母图像、3900幅小写英文字母图像、5000幅手写数字和连接线图像用于网络训练。另外，由于手写编号差异较大，容易存在多种干扰因素，例如墨迹污染、字体倾斜等。因此，在使用测试样本进行识别前，需要对测试样本图像进行必要的图像去噪增强预处理，并对倾斜角度较大的字体进行校正，字符分割过程仍然采用图像灰度值垂直投影形成的空白间隙将单个字符分割出来，然后将所有手写字符大小归一化为20x25像素，用做网络输入。网络初始参数如表2所示。

表2聚合网络初始参数设置

Table 2 Initial parameters setting of network

在初始网络参数设置下，手写档案编号的识别准确度仅能达到28％，误差巨大，因此需对网络参数进行调试。本发明实验中分别对表2中的参数进行了优化和调整，确定的网络最优参数如表3所示。

表3最优网络参数配置

Table 3 Optimal parameter configuration of network

经过网络参数的逐步调整，基于稀疏自动编码器的手写档案号识别性能得到大幅提升，在50组随机手写的测试档案号中识别率达到98％。

Claims

1.一种文档编号自动识别方法，其特征在于，通过图像采集装置扫描文档编号，并区分文档编号书写形式，分为采用基于特征匹配的机打编号识别方法和基于稀疏自动编码器的手写编号识别方法，所述基于特征匹配的机打编号识别方法包括以下步骤：

2.根据权利要求1所述的文档编号自动识别方法，其特征在于，模板匹配相似度计算公式如下：

其中，f表示二值模板图像，g表示待识别的二值图像，两幅图像的大小一致，均为M×N，T_f和T_g分别表示对应于二值图像中值为1的像素个数，∧表示与运算。

3.根据权利要求1所述的文档编号自动识别方法，其特征在于，深度稀疏自动编码器由多层稀疏自动编码器级联而成，前一级稀疏自动编码器的网络隐层输出作为后一级稀疏自动编码器网络输入。