CN112800946A

CN112800946A - 一种污损发票识别方法

Info

Publication number: CN112800946A
Application number: CN202110107015.8A
Authority: CN
Inventors: 宋晓茹; 成思齐; 任盼飞; 王婧; 杨佳; 李彤晖
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-14
Anticipated expiration: 2041-01-27
Also published as: CN112800946B

Abstract

本发明涉及改进AlexNet对不平衡小样本污损发票识别方法。该方法主要如下：针对数据集中的正负样本不平衡问题，利用DCGAN生成对抗网络生成相似的数据样本增加受损发票多样性。再是对AlexNet网络进行针对性改进，有三个改进点：一是加入了1*1卷积核，既帮助减少模型参数，又能增加网络层深度，提升网络模型的特征提取能力；二是加入了通道洗牌模块，将各种特征打乱分布，提高网络对于图片多种特征的更深层次的抓取能力和网络识别的泛化能力和鲁棒性；三是加入了SE模块，通过对特征通道间的相关性进行建模，强化重要的特征来提升准确率。本发明通过这三点改进AlexNet用于发票识别，针对实际中遇到的破损发票的识别率以及提高识别方法的泛化性和鲁棒性。

Description

一种污损发票识别方法

技术领域

本发明属于计算机视觉和人工智能技术领域，具体涉及一种污损发票识别方法。

背景技术

发票自动识别系统是目前文本分类中一个比较热点的方向，发票自动处理系统主要涉及到图像处理、模式识别等方面的学科知识，主要包括图像预处理、信息区域定位、字符切割和识别等处理过程，已被广泛应用于信息处理、差旅报销和人机交互等领域。而由于现实生活中的发票可能存在多种保存问题以及难以预测的污损，由于发票样式的固定性，发票号码和纳税人识别号分别在右上角和左上角，这两个地方被污染的可能性高于其它地方，但如果是折痕或者有大片污迹其它区域的样本也有可能会受损。针对污损发票的识别成为一项重要的研究热点。

使用机器学习方法进行图像识别主要在于对图像特征的提取，特征提取的有效性影响着识别准确率的高低。深度学习作为机器学习一个新的分支，通过模拟人脑机制对数据信息进行分析处理。深度学习中的卷积神经网络在图像识别领域取得了重大突破，能够自学习图像由低级到高级的特征，避免了机器学习中手动提取特征的缺点。但卷积神经网络在训练时需要海量样本的支撑，在数据不足时，会出现过拟合问题。

此外，训练样本的不平衡问题是一个值得思考的问题。训练样本某些权值分布较大，某些权值分布较小，最终会影响到卷积神经网络模型的训练和预测时的置信度。

因此，需要一种新的技术方案来解决利用卷积神经网络对小样本图像识别时会发生的过拟合问题和样本不平衡时置信度低的问题。

发明内容

本发明提供了一种污损发票识别方法，解决了现有识别方法样本的不平衡问题、传统机器学习方法手动提取特征效率低的问题、现有卷积神经网络需要大量样本支撑训练的问题、现有方法对破损发票进行识别鲁棒性差的问题。

为了达到上述目的，本发明所采用的技术方案是：

一种污损发票识别方法，包括以下步骤：

先不写，待定稿后由代理师撰写

本发明的有益效果：

本发明所提出的污损发票识别方法，通过搭建DCGAN对抗神经网络模型对少量标签进行扩充，降低了不平衡问题带来的置信度低的问题；利用卷积神经网络方法避免了手动提取特征的不足，通过改进CNN的方法解决了深度学习用时久耗费资源并需要大量样本支撑训练的缺点。该方法建立的深度神经网络模型，结构更加紧凑，需要的样本量更小，且对不平衡问题也有很好的解决办法。

附图说明

图1为本发明方法的流程图；

图2为本发明方法DCGAN神经网络的生成器模型设计；

图3为本发明方法DCGAN神经网络的判别器模型设计；

图4为两种不同大小卷积核参数对比示意图；

图5为本发明方法通道洗牌原理示意图；

图6为本发明方法SE模块原理示意图；

图7为本发明方法改进的AlexNet网络结构图。

具体实施方式

下面结合附图和具体实施对本发明作进一步详细说明。

本发明的基本思路是：针对训练数据集中的正负样本不平衡问题，利用 DCGAN对抗生成网络生成与原始训练数据服从近似分布的数据样本，增加少量样本多样性。再是对用于破损发票识别的AlexNet网络进行针对性改进，有三个改进点：一是卷积神经网络里大的卷积核会导致计算量的暴增，不利于模型深度的增加，计算性能也会降低的问题加入了1*1卷积核，既帮助减少模型参数，又能增加网络层深度，一定程度上提升了网络模型的特征提取能力；二是 AlexNet中全部采用Group Convolution造成的模型泛化能力差的问题加入了通道洗牌模块，将各种特征打乱分布，提高网络对于图片多种特征的更深层次的抓取能力和网络识别的泛化能力和鲁棒性；三是针对发票图片识别率不够高的问题，加入了SE模块，SEnet通过对特征通道间的相关性进行建模，把重要的特征进行强化来提升准确率。本发明通过这三点改进AlexNet用于发票识别，针对实际中遇到的破损发票的识别率以及提高识别方法的泛化性和鲁棒性。

参见图1，本发明一种污损发票识别方法，包括以下步骤：

步骤1，获得破损发票数据集，并经过预处理切割出发票关键部分图像信息，将图像统一到相同的224*224大小尺寸。

步骤2，对发票数据集不平衡问题的处理：设计对抗神经网络模型，对数据集中少量的一方进行训练，然后利用训练好的生成网络生成与训练数据服从近似分布的新样本，扩增少量的样本；具体的对抗神经网络模型包括生成器和判别器的设计，生成器以随机噪音作为输入，输出三通道伪发票特征图像，判别器以真实人脸图像和生成器生成的伪人脸图像为输入，输出是0或1的概率，分别代表真实图像或假图像；对抗神经网络在训练时的最终目的是使判别网络无法判断生成网络的输出结果是否真实，训练过程结束后，可用生成器模型进行样本生成。

步骤3，在AlexNet网络的第四层后增加一层通道洗牌卷积层 (channe1shuffle)，经过channel shuffle之后，输出的卷积特征由不同通道特征组合起来，增加了每组卷积层的多样性特征，提升网络特征提取能力增强网络的泛化能力和鲁棒性。

步骤4：在AlexNet网络第三层和第四层之间增加了一个卷积核大小为1× 1的卷积层，来加快模型运行速度和提升网络性能。

步骤5：经过第一层卷积和池化后的特征向量数量是最多的，在这一层加入 SE模块，一组特征在上一层被输出，这时候分两条路线，第一条直接通过，第二条首先进行Squeeze操作(Global Average Pooling)，把每个通道2维的特征压缩成一个1维，从而得到一个特征通道向量(每个数字代表对应通道的特征) 然后进行Excitation操作，把这一列特征通道向量输入两个全连接层和sigmoid，建模出特征通道间的相关性，得到的输出其实就是每个通道对应的权重，把这些权重通过Scale乘法通道加权到原来的特征上(第一条路)，这样就完成了特征通道的权重分配，提取更有用的特征，提高网络正确率。

步骤6：针对修改后的迁移模型，在平衡后的人脸数据集上进行后面全连接层的训练，得到训练好的小样本人脸识别模型；训练过程包括前向传播过程和反向传播的过程。具体地反向传播包括更新参数的梯度下降算法和正则化损失函数作为反向更新的目标函数。

步骤7：预测：将在目标数据集上训练好的AlexNet识别模型应用到新的测试目标数据集上，输出预测结果。

下面通过一个具体的实施例对本发明进行详细说明：

步骤1，实际采集破损发票数据集，收集了108张有污损的增值税发票，用于测试卷积神经网络对数字识别的准确率，总共有3946个数字，汉字金额235 个，各类符号51个；首先将发票字符串图像作为下一步待切割的图像，将发票号码等信息区域进行切割和提取，获取到发票上的纳税人识别号、发票号码、发票校验码、税额、税率、金额(包括数字和汉字)、数量、单价等关键信息，然后将所有图像统一到224*224大小。

步骤2，对破损数据集不平衡问题的处理：设计对抗神经网络模型，对数据集中少量的一方进行训练，然后利用训练好的生成网络生成与训练数据服从近似分布的新样本，扩增少量的样本；设计生成器和判别器如图2和图3所示，生成器以随机噪音作为输入，输出二维伪发票信息特征图像；判别器以真实人脸图像和生成器生成的伪人脸图像为输入，输出是0或1的概率，分别代表真实图像或假图像；在训练过程中，对抗神经网络训练的目标函数为：

其中x代表真实数据，z代表随机噪音，D(x)代表判别器判别为真实样本的概率，D(G(z))代表判别器判别为生成图像的概率，训练的最终目的是使判别网络D无法判断生成网络G的输出结果是否真实；

在训练好生成器后，对少量的发票受损符号和汉字图像进行扩充，与发票数据集中未受损数据集数量一致。

步骤3，搭建经典卷积神经网络AlexNet，作为特征提取器，不再参与训练。

Alex-Net卷积神经网络的结构：

卷积层C1，池化层S1，卷积层C2，池化层C2，卷积层C3，卷积层C4，卷积层C5，池化层S5，全连接层F6，全连接层F7，输出层F8；

步骤4，改进Alex-Net卷积神经网络的结构改进点1：在AlexNet网络第三层和第四层之间增加了一个卷积核大小为1×1的卷积层，来加快模型运行速度和提升网络性能；

AlexNet中用到了一些非常大的卷积核，比如11×11、5×5卷积核，之前的观念是，卷积核越大，receptive field(感受野)越大，看到的图片信息越多，因此获得的特征越好。虽说如此，但是大的卷积核会导致计算量的暴增，不利于模型深度的增加，计算性能也会降低。

根据图4所示，我们来做个对比计算，假设输入feature map的维度为256 维，要求输出维度也是256维。有以下两种操作：

①256维的输入直接经过一个3×3×256的卷积层，输出一个256维的 featuremap，那么参数量为：256×3×3×256＝589,824

②256维的输入先经过一个1×1×64的卷积层，再经过一个3×3×64的卷积层，最后经过一个1×1×256的卷积层，输出256维，参数量为：256×1 ×1×64+64×3×3×64+64×1×1×256＝69,632。足足把第一种操作的参数量降低到九分之一。

步骤5，改进Alex-Net卷积神经网络的结构改进点2：在AlexNet网络的第四层后增加一层通道洗牌卷积层，经过channel shuffle之后，输出的卷积特征由不同通道特征组合起来，增加了每组卷积层的多样性特征，提升网络特征提取能力增强网络的泛化能力和鲁棒性；

在AlexNet的Group Convolution当中，特征的通道被平均分到不同组里面，最后再通过两个全连接层来融合特征，这样一来，就只能在最后时刻才融合不同组之间的特征，对模型的泛化性是相当不利的。group convolution层另一个问题是不同组之间的特征图需要通信，否则就好像分了几个互不相干的路，大家各走各的，会降低网络的特征提取能力，表现在识别能力上就是识别的鲁棒性更高。

步骤6，改进Alex-Net卷积神经网络的结构改进点3：经过第一层卷积和池化后的特征向量数量是最多的，在这一层加入SE模块，完成了特征通道的权重分配，提取更有用的特征，提高网络正确率。

一组特征在上一层被输出，这时候分两条路线，第一条直接通过，第二条首先进行Squeeze操作(Global Average Pooling)，把每个通道2维的特征压缩成一个1维，从而得到一个特征通道向量(每个数字代表对应通道的特征)。然后进行Excitation操作，把这一列特征通道向量输入两个全连接层和sigmoid，建模出特征通道间的相关性，得到的输出其实就是每个通道对应的权重，把这些权重通过Scale乘法通道加权到原来的特征上(第一条路)，这样就完成了特征通道的权重分配。

图6是SE模块的示意图。其中X指输入，U是主干网络每一层卷积层的输出，

表示结合了权重之后最终的输出。首先是Squeeze操作，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的。

Squeeze操作是利用全局的池化，将大小为C×H×WC×H×WC×H×W的输入特征综合C×1×1C×1×1C×1×1的特征描述，对于一张特征图来说，计算如下：

在SE-AlexNet对比了平均池化和最大池化，数据如下，发现平均池化是比最大池化更合适。

经过上述的Squeeze操作后，网络仅仅得到了一个全局描述，这个描述并不能作为该通道的权重。因此还要进行Excitation操作，该操作主要的目的是比较全面的获取到通道级别的依赖。同时应该满足灵活和能够学习非互斥强调的能力。基于上述的目的和要求，该操作包含了两个全连接层和Sigmoid激活函数。全连接层能够很好的融合全部的输入特征信息，而Sigmoid函数也能够很好的将输入映射到0～1区间。该操作的公式如下：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z)) (10)

其中z为Squeeze操作获得的全局描述，δ表示Relu函数，保证输出为正， W1,W2为两个全连接层，其中

其中r为缩放参数，主要用于减轻网络的计算复杂度和参数量。后面作者也对该参数进行了一些尝试。

在SE-AlexNet模块中对比了不同的激活函数，最终选择Sigmoid函数作为激活函数。

最后是一个Reweight(融合操作)，将Excitation的输出的权重看做是进过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。就是简单的乘法运算：

本专利使用平均池化作为Squeeze操作。紧接着两个Fully Connected层组成一个Bottleneck结构去建模通道间的相关性，并输出和输入特征同样数目的权重。首先将特征维度降低到输入的1/16，然后经过ReLu激活后再通过一个Fully Connected层升回到原来的维度。

经过第一层卷积和池化后的特征向量数量是最多的，在这一层加入SE模块，完成了特征通道的权重分配，提取更有用的特征，提高网络正确率。

步骤7：预测：针对训练好的人脸识别模型，在新的未知图像做预测。

本发明提供的方法，在对改进的AlexNet，模型的权值采用改进初始化方法后，然后对该网络进行训练和测试，经过3500次迭代后，训练集和测试集的识别正确率对比曲线如图8(a)所示，loss损失值对比曲线如图8(b)所示，其中深色表示测试集，浅色表示训练集。在3500次迭代的过程中网络逐渐收敛，训练集识别率达到了99％以上，由于被污损的发票图像经过预处理与切割字符之后得到的样本质量较差，没有达到高质量数据集识别的99％识别率；测试集的识别率在97.5％左右。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种污损发票识别方法，包括以下步骤：

步骤1，获得并预处理破损发票数据集；

步骤2，处理破损发票数据集的不平衡问题，设计对抗神经网络模型，对数据集中少量的一方进行训练，然后利用训练好的生成网络生成与训练数据服从近似分布的新样本；

步骤3，搭建卷积神经网络经典网络模型AlexNet作为特征提取器；

步骤4，在AlexNet网络的第四层卷积层后增加一层通道洗牌卷积层；

步骤5，在AlexNet网络第三层卷积层和第四层卷积层之间增加一个1×1卷积；

步骤6，在AlexNet网络第一层卷积层和池化层之后加入SE模块进行特征通道的权重分配，提取更有用的特征，提高网络正确率；

步骤7，训练：用扩充后的发票数据集作为样本库训练改进的AlexNet网络，设置3500个epoch，直至训练准确率稳定；

步骤8，预测：针对训练好的在AlexNet网络模型，在新的未知图像做预测。

2.根据权利要求1所述污损发票识别方法，其特征在于一种改进的AlexNet的不平衡小样本污损发票识别方法，所述步骤1中，收集若干张有污损的发票，首先将发票字符串图像作为下一步待切割的图像，将发票的信息区域进行切割和提取，获取到发票上的关键信息，包括纳税人识别号、发票号码、发票校验码、税额、税率、金额、数量、单价，所述金额包括数字和汉字。

3.根据权利要求1所述污损发票识别方法，其特征在于，所述步骤2中，包括分别设计DCGAN对抗生成网络中的生成网络结构、判别网络结构和训练过程中迭代次数、损失函数和优化参数的方法。