CN110084327A

CN110084327A - 基于视角自适应深度网络的票据手写数字识别方法及系统

Info

Publication number: CN110084327A
Application number: CN201910359135.XA
Authority: CN
Inventors: 陈羽中; 黄腾达; 柯逍; 林洋洋
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-02
Anticipated expiration: 2039-04-30
Also published as: CN110084327B

Abstract

本发明涉及一种基于视角自适应深度网络的票据手写数字识别方法及系统，该方法包括以下步骤：步骤A：使用带类别标签的数字图像训练视角自适应的深度网络；步骤B：对彩色票据图像进行预处理，得到二值图像；步骤C：使用积分投影法对二值图像进行分割，得到各数字图像；步骤D：将各数字图像分别输入到深度网络进行数字识别，得到分类结果。该方法及系统解决了票据手写数字识别中存在的字形字体变化导致识别出错、视角变化对识别造成影响的问题，有利于提高票据手写数字识别的准确度和速度。

Description

基于视角自适应深度网络的票据手写数字识别方法及系统

技术领域

本发明涉及模式识别与计算机视觉技术领域，具体涉及一种基于视角自适应深度网络的票据手写数字识别方法及系统。

背景技术

票据作为交易的重要凭证，在银行、证券、保险等行业中应用广泛，使用率极高。而票据上的手写数字因其包含了交易的主要信息，在业务往来中需保存使用。为了完成票据信息的电子化，传统的方法是依赖大量人力去手动输入手写数字信息，该方法成本高、容易出错，不利于提高办公效率。随着计算机视觉技术的不断进步，使得自动识别票据上的手写数字成为可能。通过手机等设备采集票据图像，并经计算机处理，便可自动识别出票据上的数字，该方法速度快，大大降低了录入成本，同时提升准确率。

但自动识别票据手写数字也存在着很多挑战。首先，因个人书写习惯不同导致同一手写数字具有不同的字体字形，这些差异给数字识别带来了较大的挑战，极大地降低了识别准确率。然后，因摄像头拍摄角度不同的缘故，导致数字倾斜的问题，也给识别造成影响，使得分类出现错误。最后，票据具有不同的样式风格，从图像中分割得到单个数字图像以进行识别变得非常困难，进一步影响了识别的精度。

发明内容

本发明的目的在于提供一种基于视角自适应深度网络的票据手写数字识别方法及系统，该方法及系统有利于提高票据手写数字识别的准确度和速度。

为实现上述目的，本发明的技术方案是：一种基于视角自适应深度网络的票据手写数字识别方法，包括以下步骤：

步骤A：使用带类别标签的数字图像训练视角自适应的深度网络；

步骤B：对彩色票据图像进行预处理，得到二值图像；

步骤C：使用积分投影法对二值图像进行分割，得到各数字图像；

步骤D：将各数字图像分别输入到深度网络进行数字识别，得到分类结果。

进一步地，所述步骤A中，使用带类别标签的数字图像训练视角自适应的深度网络，包括以下步骤：

步骤A1：将带类别标签的数字图像随机分成若干个批次，每个批次包含N张数字图像；

步骤A2：将每个批次的数字图像分别输入到视角自适应的深度网络，所述深度网络由线性整流函数控制激活的卷积层以及带视角变换矩阵和激活值的投票层构成，得到各张图像预测的类标签向量；

步骤A3：根据目标损失函数loss，利用反向传播方法计算所述深度网络中各参数的梯度，并利用随机梯度下降方法更新参数；

其中，目标损失函数loss定义如下：

其中，exp()和log()分别是以自然常数为底的指数函数和对数函数，x为所述深度网络输出的预测的类标签向量，所述预测的类标签向量的每个元素表示图像预测的属于某一类别的概率，class为图像正确的类别，x[j]表示向量x的第j个元素，x[class]表示预测的属于图像正确类别的概率，loss为目标损失函数值；

步骤A4：以批次为单位重复进行上述A2和A3步骤，直至步骤A3中计算得到的loss值收敛到阈值T，保存网络参数，完成训练过程。

进一步地，所述步骤A2中，将每个批次的数字图像分别输入到视角自适应的深度网络，得到各张图像预测的类标签向量，包括以下步骤：

步骤A21：将数字图像输入到由线性整流函数控制激活的卷积层，按如下公式输出图像特征：

conv_output＝ReLU(I⊙K)

其中，I为图像块，K为卷积核，⊙表示卷积操作，conv_output为该图像块的输出值，ReLU()为线性整流函数，其公式如下：

a表示ReLU函数的输入值；

步骤A22：将卷积层输出的图像特征输入到带视角变换矩阵和激活值的投票层，按如下公式计算输出的激活值：

其中，d表示该层第d个投票单元，act_d为d单元输出的激活值，sigmoid()为激活函数，λ为温度系数，B₁为激活该单元所带来的损失值，B₂为不激活该单元所带来的损失值，c表示上一层第c个单元；r_c,d表示上一层c单元对当前层d单元的投票值，并按照r_c,d＝vote_c,d×act_c计算得到，act_c为上一层c单元的输出，vote_c,d为c单元对d单元的贡献值，按照vote_c,d＝pose_c×tran_c,d计算，pose_c为c单元输出的视角变换矩阵，tran_c,d为c单元传递给d单元所需的转换矩阵，是一个学习参数，通过反向传播进行更新；h表示视角变换矩阵第h个元素，为数据分布损失，按如下公式计算：

其中，ln为底数为自然常数的对数函数，为所有来自下一层对d单元的贡献值vote_c,d的标准差，π为圆周率；

在计算投票层的输出时，在输出的贡献值矩阵最右边添加一列，前两个元素的值为该单元感受区域的中心位置坐标，感受区域指的是原图中与产生该单元输入值相关的区域，所有坐标经过规范化处理，使其保持在0和1之间，后两个元素为零；

最后层的激活值构成预测的类标签向量。

进一步地，所述步骤B中，对彩色票据图像进行预处理，得到二值图像，包括以下步骤：

步骤B1：对彩色票据图像进行灰度化处理，得到灰度图像；

步骤B2：对灰度图像进行多阈值分割处理，得到多个预选二值图像；

步骤B3：对多个预选二值图像进行融合操作，输出最终的二值图像。

进一步地，所述步骤B1中，对彩色票据图像进行灰度化处理的方法为：

对RGB格式的彩色票据图像的每个通道计算其均值，对于图像中每个像素点，按如下公式计算其灰度值：

其中，mean_red、mean_green、mean_blue分别是RGB各通道的均值，mean_total为各通道均值的和，Index_red、Index_green、Index_blue分别是该像素点在各通道下的像素值，gray为该像素点的灰度值。

进一步地，所述步骤B2中，对灰度图像进行多阈值分割处理，得到多个预选二值图像，包括以下步骤：

步骤B21：根据灰度直方图计算多个阈值，具体方法为：对图像的灰度值进行统计以生成灰度直方图，并按照像素点数量进行递减排序，选取前ω_his个灰度值，依次分成P组，分别计算其均值作为阈值，最终得到P个阈值；

步骤B22：采用所述P个阈值分别对灰度图像进行处理，得到多个预选二值图像；

一个预选二值图像的获得方法为：对于灰度图像的每个像素点，如果其灰度值大于阈值，则输出1，小于或等于阈值，则输出0，所有像素点的输出构成一个预选二值图像；

所述步骤B3中，对多个预选二值图像进行融合操作，输出最终的二值图像，包括以下步骤：

步骤B31：选取第一个预选二值图像中像素值为0的点作为强可靠点；

步骤B32：根据强可靠点选取弱可靠点，具体方法如下：以每个强可靠点为中心选取W×W的窗口区域，W为窗口的长和宽，对于窗口区域内的非中心点，如果其在除第一个预选二值图像外的其他预选二值图像中的值都为0，则将其标记为弱可靠点；

步骤B33：对于两类可靠点，将其在二值图像的对应位置设置为1，二值图像其余各点设置为0，得到最终的二值图像。

进一步地，所述步骤C中，使用积分投影法对二值图像进行分割，得到各数字图像，包括以下步骤：

步骤C1：对二值图像进行行分割，包括以下步骤：

步骤C11：根据二值图像，计算行积分投影，即对每一行统计像素值为0的点的数量；

步骤C12：按照中心行的位置将图像分成上下两部分，分别选取上下两部分积分投影最高的行作为目标行，最后根据两个目标行的位置对图像进行分割；

步骤C2：根据行分割结果，对图像进行列分割，包括以下步骤：

步骤C21：根据行分割图像，计算列积分投影，即对每一列统计像素值为0的点的数量；

步骤C22：对于每一列，如果该列的积分投影大于以其为中心，τ列为半径的邻域范围内所有列的积分投影，则将其列入预选列分割点，所有的预选列分割点构成预选列表，τ为列半径选取阈值；

步骤C23：对于每个预选列分割点，在以其为中心，Φ列为半径的领域范围内如果存在其他预选列分割点，并且其投影积分小于其他预选列分割点，则将其从预选列表中移除，最终保留在预选列表中的点即是确定的列分割点，Φ为筛选阈值；

步骤C24：根据列分割点对图像进行分割，得到各数字图像。

进一步地，所述步骤D中，将各数字图像分别输入到深度网络，得到分类结果，包括以下步骤：

步骤D1：将各数字图像分别输入到深度网络中，计算其激活值；

步骤D2：根据激活值计算各数字图像所属的数字类别。

进一步地，所述步骤D2中，根据激活值计算各数字图像所属的数字类别，具体方法为：对于每个激活值，利用公式计算其所属类别，其中argmax函数表示寻找使得函数成为最大值的参数量，d表示网络最后一层第d个投票单元，act_d为d单元输出的激活值，pred为最终的分类结果。

本发明还提供了一种基于视角自适应深度网络的票据手写数字识别系统，包括：

深度网络训练模块，用于使用带类别标签的数字图像训练视角自适应的深度网络；

预处理模块，用于对彩色票据图像进行预处理，以得到二值图像；

分割模块，用于使用积分投影法对二值图像进行分割，以得到各数字图像；以及

识别模块，用于将各数字图像分别输入到深度网络进行数字识别。

相较于现有技术，本发明的有益效果是：该方法首先通过带标签的数字图像训练深度网络，该网络通过融合视角变换信息解决传统网络对视角变换不敏感的问题。接着通过多阈值融合二值化方法获得票据的二值图像，该方法解决了传统方法对阈值过度依赖的问题，同时也能更好地处理光照不均、底纹的影响。然后通过积分投影方法对票据图像进行分割以获得各数字图像，该方法相比于传统方法更好地解决了倾斜情况下分割准确率较低的问题。最后将各数字图像输入到训练好的深度网络以获得分类结果，具有较高的识别性能。该识别方法解决了票据手写数字识别中存在的字形字体变化导致识别出错、视角变化对识别造成影响的问题，具有视角自适应、光照自适应、背景鲁棒、分类准确度高、快速等优点，具有较高的实用价值。

附图说明

图1是本发明方法的实现流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供了一种基于视角自适应深度网络的票据手写数字识别方法，如图1所示，包括以下步骤：

步骤A：使用带类别标签的数字图像训练视角自适应的深度网络。具体包括以下步骤：

步骤A1：将带类别标签的数字图像随机分成若干个批次，每个批次包含N张数字图像。

步骤A2：将每个批次的数字图像分别输入到视角自适应的深度网络，所述深度网络由线性整流函数控制激活的卷积层以及带视角变换矩阵和激活值的投票层构成，得到各张图像预测的类标签向量。具体包括以下步骤：

conv_output＝ReLU(I⊙K)

a表示ReLU函数的输入值；

其中，d表示该层第d个投票单元，act_d为d单元输出的激活值，sigmoid()为激活函数，λ为温度系数，B₁为激活该单元所带来的损失值，B₂为不激活该单元所带来的损失值，c表示上一层第c个单元；r_c,d表示上一层c单元对当前层d单元的投票值，并按照r_c,d＝vote_c,d×act_c计算得到，act_c为上一层c单元的输出，vote_c,d为c单元对d单元的贡献值，按照vote_c,d＝pose_c×tran_c,d计算，pose_c为c单元输出的大小为4x4的视角变换矩阵，tran_c,d为c单元传递给d单元所需的转换矩阵，是一个学习参数，通过反向传播进行更新；h表示视角变换矩阵第h个元素，为数据分布损失，按如下公式计算：

最后层的激活值构成预测的类标签向量。

步骤A3：根据目标损失函数loss，利用反向传播方法计算所述深度网络中各参数的梯度，并利用随机梯度下降方法更新参数；其中，目标损失函数loss定义如下：

其中，exp()和log()分别是以自然常数为底的指数函数和对数函数，x为所述深度网络输出的预测的类标签向量，所述预测的类标签向量的每个元素表示图像预测的属于某一类别的概率，class为图像正确的类别，x[j]表示向量x的第j个元素，x[class]表示预测的属于图像正确类别的概率，loss为目标损失函数值。

步骤B：对彩色票据图像进行预处理，得到二值图像。具体包括以下步骤：

步骤B1：对彩色票据图像进行灰度化处理，得到灰度图像，具体方法为：

步骤B2：对灰度图像进行多阈值分割处理，得到多个预选二值图像，包括以下步骤：

一个预选二值图像的获得方法为：对于灰度图像的每个像素点，如果其灰度值大于阈值，则输出1，小于或等于阈值，则输出0，所有像素点的输出构成一个预选二值图像。

步骤B3：对多个预选二值图像进行融合操作，输出最终的二值图像，包括以下步骤：

步骤C：使用积分投影法对二值图像进行分割，得到各数字图像。具体包括以下步骤：

步骤C1：对二值图像进行行分割，包括以下步骤：

步骤C24：根据列分割点对图像进行分割，得到各数字图像。

步骤D：将各数字图像分别输入到深度网络进行数字识别，得到分类结果。具体包括以下步骤：

步骤D2：根据激活值计算各数字图像所属的数字类别，具体方法为：对于每个激活值，利用公式计算其所属类别，其中argmax函数表示寻找使得函数成为最大值的参数量，d表示网络最后一层第d个投票单元，act_d为d单元输出的激活值，pred为最终的分类结果。

本发明还提供了用于实现上述方法的票据手写数字识别系统，包括：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于视角自适应深度网络的票据手写数字识别方法，其特征在于，包括以下步骤：

步骤B：对彩色票据图像进行预处理，得到二值图像；

2.根据权利要求1所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤A中，使用带类别标签的数字图像训练视角自适应的深度网络，包括以下步骤：

其中，目标损失函数loss定义如下：

3.根据权利要求2所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤A2中，将每个批次的数字图像分别输入到视角自适应的深度网络，得到各张图像预测的类标签向量，包括以下步骤：

conv_output＝ReLU(I⊙K)

a表示ReLU函数的输入值；

最后层的激活值构成预测的类标签向量。

4.根据权利要求1所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤B中，对彩色票据图像进行预处理，得到二值图像，包括以下步骤：

步骤B1：对彩色票据图像进行灰度化处理，得到灰度图像；

5.根据权利要求4所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤B1中，对彩色票据图像进行灰度化处理的方法为：

6.根据权利要求4所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤B2中，对灰度图像进行多阈值分割处理，得到多个预选二值图像，包括以下步骤：

7.根据权利要求1所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤C中，使用积分投影法对二值图像进行分割，得到各数字图像，包括以下步骤：

步骤C1：对二值图像进行行分割，包括以下步骤：

步骤C24：根据列分割点对图像进行分割，得到各数字图像。

8.根据权利要求1所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤D中，将各数字图像分别输入到深度网络，得到分类结果，包括以下步骤：

步骤D2：根据激活值计算各数字图像所属的数字类别。

9.根据权利要求8所述的基于视角自适应深度网络的票据手写数字识别方法，其特征在于，所述步骤D2中，根据激活值计算各数字图像所属的数字类别，具体方法为：对于每个激活值，利用公式计算其所属类别，其中argmax函数表示寻找使得函数成为最大值的参数量，d表示网络最后一层第d个投票单元，act_d为d单元输出的激活值，pred为最终的分类结果。

10.一种基于视角自适应深度网络的票据手写数字识别系统，其特征在于，包括：