CN113971745B

CN113971745B - 一种基于深度神经网络的出入境验讫章识别方法及装置

Info

Publication number: CN113971745B
Application number: CN202111139047.2A
Authority: CN
Inventors: 郭志昌; 董刚; 姚文娟; 李爻; 孙杰宝
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2024-04-16
Anticipated expiration: 2041-09-27
Also published as: CN113971745A

Abstract

本发明提出一种基于深度神经网络的出入境验讫章识别方法及装置，所述方法首先采集图像，并对图像进行标注，然后通过回归网络对采集好的数据进行回归剪裁，对于剪裁下来的印章，再应用基于注意力机制的网络进行对国别的图像识别，之后应用参数化的Bezier曲线进行对日期的文本识别，最后再将信息整合。最终搭建前端，设计了出入境验讫章识别平台，使用十分方便。

Description

一种基于深度神经网络的出入境验讫章识别方法及装置

技术领域

本发明属于图像识别技术领域，特别是涉及一种基于深度神经网络的出入境验讫章识别方法及装置。

背景技术

细粒度图像识别是计算机科学技术领域中的一项重要工作，旨在识别同一类别下的不同子类物体。细粒度图像识别问题的难点在于识别对象来自于同一大类，具有大量的相同特征以及有细微差别的部分特征。这要求模型的特征提取能力十分灵敏且具有鲁棒性。至今为止仍没有一种通用且可靠的细粒度图像识别算法被广泛应用。因此，细粒度图像识别领域具有极大的研究价值和意义。

近年来，随着深度学习领域的飞速发展，细粒度识别技术的准确率也有了大幅提升。目前细粒度图像识别的主流方法有：基于端到端的特征编码方法、基于定位-分类子网络的方法、利用外部辅助信息的方法。其中，基于端到端的特征编码方法受到人们最广泛的关注。其主要思想是通过设计细粒度特征提取能力更强大的模型，挖掘更具有区分性的细粒度特征表示，并依据此特征表示进行细粒度图像识别。现有的深度学习与印章识别相结合的研究大多集中于文字识别，提取印章中的文字部分。然而这类提取方法大多对印章形状有所要求，难以应对大量的形状差异较大的印章识别。但是在出入境印章日期识别中，存在诸多方向任意和文字模糊的问题。故而难以将其应用到具有多种类印章的机场安检领域。目前，尚未有研究者提出将分类识别方法与出入境验讫章结合起来，以提升机场安检效率的方法。

因此，本发明针对细粒度图像识别问题，提出了一种实现速度快、识别效果好的基于深度神经网络的出入境验讫章识别方法及装置，具有重要的实际应用价值。

发明内容

本发明为了解决现有印章检测及日期检测识别困难的问题，提出了一种基于深度神经网络的出入境验讫章识别方法及装置。

本发明是通过以下技术方案实现的，本发明提出一种基于深度神经网络的出入境验讫章识别方法，所述方法包括：

对目标印章进行回归剪裁，即设计回归剪裁网络，来检测印章图片中包含的国家和日期信息，并将其定位；

对于国家检测部分：通过搭建细粒度识别分类网络将检测出的国家进行识别分类；

对于日期检测识别部分：定位一张完整的印章图片中所有的日期信息并且进行剪裁，分成若干个时间信息块进行日期检测，将检测出的日期信息进行识别，给出准确的日期，从而可以判断出入境人员在境外国家的活动时间。

进一步地，所述对目标印章进行回归剪裁，即设计回归剪裁网络，来检测印章图片中包含的国家和日期信息，并将其定位；具体为：

步骤一：搭建由卷积和残差网络堆叠而成的主干网络，该主干网络由五个使用CSP网络的分块组成；

步骤二：搭建池化网络；所述池化网络分为四支线，前三支线对池化网络的输入特征分别进行5*5、9*9、13*13步长为1的最大池化，第四支线不对池化网络的输入特征进行池化，最后把四条支线的池化结果进行route相加；

步骤三：搭建上采样网络，共上采样两次：首先对池化网络的输出特征进行卷积，而后进行上采样操作，对所得到的输出特征再次进行卷积，并将卷积后的特征再次进行上采样；

步骤四：搭建头部网络；共有三个头部作为输出：前两个头部网络分别进行2次1步长卷积，第三个头部网络进行1次1步长卷积；

步骤五：输入图片数据通过步骤一至步骤四搭建的网络进行特征提取，对提取后的特征应用特征金字塔，采用三个尺度再次提取特征，得到印章的特征图，对得到的印章的特征图进行国家检测和日期检测识别。

进一步地，在步骤五中，所述得到的印章的特征图包括与国家检测相关的多尺度特征图和与日期检测相关的特征图。

进一步地，所述国家检测部分具体流程为：

搭建国家检测网络：设置网络层数和节点数，设置输入输出的格式，输入为步骤五得到的印章的特征图，输出为印章对应的类别；

在区域预测阶段，将步骤五得到的与国家检测相关的多尺度特征图的每一层用ReLu激活，而后maxpooling，接着采用RPN来产生anchors，而后用非极大值抑制选出最能影响最后结果的前N个预测框从而得到预测区域；该网络在进行区域预测训练时，采用的loss函数为：

其中，I_i,I_j∈{I₁,I₂,…,I_M}为预测出来的M个预测框和其带有的信息量，C_i,C_j∈{C₁,C₂,…,C_M}为将这M个预测框输入全连接网络+softmax网络后的置信度，f(x)＝max{1-x,0}；

将预测出来的区域剪裁出来并进行缩放至步骤五的输入大小；

在网络矫正训练阶段，将缩放后的特征图输入全连接网络，而后接softmax进行预测从而对预测出来的区域进行矫正，所述矫正训练阶段的映射函数记为g(x)，该网络在进行矫正训练时的loss函数为：

其中，R_i∈{R₁,R₂,…,R_M}为预测出来的预测框，X为原图；

在类别预测阶段，将缩放后的特征图和原图的特征图输入卷积层提取特征后，将所提取特征连在一起，输入全连接层后利用softmax输出其预测的类别，所述类别预测阶段的映射函数记为h(x)，其loss函数为：

L₃＝-logh(X,R₁,R₂,…,R_M)

将区域预测阶段、矫正训练阶段和类别预测阶段的loss函数进行整合，得到最后的loss函数为：

L＝L₁+L₂+L₃。

进一步地，对日期进行检测识别具体为：

步骤十二：将训练集中的图像年月日分开打标签，以文本阅读顺序，记录左上、右上、右下和左下的边界点，分别记为P₀,P₁,P₂和P₃；计算P₀和P₁的三等分点P₀₀和P₀₁，计算P₂和P₃的三等分点P₂₀和P₂₁，将{P₀,P₀₀,P₀₁,P₁}的坐标代入下述参数方程：

利用最小二乘法，计算四个最佳的控制点坐标：

同理将{P₂,P₂₀,P₂₁,P₃}代入参数方程计算控制点坐标，同文本内容一起作为标签；

步骤十三：搭建日期检测网络，所述日期检测网络分为两个部分，依次为日期检测部分和日期识别部分；输入的特征图为步骤五得到的与日期检测相关的特征图；

步骤十四：在文字检测部分，在五个分辨率为1/8、1/16、1/32、1/64和1/128特征图上利用ROI对齐将不同尺度的特征输出为相同的大小，后接固定通道数的特征层以预测控制点坐标；

步骤十五：在文字识别部分，首先将特征对齐，对三个尺寸为1/4、1/8和1/16的特征图采用Bezier曲线进行对齐；假设文本的上边界的参数方程为c₁(t)＝(1-t)³b₀+3(1-t)²tb₁+3(1-t)t²b₂+t³b₃，同理假设文本的下边界的参数方程c₂(t)；将步骤十四得到的控制点坐标代入以上两个边界参数方程，如果输出的矩形特征图尺寸为h_out×w_out，其中h_out为特征图的高，w_out为特征图的宽，则从特征层中选取一个像素点g_i＝(g_iw,g_ih)，通过计算t，将t带入上边界和下边界的参数方程，得到上边界点c₁(t)＝t_p和下边界点c₂(t)＝b_p，通过公式/>获得输出矩形特征图的采样点op；其次，在矩形特征图后接入4个卷积核大小为3×3、步长为1的卷积层，2个卷积核大小为3×3、步长为(2,1)的卷积层和最大池化层，最后接入BLSTM和全连接层，输出文字的预测序列。

进一步地，在日期检测识别过程中，对整个日期检测网络模型进行训练，在训练中，参数设置为：批量大小设置为4，最大迭代次数为100K，初始学习率设置为0.01，后下降为0.001；当损失函数下降到1.0不发生改变，此时将提前终止训练。

进一步地，所述识别方法还包括：在测试集上测试整个印章识别网络模型，输入图片，最后得到的结果为：预测的国家类别和预测的日期。

进一步地，在搭建的头部网络中，网络共有三个头部，输出多尺度的特征以及多尺度的预测框坐标，根据预测框坐标对特征图进行剪裁，得到多尺度局部特征。

进一步地，在整个网络的训练阶段采用随机梯度下降方法进行训练。

本发明还提出一种基于深度神经网络的出入境验讫章识别装置，所述识别装置包括：

回归剪裁模块：用于对目标印章进行回归剪裁，即设计回归剪裁网络，来检测印章图片中包含的国家和日期信息，并将其定位；

国家检测模块；用于通过搭建细粒度识别分类网络将检测出的国家进行识别分类；

日期检测识别模块：用于定位一张完整的印章图片中所有的日期信息并且进行剪裁，分成若干个时间信息块进行日期检测，将检测出的日期信息进行识别，给出准确的日期，从而可以判断出入境人员在境外国家的活动时间。

本发明基于AI智能技术构造了一个快速四阶段图像识别方法。所述方法首先采集图像，并对图像进行标注，然后通过回归网络对采集好的数据进行回归剪裁，对于剪裁下来的印章，再应用基于注意力机制的网络进行对国别的图像识别，之后应用参数化的Bezier曲线进行对日期的文本识别，最后再将信息整合。最终搭建前端，设计了出入境验讫章识别平台。使用十分方便。本发明提出的基于深度神经网络的出入境验讫章识别方法及装置具有以下有益效果：

1、本发明通过一个回归网络将一张图片中所有的出入境章剪裁下来。采用了近些年CNN领域中最优秀的优化策略，在数据处理、主干网络、网络训练、激活函数、损失函数等各个方面进行了不同程度的优化，增加了大量的模块来提高卷积神经网络的精度，因此可以更好地实现对采集好的数据进行回归剪裁。

2、本发明通过基于注意力机制的网络进行对国别的图像识别，网络受到RPN的启发更加精细，从而提升了对国别图像识别的精度，解决了工作人员识别国家印章能力有限以及高错误率等问题。

3、本发明应用参数化的Bezier曲线来拟合任意形状的文本，选取自适应Bezier曲线网络来检测和识别日期极大地适应了印章日期在纵横比、字体样式、日期格式、文字方向等方面的多样性，与标准的矩形边界框检测相比较，检测花费的时间更少，效率更高。

附图说明

图1为原始印章剪裁的两张测试图片示意图；

图2为从两张测试图片上剪裁下来的印章示意图；

图3为从测试的印章图片上剪裁下来的部分日期示意图；

图4为本发明基于深度神经网络的出入境验讫章识别方法的流程图；

图5国家检测部分中的特征金字塔示意图；

图6出入境验讫章识别平台示意图；

图7为本发明具体实施例方法流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-7，本发明提出一种基于深度神经网络的出入境验讫章识别方法，所述方法包括：

为了对印章目标的位置进行定位；由于印章可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，最初的技术是采用滑动窗口对整幅图像进行遍历，并且需要设置不同的尺度，不同的长宽比；这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能；对于滑动窗口存在的问题，本发明提出了一种基于Anchor box的解决方案，即通过规定不同尺寸的Anchor box来回归计算出预测框，并应用非极大抑制来减少冗余，能保证在选取较少窗口的情况下保持较高的召回率；这样能有效降低后续操作的时间复杂度，并且获取的预测框要比滑动窗口的质量更高。所述对目标印章进行回归剪裁，即设计回归剪裁网络，来检测印章图片中包含的国家和日期信息，并将其定位；具体为：

在步骤五中，所述得到的印章的特征图包括与国家检测相关的多尺度特征图和与日期检测相关的特征图。

国别分类采用分类网络进行国别和出入境类别的区分，通过搭建分类网络将检测出的国家区域进行识别分类，所述国家检测部分具体流程为：

进行数据预处理并划分训练集，测试集。采用数据增强的方式，对采集到的数据进行处理，方式包括：旋转，加噪声。这里噪声采用高斯白噪声，并以加法的方式作用在图片上。除此之外在训练之前，采用Pytorch框架下的transforms模块对图像进行一些操作：重新调整大小，根据输入图片的大小随机剪裁，将图片转化为张量并归一化。将所有数据按照60：30：10划分为训练集，验证集和测试集。

搭建国家检测网络：设置网络层数和节点数，设置输入输出的格式，输入为步骤五得到的印章的特征图，输出为印章对应的类别；本网络分为三个模块，区域预测模块，矫正模块和类别预测模块。

其中，R_i∈{R₁,R₂,…,R_M}为预测出来的预测框，X为原图；

L₃＝-logh(X,R₁,R₂,…,R_M)

L＝L₁+L₂+L₃。

训练网络时把剪裁好的小图输入分类网络中，根据国家信息进行学习。测试时将剪裁好的没有类别信息的小图输入到网络中，从而直接输出国家类型。

出入境印章日期检测识别部分旨在将步骤五得到的另一支输出，也就是检测出的粗略日期定位进一步检测细化，并将进一步检测出来的日期进行识别，给出准确的日期，从而可以判断出入境人员在境外国家的活动时间。

本实施例的目的是定位一张完整的护照图片中所有的时间信息并且进行剪裁，分成一些小的时间信息块。参照图3；日期检测的具体操作流程为：

步骤一：搭建由卷积和残差网络堆叠而成的主干网络。该主干网络由五个使用CSP网络的分块组成。

步骤二：搭建池化网络。

步骤三：搭建上采样网络。

步骤四：搭建有三个头部用于输出的头部网络。

步骤五：设定好预测框和真实框之间误差的损失函数CIOU_Loss。

步骤六：运用批量梯度下降法，进行反向传播更新网络参数。

将检测出的日期信息进行识别，给出准确的日期，从而可以判断出入境人员在境外国家的活动时间，对日期进行检测识别具体为：

步骤十一：准备数据集，人工裁剪护照印章上面的日期，进行批量重命名，并进行数据增强，数据增强的方式包括旋转、加入不同方差的高斯噪声和对原始图像进行模糊处理，将所有图像按照7:3的比例划分训练集和测试集。

利用最小二乘法，计算四个最佳的控制点坐标：

步骤十五：在文字识别部分，首先将特征对齐，对三个尺寸为1/4、1/8和1/16的特征图采用Bezier曲线进行对齐；假设文本的上边界的参数方程为c₁(t)＝(1-t)³b₀+3(1-t)²tb₁+3(1-t)t²b₂+t³b₃，同理假设文本的下边界的参数方程c₂(t)，c₂(t)＝(1-t)³b₀+3(1-t)²tb₁+3(1-t)t²b₂+t³b₃；将步骤十四得到的控制点坐标代入以上两个边界参数方程，如果输出的矩形特征图尺寸为h_out×w_out，其中h_out为特征图的高，w_out为特征图的宽，则从特征层中选取一个像素点g_i＝(g_iw,g_ih)，g_iw,g_ih分别为该像素点的横纵坐标，通过计算t，将t带入上边界和下边界的参数方程，得到上边界点c₁(t)＝t_p和下边界点c₂(t)＝b_p，通过公式获得输出矩形特征图的采样点op；其次，在矩形特征图后接入4个卷积核大小为3×3、步长为1的卷积层，2个卷积核大小为3×3、步长为(2,1)的卷积层和最大池化层，最后接入BLSTM和全连接层，输出文字的预测序列。

在日期检测识别过程中，对整个日期检测网络模型进行训练，在训练中，参数设置为：批量大小设置为4，最大迭代次数为100K，初始学习率设置为0.01，后下降为0.001；当损失函数下降到1.0不发生改变，此时将提前终止训练。

在日期识别中，本测试数据量为500张，训练完成的模型所得到的结果：年份识别正确率高于90％，对齐输出后正确率高于85％，月份识别正确率高于80％，对齐输出后正确率高于60％。

所述识别方法还包括：在测试集上测试整个印章识别网络模型，输入图片，最后得到的结果为：预测的国家类别和预测的日期。

在搭建的头部网络中，网络共有三个头部，输出多尺度的特征以及多尺度的预测框坐标，根据预测框坐标对特征图进行剪裁，得到多尺度局部特征。

在整个网络的训练阶段采用随机梯度下降方法进行训练。

为了测试本发明中模型的性能，对真实出入境验讫章图像进行了一系列实验。首先，直接将护照进行拍照，而后进行回归剪裁，国别分类以及日期识别的操作。对于分类网络，判别网络识别结果的指标主要是分类结果的正确率以及召回率，总体正确率高达97％。对于文本检测网络，在日期检测与识别测试集上，年月日分别识别正确的准确率达到85％，整体识别正确的准确率达到80％。并且观察图2、图3能清楚地观测到本发明方法剪裁的效果很好，细节很精确。

在有关印章识别的研究方面，现有的深度学习的方法大多集中于文字识别，提取印章的文字部分，这类提取方法大多对印章形状有所要求，对形状差异较大的印章识别较为困难。在出入境印章日期识别中，存在诸多方向任意和文字模糊的问题。为了解决现有技术中存在的问题，本发明针对细粒度图像识别问题，提出了一种实现速度快、识别效果好的基于深度神经网络的出入境验讫章识别方法及装置，具有重要的实际应用价值。

以上对本发明所提出的一种基于深度神经网络的出入境验讫章识别方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度神经网络的出入境验讫章识别方法，其特征在于：所述方法包括：

对于日期检测识别部分：定位一张完整的印章图片中所有的日期信息并且进行剪裁，分成若干个时间信息块进行日期检测，将检测出的日期信息进行识别，给出准确的日期，从而可以判断出入境人员在境外国家的活动时间；

所述对目标印章进行回归剪裁，即设计回归剪裁网络，来检测印章图片中包含的国家和日期信息，并将其定位；具体为：

步骤五：输入图片数据通过步骤一至步骤四搭建的网络进行特征提取，对提取后的特征应用特征金字塔，采用三个尺度再次提取特征，得到印章的特征图，对得到的印章的特征图进行国家检测和日期检测识别；

所述国家检测部分具体流程为：

其中，R_i∈{R₁,R₂,…,R_M}为预测出来的预测框，X为原图；

L₃＝-logh(X,R₁,R₂,…,R_M)

L＝L₁+L₂+L₃

对日期进行检测识别具体为：

利用最小二乘法，计算四个最佳的控制点坐标：

步骤十五：在文字识别部分，首先将特征对齐，对三个尺寸为1/4、1/8和1/16的特征图采用Bezier曲线进行对齐；假设文本的上边界的参数方程为c₁(t)＝(1-t)³b₀+3(1-t)²tb₁+3(1-t)t²b₂+t³b₃，同理假设文本的下边界的参数方程c₂(t)；将步骤十四得到的控制点坐标代入以上两个边界参数方程，如果输出的矩形特征图尺寸为h_out×w_out，其中h_out为特征图的高，w_out为特征图的宽，则从特征层中选取一个像素点g_i＝(g_iw,g_ih)，通过计算t，将t带入上边界和下边界的参数方程，得到上边界点c₁(t)＝t_p和下边界点c₂(t)＝b_p，通过公式获得输出矩形特征图的采样点op；其次，在矩形特征图后接入4个卷积核大小为3×3、步长为1的卷积层，2个卷积核大小为3×3、步长为(2,1)的卷积层和最大池化层，最后接入BLSTM和全连接层，输出文字的预测序列。

2.根据权利要求1所述的识别方法，其特征在于：在步骤五中，所述得到的印章的特征图包括与国家检测相关的多尺度特征图和与日期检测相关的特征图。

3.根据权利要求2所述的识别方法，其特征在于：在日期检测识别过程中，对整个日期检测网络模型进行训练，在训练中，参数设置为：批量大小设置为4，最大迭代次数为100K，初始学习率设置为0.01，后下降为0.001；当损失函数下降到1.0不发生改变，此时将提前终止训练。

4.根据权利要求1所述的识别方法，其特征在于：所述识别方法还包括：在测试集上测试整个印章识别网络模型，输入图片，最后得到的结果为：预测的国家类别和预测的日期。

5.根据权利要求1所述的识别方法，其特征在于：在搭建的头部网络中，网络共有三个头部，输出多尺度的特征以及多尺度的预测框坐标，根据预测框坐标对特征图进行剪裁，得到多尺度局部特征。

6.根据权利要求1所述的识别方法，其特征在于：在整个网络的训练阶段采用随机梯度下降方法进行训练。

7.一种基于深度神经网络的出入境验讫章识别装置，其特征在于：所述识别装置包括：

日期检测识别模块：用于定位一张完整的印章图片中所有的日期信息并且进行剪裁，分成若干个时间信息块进行日期检测，将检测出的日期信息进行识别，给出准确的日期，从而可以判断出入境人员在境外国家的活动时间；

所述国家检测部分具体流程为：

其中，R_i∈{R₁,R₂,…,R_M}为预测出来的预测框，X为原图；

L₃＝-logh(X,R₁,R₂,…,R_M)

L＝L₁+L₂+L₃

对日期进行检测识别具体为：

利用最小二乘法，计算四个最佳的控制点坐标：