CN113378598B

CN113378598B - 一种基于深度学习的动态条码检测方法

Info

Publication number: CN113378598B
Application number: CN202110685243.3A
Authority: CN
Inventors: 武梦龙; 黄明; 刘文楷; 秦翠珠; 董红霞; 聂晓东
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2023-04-25
Anticipated expiration: 2041-06-21
Also published as: CN113378598A

Abstract

本发明公开了一种基于深度学习的动态条码检测方法，模型参考SiamMask。首先在模板帧中选定要跟踪的目标(称为template)，作为后续检测帧(称为detection)的搜索依据。其次将template以及detection送入SiameseNetwork，对网络得到的特征图做互相关操作。最后将得互相关操作到的特征图送入三分支或二分支，每个分支对应不同的任务，网络最终可以对动态条码的检测、跟踪以及分割。本发明的优点是：在骨干网络ResNet‑50中添加了注意力机制，在不影响检测速度的情况下，主观指标与客观指标均有提高。

Description

一种基于深度学习的动态条码检测方法

技术领域

本发明涉及条码检测技术领域，特别涉及一种基于深度学习的动态条码检测方法。

背景技术

屏幕相机通信(Screen to Camera Communication)是光通信技术和光感知技术交叉发展的技术方向，既有光通信高度定向、抗干扰能力强的特点，又因接收设备具有接收有效面积大、设备对准简单等特点，使屏幕相机通信具备了更加广阔的应用前景。条码作为屏幕相机通信技术的主要信息载体，是现实与互联网的桥梁，在我们的生活中扮演着不可或缺的角色。条码可以简单的分为一维条码和二维条码。它是一种及时、准确、可靠、经济的数据媒介。此外，由于现代智能设备硬件的快速发展和智能手机的普及，条码已经被广泛应用于金融、交通、医疗等诸多领域。此外，有研究报道，条码可以用来建立基于屏幕相机通信的车对车(vehicle-to-vehicle，V2V)和车对基础设施(vehicle-to-infrastructure，V2I)通信。随着现代科技的发展，条码已经成为不可或缺的一部分，其应用也越来越多样化，如无线光组网通信、物联网等。然而，条码在采集过程中可能会受到各种环境因素的影响而发生变形，这给现有的解码器带来了挑战。因此，条码预处理方法是主要研究方向之一。

近年来，越来越多的研究者开始关注条码检测技术，主要方法有两种：(1)基于传统图像处理的检测方法。(2)基于深度学习(如CNN)的检测方法。传统图像处理的方法采用边缘检测或Hough变换等算法对图像进行预处理后提取图像特征信息，并利用特征信息定位条码的位置。该类算法通常计算量大，对阈值设置具有较强依赖性，并且在复杂环境中的效果不理想，存在局限性。随着近年来深度学习技术的发展，基于CNN的方法可以优化传统图像处理方法的缺点。与基于传统图像处理的方法相比，基于CNN的方法可以自动提取目标特征，具在精度与鲁棒性上均优于传统图像处理算法。随着条码技术广泛应用于V2X(vehicle-to-X)、无线光组网以及物联网等场景，问题也随之出现：上述场景下条码不再以静态出现，而是以动态出现(例如条码视频流或发送端与接收端处于移动状态)，现有的条码检测算法大多是处理静态条码的，无法有效处理动态条码检测问题。

与本发明相关的现有技术一

如图1所示，现有技术一的流程如下：

S11：相机取得图像；

S12：取得图像中一区域内的每一个像素的水平图像梯度及垂直图像梯度；

S13：依据水平图像梯度及垂直图像梯度，产生每一个像素的梯度相位角度及梯度能量强度；

S14：将图像中的区域内的每一个像素的梯度能量强度二值化，以产生二值化后的图像；

S15：将该二值化后的图像以N个像素为间隔的V个垂直扫描线进行垂直采样，以统计该二值化后的图像于垂直方向上的V个灰阶值变化次数；

S16：将该二值化后的图像以M个像素为间隔的H个水平扫描线进行水平采样，以统计该二值化后的图像于水平方向上的H个灰阶值变化次数；

S17：依据该垂直方向上的该V个灰阶值变化次数以及该水平方向上的该H个灰阶值变化次数，定位条码的图像区域；

S18：提取图像区域中的所有像素的多个梯度相位角度，以产生梯度相位角度分布；

S19：依据梯度相位角度分布，产生条码的格式检测结果。

现有技术一的缺点

(1)若条形码区域和背景区域颜色相近，区域分割的效果就不会理想，从而影响了条形码区域定位的准确性。同时，在使用拍摄等手段获取图片时，光照条件和角度变化等干扰因素都是存在的，而送些条件变化对图像形态学处理会有极大的影响。

(2)现有的技术分析的主要是静态条码，没有动态条码的检测能力。

与本发明相关的现有技术二

如图2所示，现有技术二的流程步骤如下：

S21：获取多个带有未标记条码的图像。

S22：将获取的多个带有未标记条码的图像组建训练样本集，对所述训练样本集中的条码进行标记，框出图像中大致的条码位置，并标注条码类别，作为标签文件存储。

S23：建立深度学习条码检测模型。

S24：训练所述深度学习条码检测模型，将所述训练样本集及标签文件送入所述深度学习条码检测模型，训练出可用于检测的条码检测模型，并封装成条码检测模块。

S25：将待检测图像缩放为固定尺寸大小416*416的图像，送入所述条码检测模块进行条码检测，输出条码位置坐标和条码类别，根据输出的坐标切割出条码区域图像，执行对应的解码操作。

所述条码特征提取网络的主干采用53层残差卷积网络。

所述特征图的尺寸变换是通过改变网络中的卷积核的步长来获取，包括如下步骤：

输入416*416像素大小的图像，经过3次卷积核步长为2的卷积运算操作得到52*52像素大小的特征图。

对52*52像素大小的特征图经过1次卷积核步长为2的卷积运算操作得到26*26像素大小的特征图。

对26*26像素大小的特征图经过1次卷积核步长为2的卷积运算操作得到13*13像素大小的特征图。

现有技术二的缺点

(1)分析的主要是静态条码，缺乏对动态条码的检测能力。

(2)生成的检测网络是轴对称矩形框，不贴合检测目标，当条码旋转时，会受到背景图案的影响，从而降低了检测精度。

发明内容

本发明针对现有技术的缺陷，提供了一种基于深度学习的动态条码检测方法。

为了实现以上发明目的，本发明采取的技术方案如下：

一种基于深度学习的动态条码检测方法，包括以下步骤：

S1：通过相机或手机拍摄动态条码视频，从所获视频中逐帧提取图片。

S2：将获得的图片尺寸变换为127*127*3，然后送入模板帧，获得模板帧图像，同时将获得的特征图尺寸变换为255*255*3，然后送入检测帧，得到检测帧图像。

S3：将模板帧图像和检测帧图像送入孪生网络进行处理后得到候选窗口的响应RoW(response of a candidate window)。

S4：采用注意力机制来改进空间，在孪生网络中的骨干网络中使用ResNet-50的前四个block，并添加了adjust层。模板帧图像和检测帧图像共享从卷积第一层到第四层的网络参数，而adjust层不共享网络参数。

S5：在骨干网络上添加了压缩激励网络，这样的注意力机制通过学习自动获得每个特征通道的重要性，之后根据重要性增强有用特征，并抑制对当前任务无用的特征。

S6：将RoW送入三分支或二分支，二分支分别为掩膜分支和分类分支，再选择RoW中得分最高的特征图用于生成掩膜，之后根据掩膜生成矩形框；三分支通过分类分支中置信度最高的RoW用于生成掩膜，矩形框通过回归分支生成。

S7：将S6得到的最高的RoW送入优化模块并执行反卷积操作和仿射变换。

S8：将结果与检测区域中CNN网络各层输出的特征图进行加性耦合。最后，得到维度为(127，127，4)的特征图在经过卷积操作与sigmoid函数，以确定此矩阵的值是否为掩膜，通过仿射变换将掩膜矩阵映射回原始图像，以完成掩膜生成任务。

进一步地，S3具体步骤如下：

S31：对模板帧图像和检测帧图像进行深度互相关操作，如下式：

g_θ(z,x)＝f_θ(z)*f_θ(x) (1)

模板分支在历史帧中接收模板帧作为该分支的输入z；检测分支在当前帧中接收检测帧作为该分支的输入x，这两个输入由同一个CNN网络f_θ处理，可以得到两个特征图f_θ(z)及f_θ(x)。对两个特征图进行深度互相关操作(用*表示)：

此处g_θ(z,x)为每个空间元素的响应图RoW。

进一步地，为了产生更精确的目标掩膜，使用具有特征融合的多个优化模块，将低层的空间信息和高层的语义信息相融合。

与现有技术相比，本发明的优点在于：

(1)数据集种类丰富，考虑了OCC技术的主要应用场景。(2)为了在动态情况下捕获数据集，捕获的条形码必须包含不同级别的几何失真样本和模糊样本。(3)考虑环境的不同照明条件，例如正常，室内和室外。(4)本发明数据集也可以用于静态检测。

附图说明

图1是现有技术一的流程图；

图2是现有技术二的流程图；

图3是本发明实施例SiamMask网络结构图，其中(a)为三分支结构，(b)为二分支结构；

图4是本发明实施例互相关操作对比图，其中(a)为传统互相关，(b)为深度互相关；

图5是本发明实施例优化模块结构图；

图6是本发明实施例SE-ResNet架构图；

图7是本发明实施例SE模块结构图；

图8是本发明实施例构建的条形码数据集部分示例图；

图9是本发明实施例损失函数变化情况图；

图9(a)是分类损失变化情况图；

图9(b)是回归损失变化情况图；

图9(c)是掩膜损失变化情况图。

图10是本发明实施例检测结果对比图；

图10(a)和(b)为Faster R-CNN对条形码的结果图；

图10(c)和(d)为本发明方法的结果图；

图10(e)为边框初始化示意图，图10(f)为所捕获视频的第1帧图、图10(g)所捕获视频的第45帧图；图10(h)所捕获视频的第100帧图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

如图3所示，本发明所使用的SiamMask是孪生网络(Siamese Network)中的主流算法。首先介绍孪生网络，它由两个分支组成，一个称为模板分支，在历史帧中接收模板帧(template frame)作为该分支的输入；另一个称为检测分支，在当前帧中接收检测帧(detection frame)作为该分支的输入，这两个输入由同一个CNN网络处理，可以得到两个特征图。该网络由孪生网络和三个分支组成，孪生网络同时在三个分支上进行训练，每个分支对应不同的策略，以在新框架中建立目标对象与候选区域之间的对应关系。除了三分支结构，还有二分支结构。在二分支结构中，前面孪生网络部分不变，不同的是二分支结构去除了回归分支，并且分类分支的网络头结构也有所不同。

对上述得到的两个特征图进行互相关操作。如图4所示，互相关操作及后续操作步骤如下：

S51：得到每个空间元素的响应图。传统互相关产生的是单通道响应图深度互相关操作相比传统互相关操作具有轻量级、可以获得更丰富响应信息的优势。在前述提及，对得到两个特征图进行深度互相关(Depth-Wise Cross Correlation)操作，如下式：

g_θ(z,x)＝f_θ(z)*f_θ(x) (1)

此处g_θ(z,x)为每个空间元素的响应图，称为候选窗口的响应(response of acandidate window，RoW)。

S52：将得到的响应图送入三分支或二分支。对上述的两个特征图进行深度互相关操作以后得到每个空间元素的响应图，称为候选窗口的响应(response of a candidatewindow，RoW)。该响应图表示模板帧和检测帧中第n个RoW之间的相似度。为了使每个响应图编码关于目标对象的丰富信息，SiamMask使用深度互相关操作替代了传统互相关以及SiamRPN网络中的上通道互相关，并生成了多通道响应图。之后根据深度互相关操作得到的特征图可以送入三分支，也可以送入二分支。三分支分别为回归(regression)分支、分类(classification)分支以及掩膜(mask)分支。二分支分别为掩膜分支和分类分支，三分支与二分支具有不同的网络头，它们的作用是改变网络的通道数。

S53：介绍mask分支的相关原理。生成掩膜的核心思想是，对于每个响应图，使用一个两层的网络头来预测大小为w*h的二进制细分掩膜，令m_n表示第n个RoW对应的预测掩膜。

其中

表示模板帧和检测帧中第n个RoW之间的相似度，h_φ、b_σ和

分别为掩膜分支、回归分支和分类分支的网络头。

S54：矩形边界框的生成。无论是接三分支还是二分支，mask分支在经过网络头之后得到维度为(17，17，63×63)的特征图。后续生成掩膜的过程如下：在二分支中，通过分类分支获取特征图中class score最高的RoW用于生成掩膜，之后根据掩膜生成矩形框；在三分支中，也通过分类分支中置信度最高的RoW用于生成掩膜，但是矩形框通过回归分支生成。

由上一步得到的RoW，将其送入优化模块并执行反卷积运算，将结果与检测区域中CNN网络各层输出的特征图进行加性耦合。最后，得到维度为(127，127，4)的特征图在经过卷积操作与sigmoid函数，以确定此矩阵的值是否为掩膜。接下来，通过仿射变换将掩膜矩阵映射回原始图像，以完成掩膜生成任务。此外，还可以使用掩膜作为边界框的近似对象，通过最小外接矩形算法来生成具有方向的边界框，更好地贴合目标，以实现更高的交并比(Intersection over Union，IoU)。优化模块结构如图5所示，优化模块中通过反卷积操作与仿射变换生成掩膜：分类分支对所有锚框score进行一系列操作，然后选择置信度最高的锚框。根据最大值的索引，可以通过转换获得特征图上的坐标。

提高分割的准确性：在CNN中，主干网络中的多层池化会因高层丢失许多空间信息最终导致分割精度的损失。因此直接预测的掩膜的准确性不高，为了产生更精确的目标掩膜，这时候就需要优化模块，SiamMask遵循Sharp Mask的策略，该策略使用具有特征融合的多个优化模块，将低层的空间信息与高层的语义信息相结合，解决池化造成的有效信息损失，逐步提高掩膜的分辨率，进而提高分割的准确性。

在得到精确分割的掩膜之前，划分不同通道间的重要性是必要的，因此本发明采用注意力机制(attention mechanism)来改进空间。

本发明采用压缩激励网络(Squeeze and Excitation Net，SENet)的注意机制。在本发明中使用的骨干网络是SiamMask中的ResNet-50，为了进一步提升网络的性能，本发明在上述网络中嵌入了压缩激励网络，压缩激励网络是在通道上增加注意力机制的网络，其核心思想是通过学习自动获得的每个特征通道的重要性，之后根据重要性增强有用的特征并抑制对当前任务无用的特征，使得不同通道有不同的权重参数。最后通过sigmoid函数转化为0～1的归一化权重。

如图6，7所示，是SE模块的具体操作。SE模块首先执行压缩操作，然后通过对卷积操作得到的特征图U进行全局平局池化完成。

SE模块首先执行压缩操作(F_sq)，该操作通过对卷积操作(F_tr)得到的特征图U进行全局平局池化完成。

此处u_c代表特征图U中的第c个大小为W×H的二维矩阵，下标c代表通道数。压缩操作将W×H×C的输入特征转换成1×1×C的输出特征，这一步是为了获取c个通道特征图的数值分布情况，即通道的全局信息。

表示从将特征图U中的第c个大小为1*1的二维矩阵加到第c个大小为W*H的二维矩阵。

SE模块再执行激励操作：为了利用压缩操作中汇总的信息，在压缩操作之后执行激励操作。

s＝F_ex(z,W)＝σ(W₂δ(W₁z)) (4)

F_ex代表激励操作，模板帧的输入z，W代表非指定的权重输入(在此处统指W₁，W₂)，W₁代表压缩操作的权重，W₂代表激励操作的权重；

δ和σ分别代表ReLU(Rectified Linear Unit)以及Sigmoid函数。为了降低模型的复杂性并提高泛化能力，此处使用具有两个全连接(Fully Connected，FC)层来建模通道间的相关性。第一个FC层起到降维的作用，其中r＝16是缩放参数，其目的是为了减少通道数从而减少计算量，之后由ReLU函数激活，输出维度不变。第二个FC层还原原始维度，之后在经过Sigmoid函数得到s。s是用来刻画U中c个通道特征图的权重，而且这个权重是通过前面的FC层和卷积层学习得到的，因此可以端到端训练。这两个FC层的作用就是融合各通道的特征图信息。SE模块的最终输出：最终输出可以通过重新加权操作获得：

F_scale代表重新加权操作，u_c代表特征图U中的第c个大小为W×H的二维矩阵，下标c代表通道数，s是用来刻画U中c个通道特征图的权重。

在实验阶段，本发明选取VOT2019数据集作为基准数据集，其中包含60个短时序列，充分包含了OCC应用场景中需要检测的目标，如V2V场景下需要检测的车辆、行人、室内定位场景下需要检测的家具等。但是，该数据集中条形码的背景简单且样式还不够复杂，因此本发明还添加了120个没有位置检测点的彩色条形码和棋盘格。所有条形码均缩放至640×480像素的分辨率，并按照要求进行标注，进而制作出本发明专有的数据集，如图8所示。

本发明在训练期间，用于掩膜预测的损失函数是所有RoW上的二进制逻辑回归损失，各分支的损失函数值如图9所示。

此处y_n是每个RoW的正确二进制标签；c_n是与每个RoW相关，大小为w*h的像素级真值掩膜；

表示与第n个RoW中掩膜像素(i，j)对应的标签。使用L₁和交叉熵损失函数训练回归分支和分类分支，分别将它们表示为L_reg和L_cls。因此，三个分支的总损失L为：

L＝λ₁L_mask+λ₂L_cls+λ₃L_reg (7)

在进行训练之前，将数据集随机分成8：2的比例，80％用于训练，20％用于测试。在训练过程中，batch size设置为32，epoch设置为20，优化策略为SGD(stochastic gradientdescent)算法，初始学习率为0.001，前5个epoch为热身阶段，学习率从0.001线性增长值0.005，后15个epoch的学习率按对数方式下降至0.0005。除此之外，还应用了数据增强技术以达到更好的训练效果。随着模型训练迭代次数的增加，三分支的损失函数降低并最终趋于平稳，证明模型已完全收敛。

Faster R-CNN方法的运行结果与本发明的检测方法进行对比如图10所示。图10(a)和10(b)显示了Faster R-CNN对条形码的结果，本发明方法只依赖于单个边界框初始化，并在线操作。图10(e)显示了边框初始化，图10(f)、(g)和(h)分别是所捕获视频的第1帧、第45帧和第100帧。图10(a)和图10(b)显示了使用Faster R-CNN方法并不能捕获到贴合的包围框；作为比较，图10(c)和图10(d)是本发明方法的结果，它可以产生较为贴合的包围框并在条码上方生成了掩膜(条码上的轻微色度覆盖即为生成的掩膜)进行跟踪。从图的第一行和第二行可以看出，本发明采用的方法针对模糊、形变以及环境干扰具有一定的鲁棒性，同时具有很好的跟踪效果。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于深度学习的动态条码检测方法，其特征在于，包括以下步骤：

S1：通过相机或手机拍摄动态条码视频，从所获视频中逐帧提取图片；

S2：将获得的图片尺寸变换为127*127*3，然后送入模板帧，获得模板帧图像，同时将获得的特征图尺寸变换为255*255*3，然后送入检测帧，得到检测帧图像；

S3：将模板帧图像和检测帧图像送入孪生网络进行处理后得到候选窗口的响应RoW(response of a candidate window)；

S3具体步骤如下：

g_θ(z,x)＝f_θ(z)*f_θ(x)

模板分支在历史帧中接收模板帧作为该分支的输入z；检测分支在当前帧中接收检测帧作为该分支的输入x，这两个输入由同一个CNN网络f_θ处理，可以得到两个特征图f_θ(z)及f_θ(x)；对两个特征图进行深度互相关操作用*表示：

此处g_θ(z,x)为每个空间元素的响应图RoW；

S4：采用注意力机制来改进空间，在孪生网络中的骨干网络中使用ResNet-50的前四个block，并添加了adjust层；模板帧图像和检测帧图像共享从卷积第一层到第四层的网络参数，而adjust层不共享网络参数；

S5：在骨干网络上添加了压缩激励网络，这样的注意力机制通过学习自动获得每个特征通道的重要性，之后根据重要性增强有用特征，并抑制对当前任务无用的特征；

所述在骨干网络上添加了压缩激励网络具体如下：

SE模块首先执行压缩操作，然后通过对卷积操作得到的特征图U进行全局平局池化完成，如下式：

SE模块首先执行压缩操作F_sq，该操作通过对卷积操作F_tr得到的特征图U进行全局平局池化完成；

此处u_c代表特征图U中的第c个大小为W×H的二维矩阵，下标c代表通道数；压缩操作将W×H×C的输入特征转换成1×1×C的输出特征，这一步是为了获取c个通道特征图的数值分布情况，即通道的全局信息；

表示从将特征图U中的第c个大小为1*1的二维矩阵加到第c个大小为W*H的二维矩阵；

SE模块再执行激励操作：为了利用压缩操作中汇总的信息，在压缩操作之后执行激励操作，如下式：

s＝F_ex(z,W)＝σ(W₂δ(W₁z))

F_ex代表激励操作，模板帧的输入z，W代表非指定的权重输入，W₁代表压缩操作的权重，W₂代表激励操作的权重；

δ和σ分别代表ReLU(Rectified Linear Unit)以及Sigmoid函数；使用具有两个全连接(Fully Connected，FC)层来建模通道间的相关性；第一个FC层起到降维的作用，其中r＝16是缩放参数，其目的是为了减少通道数从而减少计算量，之后由ReLU函数激活，输出维度不变；第二个FC层还原原始维度，之后在经过Sigmoid函数得到s；s是用来刻画U中c个通道特征图的权重，这个权重是通过FC层和卷积层学习得到的，能够端到端训练；这两个FC层的作用就是融合各通道的特征图信息；

SE模块的最终输出：最终输出通过重新加权操作获得，如下式：

F_scale代表重新加权操作，u_c代表特征图U中的第c个大小为W×H的二维矩阵，下标c代表通道数，s是用来刻画U中c个通道特征图的权重；

S6：将RoW送入三分支或二分支，二分支分别为掩膜分支和分类分支，再选择RoW中得分最高的特征图用于生成掩膜，之后根据掩膜生成矩形框；三分支通过分类分支中置信度最高的RoW用于生成掩膜，矩形框通过回归分支生成；

S7：将S6得到的最高的RoW送入优化模块并执行反卷积操作和仿射变换；

S8：将结果与检测区域中CNN网络各层输出的特征图进行加性耦合；最后，得到维度为127，127，4的特征图在经过卷积操作与sigmoid函数，以确定此矩阵的值是否为掩膜，通过仿射变换将掩膜矩阵映射回原始图像，以完成掩膜生成任务。

2.根据权利要求1所述的一种基于深度学习的动态条码检测方法，其特征在于：为了产生更精确的目标掩膜，使用具有特征融合的多个优化模块，将低层的空间信息和高层的语义信息相融合。