CN111444913B

CN111444913B - 一种基于边缘引导稀疏注意力机制的车牌实时检测方法

Info

Publication number: CN111444913B
Application number: CN202010204590.5A
Authority: CN
Inventors: 秦华标; 梁静
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-22
Filing date: 2020-03-22
Publication date: 2023-08-22
Anticipated expiration: 2040-03-22
Also published as: CN111444913A

Abstract

本发明公开了一种基于边缘引导稀疏注意力机制的车牌实时检测方法，属于目标检测的技术领域。该方法首先使用卷积神经网络对输入图像进行处理，提取语义特征；然后利用一种新的边缘引导稀疏注意力机制快速捕获显著性区域，即车牌区域，其中边缘引导稀疏注意力机制包括边缘引导组件和稀疏注意力组件；接着采用级联多任务学习辅助车牌精准检测；最后采用损失掩码方法去抑制低质量的预测框，提高系统性能。本发明可实现在各种自然场景下的车牌实时检测，并具有高准确率、高召回率以及高鲁棒性，对于现实应用具有重要意义。在最大和最多样化的公开数据集CCPD上实现了最先进的性能，尤其是在CCPD‑Base（100k）测试集上的检测精度达到99.9％。

Description

一种基于边缘引导稀疏注意力机制的车牌实时检测方法

技术领域

本发明属于目标检测的技术领域，具体涉及一种基于边缘引导稀疏注意力机制的车牌实时检测方法。

背景技术

近年来，由于自注意力机制在特征图上的所有位置进行加权求和的核心操作，不仅帮助深度学习模型捕获长距离依赖关系，还能让模型更加关注到显著特征，推动许多计算机视觉任务的发展，例如目标检测，语义分割，人体姿态估计等。从图像滤波的角度来看，其本质在于降噪以及在长距离上重组最重要的上下文语义信息。

尽管自注意力机制很受欢迎，但也有局限性。现有很多基于自注意力的方法，如Wang X等在《Non-local neural networks》(Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2018:7794-7803.)中提出的Non-local，Yuan,Yuhui等在《OCNet:Object Context Network for Scene Parsing》中提出的OCNet，Fu J等在《Dual Attention Network for Scene Segmentation》中提出的DANet等都被设计为在不考虑速度和存储成本的情况下实现出色的性能，其计算复杂度为O(N²C)或甚至更大，N＝H×W表示像素点数量。这些方法的瓶颈在于注意图的生成和使用都是通过计算所有位置来实现的。此外，通过Xie C等在《Feature denoising for improving adversarialrobustness》(Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2019:501-509.)所提及内容以及做实验我们发现自注意力机制虽然通过降噪提升了模型的鲁棒性，但是其可能存在降噪的同时使特征图上物体轮廓被模糊的缺陷，这限制了检测精度的进一步提升。

在过去的二十年里，自动车牌检测一直是人们积极研究的课题，对于超速违章、高速公路收费、车辆通行管理等各种应用也至关重要。受实现了最佳的速度/精度权衡的YOLOnetworks的启发，大多数车牌检测网络都基于YOLO。人们注意到，由于YOLO网络难以检测到小尺寸的物体，所以基于YOLO的方法在检测远离摄像机的车牌时均得到了较低的召回率。因此，Silva S M等在《License Plate Detection and Recognition in UnconstrainedScenarios》(European Conference on Computer Vision.Springer,Cham,2018:593-609.)、Laroca R等在《A robust real-time automatic license plate recognitionbased on the YOLO detector》(2018International Joint Conference on NeuralNetworks(IJCNN).IEEE,2018:1-10.)以及Gabriel Resende 等在文献《LicensePlate Recognition based on Temporal Redundancy》(IEEE International Conferenceon Intelligent Transportation Systems.IEEE,2016.)中均为了提高准确率和召回率，提出在车牌检测之前先检测车辆。这些二阶车牌检测方法存在需要更高计算成本和更多的参数量的局限性，这使得模型难以处理实时帧。

发明内容

为了解决基于二阶的车牌检测方法，如先检测车辆后检测车牌的方法，需要更高计算成本和更多的参数量，难以实时检测的问题，本发明提供一种基于边缘引导稀疏注意力机制的车牌实时检测方法，将边缘引导稀疏注意力机制嵌入检测主干网络中，进行实时车牌检测；为了克服现有的自注意力机制存在计算复杂度高以及可能存在降噪的同时使特征图上物体轮廓被模糊的缺陷，通过边缘引导组件，利用边缘引导特征图和神经网络强大的拟合能力来构建线性模型，增强特征图中的目标边缘轮廓特征同时抑制噪声干扰，进而提高目标检测的精确度和鲁棒性，通过稀疏注意力组件，将传统的自注意力机制的做法重新设计为对于特征图上的每个像素点都只计算和它最相似的K个像素点的注意力权重，然后聚合来自这K个位置的信息，这使得单个像素的特征能够获取长距离信息。稀疏注意力组件的计算复杂度大大减少为只有O(NKC)，其中K＜＜N。

本发明的目的至少通过如下技术方案之一实现。

一种基于边缘引导稀疏注意力机制的车牌实时检测方法，所述于边缘引导稀疏注意力机制包括边缘引导组件和稀疏注意力组件，所述实时检测方法包括：

S1、使用卷积神经网络对输入图像进行处理，提取语义特征图X；

S2、所述边缘引导稀疏注意力机制捕捉车牌区域，其中，

所述边缘引导组件用于增强目标边缘信息并减少噪声干扰，具体操作如下：

S21、利用卷积神经网络提取图像的边缘信息，生成边缘引导图I；

S22、将所述语义特征图X和所述边缘引导图I通过卷积神经网络获取线性模型系数(a,b)；

S23、利用线性模型系数(a,b)和边缘引导图I构建线性模型g_i＝a_iI_i+b_i，通过线性模型得到特征图X1；

所述稀疏注意力组件用于减少自注意力机制计算复杂度，所述特征图X1为所述稀疏注意力组件中输入，所述稀疏注意力组件中的具体操作如下：

S24、为输入特征图X1的每个源像素找到K个最相似的目标像素；

S25、对于每个源像素，利用与它最相似的K个目标像素计算注意力图；

S26、使用注意力图聚合k个目标像素得到相应的输出特征；

S3、采用级联多任务学习辅助车牌的精准检测；

S4、使用损失掩码方法去抑制低质量的预测框。

进一步地，步骤S24中找到所述K个最相似的目标像素的具体具体步骤如下：

S241、通过卷积神经网络预测具有2K通道数的偏移图offset_(k,c`,i,j)，其中K表示K个与相应源像素最相似的目标像素，2表示x轴和y轴，通过特征图X1生成基本网格basic_(c,i,j)，它表示每个像素的原始坐标，基本网格有2个通道，分别表示x轴和y轴；

S242、把基本网格中每个目标像素的原始坐标和偏移图中相应的K个像素的偏移坐标进行求和以获得绝对坐标abs_offset_(k,c`,i,j),公式如下：

abs_offset_(k,c`,i,j)＝offset_(k,c`,i,j)+basic_(c,i,j),

c＝0,1；c′＝2(k-1),2(k-1)+1；k＝1,2...,K

其中，c和c′都表示通道，k表示和位于第i行，第j列源像素点相对应的第k个目标相似点；

S242、基于特征图X1和偏移图offset_(k,c`,i,j)，通过采样为每个源像素点找到相应的K个最相似的目标像素，并且得到特征图X2。

进一步地，所述计算注意力图的具体计算公式可以采用点乘或高斯函数或嵌入高斯函数。

进一步地，采用点乘的具体计算公式如下：

其中，a_(k,i,j)表示位于第i行，第j列源像素点与相对应的第k个目标像素的注意力权重，”*”表示对应位置相乘。

进一步地，得到所述特征输出的公式如下：

其中，o_(c,i,j)表示位于第i行，第j列并且有c个通道的源像素点的聚合输出特征，注意特征图X2的处于同一位置不同通道具有相同的权重。

进一步地，步骤S3中包括第一级任务学习和第二级任务学习，所述第一级任务学习的任务分支分别为车牌的分类置信度预测，边框的相对位置回归预测，关键点分类置信度预测以及关键点相对位置回归，其中，关键点相对位置回归为可选项；第二级任务学习将第一级多任务学习得到的预测特征图有选择地进行融合，对目标检测进一步微调，得到精准位置。

进一步地，损失掩码方法water ripple loss mask，越靠近目标中心点的边界框回归损失权重越大，同时降低远离目标中心边界框回归损失的权重。

进一步地，water ripple loss mask定义为：

本发明与现有技术相比具有以下有益效果：

(1)边缘引导稀注意力机制大大降低了自注意力机制的计算复杂度，同时弥补了自注意力机制模糊物体边缘的缺陷，大大增强目标边缘轮廓的同时抑制噪声干扰，提高目标检测精确度和鲁棒性。

(2)边缘引导稀注意力机制可以快速捕获目标显著性区域即车牌区域，因此，将边缘引导稀注意力模块嵌入检测主干网络就可以直接在帧上进行实时车牌检测，并能获得高准确率和召回率。和主流的先检测车辆或相关区域再检测车牌的二阶检测方法相比，本发明不仅保持高精度，还大大减少了计算量和网络参数量，有利于实时检测。

附图说明

图1为本发明为基于边缘引导稀疏注意力机制的车牌检测方法的整体流程图。

图2为边缘引导组件的具体流程图。

图3为稀疏注意力组件的具体流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明，实施例仅用于说明本发明而不用于限制本发明的范围。

将边缘引导稀疏注意力模块嵌入到检测主干网络中，用于车牌检测。现有的车牌检测方法大多都基于YOLO，并采用二阶方法，即先检测车辆，再进一步检测车牌，这不仅大大增加了计算量和网络参数，还降低了检测速度，难以实现实时检测。得益于边缘引导稀疏注意力机制可以快速获取车牌区域，不需要先检测车辆，直接在帧上检测车牌，在提高检测速度的同时获得了高准确率、高召回率以及高鲁棒性。并且可以大大降低自注意力机制的计算复杂度，同时弥补了自注意力机制模糊物体边缘的缺陷。

一种基于边缘引导稀疏注意力机制的车牌实时检测方法，所述实时检测方法包括：

步骤1：使用卷积神经网络(Backborn)对输入图像进行处理，提取图像的语义特征图X(Feature Map X)。例如使用VGG-19前8层卷积层提取语义特征图X。

步骤2：利用一种新的边缘引导稀疏注意力机制(Edge-Guided Sparse AttentionModule)快速捕获显著性区域，即车牌区域，其中边缘引导稀疏注意力机制包括边缘引导组件(Edge-Guided Component)和稀疏注意力组件(Sparse Attention Component)两部分。

边缘引导组件的操作包括3步：

(1)由卷积层(CNN1)生成边缘引导图I(Edge-Guided Map I)，其中卷积的输入是由原始输入图像转换而来的灰度图像。

(2)将边缘引导图I和上述步骤1中生成的语义特征图X和进行拼接(CONCAT)，之后送入一个小的卷积网络(CNN2)来获取线性模型参数(a,b)。

(3)将线性模型系数(a,b)和边缘引导图I送入一个线性层(Linear Layer)，为边缘引导图I中的每个像素点构建一个线性模型g_i＝a_iI_i+b_i，其中g表示线性模型的输出，i表示像素的索引。通过这个线性模型可以生成噪声少并具有明显轮廓信息的特征图X1(Feature Map X1)。

稀疏注意力组件的操作包括3步：

(1)将特征图X1输入稀疏注意力组件中，为输入特征图X1的每个源像素(SourcePixel)找到K个最相似的目标像素，可以由以下操作但不限于以下操作获得：

①用一个卷积网络(CNN3)以数据驱动的方式来预测具有2K通道数的偏移图(Offset Map)offset_(k,c`,i,j)，其中K表示K个与相应源像素最相似的目标像素，2表示x轴和y轴，c'表示通道，k表示和位于第i行，第j列源像素点相对应的第k个目标像素。为了获得目标像素的绝对坐标，由稀疏注意力组件的输入特征图X1生成基本网格(Basic Grid)basic_(c,i,j)来表示每个像素的原始坐标。通过将特征图X1每个像素的坐标标准化为[-1,1]来生成基本网格。左上像素的坐标为(-1，-1)，而右下像素的坐标为(1,1)。不同通道上相同位置的像素具有相同的坐标。基本网格有2个通道，分别表示x轴和y轴。从输入图像生成一个基本网格来表示像素的原始位置。

②把基本网格中每个目标像素的原始坐标和偏移图中相应的K个像素的偏移坐标进行求和(Element-wise Sum)以获得绝对坐标图(Abs_offset Map)，其中绝对坐标abs_offset_(k,c`,i,j)公式如下：

abs_offset_(k,c`,i,j)＝offset_(k,c`,i,j)+asic_(c,i,j),

c＝0,1；c′＝2(k-1),2(k-1)+1；k＝1,2...,K

c和c′都表示通道，k表示和位于第i行，第j列源像素点相对应的第k个目标像素。

③通过采样(Sampling)为每个源像素点找到相应的K个最相似的目标像素(The KSimilar Pixel)，从而得到特征图X2(Feature Map X2)。

(2)对于每个源像素，利用与它最相似的K个目标像素计算(Attention MapCalculation)注意力图(Attention Map)，计算公式可以采用点乘，高斯函数，嵌入高斯函数等，例如采用点乘计算，公式如下：

a_(k,i,j)表示位于第i行，第j列源像素点与相对应的第k个目标像素的注意力权重，X2_(k,c,i,j)表示特征图X2中与位于第i行，第j列源像素点相对应的第k个目标像素点的第c通道值，X1_(c,i,j)表示特征图X1中位于第i行，第j列源像素点的第c通道值，”*”表示对应位置相乘。

(3)使用计算得到注意力图聚合(Reassemble Operation)k个目标像素得到相应的具有可辨性的输出特征图(Feature Map O)，公式如下，

o_(c,i,j)表示位于第i行，第j列并且有c个通道的源像素点的聚合输出特征。注意特征图X2的处于同一位置不同通道具有相同的权重。

步骤3：采用级联多任务学习(Cascaded Multi-Task Detection Head)辅助车牌的精准检测。

第一级多任务学习中的任务分支分别为车牌的分类置信度预测(Classification)，边界框的相对位置回归预测(Regression)，关键点分类置信度预测(Landmark Classification)以及关键点相对位置回归(Landmark Regression)，其中，关键点相对位置回归为可选项。

第二级任务学习将第一级多任务学习得到的车牌的分类置信度预测特征图和关键点分类置信度预测进行融合，例如可以采用CONCAT操作进行融合，对目标检测进一步微调(Refined Classification)，得到精准位置。

步骤4：使用一种新的损失掩码方法去抑制低质量的预测框，提高系统性能。新的损失掩码方法water ripple loss mask的核心在于越靠近目标中心点的边界框回归损失权重越大，同时降低远离目标中心边界框回归损失的权重。通过反向传播，抑制低质量的预测边框，从而进一步提高检测性能。

water ripple loss mask定义如下：

其中，表示预测的车牌分类置信度，/>表示真值的标签，(x_i,y_i)表示像素点i处的坐标，/>表示像素点i处的掩码。(c_x,c_y)表示将真实标注边框下采样2²映射到和预测的车牌的分类置信度预测一样尺寸，得到物体中心点(c_x,c_y)。/>表示该点不位于灰度区域内，灰度区域内像素点的损失值是不需要计算的。σ表示超参数。

以上实施例的说明只是用于帮助理解本发明方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求保护范围内。

Claims

1.一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：所述边缘引导稀疏注意力机制包括边缘引导组件和稀疏注意力组件，所述实时检测方法包括：

S2、所述边缘引导稀疏注意力机制捕捉车牌区域，其中，

S26、使用注意力图聚合k个目标像素得到相应的输出特征；

S3、采用级联多任务学习辅助车牌的精准检测；

S4、使用损失掩码方法去抑制低质量的预测框。

2.根据权利要求1所述的一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：步骤S24中找到所述K个最相似的目标像素的具体步骤如下：

S241、通过卷积神经网络预测具有2K通道数的偏移图offset_(k,c′,i,j)，其中K表示K个与相应源像素最相似的目标像素，2表示x轴和y轴，通过特征图X1生成基本网格basic_(c,i,j)，它表示每个像素的原始坐标，基本网格有2个通道，分别表示x轴和y轴；

S242、把基本网格中每个目标像素的原始坐标和偏移图中相应的K个像素的偏移坐标进行求和以获得绝对坐标abs_offset_(k,c',i,j),公式如下：

abs_offset_(k,c′,i,j)＝offset_(k,c′,i,j)+basic_(c,i,j),

c＝0,1；c′＝2(k-1),2(k-1)+1；k＝1,2...,K

其中，c和c′都表示通道，k表示和位于第i行，第j列源像素点相对应的第k个目标像素；

S242、基于特征图X1和偏移图offset_(k,c′,i,j)，通过采样为每个源像素点找到相应的K个最相似的目标像素，并且得到特征图X2。

3.根据权利要求2所述的一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：所述计算注意力图的具体计算公式采用点乘或高斯函数或嵌入高斯函数。

4.根据权利要求3所述的一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：采用点乘的具体计算公式如下：

5.根据权利要求4所述的一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：得到所述输出特征的公式如下：

6.根据权利要求1所述的一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：步骤S3中包括第一级任务学习和第二级任务学习，所述第一级任务学习的任务分支分别为车牌的分类置信度预测，边框的相对位置回归预测，关键点分类置信度预测以及关键点相对位置回归，其中，关键点相对位置回归为可选项；第二级任务学习将第一级多任务学习得到的预测特征图有选择地进行融合，对目标检测进一步微调，得到精准位置。

7.根据权利要求1所述的一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：所述损失掩码方法为water ripple loss mask，越靠近目标中心点的边界框回归损失权重越大，同时降低远离目标中心边界框回归损失的权重。

8.根据权利要求7所述的一种基于边缘引导稀疏注意力机制的车牌实时检测方法，其特征在于：water ripple loss mask定义为：

其中，/>表示预测的车牌分类置信度，/>表示真值的标签，(x_i,y_i)表示像素点i处的坐标，/>表示像素点i处的掩码；(c_x,c_y)表示将真实标注边框下采样2²映射到和预测的车牌的分类置信度预测一样尺寸，得到物体中心点(c_x,c_y)；/>表示该点不位于灰度区域内，灰度区域内像素点的损失值是不需要计算的，σ表示超参数。