CN114283402A

CN114283402A - 基于知识蒸馏训练与时空联合注意力的车牌检测方法

Info

Publication number: CN114283402A
Application number: CN202111418714.0A
Authority: CN
Inventors: 王�琦; 丁皓轩; 袁媛
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-04-05
Anticipated expiration: 2041-11-24
Also published as: CN114283402B

Abstract

本发明提供了一种基于知识蒸馏训练与时空联合注意力的车牌检测方法。首先，构建两个异构网络，并输入视频序列进行网络训练，其中，对学生网络进行知识蒸馏训练；然后，分别利用训练好的网络进行关键帧与非关键帧特征提取，并引入时序特征，与空间特征进行关联，获得时空关联特征，从而得到最终车牌检测结果。本发明针对运动场景，在检测任务中引入时空关联性，能够实现动态场景下的实时高效车牌检测。

Description

基于知识蒸馏训练与时空联合注意力的车牌检测方法

技术领域

本发明属计算机视觉、图形处理技术领域，具体涉及一种基于知识蒸馏训练与时空联合注意力的车牌检测方法。

背景技术

车牌是车辆的特殊身份标识，自动车牌检测是车辆交通统计分析的重要任务，也是车牌智能识别的前置任务。现有车牌检测方法通常针对静态或低速运动车辆，无法适应于交通违法跟踪、交通智能调度等复杂动态场景下的车牌检测任务。同时，受设备运算能力限制，高精度车牌检测算法无法满足实时性需求，轻量化车牌检测算法无法实现高精度检测，实时高效的动态场景车牌检测方法研究相对较少。现有车牌检测方法研究的流程大体如下：首先对车辆进行检测，在车辆检测的基础上对车牌进行检测。相关研究有：

Laroca等人在文献“R.Laroca,E.Severo,L.A.Zanlorensi,L.S.Oliveira,G.Gonc，alves,W.Schwartz,and D.Menotti,A robust real-time automatic licenseplate recognition based on the YOLO detector,In Proceedings of InternationalJoint Conference on Neural Networks,pp.1-10,2018.”中提出使用实时目标检测模型Fast-YOLO首先对车辆进行检测获得车辆图块，再在车辆图块上使用Fast-YOLO对车牌进行检测，获得车牌的矩形包围框。

Montazzolli与Jung在文献“S.Montazzolli and C.Jung,Real-time brazilianlicense plate detection and recognition using deep convolutional neuralnetworks,In Proceedings of SIBGRAPI Conference on Graphics,Patterns andImages,pp.55-62,2017.”中使用Fast-YOLO对汽车前视图进行处理，检测出车辆与车牌。

这些方法的问题在于：使用模型基本为YOLO及其变种，为追求检测的实时性损失一定检测精度；且检测过程分为多个阶段，造成模型复杂度提升，前置任务严重影响后置任务效果。同时，这些研究都仅针对图像数据，并不考虑动态场景下的时空关联性，与实际情况不符，实用性较差。

发明内容

为了克服现有技术对动态场景车牌检测的实时性与精度较差的不足，本发明提供一种基于知识蒸馏训练与时空联合注意力的车牌检测方法。首先，构建两个异构网络，并输入视频序列进行网络训练，其中，对学生网络进行知识蒸馏训练；然后，分别利用训练好的网络进行关键帧与非关键帧特征提取，并引入时序特征，与空间特征进行关联，获得时空关联特征，从而得到最终车牌检测结果。本发明针对运动场景，在检测任务中引入时空关联性，能够实现动态场景下的实时高效车牌检测。

一种基于知识蒸馏训练与时空联合注意力的车牌检测方法，其特征在于步骤如下：

步骤1：构建导师网络T与学生网络S，导师网络T采用ResNet-50作为骨干网络，学生网络S采用ResNet-18为骨干网络；

步骤2：输入视频序列X＝{x₁,x₂,...,x_n}，对所有视频帧x_i进行归一化处理后分别输入导师网络T与学生网络S进行特征提取，导师网络获得特征F_t，学生网络获得特征F_s，i＝1,2…,n，n表示视频帧总数；

步骤3：利用导师网络特征F_t进行车牌预测，计算类别预测损失与位置回归损失，通过最小化损失函数对导师网络参数进行更新，完成导师网络训练；

步骤4：固定训练好的导师网络，通过最小化学生网络特征F_s与导师网络特征F_t之间的距离更新学生网络参数，完成知识蒸馏训练；

步骤5：对输入视频序列进行关键帧与非关键帧划分，从起始视频帧开始每隔4帧选取一帧作为关键帧，其余为非关键帧；

步骤6：使用步骤3训练好的导师网络对关键帧图像进行特征提取，获得的特征记为记忆特征F_m；

步骤7：使用步骤4训练好的学生网络对非关键帧进行特征提取，获得特征F_s；

步骤8：构建F_s与F_m之间的时空关联注意力，包括为F_s与F_m添加时间维度，并沿时间维度对F_s与F_m进行拼接，获得拼接特征F_c，对拼接特征F_c的特征通道进行全局池化后再交换通道维度与时间维度，使用三维卷积对时空信息进行关联并使用Sigmoid函数激活，获得时空注意力图M，按下式计算得到加权特征F_w：

其中，

为矩阵的Hadamard积；

对加权特征F_w沿时间维度进行全局池化，获得同特征F_s维度相同的特征F_c′，将特征F_c′与F_s相加获得时空联合特征，使用卷积层从时空联合特征中回归出车牌在图像中的位置，完成车牌检测。

本发明的有益效果是：由于采用知识蒸馏训练提升轻量化学生网络的特征提取能力，并在动态场景下引入时序关联，建立时空联合注意力机制，使用关键帧特征辅助非关键帧的检测任务，一方面保持了算法运行的效率，另一方面提升了轻量化学生网络的检测精度，能够实现动态场景下的实时高效车牌检测，车牌识别率高。

附图说明

图1是本发明的基于知识蒸馏训练与时空联合注意力的车牌检测方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于知识蒸馏训练与时空联合注意力的车牌检测方法，包括两大模块：知识蒸馏训练与时空联合注意力，具体实现过程如下：

1.知识蒸馏训练

步骤1：构建两个异构神经网络，网络规模大的神经网络称为导师网络T，网络规模小的神经网络称为学生网络S，导师网络T采用ResNet-50作为骨干网络，学生网络S采用ResNet-18为骨干网络。

步骤2：输入视频序列X＝{x₁,x₂,...,x_n}，对所有视频帧x_i进行归一化处理后分别输入导师网络T与学生网络S进行特征提取，导师网络获得特征F_t，学生网络获得特征F_s，i＝1,2…,n，n表示视频帧总数。

步骤3：利用导师网络特征F_t进行车牌预测，通过最小化损失函数对导师网络参数进行更新，完成导师网络训练。损失函数采用类别预测损失(交叉熵损失)与位置回归损失(GIoU损失)。

步骤4：固定训练好的导师网络，通过最小化学生网络特征F_s与导师网络特征F_t之间的距离(如L2距离)更新学生网络参数，完成知识蒸馏训练。

2.时空联合注意力

步骤5：对输入视频序列进行关键帧与非关键帧划分，从起始视频帧开始每隔4帧选取一帧作为关键帧，其余为非关键帧。

步骤6：使用步骤3训练好的导师网络对关键帧图像进行特征提取，获得的特征记为记忆特征F_m，用以辅助非关键帧的检测任务。

步骤7：使用步骤4训练好的学生网络对非关键帧进行特征提取，获得特征F_s。

步骤8：步骤8：构建F_s与F_m之间的时空关联注意力，包括为F_s与F_m添加时间维度，并沿时间维度对F_s与F_m进行拼接，获得拼接特征F_c，对拼接特征F_c的特征通道进行全局池化后再交换通道维度与时间维度，使用三维卷积对时空信息进行关联并使用Sigmoid函数激活，获得时空注意力图M，利用时空注意力图M加权拼接特征F_c：

其中，

为矩阵的Hadamard积。得到加权特征F_w，而后对加权特征F_w沿时间维度进行全局池化，获得同F_s维度相同的特征F_c′，将F_c′与F_s相加获得时空联合特征。而后使用卷积层从时空联合特征中回归出车牌在图像中的位置，实现车牌检测。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

在中央处理器为

i7-6900K 3.4GHz CPU、内存64G、NVIDIA GTX1080TI GPU、Ubuntu 16.04操作系统上，运用Pytorch框架进行仿真。仿真中使用的数据为视频车牌检测数据集UFPR-ALPR，该数据集由Laroca等人在文献“R.Laroca,E.Severo,L.A.Zanlorensi,L.S.Oliveira,G.Gonc，alves,W.Schwartz,and D.Menotti,A robust real-timeautomatic license plate recognition based on the YOLO detector,In Proceedingsof International Joint Conference on Neural Networks,pp.1-10,2018.”中提出，包括150个视频，每个视频30帧，共4500张图像，其中训练集60个视频，验证集30个视频，测试集60个视频。

2.仿真内容

首先，使用训练集对导师网络与学生网络进行训练，使其具备目标检测能力，训练学生网络时引入本发明知识蒸馏训练的步骤，使用知识蒸馏方法对学生网络的车牌检测能力进行增强；然后，使用模型处理测试集视频序列，对测试集中出现的车牌进行定位，并计算定位平均精度，同时对算法实时性进行评估，统计图像处理速度与算法运行开销。

为了证明本发明的有效性，选择了常见目标检测方法YOLO-v3方法、RetinaNet方法、Faster-RCNN作为对比方法，YOLO-v3方法在文献“J.Redmon and A.Farhadi,Yolov3:Anincremental improvement,arXiv preprint,arXiv:abs/1804.02767,2018.”中有相应介绍；RetinaNet方法是文献“T.Lin,P.Goyal,R.Girshick,K.He,and P.Dollar,Focal lossfor dense object detection,In Proceedings of IEEE International Conference onComputer Vision,pp.2999-3007,2017.”提出的；Faster-RCNN方法是文献“S.Ren,K.He,R.Girshick,and J.Sun,Faster R-CNN:towards realtime object detection withregion proposal networks,In Proceedings of Advances in Neural InformationProcessing Systems,pp.91-99,2015.”提出的。目标检测精度如表1所示，算法运行效率如表2所示。

表1

表2

从表1可见，本发明方法的目标检测平均精度(94.98％)高于对比方法。本发明通过知识蒸馏训练能够提升非关键帧的检测精度与速度；同时，引入视频数据固有时序关联，通过时空联合注意力方法将关键帧获得的强表征信息传递给非关键帧，能够提升非关键帧的检测精度，进而提升方法总体目标检测精度。从表2可见，本发明方法的运行效率远高于对比方法，处理速度达到48.4FPS，GFLOPs为每秒10亿次的浮点运算数，本发明方法的浮点运算次数最少，为42.53GFLOPs，计算开销最小，运行效率最高，满足动态常见下实时车牌检测的需求。通过以上仿真实验可以验证本发明方法的有效性。

Claims

1.一种基于知识蒸馏训练与时空联合注意力的车牌检测方法，其特征在于步骤如下：

其中，

为矩阵的Hadamard积；