CN112464750B

CN112464750B - 一种基于深度学习的车牌特征点检测方法

Info

Publication number: CN112464750B
Application number: CN202011253290.2A
Authority: CN
Inventors: 暴建民; 米冠宇; 丁飞; 任素菊; 殷齐; 张登银
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2023-11-14
Anticipated expiration: 2040-11-11
Also published as: CN112464750A

Abstract

本发明公开了一种基于深度学习的车牌特征点检测方法，旨在解决现有技术中车牌特征点检测精度低的技术问题。其包括：获取道路视频，并将道路视频转换成道路图像数据；利用预先训练好的车牌特征点检测模型处理道路图像数据，通过模型前向推理获得车牌特征点检测结果；利用OpenCV工具将车牌特征点检测结果以标签的形式添加到道路图像数据中，并将带有标签的道路图像数据恢复成带有标签的道路视频，获得道路视频的车牌特征点检测结果；其中，所述车牌特征点检测模型采用融合注意力机制的高分辨率并行网络模型。本发明方法能够高效、准确的进行车牌特征点检测。

Description

一种基于深度学习的车牌特征点检测方法

技术领域

本发明涉及一种基于深度学习的车牌特征点检测方法，属于车辆智能驾驶技术领域。

背景技术

车辆检测是计算机视觉的重要任务之一，也是无人驾驶领域最为重要的路况感知手段，其中，车牌特征点检测时车辆检测的主要任务。目前常用的基于视频的车辆前车车牌特征点检测方法主要有两种：第一种为传统的边缘检测、角点检测方法；第二种是基于深度学习的以卷积神经网络为主的特征点检测方法。

在以深度学习为主的特征点检测方法中，目前存在三种提升特征点检测精度的方法：第一种是针对网络损失函数进行专项改进，以此来使损失函数更加契合检测任务，如加权欧氏距离损失函数；第二种方法是在方法层面进行的优化，如借助视频前N帧的图像预测结果作为先验知识，不断迭代的进行训练与预测，使网络具有上下文信息，从而更好地检测特征点；第三种优化方法是针对网络层面的优化，如借助每个阶段的梯度激活值作为网络特征图的权重进行特征融合，以此来提高特征点检测精度。现有检测方法基于下采样倍数很高的骨干网络进行特征点的检测，并且采用了多种特征任何技术，可以更好地适应特征变化，但是骨干网络中本质的低分辨率检测精度低的问题并未得到有效的解决，无法保留图像高分辨率特征，检测效果不佳。

发明内容

为了解决现有技术中车牌特征点检测精度低的问题，本发明提出了一种基于深度学习的车牌特征点检测方法，采用多路并行的网络结构，令网络始终保持高分辨率的特征信息，同时融入注意力机制，进行特征融合，本发明能够高效、准确的检测道路图像中的车牌特征信息。

为解决上述技术问题，本发明采用了如下技术手段：

本发明提出了一种基于深度学习的车牌特征点检测方法，包括以下步骤：

获取道路视频，并将道路视频转换成道路图像数据；

利用预先训练好的车牌特征点检测模型处理道路图像数据，通过模型前向推理获得车牌特征点检测结果；

利用OpenCV工具将车牌特征点检测结果以标签的形式添加到道路图像数据中，并将带有标签的道路图像数据恢复成带有标签的道路视频，获得道路视频的车牌特征点检测结果；

其中，所述车牌特征点检测模型采用融合注意力机制的高分辨率并行网络模型。

进一步的，所述高分辨率并行网络模型由依次连接的网络结构头部、网络骨干和网络检测头部组成；所述网络结构头部包括一个下采样卷积；所述网络骨干包括多个融合注意力机制的高分辨率并行网络模块，每个高分辨率并行网络模块之间通过一个1*1的逐点卷积连接；所述网络检测头部包括分类头、回归头和特征点检测头，所述分类头用于检测网络骨干输出的特征图中的物体类别，所述回归头用于检测特征图中的车辆回归框，所述特征点检测头用于检测特征图中的车牌特征点。

进一步的，所述高分辨率并行网络模块的构建方法如下：

利用下采样卷积为一条高分辨率的网络通路连接多条并行的低分辨率的网络通路，生成并行网络结构；

利用跳跃连接对并行网络结构中的每一条网络通路中对称位置的特征图进行跨层特征融合；

基于注意力机制，利用特征连接权重和权重阈值对并行网络结构中的多条相邻的网络通路进行多分辨率特征融合，获得高分辨率并行网络模块。

进一步的，设高分辨率并行网络模块中第p+1条网络通路中第q+1个卷积层的特征图为Feature_(p+1)(q+1)，其中，p＝1,2,…,R，q＝1,2,…,Q_p，R为高分辨率并行网络模块中网络通路的总条数，Q_p为第p条网络通路中卷积层的总个数，则Feature_(p+1)(q+1)的多分辨率特征融合的具体操作如下：

获取特征图Feature_pq、Feature_p(q+1)和Feature_p(q+2)，并获取与特征图对应的特征连接权重W_pq、W_p(q+1)和W_p(q+2)，其中，Feature_pq表示高分辨率并行网络模块中第p条网络通路中第q个卷积层的特征图，Feature_p(q+1)表示第p条网络通路中第q+1个卷积层的特征图，Feature_p(q+2)表示第p条网络通路中第q+2个卷积层的特征图，W_pq表示Feature_pq对应的特征连接权重，W_p(q+1)表示Feature_p(q+1)对应的特征连接权重，W_p(q+2)表示Feature_p(q+2)对应的特征连接权重；

依次将特征连接权重W_pq、W_p(q+1)、W_p(q+2)与权重阈值K比较，获得连接活性参数，具体如下：

其中，表示特征连接权重W_pq的连接活性参数；

根据连接活性参数进行多分辨率特征融合：

进一步的，检测车牌特征点的具体操作如下：

获取网络骨干输出的特征图，设特征图中共有N个车辆，每个车辆有一个车牌，每个车牌有4个车牌特征点，其中，N为整数；

基于高斯函数为特征图中每一个车辆的每个车牌特征点生成一幅热图；

基于响应最大化原则从热图中检测车牌特征点，获得车牌特征点位置：

S_i,j＝max_B(S_i,j(B)) (3)

其中，S_i,j表示特征图中第i个车辆的第j个车牌特征点位置，S_i,j(B)表示第i个车辆的第j个车牌特征点的热图中像素点B的响应值，i＝1,2,…,N，j∈[1,4]。

进一步的，训练高分辨率并行网络模型的具体操作如下：

获取道路图像数据集，并对道路图像数据集中的每幅道路图像进行标注；

按照预设比例将标注后的道路图像数据集划分为训练样本集和测试样本集；

初始化高分辨率并行网络模型的网络参数，并将训练样本集输入高分辨率并行网络模型，获取训练样本集中每个训练样本的车牌特征点初始检测结果；

根据车牌特征点初始检测结果计算模型损失，并通过损失反向传输对高分辨率并行网络模型的网络参数进行迭代更新，获得更新后的高分辨率并行网络模型；

利用测试样本集测试更新后的高分辨率并行网络模型，获得测试指标；

当测试指标满足迭代终止条件时，结束迭代更新，获得训练好的高分辨率并行网络模型。

进一步的，其特征在于，所述高分辨率并行网络模型的网络参数包括特征连接权重。

进一步的，所述标注包括物体类别标注、车辆回归框标注和车牌特征点标注；所述车牌特征点初始检测结果包括物体分类独热向量、车辆回归框位置矩阵和车牌特征点位置。

进一步的，模型损失的计算过程如下：

根据物体分类独热向量和物体类别标注计算分类损失，计算公式如下：

其中，Loss_cls表示分类损失，表示标注的第m个物体的类别，y_m表示检测的第m个物体的分类独热向量，M表示训练样本中的物体总数；

根据车辆回归框位置矩阵和车辆回归框标注计算回归框偏移量，计算公式如下：

其中，Δt_i表示车辆回归框位置矩阵中第i个车辆回归框的回归框偏移量，表示标注的第i个车辆回归框中心点横坐标的偏移量，/>表示标注的第i个车辆回归框中心点纵坐标的偏移量，/>表示标注的第i个车辆回归框宽度的偏移量，/>表示标注的第i个车辆回归框高度的偏移量，t_ix表示车辆回归框位置矩阵中第i个车辆回归框中心点横坐标的偏移量，t_iy表示车辆回归框位置矩阵中第i个车辆回归框中心点纵坐标的偏移量，t_iw表示车辆回归框位置矩阵中第i个车辆回归框宽度的偏移量，t_ih表示车辆回归框位置矩阵中第i个车辆回归框高度的偏移量，i＝1,2,…,N，N为车辆总数；

根据回归框偏移量计算回归框损失，计算公式如下：

其中，Loss_Bbox表示回归框损失；

根据车牌特征点标注生成标注热图，并计算每个车辆的每个车牌特征点的标注热图中像素点B的标注响应值；

根据车牌特征点位置生成热图，并计算每个车辆的每个车牌特征点的热图中像素点B的响应值；

根据标注响应值和响应值计算特征点损失，计算公式如下：

其中，Loss_Kp表示特征点损失，表示第i个车辆的第j个车牌特征点标注热图中像素点B的标注响应值，S_i,j(B)表示检测的第i个车辆的第j个车牌特征点的热图中像素点B的响应值；

根据分类损失、回归框损失和特征点损失计算模型损失，计算公式如下：

Loss_total＝Loss_cls+Loss_Bbox+Loss_Kp (8)

其中，Loss_total表示模型损失。

采用以上技术手段后可以获得以下优势：

本发明提出了一种基于深度学习的车牌特征点检测方法，利用融合注意力机制的高分辨率并行网络模型作为车牌特征点检测模型，进行车牌特征点检测，从而在保持图像高分辨路特征的同时更好地适应特征变化，有效提高车辆车牌特征点检测的精确度。

本发明在HRNet的基础上进行改进，在保证图像高分辨率信息的同时不断融合低分辨率的信息，形成并行的高分辨率骨干网络结构，这种网络结构可以避免普通网络由于下采样倍数变大而丢失图像小物体的特征的问题，能够有效地保留车牌特征点的特征信息，高效快速的定位车牌特征点。本发明还融入了注意力机制，给网络模型中各个特征图连接设置了一个可学习的特征连接权重，特征连接权重越大，对应特征图包含的目标信息越丰富，按照特征连接权重进行特征融合可以令网络信息交换更加高效准确。此外，本发明还融入了跳跃连接操作，使得网络在传递过程中可以融合上下文特征，进行更好的训练，保证了损失无损传播，令网络更好的收敛。

附图说明

图1为本发明一种基于深度学习的车牌特征点检测方法的步骤流程图。

图2为本发明实施例中车牌特征点检测的流程图。

图3为本发明实施例中高分辨率并行网络模型的结构示意图。

图4为本发明实施例中高分辨率并行网络模块的结构示意图。

图5为本发明实施例中多分辨率特征融合的示意图。

图6为本发明实施例中高分辨率并行网络模型训练的流程图。

图中，1是网络结构头部，2是网络骨干，3是网络检测头部。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

本发明提出了一种基于深度学习的车牌特征点检测方法，如图1、2所示，具体包括以下步骤：

获取道路视频，并将道路视频转换成道路图像数据；

为了提高车牌特征点检测精度，本发明给出了一个融合注意力机制的高分辨率并行网络模型，如图3所示，高分辨率并行网络模型由依次连接的网络结构头部1、网络骨干2和网络检测头部3组成，网络结构头部用于将待处理的图像传输到网络骨干中，其包括一个下采样卷积；网络骨干用于处理图像，获得对应的特征图；网络检测头部用于接收网络骨干输出的特征图，对特征图进行处理后输出车牌特征点检测结果。

本发明在HRNet(High Resolution Network，高分辨率网络)基础上进行改进，保留了图像高分辨率特征信息的并行网络结构，然后网络模块以倒三角结构进行重构，删掉了结构中参数冗余的部分，同时对结构进行量化，形成即插即用的高分辨率并行网络模块，其结构如图4所示。网络骨干由多个融合注意力机制的高分辨率并行网络模块叠加而成，每个高分辨率并行网络模块之间通过一个1*1的逐点卷积连接，高分辨率并行网络模块的数量为超参数，通常是人为设定，可根据图像分辨率以及数据集大小自适应调整网络深度。

高分辨率并行网络模块的构建方法具体如下：

利用下采样卷积为一条高分辨率的网络通路连接多条并行的低分辨率的网络通路，生成并行网络结构。在保留图像原始分辨率分支(即高分辨率分支)的同时不断向下衍生出下采样倍数为2、4、6、8的低分辨率分支进行并行化前向传递，在保证图像高分辨率信息的同时不断融合低分辨率的信息，达到高效检测特征点的目的。

借鉴残差网络的优势，利用跳跃连接对并行网络结构中的每一条网络通路中对称位置的特征图进行跨层特征融合，使得网络在向前传播时可以融合上下文信息，并且在损失方向传播时可以进行无损传播，加速网络收敛。

基于注意力机制，在网络特征融合连接处利用特征连接权重和权重阈值对并行网络结构中的多条相邻的网络通路进行多分辨率特征融合，获得高分辨率并行网络模块。权重阈值为超参数，特征连接权重为可学习的权重参数，在网络模型训练过程中，特征连接权重可以依据反向传输的损失进行自适应的学习来表达当前特征图对网络的影响程度，即重要性。

如图5所示，设高分辨率并行网络模块中第p+1条网络通路中第q+1个卷积层的特征图为Feature_(p+1)(q+1)，其中，p＝1,2,…,R，q＝1,2,…,Q_p，R为高分辨率并行网络模块中网络通路的总条数，Q_p为第p条网络通路中卷积层的总个数，则Feature_(p+1)(q+1)的多分辨率特征融合的具体操作如下：

获取特征图Feature_pq、Feature_p(q+1)和Feature_p(q+2)，并获取与特征图对应的特征连接权重W_pq、W_p(q+1)和W_p(q+2)，其中，Feature_pq表示高分辨率并行网络模块中第p条网络通路中第q个卷积层的特征图，Feature_p(q+1)表示第p条网络通路中第q+1个卷积层的特征图，Feature_p(q+2)表示第p条网络通路中第q+2个卷积层的特征图W_pq表示Feature_pq对应的特征连接权重，W_p(q+1)表示Feature_p(q+1)对应的特征连接权重，W_p(q+2)表示Feature_p(q+2)对应的特征连接权重。

依次将特征连接权重W_pq、W_p(q+1)、W_p(q+2)与权重阈值K比较，获得连接活性参数，以特征连接权重W_pq的连接活性参数为例：

根据连接活性参数进行多分辨率特征融合：

当某个特征连接权重低于权重阈值，则该特征连接权重对应的特征图连接失活，在后续的多分辨率特征融合中不需要融合连接失活的特征图。通过特征连接权重和权重阈值可以达到DropOut的效果，减少过拟合现象。

本发明的高分辨率并行网络模型中的卷积(网络结构头部的下采样卷积、高分辨率并行网络模块中的卷积)均为3*3的深度可分离卷积核，在保证精度的条件下极大地降低了参数量。

本发明实施例中的网络检测头部包括分类头、回归头和特征点检测头，其中，分类头用于检测特征图中的物体类别，由于本发明网络模型处理的是道路图像，所以图像中可能存在车辆、行人、建筑等物体，分类头可以识别不同物体的类别，以便回归头和特征点检测头对车辆进行后续检测；回归头用于检测特征图中的车辆回归框，一个车辆对应一个车辆回归框，当特征图中存在多个车辆时，回归头输出车辆回归框矩阵；特征点检测头用于检测特征图中的车牌特征点，具体的，检测车辆车牌的四个角点。

回归头检测车牌特征点的具体操作如下：

获取网络骨干输出的特征图，设特征图中共有N个车辆，每个车辆有一个车牌，每个车牌有4个车牌特征点，其中，N为整数。

基于高斯函数为特征图中每一个车辆的每个车牌特征点生成一幅热图，热图总数为4N。

基于响应最大化原则从热图中检测车牌特征点，获得车牌特征点位置，对每一幅热图进行如下运算：

S_i,j＝max_B(S_i,j(B)) (11)

本发明实施例中网络模型训练和特征点检测的流程如图6所示，其中，训练高分辨率并行网络模型的具体操作如下：

获取道路图像数据集，并对道路图像数据集中的每幅道路图像进行标注，标注操作主要包括物体类别标注、车辆回归框标注和车牌特征点标注，其中车辆回归框标注分为标注回归框和给定锚定框两个步骤。道路图像数据集可以通过摄像装置采集，也可以直接从网络上采集。

按照预设比例将标注后的道路图像数据集划分为训练样本集和测试样本集，为了提高训练样本数量，保证训练效果，可以对训练样本集中的训练样本进行数据增强处理，比如图像翻转、拉伸、仿射变换等操作。

初始化高分辨率并行网络模型的网络参数，此处的网络参数主要包括特征连接权重和模型中每一层的滤波器中的初始化参数，特征连接权重的初始化数值为1。将训练样本集输入高分辨率并行网络模型，获取训练样本集中每个训练样本的车牌特征点初始检测结果，车牌特征点初始检测结果包括物体分类独热向量、车辆回归框位置矩阵和车牌特征点位置。

根据车牌特征点初始检测结果计算模型损失，并通过损失反向传输对高分辨率并行网络模型的网络参数进行迭代更新，获得更新后的高分辨率并行网络模型。

利用测试样本测试更新后的高分辨率并行网络模型，获得测试指标，比如mAP指标。

当测试指标满足迭代终止条件时，结束迭代更新，获得训练好的高分辨率并行网络模型。迭代终止条件是通过大量实验研究获得的，不同的指标对应不同的要求，可根据实际需求设置。

模型损失由分类损失、回归框损失和特征点损失组成，具体计算过程如下：

其中，Loss_cls表示分类损失，表示标注的第m个物体的类别，y_m表示检测的第m个物体的分类独热向量，M表示训练样本中的物体总数。

其中，Δt_i表示车辆回归框位置矩阵中第i个车辆回归框的回归框偏移量，表示标注的第i个车辆回归框中心点横坐标的偏移量，/>表示标注的第i个车辆回归框中心点纵坐标的偏移量，/>表示标注的第i个车辆回归框宽度的偏移量，/>表示标注的第i个车辆回归框高度的偏移量，t_ix表示车辆回归框位置矩阵中第i个车辆回归框中心点横坐标的偏移量，t_iy表示车辆回归框位置矩阵中第i个车辆回归框中心点纵坐标的偏移量，t_iw表示车辆回归框位置矩阵中第i个车辆回归框宽度的偏移量，t_ih表示车辆回归框位置矩阵中第i个车辆回归框高度的偏移量，i＝1,2,…,N，N为车辆总数。

各个偏移量的计算公式如下：

t_ix＝(P_ix-A_ix)/A_iw (15)

t_iy＝(P_iy-A_iy)/A_ih (17)

t_iw＝log(P_iw/A_iw) (19)

t_ih＝log(G_ih/A_ih) (21)

其中，G_ix表示标注的第i个车辆回归框中心点的横坐标，G_iy表示标注的第i个车辆回归框中心点的纵坐标，G_iw表示标注的第i个车辆回归框的宽度，G_ih表示标注的第i个车辆回归框的高度，P_ix表示车辆回归框位置矩阵中第i个车辆回归框中心点的横坐标，P_iy表示车辆回归框位置矩阵中第i个车辆回归框中心点的纵坐标，P_iw表示车辆回归框位置矩阵中第i个车辆回归框的宽度，P_ih表示车辆回归框位置矩阵中第i个车辆回归框的高度，A_ix表示锚定框中心点的横坐标，A_iy表示锚定框中心点的纵坐标，A_iw表示锚定框的宽度，A_ih表示锚定框的高度。

根据回归框偏移量计算回归框损失，计算公式如下：

其中，Loss_Bbox表示回归框损失。

根据车牌特征点标注生成标注热图，并计算每个车辆的每个车牌特征点的标注热图中像素点B的标注响应值，即标注热图中每个像素相对于标注的特征点的响应值，计算公式如下：

其中，表示第i个车辆的第j个车牌特征点标注热图中像素点B的标注响应值，表示标注的第i个车辆的第j个车牌特征点坐标，σ为超参数，用来控制公式(23)峰的扩展，即控制响应变化程度。

根据车牌特征点位置生成热图，并利用与标注响应值类似的方法计算每个车辆的每个车牌特征点的热图中像素点B相对于检测的特征点的响应值S_i,j(B)。

根据标注响应值和响应值计算特征点损失，计算公式如下：

其中，Loss_Kp表示特征点损失。

Loss_total＝Loss_cls+Loss_Bbox+Loss_Kp (25)

其中，Loss_total表示模型损失。

本发明采用了保持网络高分辨率信息的并行化网络结构，同时对网络冗余部分进行改进，得到了更加高效与轻量化的高分辨率并行网络模块，此外，本发明的网络结构中还融入了注意力机制和跳跃连接操作，使得网络在学习过程中可以进行更加有效的特征融合。本发明方法能够高效、准确的进行车牌特征点检测。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度学习的车牌特征点检测方法，其特征在于，包括以下步骤：

获取道路视频，并将道路视频转换成道路图像数据；

其中，所述车牌特征点检测模型采用融合注意力机制的高分辨率并行网络模型；

所述高分辨率并行网络模型由依次连接的网络结构头部、网络骨干和网络检测头部组成；所述网络结构头部包括一个下采样卷积；所述网络骨干包括多个融合注意力机制的高分辨率并行网络模块，每个高分辨率并行网络模块之间通过一个1*1的逐点卷积连接；所述网络检测头部包括分类头、回归头和特征点检测头，所述分类头用于检测网络骨干输出的特征图中的物体类别，所述回归头用于检测特征图中的车辆回归框，所述特征点检测头用于检测特征图中的车牌特征点；

所述高分辨率并行网络模块的构建方法如下：

基于注意力机制，利用特征连接权重和权重阈值对并行网络结构中的多条相邻的网络通路进行多分辨率特征融合，获得高分辨率并行网络模块；

设高分辨率并行网络模块中第p+1条网络通路中第q+1个卷积层的特征图为Feature_(p+1)(q+1)，其中，p＝1,2,…,R，q＝1,2,…,Q_p，R为高分辨率并行网络模块中网络通路的总条数，Q_p为第p条网络通路中卷积层的总个数，则Feature_(p+1)(q+1)的多分辨率特征融合的具体操作如下：

其中，表示特征连接权重W_pq的连接活性参数；

根据连接活性参数进行多分辨率特征融合：

2.根据权利要求1所述的一种基于深度学习的车牌特征点检测方法，其特征在于，检测车牌特征点的具体操作如下：

S_i,j＝max_B(S_i,j(B))

3.根据权利要求1所述的一种基于深度学习的车牌特征点检测方法，其特征在于，高分辨率并行网络模型的训练过程如下：

4.根据权利要求3所述的一种基于深度学习的车牌特征点检测方法，其特征在于，所述高分辨率并行网络模型的网络参数包括特征连接权重。

5.根据权利要求3所述的一种基于深度学习的车牌特征点检测方法，其特征在于，所述标注包括物体类别标注、车辆回归框标注和车牌特征点标注；所述车牌特征点初始检测结果包括物体分类独热向量、车辆回归框位置矩阵和车牌特征点位置。

6.根据权利要求5所述的一种基于深度学习的车牌特征点检测方法，其特征在于，模型损失的计算过程如下：

根据回归框偏移量计算回归框损失，计算公式如下：

其中，Loss_Bbox表示回归框损失；

根据标注响应值和响应值计算特征点损失，计算公式如下：

Loss_total＝Loss_cls+Loss_Bbox+Loss_Kp

其中，Loss_total表示模型损失。