CN114463611A

CN114463611A - 一种非可控环境下的鲁棒中文车牌检测与校正方法

Info

Publication number: CN114463611A
Application number: CN202111557327.5A
Authority: CN
Inventors: 卓力; 安鑫; 李嘉锋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-12-18
Filing date: 2021-12-18
Publication date: 2022-05-10

Abstract

一种非可控环境下的鲁棒中文车牌检测与校正方法属于图像处理领域。当前绝大多数的车牌检测方法都是采用矩阵框定位，非可控环境下，如果车牌存在严重倾斜或者形变，会导致车牌定位不准确，即定位的车牌区域存在较多的背景或者定位不完整，会对后续的车牌识别造成干扰，影响识别的准确率。本发明提出的中文车牌检测方法通过引入ACON、RBN与可变形卷积，可以提升模型的特征提取能力，改进了检测头并设计了相应的坐标回归公式，能够准确地对任意倾斜的车牌进行定位，在各种复杂的非可控环境下均能获得理想的检测结果。

Description

一种非可控环境下的鲁棒中文车牌检测与校正方法

技术领域

本发明属于图像处理领域，具体涉及中文车牌检测、深度学习等技术。

背景技术

车牌号反映了车辆与车主的信息，准确的识别车牌号是智能交通的关键一步，而车牌检测的精确程度则大大影响着车牌识别的准确率。目前，车牌检测与识别已经在一些可控环境下得到了广泛应用，比如停车场、高速收费路口等等。当前绝大多数的车牌检测方法都是采用矩阵框定位，非可控环境下，如果车牌存在严重倾斜或者形变，会导致车牌定位不准确，即定位的车牌区域存在较多的背景或者定位不完整，会对后续的车牌识别造成干扰，影响识别的准确率。

Xu等人构建了一个轻型网络RPnet，在车牌定位网络的最后一层，通过回归给出车牌的坐标。该方法的检测速度快，但不支持多车牌检测，且输入图像即便没有车牌网络也会输出车牌的位置。

Silva等人把车牌检测分成两步，先通过采用YOLOV2(You Only Look Once)检测车辆，接着通过WPOD Network检测车牌，检测头会输出仿射变换系数，用于后续的车牌校正。该方法能够定位并校正车牌，且能检测多张车牌，但是速度相对较慢。

发明内容

针对非可控环境下车牌检测存在的定位不准、速度慢等问题，本发明提出了一种非可控环境下的鲁棒中文车牌检测方法。该方法基于YOLOv5框架实现，主要包括四个步骤：建立车牌检测数据集、输入图像预处理、网络结构设计以及车牌校正。

步骤1：车牌检测数据集的构建

卷积神经网络的性能建立在大量的训练数据基础上。为了训练车牌检测网络模型，需要建立车牌数据集。车牌数据集应包含不同环境条件下的车牌图像，以提高检测的鲁棒性。

步骤2：输入图像预处理

将图像送入网络之前，需要先进行预处理，主要包括两个步骤：

(1)输入图像尺寸归一化处理。由于采集设备不同，车牌图像的大小往往不一致，因此需要对输入的车牌图像尺寸进行归一化处理，通过双线性插值等方式调整到统一的大小。

(2)输入图像像素值归一化处理。将输入图像中的所有像素值归一化到0～1之间，使网络更容易收敛。

步骤3：网络结构设计

步骤3.1：网络整体架构

本发明设计的中文车牌检测网络建立在YOLOv5架构基础上。原有的YOLOV5网络输出的是矩形框车牌，而本发明输出的则是车牌的4个顶点位置坐标。整个车牌检测框架主要包括两部分，分别是深度特征提取以及车牌坐标位置回归。

·深度特征提取

为了保证检测的速度与精度，本发明对YOLOv5的骨干网络进行了改进。降低了YOLOv5骨干网络的深度与宽度，即卷积层数与通道数。此外，为了增强骨干网络对特征的提取以及表达能力，本发明将骨干网络中的BN(Batch Normalization)层替换成了RBN(Representative Batch Normalization)层，RBN能够将各个样本独自的特征与每个批次样本的统计特征结合起来，可以更好地适应数据；另外，将骨干网络的激活函数替换成了ACON(Activate Or Not)，ACON激活函数能够自适应的选择是否激活神经元，可以提升网络的性能；在骨干网络的低层加入了可变形卷积，可变形卷积能够更好地关注特征点周围的区域。

·车牌坐标位置回归

本发明对YOLOv5的检测头做了改进，通过改变检测头的卷积通道数，使得网络能够输出车牌的四个顶点坐标值。即将原本每个锚框的输出元素个数增加了8个，这8个值为车牌的顶点坐标值，通过回归确定车牌的坐标值。

步骤4：车牌校正

由于车牌可能存在倾斜、扭曲等情况，对车牌进行校正有利于后续的车牌识别。根据检测到的车牌顶点坐标，可通过计算透视变换矩阵对车牌图像进行倾斜校正。

与现有的车牌检测方法相比，本发明具有以下明显的优势和效果：

1、检测速度快、精度高；

2、检测结果为车牌的4个顶点坐标，可以对任意倾斜、长度的车牌进行定位，便于后续的倾斜车牌校正；

3、泛化性较强，鲁棒性好，能够应用于各种复杂的非可控场景。

附图说明

图1车牌检测方法整体框图

图2骨干网络结构

图3车牌校正示例

具体实施方式

以下结合附图，详细介绍本发明的具体实施方式。

本发明提出的中文车牌检测方法整体框图由输入预处理、深度特征提取、车牌坐标位置回归、车牌校正四部分构成，具体见图1。

每个步骤的实现细节如下：

步骤1：建立车牌检测数据集

本发明采用互联网下载、现场采集、利用已有数据集等方式获取了10万张车牌图像，并对其中的车牌区域进行人工标注，构建了车牌检测数据集，用于训练深度卷积神经网络模型。

步骤2：输入车牌预处理

步骤2.1：输入图像尺寸归一化处理

设定输入图像高为input_h,宽为input_w,图像的实际高度为img_h,实际宽度为img_w,若直接通过下采样等方式调整图像的尺寸，可能会导致图像中的车牌比例发生变化，影响检测的精度，故采用双线性插值加填充的方式调整图像尺寸，保持车牌的横纵比不变。

首先，计算尺寸调整因子，计算式如下：

式(1)和(2)中，r_w表示宽度调整因子，r_h表示高度调整因子。

然后，通过下式计算双线性插值后的图像尺寸：

最后，通过填充的方式将双线性插值后w′×h′尺寸的图像调整到input_w×input_h尺寸。

步骤2.2：输入图像像素值归一化处理

由于车牌图像每个颜色通道的最大值为255，因此本发明通过公式(5)将像素值归一化到-1～1之间，计算式如下：

其中，x_px为原像素值，

为归一化后的值。

步骤3：整体网络架构

车牌检测网络架构主要分为两部分，分别是深度特征提取以及车牌坐标位置回归。

步骤3.1：深度特征提取

众所周知，卷积神经网络不同层的特征图尺寸不同，为了适应不同尺寸车牌的检测需求，往往需要在不同层的特征图上进行检测。在本发明中，输入图像经由深度特征提取网络可得到三种尺度的特征图，检测头在这三种尺度特征图上分别进行检测，对三个检测结果进行融合后，得到最后的车牌位置。

(1)骨干网络

本发明的骨干网络结构如图2所示，结构中每层参数如表1所示。该部分的输入图像尺寸为(b，3，input_h，input_w)，其中b为输入到网络中的样本数。CSP6_1层、CSP7_1层和CSP8_1层的特征图尺寸分别为(b,128,input_h/8,input_w/8)、(b,256,input_h/16,input_w/16)和(b,128,input_h/32,input_w/32)。本发明将分别在这些特征图上进行车牌检测，对检测结果融合后，得到最终的车牌位置。

表1骨干网络中每层参数

网络层	核大小	输入通道	输出通道	激活函数	标准化	填充尺寸	步长
								Focus	3×3	12	32	ACON	RBN	1	1
DCRA1	3×3	32	64	ACON	RBN	1	2
								DCSP1_1	-	64	64	ACON	RBN	-	-
DCRA2	3×3	64	128	ACON	RBN	1	2
								CSP2_3	-	128	128	ACON	RBN	-	-
CRA3	3×3	128	256	ACON	RBN	1	2
								CSP3_3	-	256	256	ACON	RBN	-	-
CRA4	3×3	256	512	ACON	RBN	1	2
								SPP	-	512	512	ACON	RBN	-	-
CSP4_1	-	512	512	ACON	RBN	-	-
								CRA5	1×1	512	256	ACON	RBN	0	1
Unsample	-	-	-	-	-	-	-
								Concat	-	-	-	-	-	-	-
CSP5_1	-	512	256	ACON	RBN	-	-
								CRA6	1×1	256	128	ACON	RBN	0	1
Concat	-	-	-	-	-	-	-
								CSP6_1	-	256	128	ACON	RBN	-	-
CRA7	3×3	128	128	ACON	RBN	1	2
								Concat	-	-	-	-	-	-	-
CSP7_1	-	256	256	ACON	RBN	-	-
								CRA8	3×3	256	256	ACON	RBN	1	2
Concat	-	-	-	-	-	-	-
								CSP8_1	-	512	512	ACON	RBN	-	-

表1中，Unsample表示上采样层；Concat为特征拼接层；SPP(Spatial PyramidPooling)为空间金字塔池化层；CRA为普通卷积、RBN与ACON构成的层，CRA后面的数字代表层序号；DCRA为可变形卷积、RBN与ACON构成的层，DCRA后面的数字代表层序号；CSP1_1第一个数字表示层序号为1,第二个数字表示该层有1个残差组件，其他同理。DCSP为由可变形卷积构成的CSP层。CSP1_1中每层参数如表2所示。

表2 CSP1_1中每层参数

网络层	核大小	输入通道	输出通道	激活函数	标准化	填充尺寸	步长
								Conv1	1×1	64	32	ACON	RBN	0	1
Conv2	1×1	64	32	ACON	RBN	0	1
								Conv3	1×1	64	64	ACON	RBN	0	1
Res uint	-	32	32	ACON	RBN	-	-

表2中，Conv为普通卷积，Conv后面的数字代表层序号；Res uint为残差组件，每层参数如表3所示。

表3 CSP1_1中，Res uint每层参数

网络层

核大小

输入通道

输出通道

激活函数

标准化

填充尺寸

步长

Conv1

1×1

32

ACON

RBN

0

1

Conv2

3×3

32

ACON

RBN

1

(2)ACON激活函数

ACON激活函数能够自适应选择是否激活神经元，通过替换原网络的激活函数，可以提升网络的性能。

ACON系列激活函数最广泛的形式为ACON-C,其表达式如下：

ACON_C＝(p1-p2)x·σ(β(p1-p2)x)+p2x#(6)

其中，x为激活函数的输入，σ为Sigmoid函数，p1、p2为可学习的参数。

β的表达式如下：

其中，β也是可学习的参数，C表示输入特征图的通道数，H和W分别表示输入特征图的高和宽。c、h、wd分别表示通道索引、高度索引以及宽度索引。网络训练15轮，取精确率最高的那轮所对应的p1、p2、β值作为p1、p2、β的最终值。

(3)RBN

BN层能够加速模型的收敛，降低梯度消失、爆炸的可能性。但是它比较依赖样本的均值和方差，忽视了在标准化过程中各个实例的区别。RBN将各个样本独自的特征与每个批次样本的统计特征结合起来，能够更好地适应数据。接下来介绍RBN的算法流程。

首先对输入做中心校准：

X_cm＝X+w_m⊙K_m#(8)

其中，X为输入特征，X_cm为中心校准后的特征，w_m为可学习变量，K_m表示各个实例特征，接着做标准化处理：

X_m＝X_cm-E(X_cm)#(9)

其中，X_m为X_cm与X_cm均值的差，E表示均值，Var表示方差，X_s是标准化后的特征，∈是一个很小的数，值在0到10^-8之间，用来防止0方差，接下来对X_s做缩放校准：

X_cs＝X_s*R(w_v⊙K_s+w_b)#(11)

其中，⊙为点积运算符，R()为受限函数，w_v、w_b为可学习参数，网络训练15轮，取精确率最高的那轮所对应的w_v、w_b值作为w_v、w_b的最终值。X_cs表示缩放校准后的特征，最后对X_cs做拉伸和偏移处理：

Y＝γ*X_cs+β′#(12)

其中，Y为RBN的输出，γ、β′为可学习的参数，网络训练15轮，取精确率最高的那轮所对应的γ、β′值作为γ、β′的最终值。

(4)可变形卷积

本发明在骨干网络的低层加入了可变形卷积，它能够更好地关注特征点周围的区域，从而提高检测精度。

令L表示卷积核的感受野，L内元素个数N为卷积核参数个数，比如L＝[(-1,-1),(-1,0),…,(0,1),(1,1)]表示3×3卷积核的感受野,N值为9。对于特征图的每一个位置p₀,有：

其中，x为可变形卷积的输入，p_n为L中的一个元素,y(p₀)为对位置p₀采用可变形卷积进行卷积计算的结果，Δp_n为偏移量，w为卷积核的权重。

(5)检测头

骨干网络输出三种尺度的特征图，在车牌检测时，采用三个卷积层分别与三种尺度特征图进行卷积运算，然后将三部分的检测结果拼接起来作为最终的检测输出。上述三个卷积层构成了检测头，每层参数如表4所示。此外，将原本每个锚框的输出元素个数增加了8个，这8个值为车牌的顶点坐标值，通过回归确定车牌的坐标值。

表4检测头每层参数

网络层	核大小	输入通道	输出通道	激活函数	标准化	填充尺寸	步长
								Conv1	3×3	128	42	-	-	1	1
Conv2	3×3	256	42	-	-	1	1
								Conv3	3×3	512	42	-	-	1	1

步骤3.2：车牌坐标位置回归

车牌坐标的回归表达式如下：

x_cd＝((0.5-σ(px_cd))*4*aw+gridx)*stride#(14)

y_cd＝((0.5-σ(py_cd))*4*ah+gridy)*stride#(15)

式(14)和(15)中，px_cd，py_cd为特征点的输出值，σ为Sigmoid激活函数，aw为锚框相对于当前特征图的宽，ah为锚框相对于当前特征图的高，gridx、gridy当前特征点的横纵坐标，stride为输入特征图尺寸相对于当前特征图尺寸的倍数。σ(px_cd)的取值在0到1之间，由于车牌顶点分布在当前特征点的不同方向，偏移量不一定是正数，故用0.5减去激活后的值，使其范围为(-0.5，0.5)。另外，车牌顶点与当前特征点的距离不一定小于0.5，故再将上一步的值乘以4倍的锚框尺寸，最后将车牌在当前特征图的坐标映射到输入图像上。

步骤4：车牌校正

根据检测到的车牌顶点坐标，可通过计算透视变换矩阵对车牌图像进行倾斜校正，校正公式如下：

其中，x_cd、y_cd为变换前的坐标，X′_cd、Y′_cd、Z′_cd为变换后的三维空间坐标，m_ij(i，j＝1,2,3)为透视变换的矩阵参数。

通过下式将三维空间坐标转换为二维坐标。

x′_cd,y′_cd为转换后的二维坐标。经过校正后的车牌图像更有利于后续车牌的识别,示例如图3所示。

本发明提出的中文车牌检测方法通过引入ACON、RBN与可变形卷积，可以提升模型的特征提取能力，改进了检测头并设计了相应的坐标回归公式，能够准确地对任意倾斜的车牌进行定位，在各种复杂的非可控环境下均能获得理想的检测结果。

Claims

1.一种非可控环境下的鲁棒中文车牌检测与校正方法，其特征在于：

步骤1：车牌检测数据集的构建

需要建立车牌数据集；车牌数据集应包含不同环境条件下的车牌图像；

步骤2：输入图像预处理

将图像送入网络之前，需要先进行预处理，包括两个步骤：

(1)输入图像尺寸归一化处理；

(2)输入图像像素值归一化处理；将输入图像中的所有像素值归一化到0～1之间

步骤3：网络结构设计

步骤3.1：网络整体架构

中文车牌检测网络建立在YOLOv5架构基础上，输出的则是车牌的4个顶点位置坐标；整个车牌检测框架包括两部分，分别是深度特征提取以及车牌坐标位置回归；

·深度特征提取

对YOLOv5的骨干网络进行了改进；降低了YOLOv5骨干网络的深度与宽度，即卷积层数与通道数；将骨干网络中的BN(Batch Normalization)层替换成了RBN(RepresentativeBatch Normalization)层；另外，将骨干网络的激活函数替换成了ACON(Activate OrNot)，在骨干网络的低层加入了可变形卷积；

·车牌坐标位置回归

通过改变检测头的卷积通道数，使得网络能够输出车牌的四个顶点坐标值；即将原本每个锚框的输出元素个数增加了8个，这8个值为车牌的顶点坐标值，通过回归确定车牌的坐标值；

步骤4：车牌校正

根据检测到的车牌顶点坐标，可通过计算透视变换矩阵对车牌图像进行倾斜校正。

2.根据权利要求1所述的方法，其特征在于：

每个步骤的实现细节如下：

步骤1：建立车牌检测数据集

步骤2：输入车牌预处理

步骤2.1：输入图像尺寸归一化处理

采用双线性插值加填充的方式调整图像尺寸，保持车牌的横纵比不变；

首先，计算尺寸调整因子，计算式如下：

式(1)和(2)中，r_w表示宽度调整因子，r_h表示高度调整因子；

然后，通过下式计算双线性插值后的图像尺寸：

最后，通过填充的方式将双线性插值后w′×h′尺寸的图像调整到input_w×input_h尺寸；

步骤2.2：输入图像像素值归一化处理

由于车牌图像每个颜色通道的最大值为255，因此通过公式(5)将像素值归一化到-1～1之间，计算式如下：

其中，x_px为原像素值，

为归一化后的值；

步骤3：整体网络架构

车牌检测网络架构主要分为两部分，分别是深度特征提取以及车牌坐标位置回归；

步骤3.1：深度特征提取

输入图像经由深度特征提取网络可得到三种尺度的特征图，检测头在这三种尺度特征图上分别进行检测，对三个检测结果进行融合后，得到最后的车牌位置；

(1)骨干网络

骨干网络结构结构中每层参数如表1所示；该部分的输入图像尺寸为(b，3，input_h，input_w)，其中b为输入到网络中的样本数；CSP6_1层、CSP7_1层和CSP8_1层的特征图尺寸分别为(b，128，input_h/8，input_w/8)、(b，256，input_h/16，input_w/16)和(b，128，input_h/32，input_w/32)；将分别在这些特征图上进行车牌检测，对检测结果融合后，得到最终的车牌位置；

表1 骨干网络中每层参数

表1中，Unsample表示上采样层；Concat为特征拼接层；SPP(Spatial PyramidPooling)为空间金字塔池化层；CRA为普通卷积、RBN与ACON构成的层，CRA后面的数字代表层序号；DCRA为可变形卷积、RBN与ACON构成的层，DCRA后面的数字代表层序号；CSP1_1第一个数字表示层序号为1，第二个数字表示该层有1个残差组件，其他同理；DCSP为由可变形卷积构成的CSP层；CSP1_1中每层参数如表2所示；

表2 CSP1_1中每层参数

网络层核大小输入通道输出通道激活函数标准化填充尺寸步长 Conv1 1×1 64 32 ACON RBN 0 1 Conv2 1×1 64 32 ACON RBN 0 1 Conv3 1×1 64 64 ACON RBN 0 1 Res uint - 32 32 ACON RBN - -

表2中，Conv为普通卷积，Conv后面的数字代表层序号；Res uint为残差组件，每层参数如表3所示；

表3 CSP1_1中，Res uint每层参数

(2)ACON激活函数

ACON系列激活函数最广泛的形式为ACON-C，其表达式如下：

ACON_C＝(p1-p2)x·σ(β(p1-p2)x)+p2x#(6)

其中，x为激活函数的输入，σ为Sigmoid函数，p1、p2为可学习的参数；

β的表达式如下：

其中，β也是可学习的参数，C表示输入特征图的通道数，H和W分别表示输入特征图的高和宽；c、h、wd分别表示通道索引、高度索引以及宽度索引；网络训练15轮，取精确率最高的那轮所对应的p1、p2、β值作为p1、p2、β的最终值；

(3)RBN

首先对输入做中心校准：

X_cm＝X+w_m⊙K_m#(8)

X_m＝X_cm-E(X_cm)#(9)

X_cs＝X_s*R(w_v⊙K_s+w_b)#(11)

其中，⊙为点积运算符，R()为受限函数，w_v、w_b为可学习参数，网络训练15轮，取精确率最高的那轮所对应的w_v、w_b值作为w_v、w_b的最终值；X_cs表示缩放校准后的特征，最后对X_cs做拉伸和偏移处理：

Y＝γ*X_cs+β′#(12)

其中，Y为RBN的输出，γ、β′为可学习的参数，网络训练15轮，取精确率最高的那轮所对应的γ、β′值作为γ、β′的最终值；

(4)可变形卷积

在骨干网络的低层加入了可变形卷积；

令L表示卷积核的感受野，L内元素个数N为卷积核参数个数，比如L＝[(-1，-1)，(-1，0)，...，(0，1)，(1，1)]表示3×3卷积核的感受野，N值为9；对于特征图的每一个位置p₀，有：

其中，x为可变形卷积的输入，p_n为L中的一个元素，y(p₀)为对位置p₀采用可变形卷积进行卷积计算的结果，Δp_n为偏移量，w为卷积核的权重；

(5)检测头

骨干网络输出三种尺度的特征图，在车牌检测时，采用三个卷积层分别与三种尺度特征图进行卷积运算，然后将三部分的检测结果拼接起来作为最终的检测输出；上述三个卷积层构成了检测头，每层参数如表4所示；此外，将原本每个锚框的输出元素个数增加了8个，这8个值为车牌的顶点坐标值，通过回归确定车牌的坐标值；

表4 检测头每层参数

网络层核大小输入通道输出通道激活函数标准化填充尺寸步长 Conv1 3×3 128 42 - - 1 1 Conv2 3×3 256 42 - - 1 1 Conv3 3×3 512 42 - - 1 1

步骤3.2：车牌坐标位置回归

车牌坐标的回归表达式如下：

x_cd＝((0.5-σ(px_cd))*4*aw+gridx)*stride#(14)

y_cd＝((0.5-σ(py_cd))*4*ah+gridy)*stride#(15)

式(14)和(15)中，px_cd，py_cd为特征点的输出值，σ为Sigmoid激活函数，aw为锚框相对于当前特征图的宽，ah为锚框相对于当前特征图的高，gridx、gridy当前特征点的横纵坐标，stride为输入特征图尺寸相对于当前特征图尺寸的倍数；σ(px_cd)的取值在0到1之间，由于车牌顶点分布在当前特征点的不同方向，偏移量不一定是正数，故用0.5减去激活后的值，使其范围为(-0.5，0.5)；车牌顶点与当前特征点的距离不一定小于0.5，故再将上一步的值乘以4倍的锚框尺寸，最后将车牌在当前特征图的坐标映射到输入图像上；

步骤4：车牌校正

根据检测到的车牌顶点坐标，通过计算透视变换矩阵对车牌图像进行倾斜校正，校正公式如下：

其中，x_cd、y_cd为变换前的坐标，X′_cd、Y′_cd、Z′_cd为变换后的三维空间坐标，m_ij(i，j＝1，2，3)为透视变换的矩阵参数；

通过下式将三维空间坐标转换为二维坐标；

x′_cd，y′_cd为转换后的二维坐标。