CN111914838B

CN111914838B - 一种基于文本行识别的车牌识别方法

Info

Publication number: CN111914838B
Application number: CN202010735739.2A
Authority: CN
Inventors: 黄德双; 秦魏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2024-05-31
Anticipated expiration: 2040-07-28
Also published as: CN111914838A; JP7246104B2; JP2022025008A

Abstract

本发明涉及一种基于文本行识别的车牌识别方法，包括以下步骤：S1：获取原始图像；S2：车牌检测步骤：检测原始图像中的车牌部分，得到车牌图像；S3：文本行检测步骤：通过文本检测网络检测车牌上的文本行，得到车牌文本行图像；S4：文本行识别步骤：将车牌文本行图像输入车牌文本行识别网络，最终输出车牌文本行的字符序列，完成车牌识别，与现有技术相比，本发明具有高鲁棒性和高性能等优点。

Description

一种基于文本行识别的车牌识别方法

技术领域

本发明涉及基于图像处理与模式识别的车牌识别技术，尤其是涉及一种基于文本行识别的车牌识别方法。

背景技术

车牌检测和识别是典型的计算机视觉领域的任务，在智能交通系统中有广泛的应用前景。随着现代交通系统的发展，车流量飞速上涨，车牌识别系统可以辅助交通管理、公共安全等。

过去十几年来，车牌识别问题得到了业界的广泛关注。考虑到影响图像质量的多种因素，例如拍摄环境(光线、机位、焦点模糊等)、图片质量(分辨率等)和复杂的拍摄背景，在任意场景下的车牌识别任务依然面临着困难。

现有的一些车牌识别系统的识别方法主要包括以下步骤：车牌检测、字符分割和场景文字识别。车牌识别可以总结为两部分：从自然图像中检测到车牌的位置，并从检测到的车牌上识别出文本信息。在已有的一些车牌识别系统工作流中，有的注重于实现从输入的自然图像到输出的文本内容的完整工作流，有的工作流为了提高识别准确性，在车牌检测前加入了车辆检测。

已有的车牌识别方法可以分为两种：基于深度学习的方法和基于非深度学习的方法。在深度学习发展起来之前，一般使用基于颜色信息、文本信息或者车牌边缘信息来对车牌进行粗略识别。使用的方法一般是有限玻尔兹曼机或者支持向量机。

近年来，随着深度学习的发展，基于字符分割的车牌识别方法比较流行。基于字符分割的方法需要预分割的训练数据，这样难以为训练数据打标签，且其利用字体文件自动生成图像，车牌识别的效果和鲁棒性较差。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高识别效果和鲁棒性的基于文本行识别的车牌识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于文本行识别的车牌识别方法，包括以下步骤：

S1：获取原始图像；

S2：车牌检测步骤：检测原始图像中的车牌部分，得到车牌图像；

S3：文本行检测步骤：通过CPTN网络检测车牌上的文本行，得到车牌文本行图像；

S4：文本行识别步骤：将车牌文本行图像输入车牌文本行识别网络，最终输出车牌文本行的字符序列，完成车牌识别。

进一步地，所述的步骤S2中，通过YOLOv3网络检测原始图像中的车牌部分。

更进一步地，所述的YOLOv3网络将原始图像的特征图维度经过五次降低，分别得到第一特征图、第二特征图、第三特征图、第四特征图和第五特征图，然后分别对第三特征图、第四特征图和第五特征图经过上采样后拼接，最后输出特征张量，完成对车牌的检测。

进一步地，所述的步骤S3具体包括：

S31：利用回归模型预测得到CPTN网络的竖直检测框；

S32：对预测得到的竖直检测框进行边界优化，边界优化可以防止在CPTN网络中可能会出现的水平方向定位不准确的情况；

S33：将竖直方向上重叠程度达到设定阈值的竖直检测框合并为一个检测框，得到最终的竖直检测框，竖直检测框的合并可以防止CTPN网络将同一行文本分割成两部分；

S34：CPTN网络通过竖直检测框进行文本行的检测，得到车牌文本行图像。

更进一步地，所述的竖直框检测框的中心位置t_c和高度t_h的计算方法为：

t_h＝log(h^b/h^a)

其中，为边界框的中心位置，h^b为边界框的高度，/>为锚框的中心，h^a为锚框的高度；

所述的边界优化为每一个竖直框检测框计算一个水平方向检测的偏移量t_w，该偏移量t_w的计算公式为：

其中，为最接近真实车牌水平边界的坐标，/>为竖直检测框中心位置的x坐标，w^a为竖直检测框框的宽度。

进一步地，所述的车牌文本识别网络包括校正网络和文本识别网络，分别实现对车牌文本行图像的校正和文字识别，所述的校正网络通过二维变换对失真和扭曲的文本进行校正，所述的文本识别网络采用编码器-解码器范式的内置注意力机制的seq2seq网络。

更进一步地，所述的校正网络包括定位网络，所述的定位网络对原始文本行的控制点向量组C进行预测，并通过反向传播梯度，回归分析得到校正文本行的控制点向量组A^r，所述的校正网络根据原始文本行控制点向量组A和校正文本行控制点向量组A^r之间的关系，对原始文本行图像进行二维变换，得到校正后的文本行图像。

更进一步优选地，所述的定位网络包括六个卷积滤波层、五个最大池化层和两个全连接层组层，所述的控制点包括五个，分别为车牌文本行的四个顶点和对角线的交点。

更进一步地，所述的文本识别网络对车牌文本行图像进行文字识别，具体包括以下步骤：

S41：编码器使用卷积神经网络从校正后的车牌文本行图像上提取文本特征图，然后将文本特征图进行分割并输入双向LSTM网络后，得到文本特征序列h_t；

S42：将文本特征序列h_t输入解码器；

S43：解码器利用上下文向量、解码器内部状态和上一步输出，通过注意力机制和GRU循环网络单元，输出各个字符和序列结束符的概率，预测当前的文本符号。

更进一步地，所述的解码器的计算公式为：

其中，为解码器第t₂步输出的当前文本符号预测概率，/>为解码器第t₂步的内部状态向量，/>为解码器第t₂-1步的内部状态向量，/>解码器第t₂步的上下文向量，为解码器第t₂-1步的输出，rnn为GRU循环网络单元，/>字符分类概率图，W_o全连接网络参数，b_o全连接网络偏移量；

所述的解码器第t₂步的上下文向量通过注意力机制得到，其表达式为：

其中，w_conv卷积网络参数，为全连接网络参数，/>为编码器第t₁步的文本特征序列，/>权重参数，T为输入序列的长度，/>为k时刻权重参数，v，W，V均为全连接网络参数，BLSTM为双向LSTM网络，/>为编码器第t₁步文本特征图分割后得到的向量序列，/>编码器第t₁-1步的文本特征序列。

与现有技术相比，本发明具有以下优点：

1)本发明提出了一个全新的无字符分割的车牌识别方法，引入了车牌文本行检测，取代了字符分割，相比于字符分割，本发明将同一行连续文本作为一个整体检测出来，提高了后续识别模型对训练效果，与现有的车牌识别方法相比，本发明方法增强了模型的鲁棒性，提高了模型的识别准确度；

2)本发明将车牌识别问题转化为经典的计算机视觉问题——基于图像的序列识别，这样使得训练数据只需要车牌的二维坐标和需要识别的字符序列，节约模型训练的时间和成本；

3)本发明中通过车牌文本行检测，可以适用于不止一行文本的车牌，能够识别多个国家和地区的不同车牌，因此本发明不但可以运用于日常的城市交通管理，还可以运用于城际、甚至国际交通管理，成为智慧城市建设的重要组成部分，对于人工智能技术和我国城市建设、道路建设、交通管理相结合有着积极的推动意义。

附图说明

图1为本发明方法整体流程图；

图2为用于车牌检测的Yolov3网络结构示意图；

图3为用于车牌文本行检测的网络模型示意图；

图4为用于车牌文本行校正的网络模型示意图；

图5为用于预测车牌文本行控制点的定位网络示意图；

图6为用于车牌文本行识别的网络模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供一种基于文本行识别的车牌识别方法，能够在自然场景下车牌识别，该方法基于卷积神经网络和循环神经网络，主要包括三个步骤：车牌检测(LPD)、车牌文本检测(LP Text Detection)和车牌文本识别(LP Text Rectification andRecognition)。

其中，车牌检测步骤中通过YOLOv3网络检测原始图像中的车牌部分例如，在图1中，原始图像为一个人骑着摩托车，经过车牌检测后，提取出了原始图像中的车牌部分的子图像。

车牌文本行检测步骤中通过CPTN网络分割出车牌上的文本行，国际上常见的车牌上的文本可以分为单行和多行。对于多行文本来说，需要先将双行文本分为多个单行文本，才能便于后续的识别工作。对于单行文本来说，这一步也是必不可少的，因为从图像上直观来看，前一步的车牌检测并不一定能做到精确定位出车牌上的文本行位置。如图1中，一个双行的车牌文本被分割为上下两行，单独送入后续网络进行文本识别。

车牌文本行识别步骤通过一个基于TPS的校正网络和一个基于包含注意力机制的Seq2Seq模型的识别网络，对文本行的文字进行识别，完成车牌识别，由于拍摄角度等问题的影响，车牌在图像中可能会较为扭曲，为了提高文本识别效果，在识别之前需要对文本行进行校正操作。如图1中，最终两个文本行分别进行校正和识别后，得到了对完整车牌的识别结果。

三个步骤的具体执行过程如下：

(1)车牌检测步骤

在使用YOLOv3网络检测原始图像中的车牌部分时，原始输入图像需要先分割成网格，如果车牌的中心落在网格单元中，则该网格负责检测车牌。

如图2所示，YOLOv3网络的骨干网络是经典的Darknet-53，主要由53层卷积网络组成，包含了bottom-up路径、top-down路径和侧边连接。

本发明设置输入图像的分辨率为608*608，按照Darknet-53的网络结构，特征图维度经过五次降低：304、152、76、38、19。为了提升网络在检测不同尺寸目标时的效果，YOLOv3网络使用三种不同维度的特征图来检测车牌，分别为76、38、19，对不同尺寸的特征张量经过上采样后进行拼接，最后输出的特征张量既具有高准确性，又具有强语义性。为了降低边界框的回归复杂性，本发明引入了Faster-RCNN中的Anchor Box概念或SSD中的Prior Box概念，使用k-means聚类方法得到Prior Box。

(2)车牌文本行检测步骤

本发明的车牌识别方法适用于多种国家和地区的车牌，众所周知，国内常见的车牌文字都是单行的，但是考虑到其他国家车牌上的文字是多行的，我们认为需要对车牌上的文本按行来进行检测，以便于后续的文本识别。而对于单行文本的车牌，该步骤可以提高检测区域和真实区域的IoU值。

和一般的检测目标不同，文本行是一个字符序列，具有连贯性意义。区域生成网络(RPN)在定位车牌文本行的起始位置和结束位置方面比较困难，因此我们采用CTPN模型对车牌文本行进行检测。

CTPN网络引入竖直框来检测文本行，竖直框是一组等宽的检测框，它们的高度各不相同，一个竖直框用两个指标即可确定：中心位置和高度。CPTN网络中用一个回归模型来预测竖直框。竖直框的中心位置t_c和高度t_h的计算方法如下：

t_h＝log(h^b/h^a)

其中，和h^b分别代表边界框对中心位置和高度，/>和h^a可以根据输入图像提前计算好，帮助计算。然而并不能保证文本行检测框在水平方向上也可以完全覆盖到真实的车牌区域，因为图像在水平方向上被分割成了16像素等宽的区域，在CPTN模型中，可能会出现水平方向定位不准确的情况。为了解决这个问题，引入了边界优化的方法，为每一个竖直框计算一个水平方向检测的偏移量，这个偏移量的计算方法为：

其中表示最接近真实车牌水平边界的坐标，/>表示竖直框中心位置的x坐标，w^a表示竖直框的宽度。

如图3所示，CTPN模型的主干网络使用VGG16网络，输入图像可以是任意大小，VGG16输出的特征图的尺寸取决于输入图像的大小。经过多次卷积提取特征，最终得到W*H*N的特征图，N为特征通道数，W和H分别为特征图的宽和高。接下来256个3*3的卷积核在特征图上滑动，为每个像素点提取到256维的特征向量，将图片中同一行内提取出的若干256维向量视作一个序列，传入BLSTM模块中，BLSTM模块后连接了512维的全连接层和输出层。

CTPN网络有时会将同一行文本分割成两部分，本发明中通过引入合并检测框进行后续处理，如果两个检测在竖直方向上重叠达到一定程度，就将它们合并为一个检测框，具体为：设定了一个阈值，当竖直方向上的重叠部分高于阈值时，将两者合并。

(3)车牌文本行识别步骤

该步骤需要完成对已检测出的车牌上的文本行进行识别，但是在识别之前，需要对文本行进行校正。由于拍摄视角的问题，图片上的文字可能看起来是歪斜的，经过一定程度的校正，使歪斜的文字尽可能规整，这样可以提高识别准确率。

本发明使用Seq2Seq网络进行文本识别，其中包含了经典的注意力机制。对于文本的校正，本发明通过将STN网络嵌入到文本识别网络中实现，通过2D变换对失真和扭曲的文本进行校正。

如图4所示，STN网络的主要思想是将空间变换操作建模为神经网络模型。在待校正的图像中确定五个控制点，这五个控制点分别位于矩形框的四个顶点处和对角线的交点处。假设输入图片I，输出的校正后的图像为I_r，原图像五个控制点的坐标组成的向量组表示为A，输出的校正后的图像中的五个控制点组成的向量组表示为A^r，原始文本行的控制点向量组A中每一个控制点的坐标具体表示为：

a_i＝[x_i,y_i]

二维变换的本质是逼近一个插值函数f，满足A^r＝f(A)。TPS(Thin-Plate-Spline)模型已经被证明了在处理失真文本校正中非常有效，车牌图片的校正任务就可以归结为五个控制点位置的预测任务，用定位网络预测图像I上的控制点进行预测，定位网络通过反向传播梯度，回归分析输出图像的控制点，自动标注出输出图像的五个控制点，得到校正图像控制点向量组A^r。如图5所示，该定位网络由6个卷积滤波层、5个最大池化层和两个全连接层组成。输出一个10维的向量，重构为5个2维向量，对应5个控制点坐标。控制点的坐标经过了归一化，也就是说左上顶点坐标为(0，0)，右下顶点坐标为(1，1)。

假设p点坐标表示为[x_p,y_p]，与之对应的校正后的点p’坐标可以按照如下方法计算：

其中，φ(x)＝x²log(x)，是应用于点p和第k个控制点之间欧式距离的核函数。

通过求解线性系统求解TPS中的参数后，最终得到输出的校正图像表达为：

I_r＝V(p,I)

其中，V为下采样器，I为输入图片，I_r为校正后的图片，原图和校正图的像素点经过下采样最终得到校正好的图像。

如图6所示，车牌文本识别网络用于输出车牌文本行的字符序列，该网络是一个seq2seq框架，并具有依赖于编码器-解码器范式的内置的注意力机制。

首先，编码器使用卷积神经网络从校正后的车牌文本行图像上提取特征，图像尺寸为32*100。提取特征的卷积网络是基于ResNet-50的改进，最后三个下采样层的卷积核移动步长为(2，1)，这样做是为了保证每个特征通道上的特征图是一个向量，因此最后得到的特征图的大小是1*25*512(h*w*n)。然后将特征图进行分割，得到一个由向量序列构成的向量组，表示为：

X＝[x₁ x₂ … x_T]

其中，T＝25，即特征图大小中的特征宽度w，向量组中的每一个向量都是512维的，即特征图大小中的特征通道数n。

双向LSTM(BLSTM)网络可以获取到特征序列在两个方向上的长距离依赖关系，因此我们将BLSTM应用于上一步获取到的特征序列中，从而获取到具有更丰富的上下文关系的特征序列。BLSTM输出的新的特征序列表示为：

H＝[h₁ h₂ … h_T]

其中任意一个可以表示为：

在BLSTM的任意一步中，解码器最终基于上下文向量C、解码器的内部状态s、上一步输出y，最后输出一个概率图，这个概率图表示了每个字符和序列结束符号(EOS)的概率。上下文向量C是H的聚合信息，表示为

C＝[c₁ c₂ … c_T]

C＝q(H)

这里q是注意力机制，可以表示为：

其中，是通过编码器第t₁步的隐状态/>和解码器第t₂-1步的隐状态/>计算得到的，W、V、b均是可训练权重。

编码器的输出又作为输入进入到解码器中，解码器计算出一个输出向量z和一个新的状态向量s：

其中y是one-hot形式，rnn表示GRU循环网络单元，输出z用于预测当前的文本符号。

运用极大似然估计的思想，我们要使得输出序列的条件概率最大化，因此需要优化的目标函数为：

当输出超过最大长度，或者得到EOS符号时，就表示输出序列结束，最终得到了图像中车牌文本行的识别结果，本实施例使用了Beam Research算法，其中Beam size参数设置为5。

本发明通过AOLP数据集和UFPR-ALPR数据集对进行训练和测试，验证了本发明提出的方法的高鲁棒性和高性能。

在车牌检测步骤中，如果IoU值大于0.5，则认为车牌被成功检测到，IoU的表达式为：

其中，R_det检测框，R_gt为标记框。

在车牌文本行检测任务中，IoU也可以用来衡量检测的准确性。另外，在车牌文本识别任务和一些车牌文本检测任务中，使用F₁-score来衡量性能，表达式为：

这个指标同时考虑到了准确率precesion和召回率recall。

本实施例中使用两种数据集分别来验证。在每一个步骤结束后，都检验其效果，保证每一步骤都是高性能和高鲁棒性的。与UFPR-ALPR数据集不同，AOLP数据集本身没有划分训练集和测试集，因此可利用其中三个子集中的两个作为训练集，一个作为测试集，例如使用LE和AC子集来训练车牌识别模型，用RP子集来测试。两个数据集分别三个主要步骤中的详细测试结果参见表1至表6。

表1车牌检测在AOLP数据集上的表现

表2车牌文本行检测在AOLP数据集上的表现

表3车牌文本识别在AOLP数据集上的表现

表4车牌检测在UFPR-ALPR数据集上的表现

表5车牌文本检测在UFPR-ALPR数据集上的表现

表6车牌文本识别在UFPR-ALPR数据集上的表现

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于文本行识别的车牌识别方法，其特征在于，包括以下步骤：

S1：获取原始图像；

S3：文本行检测步骤：通过文本检测网络检测车牌上的文本行，得到车牌文本行图像；

S4：文本行识别步骤：将车牌文本行图像输入车牌文本行识别网络，最终输出车牌文本行的字符序列，完成车牌识别；

所述的步骤S3具体包括：

S31：利用回归模型预测得到CPTN网络的竖直检测框；

S32：对预测得到的竖直检测框进行边界优化；

S33：将竖直方向上重叠程度达到设定阈值的竖直检测框合并为一个检测框，得到最终的竖直检测框；

S34：CPTN网络通过竖直检测框进行文本行的检测，得到车牌文本行图像；

所述的竖直框检测框的中心位置t_c和高度t_h的计算方法为：

t_h＝log(h^b/h^a)

其中，为最接近真实车牌水平边界的坐标，/>为竖直检测框中心位置的x坐标，w^a为竖直检测框框的宽度；

所述的车牌文本识别网络包括校正网络和文本识别网络，分别实现对车牌文本行图像的校正和文字识别，所述的校正网络通过二维变换对失真和扭曲的文本进行校正，所述的文本识别网络采用编码器-解码器范式的内置注意力机制的seq2seq网络；

所述的校正网络包括定位网络，所述的定位网络对原始文本行的控制点向量组A进行预测，并通过反向传播梯度，回归分析得到校正文本行的控制点向量组A^r，所述的校正网络根据原始文本行控制点向量组C和校正文本行控制点向量组A^r之间的关系，对原始文本行图像进行二维变换，得到校正后的文本行图像；

所述的定位网络包括六个卷积滤波层、五个最大池化层和两个全连接层组层，所述的控制点包括五个，分别为车牌文本行的四个顶点和对角线的交点。

2.根据权利要求1所述的一种基于文本行识别的车牌识别方法，其特征在于，所述的步骤S2中，通过YOLOv3网络检测原始图像中的车牌部分。

3.根据权利要求2所述的一种基于文本行识别的车牌识别方法，其特征在于，所述的YOLOv3网络将原始图像的特征图维度经过五次降低，分别得到第一特征图、第二特征图、第三特征图、第四特征图和第五特征图，然后分别对第三特征图、第四特征图和第五特征图经过上采样后拼接，最后输出特征张量，完成对车牌的检测。

4.根据权利要求1所述的一种基于文本行识别的车牌识别方法，其特征在于，所述的文本识别网络对车牌文本行图像进行文字识别，具体包括以下步骤：

S42：将文本特征序列h_t输入解码器；

5.根据权利要求4所述的一种基于文本行识别的车牌识别方法，其特征在于，所述的解码器的计算公式为：

其中，为解码器第t₂步输出的当前文本符号预测概率，/>为解码器第t₂步的内部状态向量，/>为解码器第t₂-1步的内部状态向量，/>解码器第t₂步的上下文向量，/>为解码器第t₂-1步的输出，rnn为GRU循环网络单元，/>字符分类概率图，W_o全连接网络参数，b_o全连接网络偏移量；

其中，w_conv卷积网络参数，为全连接网络参数，h_t1为编码器第t₁步的文本特征序列，权重参数，T为输入序列的长度，/>为k时刻权重参数，v，W，V均为全连接网络参数，BLSTM为双向LSTM网络，/>为编码器第t₁步文本特征图分割后得到的向量序列，/>编码器第t₁-1步的文本特征序列。