CN107203754A

CN107203754A - 一种基于深度学习的车牌定位方法及装置

Info

Publication number: CN107203754A
Application number: CN201710384312.0A
Authority: CN
Inventors: 马华东; 傅慧源; 张逸凡; 程鹏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-09-26
Anticipated expiration: 2037-05-26
Also published as: CN107203754B

Abstract

本申请实施例提供了一种基于深度学习的车牌定位方法及装置。所述方法包括：将获得的待定位图像输入特征提取网络，获得特征提取网络提取的特征图，将特征图输入选框网络，获得选框网络确定的所述待定位图像中车牌的候选区域；特征提取网络和选框网络预先通过样本车牌图像训练而成；对候选区域进行扩展，将获得的扩展区域输入分类网络，获得分类网络确定的分类结果；分类网络用于根据分类网络训练完成时获得的车牌区域周围的车辆纹理特征，确定所输入的扩展区域是否包含车牌区域的分类结果；当分类结果表示扩展区域包含车牌区域时，从扩展区域中确定待定位图像的车牌区域。应用本申请实施例提供的方案，能够在复杂场景下提高车牌定位的准确率。

Description

一种基于深度学习的车牌定位方法及装置

技术领域

本申请涉及智能交通技术领域，特别是涉及一种基于深度学习的车牌定位方法及装置。

背景技术

随着数字图像处理、模式识别和人工智能技术的日趋成熟，车牌识别技术也在不断改进。其中，车牌识别是实现智能交通系统的基础。通常，车牌识别过程包括车牌定位、字符分割、字符识别三个环节，而车牌定位是车牌识别中十分重要的环节。

现今不乏高准确率的车牌定位技术，但其多是基于交通卡口的监控图像进行的定位。在现有的定位方法中，可以基于边缘检测，利用车牌区域的边界像素值与非车牌区域的像素值差异很大的特点，从待定位图像中将车牌区域定位出来。

通常，基于交通卡口场景拍摄出的图像有着倾斜角度小、清晰度高、车牌区域位置固定和场景单一等特性，这些特性有助于保证现有的定位方法的准确率。而在类似于使用球形摄像机拍摄的非交通卡口监控场景中，车牌区域的位置、角度、大小、清晰度各异且背景杂乱。一方面，车牌区域边界的像素值与非车牌区域的像素值可能模糊不清，无法区分；另一方面，杂乱的背景中可能存在类似于车牌区域边界的像素点区域，可能造成误识别，例如交通指示牌可能会被定位成车牌区域。因此，以往基于交通卡口的车牌定位技术很难在上述复杂场景下的图像上达到满意的准确率，车牌定位的准确率不高。

发明内容

本申请实施例的目的在于提供了一种基于深度学习的车牌定位方法及装置，以在复杂场景下提高车牌定位的准确率。具体的技术方案如下。

为了达到上述目的，本申请实施例公开了一种基于深度学习的车牌定位方法，所述方法包括：

获得包含车牌的待定位图像；

将所述待定位图像输入特征提取网络，获得所述特征提取网络提取的特征图，将所述特征图输入选框网络，获得所述选框网络确定的所述待定位图像中车牌的候选区域；其中，所述特征提取网络和选框网络预先通过样本车牌图像训练而成；

对所述候选区域进行扩展，获得对应的扩展区域；

将所述扩展区域输入分类网络，获得所述分类网络确定的分类结果；其中，所述分类网络用于根据所述分类网络训练完成时获得的车牌区域周围的车辆纹理特征，确定所输入的扩展区域是否包含车牌区域的分类结果；

当所述分类结果表示所述扩展区域包含车牌区域时，从所述扩展区域中确定所述待定位图像的车牌区域。

可选的，各个样本车牌图像中车牌区域的位置不同；和/或，各个样本车牌图像中车牌区域的尺寸不同；和/或，各个样本车牌图像的清晰度不同；和/或，各个样本车牌图像的拍摄角度不同；和/或，各个样本车牌图像中车牌区域之外的背景不同。

可选的，所述对所述候选区域进行扩展，获得对应的扩展区域的步骤，包括：

判断预定位置是否超出所述待定位图像在预设方向上的边缘位置；其中，所述预定位置为：对所述候选区域的位置在预设方向上扩展预设距离之后的位置；预设方向为上方向、下方向、左方向、右方向中的一个；

如果是，则将所述待定位图像在预设方向上的边缘位置确定为扩展区域在预设方向上的位置；

如果否，则将所述预定位置确定为扩展区域在预设方向上的位置。

可选的，所述选框网络包括全连接层、第一回归层、第二回归层、打分层和确定层；

所述将所述特征图输入选框网络，获得所述选框网络确定的所述待定位图像中车牌的候选区域的步骤，包括：

将所述特征图输入所述全连接层，所述全连接层按照预设的第一卷积窗口值对所述特征图进行卷积，获得全连接特征图，并将所述全连接特征图输入所述第一回归层；

第一回归层按照预设的第二卷积窗口值对所述全连接特征图进行卷积，获得第一特征图，并将所述第一特征图分别输入所述第二回归层和打分层，其中，所述第一特征图包含各个像素点对应的特征值；

所述打分层根据所述打分层训练完成时获得的参数，确定所述第一特征图中各个特征值对应的像素点是否属于车牌区域中的像素点及对应的分值，并将属于车牌区域中像素点且分值最高的预设数量个像素点确定为目标像素点，将所述目标像素点输入所述确定层；

所述第二回归层按照预设的第二卷积窗口值对所述第一特征图进行卷积，获得第二特征图，并将所述第二特征图输入所述确定层，其中，所述第二特征图包含各个像素点对应的选框区域；

获得所述确定层确定的所述待定位图像中车牌的候选区域；其中，所述待定位图像中车牌的候选区域为：所述第二特征图中目标像素点对应的选框区域。

可选的，所述特征提取网络和选框网络是采用以下方式训练得到的：

获得样本车牌图像，所述样本车牌图像包含正样本车牌图像，所述正样本车牌图像包含真实车牌区域；

根据特征提取参数提取所述样本车牌图像的样本特征，获得样本特征图；

根据选框参数和所述样本特征图，确定所述样本车牌图像中车牌的样本候选区域；

确定所述样本候选区域与对应的真实车牌区域之间的差异，判断所述差异是否小于预设阈值；

如果否，则根据所述差异调整所述特征提取参数和选框参数，返回执行所述根据特征提取参数提取所述样本车牌图像的样本特征的步骤。

为了达到上述目的，本申请公开了一种基于深度学习的车牌定位装置，所述装置包括：

获得模块，用于获得包含车牌的待定位图像；

候选模块，用于将所述待定位图像输入特征提取网络，获得所述特征提取网络提取的特征图，将所述特征图输入选框网络，获得所述选框网络确定的所述待定位图像中车牌的候选区域；其中，所述特征提取网络和选框网络预先通过样本车牌图像训练而成；

扩展模块，用于对所述候选区域进行扩展，获得对应的扩展区域；

分类模块，用于将所述扩展区域输入分类网络，获得所述分类网络确定的分类结果；其中，所述分类网络用于根据所述分类网络训练完成时获得的车牌区域周围的车辆纹理特征，确定所输入的扩展区域是否包含车牌区域的分类结果；

确定模块，用于当所述分类结果表示所述扩展区域包含车牌区域时，从所述扩展区域中确定所述待定位图像的车牌区域。

可选的，所述扩展模块，包括：

判断子模块，用于判断预定位置是否超出所述待定位图像在预设方向上的边缘位置；其中，所述预定位置为：对所述候选区域的位置在预设方向上扩展预设距离之后的位置；预设方向为上方向、下方向、左方向、右方向中的一个；

第一确定子模块，用于当所述预定位置超出所述待定位图像在预设方向上的边缘位置时，将所述待定位图像在预设方向上的边缘位置确定为扩展区域在预设方向上的位置；

第二确定子模块，用于当所述预定位置未超出所述待定位图像在预设方向上的边缘位置时，将所述预定位置确定为扩展区域在预设方向上的位置。

可选的，所述装置还包括训练模块，用于获得所述特征提取网络和选框网络；

其中，所述训练模块，包括：

获得子模块，用于获得样本车牌图像，所述样本车牌图像包含正样本车牌图像，所述正样本车牌图像包含真实车牌区域；

提取子模块，用于根据特征提取参数提取所述样本车牌图像的样本特征，获得样本特征图；

候选子模块，用于根据选框参数和所述样本特征图，确定所述样本车牌图像中车牌的样本候选区域；

差异子模块，用于确定所述样本候选区域与对应的真实车牌区域之间的差异，判断所述差异是否小于预设阈值；

调整子模块，用于当所述差异不小于预设阈值时，根据所述差异调整所述特征提取参数和选框参数，返回执行所述提取子模块。

为了达到上述目的，本申请实施例公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于在执行存储器上所存放的程序时，实现本申请实施例提供的基于深度学习的车牌定位方法。该方法具体包括：

获得包含车牌的待定位图像；

对所述候选区域进行扩展，获得对应的扩展区域；

为了达到上述目的，本申请实施例公开了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的基于深度学习的车牌定位方法。该方法具体包括：

获得包含车牌的待定位图像；

对所述候选区域进行扩展，获得对应的扩展区域；

本申请实施例提供的基于深度学习的车牌定位方法及装置，可以获得包含车牌的待定位图像，将待定位图像输入特征提取网络，获得特征提取网络提取的特征图，将特征图输入选框网络，获得选框网络确定的待定位图像中车牌的候选区域；对候选区域进行扩展，获得对应的扩展区域；将扩展区域输入分类网络，获得分类网络确定的分类结果；当分类结果表示该扩展区域包含车牌区域时，从该扩展区域中确定待定位图像的车牌区域。其中，特征提取网络和选框网络预先通过样本车牌图像训练而成；分类网络用于根据该分类网络训练完成时获得的车牌区域周围的车辆纹理特征，确定所输入的扩展区域是否包含车牌区域的分类结果。

也就是说，本申请实施例可以采用通过样本车牌图像预先训练好的特征提取网络和选框网络，获得待定位图像中车牌的候选区域，将候选区域进行扩展，获得扩展区域，根据“车牌区域+车辆纹理特征”的特点，进一步确定扩展区域是否包含车牌区域。而特征提取网络和选框网络均属于深度学习网络，采用深度学习网络可以更准确地确定待定位图像中的车牌的候选区域，根据车牌区域周围的车辆纹理特征对候选区域做进一步的筛选，可以去除复杂场景下图像中类似于车牌区域的干扰区域，更准确地确定车牌区域。因此，采用本申请实施例提供的定位方案，能够针对复杂场景提高车牌定位的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于深度学习的车牌定位方法的一流程示意图；

图1a和图1b为包含车牌的两个复杂场景示意图；

图2为本申请提供的选框网络的一结构示意图；

图3为本申请实施例提供的特征提取网络和选框网络训练过程的一流程示意图；

图4为图1中步骤S103的一流程示意图；

图5为本申请实施例提供的基于深度学习的车牌定位装置的一结构示意图；

图6为本申请实施例提供的电子设备的一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种基于深度学习的车牌定位方法及装置，应用于电子设备。该电子设备可以为普通计算机、服务器、智能手机、平板电脑、行车记录仪、监控摄像机等设备。本申请实施例能够针对复杂场景提高车牌定位的准确性。下面通过具体实施例，对本申请进行详细说明。

图1为本申请实施例提供的基于深度学习的车牌定位方法的一种流程示意图。该方法应用于电子设备，具体包括如下步骤S101～步骤S105：

步骤S101：获得包含车牌的待定位图像。

其中，作为执行主体的电子设备内部可以包含图像采集设备，也可以不包含图像采集设备。

具体的，当作为执行主体的电子设备内部包含图像采集设备时，电子设备在获得包含车牌的待定位图像时，可以直接接收图像采集设备采集的包含车牌的待定位图像。

当作为执行主体的电子设备内部不包含图像采集设备时，该电子设备可以与外部的图像采集设备相连，电子设备在获得包含车牌的待定位图像时，可以获取图像采集设备采集的包含车牌的待定位图像。

获取的包含车牌的待定位图像可以是图像采集设备实时采集的，也可以不是实时采集的，而是图像采集设备预先采集好之后存储起来的。

上述待定位图像可以理解为：要进行车牌定位的图像。可以理解的是，车牌通常是安装或放置于车辆上的，因此上述待定位图像可以理解为：包含车辆的要进行车牌定位的图像。基于此，上述待定位图像可以是交通卡口抓拍的包含车辆的图像，也可以是在停车场、街道等非交通卡口拍摄的包含车辆的图像等。其中，非交通卡口拍摄的包含车辆的图像一般具有复杂场景，这种图像中车牌区域出现的位置不固定，车牌区域的大小多种多样，图像的拍摄角度也不固定，图像的背景杂乱，图像清晰度也参差不齐。当然，上述待定位图像还可以通过其他方式获得，本申请对待定位图像的获得方式不做具体限定。

步骤S102：将待定位图像输入特征提取网络，获得特征提取网络提取的特征图，将特征图输入选框网络，获得选框网络确定的待定位图像中车牌的候选区域。

其中，上述特征提取网络和选框网络预先通过样本车牌图像训练而成。上述特征提取网络和选框网络可以理解为深度学习网络中的部分。

上述特征图可以理解为由与待定位图像中像素点对应的特征值按照像素点的排列规则组成的数据组。确定待定位图像中车牌的候选区域，可以理解为确定待定位图像中车牌的候选区域顶点的坐标，或者理解为确定待定位图像中车牌的候选区域中心点的坐标以及区域的高度和宽度。

具体的，特征提取网络可以采用对现有的残差网络(ResNet)或VGG网络进行训练得到。相比较来说，ResNet网络比较精准但是内存占用比较大，VGG网络计算开销比较小但是精准度稍低。

下面以训练好的VGG16分类网络为例，说明本实施例中特征提取网络提取特征值时的原理。VGG16分类网络包含5层卷积层，每层含有多个(2～4个)子卷积层，过滤器(filter)的大小为3像素*3像素。在各个卷积层中根据以下公式进行卷积最终得到上述特征图中的各个特征值：

二维离散化卷积公式：

激活函数：f(X)＝max(0,X)

其中，g(x，y)是卷积核，f(x，y)为待定位图像中的像素值数据；n1和n2为待定位图像中的具体像素点的坐标，如果超出待定位图像则将其值置为0；x和y泛指待定位图像中像素点的坐标。上述卷积公式表示g(x,y)在f(x,y)的卷积等于f(x,y)的每一个像素点与g(x,y)中的每一个核的参数相乘再对对应坐标相加的结果。X为采用上述卷积公式对待定位图像进行卷积之后获得的初始特征值，f(X)为从待定位图像中最终得到的特征图中的特征值。

上述选框网络为一种具有物理意义的网络，其物理意义是确定待定位图像中车牌的候选区域(即可能的车牌区域)。选框网络可以选用对现有的区域提取网络(RegionProposal Networks，RPN)训练得到。

在训练网络时，样本车牌图像的选择至关重要。当样本车牌图像具有以下不同特点时，训练得到的选框网络能够针对不同类型的待定位图像准确地确定车牌的候选区域：

一类是，各个样本车牌图像中车牌区域的位置不同。车牌区域可以分布在样本车牌图像的任意位置。在实际应用中，一个样本车牌图像中可以包含多个不同位置的车牌区域，不同样本车牌图像之间的车牌区域可以不同。这样，不管待定位图像中的车牌区域位于哪个位置，选框网络都能确定车牌的候选区域。

二类是，各个样本车牌图像中车牌区域的尺寸不同。该尺寸不同包括车牌区域的长度不同、宽度不同或长宽均不同等多种情况。车牌区域的尺寸不同可以是由于车辆距离图像采集设备的距离不同而造成的，也可以是车牌本身的尺寸不同造成的。这样，不管待定位图像中的车牌区域的尺寸如何，选框网络都能确定出车牌的候选区域。

在实际应用中，为了使样本车牌图像中的车牌区域满足多尺度的特点，提高网络对不同尺寸的车牌区域的鲁棒性，可以按照不同的缩放尺寸对每个样本车牌图像进行等比例缩放，得到不同尺寸的样本车牌图像，这样可以更大程度地满足样本车牌图像的多尺度特点。

例如，将各个样本车牌图像的长度和宽度中的较小值，分别按照600像素、800像素、1000像素、1200像素进行等比例缩放，获得不同尺寸的样本车牌图像。

三类是，各个样本车牌图像的清晰度不同，即各个样本车牌图像中车牌区域的清晰度也不同。由于实际中监控摄像机的清晰度各有不同，因此，采用这样的样本车牌图像进行训练，得到的选框网络能从不同清晰度的待定位图像中确定车牌的候选区域。

四类是，各个样本车牌图像的拍摄角度不同。采用这样的样本车牌图像进行训练，得到的选框网络能从不同拍摄角度的待定位图像中确定车牌的候选区域。

五类是，各个样本车牌图像中车牌区域之外的背景不同。车牌区域之外的背景可以是街道、公园、停车场、写字楼等等。采用这样的样本车牌图像进行训练，得到的选框网络能从具有不同背景的待定位图像中确定车牌的候选区域。

在实际应用中，选择的样本车牌图像可以具有上述五类特点中的部分特点。当然，为了更大程度地提高所训练的网络的鲁棒性，可以选择同时具有上述五类特点的样本车牌图像进行训练。

作为一个例子，图1a和图1b为包含车牌的两个复杂场景图像，可以看出，其中图1a和图1b中包含多个车牌区域，并且各个车牌区域的位置不同，车牌区域的尺寸也不同，两个图像的拍摄角度不同，拍摄角度不同也导致图像中车牌区域的宽高比例也不同(即尺寸不同)，并且两个图像车牌区域之外的背景不同并且很复杂，存在很多干扰因素。

步骤S103：对上述候选区域进行扩展，获得对应的扩展区域。

其中，对上述候选区域进行扩展可以理解为在待定位图像中对上述候选区域进行扩展。

具体的，对上述候选区域进行扩展时，可以按照预设的扩展规则在待定位图像中对上述候选区域进行扩展，获得对应的扩展区域。预设的扩展规则可以包括向上、向下、向左、向右分别扩展预设距离。

具体的，步骤S103，对候选区域进行扩展，获得对应的扩展区域的步骤，可以包括以下步骤：

步骤1：判断预定位置是否超出待定位图像在预设方向上的边缘位置，如果是，则执行步骤2，如果否，则执行步骤3。

其中，上述预定位置为：对候选区域的位置在预设方向上扩展预设距离之后的位置。预设方向为上方向、下方向、左方向、右方向中的一个。预设距离可以为候选区域的宽度或高度的预设值倍，也可以为其他距离值。例如，在上方向和下方向上进行扩展时，预设距离可以为候选区域的高度；在左方向和右方向上进行扩展时，预设距离可以为候选区域的宽度。

步骤2：将待定位图像在预设方向上的边缘位置确定为扩展区域在预设方向上的位置。

步骤3：将预定位置确定为扩展区域在预设方向上的位置。

可以理解的是，扩展区域包含候选区域和待定位图像上候选区域周围的车辆图像部分。

具体的，上述扩展区域可以按照如下公式确定：

扩展区域左侧横坐标为x1′＝max(0，x1-k*(x2-x1))；

扩展区域右侧横坐标为x2′＝min(width，x2+k*(x2-x1))；

扩展区域上侧纵坐标为y1′＝max(0，y1-k*(y2-y1))；

扩展区域下侧纵坐标为y2′＝min(height，y2+k*(y2-y1))。

其中，上述坐标的原点位于待定位图像的左上角像素点，x1和x2分别为候选区域的左侧横坐标和右侧横坐标，y1和y2分别为候选区域的上侧纵坐标和下侧纵坐标，即不带撇号“′”的量为候选区域的坐标，撇号“′”的量为扩展区域的坐标；width为待定位图像的宽度，height为待定位图像的高度，k为对候选区域扩展的倍数，可以取1、2、3等值。

步骤S104：将上述扩展区域输入分类网络，获得该分类网络确定的分类结果。

其中，上述分类网络用于根据分类网络训练完成时获得的车牌区域周围的车辆纹理特征，确定所输入的扩展区域是否包含车牌区域的分类结果。分类结果可以包括扩展区域包含车牌区域和扩展区域不包含车牌区域两种结果。

在训练时，可以采用机器学习算法对预先获得的样本图像进行训练，获得分类网络。其中，样本图像包括正样本图像，正样本图像可以理解为包含车牌区域和其周围的车辆区域部分的图像。样本图像还可以包括负样本图像。

步骤S105：当分类结果表示上述扩展区域包含车牌区域时，从上述扩展区域中确定待定位图像的车牌区域。

具体的，当分类结果表示上述扩展区域包含车牌区域时，可以采用边缘检测算法从上述扩展区域中确定待定位图像的车牌区域。也就是说，对上述扩展区域中的像素点进行检测，根据车牌区域的边界像素值与非边界区域像素值的差异特点以及预设的车牌区域的形状特征，确定待定位图像的车牌区域。

作为一个例子，采用本实施例的车牌定位方法可以对图1a和图1b中的车牌区域进行定位，定位结果可以参见图中白色方框的区域。

由上述内容可知，本实施例可以采用通过样本车牌图像预先训练好的特征提取网络和选框网络，获得待定位图像中车牌的候选区域，将候选区域进行扩展，获得扩展区域，根据“车牌区域+车辆纹理特征”的特点，进一步确定扩展区域是否包含车牌区域。而特征提取网络和选框网络均属于深度学习网络，采用深度学习网络可以更准确地确定待定位图像中的车牌的候选区域，根据车牌区域周围的车辆纹理特征对候选区域做进一步的筛选，可以去除类似于车牌区域的干扰区域(例如交通指示牌这样的干扰区域)，更准确地确定车牌区域。因此，采用本实施例提供的定位方案，能够针对复杂场景提高车牌定位的准确性。

同时，当采用包含上述五类特点的复杂场景的样本车牌图像对特征提取网络和选框网络进行训练时，能使选框网络从复杂场景中更准确地确定车牌的候选区域，进而提高车牌定位的准确性。

在图1所示实施例的一种实施方式中，上述选框网络包括全连接层、第一回归层、第二回归层、打分层和确定层。图2为选框网络的一种结构示意图。该图中，全连接层通过第一回归层分别与第二回归层和打分层相连，第二回归层和打分层分别与确定层相连。

步骤S102中将特征图输入选框网络，获得选框网络确定的所述待定位图像中车牌的候选区域的步骤，可以包括以下步骤1～步骤5：

步骤1：将特征图输入全连接层，该全连接层按照预设的第一卷积窗口值对该特征图进行卷积，获得全连接特征图，并将该全连接特征图输入第一回归层。

其中，第一卷积窗口可以n像素*n像素，n为正整数。全连接特征图中包含与每个像素点对应的全连接特征值。该特征值的维数与全连接层的卷积参数设置相关。在该全连接层中，如果采用输出特征值个数(num_out)＝512，卷积核的尺寸(kernel_size)＝3像素*3像素，卷积步长stride＝1的卷积参数进行卷积，则可以得到512维的特征值。

步骤2：第一回归层按照预设的第二卷积窗口值对所述全连接特征图进行卷积，获得第一特征图，并将所述第一特征图分别输入所述第二回归层和打分层。其中，所述第一特征图包含各个像素点对应的特征值以及各个像素点对应的选框区域。

需要说明的是，第一回归层(reg-layer1)和第二回归层(reg-layer2)的卷积过程是完全相同的，可以采用完全相同的卷积参数。例如，均采用num_out＝4*9，kernel_size＝1像素*1像素，跨度stride＝1的卷积参数进行卷积。其中，num_out中的4代表每个像素点坐标x、y和以该像素点为中心的选框的宽度w和高度h，num_out中的9代表选框区域的不同的伸缩比例。

步骤3：打分层根据打分层训练完成时获得的参数，确定第一特征图中各个特征值对应的像素点是否属于车牌区域中的像素点及对应的分值，并将属于车牌区域中像素点且分值最高的预设数量个像素点确定为目标像素点，将目标像素点输入确定层。

其中，可以将待定位图像中的车牌区域称为前景，车牌区域以外的部分称为背景。打分层(cls-layer)用于判断各个像素点属于前景还是背景，并对其判断结果打分，并将属于前景并且分值最高的预设数量个像素点确定为目标像素点。预设数量可以为根据需要设置。

具体的，打分层确定第一特征图中各个特征值对应的像素点是否属于车牌区域中的像素点及对应的分值的过程，可以理解为根据预设的卷积参数对第一特征图中各个特征值进行卷积，获得各个特征值对应的像素点是否属于车牌区域中的像素点及对应的分值。例如，卷积参数的设置可以包括num_out＝2*9，kernel_size＝1像素*1像素，stride＝1，其中，num_out中的2代表是或不是属于车牌区域，num_out中的9代表选框区域的不同的伸缩比例。

步骤4：第二回归层按照预设的第二卷积窗口值对第一特征图进行卷积，获得第二特征图，并将所述第二特征图输入所述确定层。其中，所述第二特征图包含各个像素点对应的特征值以及各个像素点对应的选框区域。

需要说明的是，第二回归层的输入为第一回归层的输出，第二回归层对所输入的数据执行与第一回归层完全相同的卷积过程，这样能提高所确定的选框区域的准确率。

步骤5：获得所述确定层确定的所述待定位图像中车牌的候选区域。其中，所述待定位图像中车牌的候选区域为：所述第二特征图中目标像素点对应的选框区域。

可见，本实施例可以对全连接特征图进行两次级联的回归卷积，提高回归层确定的选框区域的准确性。由于待定位图像中车牌的候选区域为第二特征图中目标像素点对应的选框区域，因此本实施例能够提高所确定的候选区域的准确性。

在图1所示实施例的一种实施方式中，上述特征提取网络和选框网络可以按照图3所示流程示意图的步骤训练得到，具体可以包括以下步骤S301～步骤S305：

步骤S301：获得样本车牌图像，该样本车牌图像包含正样本车牌图像，所述正样本车牌图像包含真实车牌区域。上述样本车牌图像还可以包含负样本车牌图像，即不包含真实车牌区域的图像。

步骤S302：根据特征提取参数提取所述样本车牌图像的样本特征，获得样本特征图。其中，特征提取参数为特征提取网络中的参数。

初始时，特征提取参数可以取为预先设定的值。样本特征图包含与样本车牌图像的像素点对应的特征值按照像素点的排列规则所组成的数据组。

步骤S303：根据选框参数和所述样本特征图，确定所述样本车牌图像中车牌的样本候选区域。

初始时，选框参数可以取为随机值。确定样本候选区域可以理解为确定样本候选区域顶点的坐标，或者理解为确定样本候选区域中心点的坐标以及区域的高度和宽度。

步骤S304：确定所述样本候选区域与对应的真实车牌区域之间的差异，判断所述差异是否小于预设阈值，如果否，则执行步骤S305。

具体的，步骤S304可以包括：通过softmax算法方式确定样本候选区域与对应的真实车牌区域之间的差异，判断所述差异是否小于预设阈值。还可以采用以下公式确定样本候选区域与对应的真实车牌区域之间的第一差异：

L_loc(t，t^*)＝∑_{i∈{x,y,w,h}}smooth_L1(t，t^*)

公式中，L_loc是第一差异(即总体的定位损失函数)，t为真实车牌区域，t*为样本候选区域，针对真实车牌区域或样本候选区域，x、y分别为真实车牌区域或样本候选区域的横坐标和纵坐标，w为真实车牌区域或样本候选区域的宽度，h为真实车牌区域或样本候选区域的高度。

需要说明的是，如果样本车牌图像为经过了不同尺度的缩放之后的图像，而真实车牌区域为未经缩放处理的图像上的区域，那么在确定样本候选区域与对应的真实车牌区域之间的差异之前，需要改变样本候选区域的图像尺寸，即对样本候选区域进行池化(Pooling)操作，使其具有与真实车牌区域相同的尺寸。

具体的，可以按照以下公式对样本候选区域进行池化操作，改变其大小：

公式中，x₁和x₂分别为样本候选区域左上角像素点的横坐标和右下角像素点的横坐标，y₁和y₂分别为样本候选区域左上角像素点的纵坐标和右下角像素点的纵坐标。pooled_height是池化层的长度尺寸(例如，该尺寸可以为7像素)，Pooled_width是池化层的宽度尺寸(例如，该尺寸可以为7像素)。

需要指出的是，上述差异可以称为损失值(loss值)。预设阈值可以取较小的值，例如0.01～0.1之间的值。当上述差异小于预设阈值时，再继续训练，上述差异的值几乎不再减小，这时可以认为网络训练完成。也就是说，训练的停止条件可以为上述差异小于预设阈值。

需要说明的是，预设阈值越小则训练的网络的鲁棒性越好，通过该网络确定的候选区域准确性也就越高。通常，网络训练次数越多，得到的loss值就越小。因此，可以通过增加训练次数的方式提高网络的鲁棒性。

步骤S305：根据上述差异调整上述特征提取参数和选框参数，返回执行步骤S302。

需要说明的是，在训练特征提取网络和选框网络时，可以将所有用于训练的样本车牌图像一一输入特征提取网络，针对每个样本车牌图像，均执行一遍特征提取、确定候选区域、确定差异以及判断该差异是否小于预设阈值的过程。每次循环的过程均可以对特征提取参数和选框参数进行调整，当上述差异小于预设阈值时，可以确定特征提取网络和选框网络已训练完成。

在对特征提取参数进行调整时，可以根据上述差异对特征提取参数求偏导，将求得的偏导数乘以学习率，将该乘积值加上上一次的特征提取参数得到调整后的特征提取参数。在对选框参数进行调整时，可以根据上述差异对选框参数求偏导，将求得的偏导数乘以学习率，将该乘积值加上上一次的选框参数得到调整后的选框参数。上述学习率在训练的过程中会逐渐减小。

作为一种具体的实施方式，在训练过程中，当样本车牌图像数量不足时，要使网络达到上述训练的停止条件(即收敛)非常困难。在这种情况下，为了保证对上述特征提取参数和选框参数的学习(即调整)过程，可以提高初始的学习率，进而提高训练(迭代)次数，直至网络收敛。例如，初始学习率可以设置为10^-4，每经过5万次迭代，即把学习率调整为上一学习率的0.3。这样，网络在迭代训练3百万次之后基本收敛。

在训练时，可以采用随机梯度下降(Minbatch)算法，将样本车牌图像分批进行训练，每次采用N个样本车牌图像进行训练，以减少计算内存。在这种情况下，可以按照以下公式调整特征提取参数和选框参数：

一般的损失函数：其中，D为所有的样本车牌图像的个数，

分批训练时的损失函数：其中，N为所有样本车牌图像中的部分图像；

对损失函数求偏导：

得到更新后的参数：W_t+1＝W_t+V_t+1

其中，fw为第i个样本车牌图像对应的损失函数，Xⁱ为第i个样本车牌图像中的像素值数据；γ为常量，表示防止过拟合的范式惩罚者；r(W)＝W²，或者r(W)＝|W|，为防止过拟合而加入的范式项，以防止对函数的过度拟合，W为特征提取参数或选框参数；

可见，本实施例可以根据样本候选区域与对应的真实车牌区域之间的差异，对特征提取参数和候选参数进行调整，直至对特征提取网络和候选网络训练完成。

另外，下面结合具体实例对图1所示实施例中的步骤S103进行详细说明，参见图4所示流程示意图，具体包括：步骤S103A～S103E。

步骤S103A：对候选区域进行扩展，获得候选区域、横向扩展区域和纵向扩展区域三个区域。

在从选框网络(RPN网络)中得到候选区域rois之后，对候选区域rois进行扩展时，可以对候选区域进行横向扩展，获得横向扩展区域rois_x，对候选区域进行纵向扩展，获得纵向扩展区域rois_y。对候选区域、横向扩展区域和纵向扩展区域这三个区域分别进行如下步骤1～步骤，获得最终的扩展区域。

步骤S103B：分别对上述三个区域进行池化，将三个区域均调整为7像素*7像素的区域大小，获得池化后的三个区域。

步骤S103C：对池化后的三个区域分别进行正则化，获得正则化后的三个区域。具体的，可以采用以下公式对每个区域进行正则化：

其中，x为上述三个区域中每个区域的像素点的像素值，x′为正则化后每个区域中像素点的像素值，d为每个区域中像素点的总数量。

步骤S103D：将正则化后的三个区域进行连接，使其合成为一个区域，获得合成后的区域；

步骤S103E：对合成后的区域进行降维，获得7像素*7像素区域，该区域即为最终的扩展区域。

图5为本申请实施例提供的基于深度学习的车牌定位装置的一种结构示意图。该装置应用于电子设备，与图1所示方法实施例相对应。该装置包括：

获得模块501，用于获得包含车牌的待定位图像；

候选模块502，用于将所述待定位图像输入特征提取网络，获得所述特征提取网络提取的特征图，将所述特征图输入选框网络，获得所述选框网络确定的所述待定位图像中车牌的候选区域；其中，所述特征提取网络和选框网络预先通过样本车牌图像训练而成；

扩展模块503，用于对所述候选区域进行扩展，获得对应的扩展区域；

分类模块504，用于将所述扩展区域输入分类网络，获得所述分类网络确定的分类结果；其中，所述分类网络用于根据所述分类网络训练完成时获得的车牌区域周围的车辆纹理特征，确定所输入的扩展区域是否包含车牌区域的分类结果；

确定模块505，用于当所述分类结果表示所述扩展区域包含车牌区域时，从所述扩展区域中确定所述待定位图像的车牌区域。

在图5所示实施例的一种实施方式中，各个样本车牌图像中车牌区域的位置不同；和/或，各个样本车牌图像中车牌区域的尺寸不同；和/或，各个样本车牌图像的清晰度不同；和/或，各个样本车牌图像的拍摄角度不同；和/或，各个样本车牌图像中车牌区域之外的背景不同。

在图5所示实施例的一种实施方式中，所述扩展模块503可以包括：

判断子模块(图中未示出)，用于判断预定位置是否超出所述待定位图像在预设方向上的边缘位置；其中，所述预定位置为：对所述候选区域的位置在预设方向上扩展预设距离之后的位置；预设方向为上方向、下方向、左方向、右方向中的一个；

第一确定子模块(图中未示出)，用于当所述预定位置超出所述待定位图像在预设方向上的边缘位置时，将所述待定位图像在预设方向上的边缘位置确定为扩展区域在预设方向上的位置；

第二确定子模块(图中未示出)，用于当所述预定位置未超出所述待定位图像在预设方向上的边缘位置时，将所述预定位置确定为扩展区域在预设方向上的位置。

在图5所示实施例的一种实施方式中，所述候选模块502可以包括第一输入子模块和第二输入子模块；(图中未示出)

其中，所述第一输入子模块，用于将所述待定位图像输入特征提取网络，获得所述特征提取网络提取的特征图；

所述第二输入子模块，用于将所述特征图输入选框网络，获得所述选框网络确定的所述待定位图像中车牌的候选区域；

所述选框网络包括全连接层、第一回归层、第二回归层、打分层和确定层；

所述第二输入子模块，具体可以用于：

在图5所示实施例的一种实施方式中，所述装置还可以包括训练模块(图中未示出)，用于获得所述特征提取网络和选框网络；

其中，所述训练模块，包括：

获得子模块(图中未示出)，用于获得样本车牌图像，所述样本车牌图像包含正样本车牌图像，所述正样本车牌图像包含真实车牌区域；

提取子模块(图中未示出)，用于根据特征提取参数提取所述样本车牌图像的样本特征，获得样本特征图；

候选子模块(图中未示出)，用于根据选框参数和所述样本特征图，确定所述样本车牌图像中车牌的样本候选区域；

差异子模块(图中未示出)，用于确定所述样本候选区域与对应的真实车牌区域之间的差异，判断所述差异是否小于预设阈值；

调整子模块(图中未示出)，用于当所述差异不小于预设阈值时，根据所述差异调整所述特征提取参数和选框参数，返回执行所述提取子模块。

由于上述装置实施例是基于方法实施例得到的，与该方法具有相同的技术效果，因此装置实施例的技术效果在此不再赘述。对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

图6为本申请实施例提供的一种电子设备。该电子设备包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

存储器603，用于存放计算机程序；

处理器601，用于在执行存储器603上所存放的程序时，实现本申请实施例提供的基于深度学习的车牌定位方法。该方法具体包括：

获得包含车牌的待定位图像；

对所述候选区域进行扩展，获得对应的扩展区域；

可见，本实施例可以采用通过样本车牌图像预先训练好的特征提取网络和选框网络，获得待定位图像中车牌的候选区域，将候选区域进行扩展，获得扩展区域，根据“车牌区域+车辆纹理特征”的特点，进一步确定扩展区域是否包含车牌区域。而特征提取网络和选框网络均属于深度学习网络，采用深度学习网络可以更准确地确定待定位图像中的车牌的候选区域，根据车牌区域周围的车辆纹理特征对候选区域做进一步的筛选，可以去除类似于车牌区域的干扰区域(例如交通指示牌这样的干扰区域)，更准确地确定车牌区域。因此，采用本实施例提供的定位方案，能够针对复杂场景提高车牌定位的准确性。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的基于深度学习的车牌定位方法。该方法具体包括：

获得包含车牌的待定位图像；

对所述候选区域进行扩展，获得对应的扩展区域；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种基于深度学习的车牌定位方法，其特征在于，所述方法包括：

获得包含车牌的待定位图像；

对所述候选区域进行扩展，获得对应的扩展区域；

2.根据权利要求1所述的方法，其特征在于，各个样本车牌图像中车牌区域的位置不同；和/或，各个样本车牌图像中车牌区域的尺寸不同；和/或，各个样本车牌图像的清晰度不同；和/或，各个样本车牌图像的拍摄角度不同；和/或，各个样本车牌图像中车牌区域之外的背景不同。

3.根据权利要求1所述的方法，其特征在于，所述对所述候选区域进行扩展，获得对应的扩展区域的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述选框网络包括全连接层、第一回归层、第二回归层、打分层和确定层；

5.根据权利要求1～4任一项所述的方法，其特征在于，所述特征提取网络和选框网络是采用以下方式训练得到的：

6.一种基于深度学习的车牌定位装置，其特征在于，所述装置包括：

获得模块，用于获得包含车牌的待定位图像；

7.根据权利要求6所述的装置，其特征在于，所述扩展模块，包括：

8.根据权利要求6～7任一项所述的装置，其特征在于，所述装置还包括训练模块，用于获得所述特征提取网络和选框网络；

其中，所述训练模块，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于在执行存储器上所存放的程序时，实现权利要求1～5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～5任一所述的方法步骤。