CN109614968A

CN109614968A - 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法

Info

Publication number: CN109614968A
Application number: CN201811176340.4A
Authority: CN
Inventors: 宋明黎; 雷杰; 静永程
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-04-12
Anticipated expiration: 2038-10-10
Also published as: CN109614968B

Abstract

一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，包括：1)收集不同场景下的包含车牌的图片，这里的不同场景包含白天、傍晚、雨天、雪天、阴天和晴天共6个场景；2)划分源域图像和目标域图像，选取难以采集的场景作为目标域，比较容易的场景作为源域；3)对于每一个源‑目标域场景对，将源域划分训练集和测试集，将训练集和具有代表性的目标域图片一起输入给多尺度混合图像风格化模型MSST并进行训练；4)测试阶段，将源域中测试集的图片输入MSST模型生成内容接近源域且场景风格接近目标域的图片。

Description

一种基于多尺度混合图像风格化的车牌检测场景图片生成方法

技术领域

本发明属于计算机视觉领域，针对车牌检测场景中部分特殊场景的数据比较少或难以获取的问题，提出了一种基于多尺度混合图像风格化的车牌检测场景图片生成方法。

背景技术

车牌检测是计算机视觉领域在实际应用上比较成熟的技术之一。随着智能停车项目的广泛普及，车辆的管理与后续的收费环节逐步打通，朝着无感支付的方向快速发展。在这个过程中，高鲁棒性的车牌检测算法是至关重要的，传统的基于人工特征级联的检测算法存在诸多弊端：(1)人工特征鲁棒性差。人工定义的特征主要基于形状，随着应用场景的复杂程度和场景多样性的增加，该类特征的鲁棒性较差；(2)滑窗式的搜索策略耗时大。基于滑窗的方式需要从原始图片中经由遍历给出各个候选区域，因而需要较大的时间开销。

随着计算机视觉和深度学习领域的快速发展，基于大数据学习的检测模型成为一个有效的替代方案。为了提升算法的鲁棒性，该方案需要用大量训练样本对各种场景学习。但是不同场景下的训练样本的获取难度是不同的，比如“晴天”场景的图片比“雨天”更容易获得，这会限制模型对于特殊场景下的车牌检测能力。现有的解决方案主要有两种，一种从数据上通过直接复制少样本场景的图片来扩充训练集，另一种在训练过程中通过对少样本在检测上的误差损失加大权重来鼓励模型特别“注意”这部分样本。这两种方式都没有直接带给模型更多少见场景下的数据。

发明内容

针对车牌检测场景中部分特殊场景的数据比较少或难以获取的现状，本发明提出了一种多尺度混合图像风格化方法，从一部分易获取场景的图片生成难获取场景下的图片。

为实现上述目的，本发明所述的基于多尺度混合图像风格化的车牌检测场景图片生成方法包括如下步骤：

1)采集不同场景下的包含车牌目标的图片，将难以采集的场景的图片归为目标域，将容易采集的场景的图片归为源域。进一步的，将源域的图片数据划分为训练集和测试集，并从目标域中选取具有代表性的图片用于场景风格的迁移；

2)构建多尺度混合图像风格化模型MSST，包括特征编码器、尺度金字塔和尺度解码器三个模块；

3)对于一个源-目标场景对，使用源域的训练集和目标域中的代表图片来训练MSST模型，定义损失函数，利用增量式训练机制和随机梯度下降算法SGD对模型参数进行优化；

4)将源域的测试集中的图片输入给MSST模型，指定不同尺度之间的混合权重，生成内容接近源域但场景风格接近目标域的图片。

进一步，步骤1)所述的不同场景包含白天、傍晚、雨天、雪天、阴天和晴天共6个场景。其中，根据数据采集的难易程度，将白天、阴天和晴天场景归为源域，将傍晚、雨天和雪天场景归为目标域。从两个域中分别选择一种场景即可构成一个源-目标场景对。

进一步，步骤2)所述的特征编码器通过3个卷积层和2个残差block实现，其中3个卷积层卷积核数目分别为16、32、48，步长分别为1、2、2，每个卷积核宽高均为3。每个残差block由两层卷积层构成，每一层包含48个3×3的卷积核，步长为1。特征编码器用于提取基本的与内容相关的语义信息以及与场景类别相关的风格信息。

进一步，步骤2)所述的尺度金字塔包含3个分支，后一个分支通过额外增加权利要求3所述的残差block与前一个分支相连。通过这种方式，层数越深的分支会更倾向于学习尺度更大情况的场景风格，从而实现多尺度的场景风格学习。

进一步，步骤2)所述的尺度解码器接受尺度金字塔的3个分支输出的特征矩阵作为输入，对于每一条分支选取指定的权重w_k进行混合，3条分支的权重之和为1，最后根据混合后的特征生成目标场景风格的图片。特征解码器的结构为2个反卷积层和1个卷积层，其中反卷积层的卷积核个数分别为32和16，卷积核宽高均为3，步长均为0.5；卷积层的卷积核的个数为3，卷积核宽高均为3，步长为1。

进一步，设步骤1)源域中的输入图片I_c，目标域中的代表图片通过缩放得到的三个不同尺度的图片为和最后通过度解码器生成的图片为I_o。对于每条支路B_k，所述的损失函数定义如下：

其中，为内容损失，通过计算I_c和I_o传入预训练的VGG网络后在第4-2层(第4层第2组)输出的特征图差异之和来得到；为场景尺度风格损失，通过计算和I_o传入预训练的VGG网络后在1-1、2-1、3-1、4-1、5-1层输出的拼接后的特征图的Gram矩阵的差异来衡量；是正则项，用来确保生成的I_o是平滑的；α，β和γ是平衡参数。

进一步，步骤3)所述的增量式训练机制只先选取层数较浅的支路进行训练，在计算损失时将该支路的权重置为1，其余置为0，完成该支路的训练之后在启动第2条支路，将对应的权重置为1，以此类推完成全部支路的训练。

本发明的有益效果如下：

本发明是一种多尺度混合图像风格化的车牌检测场景图片生成方法。它基于深度学习的生成式对抗网络算法，结合较多的源域图片和目标域中的代表图片，实现生成内容接近源域且场景风格接近目标域的图片。

与传统方法相比，本发明能够给基于大数据的车牌检测算法带来更多少见场景的数据，进而提高算法的鲁棒性。

附图说明

图1是本发明方法的多尺度混合图像风格化模型MSST的示意图。

具体实施方式

下面对本发明的技术方案进行清晰、完整的解释和描述。

本发明提出了一种多尺度混合图像风格化的车牌检测场景图片生成方法，该方法能够通过常见场景图片生成内容接近但场景风格接近少见场景的图片。包括如下步骤：

步骤1，采集常见场景和少见场景下包含车牌的图片，选取难以采集的场景作为目标域，比较容易的场景作为源域。这里以晴天和雨天的情况分别作为源域和目标域的例子，采集晴天场景的图片800张，其中500张训练，300张测试，均放缩至512×512。选取雨天场景的代表性图片1张，通过放缩到256、512和768的尺度(宽高相同)扩展为3张。

步骤2，构建MSST模型。定义特征编码器、尺度金字塔和尺度解码器三个模块。三个模块的结构如权利要求3-5所述。

步骤3，训练MSST模型。模型的输入采用500张晴天场景的图片和3张雨天场景的代表图片，根据权利要求6中所述的损失函数增量式地对三条支路进行优化。平衡参数α＝80，β＝100，γ＝200，模型学习率设为0.001，批处理的大小为2，训练过程迭代20000次后终止。

步骤4，利用MSST生成内容接近源域且场景风格接近目标域的图片。将晴天场景的300张测试图片输入域给网络，使用的三条支路的尺度权重分别是0.2、0.4和0.4，最后用尺度解码器生成内容与原图接近单场景风格接近雨天场景的图片。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，包含如下步骤：

1)采集不同场景下的包含车牌目标的图片，将难以采集的场景的图片归为目标域，将容易采集的场景的图片归为源域；再将源域的图片数据划分为训练集和测试集，并从目标域中选取具有代表性的图片用于场景风格的迁移；

2.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，其特征在于：步骤1)所述的不同场景包含白天、傍晚、雨天、雪天、阴天和晴天共6个场景，其中，根据数据采集的难易程度，将白天、阴天和晴天场景归为源域，将傍晚、雨天和雪天场景归为目标域。从两个域中分别选择一种场景即可构成一个源-目标场景对。

3.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，其特征在于：步骤2)所述的特征编码器通过3个卷积层和2个残差block实现，其中3个卷积层卷积核数目分别为16、32、48，步长分别为1、2、2，每个卷积核宽高均为3；每个残差block由两层卷积层构成，每一层包含48个3×3的卷积核，步长为1；特征编码器用于提取基本的与内容相关的语义信息以及与场景类别相关的风格信息。

4.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，其特征在于：步骤2)所述的尺度金字塔包含3个分支，后一个分支通过额外增加权利要求3所述的残差block与前一个分支相连；通过这种方式，层数越深的分支会更倾向于学习尺度更大情况的场景风格，从而实现多尺度的场景风格学习。

5.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，其特征在于：步骤2)所述的尺度解码器接受尺度金字塔的3个分支输出的特征矩阵作为输入，对于每一条分支选取指定的权重w_k进行混合，3条分支的权重之和为1，最后根据混合后的特征生成目标场景风格的图片。特征解码器的结构为2个反卷积层和1个卷积层，其中反卷积层的卷积核个数分别为32和16，卷积核宽高均为3，步长均为0.5；卷积层的卷积核的个数为3，卷积核宽高均为3，步长为1。

6.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，其特征在于：设步骤1)所述的源域中的输入图片I_c，目标域中的代表图片通过缩放得到的三个不同尺度的图片为和最后通过度解码器生成的图片为I_o。对于每条支路B_k，所述的损失函数定义如下：

7.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法，其特征在于：步骤3)所述的增量式训练机制只先选取层数较浅的支路进行训练，在计算损失时将该支路的权重置为1，其余置为0，完成该支路的训练之后在启动第2条支路，将对应的权重置为1，以此类推完成全部支路的训练。