CN109614968A - 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 - Google Patents
一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 Download PDFInfo
- Publication number
- CN109614968A CN109614968A CN201811176340.4A CN201811176340A CN109614968A CN 109614968 A CN109614968 A CN 109614968A CN 201811176340 A CN201811176340 A CN 201811176340A CN 109614968 A CN109614968 A CN 109614968A
- Authority
- CN
- China
- Prior art keywords
- scene
- picture
- multiple dimensioned
- source domain
- mixed image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,包括:1)收集不同场景下的包含车牌的图片,这里的不同场景包含白天、傍晚、雨天、雪天、阴天和晴天共6个场景;2)划分源域图像和目标域图像,选取难以采集的场景作为目标域,比较容易的场景作为源域;3)对于每一个源‑目标域场景对,将源域划分训练集和测试集,将训练集和具有代表性的目标域图片一起输入给多尺度混合图像风格化模型MSST并进行训练;4)测试阶段,将源域中测试集的图片输入MSST模型生成内容接近源域且场景风格接近目标域的图片。
Description
技术领域
本发明属于计算机视觉领域,针对车牌检测场景中部分特殊场景的数据比较少或难以获取的问题,提出了一种基于多尺度混合图像风格化的车牌检测场景图片生成方法。
背景技术
车牌检测是计算机视觉领域在实际应用上比较成熟的技术之一。随着智能停车项目的广泛普及,车辆的管理与后续的收费环节逐步打通,朝着无感支付的方向快速发展。在这个过程中,高鲁棒性的车牌检测算法是至关重要的,传统的基于人工特征级联的检测算法存在诸多弊端:(1)人工特征鲁棒性差。人工定义的特征主要基于形状,随着应用场景的复杂程度和场景多样性的增加,该类特征的鲁棒性较差;(2)滑窗式的搜索策略耗时大。基于滑窗的方式需要从原始图片中经由遍历给出各个候选区域,因而需要较大的时间开销。
随着计算机视觉和深度学习领域的快速发展,基于大数据学习的检测模型成为一个有效的替代方案。为了提升算法的鲁棒性,该方案需要用大量训练样本对各种场景学习。但是不同场景下的训练样本的获取难度是不同的,比如“晴天”场景的图片比“雨天”更容易获得,这会限制模型对于特殊场景下的车牌检测能力。现有的解决方案主要有两种,一种从数据上通过直接复制少样本场景的图片来扩充训练集,另一种在训练过程中通过对少样本在检测上的误差损失加大权重来鼓励模型特别“注意”这部分样本。这两种方式都没有直接带给模型更多少见场景下的数据。
发明内容
针对车牌检测场景中部分特殊场景的数据比较少或难以获取的现状,本发明提出了一种多尺度混合图像风格化方法,从一部分易获取场景的图片生成难获取场景下的图片。
为实现上述目的,本发明所述的基于多尺度混合图像风格化的车牌检测场景图片生成方法包括如下步骤:
1)采集不同场景下的包含车牌目标的图片,将难以采集的场景的图片归为目标域,将容易采集的场景的图片归为源域。进一步的,将源域的图片数据划分为训练集和测试集,并从目标域中选取具有代表性的图片用于场景风格的迁移;
2)构建多尺度混合图像风格化模型MSST,包括特征编码器、尺度金字塔和尺度解码器三个模块;
3)对于一个源-目标场景对,使用源域的训练集和目标域中的代表图片来训练MSST模型,定义损失函数,利用增量式训练机制和随机梯度下降算法SGD对模型参数进行优化;
4)将源域的测试集中的图片输入给MSST模型,指定不同尺度之间的混合权重,生成内容接近源域但场景风格接近目标域的图片。
进一步,步骤1)所述的不同场景包含白天、傍晚、雨天、雪天、阴天和晴天共6个场景。其中,根据数据采集的难易程度,将白天、阴天和晴天场景归为源域,将傍晚、雨天和雪天场景归为目标域。从两个域中分别选择一种场景即可构成一个源-目标场景对。
进一步,步骤2)所述的特征编码器通过3个卷积层和2个残差block实现,其中3个卷积层卷积核数目分别为16、32、48,步长分别为1、2、2,每个卷积核宽高均为3。每个残差block由两层卷积层构成,每一层包含48个3×3的卷积核,步长为1。特征编码器用于提取基本的与内容相关的语义信息以及与场景类别相关的风格信息。
进一步,步骤2)所述的尺度金字塔包含3个分支,后一个分支通过额外增加权利要求3所述的残差block与前一个分支相连。通过这种方式,层数越深的分支会更倾向于学习尺度更大情况的场景风格,从而实现多尺度的场景风格学习。
进一步,步骤2)所述的尺度解码器接受尺度金字塔的3个分支输出的特征矩阵作为输入,对于每一条分支选取指定的权重wk进行混合,3条分支的权重之和为1,最后根据混合后的特征生成目标场景风格的图片。特征解码器的结构为2个反卷积层和1个卷积层,其中反卷积层的卷积核个数分别为32和16,卷积核宽高均为3,步长均为0.5;卷积层的卷积核的个数为3,卷积核宽高均为3,步长为1。
进一步,设步骤1)源域中的输入图片Ic,目标域中的代表图片通过缩放得到的三个不同尺度的图片为和最后通过度解码器生成的图片为Io。对于每条支路Bk,所述的损失函数定义如下:
其中,为内容损失,通过计算Ic和Io传入预训练的VGG网络后在第4-2层(第4层第2组)输出的特征图差异之和来得到;为场景尺度风格损失,通过计算和Io传入预训练的VGG网络后在1-1、2-1、3-1、4-1、5-1层输出的拼接后的特征图的Gram矩阵的差异来衡量;是正则项,用来确保生成的Io是平滑的;α,β和γ是平衡参数。
进一步,步骤3)所述的增量式训练机制只先选取层数较浅的支路进行训练,在计算损失时将该支路的权重置为1,其余置为0,完成该支路的训练之后在启动第2条支路,将对应的权重置为1,以此类推完成全部支路的训练。
本发明的有益效果如下:
本发明是一种多尺度混合图像风格化的车牌检测场景图片生成方法。它基于深度学习的生成式对抗网络算法,结合较多的源域图片和目标域中的代表图片,实现生成内容接近源域且场景风格接近目标域的图片。
与传统方法相比,本发明能够给基于大数据的车牌检测算法带来更多少见场景的数据,进而提高算法的鲁棒性。
附图说明
图1是本发明方法的多尺度混合图像风格化模型MSST的示意图。
具体实施方式
下面对本发明的技术方案进行清晰、完整的解释和描述。
本发明提出了一种多尺度混合图像风格化的车牌检测场景图片生成方法,该方法能够通过常见场景图片生成内容接近但场景风格接近少见场景的图片。包括如下步骤:
步骤1,采集常见场景和少见场景下包含车牌的图片,选取难以采集的场景作为目标域,比较容易的场景作为源域。这里以晴天和雨天的情况分别作为源域和目标域的例子,采集晴天场景的图片800张,其中500张训练,300张测试,均放缩至512×512。选取雨天场景的代表性图片1张,通过放缩到256、512和768的尺度(宽高相同)扩展为3张。
步骤2,构建MSST模型。定义特征编码器、尺度金字塔和尺度解码器三个模块。三个模块的结构如权利要求3-5所述。
步骤3,训练MSST模型。模型的输入采用500张晴天场景的图片和3张雨天场景的代表图片,根据权利要求6中所述的损失函数增量式地对三条支路进行优化。平衡参数α=80,β=100,γ=200,模型学习率设为0.001,批处理的大小为2,训练过程迭代20000次后终止。
步骤4,利用MSST生成内容接近源域且场景风格接近目标域的图片。将晴天场景的300张测试图片输入域给网络,使用的三条支路的尺度权重分别是0.2、0.4和0.4,最后用尺度解码器生成内容与原图接近单场景风格接近雨天场景的图片。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (7)
1.一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,包含如下步骤:
1)采集不同场景下的包含车牌目标的图片,将难以采集的场景的图片归为目标域,将容易采集的场景的图片归为源域;再将源域的图片数据划分为训练集和测试集,并从目标域中选取具有代表性的图片用于场景风格的迁移;
2)构建多尺度混合图像风格化模型MSST,包括特征编码器、尺度金字塔和尺度解码器三个模块;
3)对于一个源-目标场景对,使用源域的训练集和目标域中的代表图片来训练MSST模型,定义损失函数,利用增量式训练机制和随机梯度下降算法SGD对模型参数进行优化;
4)将源域的测试集中的图片输入给MSST模型,指定不同尺度之间的混合权重,生成内容接近源域但场景风格接近目标域的图片。
2.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,其特征在于:步骤1)所述的不同场景包含白天、傍晚、雨天、雪天、阴天和晴天共6个场景,其中,根据数据采集的难易程度,将白天、阴天和晴天场景归为源域,将傍晚、雨天和雪天场景归为目标域。从两个域中分别选择一种场景即可构成一个源-目标场景对。
3.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,其特征在于:步骤2)所述的特征编码器通过3个卷积层和2个残差block实现,其中3个卷积层卷积核数目分别为16、32、48,步长分别为1、2、2,每个卷积核宽高均为3;每个残差block由两层卷积层构成,每一层包含48个3×3的卷积核,步长为1;特征编码器用于提取基本的与内容相关的语义信息以及与场景类别相关的风格信息。
4.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,其特征在于:步骤2)所述的尺度金字塔包含3个分支,后一个分支通过额外增加权利要求3所述的残差block与前一个分支相连;通过这种方式,层数越深的分支会更倾向于学习尺度更大情况的场景风格,从而实现多尺度的场景风格学习。
5.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,其特征在于:步骤2)所述的尺度解码器接受尺度金字塔的3个分支输出的特征矩阵作为输入,对于每一条分支选取指定的权重wk进行混合,3条分支的权重之和为1,最后根据混合后的特征生成目标场景风格的图片。特征解码器的结构为2个反卷积层和1个卷积层,其中反卷积层的卷积核个数分别为32和16,卷积核宽高均为3,步长均为0.5;卷积层的卷积核的个数为3,卷积核宽高均为3,步长为1。
6.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,其特征在于:设步骤1)所述的源域中的输入图片Ic,目标域中的代表图片通过缩放得到的三个不同尺度的图片为和最后通过度解码器生成的图片为Io。对于每条支路Bk,所述的损失函数定义如下:
其中,为内容损失,通过计算Ic和Io传入预训练的VGG网络后在第4-2层(第4层第2组)输出的特征图差异之和来得到;为场景尺度风格损失,通过计算和Io传入预训练的VGG网络后在1-1、2-1、3-1、4-1、5-1层输出的拼接后的特征图的Gram矩阵的差异来衡量;是正则项,用来确保生成的Io是平滑的;α,β和γ是平衡参数。
7.根据权利要求1所述的一种基于多尺度混合图像风格化的车牌检测场景图片生成方法,其特征在于:步骤3)所述的增量式训练机制只先选取层数较浅的支路进行训练,在计算损失时将该支路的权重置为1,其余置为0,完成该支路的训练之后在启动第2条支路,将对应的权重置为1,以此类推完成全部支路的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176340.4A CN109614968B (zh) | 2018-10-10 | 2018-10-10 | 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176340.4A CN109614968B (zh) | 2018-10-10 | 2018-10-10 | 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614968A true CN109614968A (zh) | 2019-04-12 |
CN109614968B CN109614968B (zh) | 2023-03-24 |
Family
ID=66002912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811176340.4A Active CN109614968B (zh) | 2018-10-10 | 2018-10-10 | 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614968B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961107A (zh) * | 2019-04-18 | 2019-07-02 | 北京迈格威科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN110135302A (zh) * | 2019-04-30 | 2019-08-16 | 百度在线网络技术(北京)有限公司 | 训练车道线识别模型的方法、装置、设备和存储介质 |
CN110569709A (zh) * | 2019-07-16 | 2019-12-13 | 浙江大学 | 一种基于知识重组的场景解析方法 |
CN110796144A (zh) * | 2019-11-08 | 2020-02-14 | 北京字节跳动网络技术有限公司 | 车牌检测方法、装置、设备及存储介质 |
CN112184846A (zh) * | 2020-09-16 | 2021-01-05 | 上海眼控科技股份有限公司 | 图像生成方法、装置、计算机设备和可读存储介质 |
CN112257869A (zh) * | 2020-09-29 | 2021-01-22 | 北京北大千方科技有限公司 | 基于随机森林的套牌车分析方法、系统及计算机介质 |
CN112464924A (zh) * | 2019-09-06 | 2021-03-09 | 华为技术有限公司 | 一种构建训练集的方法及装置 |
CN112950454A (zh) * | 2021-01-25 | 2021-06-11 | 西安电子科技大学 | 一种基于多尺度语义匹配的图像风格迁移方法 |
CN113673589A (zh) * | 2021-08-12 | 2021-11-19 | 南京理工大学 | 基于边框距离度量的标签选择自适应增量检测方法及系统 |
CN114511779A (zh) * | 2022-01-20 | 2022-05-17 | 电子科技大学 | 场景图生成模型的训练方法、场景图生成方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016033990A1 (zh) * | 2014-09-01 | 2016-03-10 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
CN107229929A (zh) * | 2017-04-12 | 2017-10-03 | 西安电子科技大学 | 一种基于r‑cnn的车牌定位方法 |
CN107657279A (zh) * | 2017-09-26 | 2018-02-02 | 中国科学院大学 | 一种基于少量样本的遥感目标检测方法 |
-
2018
- 2018-10-10 CN CN201811176340.4A patent/CN109614968B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016033990A1 (zh) * | 2014-09-01 | 2016-03-10 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
CN107229929A (zh) * | 2017-04-12 | 2017-10-03 | 西安电子科技大学 | 一种基于r‑cnn的车牌定位方法 |
CN107657279A (zh) * | 2017-09-26 | 2018-02-02 | 中国科学院大学 | 一种基于少量样本的遥感目标检测方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961107A (zh) * | 2019-04-18 | 2019-07-02 | 北京迈格威科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN109961107B (zh) * | 2019-04-18 | 2022-07-19 | 北京迈格威科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN110135302A (zh) * | 2019-04-30 | 2019-08-16 | 百度在线网络技术(北京)有限公司 | 训练车道线识别模型的方法、装置、设备和存储介质 |
US11508163B2 (en) | 2019-04-30 | 2022-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for training lane line identifying model, device, and storage medium |
CN110569709A (zh) * | 2019-07-16 | 2019-12-13 | 浙江大学 | 一种基于知识重组的场景解析方法 |
CN112464924A (zh) * | 2019-09-06 | 2021-03-09 | 华为技术有限公司 | 一种构建训练集的方法及装置 |
CN110796144A (zh) * | 2019-11-08 | 2020-02-14 | 北京字节跳动网络技术有限公司 | 车牌检测方法、装置、设备及存储介质 |
CN110796144B (zh) * | 2019-11-08 | 2023-04-25 | 北京字节跳动网络技术有限公司 | 车牌检测方法、装置、设备及存储介质 |
CN112184846A (zh) * | 2020-09-16 | 2021-01-05 | 上海眼控科技股份有限公司 | 图像生成方法、装置、计算机设备和可读存储介质 |
CN112257869A (zh) * | 2020-09-29 | 2021-01-22 | 北京北大千方科技有限公司 | 基于随机森林的套牌车分析方法、系统及计算机介质 |
CN112950454A (zh) * | 2021-01-25 | 2021-06-11 | 西安电子科技大学 | 一种基于多尺度语义匹配的图像风格迁移方法 |
CN112950454B (zh) * | 2021-01-25 | 2023-01-24 | 西安电子科技大学 | 一种基于多尺度语义匹配的图像风格迁移方法 |
CN113673589A (zh) * | 2021-08-12 | 2021-11-19 | 南京理工大学 | 基于边框距离度量的标签选择自适应增量检测方法及系统 |
CN114511779A (zh) * | 2022-01-20 | 2022-05-17 | 电子科技大学 | 场景图生成模型的训练方法、场景图生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109614968B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614968A (zh) | 一种基于多尺度混合图像风格化的车牌检测场景图片生成方法 | |
CN111882040B (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
CN108985317A (zh) | 一种基于可分离卷积和注意力机制的图像分类方法 | |
CN109271522A (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN110009095B (zh) | 基于深度特征压缩卷积网络的道路行驶区域高效分割方法 | |
CN109543502A (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN110147794A (zh) | 一种基于深度学习的无人车室外场景实时分割方法 | |
CN108664999A (zh) | 一种分类模型的训练方法及其装置、计算机服务器 | |
CN106339753A (zh) | 一种有效提升卷积神经网络稳健性的方法 | |
CN111126599B (zh) | 一种基于迁移学习的神经网络权重初始化方法 | |
CN110135460A (zh) | 基于vlad卷积模块的图像信息强化方法 | |
CN111046917B (zh) | 基于深度神经网络的对象性增强目标检测方法 | |
CN112183435A (zh) | 一种两阶段的手部目标检测方法 | |
CN110245602A (zh) | 一种基于深度卷积特征的水下静目标识别方法 | |
CN110276445A (zh) | 基于Inception卷积模块的国内交通标志分类方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN108875826B (zh) | 一种基于粗细粒度复合卷积的多分支对象检测方法 | |
CN109919073A (zh) | 一种具有光照鲁棒性的行人再识别方法 | |
CN111694977A (zh) | 一种基于数据增强的车辆图像检索方法 | |
CN111797920A (zh) | 门控特征融合的深度网络不透水面遥感提取方法及系统 | |
CN114119966A (zh) | 基于多视角学习与元学习的小样本目标检测方法 | |
CN113034506A (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN116109920A (zh) | 一种基于Transformer的遥感图像建筑物提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |