CN110879960A - 生成卷积神经网络学习用图像数据集的方法及计算装置 - Google Patents

生成卷积神经网络学习用图像数据集的方法及计算装置 Download PDF

Info

Publication number
CN110879960A
CN110879960A CN201910810618.7A CN201910810618A CN110879960A CN 110879960 A CN110879960 A CN 110879960A CN 201910810618 A CN201910810618 A CN 201910810618A CN 110879960 A CN110879960 A CN 110879960A
Authority
CN
China
Prior art keywords
image
label
specific
bounding box
specific object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910810618.7A
Other languages
English (en)
Other versions
CN110879960B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
呂东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN110879960A publication Critical patent/CN110879960A/zh
Application granted granted Critical
Publication of CN110879960B publication Critical patent/CN110879960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/50Barriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及生成至少一个学习用数据集的方法和计算装置,上述方法包括:(a)步骤,计算装置获得(i)原始图像及(ii)使用原始标签和任意特定物体的图像对应的边界框生成的初始合成标签;及(b)步骤,上述计算装置使CNN模块利用上述原始图像及上述初始合成标签生成第一合成图像及第一合成标签;其中,上述第一合成标签是通过使与上述特定物体的图像对应的特定标签对应于与上述特定物体的图像对应的上述边界框的上述初始合成标签内的位置的方式添加至上述原始标签而生成的,上述第一合成图像是通过使上述特定物体的特定图像对应于与上述特定物体的图像对应的上述边界框的上述初始合成标签内的位置的方式合成于上述原始图像的图像。

Description

生成卷积神经网络学习用图像数据集的方法及计算装置
技术领域
本发明涉及生成用于检测自动驾驶情形中的至少一个障碍物的至少一个CNN学习用图像数据集的方法及计算装置。
背景技术
深度卷积神经网络(Deep Convolutional Neural Network;Deep CNN)是深度学习领域发生惊人发展的核心。CNN在90年代已用于解决文字识别问题,但如现在这样被广泛使用得益于最近的研究结果。上述深度CNN在2012年的ImageNet图像分类竞赛中力压竞争对手获得冠军。之后卷积神经网络在机器学习(Machine Learning)领域中成为非常有用的工具。
另外,图像分割(Image segmentation)是作为输入接收图像(训练图像或测试图像),作为输出创建标签(label)的方法。近来随着深度学习(Deep learning)技术备受关注,图像分割也趋于更多地使用深度学习。
另外,为了检测自动驾驶情形中的障碍物而学习CNN时,学习装置需要学习在自动驾驶情形下有可能遇到的各种物体,为此学习用图像必须是包含自动驾驶情形中可能遇到的各种物体的图像。
虽然在实际行驶情形下,道路上存在各种物体,但收集上述数据并非易事。即难以从一般行驶影像数据中获得针对道路上不常出现的特殊物体的学习图像。例如,通过一般行驶影像数据较容易获得针对人或自行车、车辆等图像数据,因此为提高检测性能可通过包含这些物体的图像进行学习,但是通过一般行驶影像数据较难获得针对老虎或鳄鱼等图像数据,因此存在不容易进行为提高对特殊物体的检测性能的学习的问题。
发明内容
本发明的目的在于解决上述的问题。
本发明的另一目的在于确保学习用图像集以用于提高检测物体的性能,该物体在自动驾驶情形中的实际道路行驶情形下,通常是不容易遇到的。
本发明的又一目的在于提供生成包含边界框的合成图像的方法。
本发明的又一目的在于提供生成与实际图像更相像的合成图像及合成标签的方法,上述方法执行下述过程:使CNN模块接收第一合成图像、第一合成标签及随机种子值作为上述CNN模块的输入,重复(i)生成一个以上的中间合成图像及一个以上的中间合成标签,(ii)接收上述生成的中间合成图像及上述生成的中间合成标签作为上述CNN模块的上述输入。
为实现上述本发明的目的以及下述本发明的特征效果,本发明的特征构成如下。
根据本发明的一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个CNN学习用数据集的方法,包括:(a)步骤,计算装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签及与上述原始图像不对应的任意特定物体的图像所对应的边界框生成的初始合成标签;及(b)步骤,上述计算装置使CNN模块利用上述原始图像及上述初始合成标签生成第一合成图像及第一合成标签;其中,上述第一合成标签是通过使与上述特定物体的图像对应的特定标签对应于与上述特定物体的图像对应的上述边界框的上述初始合成标签内的位置的方式添加至上述原始标签而生成的,上述第一合成图像是通过使上述特定物体的特定图像对应于与上述特定物体的图像对应的上述边界框的上述初始合成标签内的位置的方式合成于上述原始图像的图像。
在一实施例中,在上述(a)步骤中,上述计算装置还获得(iii)随机种子值;在上述(b)步骤中,上述计算装置使上述CNN模块利用上述原始图像、上述初始合成标签及上述随机种子值生成多个经调整的第一合成图像,其中,上述经调整的第一合成图像是在改变上述随机种子值的同时,调整上述第一合成图像包含的上述特定物体的大小、位置、颜色中的至少一部分而生成的图像。
在一实施例中,在上述(a)步骤中,上述计算装置还获得(iii)随机种子值;上述方法还包括:(c)步骤,上述计算装置使上述CNN模块接收上述第一合成标签、上述第一合成图像及上述随机种子值作为上述CNN模块的输入,然后使上述CNN模块重复(i)生成一个以上的中间合成标签及一个以上的中间合成图像,(ii)接收上述生成的中间合成标签及上述生成的中间合成图像作为上述CNN模块的上述输入;在上述(c)步骤中,重复生成上述中间合成标签及上述中间合成图像,从而重复将与上述特定物体对应的上述特定标签及上述特定图像分别合成于上述中间合成标签及上述中间合成图像,使得与上述特定物体对应的特定标签及上述特定图像分别位于与上述初始合成标签内的上述边界框的位置相同或类似的位置,从而生成第二合成标签及第二合成图像。
在一实施例中,当与上述特定物体对应的提供用于从中选择上述边界框的边界框候选组的形状遵循概率分布时,上述边界框的形状由上述概率分布确定。
在一实施例中,当与上述特定物体对应的上述边界框候选组的宽度和高度分别遵循第一概率分布和第二概率分布时,通过基于上述第一概率分布和上述第二概率分布分别确定的宽度和高度来确定上述边界框的形状。
在一实施例中,当与上述特定物体对应的上述边界框候选组的位置遵循通过参考各种图像内的种类和大小与上述特定物体的种类和大小类似的各种物体的位置信息而获得的概率分布时,与上述特定物体对应的上述边界框的位置由上述概率分布确定。
在一实施例中,上述方法还包括:(d)步骤,上述计算装置将上述第一合成图像和上述第一合成标签添加至包含用于物体检测及图像分割(segmentation)中的至少一部分的学习用数据集的数据库中。
根据本发明的另一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个CNN学习用数据集的计算装置,上述计算装置包括:通信部,用于获得(i)表示道路上行驶情形的原始图像及(ii)使用与上述原始图像对应的原始标签及与上述原始图像不对应的任意特定物体的图像所对应的边界框生成的初始合成标签;及处理器,用于执行(I)过程,使CNN模块利用上述原始图像及上述初始合成标签生成第一合成图像及第一合成标签,其中,上述第一合成标签是通过使与上述特定物体的图像对应的特定标签对应于与上述特定物体的图像对应的上述边界框的上述初始合成标签内的位置的方式添加至上述原始标签而生成的,上述第一合成图像是通过使上述特定物体的特定图像对应于与上述特定物体的图像对应的上述边界框的上述初始合成标签内的位置的方式合成于上述原始图像的图像。
在一实施例中,上述通信部追加获得(iii)随机种子值;在上述(I)过程中,上述处理器使上述CNN模块利用上述原始图像、上述初始合成标签及上述随机种子值生成多个经调整的第一合成图像,其中,上述经调整的第一合成图像为在改变上述随机种子值的同时,调整包含于上述第一合成图像中的上述特定物体的大小、位置、颜色中的至少一部分生成的图像。
在一实施例中,上述通信部还获得(iii)随机种子值;上述处理器还用于执行(II)过程,使上述CNN模块接收上述第一合成标签、上述第一合成图像及上述随机种子值作为上述CNN模块的输入,然后使上述CNN模块重复(i)生成一个以上的中间合成标签及一个以上的中间合成图像,(ii)接收上述生成的中间合成标签及上述生成的中间合成图像作为上述CNN模块的上述输入;在上述(II)过程中,重复生成上述中间合成标签及上述中间合成图像,从而重复将与上述特定物体对应的上述特定标签及上述特定图像分别合成于上述中间合成标签及上述中间合成图像,使得与上述特定物体对应的特定标签及上述特定图像分别位于与上述初始合成标签内的上述边界框的位置相同或类似的位置,从而生成第二合成标签及第二合成图像。
在一实施例中,当与上述特定物体对应的提供用于从中选择上述边界框的边界框候选组的形状遵循概率分布时,上述边界框的形状由上述概率分布确定。
在一实施例中,当与上述特定物体对应的上述边界框候选组的宽度和高度分别遵循第一概率分布和第二概率分布时,通过基于上述第一概率分布和上述第二概率分布分别确定的宽度和高度来确定上述边界框的形状。
在一实施例中,当与上述特定物体对应的上述边界框候选组的位置遵循通过参考各种图像内的种类和大小与上述特定物体的种类和大小类似的各种物体的位置信息而获得的概率分布时,与上述特定物体对应的上述边界框的位置由上述概率分布确定。
在一实施例中,上述处理器还用于执行(III)过程,上述计算装置将上述第一合成图像和上述第一合成标签添加至包含用于物体检测及图像分割中的至少一部分的学习用数据集的数据库中。
本发明具有如下发明效果。
根据本发明可以确保学习用图像集以用于提高检测物体的性能,该物体在自动驾驶情形中的实际道路行驶情形下通常是不容易遇到的。
另外,根据本发明可以生成包含边界框的合成图像。
另外,根据本发明可以执行下述过程,以生成与实际图像更相像的合成图像及合成标签:使CNN模块接收第一合成图像、第一合成标签及随机种子值作为上述CNN模块的输入,然后使上述CNN模块重复(i)生成一个以上的中间合成图像及一个以上的中间合成标签,(ii)接收上述生成的中间合成图像及上述生成的中间合成标签作为上述CNN模块的上述输入。
附图说明
为说明本发明的实施例所附的下面的附图只是本发明实施例中的一部分,对于本发明所属技术领域的技术人员(以下称为“本领域技术人员”)而言,在不付出创造性劳动的前提下,基于这些附图可以获得其他附图。
图1为根据本发明的计算装置的结构示意图;
图2为对输入进行各种运算处理的CNN模块的结构图;
图3为根据本发明一实施例的上述CNN模块生成第一合成图像及第一合成标签的过程示意图;
图4为上述CNN模块利用随机种子值重复生成第二合成图像及第二合成标签的过程示意图。
具体实施方式
下面参照附图对本发明进行详细说明,附图示出了可实施本发明的特定实施例的示例。对这些实施例进行详细说明以使本领域技术人员能够充分理解。应理解本发明的各种实施例虽然不同,但无相互排他性。例如,在此所记载的一实施例中的特定形状、结构及特性,在不脱离本发明的精神和范围的前提下,可通过其他实施例实现。另外,在不超出本发明的精神和范围的前提下,也可以对各实施例中的各构成要素的位置或布置进行变更。因此,将要后述的详细说明不构成对本发明范围的限定,在适当说明的情况下,本发明的范围仅由所附权利要求书以及权利要求所赋予的等同物的全部范围来限定。在附图中,相似的附图标记从各个层面表示相同或类似的构成要素。
本发明中所涉及的各种图像可包含铺砌或未铺砌的道路相关图像,此时可以假设可能出现在道路环境下出现的物体(例如汽车、人、动物、植物、物体、建筑、飞机或无人机等飞行器、其他障碍物),但不限于此。本发明中所言及的各种图像也可以是与道路无关的图像(例如未铺砌道路、小路、空地、海、湖、江、山、树丛、沙漠、天空、室内相关图像),此时可提出可在未铺砌道路、小路、空地、海、湖、江、山、树丛、沙漠、天空、室内相关图像中出现的物体,但不限于此。
另外,在本发明的发明内容及权利要求书中的术语“包含”及其变体并不旨在排除其他技术特征、附加物、构成因素或步骤等。对于本领域技术人员而言,对本发明的其他目的、优点及特性,一部分通过本说明书,一部分通过实施本发明变得更加明了。下面的示例及附图仅作为实例提供,而非限制本发明。
下面,结合附图对本发明的较佳实施例进行详细说明,以帮助本领域技术人员更好地理解本发明。
图1为根据本发明的计算装置的结构示意图。
如图1所示,上述计算装置100可包括CNN模块200。上述CNN模块200的输入/输出及运算过程可通过各通信部110及处理器120实现。
图2为根据本发明的上述CNN模块200对输入值进行各种运算的过程示意图。
如图2所示,上述CNN模块200可包括编码层210、调整层220及解码层230等。
具体而言,上述编码层210执行对原始图像和初始合成标签应用一个以上的卷积运算生成一个以上的特征图的过程,上述调整层220执行利用从上述编码层最终输出的特征图及随机种子值生成经调整的特征图的过程,上述解码层230执行对经调整的特征图应用一个以上的解卷积运算生成第一合成图像及第一合成标签的过程。
在上述编码层上执行的上述卷积运算,具体而言,上述编码层210为生成上述特征图获得上述原始图像和上述合成标签。对分别为三通道及单通道数据的上述原始图像及上述初始合成标签进行通道级联(Channel-wise Concatenation)变换为四通道数据之后,上述编码层210对上述四通道数据应用上述卷积运算。
上述计算装置及上述CNN模块的结构如上所述,下面结合图3说明上述计算装置100如何生成作为本发明的目的的用于训练自动驾驶装置的学习用数据集。
图3为上述CNN模块生成上述学习用数据集的过程示意图。
如图3所示,上述计算装置100可使上述通信部110获得(i)表示道路上行驶情形的上述原始图像及(ii)上述初始合成标签。初始合成标签是指使用与上述原始图像对应的原始标签及与上述原始图像不对应的任意特定物体的图像所对应的边界框生成的标签。
另外,若获得上述原始图像和上述初始合成标签,则上述计算装置100使上述CNN模块200利用上述原始图像及上述初始合成标签生成上述合成图像及上述第一合成标签。
上述第一合成图像是以对应上述特定物体的上述边界框的上述初始合成标签内的位置的方式,将对应上述边界框的上述特定物体的特定图像添加至上述原始图像来生成的。
上述第一合成标签是以对应上述特定物体的上述边界框的上述初始合成标签内的位置的方式,将对应上述特定物体的特定标签添加至上述原始标签来生成的。
如图3所示,上述边界框对应的巴士(bus)的图像合成于上述原始图像,上述巴士对应的上述特定标签合成于上述原始标签。
上述第一合成图像及上述第一合成标签的生成过程可由上述处理器120执行。
例如,如图3所示,假设获得(i)包含道路的上述原始图像、(ii)对应上述原始图像的上述原始标签及(iii)对应待合成的大型巴士的上述边界框(此外,还可以是例如牛、獐、落石等,可能存在于上述道路中但不常见的障碍物),则可在上述原始标签上合成上述大型巴士对应的上述边界框生成上述初始合成标签。之后,上述CNN模块(i)通过合成使上述大型巴士的特定图像位于上述原始图像内的上述道路上,以生成上述第一合成图像,(ii)将上述初始合成标签内的上述边界框用上述大型巴士的上述特定图像代替,以生成上述第一合成标签。
在此,上述初始合成标签可由上述计算装置100直接生成获得,或可由与上述计算装置100联动的其他装置(未图示)生成之后传递至上述计算装置100获得。在前者的情况下,上述原始标签及上述边界框可输入至上述计算装置100。
另外,合成上述第一合成图像及上述第一合成标签可使用通常的合成技术,在上述边界框合成于上述初始合成标签之后,以对应上述边界框的上述初始合成标签内的位置的方式,将对应上述边界框的上述特定标签合成于上述原始标签,从而生成上述第一合成标签;以对应上述边界框的上述初始合成标签内的位置的方式,将包含于上述边界框的上述特定物体对应的上述特定图像合成于上述原始图像,从而生成上述第一合成图像。
另外,需要说明的是在图2中上述第一合成图像中表示的圆圈、在图3中上述第一合成图像中表示的圆圈及在图4中上述中间合成图像及上述中间合成标签中表示的圆圈,只是用于强调对应上述大型巴士的上述特定标签及对应上述大型巴士的上述特定图像合成于上述第一合成图像、上述中间合成标签或上述合成图像的图中的表示,而不是表示上述中间合成标签、上述中间合成图像或上述第一合成图像中包含圆圈本身。
虽然图2中示出了上述CNN模块获得上述随机种子值生成上述第一合成图像,但上述随机种子值不是实施本发明的所必需的。种子值是函数的输入中的一种,如果种子值恒定,函数的输出值中的至少一部分特性固定。因此,若上述随机种子值为持续变化的乱数,可用于使上述函数的上述输出值的特性变得多样。
如图3所示,若上述CNN模块200追加获得不恒定的上述随机种子值,上述计算装置100可使上述CNN模块200利用上述原始图像、上述初始合成标签及上述随机种子值分别生成上述多个经调整的第一合成图像及经调整的第一合成标签。
但是,若上述CNN模块没有追加获得上述随机种子值或获得恒定的种子值,则只能创建单纯合成上述大型巴士的上述图像的上述第一合成图像,难以反映学习所需的各种情况。
为克服上述缺点,使上述随机种子值变化为各种值的同时追加输入,以生成包含对颜色、形状及位置中的至少一种进行调整的另一巴士的第一合成图像。
接着,图4示出了为获得与实际图像更相似的第二合成图像而执行的重复过程。
如图4所示,在初始过程中,上述计算装置100使上述CNN模块200利用上述原始图像、上述初始合成标签及上述随机种子值生成第一合成标签及第一合成图像。
在上述重复过程中,上述计算装置使上述CNN模块200接收上述第一合成标签、上述第一合成图像及上述随机种子值的输入,重复(i)生成一个以上的中间合成标签及一个以上的中间合成图像,(ii)接收上述生成的中间合成标签及上述生成的中间合成图像作为上述CNN模块的输入。
在此,在重复生成上述中间合成标签及上述中间合成图像期间,上述计算装置100以使与上述初始合成标签内的上述边界框的位置相同或类似的方式,将对应上述特定物体的上述特定标签及上述特定图像分别合成于上述生成的中间合成标签及上述中间合成图像内,从而获得充分的结果。上述“充分的结果”是指在存在区分输入图像为合成或实际的图像判断模块时,达到上述图像判断模块无法区分任意输入的中间合成图像是合成图像还是实际图像的程度。当获得上述充分的结果时,上述计算装置使上述CNN模块将上述重复过程的结束时最后生成的中间图像及最后生成的中间标签输出为第二合成标签及第二合成图像。上述随机种子值在上述初始过程中随机确定,而在之后的上述重复过程中维持为相同的状态,但不限于此。
通过执行图4的上述重复过程,在各上述中间合成图像及与之对应的中间合成标签内的相同或类似的位置,可分别合成具备一定形状和颜色的上述特定物体和与之对应的特定标签。如上所述,通过执行上述重复过程,可获得与实际图像更相像的上述第二合成图像及与之对应的上述第二合成标签。
另外,在将对应上述特定物体的上述边界框合成于上述原始标签时,上述特定物体的形状可以多样,因上述特定物体可以存在于上述初始合成图像内的任何位置,每次合成时需要固定上述边界框的形状及位置。因此下面说明确定上述边界框的形状及位置的方式。
当上述特定物体为例如獐时,根据标准体型的獐的身体比率,可计算出身体长的獐、身体短的獐、腿长的獐及腿短的獐等的概率。从獐的示例可知,可以假设为对应上述特定物体选择上述边界框而提供的边界框候选组的形状遵循预设的概率分布,此时可根据上述概率分布确定边界框的形状。
在确定上述概率分布之后,确定上述边界框的形状的方式可以有各种方式,当上述边界框的形状为矩形,其宽度和高度分别遵循第一概率分布和第二概率分布时,上述边界框的形状可采用根据上述第一概率分布和上述第二概率分布确定的方式。
另外,根据远近法,在图像中近的物体显得大,远的物体显得小。因此,若存在对应上述边界框的上述特定物体相同种类的物体的标准大小,则在上述特定图像的大小小于上述标准大小时,可认为在上述图像上位于较远的位置的可能性大,而在上述特定图像的大小大于上述标准大小时,可认为在上述图像上位于较近的位置的可能性大。最终,可假设上述边界框候选组的位置遵循通过参考对具备与上述特定物体类似的种类和大小的各种物体的各种图像内的相对位置的信息来获得的预设的概率分布,此时可根据按照上述假设的上述概率分布确定上述边界框的位置。
当通过上述方法生成上述第一合成图像和上述第一合成标签时,可将上述第一合成图像及上述第一合成标签(或上述第一合成图像及上述第二合成标签)添加至包含用于学习物体检测及图像分割中的至少一种的训练数据集的数据库中。
本领域技术人员可理解,上述说明的图像,例如原始图像、原始标签及追加标签等图像数据的收发可通过学习装置及测试装置的通信部完成,用于执行特征图和计算的数据可通过学习装置及测试装置的处理器(和/或存储器)保持/维护,卷积运算、解卷积运算、损失值计算过程可主要通过学习装置及测试装置的处理器执行,但本发明不限于此。
上述根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机组件执行,并且可以记录在计算机可读的记录媒介。上述计算机可读的记录媒介可单独或组合地包含程序指令、数据文件、数据结构等。记录在上述计算机可读记录媒介中的程序指令可以是为本发明特殊设计配置的,也可以是软件领域公开使用的。计算机可读记录媒介包括硬盘、软盘及磁带等磁性媒介、CD-ROM、DVD等光媒介、光磁软盘(Floptical Disk)等磁光媒介(Magneto-Optical Media)及ROM、RAM、闪存等可存储及执行程序指令的硬件设备。程序指令不仅包括编译器中产生的机器语言代码,而且还包括使用翻译器等在计算机中执行的高级语言代码。上述硬件设备可以被配置为由一个以上的软件模块操作以执行本发明的过程,反之亦然。
如上所述,通过具体的组件等特定事项和有限的实施例和附图对本发明进行了说明,而这只是为了帮助理解本发明所提供的,本发明不受上述事实的限制,本领域的普通技术人员应当理解,可以对本发明进行修改、变形或者等同替换。
上述实施例仅用以说明本发明而非限制,而在不脱离本发明的精神和范围内,与权利要求书均等或等价的变化均应涵盖在本发明的权利要求范围中。

Claims (14)

1.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个卷积神经网络学习用数据集的方法,其特征在于,包括:
(a)步骤,计算装置获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签及与任意的特定物体对应的边界框生成的初始合成标签,其中,任意的所述特定物体与所述原始图像不对应;及
(b)步骤,所述计算装置使卷积神经网络模块利用所述原始图像及所述初始合成标签生成第一合成图像及第一合成标签,
其中,所述第一合成标签是通过使与所述特定物体的图像对应的特定标签对应于与所述特定物体的图像对应的所述边界框的所述初始合成标签内的位置的方式添加至所述原始标签而生成的,所述第一合成图像是通过使所述特定物体的特定图像对应于与所述特定物体的图像对应的所述边界框的所述初始合成标签内的位置的方式合成于所述原始图像的图像。
2.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,所述计算装置还获得(iii)随机种子值;
在所述(b)步骤中,所述计算装置使所述卷积神经网络模块利用所述原始图像、所述初始合成标签及所述随机种子值生成多个经调整的第一合成图像,其中,所述经调整的第一合成图像是在改变所述随机种子值的同时,调整所述第一合成图像包含的所述特定物体的大小、位置、颜色中的至少一部分而生成的图像。
3.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,所述计算装置还获得(iii)随机种子值;
所述方法还包括:(c)步骤,所述计算装置使所述卷积神经网络模块接收所述第一合成标签、所述第一合成图像及所述随机种子值作为所述卷积神经网络模块的输入,然后使所述卷积神经网络模块重复(i)生成一个以上的中间合成标签及一个以上的中间合成图像,(ii)接收所述生成的中间合成标签及所述生成的中间合成图像作为所述卷积神经网络模块的所述输入;
在所述(c)步骤中,重复生成所述中间合成标签及所述中间合成图像,从而重复将与所述特定物体对应的所述特定标签及所述特定图像分别合成于所述中间合成标签及所述中间合成图像,使得与所述特定物体对应的特定标签及所述特定图像分别位于与所述初始合成标签内的所述边界框的位置相同或类似的位置,从而生成第二合成标签及第二合成图像。
4.根据权利要求1所述的方法,其特征在于,
当与所述特定物体对应的提供用于从中选择所述边界框的边界框候选组的形状遵循概率分布时,所述边界框的形状由所述概率分布确定。
5.根据权利要求4所述的方法,其特征在于,
当与所述特定物体对应的所述边界框候选组的宽度和高度分别遵循第一概率分布和第二概率分布时,通过基于所述第一概率分布和所述第二概率分布分别确定的宽度和高度来确定所述边界框的形状。
6.根据权利要求1所述的方法,其特征在于,
当与所述特定物体对应的所述边界框候选组的位置遵循通过参考各种图像内的种类和大小与所述特定物体的种类和大小类似的各种物体的位置信息而获得的概率分布时,与所述特定物体对应的所述边界框的位置由所述概率分布确定。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
(d)步骤,所述计算装置将所述第一合成图像和所述第一合成标签添加至包含用于物体检测及图像分割中的至少一部分的学习用数据集的数据库中。
8.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个卷积神经网络学习用数据集的计算装置,其特征在于,包括:
通信部,用于获得(i)表示道路上行驶情形的原始图像及(ii)使用与所述原始图像对应的原始标签及与任意的特定物体对应的边界框生成的初始合成标签,其中,任意的所述特定物体与所述原始图像不对应;及
处理器,用于执行(I)过程,使卷积神经网络模块利用所述原始图像及所述初始合成标签生成第一合成图像及第一合成标签,
其中,所述第一合成标签是是通过使与所述特定物体的图像对应的特定标签对应于与所述特定物体的图像对应的所述边界框的所述初始合成标签内的位置的方式添加至所述原始标签而生成的,所述第一合成图像是通过使所述特定物体的特定图像对应于与所述特定物体的图像对应的所述边界框的所述初始合成标签内的位置的方式合成于所述原始图像的图像。
9.根据权利要求8所述的计算装置,其特征在于,
所述通信部还获得(iii)随机种子值;
在所述(I)过程中,所述处理器使所述卷积神经网络模块利用所述原始图像、所述初始合成标签及所述随机种子值生成多个经调整的第一合成图像,其中,所述经调整的第一合成图像是在改变所述随机种子值的同时,调整所述第一合成图像包含的所述特定物体的大小、位置、颜色中的至少一部分而生成的图像。
10.根据权利要求8所述的计算装置,其特征在于,
所述通信部还获得(iii)随机种子值;
所述处理器还用于执行(II)过程,使所述卷积神经网络模块接收所述第一合成标签、所述第一合成图像及所述随机种子值作为所述卷积神经网络模块的输入,然后使所述卷积神经网络模块重复(i)生成一个以上的中间合成标签及一个以上的中间合成图像,(ii)接收所述生成的中间合成标签及所述生成的中间合成图像作为所述卷积神经网络模块的所述输入;
在所述(II)过程中,重复生成所述中间合成标签及所述中间合成图像,从而重复将与所述特定物体对应的所述特定标签及所述特定图像分别合成于所述中间合成标签及所述中间合成图像,使得与所述特定物体对应的特定标签及所述特定图像分别位于与所述初始合成标签内的所述边界框的位置相同或类似的位置,从而生成第二合成标签及第二合成图像。
11.根据权利要求8所述的计算装置,其特征在于,
当与所述特定物体对应的提供用于从中选择所述边界框的边界框候选组的形状遵循概率分布时,所述边界框的形状由所述概率分布确定。
12.根据权利要求11所述的计算装置,其特征在于,
当与所述特定物体对应的所述边界框候选组的宽度和高度分别遵循第一概率分布和第二概率分布时,通过基于所述第一概率分布和所述第二概率分布分别确定的宽度和高度来确定所述边界框的形状。
13.根据权利要求8所述的计算装置,其特征在于,
当与所述特定物体对应的所述边界框候选组的位置遵循通过参考各种图像内的种类和大小与所述特定物体的种类和大小类似的各种物体的位置信息而获得的概率分布时,与所述特定物体对应的所述边界框的位置由所述概率分布确定。
14.根据权利要求8所述的计算装置,其特征在于,
所述处理器还用于执行(III)过程,所述计算装置将所述第一合成图像和所述第一合成标签添加至包含用于物体检测及图像分割中的至少一部分的学习用数据集的数据库中。
CN201910810618.7A 2018-09-05 2019-08-29 生成卷积神经网络学习用图像数据集的方法及计算装置 Active CN110879960B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/121,659 US10467503B1 (en) 2018-09-05 2018-09-05 Method and device for generating image data set to be used for learning CNN capable of detecting obstruction in autonomous driving circumstance
US16/121,659 2018-09-05

Publications (2)

Publication Number Publication Date
CN110879960A true CN110879960A (zh) 2020-03-13
CN110879960B CN110879960B (zh) 2023-11-14

Family

ID=66286251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910810618.7A Active CN110879960B (zh) 2018-09-05 2019-08-29 生成卷积神经网络学习用图像数据集的方法及计算装置

Country Status (5)

Country Link
US (1) US10467503B1 (zh)
EP (1) EP3620977A1 (zh)
JP (1) JP6850037B2 (zh)
KR (1) KR102314524B1 (zh)
CN (1) CN110879960B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6585995B2 (ja) * 2015-11-06 2019-10-02 クラリオン株式会社 画像処理システム
CN111507362B (zh) * 2019-01-30 2023-12-19 中强光电股份有限公司 神经网络的训练方法、基于神经网络的分类方法及其装置
CN111145365A (zh) * 2019-12-17 2020-05-12 北京明略软件系统有限公司 一种实现分类处理的方法、装置、计算机存储介质及终端
US11631163B2 (en) * 2020-02-11 2023-04-18 Samsung Electronics Co., Ltd. Mobile data augmentation engine for personalized on-device deep learning system
US11270164B1 (en) 2020-09-24 2022-03-08 Ford Global Technologies, Llc Vehicle neural network
EP4350612A1 (en) * 2021-05-27 2024-04-10 Panasonic Intellectual Property Corporation of America Learning method, learning device, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061625A1 (en) * 2015-08-26 2017-03-02 Digitalglobe, Inc. Synthesizing training data for broad area geospatial object detection
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003995B2 (en) * 2017-05-19 2021-05-11 Huawei Technologies Co., Ltd. Semi-supervised regression with generative adversarial networks
US20190096135A1 (en) * 2017-09-26 2019-03-28 Aquifi, Inc. Systems and methods for visual inspection based on augmented reality
US11562213B2 (en) * 2018-04-17 2023-01-24 Intel Corporation Methods and arrangements to manage memory in cascaded neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061625A1 (en) * 2015-08-26 2017-03-02 Digitalglobe, Inc. Synthesizing training data for broad area geospatial object detection
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GEORGIOS GEORGAKIS ET AL.: "Synthesizing Training Data for Object Detection in Indoor Scenes", UI.ADSABS.HARVARD.EDU *
GEORGIOS GEORGAKIS ET AL: "Synthesizing Training Data for Object Detection in Indoor Scenes", 《UI.ADSABS.HARVARD.EDU》 *
GEORGIOS GEORGAKIS ET AL: "Synthesizing Training Data for Object Detection in Indoor Scenes", 《UI.ADSABS.HARVARD.EDU》, 31 December 2017 (2017-12-31), pages 1 - 9 *
HANG SU ET AL.: "Multi-view Convolutional Neural Networks for 3D Shape Recognition", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, pages 945 - 952 *

Also Published As

Publication number Publication date
EP3620977A1 (en) 2020-03-11
JP2020038668A (ja) 2020-03-12
US10467503B1 (en) 2019-11-05
JP6850037B2 (ja) 2021-03-31
KR20200027886A (ko) 2020-03-13
KR102314524B1 (ko) 2021-10-20
CN110879960B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN110879960A (zh) 生成卷积神经网络学习用图像数据集的方法及计算装置
CN110879959B (zh) 生成数据集的方法及装置、利用其的测试方法及测试装置
CN109447994B (zh) 结合完全残差与特征融合的遥感图像分割方法
CN110874564B (zh) 分类车线后补像素检测车线的方法及装置
CN111105010B (zh) 使用具有不同标签集的多个带标签数据库的方法及装置
KR102337376B1 (ko) 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR20200027428A (ko) 에지 이미지를 이용하여 객체를 검출하는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN110910395B (zh) 图像编码方法和装置、利用它们的测试方法和测试装置
KR20200095333A (ko) 카메라로부터 획득된 이미지와, 이에 대응하는, 레이더 또는 라이더를 통해 획득된 포인트 클라우드 맵을 뉴럴 네트워크의 각각의 컨벌루션 스테이지 별로 통합하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6869565B2 (ja) 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same}
US10402977B1 (en) Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
KR102279376B1 (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
US10410352B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
KR102337358B1 (ko) 모바일 장치 또는 소형 네트워크에 적용 가능한 하드웨어를 최적화하는데 사용될 수 있는 roi를 풀링하기 위하여, 마스킹 파라미터를 이용하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
US11113574B1 (en) Methods for performing self-supervised learning of deep-learning based detection network by using deep Q-network and devices using the same
CN112307978B (zh) 目标检测方法、装置、电子设备及可读存储介质
JP2020068013A (ja) 障害物の下段ラインを基準にroiを検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting roi on the basis of bottom lines of obstacles and testing method,testing device using the same}
CN110874566A (zh) 生成数据集的方法及装置、利用其的学习方法及学习装置
JP2020038663A (ja) 障害物を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting obstacles and testing method, testing device using the same}
KR20200027888A (ko) 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN111460877A (zh) 利用图像级联及cnn的客体检测方法及装置
KR20200091781A (ko) 자율주행 자동차의 레벨 4를 충족시키기 위해 필요한 hd 지도와의 콜라보레이션을 지원하는 임베딩 로스 및 소프트맥스 로스를 이용하여 적어도 하나의 차선을 가지는 이미지를 세그멘테이션하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN116071557A (zh) 一种长尾目标检测方法、计算机可读存储介质及驾驶设备
US10373004B1 (en) Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
KR20220134428A (ko) 서로 다른 스펙을 가지는 영상 장치들로부터 획득된 이미지들을 이용하여 퍼셉션 네트워크를 학습 및 테스트하는 방법 및 이를 이용한 학습 및 테스트 장치

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant