CN110874566A - 生成数据集的方法及装置、利用其的学习方法及学习装置 - Google Patents
生成数据集的方法及装置、利用其的学习方法及学习装置 Download PDFInfo
- Publication number
- CN110874566A CN110874566A CN201910809691.2A CN201910809691A CN110874566A CN 110874566 A CN110874566 A CN 110874566A CN 201910809691 A CN201910809691 A CN 201910809691A CN 110874566 A CN110874566 A CN 110874566A
- Authority
- CN
- China
- Prior art keywords
- image
- learning
- original image
- split
- ground truth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000282376 Panthera tigris Species 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 241000270728 Alligator Species 0.000 description 1
- 241000270722 Crocodylidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282816 Giraffa camelopardalis Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- LNNWVNGFPYWNQE-GMIGKAJZSA-N desomorphine Chemical compound C1C2=CC=C(O)C3=C2[C@]24CCN(C)[C@H]1[C@@H]2CCC[C@@H]4O3 LNNWVNGFPYWNQE-GMIGKAJZSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
- G06T3/147—Transformations for image registration, e.g. adjusting or mapping for alignment of images using affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30261—Obstacle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Image Analysis (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及生成用于检测自动驾驶情形中的障碍物的学习用图像数据集的方法及计算装置、利用其的学习方法及学习装置,所述方法包括:由计算装置(a)获得表示道路上行驶情形的至少一个第一原始图像及与第一原始图像对应的至少一个第一分割GT图像;(b)获得包含至少一个特定物体图像的至少一个第二原始图像及包含特定物体的分割信息并对应第二原始图像的至少一个第二分割GT图像;(c)获得切割对应特定物体的部分生成的第三原始图像及切割对应特定物体所处部分的像素生成的第三分割GT图像;及(d)将第三原始图像合成于第一原始图像,以生成至少一个第四分割GT图像,从而生成包含第四原始图像和与之对应的第四分割GT图像的数据集。
Description
技术领域
本发明涉及涉及生成用于检测自动驾驶情形中的上述障碍物的上述学习用数据集的方法及计算装置、利用其的学习方法及学习装置。
背景技术
深度卷积神经网络(Deep Convolutional Neural Network;Deep CNN)是深度学习领域发生惊人发展的核心。CNN在90年代已用于解决文字识别问题,但如现在这样被广泛使用得益于最近的研究结果。上述深度CNN在2012年的ImageNet图像分类竞赛中力压竞争对手获得冠军。之后卷积神经网络在机器学习(Machine Learning)领域中成为非常有用的工具。
另外,图像分割(Image segmentation)是作为输入接收图像(训练图像或测试图像),作为输出创建标签(label)的方法。近来随着深度学习(Deep learning)技术备受关注,图像分割也趋于更多地使用深度学习。
另外,为了检测自动驾驶情形中的障碍物而学习CNN时,学习装置需要学习在自动驾驶情形下有可能遇到的各种物体,为此学习用图像必须是包含自动驾驶情形中可能遇到的各种物体的图像。
虽然在实际行驶情形下,道路上存在各种物体,但收集上述数据并非易事。即难以从一般行驶影像数据中获得针对道路上不常出现的特殊物体的学习图像。例如,通过一般行驶影像数据较容易获得针对人或自行车、车辆等图像数据,因此为提高检测性能可通过包含这些物体的图像进行学习,但是通过一般行驶影像数据较难获得针对老虎或鳄鱼等图像数据,因此存在不容易进行为提高对特殊物体的检测性能的学习的问题。
发明内容
本发明的目的在于解决上述的问题。
本发明的另一目的在于确保学习用图像集以用于提高检测物体的性能,该物体在自动驾驶情形中的实际道路上行驶情形下,通常是不容易遇到的。
本发明的又一目的在于提供一种学习方法,该学习方法能够通过使用学习用数据集学习CNN的参数来精确地检测在实际道路驾驶情形下通常不容易遇到的物体。
为实现上述本发明的目的以及下述本发明的特征效果,本发明的特征构成如下。
根据本发明的一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的方法,上述方法包括:(a)步骤,计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与上述第一原始图像对应的至少一个第一分割GT(ground truth)图像;(b)步骤,上述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像;(c)步骤,上述计算装置获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像;及(d)步骤,上述计算装置(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像,(ii)将上述第三分割GT图像合成于上述第一分割GT图像,使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的至少一个特定位置,以生成至少一个学习用第四分割GT图像,从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集。
在一实施例中,上述(d)步骤,包括:(d_1)步骤,上述计算装置利用相同的方式对上述第三原始图像及第三分割GT图像进行变形,以分别生成变形的第三原始图像及变形的第三分割GT图像;及(d_1)步骤,上述计算装置将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。
在一实施例中,在上述(d_1)步骤中,上述计算装置利用仿射变换(affinetransform)算法及薄板样条插值(thin-plate spline interpolation)算法中的至少一种算法对上述第三原始图像及上述第三分割GT图像进行变形。
在一实施例中,上述计算装置在改变应用于上述(d_1)步骤的算法及其详细参数中的至少一部分的同时,重复执行上述(d_1)步骤及上述(d_2)步骤,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
在一实施例中,从各种道路行驶图像数据库及与之对应的分割GT图像数据库中分别选择上述第一原始图像及上述第一分割GT图像;从各种物体的按种类的原始图像数据库及与之对应的语义(semantic)分割GT图像数据库中分别选择上述第二原始图像及上述第二分割GT图像。
在一实施例中,在上述(c)步骤中,上述计算装置利用上述第二分割GT图像的语义分割信息,从上述第二原始图像及上述第二分割GT图像中切割上述特定物体。
在一实施例中,在上述(c)步骤中,上述计算装置(i)在上述第二分割GT图像内切割对上述特定物体具有语义分割信息的区域,以获得上述第三分割GT图像,(ii)参考上述第二分割GT图像内的上述第三分割GT图像的像素信息对应的上述第二原始图像内的像素位置获得上述第三原始图像。
在一实施例中,在上述(d)步骤中,上述计算装置(i)在上述第一原始图像内判断对应道路的部分之后,将上述第三原始图像合成于上述第一原始图像,使得上述第三原始图像对应于上述对应道路的部分内的任意位置,以生成上述学习用第四原始图像,(ii)将第三分割GT图像合成于上述第一分割GT图像,使得上述第三分割GT图像对应于上述第一原始图像中的上述任意位置,从而生成上述学习用第四分割GT图像。
在一实施例中,在上述(d)步骤中,上述计算装置在改变上述任意位置的同时,多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
在一实施例中,上述第一分割GT图像包含上述道路的分割信息。
根据本发明的另一方面提供了一种通过CNN(Convolutional Neural Network)的学习方法,上述学习方法包括:(a)步骤,在执行下述过程的状态下,学习装置接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入:(I)过程,计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与上述第一原始图像对应的至少一个第一分割GT图像;(II)过程,上述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像;(III)过程,上述计算装置获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像;及(IV)过程,上述计算装置(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像,(ii)将上述第三分割GT图像合成于上述第一分割GT图像,使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的的至少一个特定位置,以生成至少一个学习用第四分割GT图像,从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集;及(b)步骤,上述学习装置对上述学习用第四原始图像应用上述CNN的多次运算以获得输出图像,比较上述输出图像和上述第四分割GT图像之后,通过反向传播(backpropagation)调整上述学习装置的参数。
在一实施例中,在上述(IV)过程中,上述计算装置执行:(IV_1)过程,利用相同的方式对上述第三原始图像及第三分割GT图像进行变形,以分别生成变形的第三原始图像及变形的第三分割GT图像;(IV_2)过程,将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。
在一实施例中,上述计算装置在改变应用于上述(IV_1)过程的算法及其详细参数中的至少一部分的同时,重复执行上述(IV_1)过程及上述(IV_2)过程,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
在一实施例中,在上述(IV)过程中,上述计算装置(i)在上述第一原始图像内判断对应道路的部分之后,将上述第三原始图像合成于上述第一原始图像,使得上述第三原始图像对应于上述第一原始图像中对应上述道路的部分内的任意位置,以生成上述学习用第四原始图像,(ii)将上述第三分割GT图像合成于上述第一分割GT图像,使得上述第三分割GT图像对应于上述第一原始图像中的上述任意位置,从而生成上述学习用第四分割GT图像。
在一实施例中,在上述(IV)过程中,上述计算装置在改变上述任意位置的同时,多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
根据本发明的又一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的计算装置,上述计算装置包括:通信部,用于获得(i-1)表示道路上行驶情形的至少一个第一原始图像及(i-2)与上述第一原始图像对应的至少一个第一分割GT图像,获得(ii-1)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像;处理器,用于执行下述过程:(I)过程,获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像;及(II)过程,(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像,(ii)将上述第三分割GT图像合成于上述第一分割GT图像,使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的至少一个特定位置,以生成至少一个学习用第四分割GT图像,从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集。
在一实施例中,在上述(II)过程中,上述处理器执行:(II_1)过程,利用相同的方式对上述第三原始图像及第三分割GT图像进行变形,以分别生成变形的第三原始图像及变形的第三分割GT图像的过程;(II_2)过程,将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像的过程。
在一实施例中,在上述(II_1)过程中,上述处理器利用仿射变换算法及薄板样条插值算法中的至少一种算法对上述第三原始图像及上述第三分割GT图像进行变形。
在一实施例中,上述处理器在改变应用于上述(II_1)过程的算法及其详细参数中的至少一部分的同时,重复执行上述(II_1)过程及上述(II_2)过程,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
在一实施例中,从各种道路行驶图像数据库及与之对应的分割GT图像数据库中分别选择上述第一原始图像及上述第一分割GT图像;从各种物体的按种类的原始图像数据库及与之对应的语义分割GT图像数据库中分别选择上述第二原始图像及上述第二分割GT图像。
在一实施例中,在上述(I)过程中,上述处理器利用上述第二分割GT图像的语义分割信息,从上述第二原始图像及上述第二分割GT图像中切割上述特定物体。
在一实施例中,在上述(I)过程中,上述处理器(i)在上述第二分割GT图像内切割对上述特定物体具有语义分割信息的区域,以获得上述第三分割GT图像,(ii)参考与上述第二分割GT图像内的上述第三分割GT图像的像素信息对应的上述第二原始图像内的像素位置获得上述第三原始图像。
在一实施例中,在上述(II)过程中,上述处理器(i)在上述第一原始图像内判断对应道路的部分之后,将上述第三原始图像合成于在上述第一原始图像中对应上述道路的部分的任意位置,以生成上述学习用第四原始图像,(ii)在上述第一分割GT图像上合成上述第三分割GT图像,以对应上述第一原始图像中的上述任意位置,从而生成上述学习用第四分割GT图像。
在一实施例中,在上述(II)过程中,上述处理器在改变上述任意位置的同时,多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
在一实施例中,上述第一分割GT图像包含上述道路的分割信息。
根据本发明的又一方面提供了一种通过CNN(Convolutional Neural Network)进行学习的学习装置,上述学习装置包括:通信部,用于在执行下述过程的状态下,接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入:(I)过程,计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与上述第一原始图像对应的至少一个第一分割GT图像;(II)过程,上述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像;(III)过程,上述计算装置获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像;及(IV)过程,上述计算装置(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像,(ii)将上述第三分割GT图像合成于上述第一分割GT图像,使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的的至少一个特定位置,以生成至少一个学习用第四分割GT图像,从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集;及处理器,用于对上述学习用第四原始图像应用上述CNN的多次运算以获得输出图像,比较上述输出图像和上述第四分割GT图像之后,通过反向传播(backpropagation)调整上述学习装置的参数。
在一实施例中,在由上述计算装置执行的上述(IV)过程中,上述计算装置执行:(IV_1)过程,上述计算装置利用相同的方式对上述第三原始图像及第三分割GT图像进行变形,以分别生成变形的第三原始图像及变形的第三分割GT图像;(IV_2)过程,将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。
在一实施例中,上述计算装置在改变应用于上述(IV_1)过程的算法及其详细参数中的至少一部分的同时,重复执行上述(IV_1)过程及上述(IV_2)过程,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
在一实施例中,在由上述计算装置执行的上述(IV)过程中,上述计算装置(i)在上述第一原始图像内判断对应道路的部分之后,将上述第三原始图像合成于上述第一原始图像,使得上述第三原始图像对应于上述第一原始图像中对应上述道路的部分内的任意位置,以生成上述学习用第四原始图像,(ii)将上述第三分割GT图像合成于上述第一分割GT图像,使得上述第三分割GT图像对应于上述第一原始图像中的上述任意位置,从而生成上述学习用第四分割GT图像。
在一实施例中,在由上述计算装置执行的上述(IV)过程中,上述计算装置在改变上述任意位置的同时,多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程,以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。
本发明具有如下发明效果。
根据本发明可以确保学习用图像集以用于提高检测物体的性能,该物体在自动驾驶情形中的实际道路上行驶情形下通常是不容易遇到的。
根据本发明可以提供一种学习方法,该学习方法能够通过使用学习用数据集作为训练图像,学习CNN(Convolutional Neural Network)的参数来精确地检测在实际道路驾驶情形下通常不容易遇到的物体。
附图说明
本发明的上述及其他目的及特征,可通过结合如下附图进行说明的较佳实施例而更加清楚。
图1为根据本发明生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集并通过其完成学习的方法的流程图;
图2为根据本发明生成上述学习用数据集的过程示意图;
图3为根据本发明利用获得的学习用数据集进行CNN(Convolutional NeuralNetwork)图像分割的过程示意图。
具体实施方式
下面参照附图对本发明进行详细说明,附图示出了可实施本发明的特定实施例的示例。详细说明这些实施例以使本领域技术人员能够充分理解。应理解本发明的各种实施例虽然不同,但无相互排他性。例如,在此所记载的一实施例中的特定形状、结构及特性,在不脱离本发明的精神和范围的前提下,可通过其他实施例实现。另外,在不超出本发明的精神和范围的前提下,也可以对各实施例中的各构成要素的位置或布置进行变更。因此,将要后述的详细说明不构成对本发明范围的限定,在适当说明的情况下,本发明的范围仅由所附权利要求书以及权利要求所赋予的等同物的全部范围来限定。在附图中,相似的附图标记从各个层面表示相同或类似的构成要素。
下面,结合附图对本发明的较佳实施例进行详细说明,以帮助本领域技术人员更好地理解本发明。
图1为根据本发明生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集并通过其完成CNN(Convolutional Neural Network)学习的方法的流程图,而图2为根据本发明生成上述学习用数据集的过程示意图。
如图1及图2所示,根据本发明生成用于检测自动驾驶情形中的上述障碍物的上述学习用数据集的方法包括:获得表示道路上行驶情形的第一原始图像及与上述第一原始图像对应的第一分割地面实况(Ground Truth,GT)图像的步骤(S01);获得包含特定物体的第二原始图像及与上述第二原始图像对应的第二分割GT图像的步骤(S02);从上述第二原始图像及上述第二分割GT图像中切割对应上述特定物体的各个区域获得第三原始图像及第三分割GT图像的步骤(S03);对上述第三原始图像及上述第三分割GT图像分别进行各种变形生成变形的第三原始图像及变形的第三分割GT图像的步骤(S04);将上述变形的第三原始图像分别合成于上述第一原始图像的各种位置,将上述变形的第三分割GT图像合成于上述第一分割GT图像,以使上述变形的第三原始图像对应合成于上述第一原始图像的位置,从而生成包含学习用第四原始图像和与之对应的学习用第四分割GT图像的上述学习用数据集的步骤(S05);将上述第四原始图像输入至上述学习装置,对上述第四原始图像通过包含于上述学习装置的上述CNN应用多个运算以获得输出图像的步骤(S06);及通过比较上述输出图像和包含于上述学习用数据集的上述第四分割GT图像获得损失(loss)之后,通过反向传播(backpropagation)调整上述学习装置内的上述CNN的至少一个参数的步骤(S07)。这些过程可在生成上述学习用数据集的计算装置中执行。
在上述计算装置的通信部中执行:获得表示道路上行驶情形的上述第一原始图像及与之对应的上述第一分割GT图像,获得包含上述特定物体的图像的上述第二原始图像及包含上述特定物体的分割信息且对应上述第二原始图像的上述第二分割GT图像。在该计算装置的处理器中执行过程:(i)获得从上述第二原始图像中切割对应上述特定物体的部分生成的上述第三原始图像及从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的上述第三分割GT图像;及(ii)将上述第三原始图像合成于上述第一原始图像以生成上述学习用第四原始图像,将上述第三分割GT图像合成于上述第一分割GT图像,使上述第三原始图像对应合成于上述第一原始图像的一个特定位置,以生成上述学习用第四分割GT图像,从而生成包含上述学习用第四原始图像和与之对应的上述学习用第四分割GT图像的上述学习用数据集。
下面,结合图1及图2更具体说明根据本发明生成用于检测上述自动驾驶情形中的上述障碍物的上述学习用数据集的方法。首先,在S01步骤中,如图2的最上左侧图所示,从一般道路行驶图像数据库中选择上述第一原始图像,从上述道路行驶图像数据库对应的第一分割GT图像数据库中选择上述第一分割GT图像。
此时,在上述道路行驶图像数据库及与之对应的上述第一分割GT图像数据库中,包含各种道路行驶相关图像和分别与之对应的各种分割GT图像,而上述道路行驶图像数据库及上述第一分割GT图像数据库也可构成为一个数据库。此时,上述第一分割GT图像可以是包含上述第一原始图像上的各种事物的语义分割信息(Semantic SegmentationInformation)的图像,但只要至少包含对道路的分割信息就足可以成为上述第一分割GT图像。
然后,在上述S02步骤中,如图2的第二行的左侧图所示,从各种物体的按种类的原始图像数据库中,选择包含对上述特定物体的图像的上述第二原始图像(与上述第一原始图像不同,无需是道路行驶环境,一般为与道路行驶环境不同的环境),而如图2的第二行的右侧图所示,从对应上述各种物体的按种类的原始图像数据库的第二分割GT图像数据中,选择包含上述第二原始图像内的上述特定物体的分割信息且对应上述第二原始图像的上述第二分割GT图像。此时,上述第二分割GT图像数据库包含语义分割图像。
其中,上述各种物体的按种类的原始图像数据库和上述第二分割数据库也可构成为一个数据库,可以成对包括对牛、老虎、熊、长颈鹿、鳄鱼、狗、猫、人、鸟类等能够在道路上碰到的任意各种物体的图像和对其执行语义分割的GT图像。
然后,在上述S03步骤中,如图2的第三行的左侧图所示,从上述第二原始图像中切割对应上述特定物体的部分(例如,左侧牛的图像部分)生成上述第三原始图像,而如图2的第三行的右侧图所示,从上述第二分割GT图像中切割对应上述特定物体所处的位置的部分的像素生成上述第三分割GT图像。
此时,上述计算装置可首先从上述第二分割GT图像切割上述第三分割GT图像,基于切割生成的上述第三分割GT图像的像素信息,从上述第二原始图像中切割对应上述特定物体的部分生成上述第三原始图像。此时,上述计算装置使用通过利用上述第二分割GT图像的上述语义分割信息,从上述第二原始图像及上述第二分割GT图像中切割对应上述特定物体的部分的方法。具体而言,在上述第二分割GT图像中,参考对应上述第三分割GT图像部分的像素信息的上述第二原始图像内的上述像素的位置,获得上述第三原始图像。
再如图1所示,在上述S04步骤及上述S05步骤中,上述计算装置将上述第三原始图像合成于上述第一原始图像,并将第三分割GT图像合成于上述第一分割GT图像,以使上述第三原始图像合成于上述第一原始图像的对应位置。以这种方式生成上述学习用第四原始图像和与之对应的上述学习用第四分割GT图像。这样生成的上述学习用第四原始图像和上述学习用第四分割GT图像成为上述学习用数据集。
根据本发明的一实施例,上述计算装置利用相同的方式对上述第三原始图像及第三分割GT图像进行变形之后,可将上述变形的第三原始图像及变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。上述变形算法例如可以使用仿射变换(affine transform)算法及薄板样条插值(thin-plate spline interpolation)算法。另外,可通过改变上述第三原始图像及上述第三分割GT图像的大小,或按一定角度进行旋转,或左右翻转等方式对图像进行变形。另外,可通过重复上述过程的混合过程执行上述步骤,通过改变算法或应用于其上的详细参数,或更改变形的上述大小,或更改旋转角度,可以生成各种变形的第三原始图像及各种变形的第三分割GT图像。通过这种方式可生成多个不同的学习用第四原始图像及多个不同的学习用第四分割GT图像。即可从一个第一原始图像和一个第一分割GT图像及一个第三原始图像和一个第三分割GT图像,生成各种上述学习用第四原始图像及各种上述学习用第四分割GT图像。
另一方面,如上所述,在上述第一分割GT图像中包含上述道路的分割信息,因此,上述计算装置在上述第一原始图像内判断属于上述道路的部分之后,将上述第三原始图像合成于上述第一原始图像内的上述道路对应的区域,生成上述学习用第四原始图像。此时,可将上述第三原始图像合成于上述第一原始图像内的上述道路对应的区域中的任意位置,生成上述学习用第四原始图像。然后,将上述第一分割GT图像上合成上述第三分割GT图像,以使上述第一原始图像内的上述第三原始图像对应合成的上述任意位置,从而生成上述学习用第四分割GT图像。另外,在该步骤中,上述计算装置也可在持续改变上述道路对应的区域中上述任意位置的同时,多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程。通过这种方式,生成多个不同的学习用第四原始图像及多个不同的学习用第四分割GT图像。如上述重复变形算法那样,各种上述学习用第四原始图像及各种上述学习用第四分割GT图像,可从一个第一原始图像和一个第一分割GT图像及一个第三原始图像和一个第三分割GT图像生成。
然后,再如图1所示,本发明将上述合成的第四原始图像作为输入图像执行上述S06步骤及上述S07步骤。
图3为根据本发明的利用学习用数据集进行CNN图像分割的过程示意图。
如图3所示,若具体说明上述S06步骤及上述S07步骤,则从上述生成的学习用数据集中选择一对上述第四原始图像和上述第四分割GT图像之后,将上述选择的第四原始图像作为训练图像输入至CNN装置。输入上述训练图像之后,在多个卷积滤波器(或卷积层)中进行多次卷积运算获得特征图。然后,对最终生成的特征图即CONV.K的输出,在多个解卷积滤波器(或解卷积层)中进行多次解卷积运算获得分割图像。这样利用卷积运算对图像进行编码(encoding)获得上述特征图,解码(decoding)上述最终特征图即上述CONV.K的输出获得上述分割图像(或标签(label)图像)的上述CNN装置的结构称之为编码-解码网络或U-Net。在上述编码过程中,每当执行各卷积运算时,上述输入图像的大小例如减少至1/2,这是为了通过减少图像大小减少运算量。另外,在上述编码过程中,通过上述卷积滤波器输入的图像的通道数量在增加,这是为了在利用减少运算量的增益的同时,通过增加的通道获得复杂的图案。一般而言,在上述编码过程中,每当经过各个上述卷积滤波器时,上述图像大小减少至1/2,通道数增加至两倍。这样,减少的特征图去除了很多高频区域,具有低频区域为主的信息,而上述低频区域意味着图像的富有意义(meaningful)的部分,即天空、道路、建筑、汽车等详细的部分。通过上述解卷积运算即解码运算将上述富有意义的部分类推为上述分割图像。
另外,在上述执行CNN学习的过程中,计算上述损失,即(i)将上述第四原始图像输入为上述训练图像计算出的上述分割图像与(ii)上述第四分割GT图像的差异。另外,对上述计算的损失进行反向传播,进行优化上述CNN的上述参数的学习。
根据本发明,可以针对在自动驾驶情形时的实际道路上行驶情形下获得的影像数据中不容易获得的各种情形提供大量学习图像集,即针对各种物体存在于道路上的情形提供大量学习图像集。另外,由此具有对于在实际道路上行驶情形下不经常遇到的物体,也可通过CNN学习在自动驾驶情形下检测的效果。
本领域技术人员可理解,上述说明的图像,例如训练图像、测试图像等图形数据的收发可通过学习装置及测试装置的通信部完成,用于执行特征图和计算的数据可通过学习装置及测试装置的处理器(及/或存储器)保持/维护,卷积运算、解卷积运算、损失值计算过程可主要通过学习装置及测试装置的处理器执行,但本发明不限于此。
上述根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机组件执行,并且可以记录在计算机可读的记录媒介。上述计算机可读的记录媒介可以单独或组合地包含程序指令、数据文件、数据结构等。记录在上述计算机可读记录媒介的程序指令可以是为本发明特殊设计配置的,也可以是软件领域公开使用的。计算机可读记录媒介包括硬盘、软盘及磁带等磁性媒介、CD-ROM、DVD等光媒介、光磁软盘(Floptical Disk)等磁光媒介(Magneto-Optical Media)及ROM、RAM、闪存等可存储及执行程序指令的硬件设备。程序指令不仅包括编译器中产生的机器语言代码,而且还包括使用翻译器等在计算机中执行的高级语言代码。上述硬件设备可以被配置为由一个以上的软件模块操作以执行本发明的过程,反之亦然。
如上所述,通过具体的组件等特定事项和有限的实施例和附图对本发明进行了说明,而这只是为了帮助理解本发明所提供的,本发明不受上述事实的限制,本领域的普通技术人员应当理解,可以对本发明进行修改、变形或者等同替换。
上述实施例仅用以说明本发明而非限制,而在不脱离本发明的精神范围内,与权利要求书均等或等价的变化均应涵盖在本发明的权利要求范围中。
Claims (30)
1.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的方法,其特征在于,包括:
(a)步骤,计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与所述第一原始图像对应的至少一个第一分割地面实况图像;
(b)步骤,所述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像;
(c)步骤,所述计算装置获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割对应所述特定物体所处的部分的像素生成的至少一个第三分割地面实况图像;及
(d)步骤,所述计算装置通过执行以下过程:(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像,和(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像,使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的至少一个特定位置,以生成至少一个学习用第四分割地面实况图像,从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集。
2.根据权利要求1所述的方法,其特征在于,
所述(d)步骤,包括:
(d_1)步骤,所述计算装置利用相同的方式对所述第三原始图像及所述第三分割地面实况图像进行变形,以分别生成变形的第三原始图像及变形的第三分割地面实况图像;及
(d_2)步骤,所述计算装置将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像。
3.根据权利要求2所述的方法,其特征在于,
在所述(d_1)步骤中,所述计算装置利用仿射变换算法及薄板样条插值算法中的至少一种算法对所述第三原始图像及所述第三分割地面实况图像进行变形。
4.根据权利要求2所述的方法,其特征在于,
所述计算装置在改变应用于所述(d_1)步骤的算法及其详细参数中的至少一部分的同时,重复执行所述(d_1)步骤及所述(d_2)步骤,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
5.根据权利要求1所述的方法,其特征在于,
从各种道路行驶图像数据库及与之对应的分割地面实况图像数据库中分别选择所述第一原始图像及所述第一分割地面实况图像;
从各种物体的按种类的原始图像数据库及与之对应的语义分割地面实况图像数据库中分别选择所述第二原始图像及所述第二分割地面实况图像。
6.根据权利要求5所述的方法,其特征在于,
在所述(c)步骤中,所述计算装置利用所述第二分割地面实况图像的语义分割信息,从所述第二原始图像及所述第二分割地面实况图像中切割所述特定物体。
7.根据权利要求6所述的方法,其特征在于,
在所述(c)步骤中,所述计算装置(i)在所述第二分割地面实况图像内切割对所述特定物体具有语义分割信息的区域,以获得所述第三分割地面实况图像,(ii)参考与所述第二分割地面实况图像内的所述第三分割地面实况图像的像素信息对应的所述第二原始图像内的像素位置获得所述第三原始图像。
8.根据权利要求1所述的方法,其特征在于,
在所述(d)步骤中,所述计算装置(i)在所述第一原始图像内判断对应道路的部分之后,将所述第三原始图像合成于所述第一原始图像,使得所述第三原始图像对应于所述对应道路的部分内的任意位置,以生成所述学习用第四原始图像,(ii)将第三分割地面实况图像合成于所述第一分割地面实况图像,使得所述第三分割地面实况图像对应于所述第一原始图像中的所述任意位置,从而生成所述学习用第四分割地面实况图像。
9.根据权利要求8所述的方法,其特征在于,
在所述(d)步骤中,所述计算装置在改变所述任意位置的同时,多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
10.根据权利要求1所述的方法,其特征在于,
所述第一分割地面实况图像包含所述道路的分割信息。
11.一种通过卷积神经网络的学习方法,包括:
(a)步骤,在执行下述过程的状态下,学习装置接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入:(I)过程,计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与所述第一原始图像对应的至少一个第一分割地面实况图像;(II)过程,所述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像;(III)过程,所述计算装置获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割与所述特定物体所处的部分对应的像素生成的至少一个第三分割地面实况图像;及(IV)过程,所述计算装置(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像,(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像,使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的的至少一个特定位置,以生成至少一个学习用第四分割地面实况图像,从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集;及
(b)步骤,所述学习装置对所述学习用第四原始图像应用所述卷积神经网络的多次运算以获得输出图像,比较所述输出图像和所述第四分割地面实况图像之后,通过反向传播调整所述学习装置的参数。
12.根据权利要求11所述的学习方法,其特征在于,
在所述(IV)过程中,所述计算装置执行:(IV_1)过程,利用相同的方式对所述第三原始图像及第三分割地面实况图像进行变形,以分别生成变形的第三原始图像及变形的第三分割地面实况图像;(IV_2)过程,将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像。
13.根据权利要求12所述的学习方法,其特征在于,
所述计算装置在改变应用于所述(IV_1)过程的算法及其详细参数中的至少一部分的同时,重复执行所述(IV_1)过程及所述(IV_2)过程,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
14.根据权利要求11所述的学习方法,其特征在于,
在所述(IV)过程中,所述计算装置(i)在所述第一原始图像内判断对应道路的部分之后,将所述第三原始图像合成于所述第一原始图像,使得所述第三原始图像对应于所述第一原始图像中对应所述道路的部分内的任意位置,以生成所述学习用第四原始图像,(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像,使得所述第三分割地面实况图像对应于所述第一原始图像中的所述任意位置,从而生成所述学习用第四分割地面实况图像。
15.根据权利要求14所述的学习方法,其特征在于,
在所述(IV)过程中,所述计算装置在改变所述任意位置的同时,多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
16.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的计算装置,其特征在于,包括:
通信部,用于获得(i-1)表示道路上行驶情形的至少一个第一原始图像及(i-2)与所述第一原始图像对应的至少一个第一分割地面实况图像,获得(ii-1)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像;
处理器,用于执行下述过程:(I)过程,获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割与所述特定物体所处的部分对应的像素生成的至少一个第三分割地面实况图像;及(II)过程,(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像,(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像,使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的至少一个特定位置,以生成至少一个学习用第四分割地面实况图像,从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集。
17.根据权利要求16所述的计算装置,其特征在于,
在所述(II)过程中,所述处理器执行:(II_1)过程,利用相同的方式对所述第三原始图像及第三分割地面实况图像进行变形,以分别生成变形的第三原始图像及变形的第三分割地面实况图像的过程;(II_2)过程,将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像的过程。
18.根据权利要求17所述的计算装置,其特征在于,
在所述(II_1)过程中,所述处理器利用仿射变换算法及薄板样条插值算法中的至少一种算法对所述第三原始图像及所述第三分割地面实况图像进行变形。
19.根据权利要求17所述的计算装置,其特征在于,
所述处理器在改变应用于所述(II_1)过程的算法及其详细参数中的至少一部分的同时,重复执行所述(II_1)过程及所述(II_2)过程,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
20.根据权利要求16所述的计算装置,其特征在于,
从各种道路行驶图像数据库及与之对应的分割地面实况图像数据库中分别选择所述第一原始图像及所述第一分割地面实况图像;
从各种物体的按种类的原始图像数据库及与之对应的语义分割地面实况图像数据库中分别选择所述第二原始图像及所述第二分割地面实况图像。
21.根据权利要求20所述的计算装置,其特征在于,
在所述(I)过程中,所述处理器利用所述第二分割地面实况图像的语义分割信息,从所述第二原始图像及所述第二分割地面实况图像中切割所述特定物体。
22.根据权利要求21所述的计算装置,其特征在于,
在所述(I)过程中,所述处理器(i)在所述第二分割地面实况图像内切割对所述特定物体具有语义分割信息的区域,以获得所述第三分割地面实况图像,(ii)参考与所述第二分割地面实况图像内的所述第三分割地面实况图像的像素信息对应的所述第二原始图像内的像素位置获得所述第三原始图像。
23.根据权利要求16所述的计算装置,其特征在于,
在所述(II)过程中,所述处理器(i)在所述第一原始图像内判断对应道路的部分之后,将所述第三原始图像合成于在所述第一原始图像中对应所述道路的部分的任意位置,以生成所述学习用第四原始图像,(ii)在所述第一分割地面实况图像上合成所述第三分割地面实况图像,以对应所述第一原始图像中的所述任意位置,从而生成所述学习用第四分割地面实况图像。
24.根据权利要求20所述的计算装置,其特征在于,
在所述(II)过程中,所述处理器在改变所述任意位置的同时,多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
25.根据权利要求16所述的计算装置,其特征在于,
所述第一分割地面实况图像包含所述道路的分割信息。
26.一种通过卷积神经网络进行学习的学习装置,其特征在于,包括:
通信部,用于在执行下述过程的状态下,接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入:(I)过程,计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与所述第一原始图像对应的至少一个第一分割地面实况图像;(II)过程,所述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像;(III)过程,所述计算装置获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割与所述特定物体所处的部分对应的像素生成的至少一个第三分割地面实况图像;及(IV)过程,所述计算装置(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像,(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像,使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的的至少一个特定位置,以生成至少一个学习用第四分割地面实况图像,从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集;及
处理器,用于对所述学习用第四原始图像应用所述卷积神经网络的多次运算以获得输出图像,比较所述输出图像和所述第四分割地面实况图像之后,通过反向传播调整所述学习装置的参数。
27.根据权利要求26所述的学习装置,其特征在于,
在由所述计算装置执行的所述(IV)过程中,所述计算装置执行:(IV_1)过程,所述计算装置利用相同的方式对所述第三原始图像及第三分割地面实况图像进行变形,以分别生成变形的第三原始图像及变形的第三分割地面实况图像;(IV_2)过程,将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像。
28.根据权利要求27所述的学习装置,其特征在于,
所述计算装置在改变应用于所述(IV_1)过程的算法及其详细参数中的至少一部分的同时,重复执行所述(IV_1)过程及所述(IV_2)过程,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
29.根据权利要求26所述的学习装置,其特征在于,
在由所述计算装置执行的所述(IV)过程中,所述计算装置(i)在所述第一原始图像内判断对应道路的部分之后,将所述第三原始图像合成于在所述第一原始图像,使得所述第三原始图像对应于所述第一原始图像中对应所述道路的部分内的任意位置,以生成所述学习用第四原始图像,(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像,使得所述第三分割地面实况图像对应于所述第一原始图像中的所述任意位置,从而生成所述学习用第四分割地面实况图像。
30.根据权利要求29所述的学习装置,其特征在于,
在由所述计算装置执行的所述(IV)过程中,所述计算装置在改变所述任意位置的同时,多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程,以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/120,623 | 2018-09-04 | ||
US16/120,623 US10565476B1 (en) | 2018-09-04 | 2018-09-04 | Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110874566A true CN110874566A (zh) | 2020-03-10 |
CN110874566B CN110874566B (zh) | 2023-07-25 |
Family
ID=66589180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910809691.2A Active CN110874566B (zh) | 2018-09-04 | 2019-08-29 | 生成数据集的方法及装置、利用其的学习方法及学习装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10565476B1 (zh) |
EP (1) | EP3620954A1 (zh) |
JP (1) | JP6793411B2 (zh) |
KR (1) | KR102286755B1 (zh) |
CN (1) | CN110874566B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10762393B2 (en) * | 2019-01-31 | 2020-09-01 | StradVision, Inc. | Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same |
CN113225613B (zh) * | 2020-01-21 | 2022-07-08 | 北京达佳互联信息技术有限公司 | 图像识别、视频直播方法和装置 |
EP3965052B1 (en) * | 2020-09-04 | 2023-08-16 | Robert Bosch GmbH | Device and method of training a generative neural network |
KR102345799B1 (ko) * | 2021-02-23 | 2021-12-31 | 인그래디언트 주식회사 | Cnn 기반의 자동 라벨 마스크 교정 방법 및 이를 이용한 시스템 |
CN113269130B (zh) * | 2021-06-11 | 2024-08-06 | 国电瑞源(西安)智能研究院有限公司 | 一种基于人工神经网络的视觉路径搜寻方法 |
KR102354681B1 (ko) * | 2021-11-08 | 2022-01-24 | 주식회사 테스트웍스 | 신경망 모델 기반의 이미지 증강 방법, 서버 및 컴퓨터 프로그램 |
US20230386163A1 (en) * | 2022-05-28 | 2023-11-30 | Orbital Insight, Inc. | Object Level Data Augmentation Scheme for Training Object Detectors |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070031037A1 (en) * | 2005-08-02 | 2007-02-08 | Microsoft Corporation | Stereo image segmentation |
US20170213112A1 (en) * | 2016-01-25 | 2017-07-27 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
US9947103B1 (en) * | 2017-10-03 | 2018-04-17 | StradVision, Inc. | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
US10007865B1 (en) * | 2017-10-16 | 2018-06-26 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05303645A (ja) * | 1992-04-28 | 1993-11-16 | Toshiba Corp | 画像認識装置 |
US20130063487A1 (en) * | 2011-09-12 | 2013-03-14 | MyChic Systems Ltd. | Method and system of using augmented reality for applications |
WO2015134996A1 (en) * | 2014-03-07 | 2015-09-11 | Pelican Imaging Corporation | System and methods for depth regularization and semiautomatic interactive matting using rgb-d images |
US9141883B1 (en) * | 2015-05-11 | 2015-09-22 | StradVision, Inc. | Method, hard negative proposer, and classifier for supporting to collect hard negative images using a similarity map |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
US9767381B2 (en) * | 2015-09-22 | 2017-09-19 | Xerox Corporation | Similarity-based detection of prominent objects using deep CNN pooling layers as features |
US10019652B2 (en) * | 2016-02-23 | 2018-07-10 | Xerox Corporation | Generating a virtual world to assess real-world video analysis performance |
US11144889B2 (en) * | 2016-04-06 | 2021-10-12 | American International Group, Inc. | Automatic assessment of damage and repair costs in vehicles |
US20170337682A1 (en) * | 2016-05-18 | 2017-11-23 | Siemens Healthcare Gmbh | Method and System for Image Registration Using an Intelligent Artificial Agent |
WO2018015414A1 (en) * | 2016-07-21 | 2018-01-25 | Siemens Healthcare Gmbh | Method and system for artificial intelligence based medical image segmentation |
US10019655B2 (en) * | 2016-08-31 | 2018-07-10 | Adobe Systems Incorporated | Deep-learning network architecture for object detection |
JP6548690B2 (ja) * | 2016-10-06 | 2019-07-24 | 株式会社アドバンスド・データ・コントロールズ | シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法 |
US10095977B1 (en) * | 2017-10-04 | 2018-10-09 | StradVision, Inc. | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
US11080886B2 (en) * | 2017-11-15 | 2021-08-03 | Qualcomm Incorporated | Learning disentangled invariant representations for one shot instance recognition |
US10535138B2 (en) * | 2017-11-21 | 2020-01-14 | Zoox, Inc. | Sensor data segmentation |
-
2018
- 2018-09-04 US US16/120,623 patent/US10565476B1/en active Active
-
2019
- 2019-04-25 EP EP19171092.0A patent/EP3620954A1/en active Pending
- 2019-08-27 KR KR1020190105465A patent/KR102286755B1/ko active IP Right Grant
- 2019-08-29 CN CN201910809691.2A patent/CN110874566B/zh active Active
- 2019-09-03 JP JP2019160648A patent/JP6793411B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070031037A1 (en) * | 2005-08-02 | 2007-02-08 | Microsoft Corporation | Stereo image segmentation |
US20170213112A1 (en) * | 2016-01-25 | 2017-07-27 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
US9947103B1 (en) * | 2017-10-03 | 2018-04-17 | StradVision, Inc. | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
US10007865B1 (en) * | 2017-10-16 | 2018-06-26 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same |
Non-Patent Citations (4)
Title |
---|
DEBIDATTA DWIBEDI等: "Cut, Paste and Learn: Surprisingly Easy Synthesis for Instance Detection", 《ARXIV:1708.01642V1[CS.CV]》 * |
DEBIDATTA DWIBEDI等: "Cut, Paste and Learn: Surprisingly Easy Synthesis for Instance Detection", 《ARXIV:1708.01642V1[CS.CV]》, 4 August 2017 (2017-08-04), pages 1 - 7 * |
HASSAN ABU ALHAIJA等: "Augmented Reality Meets Computer Vision: Efficient Data Generation for Urban Driving Scenes", 《ARXIV:1708.01566V1[CS.CV]》 * |
HASSAN ABU ALHAIJA等: "Augmented Reality Meets Computer Vision: Efficient Data Generation for Urban Driving Scenes", 《ARXIV:1708.01566V1[CS.CV]》, 4 August 2017 (2017-08-04), pages 1 - 5 * |
Also Published As
Publication number | Publication date |
---|---|
EP3620954A1 (en) | 2020-03-11 |
JP2020038666A (ja) | 2020-03-12 |
JP6793411B2 (ja) | 2020-12-02 |
CN110874566B (zh) | 2023-07-25 |
KR20200027425A (ko) | 2020-03-12 |
KR102286755B1 (ko) | 2021-08-09 |
US10565476B1 (en) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874566A (zh) | 生成数据集的方法及装置、利用其的学习方法及学习装置 | |
KR102279350B1 (ko) | 자율 주행 상황에서 장애물 검출을 위한 cnn 학습용 이미지 데이터 세트의 생성 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
JP6853560B2 (ja) | 高精度イメージを分析するディープラーニングネットワークの学習に利用するためのトレーニングイメージをオートラベリングするための方法、及びこれを利用したオートラベリング装置{method for auto−labeling training images for use in deep learning network to analyze images with high precision, and auto−labeling device using the same} | |
CN110874563B (zh) | 通过cnn的多个图像输出的提供集成的特征图的方法及装置 | |
CN111507460B (zh) | 为了提供自动停车系统检测停车空间的方法和装置 | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
KR102144381B1 (ko) | 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치 | |
US10325352B1 (en) | Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization | |
CN114120102A (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN110879960B (zh) | 生成卷积神经网络学习用图像数据集的方法及计算装置 | |
CN117079139B (zh) | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 | |
US20220398737A1 (en) | Medical image segmentation method based on u-network | |
CN112288750A (zh) | 一种基于深度学习网络的机械装配体图像分割方法和设备 | |
CN111476247B (zh) | 利用了1xK或Kx1卷积运算的CNN方法及装置 | |
CN116664605B (zh) | 基于扩散模型和多模态融合的医学图像肿瘤分割方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN116934780B (zh) | 一种基于深度学习的电成像测井图像裂缝分割方法及系统 | |
CN115578418A (zh) | 一种基于双重注意力网络的单目标跟踪方法 | |
US11074507B1 (en) | Method for performing adjustable continual learning on deep neural network model by using selective deep generative replay module and device using the same | |
EP3690706A1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image | |
US20230245319A1 (en) | Image processing apparatus, image processing method, learning device, learning method, and program | |
KR102691077B1 (ko) | 퓨-샷 세그멘테이션 방법 및 그 장치 | |
CN116563538B (zh) | 图像分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |