CN110874566A

CN110874566A - 生成数据集的方法及装置、利用其的学习方法及学习装置

Info

Publication number: CN110874566A
Application number: CN201910809691.2A
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 呂东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2018-09-04
Filing date: 2019-08-29
Publication date: 2020-03-10
Anticipated expiration: 2039-08-29
Also published as: EP3620954A1; JP2020038666A; JP6793411B2; CN110874566B; KR20200027425A; KR102286755B1; US10565476B1

Abstract

本发明涉及生成用于检测自动驾驶情形中的障碍物的学习用图像数据集的方法及计算装置、利用其的学习方法及学习装置，所述方法包括：由计算装置(a)获得表示道路上行驶情形的至少一个第一原始图像及与第一原始图像对应的至少一个第一分割GT图像；(b)获得包含至少一个特定物体图像的至少一个第二原始图像及包含特定物体的分割信息并对应第二原始图像的至少一个第二分割GT图像；(c)获得切割对应特定物体的部分生成的第三原始图像及切割对应特定物体所处部分的像素生成的第三分割GT图像；及(d)将第三原始图像合成于第一原始图像，以生成至少一个第四分割GT图像，从而生成包含第四原始图像和与之对应的第四分割GT图像的数据集。

Description

生成数据集的方法及装置、利用其的学习方法及学习装置

技术领域

本发明涉及涉及生成用于检测自动驾驶情形中的上述障碍物的上述学习用数据集的方法及计算装置、利用其的学习方法及学习装置。

背景技术

深度卷积神经网络(Deep Convolutional Neural Network；Deep CNN)是深度学习领域发生惊人发展的核心。CNN在90年代已用于解决文字识别问题，但如现在这样被广泛使用得益于最近的研究结果。上述深度CNN在2012年的ImageNet图像分类竞赛中力压竞争对手获得冠军。之后卷积神经网络在机器学习(Machine Learning)领域中成为非常有用的工具。

另外，图像分割(Image segmentation)是作为输入接收图像(训练图像或测试图像)，作为输出创建标签(label)的方法。近来随着深度学习(Deep learning)技术备受关注，图像分割也趋于更多地使用深度学习。

另外，为了检测自动驾驶情形中的障碍物而学习CNN时，学习装置需要学习在自动驾驶情形下有可能遇到的各种物体，为此学习用图像必须是包含自动驾驶情形中可能遇到的各种物体的图像。

虽然在实际行驶情形下，道路上存在各种物体，但收集上述数据并非易事。即难以从一般行驶影像数据中获得针对道路上不常出现的特殊物体的学习图像。例如，通过一般行驶影像数据较容易获得针对人或自行车、车辆等图像数据，因此为提高检测性能可通过包含这些物体的图像进行学习，但是通过一般行驶影像数据较难获得针对老虎或鳄鱼等图像数据，因此存在不容易进行为提高对特殊物体的检测性能的学习的问题。

发明内容

本发明的目的在于解决上述的问题。

本发明的另一目的在于确保学习用图像集以用于提高检测物体的性能，该物体在自动驾驶情形中的实际道路上行驶情形下，通常是不容易遇到的。

本发明的又一目的在于提供一种学习方法，该学习方法能够通过使用学习用数据集学习CNN的参数来精确地检测在实际道路驾驶情形下通常不容易遇到的物体。

为实现上述本发明的目的以及下述本发明的特征效果，本发明的特征构成如下。

根据本发明的一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的方法，上述方法包括：(a)步骤，计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与上述第一原始图像对应的至少一个第一分割GT(ground truth)图像；(b)步骤，上述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像；(c)步骤，上述计算装置获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像；及(d)步骤，上述计算装置(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像，(ii)将上述第三分割GT图像合成于上述第一分割GT图像，使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的至少一个特定位置，以生成至少一个学习用第四分割GT图像，从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集。

在一实施例中，上述(d)步骤，包括：(d_1)步骤，上述计算装置利用相同的方式对上述第三原始图像及第三分割GT图像进行变形，以分别生成变形的第三原始图像及变形的第三分割GT图像；及(d_1)步骤，上述计算装置将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。

在一实施例中，在上述(d_1)步骤中，上述计算装置利用仿射变换(affinetransform)算法及薄板样条插值(thin-plate spline interpolation)算法中的至少一种算法对上述第三原始图像及上述第三分割GT图像进行变形。

在一实施例中，上述计算装置在改变应用于上述(d_1)步骤的算法及其详细参数中的至少一部分的同时，重复执行上述(d_1)步骤及上述(d_2)步骤，以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。

在一实施例中，从各种道路行驶图像数据库及与之对应的分割GT图像数据库中分别选择上述第一原始图像及上述第一分割GT图像；从各种物体的按种类的原始图像数据库及与之对应的语义(semantic)分割GT图像数据库中分别选择上述第二原始图像及上述第二分割GT图像。

在一实施例中，在上述(c)步骤中，上述计算装置利用上述第二分割GT图像的语义分割信息，从上述第二原始图像及上述第二分割GT图像中切割上述特定物体。

在一实施例中，在上述(c)步骤中，上述计算装置(i)在上述第二分割GT图像内切割对上述特定物体具有语义分割信息的区域，以获得上述第三分割GT图像，(ii)参考上述第二分割GT图像内的上述第三分割GT图像的像素信息对应的上述第二原始图像内的像素位置获得上述第三原始图像。

在一实施例中，在上述(d)步骤中，上述计算装置(i)在上述第一原始图像内判断对应道路的部分之后，将上述第三原始图像合成于上述第一原始图像，使得上述第三原始图像对应于上述对应道路的部分内的任意位置，以生成上述学习用第四原始图像，(ii)将第三分割GT图像合成于上述第一分割GT图像，使得上述第三分割GT图像对应于上述第一原始图像中的上述任意位置，从而生成上述学习用第四分割GT图像。

在一实施例中，在上述(d)步骤中，上述计算装置在改变上述任意位置的同时，多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程，以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。

在一实施例中，上述第一分割GT图像包含上述道路的分割信息。

根据本发明的另一方面提供了一种通过CNN(Convolutional Neural Network)的学习方法，上述学习方法包括：(a)步骤，在执行下述过程的状态下，学习装置接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入：(I)过程，计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与上述第一原始图像对应的至少一个第一分割GT图像；(II)过程，上述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像；(III)过程，上述计算装置获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像；及(IV)过程，上述计算装置(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像，(ii)将上述第三分割GT图像合成于上述第一分割GT图像，使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的的至少一个特定位置，以生成至少一个学习用第四分割GT图像，从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集；及(b)步骤，上述学习装置对上述学习用第四原始图像应用上述CNN的多次运算以获得输出图像，比较上述输出图像和上述第四分割GT图像之后，通过反向传播(backpropagation)调整上述学习装置的参数。

在一实施例中，在上述(IV)过程中，上述计算装置执行：(IV_1)过程，利用相同的方式对上述第三原始图像及第三分割GT图像进行变形，以分别生成变形的第三原始图像及变形的第三分割GT图像；(IV_2)过程，将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。

在一实施例中，上述计算装置在改变应用于上述(IV_1)过程的算法及其详细参数中的至少一部分的同时，重复执行上述(IV_1)过程及上述(IV_2)过程，以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。

在一实施例中，在上述(IV)过程中，上述计算装置(i)在上述第一原始图像内判断对应道路的部分之后，将上述第三原始图像合成于上述第一原始图像，使得上述第三原始图像对应于上述第一原始图像中对应上述道路的部分内的任意位置，以生成上述学习用第四原始图像，(ii)将上述第三分割GT图像合成于上述第一分割GT图像，使得上述第三分割GT图像对应于上述第一原始图像中的上述任意位置，从而生成上述学习用第四分割GT图像。

在一实施例中，在上述(IV)过程中，上述计算装置在改变上述任意位置的同时，多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程，以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。

根据本发明的又一方面提供了一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的计算装置，上述计算装置包括：通信部，用于获得(i-1)表示道路上行驶情形的至少一个第一原始图像及(i-2)与上述第一原始图像对应的至少一个第一分割GT图像，获得(ii-1)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像；处理器，用于执行下述过程：(I)过程，获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像；及(II)过程，(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像，(ii)将上述第三分割GT图像合成于上述第一分割GT图像，使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的至少一个特定位置，以生成至少一个学习用第四分割GT图像，从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集。

在一实施例中，在上述(II)过程中，上述处理器执行：(II_1)过程，利用相同的方式对上述第三原始图像及第三分割GT图像进行变形，以分别生成变形的第三原始图像及变形的第三分割GT图像的过程；(II_2)过程，将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像的过程。

在一实施例中，在上述(II_1)过程中，上述处理器利用仿射变换算法及薄板样条插值算法中的至少一种算法对上述第三原始图像及上述第三分割GT图像进行变形。

在一实施例中，上述处理器在改变应用于上述(II_1)过程的算法及其详细参数中的至少一部分的同时，重复执行上述(II_1)过程及上述(II_2)过程，以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。

在一实施例中，从各种道路行驶图像数据库及与之对应的分割GT图像数据库中分别选择上述第一原始图像及上述第一分割GT图像；从各种物体的按种类的原始图像数据库及与之对应的语义分割GT图像数据库中分别选择上述第二原始图像及上述第二分割GT图像。

在一实施例中，在上述(I)过程中，上述处理器利用上述第二分割GT图像的语义分割信息，从上述第二原始图像及上述第二分割GT图像中切割上述特定物体。

在一实施例中，在上述(I)过程中，上述处理器(i)在上述第二分割GT图像内切割对上述特定物体具有语义分割信息的区域，以获得上述第三分割GT图像，(ii)参考与上述第二分割GT图像内的上述第三分割GT图像的像素信息对应的上述第二原始图像内的像素位置获得上述第三原始图像。

在一实施例中，在上述(II)过程中，上述处理器(i)在上述第一原始图像内判断对应道路的部分之后，将上述第三原始图像合成于在上述第一原始图像中对应上述道路的部分的任意位置，以生成上述学习用第四原始图像，(ii)在上述第一分割GT图像上合成上述第三分割GT图像，以对应上述第一原始图像中的上述任意位置，从而生成上述学习用第四分割GT图像。

在一实施例中，在上述(II)过程中，上述处理器在改变上述任意位置的同时，多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程，以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。

根据本发明的又一方面提供了一种通过CNN(Convolutional Neural Network)进行学习的学习装置，上述学习装置包括：通信部，用于在执行下述过程的状态下，接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入：(I)过程，计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与上述第一原始图像对应的至少一个第一分割GT图像；(II)过程，上述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含上述特定物体的分割信息且对应上述第二原始图像的至少一个第二分割GT图像；(III)过程，上述计算装置获得(i)从上述第二原始图像中切割对应上述特定物体的部分生成的至少一个第三原始图像及(ii)从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的至少一个第三分割GT图像；及(IV)过程，上述计算装置(i)将上述第三原始图像合成于上述第一原始图像以生成至少一个学习用第四原始图像，(ii)将上述第三分割GT图像合成于上述第一分割GT图像，使得上述第三分割GT图像对应于将上述第三原始图像合成于上述第一原始图像的的至少一个特定位置，以生成至少一个学习用第四分割GT图像，从而生成包含上述学习用第四原始图像和与上述学习用第四原始图像对应的上述学习用第四分割GT图像的上述学习用数据集；及处理器，用于对上述学习用第四原始图像应用上述CNN的多次运算以获得输出图像，比较上述输出图像和上述第四分割GT图像之后，通过反向传播(backpropagation)调整上述学习装置的参数。

在一实施例中，在由上述计算装置执行的上述(IV)过程中，上述计算装置执行：(IV_1)过程，上述计算装置利用相同的方式对上述第三原始图像及第三分割GT图像进行变形，以分别生成变形的第三原始图像及变形的第三分割GT图像；(IV_2)过程，将上述变形的第三原始图像及上述变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。

在一实施例中，在由上述计算装置执行的上述(IV)过程中，上述计算装置(i)在上述第一原始图像内判断对应道路的部分之后，将上述第三原始图像合成于上述第一原始图像，使得上述第三原始图像对应于上述第一原始图像中对应上述道路的部分内的任意位置，以生成上述学习用第四原始图像，(ii)将上述第三分割GT图像合成于上述第一分割GT图像，使得上述第三分割GT图像对应于上述第一原始图像中的上述任意位置，从而生成上述学习用第四分割GT图像。

在一实施例中，在由上述计算装置执行的上述(IV)过程中，上述计算装置在改变上述任意位置的同时，多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程，以生成多个不同的上述学习用第四原始图像及多个不同的上述学习用第四分割GT图像。

本发明具有如下发明效果。

根据本发明可以确保学习用图像集以用于提高检测物体的性能，该物体在自动驾驶情形中的实际道路上行驶情形下通常是不容易遇到的。

根据本发明可以提供一种学习方法，该学习方法能够通过使用学习用数据集作为训练图像，学习CNN(Convolutional Neural Network)的参数来精确地检测在实际道路驾驶情形下通常不容易遇到的物体。

附图说明

本发明的上述及其他目的及特征，可通过结合如下附图进行说明的较佳实施例而更加清楚。

图1为根据本发明生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集并通过其完成学习的方法的流程图；

图2为根据本发明生成上述学习用数据集的过程示意图；

图3为根据本发明利用获得的学习用数据集进行CNN(Convolutional NeuralNetwork)图像分割的过程示意图。

具体实施方式

下面参照附图对本发明进行详细说明，附图示出了可实施本发明的特定实施例的示例。详细说明这些实施例以使本领域技术人员能够充分理解。应理解本发明的各种实施例虽然不同，但无相互排他性。例如，在此所记载的一实施例中的特定形状、结构及特性，在不脱离本发明的精神和范围的前提下，可通过其他实施例实现。另外，在不超出本发明的精神和范围的前提下，也可以对各实施例中的各构成要素的位置或布置进行变更。因此，将要后述的详细说明不构成对本发明范围的限定，在适当说明的情况下，本发明的范围仅由所附权利要求书以及权利要求所赋予的等同物的全部范围来限定。在附图中，相似的附图标记从各个层面表示相同或类似的构成要素。

下面，结合附图对本发明的较佳实施例进行详细说明，以帮助本领域技术人员更好地理解本发明。

图1为根据本发明生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集并通过其完成CNN(Convolutional Neural Network)学习的方法的流程图，而图2为根据本发明生成上述学习用数据集的过程示意图。

如图1及图2所示，根据本发明生成用于检测自动驾驶情形中的上述障碍物的上述学习用数据集的方法包括：获得表示道路上行驶情形的第一原始图像及与上述第一原始图像对应的第一分割地面实况(Ground Truth，GT)图像的步骤(S01)；获得包含特定物体的第二原始图像及与上述第二原始图像对应的第二分割GT图像的步骤(S02)；从上述第二原始图像及上述第二分割GT图像中切割对应上述特定物体的各个区域获得第三原始图像及第三分割GT图像的步骤(S03)；对上述第三原始图像及上述第三分割GT图像分别进行各种变形生成变形的第三原始图像及变形的第三分割GT图像的步骤(S04)；将上述变形的第三原始图像分别合成于上述第一原始图像的各种位置，将上述变形的第三分割GT图像合成于上述第一分割GT图像，以使上述变形的第三原始图像对应合成于上述第一原始图像的位置，从而生成包含学习用第四原始图像和与之对应的学习用第四分割GT图像的上述学习用数据集的步骤(S05)；将上述第四原始图像输入至上述学习装置，对上述第四原始图像通过包含于上述学习装置的上述CNN应用多个运算以获得输出图像的步骤(S06)；及通过比较上述输出图像和包含于上述学习用数据集的上述第四分割GT图像获得损失(loss)之后，通过反向传播(backpropagation)调整上述学习装置内的上述CNN的至少一个参数的步骤(S07)。这些过程可在生成上述学习用数据集的计算装置中执行。

在上述计算装置的通信部中执行：获得表示道路上行驶情形的上述第一原始图像及与之对应的上述第一分割GT图像，获得包含上述特定物体的图像的上述第二原始图像及包含上述特定物体的分割信息且对应上述第二原始图像的上述第二分割GT图像。在该计算装置的处理器中执行过程：(i)获得从上述第二原始图像中切割对应上述特定物体的部分生成的上述第三原始图像及从上述第二分割GT图像中切割对应上述特定物体所处的部分的像素生成的上述第三分割GT图像；及(ii)将上述第三原始图像合成于上述第一原始图像以生成上述学习用第四原始图像，将上述第三分割GT图像合成于上述第一分割GT图像，使上述第三原始图像对应合成于上述第一原始图像的一个特定位置，以生成上述学习用第四分割GT图像，从而生成包含上述学习用第四原始图像和与之对应的上述学习用第四分割GT图像的上述学习用数据集。

下面，结合图1及图2更具体说明根据本发明生成用于检测上述自动驾驶情形中的上述障碍物的上述学习用数据集的方法。首先，在S01步骤中，如图2的最上左侧图所示，从一般道路行驶图像数据库中选择上述第一原始图像，从上述道路行驶图像数据库对应的第一分割GT图像数据库中选择上述第一分割GT图像。

此时，在上述道路行驶图像数据库及与之对应的上述第一分割GT图像数据库中，包含各种道路行驶相关图像和分别与之对应的各种分割GT图像，而上述道路行驶图像数据库及上述第一分割GT图像数据库也可构成为一个数据库。此时，上述第一分割GT图像可以是包含上述第一原始图像上的各种事物的语义分割信息(Semantic SegmentationInformation)的图像，但只要至少包含对道路的分割信息就足可以成为上述第一分割GT图像。

然后，在上述S02步骤中，如图2的第二行的左侧图所示，从各种物体的按种类的原始图像数据库中，选择包含对上述特定物体的图像的上述第二原始图像(与上述第一原始图像不同，无需是道路行驶环境，一般为与道路行驶环境不同的环境)，而如图2的第二行的右侧图所示，从对应上述各种物体的按种类的原始图像数据库的第二分割GT图像数据中，选择包含上述第二原始图像内的上述特定物体的分割信息且对应上述第二原始图像的上述第二分割GT图像。此时，上述第二分割GT图像数据库包含语义分割图像。

其中，上述各种物体的按种类的原始图像数据库和上述第二分割数据库也可构成为一个数据库，可以成对包括对牛、老虎、熊、长颈鹿、鳄鱼、狗、猫、人、鸟类等能够在道路上碰到的任意各种物体的图像和对其执行语义分割的GT图像。

然后，在上述S03步骤中，如图2的第三行的左侧图所示，从上述第二原始图像中切割对应上述特定物体的部分(例如，左侧牛的图像部分)生成上述第三原始图像，而如图2的第三行的右侧图所示，从上述第二分割GT图像中切割对应上述特定物体所处的位置的部分的像素生成上述第三分割GT图像。

此时，上述计算装置可首先从上述第二分割GT图像切割上述第三分割GT图像，基于切割生成的上述第三分割GT图像的像素信息，从上述第二原始图像中切割对应上述特定物体的部分生成上述第三原始图像。此时，上述计算装置使用通过利用上述第二分割GT图像的上述语义分割信息，从上述第二原始图像及上述第二分割GT图像中切割对应上述特定物体的部分的方法。具体而言，在上述第二分割GT图像中，参考对应上述第三分割GT图像部分的像素信息的上述第二原始图像内的上述像素的位置，获得上述第三原始图像。

再如图1所示，在上述S04步骤及上述S05步骤中，上述计算装置将上述第三原始图像合成于上述第一原始图像，并将第三分割GT图像合成于上述第一分割GT图像，以使上述第三原始图像合成于上述第一原始图像的对应位置。以这种方式生成上述学习用第四原始图像和与之对应的上述学习用第四分割GT图像。这样生成的上述学习用第四原始图像和上述学习用第四分割GT图像成为上述学习用数据集。

根据本发明的一实施例，上述计算装置利用相同的方式对上述第三原始图像及第三分割GT图像进行变形之后，可将上述变形的第三原始图像及变形的第三分割GT图像分别合成于上述第一原始图像及上述第一分割GT图像。上述变形算法例如可以使用仿射变换(affine transform)算法及薄板样条插值(thin-plate spline interpolation)算法。另外，可通过改变上述第三原始图像及上述第三分割GT图像的大小，或按一定角度进行旋转，或左右翻转等方式对图像进行变形。另外，可通过重复上述过程的混合过程执行上述步骤，通过改变算法或应用于其上的详细参数，或更改变形的上述大小，或更改旋转角度，可以生成各种变形的第三原始图像及各种变形的第三分割GT图像。通过这种方式可生成多个不同的学习用第四原始图像及多个不同的学习用第四分割GT图像。即可从一个第一原始图像和一个第一分割GT图像及一个第三原始图像和一个第三分割GT图像，生成各种上述学习用第四原始图像及各种上述学习用第四分割GT图像。

另一方面，如上所述，在上述第一分割GT图像中包含上述道路的分割信息，因此，上述计算装置在上述第一原始图像内判断属于上述道路的部分之后，将上述第三原始图像合成于上述第一原始图像内的上述道路对应的区域，生成上述学习用第四原始图像。此时，可将上述第三原始图像合成于上述第一原始图像内的上述道路对应的区域中的任意位置，生成上述学习用第四原始图像。然后，将上述第一分割GT图像上合成上述第三分割GT图像，以使上述第一原始图像内的上述第三原始图像对应合成的上述任意位置，从而生成上述学习用第四分割GT图像。另外，在该步骤中，上述计算装置也可在持续改变上述道路对应的区域中上述任意位置的同时，多次执行生成上述学习用第四原始图像及上述学习用第四分割GT图像的过程。通过这种方式，生成多个不同的学习用第四原始图像及多个不同的学习用第四分割GT图像。如上述重复变形算法那样，各种上述学习用第四原始图像及各种上述学习用第四分割GT图像，可从一个第一原始图像和一个第一分割GT图像及一个第三原始图像和一个第三分割GT图像生成。

然后，再如图1所示，本发明将上述合成的第四原始图像作为输入图像执行上述S06步骤及上述S07步骤。

图3为根据本发明的利用学习用数据集进行CNN图像分割的过程示意图。

如图3所示，若具体说明上述S06步骤及上述S07步骤，则从上述生成的学习用数据集中选择一对上述第四原始图像和上述第四分割GT图像之后，将上述选择的第四原始图像作为训练图像输入至CNN装置。输入上述训练图像之后，在多个卷积滤波器(或卷积层)中进行多次卷积运算获得特征图。然后，对最终生成的特征图即CONV.K的输出，在多个解卷积滤波器(或解卷积层)中进行多次解卷积运算获得分割图像。这样利用卷积运算对图像进行编码(encoding)获得上述特征图，解码(decoding)上述最终特征图即上述CONV.K的输出获得上述分割图像(或标签(label)图像)的上述CNN装置的结构称之为编码-解码网络或U-Net。在上述编码过程中，每当执行各卷积运算时，上述输入图像的大小例如减少至1/2，这是为了通过减少图像大小减少运算量。另外，在上述编码过程中，通过上述卷积滤波器输入的图像的通道数量在增加，这是为了在利用减少运算量的增益的同时，通过增加的通道获得复杂的图案。一般而言，在上述编码过程中，每当经过各个上述卷积滤波器时，上述图像大小减少至1/2，通道数增加至两倍。这样，减少的特征图去除了很多高频区域，具有低频区域为主的信息，而上述低频区域意味着图像的富有意义(meaningful)的部分，即天空、道路、建筑、汽车等详细的部分。通过上述解卷积运算即解码运算将上述富有意义的部分类推为上述分割图像。

另外，在上述执行CNN学习的过程中，计算上述损失，即(i)将上述第四原始图像输入为上述训练图像计算出的上述分割图像与(ii)上述第四分割GT图像的差异。另外，对上述计算的损失进行反向传播，进行优化上述CNN的上述参数的学习。

根据本发明，可以针对在自动驾驶情形时的实际道路上行驶情形下获得的影像数据中不容易获得的各种情形提供大量学习图像集，即针对各种物体存在于道路上的情形提供大量学习图像集。另外，由此具有对于在实际道路上行驶情形下不经常遇到的物体，也可通过CNN学习在自动驾驶情形下检测的效果。

本领域技术人员可理解，上述说明的图像，例如训练图像、测试图像等图形数据的收发可通过学习装置及测试装置的通信部完成，用于执行特征图和计算的数据可通过学习装置及测试装置的处理器(及/或存储器)保持/维护，卷积运算、解卷积运算、损失值计算过程可主要通过学习装置及测试装置的处理器执行，但本发明不限于此。

上述根据本发明的实施例可以以程序指令的形式实现，该程序指令可以由各种计算机组件执行，并且可以记录在计算机可读的记录媒介。上述计算机可读的记录媒介可以单独或组合地包含程序指令、数据文件、数据结构等。记录在上述计算机可读记录媒介的程序指令可以是为本发明特殊设计配置的，也可以是软件领域公开使用的。计算机可读记录媒介包括硬盘、软盘及磁带等磁性媒介、CD-ROM、DVD等光媒介、光磁软盘(Floptical Disk)等磁光媒介(Magneto-Optical Media)及ROM、RAM、闪存等可存储及执行程序指令的硬件设备。程序指令不仅包括编译器中产生的机器语言代码，而且还包括使用翻译器等在计算机中执行的高级语言代码。上述硬件设备可以被配置为由一个以上的软件模块操作以执行本发明的过程，反之亦然。

如上所述，通过具体的组件等特定事项和有限的实施例和附图对本发明进行了说明，而这只是为了帮助理解本发明所提供的，本发明不受上述事实的限制，本领域的普通技术人员应当理解，可以对本发明进行修改、变形或者等同替换。

上述实施例仅用以说明本发明而非限制，而在不脱离本发明的精神范围内，与权利要求书均等或等价的变化均应涵盖在本发明的权利要求范围中。

Claims

1.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的方法，其特征在于，包括：

(a)步骤，计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与所述第一原始图像对应的至少一个第一分割地面实况图像；

(b)步骤，所述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像；

(c)步骤，所述计算装置获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割对应所述特定物体所处的部分的像素生成的至少一个第三分割地面实况图像；及

(d)步骤，所述计算装置通过执行以下过程：(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像，和(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像，使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的至少一个特定位置，以生成至少一个学习用第四分割地面实况图像，从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集。

2.根据权利要求1所述的方法，其特征在于，

所述(d)步骤，包括：

(d_1)步骤，所述计算装置利用相同的方式对所述第三原始图像及所述第三分割地面实况图像进行变形，以分别生成变形的第三原始图像及变形的第三分割地面实况图像；及

(d_2)步骤，所述计算装置将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像。

3.根据权利要求2所述的方法，其特征在于，

在所述(d_1)步骤中，所述计算装置利用仿射变换算法及薄板样条插值算法中的至少一种算法对所述第三原始图像及所述第三分割地面实况图像进行变形。

4.根据权利要求2所述的方法，其特征在于，

所述计算装置在改变应用于所述(d_1)步骤的算法及其详细参数中的至少一部分的同时，重复执行所述(d_1)步骤及所述(d_2)步骤，以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。

5.根据权利要求1所述的方法，其特征在于，

从各种道路行驶图像数据库及与之对应的分割地面实况图像数据库中分别选择所述第一原始图像及所述第一分割地面实况图像；

从各种物体的按种类的原始图像数据库及与之对应的语义分割地面实况图像数据库中分别选择所述第二原始图像及所述第二分割地面实况图像。

6.根据权利要求5所述的方法，其特征在于，

在所述(c)步骤中，所述计算装置利用所述第二分割地面实况图像的语义分割信息，从所述第二原始图像及所述第二分割地面实况图像中切割所述特定物体。

7.根据权利要求6所述的方法，其特征在于，

在所述(c)步骤中，所述计算装置(i)在所述第二分割地面实况图像内切割对所述特定物体具有语义分割信息的区域，以获得所述第三分割地面实况图像，(ii)参考与所述第二分割地面实况图像内的所述第三分割地面实况图像的像素信息对应的所述第二原始图像内的像素位置获得所述第三原始图像。

8.根据权利要求1所述的方法，其特征在于，

在所述(d)步骤中，所述计算装置(i)在所述第一原始图像内判断对应道路的部分之后，将所述第三原始图像合成于所述第一原始图像，使得所述第三原始图像对应于所述对应道路的部分内的任意位置，以生成所述学习用第四原始图像，(ii)将第三分割地面实况图像合成于所述第一分割地面实况图像，使得所述第三分割地面实况图像对应于所述第一原始图像中的所述任意位置，从而生成所述学习用第四分割地面实况图像。

9.根据权利要求8所述的方法，其特征在于，

在所述(d)步骤中，所述计算装置在改变所述任意位置的同时，多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程，以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。

10.根据权利要求1所述的方法，其特征在于，

所述第一分割地面实况图像包含所述道路的分割信息。

11.一种通过卷积神经网络的学习方法，包括：

(a)步骤，在执行下述过程的状态下，学习装置接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入：(I)过程，计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与所述第一原始图像对应的至少一个第一分割地面实况图像；(II)过程，所述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像；(III)过程，所述计算装置获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割与所述特定物体所处的部分对应的像素生成的至少一个第三分割地面实况图像；及(IV)过程，所述计算装置(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像，(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像，使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的的至少一个特定位置，以生成至少一个学习用第四分割地面实况图像，从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集；及

(b)步骤，所述学习装置对所述学习用第四原始图像应用所述卷积神经网络的多次运算以获得输出图像，比较所述输出图像和所述第四分割地面实况图像之后，通过反向传播调整所述学习装置的参数。

12.根据权利要求11所述的学习方法，其特征在于，

在所述(IV)过程中，所述计算装置执行：(IV_1)过程，利用相同的方式对所述第三原始图像及第三分割地面实况图像进行变形，以分别生成变形的第三原始图像及变形的第三分割地面实况图像；(IV_2)过程，将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像。

13.根据权利要求12所述的学习方法，其特征在于，

所述计算装置在改变应用于所述(IV_1)过程的算法及其详细参数中的至少一部分的同时，重复执行所述(IV_1)过程及所述(IV_2)过程，以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。

14.根据权利要求11所述的学习方法，其特征在于，

在所述(IV)过程中，所述计算装置(i)在所述第一原始图像内判断对应道路的部分之后，将所述第三原始图像合成于所述第一原始图像，使得所述第三原始图像对应于所述第一原始图像中对应所述道路的部分内的任意位置，以生成所述学习用第四原始图像，(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像，使得所述第三分割地面实况图像对应于所述第一原始图像中的所述任意位置，从而生成所述学习用第四分割地面实况图像。

15.根据权利要求14所述的学习方法，其特征在于，

在所述(IV)过程中，所述计算装置在改变所述任意位置的同时，多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程，以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。

16.一种生成用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用数据集的计算装置，其特征在于，包括：

通信部，用于获得(i-1)表示道路上行驶情形的至少一个第一原始图像及(i-2)与所述第一原始图像对应的至少一个第一分割地面实况图像，获得(ii-1)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像；

处理器，用于执行下述过程：(I)过程，获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割与所述特定物体所处的部分对应的像素生成的至少一个第三分割地面实况图像；及(II)过程，(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像，(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像，使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的至少一个特定位置，以生成至少一个学习用第四分割地面实况图像，从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集。

17.根据权利要求16所述的计算装置，其特征在于，

在所述(II)过程中，所述处理器执行：(II_1)过程，利用相同的方式对所述第三原始图像及第三分割地面实况图像进行变形，以分别生成变形的第三原始图像及变形的第三分割地面实况图像的过程；(II_2)过程，将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像的过程。

18.根据权利要求17所述的计算装置，其特征在于，

在所述(II_1)过程中，所述处理器利用仿射变换算法及薄板样条插值算法中的至少一种算法对所述第三原始图像及所述第三分割地面实况图像进行变形。

19.根据权利要求17所述的计算装置，其特征在于，

所述处理器在改变应用于所述(II_1)过程的算法及其详细参数中的至少一部分的同时，重复执行所述(II_1)过程及所述(II_2)过程，以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。

20.根据权利要求16所述的计算装置，其特征在于，

21.根据权利要求20所述的计算装置，其特征在于，

在所述(I)过程中，所述处理器利用所述第二分割地面实况图像的语义分割信息，从所述第二原始图像及所述第二分割地面实况图像中切割所述特定物体。

22.根据权利要求21所述的计算装置，其特征在于，

在所述(I)过程中，所述处理器(i)在所述第二分割地面实况图像内切割对所述特定物体具有语义分割信息的区域，以获得所述第三分割地面实况图像，(ii)参考与所述第二分割地面实况图像内的所述第三分割地面实况图像的像素信息对应的所述第二原始图像内的像素位置获得所述第三原始图像。

23.根据权利要求16所述的计算装置，其特征在于，

在所述(II)过程中，所述处理器(i)在所述第一原始图像内判断对应道路的部分之后，将所述第三原始图像合成于在所述第一原始图像中对应所述道路的部分的任意位置，以生成所述学习用第四原始图像，(ii)在所述第一分割地面实况图像上合成所述第三分割地面实况图像，以对应所述第一原始图像中的所述任意位置，从而生成所述学习用第四分割地面实况图像。

24.根据权利要求20所述的计算装置，其特征在于，

在所述(II)过程中，所述处理器在改变所述任意位置的同时，多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程，以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。

25.根据权利要求16所述的计算装置，其特征在于，

所述第一分割地面实况图像包含所述道路的分割信息。

26.一种通过卷积神经网络进行学习的学习装置，其特征在于，包括：

通信部，用于在执行下述过程的状态下，接收第四原始图像作为用于检测自动驾驶情形中的至少一个障碍物的至少一个学习用图像的输入：(I)过程，计算装置获得(i)表示道路上行驶情形的至少一个第一原始图像及(ii)与所述第一原始图像对应的至少一个第一分割地面实况图像；(II)过程，所述计算装置获得(i)包含至少一个特定物体的图像的至少一个第二原始图像及(ii)包含所述特定物体的分割信息且对应所述第二原始图像的至少一个第二分割地面实况图像；(III)过程，所述计算装置获得(i)从所述第二原始图像中切割对应所述特定物体的部分生成的至少一个第三原始图像及(ii)从所述第二分割地面实况图像中切割与所述特定物体所处的部分对应的像素生成的至少一个第三分割地面实况图像；及(IV)过程，所述计算装置(i)将所述第三原始图像合成于所述第一原始图像以生成至少一个学习用第四原始图像，(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像，使得所述第三分割地面实况图像对应于将所述第三原始图像合成于所述第一原始图像的的至少一个特定位置，以生成至少一个学习用第四分割地面实况图像，从而生成包含所述学习用第四原始图像和与所述学习用第四原始图像对应的所述学习用第四分割地面实况图像的所述学习用数据集；及

处理器，用于对所述学习用第四原始图像应用所述卷积神经网络的多次运算以获得输出图像，比较所述输出图像和所述第四分割地面实况图像之后，通过反向传播调整所述学习装置的参数。

27.根据权利要求26所述的学习装置，其特征在于，

在由所述计算装置执行的所述(IV)过程中，所述计算装置执行：(IV_1)过程，所述计算装置利用相同的方式对所述第三原始图像及第三分割地面实况图像进行变形，以分别生成变形的第三原始图像及变形的第三分割地面实况图像；(IV_2)过程，将所述变形的第三原始图像及所述变形的第三分割地面实况图像分别合成于所述第一原始图像及所述第一分割地面实况图像。

28.根据权利要求27所述的学习装置，其特征在于，

29.根据权利要求26所述的学习装置，其特征在于，

在由所述计算装置执行的所述(IV)过程中，所述计算装置(i)在所述第一原始图像内判断对应道路的部分之后，将所述第三原始图像合成于在所述第一原始图像，使得所述第三原始图像对应于所述第一原始图像中对应所述道路的部分内的任意位置，以生成所述学习用第四原始图像，(ii)将所述第三分割地面实况图像合成于所述第一分割地面实况图像，使得所述第三分割地面实况图像对应于所述第一原始图像中的所述任意位置，从而生成所述学习用第四分割地面实况图像。

30.根据权利要求29所述的学习装置，其特征在于，

在由所述计算装置执行的所述(IV)过程中，所述计算装置在改变所述任意位置的同时，多次执行生成所述学习用第四原始图像及所述学习用第四分割地面实况图像的过程，以生成多个不同的所述学习用第四原始图像及多个不同的所述学习用第四分割地面实况图像。