CN110909748A

CN110909748A - 应用多馈送的图像编码方法和装置

Info

Publication number: CN110909748A
Application number: CN201910808499.1A
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2018-09-17
Filing date: 2019-08-29
Publication date: 2020-03-24
Anticipated expiration: 2039-08-29
Also published as: KR20200031992A; JP2020047270A; CN110909748B; JP6935939B2; EP3624015A1; US10579924B1; US20200090047A1; KR102313604B1

Abstract

本发明涉及应用多馈送的图像编码方法和装置。具体涉及一种使用多馈送层能够对至少一个训练图像进行编码的CNN的学习方法，包括：(a)学习装置获取训练图像；以及(b)学习装置使每一个卷积层对训练图像或者从之前的卷积层中获取的主特征映射应用卷积运算来分别生成第一至第n主特征映射，使h个卷积层之一的第k卷积层执行以下步骤：(i)从由第k‑1卷积层中获取的第k‑1主特征映射以及与第k卷积层对应的第m馈送层中，获取按照第k‑1主特征映射的大小来调整训练图像的大小后的第m子特征映射，(ii)整合第m子特征映射以及第k‑1主特征映射来生成第k‑1整合特征映射，(iii)对第k‑1整合特征映射应用卷积运算来生成第k主特征映射。

Description

应用多馈送的图像编码方法和装置

技术领域

本发明涉及应用多馈送的学习方法和学习装置、以及利用它们的测试方法和测试装置。具体涉及如下学习方法和学习装置、以及基于此的测试方法和测试装置：一种学习方法，其特征在于，所述学习方法是使用多馈送层能够对至少一个训练图像进行编码的CNN(Convolutional Neural Network，卷积神经网络)的学习方法，所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述学习方法包括如下步骤：

(a)学习装置获取所述训练图像；以及

(b)所述学习装置使所述每一个卷积层对所述训练图像或者从之前的卷积层获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射，所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

(i)从由第k-1卷积层获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射，

(ii)整合所述第m子特征映射以及所述第k-1主特征映射来生成第k-1整合特征映射，

(iii)对所述第k-1整合特征映射应用所述卷积运算来生成第k主特征映射。

背景技术

深度学习是一种用于对事物或数据进行聚类或分类的技术。例如，计算机不能只通过照片来区分狗和猫。但人们可以很容易地区分它们。为此，设计了一种称为“机器学习(Machine Learning)”的方法。这是一种将大量数据输入到计算机并分类类似物体的技术。当输入与所存储的狗的照片类似的照片时，计算机将其分类为狗的照片。

已经出现了许多关于如何对数据进行分类的机器学习算法。以“决策树”、“贝叶斯网络”、“支持向量机(SVM)”和“人工神经网络”为代表。深度学习是人工神经网络的后代。

深度卷积神经网络(Deep Convolution Neural Networks；Deep CNNs)是深度学习的惊人发展的核心。CNNs已经在90年代用于解决文字识别问题，但如现在这样被广泛使用源自最近的研究结果。这些深度CNN在2012年ImageNet图像分类竞赛中击败了其他竞争对手并赢得了冠军。然后，卷积神经网络已成为机器学习(Machine Learning)领域非常有用的工具。

图1是利用CNN来示意性示出输入图像的通常的馈送过程的图。

参照图1，在以往的CNN运算过程中，CNN接收一次输入图像101的输入。例如，CNN接收输入图像的输入，在多个卷积层中执行多次的卷积运算和ReLU等非线性运算来依次生成特征映射(feature map)102、103和104。然后，最终特征映射104或者特征映射等中至少一部分用于对象检测中，或者用于分割结果的获取中。

在这样的以往的CNN运算过程中，存在如下问题：当输入图像被馈送一次时，通过多个卷积层生成特征映射，从而输入图像的细节被丢失。

发明内容

发明所要解决的问题

本发明的目的在于解决上述问题点。

本发明的其他目的在于，提供一种即使在CNN装置中应用连续的卷积运算的情况下也能够保有输入图像的详细信息的方法。

用于解决问题的手段

根据本发明的一个方式，提供一种学习方法，其特征在于，

所述学习方法是使用多馈送层能够对至少一个训练图像进行编码的CNN(Convolutional Neural Network，卷积神经网络)的学习方法，所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述学习方法包括以下步骤：

(a)学习装置获取所述训练图像；以及

(b)所述学习装置使所述每一个卷积层对所述训练图像或者从之前的卷积层中获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射，所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

(i)从由第k-1卷积层中获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射，

在一个实施例中，提供一种方法，其特征在于，

所述(b)步骤包括如下步骤：

(b-1)所述学习装置使所述第m馈送层按照所述第k-1主特征映射的所述大小来调整所述训练图像的大小，生成调整大小后的第m训练图像；

(b-2)所述学习装置使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射；

(b-3)所述学习装置使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射；以及

(b-4)所述学习装置使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。

在一个实施例中，提供一种方法，其特征在于，

在所述(b-3)步骤中，逐像素相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。

在一个实施例中，提供一种方法，其特征在于，

在所述(b-3)步骤中，将所述第k-1主特征映射和所述第m子特征映射连接(Concatenate)起来生成所述第k-1整合特征映射。

在一个实施例中，提供一种方法，其特征在于，

在所述(b-2)步骤中，对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射，以使得所述第m子特征映射的通道数与所述第k-1主特征映射的通道数对应。

在一个实施例中，提供一种方法，其特征在于，

所述(b)步骤包括以下步骤：

(b-1)所述学习装置使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算生成所述第m子特征映射，使所述第m子特征映射具有与所述第k-1主特征映射的大小对应的大小；

(b-2)所述学习装置使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射；以及

(b-3)所述学习装置使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。

在一个实施例中，提供一种方法，其特征在于，

在所述(b-1)步骤中，生成所述第m子特征映射，以使得所述第m子特征映射的大小以及通道数与所述第k-1主特征映射的所述大小以及所述通道数对应。

在一个实施例中，提供一种方法，其特征在于，还包括以下步骤：

(c)所述学习装置使至少一个FC(Fully Connected，全连接)层对所述第n主特征映射应用至少一个FC运算，生成对所述训练图像内的至少一个对象的检测结果；以及

(d)所述学习装置参照所述检测结果及其对应的GT(Ground Truth，地面实况)来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

(c)所述学习装置使解码层将所述第n主特征映射输入到所述解码层来生成分割结果；以及

(d)所述学习装置参照所述分割结果及其对应的GT来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

根据本发明的其他方式，提供一种卷积神经网络的测试方法，其特征在于，

所述测试方法是使用多馈送层能够对至少一个测试图像进行编码的CNN(Convolutional Neural Network，卷积神经网络)的测试方法，所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述测试方法包括以下步骤：

(a)在学习装置执行以下处理的状态下，测试装置获取所述测试图像：

(1)使所述每一个卷积层对至少一个训练图像或者从之前的卷积层中获取的学习用主特征映射应用所述卷积运算来分别生成所述学习用第一至第n主特征映射，所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

(i)从由第k-1卷积层中获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述学习用第k-1

主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射，

(ii)整合所述第m子特征映射以及所述学习用第k-1主特征映射来生成学习用第k-1整合特征映射，

(iii)对所述学习用第k-1整合特征映射应用所述卷积运算来生成学习用第k主特征映射；以及

(2)学习所述CNN的一个以上的参数；以及

(b)所述测试装置使所述每一个卷积层对所述测试图像或者从之前的卷积层中获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射，所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

(i)从由第k-1卷积层中获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述测试用第k-1

主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射，

(ii)整合所述第m子特征映射以及所述测试用第k-1主特征映射来生成测试用第k-1整合特征映射，

(iii)对所述测试用第k-1整合特征映射应用所述卷积运算来生成测试用第k主特征映射。

在一个实施例中，提供一种方法，其特征在于，

所述(b)步骤包括以下步骤：

(b-1)所述测试装置使所述第m馈送层按照所述测试用第k-1主特征映射的所述大小来调整所述测试图像的大小，生成调整大小后的第m测试图像；

(b-2)所述测试装置使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算来生成所述测试用第m子特征映射；

(b-3)所述测试装置使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射；以及

(b-4)所述测试装置使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。

在一个实施例中，提供一种方法，其特征在于，

在所述(b-3)步骤中，逐像素相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。

在一个实施例中，提供一种方法，其特征在于，

在所述(b-3)步骤中，将所述测试用第k-1主特征映射和所述测试用第m子特征映射连接起来生成所述测试用第k-1整合特征映射。

在一个实施例中，提供一种方法，其特征在于，

所述(b)步骤包括以下步骤：

(b-1)所述测试装置使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射，使所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小；

(b-2)所述测试装置使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射；以及

(b-3)所述测试装置使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。

在一个实施例中，提供一种方法，其特征在于，

在所述(b-1)步骤中，生成所述测试用第m子特征映射，以使得所述第m子特征映射的大小以及通道数与所述测试用第k-1主特征映射的所述大小以及所述通道数对应。

根据本发明的另一个方式，提供一种学习装置，其特征在于，

所述学习装置是使用多馈送层能够对至少一个训练图像进行编码的CNN(Convolutional Neural Network，卷积神经网络)的学习装置，所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述学习装置包括：

通信部，获取所述训练图像；以及

处理器，执行以下处理：(I)使所述每一个卷积层对所述训练图像或者从之前的卷积层中获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射，使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

(i)从第k-1卷积层中获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射，

在一个实施例中，提供一种装置，其特征在于，

所述(I)处理中，所述处理器执行如下处理：

(I-1)使所述第m馈送层按照所述第k-1主特征映射的所述大小来调整所述训练图像的大小，生成调整大小后的第m训练图像；

(I-2)使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射；

(I-3)使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射；以及

(I-4)使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。

在一个实施例中，提供一种装置，其特征在于，

在所述(I-3)处理中，逐像素相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。

在一个实施例中，提供一种装置，其特征在于，

在所述(I-3)处理中，将所述第k-1主特征映射和所述第m子特征映射连接起来生成所述第k-1整合特征映射。

在一个实施例中，提供一种装置，其特征在于，

在所述(I-2)处理中，对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射，以使得所述第m子特征映射的通道数与所述第k-1主特征映射的通道数对应。

在一个实施例中，提供一种装置，其特征在于，

在所述(I)处理中，所述处理器执行以下处理：

(I-1)使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算生成所述第m子特征映射，使所述第m子特征映射具有与所述第k-1主特征映射的大小对应的大小；

(I-2)使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射；以及

(I-3)使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。

在一个实施例中，提供一种装置，其特征在于，

在所述(I-1)处理中，生成所述第m子特征映射，以使得所述第m子特征映射的大小以及通道数与所述第k-1主特征映射的所述大小以及所述通道数对应。

在一个实施例中，提供一种装置，其特征在于，

所述处理器还执行以下处理：

(II)使至少一个FC(Fully Connected，全连接)层对所述第n主特征映射应用至少一个FC运算，生成对所述训练图像内的至少一个对象的检测结果；以及

(III)参照所述检测结果及其对应的GT(Ground Truth，地面实况)来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

在一个实施例中，提供一种装置，其特征在于，

述处理器还执行以下处理：

(II)使解码层将所述第n主特征映射输入到所述解码层来生成分割结果；以及

(III)参照所述分割结果及其对应的GT来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

根据本发明又另一个方式，提供一种测试装置，其特征在于，

所述测试装置是使用多馈送层能够对至少一个测试图像进行编码的CNN(Convolutional Neural Network，卷积神经网络)的测试装置，所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述测试装置包括：

通信部，学习装置执行以下处理的状态下，获取所述测试图像：

(i)从第k-1卷积层中获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述学习用第k-1主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射，

(2)学习所述CNN的一个以上的参数；以及

处理器，执行以下处理：(I)使所述每一个卷积层对所述测试图像或者从之前的卷积层中获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射，所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

(i)从第k-1卷积层中获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述测试用第k-1主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射，

在一个实施例中，提供一种装置，其特征在于，

所述处理器执行以下处理：

(I-1)使所述第m馈送层按照所述测试用第k-1主特征映射的所述大小来调整所述测试图像的大小，生成调整大小后的第m测试图像；

(I-2)使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算来生成所述测试用第m子特征映射；

(I-3)使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射；以及

(I-4)使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。

在一个实施例中，提供一种装置，其特征在于，

在所述(I-3)处理中，逐像素相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。

在一个实施例中，提供一种装置，其特征在于，

在所述(I-3)处理中，将所述测试用第k-1主特征映射和所述测试用第m子特征映射连接起来生成所述测试用第k-1整合特征映射。

在一个实施例中，提供一种装置，其特征在于，

所述处理器执行以下处理：

(I-1)使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射，使所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小；

(I-2)使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射；以及

(I-3)使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。

在一个实施例中，提供一种装置，其特征在于，

所述处理器在(I-1)处理中，生成所述测试用第m子特征映射，以使得所述第m子特征映射的大小以及通道数与所述测试用第k-1主特征映射的所述大小以及所述通道数对应。

发明效果

根据本发明，不仅在CNN的第一卷积层，在CNN的其他卷积层中也能够利用输入图像的信息，因此即使通过经由CNN的连续的卷积运算，也能够更有效地保有输入图像的详细信息。

附图说明

本发明的实施例的说明中所用的以下附图仅仅是本发明实施例中的一部分，本领域技术人员在不进行发明操作的情况下，也能够根据这些附图来得出其他附图。

图1是利用以往的通常CNN来示意性示出输入图像的馈送过程的图。

图2是示意性示出根据本发明的CNN的多馈送构成的图。

图3是示例性示出将多馈送应用到根据本发明的输入图像来生成特征映射的过程的图。

具体实施方式

后述的针对本发明的详细描述参照附图，该附图是作为例示本发明可实施的特定实施例而图示的。这些实施例被详细说明以使本领域技术人员足以实施本发明。应该理解的是，本发明的各种实施例虽然彼此不同，但并不是相互排斥的。例如，在不脱离本发明的精神和范围内，可以通过其他实施例来实现这里描述的特定形状、结构和特性。另外，应当理解的是，在不脱离本发明的精神和范围的情况下，可以改变每个公开的实施例中的各个构成要素的位置或配置。因此，以下的详细描述不应被视为具有限制意义，如果适当地描述，则本发明的范围仅由所附权利要求以及与这些权利要求所主张范围的等同的全部范围来限定。附图中相同的附图标记在若干方面中指相同或相似的功能。

本发明中提到的各种图像可以包括与铺砌或未铺砌道路相关的图像，并且在这种情况下，可以包括可能出现在道路环境中的对象(例如，如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物)，但并不限于此，并且本发明中提到的各种图像可以是与道路无关的图像(例如，与未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内相关的图像)，在这种情况下，可以象征可能出现在未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的对象(例如，如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物)，但并不限于此。

另外，在本发明的整个说明书和权利要求书中，词语“包括”及其变形并不旨在排除其他技术特征、附加物等、构成要素等或步骤等。对于本领域技术人员来说，本发明的其他目的、优点和特征的一部分可以从本说明书中得出、其他一部分从本发明的实施中得出。以下示例和附图是以举例说明的方式提供的，并不旨在限制本发明。

以下，为了使本领域技术人员能够容易地实施本发明，参考附图详细描述本发明的优选实施例。

图2是示意性示出根据本发明的CNN的多馈送构成的图。

参照图2，根据本发明的CNN具有如下构成：当从多个卷积层依次生成主要特征映射201、202、203时，卷积层使用至少一个输入图像101的调整大小后的信息。

即，如图2所示，在学习装置中使用的CNN或在测试装置中使用的CNN可以获取输入图像101，并使第一卷积层生成第一主特征映射201。另外，CNN使第二卷积层生成第二主特征映射202，通过将第一整合特征映射输入到第二卷积层来能够生成第二主特征映射202，该第一整合特征映射是整合了参照输入图像101生成的第一子特征映射211和第一主特征映射的输入图像。此时，在将输入图像101调整成第一主特征映射201的大小来生成调整大小后的第一输入图像111之后，对调整大小后的第一输入图像111应用一个以上的卷积运算来生成第一子特征映射211。另外，CNN使第三卷积层生成第三主特征映射203，可以将第二整合特征映射输入到第三卷积层来生成第三主特征映射203，该第二整合特征映射是整合了参照输入图像101生成的第二子特征映射212和第二主特征映射的输入图像。此时，在将输入图像101调整成第二主特征映射202的大小来生成调整大小后的第二输入图像112之后，对调整大小后的第二输入图像112应用卷积运算来生成第二子特征映射212。

另一方面，在整合特定主特征映射和特定子特征映射时，可以逐像素相加两个特征映射来生成。此时，由于特定子特征映射必须具有与特定主要特征映射201相同数量的通道数，因此当对调整大小后的特定输入图像应用卷积运算时，执行1×1卷积运算，以使通道数与特定主要特征映射的通道数相匹配。在其他示例中，当整合特定主特征映射和特定子特征映射时，可以通过将两个特征映射连接(concatenated)起来生成。此时，特定主特征映射和特定子特征映射的通道数不一定相同。

根据本发明的CNN在每个卷积层中生成特征映射时，可以分别调整输入图像的大小并馈送给所有卷积层，但也可以使用对卷积层中的一部分卷积层馈送输入图像的构成。

图3是示例性地示出将多馈送应用到根据本发明的输入图像来生成特征映射的过程的图。

根据本发明的CNN(例如，CNN学习装置)包括第一至第n卷积层，对至少一个训练图像应用卷积运算来分别生成第一至第n主特征映射。另一方面，根据本发明的CNN还可以包括与n个卷积层中的h(h是1至n-1的任意整数)个卷积层联动的第一至第h馈送层。当然，还可以包括n-1个馈送层，以使其均与除了第一卷积层(第一卷积层直接受到训练图像的馈送，从而没有联动的馈送层)之外的剩余的n-1个卷积层联动，但为了减少运算量，也可以仅仅包括分别与h个卷积层联动的h个馈送层，以使其与第二至第n卷积层中的一部分卷积层联动。

参照图3，对被输入到CNN的n个卷积层的训练图像或者从之前的卷积层中获取的主特征映射应用至少一个卷积运算来分别生成第一至第n主特征映射，此时，第二至第n卷积层中的与第一至第h馈送层对应的h个卷积层执行如下的特征映射生成过程。

假设h个卷积层中的任意的特定卷积层为n个卷积层中的第k个卷积层，则第k卷积层320可以从第k卷积层320之前的第k-1卷积层310中获取的第k-1主特征映射312以及与第k卷积层320对应的第m馈送层410中，获取按照第k-1主特征映射312的大小来调整训练图像101的大小后的第m子特征映射412。然后，第k卷积层320可以将所获取的第m子特征映射412整合到第k-1主特征映射312来生成第k-1整合特征映射321，对第k-1整合特征映射321应用至少一个卷积运算来生成第k主特征映射322。

如下，参照图3，针对该过程进行详细说明。

首先，与第k卷积层320对应的第m馈送层410可以通过将训练图像100的大小调整成符合在第k-1卷积层310中生成的第k-1主特征映射312的大小来生成调整大小后的第m训练图像411，并可以对调整大小后的第m训练图像411应用卷积运算来生成第m子特征映射412。为了与第k-1主特征映射312之间的整合，可以对调整大小后的第m训练图像411应用卷积运算来可生成第m子特征映射。另外，为了逐像素相加整合，可以应用卷积运算来使第m子特征映射412的通道数与第k-1主特征映射312的通道数相同。然后，第k卷积层320可以整合第k-1主特征映射312与第m子特征映射412来生成第k-1整合特征映射321。然后，第k卷积层320可以对第k-1整合特征映射321应用卷积运算来生成第k主特征映射322。如上所述，第k卷积层320可以将第k-1主特征映射312与第m子特征映射412逐像素相加来生成第k-1整合特征映射321，也可以将第k-1主特征映射312与第m子特征映射412连接起来生成第k-1整合特征映射321。

同样地，与第k+1卷积层330对应的第m+1馈送层420可以通过将训练图像101的大小调整成符合在第k卷积层320生成的第k主特征映射322的大小来生成调整大小后的第m+1训练图像421，并可以对调整大小后的第m+1训练图像421应用卷积运算来生成第m+1子特征映射422。然后，第k+1卷积层330可以整合第k主特征映射322和第m+1子特征映射422来生成第k整合特征映射331。然后，第k+1卷积层330可以对第k整合特征映射331应用卷积运算来生成第k+1主特征映射332。

另一方面，虽然图3中没有图示，但在本发明的其他实施例中，可以没有对训练图像101调整大小的过程，而应用卷积运算来变更训练图像101的大小和通道数，从而生成各子特征映射。此时，第m馈送层410对训练图像101应用卷积运算来生成第m子特征映射412，以使其符合从第k-1卷积层310输出的第k-1主特征映射312的大小，第k卷积层320可以整合第k-1主特征映射312和第m子特征映射412来生成第k-1整合特征映射321。同样地，第m+1馈送层420对训练图像101应用卷积运算来生成第m+1子特征映射422，以使其符合从第k卷积层320输出的第k主特征映射322的大小，第k+1卷积层330可以整合第k主特征映射322和第m+1子特征映射422来生成第k整合特征映射331。

当通过这样的过程来生成第n主特征映射时，CNN可以执行符合CNN的目的的追加运算。假设CNN是用于至少一个特定对象的检测学习的学习装置，则对第n主特征映射执行至少一个FC运算来获取对训练图像101内的特定对象的检测结果，利用检测结果和GT值来计算损失之后，通过反向传播损失来学习CNN的至少一个参数。假设CNN是用于学习分割结果的学习装置，则学习装置使解码层将第n主特征映射输入到解码层来获取分割结果，利用分割结果和GT值来计算损失，通过反向传播损失来学习CNN的参数。

在CNN为测试装置的情况下，将以上描述的过程应用到测试方法来得到至少一个测试用CNN输出。

此时，在通过学习装置经由上述过程学习CNN参数的状态下，测试装置可以为了测试至少一个测试图像而生成CNN输出。即，测试装置使每一个卷积层对测试图像或从之前的卷积层中获取的测试用主特征映射应用卷积运算来生成测试用第一至第n主特征映射，使第二至第n卷积层中的与第一至第h馈送层对应的h个卷积层中的至少第k卷积层(其中，k是2至n之间的自然数，h个卷积层中的一个)，从第k卷积层的之前的第k-1卷积层中获取的测试用第k-1主特征映射以及与第k卷积层对应的第m馈送层中，获取按照测试用第k-1主特征映射的大小来调整测试图像的大小后的测试用第m子特征映射，整合第m子特征映射以及测试用第k-1主特征映射来生成测试用第k-1整合特征映射，对测试用第k-1整合特征映射应用卷积运算来生成测试用第k主特征映射。然后，对第n主特征映射应用FC运算，获取对测试图像内的至少一个特定对象的检测结果，或者将测试用第n主特征映射输入到解码层来获取测试用分割结果。

如上所述，根据本发明的对输入图像应用了多馈送层的CNN不仅能够将输入图像的详细信息提供给第一卷积层，也能够将输入图像的详细信息提供给第二以上的卷积层，可以维持因多次卷积运算而消失的输入图像的详细信息。

本领域技术人员可以理解的是，上述中描述的图像例如训练图像、测试图像那样的图像数据的收发通过学习装置以及测试装置的通信部来进行，用于执行特征映射的数据可以通过学习装置以及测试装置的处理器(和/或存储器)保留/维持，卷积运算、反卷积运算、损失值运算过程主要由学习装置以及测试装置的处理器来执行，但本发明不限于此。

上述根据本发明的实施例可以以程序指令的形式实现，该程序指令可以由各种计算机部件执行，并且可以记录在计算机可读记录介质中。计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的程序指令，或者可以是计算机软件领域的技术人员已知并可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录介质，诸如光磁软盘(floptical disk)的磁光介质(magneto-opticalmedia)、以及ROM、RAM、闪存等的特别构成为存储并执行程序指令的硬件装置。程序指令的示例不仅包括由编译器生成的机器代码，还包括可以由计算机使用解释器等执行的高级语言代码。硬件装置可以配置为作为一个或多个软件模块操作来执行根据本发明的处理，反之亦然。

尽管已经通过诸如特定部件和有限的实施例和附图的特定实施例来描述了本发明，但这些仅仅是为了更全面地理解本发明而提供的，本发明不限于上述实施例。对于本领域技术人员来说，可以从这些描述中进行各种修改和变更。

因此，本发明的宗旨不应限于上述实施例，并且不仅是后附权利要求，与这些权利要求等同或等价的变形也包括在本发明的宗旨的范围内。

Claims

1.一种学习方法，其特征在于，

所述学习方法是使用多馈送层能够对至少一个训练图像进行编码的CNN的学习方法，所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述学习方法包括以下步骤：

(a)学习装置获取所述训练图像；以及

(b)所述学习装置使所述每一个卷积层对所述训练图像或者从之前的卷积层获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射，所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

(i)从由第k-1卷积层获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射；

(ii)整合所述第m子特征映射以及所述第k-1主特征映射来生成第k-1整合特征映射；

2.根据权利要求1所述的方法，其特征在于，

所述(b)步骤包括如下步骤：

3.根据权利要求2所述的方法，其特征在于，

在所述(b-3)步骤中，逐像素地相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。

4.根据权利要求2所述的方法，其特征在于，

在所述(b-3)步骤中，将所述第k-1主特征映射和所述第m子特征映射连接起来生成所述第k-1整合特征映射。

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，

所述(b)步骤包括如下步骤：

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求1所述的方法，其特征在于，还包括以下步骤：

(c)所述学习装置使至少一个全连接层对所述第n主特征映射应用至少一个全连接运算，生成对所述训练图像内的至少一个对象的检测结果；以及

(d)所述学习装置参照所述检测结果及其对应的地面实况来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

9.根据权利要求1所述的方法，其特征在于，还包括以下步骤：

(d)所述学习装置参照所述分割结果及其对应的地面实况来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

10.一种测试方法，其特征在于，

所述测试方法是使用多馈送层能够对至少一个测试图像进行编码的CNN的测试方法，所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述测试方法包括以下步骤：

(1)使所述每一个卷积层对至少一个训练图像或者从之前的卷积层获取的学习用主特征映射应用所述卷积运算来分别生成所述学习用第一至第n主特征映射，所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：(i)从由第k-1卷积层获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述学习用第k-1主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射；(ii)整合所述第m子特征映射以及所述学习用第k-1主特征映射来生成学习用第k-1整合特征映射；(iii)对所述学习用第k-1整合特征映射应用所述卷积运算来生成学习用第k主特征映射；以及

(2)学习所述CNN的一个以上的参数；以及

(b)所述测试装置使所述每一个卷积层对所述测试图像或者从之前的卷积层获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射，所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：(i)从由第k-1卷积层获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述测试用第k-1主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射；(ii)整合所述第m子特征映射以及所述测试用第k-1主特征映射来生成测试用第k-1整合特征映射；(iii)对所述测试用第k-1整合特征映射应用所述卷积运算来生成测试用第k主特征映射。

11.根据权利要求10所述的方法，其特征在于，所述(b)步骤包括以下步骤：

12.根据权利要求11所述的方法，其特征在于，

在所述(b-3)步骤中，逐像素地相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。

13.根据权利要求11所述的方法，其特征在于，

14.根据权利要求10所述的方法，其特征在于，所述(b)步骤包括如下步骤：

(b-1)所述测试装置使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射，来使得所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小；

15.根据权利要求14所述的方法，其特征在于，

16.一种学习装置，其特征在于，

所述学习装置是使用多馈送层能够对至少一个训练图像进行编码的CNN的学习装置，所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述学习装置包括：

通信部，获取所述训练图像；以及

处理器，执行以下处理：(I)使所述每一个卷积层对所述训练图像或者从之前的卷积层获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射，使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：

17.根据权利要求16所述的装置，其特征在于，

所述(I)处理中，所述处理器执行以下处理：

18.根据权利要求17所述的装置，其特征在于，

在所述(I-3)处理中，逐像素地相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。

19.根据权利要求17所述的装置，其特征在于，

20.根据权利要求17所述的装置，其特征在于，

21.根据权利要求16所述的装置，其特征在于，在所述(I)处理中，所述处理器执行以下处理：

(I-1)使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算生成所述第m子特征映射，来使得所述第m子特征映射具有与所述第k-1主特征映射的大小对应的大小；

22.根据权利要求21所述的装置，其特征在于，

23.根据权利要求16所述的装置，其特征在于，所述处理器还执行以下处理：

(II)使至少一个全连接层对所述第n主特征映射应用至少一个全连接运算，生成对所述训练图像内的至少一个对象的检测结果；以及

(III)参照所述检测结果及其对应的地面实况来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

24.根据权利要求16所述的装置，其特征在于，

所述处理器还执行如下处理：

(III)参照所述分割结果及其对应的地面实况来输出一个以上的损失值，通过反向传播所述损失值来学习所述CNN的一个以上的参数。

25.一种测试装置，其特征在于，

所述测试装置是使用多馈送层能够对至少一个测试图像进行编码的CNN的测试装置，所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层，并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层，所述h是1至n-1的整数，所述测试装置包括：

通信部，在学习装置执行以下处理的状态下，获取所述测试图像：

(1)使所述每一个卷积层对至少一个训练图像或者从之前的卷积层获取的学习用主特征映射应用所述卷积运算来分别生成所述学习用第一至第n主特征映射，所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：(i)从由第k-1卷积层获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述学习用第k-1主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射；(ii)整合所述第m子特征映射以及所述学习用第k-1主特征映射来生成学习用第k-1整合特征映射；(iii)对所述学习用第k-1整合特征映射应用所述卷积运算来生成学习用第k主特征映射；以及

(2)学习所述CNN的一个以上的参数；以及

处理器，执行以下处理：(I)使所述每一个卷积层对所述测试图像或者从之前的卷积层获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射，所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤，其中，所述h个卷积层选自所述第二至第n卷积层：(i)从第k-1卷积层获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中，获取按照所述测试用第k-1主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射；(ii)整合所述第m子特征映射以及所述测试用第k-1主特征映射来生成测试用第k-1整合特征映射；(iii)对所述测试用第k-1整合特征映射应用所述卷积运算来生成测试用第k主特征映射。

26.根据权利要求25所述的装置，其特征在于，所述处理器执行以下处理：

27.根据权利要求26所述的装置，其特征在于，

在所述(I-3)处理中，逐像素地相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。

28.根据权利要求26所述的装置，其特征在于，

29.根据权利要求25所述的装置，其特征在于，所述处理器执行以下处理：

(I-1)使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射，来使得所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小；

30.根据权利要求29所述的装置，其特征在于，