CN110910395A - 图像编码方法和装置、利用它们的测试方法和测试装置 - Google Patents

图像编码方法和装置、利用它们的测试方法和测试装置 Download PDF

Info

Publication number
CN110910395A
CN110910395A CN201910808347.1A CN201910808347A CN110910395A CN 110910395 A CN110910395 A CN 110910395A CN 201910808347 A CN201910808347 A CN 201910808347A CN 110910395 A CN110910395 A CN 110910395A
Authority
CN
China
Prior art keywords
test
mth
feature map
convolution
sizes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910808347.1A
Other languages
English (en)
Other versions
CN110910395B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN110910395A publication Critical patent/CN110910395A/zh
Application granted granted Critical
Publication of CN110910395B publication Critical patent/CN110910395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像编码方法和装置、利用它们的测试方法和测试装置。根据本发明,提供一种基于CNN的图像编码方法,包括以下步骤:包含第一至第n卷积层的学习装置(a)获取输入图像;(b)使卷积层的至少一部分分别执行以下步骤:(i)对输入图像或从之前的卷积层获取的输入特征映射应用转置卷积运算,生成具有彼此不同大小的转置特征映射,(ii)对转置特征映射,应用与其对应地具有不同步长和不同卷积核大小的卷积运算,生成初始特征映射作为第一组;以及(c)将第一组中所包含的初始特征映射相连接或按要素相加,生成与此对应的输出特征映射。

Description

图像编码方法和装置、利用它们的测试方法和测试装置
技术领域
本发明涉及基于CNN的图像编码方法,更具体地涉及一种学习方法和学习装置、以及利用它们的测试方法和测试装置,所述学习方法的特征在于,所述基于CNN的图像编码方法包括以下步骤:(a)包含第一至第n卷积层的学习装置获取至少一个输入图像;(b)所述学习装置使所述卷积层的至少一部分分别执行以下步骤:(i)对所述输入图像或从之前的卷积层获取的输入特征映射应用至少一次转置卷积运算(Transposed ConvolutionOperation),生成分别具有不同大小的至少一个转置特征映射,(ii)将具有不同步长(Stride)和不同卷积核大小的卷积运算至少一次应用于与其对应的各个转置特征映射,生成至少一个初始(Inception)特征映射作为第一组;以及(c)所述学习装置将所述第一组中所包含的所述初始特征映射相连接(concatenating)或按要素相加(Element-WiseAdding),生成与其对应的输出特征映射。
背景技术
深度学习是一种用于对事物或数据进行聚类或分类的技术。例如,计算机不能只通过照片来区分狗和猫。但人们可以很容易地区分它们。为此,设计了一种称为“机器学习(Machine Learning)”的方法。这是一种将大量数据输入到计算机并分类类似物体的技术。当输入与所存储的狗的照片类似的照片时,计算机将其分类为狗的照片。
已经出现了许多关于如何对数据进行分类的机器学习算法。以“决策树”、“贝叶斯网络”、“支持向量机(SVM)”和“人工神经网络”为代表。深度学习是人工神经网络的后代。
深度卷积神经网络(Deep Convolutional Neural Networks;Deep CNN)是深度学习的惊人发展的核心。CNN已经在90年代用于解决文字识别问题,但如现在这样被广泛使用源自最近的研究结果。这些深度CNN在2012年ImageNet图像分类竞赛中击败了其他竞争对手并赢得了冠军。然后,卷积神经网络已成为机器学习(Machine Learning)领域非常有用的工具。
图1是简化示出通常的CNN分割过程的图。
参照图1,在现有的车道检测方法中,学习装置接受输入图像的输入,在多个卷积层中执行多次卷积运算和诸如ReLU的非线性运算,以获得编码的特征映射,针对最后特征映射,在多个反卷积层中执行多次反卷积运算和归一化指数(softmax)运算,以获得分割结果。
图2a和图2b分别示出用于通过以往的初始化方法对图像进行编码的卷积层的各种构成。
图2a中所示的以往的初始方法(inception method)在通过具有各种卷积核大小、例如1×1、3×3、5×5或它们的组合的卷积核大小的卷积单元来对从之前的层传递过来的输入特征映射执行卷积运算之后,将卷积运算后的各种特征映射连接(concatenate)。以这种方式,从一个尺度(Scale)中可以得到考虑各种感受野(Receptive Field)的中间(Intermediate)特征映射即初始特征映射。
图2b所示的以往初始方法为了减少运算量,追加了利用1×1卷积滤波器来减少信道数的过程
使用上述初始概念的以往的图像编码方法可以在特征映射的卷积运算中以各种卷积核(kernel)大小考虑各种感受野,但存在仅能考虑1×1以上的卷积核大小的问题,不能考虑图像的各种特征。因此,需要一种用于考虑更多不同卷积核大小来提取具有更多不同特性的特征的新方法。
发明内容
发明所要解决的问题
本发明的目的在于解决上述问题。
本发明的其他目的在于,提供一种新的图像编码方法,其能够考虑应用于输入特征映射的小于1×1的卷积核大小。
本发明的另一个目的在于,提供一种新的图像编码方法,其能够从输入特征映射中获得比以往的方法更多的各种特性。
用于解决问题的手段
根据本发明的一个方式,提供一种基于CNN的图像编码方法,其特征在于,包括以下步骤:
(a)包含第一至第n卷积层的学习装置获取至少一个输入图像;
(b)所述学习装置使所述卷积层的至少一部分分别执行以下步骤:(i)对所述输入图像或从之前的卷积层获取的输入特征映射应用至少一次转置卷积运算(TransposedConvolution Operation),生成分别具有不同大小的至少一个转置特征映射,(ii)将具有不同步长(Stride)和不同卷积核大小的卷积运算至少一次应用于与其对应的各个转置特征映射,生成至少一个初始(Inception)特征映射作为第一组;以及
(c)所述学习装置将所述第一组中所包含的所述初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成与其对应的输出特征映射。
在一个实施例中,其特征在于,
所述第一组中所包含的所述初始特征映射的大小相同,但具有彼此不同的特性。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述学习装置使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;以及
(b-2)所述学习装置(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组。
在一个实施例中,其特征在于,在所述(b)步骤中,
所述学习装置对所述输入图像或从之前的卷积层获取的所述输入特征映射应用所述卷积运算,生成至少一个初始特征映射作为第二组,
在所述(c)步骤中,
所述学习装置将所述第一组的所述初始特征映射和所述第二组的所述初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成所述输出特征映射。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述学习装置使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;
(b-2)所述学习装置(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组;以及
(b-3)所述学习装置对所述输入图像或从所述第k-1卷积层获取的所述第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成第m+1至第m+n初始特征映射作为所述第二组。
在一个实施例中,其特征在于,在所述(b)步骤中,
所述学习装置对所述输入图像或从之前的卷积层获取的所述输入特征映射应用至少一次彼此不同大小的最大池化(Max Pooling)运算,生成至少一个最大池化特征映射作为第三组,
在所述(c)步骤中,
所述学习装置将所述第一组的所述初始特征映射、所述第二组的所述初始特征映射以及所述第三组的所述最大池化特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成所述输出特征映射。
在一个实施例中,其特征在于,在所述(b)步骤中,
所述学习装置使所述第一卷积层(i)对所述输入图像应用至少一次转置卷积运算,生成具有彼此不同的大小的至少一个转置特征映射,(ii)将具有不同步长和不同卷积核大小的卷积运算至少一次应用于与其对应的各个转置特征映射,生成至少一个初始特征映射作为所述第一组。
在一个实施例中,其特征在于,所述方法还包括:
(d)所述学习装置基于从所述第n卷积层输出的所述输出特征映射获取CNN输出,并执行参照所述CNN输出和与其对应的GT来获取的分割损失的反向传播(Backpropagation)。
根据本发明的其他方式,提供一种基于CNN的图像编码方法,其特征在于,包括以下步骤:
(a)在执行如下处理的状态下,测试装置获取至少一个测试图像:(i)包含第一至第n卷积层的学习装置使所述卷积层的至少一部分分别对输入图像或从之前的卷积层获取的学习用输入特征映射应用至少一次转置卷积运算(Transposed ConvolutionOperation),生成具有彼此不同大小的至少一个学习用转置特征映射,(ii)所述学习装置对所述学习用转置特征映射,应用至少一次与其对应地具有不同步长(Stride)和不同卷积核大小的卷积运算,生成至少一个学习用初始(Inception)特征映射作为学习用第一组,(iii)所述学习装置将所述学习用第一组中所包含的所述学习用初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成与其对应的学习用输出特征映射,以及(iv)所述学习装置基于所述学习用输出特征映射获取学习用CNN输出,并执行参照所述学习用CNN输出和与其对应的GT来获取的分割损失的反向传播(Backpropagation);
(b)所述测试装置使所述卷积层的至少一部分分别执行以下步骤:(i)对所述测试图像或从之前的卷积层获取的测试用输入特征映射应用至少一次所述转置卷积运算,生成分别具有不同大小的至少一个测试用转置特征映射,(ii)对所述测试用转置特征映射,应用至少一次与其对应地具有不同步长(Stride)和不同卷积核大小的卷积运算,生成至少一个测试用初始特征映射作为测试用第一组;以及
(c)所述测试装置将所述测试用第一组中所包含的所述测试用初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成与其对应的测试用输出特征映射。
在一个实施例中,其特征在于,
所述测试用第一组中所包含的所述测试用初始特征映射的大小相同,但具有彼此不同的特性。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述测试装置使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;以及
(b-2)所述测试装置(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组。
在一个实施例中,其特征在于,在所述(b)步骤中,
所述测试装置对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用所述卷积运算,生成至少一个测试用初始特征映射作为测试用第二组,
在所述(c)步骤中,
所述测试装置将所述测试用第一组的所述测试用初始特征映射和所述测试用第二组的所述测试用初始特征映射相连接(concatenating)或按要素相加(Element-WiseAdding),生成所述测试用输出特征映射。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述测试装置使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;
(b-2)所述测试装置(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组;以及
(b-3)所述测试装置对所述测试图像或从所述第k-1卷积层获取的所述测试用第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成测试用第m+1至测试用第m+n初始特征映射作为所述测试用第二组。
在一个实施例中,其特征在于,
在所述(b)步骤中,
所述测试装置对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用至少一次彼此不同大小的最大池化(Max Pooling)运算,生成至少一个测试用最大池化特征映射作为测试用第三组,
在所述(c)步骤中,
所述测试装置将所述测试用第一组的所述测试用初始特征映射、所述测试用第二组的所述测试用初始特征映射以及所述测试用第三组的所述测试用最大池化特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成所述测试用输出特征映射。
根据本发明另一个方式,提供一种学习装置,所述学习装置是包含第一至第n卷积层的、用于基于CNN的图像编码的学习装置,其特征在于,包括:
通信部,用于获取至少一个训练图像作为输入图像;以及
处理器,执行如下处理:(I)使所述卷积层的至少一部分分别执行以下步骤:(i)对所述输入图像或从之前的卷积层获取的输入特征映射应用至少一次转置卷积运算(Transposed Convolution Operation),生成分别具有不同大小的至少一个转置特征映射,(ii)将具有不同步长(Stride)和不同卷积核大小的卷积运算至少一次应用于与其对应的各个转置特征映射,生成至少一个初始(Inception)特征映射作为第一组;以及(II)将所述第一组中所包含的所述初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成与其对应的输出特征映射。
在一个实施例中,其特征在于,
所述第一组中所包含的所述初始特征映射的大小相同,但具有彼此不同的特性。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(I)处理包括如下处理:
(I-1)使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;以及
(I-2)(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组。
在一个实施例中,其特征在于,
在所述(I)处理中,
所述处理器对所述输入图像或从之前的卷积层获取的所述输入特征映射应用所述卷积运算,生成至少一个初始特征映射作为第二组,
在所述(II)处理中,
所述处理器将所述第一组的所述初始特征映射和所述第二组的所述初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成所述输出特征映射。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(I)处理包括如下处理:
(I-1)使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;
(I-2)(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组;以及
(I-3)对所述输入图像或从所述第k-1卷积层获取的所述第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成第m+1至第m+n初始特征映射作为所述第二组。
在一个实施例中,其特征在于,
在所述(I)处理中,
所述处理器对所述输入图像或从之前的卷积层获取的所述输入特征映射应用至少一次彼此不同大小的最大池化(Max Pooling)运算,生成至少一个最大池化特征映射作为第三组,
在所述(II)处理中,
所述处理器将所述第一组的所述初始特征映射、所述第二组的所述初始特征映射以及所述第三组的所述最大池化特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成所述输出特征映射。
在一个实施例中,其特征在于,在所述(I)处理中,
所述处理器使所述第一卷积层(i)对所述输入图像应用至少一次转置卷积运算,生成具有彼此不同的大小的至少一个转置特征映射,(ii)对所述转置特征映射应用至少一次具有不同步长和不同卷积核大小的卷积运算,生成至少一个初始特征映射作为所述第一组。
在一个实施例中,其特征在于,所述处理器还执行如下处理:
(III)基于从所述第n卷积层输出的所述输出特征映射获取CNN输出,执行参照所述CNN输出和与其对应的GT来获取的分割损失的反向传播(Backpropagation)。
根据本发明的有另一个方式,提供一种测试装置,用于基于CNN的图像编码,其特征在于,
通信部,在执行如下处理的状态下,获取至少一个测试图像:(i)包含第一至第n卷积层的学习装置使所述卷积层的至少一部分分别对输入图像或从之前的卷积层获取的学习用输入特征映射应用至少一次转置卷积运算(Transposed Convolution Operation),生成具有彼此不同大小的至少一个学习用转置特征映射,(ii)所述学习装置将具有不同步长(Stride)和不同卷积核大小的卷积运算至少一次应用于与其对应的所述学习用转置特征映射,生成至少一个学习用初始特征映射(Inception Feature Maps For Training)作为学习用第一组,(iii)所述学习装置将所述学习用第一组中所包含的所述学习用初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成与其对应的学习用输出特征映射,以及(iv)所述学习装置基于所述学习用输出特征映射获取学习用CNN输出,并执行参照所述学习用CNN输出和与其对应的GT来获取的分割损失的反向传播(Backpropagation);以及
处理器,执行如下处理:(I)使所述卷积层的至少一部分分别执行以下步骤:(i)对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用至少一次所述转置卷积运算,生成分别具有不同大小的至少一个测试用转置特征映射,(ii)对所述测试用转置特征映射,应用至少一次与其对应地具有不同步长(Stride)和不同卷积核大小的卷积运算,生成至少一个测试用初始特征映射(Inception Feature Maps)作为测试用第一组;以及(II)将所述测试用第一组中所包含的所述测试用初始特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成与其对应的测试用输出特征映射。
在一个实施例中,其特征在于,
所述测试用第一组中所包含的所述测试用初始特征映射的大小相同,但具有彼此不同的特性。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(I)处理包括如下处理:
(I-1)使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;以及
(I-2)(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组。
在一个实施例中,其特征在于,
在所述(I)处理中,
所述处理器对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用所述卷积运算,生成至少一个测试用初始特征映射作为测试用第二组,
在所述(II)处理中,
所述处理器将所述测试用第一组的所述测试用初始特征映射和所述测试用第二组的所述测试用初始特征映射相连接(concatenating)或按要素相加(Element-WiseAdding),生成所述测试用输出特征映射。
在一个实施例中,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(II)处理包括如下处理:
(II-1)使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;
(II-2)(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组;以及
(II-3)对所述测试图像或从所述第k-1卷积层获取的所所述测试用第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成测试用第m+1至测试用第m+n初始特征映射作为所述测试用第二组。
在一个实施例中,其特征在于,
在所述(I)处理中,
所述处理器对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用至少一次彼此不同大小的最大池化(Max Pooling)运算,生成至少一个测试用最大池化特征映射作为测试用第三组,
在所述(II)处理中,
所述处理器将所述测试用第一组的所述测试用初始特征映射、所述测试用第二组的所述测试用初始特征映射以及所述测试用第三组的所述测试用最大池化特征映射相连接(concatenating)或按要素相加(Element-Wise Adding),生成所述测试用输出特征映射。
发明效果
根据本发明,具有如下效果:对输入图像或从之前的卷积层获取的输入特征映射应用各种大小的转置卷积运算来增加特征映射的大小,对其应用具有与其对应的步长(Stride)的卷积运算,由此将卷积核大小从整数范围扩展到实数范围。
根据本发明,还具有如下效果:在从之前的特征映射获取的输入特征映射中可考虑的感受野(Receptive Field)变得多样化,从而可以得到具有各种特性的特征。
附图说明
本发明的实施例的说明中所用的以下附图仅仅是本发明实施例中的一部分,本领域技术人员在不进行发明操作的情况下,也能够根据这些附图来得出其他附图。
图1是简化示出通常的CNN分割过程的图。
图2a和图2b分别示出用于通过以往的初始方法对图像进行编码的卷积层的各种构成。
图3示出本发明的一个实施例所涉及的图像编码方法。
图4示出本发明的另一个实施例所涉及的图像编码方法。
图5示出本发明的又一个实施例所涉及的图像编码方法。
具体实施方式
后述的针对本发明的详细描述参照附图,该附图是作为例示本发明可实施的特定实施例而图示的。这些实施例被详细说明以使本领域技术人员足以实施本发明。
另外,在本发明的整个说明书和权利要求书中,词语“包括”及其变形并不旨在排除其他技术特征、附加物等、构成要素等或步骤等。对于本领域技术人员来说,本发明的其他目的、优点和特征的一部分可以从本说明书中得出、其他一部分从本发明的实施中得出。以下示例和附图是以举例说明的方式提供的,并不旨在限制本发明。
并且,本发明包括本文提出的实施例的所有可能组合。应该理解的是,本发明的各种实施例是彼此不同的,但不必相互排斥。例如,在不脱离本发明的精神和范围内,可以通过其他实施例来实现这里描述的特定形状、结构和特性。另外,应当理解的是,在不脱离本发明的精神和范围的情况下,可以改变每个公开的实施例中的各个构成要素的位置或配置。因此,以下详细描述不应被视为具有限制意义,并且如果适当地描述,则本发明的范围仅由所附权利要求以及这些权利要求所赋予的等同物的全部范围来限定。附图中相同的附图标记在若干方面中指相同或相似的功能。
本发明中提到的各种图像可以包括与铺砌或未铺砌道路相关的图像,并且在这种情况下,可以包括可能出现在道路环境中的物体(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此,并且本发明中提到的各种图像可以是与道路无关的图像(例如,与未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内相关的图像),在这种情况下,可以象征可能出现在未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的物体(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此。
以下,为了使本领域技术人员能够容易地实施本发明,将参考附图详细描述本发明的优选实施例。
图3示出本发明的一个实施例所涉及的图像编码方法。
在基于CNN(Convolutional Neural Network)的学习装置或测试装置中,第一至第n卷积层分别对输入图像或从之前的卷积层获取的输入特征映射应用至少一次卷积运算,生成第一至第n特征映射。
此时,图3所示的第一至第n卷积层中的至少一个卷积层分别对从之前的卷积层获取的输入特征映射301(或输入图像)应用一个以上的转置卷积运算310、320,生成大小彼此不同地增加后的一个以上的转置特征映射。此处,所述转置卷积运算310、320可以意味着使用反卷积层来扩展特征映射的大小的卷积运算,但也可以包括插值法(Interpolation)或者调整大小(例如,邻近算法(Nearest Neighbor)、线性插值法(Linear Interpolation)等)。当针对输入特征映射301(或输入图像)应用上述一个以上的转置卷积运算310、320时,生成一个以上的转置特征映射311、321。在图3的例示中,第一转置卷积运算310将输入特征映射301的大小增加为两倍,从而第一转置特征映射311的大小为输入特征映射301的大小的两倍,第二转置卷积运算320将输入特征映射301的大小增加为四倍,从而第二转置特征映射321的大小为输入特征映射301的大小的四倍。当然,这样的大小扩展程度仅仅是示例性的,本发明的范围不限于此。
然后,针对上述一个以上的转置特征映射311、321与其对应地执行一个以上的卷积运算330、340。更详细地讲,对所述转置特征映射,与其对应地分别使得步长(Stride)和卷积核大小不同并执行卷积运算330、340,生成与此对应的一个以上的初始特征映射作为第一组302。例如,在第一卷积运算330的步长值为2、第二卷积运算340的步长值为4的状态下,(i)第一转置特征映射311的大小变成输入特征映射301的两倍,因此通过应用步长为2的第一卷积运算330,将第一转置特征映射311的大小变更为与输入特征映射301的大小的相同,(ii)相同地,第二转置特征映射321的大小变成输入特征映射301的四倍,因此通过步长为4的第二卷积运算340,将第二转置特征映射321的大小变更为与输入特征映射301的大小的相同。由此,第一组302内的初始特征映射331、341的大小被形成为相同。
此外,应用于第一卷积运算330和第二卷积运算340的卷积核大小可以分别确定为不同,如e×f和g×h。因此,可以针对输入特征映射301考虑各种感受野(ReceptiveField)。尤其,由于在不同地变更输入特征映射301的大小之后应用各种感受野,因此可以得到应用了以各自的特定倍数缩小后的卷积核大小的效果,所述各自的特定倍数是通过转置卷积运算与其对应地大小增加后的倍数。例如,在图3中,当将e×f的卷积核大小应用于对输入特征映射301应用第一转置卷积运算310而生成的第一转置卷积特征映射311时,对第一转置卷积特征映射311可提供e×f大小的感受野,但对输入特征映射301可提供e/2×f/2的感受野。
在图3的示例中,当第一卷积运算330的步长为2并具有3×3的卷积核大小时,第一组302的第一初始特征映射331可以视为针对输入特征映射301考虑3/2×3/2大小的感受野来生成的,当第二卷积运算340的步长为4并具有5×5的卷积核大小时,第一组302的第二初始特征映射341可以视为针对输入特征映射301考虑5/4×5/4大小的感受野来生成的。
此时,第一组302的初始特征映射331、341具有相同的大小,但具有考虑多种感受野来生成的多种多样的特性。
然后,将如此生成的第一组302中所包含的初始特征映射331、341相连接(Concatenating)或按要素相加(Element-Wise Adding),由此整合为一个输出特征映射303。输出特征映射303可以是与此对应的卷积层的输出,根据输出特征映射303生成的修正后的特征映射可以是与此对应的卷积层的输出。例如,如果被输入到第k卷积层的输入特征映射301为从n个卷积层中的第k-1卷积层输出的第k-1特征映射,则图3所示的运算可以在第k卷积层中执行,输出特征映射303可以是从所述第k卷积层输出的第k特征映射。作为其他示例,为了变更信道和大小而对所述输出特征映射303应用追加卷积运算和诸如ReLU的非线性运算后生成的修正后的特征映射可以是从所述第k卷积层输出的第k特征映射。
另一方面,在本发明的编码方法中,第一卷积层没有之前的卷积层,不是利用输入特征映射,而是利用输入图像来执行图3所示的生成输出特征映射的处理。即,学习装置使第一卷积层(i)对输入图像应用至少一次转置卷积,生成具有彼此不同的大小的至少一个转置特征映射,(ii)在分别对所述至少一个转置特征映射执行卷积运算时,对所述转置特征映射应用具有不同步长和不同卷积核大小的卷积运算,生成至少一个初始特征映射作为第一组。
图4示出本发明的另一个实施例所涉及的图像编码方法。
根据图4所示的另一个实施例,除了图3所示的方法中的第一组302之外,还追加生成第二组402的初始特征映射,将第一组302的初始特征映射和第二组402的初始特征映射相连接或按要素相加,从而整合为输出特征映射303。
具体地,针对输入特征映射301以至少一个以上的卷积核应用卷积运算410、420,生成至少一个初始特征映射411、421作为第二组402。
例如,针对输入特征映射301应用具有a×b大小的卷积核的第三卷积运算410来生成第二组402内的第三初始特征映射411,针对输入特征映射301应用具有c×d大小的卷积核的第四卷积运算420来生成第二组402内的第四初始特征映射421。第三初始特征映射411针对输入特征映射301考虑a×b大小的感受野来生成的,第四初始特征映射421针对输入特征映射301考虑c×d大小的感受野来生成的。
然后,学习装置将第一组302的初始特征映射331、341和第二组402的初始特征映射411、421相连接或按要素相加,整合为输出特征映射303。
图5示出本发明的又一个实施例所涉及的图像编码方法。
根据图5所示的本发明的又一个实施例,除了图3或图4的方法之外,还追加生成第三组502内的初始特征映射。例如。学习装置使用如下方法:将第三组502内的初始特征映射和第一组302内的初始特征映射相连接或按要素相加,或者将第一组302内的初始特征映射、第二组402的初始特征映射以及第三组502的初始特征映射相连接或按要素相加,由此整合为输出特征映射303。
具体地,针对输入特征映射301应用彼此不同大小的最大池化(Max Pooling)运算(例如,图5所示的3×3最大池化),生成最大池化特征映射511作为第三组502。该最大池化运算发挥如下作用:以没有卷积运算的方式,从输入特征映射301仅提取最大值,生成最大池化特征映射511。
然后,学习装置将第一组302的初始特征映射331、341、第三组502的初始特征映射511相连接或按要素相加,或者将第一组302的初始特征映射331、341、第二组402的初始特征映射411、421、第三组502的初始特征映射511相连接或按要素相加,由此整合为输出特征映射303。
另一方面,根据本发明,为了减少运算量,用于减少信道数的1×1卷积运算也可以在生成第一组至第三组的特征映射的中途使用。
学习装置基于所获取的特征映射来获取CNN输出,将参照CNN输出和与其对应的GT来获取的分割损失反向传播(Backpropagation)。
此外,图3至图5所示的图像编码方法还可以应用于测试装置。
即,(i)包含第一至第n卷积层的学习装置使所述卷积层的至少一部分分别对输入图像或从之前的卷积层获取的学习用输入特征映射应用至少一次转置卷积运算(Transposed Convolution Operation),生成具有彼此不同大小的至少一个学习用转置特征映射,(ii)学习装置对学习用转置特征映射,应用至少一次与其对应地具有不同步长(Stride)和不同卷积核大小的卷积运算,生成至少一个学习用初始(Inception)特征映射作为学习用第一组,(iii)学习装置将学习用第一组中所包含的学习用初始特征映射相连接或按要素相加,生成与此对应的学习用输出特征映射,(iv)学习装置基于学习用输出特征映射获取学习用CNN输出,并执行参照学习用CNN输出和与其对应的GT来获取的分割损失的反向传播(Backpropagation),在此状态下,测试装置可以获取测试图像。
然后,测试装置可以使卷积层的至少一部分分别(i)对测试图像或从之前的卷积层获取的测试用输入特征映射应用至少一次转置卷积运算,生成分别具有不同大小的至少一个测试用转置特征映射,(ii)对测试用转置特征映射,应用至少一次与其对应地具有不同步长(Stride)和不同卷积核大小的卷积运算,生成至少一个测试用初始特征映射作为测试用第一组。
然后,测试装置可以将测试用第一组中所包含的测试用初始特征映射相连接或按要素相加,生成与此对应的测试用输出特征映射。
本领域技术人员可以理解的是,上述中描述的图像例如训练图像、测试图像那样的图像数据的收发通过学习装置以及测试装置的通信部来进行,用于执行特征映射的数据可以通过学习装置以及测试装置的处理器(和/或存储器)保留/维持,卷积运算、反卷积运算、损失值运算过程主要由学习装置以及测试装置的处理器来执行,但本发明不限于此。
上述根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机部件执行,并且可以记录在计算机可读记录介质中。计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的程序指令,或者可以是计算机软件领域的技术人员已知并可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录介质,诸如光磁软盘(floptical disk)的磁光介质(magneto-opticalmedia)、以及ROM、RAM、闪存等的特别构成为存储并执行程序指令的硬件装置。程序指令的示例不仅包括由编译器生成的机器代码,还包括可以由计算机使用解释器等执行的高级语言代码。硬件装置可以配置为作为一个或多个软件模块操作来执行根据本发明的处理,反之亦然。
尽管已经通过诸如特定部件和有限的实施例和附图的特定实施例来描述了本发明,但这些仅仅是为了更全面地理解本发明而提供的,本发明不限于上述实施例。对于本领域技术人员来说,可以从这些描述中进行各种修改和变更。
因此,本发明的宗旨不应限于上述实施例,并且不仅是后附权利要求,与这些权利要求等同或等价的变形也包括在本发明的宗旨的范围内。

Claims (28)

1.一种基于CNN的图像编码方法,其特征在于,包括以下步骤:
(a)包含第一至第n卷积层的学习装置获取至少一个输入图像;
(b)所述学习装置使所述卷积层的至少一部分分别执行以下步骤:(i)对所述输入图像或从之前的卷积层获取的输入特征映射应用至少一次转置卷积运算,生成分别具有不同大小的至少一个转置特征映射;(ii)将具有不同步长和不同卷积核大小的卷积运算至少一次应用于与其对应的各个转置特征映射,生成至少一个初始特征映射作为第一组;以及
(c)所述学习装置将所述第一组中所包含的所述初始特征映射相连接或按要素相加,来生成与其对应的输出特征映射。
2.根据权利要求1所述的方法,其特征在于,
所述第一组中所包含的所述初始特征映射的大小相同,但具有彼此不同的特性。
3.根据权利要求1所述的方法,其特征在于,当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述学习装置使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;以及
(b-2)所述学习装置(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组。
4.根据权利要求1所述的方法,其特征在于,
在所述(b)步骤中,所述学习装置对所述输入图像或从之前的卷积层获取的所述输入特征映射应用所述卷积运算,生成至少一个初始特征映射作为第二组,
在所述(c)步骤中,所述学习装置将所述第一组的所述初始特征映射和所述第二组的所述初始特征映射相连接或按要素相加,来生成所述输出特征映射。
5.根据权利要求4所述的方法,其特征在于,当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述学习装置使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;
(b-2)所述学习装置(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组;以及
(b-3)所述学习装置对所述输入图像或从所述第k-1卷积层获取的所述第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成第m+1至第m+n初始特征映射作为所述第二组。
6.根据权利要求4所述的方法,其特征在于,
在所述(b)步骤中,所述学习装置对所述输入图像或从之前的卷积层获取的所述输入特征映射应用至少一次彼此不同大小的最大池化运算,生成至少一个最大池化特征映射作为第三组,
在所述(c)步骤中,所述学习装置将所述第一组的所述初始特征映射、所述第二组的所述初始特征映射以及所述第三组的所述最大池化特征映射相连接或按要素相加,来生成所述输出特征映射。
7.根据权利要求1所述的方法,其特征在于,在所述(b)步骤中,
所述学习装置使所述第一卷积层(i)对所述输入图像应用至少一次转置卷积运算,生成具有彼此不同大小的至少一个转置特征映射,(ii)将具有不同步长和不同卷积核大小的卷积运算至少一次应用于与其对应的各个转置特征映射,生成至少一个初始特征映射作为所述第一组。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
(d)所述学习装置基于从所述第n卷积层输出的所述输出特征映射来获取CNN输出,并执行参照所述CNN输出和与其对应的GT来获取的分割损失的反向传播。
9.一种基于CNN的图像编码方法,其特征在于,包括以下步骤:
(a)在执行以下处理的状态下,测试装置获取至少一个测试图像:(i)包含第一至第n卷积层的学习装置使所述卷积层的至少一部分分别对输入图像或从之前的卷积层获取的学习用输入特征映射应用至少一次转置卷积运算,生成具有彼此不同大小的至少一个学习用转置特征映射;(ii)所述学习装置对所述学习用转置特征映射,应用至少一次与其对应地具有不同步长和不同卷积核大小的卷积运算,生成至少一个学习用初始特征映射作为学习用第一组;(iii)所述学习装置将所述学习用第一组中所包含的所述学习用初始特征映射相连接或按要素相加,来生成与其对应的学习用输出特征映射;以及(iv)所述学习装置基于所述学习用输出特征映射获取学习用CNN输出,并执行参照所述学习用CNN输出和与其对应的GT来获取的分割损失的反向传播;
(b)所述测试装置使所述卷积层的至少一部分分别执行以下步骤:(i)对所述测试图像或从之前的卷积层获取的测试用输入特征映射应用至少一次所述转置卷积运算,生成分别具有不同大小的至少一个测试用转置特征映射;(ii)对所述测试用转置特征映射,应用至少一次与其对应地具有不同步长和不同卷积核大小的卷积运算,生成至少一个测试用初始特征映射作为测试用第一组;以及
(c)所述测试装置将所述测试用第一组中所包含的所述测试用初始特征映射相连接或按要素相加,来生成与其对应的测试用输出特征映射。
10.根据权利要求9所述的方法,其特征在于,
所述测试用第一组中所包含的所述测试用初始特征映射的大小相同,但具有彼此不同的特性。
11.根据权利要求9所述的方法,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述测试装置使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;以及
(b-2)所述测试装置(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小;(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组。
12.根据权利要求9所述的方法,其特征在于,
在所述(b)步骤中,所述测试装置对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用所述卷积运算,生成至少一个测试用初始特征映射作为测试用第二组,
在所述(c)步骤中,所述测试装置将所述测试用第一组的所述测试用初始特征映射和所述测试用第二组的所述测试用初始特征映射相连接或按要素相加,来生成所述测试用输出特征映射。
13.根据权利要求12所述的方法,其特征在于,当至少一个所述卷积层为第k卷积层时,所述(b)步骤包括以下步骤:
(b-1)所述测试装置使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;
(b-2)所述测试装置(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小;(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组;以及
(b-3)所述测试装置对所述测试图像或从所述第k-1卷积层获取的所述测试用第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成测试用第m+1至测试用第m+n初始特征映射作为所述测试用第二组。
14.根据权利要求12所述的方法,其特征在于,
在所述(b)步骤中,所述测试装置对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用至少一次彼此不同大小的最大池化运算,生成至少一个测试用最大池化特征映射作为测试用第三组,
在所述(c)步骤中,所述测试装置将所述测试用第一组的所述测试用初始特征映射、所述测试用第二组的所述测试用初始特征映射以及所述测试用第三组的所述测试用最大池化特征映射相连接或按要素相加,来生成所述测试用输出特征映射。
15.一种学习装置,所述学习装置是包含第一至第n卷积层的用于基于CNN的图像编码的学习装置,其特征在于,包括:
通信部,用于获取至少一个训练图像作为输入图像;以及
处理器,执行以下处理:(I)使所述卷积层的至少一部分分别执行以下步骤:(i)对所述输入图像或从之前的卷积层获取的输入特征映射应用至少一次转置卷积运算,生成分别具有不同大小的至少一个转置特征映射;(ii)将具有不同步长和不同卷积核大小的卷积运算至少一次应用于与其对应的各个转置特征映射,生成至少一个初始特征映射作为第一组;以及(II)将所述第一组中所包含的所述初始特征映射相连接或按要素相加,来生成与其对应的输出特征映射。
16.根据权利要求15所述的装置,其特征在于,
所述第一组中所包含的所述初始特征映射的大小相同,但具有彼此不同的特性。
17.根据权利要求15所述的装置,其特征在于,
当至少一个所述卷积层为第k卷积层时,所述(I)处理包括以下处理:
(I-1)使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;以及
(I-2)(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小;(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组。
18.根据权利要求15所述的装置,其特征在于,
在所述(I)处理中,所述处理器对所述输入图像或从之前的卷积层获取的所述输入特征映射应用所述卷积运算,生成至少一个初始特征映射作为第二组,
在所述(II)处理中,所述处理器将所述第一组的所述初始特征映射和所述第二组的所述初始特征映射相连接或按要素相加,来生成所述输出特征映射。
19.根据权利要求18所述的装置,其特征在于,当至少一个所述卷积层为第k卷积层时,所述(I)处理包括以下处理:
(I-1)使所述第k卷积层对所述输入图像或从第k-1卷积层获取的第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的第一至第m转置特征映射,其中,m是2以上的自然数;
(I-2)(i)分别参照所述第k-1特征映射的大小与所述第一至所述第m转置特征映射各个的大小的比率,决定第一至第m步长的大小;(ii)对所述第一至所述第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成第一至第m初始特征映射作为所述第一组;以及
(I-3)对所述输入图像或从所述第k-1卷积层获取的所述第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成第m+1至第m+n初始特征映射作为所述第二组。
20.根据权利要求18所述的装置,其特征在于,
在所述(I)处理中,所述处理器对所述输入图像或从之前的卷积层获取的所述输入特征映射应用至少一次彼此不同大小的最大池化运算,生成至少一个最大池化特征映射作为第三组,
在所述(II)处理中,所述处理器将所述第一组的所述初始特征映射、所述第二组的所述初始特征映射以及所述第三组的所述最大池化特征映射相连接或按要素相加,来生成所述输出特征映射。
21.根据权利要求15所述的装置,其特征在于,
在所述(I)处理中,所述处理器使所述第一卷积层(i)对所述输入图像应用至少一次转置卷积运算,生成具有彼此不同大小的至少一个转置特征映射;(ii)对所述转置特征映射应用至少一次具有不同步长和不同卷积核大小的卷积运算,生成至少一个初始特征映射作为所述第一组。
22.根据权利要求15所述的装置,其特征在于,
所述处理器还执行以下处理:
(III)基于从所述第n卷积层输出的所述输出特征映射来获取CNN输出,并执行参照所述CNN输出和与其对应的GT来获取的分割损失的反向传播。
23.一种测试装置,用于基于CNN的图像编码,其特征在于,包括:
通信部,在执行以下处理的状态下,获取至少一个测试图像:(i)包含第一至第n卷积层的学习装置使所述卷积层的至少一部分分别对输入图像或从之前的卷积层获取的学习用输入特征映射应用至少一次转置卷积运算,生成具有彼此不同大小的至少一个学习用转置特征映射;(ii)所述学习装置将具有不同步长和不同卷积核大小的卷积运算至少一次应用于与其对应的所述学习用转置特征映射,生成至少一个学习用初始特征映射作为学习用第一组;(iii)所述学习装置将所述学习用第一组中所包含的所述学习用初始特征映射相连接或按要素相加,来生成与其对应的学习用输出特征映射;以及(iv)所述学习装置基于所述学习用输出特征映射获取学习用CNN输出,并执行参照所述学习用CNN输出和与其对应的GT来获取的分割损失的反向传播;以及
处理器,执行以下处理:(I)使所述卷积层的至少一部分分别执行以下步骤:(i)对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用至少一次所述转置卷积运算,生成分别具有不同大小的至少一个测试用转置特征映射;(ii)对所述测试用转置特征映射,应用至少一次与其对应地具有不同步长和不同卷积核大小的卷积运算,生成至少一个测试用初始特征映射作为测试用第一组;以及(II)将所述测试用第一组中所包含的所述测试用初始特征映射相连接或按要素相加,来生成与其对应的测试用输出特征映射。
24.根据权利要求23所述的装置,其特征在于,
所述测试用第一组中所包含的所述测试用初始特征映射的大小相同,但具有彼此不同的特性。
25.根据权利要求23所述的装置,其特征在于,当至少一个所述卷积层为第k卷积层时,所述(I)处理包括以下处理:
(I-1)使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;以及
(I-2)(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小;(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组。
26.根据权利要求23所述的装置,其特征在于,
在所述(I)处理中,所述处理器对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用所述卷积运算,生成至少一个测试用初始特征映射作为测试用第二组,
在所述(II)处理中,所述处理器将所述测试用第一组的所述测试用初始特征映射和所述测试用第二组的所述测试用初始特征映射相连接或按要素相加,来生成所述测试用输出特征映射。
27.根据权利要求26所述的装置,其特征在于,当至少一个所述卷积层为第k卷积层时,所述(II)处理包括以下处理:
(II-1)使所述第k卷积层对所述测试图像或从第k-1卷积层获取的测试用第k-1特征映射应用第一至第m转置卷积运算,生成具有第一至第m大小的测试用第一至第m转置特征映射,其中,m是2以上的自然数;
(II-2)(i)分别参照所述测试用第k-1特征映射的大小与所述测试用第一至所述测试用第m转置特征映射各个的大小的比率,决定第一至第m步长的大小,(ii)对所述测试用第一至所述测试用第m转置特征映射分别应用具有所述第一至所述第m步长的大小和第一至第m卷积核大小的第一至第m卷积滤波器,生成测试用第一至测试用第m初始特征映射作为所述测试用第一组;以及
(II-3)对所述测试图像或从所述第k-1卷积层获取的所所述测试用第k-1特征映射应用具有第m+1至第m+n卷积核大小的第m+1至第m+n卷积滤波器,生成测试用第m+1至测试用第m+n初始特征映射作为所述测试用第二组。
28.根据权利要求26所述的装置,其特征在于,
在所述(I)处理中,所述处理器对所述测试图像或从之前的卷积层获取的所述测试用输入特征映射应用至少一次彼此不同大小的最大池化运算,生成至少一个测试用最大池化特征映射作为测试用第三组,
在所述(II)处理中,所述处理器将所述测试用第一组的所述测试用初始特征映射、所述测试用第二组的所述测试用初始特征映射以及所述测试用第三组的所述测试用最大池化特征映射相连接或按要素相加,来生成所述测试用输出特征映射。
CN201910808347.1A 2018-09-17 2019-08-29 图像编码方法和装置、利用它们的测试方法和测试装置 Active CN110910395B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/132,475 US10282864B1 (en) 2018-09-17 2018-09-17 Method and device for encoding image and testing method and testing device using the same
US16/132,475 2018-09-17

Publications (2)

Publication Number Publication Date
CN110910395A true CN110910395A (zh) 2020-03-24
CN110910395B CN110910395B (zh) 2023-07-28

Family

ID=66333963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910808347.1A Active CN110910395B (zh) 2018-09-17 2019-08-29 图像编码方法和装置、利用它们的测试方法和测试装置

Country Status (5)

Country Link
US (1) US10282864B1 (zh)
EP (1) EP3624016A1 (zh)
JP (1) JP6856851B2 (zh)
KR (1) KR102309702B1 (zh)
CN (1) CN110910395B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200053886A (ko) 2018-11-09 2020-05-19 삼성전자주식회사 뉴럴 프로세싱 유닛, 뉴럴 프로세싱 시스템, 및 어플리케이션 시스템
US11556778B2 (en) * 2018-12-07 2023-01-17 Microsoft Technology Licensing, Llc Automated generation of machine learning models
US10733511B1 (en) * 2019-01-30 2020-08-04 StradVision, Inc. Learning method and learning device for updating HD map by reconstructing 3D space by using depth estimation information and class information on each object, which have been acquired through V2X information integration technique, and testing method and testing device using the same
KR102420104B1 (ko) * 2019-05-16 2022-07-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
CN111988609A (zh) 2019-05-22 2020-11-24 富士通株式会社 图像编码装置、概率模型生成装置和图像解码装置
WO2020255223A1 (ja) * 2019-06-17 2020-12-24 日本電信電話株式会社 識別結果説明装置、識別結果説明方法、及び識別結果説明プログラム
CN110415171B (zh) * 2019-07-08 2021-06-25 北京三快在线科技有限公司 图像处理方法、装置及存储介质、电子设备
CN111179283A (zh) * 2019-12-30 2020-05-19 深圳市商汤科技有限公司 图像语义分割方法及装置、存储介质
US20220226994A1 (en) * 2020-07-20 2022-07-21 Georgia Tech Research Corporation Heterogeneous graph attention networks for scalable multi-robot scheduling
KR20220030084A (ko) * 2020-09-02 2022-03-10 삼성전자주식회사 영상 처리 방법 및 장치
EP4211899A4 (en) * 2020-12-24 2023-11-22 Huawei Technologies Co., Ltd. DECODING WITH FEATURE MAP DATA SIGNALING
US11823490B2 (en) * 2021-06-08 2023-11-21 Adobe, Inc. Non-linear latent to latent model for multi-attribute face editing

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8872869B2 (en) * 2004-11-23 2014-10-28 Hewlett-Packard Development Company, L.P. System and method for correcting defective pixels of a display device
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9785919B2 (en) * 2015-12-10 2017-10-10 General Electric Company Automatic classification of aircraft component distress
US20170360411A1 (en) * 2016-06-20 2017-12-21 Alex Rothberg Automated image analysis for identifying a medical parameter
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
AU2017338783B2 (en) * 2016-10-04 2022-02-10 Magic Leap, Inc. Efficient data layouts for convolutional neural networks
KR101879207B1 (ko) * 2016-11-22 2018-07-17 주식회사 루닛 약한 지도 학습 방식의 객체 인식 방법 및 장치
JP6929047B2 (ja) * 2016-11-24 2021-09-01 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
US20180225554A1 (en) * 2017-02-06 2018-08-09 Honda Motor Co., Ltd. Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture
US10019788B1 (en) * 2017-02-14 2018-07-10 Cogniac, Corp. Machine-learning measurements of quantitative feature attributes
US10685429B2 (en) * 2017-02-22 2020-06-16 Siemens Healthcare Gmbh Denoising medical images by learning sparse image representations with a deep unfolding approach
US10580131B2 (en) * 2017-02-23 2020-03-03 Zebra Medical Vision Ltd. Convolutional neural network for segmentation of medical anatomical images
US10713540B2 (en) * 2017-03-07 2020-07-14 Board Of Trustees Of Michigan State University Deep learning system for recognizing pills in images
CN108509978B (zh) * 2018-02-28 2022-06-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN SZEGEDY ET AL.: "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning" *
JINGJUAN GUO等: "Bi-branch deconvolution-based convolutional neural network for image classification" *

Also Published As

Publication number Publication date
JP6856851B2 (ja) 2021-04-14
EP3624016A1 (en) 2020-03-18
KR102309702B1 (ko) 2021-10-08
JP2020047271A (ja) 2020-03-26
US10282864B1 (en) 2019-05-07
KR20200031993A (ko) 2020-03-25
CN110910395B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110910395B (zh) 图像编码方法和装置、利用它们的测试方法和测试装置
EP3686795B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
KR102246326B1 (ko) 라플라시안 피라미드 네트워크를 이용하여 자율 주행 자동차 레벨 4 및 레벨 5를 만족시키기 위해 요구되는 도로 장애물 검출에 있어서의 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 및 이를 이용한 테스팅 방법 및 테스팅 장치
CN113159051B (zh) 一种基于边缘解耦的遥感图像轻量化语义分割方法
US10496899B1 (en) Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
KR102313604B1 (ko) 멀티 피딩을 적용한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR102313133B1 (ko) 컨벌루션 뉴럴 네트워크로부터 복수의 출력들의 앙상블을 이용하여 통합된 특징 맵을 제공하기 위한 방법 및 장치
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
KR102337383B1 (ko) 하드웨어 최적화에 사용되는 1xK 또는 Kx1 컨벌루션 연산을 이용한 CNN을 학습하는 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR102314524B1 (ko) 자율 주행 상황에서 장애물 검출을 위한 cnn 학습용 이미지 데이터 세트의 생성 방법 및 컴퓨팅 장치
KR20200095336A (ko) 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치
US11100369B2 (en) Training method for tag identification network, tag identification apparatus/method and device
CN111488901B (zh) 在cnn中从多个模块内的输入图像提取特征的方法及装置
Li et al. Automated and lightweight network design via random search for remote sensing image scene classification
EP4064126A1 (en) Methods for training and testing perception network by using images obtained from multiple imaging devices having diverse specifications and learning device and testing device using the same
CN116563683A (zh) 一种基于卷积神经网络和多层感知机的遥感影像场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant