CN110909748A - 应用多馈送的图像编码方法和装置 - Google Patents

应用多馈送的图像编码方法和装置 Download PDF

Info

Publication number
CN110909748A
CN110909748A CN201910808499.1A CN201910808499A CN110909748A CN 110909748 A CN110909748 A CN 110909748A CN 201910808499 A CN201910808499 A CN 201910808499A CN 110909748 A CN110909748 A CN 110909748A
Authority
CN
China
Prior art keywords
feature map
test
generate
mth
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910808499.1A
Other languages
English (en)
Other versions
CN110909748B (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN110909748A publication Critical patent/CN110909748A/zh
Application granted granted Critical
Publication of CN110909748B publication Critical patent/CN110909748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及应用多馈送的图像编码方法和装置。具体涉及一种使用多馈送层能够对至少一个训练图像进行编码的CNN的学习方法,包括:(a)学习装置获取训练图像;以及(b)学习装置使每一个卷积层对训练图像或者从之前的卷积层中获取的主特征映射应用卷积运算来分别生成第一至第n主特征映射,使h个卷积层之一的第k卷积层执行以下步骤:(i)从由第k‑1卷积层中获取的第k‑1主特征映射以及与第k卷积层对应的第m馈送层中,获取按照第k‑1主特征映射的大小来调整训练图像的大小后的第m子特征映射,(ii)整合第m子特征映射以及第k‑1主特征映射来生成第k‑1整合特征映射,(iii)对第k‑1整合特征映射应用卷积运算来生成第k主特征映射。

Description

应用多馈送的图像编码方法和装置
技术领域
本发明涉及应用多馈送的学习方法和学习装置、以及利用它们的测试方法和测试装置。具体涉及如下学习方法和学习装置、以及基于此的测试方法和测试装置:一种学习方法,其特征在于,所述学习方法是使用多馈送层能够对至少一个训练图像进行编码的CNN(Convolutional Neural Network,卷积神经网络)的学习方法,所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述学习方法包括如下步骤:
(a)学习装置获取所述训练图像;以及
(b)所述学习装置使所述每一个卷积层对所述训练图像或者从之前的卷积层获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射,所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从由第k-1卷积层获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射,
(ii)整合所述第m子特征映射以及所述第k-1主特征映射来生成第k-1整合特征映射,
(iii)对所述第k-1整合特征映射应用所述卷积运算来生成第k主特征映射。
背景技术
深度学习是一种用于对事物或数据进行聚类或分类的技术。例如,计算机不能只通过照片来区分狗和猫。但人们可以很容易地区分它们。为此,设计了一种称为“机器学习(Machine Learning)”的方法。这是一种将大量数据输入到计算机并分类类似物体的技术。当输入与所存储的狗的照片类似的照片时,计算机将其分类为狗的照片。
已经出现了许多关于如何对数据进行分类的机器学习算法。以“决策树”、“贝叶斯网络”、“支持向量机(SVM)”和“人工神经网络”为代表。深度学习是人工神经网络的后代。
深度卷积神经网络(Deep Convolution Neural Networks;Deep CNNs)是深度学习的惊人发展的核心。CNNs已经在90年代用于解决文字识别问题,但如现在这样被广泛使用源自最近的研究结果。这些深度CNN在2012年ImageNet图像分类竞赛中击败了其他竞争对手并赢得了冠军。然后,卷积神经网络已成为机器学习(Machine Learning)领域非常有用的工具。
图1是利用CNN来示意性示出输入图像的通常的馈送过程的图。
参照图1,在以往的CNN运算过程中,CNN接收一次输入图像101的输入。例如,CNN接收输入图像的输入,在多个卷积层中执行多次的卷积运算和ReLU等非线性运算来依次生成特征映射(feature map)102、103和104。然后,最终特征映射104或者特征映射等中至少一部分用于对象检测中,或者用于分割结果的获取中。
在这样的以往的CNN运算过程中,存在如下问题:当输入图像被馈送一次时,通过多个卷积层生成特征映射,从而输入图像的细节被丢失。
发明内容
发明所要解决的问题
本发明的目的在于解决上述问题点。
本发明的其他目的在于,提供一种即使在CNN装置中应用连续的卷积运算的情况下也能够保有输入图像的详细信息的方法。
用于解决问题的手段
根据本发明的一个方式,提供一种学习方法,其特征在于,
所述学习方法是使用多馈送层能够对至少一个训练图像进行编码的CNN(Convolutional Neural Network,卷积神经网络)的学习方法,所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述学习方法包括以下步骤:
(a)学习装置获取所述训练图像;以及
(b)所述学习装置使所述每一个卷积层对所述训练图像或者从之前的卷积层中获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射,所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从由第k-1卷积层中获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射,
(ii)整合所述第m子特征映射以及所述第k-1主特征映射来生成第k-1整合特征映射,
(iii)对所述第k-1整合特征映射应用所述卷积运算来生成第k主特征映射。
在一个实施例中,提供一种方法,其特征在于,
所述(b)步骤包括如下步骤:
(b-1)所述学习装置使所述第m馈送层按照所述第k-1主特征映射的所述大小来调整所述训练图像的大小,生成调整大小后的第m训练图像;
(b-2)所述学习装置使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射;
(b-3)所述学习装置使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(b-4)所述学习装置使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
在一个实施例中,提供一种方法,其特征在于,
在所述(b-3)步骤中,逐像素相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。
在一个实施例中,提供一种方法,其特征在于,
在所述(b-3)步骤中,将所述第k-1主特征映射和所述第m子特征映射连接(Concatenate)起来生成所述第k-1整合特征映射。
在一个实施例中,提供一种方法,其特征在于,
在所述(b-2)步骤中,对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射,以使得所述第m子特征映射的通道数与所述第k-1主特征映射的通道数对应。
在一个实施例中,提供一种方法,其特征在于,
所述(b)步骤包括以下步骤:
(b-1)所述学习装置使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算生成所述第m子特征映射,使所述第m子特征映射具有与所述第k-1主特征映射的大小对应的大小;
(b-2)所述学习装置使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(b-3)所述学习装置使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
在一个实施例中,提供一种方法,其特征在于,
在所述(b-1)步骤中,生成所述第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述第k-1主特征映射的所述大小以及所述通道数对应。
在一个实施例中,提供一种方法,其特征在于,还包括以下步骤:
(c)所述学习装置使至少一个FC(Fully Connected,全连接)层对所述第n主特征映射应用至少一个FC运算,生成对所述训练图像内的至少一个对象的检测结果;以及
(d)所述学习装置参照所述检测结果及其对应的GT(Ground Truth,地面实况)来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
在一个实施例中,提供一种方法,其特征在于,还包括以下步骤:
(c)所述学习装置使解码层将所述第n主特征映射输入到所述解码层来生成分割结果;以及
(d)所述学习装置参照所述分割结果及其对应的GT来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
根据本发明的其他方式,提供一种卷积神经网络的测试方法,其特征在于,
所述测试方法是使用多馈送层能够对至少一个测试图像进行编码的CNN(Convolutional Neural Network,卷积神经网络)的测试方法,所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述测试方法包括以下步骤:
(a)在学习装置执行以下处理的状态下,测试装置获取所述测试图像:
(1)使所述每一个卷积层对至少一个训练图像或者从之前的卷积层中获取的学习用主特征映射应用所述卷积运算来分别生成所述学习用第一至第n主特征映射,所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从由第k-1卷积层中获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述学习用第k-1
主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射,
(ii)整合所述第m子特征映射以及所述学习用第k-1主特征映射来生成学习用第k-1整合特征映射,
(iii)对所述学习用第k-1整合特征映射应用所述卷积运算来生成学习用第k主特征映射;以及
(2)学习所述CNN的一个以上的参数;以及
(b)所述测试装置使所述每一个卷积层对所述测试图像或者从之前的卷积层中获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射,所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从由第k-1卷积层中获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述测试用第k-1
主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射,
(ii)整合所述第m子特征映射以及所述测试用第k-1主特征映射来生成测试用第k-1整合特征映射,
(iii)对所述测试用第k-1整合特征映射应用所述卷积运算来生成测试用第k主特征映射。
在一个实施例中,提供一种方法,其特征在于,
所述(b)步骤包括以下步骤:
(b-1)所述测试装置使所述第m馈送层按照所述测试用第k-1主特征映射的所述大小来调整所述测试图像的大小,生成调整大小后的第m测试图像;
(b-2)所述测试装置使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算来生成所述测试用第m子特征映射;
(b-3)所述测试装置使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(b-4)所述测试装置使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
在一个实施例中,提供一种方法,其特征在于,
在所述(b-3)步骤中,逐像素相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。
在一个实施例中,提供一种方法,其特征在于,
在所述(b-3)步骤中,将所述测试用第k-1主特征映射和所述测试用第m子特征映射连接起来生成所述测试用第k-1整合特征映射。
在一个实施例中,提供一种方法,其特征在于,
所述(b)步骤包括以下步骤:
(b-1)所述测试装置使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射,使所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小;
(b-2)所述测试装置使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(b-3)所述测试装置使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
在一个实施例中,提供一种方法,其特征在于,
在所述(b-1)步骤中,生成所述测试用第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述测试用第k-1主特征映射的所述大小以及所述通道数对应。
根据本发明的另一个方式,提供一种学习装置,其特征在于,
所述学习装置是使用多馈送层能够对至少一个训练图像进行编码的CNN(Convolutional Neural Network,卷积神经网络)的学习装置,所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述学习装置包括:
通信部,获取所述训练图像;以及
处理器,执行以下处理:(I)使所述每一个卷积层对所述训练图像或者从之前的卷积层中获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射,使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从第k-1卷积层中获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射,
(ii)整合所述第m子特征映射以及所述第k-1主特征映射来生成第k-1整合特征映射,
(iii)对所述第k-1整合特征映射应用所述卷积运算来生成第k主特征映射。
在一个实施例中,提供一种装置,其特征在于,
所述(I)处理中,所述处理器执行如下处理:
(I-1)使所述第m馈送层按照所述第k-1主特征映射的所述大小来调整所述训练图像的大小,生成调整大小后的第m训练图像;
(I-2)使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射;
(I-3)使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(I-4)使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
在一个实施例中,提供一种装置,其特征在于,
在所述(I-3)处理中,逐像素相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。
在一个实施例中,提供一种装置,其特征在于,
在所述(I-3)处理中,将所述第k-1主特征映射和所述第m子特征映射连接起来生成所述第k-1整合特征映射。
在一个实施例中,提供一种装置,其特征在于,
在所述(I-2)处理中,对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射,以使得所述第m子特征映射的通道数与所述第k-1主特征映射的通道数对应。
在一个实施例中,提供一种装置,其特征在于,
在所述(I)处理中,所述处理器执行以下处理:
(I-1)使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算生成所述第m子特征映射,使所述第m子特征映射具有与所述第k-1主特征映射的大小对应的大小;
(I-2)使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(I-3)使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
在一个实施例中,提供一种装置,其特征在于,
在所述(I-1)处理中,生成所述第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述第k-1主特征映射的所述大小以及所述通道数对应。
在一个实施例中,提供一种装置,其特征在于,
所述处理器还执行以下处理:
(II)使至少一个FC(Fully Connected,全连接)层对所述第n主特征映射应用至少一个FC运算,生成对所述训练图像内的至少一个对象的检测结果;以及
(III)参照所述检测结果及其对应的GT(Ground Truth,地面实况)来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
在一个实施例中,提供一种装置,其特征在于,
述处理器还执行以下处理:
(II)使解码层将所述第n主特征映射输入到所述解码层来生成分割结果;以及
(III)参照所述分割结果及其对应的GT来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
根据本发明又另一个方式,提供一种测试装置,其特征在于,
所述测试装置是使用多馈送层能够对至少一个测试图像进行编码的CNN(Convolutional Neural Network,卷积神经网络)的测试装置,所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述测试装置包括:
通信部,学习装置执行以下处理的状态下,获取所述测试图像:
(1)使所述每一个卷积层对至少一个训练图像或者从之前的卷积层中获取的学习用主特征映射应用所述卷积运算来分别生成所述学习用第一至第n主特征映射,所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从第k-1卷积层中获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述学习用第k-1主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射,
(ii)整合所述第m子特征映射以及所述学习用第k-1主特征映射来生成学习用第k-1整合特征映射,
(iii)对所述学习用第k-1整合特征映射应用所述卷积运算来生成学习用第k主特征映射;以及
(2)学习所述CNN的一个以上的参数;以及
处理器,执行以下处理:(I)使所述每一个卷积层对所述测试图像或者从之前的卷积层中获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射,所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从第k-1卷积层中获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述测试用第k-1主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射,
(ii)整合所述第m子特征映射以及所述测试用第k-1主特征映射来生成测试用第k-1整合特征映射,
(iii)对所述测试用第k-1整合特征映射应用所述卷积运算来生成测试用第k主特征映射。
在一个实施例中,提供一种装置,其特征在于,
所述处理器执行以下处理:
(I-1)使所述第m馈送层按照所述测试用第k-1主特征映射的所述大小来调整所述测试图像的大小,生成调整大小后的第m测试图像;
(I-2)使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算来生成所述测试用第m子特征映射;
(I-3)使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(I-4)使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
在一个实施例中,提供一种装置,其特征在于,
在所述(I-3)处理中,逐像素相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。
在一个实施例中,提供一种装置,其特征在于,
在所述(I-3)处理中,将所述测试用第k-1主特征映射和所述测试用第m子特征映射连接起来生成所述测试用第k-1整合特征映射。
在一个实施例中,提供一种装置,其特征在于,
所述处理器执行以下处理:
(I-1)使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射,使所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小;
(I-2)使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(I-3)使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
在一个实施例中,提供一种装置,其特征在于,
所述处理器在(I-1)处理中,生成所述测试用第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述测试用第k-1主特征映射的所述大小以及所述通道数对应。
发明效果
根据本发明,不仅在CNN的第一卷积层,在CNN的其他卷积层中也能够利用输入图像的信息,因此即使通过经由CNN的连续的卷积运算,也能够更有效地保有输入图像的详细信息。
附图说明
本发明的实施例的说明中所用的以下附图仅仅是本发明实施例中的一部分,本领域技术人员在不进行发明操作的情况下,也能够根据这些附图来得出其他附图。
图1是利用以往的通常CNN来示意性示出输入图像的馈送过程的图。
图2是示意性示出根据本发明的CNN的多馈送构成的图。
图3是示例性示出将多馈送应用到根据本发明的输入图像来生成特征映射的过程的图。
具体实施方式
后述的针对本发明的详细描述参照附图,该附图是作为例示本发明可实施的特定实施例而图示的。这些实施例被详细说明以使本领域技术人员足以实施本发明。应该理解的是,本发明的各种实施例虽然彼此不同,但并不是相互排斥的。例如,在不脱离本发明的精神和范围内,可以通过其他实施例来实现这里描述的特定形状、结构和特性。另外,应当理解的是,在不脱离本发明的精神和范围的情况下,可以改变每个公开的实施例中的各个构成要素的位置或配置。因此,以下的详细描述不应被视为具有限制意义,如果适当地描述,则本发明的范围仅由所附权利要求以及与这些权利要求所主张范围的等同的全部范围来限定。附图中相同的附图标记在若干方面中指相同或相似的功能。
本发明中提到的各种图像可以包括与铺砌或未铺砌道路相关的图像,并且在这种情况下,可以包括可能出现在道路环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此,并且本发明中提到的各种图像可以是与道路无关的图像(例如,与未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内相关的图像),在这种情况下,可以象征可能出现在未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的对象(例如,如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物),但并不限于此。
另外,在本发明的整个说明书和权利要求书中,词语“包括”及其变形并不旨在排除其他技术特征、附加物等、构成要素等或步骤等。对于本领域技术人员来说,本发明的其他目的、优点和特征的一部分可以从本说明书中得出、其他一部分从本发明的实施中得出。以下示例和附图是以举例说明的方式提供的,并不旨在限制本发明。
以下,为了使本领域技术人员能够容易地实施本发明,参考附图详细描述本发明的优选实施例。
图2是示意性示出根据本发明的CNN的多馈送构成的图。
参照图2,根据本发明的CNN具有如下构成:当从多个卷积层依次生成主要特征映射201、202、203时,卷积层使用至少一个输入图像101的调整大小后的信息。
即,如图2所示,在学习装置中使用的CNN或在测试装置中使用的CNN可以获取输入图像101,并使第一卷积层生成第一主特征映射201。另外,CNN使第二卷积层生成第二主特征映射202,通过将第一整合特征映射输入到第二卷积层来能够生成第二主特征映射202,该第一整合特征映射是整合了参照输入图像101生成的第一子特征映射211和第一主特征映射的输入图像。此时,在将输入图像101调整成第一主特征映射201的大小来生成调整大小后的第一输入图像111之后,对调整大小后的第一输入图像111应用一个以上的卷积运算来生成第一子特征映射211。另外,CNN使第三卷积层生成第三主特征映射203,可以将第二整合特征映射输入到第三卷积层来生成第三主特征映射203,该第二整合特征映射是整合了参照输入图像101生成的第二子特征映射212和第二主特征映射的输入图像。此时,在将输入图像101调整成第二主特征映射202的大小来生成调整大小后的第二输入图像112之后,对调整大小后的第二输入图像112应用卷积运算来生成第二子特征映射212。
另一方面,在整合特定主特征映射和特定子特征映射时,可以逐像素相加两个特征映射来生成。此时,由于特定子特征映射必须具有与特定主要特征映射201相同数量的通道数,因此当对调整大小后的特定输入图像应用卷积运算时,执行1×1卷积运算,以使通道数与特定主要特征映射的通道数相匹配。在其他示例中,当整合特定主特征映射和特定子特征映射时,可以通过将两个特征映射连接(concatenated)起来生成。此时,特定主特征映射和特定子特征映射的通道数不一定相同。
根据本发明的CNN在每个卷积层中生成特征映射时,可以分别调整输入图像的大小并馈送给所有卷积层,但也可以使用对卷积层中的一部分卷积层馈送输入图像的构成。
图3是示例性地示出将多馈送应用到根据本发明的输入图像来生成特征映射的过程的图。
根据本发明的CNN(例如,CNN学习装置)包括第一至第n卷积层,对至少一个训练图像应用卷积运算来分别生成第一至第n主特征映射。另一方面,根据本发明的CNN还可以包括与n个卷积层中的h(h是1至n-1的任意整数)个卷积层联动的第一至第h馈送层。当然,还可以包括n-1个馈送层,以使其均与除了第一卷积层(第一卷积层直接受到训练图像的馈送,从而没有联动的馈送层)之外的剩余的n-1个卷积层联动,但为了减少运算量,也可以仅仅包括分别与h个卷积层联动的h个馈送层,以使其与第二至第n卷积层中的一部分卷积层联动。
参照图3,对被输入到CNN的n个卷积层的训练图像或者从之前的卷积层中获取的主特征映射应用至少一个卷积运算来分别生成第一至第n主特征映射,此时,第二至第n卷积层中的与第一至第h馈送层对应的h个卷积层执行如下的特征映射生成过程。
假设h个卷积层中的任意的特定卷积层为n个卷积层中的第k个卷积层,则第k卷积层320可以从第k卷积层320之前的第k-1卷积层310中获取的第k-1主特征映射312以及与第k卷积层320对应的第m馈送层410中,获取按照第k-1主特征映射312的大小来调整训练图像101的大小后的第m子特征映射412。然后,第k卷积层320可以将所获取的第m子特征映射412整合到第k-1主特征映射312来生成第k-1整合特征映射321,对第k-1整合特征映射321应用至少一个卷积运算来生成第k主特征映射322。
如下,参照图3,针对该过程进行详细说明。
首先,与第k卷积层320对应的第m馈送层410可以通过将训练图像100的大小调整成符合在第k-1卷积层310中生成的第k-1主特征映射312的大小来生成调整大小后的第m训练图像411,并可以对调整大小后的第m训练图像411应用卷积运算来生成第m子特征映射412。为了与第k-1主特征映射312之间的整合,可以对调整大小后的第m训练图像411应用卷积运算来可生成第m子特征映射。另外,为了逐像素相加整合,可以应用卷积运算来使第m子特征映射412的通道数与第k-1主特征映射312的通道数相同。然后,第k卷积层320可以整合第k-1主特征映射312与第m子特征映射412来生成第k-1整合特征映射321。然后,第k卷积层320可以对第k-1整合特征映射321应用卷积运算来生成第k主特征映射322。如上所述,第k卷积层320可以将第k-1主特征映射312与第m子特征映射412逐像素相加来生成第k-1整合特征映射321,也可以将第k-1主特征映射312与第m子特征映射412连接起来生成第k-1整合特征映射321。
同样地,与第k+1卷积层330对应的第m+1馈送层420可以通过将训练图像101的大小调整成符合在第k卷积层320生成的第k主特征映射322的大小来生成调整大小后的第m+1训练图像421,并可以对调整大小后的第m+1训练图像421应用卷积运算来生成第m+1子特征映射422。然后,第k+1卷积层330可以整合第k主特征映射322和第m+1子特征映射422来生成第k整合特征映射331。然后,第k+1卷积层330可以对第k整合特征映射331应用卷积运算来生成第k+1主特征映射332。
另一方面,虽然图3中没有图示,但在本发明的其他实施例中,可以没有对训练图像101调整大小的过程,而应用卷积运算来变更训练图像101的大小和通道数,从而生成各子特征映射。此时,第m馈送层410对训练图像101应用卷积运算来生成第m子特征映射412,以使其符合从第k-1卷积层310输出的第k-1主特征映射312的大小,第k卷积层320可以整合第k-1主特征映射312和第m子特征映射412来生成第k-1整合特征映射321。同样地,第m+1馈送层420对训练图像101应用卷积运算来生成第m+1子特征映射422,以使其符合从第k卷积层320输出的第k主特征映射322的大小,第k+1卷积层330可以整合第k主特征映射322和第m+1子特征映射422来生成第k整合特征映射331。
当通过这样的过程来生成第n主特征映射时,CNN可以执行符合CNN的目的的追加运算。假设CNN是用于至少一个特定对象的检测学习的学习装置,则对第n主特征映射执行至少一个FC运算来获取对训练图像101内的特定对象的检测结果,利用检测结果和GT值来计算损失之后,通过反向传播损失来学习CNN的至少一个参数。假设CNN是用于学习分割结果的学习装置,则学习装置使解码层将第n主特征映射输入到解码层来获取分割结果,利用分割结果和GT值来计算损失,通过反向传播损失来学习CNN的参数。
在CNN为测试装置的情况下,将以上描述的过程应用到测试方法来得到至少一个测试用CNN输出。
此时,在通过学习装置经由上述过程学习CNN参数的状态下,测试装置可以为了测试至少一个测试图像而生成CNN输出。即,测试装置使每一个卷积层对测试图像或从之前的卷积层中获取的测试用主特征映射应用卷积运算来生成测试用第一至第n主特征映射,使第二至第n卷积层中的与第一至第h馈送层对应的h个卷积层中的至少第k卷积层(其中,k是2至n之间的自然数,h个卷积层中的一个),从第k卷积层的之前的第k-1卷积层中获取的测试用第k-1主特征映射以及与第k卷积层对应的第m馈送层中,获取按照测试用第k-1主特征映射的大小来调整测试图像的大小后的测试用第m子特征映射,整合第m子特征映射以及测试用第k-1主特征映射来生成测试用第k-1整合特征映射,对测试用第k-1整合特征映射应用卷积运算来生成测试用第k主特征映射。然后,对第n主特征映射应用FC运算,获取对测试图像内的至少一个特定对象的检测结果,或者将测试用第n主特征映射输入到解码层来获取测试用分割结果。
如上所述,根据本发明的对输入图像应用了多馈送层的CNN不仅能够将输入图像的详细信息提供给第一卷积层,也能够将输入图像的详细信息提供给第二以上的卷积层,可以维持因多次卷积运算而消失的输入图像的详细信息。
本领域技术人员可以理解的是,上述中描述的图像例如训练图像、测试图像那样的图像数据的收发通过学习装置以及测试装置的通信部来进行,用于执行特征映射的数据可以通过学习装置以及测试装置的处理器(和/或存储器)保留/维持,卷积运算、反卷积运算、损失值运算过程主要由学习装置以及测试装置的处理器来执行,但本发明不限于此。
上述根据本发明的实施例可以以程序指令的形式实现,该程序指令可以由各种计算机部件执行,并且可以记录在计算机可读记录介质中。计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的程序指令,或者可以是计算机软件领域的技术人员已知并可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录介质,诸如光磁软盘(floptical disk)的磁光介质(magneto-opticalmedia)、以及ROM、RAM、闪存等的特别构成为存储并执行程序指令的硬件装置。程序指令的示例不仅包括由编译器生成的机器代码,还包括可以由计算机使用解释器等执行的高级语言代码。硬件装置可以配置为作为一个或多个软件模块操作来执行根据本发明的处理,反之亦然。
尽管已经通过诸如特定部件和有限的实施例和附图的特定实施例来描述了本发明,但这些仅仅是为了更全面地理解本发明而提供的,本发明不限于上述实施例。对于本领域技术人员来说,可以从这些描述中进行各种修改和变更。
因此,本发明的宗旨不应限于上述实施例,并且不仅是后附权利要求,与这些权利要求等同或等价的变形也包括在本发明的宗旨的范围内。

Claims (30)

1.一种学习方法,其特征在于,
所述学习方法是使用多馈送层能够对至少一个训练图像进行编码的CNN的学习方法,所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述学习方法包括以下步骤:
(a)学习装置获取所述训练图像;以及
(b)所述学习装置使所述每一个卷积层对所述训练图像或者从之前的卷积层获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射,所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从由第k-1卷积层获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射;
(ii)整合所述第m子特征映射以及所述第k-1主特征映射来生成第k-1整合特征映射;
(iii)对所述第k-1整合特征映射应用所述卷积运算来生成第k主特征映射。
2.根据权利要求1所述的方法,其特征在于,
所述(b)步骤包括如下步骤:
(b-1)所述学习装置使所述第m馈送层按照所述第k-1主特征映射的所述大小来调整所述训练图像的大小,生成调整大小后的第m训练图像;
(b-2)所述学习装置使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射;
(b-3)所述学习装置使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(b-4)所述学习装置使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
3.根据权利要求2所述的方法,其特征在于,
在所述(b-3)步骤中,逐像素地相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。
4.根据权利要求2所述的方法,其特征在于,
在所述(b-3)步骤中,将所述第k-1主特征映射和所述第m子特征映射连接起来生成所述第k-1整合特征映射。
5.根据权利要求2所述的方法,其特征在于,
在所述(b-2)步骤中,对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射,以使得所述第m子特征映射的通道数与所述第k-1主特征映射的通道数对应。
6.根据权利要求1所述的方法,其特征在于,
所述(b)步骤包括如下步骤:
(b-1)所述学习装置使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算生成所述第m子特征映射,使所述第m子特征映射具有与所述第k-1主特征映射的大小对应的大小;
(b-2)所述学习装置使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(b-3)所述学习装置使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
7.根据权利要求6所述的方法,其特征在于,
在所述(b-1)步骤中,生成所述第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述第k-1主特征映射的所述大小以及所述通道数对应。
8.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
(c)所述学习装置使至少一个全连接层对所述第n主特征映射应用至少一个全连接运算,生成对所述训练图像内的至少一个对象的检测结果;以及
(d)所述学习装置参照所述检测结果及其对应的地面实况来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
9.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
(c)所述学习装置使解码层将所述第n主特征映射输入到所述解码层来生成分割结果;以及
(d)所述学习装置参照所述分割结果及其对应的地面实况来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
10.一种测试方法,其特征在于,
所述测试方法是使用多馈送层能够对至少一个测试图像进行编码的CNN的测试方法,所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述测试方法包括以下步骤:
(a)在学习装置执行以下处理的状态下,测试装置获取所述测试图像:
(1)使所述每一个卷积层对至少一个训练图像或者从之前的卷积层获取的学习用主特征映射应用所述卷积运算来分别生成所述学习用第一至第n主特征映射,所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:(i)从由第k-1卷积层获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述学习用第k-1主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射;(ii)整合所述第m子特征映射以及所述学习用第k-1主特征映射来生成学习用第k-1整合特征映射;(iii)对所述学习用第k-1整合特征映射应用所述卷积运算来生成学习用第k主特征映射;以及
(2)学习所述CNN的一个以上的参数;以及
(b)所述测试装置使所述每一个卷积层对所述测试图像或者从之前的卷积层获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射,所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:(i)从由第k-1卷积层获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述测试用第k-1主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射;(ii)整合所述第m子特征映射以及所述测试用第k-1主特征映射来生成测试用第k-1整合特征映射;(iii)对所述测试用第k-1整合特征映射应用所述卷积运算来生成测试用第k主特征映射。
11.根据权利要求10所述的方法,其特征在于,所述(b)步骤包括以下步骤:
(b-1)所述测试装置使所述第m馈送层按照所述测试用第k-1主特征映射的所述大小来调整所述测试图像的大小,生成调整大小后的第m测试图像;
(b-2)所述测试装置使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算来生成所述测试用第m子特征映射;
(b-3)所述测试装置使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(b-4)所述测试装置使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
12.根据权利要求11所述的方法,其特征在于,
在所述(b-3)步骤中,逐像素地相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。
13.根据权利要求11所述的方法,其特征在于,
在所述(b-3)步骤中,将所述测试用第k-1主特征映射和所述测试用第m子特征映射连接起来生成所述测试用第k-1整合特征映射。
14.根据权利要求10所述的方法,其特征在于,所述(b)步骤包括如下步骤:
(b-1)所述测试装置使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射,来使得所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小;
(b-2)所述测试装置使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(b-3)所述测试装置使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
15.根据权利要求14所述的方法,其特征在于,
在所述(b-1)步骤中,生成所述测试用第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述测试用第k-1主特征映射的所述大小以及所述通道数对应。
16.一种学习装置,其特征在于,
所述学习装置是使用多馈送层能够对至少一个训练图像进行编码的CNN的学习装置,所述CNN包括对所述训练图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述学习装置包括:
通信部,获取所述训练图像;以及
处理器,执行以下处理:(I)使所述每一个卷积层对所述训练图像或者从之前的卷积层获取的主特征映射应用所述卷积运算来分别生成所述第一至第n主特征映射,使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行如下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:
(i)从由第k-1卷积层获取的第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述第k-1主特征映射的大小来调整所述训练图像的大小后的第m子特征映射;
(ii)整合所述第m子特征映射以及所述第k-1主特征映射来生成第k-1整合特征映射;
(iii)对所述第k-1整合特征映射应用所述卷积运算来生成第k主特征映射。
17.根据权利要求16所述的装置,其特征在于,
所述(I)处理中,所述处理器执行以下处理:
(I-1)使所述第m馈送层按照所述第k-1主特征映射的所述大小来调整所述训练图像的大小,生成调整大小后的第m训练图像;
(I-2)使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射;
(I-3)使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(I-4)使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
18.根据权利要求17所述的装置,其特征在于,
在所述(I-3)处理中,逐像素地相加所述第k-1主特征映射和所述第m子特征映射来生成所述第k-1整合特征映射。
19.根据权利要求17所述的装置,其特征在于,
在所述(I-3)处理中,将所述第k-1主特征映射和所述第m子特征映射连接起来生成所述第k-1整合特征映射。
20.根据权利要求17所述的装置,其特征在于,
在所述(I-2)处理中,对所述调整大小后的第m训练图像应用所述卷积运算来生成所述第m子特征映射,以使得所述第m子特征映射的通道数与所述第k-1主特征映射的通道数对应。
21.根据权利要求16所述的装置,其特征在于,在所述(I)处理中,所述处理器执行以下处理:
(I-1)使所述第m馈送层对所述调整大小后的第m训练图像应用所述卷积运算生成所述第m子特征映射,来使得所述第m子特征映射具有与所述第k-1主特征映射的大小对应的大小;
(I-2)使所述第k卷积层整合所述第k-1主特征映射以及所述第m子特征映射来生成所述第k-1整合特征映射;以及
(I-3)使所述第k卷积层对所述第k-1整合特征映射应用所述卷积运算来生成所述第k主特征映射。
22.根据权利要求21所述的装置,其特征在于,
在所述(I-1)处理中,生成所述第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述第k-1主特征映射的所述大小以及所述通道数对应。
23.根据权利要求16所述的装置,其特征在于,所述处理器还执行以下处理:
(II)使至少一个全连接层对所述第n主特征映射应用至少一个全连接运算,生成对所述训练图像内的至少一个对象的检测结果;以及
(III)参照所述检测结果及其对应的地面实况来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
24.根据权利要求16所述的装置,其特征在于,
所述处理器还执行如下处理:
(II)使解码层将所述第n主特征映射输入到所述解码层来生成分割结果;以及
(III)参照所述分割结果及其对应的地面实况来输出一个以上的损失值,通过反向传播所述损失值来学习所述CNN的一个以上的参数。
25.一种测试装置,其特征在于,
所述测试装置是使用多馈送层能够对至少一个测试图像进行编码的CNN的测试装置,所述CNN包括对所述测试图像应用至少一次以上的卷积运算来分别生成第一至第n主特征映射的第一至第n卷积层,并包括分别与所述n个卷积层中h个卷积层的每一层对应的第一至第h馈送层,所述h是1至n-1的整数,所述测试装置包括:
通信部,在学习装置执行以下处理的状态下,获取所述测试图像:
(1)使所述每一个卷积层对至少一个训练图像或者从之前的卷积层获取的学习用主特征映射应用所述卷积运算来分别生成所述学习用第一至第n主特征映射,所述学习装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:(i)从由第k-1卷积层获取的学习用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述学习用第k-1主特征映射的大小来调整所述训练图像的大小后的学习用第m子特征映射;(ii)整合所述第m子特征映射以及所述学习用第k-1主特征映射来生成学习用第k-1整合特征映射;(iii)对所述学习用第k-1整合特征映射应用所述卷积运算来生成学习用第k主特征映射;以及
(2)学习所述CNN的一个以上的参数;以及
处理器,执行以下处理:(I)使所述每一个卷积层对所述测试图像或者从之前的卷积层获取的测试用主特征映射应用所述卷积运算来生成所述测试用第一至第n主特征映射,所述测试装置使分别与所述第一至第h馈送层的每一层对应的所述h个卷积层之一的第k卷积层执行以下步骤,其中,所述h个卷积层选自所述第二至第n卷积层:(i)从第k-1卷积层获取的测试用第k-1主特征映射以及与所述第k卷积层对应的第m馈送层中,获取按照所述测试用第k-1主特征映射的大小来调整所述测试图像的大小后的测试用第m子特征映射;(ii)整合所述第m子特征映射以及所述测试用第k-1主特征映射来生成测试用第k-1整合特征映射;(iii)对所述测试用第k-1整合特征映射应用所述卷积运算来生成测试用第k主特征映射。
26.根据权利要求25所述的装置,其特征在于,所述处理器执行以下处理:
(I-1)使所述第m馈送层按照所述测试用第k-1主特征映射的所述大小来调整所述测试图像的大小,生成调整大小后的第m测试图像;
(I-2)使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算来生成所述测试用第m子特征映射;
(I-3)使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(I-4)使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
27.根据权利要求26所述的装置,其特征在于,
在所述(I-3)处理中,逐像素地相加所述测试用第k-1主特征映射和所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射。
28.根据权利要求26所述的装置,其特征在于,
在所述(I-3)处理中,将所述测试用第k-1主特征映射和所述测试用第m子特征映射连接起来生成所述测试用第k-1整合特征映射。
29.根据权利要求25所述的装置,其特征在于,所述处理器执行以下处理:
(I-1)使所述第m馈送层对所述调整大小后的第m测试图像应用所述卷积运算生成所述测试用第m子特征映射,来使得所述测试用第m子特征映射具有与所述测试用第k-1主特征映射的大小对应的大小;
(I-2)使所述第k卷积层整合所述测试用第k-1主特征映射以及所述测试用第m子特征映射来生成所述测试用第k-1整合特征映射;以及
(I-3)使所述第k卷积层对所述测试用第k-1整合特征映射应用所述卷积运算来生成所述测试用第k主特征映射。
30.根据权利要求29所述的装置,其特征在于,
所述处理器在(I-1)处理中,生成所述测试用第m子特征映射,以使得所述第m子特征映射的大小以及通道数与所述测试用第k-1主特征映射的所述大小以及所述通道数对应。
CN201910808499.1A 2018-09-17 2019-08-29 应用多馈送的图像编码方法和装置 Active CN110909748B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/132,479 2018-09-17
US16/132,479 US10579924B1 (en) 2018-09-17 2018-09-17 Learning method, learning device with multi-feeding layers and testing method, testing device using the same

Publications (2)

Publication Number Publication Date
CN110909748A true CN110909748A (zh) 2020-03-24
CN110909748B CN110909748B (zh) 2023-09-19

Family

ID=66439913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910808499.1A Active CN110909748B (zh) 2018-09-17 2019-08-29 应用多馈送的图像编码方法和装置

Country Status (5)

Country Link
US (1) US10579924B1 (zh)
EP (1) EP3624015A1 (zh)
JP (1) JP6935939B2 (zh)
KR (1) KR102313604B1 (zh)
CN (1) CN110909748B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
TWI717655B (zh) * 2018-11-09 2021-02-01 財團法人資訊工業策進會 適應多物件尺寸之特徵決定裝置及方法
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11657279B2 (en) * 2020-06-16 2023-05-23 National Taiwan University Of Science And Technology Electronic device and method for document segmentation
US20230410532A1 (en) 2020-12-25 2023-12-21 Mitsubishi Electric Corporation Object detection device, monitoring device, training device, and model generation method

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651887A (zh) * 2017-01-13 2017-05-10 深圳市唯特视科技有限公司 一种基于卷积神经网络的图像像素分类方法
US20170169313A1 (en) * 2015-12-14 2017-06-15 Samsung Electronics Co., Ltd. Image processing apparatus and method based on deep learning and neural network learning
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
US9947103B1 (en) * 2017-10-03 2018-04-17 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN107944443A (zh) * 2017-11-16 2018-04-20 深圳市唯特视科技有限公司 一种基于端到端深度学习进行对象一致性检测方法
CN108021923A (zh) * 2017-12-07 2018-05-11 维森软件技术(上海)有限公司 一种用于深度神经网络的图像特征提取方法
CN108346145A (zh) * 2018-01-31 2018-07-31 浙江大学 一种病理切片中非常规细胞的识别方法
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
JP2018124813A (ja) * 2017-02-01 2018-08-09 株式会社デンソー 演算処理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2883091C (en) * 2011-08-25 2020-02-25 Cornell University Retinal encoder for machine vision
EP3204871A4 (en) * 2014-10-09 2017-08-16 Microsoft Technology Licensing, LLC Generic object detection in images
US10762894B2 (en) * 2015-03-27 2020-09-01 Google Llc Convolutional neural networks
JP6729046B2 (ja) * 2016-06-20 2020-07-22 大日本印刷株式会社 配線基板およびその製造方法、ならびに半導体装置の製造方法
JP6830742B2 (ja) * 2017-11-29 2021-02-17 Kddi株式会社 画素に基づく画像セグメンテーション用のプログラム
CN107958246A (zh) * 2018-01-17 2018-04-24 深圳市唯特视科技有限公司 一种基于新型端到端人脸超分辨率网络的图像对齐方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169313A1 (en) * 2015-12-14 2017-06-15 Samsung Electronics Co., Ltd. Image processing apparatus and method based on deep learning and neural network learning
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106651887A (zh) * 2017-01-13 2017-05-10 深圳市唯特视科技有限公司 一种基于卷积神经网络的图像像素分类方法
JP2018124813A (ja) * 2017-02-01 2018-08-09 株式会社デンソー 演算処理装置
US9947103B1 (en) * 2017-10-03 2018-04-17 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
CN107944443A (zh) * 2017-11-16 2018-04-20 深圳市唯特视科技有限公司 一种基于端到端深度学习进行对象一致性检测方法
CN108021923A (zh) * 2017-12-07 2018-05-11 维森软件技术(上海)有限公司 一种用于深度神经网络的图像特征提取方法
CN108346145A (zh) * 2018-01-31 2018-07-31 浙江大学 一种病理切片中非常规细胞的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GAO HUANG ET AL.: "Densely Connected Convolutional Networks", pages 2261 - 2269 *

Also Published As

Publication number Publication date
KR20200031992A (ko) 2020-03-25
JP2020047270A (ja) 2020-03-26
CN110909748B (zh) 2023-09-19
JP6935939B2 (ja) 2021-09-15
EP3624015A1 (en) 2020-03-18
US10579924B1 (en) 2020-03-03
US20200090047A1 (en) 2020-03-19
KR102313604B1 (ko) 2021-10-19

Similar Documents

Publication Publication Date Title
CN110909748A (zh) 应用多馈送的图像编码方法和装置
CN110910395B (zh) 图像编码方法和装置、利用它们的测试方法和测试装置
KR102337362B1 (ko) 감시 시스템이 보다 정확하게 주변 상황을 식별하고 희귀 이벤트를 검출할 수 있도록 하기 위해, 생성 뉴럴 네트워크와 판별 뉴럴 네트워크를 포함하는 생성적 적대 신경망을 이용하여 합성여부판단불가 합성 이미지를 생성하는 방법과 장치
EP3686795B1 (en) Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
US10496899B1 (en) Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
KR102279350B1 (ko) 자율 주행 상황에서 장애물 검출을 위한 cnn 학습용 이미지 데이터 세트의 생성 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR102279376B1 (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN112380921A (zh) 一种基于车联网的道路检测方法
KR102313133B1 (ko) 컨벌루션 뉴럴 네트워크로부터 복수의 출력들의 앙상블을 이용하여 통합된 특징 맵을 제공하기 위한 방법 및 장치
US10551845B1 (en) Method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same
KR102279388B1 (ko) 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR102314524B1 (ko) 자율 주행 상황에서 장애물 검출을 위한 cnn 학습용 이미지 데이터 세트의 생성 방법 및 컴퓨팅 장치
US20180247199A1 (en) Method and apparatus for multi-dimensional sequence prediction
KR102320985B1 (ko) 멀티 카메라 시스템 내의 더블 임베딩 구성을 이용하여 도로 이용자 이벤트를 검출하기 위해 이용될 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
KR102349946B1 (ko) 주변 자동차의 이미지를 이용하여 베이스 자동차의 이미지를 오토 라벨링하는 오토 라벨링 장치를 학습시키는 학습 방법 및 학습 장치, 그리고, 이를 이용한 테스팅 방법 및 테스팅 장치
US10872297B2 (en) Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
KR102373493B1 (ko) V2x 정보 융합 기술을 통해 획득된, 각 객체에 대한 깊이 예측 정보 및 각 객체에 대한 클래스 정보를 이용해 3d 공간을 재구축함으로써 hd 맵을 업데이트하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
KR102349933B1 (ko) 스마트폰, 드론, 선박 혹은 군사적 목적에 이용하기 위한, 입력 데이터를 분석하는 뉴럴 네트워크를 온디바이스 연속 학습하는 방법 및 장치, 그리고, 이에 의해 학습된 뉴럴 네트워크를 테스트하는 방법 및 장치
CN111476082A (zh) 在线批次归一化、在线学习及持续学习的方法和装置
US10635938B1 (en) Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
Lotfy et al. Autoencoder Models Optimization for Remote Sensing Image Semantic Segmentation
CN117649544A (zh) 一种轻量化水上目标检测方法、装置及介质
Kailany et al. Object Detection in Unmanned Aerial Vehicle Imagery
KR20240044026A (ko) 선박 형상 추정 방법 및 선박 형상 추정 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant