JP2020119500A - ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置 - Google Patents

ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置 Download PDF

Info

Publication number
JP2020119500A
JP2020119500A JP2019202411A JP2019202411A JP2020119500A JP 2020119500 A JP2020119500 A JP 2020119500A JP 2019202411 A JP2019202411 A JP 2019202411A JP 2019202411 A JP2019202411 A JP 2019202411A JP 2020119500 A JP2020119500 A JP 2020119500A
Authority
JP
Japan
Prior art keywords
layers
test
kth
feature map
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019202411A
Other languages
English (en)
Other versions
JP6865363B2 (ja
Inventor
桂賢 金
Kye-Hyeon Kim
桂賢 金
鎔重 金
Yongjoong Kim
鎔重 金
寅洙 金
Insu Kim
寅洙 金
鶴京 金
Hak-Kyoung Kim
鶴京 金
雲鉉 南
Woonhyun Nam
雲鉉 南
碩▲ふん▼ 夫
Sukhoon Boo
碩▲ふん▼ 夫
明哲 成
Myungchul Sung
明哲 成
東勳 呂
Donghun Yeo
東勳 呂
宇宙 柳
Wooju Ryu
宇宙 柳
泰雄 張
Taiyu Cho
泰雄 張
景中 鄭
Kyungjoong Jeong
景中 鄭
泓模 諸
Hongmo Je
泓模 諸
浩辰 趙
Hojin Cho
浩辰 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119500A publication Critical patent/JP2020119500A/ja
Application granted granted Critical
Publication of JP6865363B2 publication Critical patent/JP6865363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

【課題】学習装置を利用して、自律走行自動車のレベル4及びレベル5を満足させるために必要な道路障害物及び交通標識などのエッジ検出におけるセグメンテーション性能向上のための学習方法を提供する。【解決手段】学習方法は、学習装置がk個のコンボリューションレイヤをもってh個のマスクレイヤに対応するh個のエンコード済み特徴マップを含んで、k個のエンコード済み特徴マップを生成するようにする段階と、k個のデコンボリューションレイヤをもってh個のマスクレイヤに対応するh個のデコード済み特徴マップ及びh個のバンドパス特徴マップを利用し、(k−h)個のデコンボリューションレイヤにそれぞれ入力される特徴マップを利用し、デコンボリューションレイヤ及びコンボリューションレイヤのパラメータを調整して、k個のデコード済み特徴マップを生成するようにする段階と、を含む。【選択図】図2

Description

本発明は、自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物及び交通標識などのエッジを検出するにおけるセグメンテーション性能向上のための学習方法に関し、より詳細には、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第kエンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャル(differential)レイヤを含む学習装置を利用した前記イメージセグメンテーションの性能向上のための前記学習方法において、(a)前記トレーニングイメージが入力されると、前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを出力するものの、(1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kエンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のエンコード済み特徴マップで周波数が対応閾値より高い一つ以上の領域を獲得することにより、前記h個のエンコード済み特徴マップから一つ以上のエッジ部分を抽出するようにして、第1ないし第hバンドパス特徴マップを出力させるプロセス、及び(2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップそれぞれと前記第1ないし前記第hバンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hディファレンシャル特徴マップを獲得して、前記第1ないし前記第hディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行する段階:(b)前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のデコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させる段階:(c)前記第1デコード済み特徴マップ及びこれに対応する少なくとも一つのGT(ground truth)ラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節する段階;を含むことを特徴とする学習方法及び前記学習装置、並びにこれを利用したテスト方法及びテスト装置に関する。
ディープラーニングは、事物やデータを群集化したり分類するのに使用する技術である。例えば、コンピュータは写真だけで犬と猫を区分することができない。しかし、人はとても容易にこの二つを区分することができる。このため、「機械学習(Machine Learning)」という方法が考案された。これはコンピュータをもって入力された多くのデータのうちで類似したもの同士分類するようにする技術である。犬の写真と類似した動物の写真が入力されると、前記コンピュータはこれを犬の写真であると分類するのである。
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「意思決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的である。このうち、ディープラーニングは人工神経網の後裔である。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解決するために90年代にすでに使われていたが、現在のように広く使われるようになったのは最近の研究結果の賜物である。このようなディープCNNは、2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。
図1はCNNを利用した一般的なセグメンテーションプロセスを簡略に示した図である。
図1を参照すると、従来の車線検出方法では、学習装置が、入力イメージが入力されて、一つ以上のコンボリューションレイヤをもって前記入力イメージに一つ以上のコンボリューション演算及び一つ以上の非線形演算であるReLUを適用して少なくとも一つの特徴マップを出力し、一つ以上のデコンボリューションレイヤをもって、前記特徴マップに一つ以上のデコンボリューション演算及びソフトマックス演算を適用するようにしてセグメンテーション結果を生成する。
しかし、前記イメージのエンコード及びデコードプロセスで、エッジ部分が多く消えてしまう問題があり、こうした問題を解決し、前記入力イメージやこれに対応する特徴マップにおいて、前記エッジを強化しようとする様々な方法が提示されている。例えば、Golnaz Ghiasi and Charless C.Fowlkesは「Laplacian Pyramid Reconstruction and Refinement for Semantic Segmentation」というタイトルの論文(https://www.ics.uci.edu/〜fowlkes/papers/gf−eccv16.pdf)において、ラプラシアンピラミッドを利用して、前記イメージをセグメンテーションする方法を提示した。このような方法は、サイズが小さい特徴マップにおいて、前記エッジを抽出してサイズが大きな特徴マップに前記エッジ情報を加えようとしたが、すでに前記エッジに対する情報がたくさん消失した状態であるので、かなりの性能向上を期待することが難しかった。
また、このような方法は、前記論文の前記タイトルとは異なって上位周波数の範囲を設定済バンドに分離する概念を利用しないので、前記ラプラシアンピラミッドを利用したと見ることはできない。併せて、このような方法はもともと存在していたエッジではなく、任意に生成したエッジを使用するために前記正確なエッジを反映することができないという問題点が存在する。
本発明は、CNN(Convolutional Neural Network)においてエッジ情報を格納して、特徴マップを生成することができる方法を提供することを目的とする。
また、本発明は、ラフラシアンピラミッドネットワークを構築することができるCNN構造を提示することを目的とする。
また、本発明は、エッジ情報の反映の際に、任意に生成されるエッジではなく、もともと存在するエッジ情報を見出して正確なエッジが反映され得る方法を提供することを目的とする。
本発明の一態様によると、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップについて、コンボリューション演算を少なくとも1回遂行して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第kエンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含む学習装置を利用したイメージセグメンテーション性能向上のための学習方法において、(a)前記トレーニングイメージが入力されると、前記学習装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを出力するものの、(1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kエンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のエンコード済み特徴マップで周波数が対応閾値より高い一つ以上の領域を獲得することにより、前記h個のエンコード済み特徴マップから一つ以上のエッジ部分を抽出するようにして、第1ないし第hバンドパス特徴マップを出力させるプロセス、及び(2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップそれぞれと前記第1ないし前記第hバンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hディファレンシャル特徴マップを獲得して、前記第1ないし前記第hディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行する段階:(b)前記学習装置は、前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のデコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させる段階:(c)前記学習装置が、前記第1デコード済み特徴マップ及びこれに対応する少なくとも一つのGT)ラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節する段階;を含むことを特徴とする学習方法が提供される。
一実施例において、前記(1)プロセスで、前記学習装置は、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nエンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mバンドパス特徴マップを生成し、前記(2)プロセスで、前記学習装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、前記(b)段階で、前記学習装置は、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mバンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nデコード済み特徴マップを出力する。
一実施例において、前記(c)段階で、前記学習装置は、前記第kないし前記第1デコンボリューションレイヤのうち少なくとも一つに対応する少なくとも一つのロスレイヤをもって、前記第kないし前記第1デコンボリューションレイヤのうち前記少なくとも一つから出力された少なくとも一つのデコード済み特徴マップ、及びこれに該当する少なくとも一つのGTラベルイメージを参考にして、前記ロスを生成するようにすることにより、前記ロスを利用したバックプロパゲーションプロセスを遂行する。
一実施例において、前記(a)段階で、前記学習装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのサイズを順次に減少させ、前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのチャンネル数を増加させて、前記第1ないし前記第kエンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のエンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kエンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hバンドパス特徴マップを出力するようにし、前記(b)段階で、前記学習装置は、前記第kないし前記第1デコンボリューションレイヤをもって前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのサイズを順次に増加させ、前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのチャンネル数を順次に減少させて、前記第kないし前記第1デコード済み特徴マップをそれぞれ出力させる。
一実施例において、前記学習装置は(v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤ;をさらに含み、前記(b)段階は、(b1)前記学習装置は、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hバンドパス特徴マップを獲得して第1ないし第h中間特徴マップをそれぞれ出力させる段階;及び(b2)前記学習装置は、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のデコード済み特徴マップ及び前記第hないし前記第1中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のデコード済み特徴マップ及び前記第kエンコード済み特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させる段階;を含む。
一実施例において、前記学習装置は、前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに中間演算を適用して第(h+1)中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)中間特徴マップを伝達する。
一実施例において、前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション(dilated convolution)演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールド(Receptive field)は、0の値を有するフィルター重み付け値によって決定される。
一実施例において、前記(1)プロセスで、前記学習装置は、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nエンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mバンドパス特徴マップを生成するようにし、前記(2)プロセスで、前記学習装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、前記(b1)段階で、前記学習装置は、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mバンドパス特徴マップを参照して第m中間特徴マップを出力し、前記(b2)段階で、前記学習装置は、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第m中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和に前記デコンボリューション演算を適用するようにすることにより、第nデコード済み特徴マップを出力する。
本発明の他の態様によると、少なくとも一つのテストイメージに対するセグメンテーションのためのテスト方法において、(a)学習装置が、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1学習用デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含むとするとき、前記トレーニングイメージが入力されると、前記学習装置が、(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを出力するものの、(1−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第k学習用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個の学習用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上の学習用領域を獲得することにより、前記h個の学習用エンコード済み特徴マップから一つ以上の学習用エッジ部分を抽出するようにして、第1ないし第h学習用バンドパス特徴マップを出力させるプロセス、(1−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個の学習用エンコード済み特徴マップそれぞれと前記第1ないし前記第h学習用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第h学習用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第h学習用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行し、(2)前記第kないし前記第1デコンボリューションレイヤをもって(2−1)前記第hないし前記第1学習用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個の学習用デコード済み特徴マップを利用し、(2−2)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された学習用特徴マップを利用して、前記第kないし前記第1学習用デコード済み特徴マップを順次に出力するようにし、(3)前記第1学習用デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節した状態で、前記テストイメージが入力されると、テスト装置は、前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するものの、(a1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kテスト用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のテスト用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上のテスト用領域を獲得することにより、前記h個のテスト用エンコード済み特徴マップから一つ以上のテスト用エッジ部分を抽出するようにして、第1ないし第hテスト用バンドパス特徴マップを出力させるプロセス、及び(a2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップそれぞれと前記第1ないし前記第hテスト用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hテスト用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第hテスト用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行する段階;及び(b)前記テスト装置が、前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1テスト用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のテスト用デコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力されたテスト用特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力する段階:を含むことを特徴とするテスト方法が提供される。
一実施例において、前記(a1)プロセスで、前記テスト装置は、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nテスト用エンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mテスト用バンドパス特徴マップを生成し、前記(a2)プロセスで、前記テスト装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、前記(b)段階で、前記テスト装置は、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用バンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nテスト用デコード済み特徴マップを出力する。
一実施例において、前記(a)段階で、前記テスト装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのサイズを順次に減少させ、前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのチャンネル数を増加させて前記第1ないし前記第kテスト用エンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kテスト用エンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用バンドパス特徴マップを出力するように して、前記(b)段階で、前記テスト装置は、前記第kないし前記第1デコンボリューションレイヤをもって前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのサイズを順次に増加させ、前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのチャンネル数を順次に減少させ、前記第kないし前記第1テスト用デコード済み特徴マップをそれぞれ出力させる。
一実施例において、前記テスト装置は(v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤ;をさらに含み、前記(b)段階は、(b1)前記テスト装置は、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hテスト用バンドパス特徴マップを獲得して第1ないし第hテスト用中間特徴マップをそれぞれ出力させる段階;及び(b2)前記テスト装置は、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のテスト用デコード済み特徴マップ及び前記第hないし前記第1テスト用中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のテスト用デコード済み特徴マップ及び前記第kテスト用エンコード済み特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させる段階;を含む。
一実施例において、前記テスト装置は、前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに中間演算を適用して第(h+1)テスト用中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)テスト用中間特徴マップを伝達する。
一実施例において、前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールドは、0の値を有するフィルター加重値によって決定される。
一実施例において、前記(a1)プロセスで、前記テスト装置は、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mテスト用バンドパス特徴マップを生成するようにし、前記(a2)プロセスで、前記テスト装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、前記(b1)段階で、前記テスト装置は、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mテスト用バンドパス特徴マップを参照して第mテスト用中間特徴マップを出力し、前記(b2)段階で、前記テスト装置は、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用するようにすることにより、第nテスト用デコード済み特徴マップを出力する。
本発明のまた他の態様によると、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第kエンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含む、セグメンテーション性能向上のための学習装置において、インストラクションを格納する少なくとも一つのメモリ;及び(I)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを出力するものの、(I−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kエンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のエンコード済み特徴マップで周波数が対応閾値より高い一つ以上の領域を獲得することにより、前記h個のエンコード済み特徴マップから一つ以上のエッジ部分を抽出するようにして、第1ないし第hバンドパス特徴マップを出力させるプロセス、及び(I−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップそれぞれと前記第1ないし前記第hバンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hディファレンシャル特徴マップを獲得して、前記第1ないし前記第hディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセス;(II)前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のデコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させるプロセス;及び(III)前記第1デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする学習装置が提供される。
一実施例において、前記(I−1)プロセスで、前記プロセッサは、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nエンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mバンドパス特徴マップを生成し、前記(I−2)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、前記(II)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mバンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nデコード済み特徴マップを出力する。
一実施例において、前記(III)プロセスで、前記プロセッサは、前記第kないし前記第1デコンボリューションレイヤのうち少なくとも一つに対応する少なくとも一つのロスレイヤをもって前記第kないし前記第1デコンボリューションレイヤのうち、前記少なくとも一つから出力された少なくとも一つのデコード済み特徴マップ及びこれに該当する少なくとも一つのGTラベルイメージを参考にして、前記ロスを生成するようにすることにより、前記ロスを利用したバックプロパゲーションプロセスを遂行する。
一実施例において、前記(I)プロセスで、前記プロセッサは、前記第1ないし前記第kコンボリューションレイヤをもって前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのサイズを順次に減少させ、前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのチャンネル数を増加させて前記第1ないし前記第kエンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のエンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kエンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hバンドパス特徴マップを出力するようにし、前記(II)プロセスで、前記プロセッサは、前記第kないし前記第1デコンボリューションレイヤをもって前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのサイズを順次に増加させ、前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのチャンネル数を順次に減少させて、前記第kないし前記第1デコード済み特徴マップをそれぞれ出力させる。
一実施例において、(v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤ;が前記学習装置にさらに含まれ、前記(II)プロセスは、(II−1)前記プロセッサは、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hバンドパス特徴マップを獲得して第1ないし第h中間特徴マップをそれぞれ出力させるプロセス;及び(II−2)前記プロセッサは、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のデコード済み特徴マップ及び前記第hないし前記第1中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のデコード済み特徴マップ及び前記第kエンコード済み特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させるプロセス;を含む。
一実施例において、前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤが前記学習装置にさらに含まれるものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに中間演算を適用して第(h+1)中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)中間特徴マップを伝達する。
一実施例において、前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールド(Receptive field)は、0の値を有するフィルター加重値によって決定される。
一実施例において、前記(I−1)プロセスで、前記プロセッサは、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nエンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mバンドパス特徴マップを生成するようにし、前記(I−2)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、前記(II−1)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mバンドパス特徴マップを参照して第m中間特徴マップを出力し、前記(II−2)プロセスで、前記プロセッサは、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第m中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和に前記デコンボリューション演算を適用するようにすることにより、第nデコードされたの特徴マップを出力する。
本発明のまた他の態様によると、少なくとも一つのテストイメージのセグメンテーションに関するテスト装置において、インストラクションを格納する少なくとも一つのメモリ;及び学習装置が、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1学習用デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含むとするとき、前記トレーニングイメージが入力されると、前記学習装置が、(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを出力するものの、(1−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第k学習用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個の学習用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上の学習用領域を獲得することにより、前記h個の学習用エンコード済み特徴マップから一つ以上の学習用エッジ部分を抽出するようにして、第1ないし第h学習用バンドパス特徴マップを出力させるプロセス、(1−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個の学習用エンコード済み特徴マップそれぞれと前記第1ないし前記第h学習用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第h学習用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第h学習用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行し、(2)前記第kないし前記第1デコンボリューションレイヤをもって(2−1)前記第hないし前記第1学習用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個の学習用デコード済み特徴マップを利用し、(2−2)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された学習用特徴マップを利用して、前記第kないし前記第1学習用デコード済み特徴マップを順次に出力するようにし、(3)前記第1学習用デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節した状態で、(I)前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するものの、(I−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kテスト用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のテスト用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上のテスト用領域を獲得することにより、前記h個のテスト用エンコード済み特徴マップから一つ以上のテスト用エッジ部分を抽出するようにして、第1ないし第hテスト用バンドパス特徴マップを出力させるプロセス、及び(I−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップそれぞれと前記第1ないし前記第hテスト用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hテスト用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第hテスト用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセス;及び(II)前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1テスト用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のテスト用デコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力されたテスト用特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とするテスト装置が提供される。
一実施例において、前記(I−1)プロセスで、前記プロセッサは、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nテスト用エンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mテスト用バンドパス特徴マップを生成し、前記(I−2)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、前記(II)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用バンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nテスト用デコード済み特徴マップを出力する。
一実施例において、前記(I)プロセスで、前記プロセッサは、前記第1ないし前記第kコンボリューションレイヤをもって前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのサイズを順次に減少させ、前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのチャンネル数を増加させて前記第1ないし前記第kテスト用エンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kテスト用エンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用バンドパス特徴マップを出力するようにし、前記(II)プロセスで、前記プロセッサは、前記第kないし前記第1デコンボリューションレイヤをもって前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのサイズを順次に増加させ、前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのチャンネル数を順次に減少させて、前記第kないし前記第1テスト用デコードされたの特徴マップをそれぞれ出力させる。
一実施例において、(v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤが前記テスト装置にさらに含まれて;前記(II)プロセスは、(II−1)前記プロセッサは、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hテスト用バンドパス特徴マップを獲得して第1ないし第hテスト用中間特徴マップをそれぞれ出力させるプロセス;及び(II−2)前記プロセッサは、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のテスト用デコード済み特徴マップ及び前記第hないし前記第1テスト用中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のテスト用デコード済み特徴マップ及び前記第kテスト用エンコード済み特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させるプロセス;を含む。
一実施例において、前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤが前記テスト装置にさらに含まれ、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに中間演算を適用して第(h+1)テスト用中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)テスト用中間特徴マップを伝達する。
一実施例において、前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールドは、0の値を有するフィルター加重値によって決定される。
一実施例において、前記(I−1)プロセスで、前記プロセッサは、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mテスト用バンドパス特徴マップを生成するようにし、前記(I−2)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップとの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、前記(II−1)プロセスで、前記プロセッサは、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mテスト用バンドパス特徴マップを参照して第mテスト用中間特徴マップを出力し、前記(II−2)プロセスで、前記プロセッサは、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用するようにすることにより、第nテスト用デコード済み特徴マップを出力する。
本発明によると、エッジ部分の格納された情報を有し、少なくとも一つの特徴マップを生成することができる前記CNNが提供され得る効果がある。
また、本発明によると、ラフラシアンピラミッドネットワークを構築することができるできるCNNが提供され得る効果がある。
また、本発明によると、任意に生成されるエッジ部分ではなく、エンコード済み特徴マップからエッジ部分を抽出するため、正確なエッジ部分の情報を反映することができる効果がある。
本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるにすぎず、本発明の属する技術分野において、通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の図面が得られ得る。
図1は、CNNを利用したコンボリューションセグメンテーションのプロセスを簡略に示したものである。 図2は、本発明の一実施例によるラプラシアンピラミッドネットワークを利用してイメージセグメンテーションするプロセスを簡略に示したものである。 図3は、本発明の他の実施例による前記ラプラシアンピラミッドネットワークを利用して、前記イメージセグメンテーションするプロセスを簡略に示したものである。 図4は、本発明の前記ラプラシアンピラミッドネットワークを利用して、エッジ部分を抽出するプロセスを詳細に示したものである。 図5は、本発明のまた他の実施例による前記ラプラシアンピラミッドネットワークを利用して、前記イメージセグメンテーションするプロセスを簡略に示したものである。
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、その実施例に関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現される得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
また、本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明の属する技術分野において、通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例に関して、添付された図面を参照して詳細に説明することとする。
図2は、本発明の一実施例によるラプラシアンピラミッドネットワークを利用してイメージセグメンテーションするプロセスを簡略に示したものである。
本発明による前記ラプラシアンピラミッドネットワークを学習するためのCNN基盤の学習装置は、図2で示したように、順次に連結されている第1コンボリューションレイヤ(100_1)ないし第kコンボリューションレイヤ(100_k)及び第kデコンボリューションレイヤ(200_k)ないし第1デコンボリューションレイヤ(200_1)を含む。そして、第1マスクレイヤ(300_1)ないし第(k−1)マスクレイヤ(300_(k−1)及び第1ディファレンシャル(differential)レイヤ(400_1)ないし第(k−1)ディファレンシャルレイヤ(400_(k−1)がそれぞれの前記第1コンボリューションレイヤ(100_1)ないし前記第(k−1)コンボリューションレイヤ(100_(k−1))の次に含まれる。この際、前記第1ディファレンシャルレイヤ(400_1)ないし前記第(k−1)ディファレンシャルレイヤ(400_(k−1))のそれぞれは、これに対応する次のコンボリューションレイヤに連結されて、前記第1コンボリューションレイヤ(100_1)ないし前記第(k−1)コンボリューションレイヤ(100_(k−1))から出力されたそれぞれの特徴マップと前記第1マスクレイヤ(300_1)ないし前記第(k−1)マスクレイヤ(300_(k−1))から出力されたそれぞれの特徴マップとの間のそれぞれの差を前記対応する次のコンボリューションレイヤに伝達する。一方、前記第kデコンボリューションレイヤ(200_k)ないし前記第2デコンボリューションレイヤ(200_2)それぞれの次には前記第(k−1)マスクレイヤ(300_(k−1))ないし前記第1マスクレイヤ(300_1)からの出力それぞれと前記第kデコンボリューションレイヤ(200_k)ないし前記第2デコンボリューションレイヤ(200_2)からの出力それぞれを合算する第(k−1)を合算レイヤ(500_(k−1))ないし第1合算レイヤ(500_1)が存在する。ここで、「ディファレンシャル」という用語は、数学での微分や微分学を意味しない。
まず、少なくとも一つのトレーニングイメージ(10)が入力されると、前記第1コンボリューションレイヤ(100_1)ないし前記第kコンボリューションレイヤ(100_k)は第1ないし第kエンコード済み特徴マップを生成し、前記第kデコンボリューションレイヤ(200_k)ないし前記第1デコンボリューションレイヤ(200_1)は、前記第kエンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第kないし第1デコード済み特徴マップを出力する。そして、前記第1デコード済み特徴マップに少なくとも一つ所定の演算を適用して、少なくとも一つのセグメンテーションラベルイメージ(20)が生成される。
図2を参照すると、前記第1ないし前記第kエンコード済み特徴マップを生成する前記プロセスで、前記学習装置は(i)前記第1マスクレイヤ(300_1)ないし前記第(k−1)マスクレイヤ(300_(k−1))をもって、前記第1ないし前記第(k−1)エンコード済み特徴マップで周波数が対応閾値より高い一つ以上の領域を獲得して、前記第1ないし前記第(k−1)コンボリューションレイヤから出力された前記第1ないし前記第(k−1)エンコード済み特徴マップから一つ以上のエッジ部分を抽出させることにより、第1ないし第(k−1)バンドパス特徴マップをそれぞれ出力するようにし、(ii)前記第1ディファレンシャルレイヤ(400_1)ないし前記第(k−1)ディファレンシャルレイヤ(400_(k−1))をもって、前記第1コンボリューションレイヤ(100_1)ないし前記第(k−1)コンボリューションレイヤ(100_(k−1))から出力された前記第1ないし前記第(k−1)エンコード済み特徴マップそれぞれと前記第1ないし前記第(k−1)マスクレイヤから出力された前記第1ないし前記第(k−1)バンドパス特徴マップそれぞれの差を求めて第1ないし第(k−1)ディファレンシャル特徴マップを出力させることにより、前記第1ないし前記第(k−1)ディファレンシャル特徴マップそれぞれをそれに対応する次のコンボリューションレイヤに伝達するようにする。
そして、前記第kないし前記第1デコード済み特徴マップを出力する前記プロセスで、前記第kエンコード済み特徴マップが前記第kデコンボリューションレイヤ(200_k)に入力されると、前記第kデコンボリューションレイヤ(200_k)ないし前記第1デコンボリューションレイヤ(200_1)は、前記第kエンコード済み特徴マップ及び以前デコンボリューションレイヤから出力された前記第kないし前記第2デコード済み特徴マップにそれぞれ前記デコンボリューション演算を適用して順次に前記第kないし前記第1デコード済み特徴マップを出力するものの、前記第(k−1)マスクレイヤ(300_(k−1))ないし前記第1マスクレイヤ(300_1)から出力された前記第(k−1)ないし前記第1バンドパス特徴マップは、前記第kないし前記第2デコード済み特徴マップに反映され得る。
この際、前記学習装置は、(i)前記第1コンボリューションレイヤ(100_1)ないし前記第kコンボリューションレイヤ(100_k)をもって順次に前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのサイズを減少させ、チャンネル数を増加させて前記第1ないし前記第kエンコード済み特徴マップをそれぞれ出力するようにし、(ii)前記第1マスクレイヤ(300_1)ないし前記第(k−1)マスクレイヤ(300_(k−1))をもって前記第1ないし前記第(k−1)エンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出して、前記第1ないし前記第(k−1)エンコード済み特徴マップから前記エッジ部分を抽出させることにより、前記第1ないし前記第(k−1)バンドパス特徴マップを出力するようにし、(iii)前記第kデコンボリューションレイヤ(200_k)ないし前記第1デコンボリューションレイヤ(200_1)をもって順次に前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのサイズを増加させ、チャンネル数を減少させて前記第kないし前記第1デコード済み特徴マップをそれぞれ出力させる。
そして、前記学習装置は、前記セグメンテーションラベルイメージ(20)及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節する。
一方で、前記学習装置は少なくとも一つのロスレイヤをもって前記第1デコンボリューションレイヤ(200_1)からの出力を利用するだけでなく、複数の前記デコンボリューションレイヤから出力された複数の前記デコード済み特徴マップを利用して、前記ロスを出力させる。たとえば、前記学習装置は、前記第kデコンボリューションレイヤ(200_k)ないし前記第1デコンボリューションレイヤ(200_1)のうち少なくとも一つに対応する前記ロスレイヤ(図示せず)をもって前記第kないし前記第1デコンボリューションレイヤのうち、前記少なくとも一つから出力された少なくとも一つのデコード済み特徴マップ及びこれに対応するGTラベルイメージを参考にして一つ以上のロスを生成する。その後、前記学習装置は前記ロスを利用したバックプロパゲーションを遂行することができる。
図3は、本発明の他の実施例による前記ラプラシアンピラミッドネットワークを利用して、前記イメージセグメンテーションするプロセスを簡略に示したものである。
図3に示された本発明の他の実施例による前記ラプラシアンピラミッドネットワークを学習するための前記CNN基盤の前記学習装置は、図2に示された本発明の一実施例による前記ラプラシアンピラミッドネットワークを学習するための前記CNN基盤の前記学習装置と基本的に類似した構成を有するが、前記第1コンボリューションレイヤ(100_1)ないし前記第(k−1)コンボリューションレイヤ(100_(k−1))のうちでh個のコンボリューションレイヤにそれぞれ対応する第1ないし第hマスクレイヤ及び前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hディファレンシャルレイヤを含んで、前記マスクレイヤ及び前記ディファレンシャルレイヤは前記すべてのコンボリューションレイヤに対応しない。参考までに、図3に300_1と表現されたレイヤが前記第1マスクレイヤであり、300_(k−1)と表現されたレイヤが前記第hマスクレイヤであり、400_1と表現されたレイヤが前記第1ディファレンシャルレイヤであり、400_(k−1)と表現されたレイヤが前記第hディファレンシャルレイヤであろう。
この場合には、図3に示された前記学習装置は、前記第1コンボリューションレイヤ(100_1)ないし前記第kコンボリューションレイヤ(100_k)をもって前記第1ないし前記第kエンコード済み特徴マップを出力するものの、(1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kエンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のエンコード済み特徴マップで周波数が対応閾値より高い一つ以上の領域を獲得することにより、前記h個のエンコード済み特徴マップから一つ以上のエッジ部分を抽出するようにして、第1ないし第hバンドパス特徴マップを出力させるプロセス、及び(2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップそれぞれと前記第1ないし前記第hバンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hディファレンシャル特徴マップを獲得して、前記第1ないし前記第hディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行する。
そして、図3に示された前記学習装置は、前記第kデコンボリューションレイヤ(200_k)ないし前記第1デコンボリューションレイヤ(200_1)をもって(i)前記第hないし前記第1バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のデコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させる。たとえば、前記学習装置は、前記第kデコンボリューションレイヤ(200_k)ないし前記第1デコンボリューションレイヤ(200_1)をもって、(i)前記第hないし前記第1バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のデコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された(k−h−1)個のデコード済み特徴マップ及び前記第kエンコード済み特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力する。
図4は、本発明の前記ラプラシアンピラミッドネットワークを利用して、前記エッジ部分を抽出するプロセスを詳しく示す。
図4を参考にすると、前記学習装置は前記第1コンボリューションレイヤ(100_1)ないし前記第kコンボリューションレイヤ(100_k)のうちで第nコンボリューションレイヤ(100_n)をもって(前記nは1からkまでの整数である)前記h個のマスクレイヤの一つに対応しない以前コンボリューションレイヤから伝達されたエンコード済み特徴マップ或いは以前ディファレンシャルレイヤから伝達されたディファレンシャル特徴マップに一つ以上のコンボリューション演算を適用するようにする。図4は、前記第1ないし前記第hディファレンシャルレイヤのうちで第(m−1)ディファレンシャルレイヤから(前記mは1から前記hまでの整数である)第(m−1)ディファレンシャル特徴マップを獲得した例を示す。
図4において、前記第nコンボリューションレイヤ(100_n)は、入力された前記第(m−1)ディファレンシャル特徴マップに前記コンボリューション演算を適用して第nエンコード済み特徴マップを生成する。図4で、それぞれの四角ボックスは各特徴マップの周波数領域を示し、矢印は、前記第nコンボリューションレイヤ(100_n)、第mマスクレイヤ(300_m)及び第mディファレンシャルレイヤ(400_m)と関連した入力あるいは出力を示す。図4に示されたように、前記入力された第(m−1)ディファレンシャル特徴マップの周波数領域は、前記出力された第nエンコード済み特徴マップの周波数領域とは大きな差がない。
しかも、図4を参照すると、前記第1ないし前記第hマスクレイヤのうちで前記第mマスクレイヤ(300_m)は、前記第nコンボリューションレイヤ(100_n)から伝達された前記第nエンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出することにより、第mバンドパス特徴マップを生成する。前記第mマスクレイヤ(300_m)は、前記第nエンコード済み特徴マップの前記周波数が対応閾値より大きい領域を獲得して前記第mバンドパス特徴マップを生成するために、バンドパスフィルターとして機能する。図4を参考にすると、前記第mバンドパス特徴マップの周波数領域は、前記第nエンコード済み特徴マップの、対応閾値より高い前記抽出された周波数領域を示す。そして、前記学習装置は、前記第mマスクレイヤ(300_m)に対応する前記第mディファレンシャルレイヤ(400_m)をもって、(i)前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力し、(ii)前記第nコンボリューションレイヤ(100_n)の次の第(n+1)コンボリューションレイヤ(図示せず)に前記第mディファレンシャル特徴マップを伝達する。図4を参考にすると、前記第mディファレンシャル特徴マップの周波数領域は、前記第nエンコード済み特徴マップの、対応閾値より高い前記周波数が除去された領域を含む。
このように、それぞれのバンドパス特徴マップは、それぞれのマスクレイヤを通じて前記エンコード済み特徴マップの周波数バンドに対応する領域を抽出して順次に生成され、それぞれのディファレンシャルレイヤを通じて対応閾値より高い周波数が除去されて、それぞれのローパスフィルタリングされた(low pass filtered)特徴マップが順次に生成される。これにより、本発明による前記学習装置は、前記ラフラシアンピラミッドネットワークを具現することができる。
すなわち、本発明による前記ラフラシアンピラミッドネットワークを用いた前記学習装置は、マスクレイヤをもってコンボリューションレイヤから出力されたエンコード済み特徴マップからエッジ部分を抽出させることによりバンドパス特徴マップを生成し、デファレンシャルレイヤをもって、前記エンコード済み特徴マップと前記バンドパス特徴マップとの間の差を利用して上位周波数バンドが取り除かれたデファレンシャルマップを生成するようにして、次のコンボリューションレイヤに前記デファレンシャル特徴マップを伝達する。これらの方法において、前記学習装置は、各コンボリューションレイヤから出力されたそれぞれのエンコード済み特徴マップから前記エッジ部分の情報を抽出する。前記エッジ部分の前記情報は、一つ以上のさらなる演算によって強化され得、前記デコンボリューションレイヤに伝達され得る。よって、前記デコンボリューションレイヤは、前記エッジ部分の前記情報を用いて復元(reconstruction)プロセスをより容易に実行する。本発明で提案する前記方法を通じては、前記エッジ部分の前記情報が前記デコード済み特徴マップではなく、前記エンコード済み特徴マップから抽出されるため、適切なエッジ部分を抽出することが可能である。
前記エッジ部分の、前記情報を利用した前記復元プロセスは、図2及び図3で示された前記第kデコンボリューションレイヤ(200_k)ないし前記第2デコンボリューションレイヤ(200_2)及び前記第(k−1)合算レイヤ(500_(k−1))ないし前記第1合算レイヤ(500_1)によって遂行される。 例えば、図4では示されなかったが、前記学習装置は(i)第m合算レイヤ(500_m)をもって前記第mマスクレイヤ(300_m)から出力された前記第mバンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの(element−wise)和を出力するようにし、(ii)第nデコンボリューションレイヤをもって前記第mバンドパス特徴マップと前記第(n+1)デコード済み特徴マップの前記要素ごとの(element−wise)和に前記デコンボリューション演算を適用して第nデコード済み特徴マップを出力させる過程を順次に遂行することにより、前記復元プロセスを遂行する。
図5は、本発明のまた他の実施例による前記ラプラシアンピラミッドネットワークを利用して、前記イメージセグメンテーションするプロセスを簡略に示したものである。図5で示された本発明のまた他の実施例による前記ラプラシアンピラミッドネットワークを学習するための前記CNN基盤の前記学習装置は、図2または図3で示された前記CNN基盤の前記学習装置と基本的に類似した構成を有するが、それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間の中間レイヤをさらに含む。たとえば、前記中間レイヤは、それぞれの前記第1コンボリューションレイヤ(100_1)ないし前記第kコンボリューションレイヤ(100_k)とそれぞれの前記第1デコンボリューションレイヤ(200_1)ないし前記第kデコンボリューションレイヤ(200_k)との間に位置したそれぞれの第1中間レイヤ(600_1)ないし第k中間レイヤ(600_k)を含むものの、それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間に位置したそれぞれのh個の中間レイヤを含むことができる。前記中間レイヤのうちで少なくとも一つは、一つ以上の膨張コンボリューション演算を遂行する。この際、それぞれの前記中間レイヤのレセプティブフィールド(Receptive field)は、0の値を有するフィルター加重値によって決定される。
仮に前記h個の中間レイヤがさらに含まれる場合に、前記学習装置は、前記h個の中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力された前記第1ないし前記第hバンドパス特徴マップをそれぞれ獲得してh個の中間特徴マップそれぞれを生成するようにする。そして、前記学習装置は、前記第kないし前記第1デコンボリューションレイヤをもって(i)前記h個の中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のデコード済み特徴マップ及び前記h個の中間特徴マップを利用し、(ii)前記h個の中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のデコード済み特徴マップ及び前記第kエンコード済み特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させる。そして、前記学習装置は、前記第kコンボリューションレイヤと前記第kデコンボリューションレイヤとの間にさらなる第(h+1)中間レイヤを含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに中間演算を適用して第(h+1)中間特徴マップを生成し、前記第kデコンボリューションレイヤに前記第(h+1)中間特徴マップを伝達する。この際、前記中間演算は前記膨張コンボリューション演算であり得る。
例えば、図5の前記学習装置は、前記第mマスクレイヤ(300_m)に対応する第m中間レイヤ(600_m)(図示せず)をもって前記第mバンドパス特徴マップを参照して第m中間特徴マップを生成し、前記第m中間レイヤ(600_m)に対応する前記第nデコンボリューションレイヤ(200_n)(図示せず)をもって、前記第(n+1)デコンボリューションレイヤ(200_(n+1)(図示せず)から出力された前記第(n+1)デコード済み特徴マップと前記第m中間特徴マップの要素ごとの(element−wise)和に前記デコンボリューション演算を適用するようにすることにより、前記第nデコード済み特徴マップを生成する。
そして、図2ないし図5で示された前記学習方法は、前記CNNのテスト方法においても適用され得る。参考として、下記の説明において混乱を避けるために、前記学習プロセスに関連する用語に「学習用」という単語が追加されており、テストプロセスに関連する用語に「テスト用」という単語が追加された。
つまり、少なくとも一つのテストイメージに対するセグメンテーションのための前記テスト方法は、(a)学習装置が、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1学習用デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含むとするとき、前記トレーニングイメージが入力されると、前記学習装置が、(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを出力するものの、(1−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第k学習用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個の学習用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上の学習用領域を獲得することにより、前記h個の学習用エンコード済み特徴マップから一つ以上の学習用エッジ部分を抽出するようにして、第1ないし第h学習用バンドパス特徴マップを出力させるプロセス、(1−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個の学習用エンコード済み特徴マップそれぞれと前記第1ないし前記第h学習用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第h学習用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第h学習用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行し、(2)前記第kないし前記第1デコンボリューションレイヤをもって(2−1)前記第hないし前記第1学習用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個の学習用デコード済み特徴マップを利用し、(2−2)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された学習用特徴マップを利用して、前記第kないし前記第1学習用デコード済み特徴マップを順次に出力するようにし、(3)前記第1学習用デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節した状態で、前記テストイメージが入力されると、テスト装置は、前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するものの、(1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kテスト用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のテスト用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上のテスト用領域を獲得することにより、前記h個のテスト用エンコード済み特徴マップから一つ以上のテスト用エッジ部分を抽出するようにして、第1ないし第hテスト用バンドパス特徴マップを出力させるプロセス、及び(2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップそれぞれと前記第1ないし前記第hテスト用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hテスト用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第hテスト用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行する段階;及び(b)前記テスト装置が、前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1テスト用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のテスト用デコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力されたテスト用特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させる段階;を含む。
本発明による前記学習方法及び前記テスト方法は、自律走行自動車のレベル4及びレベル5を満足させるのに必要な道路障害物及び交通標識などのエッジを検出するのに遂行される。そして、イメージ内のテキスト部分をエッジ部分に強化して、ランドマーク及び道路表示だけでなく、交通標識がより正確に検出され得る。
本発明の技術分野における通常の技術者に理解され得るところであって、上記で説明されたイメージ、例えば、トレーニングイメージやテストイメージのようなイメージデータの送受信が学習装置及びテスト装置の各通信部により行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/又はメモリー)によって保有/維持され得、コンボリューション演算、デコンボリューション演算、ロス値演算の過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。また、前記学習装置及び前記テスト装置は、上述したプロセスを遂行するためのコンピュータ読取り可能なインストラクションを格納することができるメモリーをさらに含むことができる。一例として、プロセッサ、メモリ、メディアなどが一つのプロセッサに統合され得もする。
以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリーなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (30)

  1. (i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップについて、コンボリューション演算を少なくとも1回遂行して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第kエンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャル(differential)レイヤを含む学習装置を利用したイメージセグメンテーションの性能向上のための学習方法において、
    (a)前記トレーニングイメージが入力されると、前記学習装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを出力するものの、(1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kエンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のエンコード済み特徴マップで周波数が対応閾値より高い一つ以上の領域を獲得することにより、前記h個のエンコード済み特徴マップから一つ以上のエッジ部分を抽出するようにして、第1ないし第hバンドパス特徴マップを出力させるプロセス、及び(2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップそれぞれと前記第1ないし前記第hバンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hディファレンシャル特徴マップを獲得して、前記第1ないし前記第hディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行する段階;
    (b)前記学習装置は、前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のデコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させる段階;
    (c)前記学習装置が、前記第1デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節する段階;
    を含むことを特徴とする学習方法。
  2. 前記(1)プロセスで、
    前記学習装置は、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nエンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mバンドパス特徴マップを生成し、
    前記(2)プロセスで、
    前記学習装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、
    前記(b)段階で、
    前記学習装置は、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mバンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nデコード済み特徴マップを出力することを特徴とする請求項1に記載の学習方法。
  3. 前記(c)段階で、
    前記学習装置は、前記第kないし前記第1デコンボリューションレイヤのうち少なくとも一つに対応する少なくとも一つのロスレイヤをもって、前記第kないし前記第1デコンボリューションレイヤのうち前記少なくとも一つから出力された少なくとも一つのデコード済み特徴マップ及びこれに該当する少なくとも一つのGTラベルイメージを参考にして、前記ロスを生成するようにすることにより、前記ロスを利用したバックプロパゲーションプロセスを遂行することを特徴とする請求項1に記載の学習方法。
  4. 前記(a)段階で、
    前記学習装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのサイズを順次に減少させ、前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのチャンネル数を増加させて前記第1ないし前記第kエンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のエンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kエンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hバンドパス特徴マップを出力するようにし、
    前記(b)段階で、
    前記学習装置は、前記第kないし前記第1デコンボリューションレイヤをもって前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのサイズを順次に増加させ、前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのチャンネル数を順次に減少させて、前記第kないし前記第1デコード済み特徴マップをそれぞれ出力させることを特徴とする請求項1に記載の学習方法。
  5. 前記学習装置は、(v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤ;をさらに含み、
    前記(b)段階は、
    (b1)前記学習装置は、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hバンドパス特徴マップを獲得して第1ないし第h中間特徴マップをそれぞれ出力させる段階;及び
    (b2)前記学習装置は、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のデコード済み特徴マップ及び前記第hないし前記第1中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のデコード済み特徴マップ及び前記第kエンコード済み特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させる段階;
    を含むことを特徴とする請求項1に記載の学習方法。
  6. 前記学習装置は、前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに中間演算を適用して第(h+1)中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)中間特徴マップを伝達することを特徴とする請求項5に記載の学習方法。
  7. 前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールド(Receptive field)は、0の値を有するフィルター加重値によって決定されることを特徴とする請求項5に記載の学習方法。
  8. 前記(1)プロセスで、
    前記学習装置は、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nエンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mバンドパス特徴マップを生成するようにし、
    前記(2)プロセスで、
    前記学習装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、
    前記(b1)段階で、
    前記学習装置は、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mバンドパス特徴マップを参照して第m中間特徴マップを出力し、
    前記(b2)段階で、
    前記学習装置は、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第m中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和に前記デコンボリューション演算を適用するようにすることにより、第nデコード済み特徴マップを出力することを特徴とする請求項7に記載の学習方法。
  9. 少なくとも一つのテストイメージに対するセグメンテーションのためのテスト方法において、
    (a)学習装置が、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1学習用デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含むとするとき、前記トレーニングイメージが入力されると、前記学習装置が、(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを出力するものの、(1−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第k学習用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個の学習用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上の学習用領域を獲得することにより、前記h個の学習用エンコード済み特徴マップから一つ以上の学習用エッジ部分を抽出するようにして、第1ないし第h学習用バンドパス特徴マップを出力させるプロセス、(1−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個の学習用エンコード済み特徴マップそれぞれと前記第1ないし前記第h学習用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第h学習用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第h学習用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行し、(2)前記第kないし前記第1デコンボリューションレイヤをもって(2−1)前記第hないし前記第1学習用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個の学習用デコード済み特徴マップを利用し、(2−2)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された学習用特徴マップを利用して、前記第kないし前記第1学習用デコード済み特徴マップを順次に出力するようにし、(3)前記第1学習用デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節した状態で、前記テストイメージが入力されると、テスト装置は、前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するものの、(a1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kテスト用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のテスト用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上のテスト用領域を獲得することにより、前記h個のテスト用エンコード済み特徴マップから一つ以上のテスト用エッジ部分を抽出するようにして、第1ないし第hテスト用バンドパス特徴マップを出力させるプロセス、及び(a2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップそれぞれと前記第1ないし前記第hテスト用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hテスト用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第hテスト用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行する段階;及び
    (b)前記テスト装置が、前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1テスト用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のテスト用デコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力されたテスト用特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させる段階;
    を含むことを特徴とするテスト方法。
  10. 前記(a1)プロセスで、
    前記テスト装置は、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nテスト用エンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mテスト用バンドパス特徴マップを生成し、
    前記(a2)プロセスで、
    前記テスト装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップとの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、
    前記(b)段階で、
    前記テスト装置は、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用バンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nテスト用デコード済み特徴マップを出力することを特徴とする請求項9に記載のテスト方法。
  11. 前記(a)段階で、
    前記テスト装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのサイズを順次に減少させ、前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのチャンネル数を増加させて前記第1ないし前記第kテスト用エンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kテスト用エンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用バンドパス特徴マップを出力するようにし、
    前記(b)段階で、
    前記テスト装置は、前記第kないし前記第1デコンボリューションレイヤをもって前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのサイズを順次に増加させ、前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのチャンネル数を順次に減少させて、前記第kないし前記第1テスト用デコード済み特徴マップをそれぞれ出力させることを特徴とする請求項9に記載のテスト方法。
  12. 前記テスト装置は(v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤ;をさらに含み、
    前記(b)段階は、
    (b1)前記テスト装置は、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hテスト用バンドパス特徴マップを獲得して、第1ないし第hテスト用中間特徴マップをそれぞれ出力させる段階;及び
    (b2)前記テスト装置は、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のテスト用デコード済み特徴マップ及び前記第hないし前記第1テスト用中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のテスト用デコード済み特徴マップ及び前記第kテスト用エンコード済み特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させる段階;
    を含むことを特徴とする請求項9に記載のテスト方法。
  13. 前記テスト装置は、前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに中間演算を適用して第(h+1)テスト用中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)テスト用中間特徴マップを伝達することを特徴とする請求項12に記載のテスト方法。
  14. 前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールドは、0の値を有するフィルター加重値によって決定されることを特徴とする請求項12に記載のテスト方法。
  15. 前記(a1)プロセスで、
    前記テスト装置は、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mテスト用バンドパス特徴マップを生成するようにし、
    前記(a2)プロセスで、
    前記テスト装置は、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップとの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、
    前記(b1)段階で、
    前記テスト装置は、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mテスト用バンドパス特徴マップを参照して第mテスト用中間特徴マップを出力し、
    前記(b2)段階で、
    前記テスト装置は、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用するようにすることにより、第nテスト用デコード済み特徴マップを出力することを特徴とする請求項14に記載のテスト方法。
  16. (i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第kエンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含む、セグメンテーション性能向上のための学習装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    (I)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを出力するものの、(I−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kエンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のエンコード済み特徴マップで周波数が対応閾値より高い一つ以上の領域を獲得することにより、前記h個のエンコード済み特徴マップから一つ以上のエッジ部分を抽出するようにして、第1ないし第hバンドパス特徴マップを出力させるプロセス、及び(I−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップそれぞれと前記第1ないし前記第hバンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hディファレンシャル特徴マップを獲得して、前記第1ないし前記第hディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセス;(II)前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のデコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させるプロセス;及び(III)前記第1デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とする学習装置。
  17. 前記(I−1)プロセスで、
    前記プロセッサは、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nエンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mバンドパス特徴マップを生成し、
    前記(I−2)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、
    前記(II)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mバンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nデコード済み特徴マップを出力することを特徴とする請求項16に記載の学習装置。
  18. 前記(III)プロセスで、
    前記プロセッサは、前記第kないし前記第1デコンボリューションレイヤのうち少なくとも一つに対応する少なくとも一つのロスレイヤをもって前記第kないし前記第1デコンボリューションレイヤのうち、前記少なくとも一つから出力された少なくとも一つのデコード済み特徴マップ及びこれに該当する少なくとも一つのGTラベルイメージを参考にして、前記ロスを生成するようにすることにより、前記ロスを利用したバックプロパゲーションプロセスを遂行することを特徴とする請求項16に記載の学習装置。
  19. 前記(I)プロセスで、
    前記プロセッサは、前記第1ないし前記第kコンボリューションレイヤをもって前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのサイズを順次に減少させ、前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップのチャンネル数を増加させて前記第1ないし前記第kエンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のエンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kエンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のエンコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hバンドパス特徴マップを出力するようにし、
    前記(II)プロセスで、
    前記プロセッサは、前記第kないし前記第1デコンボリューションレイヤをもって前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのサイズを順次に増加させ、前記第kエンコード済み特徴マップ及び前記第kないし前記第2デコード済み特徴マップのチャンネル数を順次に減少させて、前記第kないし前記第1デコード済み特徴マップをそれぞれ出力させることを特徴とする請求項16に記載の学習装置。
  20. (v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤ;が前記学習装置にさらに含まれ、
    前記(II)プロセスは、
    (II−1)前記プロセッサは、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hバンドパス特徴マップを獲得して第1ないし第h中間特徴マップをそれぞれ出力させるプロセス;及び
    (II−2)前記プロセッサは、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のデコード済み特徴マップ及び前記第hないし前記第1中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のデコード済み特徴マップ及び前記第kエンコード済み特徴マップを利用して、前記第kないし前記第1デコード済み特徴マップを順次に出力させるプロセス;
    を含むことを特徴とする請求項16に記載の学習装置。
  21. 前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤが前記学習装置にさらに含まれるものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに中間演算を適用して第(h+1)中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)中間特徴マップを伝達することを特徴とする請求項20に記載の学習装置。
  22. 前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールド(Receptive field)は、0の値を有するフィルター加重値によって決定されることを特徴とする請求項20に記載の学習装置。
  23. 前記(I−1)プロセスで、
    前記プロセッサは、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nエンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mバンドパス特徴マップを生成するようにし、
    前記(I−2)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nエンコード済み特徴マップと前記第mバンドパス特徴マップとの間の差を計算して第mディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mディファレンシャル特徴マップを伝達するようにし、
    前記(II−1)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mバンドパス特徴マップを参照して第m中間特徴マップを出力し、
    前記(II−2)プロセスで、
    前記プロセッサは、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第m中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)デコード済み特徴マップの要素ごとの和に前記デコンボリューション演算を適用するようにすることにより、第nデコード済み特徴マップを出力することを特徴とする請求項22に記載の学習装置。
  24. 少なくとも一つのテストイメージのセグメンテーションに関するテスト装置において、
    インストラクションを格納する少なくとも一つのメモリ;及び
    学習装置が、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップについてコンボリューション演算を少なくとも1回遂行して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップにデコンボリューション演算を少なくとも1回遂行して第kないし第1学習用デコード済み特徴マップをそれぞれ出力する第kないし第1デコンボリューションレイヤ、(iii)前記k個のコンボリューションレイヤのうちh個のコンボリューションレイヤ(前記hは1から(k−1)までの整数である)それぞれに対応して配置される第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤそれぞれに対応する第1ないし第hディファレンシャルレイヤを含むとするとき、前記トレーニングイメージが入力されると、前記学習装置が、(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを出力するものの、(1−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第k学習用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個の学習用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上の学習用領域を獲得することにより、前記h個の学習用エンコード済み特徴マップから一つ以上の学習用エッジ部分を抽出するようにして、第1ないし第h学習用バンドパス特徴マップを出力させるプロセス、(1−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個の学習用エンコード済み特徴マップそれぞれと前記第1ないし前記第h学習用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第h学習用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第h学習用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセスを遂行し、(2)前記第kないし前記第1デコンボリューションレイヤをもって(2−1)前記第hないし前記第1学習用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個の学習用デコード済み特徴マップを利用し、(2−2)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力された学習用特徴マップを利用して、前記第kないし前記第1学習用デコード済み特徴マップを順次に出力するようにし、(3)前記第1学習用デコード済み特徴マップ及びこれに対応する少なくとも一つのGTラベルイメージを参考にして出力された一つ以上のロスを利用したバックプロパゲーションを遂行して、前記第1ないし前記第kデコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調節した状態で、(I)前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するものの、(I−1)前記第1ないし前記第hマスクレイヤをもって、前記第1ないし前記第kテスト用エンコード済み特徴マップのうち、前記第1ないし前記第hマスクレイヤにそれぞれ入力されるh個のテスト用エンコード済み特徴マップで周波数が対応閾値より高い一つ以上のテスト用領域を獲得することにより、前記h個のテスト用エンコード済み特徴マップから一つ以上のテスト用エッジ部分を抽出するようにして、第1ないし第hテスト用バンドパス特徴マップを出力させるプロセス、及び(I−2)前記第1ないし第hディファレンシャルレイヤをもって、前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップそれぞれと前記第1ないし前記第hテスト用バンドパス特徴マップそれぞれとの差を求めることにより、第1ないし第hテスト用ディファレンシャル特徴マップを獲得して、前記第1ないし前記第hテスト用ディファレンシャル特徴マップそれぞれをこれに対応する次のコンボリューションレイヤに伝達させるプロセス;及び(II)前記第kないし前記第1デコンボリューションレイヤをもって(i)前記第hないし前記第1テスト用バンドパス特徴マップ及び前記第hないし前記第1マスクレイヤに対応するh個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ生成されたh個のテスト用デコード済み特徴マップを利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤからそれぞれ出力されたテスト用特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
    を含むことを特徴とするテスト装置。
  25. 前記(I−1)プロセスで、
    前記プロセッサは、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって(前記mは1から前記hまでの整数である)前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達された第nテスト用エンコード済み特徴マップから周波数が対応閾値より大きい領域を抽出させることにより、第mテスト用バンドパス特徴マップを生成し、
    前記(I−2)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップとの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力するようにし、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、
    前記(II)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用バンドパス特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用することによって、第nテスト用デコード済み特徴マップを出力することを特徴とする請求項24に記載のテスト装置。
  26. 前記(I)プロセスで、
    前記プロセッサは、前記第1ないし前記第kコンボリューションレイヤをもって前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのサイズを順次に減少させ、前記テストイメージ及び前記第1ないし前記第(k−1)テスト用エンコード済み特徴マップのチャンネル数を増加させて前記第1ないし前記第kテスト用エンコード済み特徴マップをそれぞれ出力するようにし、前記第1ないし前記第hマスクレイヤをもって前記h個のテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい前記領域を抽出することにより、前記第1ないし前記第kテスト用エンコード済み特徴マップのうちで前記第1ないし前記第hマスクレイヤにそれぞれ入力される前記h個のテスト用エンコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用バンドパス特徴マップを出力するようにし、
    前記(II)プロセスで、
    前記プロセッサは、前記第kないし前記第1デコンボリューションレイヤをもって前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのサイズを順次に増加させ、前記第kテスト用エンコード済み特徴マップ及び前記第kないし前記第2テスト用デコード済み特徴マップのチャンネル数を順次に減少させて、前記第kないし前記第1テスト用デコード済み特徴マップをそれぞれ出力させることを特徴とする請求項24に記載のテスト装置。
  27. (v)それぞれの前記第1ないし前記第hマスクレイヤとそれに対応するデコンボリューションレイヤとの間にそれぞれ位置した第1ないし第h中間レイヤが前記テスト装置にさらに含まれ;
    前記(II)プロセスは、
    (II−1)前記プロセッサは、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤから出力されたそれぞれの前記第1ないし前記第hテスト用バンドパス特徴マップを獲得して第1ないし第hテスト用中間特徴マップをそれぞれ出力させるプロセス;及び
    (II−2)前記プロセッサは、前記k個のデコンボリューションレイヤをもって(i)前記第hないし前記第1中間レイヤに対応する前記h個のデコンボリューションレイヤそれぞれの以前デコンボリューションレイヤからそれぞれ出力された前記h個のテスト用デコード済み特徴マップ及び前記第hないし前記第1テスト用中間特徴マップを利用し、(ii)前記第hないし前記第1中間レイヤに対応しないそれぞれの前記(k−h)個のデコンボリューションレイヤそれぞれの以前レイヤから出力された(k−h−1)個のテスト用デコード済み特徴マップ及び前記第kテスト用エンコード済み特徴マップを利用して、前記第kないし前記第1テスト用デコード済み特徴マップを順次に出力させるプロセス;
    を含むことを特徴とする請求項24に記載のテスト装置。
  28. 前記第kコンボリューションレイヤ及び前記第kデコンボリューションレイヤの間でさらなる第(h+1)中間レイヤが前記テスト装置にさらに含まれるものの、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに中間演算を適用して第(h+1)テスト用中間特徴マップを出力し、前記第kデコンボリューションレイヤに前記第(h+1)テスト用中間特徴マップを伝達することを特徴とする請求項27に記載のテスト装置。
  29. 前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行し、前記h個の中間レイヤの少なくとも一つのレセプティブフィールドは、0の値を有するフィルター加重値によって決定されることを特徴とする請求項27に記載のテスト装置。
  30. 前記(I−1)プロセスで、
    前記プロセッサは、前記第1ないし前記第hマスクレイヤのうち少なくとも第mマスクレイヤ(前記mは1から前記hまでの整数である)をもって前記第mマスクレイヤに対応する第nコンボリューションレイヤから(前記nは1から前記kまでの整数である)伝達される第nテスト用エンコード済み特徴マップから前記周波数が対応閾値より大きい領域を抽出することにより、第mテスト用バンドパス特徴マップを生成するようにし、
    前記(I−2)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第mディファレンシャルレイヤをもって前記第nテスト用エンコード済み特徴マップと前記第mテスト用バンドパス特徴マップとの間の差を計算して第mテスト用ディファレンシャル特徴マップを出力し、前記第nコンボリューションレイヤの次の第(n+1)コンボリューションレイヤに前記第mテスト用ディファレンシャル特徴マップを伝達するようにし、
    前記(II−1)プロセスで、
    前記プロセッサは、前記第mマスクレイヤに対応する第m中間レイヤをもって前記第mテスト用バンドパス特徴マップを参照して第mテスト用中間特徴マップを出力し、
    前記(II−2)プロセスで、
    前記プロセッサは、前記第m中間レイヤに対応する第nデコンボリューションレイヤをもって前記第mテスト用中間特徴マップと第(n+1)デコンボリューションレイヤから出力された第(n+1)テスト用デコード済み特徴マップのテスト用要素ごとの和(element−wise sum)に前記デコンボリューション演算を適用するようにすることにより、第nテスト用デコード済み特徴マップを出力することを特徴とする請求項29に記載のテスト装置。
JP2019202411A 2019-01-25 2019-11-07 ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置 Active JP6865363B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/257,713 2019-01-25
US16/257,713 US10402977B1 (en) 2019-01-25 2019-01-25 Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
JP2020119500A true JP2020119500A (ja) 2020-08-06
JP6865363B2 JP6865363B2 (ja) 2021-04-28

Family

ID=67770114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019202411A Active JP6865363B2 (ja) 2019-01-25 2019-11-07 ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置

Country Status (5)

Country Link
US (1) US10402977B1 (ja)
EP (1) EP3686774B1 (ja)
JP (1) JP6865363B2 (ja)
KR (1) KR102246326B1 (ja)
CN (1) CN111488782B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10503998B2 (en) * 2016-11-07 2019-12-10 Gracenote, Inc. Recurrent deep neural network system for detecting overlays in images
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111178181B (zh) * 2019-12-16 2023-06-09 深圳市华尊科技股份有限公司 交通场景分割方法及相关装置
CN111160230B (zh) * 2019-12-27 2023-06-06 清华大学苏州汽车研究院(吴江) 一种基于深度学习的道路不规则区域检测网络
CN111179283A (zh) * 2019-12-30 2020-05-19 深圳市商汤科技有限公司 图像语义分割方法及装置、存储介质
KR20210111557A (ko) * 2020-03-03 2021-09-13 현대자동차주식회사 심층 학습 기반의 객체 분류 장치 및 그 방법
KR20220148245A (ko) 2020-03-04 2022-11-04 구글 엘엘씨 스트리밍 시퀀스 모델에 대한 일관성 예측
CN113822041B (zh) * 2020-06-18 2023-04-18 四川大学 一种适用密集文本的深度神经网络自然场景文本检测方法
CN112115920A (zh) * 2020-09-30 2020-12-22 北京百度网讯科技有限公司 生成单目标检测神经网络的方法和装置
CN112287807B (zh) * 2020-10-27 2022-06-07 武汉大学 一种基于多分支金字塔神经网络的遥感影像道路提取方法
CN114463187B (zh) * 2022-04-14 2022-06-17 合肥高维数据技术有限公司 基于聚合边缘特征的图像语义分割方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180292784A1 (en) * 2017-04-07 2018-10-11 Thanh Nguyen APPARATUS, OPTICAL SYSTEM, AND METHOD FOR DIGITAL Holographic microscopy
JP2018181124A (ja) * 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401336B2 (en) * 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
JP5506274B2 (ja) * 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
CN104700099B (zh) * 2015-03-31 2017-08-11 百度在线网络技术(北京)有限公司 识别交通标志的方法和装置
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
CN104933722B (zh) * 2015-06-29 2017-07-11 电子科技大学 一种基于Spiking‑卷积神经网络模型的图像边缘检测方法
JP6993334B2 (ja) * 2015-11-29 2022-01-13 アーテリーズ インコーポレイテッド 自動化された心臓ボリュームセグメンテーション
US20170206434A1 (en) * 2016-01-14 2017-07-20 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
US11144889B2 (en) * 2016-04-06 2021-10-12 American International Group, Inc. Automatic assessment of damage and repair costs in vehicles
EP3252671A1 (en) * 2016-05-31 2017-12-06 Siemens Healthcare GmbH Method of training a deep neural network
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
US10582907B2 (en) * 2016-10-31 2020-03-10 Siemens Healthcare Gmbh Deep learning based bone removal in computed tomography angiography
US10157441B2 (en) * 2016-12-27 2018-12-18 Automotive Research & Testing Center Hierarchical system for detecting object with parallel architecture and hierarchical method thereof
WO2018138603A1 (en) * 2017-01-26 2018-08-02 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and electronic device including the semiconductor device
JP7293118B2 (ja) 2017-02-22 2023-06-19 ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ インスタンス重み付けを伴うランダムフォレストを使用するマルチパラメトリックmriにおける前立腺がんの検出、およびホリスティックネスト型ネットワークを用いたディープラーニングによるmr前立腺セグメント化
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
US10133964B2 (en) * 2017-03-28 2018-11-20 Siemens Healthcare Gmbh Magnetic resonance image reconstruction system and method
US10325166B2 (en) * 2017-04-13 2019-06-18 Here Global B.V. Method, apparatus, and system for a parametric representation of signs
US11164071B2 (en) * 2017-04-18 2021-11-02 Samsung Electronics Co., Ltd. Method and apparatus for reducing computational complexity of convolutional neural networks
US10824938B2 (en) * 2017-04-24 2020-11-03 Intel Corporation Specialized fixed function hardware for efficient convolution
US10733755B2 (en) * 2017-07-18 2020-08-04 Qualcomm Incorporated Learning geometric differentials for matching 3D models to objects in a 2D image
US10402995B2 (en) * 2017-07-27 2019-09-03 Here Global B.V. Method, apparatus, and system for real-time object detection using a cursor recurrent neural network
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
US10282589B2 (en) * 2017-08-29 2019-05-07 Konica Minolta Laboratory U.S.A., Inc. Method and system for detection and classification of cells using convolutional neural networks
US11227108B2 (en) * 2017-09-11 2022-01-18 Nec Corporation Convolutional neural network architecture with adaptive filters
CN110838124B (zh) * 2017-09-12 2021-06-18 深圳科亚医疗科技有限公司 用于分割具有稀疏分布的对象的图像的方法、系统和介质
US10223610B1 (en) * 2017-10-15 2019-03-05 International Business Machines Corporation System and method for detection and classification of findings in images
CN108564109B (zh) * 2018-03-21 2021-08-10 天津大学 一种基于深度学习的遥感图像目标检测方法
CN108520212A (zh) * 2018-03-27 2018-09-11 东华大学 基于改进的卷积神经网络的交通标志检测方法
US10304193B1 (en) * 2018-08-17 2019-05-28 12 Sigma Technologies Image segmentation and object detection using fully convolutional neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180292784A1 (en) * 2017-04-07 2018-10-11 Thanh Nguyen APPARATUS, OPTICAL SYSTEM, AND METHOD FOR DIGITAL Holographic microscopy
JP2018181124A (ja) * 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUOSHENG LIN, 外3名: ""RefineNet: Multi-path Refinement Networks for High-Resolution Semantic Segmentation"", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6021000602, 21 July 2017 (2017-07-21), US, pages 5168 - 5177, ISSN: 0004425452 *
KAZUHIRO HATANO, 外5名: ""Detection of Phalange Region Based on U-Net"", 2018 18TH INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS (ICCAS), JPN6021000601, 17 October 2018 (2018-10-17), US, pages 1338 - 1342, XP033470892, ISSN: 0004425451 *
大石涼火, 外2名: ""セマンティックセグメンテーションにおけるハイパーパラメータの自動選択と室内画像からの床領域抽出への", 研究報告コンピュータビジョンとイメージメディア(CVIM), vol. 第2018−CVIM−214巻, 第4号, JPN6021000600, 31 October 2018 (2018-10-31), JP, pages 1 - 8, ISSN: 0004425450 *

Also Published As

Publication number Publication date
CN111488782B (zh) 2023-04-07
US10402977B1 (en) 2019-09-03
EP3686774B1 (en) 2023-08-30
EP3686774C0 (en) 2023-08-30
KR20200092839A (ko) 2020-08-04
EP3686774A1 (en) 2020-07-29
CN111488782A (zh) 2020-08-04
JP6865363B2 (ja) 2021-04-28
KR102246326B1 (ko) 2021-04-29

Similar Documents

Publication Publication Date Title
JP2020119500A (ja) ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置
KR102241595B1 (ko) 에지 로스를 이용하여 보행자 이벤트, 자동차 이벤트, 폴링 이벤트, 폴른 이벤트를 포함한 이벤트를 검출하는데 있어 이용되는 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
EP3686779B1 (en) Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
KR20200027428A (ko) 에지 이미지를 이용하여 객체를 검출하는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR102319541B1 (ko) 객체의 종횡비나 스케일에 따라 모드를 전환할 수 있는 r-cnn 기반의 감시에 사용되는 객체 검출기의 학습 방법 및 테스트 방법, 이를 이용한 학습 장치 및 테스트 장치
KR102279376B1 (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6869565B2 (ja) 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same}
KR20200047307A (ko) 유용한 학습 데이터를 취사 선별하기 위한 cnn 기반 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
US10579907B1 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
KR102313113B1 (ko) R-cnn 기반 객체 검출기의 학습 방법과 테스팅 방법, 및 이를 이용한 학습 장치와 테스팅 장치
KR102279388B1 (ko) 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
US10496899B1 (en) Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
CN110910395A (zh) 图像编码方法和装置、利用它们的测试方法和测试装置
US10872297B2 (en) Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
JP2020038664A (ja) コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}
KR102313604B1 (ko) 멀티 피딩을 적용한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
EP3686800A1 (en) Learning method and learning device for object detector based on cnn using 1xh convolution to be used for hardware optimization, and testing method and testing device using the same
KR102320995B1 (ko) 객체의 스케일에 따라 모드 전환이 가능한 cnn 기반의 감시용 객체 검출기의 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR102252155B1 (ko) 자율주행 자동차의 레벨 4를 충족시키기 위해 필요한 hd 지도와의 콜라보레이션을 지원하는 임베딩 로스 및 소프트맥스 로스를 이용하여 적어도 하나의 차선을 가지는 이미지를 세그멘테이션하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR20200092847A (ko) 핵심 성능 지수를 만족시킬 수 있는 하드웨어 최적화가 이루어지도록, cnn에서 복수의 블록 내의 입력 이미지로부터 특징을 추출하는 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR102224778B1 (ko) 횡 필터 마스크를 이용하여 자율 주행 차량의 주행 경로를 계획하기 위해 차선 요소를 검출하는 방법 및 장치
KR20220134428A (ko) 서로 다른 스펙을 가지는 영상 장치들로부터 획득된 이미지들을 이용하여 퍼셉션 네트워크를 학습 및 테스트하는 방법 및 이를 이용한 학습 및 테스트 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210310

R150 Certificate of patent or registration of utility model

Ref document number: 6865363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250