JP2017162456A - 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング - Google Patents
道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング Download PDFInfo
- Publication number
- JP2017162456A JP2017162456A JP2017029703A JP2017029703A JP2017162456A JP 2017162456 A JP2017162456 A JP 2017162456A JP 2017029703 A JP2017029703 A JP 2017029703A JP 2017029703 A JP2017029703 A JP 2017029703A JP 2017162456 A JP2017162456 A JP 2017162456A
- Authority
- JP
- Japan
- Prior art keywords
- training
- image
- data
- network
- deconvolution network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims description 121
- 230000011218 segmentation Effects 0.000 title abstract description 26
- 238000000034 method Methods 0.000 claims description 64
- 230000006870 function Effects 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 4
- 238000005094 computer simulation Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims 4
- 230000003044 adaptive effect Effects 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 230000007423 decrease Effects 0.000 claims 1
- 238000011176 pooling Methods 0.000 description 19
- 238000012546 transfer Methods 0.000 description 17
- 238000013459 approach Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 10
- 238000003491 array Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000001994 activation Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 102100024508 Ficolin-1 Human genes 0.000 description 2
- 101001052785 Homo sapiens Ficolin-1 Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/955—Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2710/00—Output or target parameters relating to a particular sub-units
- B60W2710/18—Braking system
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2710/00—Output or target parameters relating to a particular sub-units
- B60W2710/20—Steering systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
Abstract
【課題】入力画像の対応するエリアのラベルデータを作るためのトレーニングされたコンピュータシステムを提供する。【解決手段】ソースデコンボリューションネットワークが、セマンティックセグメンテーションを実行するために、適応的にトレーニングされる。次いで、画像データが、ソースデコンボリューションネットワーク(S−Net)に入力され、S−Netの出力が測定される。同じ画像データおよびソースデコンボリューションネットワークの測定された出力は、ターゲットデコンボリューションネットワークをトレーニングするために使用される。ターゲットデコンボリューションネットワークは、ソースデコンボリューションネットワークより実質的に少数の数値パラメータによって定義される。【選択図】図8
Description
本開示は、画像内でオブジェクトの画像である画像のエリアを識別し、オブジェクトの性質を示すラベルで画像のエリアにラベルを付ける(labelling)ためのコンピュータ実装方法(computer-implemented methods)およびコンピュータシステムに関する。
コンボリューションニューラルネットワーク(CNNまたはConvNet:convolutional neural network)は、画像を処理するために使用される1つのタイプのフィードフォワード人工ニューラルネットワーク(feed-forward artificial neural network)である。
CNNの基礎的要素(building blocks)のうちの1つは、値の2次元配列を入力として受信する「コンボリューションレイヤ」である。コンボリューションレイヤは、数値パラメータのそれぞれのセットによって定義される整数bのフィルタを備える。コンボリューションレイヤへの入力は、同一サイズの2次元配列のセットであり、これらの配列の数を整数aとして示す。各フィルタは、それぞれの2次元出力を作るために、同時に入力2次元配列とコンボリューションされる。コンボリューションプロセスの間、複数のフィルタのうちの所与の1つが、入力2次元配列の各々(フィルタの「ビジュアルフィールド(visual field)」)の連続する対応するウインドウ(すなわち、スモールエリア)から入力を連続して受信する。ウインドウのサイズは、kxkとして示されることができ、ここで、kは整数であり、したがって、フィルタは、kxkxaの入力値を使用して単一の出力値を生成する。フィルタは、これらの値にkxkxaのそれぞれのフィルタ値を掛け、それらの結果を、対応する出力値を与えるために加える。したがって、所与のフィルタについて、各入力2次元画像の対応するスモールエリアは、それぞれの2次元出力の1ピクセルである、単一の出力値を作る。
各フィルタの連続するビジュアルフィールドは、「ストライド(stride)」と呼ばれるいくつかのピクセルによってオフセットされる。2次元入力配列のサイズが2次元出力配列のサイズと実質的に等しいことを意味する、ストライド値の1が、本明細書において想定されることになる。
したがって、所与のコンボリューションレイヤの重大なパラメータは、それが入力として受信する2次元配列の数aと、それが含むフィルタの数b(それが作る2次元出力配列の数と等しい)と、入力画像の各々内の各フィルタのkxkビジュアルフィールドのサイズとを含む。しばしば、入力画像は、それの外周にゼロでパディングされ、このゼロパディング(zero-padding)のサイズは、別のパラメータである。
図1は、コンボリューションレイヤを表すために本明細書で使用される表記法を示す。それは、コンボリューションレイヤへの入力がaの2次元配列のセットであることを示し、そのコンボリューションレイヤはbのフィルタを含む。ウインドウのサイズはkxkであり、入力配列は値「pad」によってパディングされる。
コンボリューションネットワークの第2の共通の基礎的要素は、非線形のダウンサンプリングを実行する、プーリングレイヤである。具体的には、プーリングレイヤは、2次元配列をサイズkxkの複数の重なり合わないブロックに分割し、このブロックについて、2つの出力値:そのブロックのkxkの入力値の最大値と、そのブロックのkxkの入力値のどれが最高値を有したかを示す「プーリングインデックス」、を出力する。言い換えれば、プーリングは、入力画像を重なり合わない四角のセットに分割し、そのような各四角について、最大値を出力する。複数のブロックが重なり合わないという事実は、複数のブロックが複数のブロックのサイズと等しいストライドによってペアで間隔を置かれると言うことと等しく、本明細書ではさらに考慮されない、汎化において、これは当てはまらないことがある。
図2(a)は、プーリングレイヤを表すために本明細書で使用される表記法を示し、図2(b)は、同等の簡略化された表記法である。両方とも、プーリングレイヤが、ストライドkによってペアでオフセットされた、サイズkxkの複数のブロックを使用することを意味する。
コンボリューションネットワークの別の共通の基礎的要素は、修正線形ユニット(ReLU:Rectified Linear Unit)レイヤである。これは、関数f(x)=max(0,x)に従って、それに入力される各値(示されたx)を変換する。図3(a)は、ReLUレイヤを表すために本明細書で使用される表記法を示す。
コンボリューションネットワークの別の共通の基礎的要素は、バッチ正規化(BNorm:Batch normalisation)レイヤである。これは、入力値のセットに作用し、2つの数値パラメータAおよびBを使用する。各入力値は、それぞれの出力値を作るために、値Aによって減らされ、次いでパラメータBで割られる。AおよびBの値は、出力値のセットがゼロの平均と1の分散(a variance)とを有するように、選択される。図3(b)は、ReLuレイヤを表すために本明細書で使用される表記法を示す。
コンボリューションネットワークの別の共通の基礎的要素は、ソフトマックスレイヤである。これは、整数Kの入力値に作用し、合計1になる範囲(0,1)においてそれぞれのKの出力値のセットを出力する。図3(c)は、ソフトマックスレイヤを表すために本明細書で使用される表記法を示す。ソフトマックスレイヤは、しばしば、コンボリューションネットワークの出力に位置し、ソフトマックスレイヤの出力値は、確率値に対応する。一例では、ソフトマックスレイヤの出力の各々は、それぞれのオブジェクトカテゴリに対応し、画像がコンボリューションネットワークに入力されるとき、ソフトマックスレイヤによって出力される複数の値は、その画像が複数のオブジェクトカテゴリのうちのそれぞれのオブジェクトカテゴリ内のオブジェクトを示すそれぞれの確率を示す。
近年、「デコンボリューションネットワーク(deconvolutional networks)」(DN)が、提案された。デコンボリューションネットワークは、非自明の(non-trivial)空間コンテキストを有する出力を回帰する(regress)ためのメカニズムを含む。1つの例は、2Dにおける空間解像度(HxW)であるが、デコンボリューションネットワークはまた、2Dより大きい(HxWxD_3x…xD_k)において入力に適用可能である。デコンボリューションネットワークの出力は、入力と同じ空間解像度、より大きい空間解像度、またはより小さい解像度さえも有し得る。これらのアーキテクチャの一例は、画像の入力ピクセルの各々についての出力値を作るものであり、すなわち、サイズHxWの入力画像について、出力サイズは、空間コンテキストの回帰のために使用されるメカニズムから独立して、HxWである。「デコンボリューションネットワーク」という用語は、前の作業(work)と一貫性を維持するために選択される。
一般に、デコンボリューションネットワークはまた、「デコンボリューション」レイヤが後に続く「アンプーリング(unpooling)」レイヤを含む。アンプーリングレイヤは、プーリングレイヤの反意語である。アンプーリングレイヤへの入力は、数値の2次元配列であり、各値について、それぞれの「プーリングインデックス」が、kxk配列のピクセルのうちの1つのピクセルを示す。数値の2次元配列の各々について、アンプーリングレイヤは、第2の数値のそれぞれのkxk配列を出力する。それぞれのプーリングインデックスによって示される第2の数値は、第1の数値と等しく、他のkxk−1の第2の数値は、ゼロである。したがって、サイズbxbの第1の数値の2次元配列である入力を所与として、出力は、第2の数値のkbxkb配列であり、bxbの第2の数値以外はすべてゼロである。
言い換えれば、アンプーリングレイヤは、プーリングレイヤを取り消す(undoes):第1の数値のある特定の第1の2D配列が、信号であり、プーリングレイヤと次いでアンプーリングレイヤとを通して渡される場合、結果は、第1の2D配列と同じサイズの第2の2D配列であり、各kxkのブロック内の第1の数値の最高は変わらないが、他のすべての第1の数値はゼロにセットされる。
「デコンボリューションレイヤ」は、次いで、出力にコンボリューションを適用する。この動作の間、アンプーリングレイヤによって出力されるゼロ以外の値は、アンプーリングレイヤの出力がゼロであった2D配列内の位置においてゼロ以外の値を生成する。したがって、デコンボリューションは、転置されたコンボリューションである。
アンプーリングレイヤとデコンボリューションレイヤとの組合せは、プーリングレイヤとコンボリューションレイヤとの反意語と考えられることができる。
図4(a)は、アンプーリングレイヤを表すために本明細書で使用される表記法を示し、図4(b)は、同等の簡略化された表記法である。
DNsは、セマンティックセグメンテーション(semantic segmentation)のタスクについて注目すべき成功を達成し、その中で、画像認識は、個々のピクセルの解像度で実行され、結果として、道路シーンセグメンテーションのための魅力的なアーキテクチャ −多数の自律運転またはアドバンスト運転者補助システムにおける有用なコンポーネントになった。しかしながら、実際に最新のDNsを適用しようとするとき、いくつかの制限が存在する。
第1に、それらは、メモリフットプリント(memory footprint)に関して不十分である。自動車産業を対象とする市販のチップが、ますますパラレルになる一方で、小さいサイズの高速アクセスオンチップSRAMメモリは、限定されたままである(たとえば、Mobileye EyeQ256チップの512KBおよび東芝TMPV760シリーズ76チップファミリの1〜10MB)。対照的に、一般的なDNsは、50〜1000倍多くのメモリを使用する。より効率的なDNアーキテクチャが、提案されているが、それらは、いまだに数千万のパラメータを含み、より大きいDNsと同等の精度をまだ示していない。
第2に、DNsは、通常は、監視された(supervised)形でトレーニングされるので、それらの性能は、対応するピクセルごとの注釈を有する大量のトレーニングデータへのアクセスの利益を得る。そのような注釈を作ることは、高価な、時間のかかるプロセスである。したがって、画像分類などのタスクのためのデータセットは、スケールにおいてO(107)の画像に達し得るが、一般的なセマンティック道路シーンセグメンテーションデータセットは、O(103)の画像を含む。データの不足(scarcity)は、モデルがオーバーフィット(overfitting)なしにこれらの概念を学習することを難しくし得る、歩行者および自転車に乗った人など、より稀であるが重要なクラスのサンプルの不足をもたらす。さらに、データの不足は、起こりうる道路シーンの真の分布にわたる不十分なカバレッジを暗に示す:データセットは、通常は、比較的同種の道路条件の下で1つまたは少数の局所的領域においてキャプチャされる。トレーニングデータが利用可能になるときに新しいドメインからの知識をどのようにして最も良く組み込むかを理解することは、利用可能なデータを所与とした最良の一般タスク性能を保証するための重要な問題である。
以下のトピックの文献をここで簡潔に概括する:(i)セマンティックセグメンテーション、および(ii)制限されたデータでのトレーニング。
(i)セマンティックセグメンテーション。
セマンティックセグメンテーションのタスクは、
などの入力画像を出力ラベル画像
にマップする関数fの推定を伴い、ここで、ラベル1,..,Nは、そのピクセルでの入力のセマンティッククラスにインデックスを付ける(たとえば、道路、歩道、空、草木、歩行者など)。これは、コンピュータビジョンにおける一般的な問題であり、屋内から屋外までの様々な環境について、ならびに道路シーン認識などの特定のタスクについて取り組まれてきた。後者については、我々の仕事の焦点であり、セマンティックセグメンテーションは、ローカルプランニングおよび未来の半自律(semi-autonomous)および自律車両の障害物回避サブシステムの一部として主要な役割を果たすことが期待される。
セマンティックセグメンテーションのタスクは、
その問題に対処するための古典的なツールは、構造化された予測を作るために使用される条件付きランダムフィールド(CRFs:Conditional Random Fields)などの確率的グラフィックモデルでの、手作りの(hand-crafted)機能(たとえば、SIFT、HOG)および領域ベースの分類子(たとえば、SVM、AD−ABoost)の組合せに基づくパイプラインを含む。ディープ(deep)コンボリューションニューラルネットワーク(CNNs)の到来により、手作りの機能は、画像パッチのレベルで動作した、学習されたCNN表現によって置き換わった。この傾向は、ピクセルレベルでのデンス(dense)推論を作り、認識および画像全体のセグメンテーションのプロセスを自然に実行する、DNsの導入とともに継続した。
(ii)制限されたデータでのトレーニング
DNsの1つの重要な問題は、自動車環境などのある種のドメインに適用されるとき、適切に大きい、多様なトレーニングデータが不足するということである。境界ボックス(bounding boxes)またはテキストキャプションで弱く注釈を付けられた、オブジェクト検出および画像分類データセットからの付加的データで既存のセマンティックセグメンテーションデータセット(すなわち、ピクセル単位のラベルから成る)を増加させることによってこの問題を緩和するための提案が存在する。両方の手法は、エンドツーエンドの方法でDNsをトレーニングするために増加されたデータセットに直接適用され、精度の向上をもたらした。しかしながら、この方式で顕著な改善を得ることは、既存の付加的なデータセットが、単純なオブジェクトの注釈など − 同様の性質にあるときにのみ可能である。
DNsの1つの重要な問題は、自動車環境などのある種のドメインに適用されるとき、適切に大きい、多様なトレーニングデータが不足するということである。境界ボックス(bounding boxes)またはテキストキャプションで弱く注釈を付けられた、オブジェクト検出および画像分類データセットからの付加的データで既存のセマンティックセグメンテーションデータセット(すなわち、ピクセル単位のラベルから成る)を増加させることによってこの問題を緩和するための提案が存在する。両方の手法は、エンドツーエンドの方法でDNsをトレーニングするために増加されたデータセットに直接適用され、精度の向上をもたらした。しかしながら、この方式で顕著な改善を得ることは、既存の付加的なデータセットが、単純なオブジェクトの注釈など − 同様の性質にあるときにのみ可能である。
(iii)シャロー(shallow)ネットワークの性能の向上
ディープ学習の最近の傾向は、さらによりディープなモデルを追い求めることであるが、よりシャローなモデルに対するディープモデルの優先は、よりシャローなモデルが限られた能力または表現力(representational power)を有することが示されたからではなく、むしろ、シャローモデルをトレーニングするために使用される学習および正則化手順が十分に強力ではないということである。これの1つの理由は、直観に反して、低品質のローカル最小値に陥る可能性は、ネットワークサイズが小さくなるとともに増すということである。シャローネットワークからより良い性能を引き出すための様々な手法が、文献において提案された。いくつかは、より大きい、ラベルを付されていないデータセットにラベルを付けるために、より大きいデータセットの小さいが代表的なサブセットでトレーニングされた、分類子のアンサンブルを使用する。大きいアンサンブルラベルを付けられたデータセットは、次いで、ネットワークをトレーニングするために使用される。別の手法では、大きい教師アンサンブル(a large teacher ensemble)がトレーニングされ、知識は、その教師のロジットアクティベーション(logit activations)にマッチさせるためにそれをトレーニングすることによって、それからシャローであるが広いモデルに転送された(transferred)。
ディープ学習の最近の傾向は、さらによりディープなモデルを追い求めることであるが、よりシャローなモデルに対するディープモデルの優先は、よりシャローなモデルが限られた能力または表現力(representational power)を有することが示されたからではなく、むしろ、シャローモデルをトレーニングするために使用される学習および正則化手順が十分に強力ではないということである。これの1つの理由は、直観に反して、低品質のローカル最小値に陥る可能性は、ネットワークサイズが小さくなるとともに増すということである。シャローネットワークからより良い性能を引き出すための様々な手法が、文献において提案された。いくつかは、より大きい、ラベルを付されていないデータセットにラベルを付けるために、より大きいデータセットの小さいが代表的なサブセットでトレーニングされた、分類子のアンサンブルを使用する。大きいアンサンブルラベルを付けられたデータセットは、次いで、ネットワークをトレーニングするために使用される。別の手法では、大きい教師アンサンブル(a large teacher ensemble)がトレーニングされ、知識は、その教師のロジットアクティベーション(logit activations)にマッチさせるためにそれをトレーニングすることによって、それからシャローであるが広いモデルに転送された(transferred)。
本発明の一例が、以下のような図面を参照して例示のみを目的としてここで説明されることになる。
一般論として、本発明は、ソースデコンボリューションネットワーク(本明細書ではS−Netとも称される)が、セマンティックセグメンテーションを実行するように適応的にトレーニングされることを提案する。トレーニングプロセスは、トレーニング画像を符号化する画像データと、トレーニング画像の対応するエリアにラベルを付ける注釈データとを備える、トレーニングデータを使用する。エリアは、代替的に、「スーパーピクセル」、または、個々のピクセルの代わりの他の構造であり得るが、エリアは、好ましくは、トレーニング画像の個々のピクセルである。注釈データは、オブジェクトカテゴリのいくつかの所定のセットのうちの1つを指定し、その画像の対応するエリアが、注釈データによって指定されたオブジェクトカテゴリ内にあるオブジェクトの画像であることを示す。
S−Netは、実質的に、それのサイズの制約なしに(または、現在の高速アクセスオンチップSRAMメモリのメモリ制限によって制約されることなしに任意のレートで)トレーニングされる。
トレーニング画像は、S−Netに入力され(そのうちのいくつかまたはすべてがS−Netを作るために使用されたものである可能性がある)、S−Netの1つまたは複数の対応する出力が、決定される。これらのトレーニング画像およびS−Netの(1つまたは複数の)測定された出力は、次いで、ターゲットデコンボリューションネットワーク(本明細書でT−Netとも称される)をトレーニングするために使用される。T−Netは、S−Netよりも実質的に少数の数値パラメータによって定義される。すなわち、T−Netのためのトレーニング手順は、S−Netを作るように適応されたものより少数の数値パラメータを適応することを含む。
具体的には、現在の高速アクセスオンチップSRAMなどの現在の集積回路設計による集積回路においてT−Netを実装することが可能であるように、T−Netは、T−Netのパラメータの数が数値制限より高くならないように選択(「制約」)され得る。たとえば、T−Netは、好ましくは、10M以下の適応的にセットされた数値パラメータを有し、より好ましくは、5M未満の適応的に生成されセットされた数値パラメータを有する。S−Netは、それに反して、実質的に、トレーニング時間の制約および/またはそれを定義する数値パラメータを記憶するためのメモリ要件なしにトレーニングされ得る。S−Netは、T−Netの50倍を超える(より好ましくは、100倍を超える、または、200倍も超える)適応的にセットされた数値パラメータを含み得る。
「デコンボリューションネットワーク」という用語は、シーケンスで配列された複数のレイヤと、それらのレイヤのうちの次のものにデータを連続的に送信するレイヤと、以下を含むレイヤとを備える、計算モデルを意味するために本明細書において使用される:
複数のコンボリューションレイヤ、各コンボリューションレイヤは、出力値のそれぞれの2次元配列を各フィルタについて生成するために、入力値の1つまたは複数の2次元配列にそれぞれのフィルタによって定義される複数のコンボリューション動作を実行する;
出力値のより小さい2次元配列を作るために、入力値の2次元配列にダウンサンプリング動作を各々実行する複数のプーリングレイヤ;
出力値のより大きい2次元配列を作るために、入力値の2次元配列にアップサンプリング動作を各々が実行する複数のアンプーリングレイヤ。
複数のコンボリューションレイヤ、各コンボリューションレイヤは、出力値のそれぞれの2次元配列を各フィルタについて生成するために、入力値の1つまたは複数の2次元配列にそれぞれのフィルタによって定義される複数のコンボリューション動作を実行する;
出力値のより小さい2次元配列を作るために、入力値の2次元配列にダウンサンプリング動作を各々実行する複数のプーリングレイヤ;
出力値のより大きい2次元配列を作るために、入力値の2次元配列にアップサンプリング動作を各々が実行する複数のアンプーリングレイヤ。
通常は、S−NetおよびT−Netは、トレーニング装置の機能を果たす適切にプログラムされた汎用コンピュータなどのコンピュータ装置内部で、前述の方法によって、自動的に生成される。そのコンピュータ装置は、プログラム命令を実行するときに、コンピュータ装置のプロセッサに、S−NetおよびT−Netを生成するための方法のステップを実行させるように動作するプログラム命令(非一時的な形の)を記憶する有形データストレージデバイスを含む、またはそのような有形データストレージデバイスへのアクセスを有する。
T−Netを記述するデータは、次いで、コンピュータ装置から出力され、1つまたは複数の有形集積回路としてT−Netを実装するために使用される。具体的には、T−Netのパラメータは、SoC(システムオンチップ)技術を実装し、コンピュータ装置からASIC(特定用途向け集積回路)またはFPGA(フィールドプログラマブルゲートアレイ)集積回路に転送され、T−Netのブロックによって定義された同じ動作が、実装される(すなわち、集積回路は、T−Netのクローンであり、コンボリューション、ReLu、プーリング、アンプーリングなどを実行する対応する機能ブロックを含む)。(1つまたは複数の)集積回路は、次いで、道路車両制御システムのセマンティックセグメンテーションコンポーネントなど、道路シーンの画像のセマンティックセグメンテーションのための車両装備システムの一部として使用され得る。道路車両制御システムの出力は、車両のステアリングシステムおよび速度制御システムの入力を制御するために、送信される。したがって、車両は、「自分で運転する」道路車両として動作することができる。
本発明の以下の例では、異なるドメインおよびモダリティ(modalities)からの多数の公的に利用可能なデータセットが、セマンティック道路シーンセグメンテーションのタスクのためのデータセットを形成するために照合される。我々は、我々の集積されたデータセットをマルチドメイン道路シーンのセマンティックセグメンテーション(MDRS3:Multi-Domain Road Scene Semantic Segmentation)データセットと呼ぶ。我々は、MDRS3のためのテストセットとして全体として構成データセット(constituent datasets)のうちの2つを選択する。これは、MDRS3のためのトレーニングおよびテストが、同じオリジナルデータセットのサブセットで実行されないことを意味し、性能は、タスク汎化のより良いインジケーションである。
S−Net(および、任意選択でT−Net)は、異なる「ドメイン」または「モダリティ」である複数の部分を含むトレーニングデータを使用して生成され得る。具体的には、ドメインのうちの第1のドメインは、その中で注釈データが各ピクセルについて正確であるトレーニングデータを含み得る。ドメインのうちの第2のドメインは、自動化アルゴリズムによって生成されたおよび各ピクセルについて利用可能ではないがそれらのうちの少数についてのみ利用可能である注釈データなど、その中で注釈データが概算である(approximate)トレーニングデータを含み得る。トレーニングデータの第1の種類は、「デンス(dense)」トレーニングデータと呼ばれ、一方、第2の種類は、「スパース(sparse)」トレーニングデータと呼ばれ、ここで、「デンス」は、ピクセルの総数に対する注釈付きのピクセルの比率が第1の閾値(たとえば、60%またはさらに70%)を上回ることを意味し、一方、スパースは、ピクセルの総数に対する注釈付きのピクセルの比率が第1の閾値より低い第2の閾値(たとえば、20%またはさらに10%)を下回ることを暗に示す。
S−Netは、S−Netへの入力を各々受信するおよび異なるそれぞれのモダリティでトレーニングデータでトレーニングされた複数のデコンボリューションネットワークを含み得る。S−Netは、複数のデコンボリューションネットワークの出力を結合するために、1つまたは複数のコンボリューションレイヤを任意選択で含む、1つまたは複数のレイヤを含み得る。
これらの原理の使用の詳細な例をここで説明する。
1.本例で使用されることになるトレーニングおよびテストデータセットの生成
道路シーンのセマンティックセグメンテーションのトレーニングに適したデータの獲得は、費用がかかり、時間がかかる。10〜20クラスで画像にデンスに(densely)ラベル付けするプロセスは、通常の、雑然とした遠近法のストリートビュー画像について最大30分を要することがあり、そのため、存在するデータセットは比較的小さい傾向がある。加えて、データセットは、しばしば、局所的地理的領域に限定され、孤立してトレーニングおよびテストされる。本例では、多数のデータセットが、すべての利用可能な関連トレーニングデータを活用するために、我々がマルチドメイン道路シーンのセマンティックセグメンテーションデータセット(MDRS3)と呼ぶ、1つの集合的データセットを作成するために使用される。
道路シーンのセマンティックセグメンテーションのトレーニングに適したデータの獲得は、費用がかかり、時間がかかる。10〜20クラスで画像にデンスに(densely)ラベル付けするプロセスは、通常の、雑然とした遠近法のストリートビュー画像について最大30分を要することがあり、そのため、存在するデータセットは比較的小さい傾向がある。加えて、データセットは、しばしば、局所的地理的領域に限定され、孤立してトレーニングおよびテストされる。本例では、多数のデータセットが、すべての利用可能な関連トレーニングデータを活用するために、我々がマルチドメイン道路シーンのセマンティックセグメンテーションデータセット(MDRS3)と呼ぶ、1つの集合的データセットを作成するために使用される。
1.1 データセット合成
データセットは、Cam Vid[1,2]およびKITTIセマンティック(KITTI−S)[3,4,5]などのデンスピクセル単位の注釈を有する一般的な道路シーンのセマンティックセグメンテーションデータセットを含む。
データセットは、Cam Vid[1,2]およびKITTIセマンティック(KITTI−S)[3,4,5]などのデンスピクセル単位の注釈を有する一般的な道路シーンのセマンティックセグメンテーションデータセットを含む。
表1に示すように、これらのデンスデータセットは、様々なクラスの出現の頻度において大きい不均衡を含む:道路、空または建物などの構造的クラスは、車、歩行者、道路標識または自転車に乗った人などの重要な非構造的クラスよりも数桁多く頻出する。後者の認識を高めるために、我々は、注釈が境界ボックスまたはセグメンテーションマスクの形で利用可能である特定の検出および認識データセットを含む:KITTIオブジェクト(KITTI−O)[3]と、都市環境における歩行者、自転車に乗った人、道路標識および車を含むMicrosoft COCO(M−COCO)[6]のフィルタ処理されたセットと、歩行者のためのモバイルプラットフォームからのETHローバストマルチパーソントラッキング(ETH−RMPTMP:ETH Robust Multi-Person Tracking from Mobile Platforms)[7]と、道路標識のためのドイツ交通標識認識ベンチマーク(GTSRB:German Traffic Sign Recognition Benchmark)[8]。
我々のMDRS3トレーニングおよびテストセットのクラスの分布(表1の最後の2つの行)は、我々のデータセット内のトレーニングデータが既存のデンスデータセットと比べて重要な稀なクラスのより多数のインスタンスをどのように含むかを示す。
1.2 スパース注釈の改良(Refinement of sparse annotations)
注釈が境界ボックスの形で提供される構成データセット(表1においてアスタリスクの印を付けられた)について、ピクセル単位の注釈への改良が、[9]の同様のGrabCutベースの手法を採用することによって、実行された。9のオブジェクトカテゴリの多角形の境界ボックスでラベルを付けられたおよび多数のボイドエリア(void areas)を含むCBCLデータセットについて、カテゴリセットは、11まで大きくされ、既存のラベルは、CRF分類子[10]を使用して欠けているエリア(missing areas)まで延長される。
注釈が境界ボックスの形で提供される構成データセット(表1においてアスタリスクの印を付けられた)について、ピクセル単位の注釈への改良が、[9]の同様のGrabCutベースの手法を採用することによって、実行された。9のオブジェクトカテゴリの多角形の境界ボックスでラベルを付けられたおよび多数のボイドエリア(void areas)を含むCBCLデータセットについて、カテゴリセットは、11まで大きくされ、既存のラベルは、CRF分類子[10]を使用して欠けているエリア(missing areas)まで延長される。
1.3 テストデータセット
評価のために、分離が、トレーニングとテストとのために使用される複数のデータセットの間で維持された。複数の異なるドメインの組合せが、トレーニングのためのデンスおよびスパース注釈とともに使用され、一方、テストは、デンスピクセル単位の注釈を有する2つの別個のデータセットを使用した:アーバンLabelMe(U−LabelMe)とここで称される、異なる街からの都市画像を有するLabelMeデータセットの新しいサブセットと、CBCLストリートシーンチャレンジフレームワークの処理されたサブセット。これらの2つのデータセットは、(CamVidおよびKITTIにおける前向きのカメラ視点と比較して)異なる視点および照明条件を有するより幅広いシナリオを含み、CamVidおよびKITTIと比べてより挑戦的である。したがって、テストデータセットは、特にトレーニングおよびテストのための同じシーケンスのサブセットの使用の共通の実施と比較して、テスト時間でのトレーニングされたネットワークの汎化性能のより優れた尺度(a better measure)を提供する。
評価のために、分離が、トレーニングとテストとのために使用される複数のデータセットの間で維持された。複数の異なるドメインの組合せが、トレーニングのためのデンスおよびスパース注釈とともに使用され、一方、テストは、デンスピクセル単位の注釈を有する2つの別個のデータセットを使用した:アーバンLabelMe(U−LabelMe)とここで称される、異なる街からの都市画像を有するLabelMeデータセットの新しいサブセットと、CBCLストリートシーンチャレンジフレームワークの処理されたサブセット。これらの2つのデータセットは、(CamVidおよびKITTIにおける前向きのカメラ視点と比較して)異なる視点および照明条件を有するより幅広いシナリオを含み、CamVidおよびKITTIと比べてより挑戦的である。したがって、テストデータセットは、特にトレーニングおよびテストのための同じシーケンスのサブセットの使用の共通の実施と比較して、テスト時間でのトレーニングされたネットワークの汎化性能のより優れた尺度(a better measure)を提供する。
2.セマンティックセグメンテーションのためのネットワークアーキテクチャ
我々は、知られているDNアーキテクチャと、タスク性能とメモリフットプリントとの間でそれが達成するトレードオフとを考慮する。選択された最新のネットワークは、完全コンボリューションネットワーク(FCN)[11]である。CRFでの拡張は、固有モデル容量を変更せず、必要に応じてスムーシングが後処理ステップとして追加され得るので、我々はCRFで拡張されたモデルを考慮しない。
我々は、知られているDNアーキテクチャと、タスク性能とメモリフットプリントとの間でそれが達成するトレードオフとを考慮する。選択された最新のネットワークは、完全コンボリューションネットワーク(FCN)[11]である。CRFでの拡張は、固有モデル容量を変更せず、必要に応じてスムーシングが後処理ステップとして追加され得るので、我々はCRFで拡張されたモデルを考慮しない。
FCNアーキテクチャが、図6に示される。3つの配列は、それぞれの色、赤−緑−青の輝度(したがって、図6において、「3」の2次元配列によって定義される入力を有するものとしての第1のコンボリューションレイヤ)である。「ドロップ(drop)」の印を付けられたレイヤは、トレーニング中のニューラルアクティベーションの割合をランダムにスイッチオフするユニットを指す(画像の各バッチの異なるセットのアクティベーション)。これは、モデルオーバーフィットを減らすまたは回避する利点を有する。
パラメータLは、FCMが認識するようにトレーニングされたオブジェクトカテゴリの数であることに、留意されたい。FCNの出力は、Lの2次元配列(各々は、FCNに入力される画像と同じサイズである)であり、ここで、各ピクセルについて、L値は、そのピクセルがLのカテゴリのうちの対応する1つにおいてオブジェクトを画像化する可能性がどのくらいかを示す数値を表す。
図7(a)は、[データセット]によって示されるデータセットでトレーニングされたFCNを示すために本明細書において後で使用されるシンボルを示す。FCNは、ピクセルをLのオブジェクトカテゴリに分類するためのものである。
図7(b)は、本明細書およびそれの定義において後で使用される別のシンボルを示す。これは、本明細書でRESブロックと呼ばれる。
FCNアーキテクチャの上方の行は、[12]のVGG−16アーキテクチャであり、バッチ正規化なしに、同じ方法で初期化される。FCNネットワークの深度(depth)は、一般的なシーン(オブジェクトの数千のクラスを含む)のセマンティックセグメンテーションのタスクのためにそろえられる(justified)が、よりシャローなネットワークは、制約された都市環境に十分であり得る。FCNは、より優れたローカライゼーション精度を達成するために、異なるレイヤの出力を結合することに留意されたい。
2.1 ソースネットワーク(S−Net)アーキテクチャ
ソースネットワーク(S−Net)は、メモリまたは計算の制約を無視し、可能な最高の実行できるネットワークを選択することによって選ばれる。S−Netの選択は、以下のセクション3において説明され、そこで説明されるように、その結果は、図8に示されるネットワークである。S−Netへの入力は、入力値の3つの2次元配列から成る画像である。
ソースネットワーク(S−Net)は、メモリまたは計算の制約を無視し、可能な最高の実行できるネットワークを選択することによって選ばれる。S−Netの選択は、以下のセクション3において説明され、そこで説明されるように、その結果は、図8に示されるネットワークである。S−Netへの入力は、入力値の3つの2次元配列から成る画像である。
S−Netは、異なるデータモダリティ、すなわち、それぞれデンスおよびスパースデータモダリティ、でそれぞれにトレーニングされた2つのFCNネットワーク1、2のアンサンブルを備える。デンスデータモダリティを有するデータセットのピクセルは、Ldラベルのうちの1つと関連付けられ、したがって、FCN1は、Ldの2次元配列である出力を生成する。スパースデータモダリティを有するデータセットのピクセルは、Lsラベルのうちの1つと関連付けられ、したがって、FCN1は、Lsの2次元配列である出力を生成する。FCN1、2によって出力される2次元配列の各々は、オリジナル画像と同じサイズである。我々の実験では、Ldは11にセットされ、Lsは6にセットされた。
FCNsの出力は、ユニット3によって連結される。これは、同一サイズのLd+Lsの2次元配列を作る。
S−Netは、Lのカテゴリを有するセマンティックセグメンテーションを実行するためにトレーニングされる。ユニット4は、そのピクセルで画像化されたオブジェクトがそれぞれのLのカテゴリに属するそれぞれの可能性を示すL値を各ピクセルについて生成するためにトレーニングされる。
全体で、S−Netは、FCN1、2のそれらを含む、269Mのパラメータを有する。
2.2 ターゲットネットワーク(T−Net)アーキテクチャ
T−Netが、図9に示される。T−Netは、4の縮小ブロック11、12、13、14から成り、その後に4の拡張ブロック15、16、17、18が続き、合計1.4Mのパラメータを有する(言い換えれば、S−Netのパラメータの0.5%を足らずである)。このサイズの縮小は、メモリ要件と性能との間の優れた妥協点を提供する。縮小ブロック(プーリングレイヤが後に続くコンボリューションレイヤ(バッチ再正規化およびReLuを有する)を備える)は、標準分類CNNsにあるような認識を可能にする豊富な表現を作り出す役割を果たす。拡張ブロック(デコンボリューションレイヤ(バッチ再正規化およびReLuもまた有する)が後に続くアンプーリングレイヤを備える)は、ラベル割当てのローカライゼーションおよび描写を改善するために使用される。縮小ブロックと拡張ブロックの両方のコンボリューションレイヤは、1ピクセルのストライドと固定数の64の機能マップとを有する7×7のカーネルを使用する。バッチ正規化が、トレーニング中の内部共変量シフト(internal covariate shift)を減らし、収束(convergence)を改善するために、ReLUより前に追加される。拡張ブロック15、16、17、18におけるアップサンプリングが、現在のアクティベーションのためのプーリングインデックスを記憶および取得することによって、実行される。具体的には、縮小ブロックのプーリングユニット11a、12a、13a、14aは、それぞれ、プーリングインデックスをアンプーリングユニット18a、17a、16a、15aに渡す。これは、濃淡のむらのある結果(blocky results)を回避し、最終的な出力において鋭いエッジを作るのを助ける。線形分類子は、ピクセルレベルで最終的なラベル推定を実行する。4の拡張/縮小ブロックの選択は、モデルの簡潔さと優れた性能との間の最良のトレードオフを提供し、実証的分析によって動機づけられる。
T−Netが、図9に示される。T−Netは、4の縮小ブロック11、12、13、14から成り、その後に4の拡張ブロック15、16、17、18が続き、合計1.4Mのパラメータを有する(言い換えれば、S−Netのパラメータの0.5%を足らずである)。このサイズの縮小は、メモリ要件と性能との間の優れた妥協点を提供する。縮小ブロック(プーリングレイヤが後に続くコンボリューションレイヤ(バッチ再正規化およびReLuを有する)を備える)は、標準分類CNNsにあるような認識を可能にする豊富な表現を作り出す役割を果たす。拡張ブロック(デコンボリューションレイヤ(バッチ再正規化およびReLuもまた有する)が後に続くアンプーリングレイヤを備える)は、ラベル割当てのローカライゼーションおよび描写を改善するために使用される。縮小ブロックと拡張ブロックの両方のコンボリューションレイヤは、1ピクセルのストライドと固定数の64の機能マップとを有する7×7のカーネルを使用する。バッチ正規化が、トレーニング中の内部共変量シフト(internal covariate shift)を減らし、収束(convergence)を改善するために、ReLUより前に追加される。拡張ブロック15、16、17、18におけるアップサンプリングが、現在のアクティベーションのためのプーリングインデックスを記憶および取得することによって、実行される。具体的には、縮小ブロックのプーリングユニット11a、12a、13a、14aは、それぞれ、プーリングインデックスをアンプーリングユニット18a、17a、16a、15aに渡す。これは、濃淡のむらのある結果(blocky results)を回避し、最終的な出力において鋭いエッジを作るのを助ける。線形分類子は、ピクセルレベルで最終的なラベル推定を実行する。4の拡張/縮小ブロックの選択は、モデルの簡潔さと優れた性能との間の最良のトレードオフを提供し、実証的分析によって動機づけられる。
いくつかのユニットのために異なるストライドを使用することは本発明の変更形態において可能であるが、図6、8および9内のすべてのコンボリューションレイヤは、ストライド1を使用する。
3.両方のDNアーキテクチャのためのS−Netおよびトレーニング戦略の選択
このセクションでは、S−Netを選択するためにおよび前述の挑戦的MDRS3データセットでS−NetおよびT−Netをトレーニングするために使用される異なる手法を説明する。
このセクションでは、S−Netを選択するためにおよび前述の挑戦的MDRS3データセットでS−NetおよびT−Netをトレーニングするために使用される異なる手法を説明する。
S−Netを選択するために研究される手法は、(i)「e2e」を使用する図6のFCNのトレーニング − マルチドメイントレーニングデータの様々なサブセットを介する標準的エンドツーエンドトレーニングと、(ii)エンドツーエンドトレーニングのための安定した勾配方向を生成するために均衡のとれた勾配貢献(Balanced Gradient Contribution)を使用する − 「BGC」を使用する図6のFCNのトレーニングと、(iii)「フライングカー(Flying Cars)」のFCNのトレーニング − スパーストレーニングデータの動的ドメイン適応と、(iv)図8に示すような、別個のドメインでトレーニングされたFVNモデルのアンサンブリングを使用する、「アンサンブル」ネットワーク。
比較のために、我々はまた、トレーニング技法(i)〜(iv)を所与としてT−Netがどのように実行することになるかを考慮した。技法(iv)において、これは、トレーニングされたネットワークは、図8に示されるそれであるが、ネットワーク1、2の各々としてそれぞれのT−Net(S−Netで使用されるFCNsの代わりに)を有することを意味することに、留意されたい。言い換えれば、この技法は、技法(i)〜(iii)よりも多数の数値パラメータを有するネットワークをもたらす。
各トレーニング戦略は、等しく初期化された。S−NetおよびT−Netの縮小ブロックは、ImageNetで事前トレーニングされた分類ネットワークの重み − FCN(前述のように)の場合にはVGG−16[12]、そして、T−Netの場合にはVGG−F[13] − が割り当てられた。重みの形の調整は、次元が一致しない場合に実行された。拡張ブロックは、Heなどの方法を使用し、初期化された[14]。
最適化が、アルミホのルール(Armijo's rule)で有界のラインサーチ戦略およびバックトラッキングを与えられた、確率的共役勾配降下法(S−CGD:Stochastic Conjugate Gradient Descent)を使用する標準逆伝搬を介して実行された[15]。オーバーフィットを回避するために、ラインサーチ反復の数は、3に抑制された。これは、学習レートのマニュアル微調整なしに確率的勾配降下法より速く優れた解決法に収束することが判明した。
3.1 エンドツーエンドトレーニング(e2e)
実験において使用される最も単純なトレーニング手法、エンドツーエンド(e2e)トレーニング、は、混合のデンスおよびスパーストレーニングセット(すなわち、すべてのデータが入った)からのランダムサンプル(置換を有する)の標準ミニバッチトレーニング(standard mini-batch training)で構成される。
実験において使用される最も単純なトレーニング手法、エンドツーエンド(e2e)トレーニング、は、混合のデンスおよびスパーストレーニングセット(すなわち、すべてのデータが入った)からのランダムサンプル(置換を有する)の標準ミニバッチトレーニング(standard mini-batch training)で構成される。
標準逆伝搬は、トレーニングのために使用される:ネットワークの出力と所望の出力との間の差の特性を示す損失関数を使用すること、ネットワークを通したエラーの逆伝搬と、次いで、学習レートと逆伝搬された勾配との積であるデルタによる重みの更新とが存在する。
合理的なクラスごとの精度を達成するために、重み付けされたクロスエントロピー(WCE)が、損失関数の定義において使用された。WCEは、トレーニングデータセットχにおいて逆頻度(inverse frequency)fl(χ)-1に従って、各クラスの重要性l∈[1,..,L]、を再スケール設定する、すなわち:
ここで、xnは、n番目のトレーニング画像を表し、ynは、対応するn番目のグラウンドトゥルース画像を表し(すなわち、yijlは、その他すべてについての1およびゼロのうちの1つの値についてゼロに等しい)、Fは、ネットワークによって実行される関数を指し(すなわち、関数Fへの第1の入力は、HxWxCコンポーネントを有する画像であり(ここで、Cは色の数である)、θは、ネットワークのすべてのパラメータを表し(すなわち、それは、そのネットワークのすべての重みのスタックである)、そして、関数Fは、HxWxLコンポーネントを有するテンソル(a tensor)を出力する)、そして、重み付け関数は、
によって与えられる。
は、任意で選択され、任意の小さい数であり得る。すべてのピクセルがωへのいくらかの貢献を行うことを保証することが存在する。
この方法で、WCEは、トレーニング中の歩行者または自転車などの稀であるが重要なクラスへのネットワークの注意を減らすようにさもなければ観測されたクラス頻度不均衡、表1において顕在化された共通の現象、をネットワークが説明する(account for)のを助けた。
エンドツーエンドトレーニングは、デンスドメインおよびスパースドメインの別個のモデルならびに両方のデータドメインでの結合されたモデルを学習するために、適用された。しかし、この手法が、結合されたデータで単純に使用されるとき、我々は、対象の不安定な振動運動と、最終的にはシステムの分化(divergence)とを観測した。この現象は、両方の分布の統計量の間の激しい差により、最適化中に非常に騒々しい降下方向(very noisy descent directions)を生じさせる。したがって、両方のドメインにおいて利用可能なすべての情報を活用するために、以下のセクションで提案されるものなどの代替手段を介して、トレーニングプロセスを安定させることが好ましい。
3.2 均衡のとれた勾配貢献(BGC)
複数のドメイン間の深刻な統計的差異は、ミニバッチのシーケンスの勾配における大きい分散(a large variance in gradients)を生じさせる。デンスドメインからのデータは、より安定し、構造的クラスに適しているが、一般に与える情報は少ない(less informative)。スパースドメインからのデータは、動的クラスに関する重大な情報を有し、与える情報が多い(highly informative)が、非常に騒々しい。これらの態様に対処するために、探索方向が、(3)に示されるようにスパースドメインによって与えられる制御された摂動の下でデンスドメインによって提案される方向を使用し、計算された。
ここで、x、yは、デンス(D)またはスパース(S)ドメインから引き出された、サンプルのサブセットとそれらの関連ラベルとを表す。ここで、LossWCE(xD,yD)およびLossWCE(xS,yS)は、サンプルの対応するサブセットを介して方程式(1)によって与えられるLossWCEの各合計である。ラムダは、検証セットを使用するいくつかのテストの後に実験的に選択される。
複数のドメイン間の深刻な統計的差異は、ミニバッチのシーケンスの勾配における大きい分散(a large variance in gradients)を生じさせる。デンスドメインからのデータは、より安定し、構造的クラスに適しているが、一般に与える情報は少ない(less informative)。スパースドメインからのデータは、動的クラスに関する重大な情報を有し、与える情報が多い(highly informative)が、非常に騒々しい。これらの態様に対処するために、探索方向が、(3)に示されるようにスパースドメインによって与えられる制御された摂動の下でデンスドメインによって提案される方向を使用し、計算された。
この手順は、パラメータλによって制御された非常に情報の多いレギュラライザ(regularizer)の追加として見ることができるが、類似の効果は、
となるように、各ドメインからの画像の慎重に選択された割合を含むミニバッチを生成することによって達成することができ、ここで、
および
は、xDおよびxSの要素の数を示す。トレーニング手順のこの修正は、優れた結果および安定した動作につながる。
3.3 フライングカー(FC):データ投影によるドメイン適応
互換性のないドメインの組合せに起因する問題を解決するための別の代替手段は、あるドメインから別のドメインに投影または転送することである。我々の場合、騒々しいスパースドメインが、ドメイン適応からのアイデアを使用してデンスドメインに投影される。これは、たとえば、デンスドメインからランダム画像を選択することと、スパースドメインのオブジェクトおよびラベルをその中で投入するバックグラウンドとしてそれらを使用することとによって、達成され得る。この手法は、デンスドメインにわたって非常に情報の多いデータ増大を実行する方法として見ることができる。我々は、シーンに挿入されるオブジェクトの空間コンテキストの厳しい制約を提供しない単純な手法を使用し、したがって、「フライングカー」(FC)の名がある。
互換性のないドメインの組合せに起因する問題を解決するための別の代替手段は、あるドメインから別のドメインに投影または転送することである。我々の場合、騒々しいスパースドメインが、ドメイン適応からのアイデアを使用してデンスドメインに投影される。これは、たとえば、デンスドメインからランダム画像を選択することと、スパースドメインのオブジェクトおよびラベルをその中で投入するバックグラウンドとしてそれらを使用することとによって、達成され得る。この手法は、デンスドメインにわたって非常に情報の多いデータ増大を実行する方法として見ることができる。我々は、シーンに挿入されるオブジェクトの空間コンテキストの厳しい制約を提供しない単純な手法を使用し、したがって、「フライングカー」(FC)の名がある。
3.4 スパースおよびデンスドメインのアンサンブル
最後に、複数のドメインについて2つの異なるタスクとして考えることが可能である:一方は、精細に注釈を付けられたデータからLD=11クラスを認識することから成り、他方は、騒々しいスパース注釈からのLS=6クラス、すなわち、フォアグラウンド、交通標識、ポール、車、歩行者および自転車に乗った人、を認識することから成る。デンスドメインでトレーニングされたモデル、θDは、道路、建物および歩道などの構造的要素がより得意であり、一方、スパースドメインでトレーニングされたモデル、θSは、歩行者および自転車に乗った人などの動的オブジェクトのセグメント化することを非常に得意とする。これらのモデルは、オリジナルモデルの出力からの合意を実行するためにいくつかの新しいトレーニング可能なブロックを追加する、より大きいネットワークの一部として結合され得る。我々の実験では、アンサンブルは、オリジナルネットワークを固定することと、一貫性のある出力を推定するために図8に示されるようにコンボリューションブロックおよび4つの残りのブロックを追加することとによって、実行される。残りのブロックは、実際には単純なコンボリューションより優れた汎化をもたらすことが発見されたので、それらが、使用された。
最後に、複数のドメインについて2つの異なるタスクとして考えることが可能である:一方は、精細に注釈を付けられたデータからLD=11クラスを認識することから成り、他方は、騒々しいスパース注釈からのLS=6クラス、すなわち、フォアグラウンド、交通標識、ポール、車、歩行者および自転車に乗った人、を認識することから成る。デンスドメインでトレーニングされたモデル、θDは、道路、建物および歩道などの構造的要素がより得意であり、一方、スパースドメインでトレーニングされたモデル、θSは、歩行者および自転車に乗った人などの動的オブジェクトのセグメント化することを非常に得意とする。これらのモデルは、オリジナルモデルの出力からの合意を実行するためにいくつかの新しいトレーニング可能なブロックを追加する、より大きいネットワークの一部として結合され得る。我々の実験では、アンサンブルは、オリジナルネットワークを固定することと、一貫性のある出力を推定するために図8に示されるようにコンボリューションブロックおよび4つの残りのブロックを追加することとによって、実行される。残りのブロックは、実際には単純なコンボリューションより優れた汎化をもたらすことが発見されたので、それらが、使用された。
以下にあるセクション5は、このセクションで説明されたトレーニング方法の実験的結果を示す。表2に示すように、S−Netになるすべての4つの候補は、より小さいT−Netより一貫して性能が優れていることが観測された。これらの4つの候補のうち、4RESブロックを有し、2つは128の機能を有して2つは64の機能を有する、図8のアンサンブルは、それがオーバーフィットをクリアすることにつながらなかったことを我々が発見した、最良の構成であった。したがって、これが、T−NetのトレーニングのためのS−Netとして採用された。
4.デコンボリューションネットワークにわたる知識の転送
S−Netの高い精度にも関わらず、そのパラメータの数の多さは、道路シーンセグメンテーションのコンテキストで、それを埋め込みアプリケーションには不向きにする。同等の性能を有するようにT−Netなどのよりコンパクトなモデルを促進することが可能であるかどうかが調査された。これは、T−Netの容量が、S−Netのレベルでの結果を作るのに十分であるという前提に基づくが、トレーニングデータ内のバッチ正規化およびノイズなど、そのトレーニングおよびアーキテクチャの特定の詳細により、セクション3の方法は、それの完全な潜在力を活用することができない。したがって、T−NetでS−Netの動作をエミュレートする(emulate)(すなわち、S−Netの知識をT−Netに転送する)ための試みが成された。我々は、知識を転送するための3つの手法を説明する:(i)ラベルを介する(TK−L)、(ii)ソフトマックス確率を介する(TK−SMP)、および、(iii)重み付けされたクロスエントロピーを有するソフトマックス確率を介する(TK−SMP−WCE)。S−Netの「ドロップ」レイヤは、知識転送プロセス中にオフにされる(すなわち、ゼロにS−Netのニューラルアクティベーションをランダムにセットするプロセスは存在せず、S−Netの「ドロップ」レイヤは、それらの入力を修正せずに出力する)ことに留意されたい。結果は、表3に示される。
S−Netの高い精度にも関わらず、そのパラメータの数の多さは、道路シーンセグメンテーションのコンテキストで、それを埋め込みアプリケーションには不向きにする。同等の性能を有するようにT−Netなどのよりコンパクトなモデルを促進することが可能であるかどうかが調査された。これは、T−Netの容量が、S−Netのレベルでの結果を作るのに十分であるという前提に基づくが、トレーニングデータ内のバッチ正規化およびノイズなど、そのトレーニングおよびアーキテクチャの特定の詳細により、セクション3の方法は、それの完全な潜在力を活用することができない。したがって、T−NetでS−Netの動作をエミュレートする(emulate)(すなわち、S−Netの知識をT−Netに転送する)ための試みが成された。我々は、知識を転送するための3つの手法を説明する:(i)ラベルを介する(TK−L)、(ii)ソフトマックス確率を介する(TK−SMP)、および、(iii)重み付けされたクロスエントロピーを有するソフトマックス確率を介する(TK−SMP−WCE)。S−Netの「ドロップ」レイヤは、知識転送プロセス中にオフにされる(すなわち、ゼロにS−Netのニューラルアクティベーションをランダムにセットするプロセスは存在せず、S−Netの「ドロップ」レイヤは、それらの入力を修正せずに出力する)ことに留意されたい。結果は、表3に示される。
4.1 ラベルを通した知識の転送(TK−L)
この戦略は、その予測されるラベルから直接にS−Netの知識を引き出すことを目標とする。セクション1に記載されたトレーニングデータのデンスドメインとスパースドメインの両方が、それらのオリジナルの注釈を無視して、使用された。この手法の利益は、データのマルチモダリティがS−Netによってフィルタ処理され、いくつかの不正解の選択肢(distractor)が無視され、そうして、T−Netに達する情報がより単純になり、よりスムーズな探索空間をもたらし、優れた解決法を見つけるのをより容易にするということである。我々のセットアップでは、米国内の複数の街からの街の景色が撮られた、大きいラベルを付されていないグーグルストリートビュー(GSV)データセットからの特別なトレーニングデータ(すなわち、トレーニング画像の新しいドメイン)を含めた[16]。我々は、上を向いたカメラを取り除き、51,715の画像を作るために各画像からランダムクロップ(a random crop)を取った。我々は、標準クロスエントロピー損失でT−Netをトレーニングするために、BGCを使用して前のトレーニングデータと新しいトレーニングデータとを結合させた。再び、トレーニングが、画像の連続するバッチを使用して行われ、各バッチは、予備のドメイン、デンスドメインおよび新しいドメインからのトレーニング画像を含む。方程式(1)は、まだ有効であるが、yijlはもはや0または1ではなく、しかし、範囲[0,1]内の値は、lの可能性にわたる所与のピクセル(i,j)についての確率分布を表す。所与のピクセルについて、値yijlは、やはり1まで合計する。したがって、BGCは、GSVデータの影響を制御し、ドリフトを防ぐための重要なメカニズムとして使用される。
この戦略は、その予測されるラベルから直接にS−Netの知識を引き出すことを目標とする。セクション1に記載されたトレーニングデータのデンスドメインとスパースドメインの両方が、それらのオリジナルの注釈を無視して、使用された。この手法の利益は、データのマルチモダリティがS−Netによってフィルタ処理され、いくつかの不正解の選択肢(distractor)が無視され、そうして、T−Netに達する情報がより単純になり、よりスムーズな探索空間をもたらし、優れた解決法を見つけるのをより容易にするということである。我々のセットアップでは、米国内の複数の街からの街の景色が撮られた、大きいラベルを付されていないグーグルストリートビュー(GSV)データセットからの特別なトレーニングデータ(すなわち、トレーニング画像の新しいドメイン)を含めた[16]。我々は、上を向いたカメラを取り除き、51,715の画像を作るために各画像からランダムクロップ(a random crop)を取った。我々は、標準クロスエントロピー損失でT−Netをトレーニングするために、BGCを使用して前のトレーニングデータと新しいトレーニングデータとを結合させた。再び、トレーニングが、画像の連続するバッチを使用して行われ、各バッチは、予備のドメイン、デンスドメインおよび新しいドメインからのトレーニング画像を含む。方程式(1)は、まだ有効であるが、yijlはもはや0または1ではなく、しかし、範囲[0,1]内の値は、lの可能性にわたる所与のピクセル(i,j)についての確率分布を表す。所与のピクセルについて、値yijlは、やはり1まで合計する。したがって、BGCは、GSVデータの影響を制御し、ドリフトを防ぐための重要なメカニズムとして使用される。
4.2 ソフトマックス確率を通した知識の転送(TK−SMP)
本戦略は、複数の異なるクラスがどのように相関するかに関する情報を含む、ソフトマックス分類子によって作られる確率分布を考慮することによって、転送中にS−Netからの付加的情報を使用する。この目的のために、我々は、我々の損失関数としてS−Netの確率分布とT−Netの確率分布との間の標準クロスエントロピーを使用してT−Netをトレーニングする。前の戦略でのように、トレーニングは、GSVデータの影響を制御してそれの貢献を抑制するためにBGCを利用する。この第2の手法は、表3に示すようにネットワーククラスごとの精度の著しい向上をもたらす。
本戦略は、複数の異なるクラスがどのように相関するかに関する情報を含む、ソフトマックス分類子によって作られる確率分布を考慮することによって、転送中にS−Netからの付加的情報を使用する。この目的のために、我々は、我々の損失関数としてS−Netの確率分布とT−Netの確率分布との間の標準クロスエントロピーを使用してT−Netをトレーニングする。前の戦略でのように、トレーニングは、GSVデータの影響を制御してそれの貢献を抑制するためにBGCを利用する。この第2の手法は、表3に示すようにネットワーククラスごとの精度の著しい向上をもたらす。
この方法の変更形態は、転送プロセス中にT−Netにドロップアウトブロックを追加することから成る。実際には、この追加は、ネットの汎化の改善を助け、エンドツーエンドトレーニングにおけるように機能する。表3を参照(「TK−SMP−ドロップ」)。
4.3 WCEでのソフトマックス確率を通した知識の転送(TK−SMP−WCE)
TK−LおよびTK−SMPの前の手法の問題の1つは、それらが、転送中にクラス不均衡を説明しないということである。実際には、これは、結果として生じるモデルが、主要な(dominant)クラスに偏り、クラスごとのより高い精度を有する作成モデルは、トレーニング中により多数のエポックを必要とするということを意味する。我々は、方程式(1)の形で損失関数を使用することによってWCEで各ソフトマックスサンプルの影響を制御することによってこの問題を解決することを提案し、ここで、
は、異なるデータセットの影響がBGCによって制御されるのと同じ方法で、トレーニング画像のバッチが提示されるときにS−Netの出力によって置き換えられる。T−Netにおけるドロップアウトの使用と組み合わせて、この修正は、S−Netと同じクラスごとの精度を実質的に有するモデル、すなわち、FCNsのアンサンブルをもたらす;表3(TK−SMP−WCE)を参照。この方法では、埋め込み型のシステムおよび自動車アプリケーションにとって便利な、正確なおよびメモリ効率的モデルを生じさせ、T−Netの全潜在能力は、解放される。
TK−LおよびTK−SMPの前の手法の問題の1つは、それらが、転送中にクラス不均衡を説明しないということである。実際には、これは、結果として生じるモデルが、主要な(dominant)クラスに偏り、クラスごとのより高い精度を有する作成モデルは、トレーニング中により多数のエポックを必要とするということを意味する。我々は、方程式(1)の形で損失関数を使用することによってWCEで各ソフトマックスサンプルの影響を制御することによってこの問題を解決することを提案し、ここで、
5 実験結果
我々は、最新のベースラインのセットに関して、提案されたトレーニング方法論の性能を評価する。均衡のとれた勾配貢献(BGC)と組み合わせて使用されるとき、我々のTK−SMP−WCE転送技法の性能は、特に強調される。
我々は、最新のベースラインのセットに関して、提案されたトレーニング方法論の性能を評価する。均衡のとれた勾配貢献(BGC)と組み合わせて使用されるとき、我々のTK−SMP−WCE転送技法の性能は、特に強調される。
すべての我々の実験は、U−LabelMeとCBCLとの組合せをテストし、MDRS3データセット(セクション1)で実行される(全体で1,526の画像)。時間およびリソースの制約により、我々は、すべての我々の実験において240×180の解像度にオリジナル画像をサブサンプリングする(subsample)。これは、モデルのトレーニングおよび評価の速度を上げるが、歩道、ポールおよび交通標識など、ある特定のクラスを低い解像度を原因としてすべてのモデルについて認識することを系統的により難しくする。それでもなお、この要因は、すべての実験にわたって一貫性があり、複数の異なるトレーニング手法およびモデルを比較するときに得られる結論に影響を及ぼさない。画像は、各チャネルに独立して適用される、空間コントラスト正規化を使用して最初に正規化される。その後、ゼロ平均および範囲[−127,127]におけるデータ再度スケール設定が、適用される。実際に、我々は、この正規化が収束の速度を上げることを観測した。
表2は、セマンティックセグメンテーションを実行するためにFCNs、S−NetおよびT−Netをトレーニングする実験の結果を示し、一方、表3は、知識転送によるT−Netのトレーニングの結果を示す。結果は、クラスごとの平均精度(「クラスごと」としての表2および3の列)およびグローバル精度(「グローバル」の印を付けられた列)に従って、評価される。クラスiに属し、クラスjとして分類されたピクセルの数、ni,j、を所与とし、そして、Lはクラスの数であると仮定すると、そのとき、「クラスごと」は
として評価され、「グローバル」は
として評価され、ここで、Nは評価セット内のピクセルの総数である。都市シーンにおけるクラス頻度の固有の不平衡の性質により、我々は、モデルの認識および汎化能力を評価するためにはクラスごとの平均がより重要になると考える。現在の方法の結果とFCNモデルの結果との差異は、かっこ(brackets)において示される。
5.1 マルチドメイントレーニングの評価
エンドツーエンドトレーニング。表2の行2および3の行は、セクション3.1において説明されたエンドツーエンド手法で、デンスドメインのみを使用してトレーニングされたモデルを示す。この初期のセットアップについて、T−Netは、クラスごとに11.2ポイントによってFCNに及ばない。
エンドツーエンドトレーニング。表2の行2および3の行は、セクション3.1において説明されたエンドツーエンド手法で、デンスドメインのみを使用してトレーニングされたモデルを示す。この初期のセットアップについて、T−Netは、クラスごとに11.2ポイントによってFCNに及ばない。
我々は、エンドツーエンドトレーニングにスパースドメインを追加することによって、この第1の評価を拡張した。しかし、表2の行4および8に示すように、トレーニングは、両方の場合で分化した。この現象は、セクション3.1で解説され、それの貢献が抑制されないときにスパースドメインによって導入される勾配ノイズに起因する。これは、分布にわたる制御およびデータの複雑性が競合し得るトレーニング結果を作るために必要とされるという我々の主張を強固にする。
フライングカー、BGC&アンサンブル。エンドツーエンドトレーニングが、各ドメインの貢献を制御するためのポリシを実装する方法に置き換えられるとき、精度の向上は、著しい。表2、行5〜7は、すべての技法について、制御されたトレーニングが標準FCNのクラスごとを改善することを示す。FCおよびBGC方法は、最高の性能を達成しないが、ほんの1つのトレーニングステージを必要とするという利点を有し、一方、アンサンブルは、第一に(ドメインごとに)個々のモデルをトレーニングすることと、次いで、それらをマージすることとを必要とする。T−NetでのFC、BGCおよびアンサンブルの適用の結果は、前の場合と類似しており、やはり、アンサンブルは、クラスごとの精度に関して最良の結果を示す(表2、行9から11を参照)。
5.2 知識転送方法の評価
表3に要約されるように、T−Netでの前のトレーニング手法の結果は、知識転送方法を適用するときに劇的に改善される。すべての転送方法について、我々は、S−Netの動作のキャプチャを助ける、プロセスの間のS−Net応答の可変性(variability)を増すために、グーグルストリートビューデータセット[17]からラベルを付されていないデータを追加した。
表3に要約されるように、T−Netでの前のトレーニング手法の結果は、知識転送方法を適用するときに劇的に改善される。すべての転送方法について、我々は、S−Netの動作のキャプチャを助ける、プロセスの間のS−Net応答の可変性(variability)を増すために、グーグルストリートビューデータセット[17]からラベルを付されていないデータを追加した。
ここで、転送技法の進化がT−Net性能の向上に直接に相関することが分かった。S−Netからのラベル(TK−L)の単純な転送は、FCN(ここで基準として使用される)より既に2.9ポイント優れたT−Netモデルを作る。転送が、クラスにわたるソフトマックス確率分布に基づくとき、TK−SMPにあるように、精度は、57.3まで高められる(FCNより6.7ポイント優れる)。ドロップアウトが、TK−SMP転送(TK−SMP−ドロップ)に含まれるとき、それは、FCNと比較してグローバル精度を3.2ポイント向上させることは、注目に値する。クラスごとの精度におけるいくらかの損失を代償としてドロップアウトを使用するときに、この効果を観測した。
最後に、表3の行6は、S−Netソフトマックス分布が、データセットにおけるそれらの関連性(すなわち、不十分かより関連性があるか)に従って重み付けされるときに、この知識の転送が、これまでに発見された最大の性能、59.3%のクラスごとの精度、を達成することを示す。したがって、TK−SMP−WCE手法は、S−Netの結果にほぼ到達し、クラスごとにおいてFCNより9.1ポイント優れ、グローバル精度において0.2ポイント優れたT−Net、すなわち、200倍多いパラメータを有する2つのFCNのアンサンブル、を作る。
図10は、モデルサイズに対するモデル性能を示す、別の形でのこれらの結果を表す。
ある特定の配置が説明されたが、これらの配置は、単に例として提示され、本発明の範囲を限定することは意図されていない。実際には、本明細書に記載の装置*は、様々な他の形で具現化されることができ、さらに、本明細書に記載の装置の形における様々な省略、置換および変更が行われ得る。
参考文献
[1]Brostow, G.J., Fauqueur, J., Cipolla, R.: Semantic object classes in video: A high−definition ground truth database. Pattern Recognition Letters 30(2) (2009) 88−97.
[2]Brostow, G.J., Shotton, J., Cipolla, R.: Segmentation and recognition using struc−ture from motion point clouds. In: Eur. Conf. on Computer Vision (ECCV). (2008).
[3]Geiger, A., Lenz, P., Stiller, C., Urtasun, R.: Vision meets robotics: The KITTI dataset. Intl. J. of Robotics Research (2013).
[4]Kundu, A., Li, Y., Dellaert, F., Li, F., Rehg, J.M.: Joint semantic segmentation and 3D reconstruction from monocular video. In: Eur. Conf. on Computer Vision (ECCV) (2014).
[5]Ros, G., Ramos, S., Granados, M., Bakhtiary, A., Vazquez, D., Lopez, A.M.: Vision−based offline−online perception paradigm for autonomous driving. In: Winter Conference on Applications of Computer Vision (WACV) (2015).
[6]Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollar, P., Zitnick, C.L.: Microsoft COCO: Common Objects in Context. In: Eur. Conf. on Computer Vision (ECCV) (2014).
[7] Ess, A., Leibe, B., Schindler, K., Gool, L.V.: Robust multi−person tracking from a mobile platform. IEEE Trans. Pattern Anal. Machine Intell. 31(10) (2009) 1831−1846.
[8]Houben, S., Stallkamp, J., Salmen, J., Schlipsing, M., Igel, C.: Detection of traffic signs in real−world images: The German Traffic Sign Detection Benchmark. In: International Joint Conference on Neural Networks. Number 1288 (2013).
[9]Papandreou, G., Chen, L.C., Murphy, K., Yuille, A.L., Weakly− and semi−supervised learning of a deep convolutional network for semantic image segmentation. In: Intl. Conf. on Computer Vision (ICCV) (2015)).
[10]Ladicky, L., Sturgess, P., Alahari, K., Russell, C., Torr, P.H.S.: What, where and how many? Combining object detectors and CRFs. In: Eur. Conf. on Computer Vision (ECCV). (2010) 427−437).
[11]Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: IEEE Conf. on Computer Vision and Pattern Recognition (CVPR) (2015).
[12]Simonyan, K. and Zisserman, A. Very deep convolutional networks for large−scale image recognition. In: Intl. Conf. on Learning Representations (ICLR) (2015).
[13]Chatfield, K., Simonyan, K., Vedaldi, A., Zisserman, A.: Return of the devil in the details: Delving deep into convolutional networks. In: British Machine Vision Conf. (BMVC) (2014).
[14]He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing human−level performance on ImageNet classification. In: Intl. Conf. on Computer Vision (ICCV) (2015).
[15]Le, Q.V., Ngiam, J., Coates, A., Lahiri, A., Prochnow, B., Ng, A.Y.: On optimization methods for deep learning. In: Intl. Conf. on Machine Learning (ICML) (2011).
[16]Zamir, A.R., Shah, M.: Image geo−localization based on multiple nearest neighbor feature matching using generalized graphs. Pattern Analysis and Machine Intelligence, IEEE Transactions on 36(8) (2014) 1546−1558.
[17]Zamir, A., Shah, M.: Image geo−localization based on multiple nearest neighbor feature matching using generalized graphs. (2014).
[1]Brostow, G.J., Fauqueur, J., Cipolla, R.: Semantic object classes in video: A high−definition ground truth database. Pattern Recognition Letters 30(2) (2009) 88−97.
[2]Brostow, G.J., Shotton, J., Cipolla, R.: Segmentation and recognition using struc−ture from motion point clouds. In: Eur. Conf. on Computer Vision (ECCV). (2008).
[3]Geiger, A., Lenz, P., Stiller, C., Urtasun, R.: Vision meets robotics: The KITTI dataset. Intl. J. of Robotics Research (2013).
[4]Kundu, A., Li, Y., Dellaert, F., Li, F., Rehg, J.M.: Joint semantic segmentation and 3D reconstruction from monocular video. In: Eur. Conf. on Computer Vision (ECCV) (2014).
[5]Ros, G., Ramos, S., Granados, M., Bakhtiary, A., Vazquez, D., Lopez, A.M.: Vision−based offline−online perception paradigm for autonomous driving. In: Winter Conference on Applications of Computer Vision (WACV) (2015).
[6]Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollar, P., Zitnick, C.L.: Microsoft COCO: Common Objects in Context. In: Eur. Conf. on Computer Vision (ECCV) (2014).
[7] Ess, A., Leibe, B., Schindler, K., Gool, L.V.: Robust multi−person tracking from a mobile platform. IEEE Trans. Pattern Anal. Machine Intell. 31(10) (2009) 1831−1846.
[8]Houben, S., Stallkamp, J., Salmen, J., Schlipsing, M., Igel, C.: Detection of traffic signs in real−world images: The German Traffic Sign Detection Benchmark. In: International Joint Conference on Neural Networks. Number 1288 (2013).
[9]Papandreou, G., Chen, L.C., Murphy, K., Yuille, A.L., Weakly− and semi−supervised learning of a deep convolutional network for semantic image segmentation. In: Intl. Conf. on Computer Vision (ICCV) (2015)).
[10]Ladicky, L., Sturgess, P., Alahari, K., Russell, C., Torr, P.H.S.: What, where and how many? Combining object detectors and CRFs. In: Eur. Conf. on Computer Vision (ECCV). (2010) 427−437).
[11]Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: IEEE Conf. on Computer Vision and Pattern Recognition (CVPR) (2015).
[12]Simonyan, K. and Zisserman, A. Very deep convolutional networks for large−scale image recognition. In: Intl. Conf. on Learning Representations (ICLR) (2015).
[13]Chatfield, K., Simonyan, K., Vedaldi, A., Zisserman, A.: Return of the devil in the details: Delving deep into convolutional networks. In: British Machine Vision Conf. (BMVC) (2014).
[14]He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing human−level performance on ImageNet classification. In: Intl. Conf. on Computer Vision (ICCV) (2015).
[15]Le, Q.V., Ngiam, J., Coates, A., Lahiri, A., Prochnow, B., Ng, A.Y.: On optimization methods for deep learning. In: Intl. Conf. on Machine Learning (ICML) (2011).
[16]Zamir, A.R., Shah, M.: Image geo−localization based on multiple nearest neighbor feature matching using generalized graphs. Pattern Analysis and Machine Intelligence, IEEE Transactions on 36(8) (2014) 1546−1558.
[17]Zamir, A., Shah, M.: Image geo−localization based on multiple nearest neighbor feature matching using generalized graphs. (2014).
Claims (20)
- 入力画像の対応するエリアのラベルデータを作るためのコンピュータシステムを形成するためのコンピュータ実装方法であって、前記ラベルデータは、所定の値のセットのうちの1つの所定の値であり、前記画像の前記対応するエリアがオブジェクトカテゴリのセットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、前記方法は、
(i)トレーニング画像を符号化する第1の画像データおよび(ii)各トレーニング画像の注釈データの対応するセットを備えるトレーニングデータを使用する監視された学習によって、複数の第1の値によって定義されるソースデコンボリューションネットワークを適応的に生成することと、各トレーニング画像の注釈データの前記セットは、前記トレーニング画像の複数の対応するエリアについて、前記トレーニング画像の前記エリアが、オブジェクトカテゴリの前記セットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、
前記ソースデコンボリューションネットワークにトレーニング画像を符号化する第2の画像データを入力し、前記ソースデコンボリューションネットワークの1つまたは複数の出力を記述する対応する出力データを収集することと、
複数の第2の値によって定義されるターゲットデコンボリューションネットワークを適応的に生成するために、前記第2の画像データおよび前記出力データを使用することと、前記複数の第2の値のカーディナリティは、前記複数の第1の値のカーディナリティより低く、
前記ターゲットデコンボリューションネットワークを実装するコンピュータシステムを形成することと、
を備える、コンピュータ実装方法。 - 所与のトレーニング画像の前記収集された出力データが、前記トレーニング画像のそれぞれの領域について、前記トレーニング画像の前記領域が対応する既定義のオブジェクトカテゴリであるオブジェクトを示すことを示すラベルのセットである、請求項1に記載の方法。
- 所与のトレーニング画像の前記収集された出力データが、ベクトルのセットであり、各ベクトルが、オブジェクトカテゴリの数と等しいいくつかのコンポーネントを有し、前記トレーニング画像のそれぞれの領域について、オブジェクトが前記対応するオブジェクトカテゴリ内にあることを前記領域が示す確率値を示す、請求項1に記載の方法。
- 前記ターゲットデコンボリューションネットワークの前記適応的生成が、前記第2の画像データによって符号化される前記トレーニング画像のうちの1つの所与のエリアについて、前記トレーニング画像とともに提示されるときの前記ターゲットデコンボリューションネットワークの対応する出力と前記ソースデコンボリューションネットワークの対応する出力との間のクロスエントロピーを示す、クロスエントロピー損失関数を使用して実行される、請求項3に記載の方法。
- 前記クロスエントロピー損失関数が、(a)前記ターゲットデコンボリューションネットワークおよびソースデコンボリューションネットワークの対応する出力の類似を表す項と(b)前記オブジェクトカテゴリの重み付け項との積の前記複数のオブジェクトカテゴリにわたる和を計算することによって計算され、前記オブジェクトカテゴリの前記重み付け項は、前記トレーニングデータにおける前記対応するオブジェクトカテゴリのオブジェクトの頻度を増やすために減少する、請求項4に記載の方法。
- 前記ソースデコンボリューションネットワークおよび前記ターゲットデコンボリューションネットワークのうちの少なくとも1つの前記適応的生成は、逆伝搬アルゴリズムによるものであり、前記アルゴリズム中に、前記値の連続するサブセットがランダムに選択され、値の各選択されたサブセットの対応するネットワークの出力への効果が、連続的に無視される、請求項1に記載の方法。
- 前記第2の画像データの前記トレーニング画像のうちの少なくともいくつかが、前記第1の画像データのトレーニング画像である、請求項1に記載の方法。
- 前記トレーニングデータが、前記注釈データが比較的高い密度を有する第1の部分と、前記注釈データが比較的低い密度を有する第2の部分とを含む、請求項1に記載の方法。
- 前記ソースデコンボリューションネットワークを生成する前記ステップが、前記トレーニングデータの前記第1の部分を使用して第1のネットワークコンポーネントを生成することと、前記トレーニングデータの前記第2の部分を使用して第2のネットワークコンポーネントを生成することと、を備え、
前記ソースデコンボリューションネットワークが、(i)前記第1のおよび第2のネットワークコンポーネントの各々に前記ソースデコンボリューションネットワークに入力される画像データを送信するように、および(ii)前記第1のおよび第2のネットワークコンポーネントの出力を使用して前記1つまたは複数の出力を生成するように、適応される、請求項8に記載の方法。 - 前記ソースデコンボリューションネットワークおよび前記ターゲットデコンボリューションネットワークのうちの少なくとも1つが、前記トレーニングデータの連続するバッチを使用して生成され、トレーニングデータの各バッチが、複数の比較的デンスにサンプリングされた画像と、複数の比較的スパースにサンプリングされた画像とを備え、前記生成が、前記比較的デンスにサンプリングされた画像から導出された第1のコンポーネントと前記比較的スパースにサンプリングされた画像から導出された第2のコンポーネントとを有するコスト関数を使用する、請求項4に記載の方法。
- 前記コスト関数の2つのコストコンポーネントの相対的重要性が、重み付けパラメータによって決定される、請求項10に記載の方法。
- 前記ソースデコンボリューションネットワークおよび前記ターゲットデコンボリューションネットワークのうちの少なくとも1つの前記生成が、オブジェクトの複数の既定義のクラスの各々について、各クラス内のオブジェクトの画像における出現の頻度の尺度と反比例して変化するコスト関数を使用する、請求項1に記載の方法。
- 前記コンピュータシステムが、集積回路を備え、前記方法が、第2の計算モデルを実装するために前記集積回路を形成することを備える、請求項1に記載の方法。
- 前記集積回路が、プログラマブル集積回路であり、前記第2の計算モデルを実装するために前記集積回路を形成する前記ステップが、前記複数の第2の値を使用して前記集積回路をプログラムすることを備える、請求項1に記載の方法。
- 前記画像データが、それぞれの道路運輸シーンの画像を符号化する、請求項1に記載の方法。
- 入力画像の対応するエリアのラベルデータを作るためのコンピュータシステムを設計するためのコンピュータ装置であって、前記ラベルデータは、所定の値のセットのうちの1つの所定の値であり、前記画像の前記対応するエリアがオブジェクトカテゴリのセットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、
前記コンピュータ装置は、
プロセッサと、
前記プロセッサが従うときに、前記プロセッサに、
(i)トレーニング画像を符号化する第1の画像データおよび(ii)各トレーニング画像の注釈データの対応するセットを備えるトレーニングデータを使用する監視された学習によって、複数の第1の値によって定義されるソースデコンボリューションネットワークを生成することと、各トレーニング画像の注釈データの前記セットは、前記トレーニング画像の複数の対応するエリアについて、前記トレーニング画像の前記エリアが、オブジェクトカテゴリの前記セットのうちのそれぞれのオブジェクトカテゴリ内にあるオブジェクトの画像であることを示し、
前記ソースデコンボリューションネットワークにトレーニング画像を符号化する第2の画像データを入力するときに前記ソースデコンボリューションネットワークの1つまたは複数の出力を記述する出力データを計算することと、
複数の第2の値によって定義されるターゲットデコンボリューションネットワークを適応的に生成するために、前記第2の画像データおよび前記出力データを使用することと、前記複数の第2の値のカーディナリティは、前記複数の第1の値のカーディナリティより低く、
を行わせるように動作するコンピュータプログラム命令を記憶するデータストレージデバイスと、
を備える、コンピュータ装置。 - 前記プログラム命令が、前記プロセッサに、前記トレーニング画像のそれぞれの領域について、前記トレーニング画像の前記領域が対応する既定義のオブジェクトカテゴリであるオブジェクトを示すことを示すラベルのセットとして所与のトレーニング画像の前記出力データを収集させるように動作する、請求項16に記載のコンピュータ装置。
- 前記プログラム命令が、前記プロセッサに、ベクトルのセットとして所与のトレーニング画像の前記出力データを収集させるように動作し、各ベクトルが、オブジェクトカテゴリの数と等しいいくつかのコンポーネントを有し、前記トレーニング画像のそれぞれの領域について、オブジェクトが前記対応するオブジェクトカテゴリ内にあることを前記領域が示す確率値を示す、請求項16に記載のコンピュータ装置。
- 前記プログラム命令が、前記プロセッサに、前記第2の画像データによって符号化される前記トレーニング画像のうちの1つの所与のエリアについて、前記トレーニング画像と提示されるときの前記ターゲットデコンボリューションネットワークの対応する出力と前記ソースデコンボリューションネットワークの対応する出力との間のクロスエントロピーを示す、クロスエントロピー損失関数を使用して前記ターゲットデコンボリューションネットワークを生成させるように動作する、請求項18に記載のコンピュータ装置。
- 前記プログラム命令が、前記プロセッサに、(a)前記ターゲットデコンボリューションネットワークおよびソースデコンボリューションネットワークの対応する出力の類似を表す項と(b)前記オブジェクトカテゴリの重み付け項との積の前記複数のオブジェクトカテゴリにわたる和を計算することによって前記クロスエントロピー損失関数を計算させるように動作し、前記オブジェクトカテゴリの前記重み付け項は、前記トレーニングデータにおける前記対応するオブジェクトカテゴリのオブジェクトの頻度を増やすために減少する、請求項19に記載のコンピュータ装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662306975P | 2016-03-11 | 2016-03-11 | |
US62/306,975 | 2016-03-11 | ||
US15/090,984 US9916522B2 (en) | 2016-03-11 | 2016-04-05 | Training constrained deconvolutional networks for road scene semantic segmentation |
US15/090,984 | 2016-04-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017162456A true JP2017162456A (ja) | 2017-09-14 |
JP6309663B2 JP6309663B2 (ja) | 2018-04-11 |
Family
ID=59786870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017029703A Active JP6309663B2 (ja) | 2016-03-11 | 2017-02-21 | 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング |
Country Status (2)
Country | Link |
---|---|
US (1) | US9916522B2 (ja) |
JP (1) | JP6309663B2 (ja) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446616A (zh) * | 2018-03-09 | 2018-08-24 | 西安电子科技大学 | 基于全卷积神经网络集成学习的道路提取方法 |
CN109670392A (zh) * | 2018-09-04 | 2019-04-23 | 中国人民解放军陆军工程大学 | 基于混合自动编码器道路图像语义分割方法 |
KR20190067680A (ko) * | 2017-12-07 | 2019-06-17 | 한양대학교 산학협력단 | 심층 학습을 이용하는 의미적 영상 분할 방법 |
CN110097554A (zh) * | 2019-04-16 | 2019-08-06 | 东南大学 | 基于密集卷积和深度可分离卷积的视网膜血管分割方法 |
CN110136154A (zh) * | 2019-05-16 | 2019-08-16 | 西安电子科技大学 | 基于全卷积网络与形态学处理的遥感图像语义分割方法 |
JP2019153138A (ja) * | 2018-03-05 | 2019-09-12 | 株式会社デンソー | 画像作成装置 |
JP2019154027A (ja) * | 2018-03-02 | 2019-09-12 | 富士通株式会社 | ビデオ監視システムのパラメータ設定方法、装置及びビデオ監視システム |
JP2019153277A (ja) * | 2017-12-07 | 2019-09-12 | イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ | エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け |
WO2019198143A1 (ja) * | 2018-04-10 | 2019-10-17 | 株式会社日立製作所 | 加工レシピ生成装置 |
WO2019224947A1 (ja) * | 2018-05-23 | 2019-11-28 | 株式会社ソニー・インタラクティブエンタテインメント | 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム |
CN110569790A (zh) * | 2019-09-05 | 2019-12-13 | 中国人民解放军61540部队 | 基于纹理增强卷积网络的居民区要素提取方法 |
JP2020060899A (ja) * | 2018-10-09 | 2020-04-16 | 株式会社デンソー | 車載カメラのキャリブレーション装置 |
JP2020068014A (ja) * | 2018-10-26 | 2020-04-30 | 株式会社ストラドビジョン | 近接障害物の下段ライン及び上段ラインを検出し、物体存在性を検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting objectness by detecting bottom line and top line of nearest obstacles and testing method, testing device using the same} |
WO2020121679A1 (ja) * | 2018-12-14 | 2020-06-18 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
WO2020121668A1 (ja) * | 2018-12-14 | 2020-06-18 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
WO2020121678A1 (ja) * | 2018-12-14 | 2020-06-18 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置 |
JP2020102041A (ja) * | 2018-12-21 | 2020-07-02 | 株式会社エヌ・ティ・ティ・データ | 学習データ生成システム、学習データ生成方法、機械学習モデルの学習方法 |
JP2020126635A (ja) * | 2019-01-31 | 2020-08-20 | 株式会社ストラドビジョンStradvision,Inc. | 周辺車両のイメージを利用してベース車両のイメージをオートラベリングするオートラベリング装置を学習させる学習方法及び学習装置、そして、これを利用したテスティング方法及びテスティング装置 |
JP2021508901A (ja) * | 2018-05-31 | 2021-03-11 | 上▲海▼商▲湯▼智能科技有限公司Shanghai Sensetime Intelligent Technology Co., Ltd. | 区画線に基づくインテリジェントドライブ制御方法および装置、ならびに電子機器 |
CN113449589A (zh) * | 2021-05-16 | 2021-09-28 | 桂林电子科技大学 | 一种无人驾驶汽车在城市交通场景中驾驶策略计算方法 |
EP3905113A1 (en) | 2020-04-27 | 2021-11-03 | Fujitsu Limited | Camera height calculation method and image processing apparatus |
JP2022504386A (ja) * | 2018-10-03 | 2022-01-13 | ソレラ ホールディングス, インコーポレイテッド | 組み合わせられた視覚知能のための装置および方法 |
JP2022013172A (ja) * | 2020-07-03 | 2022-01-18 | 株式会社日立製作所 | 認識管理装置、認識管理システム及び認識管理方法 |
JP2022507144A (ja) * | 2018-11-27 | 2022-01-18 | レイセオン カンパニー | 人工画像生成用コンピュータアーキテクチャ |
JP2022512065A (ja) * | 2019-11-11 | 2022-02-02 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | 画像分類モデルの訓練方法、画像処理方法及び装置 |
JP2022524878A (ja) * | 2019-03-28 | 2022-05-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 画像解析方法、装置、プログラム |
CN117079276A (zh) * | 2023-06-21 | 2023-11-17 | 江苏大学 | 一种基于知识蒸馏的语义分割方法、系统、设备及介质 |
Families Citing this family (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909459B2 (en) | 2016-06-09 | 2021-02-02 | Cognizant Technology Solutions U.S. Corporation | Content embedding using deep metric learning algorithms |
US10929977B2 (en) * | 2016-08-25 | 2021-02-23 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US11068781B2 (en) * | 2016-10-07 | 2021-07-20 | Nvidia Corporation | Temporal ensembling for semi-supervised learning |
KR101879207B1 (ko) * | 2016-11-22 | 2018-07-17 | 주식회사 루닛 | 약한 지도 학습 방식의 객체 인식 방법 및 장치 |
US11475310B1 (en) | 2016-11-29 | 2022-10-18 | Perceive Corporation | Training network to minimize worst-case error |
JP6957624B2 (ja) * | 2016-12-15 | 2021-11-02 | グーグル エルエルシーGoogle LLC | ターゲット・ドメイン画像へのソース・ドメイン画像の変換 |
US11151361B2 (en) * | 2017-01-20 | 2021-10-19 | Intel Corporation | Dynamic emotion recognition in unconstrained scenarios |
US11514465B2 (en) * | 2017-03-02 | 2022-11-29 | The Nielsen Company (Us), Llc | Methods and apparatus to perform multi-level hierarchical demographic classification |
US10147019B2 (en) * | 2017-03-20 | 2018-12-04 | Sap Se | Small object detection |
CN106886801B (zh) * | 2017-04-14 | 2021-12-17 | 北京图森智途科技有限公司 | 一种图像语义分割方法及装置 |
US11164071B2 (en) * | 2017-04-18 | 2021-11-02 | Samsung Electronics Co., Ltd. | Method and apparatus for reducing computational complexity of convolutional neural networks |
US10410353B2 (en) * | 2017-05-18 | 2019-09-10 | Mitsubishi Electric Research Laboratories, Inc. | Multi-label semantic boundary detection system |
US10713537B2 (en) * | 2017-07-01 | 2020-07-14 | Algolux Inc. | Method and apparatus for joint image processing and perception |
US10671082B2 (en) * | 2017-07-03 | 2020-06-02 | Baidu Usa Llc | High resolution 3D point clouds generation based on CNN and CRF models |
US11270526B2 (en) * | 2017-08-07 | 2022-03-08 | Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences | Teaching assistance method and teaching assistance system using said method |
US10755144B2 (en) | 2017-09-05 | 2020-08-25 | Cognizant Technology Solutions U.S. Corporation | Automated and unsupervised generation of real-world training data |
US10755142B2 (en) * | 2017-09-05 | 2020-08-25 | Cognizant Technology Solutions U.S. Corporation | Automated and unsupervised generation of real-world training data |
US10268205B2 (en) * | 2017-09-13 | 2019-04-23 | TuSimple | Training and testing of a neural network method for deep odometry assisted by static scene optical flow |
CN110809784B (zh) | 2017-09-27 | 2021-04-20 | 谷歌有限责任公司 | 高分辨率图像分割的端到端网络模型 |
CN107644423B (zh) * | 2017-09-29 | 2021-06-15 | 北京奇虎科技有限公司 | 基于场景分割的视频数据实时处理方法、装置及计算设备 |
US11004202B2 (en) * | 2017-10-09 | 2021-05-11 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for semantic segmentation of 3D point clouds |
CN107665491B (zh) * | 2017-10-10 | 2021-04-09 | 清华大学 | 病理图像的识别方法及系统 |
US20190114390A1 (en) * | 2017-10-13 | 2019-04-18 | BioAge Labs, Inc. | Drug repurposing based on deep embeddings of gene expression profiles |
US10866588B2 (en) | 2017-10-16 | 2020-12-15 | Toyota Research Institute, Inc. | System and method for leveraging end-to-end driving models for improving driving task modules |
EP3506160B1 (en) * | 2017-12-28 | 2022-06-01 | Dassault Systèmes | Semantic segmentation of 2d floor plans with a pixel-wise classifier |
US11328210B2 (en) | 2017-12-29 | 2022-05-10 | Micron Technology, Inc. | Self-learning in distributed architecture for enhancing artificial neural network |
CN108171711A (zh) * | 2018-01-17 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于完全卷积网络的婴幼儿脑部磁共振图像分割方法 |
CN108416783B (zh) * | 2018-02-01 | 2021-04-02 | 湖北工业大学 | 基于全卷积神经网路的道路场景分割方法 |
US10679070B1 (en) * | 2018-02-23 | 2020-06-09 | Facebook, Inc. | Systems and methods for a video understanding platform |
KR102109372B1 (ko) * | 2018-04-12 | 2020-05-12 | 가천대학교 산학협력단 | 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법 |
US10522038B2 (en) | 2018-04-19 | 2019-12-31 | Micron Technology, Inc. | Systems and methods for automatically warning nearby vehicles of potential hazards |
KR102097869B1 (ko) * | 2018-04-25 | 2020-04-06 | 연세대학교 산학협력단 | 자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법 |
CN108664969B (zh) * | 2018-04-28 | 2022-04-19 | 西安电子科技大学 | 基于条件随机场的路标识别方法 |
CN109690562B (zh) * | 2018-05-18 | 2022-09-13 | 香港应用科技研究院有限公司 | 由全卷积神经网络加速细胞学图像分类的图像预处理 |
US10586336B2 (en) * | 2018-05-18 | 2020-03-10 | Hong Kong Applied Science and Technology Research Institute Company Limited | Image pre-processing for accelerating cytological image classification by fully convolutional neural networks |
CN112020723A (zh) * | 2018-05-23 | 2020-12-01 | 富士通株式会社 | 用于语义分割的分类神经网络的训练方法及装置、电子设备 |
US11042712B2 (en) * | 2018-06-05 | 2021-06-22 | Koninklijke Philips N.V. | Simplifying and/or paraphrasing complex textual content by jointly learning semantic alignment and simplicity |
US10885400B2 (en) | 2018-07-03 | 2021-01-05 | General Electric Company | Classification based on annotation information |
US10755147B2 (en) | 2018-07-03 | 2020-08-25 | General Electric Company | Classification and localization based on annotation information |
US10936905B2 (en) * | 2018-07-06 | 2021-03-02 | Tata Consultancy Services Limited | Method and system for automatic object annotation using deep network |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
US10796201B2 (en) | 2018-09-07 | 2020-10-06 | Toyota Research Institute, Inc. | Fusing predictions for end-to-end panoptic segmentation |
CN109255181B (zh) * | 2018-09-07 | 2019-12-24 | 百度在线网络技术(北京)有限公司 | 一种基于多模型的障碍物分布仿真方法、装置以及终端 |
CN109559315B (zh) * | 2018-09-28 | 2023-06-02 | 天津大学 | 一种基于多路径深度神经网络的水面分割方法 |
CN109509192B (zh) * | 2018-10-18 | 2023-05-30 | 天津大学 | 融合多尺度特征空间与语义空间的语义分割网络 |
CN109614983B (zh) * | 2018-10-26 | 2023-06-16 | 创新先进技术有限公司 | 训练数据的生成方法、装置及系统 |
CN109544512B (zh) * | 2018-10-26 | 2020-09-18 | 浙江大学 | 一种基于多模态的胚胎妊娠结果预测装置 |
US10311321B1 (en) * | 2018-10-26 | 2019-06-04 | StradVision, Inc. | Learning method, learning device using regression loss and testing method, testing device using the same |
US11188799B2 (en) | 2018-11-12 | 2021-11-30 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
CN109558901B (zh) * | 2018-11-16 | 2022-04-05 | 北京市商汤科技开发有限公司 | 一种语义分割训练方法及装置、电子设备、存储介质 |
CN109840471B (zh) * | 2018-12-14 | 2023-04-14 | 天津大学 | 一种基于改进Unet网络模型的可行道路分割方法 |
US10929665B2 (en) * | 2018-12-21 | 2021-02-23 | Samsung Electronics Co., Ltd. | System and method for providing dominant scene classification by semantic segmentation |
CN109766790B (zh) * | 2018-12-24 | 2022-08-23 | 重庆邮电大学 | 一种基于自适应特征通道的行人检测方法 |
CN109934163B (zh) * | 2018-12-27 | 2022-07-08 | 北京航空航天大学 | 一种基于场景先验和特征再融合的航空图像车辆检测方法 |
CN109919026B (zh) * | 2019-01-30 | 2023-06-30 | 华南理工大学 | 一种水面无人艇局部路径规划方法 |
US11373466B2 (en) | 2019-01-31 | 2022-06-28 | Micron Technology, Inc. | Data recorders of autonomous vehicles |
US11410475B2 (en) | 2019-01-31 | 2022-08-09 | Micron Technology, Inc. | Autonomous vehicle data recorders |
CN110032949B (zh) * | 2019-03-22 | 2021-09-28 | 北京理工大学 | 一种基于轻量化卷积神经网络的目标检测与定位方法 |
CN110120033A (zh) * | 2019-04-12 | 2019-08-13 | 天津大学 | 基于改进的U-Net神经网络三维脑肿瘤图像分割方法 |
CN110070091B (zh) * | 2019-04-30 | 2022-05-24 | 福州大学 | 用于街景理解的基于动态插值重建的语义分割方法及系统 |
GB2583747B (en) * | 2019-05-08 | 2023-12-06 | Vivacity Labs Ltd | Traffic control system |
CN110245665B (zh) * | 2019-05-13 | 2023-06-06 | 天津大学 | 基于注意力机制的图像语义分割方法 |
US11301722B2 (en) | 2019-05-14 | 2022-04-12 | Here Global B.V. | Method, apparatus, and system for providing map embedding analytics |
CN110197505B (zh) * | 2019-05-30 | 2022-12-02 | 西安电子科技大学 | 基于深度网络及语义信息的遥感图像双目立体匹配方法 |
CN110222636B (zh) * | 2019-05-31 | 2023-04-07 | 中国民航大学 | 基于背景抑制的行人属性识别方法 |
EP3748392A1 (en) * | 2019-06-03 | 2020-12-09 | NXP USA, Inc. | System and method to classify objects using radar data |
EP3748545A1 (en) * | 2019-06-07 | 2020-12-09 | Tata Consultancy Services Limited | Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks |
JP2022536731A (ja) | 2019-06-12 | 2022-08-18 | カーネギー メロン ユニバーシティ | 画像処理のための深層学習モデル |
US11176368B2 (en) * | 2019-06-13 | 2021-11-16 | International Business Machines Corporation | Visually focused first-person neural network interpretation |
KR20220027233A (ko) * | 2019-07-01 | 2022-03-07 | 옵티멈 세미컨덕터 테크놀로지스 인코포레이티드 | 파라미터-효율적 시맨틱 이미지 세그먼트화를 위한 피드백 디코더 |
CN110287932B (zh) * | 2019-07-02 | 2021-04-13 | 中国科学院空天信息创新研究院 | 基于深度学习图像语义分割的道路阻断信息提取方法 |
CN112396170B (zh) * | 2019-08-14 | 2024-04-02 | 上海寒武纪信息科技有限公司 | 运算方法、装置、计算机设备和存储介质 |
US11636334B2 (en) | 2019-08-20 | 2023-04-25 | Micron Technology, Inc. | Machine learning with feature obfuscation |
US11755884B2 (en) | 2019-08-20 | 2023-09-12 | Micron Technology, Inc. | Distributed machine learning with privacy protection |
US11392796B2 (en) | 2019-08-20 | 2022-07-19 | Micron Technology, Inc. | Feature dictionary for bandwidth enhancement |
KR102413033B1 (ko) * | 2019-11-01 | 2022-06-24 | 한국전자통신연구원 | 양자화 기계학습 알고리즘 최적화 장치 및 방법 |
CN110827284B (zh) * | 2019-11-04 | 2023-10-10 | 华南理工大学 | 优化部件分析模型编解码器网络及快速语义分割方法 |
CN111597897B (zh) * | 2020-04-16 | 2023-10-24 | 浙江工业大学 | 高速服务区车位识别方法 |
CN111507258B (zh) * | 2020-04-17 | 2023-05-12 | 中国科学院自动化研究所 | 聚焦关键样本的基于集成学习的道路区域检测方法、系统 |
CN111612803B (zh) * | 2020-04-30 | 2023-10-17 | 杭州电子科技大学 | 一种基于图像清晰度的车辆图像语义分割方法 |
CN111666933B (zh) * | 2020-06-08 | 2023-04-07 | 广东小天才科技有限公司 | 一种文本检测的方法、装置、电子设备和存储介质 |
CN112052951B (zh) * | 2020-08-31 | 2024-07-16 | 北京中科慧眼科技有限公司 | 一种剪枝神经网络方法、系统、设备及可读存储介质 |
CN112164035B (zh) * | 2020-09-15 | 2023-04-28 | 郑州金惠计算机系统工程有限公司 | 基于图像的缺陷检测方法、装置、电子设备及存储介质 |
US20220094713A1 (en) * | 2020-09-21 | 2022-03-24 | Sophos Limited | Malicious message detection |
US20220207294A1 (en) * | 2020-12-28 | 2022-06-30 | Markany Inc. | Method and device for augmenting training data by combining object and background |
KR20220096021A (ko) * | 2020-12-30 | 2022-07-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN113159010B (zh) * | 2021-03-05 | 2022-07-22 | 北京百度网讯科技有限公司 | 视频分类方法、装置、设备和存储介质 |
US12051237B2 (en) | 2021-03-12 | 2024-07-30 | Samsung Electronics Co., Ltd. | Multi-expert adversarial regularization for robust and data-efficient deep supervised learning |
CN112966697B (zh) * | 2021-03-17 | 2022-03-11 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
CN113160204B (zh) * | 2021-04-30 | 2024-07-26 | 聚时科技(上海)有限公司 | 基于目标检测信息生成缺陷区域的语义分割网络训练方法 |
CN113807417B (zh) * | 2021-08-31 | 2023-05-30 | 中国人民解放军战略支援部队信息工程大学 | 基于深度学习视野自选择网络的密集匹配方法及系统 |
CN113780532B (zh) * | 2021-09-10 | 2023-10-27 | 平安科技(深圳)有限公司 | 语义分割网络的训练方法、装置、设备及存储介质 |
CN114119981A (zh) * | 2021-12-09 | 2022-03-01 | 成都理工大学 | 基于小样本深度学习无监督语义分割的大地电磁反演增强方法 |
CN114241247B (zh) * | 2021-12-28 | 2023-03-07 | 国网浙江省电力有限公司电力科学研究院 | 一种基于深度残差网络的变电站安全帽识别方法及系统 |
CN118262117B (zh) * | 2024-05-30 | 2024-08-02 | 贵州大学 | 基于混合增强与交叉ema的半监督医学图像语义分割方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134434A (ja) * | 1995-09-29 | 1997-05-20 | Philips Electron Nv | 明暗度画像内の所定のタイプの癌領域を自動検出する画像処理方法及び装置 |
US20150278642A1 (en) * | 2014-04-01 | 2015-10-01 | Superfish Ltd. | Neural network image representation |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5819226A (en) * | 1992-09-08 | 1998-10-06 | Hnc Software Inc. | Fraud detection using predictive modeling |
US5832468A (en) * | 1995-09-28 | 1998-11-03 | The United States Of America As Represented By The Administrator Of The Environmental Protection Agency | Method for improving process control by reducing lag time of sensors using artificial neural networks |
US6236942B1 (en) * | 1998-09-15 | 2001-05-22 | Scientific Prediction Incorporated | System and method for delineating spatially dependent objects, such as hydrocarbon accumulations from seismic data |
AU2352601A (en) * | 2000-01-05 | 2001-07-16 | Structural Bioinformatics Advanced Technologies A/S | Computer predictions of molecules |
JP6042274B2 (ja) * | 2013-06-28 | 2016-12-14 | 株式会社デンソーアイティーラボラトリ | ニューラルネットワーク最適化方法、ニューラルネットワーク最適化装置及びプログラム |
US9620145B2 (en) * | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US9940539B2 (en) * | 2015-05-08 | 2018-04-10 | Samsung Electronics Co., Ltd. | Object recognition apparatus and method |
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10157279B2 (en) * | 2015-07-15 | 2018-12-18 | Cylance Inc. | Malware detection |
-
2016
- 2016-04-05 US US15/090,984 patent/US9916522B2/en active Active
-
2017
- 2017-02-21 JP JP2017029703A patent/JP6309663B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134434A (ja) * | 1995-09-29 | 1997-05-20 | Philips Electron Nv | 明暗度画像内の所定のタイプの癌領域を自動検出する画像処理方法及び装置 |
US20150278642A1 (en) * | 2014-04-01 | 2015-10-01 | Superfish Ltd. | Neural network image representation |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7217138B2 (ja) | 2017-12-07 | 2023-02-02 | イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ | エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け |
KR20190067680A (ko) * | 2017-12-07 | 2019-06-17 | 한양대학교 산학협력단 | 심층 학습을 이용하는 의미적 영상 분할 방법 |
KR101993085B1 (ko) | 2017-12-07 | 2019-06-25 | 한양대학교 산학협력단 | 심층 학습을 이용하는 의미적 영상 분할 방법 |
JP2019153277A (ja) * | 2017-12-07 | 2019-09-12 | イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ | エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け |
JP7305965B2 (ja) | 2018-03-02 | 2023-07-11 | 富士通株式会社 | ビデオ監視システムのパラメータ設定方法、装置及びビデオ監視システム |
JP2019154027A (ja) * | 2018-03-02 | 2019-09-12 | 富士通株式会社 | ビデオ監視システムのパラメータ設定方法、装置及びビデオ監視システム |
JP2019153138A (ja) * | 2018-03-05 | 2019-09-12 | 株式会社デンソー | 画像作成装置 |
CN108446616B (zh) * | 2018-03-09 | 2021-09-03 | 西安电子科技大学 | 基于全卷积神经网络集成学习的道路提取方法 |
CN108446616A (zh) * | 2018-03-09 | 2018-08-24 | 西安电子科技大学 | 基于全卷积神经网络集成学习的道路提取方法 |
TWI701613B (zh) * | 2018-04-10 | 2020-08-11 | 日商日立製作所股份有限公司 | 加工配方生成裝置 |
WO2019198143A1 (ja) * | 2018-04-10 | 2019-10-17 | 株式会社日立製作所 | 加工レシピ生成装置 |
JP6995191B2 (ja) | 2018-04-10 | 2022-01-14 | 株式会社日立製作所 | 加工レシピ生成装置 |
JPWO2019198143A1 (ja) * | 2018-04-10 | 2021-03-11 | 株式会社日立製作所 | 加工レシピ生成装置 |
US11393084B2 (en) | 2018-04-10 | 2022-07-19 | Hitachi, Ltd. | Processing recipe generation device |
US11900258B2 (en) | 2018-05-23 | 2024-02-13 | Sony Interactive Entertainment Inc. | Learning device, image generating device, learning method, image generating method, and program |
WO2019224947A1 (ja) * | 2018-05-23 | 2019-11-28 | 株式会社ソニー・インタラクティブエンタテインメント | 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム |
JPWO2019224947A1 (ja) * | 2018-05-23 | 2021-02-12 | 株式会社ソニー・インタラクティブエンタテインメント | 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム |
JP2021508901A (ja) * | 2018-05-31 | 2021-03-11 | 上▲海▼商▲湯▼智能科技有限公司Shanghai Sensetime Intelligent Technology Co., Ltd. | 区画線に基づくインテリジェントドライブ制御方法および装置、ならびに電子機器 |
JP7024115B2 (ja) | 2018-05-31 | 2022-02-22 | 上▲海▼商▲湯▼智能科技有限公司 | 区画線に基づくインテリジェントドライブ制御方法および装置、ならびに電子機器 |
US11314973B2 (en) | 2018-05-31 | 2022-04-26 | Shanghai Sensetime Intelligent Technology Co., Ltd. | Lane line-based intelligent driving control method and apparatus, and electronic device |
CN109670392A (zh) * | 2018-09-04 | 2019-04-23 | 中国人民解放军陆军工程大学 | 基于混合自动编码器道路图像语义分割方法 |
JP7282168B2 (ja) | 2018-10-03 | 2023-05-26 | ソレラ ホールディングス, インコーポレイテッド | 組み合わせられた視覚知能のための装置および方法 |
JP2022504386A (ja) * | 2018-10-03 | 2022-01-13 | ソレラ ホールディングス, インコーポレイテッド | 組み合わせられた視覚知能のための装置および方法 |
JP2020060899A (ja) * | 2018-10-09 | 2020-04-16 | 株式会社デンソー | 車載カメラのキャリブレーション装置 |
JP2020068014A (ja) * | 2018-10-26 | 2020-04-30 | 株式会社ストラドビジョン | 近接障害物の下段ライン及び上段ラインを検出し、物体存在性を検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting objectness by detecting bottom line and top line of nearest obstacles and testing method, testing device using the same} |
JP2022507144A (ja) * | 2018-11-27 | 2022-01-18 | レイセオン カンパニー | 人工画像生成用コンピュータアーキテクチャ |
JP7214863B2 (ja) | 2018-11-27 | 2023-01-30 | レイセオン カンパニー | 人工画像生成用コンピュータアーキテクチャ |
US11900249B2 (en) | 2018-12-14 | 2024-02-13 | Fujifilm Corporation | Mini-batch learning apparatus, operation program of mini-batch learning apparatus, operation method of mini-batch learning apparatus, and image processing apparatus |
WO2020121668A1 (ja) * | 2018-12-14 | 2020-06-18 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
JPWO2020121668A1 (ja) * | 2018-12-14 | 2021-09-27 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
JPWO2020121679A1 (ja) * | 2018-12-14 | 2021-09-27 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
JPWO2020121678A1 (ja) * | 2018-12-14 | 2021-09-27 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置 |
US11983880B2 (en) | 2018-12-14 | 2024-05-14 | Fujifilm Corporation | Mini-batch learning apparatus, operation program of mini-batch learning apparatus, and operation method of mini-batch learning apparatus |
WO2020121678A1 (ja) * | 2018-12-14 | 2020-06-18 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置 |
WO2020121679A1 (ja) * | 2018-12-14 | 2020-06-18 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
JP7096360B2 (ja) | 2018-12-14 | 2022-07-05 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
JP7096362B2 (ja) | 2018-12-14 | 2022-07-05 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラムおよび作動方法 |
JP7096361B2 (ja) | 2018-12-14 | 2022-07-05 | 富士フイルム株式会社 | ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置 |
JP7300828B2 (ja) | 2018-12-21 | 2023-06-30 | 株式会社エヌ・ティ・ティ・データ | 学習データ生成システム、学習データ生成方法、機械学習モデルの学習方法 |
JP2020102041A (ja) * | 2018-12-21 | 2020-07-02 | 株式会社エヌ・ティ・ティ・データ | 学習データ生成システム、学習データ生成方法、機械学習モデルの学習方法 |
JP2020126635A (ja) * | 2019-01-31 | 2020-08-20 | 株式会社ストラドビジョンStradvision,Inc. | 周辺車両のイメージを利用してベース車両のイメージをオートラベリングするオートラベリング装置を学習させる学習方法及び学習装置、そして、これを利用したテスティング方法及びテスティング装置 |
JP2022524878A (ja) * | 2019-03-28 | 2022-05-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 画像解析方法、装置、プログラム |
JP7350878B2 (ja) | 2019-03-28 | 2023-09-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 画像解析方法、装置、プログラム |
CN110097554A (zh) * | 2019-04-16 | 2019-08-06 | 东南大学 | 基于密集卷积和深度可分离卷积的视网膜血管分割方法 |
CN110136154B (zh) * | 2019-05-16 | 2022-12-06 | 西安电子科技大学 | 基于全卷积网络与形态学处理的遥感图像语义分割方法 |
CN110136154A (zh) * | 2019-05-16 | 2019-08-16 | 西安电子科技大学 | 基于全卷积网络与形态学处理的遥感图像语义分割方法 |
CN110569790A (zh) * | 2019-09-05 | 2019-12-13 | 中国人民解放军61540部队 | 基于纹理增强卷积网络的居民区要素提取方法 |
CN110569790B (zh) * | 2019-09-05 | 2023-03-28 | 中国人民解放军61540部队 | 基于纹理增强卷积网络的居民区要素提取方法 |
JP7266674B2 (ja) | 2019-11-11 | 2023-04-28 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | 画像分類モデルの訓練方法、画像処理方法及び装置 |
JP2022512065A (ja) * | 2019-11-11 | 2022-02-02 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | 画像分類モデルの訓練方法、画像処理方法及び装置 |
US11580663B2 (en) | 2020-04-27 | 2023-02-14 | Fujitsu Limited | Camera height calculation method and image processing apparatus |
EP3905113A1 (en) | 2020-04-27 | 2021-11-03 | Fujitsu Limited | Camera height calculation method and image processing apparatus |
JP2022013172A (ja) * | 2020-07-03 | 2022-01-18 | 株式会社日立製作所 | 認識管理装置、認識管理システム及び認識管理方法 |
JP7422621B2 (ja) | 2020-07-03 | 2024-01-26 | 株式会社日立製作所 | 認識管理装置、認識管理システム及び認識管理方法 |
CN113449589B (zh) * | 2021-05-16 | 2022-11-15 | 桂林电子科技大学 | 一种无人驾驶汽车在城市交通场景中驾驶策略计算方法 |
CN113449589A (zh) * | 2021-05-16 | 2021-09-28 | 桂林电子科技大学 | 一种无人驾驶汽车在城市交通场景中驾驶策略计算方法 |
CN117079276B (zh) * | 2023-06-21 | 2024-02-09 | 江苏大学 | 一种基于知识蒸馏的语义分割方法、系统、设备及介质 |
CN117079276A (zh) * | 2023-06-21 | 2023-11-17 | 江苏大学 | 一种基于知识蒸馏的语义分割方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US9916522B2 (en) | 2018-03-13 |
US20170262735A1 (en) | 2017-09-14 |
JP6309663B2 (ja) | 2018-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6309663B2 (ja) | 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング | |
Ros et al. | Training constrained deconvolutional networks for road scene semantic segmentation | |
Garcia-Garcia et al. | A survey on deep learning techniques for image and video semantic segmentation | |
Li et al. | Neuromorphic data augmentation for training spiking neural networks | |
Hu et al. | A fully convolutional two-stream fusion network for interactive image segmentation | |
Ding et al. | Context contrasted feature and gated multi-scale aggregation for scene segmentation | |
Mendes et al. | Exploiting fully convolutional neural networks for fast road detection | |
JP6395158B2 (ja) | シーンの取得画像を意味的にラベル付けする方法 | |
Sun et al. | Saliency guided deep network for weakly-supervised image segmentation | |
Munir et al. | LDNet: End-to-end lane marking detection approach using a dynamic vision sensor | |
Yao et al. | ADCNN: Towards learning adaptive dilation for convolutional neural networks | |
Bittel et al. | Pixel-wise segmentation of street with neural networks | |
Grigorev et al. | Depth estimation from single monocular images using deep hybrid network | |
Bai et al. | A survey on deep learning-based single image crowd counting: Network design, loss function and supervisory signal | |
Wang et al. | Self-paced cross-modality transfer learning for efficient road segmentation | |
Wu et al. | Fully combined convolutional network with soft cost function for traffic scene parsing | |
Zheng et al. | CLMIP: cross-layer manifold invariance based pruning method of deep convolutional neural network for real-time road type recognition | |
Cao et al. | Semi-supervised feature learning for disjoint hyperspectral imagery classification | |
Zuo et al. | LGADet: Light-weight anchor-free multispectral pedestrian detection with mixed local and global attention | |
Palle et al. | Automated image and video object detection based on hybrid heuristic-based U-net segmentation and faster region-convolutional neural network-enabled learning | |
Cordts et al. | Tree-structured models for efficient multi-cue scene labeling | |
Alajlan et al. | Automatic lane marking prediction using convolutional neural network and S-Shaped Binary Butterfly Optimization | |
Zohourian et al. | Coarse-to-Fine Semantic Road Segmentation Using Super-Pixel Data Model and Semi-Supervised Modified CycleGAN | |
CN118135209A (zh) | 一种基于形状块语义关联度的弱监督语义分割方法 | |
Koh et al. | Towards efficient video-based action recognition: context-aware memory attention network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6309663 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |