JP6682595B2 - イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 - Google Patents
イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 Download PDFInfo
- Publication number
- JP6682595B2 JP6682595B2 JP2018188347A JP2018188347A JP6682595B2 JP 6682595 B2 JP6682595 B2 JP 6682595B2 JP 2018188347 A JP2018188347 A JP 2018188347A JP 2018188347 A JP2018188347 A JP 2018188347A JP 6682595 B2 JP6682595 B2 JP 6682595B2
- Authority
- JP
- Japan
- Prior art keywords
- filters
- filter
- feature map
- decoding
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 158
- 238000003709 image segmentation Methods 0.000 title claims description 37
- 238000012360 testing method Methods 0.000 claims description 125
- 230000010339 dilation Effects 0.000 claims description 39
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 230000036961 partial effect Effects 0.000 claims description 6
- 238000010998 test method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000002829 reductive effect Effects 0.000 description 10
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
Claims (24)
- (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法において、
(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセスを遂行する段階;
(b)前記学習装置は、前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセスを遂行する段階;
(c)前記学習装置は、(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する段階;及び
(d)前記学習装置は、前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整する段階;を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、ことを特徴とする学習方法。 - 前記(a)段階で、前記学習装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、
前記(b)段階で、前記学習装置は、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、
前記(c)段階で、前記学習装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする請求項1に記載の学習方法。 - 前記(b)段階で、前記学習装置は、H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする請求項2に記載の学習方法。
- 前記HがK値である場合、前記学習装置は、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする請求項1に記載の学習方法。
- 前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、コンボリューション演算を遂行することを特徴とする請求項1に記載の学習方法。
- 前記(c)段階で、前記学習装置は、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項1に記載の学習方法。
- 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習方法。 - 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習方法。 - テストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、
(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;
(b)前記テスト装置が、前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセスを遂行する段階;
(c)前記テスト装置は、前記H個のエンコーディングフィルタの各々のテスト用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセスを遂行する段階;
(d)前記テスト装置は、(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセスを遂行する段階;
を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、セグメンテーション方法。 - 前記(b)段階で、前記テスト装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、
前記(c)段階で、前記テスト装置は、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、
前記(d)段階で、前記テスト装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とする請求項9に記載のセグメンテーション方法。 - 前記(c)段階で、前記テスト装置は、H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とする請求項10に記載のセグメンテーション方法。
- 前記(d)段階で、前記テスト装置は、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項9に記載のセグメンテーション方法。
- (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含むイメージセグメンテーションの性能向上のための学習装置において、
前記入力イメージを受信する通信部;及び
(I)前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセス;(III)(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセス;及び(IV)前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサ;を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、ことを特徴とする学習装置。 - 前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、
前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、
前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする請求項13に記載の学習装置。 - 前記(II)プロセスで、前記H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする請求項14に記載の学習装置。
- 前記HがK値である場合、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする請求項13に記載の学習装置。
- 前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする請求項13に記載の学習装置。
- 前記(III)プロセスで、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項13に記載の学習装置。
- 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(III)プロセスで、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行することで、前記第2−K特徴マップを獲得することを特徴とする請求項13に記載の学習装置。 - 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(III)プロセスで、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップを利用してデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項13に記載の学習装置。 - テストイメージとしての入力イメージに対するイメージセグメンテーション装置において、
(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個の前記デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを受信する通信部;及び
(I)前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタ各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセス;(III)(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセス;を遂行するプロセッサ;
を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、セグメンテーション装置。 - 前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、
前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、
前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とする請求項21に記載のセグメンテーション装置。 - 前記(II)プロセスで、前記H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とする請求項22に記載のセグメンテーション装置。
- 前記(III)プロセスで、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項21に記載のセグメンテーション装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/724,994 US10095977B1 (en) | 2017-10-04 | 2017-10-04 | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
US15/724,994 | 2017-10-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019067408A JP2019067408A (ja) | 2019-04-25 |
JP6682595B2 true JP6682595B2 (ja) | 2020-04-15 |
Family
ID=63524091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018188347A Active JP6682595B2 (ja) | 2017-10-04 | 2018-10-03 | イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10095977B1 (ja) |
EP (1) | EP3467711A1 (ja) |
JP (1) | JP6682595B2 (ja) |
KR (1) | KR102144358B1 (ja) |
CN (1) | CN109658417B (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10261903B2 (en) | 2017-04-17 | 2019-04-16 | Intel Corporation | Extend GPU/CPU coherency to multi-GPU cores |
JP6791182B2 (ja) * | 2018-03-14 | 2020-11-25 | オムロン株式会社 | ニューラルネットワーク型画像処理装置 |
US10565476B1 (en) * | 2018-09-04 | 2020-02-18 | StradVision, Inc. | Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same |
US10304009B1 (en) * | 2018-10-08 | 2019-05-28 | StradVision, Inc. | Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same |
CN109508639B (zh) * | 2018-10-12 | 2021-04-16 | 浙江科技学院 | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 |
US10311321B1 (en) * | 2018-10-26 | 2019-06-04 | StradVision, Inc. | Learning method, learning device using regression loss and testing method, testing device using the same |
EP3721382B1 (en) | 2018-12-31 | 2022-10-12 | Beijing Didi Infinity Technology and Development Co., Ltd. | Method and system of annotation densification for semantic segmentation |
US10467500B1 (en) | 2018-12-31 | 2019-11-05 | Didi Research America, Llc | Method and system for semantic segmentation involving multi-task convolutional neural network |
US10509987B1 (en) | 2019-01-22 | 2019-12-17 | StradVision, Inc. | Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same |
US10325371B1 (en) * | 2019-01-22 | 2019-06-18 | StradVision, Inc. | Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same |
CN109886984B (zh) * | 2019-01-22 | 2021-01-08 | 浙江大学 | 利用前后景灰度差和深度学习网络的图像精确分割方法 |
US10311578B1 (en) * | 2019-01-23 | 2019-06-04 | StradVision, Inc. | Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same |
CN111507343B (zh) * | 2019-01-30 | 2021-05-18 | 广州市百果园信息技术有限公司 | 语义分割网络的训练及其图像处理方法、装置 |
US10872297B2 (en) * | 2019-01-30 | 2020-12-22 | StradVision, Inc. | Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same |
US10890916B2 (en) * | 2019-01-30 | 2021-01-12 | StradVision, Inc. | Location-specific algorithm selection for optimized autonomous driving |
WO2020203819A1 (ja) | 2019-03-29 | 2020-10-08 | 株式会社Ihi | 遠隔操作装置 |
CN110059698B (zh) * | 2019-04-30 | 2022-12-23 | 福州大学 | 用于街景理解的基于边缘稠密重建的语义分割方法及系统 |
CN110232417B (zh) * | 2019-06-17 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备及计算机可读存储介质 |
KR102522399B1 (ko) * | 2019-07-09 | 2023-04-14 | 주식회사 케이티 | 객체 확인 방법 및 이를 위한 시스템 |
CN110781776B (zh) * | 2019-10-10 | 2022-07-05 | 湖北工业大学 | 一种基于预测和残差细化网络的道路提取方法 |
KR102225024B1 (ko) * | 2019-10-24 | 2021-03-08 | 연세대학교 산학협력단 | 이미지 채움 장치 및 방법 |
CN110837811B (zh) * | 2019-11-12 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
KR20210094314A (ko) | 2020-01-21 | 2021-07-29 | 삼성전자주식회사 | 반도체 장치의 제조 방법 |
US11270447B2 (en) | 2020-02-10 | 2022-03-08 | Hong Kong Applied Science And Technology Institute Company Limited | Method for image segmentation using CNN |
CN113518229B (zh) * | 2020-04-09 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 环路滤波网络的训练方法、装置、计算机设备和存储介质 |
CN111612807B (zh) * | 2020-05-15 | 2023-07-25 | 北京工业大学 | 一种基于尺度和边缘信息的小目标图像分割方法 |
CN111932557B (zh) * | 2020-08-13 | 2022-11-18 | 中国科学院重庆绿色智能技术研究院 | 基于集成学习和概率图模型的图像语义分割方法及装置 |
KR102357350B1 (ko) * | 2020-11-26 | 2022-02-07 | 한국과학기술연구원 | 딥러닝을 이용한 저선량 ct 영상의 통계적 영상 복원 방법 및 시스템 |
CN114301779B (zh) * | 2021-12-15 | 2024-03-19 | 迈普通信技术股份有限公司 | 一种镜像文件配置方法、装置,ap设备及网络系统 |
WO2023149614A1 (en) * | 2022-02-07 | 2023-08-10 | Samsung Electronics Co., Ltd. | Method and electronic device for efficiently reducing dimensions of image frame |
KR102585912B1 (ko) * | 2022-12-14 | 2023-10-06 | 주식회사 딥노이드 | 디자인권이 적용된 제품군을 자동으로 탐색하기 위한 장치 및 이를 위한 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2638465A1 (en) * | 2007-08-01 | 2009-02-01 | Jean-Yves Chouinard | Learning filters for enhancing the quality of block coded still and video images |
US9965901B2 (en) * | 2015-11-19 | 2018-05-08 | KLA—Tencor Corp. | Generating simulated images from design information |
CN106023220B (zh) * | 2016-05-26 | 2018-10-19 | 史方 | 一种基于深度学习的车辆外观部件图像分割方法 |
CN106874956B (zh) * | 2017-02-27 | 2018-10-23 | 陕西师范大学 | 图像分类卷积神经网络结构的构建方法 |
CN107169535B (zh) * | 2017-07-06 | 2023-11-03 | 谈宜勇 | 生物多光谱图像的深度学习分类方法及装置 |
-
2017
- 2017-10-04 US US15/724,994 patent/US10095977B1/en active Active
-
2018
- 2018-09-05 EP EP18192815.1A patent/EP3467711A1/en active Pending
- 2018-09-29 CN CN201811147164.1A patent/CN109658417B/zh active Active
- 2018-10-02 KR KR1020180117330A patent/KR102144358B1/ko active IP Right Grant
- 2018-10-03 JP JP2018188347A patent/JP6682595B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN109658417A (zh) | 2019-04-19 |
EP3467711A8 (en) | 2019-05-29 |
US10095977B1 (en) | 2018-10-09 |
KR102144358B1 (ko) | 2020-08-13 |
CN109658417B (zh) | 2023-04-28 |
JP2019067408A (ja) | 2019-04-25 |
KR20190039460A (ko) | 2019-04-12 |
EP3467711A1 (en) | 2019-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6682595B2 (ja) | イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 | |
JP6720264B2 (ja) | イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 | |
EP3467721B1 (en) | Method and device for generating feature maps by using feature upsampling networks | |
CN114140353B (zh) | 一种基于通道注意力的Swin-Transformer图像去噪方法及系统 | |
CN110084863B (zh) | 一种基于生成对抗网络的多域图像转换方法与系统 | |
US9984325B1 (en) | Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same | |
CN109636803B (zh) | 用于分割图像的方法和使用该方法的装置 | |
US11720786B2 (en) | Information processing apparatus, information processing method, and program | |
CN108268931B (zh) | 数据处理的方法、装置和系统 | |
JP6676722B2 (ja) | アクティベーション演算とコンボリューション演算を同時に遂行するための方法及び装置、そしてこのための学習方法及び学習装置 | |
US10282864B1 (en) | Method and device for encoding image and testing method and testing device using the same | |
JP2022500734A (ja) | 畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置及びコンピュータプログラム製品 | |
CN109361934B (zh) | 图像处理方法、装置、设备及存储介质 | |
US20220414838A1 (en) | Image dehazing method and system based on cyclegan | |
KR102092205B1 (ko) | 초해상화, 역톤매핑 및 동시 초해상화-역톤매핑 처리된 다중 출력 이미지를 생성하는 이미지 처리 방법 및 장치 | |
KR20200138079A (ko) | 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 | |
EP3686809A1 (en) | Method and device for transforming cnn layers to optimize cnn parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization | |
CN115941112B (zh) | 一种便携式隐蔽通信方法、计算机设备及存储介质 | |
KR102537207B1 (ko) | 머신 러닝에 기반한 이미지 처리 방법 및 장치 | |
CN116029887A (zh) | 一种基于小波神经网络的图像大容量鲁棒水印方法 | |
CN106028043A (zh) | 基于新的邻域函数的三维自组织映射图像编码方法 | |
US20200175353A1 (en) | Method for neural-network-lightening using repetition-reduction block and apparatus for the same | |
CN114266699A (zh) | 图像超分辨率方法、电子装置及芯片 | |
CN117372281A (zh) | 一种基于神经网络的图像降噪方法、设备及存储介质 | |
CN117223007A (zh) | 用于低内存残差学习的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6682595 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |