JP6720264B2 - イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 - Google Patents
イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 Download PDFInfo
- Publication number
- JP6720264B2 JP6720264B2 JP2018188342A JP2018188342A JP6720264B2 JP 6720264 B2 JP6720264 B2 JP 6720264B2 JP 2018188342 A JP2018188342 A JP 2018188342A JP 2018188342 A JP2018188342 A JP 2018188342A JP 6720264 B2 JP6720264 B2 JP 6720264B2
- Authority
- JP
- Japan
- Prior art keywords
- filter
- feature map
- learning
- filters
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 180
- 238000003709 image segmentation Methods 0.000 title claims description 37
- 238000012360 testing method Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 25
- 230000010339 dilation Effects 0.000 claims description 19
- 230000001965 increasing effect Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000010998 test method Methods 0.000 claims 4
- 208000001762 Gastric Dilatation Diseases 0.000 claims 1
- 238000003704 image resize Methods 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
ここで、W(3-1)は第1ロスレイヤ対応コンボリューションフィルタのフィルタ重み付け値であり、W(3-1)は第3−1フィルタのフィルタ重み付け値である。D_1を生成するのにどの数式を使用するかに関係なく、前記生成された第12パラメータ調整用特徴マップ(D_1)は第2−2フィルタに伝達される。
を生成する。そして、第2−Mフィルタは前記第M1臨時特徴マップ
に第Mロスを合せて第M2調整用特徴マップ(D_M)を生成する。そして、前記第M2調整用特徴マップ(D_M)は第2−(M+1)フィルタでバックプロパゲーションされる。
はコンボリューション演算であり、
は第M1臨時特徴マップであり、D_(M−1)、D_Mは各々第(M−1)2調整用特徴マップ及び第M2調整用特徴マップであり、WMは第2−Mフィルタのフィルタ重み付け値、即ちパラメータであり、E_Mは第Mロスである。
はコンボリューション演算であり、
は第M1臨時特徴マップであり、D_(M−1)、D_Mは各々第(M−1)2調整用特徴マップ及び第M2調整用特徴マップであり、WMは第2−Mフィルタのフィルタ重み付け値、即ちパラメータであり、E_Mは第Mロス、W(3-M)は第Mロスレイヤに対応するコンボリューションフィルタのフィルタ重み付け値、即ちパラメータである。
Claims (26)
- (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用してイメージのセグメンテーションの性能向上のための学習方法において、
(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセスを遂行する段階;及び
(b)前記学習装置は、バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(2)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数である−を遂行する段階を含むが、
前記(b)段階の初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを特徴とする学習方法。 - 前記第1ないし前記第Hロスレイヤは、
第3−1ないし第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする請求項1に記載の学習方法。 - 前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、前記第2、…、前記第H正解ラベルイメージのチャネルの数と同一になるようにし、前記第1ないし前記第H正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする請求項2に記載の学習方法。
- 原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように前記原本正解ラベルイメージのサイズを変更することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項3に記載の学習方法。
- 前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする請求項4に記載の学習方法。
- 前記原本正解ラベルイメージを前記H個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項4に記載の学習方法。
- tが1以上H以下の整数である場合、
前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないし第tロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
前記学習装置は、前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち第(t+1)ないし前記第Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
tがHと同一の整数である場合、
前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないし前記第Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする請求項4に記載の学習方法。 - 前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする請求項7に記載の学習方法。
- 前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、前記第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
前記学習装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項1に記載の学習方法。 - 第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記学習装置は、前記第1−1、前記第1−2、…、前記第1−K特徴マップ各々に前記第4−1、前記第4−2、…、前記第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、第4−K特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項9に記載の学習方法。 - 入力イメージとしてのテストイメージに対するセグメンテーションを遂行するテスト方法において、(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、前記(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;及び
(b)前記テスト装置は、前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行する段階
を含むテスト方法。 - 前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップのうち少なくとも一部が入力されるようにして、
前記テスト装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K学習用特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項11に記載のテスト方法。 - 第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記テスト装置は、前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、第4−K学習用特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K学習用特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行する
ことを特徴とする請求項12に記載のテスト方法。 - (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用するが、イメージのセグメンテーションの性能向上のための学習装置において、
前記入力イメージを受信する通信部;及び
(I)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセス;及び(II)バックプロパゲーション過程で(i)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(ii)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを第2−(M+1)フィルタに伝達するプロセス、(iii)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサを含むが、
前記Mは2以上K−1以下の整数であり、前記(II)プロセスの初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを遂行するプロセッサ;
を含む学習装置。 - 前記第1ないし前記第Hロスレイヤは、第3−1ないし第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする請求項14に記載の学習装置。
- 前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、前記第2、…、前記第H正解ラベルイメージのチャネルの数と同一になるようにし、
前記第1ないし前記第H正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする請求項15に記載の学習装置。 - 原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように前記原本正解ラベルイメージのサイズを変更することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項16に記載の学習装置。
- 前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする請求項17に記載の学習装置。
- 前記原本正解ラベルイメージを前記H個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項17に記載の学習装置。
- tが1以上H以下の整数である場合、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないし第tロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち第(t+1)ないし前記第Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
tがHと同一の整数である場合、
前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないし前記第Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする請求項17に記載の学習装置。 - 前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする請求項20に記載の学習装置。
- 前記プロセッサは、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、前記第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項14に記載の学習装置。 - 第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記プロセッサは、前記第1−1、前記第1−2、…、前記第1−K特徴マップ各々に前記第4−1、前記第4−2、…、前記第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、第4−K特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項22に記載の学習装置。 - 入力イメージとしてのテストイメージに対するセグメンテーションを遂行するテスト装置において、
(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、前記(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第1 2 学習用パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第1 2 学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、前記テストイメージを受信する通信部;及び
前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行するプロセッサ;
を含むテスト装置。 - 中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップのうち少なくとも一部が入力されるようにして、
少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K学習用特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項24に記載のテスト装置。 - 第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、第4−K学習用特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K学習用特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項25に記載のテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/723,597 | 2017-10-03 | ||
US15/723,597 US9947103B1 (en) | 2017-10-03 | 2017-10-03 | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019067403A JP2019067403A (ja) | 2019-04-25 |
JP6720264B2 true JP6720264B2 (ja) | 2020-07-08 |
Family
ID=61872655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018188342A Active JP6720264B2 (ja) | 2017-10-03 | 2018-10-03 | イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9947103B1 (ja) |
EP (1) | EP3467713B1 (ja) |
JP (1) | JP6720264B2 (ja) |
KR (1) | KR102144381B1 (ja) |
CN (1) | CN109598725B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10997450B2 (en) * | 2017-02-03 | 2021-05-04 | Siemens Aktiengesellschaft | Method and apparatus for detecting objects of interest in images |
CN108108738B (zh) * | 2017-11-28 | 2018-11-16 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置及终端 |
US10565476B1 (en) * | 2018-09-04 | 2020-02-18 | StradVision, Inc. | Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same |
US10303980B1 (en) * | 2018-09-05 | 2019-05-28 | StradVision, Inc. | Learning method, learning device for detecting obstacles and testing method, testing device using the same |
US10579924B1 (en) * | 2018-09-17 | 2020-03-03 | StradVision, Inc. | Learning method, learning device with multi-feeding layers and testing method, testing device using the same |
US10304009B1 (en) * | 2018-10-08 | 2019-05-28 | StradVision, Inc. | Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same |
US10311321B1 (en) * | 2018-10-26 | 2019-06-04 | StradVision, Inc. | Learning method, learning device using regression loss and testing method, testing device using the same |
US10373317B1 (en) * | 2019-01-22 | 2019-08-06 | StradVision, Inc. | Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same |
US10311578B1 (en) * | 2019-01-23 | 2019-06-04 | StradVision, Inc. | Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same |
US10872297B2 (en) * | 2019-01-30 | 2020-12-22 | StradVision, Inc. | Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same |
US10776673B2 (en) * | 2019-01-31 | 2020-09-15 | StradVision, Inc. | Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same |
US10373004B1 (en) * | 2019-01-31 | 2019-08-06 | StradVision, Inc. | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image |
US10762393B2 (en) * | 2019-01-31 | 2020-09-01 | StradVision, Inc. | Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same |
KR102361444B1 (ko) | 2020-03-06 | 2022-02-11 | 주식회사 테스트웍스 | 다각형 기반의 객체 인식 성능 보정 장치 및 방법 |
KR102345799B1 (ko) * | 2021-02-23 | 2021-12-31 | 인그래디언트 주식회사 | Cnn 기반의 자동 라벨 마스크 교정 방법 및 이를 이용한 시스템 |
CN114399440B (zh) * | 2022-01-13 | 2022-12-13 | 马上消费金融股份有限公司 | 图像处理方法、图像处理网络训练方法、装置及电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646055B2 (en) | 2014-04-03 | 2017-05-09 | Facebook, Inc. | Blending search results on online social networks |
CN104700099B (zh) * | 2015-03-31 | 2017-08-11 | 百度在线网络技术(北京)有限公司 | 识别交通标志的方法和装置 |
US9940539B2 (en) * | 2015-05-08 | 2018-04-10 | Samsung Electronics Co., Ltd. | Object recognition apparatus and method |
US10115032B2 (en) | 2015-11-04 | 2018-10-30 | Nec Corporation | Universal correspondence network |
EP3380859A4 (en) | 2015-11-29 | 2019-07-31 | Arterys Inc. | AUTOMATED SEGMENTATION OF CARDIAC VOLUME |
US10373073B2 (en) * | 2016-01-11 | 2019-08-06 | International Business Machines Corporation | Creating deep learning models using feature augmentation |
US9773196B2 (en) * | 2016-01-25 | 2017-09-26 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
US10726326B2 (en) * | 2016-02-24 | 2020-07-28 | International Business Machines Corporation | Learning of neural network |
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
CN107122809B (zh) * | 2017-04-24 | 2020-04-28 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
CN107169535B (zh) * | 2017-07-06 | 2023-11-03 | 谈宜勇 | 生物多光谱图像的深度学习分类方法及装置 |
-
2017
- 2017-10-03 US US15/723,597 patent/US9947103B1/en active Active
-
2018
- 2018-09-05 EP EP18192803.7A patent/EP3467713B1/en active Active
- 2018-09-29 CN CN201811147163.7A patent/CN109598725B/zh active Active
- 2018-10-02 KR KR1020180117308A patent/KR102144381B1/ko active IP Right Grant
- 2018-10-03 JP JP2018188342A patent/JP6720264B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP3467713A8 (en) | 2019-06-05 |
KR20190039383A (ko) | 2019-04-11 |
EP3467713B1 (en) | 2022-08-17 |
KR102144381B1 (ko) | 2020-08-13 |
US9947103B1 (en) | 2018-04-17 |
JP2019067403A (ja) | 2019-04-25 |
CN109598725B (zh) | 2023-05-05 |
EP3467713A1 (en) | 2019-04-10 |
CN109598725A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6720264B2 (ja) | イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 | |
JP6682595B2 (ja) | イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 | |
JP6679688B2 (ja) | Funを用いて特徴マップを生成するための方法及び装置 | |
CN109657688B (zh) | 用特征上采样网络提高cnn性能的学习方法和装置及用特征上采样网络的测试方法和装置 | |
US10282864B1 (en) | Method and device for encoding image and testing method and testing device using the same | |
US11837220B2 (en) | Apparatus and method for speech processing using a densely connected hybrid neural network | |
Jourabloo et al. | New algorithms for recovering highly corrupted images with impulse noise | |
JP6676721B2 (ja) | アクティベーション演算とコンボリューション演算を同時に遂行するための方法及び装置、そしてこのための学習方法及び学習装置 | |
KR102286755B1 (ko) | 자율 주행 상황에서 장애물 검출을 위한 학습용 이미지 데이터 세트의 생성 방법 및 이를 이용한 컴퓨팅 장치, 학습 방법 및 학습 장치 | |
CN111145123B (zh) | 基于U-Net融合保留细节的图像去噪方法 | |
US20180137413A1 (en) | Diverse activation functions for deep neural networks | |
KR20200138079A (ko) | 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치 | |
CN115731505A (zh) | 视频显著性区域检测方法、装置、电子设备及存储介质 | |
US20190258931A1 (en) | Artificial neural network | |
US11721323B2 (en) | Method and apparatus with speech processing | |
Xiao et al. | Diffusion models for multidimensional seismic noise attenuation and superresolution | |
CN118587542A (zh) | 一种多模态毫米波信息聚合方法和装置 | |
JPWO2020044567A1 (ja) | データ処理システムおよびデータ処理方法 | |
CN113744754A (zh) | 语音信号的增强处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6720264 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |