JP2019067403A - イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 - Google Patents

イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 Download PDF

Info

Publication number
JP2019067403A
JP2019067403A JP2018188342A JP2018188342A JP2019067403A JP 2019067403 A JP2019067403 A JP 2019067403A JP 2018188342 A JP2018188342 A JP 2018188342A JP 2018188342 A JP2018188342 A JP 2018188342A JP 2019067403 A JP2019067403 A JP 2019067403A
Authority
JP
Japan
Prior art keywords
feature map
filter
learning
filters
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018188342A
Other languages
English (en)
Other versions
JP6720264B2 (ja
Inventor
キム、ヨンジョン
Yongjoong Kim
ナム、ウンユン
Woonhyun Nam
ボ、シュクフン
Sukhoon Boo
シュン、ミュンチュル
Myungchul Sung
エオ、ドンフン
Donghun Yeo
リュウ、ウージュ
Wooju Ryu
ジャン、タエウォン
Taewoong Jang
ジョン、キュンジョン
Kyungjoong Jeong
ジェ、ホンモ
Hong Mo Je
チョ、ホジン
Hojin Cho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2019067403A publication Critical patent/JP2019067403A/ja
Application granted granted Critical
Publication of JP6720264B2 publication Critical patent/JP6720264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】イメージセグメンテーションのための学習過程でロスがバックプロパゲーション過程で小さくならないようにするための学習環境を提供する。【解決手段】第2−Kないし第2−1フィルタは第1−1フィルタないし第1−Kフィルタのコンボリューション演算方向の反対方向に入力されたイメージに対してデコンボリューションを遂行して順次特徴マップのサイズを大きくしながらチャネルを減らすようにして、特徴チャネルを減らしていく演算をする。デコーディングレイヤはエンコーディングレイヤで求めたイメージのエッジを維持しながら残りは潰す機能を遂行して最終的にラベルイメージを生成する。【選択図】図2A

Description

本発明はイメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置に関する。より詳細には、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用してイメージのセグメンテーションの性能向上のための学習方法において、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセスを遂行する段階;及び(b)前記学習装置は、バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(2)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数である−を遂行する段階を含むが、前記(b)段階の初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを特徴とする段階;を含む学習方法及びこれを利用した学習装置、イメージセグメンテーション方法及びイメージセグメンテーション装置に関する。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;Deep CNNs)はディープラーニング分野で起きた驚くべき発展の核心である。CNNsは文字認識問題を解くために90年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはMachine Learning分野で非常に有用なツールとなった。
一方、イメージセグメンテーションは入力でイメージ(トレーニングイメージorテストイメージ)を受け、出力でラベル(label)イメージを作り出す方法である。最近ディープラーニング(Deep learning)技術が脚光を浴びながら、セグメンテーションもディープラーニングを多く使用する趨勢である。
図1は従来技術にかかるCNNを用いてイメージセグメンテーションのための学習過程を概略的に示す図面である。
図1を参照すれば、トレーニングイメージなどの入力イメージが入力されると複数個のコンボリューションフィルタで複数回のコンボリューション演算を遂行して特徴マップを獲得する。そうして最終的に生成された特徴マップを再び複数個のデコンボリューションフィルタで複数回のデコンボリューション演算を遂行してラベルイメージを獲得する。このようにコンボリューション演算で入力イメージをエンコーディングして特徴マップを獲得し、特徴マップをデコーディングして再びラベルイメージを獲得する構造をエンコーディング−デコーディングネットワーク、またはU−Netと言う。エンコーディング過程で各コンボリューション演算を遂行するたびに入力イメージのサイズが1/2に減るようになるが、これはイメージサイズを減らして演算量を減らそうとするためである。また、エンコーディング過程でコンボリューションフィルタを通じて入力されたイメージのチャネル数は増加するが、これは減った演算量の利得を活用しながらも増えたチャネルを通じて複雑なパターンを得るためである。一般的に、エンコーディング過程で各々のコンボリューションフィルタを経るたびにイメージサイズは1/2に減り、チャネル数は2倍に増える。このように減った特徴マップは高周波領域が多く除去されて低周波領域寄りの情報を有するようになるが、かかる低周波領域はイメージの意味のある(meaningful)部分、即ち、空、道路、建物、自動車など詳細な部分を意味する。かかる意味のあるパートをデコンボリューション演算、即ち、デコーディング演算を通じてラベルイメージとして類推するようになる。
一方、Deep learningを採択したCNNの学習する過程で、トレーニングイメージから算出されたラベルイメージとGround Truthイメージ(またはGround Truth label image)との差であるロスを計算し、ラベルイメージを求める過程と反対方向に伝搬するバックプロパゲーション過程を通じて前記計算されたロスを後ろに伝搬して学習をするようになる。しかし、かかる演算はロスが後ろに伝搬するほどロスが小さくなり、U−Netで各フィルタのパラメータを調整するには小さすぎるという問題点がある。
従って、かかる問題を解決するためにU−netの最終段階で求めたロスがバックプロパゲーション過程で後ろに伝搬されても正確なロスを反映可能にするための新しい技術が要されるようになった。
本発明はイメージセグメンテーションのための学習過程でロスがバックプロパゲーション過程で小さくならないようにするための学習環境を提供することを目的とする。
また、本発明はバックプロパゲーション過程で正確なロスを反映して最適のパラメータを見つけることができる学習環境を提供することを目的とする。
また、本発明は最適のパラメータを見つけて正確なイメージセグメンテーションを遂行することができる方法を提供することを目的とする。
本発明の一実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用してイメージのセグメンテーションの性能向上のための学習方法は、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセスを遂行する段階;及び(b)前記学習装置は、バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(2)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数である−を遂行する段階を含むが、前記(b)段階の初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを特徴とする学習方法が提供される。
前記一実施例によれば、前記第1ないし前記第Hロスレイヤは第3−1ないし第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、第2、…、前記Hの正解ラベルイメージのチャネルの数と同一になるようにし、前記1ないしH正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする学習方法が提供される。
また、前記一実施例によれば、原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように原本正解ラベルイメージのサイズを変更することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記原本正解ラベルイメージをH個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習方法が提供される。
また、前記一実施例によれば、tが1以上H以下の整数である場合、前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、前記学習装置は、前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、tがHと同一の整数である場合、前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち第1ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、前記学習装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにする学習方法が提供される。
また、前記一実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記学習装置は、前記第1−1、第1−2、…、前記第1−K特徴マップ各々に第4−1、第4−2、…、第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする学習方法が提供される。
本発明の他の実施例によれば、入力イメージとしてのテストイメージに対するセグメンテーション方法は、(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;及び(b)前記テスト装置は、前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行する段階を含むセグメンテーション方法が提供される。
前記他の実施例によれば、前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、前記テスト装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする学習方法が提供される。
また、前記他の実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記テスト装置は、前記第1−1、第1−2、…、前記第1−K特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする学習方法が提供される。
本発明のまた他の実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用するが、イメージのセグメンテーションの性能向上のための学習装置において、前記入力イメージを受信する通信部;及び(I)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(II)バックプロパゲーション過程で(i)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(ii)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(iii)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサを含むが、前記Mは2以上K−1以下の整数であり、前記(II)プロセスの初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを遂行するプロセッサ;を含む学習装置が提供される。
前記また他の実施例によれば、前記第1ないし前記第Hロスレイヤは、第3−1ないし前記第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、第2、…、前記H正解ラベルイメージのチャネルの数と同一になるようにし、前記1ないしH正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように原本正解ラベルイメージのサイズを変更することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記原本正解ラベルイメージをH個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、tが1以上H以下の整数である場合、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、tがHと同一の整数である場合、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち第1ないし前記Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記プロセッサは、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記プロセッサは、前記第1−1、第1−2、…、前記第1−K特徴マップ各々に第4−1、第4−2、…、第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする学習装置が提供される。
本発明のまた他の実施例によれば、入力イメージとしてのテストイメージに対するセグメンテーションを遂行するセグメンテーション装置は、(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、前記テストイメージを受信する通信部;及び前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行するプロセッサ;を含むテスト装置が提供される。
前記また他の実施例によれば、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とするテスト装置が提供される。
また、前記また他の実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記第1−1、第1−2、…、前記第1−K特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とするテスト装置が提供される。
本発明によれば、デコーディングレイヤの各フィルタ毎にロスを計算する別途のレイヤを連結して各フィルタでのロスを補正することができる効果がある。
また本発明によれば、ロスがバックプロパゲーション過程で後ろに伝達されてもロスのサイズが小さくならないため、正確なロスを反映することができる効果がある。
また本発明によれば、正確なロスを反映して最適のパラメータを見つけることができる学習環境を提供することができる効果がある。
また本発明によれば、最適のパラメータを通じて正確なイメージセグメンテーションを遂行し得るイメージテスト環境を提供することができる。
図1は、従来技術にかかるCNNを使用してイメージセグメンテーションを遂行する学習過程を概略的に示す図面である。 図2Aは、本発明の一実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。 図2Bは、本発明の一実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。 図3は、本発明の一実施例にかかる第1ロスを獲得する過程を示す図面である。 図4は、本発明の一実施例にかかる調整用特徴マップを獲得する過程を示す図面である。 図5は、正解ラベルイメージのチャネル数を調整して正解ラベルイメージのサイズを変更する方法を示す参考図である。 図6Aは、本発明の他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。 図6Bは、本発明の他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。 図7Aは、本発明のまた他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。 図7Bは、本発明のまた他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
図2A及び図2Bは本発明の一実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
本発明にかかるCNNモデルを利用したイメージセグメンテーションのための学習装置(未図示)は通信部(未図示)とプロセッサ(未図示)が含まれ得る。具体的に、通信部は入力イメージとしてトレーニングイメージを受信し得て、プロセッサは入力イメージから特徴ベクタを抽出し、これを再びデコーディングしてラベルイメージを獲得するイメージセグメンテーションプロセス及びロスを利用してバックプロパゲーション過程を遂行することでパラメータを最適化するプロセスを遂行し得る。
また、本発明にかかる学習装置はK個フィルタ(第1−1フィルタないし第1−Kフィルタ)を含むエンコーディングレイヤとこれに対応されるK個のフィルタ(第2−1ないし第2−Kフィルタ)を含むデコーディングレイヤ、そしてデコーディングレイヤの第2−1フィルタないし第2−Kフィルタと連動する第1ないし第Kロスレイヤを含む。
図2A及び図2Bを参照すれば、本発明にかかるロスレイヤを利用したイメージセグメンテーション学習方法は、学習装置の通信部が入力イメージとしてトレーニングイメージを入力されてエンコーディングレイヤの第1−1フィルタに入力してから始まる。前記エンコーディングレイヤの第1−1ないし第1−Kフィルタは入力されたイメージの特徴マップ(エンコーディングされた特徴マップ)を求めるためにコンボリューション演算を遂行する。
前記第1−1ないし第1−Kフィルタは各フィルタのカーネルを入力イメージまたは特徴マップ上でスライドして通過させながら各位置毎のカーネルの元素とオーバーラップされる入力元素を掛け、かかる積を合せて現在位置の出力値で生成するコンボリューション演算を遂行し、ダウンサイズされた特徴マップを生成する。
具体的に、図2A及び図2Bで第1−1フィルタは入力イメージを入力されてコンボリューション演算して第1−1特徴マップを生成して出力し、第1−2フィルタは前記第1−1特徴マップを入力されてコンボリューション演算して第1−2特徴マップを生成し、第1−3フィルタは前記第1−2特徴マップを入力されてコンボリューション演算して第1−3特徴マップを生成し、…、第1−(K−2)フィルタは第1−(K−3)特徴マップを入力されてコンボリューション演算して第1−(K−2)特徴マップを生成し、第1−(K−1)フィルタは前記第1−(K−2)特徴マップを入力されてコンボリューション演算して第1−(K−1)特徴マップを生成し、第1−Kフィルタは前記第1−(K−1)特徴マップを入力されてコンボリューション演算して第1−K特徴マップを生成する。
この時、第1−1ないし1−Kフィルタでコンボリューション演算を遂行するたびに入力イメージのサイズは1/2に減る。これはイメージサイズを減らして演算量を減らすためである。一方、コンボリューション演算を通じて特徴マップのチャネル数は増加されるところ、例えば第1−2ないし1−Kフィルタでは入力される特徴マップのチャネルを2倍増加させて出力し得る。
例えば、第1−1特徴マップがサイズが320×240であり、チャネル数が8なら、(i)第1−2特徴マップはサイズが160×120、チャネル数は16、(ii)第1−3特徴マップはサイズが80×60、チャネル数は32であり得る。
以後、再び図2A及び図2Bを参照すれば、第1−K特徴マップ(即ち、特徴ベクタ)はデコーディングレイヤに入力されてラベルイメージを生成するのに利用される。前記デコーディングレイヤの第2−Kないし第2−1フィルタはラベルイメージを求めるためにデコンボリューション演算を遂行する。
前記第2−Kないし第2−1フィルタは前記第1−1フィルタないし前記第1−Kフィルタのコンボリューション演算方向の反対方向に入力されたイメージに対してデコンボリューションを遂行して順次特徴マップのサイズを大きくしながらチャネルを減らすようにして、特徴チャネルを減らしていく演算をする。デコーディングレイヤはエンコーディングレイヤで求めたイメージのエッジを維持しながら残りは潰す機能を遂行して最終的にラベルイメージを生成する。
図2A及び図2Bで、第2−Kフィルタは第1−K特徴マップを入力されてデコンボリューション演算して第2−K特徴マップを生成して出力し、第2−(K−1)フィルタは前記第2−K特徴マップを入力されてデコンボリューション演算して第2−(K−1)特徴マップを生成して出力し、第2−(K−2)フィルタは前記第2−(K−1)特徴マップを入力されてデコンボリューション演算して第2−(K−2)特徴マップを生成して出力し、…、第2−3フィルタは第2−4特徴マップを入力されてデコンボリューション演算して第2−3特徴マップを生成して出力し、第2−2フィルタは前記第2−3特徴マップを入力されてデコンボリューション演算して第2−2特徴マップを生成して出力し、第2−1フィルタは前記第2−2特徴マップを入力されてデコンボリューション演算して第2−1特徴マップを生成して出力する。
この時、第2−1ないし第2−Kフィルタでデコンボリューション演算を遂行するたびに特徴マップのサイズは2倍増加させながら、チャネルは1/2に減少させて特徴マップを生成する。
例えば、第2−K特徴マップのサイズが20×15、そのチャネル数が128なら、第2−(K−1)特徴マップはサイズが40×30であり、チャネル数は64であり、第2−(K−2)特徴マップはサイズが80×60、チャネル数は32、第2−(K−3)特徴マップはサイズが160×120、チャネル数は16であり得る。
これによって、第1−(K−1)特徴マップと第2−K特徴マップのサイズとチャネル数は同一であり、(第1−K特徴マップは、第1−(K−1)特徴マップ及び第2−K特徴マップと比較してサイズは1/2、チャネルは2倍である)、第1−(K−2)特徴マップと第2−(K−1)特徴マップのサイズとチャネル数は同一であり、第1−(K−3)特徴マップと第2−(K−2)特徴マップのサイズとチャネル数は同一であり、…、第1−2特徴マップと第2−3特徴マップのサイズとチャネル数は同一であり、第1−1特徴マップと第2−2特徴マップのサイズとチャネル数は同一であり、入力イメージ(即ちトレーニングイメージ)と第2−1特徴マップ(またはラベルイメージ)のサイズは同一である。
そして、再び図2A及び図2Bを参照すれば、デコーディングレイヤの第2−1ないし2−Kフィルタは対応される第1ないし第Kロスレイヤと連動する。前記第1ないし第KロスレイヤはGTラベルイメージとデコーディングレイヤで生成した第2−1ないし2−K特徴マップとを参照してロス(即ち、第1ロスないし第Kロス)を計算して対応する第2−1フィルタないし第2−Kフィルタに伝達する。一方、前記第1ないし第Kロスレイヤと前記第2−1フィルタないし第2−Kフィルタとの間にはチャネル変換のための1×1サイズのコンボリューションフィルタである第3−1ないし第3−Kフィルタ(未図示)が含まれ得る。
第2−1フィルタないし第2−Kフィルタは、バックプロパゲーション過程で、第1ないし第Kロスレイヤで計算したロス値を利用して、臨時特徴マップを生成してロスイメージから調整用特徴マップを生成する。勿論、バックプロパゲーション過程中にU−Netを遡って複数の臨時特徴マップと複数の調整用特徴マップを生成することになり、これについては後で詳細に説明する。
前記学習装置は、前記バックプロパゲーションを通じて第1−1ないし第1−Kフィルタ及び第2−Kないし第2−1フィルタのパラメータのうち少なくとも一つ以上のパラメータを調整して前記第1ロス値を最小化するようにする。即ち、かかるバックプロパゲーション過程を通じて最適のパラメータ値を算出することができるようになる。
一方、図2A及び図2Bで、第1−Kフィルタを通じて形成された第1−K特徴マップは入力イメージ内で意味のあるセグメントユニットを示す意味情報を含むため、最も重要な特徴マップである。また、第1−K特徴マップはすべての特徴マップのうち最も小さいサイズの特徴マップである。従って、第1−K特徴マップはデコーディングレイヤを通じて獲得されるラベルイメージを推定するのに重要な影響を与える。万一、第1−K特徴マップに含まれた意味情報が正確でなく、意味のある基本単位を誤って表示すると、デコーディングを経たラベルイメージ推定に大きな影響を与えるようになる。
従来の技術によれば、U−Netの最終フィルタである第2−1フィルタにのみ連結してロスを後ろに伝搬するバックプロパゲーション過程を遂行すれば、ロスが最も小さい特徴ベクタまできた時に前記ロスのサイズが小さくなりすぎて正確なロスを反映し難い場合がある。
従って、本発明ではデコーディングレイヤの各フィルタ毎にロスレイヤを連結して各々の特徴マップに対するロスを計算して、パラメータを調整するのに使用される臨時特徴マップ及び調整された特徴マップを生成する。かかる方法を使用すればバックプロパゲーション過程時、最も小さい特徴ベクタまできた時にロスのサイズが小さくなりすぎる現象を防止することができる。
また、図2A及び図2Bで、各ロスレイヤは各々のロス値を計算する。デコーディングレイヤにある各フィルタは伝達された前のフィルタから得た各々の調整用特徴マップをコンボリューション演算した後、各々の臨時特徴マップを生成し得る。そして、デコーディングレイヤにある各フィルタは各々のロスレイヤ及び各々の臨時特徴マップを利用して各々の調整された特徴マップを新しく出力し、これをこれに対応する各々の次のフィルタに伝達し得る。
図3は本発明の一実施例による第1ロスを獲得する過程を示す図面である。
参考までに、前記第2−1特徴マップは推定ラベルイメージの場合もあり、前記第2−1特徴マップに所定の演算(未図示)を適用して推定ラベルイメージを生成する場合もある。但し、図面では前記第2−1特徴マップが推定ラベルイメージと想定して、前記第2−1特徴マップが第1ロスレイヤに伝達されるものとして示し、前記第1ロスレイヤは前記第2−1特徴マップと正解ラベルイメージ(GTラベルイメージ)の差を参照して第1ロスを生成する。
前記正解ラベルイメージと推定ラベルイメージの差からロスを計算する関数は多様に存在するが、一般的に下の数式のようなEuclidian loss layerを通じて2個の入力から入力の差の二乗を合算して計算する。
Figure 2019067403
このように計算された第1ロス(E_1)は前記第2−1フィルタに伝達され、第2−1フィルタは第1ロス(E_1)にコンボリューション演算を遂行して第12パラメータ調整用特徴マップ(D_1)を生成する。
前記第12パラメータ調整用特徴マップ(D_1)を求める数式は下記のとおりである。
Figure 2019067403

ここで、
Figure 2019067403

はコンボリューション演算であり、D_1は第12パラメータ調整用特徴マップであり、E_1は第1ロス、W(2-1)は第2−1フィルタのフィルタ重み付け値である。
もし第12パラメータ調整用特徴マップ(D_1)を求める時に第2−1フィルタと第1ロスレイヤの間に第1ロスレイヤ対応コンボリューションフィルタの重み付け値まで含んで演算する場合には、下の数式で表現され得る。
Figure 2019067403

ここで、W(3-1)は第1ロスレイヤ対応コンボリューションフィルタのフィルタ重み付け値であり、W(3-1)は第3−1フィルタのフィルタ重み付け値である。D_1を生成するのにどの数式を使用するかに関係なく、前記生成された第12パラメータ調整用特徴マップ(D_1)は第2−2フィルタに伝達される。
ここで、プロセスの初期状態として、第12臨時特徴マップの非存在(存在しない)は、前のいずれのフィルタも調整された特徴マップを第2−1フィルタに伝達することができないという事実によって説明され得る。従って、前記第2−1フィルタは第1ロスレイヤで1次ロスのみを受信して、1次ロスにコンボリューション演算を適用して第12調整された特徴マップを獲得し得る。
図4は本発明の一実施例による調整用特徴マップを獲得する過程を示す図面である。
図4を参照すれば、バックプロパゲーション過程で第2−Mフィルタは第2−(M−1)フィルタから第(M−1)2パラメータ調整用特徴マップを伝達され得る。そして、MロスレイヤはGTラベルイメージと第2−M特徴マップの差を識別することで、第Mロスを計算する。前記計算された第Mロスは2−Mフィルタに伝達され得る。
かかるロス計算は上述したようにEuclidian loss layerを利用して2個の入力から入力の差の二乗を合算して計算する場合もあり、多様な公知の計算法を利用する場合もある。そして、このように求めた第Mロスは再び第2−Mフィルタに伝達される。そして、この場合に前記ロスレイヤに対応されるコンボリューションフィルタのフィルタ重み付け値で前記ロスをコンボリューション演算して前記2−Mフィルタに伝達する場合もある。
バックプロパゲーション過程で、第2−Mフィルタは第2−(M−1)フィルタから受信した第(M−1)2調整用特徴マップ(D_(M−1))に第2−Mフィルタのフィルタ重み付け値、即ちパラメータを利用してコンボリューション演算を遂行し、第M臨時特徴マップ
Figure 2019067403

を生成する。そして、第2−Mフィルタは前記第M1臨時特徴マップ
Figure 2019067403

に第Mロスを合せて第M2調整用特徴マップ(D_M)を生成する。そして、前記第M2調整用特徴マップ(D_M)は第2−(M+1)フィルタでバックプロパゲーションされる。
このように第2−Mフィルタで第M2調整用特徴マップ(D_M)を求める演算過程は下記の数式で表現され得る。
Figure 2019067403
この時、
Figure 2019067403

はコンボリューション演算であり、
Figure 2019067403

は第M1臨時特徴マップであり、D_(M−1)、D_Mは各々第(M−1)2調整用特徴マップ及び第M2調整用特徴マップであり、WMは第2−Mフィルタのフィルタ重み付け値、即ちパラメータであり、E_Mは第Mロスである。
一方、E_M値が第Mロスレイヤに対応されるコンボリューションフィルタのフィルタ重み付け値でコンボリューション演算した後、第2−Mフィルタに伝達される場合、前記第2−Mフィルタで第M2調整用特徴マップ(D_M)を求める演算過程は下記の数式で表現され得る。
Figure 2019067403
この時、
Figure 2019067403

はコンボリューション演算であり、
Figure 2019067403

は第M1臨時特徴マップであり、D_(M−1)、D_Mは各々第(M−1)2調整用特徴マップ及び第M2調整用特徴マップであり、WMは第2−Mフィルタのフィルタ重み付け値、即ちパラメータであり、E_Mは第Mロス、W(3-M)は第Mロスレイヤに対応するコンボリューションフィルタのフィルタ重み付け値、即ちパラメータである。
具体的に、第2−M特徴マップから獲得した推定ラベルイメージ及び原本正解ラベルイメージとの間のロスを第Mロスレイヤで計算する時、原本正解ラベルイメージと第2−M特徴マップから獲得した推定ラベルイメージの間のチャネルの数及びサイズの差によってロスが直接計算されない場合がある。
従って、第1ないし第Kロスレイヤは第2−1ないし第2−K特徴マップにコンボリューション演算を遂行してGTラベルイメージのチャネル数と同一の数に変更するための前記第1ないし前記第Kロスレイヤに対応するコンボリューションフィルタである第3−1ないし第3−Kフィルタ(未図示)が含まれ得る。また、第3−1ないし第3−Kフィルタは第2−1ないし第2−K特徴マップ各々のチャネルの数を調整して、第2−1ないし第2−K特徴マップ各々対してコンボリューション演算して原本正解ラベルイメージと同一のチャネル数に変換し得る。
また、前記第1ないし第Kロスレイヤの第3−1ないし第3−Kフィルタは原本正解ラベルイメージのチャネル数を変更して第2−1ないし第2−K特徴マップ各々のチャネル数とマッチされるように変更する場合もある。この時、第3−1ないし第3−Kフィルタはフィルタのサイズが1×1であり、第2−1ないし第2−K特徴マップのチャネル数または原本正解ラベルイメージのチャネル数を変更し得るが、これに限定されるものではない。
参考までに、デコーディングレイヤに含まれたフィルタ各々と相互作用するロスレイヤはロスを各々計算するため、原本正解ラベルイメージは特徴マップ各々のサイズに対応するように各々のサイズを減らさなければならない。即ち、各デコーディングレイヤのフィルタにロスレイヤがついている場合、第2−M特徴マップのサイズは第2−(M−1)特徴マップサイズから1/2に減るため、第2−Mロスレイヤで演算される原本正解ラベルイメージのサイズは第2−(M−1)ロスレイヤで演算されるGTラベルイメージのサイズから1/2に減らして演算しなければならない。
図5は正解ラベルイメージのチャネル数を調整して正解ラベルイメージのサイズを変更する方法を示した参考図である。
GTラベルイメージのサイズを減らす方法は、チャネル数をそのままにしてリサイズを通じてサイズを減らせる方法がある。しかし、GTラベルイメージの場合、物体と背景のピクセル値がすべて整数値からなっているため、GTラベルイメージをリサイズする場合にはnearest方法を使用するようになる。
しかし、かかるnearest方法を用いてGTラベルイメージを減らす過程では誤差が発生するようになる。かかる誤差は特徴マップのサイズが大きい上位フィルタにいくほど大きくなり、特徴マップのサイズが小さい下位フィルタにいくほど小さくなる。
かかる問題を解決するため、本発明では図5に示された例のとおり、第Mロスレイヤは原本正解ラベルイメージのチャネル数を変更することで原本正解ラベルイメージのサイズを第2−M特徴マップのサイズに合わせる方法を使用する。かかる方法は特徴マップのサイズが大きい上位フィルタと連動されるロスレイヤに適用され得るが、これに限定されるものではない。
図5の例で、第2−M特徴マップのサイズが320×240であり、原本正解ラベルイメージのサイズが640×480と仮定すれば、320×240サイズの第2−M特徴マップから640×480サイズの原本正解ラベルイメージを直ちに引くことができない。従って、第Mロスレイヤは1×1サイズのコンボリューション演算を通じて原本正解ラベルイメージのチャネルを4倍に拡張する。これによって640×480サイズの原本正解ラベルイメージはチャネルが4倍になった320×240サイズのラベルイメージに変更され得る。即ち、サイズが640×480であるイメージのピクセルをチャネルにシフトして特徴マップのサイズを減らし、その結果、サイズは4ch×320×240に変わるようになる。
即ち、第Mロスレイヤは640×480サイズ及びa個チャネルを有する原本正解ラベルイメージを320×240サイズ及び4×aチャネル数の原本正解ラベルイメージに変更する。そして、1×1サイズの第3−Mフィルタを通じて320×240サイズ及びb個チャネルを有する第2−M特徴マップを320×240サイズ及び4×a個チャネルを有する特徴マップに変更する。そして、第Mロスレイヤは同一の320×240サイズ及び4×a個チャネルを有する原本正解ラベルイメージと特徴マップの間でロスを計算する。これによって原本正解ラベルイメージのイメージを減らす時に発生するロスを防止することができるようになる。
図6A及び図6Bは本発明の他の実施例による多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
各特徴マップのチャネルの数は各特徴マップのサイズが減少することによって増加する。従って、デコーディングレイヤの下位レイヤにあるフィルタ、即ち、特徴マップのサイズが小さい下位レイヤ(または下位フィルタ)にいくほどチャネル数がさらに増えるようになる。万一、図5に示された1×1サイズフィルタのコンボリューション演算を通じて原本正解ラベルイメージのチャネルを増やす方法をすべてのレイヤに適用するようになれば、1×1サイズフィルタのコンボリューションで多くの数のチャネルを生成しなければならないため、コンボリューションフィルタのcapacityを超えてむしろロスが増える可能性もあるという問題がある。即ち、多くの3×3サイズのフィルタまたは多くの5×5サイズのフィルタを使用すれば学習を通じて処理し得る能力が大きくなり得るが、1×1サイズのコンボリューションフィルタはサイズが1であるため、学習を通じて処理し得る能力が小さい。従って、該フィルタが処理すべき演算量が増えるようになれば、むしろ性能が低下するようになる現象が発生し得る。かかる現象を防止するために、図6A及び図6Bの実施例のように、特徴マップのサイズが小さくてチャネルが多い下位レイヤでは1×1コンボリューション演算を通じてチャネルを変更する方法の代わりに、原本正解ラベルイメージをリサイズする方法を使用する場合もある。
従って、第1ないし第Kロスレイヤのうち特徴マップのサイズが大きい上位レイヤであるT個のロスレイヤ、即ち、第1ないし第Tロスレイヤでは原本正解ラベルイメージのチャネル数変更を通じてイメージのサイズを減らし、特徴マップのサイズが小さい下位レイヤである残りのK−T個のロスレイヤ、即ち、第T+1ないし第Kロスレイヤでは原本正解ラベルイメージをリサイズしてイメージサイズを減らす。即ち、下位レイヤでは原本正解ラベルイメージのチャネル数を維持してnearest neighborhood方法(即ち、nearest方法)などで原本正解ラベルイメージのサイズをリサイズし、第2−(T+1)ないし第2−K特徴マップのチャネル数を1×1コンボリューションを利用して原本正解ラベルイメージのチャネル数と同一に減らし、特徴マップと原本正解ラベルイメージのサイズとチャネル数を同じくしてロスを求める。そして、上位レイヤでは原本正解ラベルイメージのチャネル数を増やしてイメージサイズを減らす方法を使用して、特徴マップと原本正解ラベルイメージのサイズを同じくし、第2−1ないし第2−T特徴マップのチャネル数を1×1コンボリューションを利用して変更された原本正解ラベルイメージのチャネル数と同一に変更した後、ロスを求める。しかし、必ずしも下位レイヤと上位レイヤでのロスを求める方法が差別化される必要はない。
このように上位レイヤ領域と下位レイヤ領域での原本正解ラベルイメージ変更方法を異にすれば、すべてのロスレイヤで同一の変更方法を使用するものと比較してロスを大きく減らすことができる。
再び図6A及び図6Bを参照すれば、本発明にかかる学習装置は、第4−1ないし第4−Kフィルタ、即ち、中間フィルタを有する中間レイヤがさらに含まれ得る。前記中間フィルタは第1−1ないし第1−K特徴マップ情報を利用して、第4−1ないし第4−K特徴マップを生成し得る。各々の第4−1ないし第4−Kフィルタは前記第1−1ないし第1−K特徴マップ各々にダイレーションコンボリューションを適用して前記第4−1ないし第4−K特徴マップを生成し、生成された前記第4−1ないし第4−K特徴マップを各々前記第2−1ないし第2−Kフィルタに伝達する。そうすると前記第2−1ないし第2−Kフィルタは伝達された前記第4−1ないし第4−K特徴マップを参照して前記第2−1ないし第2−K特徴マップを生成する。
中間フィルタ、即ち、前記第4−1ないし第4−Kフィルタはreceptive fieldを増加させたダイレーションコンボリューション演算を通じて前記第1−1ないし第1−K特徴マップ各々でエッジ情報を強調して抽出する機能をする。これによって前記第2−1ないし第2−Kフィルタはエンコーダーレイヤ特徴マップに含まれたエッジ情報を強化させた情報を使用することができ、特徴マップをデコーディングする時にさらに多くの情報を伝搬することができるようになる。
また、本発明にかかる学習装置は、第4−1ないし第4−K特徴マップの少なくとも一部を使用して、第2−1ないし第2−Kフィルタにとって特徴マップを生成するようにできる。即ち、前記第4−1ないし第4−K特徴マップに対応する第1−1ないし1−K特徴マップにダイレーションコンボリューションを選択的に適用し得る。
ここで、中間フィルタはダイレーションコンボリューション演算を遂行するが、これに限定されるものではない。例えば、中間フィルタの少なくとも一部は場合によってコンボリューション演算を遂行し得る。一方、中間フィルタによって生成された特徴マップはデコーディングレイヤに含まれたフィルタによって直接的または間接的に参照され得る。
図7A及び図7Bは本発明のまた他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行することができるCNNを含む学習装置の学習過程を示す図面である。
図7A及び図7Bに示された学習過程では図2A及び図2Bに示された学習過程と同一の過程を経るが、ロスレイヤがすべてのデコーディングレイヤのフィルタと連動されず、その一部のフィルタとのみ連動される実施例にかかる学習過程を示す。即ち、ロスレイヤはデコーディングレイヤに含まれたフィルタの一部と関連し得る。
図7A及び図7Bを参照すれば、デコーディングレイヤの第2−1ないし2−Kフィルタのうち一部であるH個のフィルタ(以下、第2−1ないし2−Hフィルタとする)と連動する第1ないし第Hロスレイヤを含む。この時、第2−1ないし2−Hフィルタはデコーディングレイヤの上位レイヤのフィルタから下位レイヤまで順に指称したもので、全体K個のフィルタを上位レイヤのフィルタから順に指称した前記第2−1ないし前記第2−Kフィルタと比較して、同一の参照符号は同一の部分を指称しない場合もある。例えば、H個のフィルタのうち第2−2フィルタはK個のフィルタのうち第2−2フィルタと異なり得る。参考までに、Hは0よりも大きく、Kよりも小さい自然数である。前記H個のフィルタは図7A及び図7Bで括弧の中に示した。
図7A及び図7Bでは学習装置がデコーディングレイヤに含まれた第2−1ないし第2−Hフィルタと各々連動する第1ないし第Hロスレイヤが含まれ得る。また、学習装置は、デコーディングレイヤのH個フィルタから獲得されたH個の特徴マップ各々に対応される第H個のロスを各々前記第1ないし第Hロスレイヤから獲得するプロセスを遂行する。
すべてのデコーディングレイヤのフィルタにロスレイヤが連結されず、一部にのみロスレイヤが連結される場合には、ロスレイヤの数が減ってロス値を求める演算量が減りながらも、バックプロパゲーション過程で中間の特徴マップに対するロスを参照してパラメータ調整用特徴マップを形成することができ、学習効率を維持することができる効果がある。
特に、(i)第2−Kフィルタは最も重要な情報を含む第1−K特徴マップと連動され、(ii)ラベルイメージを生成し得る第2−1フィルタはロスレイヤが連動されることが好ましい。
従って、本発明にかかるマルチロスレイヤを利用すれば、特徴ベクタに縦縞やノイズが相当減少し、最終段階のデコーディングレイヤフィルタにのみロスレイヤがついたものと比較してイメージセグメンテーション性能が向上するようになる。
図2A及び図2Bないし図7A及び7Bは本発明にかかる学習装置及びこれを利用した学習過程を説明した。参考までに、学習装置はバックプロパゲーション過程を遂行することで、最適のパラメータ値を求めることができるが、イメージセグメンテーションを遂行するテスト装置はかかるプロセスを実行しないことは当然である。
ここで、イメージセグメンテーションを遂行するためのテスト装置(未図示)の構成及び機能について簡略に説明する。前記テスト装置は上で言及した学習プロセスを通じて発見された媒介変数を使用し、テストイメージでイメージセグメンテーションを遂行する。前記テスト装置は前で言及した学習装置と同一の装置でもよく、他の装置でもよい。
入力イメージとしてのテストイメージに対するイメージセグメンテーションを遂行するための前記テスト装置は、通信部(未図示)及びプロセッサ(未図示)を含んでおり、前記通信部は外部装置と通信するように構成され得る。
特に、(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、テスト装置の通信部は前記テストイメージを獲得し得る。
また、プロセッサはデコーディングレイヤ及びエンコーディングレイヤのフィルタの少なくとも一部の調整されたパラメータ、即ち、前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用して獲得されたテストイメージに対するイメージセグメンテーションを遂行するように構成され得る。
本発明の技術分野の通常の技術者に理解され得ることとして、上で説明されたイメージ、例えば、トレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって構成され得て、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/またはメモリ)によって保有/維持され得て、コンボリューション演算、デコンボリューション演算、ロス値演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明はこれに限定されるものではない。
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。

Claims (26)

  1. (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用してイメージのセグメンテーションの性能向上のための学習方法において、
    (a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセスを遂行する段階;及び
    (b)前記学習装置は、バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(2)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数である−を遂行する段階を含むが、
    前記(b)段階の初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを特徴とする学習方法。
  2. 前記第1ないし前記第Hロスレイヤは、
    第3−1ないし第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする請求項1に記載の学習方法。
  3. 前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、第2、…、前記Hの正解ラベルイメージのチャネルの数と同一になるようにし、前記1ないしH正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする請求項2に記載の学習方法。
  4. 原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように原本正解ラベルイメージのサイズを変更することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項3に記載の学習方法。
  5. 前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする請求項4に記載の学習方法。
  6. 前記原本正解ラベルイメージをH個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項4に記載の学習方法。
  7. tが1以上H以下の整数である場合、
    前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
    前記学習装置は、前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
    tがHと同一の整数である場合、
    前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち第1ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする請求項4に記載の学習方法。
  8. 前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする請求項7に記載の学習方法。
  9. 前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
    前記学習装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項1に記載の学習方法。
  10. 前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
    前記学習装置は、前記第1−1、第1−2、…、前記第1−K特徴マップ各々に第4−1、第4−2、…、第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項9に記載の学習方法。
  11. 入力イメージとしてのテストイメージに対するセグメンテーション方法において、(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、前記(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;及び
    (b)前記テスト装置は、前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行する段階
    を含むセグメンテーション方法。
  12. 前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
    前記テスト装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項11に記載の学習方法。
  13. 前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
    前記テスト装置は、前記第1−1、第1−2、…、前記第1−K特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項12に記載の学習方法。
  14. (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用するが、イメージのセグメンテーションの性能向上のための学習装置において、
    前記入力イメージを受信する通信部;及び
    (I)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(II)バックプロパゲーション過程で(i)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(ii)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(iii)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサを含むが、
    前記Mは2以上K−1以下の整数であり、前記(II)プロセスの初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを遂行するプロセッサ;
    を含む学習装置。
  15. 前記第1ないし前記第Hロスレイヤは、第3−1ないし前記第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする請求項14に記載の学習装置。
  16. 前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、第2、…、前記H正解ラベルイメージのチャネルの数と同一になるようにし、
    前記1ないしH正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする請求項15に記載の学習装置。
  17. 原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように原本正解ラベルイメージのサイズを変更することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項16に記載の学習装置。
  18. 前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする請求項17に記載の学習装置。
  19. 前記原本正解ラベルイメージをH個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項17に記載の学習装置。
  20. tが1以上H以下の整数である場合、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
    前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
    tがHと同一の整数である場合、
    前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち第1ないし前記Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする請求項17に記載の学習装置。
  21. 前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする請求項20に記載の学習装置。
  22. 前記プロセッサは、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
    少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項14に記載の学習装置。
  23. 前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
    前記プロセッサは、前記第1−1、第1−2、…、前記第1−K特徴マップ各々に第4−1、第4−2、…、第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項22に記載の学習装置。
  24. 入力イメージとしてのテストイメージに対するセグメンテーションを遂行するセグメンテーション装置において、
    (I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、前記(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、前記テストイメージを受信する通信部;及び
    前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行するプロセッサ;
    を含むテスト装置。
  25. 中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
    少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項24に記載のテスト装置。
  26. 前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
    前記第1−1、第1−2、…、前記第1−K特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項25に記載のテスト装置。
JP2018188342A 2017-10-03 2018-10-03 イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 Active JP6720264B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/723,597 2017-10-03
US15/723,597 US9947103B1 (en) 2017-10-03 2017-10-03 Learning method and learning device for improving image segmentation and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
JP2019067403A true JP2019067403A (ja) 2019-04-25
JP6720264B2 JP6720264B2 (ja) 2020-07-08

Family

ID=61872655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018188342A Active JP6720264B2 (ja) 2017-10-03 2018-10-03 イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置

Country Status (5)

Country Link
US (1) US9947103B1 (ja)
EP (1) EP3467713B1 (ja)
JP (1) JP6720264B2 (ja)
KR (1) KR102144381B1 (ja)
CN (1) CN109598725B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399440A (zh) * 2022-01-13 2022-04-26 马上消费金融股份有限公司 图像处理方法、图像处理网络训练方法、装置及电子设备

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3566177A1 (en) * 2017-02-03 2019-11-13 Siemens Aktiengesellschaft A method and apparatus for detecting objects of interest in images
CN108108738B (zh) * 2017-11-28 2018-11-16 北京达佳互联信息技术有限公司 图像处理方法、装置及终端
US10565476B1 (en) * 2018-09-04 2020-02-18 StradVision, Inc. Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same
US10303980B1 (en) * 2018-09-05 2019-05-28 StradVision, Inc. Learning method, learning device for detecting obstacles and testing method, testing device using the same
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US10872297B2 (en) * 2019-01-30 2020-12-22 StradVision, Inc. Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
US10776673B2 (en) * 2019-01-31 2020-09-15 StradVision, Inc. Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
US10373004B1 (en) * 2019-01-31 2019-08-06 StradVision, Inc. Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
US10762393B2 (en) * 2019-01-31 2020-09-01 StradVision, Inc. Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same
KR102361444B1 (ko) 2020-03-06 2022-02-11 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
KR102345799B1 (ko) * 2021-02-23 2021-12-31 인그래디언트 주식회사 Cnn 기반의 자동 라벨 마스크 교정 방법 및 이를 이용한 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017079529A1 (en) * 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Universal correspondence network
WO2017091833A1 (en) * 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation
JP2017516197A (ja) * 2015-03-31 2017-06-15 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 交通標識を認識する方法及び装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646055B2 (en) * 2014-04-03 2017-05-09 Facebook, Inc. Blending search results on online social networks
US9940539B2 (en) * 2015-05-08 2018-04-10 Samsung Electronics Co., Ltd. Object recognition apparatus and method
US10373073B2 (en) * 2016-01-11 2019-08-06 International Business Machines Corporation Creating deep learning models using feature augmentation
US9773196B2 (en) * 2016-01-25 2017-09-26 Adobe Systems Incorporated Utilizing deep learning for automatic digital image segmentation and stylization
US10726326B2 (en) * 2016-02-24 2020-07-28 International Business Machines Corporation Learning of neural network
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN107122809B (zh) * 2017-04-24 2020-04-28 北京工业大学 基于图像自编码的神经网络特征学习方法
CN107169535B (zh) * 2017-07-06 2023-11-03 谈宜勇 生物多光谱图像的深度学习分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017516197A (ja) * 2015-03-31 2017-06-15 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 交通標識を認識する方法及び装置
WO2017079529A1 (en) * 2015-11-04 2017-05-11 Nec Laboratories America, Inc. Universal correspondence network
WO2017091833A1 (en) * 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ISOLA, P. ET AL.: "Image-to-Image Translation with Conditional Adversarial Networks", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) [ONLINE], JPN6019044535, July 2017 (2017-07-01), pages 5967 - 5976, XP055620831, ISSN: 0004154551, DOI: 10.1109/CVPR.2017.632 *
WANG, W. ET AL.: "Self-Paced Cross-Modality Transfer Learning for Efficient Road Segmentation", 2017 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA) [ONLINE], JPN6019044536, June 2017 (2017-06-01), pages 1394 - 1401, ISSN: 0004154552 *
ZHU, Q. ET AL.: "Deeply-Supervised CNN for Prostate Segmentation", 2017 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN) [ONLINE], JPN6019044538, May 2017 (2017-05-01), pages 178 - 184, XP033112022, ISSN: 0004154553, DOI: 10.1109/IJCNN.2017.7965852 *
薮崎隼人 外5名: "畳み込みニューラルネットワークを用いた脂肪細胞セグメンテーションにおける分割精度改善手法の提案", 情報処理学会研究報告, vol. Vol. 2017-MPS-112, No. 27, JPN6019044532, 28 February 2017 (2017-02-28), pages 1 - 6, ISSN: 0004154550 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399440A (zh) * 2022-01-13 2022-04-26 马上消费金融股份有限公司 图像处理方法、图像处理网络训练方法、装置及电子设备

Also Published As

Publication number Publication date
EP3467713B1 (en) 2022-08-17
EP3467713A8 (en) 2019-06-05
US9947103B1 (en) 2018-04-17
JP6720264B2 (ja) 2020-07-08
KR102144381B1 (ko) 2020-08-13
CN109598725A (zh) 2019-04-09
KR20190039383A (ko) 2019-04-11
EP3467713A1 (en) 2019-04-10
CN109598725B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
JP2019067403A (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
US10095977B1 (en) Learning method and learning device for improving image segmentation and testing method and testing device using the same
JP7446997B2 (ja) 敵対的生成ネットワークのトレーニング方法、画像処理方法、デバイスおよび記憶媒体
CN114140353B (zh) 一种基于通道注意力的Swin-Transformer图像去噪方法及系统
KR102229342B1 (ko) Fun을 사용하여 cnn의 성능을 향상시키기 위한 학습 방법 및 학습 장치, 그리고 이를 이용한, 테스트 방법 및 테스트 장치
JP6676722B2 (ja) アクティベーション演算とコンボリューション演算を同時に遂行するための方法及び装置、そしてこのための学習方法及び学習装置
JP2019067406A (ja) Funを用いて特徴マップを生成するための方法及び装置
CN109447976B (zh) 一种基于人工智能的医学图像分割方法及系统
US11790489B2 (en) Systems and method of training networks for real-world super resolution with unknown degradations
CN109670574B (zh) 用于同时执行激活和卷积运算的方法和装置及其学习方法和学习装置
CN113012172A (zh) 一种基于AS-UNet的医学图像分割方法及系统
CN115731505B (zh) 视频显著性区域检测方法、装置、电子设备及存储介质
JP2020038666A (ja) 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置
CN105184742A (zh) 一种基于拉普拉斯图特征向量的稀疏编码的图像去噪方法
CN113362322A (zh) 一种判别辅助和多模态加权融合的显著物体检测方法
CN117174105A (zh) 一种基于改进型深度卷积网络的语音降噪与去混响方法
US20230073175A1 (en) Method and system for processing image based on weighted multiple kernels
CN111275751A (zh) 一种无监督绝对尺度计算方法及系统
Wang et al. Dynamic context-driven progressive image inpainting with auxiliary generative units
US20230386457A1 (en) Transformer-based voice recognition technology using improved voice as conditioning feature
CN117455808A (zh) 一种轻量化图像去模糊方法及系统
WO2020044567A1 (ja) データ処理システムおよびデータ処理方法
CN115719318A (zh) 一种基于收缩约束自编码器的磁共振影像去噪方法
CN116091885A (zh) 一种基于rau-gan的肺结节数据增强方法
CN116362324A (zh) 一种用于生成对抗网络的蒸馏方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200617

R150 Certificate of patent or registration of utility model

Ref document number: 6720264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250