JP6682595B2 - イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 - Google Patents

イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 Download PDF

Info

Publication number
JP6682595B2
JP6682595B2 JP2018188347A JP2018188347A JP6682595B2 JP 6682595 B2 JP6682595 B2 JP 6682595B2 JP 2018188347 A JP2018188347 A JP 2018188347A JP 2018188347 A JP2018188347 A JP 2018188347A JP 6682595 B2 JP6682595 B2 JP 6682595B2
Authority
JP
Japan
Prior art keywords
filters
filter
feature map
decoding
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018188347A
Other languages
English (en)
Other versions
JP2019067408A (ja
Inventor
キム、ヨンジョン
ナム、ウンユン
ボ、シュクフン
シュン、ミュンチュル
エオ、ドンフン
リュウ、ウージュ
ジャン、タエウォン
ジョン、キュンジョン
ジェ、ホンモ
チョ、ホジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2019067408A publication Critical patent/JP2019067408A/ja
Application granted granted Critical
Publication of JP6682595B2 publication Critical patent/JP6682595B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明はイメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置に関する。より詳細には、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法において、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセスを遂行する段階;(b)前記学習装置は、前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセスを遂行する段階;(c)前記学習装置は、(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する段階;及び(d)前記学習装置は、前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整する段階;を含むことを特徴とする学習方法に関する。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)はディープランニング分野で起きた驚くべき発展の核心である。CNNsは文字認識問題を解くために90年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはMachine Learning分野で非常に有用なツールとなった。
一方、イメージセグメンテーションは入力でイメージ(トレーニングイメージorテストイメージ)を受け、出力でラベル(label)イメージを作り出す方法である。最近ディープラーニング(Deep learning)技術が脚光を浴びながら、セグメンテーションもディープラーニングを多く使用する趨勢である。
図1は従来技術にかかるイメージセグメンテーションを遂行することができるCNNの学習過程を示す図面である。
図1を参照すれば、トレーニングイメージまたはテストイメージなどの入力イメージが入力されると複数個のフィルタ(即ち、コンボリューションフィルタ)で複数回のコンボリューション演算を遂行して特徴マップを獲得する。そうして最終的に生成された特徴マップを複数個のデコンボリューションフィルタで複数回のデコンボリューション演算を遂行してラベルイメージを獲得する。このようにコンボリューション演算でイメージをエンコーディングして特徴マップを獲得し、特徴マップをデコーディングして再びラベルイメージを獲得する構造をエンコーディング−デコーディングネットワーク、またはU−Netと言う。エンコーディング過程で各コンボリューション演算を遂行するたびに入力イメージのサイズが1/2に減るようになるが、これはイメージサイズを減らして演算量を減らそうとするためである。また、エンコーディング過程でコンボリューションフィルタを通じて入力されたイメージのチャネル数は増加するが、これは減った演算量の利得を活用しながらも増えたチャネルを通じて複雑なパターンを得るためである。一般的に、エンコーディング過程で各々のコンボリューションフィルタを経るたびにイメージサイズは1/2に減り、チャネル数は2倍に増える。このように減った特徴マップは高周波領域が多く除去されて低周波領域寄りの情報を有するようになるが、かかる低周波領域はイメージの意味のある(meaningful)部分、即ち、空、道路、建物、自動車など詳細な部分を意味する。かかる意味のあるパートをデコンボリューション演算、即ち、デコーディング演算を通じてラベルイメージとして類推するようになる。
最近、前記のようなU−Net構造のネットワークを利用したイメージセグメンテーション過程で性能を増加させるための努力が行なわれてきた。これによって本出願人はイメージセグメンテーションの性能を増加させることができるようにデコーディング過程でエンコーダから出た特徴マップの情報を効率的に利用する新しい技術を提供しようとする。
本発明はイメージセグメンテーション時によりよいエッジ情報を表現することができる方法を提供することを目的とする。
本発明は学習過程でエンコーダから出力された各特徴マップを利用して優れたエッジ情報をデコーダに提供することで最適のパラメータを見つけることができる学習環境を提供することを目的とする。
また本発明は最適のパラメータを見つけて正確なイメージセグメンテーションを提供することができる装置と方法を提供することを目的とする。
本発明の一実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法が、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセスを遂行する段階;(b)前記学習装置は、前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセスを遂行する段階;(c)前記学習装置は、(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する段階;及び(d)前記学習装置は、前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整する段階;を含むことを特徴とする学習方法が提供される。
前記一実施例によれば、前記(a)段階で、前記学習装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、前記(b)段階で、前記学習装置は、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、前記(c)段階で、前記学習装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記(b)段階で、前記学習装置は、H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記HがK値である場合、前記学習装置は、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューションを遂行する前記中間レイヤの各フィルタのReceptive fieldは一部領域のフィルタweightを除いた残りの領域のフィルタweightは0で満たされることを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記(c)段階で、前記学習装置は、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする学習方法が提供される。
また、前記一実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする学習方法が提供される。
本発明の他の実施例によれば、テストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;(b)前記テスト装置が、前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセスを遂行する段階;(c)前記テスト装置は、前記H個のエンコーディングフィルタの各々のテスト用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセスを遂行する段階;(d)前記テスト装置は、(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセスを遂行する段階;を含むセグメンテーション方法が提供される。
前記他の実施例によれば、前記(b)段階で、前記テスト装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、前記(c)段階で、前記テスト装置は、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、前記(d)段階で、前記テスト装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とするセグメンテーション方法が提供される。
また、前記他の実施例によれば、前記(c)段階で、前記テスト装置は、H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とするセグメンテーション方法が提供される。
また、前記他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とするセグメンテーション方法が提供される。
また、前記他の実施例によれば、前記(d)段階で、前記テスト装置は、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とするセグメンテーション方法が提供される。
本発明のまた他の実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含むイメージセグメンテーションの性能向上のための学習装置において、前記入力イメージを受信する通信部;及び(I)前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセス;(III)(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセス;及び(IV)前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサ;を含むことを特徴とする学習装置が提供される。
前記また他の実施例によれば、前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記(II)プロセスで、前記H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記HがK値である場合、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューションを遂行する前記中間レイヤの各フィルタのReceptive fieldは一部領域のフィルタweightを除いた残りの領域のフィルタweightは0で満たされることを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記(III)プロセスで、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(III)プロセスで、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行することで、前記第2−K特徴マップを獲得することを特徴とする学習装置が提供される。
また、前記また他の実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(III)プロセスで、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップを利用してデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする学習装置が提供される。
本発明のまた他の実施例によれば、テストイメージとしての入力イメージに対するイメージセグメンテーション装置において、(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個の前記デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを受信する通信部;及び(I)前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタ各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセス;(III)(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセス;を遂行するプロセッサ;を含むセグメンテーション装置が提供される。
前記また他の実施例によれば、前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とするセグメンテーション装置が提供される。
また、前記また他の実施例によれば、前記(II)プロセスで、前記H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とするセグメンテーション装置が提供される。
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とするセグメンテーション装置が提供される。
また、前記また他の実施例によれば、前記(III)プロセスで、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とするセグメンテーション装置が提供される。
本発明によれば、ダイレーションコンボリューション演算をエンコーダのフィルタとデコーダフィルタ間に挿入してイメージセグメンテーションの全体ネットワーク学習過程及びテスト過程がより効果的に遂行されることができる。
本発明によれば、CNNモデルの学習装置がイメージ内の物体のエッジとcontext情報などを補完して学習するようにできる。
本発明によれば、イメージセグメンテーション時によりよいエッジ情報を表現するようにセグメンテーションを遂行することができる。
図1は、従来技術にかかるイメージセグメンテーションを遂行し得るCNNの学習過程を示す図面である。 図2Aは、本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。 図2Bは、本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。 図3Aは、本発明の一実施例による多様なFOVを有するダイレーションコンボリューションフィルタを示す図面である。 図3Bは、本発明の一実施例による多様なFOVを有するダイレーションコンボリューションフィルタを示す図面である。 図3Cは、本発明の一実施例による多様なFOVを有するダイレーションコンボリューションフィルタを示す図面である。 図3Dは、コンボリューション演算とダイレーションコンボリューション演算の差を示す図面である。 図4は、本発明の一実施例による第2−K特徴マップを生成する過程を示す図面である。 図5は、本発明の他の実施例による第2−K特徴マップを生成する過程を示す図面である。 図6Aは、本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。 図6Bは、本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
図2A及び図2Bは本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。図2A及び図2Bに示したCNNモデルを利用したイメージセグメンテーションのための学習装置は通信部(未図示)とプロセッサ(未図示)が含まれ得る。
具体的に、通信部は入力イメージとしてトレーニングイメージを受信し得て、プロセッサはエンコーディングレイヤにある複数個のフィルタ、即ちコンボリューションフィルタを通じて入力イメージに対してコンボリューション演算を複数回適用して特徴マップを獲得するプロセスを遂行し得る。その後、プロセッサは複数のフィルタを通じて特定特徴マップ(即ち、エンコーディングレイヤからの最終出力)に対してデコーディングレイヤで複数個のフィルタ(即ち、デコンボリューションフィルタ)を通じてデコンボリューション演算を複数回適用することで、入力イメージに対応するラベルイメージを獲得するプロセスを遂行し得る。また、プロセッサはCNNの各フィルタに対して原本正解ラベルイメージと推定されたラベルイメージ間のロスを利用してバックプロパゲーション過程を遂行することでCNNモデル内の各フィルタまたはレイヤのパラメータを最適化するプロセスを遂行し得る。
図2A及び図2Bを参照すれば、本発明にかかる学習装置はK個フィルタ(第1−1フィルタないし第1−Kフィルタ)を含むエンコーディングレイヤとこれに対応されるK個のフィルタ(第2−Kないし第2−1フィルタ)を含むデコーディングレイヤを含む。また、学習装置は、前記エンコーディングレイヤの前記第1−1フィルタないし第1−Kフィルタ各々と前記デコーディングレイヤの前記第2−1ないし第2−Kフィルタのうち対応するフィルタ間に配置された第3−1フィルタないし第3−Kフィルタを含む中間レイヤを含む。また、学習装置は、追加で生成された最終出力結果物、例えばラベルイメージと原本正解ラベルイメージ間の差を計算してロスを生成する少なくとも一つのロスレイヤを含む。
また、図2A及び図2Bを参照すれば、本発明にかかる学習方法は、学習装置の通信部が入力イメージとしてトレーニングイメージを入力されてエンコーディングレイヤの第1−1フィルタに入力して開始される。また、前記エンコーディングレイヤの第1−1ないし第1−Kフィルタは入力されたイメージに対応する特徴マップを求めるためにコンボリューション演算を遂行する。
具体的に、図2A及び図2Bで第1−1フィルタは入力イメージを入力されてコンボリューション演算して第1−1特徴マップを生成して出力し、第1−2フィルタは前記第1−1特徴マップを入力されてコンボリューション演算して第1−2特徴マップを生成して出力して、第1−3フィルタは前記第1−2特徴マップを入力されてコンボリューション演算して第1−3特徴マップを生成して出力して、…、第1−(K−2)フィルタは第1−(K−3)特徴マップを入力されてコンボリューション演算して第1−(K−2)特徴マップを生成して出力して、第1−(K−1)フィルタは前記第1−(K−2)特徴マップを入力されてコンボリューション演算して第1−(K−1)特徴マップを生成して出力して、第1−Kフィルタは前記第1−(K−1)特徴マップを入力されてコンボリューション演算して第1−K特徴マップを生成して出力する。
この時、第1−1ないし第1−Kフィルタでコンボリューション演算を遂行するたびに入力イメージのサイズは1/2に減る。また、コンボリューション演算が適用されるたびに第1−1ないし第1−Kフィルタの出力のチャネル数は入力の2倍に増加するが、サイズの増加比率または減少比率、チャネルの数は制限されない。
例えば、トレーニングイメージのサイズが640×480、そのチャネル数が3なら、第1−1特徴マップはサイズが320×240であり、チャネル数は8であり、第1−2特徴マップはサイズが160×120、チャネル数は16、第1−3特徴マップはサイズが80×60、チャネル数は32であり得る。
以後、第1−K特徴マップはデコーディングレイヤに入力されてラベルイメージを生成するのに利用される。前記デコーディングレイヤの第2−Kないし第2−1フィルタはラベルイメージを求めるために、即ち、イメージをセグメンテーションするためにデコンボリューション演算を遂行する。
一方、図2A及び図2Bを参照すれば、本発明ではエンコーディングレイヤとデコーディングレイヤ間に中間レイヤをさらに含み、前記中間レイヤは第3−1ないし第3−Kフィルタを含む。前記第3−1ないし第3−Kフィルタのうち前記第3−1フィルタは前記第1−1フィルタと第2−1フィルタ間に、第3−2フィルタは前記第1−2フィルタと前記第2−2フィルタ間に、…、前記第3−Kフィルタは前記第1−Kフィルタと前記第2−Kフィルタ間に位置する。即ち、中間レイヤの各フィルタはエンコーディングレイヤのフィルタと対応するデコーディングレイヤのフィルタ間に配置され得る。
一例として、前記第3−1フィルタないし前記第3−Kフィルタのうち少なくとも一つのフィルタはダイレーションコンボリューションフィルタであり得る。そして、前記第3−1フィルタないし前記第3−Kフィルタのうちダイレーションコンボリューションフィルタではない他のフィルタのうち少なくとも一つのフィルタはコンボリューションフィルタであり得る。また、前記第3−1フィルタないし前記第3−Kフィルタがすべてダイレーションコンボリューションフィルタである場合もある。
また、前記第3−1フィルタないし前記第3−Kフィルタは各々前記第1−1特徴マップないし前記第1−K特徴マップからエッジ情報を抽出することで前記第3−1ないし前記第3−K特徴マップを生成し得る。ここで、前記第3−1フィルタないし前記第3−Kフィルタは各々前記第1−1特徴マップないし前記第1−K特徴マップから周波数変化が所定の閾値以上である部分を抽出して第3−1ないし第3−H特徴マップを獲得し得る。例えば、特定部分は入力イメージのエッジであり得る。
各々の対応する以前のフィルタから提供された特徴マップにデコンボリューション演算が適用される時、デコーディングレイヤのフィルタは第3−1特徴マップないし第3−K特徴マップのうち対応する特徴マップに含まれたエッジに対する情報を活用し得る。
一般的に、デコーディングされた特徴マップのサイズを増加させるデコーディングプロセス中にエッジに対する情報が復旧されなくなるという問題点がある。従って、本発明によれば、プロセッサはエッジ情報を復旧するのに支援するため、中間レイヤのフィルタからデコーディングレイヤのフィルタにエッジ情報を提供し得る。
具体的に、中間レイヤはエンコーディングレイヤのフィルタ各々から得た各々のエンコーディングされた特徴マップからエッジ情報を抽出し、第3−1特徴マップないし第3−K特徴マップのエッジ情報を各々デコーディングレイヤの各々対応するフィルタに伝達し得る。従って、デコンボリューション演算を遂行する時、抽出されたエッジ情報が使用され得る。
以下では、第3−1フィルタないし第3−Kフィルタのすべてがダイレーションコンボリューションフィルタである場合、本発明の一実施例によってイメージセグメンテーションを遂行し得るCNNの学習過程を説明する。
前記第3−1フィルタは前記第1−1フィルタから第1−1特徴マップを受信した後、ダイレーションコンボリューション演算を遂行して第3−1特徴マップを生成し、第2−1フィルタに提供し得る。続いて、前記第3−2フィルタは前記第1−2フィルタから第1−2特徴マップを受信した後、ダイレーションコンボリューション演算を遂行して第3−2特徴マップを生成し、第2−2フィルタに提供し得る。即ち、中間レイヤの残りのフィルタは同一の手順によって同一のプロセスが遂行され得る。
図3Aはコンボリューションフィルタの一例を示した図面である。そして、図3Bないし図3CはFOVを有するダイレーションコンボリューションの多様な例を示す図面である。
図3Bないし図3Cのように、ダイレーションコンボリューション演算は図3Aで示したコンボリューションフィルタを図3Bないし図3Cのようなフィルタ構造に変更してコンボリューション演算することを言う。従って、ダイレーションコンボリューションフィルタのサイズはコンボリューションフィルタのサイズよりも大きくなり得る。フィルタのサイズを拡張させるため、ダイレーションコンボリューションフィルタの重み付け値(即ち、パラメータ)の一部はコンボリューションフィルタから得られた重み付け値を除いては0で満たされ得る。万一フィルタのサイズが拡張されても全体計算時間は重み付け値がないため、同一に維持され得る。従って、ゼロ重み付け値の計算時間が非常に短いため、全体計算時間を増加させずにFOVを増加させ得る。また、万一フィルタのサイズが拡張されてもFOVは解像度を損失させることなくサイズを確張し得る。
図3B及び図3Cに示したように、コンボリューションフィルタから得た重み付け値の値は点で表示され、残りのFOV部分は0で満たされる。ここで、FOVは出力された特徴マップの1ピクセル生成に影響を及ぼす入力特徴マップのピクセル領域を意味する。
図3Aないし図3Cは多様なFOVを示したものであり、図3AはFOVが3×3である3×3コンボリューションフィルタであり、図3BはFOVのサイズが7×7である2−dilatedコンボリューションフィルタを示し、図3CはFOVのサイズは15×15である4−dilatedコンボリューションフィルタを示したものである。
また、図3Dはコンボリューションとダイレーションコンボリューションの演算の例を示すが、図3Dの左側図面は演算対象となるトレーニングイメージまたは特徴マップのピクセル値を示し、中央の上部図面はコンボリューションフィルタ、そして中央の下部図面は2−dilatedコンボリューションフィルタを示したものである。前記コンボリューションフィルタとダイレーションコンボリューションフィルタは演算量は同一だが、2−ダイレーションコンボリューションのFOVがコンボリューションフィルタのFOVよりもさらに大きい。図3Dの右側図面のような3×3結果を得るために、一般的なコンボリューションを使用すると、図3D左側イメージのうち陰影表示された領域のFOVだけ参照(即ち、出力される特徴マップの1ピクセル生成時に陰影表示された領域に対応されるサイズのピクセルだけ演算)し、2−ダイレーションコンボリューションフィルタは図3D左側イメージの陰影表示領域だけでなく全体領域を参照し得る。即ち、同じ結果を得るために参照する領域が2−ダイレーションコンボリューションがさらに大きいという意味である。このように、ダイレーションコンボリューションフィルタはコンボリューションフィルタと比較して演算は同一である反面、さらに大きい領域を参照するようにし得るという特性がある。
図4は本発明の一実施例による第2−K特徴マップを生成する過程を示す図面である。
図4を参照すれば、第2−Kフィルタは第1−K特徴マップと第3−K特徴マップにデコンボリューション演算を遂行し得る。例えば、第2−K特徴マップは第3−K特徴マップに第1−K特徴マップを追加した後、デコンボリューション演算を遂行して第2−K特徴マップを獲得し得る。即ち、第2−Kフィルタは、第1−K特徴マップ及び第3−K特徴マップの特徴を結合してデコンボリューション演算を遂行した後、第2−K特徴マップを生成し得る。ここで、第1−K特徴マップと第3−K特徴マップの特徴を結合する動作は第1−K特徴マップ及び第3−K特徴マップの各々のピクセル値を合算する動作であり得るが、これに限定されるものではない。一方、場合によって第2−Kフィルタは第1−K特徴マップに対してデコンボリューション演算を遂行して中間特徴マップを生成した後、第3−K特徴マップと中間特徴マップを合算して第2−K特徴マップを生成し得る。
図5は本発明の他の実施例による第2−K特徴マップを生成する過程を示す図面である。
図5を参照すれば、第3−Kフィルタが第1−K特徴マップにダイレーションコンボリューション演算を遂行して第3−K特徴マップを生成し、第2−Kフィルタが第3−Kフィルタから出力された第3−K特徴マップにデコンボリューション演算を遂行して前記第2−K特徴マップを生成する。
その後、第2−(K−1)フィルタは第2−Kフィルタから第2−K特徴マップを獲得し、第3−(K−1)フィルタから第3−(K−1)特徴マップを獲得し得る。そして、所定の演算を遂行して第2−(K−1)特徴マップを獲得し得る。参考までに、デコーディングレイヤにあるすべてのフィルタは前記手順によって第2−Kフィルタが第2−K特徴マップを生成し得る。
ここで、第2−Kフィルタないし第2−1フィルタ各々の出力サイズは第2−Kフィルタないし第2−1フィルタ各々の入力サイズの2倍に増加される。また、第2−Kフィルタないし第2−1フィルタ各々の出力のチャネル数はデコンボリューション演算が適用されるたびに入力の1/2に減少される。
例えば、第2−K特徴マップのサイズが20×15でチャネル数が128の場合、第2−(K−1)特徴マップのサイズは40×30であり、そのチャネル数は64である。同様に、第2−(K−2)特徴マップのサイズは80×60でそのチャネル数は32、第2−(K−3)特徴マップのサイズは160×120、チャネル数は16であり得る。
そして、再び図2A及び図2Bを参照すれば、前記学習装置は第2−1特徴マップ(即ち、推定されたラベルイメージ)と原本正解ラベルイメージ値を比較してロスを算出するロスレイヤをさらに含む。前記推定されたラベルイメージは前記第2−1特徴マップを追加で処理することで獲得され得る。前記ロスレイヤはロスを算出し、算出されたロスはバックプロパゲーション過程を通じて伝達されて第2−1フィルタないし第2−Kフィルタ、第3−1フィルタないし第3−Kフィルタ及び第1−Kフィルタないし第1−1フィルタのうち少なくとも一つ以上のパラメータを調整し得る。
図6A及び図6Bは本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。
図6A及び図6Bに示した学習方法では図2A及び図2Bに示した学習過程と同一の過程を経るが、中間レイヤのフィルタがすべてのエンコーディングレイヤ及びデコーディングレイヤの各フィルタ間に配置されて前記フィルタと連動されず、前記エンコーディングレイヤフィルタとデコーディングレイヤのフィルタのうち一部のフィルタとだけ連動される実施例による学習方法を示したものである。即ち、エンコーディングレイヤ及びデコーディングレイヤにあるフィルタと関連した中間レイヤのフィルタの数はKよりも小さくなり得る。
図6A及び図6Bを参照すれば、中間レイヤはH個のフィルタ−Hは1よりも大きいか同じでKよりも小さな自然数−を含んで、前記第3−1ないし第3−Hフィルタのうち前記H個のフィルタは前記エンコーディングレイヤの前記第1−1ないし1−Kフィルタのうち一部であるH個のフィルタ及び前記デコーディングレイヤの前記第2−1ないし2−Kフィルタのうち一部であるH個のフィルタと連動する。ここで、エンコーディングレイヤの第1−1フィルタないし第1−Kフィルタのうち選択されたH個のフィルタは第1−1フィルタないし第1−Hフィルタとみなされ、デコーディングレイヤの第2−1フィルタないし第2−Kフィルタのうち選択されたH個のフィルタは第2−1フィルタないし第2−Hフィルタとみなされ得る。
具体的に、前記第1−1フィルタないし前記第1−Hフィルタはエンコーディングレイヤの左側から右側に順次ナンバリングされる。また、第2−1フィルタないし第2−Hフィルタはデコーディングレイヤの左側から右側に順次ナンバリングされる。但し、K個のフィルタ各々のセットと比較して同一のナンバリングが同一のフィルタを指称しない場合もある。例えば、H個のフィルタのうち第2−2フィルタはK個のフィルタのうち第2−2フィルタと異なる場合もある。
図6A及び図6Bでは学習装置が、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する場合、前記学習装置は、前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップにデコンボリューション演算を適用するようにし得る。また、前記学習装置は、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップ各々にデコンボリューション演算を適用し得る。
即ち、前記第1−1、前記第1−2、…、前記第1−K特徴マップのうち前記第3−1ないし前記第3−Hフィルタ各々と連動する特徴マップに対して前記第3−1ないし前記第3−Hフィルタを各々利用してエッジ情報を抽出することで前記第3−1ないし前記第3−H特徴マップを生成し得る。
中間レイヤがすべてのエンコーディングレイヤフィルタとデコーディングレイヤフィルタ間に連結されずに一部にのみ連結される場合には、中間レイヤでの演算量が減りながらもエンコーディングレイヤの特徴マップのエッジ情報をデコーディング過程の中間で活用することができるため、学習効率やイメージテスト性能が維持されることができる効果がある。
図2A及び図2Bないし図6A及び図6Bは本発明にかかるイメージセグメンテーションのための学習装置及び学習方法を説明した。かかる学習装置はバックプロパゲーション過程を通じて最適のパラメータ値を求めるようにされる。
以下、イメージセグメンテーションを遂行するためのテスト装置(未図示)の構成を簡略に説明する。テスト装置は学習プロセスを通じて発見された前述した最適のパラメータを利用し、テストイメージに対するイメージセグメンテーションを遂行する。テスト装置は学習装置と同一の装置であり得るが、場合によって他の装置である場合がある。前で説明したことと同一または類似する構成要素または機能について重複説明は反復せず、そのような構成要素及び機能の詳細な説明は省略され得る。
前記テスト装置はテストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、通信部(未図示)及びプロセッサ(未図示)を含んでおり、通信部は外部装置と通信するように構成され得る。
特に、前で説明した学習装置が学習処理を完了し、エンコーディングレイヤ、中間レイヤ、デコーディングレイヤのうち少なくとも一つのフィルタの調整されたパラメータを獲得した状態で、通信部はテストイメージを獲得し得る。また、プロセッサは(I)前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタの各々のテスト用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセス;(III)(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセスを遂行し得る。
ここで、テスト用のすべての特徴マップはテスト装置のエンコーディングレイヤ、中間レイヤ、デコーディングレイヤの各フィルタによって遂行される一連の動作を通じてテストイメージから誘導された特徴マップを指称し得る。
一方、イメージセグメンテーションを遂行するためのテスト装置を利用したテスト方法はバックプロパゲーション過程を遂行しない場合もある。また、イメージセグメンテーションを遂行するためのテスト方法は学習プロセスを通じて獲得された最適のパラメータを利用し得る。
本発明の技術分野の通常の技術者に理解され得ることとして、上で説明されたイメージ、例えば、トレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって構成され得て、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/またはメモリ)によって保有/維持され得て、コンボリューション演算、デコンボリューション演算、ロス値演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明はこれに限定されるものではない。
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。

Claims (24)

  1. (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法において、
    (a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセスを遂行する段階;
    (b)前記学習装置は、前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセスを遂行する段階;
    (c)前記学習装置は、(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する段階;及び
    (d)前記学習装置は、前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整する段階;を含み、
    前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
    前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、ことを特徴とする学習方法。
  2. 前記(a)段階で、前記学習装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、
    前記(b)段階で、前記学習装置は、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、
    前記(c)段階で、前記学習装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする請求項1に記載の学習方法。
  3. 前記(b)段階で、前記学習装置は、H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする請求項2に記載の学習方法。
  4. 前記HがK値である場合、前記学習装置は、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする請求項1に記載の学習方法。
  5. 前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする請求項に記載の学習方法。
  6. 前記(c)段階で、前記学習装置は、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項1に記載の学習方法。
  7. 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
    前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習方法。
  8. 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
    前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習方法。
  9. テストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、
    (a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;
    (b)前記テスト装置が、前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセスを遂行する段階;
    (c)前記テスト装置は、前記H個のエンコーディングフィルタの各々のテスト用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセスを遂行する段階;
    (d)前記テスト装置は、(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセスを遂行する段階;
    を含み、
    前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
    前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、セグメンテーション方法。
  10. 前記(b)段階で、前記テスト装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、
    前記(c)段階で、前記テスト装置は、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、
    前記(d)段階で、前記テスト装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とする請求項に記載のセグメンテーション方法。
  11. 前記(c)段階で、前記テスト装置は、H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とする請求項1に記載のセグメンテーション方法。
  12. 前記(d)段階で、前記テスト装置は、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項に記載のセグメンテーション方法。
  13. (i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含むイメージセグメンテーションの性能向上のための学習装置において、
    前記入力イメージを受信する通信部;及び
    (I)前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセス;(III)(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセス;及び(IV)前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサ;を含み、
    前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
    前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、ことを特徴とする学習装置。
  14. 前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、
    前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、
    前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする請求項1に記載の学習装置。
  15. 前記(II)プロセスで、前記H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
  16. 前記HがK値である場合、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする請求項1に記載の学習装置。
  17. 前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする請求項13に記載の学習装置。
  18. 前記(III)プロセスで、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
  19. 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
    前記(III)プロセスで、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行することで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
  20. 前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
    前記(III)プロセスで、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップを利用してデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
  21. テストイメージとしての入力イメージに対するイメージセグメンテーション装置において、
    (I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個の前記デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを受信する通信部;及び
    (I)前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタ各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセス;(III)(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセス;を遂行するプロセッサ;
    を含み、
    前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行し、
    前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、セグメンテーション装置。
  22. 前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、
    前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、
    前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とする請求項2に記載のセグメンテーション装置。
  23. 前記(II)プロセスで、前記H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とする請求項2に記載のセグメンテーション装置。
  24. 前記(III)プロセスで、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項2に記載のセグメンテーション装置。
JP2018188347A 2017-10-04 2018-10-03 イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 Active JP6682595B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/724,994 US10095977B1 (en) 2017-10-04 2017-10-04 Learning method and learning device for improving image segmentation and testing method and testing device using the same
US15/724,994 2017-10-04

Publications (2)

Publication Number Publication Date
JP2019067408A JP2019067408A (ja) 2019-04-25
JP6682595B2 true JP6682595B2 (ja) 2020-04-15

Family

ID=63524091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018188347A Active JP6682595B2 (ja) 2017-10-04 2018-10-03 イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置

Country Status (5)

Country Link
US (1) US10095977B1 (ja)
EP (1) EP3467711A1 (ja)
JP (1) JP6682595B2 (ja)
KR (1) KR102144358B1 (ja)
CN (1) CN109658417B (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10261903B2 (en) 2017-04-17 2019-04-16 Intel Corporation Extend GPU/CPU coherency to multi-GPU cores
JP6791182B2 (ja) * 2018-03-14 2020-11-25 オムロン株式会社 ニューラルネットワーク型画像処理装置
US10565476B1 (en) * 2018-09-04 2020-02-18 StradVision, Inc. Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
CN109508639B (zh) * 2018-10-12 2021-04-16 浙江科技学院 基于多尺度带孔卷积神经网络的道路场景语义分割方法
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
EP3721382B1 (en) 2018-12-31 2022-10-12 Beijing Didi Infinity Technology and Development Co., Ltd. Method and system of annotation densification for semantic segmentation
US10467500B1 (en) 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network
US10509987B1 (en) 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US10325371B1 (en) * 2019-01-22 2019-06-18 StradVision, Inc. Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same
CN109886984B (zh) * 2019-01-22 2021-01-08 浙江大学 利用前后景灰度差和深度学习网络的图像精确分割方法
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
CN111507343B (zh) * 2019-01-30 2021-05-18 广州市百果园信息技术有限公司 语义分割网络的训练及其图像处理方法、装置
US10872297B2 (en) * 2019-01-30 2020-12-22 StradVision, Inc. Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
US10890916B2 (en) * 2019-01-30 2021-01-12 StradVision, Inc. Location-specific algorithm selection for optimized autonomous driving
WO2020203819A1 (ja) 2019-03-29 2020-10-08 株式会社Ihi 遠隔操作装置
CN110059698B (zh) * 2019-04-30 2022-12-23 福州大学 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN110232417B (zh) * 2019-06-17 2022-10-25 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及计算机可读存储介质
KR102522399B1 (ko) * 2019-07-09 2023-04-14 주식회사 케이티 객체 확인 방법 및 이를 위한 시스템
CN110781776B (zh) * 2019-10-10 2022-07-05 湖北工业大学 一种基于预测和残差细化网络的道路提取方法
KR102225024B1 (ko) * 2019-10-24 2021-03-08 연세대학교 산학협력단 이미지 채움 장치 및 방법
CN110837811B (zh) * 2019-11-12 2021-01-05 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
KR20210094314A (ko) 2020-01-21 2021-07-29 삼성전자주식회사 반도체 장치의 제조 방법
US11270447B2 (en) 2020-02-10 2022-03-08 Hong Kong Applied Science And Technology Institute Company Limited Method for image segmentation using CNN
CN113518229B (zh) * 2020-04-09 2022-09-20 腾讯科技(深圳)有限公司 环路滤波网络的训练方法、装置、计算机设备和存储介质
CN111612807B (zh) * 2020-05-15 2023-07-25 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN111932557B (zh) * 2020-08-13 2022-11-18 中国科学院重庆绿色智能技术研究院 基于集成学习和概率图模型的图像语义分割方法及装置
KR102357350B1 (ko) * 2020-11-26 2022-02-07 한국과학기술연구원 딥러닝을 이용한 저선량 ct 영상의 통계적 영상 복원 방법 및 시스템
CN114301779B (zh) * 2021-12-15 2024-03-19 迈普通信技术股份有限公司 一种镜像文件配置方法、装置,ap设备及网络系统
WO2023149614A1 (en) * 2022-02-07 2023-08-10 Samsung Electronics Co., Ltd. Method and electronic device for efficiently reducing dimensions of image frame
KR102585912B1 (ko) * 2022-12-14 2023-10-06 주식회사 딥노이드 디자인권이 적용된 제품군을 자동으로 탐색하기 위한 장치 및 이를 위한 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2638465A1 (en) * 2007-08-01 2009-02-01 Jean-Yves Chouinard Learning filters for enhancing the quality of block coded still and video images
US9965901B2 (en) * 2015-11-19 2018-05-08 KLA—Tencor Corp. Generating simulated images from design information
CN106023220B (zh) * 2016-05-26 2018-10-19 史方 一种基于深度学习的车辆外观部件图像分割方法
CN106874956B (zh) * 2017-02-27 2018-10-23 陕西师范大学 图像分类卷积神经网络结构的构建方法
CN107169535B (zh) * 2017-07-06 2023-11-03 谈宜勇 生物多光谱图像的深度学习分类方法及装置

Also Published As

Publication number Publication date
CN109658417A (zh) 2019-04-19
EP3467711A8 (en) 2019-05-29
US10095977B1 (en) 2018-10-09
KR102144358B1 (ko) 2020-08-13
CN109658417B (zh) 2023-04-28
JP2019067408A (ja) 2019-04-25
KR20190039460A (ko) 2019-04-12
EP3467711A1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
JP6682595B2 (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
JP6720264B2 (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
EP3467721B1 (en) Method and device for generating feature maps by using feature upsampling networks
CN114140353B (zh) 一种基于通道注意力的Swin-Transformer图像去噪方法及系统
CN110084863B (zh) 一种基于生成对抗网络的多域图像转换方法与系统
US9984325B1 (en) Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
CN109636803B (zh) 用于分割图像的方法和使用该方法的装置
US11720786B2 (en) Information processing apparatus, information processing method, and program
CN108268931B (zh) 数据处理的方法、装置和系统
JP6676722B2 (ja) アクティベーション演算とコンボリューション演算を同時に遂行するための方法及び装置、そしてこのための学習方法及び学習装置
US10282864B1 (en) Method and device for encoding image and testing method and testing device using the same
JP2022500734A (ja) 畳み込みニューラルネットワークを利用したコンピュータ実現方法、合成画像生成用の装置及びコンピュータプログラム製品
CN109361934B (zh) 图像处理方法、装置、设备及存储介质
US20220414838A1 (en) Image dehazing method and system based on cyclegan
KR102092205B1 (ko) 초해상화, 역톤매핑 및 동시 초해상화-역톤매핑 처리된 다중 출력 이미지를 생성하는 이미지 처리 방법 및 장치
KR20200138079A (ko) 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치
EP3686809A1 (en) Method and device for transforming cnn layers to optimize cnn parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
CN115941112B (zh) 一种便携式隐蔽通信方法、计算机设备及存储介质
KR102537207B1 (ko) 머신 러닝에 기반한 이미지 처리 방법 및 장치
CN116029887A (zh) 一种基于小波神经网络的图像大容量鲁棒水印方法
CN106028043A (zh) 基于新的邻域函数的三维自组织映射图像编码方法
US20200175353A1 (en) Method for neural-network-lightening using repetition-reduction block and apparatus for the same
CN114266699A (zh) 图像超分辨率方法、电子装置及芯片
CN117372281A (zh) 一种基于神经网络的图像降噪方法、设备及存储介质
CN117223007A (zh) 用于低内存残差学习的装置和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200325

R150 Certificate of patent or registration of utility model

Ref document number: 6682595

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250