JP6682595B2

JP6682595B2 - イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置

Info

Publication number: JP6682595B2
Application number: JP2018188347A
Authority: JP
Inventors: キム、ヨンジョン; ナム、ウンユン; ボ、シュクフン; シュン、ミュンチュル; エオ、ドンフン; リュウ、ウージュ; ジャン、タエウォン; ジョン、キュンジョン; ジェ、ホンモ; チョ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2017-10-04
Filing date: 2018-10-03
Publication date: 2020-04-15
Anticipated expiration: 2038-10-03
Also published as: CN109658417A; EP3467711A8; US10095977B1; KR102144358B1; CN109658417B; JP2019067408A; KR20190039460A; EP3467711A1

Description

本発明はイメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置に関する。より詳細には、（ｉ）トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記Ｈ個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記Ｈ個のデコーディングフィルタは対応される−の間に各々配置される第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法において、（ａ）前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第１−１、前記第１−２、…、前記第１−Ｋ特徴マップを獲得するプロセスを遂行する段階；（ｂ）前記学習装置は、前記Ｈ個のエンコーディングフィルタの各々の出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ特徴マップを獲得するプロセスを遂行する段階；（ｃ）前記学習装置は、（ｉ）前記Ｈ個のデコーディングフィルタをもって前記第３−１ないし第３−Ｈ特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個デコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１特徴マップを順次獲得するプロセスを遂行する段階；及び（ｄ）前記学習装置は、前記第２−１特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整する段階；を含むことを特徴とする学習方法に関する。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）はディープランニング分野で起きた驚くべき発展の核心である。ＣＮＮｓは文字認識問題を解くために９０年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープＣＮＮは２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはＭａｃｈｉｎｅＬｅａｒｎｉｎｇ分野で非常に有用なツールとなった。

一方、イメージセグメンテーションは入力でイメージ（トレーニングイメージｏｒテストイメージ）を受け、出力でラベル（ｌａｂｅｌ）イメージを作り出す方法である。最近ディープラーニング（Ｄｅｅｐｌｅａｒｎｉｎｇ）技術が脚光を浴びながら、セグメンテーションもディープラーニングを多く使用する趨勢である。

図１は従来技術にかかるイメージセグメンテーションを遂行することができるＣＮＮの学習過程を示す図面である。

図１を参照すれば、トレーニングイメージまたはテストイメージなどの入力イメージが入力されると複数個のフィルタ（即ち、コンボリューションフィルタ）で複数回のコンボリューション演算を遂行して特徴マップを獲得する。そうして最終的に生成された特徴マップを複数個のデコンボリューションフィルタで複数回のデコンボリューション演算を遂行してラベルイメージを獲得する。このようにコンボリューション演算でイメージをエンコーディングして特徴マップを獲得し、特徴マップをデコーディングして再びラベルイメージを獲得する構造をエンコーディング−デコーディングネットワーク、またはＵ−Ｎｅｔと言う。エンコーディング過程で各コンボリューション演算を遂行するたびに入力イメージのサイズが１／２に減るようになるが、これはイメージサイズを減らして演算量を減らそうとするためである。また、エンコーディング過程でコンボリューションフィルタを通じて入力されたイメージのチャネル数は増加するが、これは減った演算量の利得を活用しながらも増えたチャネルを通じて複雑なパターンを得るためである。一般的に、エンコーディング過程で各々のコンボリューションフィルタを経るたびにイメージサイズは１／２に減り、チャネル数は２倍に増える。このように減った特徴マップは高周波領域が多く除去されて低周波領域寄りの情報を有するようになるが、かかる低周波領域はイメージの意味のある（ｍｅａｎｉｎｇｆｕｌ）部分、即ち、空、道路、建物、自動車など詳細な部分を意味する。かかる意味のあるパートをデコンボリューション演算、即ち、デコーディング演算を通じてラベルイメージとして類推するようになる。

最近、前記のようなＵ−Ｎｅｔ構造のネットワークを利用したイメージセグメンテーション過程で性能を増加させるための努力が行なわれてきた。これによって本出願人はイメージセグメンテーションの性能を増加させることができるようにデコーディング過程でエンコーダから出た特徴マップの情報を効率的に利用する新しい技術を提供しようとする。

本発明はイメージセグメンテーション時によりよいエッジ情報を表現することができる方法を提供することを目的とする。

本発明は学習過程でエンコーダから出力された各特徴マップを利用して優れたエッジ情報をデコーダに提供することで最適のパラメータを見つけることができる学習環境を提供することを目的とする。

また本発明は最適のパラメータを見つけて正確なイメージセグメンテーションを提供することができる装置と方法を提供することを目的とする。

本発明の一実施例によれば、（ｉ）トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記Ｈ個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記Ｈ個のデコーディングフィルタは対応される−の間に各々配置される第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法が、（ａ）前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第１−１、前記第１−２、…、前記第１−Ｋ特徴マップを獲得するプロセスを遂行する段階；（ｂ）前記学習装置は、前記Ｈ個のエンコーディングフィルタの各々の出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ特徴マップを獲得するプロセスを遂行する段階；（ｃ）前記学習装置は、（ｉ）前記Ｈ個のデコーディングフィルタをもって前記第３−１ないし第３−Ｈ特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個デコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１特徴マップを順次獲得するプロセスを遂行する段階；及び（ｄ）前記学習装置は、前記第２−１特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整する段階；を含むことを特徴とする学習方法が提供される。

前記一実施例によれば、前記（ａ）段階で、前記学習装置は、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし前記第１−Ｋ特徴マップを生成して、前記（ｂ）段階で、前記学習装置は、前記第３−１ないし前記第３−Ｈフィルタの出力からエッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈ特徴マップを生成し、前記（ｃ）段階で、前記学習装置は、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし前記第２−１特徴マップを生成することを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記（ｂ）段階で、前記学習装置は、Ｈ個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈ特徴マップを獲得することを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記ＨがＫ値である場合、前記学習装置は、（ｉ）前記第１−１ないし第１−Ｋ特徴マップ各々を第３−１ないし第３−Ｋフィルタに入力することで、第３−１ないし第３−Ｋ特徴マップを生成した後、（ｉｉ）前記第３−１ないし第３−Ｋ特徴マップ各々を前記第２−１ないし前記第２−Ｋフィルタに伝達することを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち前記ダイレーションコンボリューションを遂行する前記中間レイヤの各フィルタのＲｅｃｅｐｔｉｖｅｆｉｅｌｄは一部領域のフィルタｗｅｉｇｈｔを除いた残りの領域のフィルタｗｅｉｇｈｔは０で満たされることを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記（ｃ）段階で、前記学習装置は、前記第３−１、前記第３−２、…、前記第３−Ｈ特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋ特徴マップのうちＨ個のデコーディングフィルタから特徴マップを獲得することを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、前記（ｃ）段階で、前記学習装置は、前記第２−Ｋフィルタをもって前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップをデコンボリューション演算を遂行するようにすることで、前記第２−Ｋ特徴マップを獲得することを特徴とする学習方法が提供される。

また、前記一実施例によれば、前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、前記（ｃ）段階で、前記学習装置は、前記第２−Ｋフィルタをもって前記第１−Ｋ特徴マップと前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップをデコンボリューション演算を遂行するようにすることで、前記第２−Ｋ特徴マップを獲得することを特徴とする学習方法が提供される。

本発明の他の実施例によれば、テストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、（ａ）（Ｉ）（ｉ）トレーニングイメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ学習用特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ学習用特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１学習用特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記Ｈ個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記Ｈ個のデコーディングフィルタは対応される−の間に各々配置される第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含む学習装置を利用し、（ＩＩ）前記学習装置は（ｉ）前記エンコーディングレイヤを経て前記第１−１、ないし第１−Ｋ学習用特徴マップを獲得するプロセス；（ｉｉ）前記Ｈ個のエンコーディングフィルタの各々の学習用出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ学習用特徴マップを獲得するプロセス；（ｉｉｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈ学習用特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個デコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１学習用特徴マップを順次獲得するプロセス；（ｉｖ）前記第２−１学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階；（ｂ）前記テスト装置が、前記エンコーディングレイヤを経て第１−１ないし第１−Ｋテスト用特徴マップを獲得するプロセスを遂行する段階；（ｃ）前記テスト装置は、前記Ｈ個のエンコーディングフィルタの各々のテスト用出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１ないし第３−Ｈテスト用特徴マップを獲得するプロセスを遂行する段階；（ｄ）前記テスト装置は、（ｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈテスト用特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１テスト用特徴マップを順次獲得するプロセスを遂行する段階；を含むセグメンテーション方法が提供される。

前記他の実施例によれば、前記（ｂ）段階で、前記テスト装置は、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし第１−Ｋテスト用特徴マップを生成して、前記（ｃ）段階で、前記テスト装置は、前記第３−１ないし前記第３−Ｈフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈテスト用特徴マップを生成し、前記（ｄ）段階で、前記テスト装置は、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし第２−１テスト用特徴マップを生成することを特徴とするセグメンテーション方法が提供される。

また、前記他の実施例によれば、前記（ｃ）段階で、前記テスト装置は、Ｈ個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈテスト用特徴マップを獲得することを特徴とするセグメンテーション方法が提供される。

また、前記他の実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とするセグメンテーション方法が提供される。

また、前記他の実施例によれば、前記（ｄ）段階で、前記テスト装置は、前記第３−１ないし第３−Ｈテスト用特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋテスト用特徴マップのうち前記Ｈ個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とするセグメンテーション方法が提供される。

本発明のまた他の実施例によれば、（ｉ）トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記Ｈ個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記Ｈ個のデコーディングフィルタは対応される−の間に各々配置される第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含むイメージセグメンテーションの性能向上のための学習装置において、前記入力イメージを受信する通信部；及び（Ｉ）前記エンコーディングレイヤを経て前記第１−１、前記第１−２、…、前記第１−Ｋ特徴マップを獲得するプロセス；（ＩＩ）前記Ｈ個のエンコーディングフィルタの各々の出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ特徴マップを獲得するプロセス；（ＩＩＩ）（ｉ）前記Ｈ個のデコーディングフィルタをもって前記第３−１ないし第３−Ｈ特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個デコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１特徴マップを順次獲得するプロセス；及び（ＩＶ）前記第２−１特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサ；を含むことを特徴とする学習装置が提供される。

前記また他の実施例によれば、前記（Ｉ）プロセスで、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし前記第１−Ｋ特徴マップを生成して、前記（ＩＩ）プロセスで、前記第３−１ないし前記第３−Ｈフィルタの出力からエッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈ特徴マップを生成し、前記（ＩＩＩ）プロセスで、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし前記第２−１特徴マップを生成することを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記（ＩＩ）プロセスで、前記Ｈ個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈ特徴マップを獲得することを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記ＨがＫ値である場合、（ｉ）前記第１−１ないし第１−Ｋ特徴マップ各々を第３−１ないし第３−Ｋフィルタに入力することで、第３−１ないし第３−Ｋ特徴マップを生成した後、（ｉｉ）前記第３−１ないし第３−Ｋ特徴マップ各々を前記第２−１ないし前記第２−Ｋフィルタに伝達することを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち前記ダイレーションコンボリューションを遂行する前記中間レイヤの各フィルタのＲｅｃｅｐｔｉｖｅｆｉｅｌｄは一部領域のフィルタｗｅｉｇｈｔを除いた残りの領域のフィルタｗｅｉｇｈｔは０で満たされることを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記（ＩＩＩ）プロセスで、前記第３−１、前記第３−２、…、前記第３−Ｈ特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋ特徴マップのうちＨ個のデコーディングフィルタから特徴マップを獲得することを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、前記（ＩＩＩ）プロセスで、前記第２−Ｋフィルタをもって前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップをデコンボリューション演算を遂行することで、前記第２−Ｋ特徴マップを獲得することを特徴とする学習装置が提供される。

また、前記また他の実施例によれば、前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、前記（ＩＩＩ）プロセスで、前記第２−Ｋフィルタをもって前記第１−Ｋ特徴マップと前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップを利用してデコンボリューション演算を遂行するようにすることで、前記第２−Ｋ特徴マップを獲得することを特徴とする学習装置が提供される。

本発明のまた他の実施例によれば、テストイメージとしての入力イメージに対するイメージセグメンテーション装置において、（Ｉ）（ｉ）トレーニングイメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ学習用特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ学習用特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１学習用特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたＫ個のフィルタのうちＨ個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記Ｈ個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記Ｈ個のデコーディングフィルタは対応される−の間に各々配置される第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含む学習装置を利用し、（ＩＩ）前記学習装置は（ｉ）前記エンコーディングレイヤを経て前記第１−１、ないし第１−Ｋ学習用特徴マップを獲得するプロセス；（ｉｉ）前記Ｈ個のエンコーディングフィルタの各々の学習用出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ学習用特徴マップを獲得するプロセス；（ｉｉｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈ学習用特徴マップ及び前記各々のＨ個の前記デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１学習用特徴マップを順次獲得するプロセス；（ｉｖ）前記第２−１学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを受信する通信部；及び（Ｉ）前記エンコーディングレイヤを経て第１−１ないし第１−Ｋテスト用特徴マップを獲得するプロセス；（ＩＩ）前記Ｈ個のエンコーディングフィルタ各々の出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１ないし第３−Ｈテスト用特徴マップを獲得するプロセス；（ＩＩＩ）（ｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈテスト用特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１テスト用特徴マップを順次獲得するプロセス；を遂行するプロセッサ；を含むセグメンテーション装置が提供される。

前記また他の実施例によれば、前記（Ｉ）プロセスで、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし第１−Ｋテスト用特徴マップを生成して、前記（ＩＩ）プロセスで、前記第３−１ないし前記第３−Ｈフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈテスト用特徴マップを生成し、前記（ＩＩＩ）プロセスで、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし第２−１テスト用特徴マップを生成することを特徴とするセグメンテーション装置が提供される。

また、前記また他の実施例によれば、前記（ＩＩ）プロセスで、前記Ｈ個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈテスト用特徴マップを獲得することを特徴とするセグメンテーション装置が提供される。

また、前記また他の実施例によれば、前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とするセグメンテーション装置が提供される。

また、前記また他の実施例によれば、前記（ＩＩＩ）プロセスで、前記第３−１ないし第３−Ｈテスト用特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋテスト用特徴マップのうち前記Ｈ個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とするセグメンテーション装置が提供される。

本発明によれば、ダイレーションコンボリューション演算をエンコーダのフィルタとデコーダフィルタ間に挿入してイメージセグメンテーションの全体ネットワーク学習過程及びテスト過程がより効果的に遂行されることができる。

本発明によれば、ＣＮＮモデルの学習装置がイメージ内の物体のエッジとｃｏｎｔｅｘｔ情報などを補完して学習するようにできる。

本発明によれば、イメージセグメンテーション時によりよいエッジ情報を表現するようにセグメンテーションを遂行することができる。

図１は、従来技術にかかるイメージセグメンテーションを遂行し得るＣＮＮの学習過程を示す図面である。図２Ａは、本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。図２Ｂは、本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。図３Ａは、本発明の一実施例による多様なＦＯＶを有するダイレーションコンボリューションフィルタを示す図面である。図３Ｂは、本発明の一実施例による多様なＦＯＶを有するダイレーションコンボリューションフィルタを示す図面である。図３Ｃは、本発明の一実施例による多様なＦＯＶを有するダイレーションコンボリューションフィルタを示す図面である。図３Ｄは、コンボリューション演算とダイレーションコンボリューション演算の差を示す図面である。図４は、本発明の一実施例による第２−Ｋ特徴マップを生成する過程を示す図面である。図５は、本発明の他の実施例による第２−Ｋ特徴マップを生成する過程を示す図面である。図６Ａは、本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。図６Ｂは、本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。

図２Ａ及び図２Ｂは本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。図２Ａ及び図２Ｂに示したＣＮＮモデルを利用したイメージセグメンテーションのための学習装置は通信部（未図示）とプロセッサ（未図示）が含まれ得る。

具体的に、通信部は入力イメージとしてトレーニングイメージを受信し得て、プロセッサはエンコーディングレイヤにある複数個のフィルタ、即ちコンボリューションフィルタを通じて入力イメージに対してコンボリューション演算を複数回適用して特徴マップを獲得するプロセスを遂行し得る。その後、プロセッサは複数のフィルタを通じて特定特徴マップ（即ち、エンコーディングレイヤからの最終出力）に対してデコーディングレイヤで複数個のフィルタ（即ち、デコンボリューションフィルタ）を通じてデコンボリューション演算を複数回適用することで、入力イメージに対応するラベルイメージを獲得するプロセスを遂行し得る。また、プロセッサはＣＮＮの各フィルタに対して原本正解ラベルイメージと推定されたラベルイメージ間のロスを利用してバックプロパゲーション過程を遂行することでＣＮＮモデル内の各フィルタまたはレイヤのパラメータを最適化するプロセスを遂行し得る。

図２Ａ及び図２Ｂを参照すれば、本発明にかかる学習装置はＫ個フィルタ（第１−１フィルタないし第１−Ｋフィルタ）を含むエンコーディングレイヤとこれに対応されるＫ個のフィルタ（第２−Ｋないし第２−１フィルタ）を含むデコーディングレイヤを含む。また、学習装置は、前記エンコーディングレイヤの前記第１−１フィルタないし第１−Ｋフィルタ各々と前記デコーディングレイヤの前記第２−１ないし第２−Ｋフィルタのうち対応するフィルタ間に配置された第３−１フィルタないし第３−Ｋフィルタを含む中間レイヤを含む。また、学習装置は、追加で生成された最終出力結果物、例えばラベルイメージと原本正解ラベルイメージ間の差を計算してロスを生成する少なくとも一つのロスレイヤを含む。

また、図２Ａ及び図２Ｂを参照すれば、本発明にかかる学習方法は、学習装置の通信部が入力イメージとしてトレーニングイメージを入力されてエンコーディングレイヤの第１−１フィルタに入力して開始される。また、前記エンコーディングレイヤの第１−１ないし第１−Ｋフィルタは入力されたイメージに対応する特徴マップを求めるためにコンボリューション演算を遂行する。

具体的に、図２Ａ及び図２Ｂで第１−１フィルタは入力イメージを入力されてコンボリューション演算して第１−１特徴マップを生成して出力し、第１−２フィルタは前記第１−１特徴マップを入力されてコンボリューション演算して第１−２特徴マップを生成して出力して、第１−３フィルタは前記第１−２特徴マップを入力されてコンボリューション演算して第１−３特徴マップを生成して出力して、…、第１−（Ｋ−２）フィルタは第１−（Ｋ−３）特徴マップを入力されてコンボリューション演算して第１−（Ｋ−２）特徴マップを生成して出力して、第１−（Ｋ−１）フィルタは前記第１−（Ｋ−２）特徴マップを入力されてコンボリューション演算して第１−（Ｋ−１）特徴マップを生成して出力して、第１−Ｋフィルタは前記第１−（Ｋ−１）特徴マップを入力されてコンボリューション演算して第１−Ｋ特徴マップを生成して出力する。

この時、第１−１ないし第１−Ｋフィルタでコンボリューション演算を遂行するたびに入力イメージのサイズは１／２に減る。また、コンボリューション演算が適用されるたびに第１−１ないし第１−Ｋフィルタの出力のチャネル数は入力の２倍に増加するが、サイズの増加比率または減少比率、チャネルの数は制限されない。

例えば、トレーニングイメージのサイズが６４０×４８０、そのチャネル数が３なら、第１−１特徴マップはサイズが３２０×２４０であり、チャネル数は８であり、第１−２特徴マップはサイズが１６０×１２０、チャネル数は１６、第１−３特徴マップはサイズが８０×６０、チャネル数は３２であり得る。

以後、第１−Ｋ特徴マップはデコーディングレイヤに入力されてラベルイメージを生成するのに利用される。前記デコーディングレイヤの第２−Ｋないし第２−１フィルタはラベルイメージを求めるために、即ち、イメージをセグメンテーションするためにデコンボリューション演算を遂行する。

一方、図２Ａ及び図２Ｂを参照すれば、本発明ではエンコーディングレイヤとデコーディングレイヤ間に中間レイヤをさらに含み、前記中間レイヤは第３−１ないし第３−Ｋフィルタを含む。前記第３−１ないし第３−Ｋフィルタのうち前記第３−１フィルタは前記第１−１フィルタと第２−１フィルタ間に、第３−２フィルタは前記第１−２フィルタと前記第２−２フィルタ間に、…、前記第３−Ｋフィルタは前記第１−Ｋフィルタと前記第２−Ｋフィルタ間に位置する。即ち、中間レイヤの各フィルタはエンコーディングレイヤのフィルタと対応するデコーディングレイヤのフィルタ間に配置され得る。

一例として、前記第３−１フィルタないし前記第３−Ｋフィルタのうち少なくとも一つのフィルタはダイレーションコンボリューションフィルタであり得る。そして、前記第３−１フィルタないし前記第３−Ｋフィルタのうちダイレーションコンボリューションフィルタではない他のフィルタのうち少なくとも一つのフィルタはコンボリューションフィルタであり得る。また、前記第３−１フィルタないし前記第３−Ｋフィルタがすべてダイレーションコンボリューションフィルタである場合もある。

また、前記第３−１フィルタないし前記第３−Ｋフィルタは各々前記第１−１特徴マップないし前記第１−Ｋ特徴マップからエッジ情報を抽出することで前記第３−１ないし前記第３−Ｋ特徴マップを生成し得る。ここで、前記第３−１フィルタないし前記第３−Ｋフィルタは各々前記第１−１特徴マップないし前記第１−Ｋ特徴マップから周波数変化が所定の閾値以上である部分を抽出して第３−１ないし第３−Ｈ特徴マップを獲得し得る。例えば、特定部分は入力イメージのエッジであり得る。

各々の対応する以前のフィルタから提供された特徴マップにデコンボリューション演算が適用される時、デコーディングレイヤのフィルタは第３−１特徴マップないし第３−Ｋ特徴マップのうち対応する特徴マップに含まれたエッジに対する情報を活用し得る。

一般的に、デコーディングされた特徴マップのサイズを増加させるデコーディングプロセス中にエッジに対する情報が復旧されなくなるという問題点がある。従って、本発明によれば、プロセッサはエッジ情報を復旧するのに支援するため、中間レイヤのフィルタからデコーディングレイヤのフィルタにエッジ情報を提供し得る。

具体的に、中間レイヤはエンコーディングレイヤのフィルタ各々から得た各々のエンコーディングされた特徴マップからエッジ情報を抽出し、第３−１特徴マップないし第３−Ｋ特徴マップのエッジ情報を各々デコーディングレイヤの各々対応するフィルタに伝達し得る。従って、デコンボリューション演算を遂行する時、抽出されたエッジ情報が使用され得る。

以下では、第３−１フィルタないし第３−Ｋフィルタのすべてがダイレーションコンボリューションフィルタである場合、本発明の一実施例によってイメージセグメンテーションを遂行し得るＣＮＮの学習過程を説明する。

前記第３−１フィルタは前記第１−１フィルタから第１−１特徴マップを受信した後、ダイレーションコンボリューション演算を遂行して第３−１特徴マップを生成し、第２−１フィルタに提供し得る。続いて、前記第３−２フィルタは前記第１−２フィルタから第１−２特徴マップを受信した後、ダイレーションコンボリューション演算を遂行して第３−２特徴マップを生成し、第２−２フィルタに提供し得る。即ち、中間レイヤの残りのフィルタは同一の手順によって同一のプロセスが遂行され得る。

図３Ａはコンボリューションフィルタの一例を示した図面である。そして、図３Ｂないし図３ＣはＦＯＶを有するダイレーションコンボリューションの多様な例を示す図面である。

図３Ｂないし図３Ｃのように、ダイレーションコンボリューション演算は図３Ａで示したコンボリューションフィルタを図３Ｂないし図３Ｃのようなフィルタ構造に変更してコンボリューション演算することを言う。従って、ダイレーションコンボリューションフィルタのサイズはコンボリューションフィルタのサイズよりも大きくなり得る。フィルタのサイズを拡張させるため、ダイレーションコンボリューションフィルタの重み付け値（即ち、パラメータ）の一部はコンボリューションフィルタから得られた重み付け値を除いては０で満たされ得る。万一フィルタのサイズが拡張されても全体計算時間は重み付け値がないため、同一に維持され得る。従って、ゼロ重み付け値の計算時間が非常に短いため、全体計算時間を増加させずにＦＯＶを増加させ得る。また、万一フィルタのサイズが拡張されてもＦＯＶは解像度を損失させることなくサイズを確張し得る。

図３Ｂ及び図３Ｃに示したように、コンボリューションフィルタから得た重み付け値の値は点で表示され、残りのＦＯＶ部分は０で満たされる。ここで、ＦＯＶは出力された特徴マップの１ピクセル生成に影響を及ぼす入力特徴マップのピクセル領域を意味する。

図３Ａないし図３Ｃは多様なＦＯＶを示したものであり、図３ＡはＦＯＶが３×３である３×３コンボリューションフィルタであり、図３ＢはＦＯＶのサイズが７×７である２−ｄｉｌａｔｅｄコンボリューションフィルタを示し、図３ＣはＦＯＶのサイズは１５×１５である４−ｄｉｌａｔｅｄコンボリューションフィルタを示したものである。

また、図３Ｄはコンボリューションとダイレーションコンボリューションの演算の例を示すが、図３Ｄの左側図面は演算対象となるトレーニングイメージまたは特徴マップのピクセル値を示し、中央の上部図面はコンボリューションフィルタ、そして中央の下部図面は２−ｄｉｌａｔｅｄコンボリューションフィルタを示したものである。前記コンボリューションフィルタとダイレーションコンボリューションフィルタは演算量は同一だが、２−ダイレーションコンボリューションのＦＯＶがコンボリューションフィルタのＦＯＶよりもさらに大きい。図３Ｄの右側図面のような３×３結果を得るために、一般的なコンボリューションを使用すると、図３Ｄ左側イメージのうち陰影表示された領域のＦＯＶだけ参照（即ち、出力される特徴マップの１ピクセル生成時に陰影表示された領域に対応されるサイズのピクセルだけ演算）し、２−ダイレーションコンボリューションフィルタは図３Ｄ左側イメージの陰影表示領域だけでなく全体領域を参照し得る。即ち、同じ結果を得るために参照する領域が２−ダイレーションコンボリューションがさらに大きいという意味である。このように、ダイレーションコンボリューションフィルタはコンボリューションフィルタと比較して演算は同一である反面、さらに大きい領域を参照するようにし得るという特性がある。

図４は本発明の一実施例による第２−Ｋ特徴マップを生成する過程を示す図面である。

図４を参照すれば、第２−Ｋフィルタは第１−Ｋ特徴マップと第３−Ｋ特徴マップにデコンボリューション演算を遂行し得る。例えば、第２−Ｋ特徴マップは第３−Ｋ特徴マップに第１−Ｋ特徴マップを追加した後、デコンボリューション演算を遂行して第２−Ｋ特徴マップを獲得し得る。即ち、第２−Ｋフィルタは、第１−Ｋ特徴マップ及び第３−Ｋ特徴マップの特徴を結合してデコンボリューション演算を遂行した後、第２−Ｋ特徴マップを生成し得る。ここで、第１−Ｋ特徴マップと第３−Ｋ特徴マップの特徴を結合する動作は第１−Ｋ特徴マップ及び第３−Ｋ特徴マップの各々のピクセル値を合算する動作であり得るが、これに限定されるものではない。一方、場合によって第２−Ｋフィルタは第１−Ｋ特徴マップに対してデコンボリューション演算を遂行して中間特徴マップを生成した後、第３−Ｋ特徴マップと中間特徴マップを合算して第２−Ｋ特徴マップを生成し得る。

図５は本発明の他の実施例による第２−Ｋ特徴マップを生成する過程を示す図面である。

図５を参照すれば、第３−Ｋフィルタが第１−Ｋ特徴マップにダイレーションコンボリューション演算を遂行して第３−Ｋ特徴マップを生成し、第２−Ｋフィルタが第３−Ｋフィルタから出力された第３−Ｋ特徴マップにデコンボリューション演算を遂行して前記第２−Ｋ特徴マップを生成する。

その後、第２−（Ｋ−１）フィルタは第２−Ｋフィルタから第２−Ｋ特徴マップを獲得し、第３−（Ｋ−１）フィルタから第３−（Ｋ−１）特徴マップを獲得し得る。そして、所定の演算を遂行して第２−（Ｋ−１）特徴マップを獲得し得る。参考までに、デコーディングレイヤにあるすべてのフィルタは前記手順によって第２−Ｋフィルタが第２−Ｋ特徴マップを生成し得る。

ここで、第２−Ｋフィルタないし第２−１フィルタ各々の出力サイズは第２−Ｋフィルタないし第２−１フィルタ各々の入力サイズの２倍に増加される。また、第２−Ｋフィルタないし第２−１フィルタ各々の出力のチャネル数はデコンボリューション演算が適用されるたびに入力の１／２に減少される。

例えば、第２−Ｋ特徴マップのサイズが２０×１５でチャネル数が１２８の場合、第２−（Ｋ−１）特徴マップのサイズは４０×３０であり、そのチャネル数は６４である。同様に、第２−（Ｋ−２）特徴マップのサイズは８０×６０でそのチャネル数は３２、第２−（Ｋ−３）特徴マップのサイズは１６０×１２０、チャネル数は１６であり得る。

そして、再び図２Ａ及び図２Ｂを参照すれば、前記学習装置は第２−１特徴マップ（即ち、推定されたラベルイメージ）と原本正解ラベルイメージ値を比較してロスを算出するロスレイヤをさらに含む。前記推定されたラベルイメージは前記第２−１特徴マップを追加で処理することで獲得され得る。前記ロスレイヤはロスを算出し、算出されたロスはバックプロパゲーション過程を通じて伝達されて第２−１フィルタないし第２−Ｋフィルタ、第３−１フィルタないし第３−Ｋフィルタ及び第１−Ｋフィルタないし第１−１フィルタのうち少なくとも一つ以上のパラメータを調整し得る。

図６Ａ及び図６Ｂは本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。

図６Ａ及び図６Ｂに示した学習方法では図２Ａ及び図２Ｂに示した学習過程と同一の過程を経るが、中間レイヤのフィルタがすべてのエンコーディングレイヤ及びデコーディングレイヤの各フィルタ間に配置されて前記フィルタと連動されず、前記エンコーディングレイヤフィルタとデコーディングレイヤのフィルタのうち一部のフィルタとだけ連動される実施例による学習方法を示したものである。即ち、エンコーディングレイヤ及びデコーディングレイヤにあるフィルタと関連した中間レイヤのフィルタの数はＫよりも小さくなり得る。

図６Ａ及び図６Ｂを参照すれば、中間レイヤはＨ個のフィルタ−Ｈは１よりも大きいか同じでＫよりも小さな自然数−を含んで、前記第３−１ないし第３−Ｈフィルタのうち前記Ｈ個のフィルタは前記エンコーディングレイヤの前記第１−１ないし１−Ｋフィルタのうち一部であるＨ個のフィルタ及び前記デコーディングレイヤの前記第２−１ないし２−Ｋフィルタのうち一部であるＨ個のフィルタと連動する。ここで、エンコーディングレイヤの第１−１フィルタないし第１−Ｋフィルタのうち選択されたＨ個のフィルタは第１−１フィルタないし第１−Ｈフィルタとみなされ、デコーディングレイヤの第２−１フィルタないし第２−Ｋフィルタのうち選択されたＨ個のフィルタは第２−１フィルタないし第２−Ｈフィルタとみなされ得る。

具体的に、前記第１−１フィルタないし前記第１−Ｈフィルタはエンコーディングレイヤの左側から右側に順次ナンバリングされる。また、第２−１フィルタないし第２−Ｈフィルタはデコーディングレイヤの左側から右側に順次ナンバリングされる。但し、Ｋ個のフィルタ各々のセットと比較して同一のナンバリングが同一のフィルタを指称しない場合もある。例えば、Ｈ個のフィルタのうち第２−２フィルタはＫ個のフィルタのうち第２−２フィルタと異なる場合もある。

図６Ａ及び図６Ｂでは学習装置が、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１特徴マップを順次獲得するプロセスを遂行する場合、前記学習装置は、前記Ｈ個のデコーディングフィルタをもって前記第３−１ないし第３−Ｈ特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップにデコンボリューション演算を適用するようにし得る。また、前記学習装置は、前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップ各々にデコンボリューション演算を適用し得る。

即ち、前記第１−１、前記第１−２、…、前記第１−Ｋ特徴マップのうち前記第３−１ないし前記第３−Ｈフィルタ各々と連動する特徴マップに対して前記第３−１ないし前記第３−Ｈフィルタを各々利用してエッジ情報を抽出することで前記第３−１ないし前記第３−Ｈ特徴マップを生成し得る。

中間レイヤがすべてのエンコーディングレイヤフィルタとデコーディングレイヤフィルタ間に連結されずに一部にのみ連結される場合には、中間レイヤでの演算量が減りながらもエンコーディングレイヤの特徴マップのエッジ情報をデコーディング過程の中間で活用することができるため、学習効率やイメージテスト性能が維持されることができる効果がある。

図２Ａ及び図２Ｂないし図６Ａ及び図６Ｂは本発明にかかるイメージセグメンテーションのための学習装置及び学習方法を説明した。かかる学習装置はバックプロパゲーション過程を通じて最適のパラメータ値を求めるようにされる。

以下、イメージセグメンテーションを遂行するためのテスト装置（未図示）の構成を簡略に説明する。テスト装置は学習プロセスを通じて発見された前述した最適のパラメータを利用し、テストイメージに対するイメージセグメンテーションを遂行する。テスト装置は学習装置と同一の装置であり得るが、場合によって他の装置である場合がある。前で説明したことと同一または類似する構成要素または機能について重複説明は反復せず、そのような構成要素及び機能の詳細な説明は省略され得る。

前記テスト装置はテストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、通信部（未図示）及びプロセッサ（未図示）を含んでおり、通信部は外部装置と通信するように構成され得る。

特に、前で説明した学習装置が学習処理を完了し、エンコーディングレイヤ、中間レイヤ、デコーディングレイヤのうち少なくとも一つのフィルタの調整されたパラメータを獲得した状態で、通信部はテストイメージを獲得し得る。また、プロセッサは（Ｉ）前記エンコーディングレイヤを経て第１−１ないし第１−Ｋテスト用特徴マップを獲得するプロセス；（ＩＩ）前記Ｈ個のエンコーディングフィルタの各々のテスト用出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１ないし第３−Ｈテスト用特徴マップを獲得するプロセス；（ＩＩＩ）（ｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈテスト用特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１テスト用特徴マップを順次獲得するプロセスを遂行し得る。

ここで、テスト用のすべての特徴マップはテスト装置のエンコーディングレイヤ、中間レイヤ、デコーディングレイヤの各フィルタによって遂行される一連の動作を通じてテストイメージから誘導された特徴マップを指称し得る。

一方、イメージセグメンテーションを遂行するためのテスト装置を利用したテスト方法はバックプロパゲーション過程を遂行しない場合もある。また、イメージセグメンテーションを遂行するためのテスト方法は学習プロセスを通じて獲得された最適のパラメータを利用し得る。

本発明の技術分野の通常の技術者に理解され得ることとして、上で説明されたイメージ、例えば、トレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって構成され得て、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ（及び／またはメモリ）によって保有／維持され得て、コンボリューション演算、デコンボリューション演算、ロス値演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明はこれに限定されるものではない。

以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。

従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。

Claims

（ｉ）トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれているＫ個のフィルタから選択されたＨ個のエンコーディングフィルタ（１≦Ｈ＜Ｋ）の各々と、前記デコーディングレイヤに含まれているＫ個のフィルタから選択され前記Ｈ個のエンコーディングフィルタの各々に対応するＨ個のデコーディングフィルタの各々と、の間に各々配置されている第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法において、
（ａ）前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第１−１、前記第１−２、…、前記第１−Ｋ特徴マップを獲得するプロセスを遂行する段階；
（ｂ）前記学習装置は、前記Ｈ個のエンコーディングフィルタの各々の出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ特徴マップを獲得するプロセスを遂行する段階；
（ｃ）前記学習装置は、（ｉ）前記Ｈ個のデコーディングフィルタをもって前記第３−１ないし第３−Ｈ特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個デコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１特徴マップを順次獲得するプロセスを遂行する段階；及び
（ｄ）前記学習装置は、前記第２−１特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整する段階；を含み、
前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第３−１ないし前記第３−Ｈフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのＲｅｃｅｐｔｉｖｅｆｉｅｌｄは、一部領域のフィルタｗｅｉｇｈｔを除いた残りの領域のフィルタｗｅｉｇｈｔが０で満たされる、ことを特徴とする学習方法。
前記（ａ）段階で、前記学習装置は、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし前記第１−Ｋ特徴マップを生成して、
前記（ｂ）段階で、前記学習装置は、前記第３−１ないし前記第３−Ｈフィルタの出力からエッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈ特徴マップを生成し、
前記（ｃ）段階で、前記学習装置は、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし前記第２−１特徴マップを生成することを特徴とする請求項１に記載の学習方法。
前記（ｂ）段階で、前記学習装置は、Ｈ個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈ特徴マップを獲得することを特徴とする請求項２に記載の学習方法。
前記ＨがＫ値である場合、前記学習装置は、（ｉ）前記第１−１ないし第１−Ｋ特徴マップ各々を第３−１ないし第３−Ｋフィルタに入力することで、第３−１ないし第３−Ｋ特徴マップを生成した後、（ｉｉ）前記第３−１ないし第３−Ｋ特徴マップ各々を前記第２−１ないし前記第２−Ｋフィルタに伝達することを特徴とする請求項１に記載の学習方法。
前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタは、コンボリューション演算を遂行することを特徴とする請求項１に記載の学習方法。
前記（ｃ）段階で、前記学習装置は、前記第３−１、前記第３−２、…、前記第３−Ｈ特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋ特徴マップのうちＨ個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項１に記載の学習方法。
前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、
前記（ｃ）段階で、前記学習装置は、前記第２−Ｋフィルタをもって前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップをデコンボリューション演算を遂行するようにすることで、前記第２−Ｋ特徴マップを獲得することを特徴とする請求項１に記載の学習方法。
前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、
前記（ｃ）段階で、前記学習装置は、前記第２−Ｋフィルタをもって前記第１−Ｋ特徴マップと前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップをデコンボリューション演算を遂行するようにすることで、前記第２−Ｋ特徴マップを獲得することを特徴とする請求項１に記載の学習方法。
テストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、
（ａ）（Ｉ）（ｉ）トレーニングイメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ学習用特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ学習用特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１学習用特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれているＫ個のフィルタから選択されたＨ個のエンコーディングフィルタ（１≦Ｈ＜Ｋ）の各々と、前記デコーディングレイヤに含まれているＫ個のフィルタから選択され前記Ｈ個のエンコーディングフィルタの各々に対応するＨ個のデコーディングフィルタの各々と、の間に各々配置されている第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含む学習装置を利用し、（ＩＩ）前記学習装置は（ｉ）前記エンコーディングレイヤを経て前記第１−１、ないし第１−Ｋ学習用特徴マップを獲得するプロセス；（ｉｉ）前記Ｈ個のエンコーディングフィルタの各々の学習用出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ学習用特徴マップを獲得するプロセス；（ｉｉｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈ学習用特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個デコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１学習用特徴マップを順次獲得するプロセス；（ｉｖ）前記第２−１学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階；
（ｂ）前記テスト装置が、前記エンコーディングレイヤを経て第１−１ないし第１−Ｋテスト用特徴マップを獲得するプロセスを遂行する段階；
（ｃ）前記テスト装置は、前記Ｈ個のエンコーディングフィルタの各々のテスト用出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１ないし第３−Ｈテスト用特徴マップを獲得するプロセスを遂行する段階；
（ｄ）前記テスト装置は、（ｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈテスト用特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１テスト用特徴マップを順次獲得するプロセスを遂行する段階；
を含み、
前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第３−１ないし前記第３−Ｈフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのＲｅｃｅｐｔｉｖｅｆｉｅｌｄは、一部領域のフィルタｗｅｉｇｈｔを除いた残りの領域のフィルタｗｅｉｇｈｔが０で満たされる、セグメンテーション方法。
前記（ｂ）段階で、前記テスト装置は、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし第１−Ｋテスト用特徴マップを生成して、
前記（ｃ）段階で、前記テスト装置は、前記第３−１ないし前記第３−Ｈフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈテスト用特徴マップを生成し、
前記（ｄ）段階で、前記テスト装置は、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし第２−１テスト用特徴マップを生成することを特徴とする請求項９に記載のセグメンテーション方法。
前記（ｃ）段階で、前記テスト装置は、Ｈ個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈテスト用特徴マップを獲得することを特徴とする請求項１０に記載のセグメンテーション方法。
前記（ｄ）段階で、前記テスト装置は、前記第３−１ないし第３−Ｈテスト用特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋテスト用特徴マップのうち前記Ｈ個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項９に記載のセグメンテーション方法。
（ｉ）トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれているＫ個のフィルタから選択されたＨ個のエンコーディングフィルタ（１≦Ｈ＜Ｋ）の各々と、前記デコーディングレイヤに含まれているＫ個のフィルタから選択され前記Ｈ個のエンコーディングフィルタの各々に対応するＨ個のデコーディングフィルタの各々と、の間に各々配置されている第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含むイメージセグメンテーションの性能向上のための学習装置において、
前記入力イメージを受信する通信部；及び
（Ｉ）前記エンコーディングレイヤを経て前記第１−１、前記第１−２、…、前記第１−Ｋ特徴マップを獲得するプロセス；（ＩＩ）前記Ｈ個のエンコーディングフィルタの各々の出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ特徴マップを獲得するプロセス；（ＩＩＩ）（ｉ）前記Ｈ個のデコーディングフィルタをもって前記第３−１ないし第３−Ｈ特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個デコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１特徴マップを順次獲得するプロセス；及び（ＩＶ）前記第２−１特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサ；を含み、
前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第３−１ないし前記第３−Ｈフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのＲｅｃｅｐｔｉｖｅｆｉｅｌｄは、一部領域のフィルタｗｅｉｇｈｔを除いた残りの領域のフィルタｗｅｉｇｈｔが０で満たされる、ことを特徴とする学習装置。
前記（Ｉ）プロセスで、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし前記第１−Ｋ特徴マップを生成して、
前記（ＩＩ）プロセスで、前記第３−１ないし前記第３−Ｈフィルタの出力からエッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈ特徴マップを生成し、
前記（ＩＩＩ）プロセスで、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし前記第２−１特徴マップを生成することを特徴とする請求項１３に記載の学習装置。
前記（ＩＩ）プロセスで、前記Ｈ個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈ特徴マップを獲得することを特徴とする請求項１４に記載の学習装置。
前記ＨがＫ値である場合、（ｉ）前記第１−１ないし第１−Ｋ特徴マップ各々を第３−１ないし第３−Ｋフィルタに入力することで、第３−１ないし第３−Ｋ特徴マップを生成した後、（ｉｉ）前記第３−１ないし第３−Ｋ特徴マップ各々を前記第２−１ないし前記第２−Ｋフィルタに伝達することを特徴とする請求項１３に記載の学習装置。
前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする請求項１３に記載の学習装置。
前記（ＩＩＩ）プロセスで、前記第３−１、前記第３−２、…、前記第３−Ｈ特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋ特徴マップのうちＨ個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項１３に記載の学習装置。
前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、
前記（ＩＩＩ）プロセスで、前記第２−Ｋフィルタをもって前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップをデコンボリューション演算を遂行することで、前記第２−Ｋ特徴マップを獲得することを特徴とする請求項１３に記載の学習装置。
前記第３−Ｈフィルタが前記第１−Ｋフィルタと連動する場合、
前記（ＩＩＩ）プロセスで、前記第２−Ｋフィルタをもって前記第１−Ｋ特徴マップと前記第３−Ｈフィルタから出力された第３−Ｈ特徴マップを利用してデコンボリューション演算を遂行するようにすることで、前記第２−Ｋ特徴マップを獲得することを特徴とする請求項１３に記載の学習装置。
テストイメージとしての入力イメージに対するイメージセグメンテーション装置において、
（Ｉ）（ｉ）トレーニングイメージに対してコンボリューション演算を複数回遂行して第１−１、第１−２、…、第１−Ｋ学習用特徴マップを獲得する、第１−１ないし第１−Ｋフィルタを含むエンコーディングレイヤ；（ｉｉ）前記第１−Ｋ学習用特徴マップに対してデコンボリューション演算を複数回遂行して第２−Ｋ、第２−（Ｋ−１）、…、第２−１学習用特徴マップを獲得する、第２−Ｋないし第２−１フィルタを含むデコーディングレイヤ；及び（ｉｉｉ）前記エンコーディングレイヤに含まれているＫ個のフィルタから選択されたＨ個のエンコーディングフィルタ（１≦Ｈ＜Ｋ）の各々と、前記デコーディングレイヤに含まれているＫ個のフィルタから選択され前記Ｈ個のエンコーディングフィルタの各々に対応するＨ個のデコーディングフィルタの各々と、の間に各々配置されている第３−１ないし第３−Ｈフィルタを含む中間レイヤ；を含む学習装置を利用し、（ＩＩ）前記学習装置は（ｉ）前記エンコーディングレイヤを経て前記第１−１、ないし第１−Ｋ学習用特徴マップを獲得するプロセス；（ｉｉ）前記Ｈ個のエンコーディングフィルタの各々の学習用出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１、第３−２、…、第３−Ｈ学習用特徴マップを獲得するプロセス；（ｉｉｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈ学習用特徴マップ及び前記各々のＨ個の前記デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタをもって前記（Ｋ−Ｈ）個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１学習用特徴マップを順次獲得するプロセス；（ｉｖ）前記第２−１学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第２−１ないし前記第２−Ｋフィルタ、前記第３−１ないし前記第３−Ｈフィルタ、及び前記第１−１ないし前記第１−Ｋフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを受信する通信部；及び
（Ｉ）前記エンコーディングレイヤを経て第１−１ないし第１−Ｋテスト用特徴マップを獲得するプロセス；（ＩＩ）前記Ｈ個のエンコーディングフィルタ各々の出力を前記第３−１ないし前記第３−Ｈフィルタに入力することで、第３−１ないし第３−Ｈテスト用特徴マップを獲得するプロセス；（ＩＩＩ）（ｉ）前記Ｈ個デコーディングフィルタをもって前記第３−１ないし第３−Ｈテスト用特徴マップ及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、（ｉｉ）前記第３−１ないし第３−Ｈフィルタに対応されない各々の（Ｋ−Ｈ）個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第２−Ｋ、前記第２−（Ｋ−１）、…、前記第２−１テスト用特徴マップを順次獲得するプロセス；を遂行するプロセッサ；
を含み、
前記第３−１ないし前記第３−Ｈフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行し、
前記第３−１ないし前記第３−Ｈフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのＲｅｃｅｐｔｉｖｅｆｉｅｌｄは、一部領域のフィルタｗｅｉｇｈｔを除いた残りの領域のフィルタｗｅｉｇｈｔが０で満たされる、セグメンテーション装置。
前記（Ｉ）プロセスで、前記第１−１ないし前記第１−Ｋフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第１−１ないし第１−Ｋテスト用特徴マップを生成して、
前記（ＩＩ）プロセスで、前記第３−１ないし前記第３−Ｈフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第３−１ないし前記第３−Ｈテスト用特徴マップを生成し、
前記（ＩＩＩ）プロセスで、前記第２−Ｋないし前記第２−１フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第２−Ｋないし第２−１テスト用特徴マップを生成することを特徴とする請求項２１に記載のセグメンテーション装置。
前記（ＩＩ）プロセスで、前記Ｈ個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第３−１ないし第３−Ｈテスト用特徴マップを獲得することを特徴とする請求項２２に記載のセグメンテーション装置。
前記（ＩＩＩ）プロセスで、前記第３−１ないし第３−Ｈテスト用特徴マップの情報及び前記各々のＨ個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第２−１ないし第２−Ｋテスト用特徴マップのうち前記Ｈ個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項２１に記載のセグメンテーション装置。