JP6863619B2

JP6863619B2 - コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置｛ｍｅｔｈｏｄａｎｄｄｅｖｉｃｅｆｏｒｐｒｏｖｉｄｉｎｇｉｎｔｅｇｒａｔｅｄｆｅａｔｕｒｅｍａｐｕｓｉｎｇｅｎｓｅｍｂｌｅｏｆｍｕｌｔｉｐｌｅｏｕｔｐｕｔｓｆｒｏｍｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ｝

Info

Publication number: JP6863619B2
Application number: JP2019160238A
Authority: JP
Inventors: キム、ケヒョン; キム、ヨンジョン; キム、インス; キム、ハキョン; ナム、ウンヒュン; ボ、シュクフン; スン、ミュンチュル; ヨー、ドンフン; リュウ、ウージュ; ジャン、テウォン; ジョン、キュンジョン; ジェ、ホンモ; チョ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2018-09-04
Filing date: 2019-09-03
Publication date: 2021-04-21
Anticipated expiration: 2039-09-03
Also published as: JP2020038664A; US10311337B1; CN110874563A; CN110874563B; KR20200027426A; KR102313133B1; EP3620987A1

Description

本発明は、コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための方法及び装置に関する。より詳しくは、（ａ）ＣＮＮ装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階；（ｂ）前記ＣＮＮ装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階；（ｃ）前記ＣＮＮ装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階；及び（ｄ）前記ＣＮＮ装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階；を含むことを特徴とする方法及びこれを利用した装置に関する。

ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけでは犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されると、これを犬の写真だとコンピュータが分類するようにしたのである。

データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場している。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン（ＳＶＭ）」「人工神経網」などが代表的である。このうち、ディープラーニングは人工神経網の後裔である。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮｓ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮｓは、文字の認識問題を解くために９０年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげである。このようなディープＣＮＮは２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。一方、イメージセグメンテーションは、入力としてイメージ（トレーニングイメージまたはテストイメージ）を受けて出力としてラベルイメージを生成する方法である。最近はディープラーニング（Ｄｅｅｐｌｅａｒｎｉｎｇ）技術が脚光を浴び、セグメンテーションを遂行する際もディープラーニングを多く利用する傾向にある。

一方、このようなセグメンテーション性能向上のための様々な方法が提示されている。
このような方法の一つとして、セグメンテーションを行う際、ＣＮＮを複数利用してセグメンテーションの精度を高め得る。即ち、同一の入力データに対して複数のＣＮＮ装置へ入力した後、複数のＣＮＮ装置それぞれの出力を合わせて利用するが、その場合、複数のＣＮＮ装置のパラメータの初期値も毎回ランダムに設定し、一つのセグメンテーション結果値を得るために複数のＣＮＮ装置を個別に学習させなければならないという問題点が存在する。

本発明は、前述した全ての問題点を解決することを目的とする。
本発明の他の目的は、ＣＮＮ装置の数を一つだけ利用しながらも、一つの入力イメージから多様な情報を得ることができるので、セグメンテーション性能を向上させ得る方法を提供することを目的とする。

本発明の一態様によれば、コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための方法において、（ａ）ＣＮＮ装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成する段階；（ｂ）前記ＣＮＮ装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階；（ｃ）前記ＣＮＮ装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階；及び（ｄ）前記ＣＮＮ装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階；を含むことを特徴とする方法が提供される。

一例として、前記変形関数（Ｔ_ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ_ｉ（Ｉ））に変形させる関数であり、前記ｉは、１ないしｎの自然数であり、前記変形関数（Ｔ_ｉ）は、逆変換関数（Ｔ^−１ _ｉ（Ｔ_ｉ（Ｉ））＝Ｉ）が存在する関数であることを特徴とする方法が提供される。

一例として、前記変形関数（Ｔ_ｉ）は、アフィン変換アルゴリズム（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｌｇｏｒｉｔｈｍ）及び薄板スプラインアルゴリズム（ｔｈｉｎ−ｐｌａｔｅｓｐｌｉｎｅａｌｇｏｒｉｔｈｍ）の中から少なくとも一つを利用して前記入力イメージ（Ｉ）を変形することを特徴とする方法が提供される。

一例として、前記それぞれの変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする方法が提供される。

一例として、前記複数の逆変換特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記（ｄ）段階で、前記ＣＮＮ装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする方法が提供される。

一例として、前記（ｄ）段階で、前記ＣＮＮ装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする方法が提供される。

一例として、前記（ｃ）段階で、前記ＣＮＮ装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする方法が提供される。

一例として、（ｅ）前記ＣＮＮ装置が、（ｉ）前記統合された特徴マップを参照して取得された出力値とＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）値との差を基にロスを算出し、（ｉｉ）前記ロスを最小化するようバックプロパゲーションを遂行することにより、前記ＣＮＮ装置の少なくとも一つのパラメータを最適化する段階；をさらに含むことを特徴とする方法が提供される。

本発明のまたの態様によれば、入力イメージとしてのテストイメージに対するＣＮＮテスト方法において、（ａ）ＣＮＮ装置を利用して（ｉ）トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス；（ｉｉ）前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス；（ｉｉｉ）前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；（ｉｖ）前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス；及び（ｖ）前記学習用統合特徴マップを参照して取得された学習用出力値とＧＴ値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記ＣＮＮ装置のパラメータを最適化するプロセス；を経て学習された上記ＣＮＮ装置のパラメータが獲得された状態で、上記学習された上記ＣＮＮ装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを獲得する段階；（ｂ）前記テスト装置が、前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成する段階；（ｃ）前記テスト装置が、前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得する段階；（ｄ）前記テスト装置が、前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する段階；及び（ｅ）前記テスト装置が、前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合された特徴マップを取得する段階；を含む方法が提供される。

一例として、前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする方法が提供される。
一例として、前記複数の学習用逆変換特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記（ｉｖ）プロセスで、前記ＣＮＮ装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、前記（ｅ）段階で、前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする方法が提供される。

本発明のまた他の態様によれば、コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための装置において、トレーニングイメージとしての入力イメージを受信する通信部；及び（１）前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス；（２）前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス；（３）前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；及び（４）前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス；を遂行するプロセッサ；を含むことを特徴とするＣＮＮ装置が提供される。

一例として、前記変形関数（Ｔ_ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ_ｉ（Ｉ））に変形させる関数であり、前記ｉは、１ないしｎの自然数であり、前記変形関数（Ｔ_ｉ）は、逆変換関数（Ｔ^−１ _ｉ（Ｔ_ｉ（Ｉ））＝Ｉ）が存在する関数であることを特徴とするＣＮＮ装置が提供される。

一例として、前記変形関数（Ｔ_ｉ）は、アフィン変換アルゴリズム（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｌｇｏｒｉｔｈｍ）及び薄板スプラインアルゴリズム（ｔｈｉｎ−ｐｌａｔｅｓｐｌｉｎｅａｌｇｏｒｉｔｈｍ）の中から少なくとも一つを利用して前記入力イメージ（Ｉ）を変形することを特徴とするＣＮＮ装置が提供される。

一例として、前記変形関数（Ｔ_ｉ）は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とするＣＮＮ装置が提供される。

一例として、前記複数の逆変換特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記（４）プロセスで、前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とするＣＮＮ装置が提供される。

一例として、前記（４）プロセスで、前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とするＣＮＮ装置が提供される。

一例として、前記（３）プロセスで、前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とするＣＮＮ装置が提供される。

一例として、前記プロセッサは、（５）前記統合された特徴マップを参照して取得された出力値とＧＴ値との差をもとにロスを算出し、前記ロスを最小化するようバックプロパゲーションを遂行することにより、前記ＣＮＮ装置の少なくとも一つのパラメータを最適化するプロセス；をさらに遂行することを特徴とするＣＮＮ装置が提供される。

本発明のまた他の態様によれば、入力イメージとしてのテストイメージに対するＣＮＮテスト装置において、ＣＮＮ装置を利用して（ｉ）トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス；（ｉｉ）前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス；（ｉｉｉ）前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；（ｉｖ）前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス；及び（ｖ）前記学習用統合特徴マップを参照して取得された学習用出力値とＧＴ値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記ＣＮＮ装置のパラメータを最適化するプロセス；を経て学習された上記ＣＮＮ装置のパラメータが獲得された状態で、上記学習された上記ＣＮＮ装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを受信する通信部；及び（１）前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して、複数のテスト用変形入力イメージを生成するプロセス；（２）前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得するプロセス；（３）前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；及び（４）前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合特徴マップを取得するプロセス；を遂行するプロセッサ；を含むテスト装置が提供される。

一例として、前記変形関数（Ｔ_ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ_ｉ（Ｉ））に変形させる関数であり、前記ｉは、１ないしｎの自然数であり、前記変形関数（Ｔ_ｉ）は、逆変換関数（Ｔ^−１ _ｉ（Ｔ_ｉ（Ｉ））＝Ｉ）が存在する関数であることを特徴とするテスト装置が提供される。

一例として、前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とするテスト装置が提供される。

一例として、前記複数の学習用逆変換の特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、前記（ｉｖ）プロセスで、前記ＣＮＮ装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、前記（４）プロセスで、前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とするテスト装置が提供される。

本発明によれば、ＣＮＮ装置、学習装置、またはテスト装置を１つだけ利用しながらも、一つの入力イメージから複数の他の特徴マップを取得する効果がある。
また、本発明によれば、一つの入力イメージから多くの多様な結果を得てこれを統合することでセグメンテーションの性能に優れたＣＮＮ装置、学習装置、あるいはテスト装置を実装できる効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野において、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。

図１は、本発明に係る入力イメージの変形によって取得された多数のイメージセットを利用して学習を遂行する方法を示すフローチャートである。図２は、本発明に係る入力イメージの変形によって取得された多数のイメージセットを利用してセグメンテーションを遂行する過程を示す図面である。図３は、図２に図示したセグメンテーションの過程を各段階別に示した図面である。図４は、図２に図示したセグメンテーションの過程を各段階別に示した図面である。図５は、図２に図示したセグメンテーションの過程を各段階別に示した図面である。図６は、図２に図示したセグメンテーションの過程を各段階別に示した図面である。図７は、本発明に係るＣＮＮの全体演算の過程を示す図面である。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は、本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面において類似する参照符号は、いくつかの側面にわたって同一であるか、類似する機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得るし、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得り、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本明細書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図１は、本発明に係る入力イメージの変形を通じて取得された多数のイメージセットを利用して学習を遂行する方法を示すフローチャートであり、図２は、本発明による、入力イメージの変形によって取得された多数のイメージセットを利用してセグメンテーションを遂行する過程を示した図面であり、図３ないし図６は、図２に示したセグメンテーションの過程を各段階別に示した図面であり、図７は本発明に係るＣＮＮの全体演算の過程を示した図面である。

図１を参照すれば、本発明に係るＣＮＮ学習方法は、（ｉ）入力イメージを受信し、入力イメージを変形させる複数の変形関数を適用して複数の変形入力のイメージを生成する段階Ｓ０１、（ｉｉ）変形された入力のイメージそれぞれに対してコンボリューション演算を適用して変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階Ｓ０２、（ｉｉｉ）変形された特徴マップそれぞれに対して変形関数それぞれに対応する逆変換関数をそれぞれ適用して変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階Ｓ０３、（ｉｖ）逆変換の特徴マップのうち少なくとも一部を統合して統合された特徴マップを取得する段階Ｓ０４、（ｖ）統合された特徴マップを参照してセグメンテーションの結果を取得する段階Ｓ０５及び（ｖｉ）出力値、つまり、セグメンテーション結果値とＧＴ値との間の差に基づいてロスを算出し、ＣＮＮを学習する段階Ｓ０６を含む。ここで、段階Ｓ０６は必須ではなく、段階Ｓ０１から段階Ｓ０５まで遂行してセグメンテーションの結果を得る過程も本発明の重要な特徴と言えるであろう。

このようなプロセスはＣＮＮ装置において遂行され得る。このＣＮＮ装置の通信部では入力イメージを受信し、ＣＮＮ装置のプロセッサでは（１）前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス；（２）前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス；（３）前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換の特徴マップそれぞれを生成するプロセス；及び（４）前記逆変換の特徴マップのうち、少なくとも一部を統合して、統合された特徴マップを取得するプロセスを遂行する。

もちろん、このようなＣＮＮを学習する学習装置（未図示）のプロセッサは、（１）トレーニングイメージとしての入力イメージを受信し、入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス；（２）前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス；（３）前記変形された特徴マップそれぞれに対して前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換の特徴マップそれぞれを生成するプロセス；及び（４）前記逆変換の特徴マップのうち少なくとも一部を統合して、統合された特徴マップを生成してセグメンテーション結果（出力値）を取得するプロセスを遂行した後、セグメンテーションの結果（出力値）とＧＴ値との差を基にロスを算出し、ロスを最小化するためにバックプロパゲーションを遂行することで、ＣＮＮ装置の少なくとも一つのパラメータを最適化するプロセスを遂行することを特徴とする。

一方、本発明に係るＣＮＮテスト方法では、前記学習過程によって最適化された少なくとも一つのパラメータを有するＣＮＮ装置を利用し、前記で言及した段階Ｓ０１で段階Ｓ０５を遂行し得る。

具体的には、本発明に係るＣＮＮテスト方法は、ロスを減らすようにバックプロパゲーションを遂行することにより、ＣＮＮ装置の少なくとも一つのパラメータを最適化するプロセスを経て学習された前記ＣＮＮ装置のパラメータが取得された状態で、学習されたＣＮＮ装置の最適化されたパラメータを含むテスト装置が、テスト用入力イメージを取得すると、（ｉ）取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成し、（ｉｉ）テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用してテスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得した後、（ｉｉｉ）テスト用変形特徴マップそれぞれに対して、変形関数それぞれに対応する逆変換関数をそれぞれ適用して、テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する。

そして、テスト用の逆変換特徴マップのうち少なくとも一部を統合してテスト用の統合特徴マップを取得し、セグメンテーション結果を取得することになる。これらの装置はテスト装置によって遂行され得るし、テスト装置の通信部は、テスト用入力イメージを受信する機能をし、テスト装置のプロセッサは前述の各段階に該当するプロセスを遂行する。

以下、図２ないし図７を参照して、本発明に係るＣＮＮを利用したセグメンテーションの過程及びこれを利用した学習過程及びテスト過程をもう少し具体的に説明する。もちろん、本発明はセグメンテーションに用いられることに限られるものではなく、前記統合特徴マップが多様な場合に適用され得ることは勿論であろう。

図２及び図３に図示されているように、段階Ｓ０１で、ＣＮＮ装置が一つの入力イメージを取得すれば（またはテスト装置がテストイメージを取得）、この入力イメージ（Ｉ）を変形させる複数の変形関数（Ｔ_ｉ）を適用して複数の変形入力イメージ（Ｔ_ｉ（Ｉ））を生成する。例えば、図３を参照すれば、変形関数（Ｔ_ｉ）が４つの方法で入力イメージ（Ｉ）を変形させ、４つの変形入力イメージ（Ｔ_ｉ（Ｉ））を生成していることがわかる。一般化すると、前記変形関数（Ｔ_ｉ）は、入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ_ｉ（Ｉ））に変形させる関数であり、ここでｉは１ないしｎの自然数であり、前記変形関数（Ｔ_ｉ）はこれと対応する逆変換関数（Ｔ^−１ _ｉ）を有している。つまり、Ｔ^−１ _ｉ（Ｔ_ｉ（Ｉ））＝Ｉである。

この際、変形関数（Ｔ_ｉ）は、スケーリング関数（ｓｃａｌｉｎｇｆｕｎｃｔｉｏｎ）やトランジション関数（ｔｒａｎｓｉｔｉｏｎｆｕｎｃｔｉｏｎ）でもあり得るし、アフィン変換アルゴリズム（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｌｇｏｒｉｔｈｍ）及び薄板スプライン補間アルゴリズム（ｔｈｉｎ−ｐｌａｔｅｓｐｌｉｎｅｉｎｔｅｒｐｏｌａｔｉｏｎａｌｇｏｒｉｔｈｍ）など様々なアルゴリズムが利用され得る。また、それぞれの変形関数（Ｔ_ｉ）は様々なアルゴリズムを利用し得るが、一つのアルゴリズムを適用するが、これに適用される細部パラメータは差異のある関数でもあり得る。

このように、変形関数（Ｔ_ｉ）によって生成される変形入力イメージ（Ｔ_ｉ（Ｉ））を比較すると、セグメンテーションしようするそれぞれの物体の位置や大きさが微妙に異なることが分かる。

そして図４に図示されているように、段階Ｓ０２で、ＣＮＮ装置が、変形された入力イメージそれぞれ（Ｔ_ｉ（Ｉ））に対してコンボリューション演算を適用して変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれ（Ｓ_ｉ＝ＣＮＮ（Ｔ_ｉ（Ｉ））を取得する。

図７は、ＣＮＮ演算によって特徴マップを生成する過程を例示的に図示する。

図７を参照して、ＣＮＮ演算によって変形された特徴マップ（Ｓ_ｉ）を生成する段階Ｓ０２を具体的に説明すると、複数の変形入力イメージ（Ｔ_ｉ（Ｉ））をＣＮＮ装置に入力し、コンボリューションレイヤに含まれている複数のコンボリューションフィルタで複数のコンボリューション演算を遂行してコンボリューションＫレイヤの出力をそれぞれ取得する。それから生成されたコンボリューションＫレイヤの出力それぞれを再びデコンボリューションレイヤに含まれた複数のデコンボリューションフィルタで数回のデコンボリューション演算を遂行して、デコンボリューション１レイヤの出力をそれぞれ取得する。すなわち、変形された特徴マップ（Ｓ_ｉ）それぞれを取得する。そして追加演算によって変形された特徴マップ（Ｓ_ｉ）それぞれからセグメンテーション結果を得る。ここで、追加演算はすでに公知の技術として当業者に知られているものなので、具体的に説明しない。一方、図７では便宜上、一つの変形された入力のイメージを図示したが、複数の変形された入力イメージそれぞれに適用できるであろう。

次に、本発明においてセグメンテーションの過程は段階Ｓ０３及び段階Ｓ０４以降に行われる。ここで、少なくとも一つのコンボリューション演算でイメージをエンコードして特徴マップを取得し、特徴マップをデコードして再びセグメンテーションイメージを取得する仕組みをインコーディング・ディコーディングネットワーク、またはＵ−Ｎｅｔという。エンコード過程で、各コンボリューション演算を遂行するたびに入力イメージの大きさが、例えば１／２に小さくなるのだが、これはイメージのサイズを縮小して演算量を減らすためである。また、エンコードの過程でコンボリューションフィルタによって入力されたイメージのチャネル数は増加するが、これは減少した演算量の利得を活用しながらも増えたチャンネルを通じて複雑なパターンを得るためである。たとえば、エンコード過程でそれぞれのコンボリューションフィルタを経るたびにイメージサイズは１／２に縮小されてチャネル数は２倍に増える場合、このように縮小された特徴マップは高周波領域が多く除去され、低周波領域中心の情報を有することになるのだが、このような低周波領域は、イメージの意味のある（ｍｅａｎｉｎｇｆｕｌ）部分、すなわち、空、道路、建物、自動車などの有意義な部分を意味する。デコンボリューション演算、すなわちデコード演算によって出力された特徴マップにより、このような意味のある部分に対するセグメンテーション結果を取得することになる。

次に、図５に図示されているように、段階Ｓ０３で、ＣＮＮ装置が、変形された特徴マップ（Ｓ_ｉ）それぞれに対応する逆変換関数（Ｔ^−１ _ｉ）をそれぞれ適用して変形された特徴マップそれぞれに対応する逆変換特徴マップ（Ｔ^−１ _ｉ（Ｓ_ｉ））それぞれを生成する。この際、逆変換特徴マップ（Ｔ^−１ _ｉ（Ｓ_ｉ））それぞれは、各ピクセルごとにセグメンテーションスコアを有する。この段階は、逆変換関数を利用して、複数の変形入力イメージ（Ｔ_ｉ（Ｉ））のセグメンテーション結果である変形された各特徴マップ（Ｓ_ｉ）の各ピクセルを入力イメージ（Ｉ）のセグメンテーション結果での各対応する位置に移動させることで、複数の逆変換特徴マップ（Ｔ^−１ _ｉ（Ｓ_ｉ））を生成する過程である。つまり、入力イメージにおいて、ある物体のピクセル位置が（ｘ，ｙ）であったが、この位置に変形関数（Ｔ_ｉ）が適用されることにより（ｘ’，ｙ’）に変更されたなら、変形された特徴マップ（Ｓ_ｉ）での前記ピクセルの対応位置も（ｘ’，ｙ’）に対応する位置に存在することになる。この位置にＣＮＮ装置が逆変換関数（Ｔ^−１ _ｉ）を適用し、そのピクセルの位置を（ｘ，ｙ）に対応する位置へ再び移動させる。

段階Ｓ０４で、図６に図示されているように、逆変換特徴マップ（Ｔ^−１ _ｉ（Ｓ_ｉ））の中から少なくとも一部を統合して統合された特徴マップを取得する。例えば、この段階は逆変換の特徴マップ（Ｔ^−１ _ｉ（Ｓ_ｉ））それぞれの各ピクセルの各スコアを合わせた演算を遂行し、下記のような数式で表される。

また、この段階は、逆変換特徴マップ（Ｔ^−１ _ｉ（Ｓ_ｉ））それぞれの各ピクセルごとの各スコアの平均値を求めることもでき、各ピクセルごと各スコアの中央値を求めて得ることも、各ピクセルごとの各スコアの最大値を求めて得ることもできるであろう。ここで、中央値は、ｎ個の中で（ｎ／２）番目の値が有する値を意味する。

この過程によってＣＮＮ装置は、逆変換の特徴マップの各ピクセルの相対的な位置を参照して逆変換特徴マップそれぞれに対応する各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合特徴マップを取得し得る。

ここで、統合された特徴マップにおいて、ピクセルごとのチャネル値の中で最も高いチャネル値に対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーションラベルが得られる。つまり、段階Ｓ０４で、特徴マップを統合して、各イメージごとにセグメンテーションスコアマップを取得し、このセグメンテーションスコアマップは、得ようとしているクラスに対応するチャネル（例えば、クラスがＮ個であれば、それぞれ一つのクラスに対応するＮ個のチャネルと背景（ｂａｃｋｇｒｏｕｎｄ）に対応するチャネル１つを合わせたＮ＋１個のチャネル）で構成されていて、各ピクセルごとのＮ＋１個のチャネル値の中から最も高い値を有するチャネルに対応するラベルを該当ピクセルに付与してセグメンテーション出力イメージを生成する。また、セグメンテーションの出力イメージを求めるのに必要な様々な線形あるいは非線形演算を更に遂行することも可能であろう。

そして、段階Ｓ０６で、ＣＮＮ装置が、統合特徴マップを参照して取得した出力値（つまり、セグメンテーション結果）とＧＴ値との差を基にロスを算出し、前記ロスを最小化するようにバックプロパゲーションを遂行することにより、ＣＮＮ装置の少なくとも一つのパラメータを最適化する。これを、図７を参照して説明すると、ＣＮＮ装置は、学習する過程で、入力イメージをトレーニングイメージとして取得し、算出されたセグメンテーションイメージとＧＴイメージとの差であるロスを計算する。そして、セグメンテーションイメージを求める過程と反対方向に遡るバックプロパゲーション過程によって、上記ＣＮＮ装置のパラメータを最適化する学習を行うことになる。

本発明によれば、ＣＮＮ装置を一つだけ学習して、一つの入力イメージを複数の変形された入力イメージに変えた後、これら複数の変形された入力イメージから得られた結果を合わせると、一つの入力イメージから多くの特徴マップを取得し、併せて様々な結果が得られ得る。これにより、セグメンテーションを含むＣＮＮ装置の性能が向上され得る。つまり、ａイメージを入れた場合はセグメンテーション結果が良好でも、ａから少し変形したイメージであるａ’イメージを入れるとセグメンテーション結果が悪くなるなど、入力イメージが少しずつ異なるとセグメンテーションの結果も異なることがあるが、これらの少しずつ異なる変形イメージを考慮して統合された特徴マップを取得すれば、より正確なセグメンテーションの結果が得られる。

このような過程は、ＣＮＮ学習過程を経て得られた実際のテスト過程でも同様に適用され得るであろう。すなわち、前述のとおり、テスト装置が、（ｉ）テスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成し、（ｉｉ）テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用してテスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得した後、（ｉｉｉ）テスト用変形特徴マップそれぞれに対して変形関数それぞれに対応する逆変換関数をそれぞれ適用して、テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成し、（ｉｖ）テスト用逆変換特徴マップの少なくとも一部を統合してテスト用統合特徴マップを取得する。ここで、統合特徴マップを取得してからセグメンテーションの結果を得れば、より正確なセグメンテーションの結果を得ることができる。

本発明の技術分野の通常の技術者に理解され、（ｉ）前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージのようなイメージデータの送受信がＣＮＮ装置、学習装置及びテスト装置の各通信部によって行われ得るし、（ｉｉ）特徴マップと演算を遂行するためのデータが、ＣＮＮ装置、学習装置及びテスト装置のプロセッサ（及び／またはメモリ）によって保有／維持でき得るし、（ｉｉｉ）コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主にＣＮＮ装置、学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。

以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得るし、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
以下に、本願の当初の特許請求の範囲に記載された発明を付記する。
［１］
コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための方法において、
（ａ）ＣＮＮ装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階；
（ｂ）前記ＣＮＮ装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階；
（ｃ）前記ＣＮＮ装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階；及び
（ｄ）前記ＣＮＮ装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階；
を含むことを特徴とする方法。
［２］
前記変形関数（Ｔ _ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ _ｉ（Ｉ））に変形させる関数であり、
前記ｉは、１ないしｎの自然数であり、
前記変形関数（Ｔ _ｉ）は、逆変換関数（Ｔ ^−１ _ｉ（Ｔ _ｉ（Ｉ））＝Ｉ）が存在する関数であることを特徴とする［１］に記載の方法。
［３］
前記変形関数（Ｔ _ｉ）は、アフィン変換アルゴリズム（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｌｇｏｒｉｔｈｍ）及び薄板スプラインアルゴリズム（ｔｈｉｎ−ｐｌａｔｅｓｐｌｉｎｅａｌｇｏｒｉｔｈｍ）の中から少なくとも一つを利用して前記入力イメージ（Ｉ）を変形することを特徴とする［２］に記載の方法。
［４］
前記それぞれの変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする［２］に記載の方法。
［５］
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（ｄ）段階で、
前記ＣＮＮ装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする［１］に記載の方法。
［６］
前記（ｄ）段階で、
前記ＣＮＮ装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする［５］に記載の方法。
［７］
前記（ｃ）段階で、
前記ＣＮＮ装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする［６］に記載の方法。
［８］
（ｅ）前記ＣＮＮ装置が、（ｉ）前記統合された特徴マップを参照して取得された出力値とＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）値との差を基にロスを算出し、（ｉｉ）前記ロスを最小化するようバックプロパゲーションを遂行することにより前記ＣＮＮ装置の少なくとも一つのパラメータを最適化する段階；
をさらに含むことを特徴とする［１］に記載の方法。
［９］
入力イメージとしてのテストイメージに対するＣＮＮテスト方法において、
（ａ）ＣＮＮ装置を利用して（ｉ）トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して複数の学習用変形入力イメージを生成するプロセス；（ｉｉ）前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス；（ｉｉｉ）前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；（ｉｖ）前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス；及び（ｖ）前記学習用統合特徴マップを参照して取得された学習用出力値とＧＴ値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより上記ＣＮＮ装置のパラメータを最適化するプロセス；を経て学習された上記ＣＮＮ装置のパラメータが獲得された状態で、上記学習された上記ＣＮＮ装置の最適化されたパラメータを含むテスト装置が上記テスト用入力イメージを獲得する段階；
（ｂ）前記テスト装置が、前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成する段階；
（ｃ）前記テスト装置が、前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得する段階；
（ｄ）前記テスト装置が、前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する段階；及び
（ｅ）前記テスト装置が、前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合された特徴マップを取得する段階；
を含む方法。
［１０］
前記変形関数（Ｔ _ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ _ｉ（Ｉ））に変形させる関数であり、前記ｉは、１ないしｎの自然数であり、前記変形関数（Ｔ _ｉ）は、逆変換関数（Ｔ ^−１ _ｉ（Ｔ _ｉ（Ｉ））＝Ｉ）が存在する関数であることを特徴とする［９］に記載の方法。
［１１］
前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする［１０］に記載の方法。
［１２］
前記複数の学習用逆変換特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（ｉｖ）プロセスで、
前記ＣＮＮ装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、
前記（ｅ）段階で、
前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする［９］に記載の方法。
［１３］
コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための装置において、
トレーニングイメージとしての入力イメージを受信する通信部；及び
（１）前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス；（２）前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス；（３）前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；及び（４）前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス；を遂行するプロセッサ；
を含むことを特徴とするＣＮＮ装置。
［１４］
前記変形関数（Ｔ _ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ _ｉ（Ｉ））に変形させる関数であり、前記ｉは、１ないしｎの自然数であり、前記変形関数（Ｔ _ｉ）は、逆変換関数（Ｔ ^−１ _ｉ（Ｔ _ｉ（Ｉ））＝Ｉ）が存在する関数であることを特徴とする［１３］に記載のＣＮＮ装置。
［１５］
前記変形関数（Ｔ _ｉ）は、アフィン変換アルゴリズム（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｌｇｏｒｉｔｈｍ）及び薄板スプラインアルゴリズム（ｔｈｉｎ−ｐｌａｔｅｓｐｌｉｎｅａｌｇｏｒｉｔｈｍ）の中から少なくとも一つを利用して前記入力イメージ（Ｉ）を変形することを特徴とする［１４］に記載のＣＮＮ装置。
［１６］
前記変形関数（Ｔ _ｉ）は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする［１４］に記載のＣＮＮ装置。
［１７］
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（４）プロセスで、
前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得することを特徴とする［１３］に記載のＣＮＮ装置。
［１８］
前記（４）プロセスで、
前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得することを特徴とする［１７］に記載のＣＮＮ装置。
［１９］
前記（３）プロセスで、
前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成することを特徴とする［１８］に記載のＣＮＮ装置。
［２０］
前記プロセッサは、（５）前記統合された特徴マップを参照して取得された出力値とＧＴ値との差をもとにロスを算出し、前記ロスを最小化するようバックプロパゲーションを遂行することにより、前記ＣＮＮ装置の少なくとも一つのパラメータを最適化するプロセス；
をさらに遂行することを特徴とする［１３］に記載のＣＮＮ装置。
［２１］
入力イメージとしてのテストイメージに対するＣＮＮテスト装置において、
ＣＮＮ装置を利用して（ｉ）トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス；（ｉｉ）前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス；（ｉｉｉ）前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；（ｉｖ）前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス；及び（ｖ）前記学習用統合特徴マップを参照して取得された学習用出力値とＧＴ値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記ＣＮＮ装置のパラメータを最適化するプロセス；を経て学習された上記ＣＮＮ装置のパラメータが獲得された状態で、上記学習された上記ＣＮＮ装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを受信する通信部；及び
（１）前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して、複数のテスト用変形入力イメージを生成するプロセス；（２）前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得するプロセス；（３）前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；及び（４）前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合特徴マップを取得するプロセス；を遂行するプロセッサ；
を含むテスト装置。
［２２］
前記変形関数（Ｔ _ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ _ｉ（Ｉ））に変形させる関数であり、前記ｉは、１ないしｎの自然数であり、前記変形関数（Ｔ _ｉ）は、逆変換関数（Ｔ ^−１ _ｉ（Ｔ _ｉ（Ｉ））＝Ｉ）が存在する関数であることを特徴とする［２１］に記載のテスト装置。
［２３］
前記変形関数は、同一の変形アルゴリズムを利用するが、これに適用される細部パラメータには違いがあることを特徴とする［２２］に記載のテスト装置。
［２４］
前記複数の学習用逆変換の特徴マップ及び前記複数のテスト用逆変換特徴マップの各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（ｉｖ）プロセスで、
前記ＣＮＮ装置は、前記複数の学習用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記複数の学習用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記学習用統合された特徴マップを取得し、
前記（４）プロセスで、
前記テスト装置は、前記テスト用逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記テスト用逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記テスト用統合特徴マップを取得することを特徴とする［２１］に記載のテスト装置。

Claims

コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための方法において、
（ａ）ＣＮＮ装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階；
（ｂ）前記ＣＮＮ装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階；
（ｃ）前記ＣＮＮ装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階；及び
（ｄ）前記ＣＮＮ装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階；を含み、
前記変形関数（Ｔ _ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ _ｉ（Ｉ））に変形させる関数であり、逆変換関数（Ｔ ^−１ _ｉ（Ｔ _ｉ（Ｉ））＝Ｉ）が存在する関数であり、アフィン変換アルゴリズム（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｌｇｏｒｉｔｈｍ）及び薄板スプラインアルゴリズム（ｔｈｉｎ−ｐｌａｔｅｓｐｌｉｎｅａｌｇｏｒｉｔｈｍ）の中から少なくとも一つを利用して前記入力イメージ（Ｉ）を変形し、前記ｉは、１ないしｎの自然数であること
を特徴とする方法。
コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための方法において、
（ａ）ＣＮＮ装置が、入力イメージを受信し、前記入力イメージを変形させる複数の変形関数を適用して、複数の変形入力イメージを生成する段階；
（ｂ）前記ＣＮＮ装置が、前記変形した入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形した入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得する段階；
（ｃ）前記ＣＮＮ装置が、前記変形された特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成する段階；及び
（ｄ）前記ＣＮＮ装置が、前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得する段階；を含み、
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（ｄ）段階で、前記ＣＮＮ装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
前記（ｄ）段階で、前記ＣＮＮ装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
前記（ｃ）段階で、前記ＣＮＮ装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
を特徴とする方法。
入力イメージとしてのテストイメージに対するＣＮＮテスト方法において、
（ａ）ＣＮＮ装置を利用して（ｉ）トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して複数の学習用変形入力イメージを生成するプロセス；（ｉｉ）前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス；（ｉｉｉ）前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；（ｉｖ）前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス；及び（ｖ）前記学習用統合特徴マップを参照して取得された学習用出力値とＧＴ値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより上記ＣＮＮ装置のパラメータを最適化するプロセス；を経て学習された上記ＣＮＮ装置のパラメータが獲得された状態で、上記学習された上記ＣＮＮ装置の最適化されたパラメータを含むテスト装置が上記テスト用入力イメージを獲得する段階；
（ｂ）前記テスト装置が、前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して複数のテスト用変形入力イメージを生成する段階；
（ｃ）前記テスト装置が、前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得する段階；
（ｄ）前記テスト装置が、前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応するテスト用逆変換特徴マップそれぞれを生成する段階；及び
（ｅ）前記テスト装置が、前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合された特徴マップを取得する段階；を含み、
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（ｄ）段階で、前記ＣＮＮ装置は、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
前記（ｄ）段階で、前記ＣＮＮ装置は、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネルに対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
前記（ｃ）段階で、前記ＣＮＮ装置は、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
を特徴とする方法。
コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための装置において、
トレーニングイメージとしての入力イメージを受信する通信部；及び
（１）前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス；（２）前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス；（３）前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；及び（４）前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス；を遂行するプロセッサ；を含み、
前記変形関数（Ｔ _ｉ）は、前記入力イメージ（Ｉ）をｎ個の変形入力イメージ（Ｔ _ｉ（Ｉ））に変形させる関数であり、逆変換関数（Ｔ ^−１ _ｉ（Ｔ _ｉ（Ｉ））＝Ｉ）が存在する関数であり、アフィン変換アルゴリズム（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｌｇｏｒｉｔｈｍ）及び薄板スプラインアルゴリズム（ｔｈｉｎ−ｐｌａｔｅｓｐｌｉｎｅａｌｇｏｒｉｔｈｍ）の中から少なくとも一つを利用して前記入力イメージ（Ｉ）を変形し、前記ｉは、１ないしｎの自然数であること
を特徴とするＣＮＮ装置。
コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）から複数の出力のアンサンブル（ｅｎｓｅｍｂｌｅ）を利用して統合された特徴マップを提供するための装置において、
トレーニングイメージとしての入力イメージを受信する通信部；及び
（１）前記入力イメージを変形させる複数の変形関数を適用して複数の変形入力イメージを生成するプロセス；（２）前記変形された入力イメージそれぞれに対してコンボリューション演算を適用して、前記変形された入力イメージそれぞれに対応する変形された特徴マップそれぞれを取得するプロセス；（３）前記変形した特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記変形された特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；及び（４）前記各逆変換特徴マップの中の少なくとも一部を統合して、統合された特徴マップを取得するプロセス；を遂行するプロセッサ；を含み、
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（４）プロセスで、前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
前記（４）プロセスで、前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
前記（３）プロセスで、前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
を特徴とするＣＮＮ装置。
入力イメージとしてのテストイメージに対するＣＮＮテスト装置において、
ＣＮＮ装置を利用して（ｉ）トレーニングイメージとしての学習用入力イメージを受信し、前記学習用入力イメージを変形させる複数の変形関数を適用して、複数の学習用変形入力イメージを生成するプロセス；（ｉｉ）前記学習用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記学習用変形入力イメージそれぞれに対応する学習用変形特徴マップそれぞれを取得するプロセス；（ｉｉｉ）前記学習用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記学習用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；（ｉｖ）前記学習用各逆変換特徴マップの中の少なくとも一部を統合して、学習用統合特徴マップを取得するプロセス；及び（ｖ）前記学習用統合特徴マップを参照して取得された学習用出力値とＧＴ値との差異を基にロスを算出し、上記ロスを最小化するようにバックプロパゲーションを遂行することにより、上記ＣＮＮ装置のパラメータを最適化するプロセス；を経て学習された上記ＣＮＮ装置のパラメータが獲得された状態で、上記学習された上記ＣＮＮ装置の最適化されたパラメータを含むテスト装置が、上記テスト用入力イメージを受信する通信部；及び
（１）前記取得されたテスト用入力イメージを変形させる複数の変形関数を適用して、複数のテスト用変形入力イメージを生成するプロセス；（２）前記テスト用変形入力イメージそれぞれに対してコンボリューション演算を適用して、前記テスト用変形入力イメージそれぞれに対応するテスト用変形特徴マップそれぞれを取得するプロセス；（３）前記テスト用変形特徴マップそれぞれに対して、前記変形関数それぞれに対応する逆変換関数をそれぞれ適用して、前記テスト用変形特徴マップそれぞれに対応する逆変換特徴マップそれぞれを生成するプロセス；及び（４）前記テスト用逆変換特徴マップの中の少なくとも一部を統合して、テスト用統合特徴マップを取得するプロセス；を遂行するプロセッサ；を含み、
前記複数の逆変換の特徴マップは、各ピクセルごとにそれぞれのセグメンテーションスコアを有し、
前記（４）プロセスで、前記プロセッサは、前記逆変換特徴マップの各ピクセルの相対的な位置をそれぞれ参照して、前記逆変換特徴マップそれぞれの各ピクセルたちのセグメンテーションスコアをそれぞれ合算することで、前記統合された特徴マップを取得し、
前記（４）プロセスで、前記プロセッサは、前記統合された特徴マップにおいて、ピクセルごとのチャネル値の中の最も高いチャネル値に対応するラベル（ｌａｂｅｌ）を該当ピクセルに付与することでセグメンテーション出力イメージを獲得し、
前記（３）プロセスで、前記プロセッサは、前記逆変換関数を利用して、前記各変形入力イメージのセグメンテーションの結果である前記変形特徴マップの各ピクセルを前記入力イメージのセグメンテーション結果上の対応する位置に移動させて、前記複数の逆変換特徴マップを生成すること
を特徴とするテスト装置。