JP2019125204A

JP2019125204A - 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク

Info

Publication number: JP2019125204A
Application number: JP2018005935A
Authority: JP
Inventors: 英俊古川; Hidetoshi Furukawa
Original assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Current assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2019-07-25

Abstract

【課題】画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置を提供する。【解決手段】実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部とを持つ。畳み込みニューラルネットワーク部は、種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する。取得部は、前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する。【選択図】図１

Description

本発明の実施形態は、目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークに関する。

合成開口レーダ画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）が用いられている（非特許文献１、２）。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。

図１３は、畳み込みニューラルネットワークを用いた画像分類装置９０の構成例を示す図である。図１３に示す画像分類装置９０は、画像を入力し、画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた１０個の目標クラスのうち、画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置９０は、第１ブロックから第６ブロックまでの６ブロックを有する。第１ブロックから第４ブロックまでが畳み込みブロックにより構成され、第５ブロック及び第６ブロックが全結合層（Full Connection Layer）により構成されている。

画像分類装置９０を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置９０は、推定結果を出力する最終段（第６ブロック）及びその前段（第５ブロック）が全結合層として構成されているため、それらの入力数及び第１ブロックから第４ブロックまでの入力数が固定値となっている。すなわち、画像分類装置９０へ入力する目標画像のサイズが固定されているため、画像分類装置９０へ入力する目標画像を合成開口レーダ画像から抽出する必要がある。また、画像分類装置９０は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。更に、画像分類装置９０から出力される推定結果は、１０個の目標クラスそれぞれに対するスコア（確率に変換したスコアを含む）であるため、目標画像における目標の位置や向きを得ることができないという問題がある。

畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけでなく、入力画像の各ピクセルを意味づけされたクラスに分類するセマンティック・セグメンテーションにも用いられている（非特許文献３）。非特許文献４に記載された技術は、合成開口レーダ画像から抽出された目標画像の目標領域とシャドウ領域との２つのクラスの輪郭線を検出している。目標領域は、目標から電波反射があったと推定された領域である。シャドウ領域は、目標から電波反射がないレーダシャドウと推定された領域である。各クラスに分類されたピクセルで示される輪郭線を示すことにより、目標の位置に関する情報を提示することができる。しかし、この技術は、合成開口レーダ画像に撮像されている目標の位置に関する情報が得られるものの、目標の向きに関しては１８０度のあいまいさがあるため、目標の向きを特定することができないという問題がある。

非特許文献５には、合成開口レーダ画像のピクセルごとに目標領域とシャドウ領域とのいずれであるかをＷＤ−ＣＦＡＲ（Wavelet Decomposition and a Constant False Alarm Rate）を用いて判定する技術が記載されている。しかし、この技術も、目標の位置に関する情報を得ることができるが、目標の向きを特定することができないという問題がある。

以上のような問題があるため、画像に撮像された目標の検出及び姿勢推定を行う画像処理には、改善の余地がある。

Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, [平成２９年１２月１日検索], インターネット<URL: https://arxiv.org/abs/1607.02397> 畑貴將、他３名、「Ｂ−２−５０深層学習による合成開口レーダ画像の目標類別」、電子情報通信学会総合大会通信講演論文集１、２０１７年３月、ｐ．２２５ Jonathan Long, Evan Shelhamer, and Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation," [online], Mar 8, 2015, ［平成２９年１２月１日検索］, インターネット<URL: https://arxiv.org/abs/1411.4038> David Malmgren-Hansen, and Morten Nobel-Jorgensen, "Convolutional Neural Networks for SAR Image Segmentation," 2015 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT), , December 2015, pp.231-236 Shiqi Huang, Wenzhun Huang, and Ting Zhang, "A New SAR Image Segmentation Algorithm for the Detection of Target and Shadow Regions," [online], December 7, 2016, [平成２９年１２月１日検索], インターネット<URL: https://www.nature.com/articles/srep38596> Frank McFadden, "Precise estimation of pose for vehicles in MSTAR imagery," Proc. SPIE 6566, Automatic Target Recognition XVII, 65660V, May 2007

本発明が解決しようとする課題は、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークを提供することである。

実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部とを持つ。畳み込みニューラルネットワーク部は、種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する。取得部は、前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する。前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる。

第１の実施形態による目標認識装置の構成例を示すブロック図。第１の実施形態による畳み込みニューラルネットワーク部の構成例を示すブロック図。目標認識装置の入力画像と出力データとの一例を示す図。他の出力データ例を示す図である。目標認識装置により行われる目標認識処理の動作例を示すフローチャート。畳み込みニューラルネットワーク部の学習に用いられる学習装置の構成例を示すブロック図。畳み込みニューラルネットワーク部の学習に用いられる学習画像及び教師データの一例を示す図。学習装置の学習処理の動作例を示すフローチャート。第２の実施形態による畳み込みニューラルネットワーク部の構成例を示す図。第２の実施形態における畳み込みニューラルネットワーク部の学習に用いられる学習画像及び教師データの一例を示す図。第２の実施形態における目標認識装置の入力画像と出力データとの一例を示す図。入力画像と出力データとの一例を示す図。畳み込みニューラルネットワークを用いた画像分類装置の構成例を示す図である。

以下、実施形態の目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークを、図面を参照して説明する。

［第１の実施形態］
図１は、第１の実施形態による目標認識装置１の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置１は、任意の大きさの合成開口レーダ画像を入力画像として入力する。目標認識装置１は、入力画像に撮像されている目標の入力画像上の位置及び向き（姿勢）を示す情報を入力画像から取得する。目標認識装置１は、取得した情報を出力データとして出力する。目標の向き（姿勢）は、目標の前面と後面の位置により表現される。目標認識装置１は、畳み込みニューラルネットワーク部１１と、最尤クラス選択部１２（取得部）と、表示部１３（出力部）とを備える。

畳み込みニューラルネットワーク部１１は、入力画像を取得し、入力画像の各ピクセルに対する複数のスコアを示すスコアマップを出力する。スコアマップに含まれる複数のスコアは、入力画像の各ピクセルに対する、目標に関して予め定められたクラスごとのスコアと、目標が撮像されていない背景に関する背景クラスのスコアとである。例えば、目標を天頂方向から撮影した際の光学画像における目標のシルエットが矩形形状を有し、矩形形状を前面側と後面側とに分割する場合、目標の領域が前面側及び後面側の領域（所定箇所の領域）として定められる。前面側を示す前面クラスと後面側を示す後面クラスの２つのクラスと背景クラスにおけるそれぞれのスコアが複数のスコアとして得られる。スコアは、畳み込みニューラルネットワーク部１１において算出されるクラスごとの値であってもよいし、当該値をソフトマックス関数で変換することにより得られる確率などであってもよい。前述の３つのクラスそれぞれのスコアがピクセルに対して得られる場合、目標の前面クラスと後面クラスと背景クラスとのうち、当該ピクセルに対して尤もらしい一つのクラスが複数のスコアに基づいて推定される。なお、尤もらしい一つのクラスとは、ピクセルに対する真値（Ground Truth）のクラスである確率が最も高いクラスである。

図２は、第１の実施形態による畳み込みニューラルネットワーク部１１の構成例を示すブロック図である。畳み込みニューラルネットワーク部１１は、入力画像における特徴量を算出するエンコーダ部１１１と、算出された特徴量から３クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部１１２とを備える。エンコーダ部１１１は、畳み込みニューラルネットワーク部１１に入力される入力画像に対して、畳み込みフィルタ処理とマックスプーリング処理とを繰り返し行い、前述の３つのクラスそれぞれに対応する特徴量を算出する。デコーダ部１１２は、エンコーダ部１１１により算出される特徴量を、入力画像の大きさと同じ大きさのスコアマップに復元する。

エンコーダ部１１１は、６つの畳み込みブロックを組み合わせた構成を有する。第１ブロックは、３×３のカーネルサイズを有する３２通りの畳み込みフィルタで、ゼロパディングが行われた入力画像のピクセル値を畳み込み、畳み込みにより算出される値を正規化線形関数（rectified linear unit （ReLU））で出力値に変換する抽出処理を行う。更に、第１ブロックは、抽出処理で得られた複数の出力値で構成される特徴量を３×３のカーネルサイズを有する３２通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数（ReLU）で出力値に変換する。すなわち、第１ブロックは、抽出処理で入力画像から得られた特徴量に対して再度の抽出処理を行う。第１ブロックは、２回の抽出処理で得られた特徴量に対して２×２のカーネルサイズでストライドが２×２のマックスプーリング処理を行い、特徴量の縦・横サイズを各２分の１に圧縮する。第１ブロックは、圧縮した特徴量を第２ブロックへ出力する。なお、第１ブロックのマックスプーリング処理を行わずに、次の第２ブロックの畳み込みフィルタのストライドを２×２にすることにより、第１ブロックにより出力される特徴量に対し、縦・横サイズが各２分の１の特徴量を得るように構成することもできる。

第２ブロックから第４ブロックにおいても、第１ブロックと同様に２回の抽出処理とマックスプーリング処理とが行われる。ただし、第２、第３及び第４ブロックにおける抽出処理では、６４通り、１２８通り及び２５６通りの畳み込みフィルタがそれぞれ用いられる。

第５ブロックでは、ゼロパディング後の入力画像の大きさに対して縦・横が各１６分の１（＝（１／２）^４）の大きさの画像であって各ピクセルが特徴量で構成される画像（特徴マップ）に対して、６×６のカーネルサイズを有する５１２通りの畳み込みフィルタそれぞれで畳み込み、畳み込みにより算出される値を正規化線形関数（ReLU）で出力値に変換する。第５ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第５ブロックと第６ブロックとの接続の一部をランダムに一時的に切断するドロップアウト（Dropout）層を備える。

第６ブロックでは、１×１のカーネルサイズを有する３通りの畳み込みフィルタで、ピクセルごとに各クラスに対応する３つの特徴量を算出し、１ピクセルあたり３つの特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部１１２へ出力される。

デコーダ部１１２は、畳み込みニューラルネットワーク部１１における第７ブロックを有する。第７ブロックは、３２×３２のカーネルサイズでストライドが１６×１６の３通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み（Transposed Convolution）を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。特徴マップの大きさと入力画像の大きさとの差は、各ブロックにおける畳み込みフィルタを用いた処理の前に行われるゼロパディングなどにより生じる。３２×３２のカーネルサイズを有する３通りの畳み込みフィルタは、目標の前面クラスと後面クラスと背景クラスとからなる３つのクラスにそれぞれ対応している。デコーダ部１１２は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部１１２から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、３つのクラスそれぞれに対応する３つのスコアを有する。

畳み込みニューラルネットワーク部１１における第１ブロックから第７ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワーク部１１は、畳み込みフィルタにて入力画像又は特徴マップを走査して、カーネルサイズの入力画像上又は特徴マップ上の部分領域の特徴量を算出するフィルタ処理と、マックスプーリング処理とを行う。畳み込みニューラルネットワーク部１１には全結合層が存在しないため、畳み込みニューラルネットワーク部１１は、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部１１は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。

図１に戻り、目標認識装置１の構成の説明を続ける。最尤クラス選択部１２は、畳み込みニューラルネットワーク部１１により生成されるスコアマップを入力する。最尤クラス選択部１２は、スコアマップのピクセルごとに、３つのクラスからピクセルが属する可能性が最も高いクラスを最尤クラスとして選択する。入力画像におけるピクセルの目標の前面クラス、後面クラス又は背景クラスらしさが高くなるほどスコアが大きくなる場合、最尤クラス選択部１２は、３つのスコアのうち最も高い値に対応するクラスを最尤クラスとしてピクセルごとに選択する。最尤クラス選択部１２は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップを生成する。最尤クラス選択部１２は、ピクセルごとに算出される各スコアをソフトマックス関数により確率に変換し、変換された確率のうち最も大きい確率に対応するクラスを最尤クラスとして選択してもよい。また、最尤クラス選択部１２は、スコアマップからクラスごとのスコア（確率に変換したスコアを含む）を抽出することによりヒートマップを生成する。

また、最尤クラス選択部１２は、ピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の位置及び向きを特定する。例えば、最尤クラス選択部１２は、目標の前面クラスと後面クラスとが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部１２は、目標の位置（重心）から目標の前面クラスが選択されたピクセルの領域の重心へ向かう方向を、目標の向きとして算出する。最尤クラス選択部１２は、入力画像において、前面クラス及び後面クラスが選択されたピクセルにて示される領域が複数ある場合、入力画像に複数の目標が撮像されていたと判定し、目標ごとに位置及び向きを算出する。最尤クラス選択部１２は、算出した目標の位置及び向きを示す目標検出情報を生成する。目標検出情報は、入力画像における目標の位置及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部１２は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。

表示部１３は、畳み込みニューラルネットワーク部１１からスコアマップを入力し、最尤クラス選択部１２から目標認識情報を入力する。表示部１３は、スコアマップに基づいて入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、最尤クラスマップに基づいて入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部１３により行われる。表示部１３は、ヒートマップにおけるスコアに応じて所定の色又はグレースケールの諧調を割り当てた各クラスのヒートマップを並べて表示してもよいし、ユーザに選択されたクラスのヒートマップを表示してもよい。また、表示部１３は、目標検出情報に基づいて、目標の位置に目標の向きを示す図形（例えば矢印）を入力画像に重畳した画像を表示してもよい。

図３は、目標認識装置１の入力画像と最尤クラスマップとの一例を示す図である。図３に示す入力画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。入力画像には、４つの車両が目標として撮像されている。目標は、地表面（２次元平面）に射影した際に矩形となる形状を有しているが、シャドウ領域が存在するために入力画像における目標の像は矩形として現れていない。学習データを用いて事前に学習が行われた畳み込みニューラルネットワーク部１１を備える目標認識装置１を用いることにより、図３に示す入力画像から図３に示す最尤クラスマップを得ることができる。

図３に示す最尤クラスマップにおいて、目標の形状を示す矩形の領域が前面クラスのピクセルと後面クラスのピクセルとの組み合わせにより示されている。目標認識装置１が前面クラスと後面クラスとを異なる階調で示すことにより、ユーザは目標の向きを視認しやすくなる。入力画像において識別された目標の前面と後面とをユーザが識別しやすいように、最尤クラスマップにおいて目標の前面クラスと後面クラスとの領域の表示に異なる階調が用いられている。図３に示す最尤クラスマップでは、後面クラスの階調より濃い階調で前面クラスが示されている。図３に示す最尤クラスマップはグレースケール画像にて示されているが、最尤クラスマップをカラー画像として表示し、目標の前面側と後面側とを異なる色にてそれぞれ示してもよい。目標認識装置１は、後面クラスのピクセルに割り当てる色よりも輝度の高い色を前面クラスのピクセルに対して割り当て、ユーザが目標の向きを視認しやすくしてもよい。

表示部１３は、図３に示す入力画像と出力データとを並べて表示したり、入力画像に出力データを重畳して表示したりする。表示部１３は、出力データを表示する際に、表示するピクセルに対応する最尤クラスを示す数値又はテキストを表示してもよい。最尤クラスを示す数値又はテキストは、当該最尤クラスが選択されたピクセルで構成される領域又はその領域の近傍に表示されてもよいし、ピクセルにおいて表示されている色又は階調との対応付けを示すように表示されてもよい。

また、表示部１３は、最尤クラス選択部１２により生成されたヒートマップを表示する。図４は、ヒートマップの一例を示す図である。図４には、図３に示した入力画像から得られた背景クラス、前面クラス及び後面クラスのヒートマップが示されている。図４に示す各ヒートマップは、畳み込みニューラルネットワーク部１１により算出されるスコアをソフトマックス関数により確率に変換し、確率に応じた階調にて濃淡表示されている。各クラスに対する確率が高いほど白に近い色で各ピクセルが表示され、確率が低いほど黒に近い色で各ピクセルが表示されている。

図４に示す背景クラスのヒートマップを表示部１３が表示することにより、ユーザは入力画像における目標の位置を視認することができる。また、前面クラス又は後面クラスのいずれか一方又は両方のヒートマップと、背景クラスのヒートマップとを並べて表示部１３が表示することにより、ユーザは入力画像における各目標のスコア（確率に変換したスコアを含む）を容易に視認できる。図４では、グレースケールの階調を用いたヒートマップの例を示したが、表示部１３はスコアの高低をユーザが容易に視認できるカラーのヒートマップを表示してもよい。

図５は、目標認識装置１により行われる目標認識処理の動作例を示すフローチャートである。目標認識処理が開始されると、目標認識装置１は、目標検出の対象となる入力画像を入力する（ステップＳ１０１）。畳み込みニューラルネットワーク部１１は、目標認識装置１に入力された入力画像を受け付け、学習データを用いた学習にて得られた各ブロックの畳み込みフィルタを用いて入力画像の各ピクセルのスコアを算出してスコアマップを生成する（ステップＳ１０２）。

最尤クラス選択部１２は、畳み込みニューラルネットワーク部１１により生成されたスコアマップを受け付け、スコアマップにおける各クラスのスコアから最尤クラスをピクセルごとに選択する（ステップＳ１０３）。最尤クラス選択部１２は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップと、各クラスのヒートマップと、入力画像に撮像されている目標の位置及び向きを示す目標検出情報とを生成する（ステップＳ１０４）。

最尤クラス選択部１２は、生成した最尤クラスマップ、各クラスのヒートマップ、及び目標検出情報を含む目標認識情報を表示部１３へ出力し、目標認識情報を目標認識装置１の外部へ出力する。表示部１３は、最尤クラス選択部１２から受け付けた目標認識情報に基づいた表示を行い（ステップＳ１０５）、目標認識処理が終了する。目標認識装置１の外部へ出力される目標認識情報は、目標認識装置１の外部に設けられた記憶装置に記憶されたり、目標認識装置１が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置１は、ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などの記憶装置を備え、目標認識情報及び出力画像を記憶装置に記憶させてもよい。

図６は、畳み込みニューラルネットワーク部１１の学習に用いられる学習装置２の構成例を示すブロック図である。学習装置２は、目標が撮像されている学習画像と、学習画像に撮像されている目標の位置、形状及び向きを示す教師データとを組み合わせた複数の学習データを入力する。学習画像の大きさは、任意の大きさであり、目標識別処理における入力画像の大きさと同じであってもよいし、異なる大きさであってもよい。教師データは、学習画像上における目標の位置及び形状と、目標の前面側及び後面側の領域とを示す。例えば、教師データは、学習画像と同じ大きさの真値のスコアマップであり、学習画像のピクセルごとに前面クラスと後面クラスと背景クラスとのうち判定されるべき一つのクラスを示す。

学習装置２は、画像変形部２１と、畳み込みニューラルネットワーク部１１と、誤差算出部２２とを備える。画像変形部２１は、複数の学習データを入力する。画像変形部２１は、外部の記憶装置に記憶されている複数の学習データを順次読み出すことにより学習データを入力してもよいし、外部の通信装置から学習データを順次受信することにより学習データを入力してもよい。画像変形部２１は、入力される学習データごとに、学習データに含まれる学習画像を畳み込みニューラルネットワーク部１１へ出力し、学習データに含まれる教師データを誤差算出部２２へ出力する。

また、画像変形部２１は、入力する学習データだけでなく、学習データを変形（加工）することにより得られる新たな学習データを畳み込みニューラルネットワーク部１１の学習に用いる。画像変形部２１は、入力する学習データに含まれる教師データが示す目標の位置及び向きに変更を加え、変更した目標の位置及び向きに応じて学習画像における目標の像を変形させた変形画像を生成することにより、新たな学習データを得る。例えば、学習データにおいて目標が学習画像の中心に位置し、目標の前面が学習画像上側を向いている場合、画像変形部２１は、目標の位置を学習画像の中心から所定の距離ずらし、目標の前面を学習画像の右側に向ける変形を教師データに加えて新たな教師データを生成する。更に、画像変形部２１は、教師データに加えた変形に応じて、学習画像における目標の位置及び向きに変更を加えて変形画像を生成する。

変更された教師データと当該変更に応じて目標の像を変形させた変形画像とを含む新たな学習データも、畳み込みニューラルネットワーク部１１の学習に用いられる。画像変形部２１は、学習データにおける目標の向きを所定角度ずつ変更して１回転させた複数の新たな学習データを１つの学習データから生成してもよい。

畳み込みニューラルネットワーク部１１は、入力される学習画像のピクセルごとに、各クラスのスコアを示すスコアマップを生成し、生成したスコアマップを誤差算出部２２へ出力する。誤差算出部２２は、畳み込みニューラルネットワーク部１１により生成されたスコアマップと、教師データから得られる真値のスコアマップとの差分を誤差として算出し、算出した誤差を畳み込みニューラルネットワーク部１１と画像変形部２１とへ出力する。畳み込みニューラルネットワーク部１１は、誤差を用いて、各ブロックにおける畳み込みフィルタの重み係数を学習する。学習には、例えば、確率的勾配降下法に基づく誤差逆伝播法などの公知の技術が用いられる。

図７は、畳み込みニューラルネットワーク部１１の学習に用いられる学習画像及び教師データの一例を示す図である。図７に示す４つの学習画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。図７に示す４つの学習画像には、それぞれ１つの目標が撮像されている。学習画像における目標の像は、シャドウ領域が存在するために矩形形状として現れていない。各学習画像に対応する教師データにおいて、目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。地上での測定などにより得られた目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。なお、教師データにおいては、クラスが対応する数値で表現できていればよいが、ユーザによる確認が行いやすいように、インデックスカラー画像として保存するようにしてもよい。

図８は、学習装置２の学習処理の動作例を示すフローチャートである。学習処理が開始されると、学習装置２は、複数の学習データを入力する（ステップＳ２０１）。画像変形部２１は、学習装置２に入力された複数の学習データごとに目標の向きを変更した新たな学習データを生成する（ステップＳ２０２）。１つの学習データから生成される新たな学習データの数は、入力画像において検出すべき目標の向きの精度などに応じて予め定められる。

画像変形部２１は、入力された複数の学習データと生成した新たな学習データとから一つの学習データを選択する（ステップＳ２０３）。一つの学習データを選択する際に、画像変形部２１は、選択された回数が最も少ない学習データを選択する。選択された回数が最も少ない学習データが複数ある場合、画像変形部２１は、予め定められた順序で、又はランダムに複数の学習データからいずれか一つを選択する。

画像変形部２１は、選択した学習データの学習画像を畳み込みニューラルネットワーク部１１へ出力し、選択した学習データの教師データを誤差算出部２２へ出力する（ステップＳ２０４）。畳み込みニューラルネットワーク部１１は、入力された学習画像に対するスコアマップを生成し、生成したスコアマップを誤差算出部２２へ出力する（ステップＳ２０５）。

誤差算出部２２は、畳み込みニューラルネットワーク部１１により生成されたスコアマップと、教師データにより示される真値のスコアマップとの誤差を算出する（ステップＳ２０６）。誤差算出部２２は、算出した誤差を畳み込みニューラルネットワーク部１１に出力する（ステップＳ２０７）。畳み込みニューラルネットワーク部１１は、入力された誤差に基づいて各畳み込みフィルタの重み係数を更新して学習を行う（ステップＳ２０８）。

ステップＳ２０３からステップＳ２０８までの各ステップは、所定回数繰り返して行われる。繰り返し回数が所定回数に達すると、畳み込みニューラルネットワーク部１１は、各畳み込みフィルタの重み係数を記憶するとともに、重み係数を外部へ出力し（ステップＳ２０９）、学習処理が終了する。なお、ステップＳ２０２の処理は、繰り返し回数ごとに、逐次処理として実施するように構成することができる。また、ステップＳ２０３からステップＳ２０８の処理は、２以上の学習データをまとめてバッチ処理として処理するように構成することができる。バッチ処理による学習を行う場合、学習の収束性能を向上させるために、バッチ正規化（batch Normalization）を適用しても良い。

学習処理において、ステップＳ２０３からステップＳ２０８までを所定回数繰り返すことに代えて、誤差算出部２２により算出される誤差が所定値以下に集束するまで各ステップを繰り返してもよい。学習装置２において学習された畳み込みフィルタそれぞれの重み係数は、学習装置２の内部又は外部に設けられた記憶装置に記憶されてもよい。記憶された重み係数を目標認識装置１に備えられる畳み込みニューラルネットワーク部１１が取得して、目標認識処理を行ってもよい。また、目標認識装置１と学習装置２とを一つの装置として構成してもよい。

畳み込みニューラルネットワーク部１１における各畳み込みフィルタの重み係数を得る学習において、学習画像の大きさはどのような大きさであってもよい。前述のように、畳み込みニューラルネットワーク部１１は、畳み込みフィルタにて入力画像又は特徴マップを走査して特徴量を算出するフィルタ処理とマックスプーリング処理とにより構成されているため、学習画像の大きさに関わらず、学習を行うことができる。また、学習画像の大きさは、目標認識処理における入力画像の大きさに依存せずに定めることができる。

第１の実施形態の目標認識装置１において、目標の前面クラス及び後面クラスと、背景クラスとを識別できるように、畳み込みニューラルネットワーク部１１が学習を行う。このような学習により、目標認識装置１は、非特許文献１、２などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力画像における１つ以上の目標の検出と、検出した目標の位置及び向きの提示とを行える。また、非特許文献４に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献５に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するＷＤ−ＣＦＡＲでは行えない、入力画像における１つ以上の目標の向きに関する情報を目標認識装置１は提示できる。目標認識装置１が目標に関する情報を提示することにより、入力画像における目標の検出及び姿勢推定における利便性を向上させ、目標の視認性を向上させることができる。更に、非特許文献６に記載されているように、目標の向きに１８０度のあいまいさがあるものの、目標の向き（角度）を精度よく推定できる方法と組み合わせることにより、１８０度のあいまいさがない目標の向き（角度）を精度よく推定することができる。

目標検出を行う従来のニューラルネットワークは出力の前段に全結合層を有しているので、入力画像を一定の大きさにスケーリングする必要がある。入力画像をスケーリングした場合、入力画像の縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第１の実施形態の目標認識装置１は、入力画像の大きさを一定にする必要がなく、任意の大きさの入力画像に対して目標認識処理を行えるため、目標の認識精度を劣化させることなく様々な大きさの入力画像を扱うことができる。また、目標認識装置１への入力画像を得るために、合成開口レーダ画像から入力画像を抽出する必要がないため、ユーザの利便性を向上させることができる。

［第２の実施形態］
第２の実施形態における目標認識装置は、第１の実施形態の目標認識装置１と同様に、合成開口レーダ画像を入力画像として入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第２の実施形態における目標認識装置が出力する目標認識情報に含まれる目標検出情報は、撮像されている目標の入力画像上の位置、形状及び向きに加えて、目標の種別を示す。最尤クラスマップには、目標の種別ごとの前面クラスと後面クラスと、背景クラスとが含まれる。ヒートマップには、目標の種別それぞれの前面クラスと後面クラスと、背景クラスとのヒートマップが含まれる。

図９は、第２の実施形態による畳み込みニューラルネットワーク部３１の構成例を示す図である。第２の実施形態における目標認識装置は、畳み込みニューラルネットワーク部１１に代えて、畳み込みニューラルネットワーク部３１を備える。畳み込みニューラルネットワーク部３１が出力するスコアマップは、１０種類の目標の種別ごとに前面クラス及び後面クラスと、背景を示す背景クラスとからなる２１クラスのスコアをピクセルごとに含む。畳み込みニューラルネットワーク部１１が３クラスのスコアを算出していたのに対して、第２の実施形態の目標認識装置は、２１クラスのスコアをピクセルごとに算出する。畳み込みニューラルネットワーク部３１は、入力画像における特徴量を算出するエンコーダ部３１１と、算出された特徴量から２１クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部３１２とを備える。

エンコーダ部３１１において第６ブロックの構成が、第１の実施形態のエンコーダ部１１１の第６ブロックの構成と異なる。エンコーダ部３１１の第６ブロックでは、１×１のカーネルサイズを有する２１通りのフィルタで、ピクセルごとに各クラスに対応する２１個の特徴量を算出し、１ピクセルあたり２１個の特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部３１２へ出力される。

デコーダ部３１２は、畳み込みニューラルネットワーク部３１における第７ブロックを有する。第７ブロックは、３２×３２のカーネルサイズでストライドが１６×１６の２１通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み（Transposed Convolution）を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。３２×３２のカーネルサイズを有する２１通りの畳み込みフィルタは、１０種類の目標の前面及び後面クラスと背景クラスとからなる２１クラスにそれぞれ対応している。デコーダ部３１２は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部３１２から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、２１クラスそれぞれに対応する２１個のスコアを有する。

畳み込みニューラルネットワーク部３１は、第１の実施形態の畳み込みニューラルネットワーク部１１と同様に、全結合層を有しないため、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部３１は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。

第２の実施形態における最尤クラス選択部１２は、スコアマップのピクセルごとに、２１クラスから真値のクラスである可能性が最も高いクラスを最尤クラスとして選択する。最尤クラス選択部１２は、各ピクセルに対して選択したクラスを示す最尤クラスマップを生成する。また、最尤クラス選択部１２は、スコアマップからクラスごとのスコア（確率に変換したスコアを含む）を抽出することによりヒートマップを生成する。また、最尤クラス選択部１２は、ピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の種別、位置及び向きを特定する。例えば、最尤クラス選択部１２は、目標の種別が一致する前面クラス及び後面クラスが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部１２は、入力画像において複数の目標が撮像されていると判定した場合、目標ごとに位置及び向きを算出する。最尤クラス選択部１２は、算出した目標の種別、位置及び向きを示す目標検出情報を生成する。第２の実施形態における目標検出情報は、入力画像における目標の種別、位置及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部１２は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。

第２の実施形態における表示部１３は、畳み込みニューラルネットワーク部３１からスコアマップを入力し、最尤クラス選択部１２から目標認識情報を入力する。表示部１３は、第１の実施形態と同様に、入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部１３により行われる。表示部１３は、各クラスのヒートマップを表示したり、目標検出情報に基づいて目標の位置に目標の向きを示す図形（例えば矢印）を入力画像に重畳した画像を表示したりする。

畳み込みニューラルネットワーク部３１の学習は、第１の実施形態の畳み込みニューラルネットワーク部１１と同様に、図５に示した学習装置２によって行われる。第２の実施形態における目標認識装置は、第１の実施形態の目標認識装置１と異なり、目標の位置及び向きに加え、目標の種別を識別するため、目標の種別を含む学習データが用いられる。

図１０は、第２の実施形態における畳み込みニューラルネットワーク部３１の学習に用いられる学習画像及び教師データの一例を示す図である。図１０に示す４つの学習画像は、合成開口レーダにより得られた画像である。各学習画像に撮像されている目標の種別は異なる。学習画像における目標の像は、図３に示した学習画像と同様に、シャドウ領域が存在するために矩形形状として現れていない。各学習画像に対応する教師データには、種別の異なる目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。各教師データにおいて、目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。図１０に示す教師データには、全２１クラスのうち、４つの前面クラス、４つの後面クラス及び１つの背景クラスからなる９つのクラスが含まれている。

図１１は、第２の実施形態における目標認識装置の入力画像と最尤クラスマップとの一例を示す図である。入力画像は、学習画像と同様に、合成開口レーダにより得られた画像である。最尤クラスマップには、目標の位置及び形状が前面クラスのピクセル及び後面クラスのピクセルの組み合わせにより示されている。図１１に示す最尤クラスマップにおいて、左上の目標の種別と右下の目標の種別とは同じであるため、同じ階調の組み合わせにて目標の領域が示されている。左上及び右下の２つの目標の種別と他の２つの目標の種別とは異なるため、各目標の前面クラス及び後面クラスを示す階調が異なっている。

図１１に示す最尤クラスマップのように、背景クラスの階調と異なる階調にて前面クラス及び後面クラスを表示することにより、入力画像における目標の有無をユーザが視認しやすくなる。また、目標の種別ごとに前面クラス及び後面クラスに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の種別をユーザが視認しやすくなる。また、前面クラスと後面クラスとに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の向きをユーザが視認しやすくなる。このように、非特許文献４に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献５に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するＷＤ−ＣＦＡＲでは行えない、入力画像における１つ以上の目標の向き及び種別に関する情報を第２の実施形態の目標認識装置は提示できる。

なお、表示部１３は、目標の種別、位置及び向きを階調で示すだけでなく、テキストや図形にて示してもよい。最尤クラスマップは、グレースケールに代えて、カラーで表示されてもよい。最尤クラスマップがカラーで表示される場合、目標の各種別に対応する前面クラス及び後面クラスと、背景クラスとのそれぞれが異なる色にて表示される。

以上説明した、第１及び第２の実施形態における目標認識装置によれば、電波反射の強度をグレースケールの階調で示した合成開口レーダにより得られた画像において、目標の有無、目標がある場合は目標の位置、形状及び向きに関する情報（例えば図３、１１における最尤クラスマップ、図４におけるヒートマップ）をユーザに提示することができる。電波反射の強度を可視化した画像において、得られる目標の像が人の視認する可視光画像と異なるため、目標を識別することはユーザにとって容易でない場合がある。目標認識装置は、目標の位置及び向きに関する情報を提示することにより、合成開口レーダの画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。また、第２の実施形態における目標認識装置によれば、目標の種別に関する情報を更に提示することができ、目標の検出及び分類における利便性を向上させることができる。

なお、表示部１３は、最尤クラスマップ又はヒートマップを表示するだけでなく、最尤クラスマップとヒートマップと入力画像とを並べて表示してもよい。入力画像（合成開口レーダの画像）と最尤クラスマップとヒートマップとを並べて表示することにより、入力画像における目標の像に対するユーザの視認性を向上させることができる。表示部１３は、入力画像と最尤クラスマップとヒートマップとに加えて、畳み込みニューラルネットワーク部の学習に用いた学習画像のうち、少なくとも一つの学習画像を表示してもよい。表示部１３が学習画像と出力データとを同時に表示することにより、検出された目標の形状と目標の真値の形状とを比較することができる。

また、最尤クラスマップ又はヒートマップにおける目標の形状が、学習画像又は教師データにおける目標の形状と大きく異なる場合、最尤クラスマップ又はヒートマップは、入力画像における目標の認識に対する精度が低いことを示しているとみなすことができる。図１２は、入力画像と最尤クラスマップとの一例を示す図である。図１２に示す最尤クラスマップにおいて、前面クラス又は後面クラスで示される領域のうち、教師データにおける目標の形状（例えば、図１０に示した教師データにおける目標の形状）と大きく異なる領域に対する信頼性が低いとみなすことができる。ユーザは、目標識別装置から出力される最尤クラスマップにおける目標の形状に基づいて、最尤クラスマップに対する信頼性に関する情報を得ることができる。

また、第１及び第２の実施形態における目標認識装置は、目標の向きが異なる場合それぞれにおける目標の形状を学習しているため、遮蔽等により目標の像の一部が欠けている入力画像であっても目標の形状、位置及び向きに関する情報を得ることができる。

畳み込みニューラルネットワーク部１１、３１の学習において、与えられる学習データに基づいて新たな学習データを生成し、与えられる学習データと新たな学習データとの両方を用いた学習が行われる。学習画像を変形させて新たな学習データを生成することにより、学習データを生成するユーザの負担が軽減されるとともに、学習の効率が高まるので目標の認識精度を向上させることができる。

上記の実施形態では、入力画像及び学習画像が合成開口レーダ画像である場合について説明したが、目標認識装置の入力画像及び学習画像はこれに限定されない。例えば、干渉合成開口レーダ（Interferometric SAR: InSAR）や、逆合成開口レーダ（Inverse Synthetic Aperture Rader: ISAR）、ソナーなどの、電波や音波、レーダ光や赤外光などの反射強度に基づいて生成された画像を、目標認識装置の入力画像及び学習画像としてもよい。また、一般的な写真画像を目標認識装置の入力画像及び学習画像としてもよい。

畳み込みニューラルネットワーク部１１、３１によりスコアが算出されるクラスの数は、実施形態における３、２１に限定されない。入力画像において検出すべき目標に関するクラスの数に応じて、スコアが算出されるクラスの数が定められる。畳み込みニューラルネットワーク部におけるエンコーダ部の最終ブロックの畳み込みフィルタの数と、デコーダ部における転置畳み込みを行う畳み込みフィルタの数とが、定められたクラスの数に応じて決定される。

デコーダ部１１２、３１２は、特徴マップからスコアマップを生成する際に、特徴マップに対する転置畳み込み処理に代えて、アンプーリング（Unpooling）及び畳み込みを組み合わせた処理を所定回数繰り返してもよい。エンコーダ部１１１、３１１において６つのブロックのネットワークを組み合わせた構成例を説明したが、エンコーダ部１１１、３１１の構成は図２及び図８に示した構成例に限定されず、任意の数の隠れ層を備えてもよい。

畳み込みフィルタのカーネルサイズやストライド、第１〜第７ブロックにおける畳み込みフィルタの数（抽出する特徴量）についても同様に、図２及び図９に示した構成例に限定されない。エンコーダ部１１１、３１１は、任意の大きさの入力画像に対して識別すべきクラス数のスコアをピクセルごとに有する特徴マップを生成できる構成を有していればよい。デコーダ部１１２、３１２は、エンコーダ部１１１、３１１から出力される特徴マップから、学習された畳み込みフィルタの重み係数に基づいて入力画像と同じ大きさを有するスコアマップを生成できる構成を有していればよい。

上記の実施形態では、デコーダ部１１２、３１２が、入力画像の大きさと同じ大きさのスコアマップを生成する場合について説明したが、第７ブロックにおける特徴マップに対する転置畳み込み処理において入力画像の大きさと異なるサイズのスコアマップを生成してもよい。また、デコーダ部１１２、３１２は、スコアマップを目標認識情報として外部へ出力してもよい。

最尤クラス選択部１２は、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を含む目標認識情報に代えて、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報の少なくとも一つを目標認識情報として出力してもよい。表示部１３は、最尤クラスマップ、各クラスのヒートマップ又は目標検出情報に基づいて、検出された目標の輪郭を示す画像を生成して表示してもよい。

図７及び図１０において、目標の像、位置及び形状を含む学習画像及び教師データを例示したが、目標に関する情報が含まれない学習画像及び教師データからなる学習データを畳み込みニューラルネットワーク部１１、３１の学習に用いてもよい。目標に関する情報が含まれない学習データを用いた学習を行うことにより、畳み込みニューラルネットワーク部１１、３１による背景クラスに対する学習が行われて背景クラスの認識精度が向上する。２つ以上の目標の像が含まれる画像が学習画像として用いられてもよい。

上記の実施形態における目標認識装置と学習装置とは、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、ＣＰＵがプログラムを実行してもよい。ＣＰＵは、補助記憶装置に記憶されたプログラムを実行することにより、畳み込みニューラルネットワーク部、最尤クラス選択部、表示部、画像変形部、及び誤差算出部として機能してもよい。なお、目標認識装置と学習装置との各機能のすべて又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。

以上説明した少なくともひとつの実施形態によれば、入力画像から各ピクセルにおける目標に関する少なくとも２つのスコアを含むスコアマップを生成する畳み込みニューラルネットワーク部と、スコアマップに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標情報を取得する取得部（最尤クラス選択部１２）とを持つことにより、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…目標認識装置、２…学習装置、１１，３１…畳み込みニューラルネットワーク部、１２…最尤クラス選択部、１３…表示部、２１…画像変形部、２２…誤差算出部、１１１，３１１…エンコーダ部、１１２，３１２…デコーダ部、９０…画像分類装置

Claims

種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部と、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する取得部と、
を備え、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる、
目標認識装置。
前記教師データにおける前記目標の向きは、前記目標の前面側及び後面側に割り当てられた異なるクラスにより示され、
前記取得部は、前記スコアマップにおける前記目標の前面側及び後面側それぞれのスコアに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを取得する、
請求項１に記載の目標認識装置。
前記取得部により取得された前記目標認識情報に基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きの情報を前記入力画像に重畳して出力する出力部、
を更に備える請求項１又は請求項２に記載の目標認識装置。
前記取得部は、前記スコアマップに基づいて、前記種別の異なる複数の目標の所定箇所の領域と、前記種別の異なる複数の目標以外の背景の領域とのうち、いずれの領域であるかを前記入力画像のピクセルごとに判定して前記目標認識情報を取得する、
請求項１から請求項３のいずれか一項に記載の目標認識装置。
前記畳み込みニューラルネットワークは、複数の畳み込みフィルタを有する２つ以上の隠れ層を有し、
前記複数の畳み込みフィルタそれぞれが前記入力画像を走査して前記入力画像の部分領域ごとに特徴量を算出し、前記部分領域ごとに算出される前記特徴量に基づいて前記入力画像の大きさと同じ大きさのスコアマップを生成する、
請求項１に記載の目標認識装置。
目標認識装置による目標認識方法であって、
種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを用いて、入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する第１のステップと、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する第２のステップと、
を含み、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる、
目標認識方法。
種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データ、及び、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データを用いた学習により得られる畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する取得部、
としてコンピュータを機能させるためのプログラム。
種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データと、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データとを用いた学習により得られ、
入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する、
畳み込みニューラルネットワーク。
少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部と、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部と、
を備え、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられ、
前記教師データにおける前記目標の向きは、前記目標の前面側及び後面側に割り当てられた異なるクラスにより示され、
前記取得部は、前記スコアマップにおける前記目標の前面側及び後面側それぞれのスコアに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを取得する、
目標認識装置。
目標認識装置による目標認識方法であって、
少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを用いて、入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する第１のステップと、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する第２のステップと、
を含み、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられ、
前記教師データにおける前記目標の向きは、前記目標の前面側及び後面側に割り当てられた異なるクラスにより示され、
前記第２のステップでは、前記スコアマップにおける前記目標の前面側及び後面側それぞれのスコアに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きが取得される、
目標認識方法。