JP2019152543A

JP2019152543A - 目標認識装置、目標認識方法及びプログラム

Info

Publication number: JP2019152543A
Application number: JP2018038076A
Authority: JP
Inventors: 英俊古川; Hidetoshi Furukawa
Original assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Current assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2019-09-12

Abstract

【課題】画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置を提供する。【解決手段】実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。畳み込みニューラルネットワーク部は、畳み込みニューラルネットワークを用いて入力画像から入力画像の各ピクセルにおけるクラスごとのスコアを含む第１のスコアマップを生成する。取得部は、第１のスコアマップにおけるクラスのうち少なくとも２つのクラスを新たなクラスに統合した第２のスコアマップと、第１のスコアマップとに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する。【選択図】図１

Description

本発明の実施形態は、目標認識装置、目標認識方法及びプログラムに関する。

合成開口レーダ画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）が用いられている（非特許文献１、２）。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。

図１５は、畳み込みニューラルネットワークを用いた画像分類装置９０の構成例を示す図である。図１５に示す画像分類装置９０は、目標画像を入力し、目標画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた１０個の目標クラスのうち、目標画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置９０は、第１ブロックから第６ブロックまでの６ブロックを有する。第１ブロックから第４ブロックまでが畳み込みブロックにより構成され、第５ブロック及び第６ブロックが全結合層（Fully Connected Layer）により構成されている。

画像分類装置９０を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置９０は、推定結果を出力する最終段（第６ブロック）及びその前段（第５ブロック）が全結合層として構成されているため、それらの入力数及び第１ブロックから第４ブロックまでの入力数が固定値となっている。すなわち、画像分類装置９０へ入力する目標画像のサイズが固定されているため、画像分類装置９０へ入力する目標画像を合成開口レーダ画像から抽出する必要がある。また、画像分類装置９０は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。更に、画像分類装置９０から出力される推定結果は、１０個の目標クラスそれぞれに対するスコア（確率に変換したスコアを含む）であるため、目標画像における目標の位置や向きを得ることができないという問題がある。

畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけでなく、入力画像の各ピクセルを意味づけされたクラスに分類するセマンティック・セグメンテーションにも用いられている（非特許文献３）。非特許文献４に記載された技術は、合成開口レーダ画像から抽出された目標画像の目標領域とシャドウ領域との２つのクラスの輪郭線を検出している。目標領域は、目標から電波反射があったと推定された領域である。シャドウ領域は、目標から電波反射がないレーダシャドウと推定された領域である。各クラスに分類されたピクセルで示される輪郭線を示すことにより、目標の位置に関する情報を提示することができる。この技術を適用することにより、目標画像に撮像されている目標の位置に関する情報が得られる。しかし、検出した目標を目標領域とシャドウ領域の境界線で提示するため、光学画像におけるシルエット画像のようにユーザが認識しやすい目標の形状を提示できないという問題がある。また、目標の向きに関しては１８０度のあいまいさがあるため、目標の向きを特定することができないという問題がある。

非特許文献５には、合成開口レーダ画像のピクセルごとに目標領域とシャドウ領域とのいずれであるかをＷＤ−ＣＦＡＲ（Wavelet Decomposition and a Constant False Alarm Rate）を用いて判定する技術が記載されている。この技術は、合成開口レーダ画像に撮像されている複数の目標の位置に関する情報を得ることができる。しかし、目標の形状を目標領域とシャドウ領域に分割して提示するため、ユーザが認識しやすい目標の形状を提示できないという問題と、目標の向きを特定することができないという問題がある。

以上のような問題があるため、画像に撮像された目標の検出及び姿勢推定を行う画像処理には、改善の余地がある。

Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, [平成２９年１２月１日検索], インターネット<URL: https://arxiv.org/abs/1607.02397> 畑貴將、他３名、「Ｂ−２−５０深層学習による合成開口レーダ画像の目標類別」、電子情報通信学会総合大会通信講演論文集１、２０１７年３月、ｐ．２２５ Jonathan Long, Evan Shelhamer, and Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation," [online], Mar 8, 2015, ［平成２９年１２月１日検索］, インターネット<URL: https://arxiv.org/abs/1411.4038> David Malmgren-Hansen, and Morten Nobel-Jorgensen, "Convolutional Neural Networks for SAR Image Segmentation," 2015 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT), December 2015, pp.231-236 Shiqi Huang, Wenzhun Huang, and Ting Zhang, "A New SAR Image Segmentation Algorithm for the Detection of Target and Shadow Regions," [online], December 7, 2016, [平成２９年１２月１日検索], インターネット<URL: https://www.nature.com/articles/srep38596> Qian Song, and Feng Xu, "Zero-Shot Learning of SAR Target Feature Space With Deep Generative Neural Networks," IEEE Geoscience and Remote Sensing Letters, volume 14, Issue 12 (2017): pp.2245-2249 Hidetoshi Furukawa, "Deep Learning for Target Classification from SAR Imagery: Data Augmentation and Translation Invariance," [online], August 26, 2017, [平成２９年１２月１日検索], インターネット<URL: https://arxiv.org/abs/1708.07920> Frank McFadden, "Precise estimation of pose for vehicles in MSTAR imagery," Proc. SPIE 6566, Automatic Target Recognition XVII, 65660V, May 2007 Hidetoshi Furukawa, "Deep Learning for End-to-End Automatic Target Recognition from Synthetic Aperture Radar Imagery," [online], January 25, 2018, ［平成３０年２月１３日検索］,インターネット<URL: https://arxiv.org/abs/1801.08558>

本発明が解決しようとする課題は、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。

実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。畳み込みニューラルネットワーク部は、畳み込みニューラルネットワークを有する。畳み込みニューラルネットワークは、少なくとも一つの目標が撮像されている学習データと、学習データにおける目標の位置及び形状を示すとともに形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られる。畳み込みニューラルネットワーク部は、畳み込みニューラルネットワークを用いて入力画像から入力画像の各ピクセルにおけるクラスごとのスコアを含む第１のスコアマップを生成する。取得部は、第１のスコアマップにおけるクラスのうち少なくとも２つのクラスを新たなクラスに統合した第２のスコアマップと、第１のスコアマップとに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する。

第１の実施形態による目標認識装置の構成例を示すブロック図。第１の実施形態による畳み込みニューラルネットワーク部の構成例を示すブロック図。目標認識装置の入力画像と出力データとの一例を示す図。目標認識装置により行われる目標認識処理の動作例を示すフローチャート。畳み込みニューラルネットワーク部の学習に用いられる学習装置の構成例を示すブロック図。畳み込みニューラルネットワーク部の学習に用いられる学習データ及び教師データの一例を示す図。学習装置の学習処理の動作例を示すフローチャート。第２の実施形態による畳み込みニューラルネットワーク部の構成例を示す図。第２の実施形態における畳み込みニューラルネットワーク部の学習に用いられる学習データ及び教師データの一例を示す図。第２の実施形態における目標認識装置の入力画像と出力データとの一例を示す図。第２の実施形態における目標認識装置の出力データの一例を示す図。入力画像と最尤クラスマップとの一例を示す図。第２の実施形態における目標認識装置の変形例の構成を示すブロック図。第２の実施形態の変形例における目標認識処理の動作例を示すフローチャート。畳み込みニューラルネットワークを用いた画像分類装置の構成例を示す図。

以下、実施形態の目標認識装置、目標認識方法及びプログラムを、図面を参照して説明する。

［第１の実施形態］
図１は、第１の実施形態による目標認識装置１の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置１は、入力データとして任意の大きさの合成開口レーダ画像（以下、入力画像）を入力する。目標認識装置１は、入力画像に撮像されている目標の入力画像上の位置、形状及び向き（姿勢）を示す目標認識情報を入力画像から取得する。目標認識装置１は、取得した目標認識情報を出力データとして出力する。目標の向き（姿勢）は、目標の前面と後面の位置により表現される。目標認識装置１は、畳み込みニューラルネットワーク部１１と、クラスマッピング部１２と、最尤クラス選択部１３（取得部）と、表示部１４（出力部）とを備える。

ここで、目標のｊ（ｊ＝｛１，…，Ｊ｝）番目の姿勢クラスのスコアをｓ（ｊ）、背景クラスのスコアをｓ（０）、いずれかの目標クラスのスコアをｓ_ｄ（１）とすると、第１の実施形態における目標認識装置は、入力画像のピクセルごとに得られたスコアｓ（ｊ）をマッピングすることにより、目標クラスのスコアｓ_ｄ（１）を表すスコアマップを出力する。

畳み込みニューラルネットワーク部１１は、入力画像を取得し、入力画像の各ピクセルに対する複数のスコアを示すスコアマップ（第１のスコアマップ）を生成し出力する。また、畳み込みニューラルネットワーク部１１は、生成したスコアマップを目標認識情報としても出力する。スコアマップに含まれる複数のスコアは、入力画像の各ピクセルに対する、目標に関して予め定められたクラスごとのスコアと、目標が撮像されていない背景に関する背景クラスのスコアとである。例えば、目標を天頂方向から撮影した際の光学画像における目標のシルエットが矩形形状を有し、矩形形状を前面側と後面側との部分領域に分割する場合、目標の領域が前面側及び後面側の部分領域として定められる。前面側の部分領域を示す前面クラスと、後面側の部分領域を示す後面クラスと、目標以外の領域を示す背景クラスとのスコアが複数のスコアとして得られる。スコアは、畳み込みニューラルネットワーク部１１において算出されるクラスごとの値であってもよいし、当該値をソフトマックス関数で変換することにより得られる確率などであってもよい。前述した３つのクラスそれぞれのスコアがピクセルに対して得られる場合、目標の前面クラス及び後面クラスと背景クラスとのうち、当該ピクセルに対して尤もらしい一つのクラスが複数のスコアに基づいて推定される。なお、尤もらしい一つのクラスとは、ピクセルに対する真値（Ground Truth）のクラスである確率が最も高いクラスである。

図２は、第１の実施形態による畳み込みニューラルネットワーク部１１の構成例を示すブロック図である。畳み込みニューラルネットワーク部１１は、入力画像における特徴量を算出するエンコーダ部１１１と、算出された特徴量から３クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部１１２とを備える。エンコーダ部１１１は、畳み込みニューラルネットワーク部１１に入力される入力画像に対して、畳み込みフィルタ処理とマックスプーリング処理とを繰り返し行い、前述の３つのクラスそれぞれに対応する特徴量を算出する。デコーダ部１１２は、エンコーダ部１１１により算出される特徴量を、入力画像の大きさと同じ大きさのスコアマップに復元する。

エンコーダ部１１１は、６つの畳み込みブロックを組み合わせた構成を有する。第１ブロックは、３×３のカーネルサイズを有する３２通りの畳み込みフィルタで、ゼロパディングが行われた入力画像のピクセル値を畳み込み、畳み込みにより算出される値を正規化線形関数（rectified linear unit （ReLU））で出力値に変換する抽出処理を行う。更に、第１ブロックは、抽出処理で得られた複数の出力値で構成される特徴量を３×３のカーネルサイズを有する３２通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数（ReLU）で出力値に変換する。すなわち、第１ブロックは、抽出処理で入力画像から得られた特徴量に対して再度の抽出処理を行う。第１ブロックは、２回の抽出処理で得られた特徴量に対して２×２のカーネルサイズでストライドが２×２のマックスプーリング処理を行い、特徴量の縦・横サイズを各２分の１に圧縮する。第１ブロックは、圧縮した特徴量を第２ブロックへ出力する。なお、第１ブロックのマックスプーリング処理を行わずに、次の第２ブロックの畳み込みフィルタのストライドを２×２にすることにより、第１ブロックにより出力される特徴量に対し、縦・横サイズが各２分の１の特徴量を得るように構成することもできる。

第２ブロックから第４ブロックにおいても、第１ブロックと同様に２回の抽出処理とマックスプーリング処理とが行われる。ただし、第２、第３及び第４ブロックにおける抽出処理では、６４通り、１２８通り及び２５６通りの畳み込みフィルタがそれぞれ用いられる。

第５ブロックでは、ゼロパディング後の入力画像の大きさに対して縦・横が各１６分の１（＝（１／２）^４）の大きさであって各ピクセルが特徴量で構成される特徴マップに対して、６×６のカーネルサイズを有する５１２通りの畳み込みフィルタそれぞれで畳み込み、畳み込みにより算出される値を正規化線形関数（ReLU）で出力値に変換する。第５ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第５ブロックと第６ブロックとの接続の一部をランダムに一時的に切断するドロップアウト（Dropout）層を備える。

第６ブロックでは、１×１のカーネルサイズを有する３通りの畳み込みフィルタで、ピクセルごとに各クラスに対応する３つの特徴量を算出し、１ピクセルあたり３つの特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部１１２へ出力される。

デコーダ部１１２は、畳み込みニューラルネットワーク部１１における第７ブロックを有する。第７ブロックは、３２×３２のカーネルサイズでストライドが１６×１６の３通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み（Transposed Convolution）を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。特徴マップの大きさと入力画像の大きさとの差は、各ブロックにおける畳み込みフィルタを用いた処理の前に行われるゼロパディングなどにより生じる。３２×３２のカーネルサイズを有する３通りの畳み込みフィルタは、目標の前面クラスと後面クラスと背景クラスとからなる３つのクラスにそれぞれ対応している。デコーダ部１１２は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部１１２から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、３つのクラスそれぞれに対応する３つのスコアを有する。

畳み込みニューラルネットワーク部１１における第１ブロックから第７ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワーク部１１は、畳み込みフィルタにて入力画像又は特徴マップを走査して、カーネルサイズの入力画像上又は特徴マップ上の部分領域の特徴量を算出するフィルタ処理と、マックスプーリング処理とを行う。畳み込みニューラルネットワーク部１１には全結合層が存在しないため、畳み込みニューラルネットワーク部１１は、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部１１は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。

図１に戻り、目標認識装置１の構成の説明を続ける。クラスマッピング部１２は、畳み込みニューラルネットワーク部１１により生成されるスコアマップを入力する。クラスマッピング部１２は、畳み込みニューラルネットワーク部１１から出力されるスコアマップに基づいて、クラスに対し２つのマッピングを行う。一方のマッピングは、無変換マッピングである。無変換マッピングにおいて、クラスマッピング部１２は、入力したスコアマップをそのまま出力する。

他方のマッピングは、畳み込みニューラルネットワーク部１１から入力するスコアマップに含まれる３つのクラスのうち、目標の前面クラスと後面クラスとを１つのクラスに統合した目標クラスを新たなクラスとしてマッピングする。目標の姿勢を示す前面クラス及び後面クラスを新たな目標クラスに統合し、新たな目標クラスのスコアを各ピクセルにマッピングするマッピングを姿勢クラス統合マッピングという。クラスマッピング部１２は、目標クラスのスコアを含むスコアマップ（第２のスコアマップ）を出力する。姿勢クラス統合マッピングにより、入力画像における各ピクセルを目標クラスと背景クラスとの２つのクラスに分類する畳み込みニューラルネットワークが出力するスコアマップと等価なスコアマップを得ることができる。また、クラスマッピング部１２は、マッピングにより得られるスコアマップを目標認識情報としても出力する。

ここで、入力画像における各ピクセルの目標の前面クラス（ｊ＝１）と背面クラス（ｊ＝２）とのスコアをｓ（ｊ）、背景クラスのスコアをｓ（０）とする。姿勢クラス統合マッピングにおいて、統合された目標クラスのスコアをｓ_ｄ（１）、背景クラスのスコアをｓ_ｄ（０）とした場合、クラスマッピング部１２は、それぞれのスコアを、ｓ_ｄ（１）＝ｆ（ｓ（１），ｓ（２））、ｓ_ｄ（０）＝ｓ（０）により算出する。ここで、ｆ（・）はスコアの変換関数であり、最大値や平均値等を求める関数をｆ（・）として用いることができる。

最尤クラス選択部１３は、クラスマッピング部１２により得られる２つのスコアマップを入力する。最尤クラス選択部１３は、各ピクセルが属する可能性が最も高いクラスを最尤クラスとしてスコアマップごとに選択する。無変換マッピングにより得られるスコアマップにおいて、最尤クラス選択部１３は、前面クラス、後面クラス及び背景クラスそれぞれのスコアに基づいて最尤クラスを選択する。姿勢クラス統合マッピングにより得られるスコアマップにおいて、最尤クラス選択部１３は、目標クラスと背景クラスとのスコアに基づいて最尤クラスを選択する。最尤クラス選択部１３は、入力されるスコアマップごとに最尤クラスを選択する。

それぞれのスコアマップにおいて、ピクセルの目標の前面クラス、後面クラス、目標の前面クラスと後面クラスとを統合した目標クラス又は背景クラスらしさが高くなるほどスコアが大きくなる場合、最尤クラス選択部１３は、各スコアマップにおいて、最も高いスコアに対応するクラスを最尤クラスとしてピクセルごとに選択する。最尤クラス選択部１３は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップをスコアマップごとに生成する。最尤クラス選択部１３は、ピクセルごとに算出される各スコアをソフトマックス関数により確率に変換し、変換された確率のうち最も大きい確率に対応するクラスを最尤クラスとして選択してもよい。また、最尤クラス選択部１３は、スコアマップからクラスごとのスコア（確率に変換したスコアを含む）を抽出することによりヒートマップを生成する。

また、最尤クラス選択部１３は、各マッピングにより得られるスコアマップにおいてピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の位置、形状及び向きを特定する。例えば、最尤クラス選択部１３は、姿勢クラス統合マッピングにより目標クラスが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部１３は、無変換マッピングにより目標の後面クラスが選択されたピクセルの領域の重心又は目標の位置（重心）から目標の前面クラスが選択されたピクセルの領域の重心へ向かう方向を、目標の向きとして算出する。入力画像に撮像されている目標の形状は、最尤クラスマップ上に現れる目標クラスが選択されたピクセルにて示される領域として得られる。最尤クラス選択部１３は、姿勢クラス統合マッピング後の最尤クラスマップにおいて、目標クラスが選択されたピクセルにて示される領域が複数ある場合、入力画像に複数の目標が撮像されていたと判定し、目標ごとに位置、形状及び向きを算出する。最尤クラス選択部１３は、算出した目標の位置、形状及び向きを示す目標検出情報を生成する。目標検出情報は、入力画像における目標の位置、形状及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部１３は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。

表示部１４は、畳み込みニューラルネットワーク部１１、クラスマッピング部１２及び最尤クラス選択部１３から目標認識情報を入力する。表示部１４は、スコアマップに基づいて入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、最尤クラスマップに基づいて入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部１４により行われる。表示部１４は、ヒートマップにおけるスコアに応じて所定の色又はグレースケールの諧調を割り当てた各クラスのヒートマップを並べて表示してもよいし、ユーザに選択されたクラスのヒートマップを表示してもよい。また、表示部１４は、目標検出情報に基づいて、目標の位置に目標の向きを示す図形（例えば矢印）を入力画像に重畳した画像を表示してもよい。

図３は、目標認識装置１の入力画像と出力データとの一例を示す図である。図３に示す入力画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。入力画像には、４つの車両が目標として撮像されている。目標は、地表面（２次元平面）に射影した際に矩形となる形状を有しているが、シャドウ領域が存在するために入力画像における目標の像は矩形として現れていない。学習データセットを用いて事前に学習が行われた畳み込みニューラルネットワーク部１１を備える目標認識装置１を用いることにより、図３に示す入力画像から図３に示す最尤クラスマップを出力データとして得ることができる。図３に示す出力データ＃１は、無変換マッピングにより得られるスコアマップに基づいた最尤クラスマップである。図３に示す出力データ＃２は、姿勢クラス統合マッピングにより得られるスコアマップに基づいた最尤クラスマップである。

図３に示す出力データ＃１において、目標の形状を示す矩形の領域が前面クラスのピクセルと後面クラスのピクセルとの組み合わせにより示されている。目標認識装置１が前面クラスと後面クラスとを異なる階調で示すことにより、ユーザは目標の向きを視認しやすくなる。入力画像において識別された目標の前面と後面とをユーザが識別しやすいように、最尤クラスマップにおいて目標の前面クラスと後面クラスとの領域の表示に異なる階調が用いられている。図３に示す出力データ＃１では、後面クラスの階調より濃い階調で前面クラスが示されている。図３に示す出力データ＃１はグレースケール画像にて示されているが、最尤クラスマップをカラー画像として表示し、目標の前面側と後面側とを異なる色にてそれぞれ示してもよい。目標認識装置１は、後面クラスのピクセルに割り当てる色よりも輝度の高い色を前面クラスのピクセルに対して割り当て、ユーザが目標の向きを視認しやすくしてもよい。

表示部１４は、図３に示す入力画像と出力データ＃１、＃２とを並べて表示したり、出力データ＃１又は出力データ＃２を入力画像に重畳して表示したりする。表示部１４は、出力データを表示する際に、表示するピクセルに対応する最尤クラスを示す数値又はテキストを表示してもよい。最尤クラスを示す数値又はテキストは、当該最尤クラスが選択されたピクセルで構成される領域又はその領域の近傍に表示されてもよいし、ピクセルにおいて表示されている色又は階調との対応付けを示すように表示されてもよい。

図４は、目標認識装置１により行われる目標認識処理の動作例を示すフローチャートである。目標認識処理が開始されると、目標認識装置１は、目標検出の対象となる入力画像を入力する（ステップＳ１０１）。畳み込みニューラルネットワーク部１１は、目標認識装置１に入力された入力画像を受け付け、学習データセットを用いた学習にて得られた各ブロックの畳み込みフィルタを用いて入力画像の各ピクセルに対するスコアを算出してスコアマップを生成する（ステップＳ１０２）。クラスマッピング部１２は、畳み込みニューラルネットワーク部１１により生成されたスコアマップを受け付け、無変換マッピングと姿勢クラス統合マッピングとを行い、各マッピングにより得られるスコアマップを生成する（ステップＳ１０３）。

最尤クラス選択部１３は、クラスマッピング部１２により生成された２つのスコアマップを受け付け、スコアマップにおける各クラスのスコアに基づいて最尤クラスを各ピクセルに対して選択する（ステップＳ１０４）。最尤クラス選択部１３は、スコアマップごとに、最尤クラスの選択を行う。最尤クラス選択部１３は、各ピクセルに対して選択した最尤クラスを示す２つの最尤クラスマップと、各クラスのヒートマップと、入力画像に撮像されている目標の位置、形状及び向きを示す目標検出情報とを生成する（ステップＳ１０５）。

最尤クラス選択部１３は、生成した２つの最尤クラスマップ、各クラスのヒートマップ、及び目標検出情報を含む目標認識情報を表示部１４へ出力し、目標認識情報を目標認識装置１の外部へ出力する。表示部１４は、畳み込みニューラルネットワーク部１１、クラスマッピング部１２及び最尤クラス選択部１３から受け付けた目標認識情報に基づいた表示を行い（ステップＳ１０６）、目標認識処理が終了する。目標認識装置１の外部へ出力される目標認識情報は、目標認識装置１の外部に設けられた記憶装置に記憶されたり、目標認識装置１が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置１は、ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などの記憶装置を備え、目標認識情報を記憶装置に記憶させてもよい。

図５は、畳み込みニューラルネットワーク部１１の学習に用いられる学習装置２の構成例を示すブロック図である。学習装置２は、目標が撮像されている画像を示す学習データと、学習データが示す画像に撮像されている目標の位置、形状及び向きを示す教師データとを組み合わせた複数の学習データセットを入力する。学習データが示す画像の大きさは、任意の大きさであり、目標識別処理における入力画像の大きさと同じであってもよいし、異なる大きさであってもよい。教師データは、学習データが示す画像上における目標の位置及び形状と、目標の前面側及び後面側の領域とを示す。例えば、教師データは、学習データが示す画像と同じ大きさの真値のスコアマップであり、学習データが示す画像のピクセルごとに前面クラスと後面クラスと背景クラスとのうち判定されるべき一つのクラスを示す。

学習装置２は、データ変形部２１と、畳み込みニューラルネットワーク部１１と、誤差算出部２２とを備える。データ変形部２１は、複数の学習データセットを入力する。データ変形部２１は、外部の記憶装置に記憶されている複数の学習データセットを順次読み出すことにより学習データセットを入力してもよいし、外部の通信装置から学習データセットを順次受信することにより学習データセットを入力してもよい。データ変形部２１は、入力される学習データセットごとに、学習データセットに含まれる学習データを畳み込みニューラルネットワーク部１１へ出力し、学習データセットに含まれる教師データを誤差算出部２２へ出力する。

また、データ変形部２１は、入力する学習データセットだけでなく、学習データセットを変形（加工）することにより得られる新たな学習データセットを畳み込みニューラルネットワーク部１１の学習に用いる。データ変形部２１は、入力する学習データセットに含まれる教師データが示す目標の位置及び向きに変更を加え、変更した目標の位置及び向きに応じて学習データが示す画像における目標の像を変形させた変形学習データを生成することにより、新たな学習データセットを得る。例えば、学習データセットにおいて目標が学習データにより示される画像の中心に位置し、目標の前面が学習データの画像上側を向いている場合、データ変形部２１は、目標の位置を学習データの画像の中心から所定の距離ずらし、目標の前面を学習データの画像の右側に向ける変形を教師データに加えて新たな教師データを生成する。更に、データ変形部２１は、教師データに加えた変形に応じて、学習データの画像における目標の位置及び向きに変更を加えて変形学習データを生成する。

変更された教師データと当該変更に応じて目標の像を変形させた変形学習データとを含む新たな学習データセットも、畳み込みニューラルネットワーク部１１の学習に用いられる。データ変形部２１は、非特許文献６のＧｅｎｅｒａｔｏｒＤＮＮのように、学習データセットにおける目標の向きを所定角度ずつ変更して１回転させた複数の新たな学習データセットを１つの学習データセットから生成してもよい。

畳み込みニューラルネットワーク部１１は、入力される学習データが示す画像のピクセルごとに、各クラスのスコアを示すスコアマップを生成し、生成したスコアマップを誤差算出部２２へ出力する。誤差算出部２２は、畳み込みニューラルネットワーク部１１により生成されたスコアマップと、教師データから得られる真値のスコアマップとの差分を誤差として算出し、算出した誤差を畳み込みニューラルネットワーク部１１とデータ変形部２１とへ出力する。畳み込みニューラルネットワーク部１１は、誤差を用いて、各ブロックにおける畳み込みフィルタの重み係数を学習する。学習には、例えば、確率的勾配降下法に基づく誤差逆伝播法などの公知の技術が用いられる。

図６は、畳み込みニューラルネットワーク部１１の学習に用いられる学習データ及び教師データの一例を示す図である。図６に示す４つの学習データは、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。図６に示す４つの学習データには、それぞれ１つの目標が撮像されている。学習データにおける目標の像は、シャドウ領域が存在するために矩形形状として現れていない。各学習データに対応する教師データにおいて、目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。地上での測定などにより得られた目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。なお、教師データにおいては、クラスが対応する数値で表現できていればよいが、ユーザによる確認が行いやすいように、インデックスカラー画像として保存するようにしてもよい。

図７は、学習装置２の学習処理の動作例を示すフローチャートである。学習処理が開始されると、学習装置２は、複数の学習データセットを入力する（ステップＳ２０１）。データ変形部２１は、学習装置２に入力された複数の学習データセットごとに目標の向きを変更した新たな学習データセットを生成する（ステップＳ２０２）。１つの学習データセットから生成される新たな学習データセットの数は、入力画像において検出すべき目標の向きの精度などに応じて予め定められる。

データ変形部２１は、入力された複数の学習データセットと生成した新たな学習データセットとから一つの学習データセットを選択する（ステップＳ２０３）。一つの学習データセットを選択する際に、データ変形部２１は、選択された回数が最も少ない学習データセットを選択する。選択された回数が最も少ない学習データセットが複数ある場合、データ変形部２１は、予め定められた順序で、又はランダムに複数の学習データセットからいずれか一つを選択する。

データ変形部２１は、選択した学習データセットの学習データを畳み込みニューラルネットワーク部１１へ出力し、選択した学習データセットの教師データを誤差算出部２２へ出力する（ステップＳ２０４）。畳み込みニューラルネットワーク部１１は、入力された学習データに対するスコアマップを生成し、生成したスコアマップを誤差算出部２２へ出力する（ステップＳ２０５）。

誤差算出部２２は、畳み込みニューラルネットワーク部１１により生成されたスコアマップと、教師データにより示される真値のスコアマップとの誤差を算出する（ステップＳ２０６）。誤差算出部２２は、算出した誤差を畳み込みニューラルネットワーク部１１に出力する（ステップＳ２０７）。畳み込みニューラルネットワーク部１１は、入力された誤差に基づいて各畳み込みフィルタの重み係数を更新して学習を行う（ステップＳ２０８）。

ステップＳ２０３からステップＳ２０８までの各ステップは、所定回数繰り返して行われる。繰り返し回数が所定回数に達すると、畳み込みニューラルネットワーク部１１は、各畳み込みフィルタの重み係数を記憶するとともに、重み係数を外部へ出力し（ステップＳ２０９）、学習処理が終了する。なお、ステップＳ２０２の処理は、繰り返し回数ごとに、逐次処理として実施するように構成することができる。また、ステップＳ２０３からステップＳ２０８の処理は、２以上の学習データセットをまとめてバッチ処理として処理するように構成することができる。バッチ処理による学習を行う場合、学習の収束性能を向上させるために、バッチ正規化（batch Normalization）を適用しても良い。

学習処理において、ステップＳ２０３からステップＳ２０８までを所定回数繰り返すことに代えて、誤差算出部２２により算出される誤差が所定値以下に集束するまで各ステップを繰り返してもよい。学習装置２において学習された畳み込みフィルタそれぞれの重み係数は、学習装置２の内部又は外部に設けられた記憶装置に記憶されてもよい。記憶された重み係数を目標認識装置１に備えられる畳み込みニューラルネットワーク部１１が取得して、目標認識処理を行ってもよい。また、目標認識装置１と学習装置２とを一つの装置として構成してもよい。

畳み込みニューラルネットワーク部１１における各畳み込みフィルタの重み係数を得る学習において、学習データが示す画像の大きさはどのような大きさであってもよい。前述のように、畳み込みニューラルネットワーク部１１は、畳み込みフィルタにて入力画像又は特徴マップを走査して特徴量を算出するフィルタ処理とマックスプーリング処理とにより構成されているため、学習データが示す画像の大きさに関わらず、学習を行うことができる。また、学習データが示す画像の大きさは、目標認識処理における入力画像の大きさに依存せずに定めることができる。

第１の実施形態の目標認識装置１において、目標の前面クラス及び後面クラスと、背景クラスとを識別できるように、畳み込みニューラルネットワーク部１１が学習を行う。このような学習により、目標認識装置１は、非特許文献１、２などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力画像における１つ以上の目標の検出と、検出した目標の位置、形状及び向きの提示とを行える。また、非特許文献４に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献５に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するＷＤ−ＣＦＡＲでは行えない、入力画像における１つ以上の目標の向きに関する情報を目標認識装置１は提示できる。目標認識装置１が目標に関する情報を提示することにより、入力画像における目標の検出及び姿勢推定における利便性を向上させ、目標の視認性を向上させることができる。

更に、非特許文献７に記載されているように、非特許文献１、２などに記載されている畳み込みニューラルネットワークは、目標画像における目標の位置が中心からシフトするにつれ、その分類性能が低下する。これに対して、シャドウ領域の影響を受けずに複数の目標の位置を正確に検出できる第１の実施形態の目標認識装置１からの目標認識情報を用いて、画像から目標画像を抽出することにより、目標分類を行う畳み込みニューラルネットワークの目標分類性能を低下させないようにすることができる。また、非特許文献８に記載されているように、目標の向きに１８０度のあいまいさがあるものの、目標の向き（角度）を精度よく推定できる方法と組み合わせることにより、１８０度のあいまいさがない目標の向き（角度）を精度よく推定することができる。

Ｒ−ＣＮＮ、ＦａｓｔｅｒＲ−ＣＮＮ等の目標検出を行う従来のニューラルネットワークは出力の前段に全結合層を有しているので、入力画像を一定の大きさにスケーリングする必要がある。入力画像をスケーリングした場合、入力画像の縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第１の実施形態の目標認識装置１は、入力画像の大きさを一定にする必要がなく、任意の大きさの入力画像に対して目標認識処理を行えるため、目標の認識精度を劣化させることなく様々な大きさの入力画像を扱うことができる。また、目標認識装置１への入力画像を得るために、合成開口レーダ画像から入力画像を抽出する必要がないため、ユーザの利便性を向上させることができる。

目標認識装置１は、クラスマッピング部１２を備えることにより、目標クラスと背景クラスとの各ピクセルのスコアを含むスコアマップを得ることができる。目標認識装置１は、複数の畳み込みニューラルネットワークを備えずとも、異なるクラス分けに応じたスコアマップを得ることができる。

［第２の実施形態］
第２の実施形態における目標認識装置は、第１の実施形態の目標認識装置１と同様に、入力データとして合成開口レーダ画像（以下、入力画像）を入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第２の実施形態における目標認識装置が出力する目標認識情報に含まれる目標検出情報は、撮像されている目標の入力画像上の位置、形状及び向きに加えて、目標の種別を示す。第２の実施形態においても、第１の実施形態と同様に、各マッピングにより得られるスコアマップに基づく最尤クラスマップを目標認識装置が出力する。

ここで、ｉ番目の種別を示す目標クラスのｊ番目の姿勢クラスのスコアをｓ（ｉ，ｊ）、いずれかの目標クラスのスコアをｓ_ｄ（１）、ｉ番目の種別を示す目標クラスのスコアをｓ_ｔ（ｉ）、ｊ番目の姿勢クラスのスコアをｓ_ｐ（ｊ）とすると、第２の実施形態における目標認識装置は、入力画像のピクセルごとに得られたｓ（ｉ，ｊ）をマッピングすることにより、スコアｓ_ｄ（１）、ｓ_ｔ（ｉ）及びｓ_ｐ（ｊ）を表すスコアマップを出力する。

図８は、第２の実施形態による畳み込みニューラルネットワーク部３１の構成例を示す図である。第２の実施形態における目標認識装置は、畳み込みニューラルネットワーク部１１に代えて、畳み込みニューラルネットワーク部３１を備える。畳み込みニューラルネットワーク部３１が生成し出力するスコアマップは、１０種類の目標の種別ごとに前面クラス及び後面クラスと、背景を示す背景クラスとからなる２１クラスのスコアをピクセルごとに含む。また、畳み込みニューラルネットワーク部３１は、生成したスコアマップを目標認識情報としても出力する。畳み込みニューラルネットワーク部１１が３クラスのスコアを算出していたのに対して、第２の実施形態の目標認識装置は、２１クラスのスコアをピクセルごとに算出する。畳み込みニューラルネットワーク部３１は、入力画像における特徴量を算出するエンコーダ部３１１と、算出された特徴量から２１クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部３１２とを備える。

エンコーダ部３１１において第６ブロックの構成が、第１の実施形態のエンコーダ部１１１の第６ブロックの構成と異なる。エンコーダ部３１１の第６ブロックでは、１×１のカーネルサイズを有する２１通りのフィルタで、ピクセルごとに各クラスに対応する２１個の特徴量を算出し、１ピクセルあたり２１個の特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部３１２へ出力される。

デコーダ部３１２は、畳み込みニューラルネットワーク部３１における第７ブロックを有する。第７ブロックは、３２×３２のカーネルサイズでストライドが１６×１６の２１通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み（Transposed Convolution）を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。３２×３２のカーネルサイズを有する２１通りの畳み込みフィルタは、１０種類の目標の前面及び後面クラスと背景クラスとからなる２１クラスにそれぞれ対応している。デコーダ部３１２は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部３１２から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、２１クラスそれぞれに対応する２１個のスコアを有する。

畳み込みニューラルネットワーク部３１は、第１の実施形態の畳み込みニューラルネットワーク部１１と同様に、全結合層を有しないため、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部３１は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。

第２の実施形態におけるクラスマッピング部１２は、畳み込みニューラルネットワーク部３１により生成されるスコアマップを入力し、このスコアマップのクラスに対して４つのマッピングを行う。４つのマッピングは、無変換マッピング、目標・姿勢クラス統合マッピング、姿勢クラス統合マッピング、目標クラス統合マッピングである。

無変換マッピングでは、クラスマッピング部１２は、畳み込みニューラルネットワーク部３１から出力されるスコアマップをそのまま出力する。
目標・姿勢クラス統合マッピングでは、クラスマッピング部１２は、目標種別と目標姿勢との組み合わせで表される種別ごとの前面クラス及び後面クラスを新たな１つの目標クラスに統合する。クラスマッピング部１２は、統合により得られた目標クラスのスコアと、背景クラスのスコアとを各ピクセルにマッピングしたスコアマップを出力する。

姿勢クラス統合マッピングでは、クラスマッピング部１２は、目標の種別ごとに前面クラスと後面クラスとを統合し、１０種類の目標クラスそれぞれのスコアと、背景クラスのスコアとを各ピクセルにマッピングしたスコアマップを出力する。
目標クラス統合マッピングでは、クラスマッピング部１２は、種別の異なる目標それぞれの前面クラスを１つの前面クラスに統合し、種別の異なる目標それぞれの後面クラスを１つの後面クラスに統合する。クラスマッピング部１２は、統合された前面クラス及び後面クラスそれぞれのスコアと、背景クラスのスコアとを各ピクセルにマッピングしたスコアマップを出力する。

また、クラスマッピング部１２は、マッピングにより得られるスコアマップを目標認識情報としても出力する。クラスマッピング部１２が、無変換マッピングに加えて前述の３つのマッピングを行うことにより、複数の畳み込みニューラルネットワークを用意することなく、後段における位置、姿勢推定等のそれぞれの処理に適したスコアマップを出力することができ、後段の処理の推定性能を向上させることができる。

ここで、入力画像における各ピクセルのｉ（ｉ＝｛１，…，１０｝）番目の種別の目標に対する前面クラス（ｊ＝１）と背面クラス（ｊ＝２）とのスコアをｓ（２（ｉ−１）＋ｊ）＝ｓ（ｉ，ｊ）、背景クラスのスコアをｓ（０）とする。目標・姿勢クラス統合マッピングにおいて、統合された目標クラスのスコアをｓ_ｄ（１）、背景クラスのスコアをｓ_ｄ（０）とすると、それぞれのスコアは、ｓ_ｄ（１）＝ｆ（ｓ（１），…，ｓ（２０））、ｓ_ｄ（０）＝ｓ（０）により算出される。ここで、ｆ（・）はスコアの変換関数であり、最大値や平均値等を求める関数をｆ（・）として用いることができる。

また、姿勢クラス統合マッピングにおいて、姿勢クラスを統合したｉ番目の目標クラスのスコアをｓ_ｔ（ｉ）、背景クラスのスコアをｓ_ｔ（０）とすると、それぞれのスコアは、ｓ_ｔ（ｉ）＝ｆ（ｓ（２ｉ−１），ｓ（２ｉ））、ｓ_ｔ（０）＝ｓ（０）により算出される。更に、目標クラス統合マッピングにおいて、目標クラスを統合したｊ番目の姿勢クラスのスコアをｓ_ｐ（ｊ）、背景クラスのスコアをｓ_ｐ（０）とすると、それぞれのスコアは、ｓ_ｐ（１）＝ｆ（ｓ（１），ｓ（３），…，ｓ（１９））、ｓ_ｐ（２）＝ｆ（ｓ（２），ｓ（４），…，ｓ（２０））、ｓ_ｐ（０）＝ｓ（０）により算出される。

第２の実施形態における最尤クラス選択部１３は、クラスマッピング部１２から入力した４つのスコアマップごとに各ピクセルの最尤クラスを選択する。最尤クラスは、スコアマップのクラスから真値のクラスである可能性が最も高いクラスである。最尤クラス選択部１３は、各ピクセルに対して選択したクラスを示す最尤クラスマップをスコアマップごとに生成する。また、最尤クラス選択部１３は、各スコアマップからクラスごとのスコア（確率に変換したスコアを含む）を抽出することによりヒートマップを生成する。

また、最尤クラス選択部１３は、各マッピングにより得られるスコアマップにおいてピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の種別、位置、形状及び向きを特定する。例えば、最尤クラス選択部１３は、姿勢クラス統合マッピングにより得られるスコアマップの中から最尤クラスが最も多い目標クラスを目標の種別とする。また、第１の実施形態における姿勢クラス統合マッピングと無変換マッピングとの代わりに、目標・姿勢クラス統合マッピングと目標クラス統合マッピングとを用いることにより、第１の実施形態と同様に、入力画像上における目標の位置及び向きを算出する。更に、入力画像に撮像されている目標の形状は、最尤クラスマップ上に現れる目標クラスが選択されたピクセルにて示される領域として得られる。最尤クラス選択部１３は、入力画像において複数の目標が撮像されていると判定した場合、目標ごとに種別、位置、形状及び向きを算出する。最尤クラス選択部１３は、算出した目標の種別、位置、形状及び向きを示す目標検出情報を生成する。第２の実施形態における目標検出情報は、入力画像における目標の種別、位置、形状及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部１３は、生成した４つの最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。

第２の実施形態における表示部１４は、畳み込みニューラルネットワーク部３１、クラスマッピング部１２及び最尤クラス選択部１３から目標認識情報を入力する。表示部１４は、第１の実施形態と同様に、入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部１４により行われる。表示部１４は、各クラスのヒートマップを表示したり、目標検出情報に基づいて目標の位置に目標の向きを示す図形（例えば矢印）を入力画像に重畳した画像を表示したりする。

畳み込みニューラルネットワーク部３１の学習は、第１の実施形態の畳み込みニューラルネットワーク部１１と同様に、図５に示した学習装置２によって行われる。第２の実施形態における目標認識装置は、第１の実施形態の目標認識装置１と異なり、目標の位置、形状及び向きに加え、目標の種別を識別するため、目標の種別を含む学習データセットが用いられる。

図９は、第２の実施形態における畳み込みニューラルネットワーク部３１の学習に用いられる学習データ及び教師データの一例を示す図である。図９に示す４つの学習データは、合成開口レーダにより得られた画像である。各学習データに撮像されている目標の種別は異なる。学習データにおける目標の像は、図３に示した学習データと同様に、シャドウ領域が存在するために矩形形状として現れていない。各学習データに対応する教師データには、種別の異なる目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。各教師データにおいて、目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。図９に示す教師データには、全２１クラスのうち、４つの前面クラス、４つの後面クラス及び１つの背景クラスからなる９つのクラスが含まれている。

図１０、図１１は、第２の実施形態における目標認識装置の入力画像と出力データとの一例を示す図である。入力画像は、学習データと同様に、合成開口レーダにより得られた画像である。図１０に示す出力データ＃１、＃２と、図１１に示す出力データ＃３、＃４とは、前述の４つのマッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ＃１は、無変換マッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ＃２は、目標・姿勢クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ＃３は、姿勢クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ＃４は、目標クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップである。

出力データ＃１には、目標の種別ごとの前面クラス及び後面クラスに割り当てられた階調の組み合わせにより目標の種別、位置及び形状が示されている。出力データ＃１において、左上の目標の種別と右下の目標の種別とは同じであるため、同じ階調の組み合わせにて目標の領域が示されている。左上及び右下の２つの目標の種別と他の２つの目標の種別とは異なるため、各目標の前面クラス及び後面クラスを示す階調が異なっている。

出力データ＃２には、1つの目標クラスに割り当てられた階調により目標の位置及び形状が示されている。出力データ＃３には、目標の種別ごとに割り当てられた階調にて目標の種別、位置及び形状が示されている。出力データ＃４には、前面クラスと後面クラスとのそれぞれに割り当てられた階調により目標の位置及び形状が示されている。

図１０及び図１１に示す最尤クラスマップのように、背景クラスの階調と異なる階調にて前面クラス、後面クラス及び目標クラスを表示することにより、入力画像における目標の有無をユーザが視認しやすくなる。また、目標の種別ごとに前面クラス及び後面クラスに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の種別をユーザが視認しやすくなる。また、前面クラスと後面クラスとに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の向きをユーザが視認しやすくなる。このように、非特許文献４に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献５に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するＷＤ−ＣＦＡＲでは行えない、入力画像における１つ以上の目標の向き及び種別に関する情報を第２の実施形態の目標認識装置は提示できる。

なお、表示部１４は、目標の種別、位置、形状及び向きを階調で示すだけでなく、テキストや図形にて示してもよい。最尤クラスマップは、グレースケールに代えて、カラーで表示されてもよい。最尤クラスマップがカラーで表示される場合、目標の各種別に対応する前面クラス及び後面クラスと、背景クラスとのそれぞれが異なる色にて表示される。

以上説明した、第１及び第２の実施形態における目標認識装置によれば、電波反射の強度をグレースケールの階調で示した合成開口レーダにより得られた画像において、目標の有無、目標がある場合は目標の位置、形状及び向きに関する情報（例えば図３、図１０、図１１における最尤クラスマップ）をユーザに提示することができる。電波反射の強度を可視化した画像において、得られる目標の像が人の視認する可視光画像と異なるため、目標を識別することはユーザにとって容易でない場合がある。目標認識装置は、目標の位置、形状及び向きに関する情報を提示することにより、合成開口レーダの画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。また、第２の実施形態における目標認識装置によれば、目標の種別に関する情報を更に提示することができ、目標の検出及び分類における利便性を向上させることができる。更に、目標クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップを用いることにより、目標形状を非特許文献９に記載されているように目標クラスと姿勢クラス（目標の前面クラス）に分割した場合よりも、姿勢クラスの性能を向上させることができる。

なお、表示部１４は、最尤クラスマップ又はヒートマップを表示するだけでなく、最尤クラスマップとヒートマップと入力画像とを並べて表示してもよい。入力画像（合成開口レーダの画像）と最尤クラスマップとヒートマップとを並べて表示することにより、入力画像における目標の像に対するユーザの視認性を向上させることができる。表示部１４は、入力画像と最尤クラスマップとヒートマップとに加えて、畳み込みニューラルネットワーク部の学習に用いた学習データのうち、少なくとも一つの学習データが示す画像を表示してもよい。表示部１４が学習データの画像と出力データとを同時に表示することにより、検出された目標の形状と目標の真値の形状とを比較することができる。

また、最尤クラスマップ又はヒートマップにおける目標の形状が、学習データ又は教師データにおける目標の形状と大きく異なる場合、最尤クラスマップ又はヒートマップは、入力画像における目標の認識に対する精度が低いことを示しているとみなすことができる。図１２は、入力画像と最尤クラスマップとの一例を示す図である。図１２に示す最尤クラスマップにおいて、前面クラス又は後面クラスで示される領域のうち、教師データにおける目標の形状（例えば、図９に示した教師データにおける目標の形状）と大きく異なる領域に対する信頼性が低いとみなすことができる。ユーザは、目標識別装置から出力される最尤クラスマップにおける目標の形状に基づいて、最尤クラスマップに対する信頼性に関する情報を得ることができる。

また、第１及び第２の実施形態における目標認識装置は、目標の向きが異なる場合それぞれにおける目標の形状を学習しているため、遮蔽等により目標の像の一部が欠けている入力画像であっても目標の位置、形状及び向きに関する情報を得ることができる。

畳み込みニューラルネットワーク部１１、３１の学習において、与えられる学習データセットに基づいて新たな学習データセットを生成し、与えられる学習データセットと新たな学習データセットとの両方を用いた学習が行われる。学習データを変形させて新たな学習データセットを生成することにより、学習データセットを生成するユーザの負担が軽減されるとともに、学習の効率が高まるので目標の認識精度を向上させることができる。

上記の実施形態では、入力データ及び学習データが合成開口レーダ画像である場合について説明したが、目標認識装置の入力データ及び学習データはこれに限定されない。例えば、干渉合成開口レーダ（Interferometric SAR: InSAR）や、逆合成開口レーダ（Inverse Synthetic Aperture Rader: ISAR）、ソナーなどの、電波や音波、レーダ光や赤外光などの反射強度に基づいて生成された画像を、目標認識装置の入力データ及び学習データとしてもよい。また、一般的な写真画像を目標認識装置の入力データ及び学習データとしてもよい。

畳み込みニューラルネットワーク部１１、３１によりスコアが算出されるクラスの数は、実施形態における３、２１に限定されない。入力画像において検出すべき目標に関するクラスの数に応じて、スコアが算出されるクラスの数が定められる。畳み込みニューラルネットワーク部におけるエンコーダ部の最終ブロックの畳み込みフィルタの数と、デコーダ部における転置畳み込みを行う畳み込みフィルタの数とが、定められたクラスの数に応じて決定される。

デコーダ部１１２、３１２は、特徴マップからスコアマップを生成する際に、特徴マップに対する転置畳み込み処理に代えて、アンプーリング（Unpooling）及び畳み込みを組み合わせた処理を所定回数繰り返してもよい。エンコーダ部１１１、３１１において６つのブロックのネットワークを組み合わせた構成例を説明したが、エンコーダ部１１１、３１１の構成は図２及び図８に示した構成例に限定されず、任意の数の隠れ層を備えてもよい。

畳み込みフィルタのカーネルサイズやストライド、第１〜第７ブロックにおける畳み込みフィルタの数（抽出する特徴量）についても同様に、図２及び図８に示した構成例に限定されない。エンコーダ部１１１、３１１は、任意の大きさの入力画像に対して特徴マップを生成できる構成を有していればよい。デコーダ部１１２、３１２は、エンコーダ部１１１、３１１から出力される特徴マップから、学習された畳み込みフィルタの重み係数に基づいて入力画像と同じ大きさを有するスコアマップを生成できる構成を有していればよい。

上記の実施形態では、デコーダ部１１２、３１２が、入力画像の大きさと同じ大きさのスコアマップを生成する場合について説明したが、第７ブロックにおける特徴マップに対する転置畳み込み処理において入力画像の大きさと異なるサイズのスコアマップを生成してもよい。また、スコアマップを目標認識情報として外部へ出力してもよい。

最尤クラス選択部１３は、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を含む目標認識情報に代えて、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報の少なくとも一つを目標認識情報として出力してもよい。表示部１４は、最尤クラスマップ、各クラスのヒートマップ又は目標検出情報に基づいて、検出された目標の輪郭を示す画像を生成して表示してもよい。

図６及び図９において、目標の像、位置及び形状を含む学習データ及び教師データを例示したが、目標に関する情報が含まれない学習データ及び教師データからなる学習データセットを畳み込みニューラルネットワーク部１１、３１の学習に用いてもよい。目標に関する情報が含まれない学習データセットを用いた学習を行うことにより、畳み込みニューラルネットワーク部１１、３１による背景クラスに対する学習が行われて背景クラスの認識精度が向上する。２つ以上の目標の像が含まれる画像が学習データとして用いられてもよい。

（第２の実施形態の変形例）
第２の実施形態において、姿勢クラス統合マッピング、目標クラス統合マッピング及び目標・姿勢クラス統合マッピングにより、ピクセルごとにクラスのスコアをそれぞれのクラスにマッピングした後、最尤クラスを選択する構成について説明した。しかし、クラスのスコアの変換関数ｆ（・）として最大値を求める関数を用いる場合、ピクセルごとにクラスのスコアの最尤クラスを選択した後、最尤クラス（のインデックス）を姿勢クラス統合、目標クラス統合及び目標・姿勢クラス統合の最尤クラス（のインデックス）にマッピングするように構成してもよい。

図１３は、第２の実施形態の変形例における目標認識装置３の構成例を示すブロック図である。目標認識装置３は、畳み込みニューラルネットワーク部３１と、最尤クラス選択部１３と、クラスマッピング部１５と、表示部１４とを備える。目標認識装置３において、クラスマッピング部１２に代えてクラスマッピング部１５が備えられること、及び、クラスマッピング部１５が最尤クラス選択部１３の後段に備えられることが目標認識装置１の構成と異なる。

図１４は、図１３に示した目標認識装置３により行われる目標識別処理の動作例を示すフローチャートである。図１４におけるステップＳ１０１、Ｓ１０２、Ｓ１０４、Ｓ１０５、Ｓ１０６の動作は、図４に示したフローチャートにおける動作と同じであるので、その説明を省略する。ステップＳ１０４における最尤クラスの選択が行われた後に、前述のようにステップＳ１０７におけるクラスのマッピングが行われる。

目標認識装置３の最尤クラス選択部１３は、ピクセルのｋ（ｋ＝｛０，１，…，２Ｉ｝）番目のクラスのスコアをｓ（ｋ）、最尤クラスのインデックスをｋ_ｍａｘとすると、ｋ_ｍａｘ＝ａｒｇｍａｘ（ｓ（０），…，ｓ（２Ｉ））により最尤クラスのインデックスを得る（ステップＳ１０４）。ここで、ｉ（ｉ＝｛１，…，Ｉ｝）番目の目標クラスが｛２ｉ−１，２ｉ｝、目標の前面クラスが２Ｉ以下の奇数の｛１，…，２Ｉ−１｝、目標の後面クラスが２以上２Ｉ以下の偶数の｛２，…，２Ｉ｝であるとする。目標認識装置３のクラスマッピング部１５は、ステップＳ１０７において、姿勢クラス統合マッピングでは、ｋ_ｍａｘが０であれば背景クラス、そうでなければｆｌｏｏｒ（（ｋ_ｍａｘ＋１）／２）番目の目標クラスにマッピングする。ここで、ｆｌｏｏｒ（・）は、床関数を示す。また、目標クラス統合マッピングでは、ｋ_ｍａｘが０であれば背景クラス、ｋ_ｍａｘが１以上の奇数であれば目標の前面クラス、ｋ_ｍａｘが１以上の偶数であれば目標の後面クラスにマッピングする。同様に、目標・姿勢クラス統合マッピングでは、ｋ_ｍａｘが０であれば背景クラス、そうでなければ目標クラスにマッピングする。

なお、上記は、目標認識装置３の最尤クラス選択部１３とクラスマッピング部１５との処理の一例であり、インデックスの対応関係やマッピング処理の内容は、変更することができる。複数の目標の種別を複数のグループに分ける対応関係が予め定められている場合、複数の種別の目標を１つの目標クラスにマッピングすることに代えて、対応関係に基づいて目標の種別をグループに対応する目標クラスにマッピングしてもよい。例えば、１０種の種別の目標それぞれに対して目標クラスが定められている場合、クラスマッピング部１５は、１０種の種別を２つのグループ（Ａ型目標クラス、Ｂ型目標クラス）にマッピングしてもよい。目標・姿勢クラス統合マッピング及び目標クラス統合マッピングにおいては、１０種の目標クラスが２つの異なる目標クラスに統合される。目標認識装置３は、複数の目標の種別を複数のグループに分ける対応関係を示すテーブルを記憶する記憶部を備えてもよい。

各実施形態において、目標の姿勢クラスとして、前面クラスと後面クラスとの２つが定められている場合について説明したが、他のクラスが定められてもよい。例えば、側面クラス、右側面クラス、左側面クラスなどが定められてもよい。また、目標の姿勢クラスにおいて３つ以上のクラスが定められる場合、目標の種別をグループ化するのと同様に、３つ以上の姿勢クラスを２つ以上のクラスに分けるグループ化が姿勢クラス統合マッピング及び目標・姿勢クラス統合マッピングにおいて行われてもよい。

このように、目標認識装置３では、姿勢クラス統合マッピング、目標クラス統合マッピング及び目標・姿勢クラス統合マッピング等の変換を行う場合でも、最尤クラス（のインデックス）を対象に処理を行うため、それぞれの変換に対応するスコアを算出する必要がない。このため、少ない演算量及び記億容量で処理を行うことができ、目標認識処理を高速化し、目標認識装置を小型化できる。

上記の実施形態における目標認識装置と学習装置とは、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、ＣＰＵがプログラムを実行してもよい。ＣＰＵは、補助記憶装置に記憶されたプログラムを実行することにより、畳み込みニューラルネットワーク部、最尤クラス選択部、表示部、データ変形部、及び誤差算出部として機能してもよい。なお、目標認識装置と学習装置との各機能のすべて又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。

以上説明した少なくともひとつの実施形態によれば、畳み込みニューラルネットワークを用いて入力画像から入力画像の各ピクセルにおけるクラスごとのスコアを含む第１のスコアマップを生成する畳み込みニューラルネットワーク部と、第１のスコアマップにおけるクラスのうち少なくとも２つのクラスを新たなクラスに統合した第２のスコアマップと、第１のスコアマップとに基づいて、入力画像に撮像されている少なくとも一つの目標の位置、形状及び向きを示す目標認識情報を取得する取得部（最尤クラス選択部）と、を持つことにより、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１，３…目標認識装置、２…学習装置、１１，３１…畳み込みニューラルネットワーク部、１２，１５…クラスマッピング部、１３…最尤クラス選択部、１４…表示部、２１…データ変形部、２２…誤差算出部、１１１，３１１…エンコーダ部、１１２，３１２…デコーダ部、９０…画像分類装置

Claims

少なくとも一つの目標が撮像されている学習データと、前記学習データにおける前記目標の位置及び形状を示すとともに前記形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像の各ピクセルにおける前記クラスごとのスコアを含む第１のスコアマップを生成する畳み込みニューラルネットワーク部と、
前記第１のスコアマップにおける前記クラスのうち少なくとも２つのクラスを新たなクラスに統合した第２のスコアマップと、前記第１のスコアマップとに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部と、
を備える、目標認識装置。
前記第１のスコアマップにおける前記クラスごとのスコアから前記目標に関するスコアを算出し、算出したスコアを前記目標に関する前記新たなクラスのスコアとして各ピクセルにマッピングして前記第２のスコアマップを生成するクラスマッピング部、
を更に備える、請求項１に記載の目標認識装置。
前記第１のスコアマップにおける各クラスのスコアに基づいて選択された前記入力画像の各ピクセルの最尤クラスを示す最尤クラスマップにおいて、各ピクセルの最尤クラスのうち少なくとも２つのクラスを前記新たなクラスに統合して前記第２のスコアマップを生成するクラスマッピング部、
を更に備える、請求項１に記載の目標認識装置。
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データセットのうち少なくとも一つの学習データセットに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習データにおける前記目標の像を変形させた変形学習データと、目標の位置及び変更された向きとを組み合わせた新たな学習データセット、及び、前記複数の学習データセットが用いられる、
請求項１から請求項３のいずれか一項に記載の目標認識装置。
前記目標の形状を分割した前記部分領域は、前記目標の前面側の領域と前記目標の後面側の領域とを含み、
前記クラスマッピング部は、前記前面側の領域のスコアと前記後面側の領域のスコアとに基づいて、前記目標のスコアを算出し、算出したスコアを前記新たなクラスのスコアとしてマッピングして前記第２のスコアマップを生成する、
請求項２に記載の目標認識装置。
前記学習データにおける前記目標には種別の異なる複数の目標があり、
前記教師データには、前記学習データにおける前記目標の種別を示す情報が含まれ、
前記取得部は、前記第１及び第２のスコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する、
請求項２に記載の目標認識装置。
前記目標の形状を分割した前記部分領域は、前記目標の向きに応じて定められ、
前記クラスマッピング部は、前記第１のスコアマップにおける前記種別及び前記部分領域の一方を分ける各グループの前記目標に関するスコアを算出し、算出した各スコアを前記目標に関する前記新たなクラスのスコアとして各ピクセルにマッピングして前記第２のスコアマップを生成する、
請求項６に記載の目標認識装置。
前記目標の形状を分割した前記部分領域は、前記目標の前面側の領域と前記目標の後面側の領域とを含み、
前記クラスマッピング部は、前記前面側の領域のスコアと前記後面側の領域のスコアとに基づいて、前記目標のスコアを前記種別ごとに算出し、算出した前記種別ごとのスコアを前記新たなクラスのスコアとして各ピクセルにマッピングして前記第２のスコアマップを生成する、
請求項６に記載の目標認識装置。
前記目標の形状を分割した前記部分領域は、前記目標の前面側の領域と前記目標の後面側の領域とを含み、
前記クラスマッピング部は、前記種別それぞれの前記前面側の領域のスコアに基づいて算出したスコアを新たな前面のクラスのスコアとしてマッピングし、前記種別それぞれの前記後面側の領域のスコアに基づいて算出したスコアを新たな後面のクラスのスコアとしてマッピングして前記第２のスコアマップを生成する、
請求項６に記載の目標認識装置。
目標認識装置が行う目標認識方法であって、
少なくとも一つの目標が撮像されている学習データと、前記学習データにおける前記目標の位置及び形状を示すとともに前記形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを用いて、入力画像から前記入力画像の各ピクセルにおける前記クラスごとのスコアを含む第１のスコアマップを生成する第１のステップと、
前記第１のスコアマップにおける前記クラスのうち少なくとも２つのクラスを新たなクラスに統合した第２のスコアマップと、前記第１のスコアマップとに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する第２のステップと、
を含む目標認識方法。
少なくとも一つの目標が撮像されている学習データと、前記学習データにおける前記目標の位置及び形状を示すとともに前記形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像の各ピクセルにおける前記クラスごとのスコアを含む第１のスコアマップを生成する畳み込みニューラルネットワーク部と、
前記第１のスコアマップにおける前記クラスのうち少なくとも２つのクラスを新たなクラスに統合した第２のスコアマップと、前記第１のスコアマップとに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部と、
としてコンピュータを機能させるためのプログラム。