JP2019194821A

JP2019194821A - 目標認識装置、目標認識方法及びプログラム

Info

Publication number: JP2019194821A
Application number: JP2018088990A
Authority: JP
Inventors: 英俊古川; Hidetoshi Furukawa
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-05-06
Filing date: 2018-05-06
Publication date: 2019-11-07

Abstract

【課題】画像に基づいた目標の検出及び位置推定における利便性を向上させることができる目標認識装置を提供する。【解決手段】実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。ピクセルごとに目標と目標以外の非目標とのスコアを出力するように学習した畳み込みニューラルネットワークを転移して得られる畳み込みニューラルネットワーク部は、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する。取得部は、領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する。【選択図】図１

Description

本発明の実施形態は、目標認識装置、目標認識方法及びプログラムに関する。

合成開口レーダー画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク（ Convolutional Neural Network: CNN ）が用いられている（非特許文献１、２）。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。

図９は、畳み込みニューラルネットワークを用いた画像分類装置９０の構成例を示す図である。図９に示す画像分類装置９０は、目標画像を入力し、目標画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた１０個の目標クラスのうち、目標画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置９０は、第１ブロックから第６ブロックまでの６ブロックを有する。第１ブロックから第４ブロックまでが畳み込みブロックにより構成され、第５ブロック及び第６ブロックが全結合層（ Fully Connected Layer: FC ）により構成されている。

画像分類装置９０を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置９０は、推定結果を出力する最終段（第６ブロック）及びその前段（第５ブロック）が全結合層として構成されているため、それらの入力数及び第１ブロックから第４ブロックまでの入力数が固定値となっている。すなわち、画像分類装置９０へ入力する目標画像を合成開口レーダー画像から抽出する必要がある。また、画像分類装置９０は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。更に、画像分類装置９０から出力される推定結果は、１０個の目標クラスそれぞれに対するスコア（確率に変換したスコアを含む）であるため、目標画像における目標の位置を得ることができないという問題がある。

畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけではなく、入力画像の各ピクセルを意味付けされたクラスに分類するセマンティック・セグメンテーションにも用いられている（非特許文献３）。非特許文献４に記載された技術は、合成開口レーダー画像から抽出された目標画像の目標領域とシャドウ領域との２つのクラスの輪郭線を検出している。目標領域は、目標から電波反射があったと推定された領域であり、シャドウ領域は、目標から電波反射がないレーダーシャドウと推定された領域である。各クラスに分類されたピクセルで示される輪郭線を示すことにより、目標の位置に関する情報を提示することができる。この技術を適用することにより、目標画像に撮像されている目標の位置に関する詳細な情報（目標領域とシャドウ領域の輪郭線）が得られる。しかし、ピクセル単位の出力を基本とするセマンティック・セグメンテーションでは、ユーザがセグメンテーション結果に基づいて目標領域であるが否かを判定する必要があり、合成開口レーダー画像から目標領域を自動検出することはできないという問題がある。

以上のような問題があるため、画像に撮像された目標の検出及び位置推定を行う画像処理には、改善の余地がある。

Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, ［平成３０年４月２７日検索］, インターネット <URL: https://arxiv.org/abs/1607.02397> 畑貴將、他３名、「Ｂ−２−５０深層学習による合成開口レーダ画像の目標類別」、２０１７年電子情報通信学会総合大会講演論文集、２０１７年３月 Jonathan Long, Evan Shelhamer, and Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation," [online], March 8, 2015, ［平成３０年４月２７日検索］, インターネット <URL: https://arxiv.org/abs/1411.4038> David Malmgren-Hansen, and Morten Nobel-Jorgensen, "Convolutional neural networks for SAR image segmentation," 2015 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT), December 2015, pp.231-236

本発明が解決しようとする課題は、画像に基づいた目標の検出及び位置推定における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。

実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる畳み込みニューラルネットワーク部は、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する。取得部は、前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する。

第１の実施形態による目標認識装置の構成例を示すブロック図。第１の実施形態による畳み込みニューラルネットワーク部の構成例を示すブロック図。目標認識装置の入力画像と出力データとの一例を示す図。目標認識装置により行われる目標認識処理の動作例を示すフローチャート。畳み込みニューラルネットワーク部の学習に用いられる学習装置の構成例を示すブロック図。学習装置の畳み込みニューラルネットワーク部の構成例を示すブロック図。第２の実施形態による畳み込みニューラルネットワーク部の構成例を示すブロック図。第２の実施形態による目標認識装置の出力データの一例を示す図。畳み込みニューラルネットワークを用いた画像分類装置の構成例を示す図。

以下、実施形態の目標認識装置、目標認識方法及びプログラムを、図面を参照して説明する。

［第１の実施形態］
図１は、第１の実施形態による目標認識装置１の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置１は、入力データとして任意の大きさの合成開口レーダー画像を（以下、入力画像）を入力する。目標認識装置１は、入力画像に撮像されている目標を検出し、入力画像上の目標の位置と目標の種別を示す目標認識情報を入力画像から取得する。目標認識装置１は、取得した目標認識情報を出力データとして出力する。目標認識装置１は、畳み込みニューラルネットワーク部１１と、目標領域判定部１２（取得部）と、表示部１３とを備える。

畳み込みニューラルネットワーク部１１は、入力画像を取得し、予め定められた複数のクラスに対する領域単位スコアマップを入力画像から算出する。畳み込みニューラルネットワーク部１１は、予め学習したクラスごとのスコアを含む領域単位スコアマップを算出する畳み込みニューラルネットワークであって、ＦＣＮ（ Fully Connected Network ）と呼ばれる全結合層が存在しない畳み込みニューラルネットワークを備える。畳み込みニューラルネットワークは、入力画像から学習した各クラスに対するスコアを含む領域単位スコアマップを算出する。

予め定められた複数のクラスが、例えば、目標を表す目標クラスと、目標以外を示す非目標クラスとの２クラスの場合、畳み込みニューラルネットワーク部１１は、入力画像の予め定められた領域ごとに、目標クラスと非目標クラスのスコアを算出する。また、予め定められた複数のクラスが、例えば、１０種類の種別がある１０個の目標クラスと、目標以外を示す非目標クラスとの１１クラスの場合、畳み込みニューラルネットワーク部１１は、入力画像の予め定められた領域ごとに、１０個の目標クラスと非目標クラスのスコアを算出する。目標クラスと非目標クラスとのスコアは、特徴量でもよいし、ソフトマック関数などを用いて特徴量を確率に変換した値でもよい。

目標領域判定部１２は、畳み込みニューラルネットワーク部１１により算出された領域単位スコアマップに基づいて、目標領域を判定する。また、領域単位スコアマップ上で目標領域と判定された領域の位置に基づいて、入力画像上において対応する領域（対応領域）を示す目標認識情報を生成する。目標認識情報は、目標が撮像されている領域を表示部１３に表示するための情報や、当該領域の入力画像上における座標、当該領域の目標クラス（複数の目標クラスのスコアを算出している場合、複数の目標クラス）と非目標クラスのスコア、当該領域を入力画像から抽出した目標画像が含まれる。目標領域判定部１２は、目標認識情報を表示部１３に出力するとともに、目標認識情報を出力データとして外部へ出力する。

表示部１３は、目標領域判定部１２から目標認識情報を取得し、目標認識情報で示される目標領域を表示する。表示部１３は、目標認識情報で示される目標領域を入力画像とを並べて表示してもよいし、目標認識情報で示される入力画像に重畳して表示してもよい。表示部１３は、目標認識情報で示される目標領域の近傍又は領域内に、目標の存在が推定される領域であることを示すテキストや図表を表示しても良い。テキストには、文字、数値、記号などが含まれる。

図２は、第１の実施形態による畳み込みニューラルネットワーク部１１の構成例を示すブロック図である。畳み込みニューラルネットワーク部１１に備えられる畳み込みニューラルネットワークは、第１ブロックから第７ブロックまでの７つのブロックを組み合わせた構成を有する。第１ブロックから第４ブロックでは、入力画像に対して、畳み込みフィルタ処理と活性化処理とマックスプーリング処理とが繰り返し行われる。第６ブロックでは、第５ブロックにより算出された領域ごとの特徴量から目標クラスと非目標クラスとに対応するスコアを算出する。更に、第７ブロックのアベレージプーリング処理により局所空間平均を行って、領域単位スコアマップを出力する。

第１ブロックは、３×３のカーネルサイズを有する３２通りの畳み込みフィルタで、ゼロパディングが行われた入力画像のピクセル値を畳み込み（畳み込みフィルタ処理）、畳み込みにより算出される値を正規化線形関数（ Rectified Linear Unit: ReLU ）で出力値に変換する活性化処理を行う。更に、第１ブロックは、活性化処理で得られた複数の出力値で構成される特徴量を３×３のカーネルサイズを有する３２通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数で出力値に変換する。すなわち、第１ブロックは、畳み込みフィルタ処理と活性化処理で入力画像から得られた特徴量に対して再度の畳み込みフィルタ処理と活性化処理を行う。

第１ブロックは、２回の畳み込みフィルタ処理と活性化処理で得られた特徴量に対して２×２のプールサイズでストライド値が２×２のマックスプーリング処理を行い、特徴量の縦・横サイズを各２分の１に圧縮する。第１ブロックは、圧縮した特徴量を第２ブロックへ出力する。なお、第１ブロックのマックスプーリング処理を行わずに、次の第２ブロックの畳み込みフィルタのストライド値を２×２にすることにより、第１ブロックにより出力される特徴量に対し、縦・横サイズが各２分の１の特徴量を得るように構成することもできる。

第２ブロックから第４ブロックにおいても、第１ブロックと同様に２回の畳み込みフィルタ処理と２回の活性化処理とマックスプーリング処理とが行われる。ただし、第２、第３及び第４ブロックにおける畳み込みフィルタ処理では、６４通り、１２８通り及び２５６通りの畳み込みフィルタがそれぞれ用いられる。

第５ブロックでは、ゼロパディング後の入力画像の大きさに対して縦・横が各１６分の１（＝（１／２）^４）の空間サイズのデータであって各セルが特徴量で構成される特徴マップに対して、４×４のカーネルサイズを有する５１２通りの畳み込みフィルタそれぞれで畳み込み、畳み込みにより算出される値を正規化線形関数で出力値に変換する。第５ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第５ブロックと第６ブロックとの接続の一部をランダムに一時的に切断するドロップアウト（ Dropout ）層を備える。

第６ブロックは、１×１のカーネルサイズを有する１１通りの畳み込みフィルタで、セルごとに各クラスに対応する１１個の特徴量を算出し、１セルあたり１１個の特徴量を有するスコアマップが生成される。

第７ブロックは、２×２のプールサイズでストライド値が１×１のアベレージスプーリング処理を行い、局所空間平均を行って、領域単位スコアマップを出力する。領域単位スコアマップにおける各セルが、入力画像の予め定められた領域ごとのスコアを示す。

畳み込みニューラルネットワーク部１１における第１ブロックから第６ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワーク部１１は、畳み込みフィルタにて入力画像又は特徴マップを走査して、カーネルサイズの入力画像又は特徴マップ上の部分領域の特徴量を算出する畳み込みフィルタ処理と活性化処理とマックスプーリング処理とを行う。畳み込みニューラルネットワーク部１１には全結合層が存在しないため、畳み込みニューラルネットワーク部１１は、入力画像の大きさに係わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部１１は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライド値と入力画像の大きさに応じて、畳み込みフィルタ処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。

図１に戻り、目標認識装置１の構成の説明を続ける。目標領域判定部１２は、畳み込みニューラルネットワーク部１１により生成される領域単位スコアマップを入力する。目標領域判定部１２は、畳み込みニューラルネットワーク部１１から出力される領域単位スコアマップに基づいて、目標領域を判定する。ここで、スコアはソフトマックス関数により確率に変換されているものとし、目標のｊ（ｊ＝｛１，…，Ｊ｝）番目の目標クラスのスコアをｓ（ｊ）、非目標クラスのスコアをｓ（０）とする。目標領域判定部１２は、非目標クラスのスコアｓ（０）が所定の値以下になる領域や、非目標クラスのスコアｓ（０）が最大値とならない領域や、いずれかの目標クラスのスコアｓ（ｊ）が最尤クラスとなる領域を目標領域と判定するように構成することができる。

表示部１３は、目標領域判定部１２から目標認識情報を入力する。表示部１３は、目標認識情報に基づいて、目標領域と判定された領域を塗りつぶしボックスやバウンディングボックスとして表示する。また、複数の目標クラスの分類を行っている場合、目標のクラスに予め対応付けられた色または階調で塗りつぶしボックスやバウンディングボックスを表示してもよい。また、目標領域の近傍又は領域内に、目標の存在が推定される領域であることを示すテキストや図表を表示しても良い。テキストには、文字、数値、記号などが含まれる。

図３は、目標認識装置１の入力画像と出力データとの一例を示す図である。図３（ａ）に示す入力画像は、合成開口レーダーにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。入力画像には、左上と右下に目標である２つの車両と、右上と左下に２つの非目標が撮像されている。目標は、地表面（２次元平面）に射影した際に矩形となる形状を有しているが、シャドウ領域が存在するため入力画像における目標の像は矩形として表れていない。学習データセットを用いて事前に学習が行われた畳み込みニューラルネットワーク部１１を備える目標認識装置１を用いることにより、図３（ａ）に示す入力画像から図３（ｂ）に示す目標領域を塗りつぶしボックスで表した出力データを得ることができる。

表示部１３は、図３に示す入力画像と出力データとを並べて表示したり、出力データを入力画像に重畳して表示したりする。表示部１３は、出力データを表示する際に、表示する目標領域の目標クラスを示す数値又はテキストを表示してもよい。目標クラスを示す数値又はテキストは、当該目標領域又はその領域の近傍に表示されてもよいし、塗りつぶしボックス又はバウンディングボックスにおいて表示されている色又は階調との対応付けを示すように表示されてもよい。

図４は、目標認識装置１により行われる目標認識処理の動作例を示すフローチャートである。目標認識処理が開始されると、目標認識装置１は、目標検出の対象となるデータを入力画像として入力する（ステップＳ１０１）。畳み込みニューラルネットワーク部１１は、目標認識装置１に入力された入力画像を受け付け、学習データセットを用いた学習にて得られた各ブロックの畳み込みフィルタを用いて入力画像の領域ごとのスコアを算出して領域単位スコアマップを生成する（ステップＳ１０２）。

目標領域判定部１２は、畳み込みニューラルネットワーク部１１により生成された領域単位スコアマップを受け付け、目標領域を判定する（ステップＳ１０３）。目標領域判定部１２は、目標領域と判定された領域について、入力画像上において対応する領域（対応領域）を示す目標認識情報を生成する（ステップＳ１０４）。

目標領域判定部１２は、生成した目標認識情報を表示部１３と外部へ出力する（ステップＳ１０５）。表示部１３は、目標領域判定部１２から受け付けた目標認識情報に基づいた表示を行い（ステップＳ１０６）、目標認識処理が終了する。目標認識装置１の外部に出力される目標認識情報は、目標認識装置１の外部へ設けられた記憶装置に記憶されたり、目標認識装置１が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置１は、ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などの記憶装置を備え、目標認識情報を記憶装置に記憶させてもよい。

図５は、畳み込みニューラルネットワーク部１１の学習に用いられる学習装置２の構成例を示すブロック図である。学習装置２は、目標が撮像されている画像を示す学習データと、学習データが示す画像の各ピクセルに対する分類結果を示す教師データとを組み合わせた学習データセットを入力する。学習データの画像の大きさは、任意の大きさであり、目標認識処理における入力画像の大きさと同じであってもよいし、異なる大きさであってもよい。教師データは、学習データが示す画像の各ピクセルに対する１種類以上の目標と非目標との分類結果を示す。例えば、教師データは、学習データが示す画像と同じ大きさの真値のスコアマップに変換できる真の分類結果であり、学習データが示す画像のピクセルごとに１０種類の目標クラスと非目標クラスとのうち判定されるべき一つのクラスを示す。

学習装置２は、データローダ部２１と、畳み込みニューラルネットワーク部２２と、誤差算出部２３とを備える。データローダ部２１は、複数の学習データセットを入力する。データローダ部２１は、外部の記憶装置に記憶されている複数の学習データセットを一括または順次読み出すことにより学習データセットを入力してもよいし、外部の通信装置から学習データセットを一括または順次受信することにより学習データを入力してもよい。データローダ部２１は、入力される学習データセットごとに、学習データセットに含まれる学習データを畳み込みニューラルネットワーク部２２に出力し、学習データセットに含まれる教師データを誤差算出部２３へ出力する。

畳み込みニューラルネットワーク部２２は、入力される学習データが示す画像のピクセルごとに、各クラスのスコアを示すスコアマップを生成し、生成したスコアマップを誤差算出部２３へ出力する。誤差算出部２３は、畳み込みニューラルネットワーク部２２により生成されたスコアマップと、教師データから得られる真値のスコアマップとの差分を誤差として算出し、算出した誤差を畳み込みニューラルネットワーク部２２へ出力する。畳み込みニューラルネットワーク部２２は、誤差を用いて、各ブロックにおける畳み込みフィルタの重み係数を学習する。学習には、例えば、確率的勾配降下法に基づく誤差逆伝搬法などの公知の技術が用いられる。

図６は、学習装置２の畳み込みニューラルネットワーク部２２の構成例を示すブロック図である。畳み込みニューラルネットワーク部２２は、入力画像における特徴量を算出するエンコーダ部２２１と、算出された特徴量から１１クラス（１０種の目標クラスと非目標クラス）それぞれのスコアを入力画像のピクセルごとに算出するデコーダ部２２２とを備える。エンコーダ部２２１は、畳み込みニューラルネットワーク部２２に入力される入力画像に対して、畳み込みフィルタ処理と活性化処理とマックスプーリング処理とを繰り返し行い、前述の１１クラスそれぞれの特徴量を算出する。デコーダ部２２２は、エンコーダ部２２１により算出される特徴量を、入力画像と大きさと同じ大きさのスコアマップに復元する。

エンコーダ部２２１は、ニューラルネットワーク部２２における第１ブロックから第６ブロックまでの６つのブロックを組み合わせた構成を有する。第１ブロックから第４ブロックでは、入力画像に対して、畳み込みフィルタ処理と活性化処理とマックスプーリング処理とが繰り返し行われる。第６ブロックでは、第５ブロックにより算出された領域ごとの特徴量から目標クラスと非目標クラスとに対応するスコアを算出し、特徴量（目標認識装置１の畳み込みニューラルネットワーク部１１における局所空間平均を行う前のスコアマップと同じ）としてデコーダ部２２２に出力する。

デコーダ部２２２は、ニューラルネットワーク部２２における第７ブロックを有する。第７ブロックは、３２×３２のカーネルサイズでストライド値が１６×１６の１１通りの畳み込みフィルタで、エンコーダ部２２１から入力される特徴量に対して転置畳み込み（ Transposed Convolution ）行う。転置畳み込みにより、入力される特徴量は、入力画像の縦横サイズと同じ縦横サイズのスコアマップであるピクセル単位スコアマップに変換される。

なお、学習装置２の学習は、非特許文献３等に記載されたセマンティック・セグメンテーションを行うニューラルネットワークの学習方法を用いることができる。そして、この学習によって、ピクセル単位のセグメンテーションを行う畳み込みニューラルネットワーク２２のエンコーダ部２２１は、目標認識装置１の畳み込みニューラルネットワーク部１１において領域単位スコアマップを出力するために利用される。

第１の実施形態の目標認識装置１において、目標クラスと非目標クラスとをピクセル単位に識別できるように学習した畳み込みニューラルネットワークの領域単位スコアマップを出力するエンコーダを畳み込みニューラルネットワーク部１１として利用することにより、目標認識装置１は、非特許文献１、２などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力画像における１つ以上の目標の検出と、検出した目標領域の位置の提示とを行える。また、非特許文献４に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークでは行えない、入力画像から目標領域を検出することができる。目標認識装置１が目標領域に関する情報を提供することにより、入力画像における目標の検出及び位置推定における利便性を向上させることができる。

更に、非特許文献３に記載されている目標分類を行うように学習した畳み込みニューラルネットワークを利用した粗いセグメンテーションを行う畳み込みニューラルネットワークでは、元々の畳み込みニューラルネットワークが目標の位置に関する学習を行っていないため、目標の位置に関するスコアが広い領域に分散する傾向があり、ＮＭＳ（ Non-Maximum Suppression ）やクラスタリング等の方法により複数の目標領域の候補を絞り込む必要があるが、目標認識装置１は、目標の位置に関する学習を行った畳み込みニューラルネットワークを利用するため、より正確な目標領域の位置を提示することができ、目標領域候補の絞り込みにおける利便性を向上させることができる。

Ｒ−ＣＮＮ、ＦａｓｔｅｒＲ−ＣＮＮ等の目標検出を行う従来のニューラルネットワークは出力の前段に全結合層を有しているので、入力画像を一定の大きさにスケーリングする必要がある。入力画像をスケーリングした場合、入力画像の縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第１の実施形態の目標認識装置１は、入力画像の大きさを一定にする必要がなく、任意の大きさの入力画像に対して目標認識処理を行えるため、目標の認識精度を劣化させることなく様々な大きさの入力画像を扱うことができる。また、目標認識装置１への入力画像を得るために、元の入力画像をスケーリングすることや、元の入力画像から所定の大きさの入力画像を抽出する必要がないため、ユーザの利便性を向上させることができる。

［第２の実施形態］
第２の実施形態による目標認識装置３は、第１の実施形態の目標認識装置１と同様に、入力データとして合成開口レーダー画像（以下、入力画像）を入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第２の実施形態による目標認識装置３が出力する目標認識情報は、撮像されている目標の入力画像上の位置と種別に加えて、目標の形状を示す。第２の実施形態においても、第１の実施形態と同様に、目標認識情報を目標認識装置が出力する。

第２の実施形態による目標認識装置３は、畳み込みニューラルネットワーク部１１に代えて、畳み込みニューラルネットワーク部３１を備える。畳み込みニューラルネットワーク部３１は、領域単位スコアマップに加えて、ピクセル単位スコアマップを出力する。

図７は、第２の実施形態による目標認識装置３の畳み込みニューラルネットワーク部３１の構成例を示す図である。畳み込みニューラルネットワーク部３１に備えられる畳み込みニューラルネットワークは、第１ブロックから第８ブロックまでの８つのブロックを組み合わせた構成を有する。畳み込みニューラルネットワーク部３１のエンコーダ部３１１である第１ブロックから第７ブロックまでは、畳み込みニューラルネットワーク部１１と同じであり、領域単位スコアマップを出力する。

畳み込みニューラルネットワーク部３１のデコーダ部３１２である第８ブロックは、学習装置２の畳み込みニューラルネットワーク部２２のデコーダ部２２２である第７ブロックと同じであり、畳み込みニューラルネットワーク部３１の第６ブロックからの局所空間平均を行う前のスコアマップを入力し、ピクセル単位スコアマップを出力する。

第２の実施形態による目標認識装置３の目標領域判定部１２は、第１の実施形態による目標認識装置１の目標領域判定部１２と同様に、畳み込みニューラルネットワークにより算出された領域単位スコアマップに基づいて、目標領域を判定する。更に、畳み込みニューラルネットワーク部３１からのピクセル単位スコアマップを入力し、目標領域と判定された領域のピクセル単位スコアマップに基づいて、目標形状に関する情報を取得し、これを加えた目標認識情報を生成する。目標領域判定部１２は、目標認識情報を表示部１３に出力するとともに、目標認識情報を出力データとして外部へ出力する。

第２の実施形態による目標認識装置３の表示部１３は、目標領域判定部１２から目標認識情報を取得し、目標認識情報で示される目標領域を表示する。表示部１３は、目標認識情報で示される目標領域を入力画像とを並べて表示してもよいし、目標認識情報で示される入力画像に重畳して表示してもよい。

図８は、第２の実施形態による目標認識装置３の表示部１３の出力データの一例を示す図である。第２の実施形態による目標認識装置３では、畳み込みニューラルネットワーク部３１によって、ピクセル単位スコアマップを生成できるので、これに基づいて入力画像全体のセグメンテーション出力や目標領域におけるセグメンテーション出力を目標の形状として提示することができる。図８（ａ）は、図３の入力画像に対応するセグメンテーション結果を出力したものであり、図８（ｂ）は、目標領域がバウンディングボックスで表示され、目標領域におけるセグメンテーション結果が、目標の形状として出力されている。更に、図８（ｃ）は、図３（ａ）の入力画像と図８（ｂ）の出力データとを重畳表示した例である。

第２の実施形態の目標認識装置２において、目標クラスと非目標クラスとをピクセル単位に識別できるように学習した学習装置２の畳み込みニューラルネットワーク部２２を、領域単位スコアマップとピクセル単位スコアマップとを出力する畳み込みニューラルネットワーク部３１として利用することにより、目標認識装置３は、目標認識情報として、目標の形状に関する情報も提示できるようになり、入力画像における目標の検出及び位置推定における利便性を向上させるとともに目標認識における利便性を向上させることができる。

上記の実施形態では、入力データ及び学習データが合成開口レーダー画像である場合について説明したが、目標認識装置の入力データ及び学習データはこれに限定されない。例えば、干渉合成開口レーダー（ Interferometric SAR: InSAR ）や、逆合成開口レーダー（ Inverse SAR: ISAR ）、ソナーなどの、電波や音波、レーザー光や赤外光などの反射強度に基づいて生成される画像を、目標認識装置の入力データ及び学習データとしてもよい。また、一般的な写真画像を目標認識装置の入力データ及び学習データとしてもよい。

上記の実施形態における目標認識装置と学習装置とは、バスで接続されたＣＰＵ（ Central Processing Unit ）やメモリや補助記憶装置などを備え、ＣＰＵがプログラムを実行してもよい。ＣＰＵは、補助記憶装置に記憶されたプログラムを実行することにより、畳み込みニューラルネットワーク部、目標領域判定部、表示部、データローダ部、及び誤差算出部として機能してもよい。なお、目標認識装置と学習装置との各機能のすべて又は一部は、ＡＳＩＣ（ Application Specific Integrated Circuit ）やＰＬＤ（ Programmable Logic Device ）やＦＰＧＡ（ Field Programmable Gate Array ）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。プログラムは、電気通信回線を介して送信されてもよい。

以上説明した少なくともひとつの実施形態によれば、入力画像からピクセル単位スコアマップを出力するように学習した畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの目標と非目標とのスコアを領域単位スコアマップとして算出する畳み込みニューラルネットワーク部と、領域単位スコアマップに基づいて、目標の検出及び目標領域の判定を行う目標領域判定部と、を持つことにより、画像に基づいた目標の検出及び位置推定における利便性を向上させることができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変更は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１，３…目標認識装置、２…学習装置、１１，２２，３１…畳み込みニューラルネットワーク部、１２…目標領域判定部、１３…表示部、２１…データローダ部、２３…誤差算出部、２２１，３１１…エンコーダ部、２２２，３１２…デコーダ部、９０…画像分類装置

Claims

目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する畳み込みニューラルネットワーク部と、
前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する取得部と、
を備える、目標認識装置。
目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出するとともに、入力画像からピクセルごとの前記目標と前記非目標とのスコアをピクセル単位スコアマップとして算出する畳み込みニューラルネットワーク部と、
前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する取得部と、
を備える、目標認識装置。
目標認識装置が行う目標認識方法であって、
目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる畳み込みニューラルネットワークを用いて、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する第１のステップと、
前記領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する第２のステップと、
を含む目標認識方法。
目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出するとともに、入力画像からピクセルごとの前記目標と前記非目標とのスコアをピクセル単位スコアマップとして算出する畳み込みニューラルネットワーク部と、
前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する取得部と、
としてコンピュータを機能させるためのプログラム。