JP2019185179A

JP2019185179A - 目標認識装置、目標認識方法及びプログラム

Info

Publication number: JP2019185179A
Application number: JP2018071753A
Authority: JP
Inventors: 英俊古川; Hidetoshi Furukawa
Original assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Current assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2019-10-24

Abstract

【課題】画像に基づいた目標の検出における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。【解決手段】実施形態の目標認識装置は、目標領域判定部と、変換部とを持つ。目標領域判定部は、畳み込みニューラルネットワークを用いて目標のスコアと非目標のスコアとを領域ごとに有するスコアマップを入力データから取得する。目標領域判定部は、取得したスコアマップに基づいて、入力データにおいて目標が含まれるか否かを判定する。変換部は、畳み込みニューラルネットワークにおけるストライド幅に基づいて、目標領域判定部により目標が含まれると判定された位置を、入力データ上における対応領域を示す領域情報に変換する。【選択図】図１

Description

本発明の実施形態は、目標認識装置、目標認識方法及びプログラムに関する。

合成開口レーダ画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）が用いられている（非特許文献１、２）。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。

図６は、畳み込みニューラルネットワークを用いた画像分類装置９０の構成例を示す図である。図６に示す画像分類装置９０は、目標画像を入力データとして入力し、目標画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた１０個の目標クラスのうち、目標画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置９０は、第１ブロックから第５ブロックまでの５ブロックを有する。第１ブロックから第３ブロックまでが畳み込みブロックにより構成され、第４ブロック及び第５ブロックが全結合層（Fully Connected Layer）により構成されている。

画像分類装置９０を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置９０は、推定結果を出力する最終段（第５ブロック）及びその前段（第４ブロック）が全結合層として構成されているため、それらの入力数及び第１ブロックから第３ブロックまでの入力数が固定値となっている。すなわち、画像分類装置９０へ入力する目標画像のサイズが固定されているため、画像分類装置９０へ入力する目標画像を合成開口レーダ画像から抽出する必要がある。そのため、任意サイズの合成開口レーダ画像から目標を分類することができない。また、画像分類装置９０は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。

畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけでなく、入力する画像から目標の位置、大きさ、種別を同時推定する目標検出にも用いられている（非特許文献３）。非特許文献３に記載された技術は、入力する画像から複数の目標の位置と大きさを示すバウンディングボックスとその種別とを得られるが、畳み込みニューラルネットワークの途中段階に全結合層を含んでいるため、入力する画像のサイズが固定されている。すなわち、合成開口レーダ画像を所定のサイズに分割して、目標検出を行う畳み込みニューラルネットワークへ入力する必要がある。又は、目標検出性能の低下を許容して、合成開口レーダ画像をスケーリングして入力する必要がある。

以上のような問題があるため、画像に撮像された目標の検出を行う画像処理には、改善の余地がある。

Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, ［平成２９年１２月１日検索］, インターネット<URL: https://arxiv.org/abs/1607.02397> 畑貴將、他３名、「Ｂ−２−５０深層学習による合成開口レーダ画像の目標類別」、電子情報通信学会総合大会通信講演論文集１、２０１７年３月、ｐ．２２５ Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," [online], 2015, ［平成３０年３月１日検索］, インターネット<URL: http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks>

本発明が解決しようとする課題は、画像に基づいた目標の検出における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。

実施形態の目標認識装置は、目標領域判定部と、変換部とを持つ。目標領域判定部は、目標又は目標以外の非目標が撮像されている学習データと、学習データにおける目標と非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有する。目標領域判定部は、畳み込みニューラルネットワークを用いて目標のスコアと非目標のスコアとを領域ごとに有するスコアマップを入力データから取得する。目標領域判定部は、取得したスコアマップに基づいて、入力データにおいて目標が含まれるか否かを判定する。変換部は、畳み込みニューラルネットワークにおけるストライド幅に基づいて、目標領域判定部により目標が含まれると判定された位置を、入力データ上における対応領域を示す領域情報に変換する。

第１の実施形態による目標認識装置の構成例を示すブロック図。第１の実施形態による目標領域判定部が備える畳み込みニューラルネットワークの構成例を示すブロック図。第１の実施形態における入力データ、スコアマップ及び領域情報における位置の対応関係を示す図。第１の実施形態による目標認識装置が行う目標認識処理の動作を示すフローチャート。第２の実施形態による目標領域判定部が備える畳み込みニューラルネットワークの構成例を示す図。畳み込みニューラルネットワークを用いた画像分類装置の構成例を示す図。

以下、実施形態の目標認識装置、目標認識方法及びプログラムを、図面を参照して説明する。

［第１の実施形態］
図１は、第１の実施形態による目標認識装置１の構成例を示すブロック図である。目標認識装置１は、任意の大きさの合成開口レーダ画像を入力データとして入力する。目標認識装置１は、入力データに撮像されている目標の領域を示す領域情報を入力データから取得する。目標認識装置１は、取得した領域情報を出力データとして出力する。目標認識装置１は、目標領域判定部１１と、データ変換部１２（変換部）と、表示部１３とを備える。

目標領域判定部１１は、入力データを取得し、予め定められた複数のクラスに対するスコアを領域ごとに有するスコアマップを入力データから算出する。目標領域判定部１１は、予め学習したクラスごとのスコアを領域ごとに有するスコアマップを算出する畳み込みニューラルネットワークであって、ＦＣＮ（Fully Convolutional Network）と呼ばれる全結合層が存在しない畳み込みニューラルネットワークを備える。畳み込みニューラルネットワークは、学習した各クラスに対するスコアを含むスコアマップを入力データから算出する。目標領域判定部１１は、畳み込みニューラルネットワークにより算出されたスコアマップに基づいて、目標領域を判定する。

予め定められた複数のクラスは、例えば、目標を示す目標クラスと、目標以外を示す非目標クラスとの２つである。目標領域判定部１１は、スコアマップからクラスタリングやＮＭＳ（Non-Maximal Suppression）等の手法を用いて同一目標の領域をまとめ、目標領域を判定する。目標が存在すると判定された領域を目標領域という。スコアマップ上の領域は、目標クラスと非目標クラスとのスコアが算出される最小単位である。目標クラスと非目標クラスとのスコアは、ソフトマックス関数などを用いてスコアを確率に変換した値でもよい。目標領域判定部１１は、各領域における各クラスのスコアの比較結果に基づいて、スコアマップ上の各領域に対する目標の存在を判定してもよい。

データ変換部１２は、目標領域判定部１１が目標領域と判定した領域それぞれの位置を、入力データにより示される画像上において対応する領域（対応領域）を示す領域情報に変換する。領域情報は、入力データにおいて撮像された目標を含む領域を示す。領域情報には、目標が撮像されている領域を表示部１３に表示するための情報や、当該領域の入力データにより示される画像上における座標、当該領域を画像フォーマットに変換した領域画像が含まれる。データ変換部１２は、領域情報を表示部１３へ出力するとともに、領域情報を出力データとして外部へ出力する。

表示部１３は、データ変換部１２から領域情報を取得し、領域情報で示される領域をバウンディングボックス等により表示する。表示部１３は、領域情報で示される領域と入力データとを並べて表示してもよいし、領域情報で示される領域を入力データに重畳して表示してもよい。表示部１３は、領域情報で示される領域の近傍又は領域内に、目標の存在が推定される領域であることを示すテキストを表示してもよい。テキストには、文字、数値、記号などが含まれる。

図２は、第１の実施形態による目標領域判定部１１が備える畳み込みニューラルネットワークの構成例を示すブロック図である。目標領域判定部１１に備えられる畳み込みニューラルネットワークは、第１ブロックから第５ブロックまでの５つの畳み込みブロックを組み合わせた構成を有する。第１ブロックから第３ブロックでは、入力データに対して、畳み込みフィルタ処理とマックスプーリング処理とが繰り返し行われる。第５ブロックでは、第４ブロックにより算出された特徴量から目標クラスと非目標クラスとに対応するスコアを算出する。

第１ブロックは、３×３のカーネルサイズを有する３２通りの畳み込みフィルタで、入力データのピクセル値を畳み込み、畳み込みにより算出される値を正規化線形関数（Rectified Linear Unit （ReLU））で出力値に変換する抽出処理を行う。更に、第１ブロックは、抽出処理で得られた複数の出力値で構成される特徴量を３×３のカーネルサイズを有する３２通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数（ReLU）で出力値に変換する。すなわち、第１ブロックは、抽出処理で入力データから得られた特徴量に対して再度の抽出処理を行う。

第１ブロックは、２回の抽出処理で得られた特徴量に対して２×２のカーネルサイズでストライド幅が２×２のマックスプーリング処理を行い、特徴量をピクセルごとに含む特徴マップの縦・横サイズを各２分の１に圧縮する。第１ブロックは、圧縮した特徴マップを第２ブロックへ出力する。なお、第１ブロックのマックスプーリング処理を行わずに、次の第２ブロックの畳み込みフィルタのストライド幅を２×２にすることにより、第１ブロックから出力される特徴マップに対し、縦方向及び横方向のサイズが各２分の１の特徴マップを第２ブロックで得るように構成することもできる。

第２ブロック及び第３ブロックにおいても、第１ブロックと同様に２回の抽出処理とマックスプーリング処理とが行われる。ただし、第２及び第３ブロックにおける抽出処理では、６４通り及び１２８通りの畳み込みフィルタがそれぞれ用いられる。

第４ブロックには、入力データにより示される画像の大きさに対して縦方向及び横方向が各８分の１（＝（１／２）^３）の大きさを有し各ピクセルが特徴量で構成される特徴マップが入力される。第４ブロックでは、入力した特徴マップに対して、１２×１２のカーネルサイズを有する２５６通りの畳み込みフィルタそれぞれで畳み込みが行われ、畳み込みにより算出される値が正規化線形関数（ReLU）で出力値に変換される。第４ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第４ブロックと第５ブロックとの接続の一部をランダムに一時的に切断するドロップアウト（Dropout）層を備える。

第５ブロックでは、１×１のカーネルサイズを有する２通りの畳み込みフィルタで、ピクセルごとに各クラスに対応する２つのスコアが算出され、１ピクセルあたり２つのスコアを有するスコアマップが生成される。スコアマップにおける各ピクセルが、目標領域判定部１１において判定対象となる領域である。目標領域判定部１１は、スコアマップに含まれる各ピクセル（領域）の目標クラス及び非目標クラスのスコアに基づいて、目標領域であるか否かをピクセルごとに判定する。入力データにより示される画像上においてスコアマップの１ピクセルに対応する領域の大きさは、畳み込みニューラルネットワークにおける畳み込みフィルタ処理又はマックスプーリング処理のストライド幅と、スコアを算出する際に用いられるフィルタのカーネルサイズとに基づいて定まる。

畳み込みニューラルネットワークにおける第１ブロックから第５ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワークは、畳み込みフィルタにて入力データ又は各ブロックにおいて得られる特徴マップを走査して、入力データ上又は特徴マップ上においてカーネルサイズと同じ大きさの部分領域（判定領域）に対する特徴量又はスコアを算出するフィルタ処理と、マックスプーリング処理とを行う。畳み込みニューラルネットワークには全結合層が存在しないため、畳み込みニューラルネットワークは、入力データにより示される画像の大きさに関わらず、スコアマップを算出できる。畳み込みニューラルネットワークは、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライド幅と入力データの大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力データ又は特徴マップに対してゼロパディングを行ってもよい。

畳み込みニューラルネットワークの学習には、目標又は非目標が撮像された学習データと、学習データにおける目標と非目標との分類結果を示す教師データとを含む複数の学習データセットが用いられる。学習データにより示される画像の大きさは、目標画像と同じサイズが望ましい。各畳み込みフィルタの重み係数を決定する学習には、確率的勾配降下法に基づく誤差逆伝播法などの公知の技術が用いられる。誤差は、例えば、教師データの分類結果と、学習中の畳み込みニューラルネットワークを用いて得られた分類結果とから得られる。

図３は、第１の実施形態における入力データ、スコアマップ及び領域情報における位置の対応関係を示す図である。図３において、スコアマップにおいてハッチングされている目標領域に対応する入力データの判定領域と領域情報が示す対応領域との対応関係と、入力データにより示される画像とスコアマップとの大きさの関係とが示されている。入力データの縦方向と横方向とのサイズが判定領域のストライド幅のそれぞれ６倍と８倍とであり、判定領域の縦方向及び横方向のサイズがストライド幅の４倍である場合、スコアマップの縦方向と横方向とのサイズはストライド幅をそれぞれ３倍と５倍としたサイズになる。ストライド幅に対する入力データの縦方向又は横方向のサイズの倍率をＷとし、ストライド幅に対する判定領域の縦方向又は横方向のサイズの倍率をＦとした場合、スコアマップの縦方向又は横方向のサイズＯは、式（１）で表される。
Ｏ＝（Ｗ−Ｆ）＋１ …（１）

スコアマップにおける各ピクセルのスコアは、判定領域がストライドされる都度、入力データ上の判定領域内のピクセル値に基づいて算出される。入力データにおける判定領域は、スコアマップにおける各ピクセルのスコアを算出する際に直接又は間接に参照されるピクセルの範囲に相当する。判定領域の大きさは、畳み込みニューラルネットワークに備えられる畳み込みフィルタのカーネルサイズとストライド幅とに応じて一意に定められる。

例えば、図２に示した畳み込みニューラルネットワークでは、特徴マップの縦方向及び横方向それぞれのサイズを２分の１にするマックスプーリング処理が３回行われる。３回のマックスプーリング処理により、第３ブロックから出力される特徴マップのサイズは、入力データが示す画像のサイズに対して８分の１になる。更に、第４ブロックにおいて１２×１２のカーネルサイズの畳み込みフィルタで処理が行われるため、第４ブロックから出力される特徴マップのサイズは、第３ブロックから出力される特徴マップのサイズに対して１２分の１になる。すなわち、図２に示した畳み込みニューラルネットワークを用いた場合、判定領域の縦及び横のサイズそれぞれは、９６（＝８×１２）ピクセルとなる。

図３を参照して、スコアマップ上の目標領域の位置と入力データ上の判定領域の位置との関係について説明する。以下の説明では、スコアマップ及び入力データの左上隅のピクセルを原点（０，０）とし、判定領域の開始位置（左上隅）の座標を（ｈ０，ｗ０）とし、判定領域の縦方向及び横方向の大きさをｈ、ｗで表す。ストライド幅をＳとし、スコアマップにおける目標領域の座標を（ｒ，ｃ）とした場合、判定領域の座標（ｈ０，ｗ０）は、式（２−１）及び（２−２）で表される。
ｈ０＝Ｓ・ｒ …（２−１）
ｗ０＝Ｓ・ｃ …（２−２）

データ変換部１２は、目標領域と判定されたスコアマップ上の各領域の位置（ｒ，ｃ）を、式（２−１）及び（２−２）を用いて入力データ上の位置（ｈ０，ｗ０）に変換し、変換した位置と判定領域の大きさ（ｈ，ｗ）とから領域情報（ｈ０，ｗ０，ｈ，ｗ）を生成する。ここで、領域情報が示す領域の大きさは、一意に定められた判定領域の大きさと同じである。

図３に示した例は、複数回の畳み込みフィルタ処理により算出されたスコアの領域と、当該領域に対応する判定領域及び対応領域との位置関係にも適用できる。図２に示したように、複数の畳み込みフィルタを用いてスコアマップを算出する場合、式（２−１）及び（式２−２）におけるストライド幅Ｓは、各畳み込み演算におけるストライド幅の積で定まる。

図４は、目標認識装置１が行う目標認識処理の動作を示すフローチャートである。目標認識処理が開始されると、目標認識装置１は、目標検出の対象となる入力データを入力する（ステップＳ１０１）。目標領域判定部１１は、目標認識装置１に入力された入力データを受け付け、学習ずみの各畳み込みフィルタを含む畳み込みニューラルネットワークを用いて入力データからスコアマップを算出し、スコアマップ上の各領域（ピクセル）のスコアを取得する（ステップＳ１０２）。

目標領域判定部１１は、目標クラスと非目標クラスとのスコアを領域ごとに有するスコアマップに基づいて、目標領域を判定する（ステップＳ１０３）。目標らしさが高いほど目標クラスのスコアが大きくなる場合、目標領域判定部１１は、クラスタリングやＮＭＳ（Non-Maximal Suppression）等の手法を用いて同一目標の領域をまとめることにより、目標領域を選択できる。目標領域判定部１１は、ソフトマックス関数などを用いて確率に変換したスコアを用いてもよい。目標領域判定部１１は、スコアマップにおける目標の位置を示す目標領域をデータ変換部１２へ出力する。

データ変換部１２は、スコアマップにおいて目標領域として判定された領域それぞれの位置を入力データにより示される画像上の位置に変換し、目標領域に対応する入力データにより示される画像上の領域を示す領域情報を生成する（ステップＳ１０４）。すなわち、データ変換部１２は、目標領域判定部１１の出力である目標領域の情報（ｒ，ｃ）を領域情報に変換する。データ変換部１２は、領域情報を表示部１３及び外部へ出力する。表示部１３は、入力データ及び領域情報を受け付け、領域情報が示す領域を表示して、入力データにより示される画像において目標があると推定される位置及び範囲をユーザに提示し（ステップＳ１０６）、処理を終了する。

目標認識装置１の外部へ出力される領域情報は、目標認識装置１の外部に設けられた記憶装置に記憶されたり、目標認識装置１が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置１は、ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などの記憶装置を備え、領域情報と入力データとを対応付けて記憶装置に記憶させてもよい。

目標の位置、大きさ、種別を同時に推定する目標検出を行う従来の畳み込みニューラルネットワークは出力の前段に全結合層を備えている。図２に示した第１の実施形態の目標認識装置１が備える畳み込みニューラルネットワークは、全結合層を備えず、畳み込み層（12x12 Conv. 256, 1x1 Conv.2）を備える。全結合層を備える目標検出用畳み込みニューラルネットワークでは、入力データを一定の大きさにスケーリングする必要があるため、入力データの縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第１の実施形態の目標認識装置１は、入力データの大きさを一定にする必要がなく、任意の大きさの入力データに対して目標認識処理を行える。したがって、目標認識装置１は、目標の認識精度を劣化させることなく任意サイズの入力データを扱うことができる。また、目標認識装置１は、任意サイズの入力データを扱えるため、従来の目標検出用の畳み込みニューラルネットワークのように位置や大きさの異なる判定領域を複数のスケールで処理する必要がなく、処理を高速に行うことができる。また、目標認識装置１への入力データを得るために、合成開口レーダ画像から目標画像を抽出したり、画像を分割したりする必要がないため、ユーザの利便性を向上させることができる。

目標認識装置１は、スコアマップ上において目標領域と判定された領域それぞれに対応する入力データ上の範囲をユーザに提示できる。目標認識装置１は、入力データに複数の目標が存在する場合においても、スコアマップ上において目標領域と判定される複数の領域に対応する入力データ上の範囲を提示できる。

目標認識装置１は、非特許文献１、２などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力データにおける１つ以上の目標の検出と、検出した目標が位置する範囲の提示とを行える。目標認識装置１は、非特許文献３に記載されている畳み込みニューラルネットワークのように判定領域を複数のスケールで処理する必要がないため、演算負荷の増加を抑えることができる。

［第２の実施形態］
第２の実施形態における目標認識装置は、種別が異なる目標が入力データに含まれている場合において、目標の種別を示す情報を含む領域情報を出力する。第２の実施形態における目標認識装置の構成は、図１に示した第１の実施形態における目標認識装置１の構成と同じである。なお、目標領域判定部１１に備えられる畳み込みニューラルネットワークの構成が異なる。第２の実施形態では、認識対象の目標に１０種類の種別がある場合について説明する。

図５は、第２の実施形態による目標領域判定部１１が備える畳み込みニューラルネットワークの構成例を示す図である。第２の実施形態における畳み込みニューラルネットワークは、第５ブロックにおいてカーネルサイズが１×１のフィルタを１１通り備える。第５ブロックの構成が、図２に示した畳み込みニューラルネットワークと異なる。第５ブロックでは、１１通りのフィルタで、第４ブロックにおいて算出される特徴マップのピクセルごとに１０種類の目標クラスと非目標クラスとの１１クラスに対応する１１個のスコアを算出する。すなわち、畳み込みニューラルネットワークから出力されるスコアマップは、ピクセルごとに１１個のスコアを有する。第２の実施形態における畳み込みニューラルネットワークの学習に用いる教師データには、学習データにおける目標の種別と非目標との分類結果が含まれる。

目標領域判定部１１は、入力データを取得し、畳み込みニューラルネットワークを用いて入力データから１１個のスコアを領域ごとに有するスコアマップを取得する。目標領域判定部１１は、畳み込みニューラルネットワークにより算出されたスコアマップに基づいて、目標領域とその目標クラスとを判定する。目標領域判定部１１は、判定結果に基づいて目標領域の情報を生成し、目標領域の情報をデータ変換部１２へ出力する。目標領域の情報は、スコアマップにおいて目標領域と判定された領域（ピクセル）の位置と、目標領域と判定された領域に含まれる可能性が最も高い目標クラス（目標の種別）を示す情報とが含まれる。なお、各クラスのスコア（確率に変換したスコアを含む）を示す情報を含むようにしても良い。

データ変換部１２は、目標領域判定部１１が目標領域と判定した領域それぞれの位置を入力データにより示される画像上の位置に変換し、目標領域に対応する入力データにより示される画像上の領域と目標領域に対応する目標の種別とを示す領域情報を生成する。

表示部１３は、データ変換部１２から領域情報を取得し、領域情報で示される領域と当該領域における目標の種別とを表示する。表示部１３は、領域情報で示される領域と入力データとを並べて表示してもよいし、領域情報で示される領域を入力データにより示される画像に重畳して表示してもよい。表示部１３は、領域情報で示される領域を目標の種別ごとに表示してもよい。表示部１３は、領域情報で示される領域の近傍又は領域内に、存在が推定される目標の種別を示すテキストを表示してもよい。表示部１３は、領域情報で示される領域を表示する際に目標の種別ごとに異なる色を用いてもよい。例えば、表示部１３は目標領域の表示に用いる枠線の色や領域内の色を目標の種別ごとに変えてもよい。

第２の実施形態による目標認識装置は、スコアマップ上において目標領域と判定された領域に対応する入力データ上の範囲と目標の種別とをユーザに提示できる。目標認識装置は、入力データに複数の目標が存在する場合においても、スコアマップ上において目標領域と判定される複数の領域に対応する入力データ上の範囲と目標の種別とを提示できる。

以上説明した、第１及び第２の実施形態における目標認識装置によれば、電波反射の強度をグレースケールの階調で示した合成開口レーダにより得られた画像において、目標の有無、目標がある場合は目標があると推定される範囲をユーザに提示することができる。また、目標認識装置は、目標があると推定される範囲を取得する際に、判定領域を複数のスケールで処理する必要がなく、演算負荷の増加を抑えて高速に目標認識処理を行うことができる。例えば、数多くの合成開口レーダ画像を処理する場合においては、目標認識装置は、それぞれの画像における目標の有無と目標があると推定される範囲とを短い時間にてユーザに提示することができる。

入力データから得られるスコアマップを入力データにより示される画像のサイズに復元するデコーダを備えない畳み込みニューラルネットワークでは、図３に示すように、入力データにおける位置とスコアマップにおける位置とが非線形の関係となる。位置関係が非線形であるため、出力されるスコアマップの大きさを入力データにより示される画像と同じ大きさに単に拡大しても、画像とスコアマップと間における位置が一致しない。したがって、スコアマップを拡大して入力データと重畳しても、目標があると推定される領域がずれて表示されてしまう。これに対して、第１及び第２の実施形態における目標認識装置は、スコアマップそのものやスコアマップを単に拡大したものではなく、目標領域と判定された領域に対応する入力データ上の領域をデータ変換部により算出した領域を出力するため、前述のようなずれが生じることがない。目標認識装置の表示部が、ずれのない領域を提示することにより、ユーザは、入力データ上において目標があると推定される領域を精度よく把握することができ、目標を認識しやすくなる。

電波反射の強度を可視化した画像において、得られる目標の像が人の視認する可視光画像と異なるため、目標を識別することはユーザにとって容易でない場合がある。目標認識装置は、目標があると推定される画像上の範囲をユーザに提示することにより、合成開口レーダの画像に基づいた目標の検出における利便性を向上させることができる。また、第２の実施形態における目標認識装置によれば、目標の種別に関する情報を更に提示することができ、目標の検出及び分類における利便性を向上させることができる。

上記の実施形態では、入力データ及び学習データにより示される画像が合成開口レーダ画像である場合について説明したが、目標認識装置の入力データ及び学習データはこれに限定されない。例えば、干渉合成開口レーダ（Interferometric SAR: InSAR）や、逆合成開口レーダ（Inverse Synthetic Aperture Rader: ISAR）、ソナーなどの、電波や音波、レーダ光や赤外光などの反射強度に基づいて生成された画像を、目標認識装置の入力データ及び学習データとしてもよい。また、一般的な写真画像を目標認識装置の入力データ及び学習データとしてもよい。

畳み込みニューラルネットワークによりスコアが算出されるクラスの数は、実施形態における２、１１に限定されない。入力データにおいて検出すべき目標に関するクラスの数に応じて、スコアが算出されるクラスの数が定められる。畳み込みニューラルネットワークにおける第５ブロックのフィルタ数は、定められたクラスの数に応じて決定される。

畳み込みフィルタのカーネルサイズやストライド幅、第１〜第４ブロックにおける畳み込みフィルタの数（抽出する特徴量）についても同様に、図２及び図５に示した構成例に限定されない。畳み込みニューラルネットワークは、任意の大きさの入力データに対して識別すべきクラス数のスコアをピクセルごとに有するスコアマップを生成できる構成を有していればよい。

上記の実施形態における目標認識装置は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、ＣＰＵがプログラムを実行してもよい。ＣＰＵは、補助記憶装置に記憶されたプログラムを実行することにより、目標領域判定部、データ変換部、表示部として機能してもよい。なお、目標認識装置の各機能のすべて又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。プログラムは、電気通信回線を介して送信されてもよい。

以上説明した少なくともひとつの実施形態によれば、畳み込みフィルタのストライド幅に基づいて、目標領域判定部により目標領域と判定された位置を、入力データにより示される画像上における対応領域を示す領域情報に変換する変換部を持つことにより、入力される画像に基づいた目標の検出における利便性を向上させることができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１…目標認識装置、１１…目標領域判定部、１２…データ変換部、１３…表示部、９０…画像分類装置

Claims

目標又は前記目標以外の非目標が撮像されている学習データと、前記学習データにおける前記目標と前記非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて前記目標のスコアと前記非目標のスコアとを領域ごとに有するスコアマップを入力データから取得し、取得した前記スコアマップに基づいて、前記入力データにおいて前記目標が含まれるか否かを判定する目標領域判定部と、
前記畳み込みニューラルネットワークにおけるストライド幅に基づいて、前記目標領域判定部により前記目標が含まれると判定された位置を、前記入力データ上における対応領域を示す領域情報に変換する変換部と、
を備える目標認識装置。
前記目標には、種別の異なる複数の目標が含まれ、
前記教師データは、前記学習データにおける前記目標の種別を示し、
前記スコアマップにおける前記領域は、前記目標の種別ごとのスコアと前記非目標のスコアとを含み、
前記変換部は、前記目標領域判定部により前記目標が含まれると判定された位置を、前記対応領域と前記目標の種別とを示す前記領域情報に変換する、
請求項１に記載の目標認識装置。
目標認識装置が行う目標認識方法であって、
目標又は前記目標以外の非目標が撮像されている学習データと、前記学習データにおける前記目標と前記非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを用いて、前記目標のスコアと前記非目標のスコアとを領域ごとに有するスコアマップを入力データから取得する第１のステップと、
前記スコアマップに基づいて前記入力データにおいて前記目標が含まれるか否かを判定する第２のステップと、
前記畳み込みニューラルネットワークにおけるストライド幅に基づいて、前記第２のステップにおいて前記目標が含まれると判定された位置を、前記入力データ上における対応領域を示す領域情報に変換する第３のステップと、
を含む目標認識方法。
目標又は前記目標以外の非目標が撮像されている学習データと、前記学習データにおける前記目標と前記非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて前記目標のスコアと前記非目標のスコアとを領域ごとに有するスコアマップを入力データから取得し、取得した前記スコアマップに基づいて前記入力データにおいて前記目標が含まれるか否かを判定する目標領域判定部、
前記畳み込みニューラルネットワークにおけるストライド幅に基づいて、前記目標領域判定部により前記目標が含まれると判定された位置を、前記入力データ上における対応領域を示す領域情報に変換する変換部、
としてコンピュータを機能させるためのプログラム。