JP2019185179A - 目標認識装置、目標認識方法及びプログラム - Google Patents
目標認識装置、目標認識方法及びプログラム Download PDFInfo
- Publication number
- JP2019185179A JP2019185179A JP2018071753A JP2018071753A JP2019185179A JP 2019185179 A JP2019185179 A JP 2019185179A JP 2018071753 A JP2018071753 A JP 2018071753A JP 2018071753 A JP2018071753 A JP 2018071753A JP 2019185179 A JP2019185179 A JP 2019185179A
- Authority
- JP
- Japan
- Prior art keywords
- target
- input data
- score
- region
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】画像に基づいた目標の検出における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。【解決手段】実施形態の目標認識装置は、目標領域判定部と、変換部とを持つ。目標領域判定部は、畳み込みニューラルネットワークを用いて目標のスコアと非目標のスコアとを領域ごとに有するスコアマップを入力データから取得する。目標領域判定部は、取得したスコアマップに基づいて、入力データにおいて目標が含まれるか否かを判定する。変換部は、畳み込みニューラルネットワークにおけるストライド幅に基づいて、目標領域判定部により目標が含まれると判定された位置を、入力データ上における対応領域を示す領域情報に変換する。【選択図】図1
Description
本発明の実施形態は、目標認識装置、目標認識方法及びプログラムに関する。
合成開口レーダ画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が用いられている(非特許文献1、2)。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。
図6は、畳み込みニューラルネットワークを用いた画像分類装置90の構成例を示す図である。図6に示す画像分類装置90は、目標画像を入力データとして入力し、目標画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた10個の目標クラスのうち、目標画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置90は、第1ブロックから第5ブロックまでの5ブロックを有する。第1ブロックから第3ブロックまでが畳み込みブロックにより構成され、第4ブロック及び第5ブロックが全結合層(Fully Connected Layer)により構成されている。
画像分類装置90を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置90は、推定結果を出力する最終段(第5ブロック)及びその前段(第4ブロック)が全結合層として構成されているため、それらの入力数及び第1ブロックから第3ブロックまでの入力数が固定値となっている。すなわち、画像分類装置90へ入力する目標画像のサイズが固定されているため、画像分類装置90へ入力する目標画像を合成開口レーダ画像から抽出する必要がある。そのため、任意サイズの合成開口レーダ画像から目標を分類することができない。また、画像分類装置90は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。
畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけでなく、入力する画像から目標の位置、大きさ、種別を同時推定する目標検出にも用いられている(非特許文献3)。非特許文献3に記載された技術は、入力する画像から複数の目標の位置と大きさを示すバウンディングボックスとその種別とを得られるが、畳み込みニューラルネットワークの途中段階に全結合層を含んでいるため、入力する画像のサイズが固定されている。すなわち、合成開口レーダ画像を所定のサイズに分割して、目標検出を行う畳み込みニューラルネットワークへ入力する必要がある。又は、目標検出性能の低下を許容して、合成開口レーダ画像をスケーリングして入力する必要がある。
以上のような問題があるため、画像に撮像された目標の検出を行う画像処理には、改善の余地がある。
Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1607.02397>
畑貴將、他3名、「B−2−50 深層学習による合成開口レーダ画像の目標類別」、電子情報通信学会総合大会 通信講演論文集1、2017年3月、p.225
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," [online], 2015, [平成30年3月1日検索], インターネット<URL: http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks>
本発明が解決しようとする課題は、画像に基づいた目標の検出における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。
実施形態の目標認識装置は、目標領域判定部と、変換部とを持つ。目標領域判定部は、目標又は目標以外の非目標が撮像されている学習データと、学習データにおける目標と非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有する。目標領域判定部は、畳み込みニューラルネットワークを用いて目標のスコアと非目標のスコアとを領域ごとに有するスコアマップを入力データから取得する。目標領域判定部は、取得したスコアマップに基づいて、入力データにおいて目標が含まれるか否かを判定する。変換部は、畳み込みニューラルネットワークにおけるストライド幅に基づいて、目標領域判定部により目標が含まれると判定された位置を、入力データ上における対応領域を示す領域情報に変換する。
以下、実施形態の目標認識装置、目標認識方法及びプログラムを、図面を参照して説明する。
[第1の実施形態]
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。目標認識装置1は、任意の大きさの合成開口レーダ画像を入力データとして入力する。目標認識装置1は、入力データに撮像されている目標の領域を示す領域情報を入力データから取得する。目標認識装置1は、取得した領域情報を出力データとして出力する。目標認識装置1は、目標領域判定部11と、データ変換部12(変換部)と、表示部13とを備える。
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。目標認識装置1は、任意の大きさの合成開口レーダ画像を入力データとして入力する。目標認識装置1は、入力データに撮像されている目標の領域を示す領域情報を入力データから取得する。目標認識装置1は、取得した領域情報を出力データとして出力する。目標認識装置1は、目標領域判定部11と、データ変換部12(変換部)と、表示部13とを備える。
目標領域判定部11は、入力データを取得し、予め定められた複数のクラスに対するスコアを領域ごとに有するスコアマップを入力データから算出する。目標領域判定部11は、予め学習したクラスごとのスコアを領域ごとに有するスコアマップを算出する畳み込みニューラルネットワークであって、FCN(Fully Convolutional Network)と呼ばれる全結合層が存在しない畳み込みニューラルネットワークを備える。畳み込みニューラルネットワークは、学習した各クラスに対するスコアを含むスコアマップを入力データから算出する。目標領域判定部11は、畳み込みニューラルネットワークにより算出されたスコアマップに基づいて、目標領域を判定する。
予め定められた複数のクラスは、例えば、目標を示す目標クラスと、目標以外を示す非目標クラスとの2つである。目標領域判定部11は、スコアマップからクラスタリングやNMS(Non-Maximal Suppression)等の手法を用いて同一目標の領域をまとめ、目標領域を判定する。目標が存在すると判定された領域を目標領域という。スコアマップ上の領域は、目標クラスと非目標クラスとのスコアが算出される最小単位である。目標クラスと非目標クラスとのスコアは、ソフトマックス関数などを用いてスコアを確率に変換した値でもよい。目標領域判定部11は、各領域における各クラスのスコアの比較結果に基づいて、スコアマップ上の各領域に対する目標の存在を判定してもよい。
データ変換部12は、目標領域判定部11が目標領域と判定した領域それぞれの位置を、入力データにより示される画像上において対応する領域(対応領域)を示す領域情報に変換する。領域情報は、入力データにおいて撮像された目標を含む領域を示す。領域情報には、目標が撮像されている領域を表示部13に表示するための情報や、当該領域の入力データにより示される画像上における座標、当該領域を画像フォーマットに変換した領域画像が含まれる。データ変換部12は、領域情報を表示部13へ出力するとともに、領域情報を出力データとして外部へ出力する。
表示部13は、データ変換部12から領域情報を取得し、領域情報で示される領域をバウンディングボックス等により表示する。表示部13は、領域情報で示される領域と入力データとを並べて表示してもよいし、領域情報で示される領域を入力データに重畳して表示してもよい。表示部13は、領域情報で示される領域の近傍又は領域内に、目標の存在が推定される領域であることを示すテキストを表示してもよい。テキストには、文字、数値、記号などが含まれる。
図2は、第1の実施形態による目標領域判定部11が備える畳み込みニューラルネットワークの構成例を示すブロック図である。目標領域判定部11に備えられる畳み込みニューラルネットワークは、第1ブロックから第5ブロックまでの5つの畳み込みブロックを組み合わせた構成を有する。第1ブロックから第3ブロックでは、入力データに対して、畳み込みフィルタ処理とマックスプーリング処理とが繰り返し行われる。第5ブロックでは、第4ブロックにより算出された特徴量から目標クラスと非目標クラスとに対応するスコアを算出する。
第1ブロックは、3×3のカーネルサイズを有する32通りの畳み込みフィルタで、入力データのピクセル値を畳み込み、畳み込みにより算出される値を正規化線形関数(Rectified Linear Unit (ReLU))で出力値に変換する抽出処理を行う。更に、第1ブロックは、抽出処理で得られた複数の出力値で構成される特徴量を3×3のカーネルサイズを有する32通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数(ReLU)で出力値に変換する。すなわち、第1ブロックは、抽出処理で入力データから得られた特徴量に対して再度の抽出処理を行う。
第1ブロックは、2回の抽出処理で得られた特徴量に対して2×2のカーネルサイズでストライド幅が2×2のマックスプーリング処理を行い、特徴量をピクセルごとに含む特徴マップの縦・横サイズを各2分の1に圧縮する。第1ブロックは、圧縮した特徴マップを第2ブロックへ出力する。なお、第1ブロックのマックスプーリング処理を行わずに、次の第2ブロックの畳み込みフィルタのストライド幅を2×2にすることにより、第1ブロックから出力される特徴マップに対し、縦方向及び横方向のサイズが各2分の1の特徴マップを第2ブロックで得るように構成することもできる。
第2ブロック及び第3ブロックにおいても、第1ブロックと同様に2回の抽出処理とマックスプーリング処理とが行われる。ただし、第2及び第3ブロックにおける抽出処理では、64通り及び128通りの畳み込みフィルタがそれぞれ用いられる。
第4ブロックには、入力データにより示される画像の大きさに対して縦方向及び横方向が各8分の1(=(1/2)3)の大きさを有し各ピクセルが特徴量で構成される特徴マップが入力される。第4ブロックでは、入力した特徴マップに対して、12×12のカーネルサイズを有する256通りの畳み込みフィルタそれぞれで畳み込みが行われ、畳み込みにより算出される値が正規化線形関数(ReLU)で出力値に変換される。第4ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第4ブロックと第5ブロックとの接続の一部をランダムに一時的に切断するドロップアウト(Dropout)層を備える。
第5ブロックでは、1×1のカーネルサイズを有する2通りの畳み込みフィルタで、ピクセルごとに各クラスに対応する2つのスコアが算出され、1ピクセルあたり2つのスコアを有するスコアマップが生成される。スコアマップにおける各ピクセルが、目標領域判定部11において判定対象となる領域である。目標領域判定部11は、スコアマップに含まれる各ピクセル(領域)の目標クラス及び非目標クラスのスコアに基づいて、目標領域であるか否かをピクセルごとに判定する。入力データにより示される画像上においてスコアマップの1ピクセルに対応する領域の大きさは、畳み込みニューラルネットワークにおける畳み込みフィルタ処理又はマックスプーリング処理のストライド幅と、スコアを算出する際に用いられるフィルタのカーネルサイズとに基づいて定まる。
畳み込みニューラルネットワークにおける第1ブロックから第5ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワークは、畳み込みフィルタにて入力データ又は各ブロックにおいて得られる特徴マップを走査して、入力データ上又は特徴マップ上においてカーネルサイズと同じ大きさの部分領域(判定領域)に対する特徴量又はスコアを算出するフィルタ処理と、マックスプーリング処理とを行う。畳み込みニューラルネットワークには全結合層が存在しないため、畳み込みニューラルネットワークは、入力データにより示される画像の大きさに関わらず、スコアマップを算出できる。畳み込みニューラルネットワークは、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライド幅と入力データの大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力データ又は特徴マップに対してゼロパディングを行ってもよい。
畳み込みニューラルネットワークの学習には、目標又は非目標が撮像された学習データと、学習データにおける目標と非目標との分類結果を示す教師データとを含む複数の学習データセットが用いられる。学習データにより示される画像の大きさは、目標画像と同じサイズが望ましい。各畳み込みフィルタの重み係数を決定する学習には、確率的勾配降下法に基づく誤差逆伝播法などの公知の技術が用いられる。誤差は、例えば、教師データの分類結果と、学習中の畳み込みニューラルネットワークを用いて得られた分類結果とから得られる。
図3は、第1の実施形態における入力データ、スコアマップ及び領域情報における位置の対応関係を示す図である。図3において、スコアマップにおいてハッチングされている目標領域に対応する入力データの判定領域と領域情報が示す対応領域との対応関係と、入力データにより示される画像とスコアマップとの大きさの関係とが示されている。入力データの縦方向と横方向とのサイズが判定領域のストライド幅のそれぞれ6倍と8倍とであり、判定領域の縦方向及び横方向のサイズがストライド幅の4倍である場合、スコアマップの縦方向と横方向とのサイズはストライド幅をそれぞれ3倍と5倍としたサイズになる。ストライド幅に対する入力データの縦方向又は横方向のサイズの倍率をWとし、ストライド幅に対する判定領域の縦方向又は横方向のサイズの倍率をFとした場合、スコアマップの縦方向又は横方向のサイズOは、式(1)で表される。
O=(W−F)+1 …(1)
O=(W−F)+1 …(1)
スコアマップにおける各ピクセルのスコアは、判定領域がストライドされる都度、入力データ上の判定領域内のピクセル値に基づいて算出される。入力データにおける判定領域は、スコアマップにおける各ピクセルのスコアを算出する際に直接又は間接に参照されるピクセルの範囲に相当する。判定領域の大きさは、畳み込みニューラルネットワークに備えられる畳み込みフィルタのカーネルサイズとストライド幅とに応じて一意に定められる。
例えば、図2に示した畳み込みニューラルネットワークでは、特徴マップの縦方向及び横方向それぞれのサイズを2分の1にするマックスプーリング処理が3回行われる。3回のマックスプーリング処理により、第3ブロックから出力される特徴マップのサイズは、入力データが示す画像のサイズに対して8分の1になる。更に、第4ブロックにおいて12×12のカーネルサイズの畳み込みフィルタで処理が行われるため、第4ブロックから出力される特徴マップのサイズは、第3ブロックから出力される特徴マップのサイズに対して12分の1になる。すなわち、図2に示した畳み込みニューラルネットワークを用いた場合、判定領域の縦及び横のサイズそれぞれは、96(=8×12)ピクセルとなる。
図3を参照して、スコアマップ上の目標領域の位置と入力データ上の判定領域の位置との関係について説明する。以下の説明では、スコアマップ及び入力データの左上隅のピクセルを原点(0,0)とし、判定領域の開始位置(左上隅)の座標を(h0,w0)とし、判定領域の縦方向及び横方向の大きさをh、wで表す。ストライド幅をSとし、スコアマップにおける目標領域の座標を(r,c)とした場合、判定領域の座標(h0,w0)は、式(2−1)及び(2−2)で表される。
h0=S・r …(2−1)
w0=S・c …(2−2)
h0=S・r …(2−1)
w0=S・c …(2−2)
データ変換部12は、目標領域と判定されたスコアマップ上の各領域の位置(r,c)を、式(2−1)及び(2−2)を用いて入力データ上の位置(h0,w0)に変換し、変換した位置と判定領域の大きさ(h,w)とから領域情報(h0,w0,h,w)を生成する。ここで、領域情報が示す領域の大きさは、一意に定められた判定領域の大きさと同じである。
図3に示した例は、複数回の畳み込みフィルタ処理により算出されたスコアの領域と、当該領域に対応する判定領域及び対応領域との位置関係にも適用できる。図2に示したように、複数の畳み込みフィルタを用いてスコアマップを算出する場合、式(2−1)及び(式2−2)におけるストライド幅Sは、各畳み込み演算におけるストライド幅の積で定まる。
図4は、目標認識装置1が行う目標認識処理の動作を示すフローチャートである。目標認識処理が開始されると、目標認識装置1は、目標検出の対象となる入力データを入力する(ステップS101)。目標領域判定部11は、目標認識装置1に入力された入力データを受け付け、学習ずみの各畳み込みフィルタを含む畳み込みニューラルネットワークを用いて入力データからスコアマップを算出し、スコアマップ上の各領域(ピクセル)のスコアを取得する(ステップS102)。
目標領域判定部11は、目標クラスと非目標クラスとのスコアを領域ごとに有するスコアマップに基づいて、目標領域を判定する(ステップS103)。目標らしさが高いほど目標クラスのスコアが大きくなる場合、目標領域判定部11は、クラスタリングやNMS(Non-Maximal Suppression)等の手法を用いて同一目標の領域をまとめることにより、目標領域を選択できる。目標領域判定部11は、ソフトマックス関数などを用いて確率に変換したスコアを用いてもよい。目標領域判定部11は、スコアマップにおける目標の位置を示す目標領域をデータ変換部12へ出力する。
データ変換部12は、スコアマップにおいて目標領域として判定された領域それぞれの位置を入力データにより示される画像上の位置に変換し、目標領域に対応する入力データにより示される画像上の領域を示す領域情報を生成する(ステップS104)。すなわち、データ変換部12は、目標領域判定部11の出力である目標領域の情報(r,c)を領域情報に変換する。データ変換部12は、領域情報を表示部13及び外部へ出力する。表示部13は、入力データ及び領域情報を受け付け、領域情報が示す領域を表示して、入力データにより示される画像において目標があると推定される位置及び範囲をユーザに提示し(ステップS106)、処理を終了する。
目標認識装置1の外部へ出力される領域情報は、目標認識装置1の外部に設けられた記憶装置に記憶されたり、目標認識装置1が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置1は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)などの記憶装置を備え、領域情報と入力データとを対応付けて記憶装置に記憶させてもよい。
目標の位置、大きさ、種別を同時に推定する目標検出を行う従来の畳み込みニューラルネットワークは出力の前段に全結合層を備えている。図2に示した第1の実施形態の目標認識装置1が備える畳み込みニューラルネットワークは、全結合層を備えず、畳み込み層(12x12 Conv. 256, 1x1 Conv.2)を備える。全結合層を備える目標検出用畳み込みニューラルネットワークでは、入力データを一定の大きさにスケーリングする必要があるため、入力データの縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第1の実施形態の目標認識装置1は、入力データの大きさを一定にする必要がなく、任意の大きさの入力データに対して目標認識処理を行える。したがって、目標認識装置1は、目標の認識精度を劣化させることなく任意サイズの入力データを扱うことができる。また、目標認識装置1は、任意サイズの入力データを扱えるため、従来の目標検出用の畳み込みニューラルネットワークのように位置や大きさの異なる判定領域を複数のスケールで処理する必要がなく、処理を高速に行うことができる。また、目標認識装置1への入力データを得るために、合成開口レーダ画像から目標画像を抽出したり、画像を分割したりする必要がないため、ユーザの利便性を向上させることができる。
目標認識装置1は、スコアマップ上において目標領域と判定された領域それぞれに対応する入力データ上の範囲をユーザに提示できる。目標認識装置1は、入力データに複数の目標が存在する場合においても、スコアマップ上において目標領域と判定される複数の領域に対応する入力データ上の範囲を提示できる。
目標認識装置1は、非特許文献1、2などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力データにおける1つ以上の目標の検出と、検出した目標が位置する範囲の提示とを行える。目標認識装置1は、非特許文献3に記載されている畳み込みニューラルネットワークのように判定領域を複数のスケールで処理する必要がないため、演算負荷の増加を抑えることができる。
[第2の実施形態]
第2の実施形態における目標認識装置は、種別が異なる目標が入力データに含まれている場合において、目標の種別を示す情報を含む領域情報を出力する。第2の実施形態における目標認識装置の構成は、図1に示した第1の実施形態における目標認識装置1の構成と同じである。なお、目標領域判定部11に備えられる畳み込みニューラルネットワークの構成が異なる。第2の実施形態では、認識対象の目標に10種類の種別がある場合について説明する。
第2の実施形態における目標認識装置は、種別が異なる目標が入力データに含まれている場合において、目標の種別を示す情報を含む領域情報を出力する。第2の実施形態における目標認識装置の構成は、図1に示した第1の実施形態における目標認識装置1の構成と同じである。なお、目標領域判定部11に備えられる畳み込みニューラルネットワークの構成が異なる。第2の実施形態では、認識対象の目標に10種類の種別がある場合について説明する。
図5は、第2の実施形態による目標領域判定部11が備える畳み込みニューラルネットワークの構成例を示す図である。第2の実施形態における畳み込みニューラルネットワークは、第5ブロックにおいてカーネルサイズが1×1のフィルタを11通り備える。第5ブロックの構成が、図2に示した畳み込みニューラルネットワークと異なる。第5ブロックでは、11通りのフィルタで、第4ブロックにおいて算出される特徴マップのピクセルごとに10種類の目標クラスと非目標クラスとの11クラスに対応する11個のスコアを算出する。すなわち、畳み込みニューラルネットワークから出力されるスコアマップは、ピクセルごとに11個のスコアを有する。第2の実施形態における畳み込みニューラルネットワークの学習に用いる教師データには、学習データにおける目標の種別と非目標との分類結果が含まれる。
目標領域判定部11は、入力データを取得し、畳み込みニューラルネットワークを用いて入力データから11個のスコアを領域ごとに有するスコアマップを取得する。目標領域判定部11は、畳み込みニューラルネットワークにより算出されたスコアマップに基づいて、目標領域とその目標クラスとを判定する。目標領域判定部11は、判定結果に基づいて目標領域の情報を生成し、目標領域の情報をデータ変換部12へ出力する。目標領域の情報は、スコアマップにおいて目標領域と判定された領域(ピクセル)の位置と、目標領域と判定された領域に含まれる可能性が最も高い目標クラス(目標の種別)を示す情報とが含まれる。なお、各クラスのスコア(確率に変換したスコアを含む)を示す情報を含むようにしても良い。
データ変換部12は、目標領域判定部11が目標領域と判定した領域それぞれの位置を入力データにより示される画像上の位置に変換し、目標領域に対応する入力データにより示される画像上の領域と目標領域に対応する目標の種別とを示す領域情報を生成する。
表示部13は、データ変換部12から領域情報を取得し、領域情報で示される領域と当該領域における目標の種別とを表示する。表示部13は、領域情報で示される領域と入力データとを並べて表示してもよいし、領域情報で示される領域を入力データにより示される画像に重畳して表示してもよい。表示部13は、領域情報で示される領域を目標の種別ごとに表示してもよい。表示部13は、領域情報で示される領域の近傍又は領域内に、存在が推定される目標の種別を示すテキストを表示してもよい。表示部13は、領域情報で示される領域を表示する際に目標の種別ごとに異なる色を用いてもよい。例えば、表示部13は目標領域の表示に用いる枠線の色や領域内の色を目標の種別ごとに変えてもよい。
第2の実施形態による目標認識装置は、スコアマップ上において目標領域と判定された領域に対応する入力データ上の範囲と目標の種別とをユーザに提示できる。目標認識装置は、入力データに複数の目標が存在する場合においても、スコアマップ上において目標領域と判定される複数の領域に対応する入力データ上の範囲と目標の種別とを提示できる。
以上説明した、第1及び第2の実施形態における目標認識装置によれば、電波反射の強度をグレースケールの階調で示した合成開口レーダにより得られた画像において、目標の有無、目標がある場合は目標があると推定される範囲をユーザに提示することができる。また、目標認識装置は、目標があると推定される範囲を取得する際に、判定領域を複数のスケールで処理する必要がなく、演算負荷の増加を抑えて高速に目標認識処理を行うことができる。例えば、数多くの合成開口レーダ画像を処理する場合においては、目標認識装置は、それぞれの画像における目標の有無と目標があると推定される範囲とを短い時間にてユーザに提示することができる。
入力データから得られるスコアマップを入力データにより示される画像のサイズに復元するデコーダを備えない畳み込みニューラルネットワークでは、図3に示すように、入力データにおける位置とスコアマップにおける位置とが非線形の関係となる。位置関係が非線形であるため、出力されるスコアマップの大きさを入力データにより示される画像と同じ大きさに単に拡大しても、画像とスコアマップと間における位置が一致しない。したがって、スコアマップを拡大して入力データと重畳しても、目標があると推定される領域がずれて表示されてしまう。これに対して、第1及び第2の実施形態における目標認識装置は、スコアマップそのものやスコアマップを単に拡大したものではなく、目標領域と判定された領域に対応する入力データ上の領域をデータ変換部により算出した領域を出力するため、前述のようなずれが生じることがない。目標認識装置の表示部が、ずれのない領域を提示することにより、ユーザは、入力データ上において目標があると推定される領域を精度よく把握することができ、目標を認識しやすくなる。
電波反射の強度を可視化した画像において、得られる目標の像が人の視認する可視光画像と異なるため、目標を識別することはユーザにとって容易でない場合がある。目標認識装置は、目標があると推定される画像上の範囲をユーザに提示することにより、合成開口レーダの画像に基づいた目標の検出における利便性を向上させることができる。また、第2の実施形態における目標認識装置によれば、目標の種別に関する情報を更に提示することができ、目標の検出及び分類における利便性を向上させることができる。
上記の実施形態では、入力データ及び学習データにより示される画像が合成開口レーダ画像である場合について説明したが、目標認識装置の入力データ及び学習データはこれに限定されない。例えば、干渉合成開口レーダ(Interferometric SAR: InSAR)や、逆合成開口レーダ(Inverse Synthetic Aperture Rader: ISAR)、ソナーなどの、電波や音波、レーダ光や赤外光などの反射強度に基づいて生成された画像を、目標認識装置の入力データ及び学習データとしてもよい。また、一般的な写真画像を目標認識装置の入力データ及び学習データとしてもよい。
畳み込みニューラルネットワークによりスコアが算出されるクラスの数は、実施形態における2、11に限定されない。入力データにおいて検出すべき目標に関するクラスの数に応じて、スコアが算出されるクラスの数が定められる。畳み込みニューラルネットワークにおける第5ブロックのフィルタ数は、定められたクラスの数に応じて決定される。
畳み込みフィルタのカーネルサイズやストライド幅、第1〜第4ブロックにおける畳み込みフィルタの数(抽出する特徴量)についても同様に、図2及び図5に示した構成例に限定されない。畳み込みニューラルネットワークは、任意の大きさの入力データに対して識別すべきクラス数のスコアをピクセルごとに有するスコアマップを生成できる構成を有していればよい。
上記の実施形態における目標認識装置は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、CPUがプログラムを実行してもよい。CPUは、補助記憶装置に記憶されたプログラムを実行することにより、目標領域判定部、データ変換部、表示部として機能してもよい。なお、目標認識装置の各機能のすべて又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。プログラムは、電気通信回線を介して送信されてもよい。
以上説明した少なくともひとつの実施形態によれば、畳み込みフィルタのストライド幅に基づいて、目標領域判定部により目標領域と判定された位置を、入力データにより示される画像上における対応領域を示す領域情報に変換する変換部を持つことにより、入力される画像に基づいた目標の検出における利便性を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…目標認識装置、11…目標領域判定部、12…データ変換部、13…表示部、90…画像分類装置
Claims (4)
- 目標又は前記目標以外の非目標が撮像されている学習データと、前記学習データにおける前記目標と前記非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて前記目標のスコアと前記非目標のスコアとを領域ごとに有するスコアマップを入力データから取得し、取得した前記スコアマップに基づいて、前記入力データにおいて前記目標が含まれるか否かを判定する目標領域判定部と、
前記畳み込みニューラルネットワークにおけるストライド幅に基づいて、前記目標領域判定部により前記目標が含まれると判定された位置を、前記入力データ上における対応領域を示す領域情報に変換する変換部と、
を備える目標認識装置。 - 前記目標には、種別の異なる複数の目標が含まれ、
前記教師データは、前記学習データにおける前記目標の種別を示し、
前記スコアマップにおける前記領域は、前記目標の種別ごとのスコアと前記非目標のスコアとを含み、
前記変換部は、前記目標領域判定部により前記目標が含まれると判定された位置を、前記対応領域と前記目標の種別とを示す前記領域情報に変換する、
請求項1に記載の目標認識装置。 - 目標認識装置が行う目標認識方法であって、
目標又は前記目標以外の非目標が撮像されている学習データと、前記学習データにおける前記目標と前記非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを用いて、前記目標のスコアと前記非目標のスコアとを領域ごとに有するスコアマップを入力データから取得する第1のステップと、
前記スコアマップに基づいて前記入力データにおいて前記目標が含まれるか否かを判定する第2のステップと、
前記畳み込みニューラルネットワークにおけるストライド幅に基づいて、前記第2のステップにおいて前記目標が含まれると判定された位置を、前記入力データ上における対応領域を示す領域情報に変換する第3のステップと、
を含む目標認識方法。 - 目標又は前記目標以外の非目標が撮像されている学習データと、前記学習データにおける前記目標と前記非目標との分類結果を示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて前記目標のスコアと前記非目標のスコアとを領域ごとに有するスコアマップを入力データから取得し、取得した前記スコアマップに基づいて前記入力データにおいて前記目標が含まれるか否かを判定する目標領域判定部、
前記畳み込みニューラルネットワークにおけるストライド幅に基づいて、前記目標領域判定部により前記目標が含まれると判定された位置を、前記入力データ上における対応領域を示す領域情報に変換する変換部、
としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018071753A JP2019185179A (ja) | 2018-04-03 | 2018-04-03 | 目標認識装置、目標認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018071753A JP2019185179A (ja) | 2018-04-03 | 2018-04-03 | 目標認識装置、目標認識方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019185179A true JP2019185179A (ja) | 2019-10-24 |
Family
ID=68341174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018071753A Pending JP2019185179A (ja) | 2018-04-03 | 2018-04-03 | 目標認識装置、目標認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019185179A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114660598A (zh) * | 2022-02-07 | 2022-06-24 | 安徽理工大学 | 一种融合InSAR和CNN-AFSA-SVM的开采沉陷盆地自动检测方法 |
KR20220159154A (ko) * | 2021-05-25 | 2022-12-02 | 한국전력공사 | 설비제원 인식 장치 및 방법 |
CN116071667A (zh) * | 2023-04-07 | 2023-05-05 | 北京理工大学 | 基于历史数据的指定区域内异常飞机目标检测方法及系统 |
CN116520277B (zh) * | 2023-04-26 | 2023-12-08 | 中国人民解放军93209部队 | 一种基于分离式卷积网络的雷达目标识别方法和系统 |
-
2018
- 2018-04-03 JP JP2018071753A patent/JP2019185179A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220159154A (ko) * | 2021-05-25 | 2022-12-02 | 한국전력공사 | 설비제원 인식 장치 및 방법 |
KR102628553B1 (ko) * | 2021-05-25 | 2024-01-25 | 한국전력공사 | 설비제원 인식 장치 및 방법 |
CN114660598A (zh) * | 2022-02-07 | 2022-06-24 | 安徽理工大学 | 一种融合InSAR和CNN-AFSA-SVM的开采沉陷盆地自动检测方法 |
CN116071667A (zh) * | 2023-04-07 | 2023-05-05 | 北京理工大学 | 基于历史数据的指定区域内异常飞机目标检测方法及系统 |
CN116520277B (zh) * | 2023-04-26 | 2023-12-08 | 中国人民解放军93209部队 | 一种基于分离式卷积网络的雷达目标识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019185179A (ja) | 目標認識装置、目標認識方法及びプログラム | |
US10388018B2 (en) | Image processing apparatus, image processing method, and storage medium | |
JP6362333B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2022501662A (ja) | 敵対的生成ネットワークのトレーニング方法、画像処理方法、デバイスおよび記憶媒体 | |
JP5517504B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2019194821A (ja) | 目標認識装置、目標認識方法及びプログラム | |
US10115180B2 (en) | Image interpolation device and method thereof | |
CN109448854B (zh) | 一种肺结核检测模型的构建方法及应用 | |
CN111325739A (zh) | 肺部病灶检测的方法及装置,和图像检测模型的训练方法 | |
EP3306527B1 (en) | A method of cropping an image, an apparatus for cropping an image, a program and a storage medium | |
CN103119623A (zh) | 瞳孔检测装置及瞳孔检测方法 | |
US20160171341A1 (en) | Apparatus and method for detecting object in image, and apparatus and method for computer-aided diagnosis | |
JP2019152543A (ja) | 目標認識装置、目標認識方法及びプログラム | |
JP6937508B2 (ja) | 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム | |
KR20150032822A (ko) | 이미지를 필터링하기 위한 방법 및 장치 | |
KR102156533B1 (ko) | 화상 처리장치, 화상 처리방법, 및 기억매체 | |
CN109410246B (zh) | 基于相关滤波的视觉跟踪的方法及装置 | |
JP2019164618A (ja) | 信号処理装置、信号処理方法およびプログラム | |
US8340378B2 (en) | Ribcage segmentation | |
JP2019125204A (ja) | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク | |
JP2023003763A (ja) | 学習装置、画像処理装置、学習処理方法、及びプログラム | |
KR101592087B1 (ko) | 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체 | |
JP5928465B2 (ja) | 劣化復元システム、劣化復元方法およびプログラム | |
Meinich-Bache et al. | Detecting chest compression depth using a smartphone camera and motion segmentation | |
JP5083162B2 (ja) | 画像データ判定装置、画像データ判定システム、及びプログラム |