JP2019194821A - 目標認識装置、目標認識方法及びプログラム - Google Patents
目標認識装置、目標認識方法及びプログラム Download PDFInfo
- Publication number
- JP2019194821A JP2019194821A JP2018088990A JP2018088990A JP2019194821A JP 2019194821 A JP2019194821 A JP 2019194821A JP 2018088990 A JP2018088990 A JP 2018088990A JP 2018088990 A JP2018088990 A JP 2018088990A JP 2019194821 A JP2019194821 A JP 2019194821A
- Authority
- JP
- Japan
- Prior art keywords
- target
- unit
- neural network
- convolutional neural
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】画像に基づいた目標の検出及び位置推定における利便性を向上させることができる目標認識装置を提供する。【解決手段】実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。ピクセルごとに目標と目標以外の非目標とのスコアを出力するように学習した畳み込みニューラルネットワークを転移して得られる畳み込みニューラルネットワーク部は、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する。取得部は、領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する。【選択図】図1
Description
本発明の実施形態は、目標認識装置、目標認識方法及びプログラムに関する。
合成開口レーダー画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク( Convolutional Neural Network: CNN )が用いられている(非特許文献1、2)。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。
図9は、畳み込みニューラルネットワークを用いた画像分類装置90の構成例を示す図である。図9に示す画像分類装置90は、目標画像を入力し、目標画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた10個の目標クラスのうち、目標画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置90は、第1ブロックから第6ブロックまでの6ブロックを有する。第1ブロックから第4ブロックまでが畳み込みブロックにより構成され、第5ブロック及び第6ブロックが全結合層( Fully Connected Layer: FC )により構成されている。
画像分類装置90を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置90は、推定結果を出力する最終段(第6ブロック)及びその前段(第5ブロック)が全結合層として構成されているため、それらの入力数及び第1ブロックから第4ブロックまでの入力数が固定値となっている。すなわち、画像分類装置90へ入力する目標画像を合成開口レーダー画像から抽出する必要がある。また、画像分類装置90は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。更に、画像分類装置90から出力される推定結果は、10個の目標クラスそれぞれに対するスコア(確率に変換したスコアを含む)であるため、目標画像における目標の位置を得ることができないという問題がある。
畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけではなく、入力画像の各ピクセルを意味付けされたクラスに分類するセマンティック・セグメンテーションにも用いられている(非特許文献3)。非特許文献4に記載された技術は、合成開口レーダー画像から抽出された目標画像の目標領域とシャドウ領域との2つのクラスの輪郭線を検出している。目標領域は、目標から電波反射があったと推定された領域であり、シャドウ領域は、目標から電波反射がないレーダーシャドウと推定された領域である。各クラスに分類されたピクセルで示される輪郭線を示すことにより、目標の位置に関する情報を提示することができる。この技術を適用することにより、目標画像に撮像されている目標の位置に関する詳細な情報(目標領域とシャドウ領域の輪郭線)が得られる。しかし、ピクセル単位の出力を基本とするセマンティック・セグメンテーションでは、ユーザがセグメンテーション結果に基づいて目標領域であるが否かを判定する必要があり、合成開口レーダー画像から目標領域を自動検出することはできないという問題がある。
以上のような問題があるため、画像に撮像された目標の検出及び位置推定を行う画像処理には、改善の余地がある。
Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, [平成30年4月27日検索], インターネット <URL: https://arxiv.org/abs/1607.02397>
畑貴將、他3名、「B−2−50 深層学習による合成開口レーダ画像の目標類別」、2017年電子情報通信学会総合大会講演論文集、2017年3月
Jonathan Long, Evan Shelhamer, and Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation," [online], March 8, 2015, [平成30年4月27日検索], インターネット <URL: https://arxiv.org/abs/1411.4038>
David Malmgren-Hansen, and Morten Nobel-Jorgensen, "Convolutional neural networks for SAR image segmentation," 2015 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT), December 2015, pp.231-236
本発明が解決しようとする課題は、画像に基づいた目標の検出及び位置推定における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。
実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる畳み込みニューラルネットワーク部は、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する。取得部は、前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する。
以下、実施形態の目標認識装置、目標認識方法及びプログラムを、図面を参照して説明する。
[第1の実施形態]
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置1は、入力データとして任意の大きさの合成開口レーダー画像を(以下、入力画像)を入力する。目標認識装置1は、入力画像に撮像されている目標を検出し、入力画像上の目標の位置と目標の種別を示す目標認識情報を入力画像から取得する。目標認識装置1は、取得した目標認識情報を出力データとして出力する。目標認識装置1は、畳み込みニューラルネットワーク部11と、目標領域判定部12(取得部)と、表示部13とを備える。
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置1は、入力データとして任意の大きさの合成開口レーダー画像を(以下、入力画像)を入力する。目標認識装置1は、入力画像に撮像されている目標を検出し、入力画像上の目標の位置と目標の種別を示す目標認識情報を入力画像から取得する。目標認識装置1は、取得した目標認識情報を出力データとして出力する。目標認識装置1は、畳み込みニューラルネットワーク部11と、目標領域判定部12(取得部)と、表示部13とを備える。
畳み込みニューラルネットワーク部11は、入力画像を取得し、予め定められた複数のクラスに対する領域単位スコアマップを入力画像から算出する。畳み込みニューラルネットワーク部11は、予め学習したクラスごとのスコアを含む領域単位スコアマップを算出する畳み込みニューラルネットワークであって、FCN( Fully Connected Network )と呼ばれる全結合層が存在しない畳み込みニューラルネットワークを備える。畳み込みニューラルネットワークは、入力画像から学習した各クラスに対するスコアを含む領域単位スコアマップを算出する。
予め定められた複数のクラスが、例えば、目標を表す目標クラスと、目標以外を示す非目標クラスとの2クラスの場合、畳み込みニューラルネットワーク部11は、入力画像の予め定められた領域ごとに、目標クラスと非目標クラスのスコアを算出する。また、予め定められた複数のクラスが、例えば、10種類の種別がある10個の目標クラスと、目標以外を示す非目標クラスとの11クラスの場合、畳み込みニューラルネットワーク部11は、入力画像の予め定められた領域ごとに、10個の目標クラスと非目標クラスのスコアを算出する。目標クラスと非目標クラスとのスコアは、特徴量でもよいし、ソフトマック関数などを用いて特徴量を確率に変換した値でもよい。
目標領域判定部12は、畳み込みニューラルネットワーク部11により算出された領域単位スコアマップに基づいて、目標領域を判定する。また、領域単位スコアマップ上で目標領域と判定された領域の位置に基づいて、入力画像上において対応する領域(対応領域)を示す目標認識情報を生成する。目標認識情報は、目標が撮像されている領域を表示部13に表示するための情報や、当該領域の入力画像上における座標、当該領域の目標クラス(複数の目標クラスのスコアを算出している場合、複数の目標クラス)と非目標クラスのスコア、当該領域を入力画像から抽出した目標画像が含まれる。目標領域判定部12は、目標認識情報を表示部13に出力するとともに、目標認識情報を出力データとして外部へ出力する。
表示部13は、目標領域判定部12から目標認識情報を取得し、目標認識情報で示される目標領域を表示する。表示部13は、目標認識情報で示される目標領域を入力画像とを並べて表示してもよいし、目標認識情報で示される入力画像に重畳して表示してもよい。表示部13は、目標認識情報で示される目標領域の近傍又は領域内に、目標の存在が推定される領域であることを示すテキストや図表を表示しても良い。テキストには、文字、数値、記号などが含まれる。
図2は、第1の実施形態による畳み込みニューラルネットワーク部11の構成例を示すブロック図である。畳み込みニューラルネットワーク部11に備えられる畳み込みニューラルネットワークは、第1ブロックから第7ブロックまでの7つのブロックを組み合わせた構成を有する。第1ブロックから第4ブロックでは、入力画像に対して、畳み込みフィルタ処理と活性化処理とマックスプーリング処理とが繰り返し行われる。第6ブロックでは、第5ブロックにより算出された領域ごとの特徴量から目標クラスと非目標クラスとに対応するスコアを算出する。更に、第7ブロックのアベレージプーリング処理により局所空間平均を行って、領域単位スコアマップを出力する。
第1ブロックは、3×3のカーネルサイズを有する32通りの畳み込みフィルタで、ゼロパディングが行われた入力画像のピクセル値を畳み込み(畳み込みフィルタ処理)、畳み込みにより算出される値を正規化線形関数( Rectified Linear Unit: ReLU )で出力値に変換する活性化処理を行う。更に、第1ブロックは、活性化処理で得られた複数の出力値で構成される特徴量を3×3のカーネルサイズを有する32通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数で出力値に変換する。すなわち、第1ブロックは、畳み込みフィルタ処理と活性化処理で入力画像から得られた特徴量に対して再度の畳み込みフィルタ処理と活性化処理を行う。
第1ブロックは、2回の畳み込みフィルタ処理と活性化処理で得られた特徴量に対して2×2のプールサイズでストライド値が2×2のマックスプーリング処理を行い、特徴量の縦・横サイズを各2分の1に圧縮する。第1ブロックは、圧縮した特徴量を第2ブロックへ出力する。なお、第1ブロックのマックスプーリング処理を行わずに、次の第2ブロックの畳み込みフィルタのストライド値を2×2にすることにより、第1ブロックにより出力される特徴量に対し、縦・横サイズが各2分の1の特徴量を得るように構成することもできる。
第2ブロックから第4ブロックにおいても、第1ブロックと同様に2回の畳み込みフィルタ処理と2回の活性化処理とマックスプーリング処理とが行われる。ただし、第2、第3及び第4ブロックにおける畳み込みフィルタ処理では、64通り、128通り及び256通りの畳み込みフィルタがそれぞれ用いられる。
第5ブロックでは、ゼロパディング後の入力画像の大きさに対して縦・横が各16分の1(=(1/2)4)の空間サイズのデータであって各セルが特徴量で構成される特徴マップに対して、4×4のカーネルサイズを有する512通りの畳み込みフィルタそれぞれで畳み込み、畳み込みにより算出される値を正規化線形関数で出力値に変換する。第5ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第5ブロックと第6ブロックとの接続の一部をランダムに一時的に切断するドロップアウト( Dropout )層を備える。
第6ブロックは、1×1のカーネルサイズを有する11通りの畳み込みフィルタで、セルごとに各クラスに対応する11個の特徴量を算出し、1セルあたり11個の特徴量を有するスコアマップが生成される。
第7ブロックは、2×2のプールサイズでストライド値が1×1のアベレージスプーリング処理を行い、局所空間平均を行って、領域単位スコアマップを出力する。領域単位スコアマップにおける各セルが、入力画像の予め定められた領域ごとのスコアを示す。
畳み込みニューラルネットワーク部11における第1ブロックから第6ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワーク部11は、畳み込みフィルタにて入力画像又は特徴マップを走査して、カーネルサイズの入力画像又は特徴マップ上の部分領域の特徴量を算出する畳み込みフィルタ処理と活性化処理とマックスプーリング処理とを行う。畳み込みニューラルネットワーク部11には全結合層が存在しないため、畳み込みニューラルネットワーク部11は、入力画像の大きさに係わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部11は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライド値と入力画像の大きさに応じて、畳み込みフィルタ処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。
図1に戻り、目標認識装置1の構成の説明を続ける。目標領域判定部12は、畳み込みニューラルネットワーク部11により生成される領域単位スコアマップを入力する。目標領域判定部12は、畳み込みニューラルネットワーク部11から出力される領域単位スコアマップに基づいて、目標領域を判定する。ここで、スコアはソフトマックス関数により確率に変換されているものとし、目標のj(j={1,…,J})番目の目標クラスのスコアをs(j)、非目標クラスのスコアをs(0)とする。目標領域判定部12は、非目標クラスのスコアs(0)が所定の値以下になる領域や、非目標クラスのスコアs(0)が最大値とならない領域や、いずれかの目標クラスのスコアs(j)が最尤クラスとなる領域を目標領域と判定するように構成することができる。
表示部13は、目標領域判定部12から目標認識情報を入力する。表示部13は、目標認識情報に基づいて、目標領域と判定された領域を塗りつぶしボックスやバウンディングボックスとして表示する。また、複数の目標クラスの分類を行っている場合、目標のクラスに予め対応付けられた色または階調で塗りつぶしボックスやバウンディングボックスを表示してもよい。また、目標領域の近傍又は領域内に、目標の存在が推定される領域であることを示すテキストや図表を表示しても良い。テキストには、文字、数値、記号などが含まれる。
図3は、目標認識装置1の入力画像と出力データとの一例を示す図である。図3(a)に示す入力画像は、合成開口レーダーにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。入力画像には、左上と右下に目標である2つの車両と、右上と左下に2つの非目標が撮像されている。目標は、地表面(2次元平面)に射影した際に矩形となる形状を有しているが、シャドウ領域が存在するため入力画像における目標の像は矩形として表れていない。学習データセットを用いて事前に学習が行われた畳み込みニューラルネットワーク部11を備える目標認識装置1を用いることにより、図3(a)に示す入力画像から図3(b)に示す目標領域を塗りつぶしボックスで表した出力データを得ることができる。
表示部13は、図3に示す入力画像と出力データとを並べて表示したり、出力データを入力画像に重畳して表示したりする。表示部13は、出力データを表示する際に、表示する目標領域の目標クラスを示す数値又はテキストを表示してもよい。目標クラスを示す数値又はテキストは、当該目標領域又はその領域の近傍に表示されてもよいし、塗りつぶしボックス又はバウンディングボックスにおいて表示されている色又は階調との対応付けを示すように表示されてもよい。
図4は、目標認識装置1により行われる目標認識処理の動作例を示すフローチャートである。目標認識処理が開始されると、目標認識装置1は、目標検出の対象となるデータを入力画像として入力する(ステップS101)。畳み込みニューラルネットワーク部11は、目標認識装置1に入力された入力画像を受け付け、学習データセットを用いた学習にて得られた各ブロックの畳み込みフィルタを用いて入力画像の領域ごとのスコアを算出して領域単位スコアマップを生成する(ステップS102)。
目標領域判定部12は、畳み込みニューラルネットワーク部11により生成された領域単位スコアマップを受け付け、目標領域を判定する(ステップS103)。目標領域判定部12は、目標領域と判定された領域について、入力画像上において対応する領域(対応領域)を示す目標認識情報を生成する(ステップS104)。
目標領域判定部12は、生成した目標認識情報を表示部13と外部へ出力する(ステップS105)。表示部13は、目標領域判定部12から受け付けた目標認識情報に基づいた表示を行い(ステップS106)、目標認識処理が終了する。目標認識装置1の外部に出力される目標認識情報は、目標認識装置1の外部へ設けられた記憶装置に記憶されたり、目標認識装置1が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置1は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)などの記憶装置を備え、目標認識情報を記憶装置に記憶させてもよい。
図5は、畳み込みニューラルネットワーク部11の学習に用いられる学習装置2の構成例を示すブロック図である。学習装置2は、目標が撮像されている画像を示す学習データと、学習データが示す画像の各ピクセルに対する分類結果を示す教師データとを組み合わせた学習データセットを入力する。学習データの画像の大きさは、任意の大きさであり、目標認識処理における入力画像の大きさと同じであってもよいし、異なる大きさであってもよい。教師データは、学習データが示す画像の各ピクセルに対する1種類以上の目標と非目標との分類結果を示す。例えば、教師データは、学習データが示す画像と同じ大きさの真値のスコアマップに変換できる真の分類結果であり、学習データが示す画像のピクセルごとに10種類の目標クラスと非目標クラスとのうち判定されるべき一つのクラスを示す。
学習装置2は、データローダ部21と、畳み込みニューラルネットワーク部22と、誤差算出部23とを備える。データローダ部21は、複数の学習データセットを入力する。データローダ部21は、外部の記憶装置に記憶されている複数の学習データセットを一括または順次読み出すことにより学習データセットを入力してもよいし、外部の通信装置から学習データセットを一括または順次受信することにより学習データを入力してもよい。データローダ部21は、入力される学習データセットごとに、学習データセットに含まれる学習データを畳み込みニューラルネットワーク部22に出力し、学習データセットに含まれる教師データを誤差算出部23へ出力する。
畳み込みニューラルネットワーク部22は、入力される学習データが示す画像のピクセルごとに、各クラスのスコアを示すスコアマップを生成し、生成したスコアマップを誤差算出部23へ出力する。誤差算出部23は、畳み込みニューラルネットワーク部22により生成されたスコアマップと、教師データから得られる真値のスコアマップとの差分を誤差として算出し、算出した誤差を畳み込みニューラルネットワーク部22へ出力する。畳み込みニューラルネットワーク部22は、誤差を用いて、各ブロックにおける畳み込みフィルタの重み係数を学習する。学習には、例えば、確率的勾配降下法に基づく誤差逆伝搬法などの公知の技術が用いられる。
図6は、学習装置2の畳み込みニューラルネットワーク部22の構成例を示すブロック図である。畳み込みニューラルネットワーク部22は、入力画像における特徴量を算出するエンコーダ部221と、算出された特徴量から11クラス(10種の目標クラスと非目標クラス)それぞれのスコアを入力画像のピクセルごとに算出するデコーダ部222とを備える。エンコーダ部221は、畳み込みニューラルネットワーク部22に入力される入力画像に対して、畳み込みフィルタ処理と活性化処理とマックスプーリング処理とを繰り返し行い、前述の11クラスそれぞれの特徴量を算出する。デコーダ部222は、エンコーダ部221により算出される特徴量を、入力画像と大きさと同じ大きさのスコアマップに復元する。
エンコーダ部221は、ニューラルネットワーク部22における第1ブロックから第6ブロックまでの6つのブロックを組み合わせた構成を有する。第1ブロックから第4ブロックでは、入力画像に対して、畳み込みフィルタ処理と活性化処理とマックスプーリング処理とが繰り返し行われる。第6ブロックでは、第5ブロックにより算出された領域ごとの特徴量から目標クラスと非目標クラスとに対応するスコアを算出し、特徴量(目標認識装置1の畳み込みニューラルネットワーク部11における局所空間平均を行う前のスコアマップと同じ)としてデコーダ部222に出力する。
デコーダ部222は、ニューラルネットワーク部22における第7ブロックを有する。第7ブロックは、32×32のカーネルサイズでストライド値が16×16の11通りの畳み込みフィルタで、エンコーダ部221から入力される特徴量に対して転置畳み込み( Transposed Convolution )行う。転置畳み込みにより、入力される特徴量は、入力画像の縦横サイズと同じ縦横サイズのスコアマップであるピクセル単位スコアマップに変換される。
なお、学習装置2の学習は、非特許文献3等に記載されたセマンティック・セグメンテーションを行うニューラルネットワークの学習方法を用いることができる。そして、この学習によって、ピクセル単位のセグメンテーションを行う畳み込みニューラルネットワーク22のエンコーダ部221は、目標認識装置1の畳み込みニューラルネットワーク部11において領域単位スコアマップを出力するために利用される。
第1の実施形態の目標認識装置1において、目標クラスと非目標クラスとをピクセル単位に識別できるように学習した畳み込みニューラルネットワークの領域単位スコアマップを出力するエンコーダを畳み込みニューラルネットワーク部11として利用することにより、目標認識装置1は、非特許文献1、2などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力画像における1つ以上の目標の検出と、検出した目標領域の位置の提示とを行える。また、非特許文献4に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークでは行えない、入力画像から目標領域を検出することができる。目標認識装置1が目標領域に関する情報を提供することにより、入力画像における目標の検出及び位置推定における利便性を向上させることができる。
更に、非特許文献3に記載されている目標分類を行うように学習した畳み込みニューラルネットワークを利用した粗いセグメンテーションを行う畳み込みニューラルネットワークでは、元々の畳み込みニューラルネットワークが目標の位置に関する学習を行っていないため、目標の位置に関するスコアが広い領域に分散する傾向があり、NMS( Non-Maximum Suppression )やクラスタリング等の方法により複数の目標領域の候補を絞り込む必要があるが、目標認識装置1は、目標の位置に関する学習を行った畳み込みニューラルネットワークを利用するため、より正確な目標領域の位置を提示することができ、目標領域候補の絞り込みにおける利便性を向上させることができる。
R−CNN、Faster R−CNN等の目標検出を行う従来のニューラルネットワークは出力の前段に全結合層を有しているので、入力画像を一定の大きさにスケーリングする必要がある。入力画像をスケーリングした場合、入力画像の縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第1の実施形態の目標認識装置1は、入力画像の大きさを一定にする必要がなく、任意の大きさの入力画像に対して目標認識処理を行えるため、目標の認識精度を劣化させることなく様々な大きさの入力画像を扱うことができる。また、目標認識装置1への入力画像を得るために、元の入力画像をスケーリングすることや、元の入力画像から所定の大きさの入力画像を抽出する必要がないため、ユーザの利便性を向上させることができる。
[第2の実施形態]
第2の実施形態による目標認識装置3は、第1の実施形態の目標認識装置1と同様に、入力データとして合成開口レーダー画像(以下、入力画像)を入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第2の実施形態による目標認識装置3が出力する目標認識情報は、撮像されている目標の入力画像上の位置と種別に加えて、目標の形状を示す。第2の実施形態においても、第1の実施形態と同様に、目標認識情報を目標認識装置が出力する。
第2の実施形態による目標認識装置3は、第1の実施形態の目標認識装置1と同様に、入力データとして合成開口レーダー画像(以下、入力画像)を入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第2の実施形態による目標認識装置3が出力する目標認識情報は、撮像されている目標の入力画像上の位置と種別に加えて、目標の形状を示す。第2の実施形態においても、第1の実施形態と同様に、目標認識情報を目標認識装置が出力する。
第2の実施形態による目標認識装置3は、畳み込みニューラルネットワーク部11に代えて、畳み込みニューラルネットワーク部31を備える。畳み込みニューラルネットワーク部31は、領域単位スコアマップに加えて、ピクセル単位スコアマップを出力する。
図7は、第2の実施形態による目標認識装置3の畳み込みニューラルネットワーク部31の構成例を示す図である。畳み込みニューラルネットワーク部31に備えられる畳み込みニューラルネットワークは、第1ブロックから第8ブロックまでの8つのブロックを組み合わせた構成を有する。畳み込みニューラルネットワーク部31のエンコーダ部311である第1ブロックから第7ブロックまでは、畳み込みニューラルネットワーク部11と同じであり、領域単位スコアマップを出力する。
畳み込みニューラルネットワーク部31のデコーダ部312である第8ブロックは、学習装置2の畳み込みニューラルネットワーク部22のデコーダ部222である第7ブロックと同じであり、畳み込みニューラルネットワーク部31の第6ブロックからの局所空間平均を行う前のスコアマップを入力し、ピクセル単位スコアマップを出力する。
第2の実施形態による目標認識装置3の目標領域判定部12は、第1の実施形態による目標認識装置1の目標領域判定部12と同様に、畳み込みニューラルネットワークにより算出された領域単位スコアマップに基づいて、目標領域を判定する。更に、畳み込みニューラルネットワーク部31からのピクセル単位スコアマップを入力し、目標領域と判定された領域のピクセル単位スコアマップに基づいて、目標形状に関する情報を取得し、これを加えた目標認識情報を生成する。目標領域判定部12は、目標認識情報を表示部13に出力するとともに、目標認識情報を出力データとして外部へ出力する。
第2の実施形態による目標認識装置3の表示部13は、目標領域判定部12から目標認識情報を取得し、目標認識情報で示される目標領域を表示する。表示部13は、目標認識情報で示される目標領域を入力画像とを並べて表示してもよいし、目標認識情報で示される入力画像に重畳して表示してもよい。
図8は、第2の実施形態による目標認識装置3の表示部13の出力データの一例を示す図である。第2の実施形態による目標認識装置3では、畳み込みニューラルネットワーク部31によって、ピクセル単位スコアマップを生成できるので、これに基づいて入力画像全体のセグメンテーション出力や目標領域におけるセグメンテーション出力を目標の形状として提示することができる。図8(a)は、図3の入力画像に対応するセグメンテーション結果を出力したものであり、図8(b)は、目標領域がバウンディングボックスで表示され、目標領域におけるセグメンテーション結果が、目標の形状として出力されている。更に、図8(c)は、図3(a)の入力画像と図8(b)の出力データとを重畳表示した例である。
第2の実施形態の目標認識装置2において、目標クラスと非目標クラスとをピクセル単位に識別できるように学習した学習装置2の畳み込みニューラルネットワーク部22を、領域単位スコアマップとピクセル単位スコアマップとを出力する畳み込みニューラルネットワーク部31として利用することにより、目標認識装置3は、目標認識情報として、目標の形状に関する情報も提示できるようになり、入力画像における目標の検出及び位置推定における利便性を向上させるとともに目標認識における利便性を向上させることができる。
上記の実施形態では、入力データ及び学習データが合成開口レーダー画像である場合について説明したが、目標認識装置の入力データ及び学習データはこれに限定されない。例えば、干渉合成開口レーダー( Interferometric SAR: InSAR )や、逆合成開口レーダー( Inverse SAR: ISAR )、ソナーなどの、電波や音波、レーザー光や赤外光などの反射強度に基づいて生成される画像を、目標認識装置の入力データ及び学習データとしてもよい。また、一般的な写真画像を目標認識装置の入力データ及び学習データとしてもよい。
上記の実施形態における目標認識装置と学習装置とは、バスで接続されたCPU( Central Processing Unit )やメモリや補助記憶装置などを備え、CPUがプログラムを実行してもよい。CPUは、補助記憶装置に記憶されたプログラムを実行することにより、畳み込みニューラルネットワーク部、目標領域判定部、表示部、データローダ部、及び誤差算出部として機能してもよい。なお、目標認識装置と学習装置との各機能のすべて又は一部は、ASIC( Application Specific Integrated Circuit )やPLD( Programmable Logic Device )やFPGA( Field Programmable Gate Array )等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。プログラムは、電気通信回線を介して送信されてもよい。
以上説明した少なくともひとつの実施形態によれば、入力画像からピクセル単位スコアマップを出力するように学習した畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの目標と非目標とのスコアを領域単位スコアマップとして算出する畳み込みニューラルネットワーク部と、領域単位スコアマップに基づいて、目標の検出及び目標領域の判定を行う目標領域判定部と、を持つことにより、画像に基づいた目標の検出及び位置推定における利便性を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変更は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1,3…目標認識装置、2…学習装置、11,22,31…畳み込みニューラルネットワーク部、12…目標領域判定部、13…表示部、21…データローダ部、23…誤差算出部、221,311…エンコーダ部、222,312…デコーダ部、90…画像分類装置
Claims (4)
- 目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する畳み込みニューラルネットワーク部と、
前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する取得部と、
を備える、目標認識装置。 - 目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出するとともに、入力画像からピクセルごとの前記目標と前記非目標とのスコアをピクセル単位スコアマップとして算出する畳み込みニューラルネットワーク部と、
前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する取得部と、
を備える、目標認識装置。 - 目標認識装置が行う目標認識方法であって、
目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる畳み込みニューラルネットワークを用いて、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出する第1のステップと、
前記領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する第2のステップと、
を含む目標認識方法。 - 目標と目標以外の非目標とが撮像されている学習データと前記学習データにおけるピクセルごとに前記目標と前記非目標との分類結果を示す教師データとを組み合わせた学習データセットを用いた学習により得られた畳み込みニューラルネットワークを転移して得られる、入力画像から領域ごとの前記目標と前記非目標とのスコアを領域単位スコアマップとして算出するとともに、入力画像からピクセルごとの前記目標と前記非目標とのスコアをピクセル単位スコアマップとして算出する畳み込みニューラルネットワーク部と、
前記畳み込みニューラルネットワーク部からの領域単位スコアマップに基づいて、目標領域を示す目標認識情報を取得する取得部と、
としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018088990A JP2019194821A (ja) | 2018-05-06 | 2018-05-06 | 目標認識装置、目標認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018088990A JP2019194821A (ja) | 2018-05-06 | 2018-05-06 | 目標認識装置、目標認識方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019194821A true JP2019194821A (ja) | 2019-11-07 |
Family
ID=68469670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018088990A Pending JP2019194821A (ja) | 2018-05-06 | 2018-05-06 | 目標認識装置、目標認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019194821A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505775A (zh) * | 2021-07-15 | 2021-10-15 | 大连民族大学 | 一种基于字符定位的满文单词识别方法 |
CN113655494A (zh) * | 2021-07-27 | 2021-11-16 | 上海智能网联汽车技术中心有限公司 | 路侧相机与4d毫米波融合的目标检测方法、设备及介质 |
EP3910550A1 (en) * | 2020-05-14 | 2021-11-17 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method each for obtaining a region of object and pixels of the object using neural network |
JP7006875B1 (ja) | 2021-06-18 | 2022-01-24 | 株式会社スペースシフト | 学習モデル、信号処理装置、飛翔体、及びプログラム |
JPWO2022049619A1 (ja) * | 2020-09-01 | 2022-03-10 | ||
JP2022078754A (ja) * | 2020-11-13 | 2022-05-25 | 株式会社東芝 | 画像識別装置、レーダ装置、画像識別方法、およびプログラム |
CN117456368A (zh) * | 2023-12-22 | 2024-01-26 | 安徽大学 | 一种果蔬识别采摘方法、系统及装置 |
-
2018
- 2018-05-06 JP JP2018088990A patent/JP2019194821A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3910550A1 (en) * | 2020-05-14 | 2021-11-17 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method each for obtaining a region of object and pixels of the object using neural network |
JPWO2022049619A1 (ja) * | 2020-09-01 | 2022-03-10 | ||
WO2022049619A1 (ja) * | 2020-09-01 | 2022-03-10 | 三菱電機株式会社 | 識別装置、学習装置およびモデル生成方法 |
JP7221454B2 (ja) | 2020-09-01 | 2023-02-13 | 三菱電機株式会社 | 識別装置、学習装置およびモデル生成方法 |
JP2022078754A (ja) * | 2020-11-13 | 2022-05-25 | 株式会社東芝 | 画像識別装置、レーダ装置、画像識別方法、およびプログラム |
JP7006875B1 (ja) | 2021-06-18 | 2022-01-24 | 株式会社スペースシフト | 学習モデル、信号処理装置、飛翔体、及びプログラム |
WO2022264473A1 (ja) * | 2021-06-18 | 2022-12-22 | 株式会社スペースシフト | 学習モデル、信号処理装置、飛翔体、及びプログラム |
JP2023000897A (ja) * | 2021-06-18 | 2023-01-04 | 株式会社スペースシフト | 学習モデル、信号処理装置、飛翔体、及びプログラム |
CN113505775A (zh) * | 2021-07-15 | 2021-10-15 | 大连民族大学 | 一种基于字符定位的满文单词识别方法 |
CN113655494A (zh) * | 2021-07-27 | 2021-11-16 | 上海智能网联汽车技术中心有限公司 | 路侧相机与4d毫米波融合的目标检测方法、设备及介质 |
CN117456368A (zh) * | 2023-12-22 | 2024-01-26 | 安徽大学 | 一种果蔬识别采摘方法、系统及装置 |
CN117456368B (zh) * | 2023-12-22 | 2024-03-08 | 安徽大学 | 一种果蔬识别采摘方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019194821A (ja) | 目標認識装置、目標認識方法及びプログラム | |
JP6362333B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
CN109118473B (zh) | 基于神经网络的角点检测方法、存储介质与图像处理系统 | |
EP3255586A1 (en) | Method, program, and apparatus for comparing data graphs | |
JP2019152543A (ja) | 目標認識装置、目標認識方法及びプログラム | |
US8908989B2 (en) | Recursive conditional means image denoising | |
JP5768590B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
KR20020067514A (ko) | 이미지 매칭 | |
CN109712071B (zh) | 基于航迹约束的无人机图像拼接与定位方法 | |
US20160132995A1 (en) | Structure Aware Image Denoising and Noise Variance Estimation | |
CN110427946B (zh) | 一种文档图像二值化方法、装置和计算设备 | |
CN113221925B (zh) | 一种基于多尺度图像的目标检测方法及装置 | |
CN109635714B (zh) | 文档扫描图像的矫正方法及装置 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
JP2019125203A (ja) | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク | |
JP2019125204A (ja) | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク | |
JP2019164618A (ja) | 信号処理装置、信号処理方法およびプログラム | |
JP2019185179A (ja) | 目標認識装置、目標認識方法及びプログラム | |
Peter | Fast inpainting-based compression: Combining Shepard interpolation with joint inpainting and prediction | |
US20190104313A1 (en) | Motion vector calculation method, information processing apparatus, recording medium recording motion vector calculation program | |
JP7294275B2 (ja) | 画像処理装置、画像処理プログラムおよび画像処理方法 | |
CN111027551B (zh) | 图像处理方法、设备和介质 | |
JP5431501B2 (ja) | 画像処理装置、及びその方法 | |
JP5773935B2 (ja) | シーンにおけるオブジェクトを分類する方法 |