JP2019125204A - 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク - Google Patents
目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク Download PDFInfo
- Publication number
- JP2019125204A JP2019125204A JP2018005935A JP2018005935A JP2019125204A JP 2019125204 A JP2019125204 A JP 2019125204A JP 2018005935 A JP2018005935 A JP 2018005935A JP 2018005935 A JP2018005935 A JP 2018005935A JP 2019125204 A JP2019125204 A JP 2019125204A
- Authority
- JP
- Japan
- Prior art keywords
- target
- learning
- image
- input image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
【課題】画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置を提供する。【解決手段】実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部とを持つ。畳み込みニューラルネットワーク部は、種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する。取得部は、前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する。【選択図】図1
Description
本発明の実施形態は、目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークに関する。
合成開口レーダ画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が用いられている(非特許文献1、2)。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。
図13は、畳み込みニューラルネットワークを用いた画像分類装置90の構成例を示す図である。図13に示す画像分類装置90は、画像を入力し、画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた10個の目標クラスのうち、画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置90は、第1ブロックから第6ブロックまでの6ブロックを有する。第1ブロックから第4ブロックまでが畳み込みブロックにより構成され、第5ブロック及び第6ブロックが全結合層(Full Connection Layer)により構成されている。
画像分類装置90を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置90は、推定結果を出力する最終段(第6ブロック)及びその前段(第5ブロック)が全結合層として構成されているため、それらの入力数及び第1ブロックから第4ブロックまでの入力数が固定値となっている。すなわち、画像分類装置90へ入力する目標画像のサイズが固定されているため、画像分類装置90へ入力する目標画像を合成開口レーダ画像から抽出する必要がある。また、画像分類装置90は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。更に、画像分類装置90から出力される推定結果は、10個の目標クラスそれぞれに対するスコア(確率に変換したスコアを含む)であるため、目標画像における目標の位置や向きを得ることができないという問題がある。
畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけでなく、入力画像の各ピクセルを意味づけされたクラスに分類するセマンティック・セグメンテーションにも用いられている(非特許文献3)。非特許文献4に記載された技術は、合成開口レーダ画像から抽出された目標画像の目標領域とシャドウ領域との2つのクラスの輪郭線を検出している。目標領域は、目標から電波反射があったと推定された領域である。シャドウ領域は、目標から電波反射がないレーダシャドウと推定された領域である。各クラスに分類されたピクセルで示される輪郭線を示すことにより、目標の位置に関する情報を提示することができる。しかし、この技術は、合成開口レーダ画像に撮像されている目標の位置に関する情報が得られるものの、目標の向きに関しては180度のあいまいさがあるため、目標の向きを特定することができないという問題がある。
非特許文献5には、合成開口レーダ画像のピクセルごとに目標領域とシャドウ領域とのいずれであるかをWD−CFAR(Wavelet Decomposition and a Constant False Alarm Rate)を用いて判定する技術が記載されている。しかし、この技術も、目標の位置に関する情報を得ることができるが、目標の向きを特定することができないという問題がある。
以上のような問題があるため、画像に撮像された目標の検出及び姿勢推定を行う画像処理には、改善の余地がある。
Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1607.02397>
畑貴將、他3名、「B−2−50 深層学習による合成開口レーダ画像の目標類別」、電子情報通信学会総合大会 通信講演論文集1、2017年3月、p.225
Jonathan Long, Evan Shelhamer, and Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation," [online], Mar 8, 2015, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1411.4038>
David Malmgren-Hansen, and Morten Nobel-Jorgensen, "Convolutional Neural Networks for SAR Image Segmentation," 2015 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT), , December 2015, pp.231-236
Shiqi Huang, Wenzhun Huang, and Ting Zhang, "A New SAR Image Segmentation Algorithm for the Detection of Target and Shadow Regions," [online], December 7, 2016, [平成29年12月1日検索], インターネット<URL: https://www.nature.com/articles/srep38596>
Frank McFadden, "Precise estimation of pose for vehicles in MSTAR imagery," Proc. SPIE 6566, Automatic Target Recognition XVII, 65660V, May 2007
本発明が解決しようとする課題は、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークを提供することである。
実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部とを持つ。畳み込みニューラルネットワーク部は、種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する。取得部は、前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する。前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる。
以下、実施形態の目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークを、図面を参照して説明する。
[第1の実施形態]
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置1は、任意の大きさの合成開口レーダ画像を入力画像として入力する。目標認識装置1は、入力画像に撮像されている目標の入力画像上の位置及び向き(姿勢)を示す情報を入力画像から取得する。目標認識装置1は、取得した情報を出力データとして出力する。目標の向き(姿勢)は、目標の前面と後面の位置により表現される。目標認識装置1は、畳み込みニューラルネットワーク部11と、最尤クラス選択部12(取得部)と、表示部13(出力部)とを備える。
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置1は、任意の大きさの合成開口レーダ画像を入力画像として入力する。目標認識装置1は、入力画像に撮像されている目標の入力画像上の位置及び向き(姿勢)を示す情報を入力画像から取得する。目標認識装置1は、取得した情報を出力データとして出力する。目標の向き(姿勢)は、目標の前面と後面の位置により表現される。目標認識装置1は、畳み込みニューラルネットワーク部11と、最尤クラス選択部12(取得部)と、表示部13(出力部)とを備える。
畳み込みニューラルネットワーク部11は、入力画像を取得し、入力画像の各ピクセルに対する複数のスコアを示すスコアマップを出力する。スコアマップに含まれる複数のスコアは、入力画像の各ピクセルに対する、目標に関して予め定められたクラスごとのスコアと、目標が撮像されていない背景に関する背景クラスのスコアとである。例えば、目標を天頂方向から撮影した際の光学画像における目標のシルエットが矩形形状を有し、矩形形状を前面側と後面側とに分割する場合、目標の領域が前面側及び後面側の領域(所定箇所の領域)として定められる。前面側を示す前面クラスと後面側を示す後面クラスの2つのクラスと背景クラスにおけるそれぞれのスコアが複数のスコアとして得られる。スコアは、畳み込みニューラルネットワーク部11において算出されるクラスごとの値であってもよいし、当該値をソフトマックス関数で変換することにより得られる確率などであってもよい。前述の3つのクラスそれぞれのスコアがピクセルに対して得られる場合、目標の前面クラスと後面クラスと背景クラスとのうち、当該ピクセルに対して尤もらしい一つのクラスが複数のスコアに基づいて推定される。なお、尤もらしい一つのクラスとは、ピクセルに対する真値(Ground Truth)のクラスである確率が最も高いクラスである。
図2は、第1の実施形態による畳み込みニューラルネットワーク部11の構成例を示すブロック図である。畳み込みニューラルネットワーク部11は、入力画像における特徴量を算出するエンコーダ部111と、算出された特徴量から3クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部112とを備える。エンコーダ部111は、畳み込みニューラルネットワーク部11に入力される入力画像に対して、畳み込みフィルタ処理とマックスプーリング処理とを繰り返し行い、前述の3つのクラスそれぞれに対応する特徴量を算出する。デコーダ部112は、エンコーダ部111により算出される特徴量を、入力画像の大きさと同じ大きさのスコアマップに復元する。
エンコーダ部111は、6つの畳み込みブロックを組み合わせた構成を有する。第1ブロックは、3×3のカーネルサイズを有する32通りの畳み込みフィルタで、ゼロパディングが行われた入力画像のピクセル値を畳み込み、畳み込みにより算出される値を正規化線形関数(rectified linear unit (ReLU))で出力値に変換する抽出処理を行う。更に、第1ブロックは、抽出処理で得られた複数の出力値で構成される特徴量を3×3のカーネルサイズを有する32通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数(ReLU)で出力値に変換する。すなわち、第1ブロックは、抽出処理で入力画像から得られた特徴量に対して再度の抽出処理を行う。第1ブロックは、2回の抽出処理で得られた特徴量に対して2×2のカーネルサイズでストライドが2×2のマックスプーリング処理を行い、特徴量の縦・横サイズを各2分の1に圧縮する。第1ブロックは、圧縮した特徴量を第2ブロックへ出力する。なお、第1ブロックのマックスプーリング処理を行わずに、次の第2ブロックの畳み込みフィルタのストライドを2×2にすることにより、第1ブロックにより出力される特徴量に対し、縦・横サイズが各2分の1の特徴量を得るように構成することもできる。
第2ブロックから第4ブロックにおいても、第1ブロックと同様に2回の抽出処理とマックスプーリング処理とが行われる。ただし、第2、第3及び第4ブロックにおける抽出処理では、64通り、128通り及び256通りの畳み込みフィルタがそれぞれ用いられる。
第5ブロックでは、ゼロパディング後の入力画像の大きさに対して縦・横が各16分の1(=(1/2)4)の大きさの画像であって各ピクセルが特徴量で構成される画像(特徴マップ)に対して、6×6のカーネルサイズを有する512通りの畳み込みフィルタそれぞれで畳み込み、畳み込みにより算出される値を正規化線形関数(ReLU)で出力値に変換する。第5ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第5ブロックと第6ブロックとの接続の一部をランダムに一時的に切断するドロップアウト(Dropout)層を備える。
第6ブロックでは、1×1のカーネルサイズを有する3通りの畳み込みフィルタで、ピクセルごとに各クラスに対応する3つの特徴量を算出し、1ピクセルあたり3つの特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部112へ出力される。
デコーダ部112は、畳み込みニューラルネットワーク部11における第7ブロックを有する。第7ブロックは、32×32のカーネルサイズでストライドが16×16の3通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み(Transposed Convolution)を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。特徴マップの大きさと入力画像の大きさとの差は、各ブロックにおける畳み込みフィルタを用いた処理の前に行われるゼロパディングなどにより生じる。32×32のカーネルサイズを有する3通りの畳み込みフィルタは、目標の前面クラスと後面クラスと背景クラスとからなる3つのクラスにそれぞれ対応している。デコーダ部112は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部112から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、3つのクラスそれぞれに対応する3つのスコアを有する。
畳み込みニューラルネットワーク部11における第1ブロックから第7ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワーク部11は、畳み込みフィルタにて入力画像又は特徴マップを走査して、カーネルサイズの入力画像上又は特徴マップ上の部分領域の特徴量を算出するフィルタ処理と、マックスプーリング処理とを行う。畳み込みニューラルネットワーク部11には全結合層が存在しないため、畳み込みニューラルネットワーク部11は、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部11は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。
図1に戻り、目標認識装置1の構成の説明を続ける。最尤クラス選択部12は、畳み込みニューラルネットワーク部11により生成されるスコアマップを入力する。最尤クラス選択部12は、スコアマップのピクセルごとに、3つのクラスからピクセルが属する可能性が最も高いクラスを最尤クラスとして選択する。入力画像におけるピクセルの目標の前面クラス、後面クラス又は背景クラスらしさが高くなるほどスコアが大きくなる場合、最尤クラス選択部12は、3つのスコアのうち最も高い値に対応するクラスを最尤クラスとしてピクセルごとに選択する。最尤クラス選択部12は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップを生成する。最尤クラス選択部12は、ピクセルごとに算出される各スコアをソフトマックス関数により確率に変換し、変換された確率のうち最も大きい確率に対応するクラスを最尤クラスとして選択してもよい。また、最尤クラス選択部12は、スコアマップからクラスごとのスコア(確率に変換したスコアを含む)を抽出することによりヒートマップを生成する。
また、最尤クラス選択部12は、ピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の位置及び向きを特定する。例えば、最尤クラス選択部12は、目標の前面クラスと後面クラスとが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部12は、目標の位置(重心)から目標の前面クラスが選択されたピクセルの領域の重心へ向かう方向を、目標の向きとして算出する。最尤クラス選択部12は、入力画像において、前面クラス及び後面クラスが選択されたピクセルにて示される領域が複数ある場合、入力画像に複数の目標が撮像されていたと判定し、目標ごとに位置及び向きを算出する。最尤クラス選択部12は、算出した目標の位置及び向きを示す目標検出情報を生成する。目標検出情報は、入力画像における目標の位置及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部12は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。
表示部13は、畳み込みニューラルネットワーク部11からスコアマップを入力し、最尤クラス選択部12から目標認識情報を入力する。表示部13は、スコアマップに基づいて入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、最尤クラスマップに基づいて入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部13により行われる。表示部13は、ヒートマップにおけるスコアに応じて所定の色又はグレースケールの諧調を割り当てた各クラスのヒートマップを並べて表示してもよいし、ユーザに選択されたクラスのヒートマップを表示してもよい。また、表示部13は、目標検出情報に基づいて、目標の位置に目標の向きを示す図形(例えば矢印)を入力画像に重畳した画像を表示してもよい。
図3は、目標認識装置1の入力画像と最尤クラスマップとの一例を示す図である。図3に示す入力画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。入力画像には、4つの車両が目標として撮像されている。目標は、地表面(2次元平面)に射影した際に矩形となる形状を有しているが、シャドウ領域が存在するために入力画像における目標の像は矩形として現れていない。学習データを用いて事前に学習が行われた畳み込みニューラルネットワーク部11を備える目標認識装置1を用いることにより、図3に示す入力画像から図3に示す最尤クラスマップを得ることができる。
図3に示す最尤クラスマップにおいて、目標の形状を示す矩形の領域が前面クラスのピクセルと後面クラスのピクセルとの組み合わせにより示されている。目標認識装置1が前面クラスと後面クラスとを異なる階調で示すことにより、ユーザは目標の向きを視認しやすくなる。入力画像において識別された目標の前面と後面とをユーザが識別しやすいように、最尤クラスマップにおいて目標の前面クラスと後面クラスとの領域の表示に異なる階調が用いられている。図3に示す最尤クラスマップでは、後面クラスの階調より濃い階調で前面クラスが示されている。図3に示す最尤クラスマップはグレースケール画像にて示されているが、最尤クラスマップをカラー画像として表示し、目標の前面側と後面側とを異なる色にてそれぞれ示してもよい。目標認識装置1は、後面クラスのピクセルに割り当てる色よりも輝度の高い色を前面クラスのピクセルに対して割り当て、ユーザが目標の向きを視認しやすくしてもよい。
表示部13は、図3に示す入力画像と出力データとを並べて表示したり、入力画像に出力データを重畳して表示したりする。表示部13は、出力データを表示する際に、表示するピクセルに対応する最尤クラスを示す数値又はテキストを表示してもよい。最尤クラスを示す数値又はテキストは、当該最尤クラスが選択されたピクセルで構成される領域又はその領域の近傍に表示されてもよいし、ピクセルにおいて表示されている色又は階調との対応付けを示すように表示されてもよい。
また、表示部13は、最尤クラス選択部12により生成されたヒートマップを表示する。図4は、ヒートマップの一例を示す図である。図4には、図3に示した入力画像から得られた背景クラス、前面クラス及び後面クラスのヒートマップが示されている。図4に示す各ヒートマップは、畳み込みニューラルネットワーク部11により算出されるスコアをソフトマックス関数により確率に変換し、確率に応じた階調にて濃淡表示されている。各クラスに対する確率が高いほど白に近い色で各ピクセルが表示され、確率が低いほど黒に近い色で各ピクセルが表示されている。
図4に示す背景クラスのヒートマップを表示部13が表示することにより、ユーザは入力画像における目標の位置を視認することができる。また、前面クラス又は後面クラスのいずれか一方又は両方のヒートマップと、背景クラスのヒートマップとを並べて表示部13が表示することにより、ユーザは入力画像における各目標のスコア(確率に変換したスコアを含む)を容易に視認できる。図4では、グレースケールの階調を用いたヒートマップの例を示したが、表示部13はスコアの高低をユーザが容易に視認できるカラーのヒートマップを表示してもよい。
図5は、目標認識装置1により行われる目標認識処理の動作例を示すフローチャートである。目標認識処理が開始されると、目標認識装置1は、目標検出の対象となる入力画像を入力する(ステップS101)。畳み込みニューラルネットワーク部11は、目標認識装置1に入力された入力画像を受け付け、学習データを用いた学習にて得られた各ブロックの畳み込みフィルタを用いて入力画像の各ピクセルのスコアを算出してスコアマップを生成する(ステップS102)。
最尤クラス選択部12は、畳み込みニューラルネットワーク部11により生成されたスコアマップを受け付け、スコアマップにおける各クラスのスコアから最尤クラスをピクセルごとに選択する(ステップS103)。最尤クラス選択部12は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップと、各クラスのヒートマップと、入力画像に撮像されている目標の位置及び向きを示す目標検出情報とを生成する(ステップS104)。
最尤クラス選択部12は、生成した最尤クラスマップ、各クラスのヒートマップ、及び目標検出情報を含む目標認識情報を表示部13へ出力し、目標認識情報を目標認識装置1の外部へ出力する。表示部13は、最尤クラス選択部12から受け付けた目標認識情報に基づいた表示を行い(ステップS105)、目標認識処理が終了する。目標認識装置1の外部へ出力される目標認識情報は、目標認識装置1の外部に設けられた記憶装置に記憶されたり、目標認識装置1が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置1は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)などの記憶装置を備え、目標認識情報及び出力画像を記憶装置に記憶させてもよい。
図6は、畳み込みニューラルネットワーク部11の学習に用いられる学習装置2の構成例を示すブロック図である。学習装置2は、目標が撮像されている学習画像と、学習画像に撮像されている目標の位置、形状及び向きを示す教師データとを組み合わせた複数の学習データを入力する。学習画像の大きさは、任意の大きさであり、目標識別処理における入力画像の大きさと同じであってもよいし、異なる大きさであってもよい。教師データは、学習画像上における目標の位置及び形状と、目標の前面側及び後面側の領域とを示す。例えば、教師データは、学習画像と同じ大きさの真値のスコアマップであり、学習画像のピクセルごとに前面クラスと後面クラスと背景クラスとのうち判定されるべき一つのクラスを示す。
学習装置2は、画像変形部21と、畳み込みニューラルネットワーク部11と、誤差算出部22とを備える。画像変形部21は、複数の学習データを入力する。画像変形部21は、外部の記憶装置に記憶されている複数の学習データを順次読み出すことにより学習データを入力してもよいし、外部の通信装置から学習データを順次受信することにより学習データを入力してもよい。画像変形部21は、入力される学習データごとに、学習データに含まれる学習画像を畳み込みニューラルネットワーク部11へ出力し、学習データに含まれる教師データを誤差算出部22へ出力する。
また、画像変形部21は、入力する学習データだけでなく、学習データを変形(加工)することにより得られる新たな学習データを畳み込みニューラルネットワーク部11の学習に用いる。画像変形部21は、入力する学習データに含まれる教師データが示す目標の位置及び向きに変更を加え、変更した目標の位置及び向きに応じて学習画像における目標の像を変形させた変形画像を生成することにより、新たな学習データを得る。例えば、学習データにおいて目標が学習画像の中心に位置し、目標の前面が学習画像上側を向いている場合、画像変形部21は、目標の位置を学習画像の中心から所定の距離ずらし、目標の前面を学習画像の右側に向ける変形を教師データに加えて新たな教師データを生成する。更に、画像変形部21は、教師データに加えた変形に応じて、学習画像における目標の位置及び向きに変更を加えて変形画像を生成する。
変更された教師データと当該変更に応じて目標の像を変形させた変形画像とを含む新たな学習データも、畳み込みニューラルネットワーク部11の学習に用いられる。画像変形部21は、学習データにおける目標の向きを所定角度ずつ変更して1回転させた複数の新たな学習データを1つの学習データから生成してもよい。
畳み込みニューラルネットワーク部11は、入力される学習画像のピクセルごとに、各クラスのスコアを示すスコアマップを生成し、生成したスコアマップを誤差算出部22へ出力する。誤差算出部22は、畳み込みニューラルネットワーク部11により生成されたスコアマップと、教師データから得られる真値のスコアマップとの差分を誤差として算出し、算出した誤差を畳み込みニューラルネットワーク部11と画像変形部21とへ出力する。畳み込みニューラルネットワーク部11は、誤差を用いて、各ブロックにおける畳み込みフィルタの重み係数を学習する。学習には、例えば、確率的勾配降下法に基づく誤差逆伝播法などの公知の技術が用いられる。
図7は、畳み込みニューラルネットワーク部11の学習に用いられる学習画像及び教師データの一例を示す図である。図7に示す4つの学習画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。図7に示す4つの学習画像には、それぞれ1つの目標が撮像されている。学習画像における目標の像は、シャドウ領域が存在するために矩形形状として現れていない。各学習画像に対応する教師データにおいて、目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。地上での測定などにより得られた目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。なお、教師データにおいては、クラスが対応する数値で表現できていればよいが、ユーザによる確認が行いやすいように、インデックスカラー画像として保存するようにしてもよい。
図8は、学習装置2の学習処理の動作例を示すフローチャートである。学習処理が開始されると、学習装置2は、複数の学習データを入力する(ステップS201)。画像変形部21は、学習装置2に入力された複数の学習データごとに目標の向きを変更した新たな学習データを生成する(ステップS202)。1つの学習データから生成される新たな学習データの数は、入力画像において検出すべき目標の向きの精度などに応じて予め定められる。
画像変形部21は、入力された複数の学習データと生成した新たな学習データとから一つの学習データを選択する(ステップS203)。一つの学習データを選択する際に、画像変形部21は、選択された回数が最も少ない学習データを選択する。選択された回数が最も少ない学習データが複数ある場合、画像変形部21は、予め定められた順序で、又はランダムに複数の学習データからいずれか一つを選択する。
画像変形部21は、選択した学習データの学習画像を畳み込みニューラルネットワーク部11へ出力し、選択した学習データの教師データを誤差算出部22へ出力する(ステップS204)。畳み込みニューラルネットワーク部11は、入力された学習画像に対するスコアマップを生成し、生成したスコアマップを誤差算出部22へ出力する(ステップS205)。
誤差算出部22は、畳み込みニューラルネットワーク部11により生成されたスコアマップと、教師データにより示される真値のスコアマップとの誤差を算出する(ステップS206)。誤差算出部22は、算出した誤差を畳み込みニューラルネットワーク部11に出力する(ステップS207)。畳み込みニューラルネットワーク部11は、入力された誤差に基づいて各畳み込みフィルタの重み係数を更新して学習を行う(ステップS208)。
ステップS203からステップS208までの各ステップは、所定回数繰り返して行われる。繰り返し回数が所定回数に達すると、畳み込みニューラルネットワーク部11は、各畳み込みフィルタの重み係数を記憶するとともに、重み係数を外部へ出力し(ステップS209)、学習処理が終了する。なお、ステップS202の処理は、繰り返し回数ごとに、逐次処理として実施するように構成することができる。また、ステップS203からステップS208の処理は、2以上の学習データをまとめてバッチ処理として処理するように構成することができる。バッチ処理による学習を行う場合、学習の収束性能を向上させるために、バッチ正規化(batch Normalization)を適用しても良い。
学習処理において、ステップS203からステップS208までを所定回数繰り返すことに代えて、誤差算出部22により算出される誤差が所定値以下に集束するまで各ステップを繰り返してもよい。学習装置2において学習された畳み込みフィルタそれぞれの重み係数は、学習装置2の内部又は外部に設けられた記憶装置に記憶されてもよい。記憶された重み係数を目標認識装置1に備えられる畳み込みニューラルネットワーク部11が取得して、目標認識処理を行ってもよい。また、目標認識装置1と学習装置2とを一つの装置として構成してもよい。
畳み込みニューラルネットワーク部11における各畳み込みフィルタの重み係数を得る学習において、学習画像の大きさはどのような大きさであってもよい。前述のように、畳み込みニューラルネットワーク部11は、畳み込みフィルタにて入力画像又は特徴マップを走査して特徴量を算出するフィルタ処理とマックスプーリング処理とにより構成されているため、学習画像の大きさに関わらず、学習を行うことができる。また、学習画像の大きさは、目標認識処理における入力画像の大きさに依存せずに定めることができる。
第1の実施形態の目標認識装置1において、目標の前面クラス及び後面クラスと、背景クラスとを識別できるように、畳み込みニューラルネットワーク部11が学習を行う。このような学習により、目標認識装置1は、非特許文献1、2などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力画像における1つ以上の目標の検出と、検出した目標の位置及び向きの提示とを行える。また、非特許文献4に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献5に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するWD−CFARでは行えない、入力画像における1つ以上の目標の向きに関する情報を目標認識装置1は提示できる。目標認識装置1が目標に関する情報を提示することにより、入力画像における目標の検出及び姿勢推定における利便性を向上させ、目標の視認性を向上させることができる。更に、非特許文献6に記載されているように、目標の向きに180度のあいまいさがあるものの、目標の向き(角度)を精度よく推定できる方法と組み合わせることにより、180度のあいまいさがない目標の向き(角度)を精度よく推定することができる。
目標検出を行う従来のニューラルネットワークは出力の前段に全結合層を有しているので、入力画像を一定の大きさにスケーリングする必要がある。入力画像をスケーリングした場合、入力画像の縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第1の実施形態の目標認識装置1は、入力画像の大きさを一定にする必要がなく、任意の大きさの入力画像に対して目標認識処理を行えるため、目標の認識精度を劣化させることなく様々な大きさの入力画像を扱うことができる。また、目標認識装置1への入力画像を得るために、合成開口レーダ画像から入力画像を抽出する必要がないため、ユーザの利便性を向上させることができる。
[第2の実施形態]
第2の実施形態における目標認識装置は、第1の実施形態の目標認識装置1と同様に、合成開口レーダ画像を入力画像として入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第2の実施形態における目標認識装置が出力する目標認識情報に含まれる目標検出情報は、撮像されている目標の入力画像上の位置、形状及び向きに加えて、目標の種別を示す。最尤クラスマップには、目標の種別ごとの前面クラスと後面クラスと、背景クラスとが含まれる。ヒートマップには、目標の種別それぞれの前面クラスと後面クラスと、背景クラスとのヒートマップが含まれる。
第2の実施形態における目標認識装置は、第1の実施形態の目標認識装置1と同様に、合成開口レーダ画像を入力画像として入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第2の実施形態における目標認識装置が出力する目標認識情報に含まれる目標検出情報は、撮像されている目標の入力画像上の位置、形状及び向きに加えて、目標の種別を示す。最尤クラスマップには、目標の種別ごとの前面クラスと後面クラスと、背景クラスとが含まれる。ヒートマップには、目標の種別それぞれの前面クラスと後面クラスと、背景クラスとのヒートマップが含まれる。
図9は、第2の実施形態による畳み込みニューラルネットワーク部31の構成例を示す図である。第2の実施形態における目標認識装置は、畳み込みニューラルネットワーク部11に代えて、畳み込みニューラルネットワーク部31を備える。畳み込みニューラルネットワーク部31が出力するスコアマップは、10種類の目標の種別ごとに前面クラス及び後面クラスと、背景を示す背景クラスとからなる21クラスのスコアをピクセルごとに含む。畳み込みニューラルネットワーク部11が3クラスのスコアを算出していたのに対して、第2の実施形態の目標認識装置は、21クラスのスコアをピクセルごとに算出する。畳み込みニューラルネットワーク部31は、入力画像における特徴量を算出するエンコーダ部311と、算出された特徴量から21クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部312とを備える。
エンコーダ部311において第6ブロックの構成が、第1の実施形態のエンコーダ部111の第6ブロックの構成と異なる。エンコーダ部311の第6ブロックでは、1×1のカーネルサイズを有する21通りのフィルタで、ピクセルごとに各クラスに対応する21個の特徴量を算出し、1ピクセルあたり21個の特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部312へ出力される。
デコーダ部312は、畳み込みニューラルネットワーク部31における第7ブロックを有する。第7ブロックは、32×32のカーネルサイズでストライドが16×16の21通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み(Transposed Convolution)を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。32×32のカーネルサイズを有する21通りの畳み込みフィルタは、10種類の目標の前面及び後面クラスと背景クラスとからなる21クラスにそれぞれ対応している。デコーダ部312は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部312から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、21クラスそれぞれに対応する21個のスコアを有する。
畳み込みニューラルネットワーク部31は、第1の実施形態の畳み込みニューラルネットワーク部11と同様に、全結合層を有しないため、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部31は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。
第2の実施形態における最尤クラス選択部12は、スコアマップのピクセルごとに、21クラスから真値のクラスである可能性が最も高いクラスを最尤クラスとして選択する。最尤クラス選択部12は、各ピクセルに対して選択したクラスを示す最尤クラスマップを生成する。また、最尤クラス選択部12は、スコアマップからクラスごとのスコア(確率に変換したスコアを含む)を抽出することによりヒートマップを生成する。また、最尤クラス選択部12は、ピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の種別、位置及び向きを特定する。例えば、最尤クラス選択部12は、目標の種別が一致する前面クラス及び後面クラスが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部12は、入力画像において複数の目標が撮像されていると判定した場合、目標ごとに位置及び向きを算出する。最尤クラス選択部12は、算出した目標の種別、位置及び向きを示す目標検出情報を生成する。第2の実施形態における目標検出情報は、入力画像における目標の種別、位置及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部12は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。
第2の実施形態における表示部13は、畳み込みニューラルネットワーク部31からスコアマップを入力し、最尤クラス選択部12から目標認識情報を入力する。表示部13は、第1の実施形態と同様に、入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部13により行われる。表示部13は、各クラスのヒートマップを表示したり、目標検出情報に基づいて目標の位置に目標の向きを示す図形(例えば矢印)を入力画像に重畳した画像を表示したりする。
畳み込みニューラルネットワーク部31の学習は、第1の実施形態の畳み込みニューラルネットワーク部11と同様に、図5に示した学習装置2によって行われる。第2の実施形態における目標認識装置は、第1の実施形態の目標認識装置1と異なり、目標の位置及び向きに加え、目標の種別を識別するため、目標の種別を含む学習データが用いられる。
図10は、第2の実施形態における畳み込みニューラルネットワーク部31の学習に用いられる学習画像及び教師データの一例を示す図である。図10に示す4つの学習画像は、合成開口レーダにより得られた画像である。各学習画像に撮像されている目標の種別は異なる。学習画像における目標の像は、図3に示した学習画像と同様に、シャドウ領域が存在するために矩形形状として現れていない。各学習画像に対応する教師データには、種別の異なる目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。各教師データにおいて、目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。図10に示す教師データには、全21クラスのうち、4つの前面クラス、4つの後面クラス及び1つの背景クラスからなる9つのクラスが含まれている。
図11は、第2の実施形態における目標認識装置の入力画像と最尤クラスマップとの一例を示す図である。入力画像は、学習画像と同様に、合成開口レーダにより得られた画像である。最尤クラスマップには、目標の位置及び形状が前面クラスのピクセル及び後面クラスのピクセルの組み合わせにより示されている。図11に示す最尤クラスマップにおいて、左上の目標の種別と右下の目標の種別とは同じであるため、同じ階調の組み合わせにて目標の領域が示されている。左上及び右下の2つの目標の種別と他の2つの目標の種別とは異なるため、各目標の前面クラス及び後面クラスを示す階調が異なっている。
図11に示す最尤クラスマップのように、背景クラスの階調と異なる階調にて前面クラス及び後面クラスを表示することにより、入力画像における目標の有無をユーザが視認しやすくなる。また、目標の種別ごとに前面クラス及び後面クラスに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の種別をユーザが視認しやすくなる。また、前面クラスと後面クラスとに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の向きをユーザが視認しやすくなる。このように、非特許文献4に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献5に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するWD−CFARでは行えない、入力画像における1つ以上の目標の向き及び種別に関する情報を第2の実施形態の目標認識装置は提示できる。
なお、表示部13は、目標の種別、位置及び向きを階調で示すだけでなく、テキストや図形にて示してもよい。最尤クラスマップは、グレースケールに代えて、カラーで表示されてもよい。最尤クラスマップがカラーで表示される場合、目標の各種別に対応する前面クラス及び後面クラスと、背景クラスとのそれぞれが異なる色にて表示される。
以上説明した、第1及び第2の実施形態における目標認識装置によれば、電波反射の強度をグレースケールの階調で示した合成開口レーダにより得られた画像において、目標の有無、目標がある場合は目標の位置、形状及び向きに関する情報(例えば図3、11における最尤クラスマップ、図4におけるヒートマップ)をユーザに提示することができる。電波反射の強度を可視化した画像において、得られる目標の像が人の視認する可視光画像と異なるため、目標を識別することはユーザにとって容易でない場合がある。目標認識装置は、目標の位置及び向きに関する情報を提示することにより、合成開口レーダの画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。また、第2の実施形態における目標認識装置によれば、目標の種別に関する情報を更に提示することができ、目標の検出及び分類における利便性を向上させることができる。
なお、表示部13は、最尤クラスマップ又はヒートマップを表示するだけでなく、最尤クラスマップとヒートマップと入力画像とを並べて表示してもよい。入力画像(合成開口レーダの画像)と最尤クラスマップとヒートマップとを並べて表示することにより、入力画像における目標の像に対するユーザの視認性を向上させることができる。表示部13は、入力画像と最尤クラスマップとヒートマップとに加えて、畳み込みニューラルネットワーク部の学習に用いた学習画像のうち、少なくとも一つの学習画像を表示してもよい。表示部13が学習画像と出力データとを同時に表示することにより、検出された目標の形状と目標の真値の形状とを比較することができる。
また、最尤クラスマップ又はヒートマップにおける目標の形状が、学習画像又は教師データにおける目標の形状と大きく異なる場合、最尤クラスマップ又はヒートマップは、入力画像における目標の認識に対する精度が低いことを示しているとみなすことができる。図12は、入力画像と最尤クラスマップとの一例を示す図である。図12に示す最尤クラスマップにおいて、前面クラス又は後面クラスで示される領域のうち、教師データにおける目標の形状(例えば、図10に示した教師データにおける目標の形状)と大きく異なる領域に対する信頼性が低いとみなすことができる。ユーザは、目標識別装置から出力される最尤クラスマップにおける目標の形状に基づいて、最尤クラスマップに対する信頼性に関する情報を得ることができる。
また、第1及び第2の実施形態における目標認識装置は、目標の向きが異なる場合それぞれにおける目標の形状を学習しているため、遮蔽等により目標の像の一部が欠けている入力画像であっても目標の形状、位置及び向きに関する情報を得ることができる。
畳み込みニューラルネットワーク部11、31の学習において、与えられる学習データに基づいて新たな学習データを生成し、与えられる学習データと新たな学習データとの両方を用いた学習が行われる。学習画像を変形させて新たな学習データを生成することにより、学習データを生成するユーザの負担が軽減されるとともに、学習の効率が高まるので目標の認識精度を向上させることができる。
上記の実施形態では、入力画像及び学習画像が合成開口レーダ画像である場合について説明したが、目標認識装置の入力画像及び学習画像はこれに限定されない。例えば、干渉合成開口レーダ(Interferometric SAR: InSAR)や、逆合成開口レーダ(Inverse Synthetic Aperture Rader: ISAR)、ソナーなどの、電波や音波、レーダ光や赤外光などの反射強度に基づいて生成された画像を、目標認識装置の入力画像及び学習画像としてもよい。また、一般的な写真画像を目標認識装置の入力画像及び学習画像としてもよい。
畳み込みニューラルネットワーク部11、31によりスコアが算出されるクラスの数は、実施形態における3、21に限定されない。入力画像において検出すべき目標に関するクラスの数に応じて、スコアが算出されるクラスの数が定められる。畳み込みニューラルネットワーク部におけるエンコーダ部の最終ブロックの畳み込みフィルタの数と、デコーダ部における転置畳み込みを行う畳み込みフィルタの数とが、定められたクラスの数に応じて決定される。
デコーダ部112、312は、特徴マップからスコアマップを生成する際に、特徴マップに対する転置畳み込み処理に代えて、アンプーリング(Unpooling)及び畳み込みを組み合わせた処理を所定回数繰り返してもよい。エンコーダ部111、311において6つのブロックのネットワークを組み合わせた構成例を説明したが、エンコーダ部111、311の構成は図2及び図8に示した構成例に限定されず、任意の数の隠れ層を備えてもよい。
畳み込みフィルタのカーネルサイズやストライド、第1〜第7ブロックにおける畳み込みフィルタの数(抽出する特徴量)についても同様に、図2及び図9に示した構成例に限定されない。エンコーダ部111、311は、任意の大きさの入力画像に対して識別すべきクラス数のスコアをピクセルごとに有する特徴マップを生成できる構成を有していればよい。デコーダ部112、312は、エンコーダ部111、311から出力される特徴マップから、学習された畳み込みフィルタの重み係数に基づいて入力画像と同じ大きさを有するスコアマップを生成できる構成を有していればよい。
上記の実施形態では、デコーダ部112、312が、入力画像の大きさと同じ大きさのスコアマップを生成する場合について説明したが、第7ブロックにおける特徴マップに対する転置畳み込み処理において入力画像の大きさと異なるサイズのスコアマップを生成してもよい。また、デコーダ部112、312は、スコアマップを目標認識情報として外部へ出力してもよい。
最尤クラス選択部12は、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を含む目標認識情報に代えて、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報の少なくとも一つを目標認識情報として出力してもよい。表示部13は、最尤クラスマップ、各クラスのヒートマップ又は目標検出情報に基づいて、検出された目標の輪郭を示す画像を生成して表示してもよい。
図7及び図10において、目標の像、位置及び形状を含む学習画像及び教師データを例示したが、目標に関する情報が含まれない学習画像及び教師データからなる学習データを畳み込みニューラルネットワーク部11、31の学習に用いてもよい。目標に関する情報が含まれない学習データを用いた学習を行うことにより、畳み込みニューラルネットワーク部11、31による背景クラスに対する学習が行われて背景クラスの認識精度が向上する。2つ以上の目標の像が含まれる画像が学習画像として用いられてもよい。
上記の実施形態における目標認識装置と学習装置とは、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、CPUがプログラムを実行してもよい。CPUは、補助記憶装置に記憶されたプログラムを実行することにより、畳み込みニューラルネットワーク部、最尤クラス選択部、表示部、画像変形部、及び誤差算出部として機能してもよい。なお、目標認識装置と学習装置との各機能のすべて又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。
以上説明した少なくともひとつの実施形態によれば、入力画像から各ピクセルにおける目標に関する少なくとも2つのスコアを含むスコアマップを生成する畳み込みニューラルネットワーク部と、スコアマップに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標情報を取得する取得部(最尤クラス選択部12)とを持つことにより、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…目標認識装置、2…学習装置、11,31…畳み込みニューラルネットワーク部、12…最尤クラス選択部、13…表示部、21…画像変形部、22…誤差算出部、111,311…エンコーダ部、112,312…デコーダ部、90…画像分類装置
Claims (10)
- 種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部と、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する取得部と、
を備え、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる、
目標認識装置。 - 前記教師データにおける前記目標の向きは、前記目標の前面側及び後面側に割り当てられた異なるクラスにより示され、
前記取得部は、前記スコアマップにおける前記目標の前面側及び後面側それぞれのスコアに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを取得する、
請求項1に記載の目標認識装置。 - 前記取得部により取得された前記目標認識情報に基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きの情報を前記入力画像に重畳して出力する出力部、
を更に備える請求項1又は請求項2に記載の目標認識装置。 - 前記取得部は、前記スコアマップに基づいて、前記種別の異なる複数の目標の所定箇所の領域と、前記種別の異なる複数の目標以外の背景の領域とのうち、いずれの領域であるかを前記入力画像のピクセルごとに判定して前記目標認識情報を取得する、
請求項1から請求項3のいずれか一項に記載の目標認識装置。 - 前記畳み込みニューラルネットワークは、複数の畳み込みフィルタを有する2つ以上の隠れ層を有し、
前記複数の畳み込みフィルタそれぞれが前記入力画像を走査して前記入力画像の部分領域ごとに特徴量を算出し、前記部分領域ごとに算出される前記特徴量に基づいて前記入力画像の大きさと同じ大きさのスコアマップを生成する、
請求項1に記載の目標認識装置。 - 目標認識装置による目標認識方法であって、
種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを用いて、入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する第1のステップと、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する第2のステップと、
を含み、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる、
目標認識方法。 - 種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データ、及び、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データを用いた学習により得られる畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する取得部、
としてコンピュータを機能させるためのプログラム。 - 種別の異なる複数の目標のうち少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の種別、位置及び向きを示す教師データとを組み合わせた複数の学習データと、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の種別、位置及び変更された向きとを組み合わせた新たな学習データとを用いた学習により得られ、
入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する、
畳み込みニューラルネットワーク。 - 少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部と、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部と、
を備え、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられ、
前記教師データにおける前記目標の向きは、前記目標の前面側及び後面側に割り当てられた異なるクラスにより示され、
前記取得部は、前記スコアマップにおける前記目標の前面側及び後面側それぞれのスコアに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを取得する、
目標認識装置。 - 目標認識装置による目標認識方法であって、
少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを用いて、入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する第1のステップと、
前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する第2のステップと、
を含み、
前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、目標の位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられ、
前記教師データにおける前記目標の向きは、前記目標の前面側及び後面側に割り当てられた異なるクラスにより示され、
前記第2のステップでは、前記スコアマップにおける前記目標の前面側及び後面側それぞれのスコアに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きが取得される、
目標認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018005935A JP2019125204A (ja) | 2018-01-17 | 2018-01-17 | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018005935A JP2019125204A (ja) | 2018-01-17 | 2018-01-17 | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019125204A true JP2019125204A (ja) | 2019-07-25 |
Family
ID=67398854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018005935A Pending JP2019125204A (ja) | 2018-01-17 | 2018-01-17 | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019125204A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021081930A (ja) * | 2019-11-18 | 2021-05-27 | 日本放送協会 | 学習装置、情報分類装置、及びプログラム |
JP2021140705A (ja) * | 2020-03-10 | 2021-09-16 | 三菱電機インフォメーションシステムズ株式会社 | 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム |
JP2022038390A (ja) * | 2020-08-26 | 2022-03-10 | 株式会社東芝 | 推論装置、方法、プログラムおよび学習装置 |
JP2023183769A (ja) * | 2022-06-16 | 2023-12-28 | オートペディア カンパニー リミテッド | 深層人工ニューラルネットワークを用いたタイヤトレッド面摩耗判断システム及び方法 |
-
2018
- 2018-01-17 JP JP2018005935A patent/JP2019125204A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021081930A (ja) * | 2019-11-18 | 2021-05-27 | 日本放送協会 | 学習装置、情報分類装置、及びプログラム |
JP2021140705A (ja) * | 2020-03-10 | 2021-09-16 | 三菱電機インフォメーションシステムズ株式会社 | 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム |
WO2021181858A1 (ja) * | 2020-03-10 | 2021-09-16 | 三菱電機株式会社 | 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム |
JP7139369B2 (ja) | 2020-03-10 | 2022-09-20 | 三菱電機インフォメーションシステムズ株式会社 | 検出結果分析装置、検出結果分析方法及び検出結果分析プログラム |
JP2022038390A (ja) * | 2020-08-26 | 2022-03-10 | 株式会社東芝 | 推論装置、方法、プログラムおよび学習装置 |
JP7481956B2 (ja) | 2020-08-26 | 2024-05-13 | 株式会社東芝 | 推論装置、方法、プログラムおよび学習装置 |
JP2023183769A (ja) * | 2022-06-16 | 2023-12-28 | オートペディア カンパニー リミテッド | 深層人工ニューラルネットワークを用いたタイヤトレッド面摩耗判断システム及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019152543A (ja) | 目標認識装置、目標認識方法及びプログラム | |
US8385630B2 (en) | System and method of processing stereo images | |
JP2019125204A (ja) | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク | |
JP2019125203A (ja) | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク | |
JP2019194821A (ja) | 目標認識装置、目標認識方法及びプログラム | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
CN111126412B (zh) | 基于特征金字塔网络的图像关键点检测方法 | |
CN112581462A (zh) | 工业产品的外观缺陷检测方法、装置及存储介质 | |
CN112465801B (zh) | 一种分尺度提取掩码特征的实例分割方法 | |
CN111260655B (zh) | 基于深度神经网络模型的图像生成方法与装置 | |
CN110751157B (zh) | 图像显著性分割、图像显著性模型训练方法及装置 | |
CN115222713A (zh) | 一种冠状动脉钙化积分的计算方法、装置及存储介质 | |
CN115995042A (zh) | 一种视频sar运动目标检测方法及装置 | |
CN115527050A (zh) | 图像特征匹配方法、计算机设备和可读存储介质 | |
KR101921608B1 (ko) | 깊이 정보 생성 장치 및 방법 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
CN116342519A (zh) | 一种基于机器学习的图像处理方法 | |
CN114972937A (zh) | 一种基于深度学习的特征点检测与描述子生成方法 | |
CN112884817B (zh) | 稠密光流计算方法、装置、电子设备以及存储介质 | |
CN114723973A (zh) | 大尺度变化鲁棒的图像特征匹配方法及装置 | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和系统 | |
CN109816006B (zh) | 一种海天线检测方法、装置及计算机可读存储介质 | |
CN109242797B (zh) | 基于均质和异质区域融合的图像去噪方法、系统及介质 | |
CN111627037A (zh) | 图像区域提取方法、装置、设备及存储介质 | |
CN112017113B (zh) | 图像处理方法及装置、模型训练方法及装置、设备及介质 |