JP2019125203A - 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク - Google Patents

目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク Download PDF

Info

Publication number
JP2019125203A
JP2019125203A JP2018005934A JP2018005934A JP2019125203A JP 2019125203 A JP2019125203 A JP 2019125203A JP 2018005934 A JP2018005934 A JP 2018005934A JP 2018005934 A JP2018005934 A JP 2018005934A JP 2019125203 A JP2019125203 A JP 2019125203A
Authority
JP
Japan
Prior art keywords
target
image
learning
input image
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018005934A
Other languages
English (en)
Inventor
英俊 古川
Hidetoshi Furukawa
英俊 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Infrastructure Systems and Solutions Corp filed Critical Toshiba Corp
Priority to JP2018005934A priority Critical patent/JP2019125203A/ja
Publication of JP2019125203A publication Critical patent/JP2019125203A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】画像に基づいた目標の検出における利便性を向上させることができる目標認識装置を提供する。【解決手段】実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部とを持つ。畳み込みニューラルネットワーク部は、少なくとも一つの目標が撮像されている学習画像と、学習画像における目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、畳み込みニューラルネットワークを用いて入力画像から入力画像のピクセルごとの目標に関するスコアマップを生成する。取得部は、スコアマップに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する。【選択図】図1

Description

本発明の実施形態は、目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークに関する。
合成開口レーダ画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が用いられている(非特許文献1、2)。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。
図15は、畳み込みニューラルネットワークを用いた画像分類装置90の構成例を示す図である。図15に示す画像分類装置90は、画像を入力し、画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた10個の目標クラスのうち、画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置90は、第1ブロックから第6ブロックまでの6ブロックを有する。第1ブロックから第4ブロックまでが畳み込みブロックにより構成され、第5ブロック及び第6ブロックが全結合層(Full Connection Layer)により構成されている。
画像分類装置90を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置90は、推定結果を出力する最終段(第6ブロック)及びその前段(第5ブロック)が全結合層として構成されているため、それらの入力数及び第1ブロックから第4ブロックまでの入力数が固定値となっている。すなわち、画像分類装置90へ入力する目標画像のサイズが固定されているため、画像分類装置90へ入力する目標画像を合成開口レーダ画像から抽出する必要がある。また、画像分類装置90は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。更に、画像分類装置90から出力される推定結果は、10個の目標クラスそれぞれに対するスコア(確率に変換したスコアを含む)であるため、目標画像における目標の位置や向きを得ることができないという問題がある。
畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけでなく、入力画像の各ピクセルを意味づけされたクラスに分類するセマンティック・セグメンテーションにも用いられている(非特許文献3)。非特許文献4に記載された技術は、合成開口レーダ画像から抽出された目標画像の目標領域とシャドウ領域との2つのクラスの輪郭線を検出している。目標領域は、目標から電波反射があったと推定された領域である。シャドウ領域は、目標から電波反射がないレーダシャドウと推定された領域である。各クラスに分類されたピクセルで示される輪郭線を示すことにより、目標の位置に関する情報を提示することができる。しかし、この技術は、合成開口レーダ画像に撮像されている目標の位置に関する情報が得られるものの、検出した目標を目標領域とシャドウ領域の境界線で提示するため、光学画像におけるシルエット画像のようにユーザが認識しやすい目標の形状を提示できないという問題がある。
非特許文献5には、合成開口レーダ画像のピクセルごとに目標領域とシャドウ領域とのいずれであるかをWD−CFAR(Wavelet Decomposition and a Constant False Alarm Rate)を用いて判定する技術が記載されている。しかし、この技術も、目標の位置に関する情報を得ることができるが、目標の形状を目標領域とシャドウ領域に分割して提示するため、ユーザが認識しやすい目標の形状を提示できないという問題がある。
以上のような問題があるため、画像に撮像された目標の検出を行う画像処理には、改善の余地がある。
Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1607.02397> 畑貴將、他3名、「B−2−50 深層学習による合成開口レーダ画像の目標類別」、電子情報通信学会総合大会 通信講演論文集1、2017年3月、p.225 Jonathan Long, Evan Shelhamer, and Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation," [online], Mar 8, 2015, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1411.4038> David Malmgren-Hansen, and Morten Nobel-Jorgensen, "Convolutional Neural Networks for SAR Image Segmentation," 2015 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT), , December 2015, pp.231-236 Shiqi Huang, Wenzhun Huang, and Ting Zhang, "A New SAR Image Segmentation Algorithm for the Detection of Target and Shadow Regions," [online], December 7, 2016, [平成29年12月1日検索], インターネット<URL: https://www.nature.com/articles/srep38596> Hidetoshi Furukawa, "Deep Learning for Target Classification from SAR Imagery: Data Augmentation and Translation Invariance," [online], August 26, 2017, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1708.07920>
本発明が解決しようとする課題は、画像に基づいた目標の検出における利便性を向上させることができる目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークを提供することである。
実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部とを持つ。畳み込みニューラルネットワーク部は、少なくとも一つの目標が撮像されている学習画像と、学習画像における目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、畳み込みニューラルネットワークを用いて入力画像から入力画像のピクセルごとの目標に関するスコアマップを生成する。取得部は、スコアマップに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する。畳み込みニューラルネットワークを得る学習において、複数の学習データのうち少なくとも一つの学習データに含まれる教師データが示す目標の向きが変更され、変更された目標の向きに応じて学習画像における目標の像を変形させた変形画像と、目標の位置及び変更された向きとを組み合わせた新たな学習データ、及び、複数の学習データが用いられる。
第1の実施形態による目標認識装置の構成例を示すブロック図。 第1の実施形態による畳み込みニューラルネットワーク部の構成例を示すブロック図。 目標認識装置の入力画像と出力データとの一例を示す図。 他の出力データ例を示す図である。 目標認識装置により行われる目標認識処理の動作例を示すフローチャート。 畳み込みニューラルネットワーク部の学習に用いられる学習装置の構成例を示すブロック図。 畳み込みニューラルネットワーク部の学習に用いられる学習画像及び教師データの一例を示す図。 学習装置の学習処理の動作例を示すフローチャート。 第2の実施形態による畳み込みニューラルネットワーク部の構成例を示す図。 第2の実施形態における畳み込みニューラルネットワーク部の学習に用いられる学習画像及び教師データの一例を示す図。 第2の実施形態における目標認識装置の入力画像と出力データとの一例を示す図。 第2の実施形態における教師データの他の例を示す図。 図12に示す教師データなどが学習に用いられた場合における最尤クラスマップの一例を示す図。 入力画像と出力データとの一例を示す図。 畳み込みニューラルネットワークを用いた画像分類装置の構成例を示す図である。
以下、実施形態の目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワークを、図面を参照して説明する。
[第1の実施形態]
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置1は、任意の大きさの合成開口レーダ画像を入力画像として入力する。目標認識装置1は、入力画像に撮像されている目標の入力画像上の位置及び向きを示す情報を入力画像から取得する。目標認識装置1は、取得した情報を出力データとして出力する。目標の向きは、目標の前面が向いている方向である。目標認識装置1は、畳み込みニューラルネットワーク部11と、最尤クラス選択部12(取得部)と、表示部13(出力部)とを備える。
畳み込みニューラルネットワーク部11は、入力画像を取得し、入力画像の各ピクセルに対する複数のスコアを示すスコアマップを出力する。スコアマップに含まれる複数のスコアは、入力画像の各ピクセルに対する、目標に関して予め定められたクラスのスコアと、目標が撮像されていない背景に関する背景クラスのスコアとである。例えば、目標を天頂方向から撮影した際の光学画像における目標のシルエットが矩形形状を有する場合、矩形形状が目標の領域として定められる。目標を示す目標クラスと背景クラスとそれぞれのスコアが複数のスコアとして得られる。スコアは、畳み込みニューラルネットワーク部11において算出されるクラスごとの値であってもよいし、当該値をソフトマックス関数で変換することにより得られる確率などであってもよい。前述の2つのクラスそれぞれのスコアがピクセルに対して得られる場合、目標クラスと背景クラスとのうち、当該ピクセルに対して尤もらしい一つのクラスが複数のスコアに基づいて推定される。なお、尤もらしい一つのクラスとは、ピクセルに対する真値(Ground Truth)のクラスである確率が最も高いクラスである。
図2は、第1の実施形態による畳み込みニューラルネットワーク部11の構成例を示すブロック図である。畳み込みニューラルネットワーク部11は、入力画像における特徴量を算出するエンコーダ部111と、算出された特徴量から2クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部112とを備える。エンコーダ部111は、畳み込みニューラルネットワーク部11に入力される入力画像に対して、畳み込みフィルタ処理とマックスプーリング処理とを繰り返し行い、前述の2つのクラスそれぞれに対応する特徴量を算出する。デコーダ部112は、エンコーダ部111により算出される特徴量を、入力画像の大きさと同じ大きさのスコアマップに復元する。
エンコーダ部111は、6つの畳み込みブロックを組み合わせた構成を有する。第1ブロックは、3×3のカーネルサイズを有する32通りの畳み込みフィルタで、ゼロパディングが行われた入力画像のピクセル値を畳み込み、畳み込みにより算出される値を正規化線形関数(rectified linear unit (ReLU))で出力値に変換する抽出処理を行う。更に、第1ブロックは、抽出処理で得られた複数の出力値で構成される特徴量を3×3のカーネルサイズを有する32通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数(ReLU)で出力値に変換する。すなわち、第1ブロックは、抽出処理で入力画像から得られた特徴量に対して再度の抽出処理を行う。第1ブロックは、2回の抽出処理で得られた特徴量に対して2×2のカーネルサイズでストライドが2×2のマックスプーリング処理を行い、特徴量の縦・横サイズを各2分の1に圧縮する。第1ブロックは、圧縮した特徴量を第2ブロックへ出力する。なお、第1ブロックのマックスプーリング処理を行わずに、次の第2ブロックの畳み込みフィルタのストライドを2×2にすることにより、第1ブロックにより出力される特徴量に対し、縦・横サイズが各2分の1の特徴量を得るように構成することもできる。
第2ブロックから第4ブロックにおいても、第1ブロックと同様に2回の抽出処理とマックスプーリング処理とが行われる。ただし、第2、第3及び第4ブロックにおける抽出処理では、64通り、128通り及び256通りの畳み込みフィルタがそれぞれ用いられる。
第5ブロックでは、ゼロパディング後の入力画像の大きさに対して縦・横が各16分の1(=(1/2))の大きさの画像であって各ピクセルが特徴量で構成される画像(特徴マップ)に対して、6×6のカーネルサイズを有する512通りの畳み込みフィルタそれぞれで畳み込み、畳み込みにより算出される値を正規化線形関数(ReLU)で出力値に変換する。第5ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第5ブロックと第6ブロックとの接続の一部をランダムに一時的に切断するドロップアウト(Dropout)層を備える。
第6ブロックでは、1×1のカーネルサイズを有する2通りの畳み込みフィルタで、ピクセルごとに各クラスに対応する2つの特徴量を算出し、1ピクセルあたり2つの特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部112へ出力される。
デコーダ部112は、畳み込みニューラルネットワーク部11における第7ブロックを有する。第7ブロックは、32×32のカーネルサイズでストライドが16×16の2通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み(Transposed Convolution)を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。特徴マップの大きさと入力画像の大きさとの差は、各ブロックにおける畳み込みフィルタを用いた処理の前に行われるゼロパディングなどにより生じる。32×32のカーネルサイズを有する2通りの畳み込みフィルタは、目標クラスと背景クラスとからなる2つのクラスにそれぞれ対応している。デコーダ部112は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部112から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、2つのクラスそれぞれに対応する2つのスコアを有する。
畳み込みニューラルネットワーク部11における第1ブロックから第7ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワーク部11は、畳み込みフィルタにて入力画像又は特徴マップを走査して、カーネルサイズの入力画像上又は特徴マップ上の部分領域の特徴量を算出するフィルタ処理と、マックスプーリング処理とを行う。畳み込みニューラルネットワーク部11には全結合層が存在しないため、畳み込みニューラルネットワーク部11は、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部11は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。
図1に戻り、目標認識装置1の構成の説明を続ける。最尤クラス選択部12は、畳み込みニューラルネットワーク部11により生成されるスコアマップを入力する。最尤クラス選択部12は、スコアマップのピクセルごとに、2つのクラスからピクセルが属する可能性が最も高いクラスを最尤クラスとして選択する。入力画像におけるピクセルの目標クラス又は背景クラスらしさが高くなるほどスコアが大きくなる場合、最尤クラス選択部12は、2つのスコアのうち最も高い値に対応するクラスを最尤クラスとしてピクセルごとに選択する。最尤クラス選択部12は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップを生成する。最尤クラス選択部12は、ピクセルごとに算出される各スコアをソフトマックス関数により確率に変換し、変換された確率のうち最も大きい確率に対応するクラスを最尤クラスとして選択してもよい。また、最尤クラス選択部12は、スコアマップからクラスごとのスコア(確率に変換したスコアを含む)を抽出することによりヒートマップを生成する。
また、最尤クラス選択部12は、ピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の位置及び向きを特定する。例えば、最尤クラス選択部12は、目標クラスが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部12は、目標の位置(重心)から目標の前面と推定される領域へ向かう方向を、目標の向きとして算出する。なお、目標の前面と推定される領域については、後述する。最尤クラス選択部12は、入力画像において、目標クラスが選択されたピクセルにて示される領域が複数ある場合、入力画像に複数の目標が撮像されていたと判定し、目標ごとに位置及び向きを算出する。最尤クラス選択部12は、算出した目標の位置及び向きを示す目標検出情報を生成する。目標検出情報は、入力画像における目標の位置及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部12は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。
表示部13は、畳み込みニューラルネットワーク部11からスコアマップを入力し、最尤クラス選択部12から目標認識情報を入力する。表示部13は、スコアマップに基づいて入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、最尤クラスマップに基づいて入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部13により行われる。表示部13は、ヒートマップにおけるスコアに応じて所定の色又はグレースケールの階調を割り当てた各クラスのヒートマップを並べて表示してもよいし、ユーザに選択されたクラスのヒートマップを表示してもよい。また、表示部13は、目標検出情報に基づいて、目標の位置に目標の向きを示す図形(例えば矢印)を入力画像に重畳した画像を表示してもよい。
図3は、目標認識装置1の入力画像と最尤クラスマップとの一例を示す図である。図3に示す入力画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。入力画像には、4つの車両が目標として撮像されている。目標は、地表面(2次元平面)に射影した際に矩形となる形状を有しているが、シャドウ領域が存在するために入力画像における目標の像は矩形として現れていない。学習データを用いて事前に学習が行われた畳み込みニューラルネットワーク部11を備える目標認識装置1を用いることにより、図3に示す入力画像から図3に示す最尤クラスマップを得ることができる。
図3に示す最尤クラスマップにおいて、目標の形状を示す矩形の領域が目標クラスのピクセルにより示されている。目標認識装置1が目標から電波反射があったと推定される目標領域と目標から電波反射がなかった推定されるシャドウ領域とに区分して提示するのではなく、光学画像における目標のシルエットのような1つにまとまった目標の形状を示すことにより、ユーザは目標を視認しやすくなる。図3に示す最尤クラスマップはグレースケール画像にて示されているが、最尤クラスマップをカラー画像として表示してもよい。
表示部13は、図3に示す入力画像と出力データとを並べて表示したり、入力画像に出力データを重畳して表示したりする。表示部13は、出力データを表示する際に、表示するピクセルに対応する最尤クラスを示す数値又はテキストを表示してもよい。最尤クラスを示す数値又はテキストは、当該最尤クラスが選択されたピクセルで構成される領域又はその領域の近傍に表示されてもよいし、ピクセルにおいて表示されている色又は階調との対応付けを示すように表示されてもよい。
また、表示部13は、最尤クラス選択部12により生成されたヒートマップを表示する。図4は、ヒートマップの一例を示す図である。図4には、図3に示した入力画像から得られた背景クラスと目標クラスとのヒートマップが示されている。図4に示す各ヒートマップは、畳み込みニューラルネットワーク部11により算出されるスコアをソフトマックス関数により確率に変換し、確率に応じた階調にて濃淡表示されている。各クラスに対する確率が高いほど白に近い色で各ピクセルが表示され、確率が低いほど黒に近い色で各ピクセルが表示されている。
図4に示す背景クラスのヒートマップを表示部13が表示することにより、ユーザは入力画像における目標の位置を視認することができる。また、目標クラスのヒートマップと、背景クラスのヒートマップとを並べて表示部13が表示することにより、ユーザは入力画像における各目標のスコア(確率に変換したスコアを含む)を容易に視認できる。図4では、グレースケールの階調を用いたヒートマップの例を示したが、表示部13はスコアの高低をユーザが容易に視認できるカラーのヒートマップを表示してもよい。
図5は、目標認識装置1により行われる目標認識処理の動作例を示すフローチャートである。目標認識処理が開始されると、目標認識装置1は、目標検出の対象となる入力画像を入力する(ステップS101)。畳み込みニューラルネットワーク部11は、目標認識装置1に入力された入力画像を受け付け、学習データを用いた学習にて得られた各ブロックの畳み込みフィルタを用いて入力画像の各ピクセルのスコアを算出してスコアマップを生成する(ステップS102)。
最尤クラス選択部12は、畳み込みニューラルネットワーク部11により生成されたスコアマップを受け付け、スコアマップにおける各クラスのスコアから最尤クラスをピクセルごとに選択する(ステップS103)。最尤クラス選択部12は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップと、各クラスのヒートマップと、入力画像に撮像されている目標の位置及び向きを示す目標検出情報とを生成する(ステップS104)。
最尤クラス選択部12は、生成した最尤クラスマップ、各クラスのヒートマップ、及び目標検出情報を含む目標認識情報を表示部13へ出力し、目標認識情報を目標認識装置1の外部へ出力する。表示部13は、最尤クラス選択部12から受け付けた目標認識情報に基づいた表示を行い(ステップS105)、目標認識処理が終了する。目標認識装置1の外部へ出力される目標認識情報は、目標認識装置1の外部に設けられた記憶装置に記憶されたり、目標認識装置1が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置1は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)などの記憶装置を備え、目標認識情報及び出力画像を記憶装置に記憶させてもよい。
図6は、畳み込みニューラルネットワーク部11の学習に用いられる学習装置2の構成例を示すブロック図である。学習装置2は、目標が撮像されている学習画像と、学習画像に撮像されている目標の位置、形状及び向きを示す教師データとを組み合わせた複数の学習データを入力する。学習画像の大きさは、任意の大きさであり、目標識別処理における入力画像の大きさと同じであってもよいし、異なる大きさであってもよい。教師データは、学習画像上における目標の位置、形状及び向きと、目標の領域とを示す。例えば、教師データは、学習画像と同じ大きさの真値のスコアマップであり、学習画像のピクセルごとに目標クラスと背景クラスとのうち判定されるべき一つのクラスを示す。
学習装置2は、画像変形部21と、畳み込みニューラルネットワーク部11と、誤差算出部22とを備える。画像変形部21は、複数の学習データを入力する。画像変形部21は、外部の記憶装置に記憶されている複数の学習データを順次読み出すことにより学習データを入力してもよいし、外部の通信装置から学習データを順次受信することにより学習データを入力してもよい。画像変形部21は、入力される学習データごとに、学習データに含まれる学習画像を畳み込みニューラルネットワーク部11へ出力し、学習データに含まれる教師データを誤差算出部22へ出力する。
また、画像変形部21は、入力する学習データだけでなく、学習データを変形(加工)することにより得られる新たな学習データを畳み込みニューラルネットワーク部11の学習に用いる。画像変形部21は、入力する学習データに含まれる教師データが示す目標の位置及び向きに変更を加え、変更した目標の位置及び向きに応じて学習画像における目標の像を変形させた変形画像を生成することにより、新たな学習データを得る。例えば、学習データにおいて目標が学習画像の中心に位置し、目標の前面が学習画像上側を向いている場合、画像変形部21は、目標の位置を学習画像の中心から所定の距離ずらし、目標の前面を学習画像の右側に向ける変形を教師データに加えて新たな教師データを生成する。更に、画像変形部21は、教師データに加えた変形に応じて、学習画像における目標の位置及び向きに変更を加えて変形画像を生成する。
変更された教師データと当該変更に応じて目標の像を変形させた変形画像とを含む新たな学習データも、畳み込みニューラルネットワーク部11の学習に用いられる。画像変形部21は、学習データにおける目標の向きを所定角度ずつ変更して1回転させた複数の新たな学習データを1つの学習データから生成してもよい。
畳み込みニューラルネットワーク部11は、入力される学習画像のピクセルごとに、各クラスのスコアを示すスコアマップを生成し、生成したスコアマップを誤差算出部22へ出力する。誤差算出部22は、畳み込みニューラルネットワーク部11により生成されたスコアマップと、教師データから得られる真値のスコアマップとの差分を誤差として算出し、算出した誤差を畳み込みニューラルネットワーク部11と画像変形部21とへ出力する。畳み込みニューラルネットワーク部11は、誤差を用いて、各ブロックにおける畳み込みフィルタの重み係数を学習する。学習には、例えば、確率的勾配降下法に基づく誤差逆伝播法などの公知の技術が用いられる。
図7は、畳み込みニューラルネットワーク部11の学習に用いられる学習画像及び教師データの一例を示す図である。図7に示す4つの学習画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。図7に示す4つの学習画像には、それぞれ1つの目標が撮像されている。学習画像における目標の像は、シャドウ領域が存在するために矩形形状として現れていない。各学習画像に対応する教師データにおいて、目標クラスと背景クラスとが異なる階調の表示により示されている。地上での測定などにより得られた目標の矩形形状が、目標クラスの領域により示されている。なお、教師データにおいては、クラスが対応する数値で表現できていればよいが、ユーザによる確認が行いやすいように、インデックスカラー画像として保存するようにしてもよい。
目標の形状を示す矩形形状では、目標の向きに180度のあいまいさがあるため、教師データにおいて目標の前面を示す変形が矩形形状に加えられている。例えば、教師データには、目標の形状を示す矩形形状に対して、目標の前面を簡易的に示すために実際の目標の形状にはない切り欠きが設けられている。図7に示す教師データにおいては、各目標は、左上に前面を向けている。目標の前面を示す切り欠きを含む教師データを畳み込みニューラルネットワーク部11の学習に用いることにより、目標の前面を示す形状が最尤クラスマップに現れる。例えば、図3に示した最尤クラスマップにおいて切り欠きが部分的に現れており、検出された目標が下側に前面を向けていることが最尤クラスマップから読み取れる。また、最尤クラス選択部12は、目標クラスとして現れる略矩形形状における2つの短辺のうち、切り欠きが存在している可能性が高い短辺を選択し、選択した短辺近傍の領域を目標の前面と推定される領域として判定する。なお、目標の前面を示す変形(切り欠きの形状)は、図7の教師データに示す変形以外の変形であってもよい。一方、目標の位置や形状の検出を優先し、目標の向きに180度のあいまいさがあってもよい場合、目標の前面を示す変形を行わない教師データを用いるようにすることもできる。
図8は、学習装置2の学習処理の動作例を示すフローチャートである。学習処理が開始されると、学習装置2は、複数の学習データを入力する(ステップS201)。画像変形部21は、学習装置2に入力された複数の学習データごとに目標の向きを変更した新たな学習データを生成する(ステップS202)。1つの学習データから生成される新たな学習データの数は、入力画像において検出すべき目標の向きの精度などに応じて予め定められる。
画像変形部21は、入力された複数の学習データと生成した新たな学習データとから一つの学習データを選択する(ステップS203)。一つの学習データを選択する際に、画像変形部21は、選択された回数が最も少ない学習データを選択する。選択された回数が最も少ない学習データが複数ある場合、画像変形部21は、予め定められた順序で、又はランダムに複数の学習データからいずれか一つを選択する。
画像変形部21は、選択した学習データの学習画像を畳み込みニューラルネットワーク部11へ出力し、選択した学習データの教師データを誤差算出部22へ出力する(ステップS204)。畳み込みニューラルネットワーク部11は、入力された学習画像に対するスコアマップを生成し、生成したスコアマップを誤差算出部22へ出力する(ステップS205)。
誤差算出部22は、畳み込みニューラルネットワーク部11により生成されたスコアマップと、教師データにより示される真値のスコアマップとの誤差を算出する(ステップS206)。誤差算出部22は、算出した誤差を畳み込みニューラルネットワーク部11に出力する(ステップS207)。畳み込みニューラルネットワーク部11は、入力された誤差に基づいて各畳み込みフィルタの重み係数を更新して学習を行う(ステップS208)。
ステップS203からステップS208までの各ステップは、所定回数繰り返して行われる。繰り返し回数が所定回数に達すると、畳み込みニューラルネットワーク部11は、各畳み込みフィルタの重み係数を記憶するとともに、重み係数を外部へ出力し(ステップS209)、学習処理が終了する。なお、ステップS202の処理は、繰り返し回数ごとに、逐次処理として実施するように構成することができる。また、ステップS203からステップS208の処理は、2以上の学習データをまとめてバッチ処理として処理するように構成することができる。バッチ処理による学習を行う場合、学習の収束性能を向上させるために、バッチ正規化(batch Normalization)を適用しても良い。
学習処理において、ステップS203からステップS208までを所定回数繰り返すことに代えて、誤差算出部22により算出される誤差が所定値以下に集束するまで各ステップを繰り返してもよい。学習装置2において学習された畳み込みフィルタそれぞれの重み係数は、学習装置2の内部又は外部に設けられた記憶装置に記憶されてもよい。記憶された重み係数を目標認識装置1に備えられる畳み込みニューラルネットワーク部11が取得して、目標認識処理を行ってもよい。また、目標認識装置1と学習装置2とを一つの装置として構成してもよい。
畳み込みニューラルネットワーク部11における各畳み込みフィルタの重み係数を得る学習において、学習画像の大きさはどのような大きさであってもよい。前述のように、畳み込みニューラルネットワーク部11は、畳み込みフィルタにて入力画像又は特徴マップを走査して特徴量を算出するフィルタ処理とマックスプーリング処理とにより構成されているため、学習画像の大きさに関わらず、学習を行うことができる。また、学習画像の大きさは、目標認識処理における入力画像の大きさに依存せずに定めることができる。
第1の実施形態の目標認識装置1において、目標クラスと背景クラスとを識別できるように、畳み込みニューラルネットワーク部11が学習を行う。このような学習により、目標認識装置1は、非特許文献1、2などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力画像における1つ以上の目標の検出と、検出した目標の位置、向き及び形状の提示とを行える。また、非特許文献4に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献5に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するWD−CFARでは行えない、入力画像における1つ以上の目標の形状及び向きに関する情報を目標認識装置1は提示できる。目標認識装置1が目標に関する情報を提示することにより、入力画像における目標の検出における利便性を向上させ、目標の視認性を向上させることができる。更に、非特許文献6に記載されているように、非特許文献1、2などに記載されている畳み込みニューラルネットワークは、目標画像における目標の位置が中心からシフトするにつれ、その分類性能が低下するが、シャドウ領域の影響を受けずに複数の目標の位置を正確に検出できる第1の実施形態の目標認識装置1からの目標認識情報を用いて、画像から目標画像を抽出することにより、目標分類を行う畳み込みニューラルネットワークの目標分類性能を低下させないようにすることができる。
目標検出を行う従来のニューラルネットワークは出力の前段に全結合層を有しているので、入力画像を一定の大きさにスケーリングする必要がある。入力画像をスケーリングした場合、入力画像の縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第1の実施形態の目標認識装置1は、入力画像の大きさを一定にする必要がなく、任意の大きさの入力画像に対して目標認識処理を行えるため、目標の認識精度を劣化させることなく様々な大きさの入力画像を扱うことができる。また、目標認識装置1への入力画像を得るために、合成開口レーダ画像から入力画像を抽出する必要がないため、ユーザの利便性を向上させることができる。
[第2の実施形態]
第2の実施形態における目標認識装置は、第1の実施形態の目標認識装置1と同様に、合成開口レーダ画像を入力画像として入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第2の実施形態における目標認識装置が出力する目標認識情報に含まれる目標検出情報は、撮像されている目標の入力画像上の位置、形状及び向きに加えて、目標の種別を示す。最尤クラスマップには、目標の種別それぞれを示す目標クラスと、目標の前面の領域(所定箇所の領域)を示す前面クラスと、背景クラスとが更に含まれる。前面クラスは、目標の種別に関わらず共通のクラスである。ヒートマップには、目標の種別それぞれを示す目標クラスと、前面クラスと、背景クラスとのヒートマップが含まれる。
図9は、第2の実施形態による畳み込みニューラルネットワーク部31の構成例を示す図である。第2の実施形態における目標認識装置は、畳み込みニューラルネットワーク部11に代えて、畳み込みニューラルネットワーク部31を備える。畳み込みニューラルネットワーク部31が出力するスコアマップは、10種類の目標の種別ごとに目標クラス、目標の各種別に共通する前面クラス及び背景を示す背景クラスとからなる12クラスのスコアをピクセルごとに含む。畳み込みニューラルネットワーク部11が2クラスのスコアを算出していたのに対して、第2の実施形態の目標認識装置は、12クラスのスコアをピクセルごとに算出する。畳み込みニューラルネットワーク部31は、入力画像における特徴量を算出するエンコーダ部311と、算出された特徴量から12クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部312とを備える。
エンコーダ部311において第6ブロックの構成が、第1の実施形態のエンコーダ部111の第6ブロックの構成と異なる。エンコーダ部311の第6ブロックでは、1×1のカーネルサイズを有する12通りのフィルタで、ピクセルごとに各クラスに対応する12個の特徴量を算出し、1ピクセルあたり12個の特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部312へ出力される。
デコーダ部312は、畳み込みニューラルネットワーク部31における第7ブロックを有する。第7ブロックは、32×32のカーネルサイズでストライドが16×16の12通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み(Transposed Convolution)を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。32×32のカーネルサイズを有する12通りの畳み込みフィルタは、10種類の目標クラス、目標共通の前面クラス及び背景クラスとからなる12クラスにそれぞれ対応している。デコーダ部312は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部312から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、12クラスそれぞれに対応する12個のスコアを有する。
畳み込みニューラルネットワーク部31は、第1の実施形態の畳み込みニューラルネットワーク部11と同様に、全結合層を有しないため、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部31は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。
第2の実施形態における最尤クラス選択部12は、スコアマップのピクセルごとに、12クラスから真値のクラスである可能性が最も高いクラスを最尤クラスとして選択する。最尤クラス選択部12は、各ピクセルに対して選択したクラスを示す最尤クラスマップを生成する。また、最尤クラス選択部12は、スコアマップからクラスごとのスコア(確率に変換したスコアを含む)を抽出することによりヒートマップを生成する。また、最尤クラス選択部12は、ピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の種別、位置及び向きを特定する。例えば、最尤クラス選択部12は、目標の種別が一致する目標クラスが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部12は、目標の種別を示す目標クラスが選択されたピクセルに隣接し、かつ前面クラスが選択されたピクセルの領域を、目標の前面と推定される領域と判定する。最尤クラス選択部12は、目標の前面と推定された領域と、目標の位置とから目標の向きを算出する。最尤クラス選択部12は、入力画像において複数の目標が撮像されていると判定した場合、目標ごとに位置及び向きを算出する。最尤クラス選択部12は、算出した目標の種別、位置及び向きを示す目標検出情報を生成する。第2の実施形態における目標検出情報は、入力画像における目標の種別、位置及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部12は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。
第2の実施形態における表示部13は、畳み込みニューラルネットワーク部31からスコアマップを入力し、最尤クラス選択部12から目標認識情報を入力する。表示部13は、第1の実施形態と同様に、入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部13により行われる。表示部13は、各クラスのヒートマップを表示したり、目標検出情報に基づいて目標の位置に目標の向きを示す図形(例えば矢印)を入力画像に重畳した画像を表示したりする。
畳み込みニューラルネットワーク部31の学習は、第1の実施形態の畳み込みニューラルネットワーク部11と同様に、図5に示した学習装置2によって行われる。第2の実施形態における目標認識装置は、第1の実施形態の目標認識装置1と異なり、目標の位置及び向きに加え、目標の種別を識別するため、目標の種別を含む学習データが用いられる。
図10は、第2の実施形態における畳み込みニューラルネットワーク部31の学習に用いられる学習画像及び教師データの一例を示す図である。図10に示す4つの学習画像は、合成開口レーダにより得られた画像である。各学習画像に撮像されている目標の種別は異なる。学習画像における目標の像は、図3に示した学習画像と同様に、シャドウ領域が存在するために矩形形状として現れていない。各学習画像に対応する教師データには、種別の異なる目標クラス、前面クラス及び背景クラスが異なる階調の表示により示されている。各教師データにおいて、目標の矩形形状が、目標クラスと前面クラスとの領域を組み合わせた領域により示されている。図10に示す教師データには、全12クラスのうち、4つの目標クラス、1つの前面クラス及び1つの背景クラスからなる6つのクラスが含まれている。
図11は、第2の実施形態における目標認識装置の入力画像と最尤クラスマップとの一例を示す図である。入力画像は、学習画像と同様に、合成開口レーダにより得られた画像である。最尤クラスマップには、目標の位置及び形状が目標クラスのピクセル及び前面クラスのピクセルの組み合わせにより示されている。図11に示す最尤クラスマップにおいて、左上の目標の種別と右下の目標の種別とは同じであるため、同じ階調の組み合わせにて目標の領域が示されている。左上及び右下の2つの目標の種別と他の2つの目標の種別とは異なるため、各目標の目標クラスを示す階調が異なっている。
図11に示す最尤クラスマップのように、背景クラスの階調と異なる階調にて目標クラスを表示することにより、入力画像における目標の有無をユーザが視認しやすくなる。また、目標の種別ごとに目標クラスに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の種別をユーザが視認しやすくなる。また、目標クラスと前面クラスとに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の向きをユーザが視認しやすくなる。このように、非特許文献4に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献5に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するWD−CFARでは行えない、入力画像における1つ以上の目標の向き及び種別に関する情報を第2の実施形態の目標認識装置は提示できる。
なお、表示部13は、目標の種別、位置及び向きを階調で示すだけでなく、テキストや図形にて示してもよい。最尤クラスマップは、グレースケールに代えて、カラーで表示されてもよい。最尤クラスマップがカラーで表示される場合、目標の各種別に対応する目標クラス及び前面クラスと、背景クラスとのそれぞれが異なる色にて表示される。
第2の実施形態において目標の前面を示す前面クラスを用いる構成について説明したが、第1の実施形態と同様に、教師データにおいて目標の形状に対して前面を示す切り欠きを設けてもよい。図12は、第2の実施形態における教師データの他の例を示す図である。図12に示す教師データは、図10に示した学習画像に対応する。図12における教師データが示す目標の位置、形状及び向きは、目標の種別を示すクラスに対応する階調で示されている。図12に示すような教師データを含む学習データを用いて、畳み込みニューラルネットワーク部31の学習が行われてもよい。図13は、図12に示す教師データなどが学習に用いられた場合における最尤クラスマップの一例を示す図である。図13に示す最尤クラスマップは、図11に示した入力画像に対応する。同図に示されるように、前面クラスを用いない学習が行われた場合においても、入力画像における目標の有無、位置、形状、向き及び種別をユーザが視認しやすくなる。
以上説明した、第1及び第2の実施形態における目標認識装置によれば、電波反射の強度をグレースケールの階調で示した合成開口レーダにより得られた画像において、目標の有無、目標がある場合は目標の位置、形状及び向きに関する情報(例えば図3、11、13における最尤クラスマップ、図4におけるヒートマップ)をユーザに提示することができる。電波反射の強度を可視化した画像において、得られる目標の像が人の視認する可視光画像と異なるため、目標を識別することはユーザにとって容易でない場合がある。目標認識装置は、目標の位置及び向きに関する情報を提示することにより、合成開口レーダの画像に基づいた目標の検出及び分類における利便性を向上させることができる。また、第2の実施形態における目標認識装置によれば、目標の種別に関する情報を更に提示することができ、目標の検出及び分類における利便性を向上させることができる。
なお、表示部13は、最尤クラスマップ又はヒートマップを表示するだけでなく、最尤クラスマップとヒートマップと入力画像とを並べて表示してもよい。入力画像(合成開口レーダの画像)と最尤クラスマップとヒートマップとを並べて表示することにより、入力画像における目標の像に対するユーザの視認性を向上させることができる。表示部13は、入力画像と最尤クラスマップとヒートマップとに加えて、畳み込みニューラルネットワーク部の学習に用いた学習画像のうち、少なくとも一つの学習画像を表示してもよい。表示部13が学習画像と出力データとを同時に表示することにより、検出された目標の形状と目標の真値の形状とを比較することができる。
また、最尤クラスマップ又はヒートマップにおける目標の形状が、学習画像又は教師データにおける目標の形状と大きく異なる場合、最尤クラスマップ又はヒートマップは、入力画像における目標の認識に対する精度が低いことを示しているとみなすことができる。図14は、入力画像と最尤クラスマップとの一例を示す図である。図14に示す最尤クラスマップにおいて、目標クラスで示される領域のうち、教師データにおける目標の形状(例えば、図10に示した教師データにおける目標の形状)と大きく異なる領域に対する信頼性が低いとみなすことができる。ユーザは、目標識別装置から出力される最尤クラスマップにおける目標の形状に基づいて、最尤クラスマップに対する信頼性に関する情報を得ることができる。
また、第1及び第2の実施形態における目標認識装置は、目標の向きが異なる場合それぞれにおける目標の形状を学習しているため、遮蔽等により目標の像の一部が欠けている入力画像であっても目標の形状、位置及び向きに関する情報を得ることができる。
畳み込みニューラルネットワーク部11、31の学習において、与えられる学習データに基づいて新たな学習データを生成し、与えられる学習データと新たな学習データとの両方を用いた学習が行われる。学習画像を変形させて新たな学習データを生成することにより、学習データを生成するユーザの負担が軽減されるとともに、学習の効率が高まるので目標の認識精度を向上させることができる。
上記の実施形態では、入力画像及び学習画像が合成開口レーダ画像である場合について説明したが、目標認識装置の入力画像及び学習画像はこれに限定されない。例えば、干渉合成開口レーダ(Interferometric SAR: InSAR)や、逆合成開口レーダ(Inverse Synthetic Aperture Rader: ISAR)、ソナーなどの、電波や音波、レーダ光や赤外光などの反射強度に基づいて生成された画像を、目標認識装置の入力画像及び学習画像としてもよい。また、一般的な写真画像を目標認識装置の入力画像及び学習画像としてもよい。
畳み込みニューラルネットワーク部11、31によりスコアが算出されるクラスの数は、実施形態における2、12に限定されない。入力画像において検出すべき目標に関するクラスの数に応じて、スコアが算出されるクラスの数が定められる。畳み込みニューラルネットワーク部におけるエンコーダ部の最終ブロックの畳み込みフィルタの数と、デコーダ部における転置畳み込みを行う畳み込みフィルタの数とが、定められたクラスの数に応じて決定される。
デコーダ部112、312は、特徴マップからスコアマップを生成する際に、特徴マップに対する転置畳み込み処理に代えて、アンプーリング(Unpooling)及び畳み込みを組み合わせた処理を所定回数繰り返してもよい。エンコーダ部111、311において6つのブロックのネットワークを組み合わせた構成例を説明したが、エンコーダ部111、311の構成は図2及び図8に示した構成例に限定されず、任意の数の隠れ層を備えてもよい。
畳み込みフィルタのカーネルサイズやストライド、第1〜第7ブロックにおける畳み込みフィルタの数(抽出する特徴量)についても同様に、図2及び図9に示した構成例に限定されない。エンコーダ部111、311は、任意の大きさの入力画像に対して識別すべきクラス数のスコアをピクセルごとに有する特徴マップを生成できる構成を有していればよい。デコーダ部112、312は、エンコーダ部111、311から出力される特徴マップから、学習された畳み込みフィルタの重み係数に基づいて入力画像と同じ大きさを有するスコアマップを生成できる構成を有していればよい。
上記の実施形態では、デコーダ部112、312が、入力画像の大きさと同じ大きさのスコアマップを生成する場合について説明したが、第7ブロックにおける特徴マップに対する転置畳み込み処理において入力画像の大きさと異なるサイズのスコアマップを生成してもよい。また、デコーダ部112、312は、スコアマップを目標認識情報として外部へ出力してもよい。
最尤クラス選択部12は、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を含む目標認識情報に代えて、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報の少なくとも一つを目標認識情報として出力してもよい。表示部13は、最尤クラスマップ、各クラスのヒートマップ又は目標検出情報に基づいて、検出された目標の輪郭を示す画像を生成して表示してもよい。
図7及び図10において、目標の像、位置及び形状を含む学習画像及び教師データを例示したが、目標に関する情報が含まれない学習画像及び教師データからなる学習データを畳み込みニューラルネットワーク部11、31の学習に用いてもよい。目標に関する情報が含まれない学習データを用いた学習を行うことにより、畳み込みニューラルネットワーク部11、31による背景クラスに対する学習が行われて背景クラスの認識精度が向上する。2つ以上の目標の像が含まれる画像が学習画像として用いられてもよい。
上記の実施形態における目標認識装置と学習装置とは、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、CPUがプログラムを実行してもよい。CPUは、補助記憶装置に記憶されたプログラムを実行することにより、畳み込みニューラルネットワーク部、最尤クラス選択部、表示部、画像変形部、及び誤差算出部として機能してもよい。なお、目標認識装置と学習装置との各機能のすべて又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。
以上説明した少なくともひとつの実施形態によれば、入力画像から各ピクセルにおける目標に関する少なくとも1つのスコアを含むスコアマップを生成する畳み込みニューラルネットワーク部と、スコアマップに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標情報を取得する取得部(最尤クラス選択部12)とを持つことにより、画像に基づいた目標の検出における利便性を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…目標認識装置、2…学習装置、11,31…畳み込みニューラルネットワーク部、12…最尤クラス選択部、13…表示部、21…画像変形部、22…誤差算出部、111,311…エンコーダ部、112,312…デコーダ部、90…画像分類装置

Claims (11)

  1. 少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部と、
    前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部と、
    を備え、
    前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、前記目標の位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる、
    目標認識装置。
  2. 前記教師データは、前記目標の形状及び前面を示す情報を含む、
    請求項1に記載の目標認識装置。
  3. 前記取得部により取得された前記目標認識情報に基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを前記入力画像に重畳して出力する出力部、
    を更に備える請求項1又は請求項2に記載の目標認識装置。
  4. 前記取得部は、前記スコアマップに基づいて、前記目標における所定箇所の領域と、前記目標以外の背景の領域とのうち、いずれの領域であるかを前記入力画像のピクセルごとに判定して前記目標認識情報を取得する、
    請求項1から請求項3のいずれか一項に記載の目標認識装置。
  5. 前記学習画像における前記目標には種別の異なる複数の目標があり、
    前記教師データには前記学習画像における前記目標が前記複数の目標のいずれであるかを示す情報が含まれ、
    前記取得部は、前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す前記目標認識情報を取得する、
    請求項1に記載の目標認識装置。
  6. 前記取得部により取得された前記目標認識情報に基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを前記入力画像に重畳して出力する出力部、
    を更に備える請求項5に記載の目標認識装置。
  7. 前記取得部は、前記スコアマップに基づいて、前記複数の目標における所定箇所の領域と、前記複数の目標以外の背景の領域とのうち、いずれの領域であるかを前記入力画像のピクセルごとに判定して前記目標認識情報を取得する、
    請求項5又は請求項6に記載の目標認識装置。
  8. 前記畳み込みニューラルネットワークは、前記複数の畳み込みフィルタごとに前記入力画像を走査して前記入力画像の部分領域ごとに特徴量を算出し、算出される前記部分領域ごとの前記特徴量に基づいて前記入力画像の大きさと同じ大きさのスコアマップを生成する、
    請求項1に記載の目標認識装置。
  9. 目標認識装置による目標認識方法であって、
    少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データを用いた学習により得られた畳み込みニューラルネットワークを用いて、入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する第1のステップと、
    前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する第2のステップと、
    を含み、
    前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、前記目標の位置及び変更された向きとを組み合わせた新たな学習データ、及び、前記複数の学習データが用いられる、
    目標認識方法。
  10. 少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データ、及び、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、前記目標の位置及び変更された向きとを組み合わせた新たな学習データを用いた学習により得られる畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する畳み込みニューラルネットワーク部、
    前記スコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部、
    としてコンピュータを機能させるためのプログラム。
  11. 少なくとも一つの目標が撮像されている学習画像と、前記学習画像における前記目標の位置及び向きを示す教師データとを組み合わせた複数の学習データ、及び、前記複数の学習データのうち少なくとも一つの学習データに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習画像における前記目標の像を変形させた変形画像と、前記目標の位置及び変更された向きとを組み合わせた新たな学習データを用いた学習により得られ、
    入力画像から前記入力画像のピクセルごとの前記目標に関するスコアマップを生成する、
    畳み込みニューラルネットワーク。
JP2018005934A 2018-01-17 2018-01-17 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク Pending JP2019125203A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018005934A JP2019125203A (ja) 2018-01-17 2018-01-17 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018005934A JP2019125203A (ja) 2018-01-17 2018-01-17 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク

Publications (1)

Publication Number Publication Date
JP2019125203A true JP2019125203A (ja) 2019-07-25

Family

ID=67398853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018005934A Pending JP2019125203A (ja) 2018-01-17 2018-01-17 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク

Country Status (1)

Country Link
JP (1) JP2019125203A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555424A (zh) * 2019-09-10 2019-12-10 深圳前海微众银行股份有限公司 港口集装箱布局检测方法、装置、设备及可读存储介质
CN111640087A (zh) * 2020-04-14 2020-09-08 中国测绘科学研究院 一种基于sar深度全卷积神经网络的影像变化检测方法
JP2021082068A (ja) * 2019-11-20 2021-05-27 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2021182345A1 (ja) * 2020-03-13 2021-09-16
JP2023051757A (ja) * 2021-09-30 2023-04-11 ウーブン・アルファ株式会社 車両データ収集システム及びその使用方法
CN118628423A (zh) * 2024-08-14 2024-09-10 海底鹰深海科技股份有限公司 声纳图像的可视化处理方法、系统和计算装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555424A (zh) * 2019-09-10 2019-12-10 深圳前海微众银行股份有限公司 港口集装箱布局检测方法、装置、设备及可读存储介质
JP2021082068A (ja) * 2019-11-20 2021-05-27 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7437918B2 (ja) 2019-11-20 2024-02-26 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2021182345A1 (ja) * 2020-03-13 2021-09-16
WO2021182345A1 (ja) * 2020-03-13 2021-09-16 富士フイルム富山化学株式会社 学習データ作成装置、方法、プログラム、学習データ及び機械学習装置
JP7375161B2 (ja) 2020-03-13 2023-11-07 富士フイルム富山化学株式会社 学習データ作成装置、方法、プログラム、及び記録媒体
CN111640087A (zh) * 2020-04-14 2020-09-08 中国测绘科学研究院 一种基于sar深度全卷积神经网络的影像变化检测方法
JP2023051757A (ja) * 2021-09-30 2023-04-11 ウーブン・アルファ株式会社 車両データ収集システム及びその使用方法
JP7382465B2 (ja) 2021-09-30 2023-11-16 ウーブン・バイ・トヨタ株式会社 車両データ収集システム及びその使用方法
CN118628423A (zh) * 2024-08-14 2024-09-10 海底鹰深海科技股份有限公司 声纳图像的可视化处理方法、系统和计算装置

Similar Documents

Publication Publication Date Title
JP2019125203A (ja) 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク
JP2019152543A (ja) 目標認識装置、目標認識方法及びプログラム
JP2019125204A (ja) 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク
JP2019194821A (ja) 目標認識装置、目標認識方法及びプログラム
US8385630B2 (en) System and method of processing stereo images
CN107767358B (zh) 一种图像中物体模糊度确定方法和装置
CN111260655B (zh) 基于深度神经网络模型的图像生成方法与装置
CN112581462A (zh) 工业产品的外观缺陷检测方法、装置及存储介质
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN113920109A (zh) 医疗影像识别模型训练方法、识别方法、装置及设备
CN115995042A (zh) 一种视频sar运动目标检测方法及装置
CN110751157B (zh) 图像显著性分割、图像显著性模型训练方法及装置
CN116385281A (zh) 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法
CN115376118A (zh) 一种街景文字识别方法、系统、设备和介质
CN109242797B (zh) 基于均质和异质区域融合的图像去噪方法、系统及介质
CN114511702A (zh) 一种基于多尺度分权注意力的遥感图像分割方法和系统
CN112017113B (zh) 图像处理方法及装置、模型训练方法及装置、设备及介质
CN115270841A (zh) 条码检测方法、装置、存储介质及计算机设备
CN114842506A (zh) 一种人体姿态估计方法及系统
CN114972937A (zh) 一种基于深度学习的特征点检测与描述子生成方法
CN112884817B (zh) 稠密光流计算方法、装置、电子设备以及存储介质
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
Ikehata et al. Depth map inpainting and super-resolution based on internal statistics of geometry and appearance
Yuan et al. Single Image Defogging Method based on Deep Learning
CN115294295B (zh) 一种人体模型的构建方法、装置、电子设备及存储介质