JP2019152543A - 目標認識装置、目標認識方法及びプログラム - Google Patents

目標認識装置、目標認識方法及びプログラム Download PDF

Info

Publication number
JP2019152543A
JP2019152543A JP2018038076A JP2018038076A JP2019152543A JP 2019152543 A JP2019152543 A JP 2019152543A JP 2018038076 A JP2018038076 A JP 2018038076A JP 2018038076 A JP2018038076 A JP 2018038076A JP 2019152543 A JP2019152543 A JP 2019152543A
Authority
JP
Japan
Prior art keywords
target
class
score
map
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018038076A
Other languages
English (en)
Inventor
英俊 古川
Hidetoshi Furukawa
英俊 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Infrastructure Systems and Solutions Corp filed Critical Toshiba Corp
Priority to JP2018038076A priority Critical patent/JP2019152543A/ja
Publication of JP2019152543A publication Critical patent/JP2019152543A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Radar Systems Or Details Thereof (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置を提供する。【解決手段】実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。畳み込みニューラルネットワーク部は、畳み込みニューラルネットワークを用いて入力画像から入力画像の各ピクセルにおけるクラスごとのスコアを含む第1のスコアマップを生成する。取得部は、第1のスコアマップにおけるクラスのうち少なくとも2つのクラスを新たなクラスに統合した第2のスコアマップと、第1のスコアマップとに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する。【選択図】図1

Description

本発明の実施形態は、目標認識装置、目標認識方法及びプログラムに関する。
合成開口レーダ画像から抽出される目標画像に基づいて目標画像に撮像されている目標に対する尤もらしい目標クラスを推定する目標分類に、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が用いられている(非特許文献1、2)。畳み込みニューラルネットワークを用いた目標分類は、サポート・ベクター・マシンやアダブーストなどを用いた目標分類と比べて、高精度に目標クラスを推定することができる。
図15は、畳み込みニューラルネットワークを用いた画像分類装置90の構成例を示す図である。図15に示す画像分類装置90は、目標画像を入力し、目標画像に撮像されている目標に対する目標クラスの推定結果を出力する。推定結果は、予め定められた10個の目標クラスのうち、目標画像に撮像されている目標に対する尤もらしい目標クラスを示す。画像分類装置90は、第1ブロックから第6ブロックまでの6ブロックを有する。第1ブロックから第4ブロックまでが畳み込みブロックにより構成され、第5ブロック及び第6ブロックが全結合層(Fully Connected Layer)により構成されている。
画像分類装置90を用いることにより、目標画像に撮像されている目標に対する目標クラスの推定結果を得ることができる。しかし、画像分類装置90は、推定結果を出力する最終段(第6ブロック)及びその前段(第5ブロック)が全結合層として構成されているため、それらの入力数及び第1ブロックから第4ブロックまでの入力数が固定値となっている。すなわち、画像分類装置90へ入力する目標画像のサイズが固定されているため、画像分類装置90へ入力する目標画像を合成開口レーダ画像から抽出する必要がある。また、画像分類装置90は、目標画像全体から目標クラスを推定するため、複数の目標に対応できないという問題がある。更に、画像分類装置90から出力される推定結果は、10個の目標クラスそれぞれに対するスコア(確率に変換したスコアを含む)であるため、目標画像における目標の位置や向きを得ることができないという問題がある。
畳み込みニューラルネットワークは、目標画像に撮像されている目標に対する目標分類だけでなく、入力画像の各ピクセルを意味づけされたクラスに分類するセマンティック・セグメンテーションにも用いられている(非特許文献3)。非特許文献4に記載された技術は、合成開口レーダ画像から抽出された目標画像の目標領域とシャドウ領域との2つのクラスの輪郭線を検出している。目標領域は、目標から電波反射があったと推定された領域である。シャドウ領域は、目標から電波反射がないレーダシャドウと推定された領域である。各クラスに分類されたピクセルで示される輪郭線を示すことにより、目標の位置に関する情報を提示することができる。この技術を適用することにより、目標画像に撮像されている目標の位置に関する情報が得られる。しかし、検出した目標を目標領域とシャドウ領域の境界線で提示するため、光学画像におけるシルエット画像のようにユーザが認識しやすい目標の形状を提示できないという問題がある。また、目標の向きに関しては180度のあいまいさがあるため、目標の向きを特定することができないという問題がある。
非特許文献5には、合成開口レーダ画像のピクセルごとに目標領域とシャドウ領域とのいずれであるかをWD−CFAR(Wavelet Decomposition and a Constant False Alarm Rate)を用いて判定する技術が記載されている。この技術は、合成開口レーダ画像に撮像されている複数の目標の位置に関する情報を得ることができる。しかし、目標の形状を目標領域とシャドウ領域に分割して提示するため、ユーザが認識しやすい目標の形状を提示できないという問題と、目標の向きを特定することができないという問題がある。
以上のような問題があるため、画像に撮像された目標の検出及び姿勢推定を行う画像処理には、改善の余地がある。
Yu Zhong, and Gil Ettinger, "Enlightening Deep Neural Networks with Knowledge of Confounding Factors," [online], July 8, 2016, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1607.02397> 畑貴將、他3名、「B−2−50 深層学習による合成開口レーダ画像の目標類別」、電子情報通信学会総合大会 通信講演論文集1、2017年3月、p.225 Jonathan Long, Evan Shelhamer, and Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation," [online], Mar 8, 2015, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1411.4038> David Malmgren-Hansen, and Morten Nobel-Jorgensen, "Convolutional Neural Networks for SAR Image Segmentation," 2015 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT), December 2015, pp.231-236 Shiqi Huang, Wenzhun Huang, and Ting Zhang, "A New SAR Image Segmentation Algorithm for the Detection of Target and Shadow Regions," [online], December 7, 2016, [平成29年12月1日検索], インターネット<URL: https://www.nature.com/articles/srep38596> Qian Song, and Feng Xu, "Zero-Shot Learning of SAR Target Feature Space With Deep Generative Neural Networks," IEEE Geoscience and Remote Sensing Letters, volume 14, Issue 12 (2017): pp.2245-2249 Hidetoshi Furukawa, "Deep Learning for Target Classification from SAR Imagery: Data Augmentation and Translation Invariance," [online], August 26, 2017, [平成29年12月1日検索], インターネット<URL: https://arxiv.org/abs/1708.07920> Frank McFadden, "Precise estimation of pose for vehicles in MSTAR imagery," Proc. SPIE 6566, Automatic Target Recognition XVII, 65660V, May 2007 Hidetoshi Furukawa, "Deep Learning for End-to-End Automatic Target Recognition from Synthetic Aperture Radar Imagery," [online], January 25, 2018, [平成30年2月13日検索],インターネット<URL: https://arxiv.org/abs/1801.08558>
本発明が解決しようとする課題は、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる目標認識装置、目標認識方法及びプログラムを提供することである。
実施形態の目標認識装置は、畳み込みニューラルネットワーク部と、取得部と、を持つ。畳み込みニューラルネットワーク部は、畳み込みニューラルネットワークを有する。畳み込みニューラルネットワークは、少なくとも一つの目標が撮像されている学習データと、学習データにおける目標の位置及び形状を示すとともに形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られる。畳み込みニューラルネットワーク部は、畳み込みニューラルネットワークを用いて入力画像から入力画像の各ピクセルにおけるクラスごとのスコアを含む第1のスコアマップを生成する。取得部は、第1のスコアマップにおけるクラスのうち少なくとも2つのクラスを新たなクラスに統合した第2のスコアマップと、第1のスコアマップとに基づいて、入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する。
第1の実施形態による目標認識装置の構成例を示すブロック図。 第1の実施形態による畳み込みニューラルネットワーク部の構成例を示すブロック図。 目標認識装置の入力画像と出力データとの一例を示す図。 目標認識装置により行われる目標認識処理の動作例を示すフローチャート。 畳み込みニューラルネットワーク部の学習に用いられる学習装置の構成例を示すブロック図。 畳み込みニューラルネットワーク部の学習に用いられる学習データ及び教師データの一例を示す図。 学習装置の学習処理の動作例を示すフローチャート。 第2の実施形態による畳み込みニューラルネットワーク部の構成例を示す図。 第2の実施形態における畳み込みニューラルネットワーク部の学習に用いられる学習データ及び教師データの一例を示す図。 第2の実施形態における目標認識装置の入力画像と出力データとの一例を示す図。 第2の実施形態における目標認識装置の出力データの一例を示す図。 入力画像と最尤クラスマップとの一例を示す図。 第2の実施形態における目標認識装置の変形例の構成を示すブロック図。 第2の実施形態の変形例における目標認識処理の動作例を示すフローチャート。 畳み込みニューラルネットワークを用いた画像分類装置の構成例を示す図。
以下、実施形態の目標認識装置、目標認識方法及びプログラムを、図面を参照して説明する。
[第1の実施形態]
図1は、第1の実施形態による目標認識装置1の構成例を示すブロック図である。以下の実施形態では、同一の符号を付した構成要素は同様の動作を行うものとして、重複する説明を適宜省略する。目標認識装置1は、入力データとして任意の大きさの合成開口レーダ画像(以下、入力画像)を入力する。目標認識装置1は、入力画像に撮像されている目標の入力画像上の位置、形状及び向き(姿勢)を示す目標認識情報を入力画像から取得する。目標認識装置1は、取得した目標認識情報を出力データとして出力する。目標の向き(姿勢)は、目標の前面と後面の位置により表現される。目標認識装置1は、畳み込みニューラルネットワーク部11と、クラスマッピング部12と、最尤クラス選択部13(取得部)と、表示部14(出力部)とを備える。
ここで、目標のj(j={1,…,J})番目の姿勢クラスのスコアをs(j)、背景クラスのスコアをs(0)、いずれかの目標クラスのスコアをs(1)とすると、第1の実施形態における目標認識装置は、入力画像のピクセルごとに得られたスコアs(j)をマッピングすることにより、目標クラスのスコアs(1)を表すスコアマップを出力する。
畳み込みニューラルネットワーク部11は、入力画像を取得し、入力画像の各ピクセルに対する複数のスコアを示すスコアマップ(第1のスコアマップ)を生成し出力する。また、畳み込みニューラルネットワーク部11は、生成したスコアマップを目標認識情報としても出力する。スコアマップに含まれる複数のスコアは、入力画像の各ピクセルに対する、目標に関して予め定められたクラスごとのスコアと、目標が撮像されていない背景に関する背景クラスのスコアとである。例えば、目標を天頂方向から撮影した際の光学画像における目標のシルエットが矩形形状を有し、矩形形状を前面側と後面側との部分領域に分割する場合、目標の領域が前面側及び後面側の部分領域として定められる。前面側の部分領域を示す前面クラスと、後面側の部分領域を示す後面クラスと、目標以外の領域を示す背景クラスとのスコアが複数のスコアとして得られる。スコアは、畳み込みニューラルネットワーク部11において算出されるクラスごとの値であってもよいし、当該値をソフトマックス関数で変換することにより得られる確率などであってもよい。前述した3つのクラスそれぞれのスコアがピクセルに対して得られる場合、目標の前面クラス及び後面クラスと背景クラスとのうち、当該ピクセルに対して尤もらしい一つのクラスが複数のスコアに基づいて推定される。なお、尤もらしい一つのクラスとは、ピクセルに対する真値(Ground Truth)のクラスである確率が最も高いクラスである。
図2は、第1の実施形態による畳み込みニューラルネットワーク部11の構成例を示すブロック図である。畳み込みニューラルネットワーク部11は、入力画像における特徴量を算出するエンコーダ部111と、算出された特徴量から3クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部112とを備える。エンコーダ部111は、畳み込みニューラルネットワーク部11に入力される入力画像に対して、畳み込みフィルタ処理とマックスプーリング処理とを繰り返し行い、前述の3つのクラスそれぞれに対応する特徴量を算出する。デコーダ部112は、エンコーダ部111により算出される特徴量を、入力画像の大きさと同じ大きさのスコアマップに復元する。
エンコーダ部111は、6つの畳み込みブロックを組み合わせた構成を有する。第1ブロックは、3×3のカーネルサイズを有する32通りの畳み込みフィルタで、ゼロパディングが行われた入力画像のピクセル値を畳み込み、畳み込みにより算出される値を正規化線形関数(rectified linear unit (ReLU))で出力値に変換する抽出処理を行う。更に、第1ブロックは、抽出処理で得られた複数の出力値で構成される特徴量を3×3のカーネルサイズを有する32通りの畳み込みフィルタで畳み込み、畳み込みにより算出される値を正規化線形関数(ReLU)で出力値に変換する。すなわち、第1ブロックは、抽出処理で入力画像から得られた特徴量に対して再度の抽出処理を行う。第1ブロックは、2回の抽出処理で得られた特徴量に対して2×2のカーネルサイズでストライドが2×2のマックスプーリング処理を行い、特徴量の縦・横サイズを各2分の1に圧縮する。第1ブロックは、圧縮した特徴量を第2ブロックへ出力する。なお、第1ブロックのマックスプーリング処理を行わずに、次の第2ブロックの畳み込みフィルタのストライドを2×2にすることにより、第1ブロックにより出力される特徴量に対し、縦・横サイズが各2分の1の特徴量を得るように構成することもできる。
第2ブロックから第4ブロックにおいても、第1ブロックと同様に2回の抽出処理とマックスプーリング処理とが行われる。ただし、第2、第3及び第4ブロックにおける抽出処理では、64通り、128通り及び256通りの畳み込みフィルタがそれぞれ用いられる。
第5ブロックでは、ゼロパディング後の入力画像の大きさに対して縦・横が各16分の1(=(1/2))の大きさであって各ピクセルが特徴量で構成される特徴マップに対して、6×6のカーネルサイズを有する512通りの畳み込みフィルタそれぞれで畳み込み、畳み込みにより算出される値を正規化線形関数(ReLU)で出力値に変換する。第5ブロックは、学習時のバックプロパゲーションにおける過学習を低減するために、第5ブロックと第6ブロックとの接続の一部をランダムに一時的に切断するドロップアウト(Dropout)層を備える。
第6ブロックでは、1×1のカーネルサイズを有する3通りの畳み込みフィルタで、ピクセルごとに各クラスに対応する3つの特徴量を算出し、1ピクセルあたり3つの特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部112へ出力される。
デコーダ部112は、畳み込みニューラルネットワーク部11における第7ブロックを有する。第7ブロックは、32×32のカーネルサイズでストライドが16×16の3通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み(Transposed Convolution)を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。特徴マップの大きさと入力画像の大きさとの差は、各ブロックにおける畳み込みフィルタを用いた処理の前に行われるゼロパディングなどにより生じる。32×32のカーネルサイズを有する3通りの畳み込みフィルタは、目標の前面クラスと後面クラスと背景クラスとからなる3つのクラスにそれぞれ対応している。デコーダ部112は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部112から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、3つのクラスそれぞれに対応する3つのスコアを有する。
畳み込みニューラルネットワーク部11における第1ブロックから第7ブロックまでの各ブロックにおける畳み込みフィルタの重み係数は、事前の学習によって定められる。畳み込みニューラルネットワーク部11は、畳み込みフィルタにて入力画像又は特徴マップを走査して、カーネルサイズの入力画像上又は特徴マップ上の部分領域の特徴量を算出するフィルタ処理と、マックスプーリング処理とを行う。畳み込みニューラルネットワーク部11には全結合層が存在しないため、畳み込みニューラルネットワーク部11は、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部11は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。
図1に戻り、目標認識装置1の構成の説明を続ける。クラスマッピング部12は、畳み込みニューラルネットワーク部11により生成されるスコアマップを入力する。クラスマッピング部12は、畳み込みニューラルネットワーク部11から出力されるスコアマップに基づいて、クラスに対し2つのマッピングを行う。一方のマッピングは、無変換マッピングである。無変換マッピングにおいて、クラスマッピング部12は、入力したスコアマップをそのまま出力する。
他方のマッピングは、畳み込みニューラルネットワーク部11から入力するスコアマップに含まれる3つのクラスのうち、目標の前面クラスと後面クラスとを1つのクラスに統合した目標クラスを新たなクラスとしてマッピングする。目標の姿勢を示す前面クラス及び後面クラスを新たな目標クラスに統合し、新たな目標クラスのスコアを各ピクセルにマッピングするマッピングを姿勢クラス統合マッピングという。クラスマッピング部12は、目標クラスのスコアを含むスコアマップ(第2のスコアマップ)を出力する。姿勢クラス統合マッピングにより、入力画像における各ピクセルを目標クラスと背景クラスとの2つのクラスに分類する畳み込みニューラルネットワークが出力するスコアマップと等価なスコアマップを得ることができる。また、クラスマッピング部12は、マッピングにより得られるスコアマップを目標認識情報としても出力する。
ここで、入力画像における各ピクセルの目標の前面クラス(j=1)と背面クラス(j=2)とのスコアをs(j)、背景クラスのスコアをs(0)とする。姿勢クラス統合マッピングにおいて、統合された目標クラスのスコアをs(1)、背景クラスのスコアをs(0)とした場合、クラスマッピング部12は、それぞれのスコアを、s(1)=f(s(1),s(2))、s(0)=s(0)により算出する。ここで、f(・)はスコアの変換関数であり、最大値や平均値等を求める関数をf(・)として用いることができる。
最尤クラス選択部13は、クラスマッピング部12により得られる2つのスコアマップを入力する。最尤クラス選択部13は、各ピクセルが属する可能性が最も高いクラスを最尤クラスとしてスコアマップごとに選択する。無変換マッピングにより得られるスコアマップにおいて、最尤クラス選択部13は、前面クラス、後面クラス及び背景クラスそれぞれのスコアに基づいて最尤クラスを選択する。姿勢クラス統合マッピングにより得られるスコアマップにおいて、最尤クラス選択部13は、目標クラスと背景クラスとのスコアに基づいて最尤クラスを選択する。最尤クラス選択部13は、入力されるスコアマップごとに最尤クラスを選択する。
それぞれのスコアマップにおいて、ピクセルの目標の前面クラス、後面クラス、目標の前面クラスと後面クラスとを統合した目標クラス又は背景クラスらしさが高くなるほどスコアが大きくなる場合、最尤クラス選択部13は、各スコアマップにおいて、最も高いスコアに対応するクラスを最尤クラスとしてピクセルごとに選択する。最尤クラス選択部13は、各ピクセルに対して選択した最尤クラスを示す最尤クラスマップをスコアマップごとに生成する。最尤クラス選択部13は、ピクセルごとに算出される各スコアをソフトマックス関数により確率に変換し、変換された確率のうち最も大きい確率に対応するクラスを最尤クラスとして選択してもよい。また、最尤クラス選択部13は、スコアマップからクラスごとのスコア(確率に変換したスコアを含む)を抽出することによりヒートマップを生成する。
また、最尤クラス選択部13は、各マッピングにより得られるスコアマップにおいてピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の位置、形状及び向きを特定する。例えば、最尤クラス選択部13は、姿勢クラス統合マッピングにより目標クラスが選択されたピクセルにて示される領域の重心を算出し、入力画像上における重心の位置を目標の位置と判定する。最尤クラス選択部13は、無変換マッピングにより目標の後面クラスが選択されたピクセルの領域の重心又は目標の位置(重心)から目標の前面クラスが選択されたピクセルの領域の重心へ向かう方向を、目標の向きとして算出する。入力画像に撮像されている目標の形状は、最尤クラスマップ上に現れる目標クラスが選択されたピクセルにて示される領域として得られる。最尤クラス選択部13は、姿勢クラス統合マッピング後の最尤クラスマップにおいて、目標クラスが選択されたピクセルにて示される領域が複数ある場合、入力画像に複数の目標が撮像されていたと判定し、目標ごとに位置、形状及び向きを算出する。最尤クラス選択部13は、算出した目標の位置、形状及び向きを示す目標検出情報を生成する。目標検出情報は、入力画像における目標の位置、形状及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部13は、生成した最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。
表示部14は、畳み込みニューラルネットワーク部11、クラスマッピング部12及び最尤クラス選択部13から目標認識情報を入力する。表示部14は、スコアマップに基づいて入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、最尤クラスマップに基づいて入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部14により行われる。表示部14は、ヒートマップにおけるスコアに応じて所定の色又はグレースケールの諧調を割り当てた各クラスのヒートマップを並べて表示してもよいし、ユーザに選択されたクラスのヒートマップを表示してもよい。また、表示部14は、目標検出情報に基づいて、目標の位置に目標の向きを示す図形(例えば矢印)を入力画像に重畳した画像を表示してもよい。
図3は、目標認識装置1の入力画像と出力データとの一例を示す図である。図3に示す入力画像は、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。入力画像には、4つの車両が目標として撮像されている。目標は、地表面(2次元平面)に射影した際に矩形となる形状を有しているが、シャドウ領域が存在するために入力画像における目標の像は矩形として現れていない。学習データセットを用いて事前に学習が行われた畳み込みニューラルネットワーク部11を備える目標認識装置1を用いることにより、図3に示す入力画像から図3に示す最尤クラスマップを出力データとして得ることができる。図3に示す出力データ#1は、無変換マッピングにより得られるスコアマップに基づいた最尤クラスマップである。図3に示す出力データ#2は、姿勢クラス統合マッピングにより得られるスコアマップに基づいた最尤クラスマップである。
図3に示す出力データ#1において、目標の形状を示す矩形の領域が前面クラスのピクセルと後面クラスのピクセルとの組み合わせにより示されている。目標認識装置1が前面クラスと後面クラスとを異なる階調で示すことにより、ユーザは目標の向きを視認しやすくなる。入力画像において識別された目標の前面と後面とをユーザが識別しやすいように、最尤クラスマップにおいて目標の前面クラスと後面クラスとの領域の表示に異なる階調が用いられている。図3に示す出力データ#1では、後面クラスの階調より濃い階調で前面クラスが示されている。図3に示す出力データ#1はグレースケール画像にて示されているが、最尤クラスマップをカラー画像として表示し、目標の前面側と後面側とを異なる色にてそれぞれ示してもよい。目標認識装置1は、後面クラスのピクセルに割り当てる色よりも輝度の高い色を前面クラスのピクセルに対して割り当て、ユーザが目標の向きを視認しやすくしてもよい。
表示部14は、図3に示す入力画像と出力データ#1、#2とを並べて表示したり、出力データ#1又は出力データ#2を入力画像に重畳して表示したりする。表示部14は、出力データを表示する際に、表示するピクセルに対応する最尤クラスを示す数値又はテキストを表示してもよい。最尤クラスを示す数値又はテキストは、当該最尤クラスが選択されたピクセルで構成される領域又はその領域の近傍に表示されてもよいし、ピクセルにおいて表示されている色又は階調との対応付けを示すように表示されてもよい。
図4は、目標認識装置1により行われる目標認識処理の動作例を示すフローチャートである。目標認識処理が開始されると、目標認識装置1は、目標検出の対象となる入力画像を入力する(ステップS101)。畳み込みニューラルネットワーク部11は、目標認識装置1に入力された入力画像を受け付け、学習データセットを用いた学習にて得られた各ブロックの畳み込みフィルタを用いて入力画像の各ピクセルに対するスコアを算出してスコアマップを生成する(ステップS102)。クラスマッピング部12は、畳み込みニューラルネットワーク部11により生成されたスコアマップを受け付け、無変換マッピングと姿勢クラス統合マッピングとを行い、各マッピングにより得られるスコアマップを生成する(ステップS103)。
最尤クラス選択部13は、クラスマッピング部12により生成された2つのスコアマップを受け付け、スコアマップにおける各クラスのスコアに基づいて最尤クラスを各ピクセルに対して選択する(ステップS104)。最尤クラス選択部13は、スコアマップごとに、最尤クラスの選択を行う。最尤クラス選択部13は、各ピクセルに対して選択した最尤クラスを示す2つの最尤クラスマップと、各クラスのヒートマップと、入力画像に撮像されている目標の位置、形状及び向きを示す目標検出情報とを生成する(ステップS105)。
最尤クラス選択部13は、生成した2つの最尤クラスマップ、各クラスのヒートマップ、及び目標検出情報を含む目標認識情報を表示部14へ出力し、目標認識情報を目標認識装置1の外部へ出力する。表示部14は、畳み込みニューラルネットワーク部11、クラスマッピング部12及び最尤クラス選択部13から受け付けた目標認識情報に基づいた表示を行い(ステップS106)、目標認識処理が終了する。目標認識装置1の外部へ出力される目標認識情報は、目標認識装置1の外部に設けられた記憶装置に記憶されたり、目標認識装置1が備えられる場所と異なる場所に設けられた装置へ通信網を介して送信されたりしてもよい。目標認識装置1は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)などの記憶装置を備え、目標認識情報を記憶装置に記憶させてもよい。
図5は、畳み込みニューラルネットワーク部11の学習に用いられる学習装置2の構成例を示すブロック図である。学習装置2は、目標が撮像されている画像を示す学習データと、学習データが示す画像に撮像されている目標の位置、形状及び向きを示す教師データとを組み合わせた複数の学習データセットを入力する。学習データが示す画像の大きさは、任意の大きさであり、目標識別処理における入力画像の大きさと同じであってもよいし、異なる大きさであってもよい。教師データは、学習データが示す画像上における目標の位置及び形状と、目標の前面側及び後面側の領域とを示す。例えば、教師データは、学習データが示す画像と同じ大きさの真値のスコアマップであり、学習データが示す画像のピクセルごとに前面クラスと後面クラスと背景クラスとのうち判定されるべき一つのクラスを示す。
学習装置2は、データ変形部21と、畳み込みニューラルネットワーク部11と、誤差算出部22とを備える。データ変形部21は、複数の学習データセットを入力する。データ変形部21は、外部の記憶装置に記憶されている複数の学習データセットを順次読み出すことにより学習データセットを入力してもよいし、外部の通信装置から学習データセットを順次受信することにより学習データセットを入力してもよい。データ変形部21は、入力される学習データセットごとに、学習データセットに含まれる学習データを畳み込みニューラルネットワーク部11へ出力し、学習データセットに含まれる教師データを誤差算出部22へ出力する。
また、データ変形部21は、入力する学習データセットだけでなく、学習データセットを変形(加工)することにより得られる新たな学習データセットを畳み込みニューラルネットワーク部11の学習に用いる。データ変形部21は、入力する学習データセットに含まれる教師データが示す目標の位置及び向きに変更を加え、変更した目標の位置及び向きに応じて学習データが示す画像における目標の像を変形させた変形学習データを生成することにより、新たな学習データセットを得る。例えば、学習データセットにおいて目標が学習データにより示される画像の中心に位置し、目標の前面が学習データの画像上側を向いている場合、データ変形部21は、目標の位置を学習データの画像の中心から所定の距離ずらし、目標の前面を学習データの画像の右側に向ける変形を教師データに加えて新たな教師データを生成する。更に、データ変形部21は、教師データに加えた変形に応じて、学習データの画像における目標の位置及び向きに変更を加えて変形学習データを生成する。
変更された教師データと当該変更に応じて目標の像を変形させた変形学習データとを含む新たな学習データセットも、畳み込みニューラルネットワーク部11の学習に用いられる。データ変形部21は、非特許文献6のGenerator DNNのように、学習データセットにおける目標の向きを所定角度ずつ変更して1回転させた複数の新たな学習データセットを1つの学習データセットから生成してもよい。
畳み込みニューラルネットワーク部11は、入力される学習データが示す画像のピクセルごとに、各クラスのスコアを示すスコアマップを生成し、生成したスコアマップを誤差算出部22へ出力する。誤差算出部22は、畳み込みニューラルネットワーク部11により生成されたスコアマップと、教師データから得られる真値のスコアマップとの差分を誤差として算出し、算出した誤差を畳み込みニューラルネットワーク部11とデータ変形部21とへ出力する。畳み込みニューラルネットワーク部11は、誤差を用いて、各ブロックにおける畳み込みフィルタの重み係数を学習する。学習には、例えば、確率的勾配降下法に基づく誤差逆伝播法などの公知の技術が用いられる。
図6は、畳み込みニューラルネットワーク部11の学習に用いられる学習データ及び教師データの一例を示す図である。図6に示す4つの学習データは、合成開口レーダにより得られた画像であり、受信した電波反射の強度をグレースケールの濃淡で示した画像である。図6に示す4つの学習データには、それぞれ1つの目標が撮像されている。学習データにおける目標の像は、シャドウ領域が存在するために矩形形状として現れていない。各学習データに対応する教師データにおいて、目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。地上での測定などにより得られた目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。なお、教師データにおいては、クラスが対応する数値で表現できていればよいが、ユーザによる確認が行いやすいように、インデックスカラー画像として保存するようにしてもよい。
図7は、学習装置2の学習処理の動作例を示すフローチャートである。学習処理が開始されると、学習装置2は、複数の学習データセットを入力する(ステップS201)。データ変形部21は、学習装置2に入力された複数の学習データセットごとに目標の向きを変更した新たな学習データセットを生成する(ステップS202)。1つの学習データセットから生成される新たな学習データセットの数は、入力画像において検出すべき目標の向きの精度などに応じて予め定められる。
データ変形部21は、入力された複数の学習データセットと生成した新たな学習データセットとから一つの学習データセットを選択する(ステップS203)。一つの学習データセットを選択する際に、データ変形部21は、選択された回数が最も少ない学習データセットを選択する。選択された回数が最も少ない学習データセットが複数ある場合、データ変形部21は、予め定められた順序で、又はランダムに複数の学習データセットからいずれか一つを選択する。
データ変形部21は、選択した学習データセットの学習データを畳み込みニューラルネットワーク部11へ出力し、選択した学習データセットの教師データを誤差算出部22へ出力する(ステップS204)。畳み込みニューラルネットワーク部11は、入力された学習データに対するスコアマップを生成し、生成したスコアマップを誤差算出部22へ出力する(ステップS205)。
誤差算出部22は、畳み込みニューラルネットワーク部11により生成されたスコアマップと、教師データにより示される真値のスコアマップとの誤差を算出する(ステップS206)。誤差算出部22は、算出した誤差を畳み込みニューラルネットワーク部11に出力する(ステップS207)。畳み込みニューラルネットワーク部11は、入力された誤差に基づいて各畳み込みフィルタの重み係数を更新して学習を行う(ステップS208)。
ステップS203からステップS208までの各ステップは、所定回数繰り返して行われる。繰り返し回数が所定回数に達すると、畳み込みニューラルネットワーク部11は、各畳み込みフィルタの重み係数を記憶するとともに、重み係数を外部へ出力し(ステップS209)、学習処理が終了する。なお、ステップS202の処理は、繰り返し回数ごとに、逐次処理として実施するように構成することができる。また、ステップS203からステップS208の処理は、2以上の学習データセットをまとめてバッチ処理として処理するように構成することができる。バッチ処理による学習を行う場合、学習の収束性能を向上させるために、バッチ正規化(batch Normalization)を適用しても良い。
学習処理において、ステップS203からステップS208までを所定回数繰り返すことに代えて、誤差算出部22により算出される誤差が所定値以下に集束するまで各ステップを繰り返してもよい。学習装置2において学習された畳み込みフィルタそれぞれの重み係数は、学習装置2の内部又は外部に設けられた記憶装置に記憶されてもよい。記憶された重み係数を目標認識装置1に備えられる畳み込みニューラルネットワーク部11が取得して、目標認識処理を行ってもよい。また、目標認識装置1と学習装置2とを一つの装置として構成してもよい。
畳み込みニューラルネットワーク部11における各畳み込みフィルタの重み係数を得る学習において、学習データが示す画像の大きさはどのような大きさであってもよい。前述のように、畳み込みニューラルネットワーク部11は、畳み込みフィルタにて入力画像又は特徴マップを走査して特徴量を算出するフィルタ処理とマックスプーリング処理とにより構成されているため、学習データが示す画像の大きさに関わらず、学習を行うことができる。また、学習データが示す画像の大きさは、目標認識処理における入力画像の大きさに依存せずに定めることができる。
第1の実施形態の目標認識装置1において、目標の前面クラス及び後面クラスと、背景クラスとを識別できるように、畳み込みニューラルネットワーク部11が学習を行う。このような学習により、目標認識装置1は、非特許文献1、2などに記載されている畳み込みニューラルネットワークを用いた目標分類では行えない、入力画像における1つ以上の目標の検出と、検出した目標の位置、形状及び向きの提示とを行える。また、非特許文献4に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献5に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するWD−CFARでは行えない、入力画像における1つ以上の目標の向きに関する情報を目標認識装置1は提示できる。目標認識装置1が目標に関する情報を提示することにより、入力画像における目標の検出及び姿勢推定における利便性を向上させ、目標の視認性を向上させることができる。
更に、非特許文献7に記載されているように、非特許文献1、2などに記載されている畳み込みニューラルネットワークは、目標画像における目標の位置が中心からシフトするにつれ、その分類性能が低下する。これに対して、シャドウ領域の影響を受けずに複数の目標の位置を正確に検出できる第1の実施形態の目標認識装置1からの目標認識情報を用いて、画像から目標画像を抽出することにより、目標分類を行う畳み込みニューラルネットワークの目標分類性能を低下させないようにすることができる。また、非特許文献8に記載されているように、目標の向きに180度のあいまいさがあるものの、目標の向き(角度)を精度よく推定できる方法と組み合わせることにより、180度のあいまいさがない目標の向き(角度)を精度よく推定することができる。
R−CNN、Faster R−CNN等の目標検出を行う従来のニューラルネットワークは出力の前段に全結合層を有しているので、入力画像を一定の大きさにスケーリングする必要がある。入力画像をスケーリングした場合、入力画像の縮小や縦横比の変化などにより目標の認識精度が劣化してしまう。これに対して、第1の実施形態の目標認識装置1は、入力画像の大きさを一定にする必要がなく、任意の大きさの入力画像に対して目標認識処理を行えるため、目標の認識精度を劣化させることなく様々な大きさの入力画像を扱うことができる。また、目標認識装置1への入力画像を得るために、合成開口レーダ画像から入力画像を抽出する必要がないため、ユーザの利便性を向上させることができる。
目標認識装置1は、クラスマッピング部12を備えることにより、目標クラスと背景クラスとの各ピクセルのスコアを含むスコアマップを得ることができる。目標認識装置1は、複数の畳み込みニューラルネットワークを備えずとも、異なるクラス分けに応じたスコアマップを得ることができる。
[第2の実施形態]
第2の実施形態における目標認識装置は、第1の実施形態の目標認識装置1と同様に、入力データとして合成開口レーダ画像(以下、入力画像)を入力し、入力画像から目標認識情報を取得し、取得した目標認識情報を出力データとして出力する。第2の実施形態における目標認識装置が出力する目標認識情報に含まれる目標検出情報は、撮像されている目標の入力画像上の位置、形状及び向きに加えて、目標の種別を示す。第2の実施形態においても、第1の実施形態と同様に、各マッピングにより得られるスコアマップに基づく最尤クラスマップを目標認識装置が出力する。
ここで、i番目の種別を示す目標クラスのj番目の姿勢クラスのスコアをs(i,j)、いずれかの目標クラスのスコアをs(1)、i番目の種別を示す目標クラスのスコアをs(i)、j番目の姿勢クラスのスコアをs(j)とすると、第2の実施形態における目標認識装置は、入力画像のピクセルごとに得られたs(i,j)をマッピングすることにより、スコアs(1)、s(i)及びs(j)を表すスコアマップを出力する。
図8は、第2の実施形態による畳み込みニューラルネットワーク部31の構成例を示す図である。第2の実施形態における目標認識装置は、畳み込みニューラルネットワーク部11に代えて、畳み込みニューラルネットワーク部31を備える。畳み込みニューラルネットワーク部31が生成し出力するスコアマップは、10種類の目標の種別ごとに前面クラス及び後面クラスと、背景を示す背景クラスとからなる21クラスのスコアをピクセルごとに含む。また、畳み込みニューラルネットワーク部31は、生成したスコアマップを目標認識情報としても出力する。畳み込みニューラルネットワーク部11が3クラスのスコアを算出していたのに対して、第2の実施形態の目標認識装置は、21クラスのスコアをピクセルごとに算出する。畳み込みニューラルネットワーク部31は、入力画像における特徴量を算出するエンコーダ部311と、算出された特徴量から21クラスそれぞれのスコアを入力画像のピクセルごとに算出するデコーダ部312とを備える。
エンコーダ部311において第6ブロックの構成が、第1の実施形態のエンコーダ部111の第6ブロックの構成と異なる。エンコーダ部311の第6ブロックでは、1×1のカーネルサイズを有する21通りのフィルタで、ピクセルごとに各クラスに対応する21個の特徴量を算出し、1ピクセルあたり21個の特徴量を有する特徴マップが生成される。生成された特徴マップは、デコーダ部312へ出力される。
デコーダ部312は、畳み込みニューラルネットワーク部31における第7ブロックを有する。第7ブロックは、32×32のカーネルサイズでストライドが16×16の21通りの畳み込みフィルタで、入力される特徴マップに対して転置畳み込み(Transposed Convolution)を行う。転置畳み込みにより、入力される特徴マップは、入力画像の大きさよりも少し大きなスコアマップに変換される。32×32のカーネルサイズを有する21通りの畳み込みフィルタは、10種類の目標の前面及び後面クラスと背景クラスとからなる21クラスにそれぞれ対応している。デコーダ部312は、入力画像と同じ大きさを有するスコアマップを切り出し出力する。デコーダ部312から出力されるスコアマップの各ピクセルは、入力画像における同位置のピクセルに対応し、21クラスそれぞれに対応する21個のスコアを有する。
畳み込みニューラルネットワーク部31は、第1の実施形態の畳み込みニューラルネットワーク部11と同様に、全結合層を有しないため、入力画像の大きさに関わらず、特徴マップ及びスコアマップを算出できる。畳み込みニューラルネットワーク部31は、各ブロックにおける畳み込みフィルタのカーネルサイズ及びストライドと入力画像の大きさとに応じて、畳み込み処理及びマックスプーリング処理を行う前に入力画像又は特徴マップに対してゼロパディングを行ってもよい。
第2の実施形態におけるクラスマッピング部12は、畳み込みニューラルネットワーク部31により生成されるスコアマップを入力し、このスコアマップのクラスに対して4つのマッピングを行う。4つのマッピングは、無変換マッピング、目標・姿勢クラス統合マッピング、姿勢クラス統合マッピング、目標クラス統合マッピングである。
無変換マッピングでは、クラスマッピング部12は、畳み込みニューラルネットワーク部31から出力されるスコアマップをそのまま出力する。
目標・姿勢クラス統合マッピングでは、クラスマッピング部12は、目標種別と目標姿勢との組み合わせで表される種別ごとの前面クラス及び後面クラスを新たな1つの目標クラスに統合する。クラスマッピング部12は、統合により得られた目標クラスのスコアと、背景クラスのスコアとを各ピクセルにマッピングしたスコアマップを出力する。
姿勢クラス統合マッピングでは、クラスマッピング部12は、目標の種別ごとに前面クラスと後面クラスとを統合し、10種類の目標クラスそれぞれのスコアと、背景クラスのスコアとを各ピクセルにマッピングしたスコアマップを出力する。
目標クラス統合マッピングでは、クラスマッピング部12は、種別の異なる目標それぞれの前面クラスを1つの前面クラスに統合し、種別の異なる目標それぞれの後面クラスを1つの後面クラスに統合する。クラスマッピング部12は、統合された前面クラス及び後面クラスそれぞれのスコアと、背景クラスのスコアとを各ピクセルにマッピングしたスコアマップを出力する。
また、クラスマッピング部12は、マッピングにより得られるスコアマップを目標認識情報としても出力する。クラスマッピング部12が、無変換マッピングに加えて前述の3つのマッピングを行うことにより、複数の畳み込みニューラルネットワークを用意することなく、後段における位置、姿勢推定等のそれぞれの処理に適したスコアマップを出力することができ、後段の処理の推定性能を向上させることができる。
ここで、入力画像における各ピクセルのi(i={1,…,10})番目の種別の目標に対する前面クラス(j=1)と背面クラス(j=2)とのスコアをs(2(i−1)+j)=s(i,j)、背景クラスのスコアをs(0)とする。目標・姿勢クラス統合マッピングにおいて、統合された目標クラスのスコアをs(1)、背景クラスのスコアをs(0)とすると、それぞれのスコアは、s(1)=f(s(1),…,s(20))、s(0)=s(0)により算出される。ここで、f(・)はスコアの変換関数であり、最大値や平均値等を求める関数をf(・)として用いることができる。
また、姿勢クラス統合マッピングにおいて、姿勢クラスを統合したi番目の目標クラスのスコアをs(i)、背景クラスのスコアをs(0)とすると、それぞれのスコアは、s(i)=f(s(2i−1),s(2i))、s(0)=s(0)により算出される。更に、目標クラス統合マッピングにおいて、目標クラスを統合したj番目の姿勢クラスのスコアをs(j)、背景クラスのスコアをs(0)とすると、それぞれのスコアは、s(1)=f(s(1),s(3),…,s(19))、s(2)=f(s(2),s(4),…,s(20))、s(0)=s(0)により算出される。
第2の実施形態における最尤クラス選択部13は、クラスマッピング部12から入力した4つのスコアマップごとに各ピクセルの最尤クラスを選択する。最尤クラスは、スコアマップのクラスから真値のクラスである可能性が最も高いクラスである。最尤クラス選択部13は、各ピクセルに対して選択したクラスを示す最尤クラスマップをスコアマップごとに生成する。また、最尤クラス選択部13は、各スコアマップからクラスごとのスコア(確率に変換したスコアを含む)を抽出することによりヒートマップを生成する。
また、最尤クラス選択部13は、各マッピングにより得られるスコアマップにおいてピクセルごとに選択した最尤クラスに基づいて、入力画像に撮像されている目標の種別、位置、形状及び向きを特定する。例えば、最尤クラス選択部13は、姿勢クラス統合マッピングにより得られるスコアマップの中から最尤クラスが最も多い目標クラスを目標の種別とする。また、第1の実施形態における姿勢クラス統合マッピングと無変換マッピングとの代わりに、目標・姿勢クラス統合マッピングと目標クラス統合マッピングとを用いることにより、第1の実施形態と同様に、入力画像上における目標の位置及び向きを算出する。更に、入力画像に撮像されている目標の形状は、最尤クラスマップ上に現れる目標クラスが選択されたピクセルにて示される領域として得られる。最尤クラス選択部13は、入力画像において複数の目標が撮像されていると判定した場合、目標ごとに種別、位置、形状及び向きを算出する。最尤クラス選択部13は、算出した目標の種別、位置、形状及び向きを示す目標検出情報を生成する。第2の実施形態における目標検出情報は、入力画像における目標の種別、位置、形状及び向きを示す数値又はテキストのいずれか一方又は両方を含む。最尤クラス選択部13は、生成した4つの最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を目標認識情報として出力する。
第2の実施形態における表示部14は、畳み込みニューラルネットワーク部31、クラスマッピング部12及び最尤クラス選択部13から目標認識情報を入力する。表示部14は、第1の実施形態と同様に、入力画像のピクセルごとに各クラスのスコアそれぞれを表示したり、入力画像のピクセルごとに最尤クラスを示すラベルデータを表示したりする。最尤クラスに予め対応付けられた色又は階調でピクセルを表示したり、最尤クラスを示すテキストをピクセルに対応付けて表示したりすることにより、ラベルデータの表示が表示部14により行われる。表示部14は、各クラスのヒートマップを表示したり、目標検出情報に基づいて目標の位置に目標の向きを示す図形(例えば矢印)を入力画像に重畳した画像を表示したりする。
畳み込みニューラルネットワーク部31の学習は、第1の実施形態の畳み込みニューラルネットワーク部11と同様に、図5に示した学習装置2によって行われる。第2の実施形態における目標認識装置は、第1の実施形態の目標認識装置1と異なり、目標の位置、形状及び向きに加え、目標の種別を識別するため、目標の種別を含む学習データセットが用いられる。
図9は、第2の実施形態における畳み込みニューラルネットワーク部31の学習に用いられる学習データ及び教師データの一例を示す図である。図9に示す4つの学習データは、合成開口レーダにより得られた画像である。各学習データに撮像されている目標の種別は異なる。学習データにおける目標の像は、図3に示した学習データと同様に、シャドウ領域が存在するために矩形形状として現れていない。各学習データに対応する教師データには、種別の異なる目標の前面クラスと後面クラスと背景クラスとが異なる階調の表示により示されている。各教師データにおいて、目標の矩形形状が、目標の前面クラスと後面クラスとの領域を組み合わせた領域により示されている。図9に示す教師データには、全21クラスのうち、4つの前面クラス、4つの後面クラス及び1つの背景クラスからなる9つのクラスが含まれている。
図10、図11は、第2の実施形態における目標認識装置の入力画像と出力データとの一例を示す図である。入力画像は、学習データと同様に、合成開口レーダにより得られた画像である。図10に示す出力データ#1、#2と、図11に示す出力データ#3、#4とは、前述の4つのマッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ#1は、無変換マッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ#2は、目標・姿勢クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ#3は、姿勢クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップである。出力データ#4は、目標クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップである。
出力データ#1には、目標の種別ごとの前面クラス及び後面クラスに割り当てられた階調の組み合わせにより目標の種別、位置及び形状が示されている。出力データ#1において、左上の目標の種別と右下の目標の種別とは同じであるため、同じ階調の組み合わせにて目標の領域が示されている。左上及び右下の2つの目標の種別と他の2つの目標の種別とは異なるため、各目標の前面クラス及び後面クラスを示す階調が異なっている。
出力データ#2には、1つの目標クラスに割り当てられた階調により目標の位置及び形状が示されている。出力データ#3には、目標の種別ごとに割り当てられた階調にて目標の種別、位置及び形状が示されている。出力データ#4には、前面クラスと後面クラスとのそれぞれに割り当てられた階調により目標の位置及び形状が示されている。
図10及び図11に示す最尤クラスマップのように、背景クラスの階調と異なる階調にて前面クラス、後面クラス及び目標クラスを表示することにより、入力画像における目標の有無をユーザが視認しやすくなる。また、目標の種別ごとに前面クラス及び後面クラスに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の種別をユーザが視認しやすくなる。また、前面クラスと後面クラスとに対して異なる階調を割り当てることにより、入力画像に撮像されている目標の向きをユーザが視認しやすくなる。このように、非特許文献4に記載されている目標画像から目標領域とシャドウ領域の輪郭線を推定する畳み込みニューラルネットワークや、非特許文献5に記載されている合成開口レーダ画像から目標領域とシャドウ領域を推定するWD−CFARでは行えない、入力画像における1つ以上の目標の向き及び種別に関する情報を第2の実施形態の目標認識装置は提示できる。
なお、表示部14は、目標の種別、位置、形状及び向きを階調で示すだけでなく、テキストや図形にて示してもよい。最尤クラスマップは、グレースケールに代えて、カラーで表示されてもよい。最尤クラスマップがカラーで表示される場合、目標の各種別に対応する前面クラス及び後面クラスと、背景クラスとのそれぞれが異なる色にて表示される。
以上説明した、第1及び第2の実施形態における目標認識装置によれば、電波反射の強度をグレースケールの階調で示した合成開口レーダにより得られた画像において、目標の有無、目標がある場合は目標の位置、形状及び向きに関する情報(例えば図3、図10、図11における最尤クラスマップ)をユーザに提示することができる。電波反射の強度を可視化した画像において、得られる目標の像が人の視認する可視光画像と異なるため、目標を識別することはユーザにとって容易でない場合がある。目標認識装置は、目標の位置、形状及び向きに関する情報を提示することにより、合成開口レーダの画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。また、第2の実施形態における目標認識装置によれば、目標の種別に関する情報を更に提示することができ、目標の検出及び分類における利便性を向上させることができる。更に、目標クラス統合マッピングにより得られるスコアマップから生成される最尤クラスマップを用いることにより、目標形状を非特許文献9に記載されているように目標クラスと姿勢クラス(目標の前面クラス)に分割した場合よりも、姿勢クラスの性能を向上させることができる。
なお、表示部14は、最尤クラスマップ又はヒートマップを表示するだけでなく、最尤クラスマップとヒートマップと入力画像とを並べて表示してもよい。入力画像(合成開口レーダの画像)と最尤クラスマップとヒートマップとを並べて表示することにより、入力画像における目標の像に対するユーザの視認性を向上させることができる。表示部14は、入力画像と最尤クラスマップとヒートマップとに加えて、畳み込みニューラルネットワーク部の学習に用いた学習データのうち、少なくとも一つの学習データが示す画像を表示してもよい。表示部14が学習データの画像と出力データとを同時に表示することにより、検出された目標の形状と目標の真値の形状とを比較することができる。
また、最尤クラスマップ又はヒートマップにおける目標の形状が、学習データ又は教師データにおける目標の形状と大きく異なる場合、最尤クラスマップ又はヒートマップは、入力画像における目標の認識に対する精度が低いことを示しているとみなすことができる。図12は、入力画像と最尤クラスマップとの一例を示す図である。図12に示す最尤クラスマップにおいて、前面クラス又は後面クラスで示される領域のうち、教師データにおける目標の形状(例えば、図9に示した教師データにおける目標の形状)と大きく異なる領域に対する信頼性が低いとみなすことができる。ユーザは、目標識別装置から出力される最尤クラスマップにおける目標の形状に基づいて、最尤クラスマップに対する信頼性に関する情報を得ることができる。
また、第1及び第2の実施形態における目標認識装置は、目標の向きが異なる場合それぞれにおける目標の形状を学習しているため、遮蔽等により目標の像の一部が欠けている入力画像であっても目標の位置、形状及び向きに関する情報を得ることができる。
畳み込みニューラルネットワーク部11、31の学習において、与えられる学習データセットに基づいて新たな学習データセットを生成し、与えられる学習データセットと新たな学習データセットとの両方を用いた学習が行われる。学習データを変形させて新たな学習データセットを生成することにより、学習データセットを生成するユーザの負担が軽減されるとともに、学習の効率が高まるので目標の認識精度を向上させることができる。
上記の実施形態では、入力データ及び学習データが合成開口レーダ画像である場合について説明したが、目標認識装置の入力データ及び学習データはこれに限定されない。例えば、干渉合成開口レーダ(Interferometric SAR: InSAR)や、逆合成開口レーダ(Inverse Synthetic Aperture Rader: ISAR)、ソナーなどの、電波や音波、レーダ光や赤外光などの反射強度に基づいて生成された画像を、目標認識装置の入力データ及び学習データとしてもよい。また、一般的な写真画像を目標認識装置の入力データ及び学習データとしてもよい。
畳み込みニューラルネットワーク部11、31によりスコアが算出されるクラスの数は、実施形態における3、21に限定されない。入力画像において検出すべき目標に関するクラスの数に応じて、スコアが算出されるクラスの数が定められる。畳み込みニューラルネットワーク部におけるエンコーダ部の最終ブロックの畳み込みフィルタの数と、デコーダ部における転置畳み込みを行う畳み込みフィルタの数とが、定められたクラスの数に応じて決定される。
デコーダ部112、312は、特徴マップからスコアマップを生成する際に、特徴マップに対する転置畳み込み処理に代えて、アンプーリング(Unpooling)及び畳み込みを組み合わせた処理を所定回数繰り返してもよい。エンコーダ部111、311において6つのブロックのネットワークを組み合わせた構成例を説明したが、エンコーダ部111、311の構成は図2及び図8に示した構成例に限定されず、任意の数の隠れ層を備えてもよい。
畳み込みフィルタのカーネルサイズやストライド、第1〜第7ブロックにおける畳み込みフィルタの数(抽出する特徴量)についても同様に、図2及び図8に示した構成例に限定されない。エンコーダ部111、311は、任意の大きさの入力画像に対して特徴マップを生成できる構成を有していればよい。デコーダ部112、312は、エンコーダ部111、311から出力される特徴マップから、学習された畳み込みフィルタの重み係数に基づいて入力画像と同じ大きさを有するスコアマップを生成できる構成を有していればよい。
上記の実施形態では、デコーダ部112、312が、入力画像の大きさと同じ大きさのスコアマップを生成する場合について説明したが、第7ブロックにおける特徴マップに対する転置畳み込み処理において入力画像の大きさと異なるサイズのスコアマップを生成してもよい。また、スコアマップを目標認識情報として外部へ出力してもよい。
最尤クラス選択部13は、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報を含む目標認識情報に代えて、最尤クラスマップ、各クラスのヒートマップ及び目標検出情報の少なくとも一つを目標認識情報として出力してもよい。表示部14は、最尤クラスマップ、各クラスのヒートマップ又は目標検出情報に基づいて、検出された目標の輪郭を示す画像を生成して表示してもよい。
図6及び図9において、目標の像、位置及び形状を含む学習データ及び教師データを例示したが、目標に関する情報が含まれない学習データ及び教師データからなる学習データセットを畳み込みニューラルネットワーク部11、31の学習に用いてもよい。目標に関する情報が含まれない学習データセットを用いた学習を行うことにより、畳み込みニューラルネットワーク部11、31による背景クラスに対する学習が行われて背景クラスの認識精度が向上する。2つ以上の目標の像が含まれる画像が学習データとして用いられてもよい。
(第2の実施形態の変形例)
第2の実施形態において、姿勢クラス統合マッピング、目標クラス統合マッピング及び目標・姿勢クラス統合マッピングにより、ピクセルごとにクラスのスコアをそれぞれのクラスにマッピングした後、最尤クラスを選択する構成について説明した。しかし、クラスのスコアの変換関数f(・)として最大値を求める関数を用いる場合、ピクセルごとにクラスのスコアの最尤クラスを選択した後、最尤クラス(のインデックス)を姿勢クラス統合、目標クラス統合及び目標・姿勢クラス統合の最尤クラス(のインデックス)にマッピングするように構成してもよい。
図13は、第2の実施形態の変形例における目標認識装置3の構成例を示すブロック図である。目標認識装置3は、畳み込みニューラルネットワーク部31と、最尤クラス選択部13と、クラスマッピング部15と、表示部14とを備える。目標認識装置3において、クラスマッピング部12に代えてクラスマッピング部15が備えられること、及び、クラスマッピング部15が最尤クラス選択部13の後段に備えられることが目標認識装置1の構成と異なる。
図14は、図13に示した目標認識装置3により行われる目標識別処理の動作例を示すフローチャートである。図14におけるステップS101、S102、S104、S105、S106の動作は、図4に示したフローチャートにおける動作と同じであるので、その説明を省略する。ステップS104における最尤クラスの選択が行われた後に、前述のようにステップS107におけるクラスのマッピングが行われる。
目標認識装置3の最尤クラス選択部13は、ピクセルのk(k={0,1,…,2I})番目のクラスのスコアをs(k)、最尤クラスのインデックスをkmaxとすると、kmax=argmax(s(0),…,s(2I))により最尤クラスのインデックスを得る(ステップS104)。ここで、i(i={1,…,I})番目の目標クラスが{2i−1,2i}、目標の前面クラスが2I以下の奇数の{1,…,2I−1}、目標の後面クラスが2以上2I以下の偶数の{2,…,2I}であるとする。目標認識装置3のクラスマッピング部15は、ステップS107において、姿勢クラス統合マッピングでは、kmaxが0であれば背景クラス、そうでなければfloor((kmax+1)/2)番目の目標クラスにマッピングする。ここで、floor(・)は、床関数を示す。また、目標クラス統合マッピングでは、kmaxが0であれば背景クラス、kmaxが1以上の奇数であれば目標の前面クラス、kmaxが1以上の偶数であれば目標の後面クラスにマッピングする。同様に、目標・姿勢クラス統合マッピングでは、kmaxが0であれば背景クラス、そうでなければ目標クラスにマッピングする。
なお、上記は、目標認識装置3の最尤クラス選択部13とクラスマッピング部15との処理の一例であり、インデックスの対応関係やマッピング処理の内容は、変更することができる。複数の目標の種別を複数のグループに分ける対応関係が予め定められている場合、複数の種別の目標を1つの目標クラスにマッピングすることに代えて、対応関係に基づいて目標の種別をグループに対応する目標クラスにマッピングしてもよい。例えば、10種の種別の目標それぞれに対して目標クラスが定められている場合、クラスマッピング部15は、10種の種別を2つのグループ(A型目標クラス、B型目標クラス)にマッピングしてもよい。目標・姿勢クラス統合マッピング及び目標クラス統合マッピングにおいては、10種の目標クラスが2つの異なる目標クラスに統合される。目標認識装置3は、複数の目標の種別を複数のグループに分ける対応関係を示すテーブルを記憶する記憶部を備えてもよい。
各実施形態において、目標の姿勢クラスとして、前面クラスと後面クラスとの2つが定められている場合について説明したが、他のクラスが定められてもよい。例えば、側面クラス、右側面クラス、左側面クラスなどが定められてもよい。また、目標の姿勢クラスにおいて3つ以上のクラスが定められる場合、目標の種別をグループ化するのと同様に、3つ以上の姿勢クラスを2つ以上のクラスに分けるグループ化が姿勢クラス統合マッピング及び目標・姿勢クラス統合マッピングにおいて行われてもよい。
このように、目標認識装置3では、姿勢クラス統合マッピング、目標クラス統合マッピング及び目標・姿勢クラス統合マッピング等の変換を行う場合でも、最尤クラス(のインデックス)を対象に処理を行うため、それぞれの変換に対応するスコアを算出する必要がない。このため、少ない演算量及び記億容量で処理を行うことができ、目標認識処理を高速化し、目標認識装置を小型化できる。
上記の実施形態における目標認識装置と学習装置とは、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、CPUがプログラムを実行してもよい。CPUは、補助記憶装置に記憶されたプログラムを実行することにより、畳み込みニューラルネットワーク部、最尤クラス選択部、表示部、データ変形部、及び誤差算出部として機能してもよい。なお、目標認識装置と学習装置との各機能のすべて又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。
以上説明した少なくともひとつの実施形態によれば、畳み込みニューラルネットワークを用いて入力画像から入力画像の各ピクセルにおけるクラスごとのスコアを含む第1のスコアマップを生成する畳み込みニューラルネットワーク部と、第1のスコアマップにおけるクラスのうち少なくとも2つのクラスを新たなクラスに統合した第2のスコアマップと、第1のスコアマップとに基づいて、入力画像に撮像されている少なくとも一つの目標の位置、形状及び向きを示す目標認識情報を取得する取得部(最尤クラス選択部)と、を持つことにより、画像に基づいた目標の検出及び姿勢推定における利便性を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1,3…目標認識装置、2…学習装置、11,31…畳み込みニューラルネットワーク部、12,15…クラスマッピング部、13…最尤クラス選択部、14…表示部、21…データ変形部、22…誤差算出部、111,311…エンコーダ部、112,312…デコーダ部、90…画像分類装置

Claims (11)

  1. 少なくとも一つの目標が撮像されている学習データと、前記学習データにおける前記目標の位置及び形状を示すとともに前記形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像の各ピクセルにおける前記クラスごとのスコアを含む第1のスコアマップを生成する畳み込みニューラルネットワーク部と、
    前記第1のスコアマップにおける前記クラスのうち少なくとも2つのクラスを新たなクラスに統合した第2のスコアマップと、前記第1のスコアマップとに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部と、
    を備える、目標認識装置。
  2. 前記第1のスコアマップにおける前記クラスごとのスコアから前記目標に関するスコアを算出し、算出したスコアを前記目標に関する前記新たなクラスのスコアとして各ピクセルにマッピングして前記第2のスコアマップを生成するクラスマッピング部、
    を更に備える、請求項1に記載の目標認識装置。
  3. 前記第1のスコアマップにおける各クラスのスコアに基づいて選択された前記入力画像の各ピクセルの最尤クラスを示す最尤クラスマップにおいて、各ピクセルの最尤クラスのうち少なくとも2つのクラスを前記新たなクラスに統合して前記第2のスコアマップを生成するクラスマッピング部、
    を更に備える、請求項1に記載の目標認識装置。
  4. 前記畳み込みニューラルネットワークを得る学習において、前記複数の学習データセットのうち少なくとも一つの学習データセットに含まれる前記教師データが示す前記目標の向きが変更され、変更された前記目標の向きに応じて前記学習データにおける前記目標の像を変形させた変形学習データと、目標の位置及び変更された向きとを組み合わせた新たな学習データセット、及び、前記複数の学習データセットが用いられる、
    請求項1から請求項3のいずれか一項に記載の目標認識装置。
  5. 前記目標の形状を分割した前記部分領域は、前記目標の前面側の領域と前記目標の後面側の領域とを含み、
    前記クラスマッピング部は、前記前面側の領域のスコアと前記後面側の領域のスコアとに基づいて、前記目標のスコアを算出し、算出したスコアを前記新たなクラスのスコアとしてマッピングして前記第2のスコアマップを生成する、
    請求項2に記載の目標認識装置。
  6. 前記学習データにおける前記目標には種別の異なる複数の目標があり、
    前記教師データには、前記学習データにおける前記目標の種別を示す情報が含まれ、
    前記取得部は、前記第1及び第2のスコアマップに基づいて、前記入力画像に撮像されている少なくとも一つの目標の種別、位置及び向きを示す目標認識情報を取得する、
    請求項2に記載の目標認識装置。
  7. 前記目標の形状を分割した前記部分領域は、前記目標の向きに応じて定められ、
    前記クラスマッピング部は、前記第1のスコアマップにおける前記種別及び前記部分領域の一方を分ける各グループの前記目標に関するスコアを算出し、算出した各スコアを前記目標に関する前記新たなクラスのスコアとして各ピクセルにマッピングして前記第2のスコアマップを生成する、
    請求項6に記載の目標認識装置。
  8. 前記目標の形状を分割した前記部分領域は、前記目標の前面側の領域と前記目標の後面側の領域とを含み、
    前記クラスマッピング部は、前記前面側の領域のスコアと前記後面側の領域のスコアとに基づいて、前記目標のスコアを前記種別ごとに算出し、算出した前記種別ごとのスコアを前記新たなクラスのスコアとして各ピクセルにマッピングして前記第2のスコアマップを生成する、
    請求項6に記載の目標認識装置。
  9. 前記目標の形状を分割した前記部分領域は、前記目標の前面側の領域と前記目標の後面側の領域とを含み、
    前記クラスマッピング部は、前記種別それぞれの前記前面側の領域のスコアに基づいて算出したスコアを新たな前面のクラスのスコアとしてマッピングし、前記種別それぞれの前記後面側の領域のスコアに基づいて算出したスコアを新たな後面のクラスのスコアとしてマッピングして前記第2のスコアマップを生成する、
    請求項6に記載の目標認識装置。
  10. 目標認識装置が行う目標認識方法であって、
    少なくとも一つの目標が撮像されている学習データと、前記学習データにおける前記目標の位置及び形状を示すとともに前記形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを用いて、入力画像から前記入力画像の各ピクセルにおける前記クラスごとのスコアを含む第1のスコアマップを生成する第1のステップと、
    前記第1のスコアマップにおける前記クラスのうち少なくとも2つのクラスを新たなクラスに統合した第2のスコアマップと、前記第1のスコアマップとに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する第2のステップと、
    を含む目標認識方法。
  11. 少なくとも一つの目標が撮像されている学習データと、前記学習データにおける前記目標の位置及び形状を示すとともに前記形状を分割した部分領域に対して異なるクラスの割り当てを示す教師データとを組み合わせた複数の学習データセットを用いた学習により得られた畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークを用いて入力画像から前記入力画像の各ピクセルにおける前記クラスごとのスコアを含む第1のスコアマップを生成する畳み込みニューラルネットワーク部と、
    前記第1のスコアマップにおける前記クラスのうち少なくとも2つのクラスを新たなクラスに統合した第2のスコアマップと、前記第1のスコアマップとに基づいて、前記入力画像に撮像されている少なくとも一つの目標の位置及び向きを示す目標認識情報を取得する取得部と、
    としてコンピュータを機能させるためのプログラム。
JP2018038076A 2018-03-02 2018-03-02 目標認識装置、目標認識方法及びプログラム Pending JP2019152543A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018038076A JP2019152543A (ja) 2018-03-02 2018-03-02 目標認識装置、目標認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018038076A JP2019152543A (ja) 2018-03-02 2018-03-02 目標認識装置、目標認識方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019152543A true JP2019152543A (ja) 2019-09-12

Family

ID=67948846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018038076A Pending JP2019152543A (ja) 2018-03-02 2018-03-02 目標認識装置、目標認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2019152543A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021054402A1 (ja) * 2019-09-20 2021-03-25 株式会社 Preferred Networks 推定装置、訓練装置、推定方法及び訓練方法
CN113569878A (zh) * 2020-04-28 2021-10-29 南京行者易智能交通科技有限公司 一种基于分数图的目标检测模型训练方法及目标检测方法
CN113591916A (zh) * 2021-06-29 2021-11-02 北京旷视科技有限公司 基于二分类模型的数据处理方法及装置
CN114120160A (zh) * 2022-01-25 2022-03-01 成都合能创越软件有限公司 基于Faster-RCNN物体空间区分方法、装置、计算机设备及存储介质
WO2022191197A1 (ja) * 2021-03-10 2022-09-15 オムロン株式会社 物体位置検出装置及び方法
WO2022220221A1 (ja) * 2021-04-16 2022-10-20 富士フイルム株式会社 学習装置、方法およびプログラム
CN116994295A (zh) * 2023-09-27 2023-11-03 华侨大学 基于灰度样本自适应选择门的野生动物类别识别方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021054402A1 (ja) * 2019-09-20 2021-03-25 株式会社 Preferred Networks 推定装置、訓練装置、推定方法及び訓練方法
CN113569878A (zh) * 2020-04-28 2021-10-29 南京行者易智能交通科技有限公司 一种基于分数图的目标检测模型训练方法及目标检测方法
CN113569878B (zh) * 2020-04-28 2024-03-01 南京行者易智能交通科技有限公司 一种基于分数图的目标检测模型训练方法及目标检测方法
WO2022191197A1 (ja) * 2021-03-10 2022-09-15 オムロン株式会社 物体位置検出装置及び方法
WO2022220221A1 (ja) * 2021-04-16 2022-10-20 富士フイルム株式会社 学習装置、方法およびプログラム
CN113591916A (zh) * 2021-06-29 2021-11-02 北京旷视科技有限公司 基于二分类模型的数据处理方法及装置
CN114120160A (zh) * 2022-01-25 2022-03-01 成都合能创越软件有限公司 基于Faster-RCNN物体空间区分方法、装置、计算机设备及存储介质
CN116994295A (zh) * 2023-09-27 2023-11-03 华侨大学 基于灰度样本自适应选择门的野生动物类别识别方法
CN116994295B (zh) * 2023-09-27 2024-02-02 华侨大学 基于灰度样本自适应选择门的野生动物类别识别方法

Similar Documents

Publication Publication Date Title
JP2019152543A (ja) 目標認識装置、目標認識方法及びプログラム
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111652321B (zh) 一种基于改进yolov3算法的海上船舶检测方法
CN110047069B (zh) 一种图像检测装置
US8811697B2 (en) Data transmission in remote computer assisted detection
CN111899163A (zh) 生成对抗网络中单图像超分辨率的有效结构保持
JP2019194821A (ja) 目標認識装置、目標認識方法及びプログラム
US10554957B2 (en) Learning-based matching for active stereo systems
CN111652054B (zh) 关节点检测方法、姿态识别方法及装置
JP2019125204A (ja) 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク
JP2019125203A (ja) 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク
KR101854048B1 (ko) 스테레오 매칭 깊이맵의 신뢰도 측정 방법 및 장치
US20230043026A1 (en) Learning-based active surface model for medical image segmentation
CN115631344B (zh) 一种基于特征自适应聚合的目标检测方法
CN112991254A (zh) 视差估计系统、方法、电子设备及计算机可读存储介质
CN111260655B (zh) 基于深度神经网络模型的图像生成方法与装置
CN115995042A (zh) 一种视频sar运动目标检测方法及装置
CN110751157B (zh) 图像显著性分割、图像显著性模型训练方法及装置
CN110007764B (zh) 一种手势骨架识别方法、装置、系统及存储介质
JP2019185179A (ja) 目標認識装置、目標認識方法及びプログラム
Pan et al. An adaptive multifeature method for semiautomatic road extraction from high-resolution stereo mapping satellite images
CN111275126A (zh) 样本数据集生成方法、装置、设备及存储介质
JP2018180879A (ja) 物体認識装置、物体認識システム、及び物体認識方法
CN111860668B (zh) 一种针对原始3d点云处理的深度卷积网络的点云识别方法
CN115331194A (zh) 遮挡目标检测方法及相关设备