JP2023028431A - 物体認識システム、物体認識方法及びコンピュータプログラム - Google Patents
物体認識システム、物体認識方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023028431A JP2023028431A JP2021134130A JP2021134130A JP2023028431A JP 2023028431 A JP2023028431 A JP 2023028431A JP 2021134130 A JP2021134130 A JP 2021134130A JP 2021134130 A JP2021134130 A JP 2021134130A JP 2023028431 A JP2023028431 A JP 2023028431A
- Authority
- JP
- Japan
- Prior art keywords
- object recognition
- image data
- feature maps
- image
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 239000002023 wood Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】取得環境等の物体検出への影響を低減し、物体認識の精度及びロバスト性を向上させる物体認識システム、物体認識、方法及びプログラムを提供する。【解決手段】記憶装置と、演算装置とを備える物体認識システムにおいて、記憶装置は、入力された複数の特徴マップから、入力された複数の特徴マップが示す対象の領域及びクラスを出力する第1の学習済みモデルを記憶する。演算装置は、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた、異なる複数の画像サイズの特徴マップを受け付け、受け付けた複数の特徴マップを第1の学習済みモデルに入力し、複数の画像データに含まれる検出対象の領域を抽出し、検出対象のクラスを予測し、抽出された領域及び予測されたクラスを出力する。【選択図】図1
Description
本開示は、物体認識システム、物体認識方法及びコンピュータプログラムに関する。
近年、種々の分野で物体認識を利用した技術開発が進められている。物体認識においては、センサから取得されたデータ、例えばイメージセンサから取得された画像データ、から物体を抽出し、正確に分類する必要がある。画像を利用する物体認識技術の研究・開発が進められている。一般には、取得条件が好適な環境下で撮影した画像を利用すると物体認識の精度を高めることが可能である。
しかしながら、画像の取得条件は様々であり、物体認識に適切な画像を取得することが困難なこともある。例えば、同一の場所で画像を取得する場合であっても、取得される画像が季節や時間等の取得環境の影響を受け、それにより物体認識の精度を保つことが難しいこともある。
特許文献1は、撮影画像及び測距情報から生成された点群データを用いて物体を認識する情報処理装置について記載される。この特許文献1に記載の技術では、物体の中心位置を推定し、物体を認識している。
本開示は、画像のマルチモーダル入力を利用することにより、画像の取得環境等の物体検出への影響を低減し、物体認識の精度及びロバスト性を向上させることのできる物体認識システム、物体認識方法及びコンピュータプログラムを提供する。
本開示の物体認識システムは、物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識システムであって、記憶装置と、演算装置とを備え、前記記憶装置は、物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第1の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第1の学習済みモデルを記憶し、前記演算装置は、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた様々なサイズの特徴マップを受け付ける受付処理と、受け付けた複数の特徴マップを前記第1の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、抽出された前記領域及び予測された前記クラスを出力する出力処理と、を実行し、前記演算装置は、前記予測処理において、センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第1の画像サイズの特徴マップを生成し、異なるセンサの前記第1の画像サイズの特徴マップを結合して結合特徴マップを生成し、前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する。
これにより、物体認識の精度及びロバスト性を向上させることができる。
本開示の物体認識方法は、記憶装置にアクセス可能な演算装置で実行される、物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識方法であって、前記記憶装置は、物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第1の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第1の学習済みモデルを記憶し、前記物体認識方法は、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた複数の画像サイズの各々に関する特徴マップを受け付ける受付処理と、受け付けた複数の特徴マップを前記第1の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、抽出された前記領域及び予測された前記クラスを出力する出力処理と、を含み、前記予測処理において、センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第1の画像サイズの特徴マップを生成し、異なるセンサの前記第1の画像サイズの特徴マップを結合して結合特徴マップを生成し、前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する。
これにより、物体認識の精度及びロバスト性を向上させることができる。
これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
本開示の物体認識システム、物体認識方法及びコンピュータプログラムによれば、画像の取得環境等の物体検出への影響を低減し、物体認識の精度及びロバスト性を向上させることができる。
以下に、図面を参照して各実施形態に係る物体認識システム及び物体認識方法について説明する。本開示において、物体認識システムは、画像データから物体認識の対象の領域を検出するものである。この際、物体認識システムは、複数の異なる種類のセンサから同一の対象を含む画像データを取得し、この異なる種類の複数の画像データを用いて、対象の領域を検出する。なお、以下の説明では、同一の構成について、同一の符号を付して説明を省略する。
以下の説明では、「物体認識」は、いわゆるインスタンスセグメンテーションを想定するものである。具体的には、物体認識では、画像データから、所望の対象の輪郭領域をピクセル単位で抽出するとともに、対象のクラスを識別するものとする。また、同一のクラスの物体が複数存在する場合は、それらを区別して識別する。したがって、物体認識では、画像データに対象が複数含まれる場合、これら複数の対象の輪郭領域を抽出するとともに、各対象のクラスを識別する。
「対象」は、人物、動物、移動体、木材、農作物、工業製品等を一例とする。
「画像データ」は、例えば、RGBデータ、グレースケールデータ、距離画像データ、サーマル画像データ等の異なる種類のセンサによって取得される種々の画像データを対象とする。そして、物体認識では、これら複数種の画像データから選択された少なくとも2種以上の画像データを用いて対象を認識する。このとき、各画像データは、同一の対象を含む同一の範囲に対して得られたデータであるものとする。
「RGBデータ」は、いわゆるカラー画像データであって、各画素を、赤(R)、緑(G)、青(B)の3原色のそれぞれを、Nビットの階調値で表したデータである。このRGBデータは、対象を含む所定範囲に関する一般的な人間の視覚によって得られる情報と同等の色情報を示す。RGBデータは、例えば、CMOSイメージセンサやCCDイメージセンサ等を用いて撮影される。
「グレースケールデータ」は、RGBデータに対し、所定範囲の情報を、明るさで示すデータであって、具体的には、256階調の黒(0)から白(255)の濃淡で表す画像データである。このグレースケールデータも、例えば、CMOSイメージセンサやCCDイメージセンサ等を用いて撮影される。
「距離画像データ」は、撮影視野内のセンサから対象までの距離の計測結果を表す画像データである。距離画像データ(以下、「Depthデータ」ともいう)は、例えば予め定められる距離と色との関係を用いて、所定範囲に関して得られたセンサから対象までの距離情報を色で表すデータであってもよい。距離画像データは、例えば赤外線距離センサを搭載したToFカメラによって取得される。ただし、ある位置までの距離情報を2次元画像上のある画素の画素値として対応付けることは可能であるから、本明細書では、例えば、ライダー、ミリ波レーダ等の、距離情報を取得可能なセンサを用いて取得されたデータも、「距離画像データ」の範疇とする。例えば、距離画像データは、0~10mをRGBデータに合わせて256のレベルに変換して用いることができる。このとき、10mには10m以上を含むようにすることができる。
「サーマル画像データ」は、いわゆる熱画像(サーモグラフィー)データであって、熱源となる対象が発する熱を取得して生成された画像データである。サーマル画像データは、予め設定される温度と色との関係を用いて、所定範囲に関して得られた温度情報を色で表すデータである。サーマル画像データは、例えば、赤外線センサを用いて取得される。例えば、サーマル画像データは、-20~100℃をRGBデータに合わせて256のレベルに変換して用いることができる。このとき、-20℃には-20℃以下を含むようにし、100℃には100℃以上を含むようにすることができる。
「特徴マップ」は、画像データの特徴を示すデータである。具体的には、特徴マップは、画像データに含まれる対象の領域及び当該対象のクラスの特徴を示すものであり、画像データに所定のフィルタをかけて得ることができる。元の画像データのサイズと、利用するフィルタに応じて、生成される特徴マップのサイズも異なるものとなる。なお、例えば、ここで利用するフィルタは、いわゆる「誤差逆伝搬」を用いた学習に応じて変化させることができる。
〈物体認識システム〉
図1の概略図に示すように、実施形態に係る物体認識システム1は、物体認識の対象を含む複数の異なるセンサによって取得された複数の画像データ(ここでは、「RGBデータ」及び「Depthデータ」)が入力されると、生成処理、検出処理、受付処理及び予測処理を経て、これらの画像データに含まれる対象の領域を抽出すると共に対象のクラスを予測して出力する。ここで、複数の画像データは、同一の範囲に関する画像を取得したものである。なお、各処理については、後に詳述するため、ここでは説明を省略する。
図1の概略図に示すように、実施形態に係る物体認識システム1は、物体認識の対象を含む複数の異なるセンサによって取得された複数の画像データ(ここでは、「RGBデータ」及び「Depthデータ」)が入力されると、生成処理、検出処理、受付処理及び予測処理を経て、これらの画像データに含まれる対象の領域を抽出すると共に対象のクラスを予測して出力する。ここで、複数の画像データは、同一の範囲に関する画像を取得したものである。なお、各処理については、後に詳述するため、ここでは説明を省略する。
画像データに同一クラスの対象が複数含まれている場合、物体認識システム1は、各対象を区別して出力することができる。したがって、物体認識システム1は、対象の領域、各領域の対象のクラス、各クラスが含まれる数を出力しうる。また、物体認識システム1は、各領域のサイズを求めて出力してもよい。
例えば、物体認識システムは、図2のブロック図に示すように、入出力装置11と、通信装置12と、記憶装置13と、演算装置14とを備えるコンピュータによって実現する。
入出力装置11は、操作やデータの入力に利用される操作ボタン、キーボード、マウス、タッチパネル、マイクロフォン等の入力手段、及び、処理結果やデータの出力に利用されるディスプレイ、スピーカ等の出力手段である。
通信装置12は、外部の装置(図示せず)とのデータ通信を可能とするための通信手段である。上述したデータ通信は、有線および/または無線によるデータ通信であり、公知の通信規格にしたがって行われ得る。例えば、有線によるデータ通信は、イーサネット(登録商標)規格、および/またはUSB(登録商標)規格等に準拠して動作する半導体集積回路の通信コントローラを通信装置12として用いることによって行われる。また無線によるデータ通信は、LAN(Local Area Network)に関するIEEE802.11規格、および/または移動体通信に関する、いわゆる4G/5Gと呼ばれる、第4世代/第5世代移動通信システム等に準拠して動作する半導体集積回路の通信コントローラを通信装置12として用いることによって行われる。
記憶装置13は種々の情報を記録する記録媒体である。記憶装置13は、例えば、RAM、ROM、フラッシュメモリ、SSD(Solid State Drive)、ハードディスクドライブ、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。記憶装置13は、演算装置14が実行するコンピュータプログラムである物体認識プログラムPと、学習の実行のために使用する種々のデータ等が格納される。例えば、記憶装置13は、第1の画像データD1と、第2の画像データD2と、第1の学習済みモデルM1と、第2の学習済みモデルM2とを記憶する。
演算装置14は、物体認識システム1全体の制御を司るコントローラである。演算装置14は、記憶装置13に記憶される物体認識プログラムPを実行することにより、生成処理と、検出処理と、受付処理と、予測処理と、出力処理とを実行する。演算装置14は、ハードウェアとソフトウェアの協働により所定の機能を実現するものに限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。すなわち、演算装置14は、CPU、MPU、GPU、FPGA、DSP、ASIC等、種々のプロセッサで実現することができる。
なお、物体認識システム1は、相互に通信可能に接続された複数の情報処理装置によって実現されてもよい。また、記憶装置13に記憶されるデータの一部は外部の記憶装置に記憶され、外部の記憶装置から読み出して使用する構成であってもよい。
第1の画像データD1及び第2の画像データD2は、認識対象を含む同一の範囲について、異なるセンサによって取得された画像データである。図3A乃至図3Cに異なるセンサによって取得された同一範囲の画像データの一例を示す。図3Aは、RGBデータの一例であるが、ここではグレースケールに変更した画像データを示す。図3Bは、Depthデータの一例である。図3Cは、サーマル画像データの一例である。図3A乃至図3Cに示すように、同一の範囲について取得した画像データであるとしても、使用したセンサの種類が異なるため、異なる見え方で表される。そのため、これら異なるセンサによって得られた画像データを組み合わせることで、物体認識の精度を向上させることができる。なお、複数の異なるセンサによって画像データを取得する際には、前処理として予めキャリブレーションを行うことにより、各センサで画素の対応がとれた複数の画像データを取得することができる。
図3A乃至図3Cは、複数の木材の断面を撮影した画像データである。物体認識システム1では、図3A乃至図3Cに示す画像データから木材の断面を認識対象として認識することで、例えば、木材の数を把握することができる。また、物体認識システム1では、このとき各断面積も特定することで、各サイズ(径)の木材の数を把握することができる。なお、本実施形態では、第1の画像データD1はRGBデータであり、第2の画像データはDepthデータであるものとする。
第2の学習済みモデルM2は、物体認識の対象を含む画像データと、対象の領域及びクラスの特徴を示す異なる複数の画像サイズの特徴マップとの関係を機械学習により学習済みである。したがって、第2の学習済みモデルM2は、入力された新たな画像データから、異なる画像サイズの複数の特徴マップを出力する。この特徴マップは、画像データから、畳み込みニューラルネットワーク(CNN)を利用して予め得られたものである。具体的には、第2の学習済みモデルM2は、図4Aに示すように、RGBデータと、このRGBデータに関する異なる複数の画像サイズの特徴マップとの関係、及び、Depthデータと、このDepthデータに関する異なる複数の画像サイズのその特徴マップとの関係について学習済みのモデルである。例えば、第2の学習済みモデルは、図4Aに一例を示すように、RGBデータから複数の特徴マップを生成するRGB特徴マップ生成モデルと、Depthデータから複数の特徴マップを生成するDepth特徴マップ生成モデルとの複数のモデルを含む。このように生成された第2の学習済みモデルM2は、図4Bに示すように、RGBデータが入力されると、複数の異なる画像サイズのRGBデータの特徴マップを出力する。また、第2の学習済みモデルM2は、Depthデータが入力されると、複数の異なる画像サイズのDepthデータの特徴マップを出力する。
第1の学習済みモデルM1は、物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データから得られた複数の特徴マップと、複数の画像データにおける対象の領域及び対象に付されたクラスとの関係を機械学習により学習済みである。具体的には、第1の学習済みモデルM1は、図5Aに示すように、RGBデータの特徴マップと、Depthデータの特徴マップと、RGBデータ及びDepthデータに含まれる対象の領域及びクラスの関係について学習済みのモデルである。上述したように、RGBデータとDepthデータは、同一範囲を撮影したものであるため、RGBデータの特徴マップに含まれる対象の領域及びクラスと、Depthデータの特徴マップに含まれる対象の領域及びクラスとは一致するため、特徴マップ毎に領域及びクラスを含む必要はない。このように生成された第1の学習済みモデルM1は、図5Bに示すように、RGBデータの特徴マップ及びDepthデータの特徴マップが入力されると、RGBデータ及びDepthデータに含まれる対象の領域とその対象のクラスを関連づけて出力する。ここで、特徴マップが複数の対象の領域を含むとき、第1の学習済みモデルM1は、複数の対象とそのクラスを出力する。また、特徴マップが同一クラスの対象を複数含むとき、個々の対象の領域を対応のクラスと関連づける。
演算装置14は、図1の概略図に示されるように、生成処理と、検出処理と、受付処理と、予測処理と、出力処理とを実行する。
《生成処理》
演算装置14は、生成処理において、異なる種類の複数のセンサで取得された複数の画像データを取得し、第2の学習済みモデルM2により、複数の画像データの各々について、複数の特徴マップを生成し、後段に出力する。このとき、演算装置14は、画像データから複数の特徴マップを生成する、複数のパラメータを含むことができる。この複数のパラメータは、ニューラルネットワークのハイパーパラメータである。
演算装置14は、生成処理において、異なる種類の複数のセンサで取得された複数の画像データを取得し、第2の学習済みモデルM2により、複数の画像データの各々について、複数の特徴マップを生成し、後段に出力する。このとき、演算装置14は、画像データから複数の特徴マップを生成する、複数のパラメータを含むことができる。この複数のパラメータは、ニューラルネットワークのハイパーパラメータである。
具体的には、演算装置14は、第2の学習済みモデルM2により、図6に示すように、複数の画像データの各々について、元の画像サイズから複数層に渡って順に同一サイズに縮小させることで、複数の特徴マップを生成することができる。図6に示す例では、RGBデータを、画像サイズ112×112(チャンネル数64)、56×56(チャンネル数128)、28×28(チャンネル数256)、14×14(チャンネル数512)、7×7(1024)の順に縮小させる一例を示す。また、Depthデータについても、順に同様の画像サイズに縮小させることで、複数の特徴マップを生成することができる。例えば、FPN等のBack boneに相当する処理を、この生成処理とすることができる。
なお、図6に示す例では、Depthデータの各特徴マップは、RGBデータの各特徴マップと同一の画像サイズであるが、チャンネル数は異なる。また、生成処理で生成される特徴マップの数、特徴マップのサイズやチャンネル数は限定されず、図6に示す例は一例である。
物体認識システム1は、生成処理で上述したように生成される特徴マップを用いることで、必要なパラメータ数や演算回数を低減して演算を効率化し、全体としての計算量を低減することができる。
《検出処理》
演算装置14は、検出処理において、画像サイズ毎に、異なるセンサに基づく特徴マップを結合して第2の結合特徴マップを生成し、第2の結合特徴マップから、対象の候補領域を検出する。例えば、演算装置14は、図6を用いて上述した生成処理で生成された複数の特徴マップが入力されると、画像サイズ毎に合成して候補領域を検出し、出力する。このとき演算装置14は、図7に示すように、RGBデータの各特徴マップのチャンネル数を、例えば、256に統一してもよい。また、演算装置14は、Depthデータの各特徴マップのチャンネル数を、例えば、128に統一してもよい。その後、演算装置14は、Depthデータの特徴マップのチャンネル数を、RGBデータの特徴マップのチャンネル数に統一してもよい。
演算装置14は、検出処理において、画像サイズ毎に、異なるセンサに基づく特徴マップを結合して第2の結合特徴マップを生成し、第2の結合特徴マップから、対象の候補領域を検出する。例えば、演算装置14は、図6を用いて上述した生成処理で生成された複数の特徴マップが入力されると、画像サイズ毎に合成して候補領域を検出し、出力する。このとき演算装置14は、図7に示すように、RGBデータの各特徴マップのチャンネル数を、例えば、256に統一してもよい。また、演算装置14は、Depthデータの各特徴マップのチャンネル数を、例えば、128に統一してもよい。その後、演算装置14は、Depthデータの特徴マップのチャンネル数を、RGBデータの特徴マップのチャンネル数に統一してもよい。
また、図7に示すように、演算装置14は、画像サイズ毎に、RGBデータの特徴マップとDepthデータの特徴マップを結合する。さらに、演算装置14は、結合した特徴マップから、仮のバウンディングボックスを検出する。続いて、演算装置14は、結合した特徴マップから、各バウンディングボックスについてのクラス確率を算出する。その後、演算装置14は、仮のバウンディングボックスとクラス確率から、候補領域をする。なお、検出処理においては、チャンネル数の統一は、必須ではなく、最終的に、画像サイズ毎にRGBデータの特徴マップとDepthデータの特徴マップとを統合し、候補領域を検出することができればよい。
なお、この検出処理についても、異なるセンサで取得された複数の画像データから得られた特徴マップと、対象の候補領域との関係を学習した学習済みモデルを用いて実行することができる。例えば、RPNに相当する処理を、この検出処理とすることができる。
《受付処理》
演算装置14は、受付処理において、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた異なる複数の画像サイズの特徴マップを受け付ける。演算装置14は、生成処理で生成された、複数の画像サイズの特徴マップを受け付けることができる。例えば、演算装置14は、図8に示すように複数のサイズのRGBデータの特徴マップと、複数のサイズのDepthデータの特徴マップとを受け付ける。また、図8に示すように、RGBデータの特徴マップのチャンネル数とDepthデータの特徴マップのチャンネル数を統一してもよい。図8では、Depthデータの特徴マップのチャンネル数を、RGBデータの特徴マップに合わせた一例を示す。
演算装置14は、受付処理において、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた異なる複数の画像サイズの特徴マップを受け付ける。演算装置14は、生成処理で生成された、複数の画像サイズの特徴マップを受け付けることができる。例えば、演算装置14は、図8に示すように複数のサイズのRGBデータの特徴マップと、複数のサイズのDepthデータの特徴マップとを受け付ける。また、図8に示すように、RGBデータの特徴マップのチャンネル数とDepthデータの特徴マップのチャンネル数を統一してもよい。図8では、Depthデータの特徴マップのチャンネル数を、RGBデータの特徴マップに合わせた一例を示す。
《予測処理》
演算装置14は、予測処理において、受け付けた複数の特徴マップを第1の学習済みモデルに入力し、複数の画像データに含まれる検出対象の領域を抽出し、検出対象のクラスを予測する。具体的には、演算装置14は、図8に示すように、センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して同一の画像サイズの特徴マップを生成する。また、演算装置14は、異なるセンサの特徴マップを結合し、結合特徴マップを生成する。その後、演算装置14は、結合特徴マップから領域を抽出するとともに、クラスを予測する。なお、演算装置14は、検出処理において検出された候補領域を用いて、結合特徴マップから対象の領域を抽出する。
演算装置14は、予測処理において、受け付けた複数の特徴マップを第1の学習済みモデルに入力し、複数の画像データに含まれる検出対象の領域を抽出し、検出対象のクラスを予測する。具体的には、演算装置14は、図8に示すように、センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して同一の画像サイズの特徴マップを生成する。また、演算装置14は、異なるセンサの特徴マップを結合し、結合特徴マップを生成する。その後、演算装置14は、結合特徴マップから領域を抽出するとともに、クラスを予測する。なお、演算装置14は、検出処理において検出された候補領域を用いて、結合特徴マップから対象の領域を抽出する。
《出力処理》
演算装置14は、出力処理において、抽出された領域及び予測されたクラスを出力する。またこのとき、演算装置14は、領域に関するサイズを求めて出力してもよい。例えば、図3Aに示したような材木を対象とする場合、各対象の面積を求めて出力してもよいし、各対象の直径を求めて出力してもよい。さらに、演算装置14は、材木の数を求めて出力することもできる。加えて、演算装置14は、材木の断面から材木の中心点を求めてその中心点を把握可能な状態で出力してもよい。
演算装置14は、出力処理において、抽出された領域及び予測されたクラスを出力する。またこのとき、演算装置14は、領域に関するサイズを求めて出力してもよい。例えば、図3Aに示したような材木を対象とする場合、各対象の面積を求めて出力してもよいし、各対象の直径を求めて出力してもよい。さらに、演算装置14は、材木の数を求めて出力することもできる。加えて、演算装置14は、材木の断面から材木の中心点を求めてその中心点を把握可能な状態で出力してもよい。
〈物体認識方法〉
図9に示すフローチャートを用いて、実施形態に係る物体認識方法について説明する。フローチャートの個々のステップの具体的な処理は上述したので、各ステップを簡略化して説明する。まず、図9に示すように、演算装置14は、複数のセンサを用いて得られた画像データを取得する(S01)。
図9に示すフローチャートを用いて、実施形態に係る物体認識方法について説明する。フローチャートの個々のステップの具体的な処理は上述したので、各ステップを簡略化して説明する。まず、図9に示すように、演算装置14は、複数のセンサを用いて得られた画像データを取得する(S01)。
続いて、演算装置14は、ステップS01で複数の画像センサを用いて取得した各画像データについて、それぞれ複数の画像サイズの特徴マップを生成する(S02)。ここで、異なるセンサで取得した各画像データについて、それぞれ同一の画像サイズの複数の特徴マップを生成する。
次に、演算装置14は、ステップS02で生成した複数の特徴マップについて、画像サイズ毎に、異なるセンサの特徴マップを結合する(S03)。
演算装置14は、ステップS03で結合された各画像サイズの特徴マップから、それぞれ対象を含む候補領域を特定する(S04)。
また、演算装置14は、ステップS02で生成した複数の特徴マップについて、センサの種類毎に、各画像サイズの特徴マップを結合する(S05)。
その後、ステップS06で得られた各センサの結合された特徴マップを結合して、結合特徴マップを生成する(S06)。
また、演算装置14は、ステップS04で特定された候補領域を用いて、ステップS06で生成された結合特徴マップから、対象領域を検出し、対象領域のクラスを予測する(S07)。
さらに、演算装置14は、ステップS07で検出した対象領域及び予測したクラスを出力する(S08)。これにより、演算装置14を利用するユーザは、対象の領域及びクラスを把握することができる。
上述した物体認識システム1は、例えば、各画素についてクラス及びインスタンスを識別するインスタンスセグメンテーションに利用されるMask R-CNNの技術を用いることで実現される。具体的には、図1に示すように、物体認識システム1は、生成処理において、複数の特徴マップを生成する。この生成処理は、Mask R-CNNのCNNの処理に相当する。また、物体認識システム1は、検出処理において、画像サイズ毎に、異なるセンサによる特徴マップを合成した上で、対象の候補領域を検出する。この検出処理は、Mask R-CNNのいわゆるRegion proposal Network(RPN)に相当する。その後、物体認識システム1は、受付処理において、センサの種類毎に、受け付けた異なる画像サイズの特徴マップを結合する。各センサの種類毎の特徴マップの結合は、Mask R-CNNのいわゆるRoI Alignに相当する。次に、物体認識システム1は、センサ毎に結合された特徴マップを結合して、結合特徴マップを生成する。続いて、物体認識システム1は、結合特徴マップ及び検出処理で得られた候補領域を用いて、対象領域を抽出し、クラスを予測する。この対象領域の抽出及びクラスの予測は、Mask R-CNNのいわゆるFC Layerにおける処理に相当する。
物体認識において、使用する画像データがRGBデータのみの場合、画像データの撮影環境が暗すぎる又は明るすぎる等のように明るさが最適でない場合や、積雪時のような悪天候の場合等、色の区別がつきにくくなり対象が見にくい状態もあり得る。しかしながら、本開示の物体認識システム及び物体認識方法では、距離や温度等、目視以外の情報で対象を表す画像データを組み合わせてマルチモーダルに物体認識を実現することで、物体認識の精度を向上させることができる。例えば、対象物がRGBデータのみでは見にくい場合であっても、Depthデータで表される距離の情報を組み合わせることで、対象と対象以外の部分を見分けやすくすることができる。なお、実施形態においては、2種類のセンサを用いて取得した2種類の画像データであるRGBデータ及びDepthデータの組み合わせの例で説明したが、画像データを取得するセンサの数は複数種類であれば、2種類に限定されず、その組み合わせも限定されない。
〈実験例〉
例えば、第1の学習済みモデルM1及び第2の学習済みモデルM2をRGBデータのみを用いる場合(Case1)、RGBデータ及びDepthデータを用いる場合(Case2)、RGBデータ、Depthデータ及びThermalデータを用いる場合(Case3)で比較する。学習用データを5セット用いた場合の実験例1において、図10Aに示すように、各例での適合率(=TP/(TP+FP))は、Case1で『0.69』、Case2で『1』、Case3で『0.91』となり、複数のセンサで得られた画像データを利用する方が、物体認識の精度が高くなるという実験結果が得られた。特に、この例では、Case2の場合に『1』という高い結果が得られたが、この結果は今回の実験結果の一例であり、常に適合率が『1』になるという訳ではない。
例えば、第1の学習済みモデルM1及び第2の学習済みモデルM2をRGBデータのみを用いる場合(Case1)、RGBデータ及びDepthデータを用いる場合(Case2)、RGBデータ、Depthデータ及びThermalデータを用いる場合(Case3)で比較する。学習用データを5セット用いた場合の実験例1において、図10Aに示すように、各例での適合率(=TP/(TP+FP))は、Case1で『0.69』、Case2で『1』、Case3で『0.91』となり、複数のセンサで得られた画像データを利用する方が、物体認識の精度が高くなるという実験結果が得られた。特に、この例では、Case2の場合に『1』という高い結果が得られたが、この結果は今回の実験結果の一例であり、常に適合率が『1』になるという訳ではない。
また、別の学習用データを5セット用いた場合の実験例2においては、図10Bに示すように、各例での適合率は、Case1で『0.878』、Case2で『0.995』、Case3で『0.981』となった。この場合も、複数のセンサで得られた画像データを利用する方が、物体認識の精度が高くなるという実験結果が得られた。なお、実験1及び2では、訓練データとするRGBデータ、Depthデータ及びThermalデータのセット数は500、検証データとするRGBデータ、Depthデータ及びThermalデータのセット数は6であった。また、Case1でのEpoch数は6、Case2でのEpoch数は10、Case3でのEpoch数は13であった。
以上のように、本出願において開示する技術の例を示し、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。
本開示の全請求項に記載の物体認識システム及び物体認識方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びコンピュータプログラムとの協働などによって、実現される。
本開示の物体認識システム及び物体認識方法は、様々な計測や検知の自動化に有用である。例えば、林業における材木の本数や直径等の計測の自動化、工業における不良品の検出の自動化、農業における農作物の分類の自動化等に利用することができる。
1 物体認識システム
11 入出力装置
12 通信装置
13 記憶装置
14 演算装置
D1 第1の画像データ
D2 第2の画像データ
M1 第1の学習済みモデル
M2 第2の学習済みモデル
P 物体認識プログラム
11 入出力装置
12 通信装置
13 記憶装置
14 演算装置
D1 第1の画像データ
D2 第2の画像データ
M1 第1の学習済みモデル
M2 第2の学習済みモデル
P 物体認識プログラム
Claims (10)
- 物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識システムであって、記憶装置と、演算装置とを備え、
前記記憶装置は、
物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第1の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第1の学習済みモデル
を記憶し、
前記演算装置は、
異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた様々な画像サイズの特徴マップを受け付ける受付処理と、
受け付けた複数の特徴マップを前記第1の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、
抽出された前記領域及び予測された前記クラスを出力する出力処理と、
を実行し、
前記演算装置は、前記予測処理において、
センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第1の画像サイズの特徴マップを生成し、
異なるセンサの前記第1の画像サイズの特徴マップを結合して結合特徴マップを生成し、
前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する
物体認識システム。 - 前記第1の学習済みモデルは、前記予測処理において、インスタンスセグメンテーションの手法を利用する
請求項1に記載の物体認識システム。 - 前記演算装置は、
画像サイズ毎に、異なるセンサに基づく特徴マップを結合して第2の結合特徴マップを生成し、
前記第2の結合特徴マップから、前記対象の候補領域を検出する
検出処理を実行し、
前記予測処理において、前記候補領域を用いて、前記結合特徴マップから前記対象の領域を抽出する、
請求項1又は2に記載の物体認識システム。 - 前記記憶装置は、
物体認識の対象を含む画像データと、当該対象の領域及びクラスの特徴を示す異なる複数の画像サイズの特徴マップとの関係を機械学習により学習済みであって、入力された新たな画像データから、異なる画像サイズ及びチャンネル数の複数の特徴マップを出力する第2の学習済みモデル
を記憶し、
前記演算装置は、
異なる種類の複数のセンサで取得された複数の画像データを取得し、
前記第2の学習済みモデルにより、前記複数の画像データの各々について、複数の特徴マップを生成する
生成処理を実行し、
前記受付処理では、前記生成処理で生成された、前記複数の画像サイズの特徴マップを受け付ける
請求項1乃至3のいずれか1に記載の物体認識システム。 - 前記演算装置は、前記生成処理において、
前記複数の画像データの各々について、元の画像サイズから複数層に渡って順に同一サイズに縮小させることで、複数の特徴マップを生成する
請求項4に記載の物体認識システム。 - 前記第2の学習済みモデルは、画像データから、複数の特徴マップを生成する複数のパラメータを含む
請求項4又は5に記載の物体認識システム。 - 前記パラメータは、畳み込みニューラルネットワークのハイパーパラメータである
請求項6に記載の物体認識システム。 - 前記センサは、RGBデータを取得するセンサ、グレースケールデータを取得するセンサ、距離画像データを取得するセンサ、及び、サーマル画像データを取得するセンサから選択されたものである
請求項1乃至7のいずれか1に記載の物体認識システム。 - 記憶装置にアクセス可能な演算装置で実行される、物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識方法であって、
前記記憶装置は、
物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第1の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第1の学習済みモデル
を記憶し、
前記物体認識方法は、
異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた様々な画像サイズの特徴マップを受け付ける受付処理と、
受け付けた複数の特徴マップを前記第1の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、
抽出された前記領域及び予測された前記クラスを出力する出力処理と、
を含み、
前記予測処理において、
センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第1の画像サイズの特徴マップを生成し、
異なるセンサの前記第1の画像サイズの特徴マップを結合して結合特徴マップを生成し、
前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する
物体認識方法。 - 請求項9の物体認識方法を、前記演算装置に実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021134130A JP2023028431A (ja) | 2021-08-19 | 2021-08-19 | 物体認識システム、物体認識方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021134130A JP2023028431A (ja) | 2021-08-19 | 2021-08-19 | 物体認識システム、物体認識方法及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023028431A true JP2023028431A (ja) | 2023-03-03 |
Family
ID=85330890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021134130A Pending JP2023028431A (ja) | 2021-08-19 | 2021-08-19 | 物体認識システム、物体認識方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023028431A (ja) |
-
2021
- 2021-08-19 JP JP2021134130A patent/JP2023028431A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021000664A1 (zh) | 跨模态目标检测中的差异自动校准方法、系统、装置 | |
US11222239B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
US9600746B2 (en) | Image processing apparatus and image processing method | |
US10289925B2 (en) | Object classification in image data using machine learning models | |
CN113168541B (zh) | 用于成像系统的深度学习推理系统和方法 | |
US8908919B2 (en) | Tactical object finder | |
JP6032921B2 (ja) | 物体検出装置及びその方法、プログラム | |
CN110770752A (zh) | 多尺度特征融合网络结合定位模型的害虫自动计数方法 | |
AU2016225841B2 (en) | Predicting accuracy of object recognition in a stitched image | |
US9047673B2 (en) | Apparatus and method for extracting target, and recording medium storing program for performing the method | |
CN111382637B (zh) | 行人检测跟踪方法、装置、终端设备及介质 | |
WO2022121130A1 (zh) | 电力目标检测方法、装置、计算机设备和存储介质 | |
US11417129B2 (en) | Object identification image device, method, and computer program product | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
JP4506409B2 (ja) | 領域分割方法及び装置、画像認識処理装置、プログラム、記録媒体 | |
US20200342251A1 (en) | Reading system, reading device, reading method, and storage medium | |
CN111435457B (zh) | 对传感器获取的采集进行分类的方法 | |
Zou et al. | Statistical analysis of signal-dependent noise: application in blind localization of image splicing forgery | |
JP5217917B2 (ja) | 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム | |
JP2023028431A (ja) | 物体認識システム、物体認識方法及びコンピュータプログラム | |
JP2006343989A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
KR101391667B1 (ko) | 크기 변화에 강건한 범주 물체 인식을 위한 모델 학습 및 인식 방법 | |
CN113870210A (zh) | 一种图像质量评估方法、装置、设备及存储介质 | |
JP6276504B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
Dinuls et al. | Performance comparison of methods for tree species classification in multispectral images |