JP2023028431A

JP2023028431A - 物体認識システム、物体認識方法及びコンピュータプログラム

Info

Publication number: JP2023028431A
Application number: JP2021134130A
Authority: JP
Inventors: 貴紀江丸; Takanori Emaru; 隆禎森井; Takayoshi Morii
Original assignee: Hokkaido University NUC
Current assignee: Hokkaido University NUC
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2023-03-03

Abstract

【課題】取得環境等の物体検出への影響を低減し、物体認識の精度及びロバスト性を向上させる物体認識システム、物体認識、方法及びプログラムを提供する。【解決手段】記憶装置と、演算装置とを備える物体認識システムにおいて、記憶装置は、入力された複数の特徴マップから、入力された複数の特徴マップが示す対象の領域及びクラスを出力する第１の学習済みモデルを記憶する。演算装置は、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた、異なる複数の画像サイズの特徴マップを受け付け、受け付けた複数の特徴マップを第１の学習済みモデルに入力し、複数の画像データに含まれる検出対象の領域を抽出し、検出対象のクラスを予測し、抽出された領域及び予測されたクラスを出力する。【選択図】図１

Description

本開示は、物体認識システム、物体認識方法及びコンピュータプログラムに関する。

近年、種々の分野で物体認識を利用した技術開発が進められている。物体認識においては、センサから取得されたデータ、例えばイメージセンサから取得された画像データ、から物体を抽出し、正確に分類する必要がある。画像を利用する物体認識技術の研究・開発が進められている。一般には、取得条件が好適な環境下で撮影した画像を利用すると物体認識の精度を高めることが可能である。

しかしながら、画像の取得条件は様々であり、物体認識に適切な画像を取得することが困難なこともある。例えば、同一の場所で画像を取得する場合であっても、取得される画像が季節や時間等の取得環境の影響を受け、それにより物体認識の精度を保つことが難しいこともある。

特許文献１は、撮影画像及び測距情報から生成された点群データを用いて物体を認識する情報処理装置について記載される。この特許文献１に記載の技術では、物体の中心位置を推定し、物体を認識している。

特開２０２１－９９６９８号公報

本開示は、画像のマルチモーダル入力を利用することにより、画像の取得環境等の物体検出への影響を低減し、物体認識の精度及びロバスト性を向上させることのできる物体認識システム、物体認識方法及びコンピュータプログラムを提供する。

本開示の物体認識システムは、物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識システムであって、記憶装置と、演算装置とを備え、前記記憶装置は、物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第１の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第１の学習済みモデルを記憶し、前記演算装置は、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた様々なサイズの特徴マップを受け付ける受付処理と、受け付けた複数の特徴マップを前記第１の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、抽出された前記領域及び予測された前記クラスを出力する出力処理と、を実行し、前記演算装置は、前記予測処理において、センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第１の画像サイズの特徴マップを生成し、異なるセンサの前記第１の画像サイズの特徴マップを結合して結合特徴マップを生成し、前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する。

これにより、物体認識の精度及びロバスト性を向上させることができる。

本開示の物体認識方法は、記憶装置にアクセス可能な演算装置で実行される、物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識方法であって、前記記憶装置は、物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第１の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第１の学習済みモデルを記憶し、前記物体認識方法は、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた複数の画像サイズの各々に関する特徴マップを受け付ける受付処理と、受け付けた複数の特徴マップを前記第１の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、抽出された前記領域及び予測された前記クラスを出力する出力処理と、を含み、前記予測処理において、センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第１の画像サイズの特徴マップを生成し、異なるセンサの前記第１の画像サイズの特徴マップを結合して結合特徴マップを生成し、前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する。

これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

本開示の物体認識システム、物体認識方法及びコンピュータプログラムによれば、画像の取得環境等の物体検出への影響を低減し、物体認識の精度及びロバスト性を向上させることができる。

実施形態に係る物体認識システムを示す概略図である。図１の物体認識システムの構成を示すブロック図である。物体認識システムで利用可能なRGBデータの一例を示す。物体認識システムで利用可能なDepthデータの一例を示す。物体認識システムで利用可能なThermalデータの一例を示す。図１の物体認識システムで用いる第２の学習済みモデルの生成を説明する概略図である。図１の物体認識システムで用いる第２の学習済みモデルの入力と出力を説明する概略図である。図１の物体認識システムで用いる第１の学習済みモデルの生成を説明する概略図である。図１の物体認識システムで用いる第１の学習済みモデルの入力と出力を説明する概略図である。図１の物体認識システムにおける生成処理を説明する概略図である。図１の物体認識システムにおける検出処理を説明する概略図である。図１の物体認識システムにおける受付処理及び予測処理を説明する概略図である。実施形態に係る物体認識方法を説明するフローチャートである。物体認識システムによる実験結果の一例を示す。物体認識システムによる実験結果の他の例を示す。

以下に、図面を参照して各実施形態に係る物体認識システム及び物体認識方法について説明する。本開示において、物体認識システムは、画像データから物体認識の対象の領域を検出するものである。この際、物体認識システムは、複数の異なる種類のセンサから同一の対象を含む画像データを取得し、この異なる種類の複数の画像データを用いて、対象の領域を検出する。なお、以下の説明では、同一の構成について、同一の符号を付して説明を省略する。

以下の説明では、「物体認識」は、いわゆるインスタンスセグメンテーションを想定するものである。具体的には、物体認識では、画像データから、所望の対象の輪郭領域をピクセル単位で抽出するとともに、対象のクラスを識別するものとする。また、同一のクラスの物体が複数存在する場合は、それらを区別して識別する。したがって、物体認識では、画像データに対象が複数含まれる場合、これら複数の対象の輪郭領域を抽出するとともに、各対象のクラスを識別する。

「対象」は、人物、動物、移動体、木材、農作物、工業製品等を一例とする。

「画像データ」は、例えば、RGBデータ、グレースケールデータ、距離画像データ、サーマル画像データ等の異なる種類のセンサによって取得される種々の画像データを対象とする。そして、物体認識では、これら複数種の画像データから選択された少なくとも２種以上の画像データを用いて対象を認識する。このとき、各画像データは、同一の対象を含む同一の範囲に対して得られたデータであるものとする。

「RGBデータ」は、いわゆるカラー画像データであって、各画素を、赤（R）、緑（G）、青（B）の３原色のそれぞれを、Nビットの階調値で表したデータである。このRGBデータは、対象を含む所定範囲に関する一般的な人間の視覚によって得られる情報と同等の色情報を示す。RGBデータは、例えば、CMOSイメージセンサやCCDイメージセンサ等を用いて撮影される。

「グレースケールデータ」は、RGBデータに対し、所定範囲の情報を、明るさで示すデータであって、具体的には、256階調の黒（０）から白（２５５）の濃淡で表す画像データである。このグレースケールデータも、例えば、CMOSイメージセンサやCCDイメージセンサ等を用いて撮影される。

「距離画像データ」は、撮影視野内のセンサから対象までの距離の計測結果を表す画像データである。距離画像データ（以下、「Depthデータ」ともいう）は、例えば予め定められる距離と色との関係を用いて、所定範囲に関して得られたセンサから対象までの距離情報を色で表すデータであってもよい。距離画像データは、例えば赤外線距離センサを搭載したToFカメラによって取得される。ただし、ある位置までの距離情報を２次元画像上のある画素の画素値として対応付けることは可能であるから、本明細書では、例えば、ライダー、ミリ波レーダ等の、距離情報を取得可能なセンサを用いて取得されたデータも、「距離画像データ」の範疇とする。例えば、距離画像データは、０～１０ｍをRGBデータに合わせて２５６のレベルに変換して用いることができる。このとき、１０ｍには１０ｍ以上を含むようにすることができる。

「サーマル画像データ」は、いわゆる熱画像（サーモグラフィー）データであって、熱源となる対象が発する熱を取得して生成された画像データである。サーマル画像データは、予め設定される温度と色との関係を用いて、所定範囲に関して得られた温度情報を色で表すデータである。サーマル画像データは、例えば、赤外線センサを用いて取得される。例えば、サーマル画像データは、－２０～１００℃をRGBデータに合わせて２５６のレベルに変換して用いることができる。このとき、－２０℃には－２０℃以下を含むようにし、１００℃には１００℃以上を含むようにすることができる。

「特徴マップ」は、画像データの特徴を示すデータである。具体的には、特徴マップは、画像データに含まれる対象の領域及び当該対象のクラスの特徴を示すものであり、画像データに所定のフィルタをかけて得ることができる。元の画像データのサイズと、利用するフィルタに応じて、生成される特徴マップのサイズも異なるものとなる。なお、例えば、ここで利用するフィルタは、いわゆる「誤差逆伝搬」を用いた学習に応じて変化させることができる。

〈物体認識システム〉
図１の概略図に示すように、実施形態に係る物体認識システム１は、物体認識の対象を含む複数の異なるセンサによって取得された複数の画像データ（ここでは、「RGBデータ」及び「Depthデータ」）が入力されると、生成処理、検出処理、受付処理及び予測処理を経て、これらの画像データに含まれる対象の領域を抽出すると共に対象のクラスを予測して出力する。ここで、複数の画像データは、同一の範囲に関する画像を取得したものである。なお、各処理については、後に詳述するため、ここでは説明を省略する。

画像データに同一クラスの対象が複数含まれている場合、物体認識システム１は、各対象を区別して出力することができる。したがって、物体認識システム１は、対象の領域、各領域の対象のクラス、各クラスが含まれる数を出力しうる。また、物体認識システム１は、各領域のサイズを求めて出力してもよい。

例えば、物体認識システムは、図２のブロック図に示すように、入出力装置１１と、通信装置１２と、記憶装置１３と、演算装置１４とを備えるコンピュータによって実現する。

入出力装置１１は、操作やデータの入力に利用される操作ボタン、キーボード、マウス、タッチパネル、マイクロフォン等の入力手段、及び、処理結果やデータの出力に利用されるディスプレイ、スピーカ等の出力手段である。

通信装置１２は、外部の装置（図示せず）とのデータ通信を可能とするための通信手段である。上述したデータ通信は、有線および／または無線によるデータ通信であり、公知の通信規格にしたがって行われ得る。例えば、有線によるデータ通信は、イーサネット（登録商標）規格、および／またはＵＳＢ（登録商標）規格等に準拠して動作する半導体集積回路の通信コントローラを通信装置１２として用いることによって行われる。また無線によるデータ通信は、ＬＡＮ（Local Area Network）に関するＩＥＥＥ８０２．１１規格、および／または移動体通信に関する、いわゆる４Ｇ／５Ｇと呼ばれる、第４世代／第５世代移動通信システム等に準拠して動作する半導体集積回路の通信コントローラを通信装置１２として用いることによって行われる。

記憶装置１３は種々の情報を記録する記録媒体である。記憶装置１３は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。記憶装置１３は、演算装置１４が実行するコンピュータプログラムである物体認識プログラムＰと、学習の実行のために使用する種々のデータ等が格納される。例えば、記憶装置１３は、第1の画像データＤ１と、第２の画像データＤ２と、第１の学習済みモデルＭ１と、第２の学習済みモデルＭ２とを記憶する。

演算装置１４は、物体認識システム１全体の制御を司るコントローラである。演算装置１４は、記憶装置１３に記憶される物体認識プログラムＰを実行することにより、生成処理と、検出処理と、受付処理と、予測処理と、出力処理とを実行する。演算装置１４は、ハードウェアとソフトウェアの協働により所定の機能を実現するものに限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。すなわち、演算装置１４は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰ、ＡＳＩＣ等、種々のプロセッサで実現することができる。

なお、物体認識システム１は、相互に通信可能に接続された複数の情報処理装置によって実現されてもよい。また、記憶装置１３に記憶されるデータの一部は外部の記憶装置に記憶され、外部の記憶装置から読み出して使用する構成であってもよい。

第１の画像データＤ１及び第２の画像データＤ２は、認識対象を含む同一の範囲について、異なるセンサによって取得された画像データである。図３Ａ乃至図３Ｃに異なるセンサによって取得された同一範囲の画像データの一例を示す。図３Ａは、RGBデータの一例であるが、ここではグレースケールに変更した画像データを示す。図３Ｂは、Depthデータの一例である。図３Ｃは、サーマル画像データの一例である。図３Ａ乃至図３Ｃに示すように、同一の範囲について取得した画像データであるとしても、使用したセンサの種類が異なるため、異なる見え方で表される。そのため、これら異なるセンサによって得られた画像データを組み合わせることで、物体認識の精度を向上させることができる。なお、複数の異なるセンサによって画像データを取得する際には、前処理として予めキャリブレーションを行うことにより、各センサで画素の対応がとれた複数の画像データを取得することができる。

図３Ａ乃至図３Ｃは、複数の木材の断面を撮影した画像データである。物体認識システム１では、図３Ａ乃至図３Ｃに示す画像データから木材の断面を認識対象として認識することで、例えば、木材の数を把握することができる。また、物体認識システム１では、このとき各断面積も特定することで、各サイズ（径）の木材の数を把握することができる。なお、本実施形態では、第１の画像データＤ１はRGBデータであり、第２の画像データはDepthデータであるものとする。

第２の学習済みモデルＭ２は、物体認識の対象を含む画像データと、対象の領域及びクラスの特徴を示す異なる複数の画像サイズの特徴マップとの関係を機械学習により学習済みである。したがって、第２の学習済みモデルＭ２は、入力された新たな画像データから、異なる画像サイズの複数の特徴マップを出力する。この特徴マップは、画像データから、畳み込みニューラルネットワーク（CNN）を利用して予め得られたものである。具体的には、第２の学習済みモデルＭ２は、図４Ａに示すように、RGBデータと、このRGBデータに関する異なる複数の画像サイズの特徴マップとの関係、及び、Depthデータと、このDepthデータに関する異なる複数の画像サイズのその特徴マップとの関係について学習済みのモデルである。例えば、第２の学習済みモデルは、図４Ａに一例を示すように、RGBデータから複数の特徴マップを生成するRGB特徴マップ生成モデルと、Depthデータから複数の特徴マップを生成するDepth特徴マップ生成モデルとの複数のモデルを含む。このように生成された第２の学習済みモデルＭ２は、図４Ｂに示すように、RGBデータが入力されると、複数の異なる画像サイズのRGBデータの特徴マップを出力する。また、第２の学習済みモデルＭ２は、Depthデータが入力されると、複数の異なる画像サイズのDepthデータの特徴マップを出力する。

第１の学習済みモデルＭ１は、物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データから得られた複数の特徴マップと、複数の画像データにおける対象の領域及び対象に付されたクラスとの関係を機械学習により学習済みである。具体的には、第１の学習済みモデルＭ１は、図５Ａに示すように、RGBデータの特徴マップと、Depthデータの特徴マップと、RGBデータ及びDepthデータに含まれる対象の領域及びクラスの関係について学習済みのモデルである。上述したように、RGBデータとDepthデータは、同一範囲を撮影したものであるため、RGBデータの特徴マップに含まれる対象の領域及びクラスと、Depthデータの特徴マップに含まれる対象の領域及びクラスとは一致するため、特徴マップ毎に領域及びクラスを含む必要はない。このように生成された第１の学習済みモデルＭ１は、図５Ｂに示すように、RGBデータの特徴マップ及びDepthデータの特徴マップが入力されると、RGBデータ及びDepthデータに含まれる対象の領域とその対象のクラスを関連づけて出力する。ここで、特徴マップが複数の対象の領域を含むとき、第１の学習済みモデルＭ１は、複数の対象とそのクラスを出力する。また、特徴マップが同一クラスの対象を複数含むとき、個々の対象の領域を対応のクラスと関連づける。

演算装置１４は、図１の概略図に示されるように、生成処理と、検出処理と、受付処理と、予測処理と、出力処理とを実行する。

《生成処理》
演算装置１４は、生成処理において、異なる種類の複数のセンサで取得された複数の画像データを取得し、第２の学習済みモデルＭ２により、複数の画像データの各々について、複数の特徴マップを生成し、後段に出力する。このとき、演算装置１４は、画像データから複数の特徴マップを生成する、複数のパラメータを含むことができる。この複数のパラメータは、ニューラルネットワークのハイパーパラメータである。

具体的には、演算装置１４は、第２の学習済みモデルＭ２により、図６に示すように、複数の画像データの各々について、元の画像サイズから複数層に渡って順に同一サイズに縮小させることで、複数の特徴マップを生成することができる。図６に示す例では、RGBデータを、画像サイズ１１２×１１２（チャンネル数６４）、５６×５６（チャンネル数１２８）、２８×２８（チャンネル数２５６）、１４×１４（チャンネル数５１２）、７×７（１０２４）の順に縮小させる一例を示す。また、Depthデータについても、順に同様の画像サイズに縮小させることで、複数の特徴マップを生成することができる。例えば、FPN等のBack boneに相当する処理を、この生成処理とすることができる。

なお、図６に示す例では、Depthデータの各特徴マップは、RGBデータの各特徴マップと同一の画像サイズであるが、チャンネル数は異なる。また、生成処理で生成される特徴マップの数、特徴マップのサイズやチャンネル数は限定されず、図６に示す例は一例である。

物体認識システム１は、生成処理で上述したように生成される特徴マップを用いることで、必要なパラメータ数や演算回数を低減して演算を効率化し、全体としての計算量を低減することができる。

《検出処理》
演算装置１４は、検出処理において、画像サイズ毎に、異なるセンサに基づく特徴マップを結合して第２の結合特徴マップを生成し、第２の結合特徴マップから、対象の候補領域を検出する。例えば、演算装置１４は、図６を用いて上述した生成処理で生成された複数の特徴マップが入力されると、画像サイズ毎に合成して候補領域を検出し、出力する。このとき演算装置１４は、図７に示すように、RGBデータの各特徴マップのチャンネル数を、例えば、２５６に統一してもよい。また、演算装置１４は、Depthデータの各特徴マップのチャンネル数を、例えば、１２８に統一してもよい。その後、演算装置１４は、Depthデータの特徴マップのチャンネル数を、RGBデータの特徴マップのチャンネル数に統一してもよい。

また、図７に示すように、演算装置１４は、画像サイズ毎に、RGBデータの特徴マップとDepthデータの特徴マップを結合する。さらに、演算装置１４は、結合した特徴マップから、仮のバウンディングボックスを検出する。続いて、演算装置１４は、結合した特徴マップから、各バウンディングボックスについてのクラス確率を算出する。その後、演算装置１４は、仮のバウンディングボックスとクラス確率から、候補領域をする。なお、検出処理においては、チャンネル数の統一は、必須ではなく、最終的に、画像サイズ毎にRGBデータの特徴マップとDepthデータの特徴マップとを統合し、候補領域を検出することができればよい。

なお、この検出処理についても、異なるセンサで取得された複数の画像データから得られた特徴マップと、対象の候補領域との関係を学習した学習済みモデルを用いて実行することができる。例えば、RPNに相当する処理を、この検出処理とすることができる。

《受付処理》
演算装置１４は、受付処理において、異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた異なる複数の画像サイズの特徴マップを受け付ける。演算装置１４は、生成処理で生成された、複数の画像サイズの特徴マップを受け付けることができる。例えば、演算装置１４は、図８に示すように複数のサイズのRGBデータの特徴マップと、複数のサイズのDepthデータの特徴マップとを受け付ける。また、図８に示すように、RGBデータの特徴マップのチャンネル数とDepthデータの特徴マップのチャンネル数を統一してもよい。図８では、Depthデータの特徴マップのチャンネル数を、RGBデータの特徴マップに合わせた一例を示す。

《予測処理》
演算装置１４は、予測処理において、受け付けた複数の特徴マップを第１の学習済みモデルに入力し、複数の画像データに含まれる検出対象の領域を抽出し、検出対象のクラスを予測する。具体的には、演算装置１４は、図８に示すように、センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して同一の画像サイズの特徴マップを生成する。また、演算装置１４は、異なるセンサの特徴マップを結合し、結合特徴マップを生成する。その後、演算装置１４は、結合特徴マップから領域を抽出するとともに、クラスを予測する。なお、演算装置１４は、検出処理において検出された候補領域を用いて、結合特徴マップから対象の領域を抽出する。

《出力処理》
演算装置１４は、出力処理において、抽出された領域及び予測されたクラスを出力する。またこのとき、演算装置１４は、領域に関するサイズを求めて出力してもよい。例えば、図３Ａに示したような材木を対象とする場合、各対象の面積を求めて出力してもよいし、各対象の直径を求めて出力してもよい。さらに、演算装置１４は、材木の数を求めて出力することもできる。加えて、演算装置１４は、材木の断面から材木の中心点を求めてその中心点を把握可能な状態で出力してもよい。

〈物体認識方法〉
図９に示すフローチャートを用いて、実施形態に係る物体認識方法について説明する。フローチャートの個々のステップの具体的な処理は上述したので、各ステップを簡略化して説明する。まず、図９に示すように、演算装置１４は、複数のセンサを用いて得られた画像データを取得する（Ｓ０１）。

続いて、演算装置１４は、ステップＳ０１で複数の画像センサを用いて取得した各画像データについて、それぞれ複数の画像サイズの特徴マップを生成する（Ｓ０２）。ここで、異なるセンサで取得した各画像データについて、それぞれ同一の画像サイズの複数の特徴マップを生成する。

次に、演算装置１４は、ステップＳ０２で生成した複数の特徴マップについて、画像サイズ毎に、異なるセンサの特徴マップを結合する（Ｓ０３）。

演算装置１４は、ステップＳ０３で結合された各画像サイズの特徴マップから、それぞれ対象を含む候補領域を特定する（Ｓ０４）。

また、演算装置１４は、ステップＳ０２で生成した複数の特徴マップについて、センサの種類毎に、各画像サイズの特徴マップを結合する（Ｓ０５）。

その後、ステップＳ０６で得られた各センサの結合された特徴マップを結合して、結合特徴マップを生成する（Ｓ０６）。

また、演算装置１４は、ステップＳ０４で特定された候補領域を用いて、ステップＳ０６で生成された結合特徴マップから、対象領域を検出し、対象領域のクラスを予測する（Ｓ０７）。

さらに、演算装置１４は、ステップＳ０７で検出した対象領域及び予測したクラスを出力する（Ｓ０８）。これにより、演算装置１４を利用するユーザは、対象の領域及びクラスを把握することができる。

上述した物体認識システム１は、例えば、各画素についてクラス及びインスタンスを識別するインスタンスセグメンテーションに利用されるMask R-CNNの技術を用いることで実現される。具体的には、図１に示すように、物体認識システム１は、生成処理において、複数の特徴マップを生成する。この生成処理は、Mask R-CNNのCNNの処理に相当する。また、物体認識システム１は、検出処理において、画像サイズ毎に、異なるセンサによる特徴マップを合成した上で、対象の候補領域を検出する。この検出処理は、Mask R-CNNのいわゆるRegion proposal Network（RPN）に相当する。その後、物体認識システム１は、受付処理において、センサの種類毎に、受け付けた異なる画像サイズの特徴マップを結合する。各センサの種類毎の特徴マップの結合は、Mask R-CNNのいわゆるRoI Alignに相当する。次に、物体認識システム１は、センサ毎に結合された特徴マップを結合して、結合特徴マップを生成する。続いて、物体認識システム１は、結合特徴マップ及び検出処理で得られた候補領域を用いて、対象領域を抽出し、クラスを予測する。この対象領域の抽出及びクラスの予測は、Mask R-CNNのいわゆるFC Layerにおける処理に相当する。

物体認識において、使用する画像データがRGBデータのみの場合、画像データの撮影環境が暗すぎる又は明るすぎる等のように明るさが最適でない場合や、積雪時のような悪天候の場合等、色の区別がつきにくくなり対象が見にくい状態もあり得る。しかしながら、本開示の物体認識システム及び物体認識方法では、距離や温度等、目視以外の情報で対象を表す画像データを組み合わせてマルチモーダルに物体認識を実現することで、物体認識の精度を向上させることができる。例えば、対象物がRGBデータのみでは見にくい場合であっても、Depthデータで表される距離の情報を組み合わせることで、対象と対象以外の部分を見分けやすくすることができる。なお、実施形態においては、２種類のセンサを用いて取得した２種類の画像データであるRGBデータ及びDepthデータの組み合わせの例で説明したが、画像データを取得するセンサの数は複数種類であれば、２種類に限定されず、その組み合わせも限定されない。

〈実験例〉
例えば、第１の学習済みモデルM1及び第２の学習済みモデルM2をRGBデータのみを用いる場合（Case1）、RGBデータ及びDepthデータを用いる場合（Case2）、RGBデータ、Depthデータ及びThermalデータを用いる場合（Case3）で比較する。学習用データを５セット用いた場合の実験例１において、図１０Ａに示すように、各例での適合率（＝TP／（TP＋FP））は、Case１で『０．６９』、Case２で『１』、Case３で『０．９１』となり、複数のセンサで得られた画像データを利用する方が、物体認識の精度が高くなるという実験結果が得られた。特に、この例では、Case２の場合に『１』という高い結果が得られたが、この結果は今回の実験結果の一例であり、常に適合率が『１』になるという訳ではない。

また、別の学習用データを５セット用いた場合の実験例２においては、図１０Ｂに示すように、各例での適合率は、Case１で『０．８７８』、Case２で『０．９９５』、Case３で『０．９８１』となった。この場合も、複数のセンサで得られた画像データを利用する方が、物体認識の精度が高くなるという実験結果が得られた。なお、実験１及び２では、訓練データとするRGBデータ、Depthデータ及びThermalデータのセット数は５００、検証データとするRGBデータ、Depthデータ及びThermalデータのセット数は６であった。また、Case1でのEpoch数は６、Case2でのEpoch数は１０、Case3でのEpoch数は１３であった。

以上のように、本出願において開示する技術の例を示し、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。

本開示の全請求項に記載の物体認識システム及び物体認識方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びコンピュータプログラムとの協働などによって、実現される。

本開示の物体認識システム及び物体認識方法は、様々な計測や検知の自動化に有用である。例えば、林業における材木の本数や直径等の計測の自動化、工業における不良品の検出の自動化、農業における農作物の分類の自動化等に利用することができる。

１物体認識システム
１１入出力装置
１２通信装置
１３記憶装置
１４演算装置
Ｄ１第１の画像データ
Ｄ２第２の画像データ
Ｍ１第１の学習済みモデル
Ｍ２第２の学習済みモデル
Ｐ物体認識プログラム

Claims

物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識システムであって、記憶装置と、演算装置とを備え、
前記記憶装置は、
物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第１の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第１の学習済みモデル
を記憶し、
前記演算装置は、
異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた様々な画像サイズの特徴マップを受け付ける受付処理と、
受け付けた複数の特徴マップを前記第１の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、
抽出された前記領域及び予測された前記クラスを出力する出力処理と、
を実行し、
前記演算装置は、前記予測処理において、
センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第１の画像サイズの特徴マップを生成し、
異なるセンサの前記第１の画像サイズの特徴マップを結合して結合特徴マップを生成し、
前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する
物体認識システム。
前記第１の学習済みモデルは、前記予測処理において、インスタンスセグメンテーションの手法を利用する
請求項１に記載の物体認識システム。
前記演算装置は、
画像サイズ毎に、異なるセンサに基づく特徴マップを結合して第２の結合特徴マップを生成し、
前記第２の結合特徴マップから、前記対象の候補領域を検出する
検出処理を実行し、
前記予測処理において、前記候補領域を用いて、前記結合特徴マップから前記対象の領域を抽出する、
請求項１又は２に記載の物体認識システム。
前記記憶装置は、
物体認識の対象を含む画像データと、当該対象の領域及びクラスの特徴を示す異なる複数の画像サイズの特徴マップとの関係を機械学習により学習済みであって、入力された新たな画像データから、異なる画像サイズ及びチャンネル数の複数の特徴マップを出力する第２の学習済みモデル
を記憶し、
前記演算装置は、
異なる種類の複数のセンサで取得された複数の画像データを取得し、
前記第２の学習済みモデルにより、前記複数の画像データの各々について、複数の特徴マップを生成する
生成処理を実行し、
前記受付処理では、前記生成処理で生成された、前記複数の画像サイズの特徴マップを受け付ける
請求項１乃至３のいずれか１に記載の物体認識システム。
前記演算装置は、前記生成処理において、
前記複数の画像データの各々について、元の画像サイズから複数層に渡って順に同一サイズに縮小させることで、複数の特徴マップを生成する
請求項４に記載の物体認識システム。
前記第２の学習済みモデルは、画像データから、複数の特徴マップを生成する複数のパラメータを含む
請求項４又は５に記載の物体認識システム。
前記パラメータは、畳み込みニューラルネットワークのハイパーパラメータである
請求項６に記載の物体認識システム。
前記センサは、RGBデータを取得するセンサ、グレースケールデータを取得するセンサ、距離画像データを取得するセンサ、及び、サーマル画像データを取得するセンサから選択されたものである
請求項１乃至７のいずれか１に記載の物体認識システム。
記憶装置にアクセス可能な演算装置で実行される、物体認識の対象を含む画像データの特徴マップから前記対象の領域及びクラスを予測する物体認識方法であって、
前記記憶装置は、
物体認識の対象を含み、異なる種類の複数のセンサで取得された複数の画像データにおける当該対象の領域及びクラスの特徴をそれぞれ示す複数の特徴マップと、複数の前記画像データにおける前記対象の領域及び前記対象に付されたクラスとの関係を機械学習により学習済みである第１の学習済みモデルであって、入力された複数の特徴マップから、入力された前記複数の特徴マップが示す、対象の領域及びクラスを出力する、第１の学習済みモデル
を記憶し、
前記物体認識方法は、
異なる種類の複数のセンサで取得された複数の画像データからそれぞれ得られた様々な画像サイズの特徴マップを受け付ける受付処理と、
受け付けた複数の特徴マップを前記第１の学習済みモデルに入力し、前記複数の画像データに含まれる検出対象の領域を抽出し、前記検出対象のクラスを予測する予測処理と、
抽出された前記領域及び予測された前記クラスを出力する出力処理と、
を含み、
前記予測処理において、
センサの種類毎に、異なる複数の画像サイズの特徴マップを結合して第１の画像サイズの特徴マップを生成し、
異なるセンサの前記第１の画像サイズの特徴マップを結合して結合特徴マップを生成し、
前記結合特徴マップから前記領域を抽出するとともに、前記クラスを予測する
物体認識方法。
請求項９の物体認識方法を、前記演算装置に実行させるためのコンピュータプログラム。