JP2021012651A - 予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム - Google Patents

予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム Download PDF

Info

Publication number
JP2021012651A
JP2021012651A JP2019127805A JP2019127805A JP2021012651A JP 2021012651 A JP2021012651 A JP 2021012651A JP 2019127805 A JP2019127805 A JP 2019127805A JP 2019127805 A JP2019127805 A JP 2019127805A JP 2021012651 A JP2021012651 A JP 2021012651A
Authority
JP
Japan
Prior art keywords
prediction
target person
image
unit
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019127805A
Other languages
English (en)
Other versions
JP7354626B2 (ja
Inventor
火炎 木焦
Kaen Kogashi
火炎 木焦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2019127805A priority Critical patent/JP7354626B2/ja
Publication of JP2021012651A publication Critical patent/JP2021012651A/ja
Application granted granted Critical
Publication of JP7354626B2 publication Critical patent/JP7354626B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】対象者の周囲の状況を考慮して対象者の位置を高精度に予測する。【解決手段】予測装置(1)は、画像(201)に写るオブジェクトを検出するオブジェクト検出部(101)と、対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおけるオブジェクトの検出結果を示す情報とを予測モデル(203)に入力して対象者が移動する位置を予測する予測部(106)と、を備えている。【選択図】図1

Description

本発明は、対象者を撮影した画像を用いて当該対象者の移動先を予測する予測装置等に関する。
人間の動きを機械学習することにより構築した予測モデルを用いて、対象者の動きを予測する技術が従来技術として知られている。例えば、下記の非特許文献1には、多数の人が行き交う人ごみの中で対象者がどのように移動するかを、LSTM(long short-term memory)を用いた予測モデルを用いて予測する技術が開示されている。
Alexandre Alahi et. al.,"Social LSTM: Human Trajectory Prediction in Crowded Spaces",CVPR2016 pp.961-971, 2016
しかしながら、上記従来技術は、例えば工場内等のように通行者が比較的少ない場所において、対象者がどのような位置に移動するかを予測するために最適な技術であるとはいえない。これは、通行者が比較的少ない状況下では、通行者以外の要素が、対象者の移動先に影響を与える主因となることが多いためである。
本発明の一態様は、対象者の周囲の状況を適切に考慮して、対象者が移動する位置を高精度に予測することが可能な予測装置等を実現することを目的とする。
上記の課題を解決するために、本発明の一側面に係る予測装置は、対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置であって、前記画像に写るオブジェクトを検出するオブジェクト検出部と、前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測部と、を備えている。
上記の構成によれば、対象者の周囲に設定された複数の領域のそれぞれにおけるオブジェクトの検出結果を示す情報を、機械学習済みの予測モデルに入力して、対象者が移動する位置を予測する。よって、対象者の周囲の状況を考慮して対象者が移動する位置を高精度に予測することが可能になる。
上記予測装置において、前記オブジェクト検出部は、前記対象者が作業を行う場所に存在するオブジェクトを検出してもよい。
対象者が作業を行う場所は、対象者の移動先となる可能性がある場所である。よって、対象者が作業を行う場所に存在するオブジェクトを検出して、その検出結果を示す情報を予測モデルに入力する上記の構成によれば、対象者の移動先となる可能性がある場所を考慮して高精度な予測を行うことが可能になる。
上記予測装置において、前記オブジェクト検出部は、前記対象者の動作対象となるオブジェクトを検出してもよい。
対象者の動作対象となるオブジェクトが存在する場所は、対象者の移動先となる可能性がある場所である。よって、対象者の動作対象となるオブジェクトを検出して、その検出結果を示す情報を予測モデルに入力する上記の構成によれば、対象者の移動先となる可能性がある場所を考慮して高精度な予測を行うことが可能になる。
上記予測装置は、前記対象者が向いている方向を判定する方向判定部を備えていてもよく、この場合、前記予測部は、前記対象者に対して前記方向に位置する前記領域に写るオブジェクトの検出結果を示す情報を前記予測モデルに入力してもよい。
移動するとき、人は自身の進行方向を向くものであるから、対象者が向いている方向に位置する領域に写るオブジェクトが存在する場所は対象者の移動先となる可能性があり、また当該オブジェクトが対象者の進路に影響を与える可能性もある。よって、対象者が向いている方向に位置する領域に写るオブジェクトの検出結果を示す情報予測モデルに入力する上記の構成によれば、対象者の移動先に関連する可能性のあるオブジェクトを考慮して高精度な予測を行うことが可能になる。
上記の課題を解決するために、本発明の一側面に係るモデル生成装置は、対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置であって、1または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得部と、上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習部と、を備えている。
上記の構成によれば、移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを用いて予測モデルを構築する。よって、この予測モデルを用いることにより、対象者の周囲の状況を考慮して対象者が移動する位置を高精度に予測することが可能になる。
上記の課題を解決するために、本発明の一側面に係る予測方法は、対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置による予測方法であって、前記画像に写るオブジェクトを検出するオブジェクト検出ステップと、前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測ステップと、を含む。この予測方法によれば、上記予測装置と同様の作用効果を奏する。
上記の課題を解決するために、本発明の一側面に係るモデル生成方法は、対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置によるモデル生成方法であって、1または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得ステップと、上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習ステップと、を含む。このモデル生成方法によれば、上記モデル生成装置と同様の作用効果を奏する。
また、上記予測装置としてコンピュータを機能させるための予測プログラムであって、上記オブジェクト検出部および上記予測部としてコンピュータを機能させるための予測プログラムによれば、上記予測装置と同様の作用効果を奏する。
また、上記モデル生成装置としてコンピュータを機能させるためのモデル生成プログラムであって、上記教師データ取得部および上記学習部としてコンピュータを機能させるためのモデル生成プログラムによれば、上記モデル生成装置と同様の作用効果を奏する。
本発明の一態様によれば、対象者の周囲の状況を適切に考慮して、対象者が移動する位置を高精度に予測することが可能になる。
本発明の実施形態1に係る予測装置の要部構成の一例を示すブロック図である。 上記予測装置の適用場面の一例を示す図である。 画像からの対象者とオブジェクトの検出例を示す図である。 上記検出結果に基づいて生成された移動情報の例を示す図である。 予測モデルを構築する処理の一例を示すフローチャートである。 対象者が移動する位置を予測する処理の一例を示すフローチャートである。 本発明の実施形態2に係る予測装置の要部構成の一例を示すブロック図である。 画像からの対象者とオブジェクトと対象者の向きの検出例と、それらの検出結果に基づいて生成された移動情報の例を示す図である。
以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。
〔実施形態1〕
§1.適用例
図2を用いて本発明が適用される場面の一例について説明する。図2は、本実施形態に係る予測装置1の適用場面の一例を示す図である。予測装置1は、対象者を撮影した画像を用いて、その対象者が移動する位置を予測する装置である。
上記の予測に先立ち、予測装置1は、当該予測に用いる予測モデルを構築する。具体的には、図2の(a)に示すように、まず、移動者が移動する様子をカメラ等の撮影装置で撮影し、撮影によって得られた画像を予測装置1に入力する。予測装置1は、この画像を用いて機械学習用の教師データを生成し、生成した教師データを用いて予測モデルを構築する。
上記の教師データは、画像に写る移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられたデータである。なお、オブジェクトとは、画像に写るものであればよい。例えば、上記オブジェクトは、壁や柱等の構造物やその一部分であってもよいし、椅子や文房具、機材等の移動させることが可能なものであってもよいし、壁や床等に描かれた文字や記号等の二次元のものであってもよいし、人や動物等のように移動するものであってもよい。
移動者の時系列の位置情報に加えて、その周囲にある上記のようなオブジェクトの検出結果を示す情報を教師データに含めることにより、移動者の周囲の状況を加味した学習が可能になる。なお、移動者は複数人であってもよい。その場合、各移動者の時系列の位置情報とその周囲におけるオブジェクトの検出結果とに基づいて教師データがそれぞれ生成される。
以上のようにして予測モデルが構築された後、図2の(b)に示すように、移動する位置を予測する対象者が移動する様子を撮影した画像を予測装置1に入力すると、予測装置1は、対象者がその後に移動する位置を予測し、その結果を出力する。具体的には、まず、予測装置1は、撮影された画像に写るオブジェクトを検出する。そして、予測装置1は、撮影された画像に基づいて特定した対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおけるオブジェクトの検出結果を示す情報とを、上述の予測モデルに入力する。これにより、予測モデルから対象者が移動する位置の予測結果が出力される。このように、予測装置1によれば、対象者の周囲の状況を考慮して対象者が移動する位置を高精度に予測することが可能になる。
§2.構成例
図1に基づいて予測装置1の構成例を説明する。図1は、予測装置1の要部構成の一例を示すブロック図である。図1に示すように、予測装置1は、予測装置1の各部を統括して制御する制御部10と、予測装置1が使用する各種データを記憶する記憶部20を備えている。また、予測装置1は、予測装置1に対するデータの入力を受け付ける入力部30と、予測装置1がデータを出力するための出力部40を備えている。なお、記憶部20、入力部30、および出力部40は、予測装置1に対して外付けされた機器であってもよい。
制御部10には、オブジェクト検出部101、空間情報生成部102、移動情報生成部103、教師データ生成部(教師データ取得部)104、学習部105、および予測部106が含まれている。また、記憶部20には、予測装置1による位置予測の対象者が写った画像である画像201と、対象者がどのような状況でどのように移動したかを示す移動情報202と、対象者の位置を予測するための予測モデル203が記憶されている。記憶部20に記憶されているこれらのデータの詳細は図3および図4に基づいて後述する。
オブジェクト検出部101は、画像201に写るオブジェクトを検出する。検出対象のオブジェクトには、画像201に写る対象者も含まれる。対象者以外のオブジェクトは、対象者の移動に直接的または間接的に影響を与えるものであればよい。例えば、対象者の通行の妨げになるものや、対象者が立ち寄る可能性のある場所に存在するものを検出対象のオブジェクトとしてもよい。
オブジェクトの検出方法は特に限定されない。例えば、検出対象の各オブジェクトの画像を教師データとした機械学習により構築した学習済みモデルを用いてオブジェクトの検出を行ってもよい。この場合、例えば深層学習によって構築した学習済みモデルを用いることが、検出速度および検出精度の点から好ましい。具体例を挙げれば、Faster R-CNN(Regional Convolutional Neural Network)等の学習済みモデルが好適である。
なお、画像201に写る対象者の検出と、他のオブジェクトを個別の処理部で検出する構成としてもよい。この場合、例えば、対象者は画像解析で検出し、他のオブジェクトはFaster RCNNで検出する構成としてもよい。画像解析で対象者を検出する場合、例えば、対象者の着衣や装身具等の色が既知であれば、画像201におけるその色の領域を対象者が写っている領域として検出してもよい。
空間情報生成部102は、対象者の周囲の空間に関する空間情報を生成する。空間情報は、対象者の周囲に存在している因子であって、該対象者の移動先に関連する因子を示す情報である。本実施形態では、一例として、空間情報生成部102が、画像201における対象者の周囲に複数の領域を設定し、各領域内におけるオブジェクトの検出結果を示す空間情報を生成する例を説明する。空間情報の具体例は図3および図4に基づいて後述する。
移動情報生成部103は、オブジェクト検出部101が検出した対象者の移動軌跡を示す軌跡情報を生成し、この軌跡情報と、空間情報生成部102が生成した空間情報とを対応付けて移動情報202を生成する。軌跡情報の生成方法は特に限定されず、例えば時系列の画像201において対象者が検出された各位置の座標を特定し、それらの座標を対象者の位置情報とし、それらの位置情報を時系列順に配列して軌跡情報としてもよい。
教師データ生成部104は、1または複数の移動者が移動する様子を撮影した画像から生成された教師データを取得する。この教師データは、移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報(上述の空間情報)とが対応付けられたものである。詳細は後述するが、教師データ生成部104は、移動情報202を用いて上記教師データを生成することにより、当該教師データを取得する。なお、教師データの生成を他の装置で行う構成としてもよく、この場合、教師データ生成部104は、当該他の装置から教師データを取得すればよい。
学習部105は、教師データ生成部104が生成した教師データを用いて予測モデル203を構築する。このように、予測装置1は、予測モデル203を構築するモデル生成装置としての機能も備えている。なお、教師データの生成および予測モデル203の構築の詳細は図5に基づいて後述する。
予測部106は、対象者が移動する位置を予測する。より詳細には、予測部106は、移動情報生成部103が生成した移動情報202を予測モデル203に入力する。そして、予測部106は、予測モデル203の出力から、対象者が移動する位置を予測する。
なお、予測モデル203は、移動者の時系列の位置情報および当該移動者の周囲のオブジェクトと、当該移動者の移動先との関係をモデル化したものであればよい。ただし、予測モデル203の入力データは時系列のデータとなるため、時系列データを入力データとすることができるモデルを用いる。また、高い予測精度が必要とされる場合には、深層学習に対応したモデルを用いることが好ましく、End-to-End学習ができるモデルであればさらに好ましい。これらの条件を満たすモデルとしては、例えば、シーケンス・トゥー・シーケンス型のLSTMが挙げられる。予測モデル203をLSTMのモデルとした場合、入力データのデータ長を可変とすることができるという利点もある。
(移動情報の生成例)
図3および図4に基づいて移動情報202の生成例について説明する。図3は、画像201からの対象者とオブジェクトの検出例を示す図である。図3に示す画像201は、対象者が同図の左端から右方向に移動している様子を撮影した動画像から所定の時間間隔で抽出したフレーム画像の一つである。図4は、上記検出結果に基づいて生成された移動情報202の例を示す図である。
図3に示す画像201には、対象者が写っていると共に、4種類のオブジェクト(壁、作業デスク、作業対象物体、および作業者以外の人)が写っている。対象者およびこれらのオブジェクトはオブジェクト検出部101によって検出される。なお、オブジェクトが写っていない領域は通路であり、対象者が移動可能な領域である。
検出するオブジェクトのうち「壁」は、対象者の通行の妨げとなるオブジェクトである。柱や他の構造物も対象者の通行の妨げとなるオブジェクトとして検出してもよい。また、このような各オブジェクトの検出結果は、例えば「対象者の通行の妨げとなるオブジェクト」としてまとめて記録してもよい。以下説明する他の種類のオブジェクトについても同様である。
検出するオブジェクトのうち「作業デスク」は、対象者が作業を行う場所に存在するオブジェクトである。椅子や作業場所を示す文字等も対象者が作業を行う場所に存在するオブジェクトとして検出してもよい。対象者が作業を行う場所は、対象者の移動先となる可能性がある場所であるから、上記のようなオブジェクトを検出することにより、対象者の移動先となる可能性がある場所を考慮して高精度な予測を行うことが可能になる。
検出するオブジェクトのうち「作業対象物体」は、対象者の動作対象となるオブジェクトである。例えば、作業者が運ぶ荷物、作業に使用する機器等を対象者の動作対象となるオブジェクトとして検出してもよい。また、例えば、対象者が目を留める可能性のある絵画や表示装置などの作業に関連しないものを検出対象としてもよい。
検出するオブジェクトのうち「人」は、対象者の通行の妨げともなり得るし、話しかける等の動作の対象にもなり得るオブジェクトである。検出した「人」がどのような人であるか、またどのように移動しているか、等は対象者の通行に影響を与え得るから、そのような情報についても併せて記録しておき、それを学習に利用してもよい。
なお、上述した各種類のオブジェクトは例示に過ぎず、これらのオブジェクトを全て検出対象とする必要はなく、他の種類のオブジェクトが検出対象に含まれていてもよい。このようなオブジェクトの検出結果から空間情報が生成される。
上述のように、空間情報生成部102は、画像201における対象者の周囲に複数の領域を設定する。図3の例では、対象者の位置(より正確には対象者が写っている領域の重心の位置P)を中心として4つの矩形状の領域が設定されている。具体的には、対象者の右上には右上グリッド、右下上には右下グリッド、左上には左上グリッド、そして左下には左下グリッドが設定されている。
空間情報生成部102は、このように設定した各グリッド内におけるオブジェクトの検出結果を示す空間情報を生成する。例えば、図3の例では、右上グリッド内では作業デスク、右下グリッド内では人、左上グリッド内では壁、そして左下グリッド内では作業対象物体が検出されたことを示す空間情報を生成する。また、空間情報生成部102は、動画像から抽出された各フレームの画像201から同様の処理により空間情報を生成する。つまり、空間情報生成部102は、各フレームの画像201のそれぞれから空間情報を生成する。
また、上述のように、移動情報生成部103は、画像201において対象者が検出された位置の座標を特定する。例えば、移動情報生成部103は、4つのグリッドの中心である位置Pの座標を、対象者の検出位置の座標としてもよい。そして、移動情報生成部103は、動画像から抽出された各フレームの画像201のそれぞれについてこのような処理を行い、それによって得られた座標を時系列順(フレーム順)に並べて軌跡情報を生成する。
移動情報生成部103は、上記のようにして生成した軌跡情報と、空間情報生成部102が生成した空間情報とを対応付けることにより、図4に示すような移動情報202を生成する。図4に示す移動情報202は、動画像から抽出した60フレーム分の画像201から生成したものである。例えば、1秒の動画像から30フレームの画像201を抽出した場合、2秒間の動画像から図示のような移動情報202を生成することができる。
図4の移動情報202は、各フレームの画像201から生成された位置情報(座標)と空間情報とが時系列順に配列している。よって、移動情報202から、対象者の位置の遷移と、各位置における対象者の周囲のオブジェクトを特定することができる。例えば、図示の移動情報202からは、1フレーム目において、対象者の位置情報は(0,50)であり、左上グリッドと右上グリッドの位置には壁があり、左下グリッドの位置にはオブジェクトはなく、右下グリッドの位置には作業デスクがあったことが分かる。なお、図4では、説明を分かりやすくするため、オブジェクトの名称を記載しているが、実際の移動情報202では、オブジェクトに固有の識別情報を設定し、その識別情報を記憶しておけばよい。
§3.動作例
(予測モデルを構築する処理の流れ)
図5に基づいて予測モデル203を構築する処理の流れを説明する。図5は、予測モデル203を構築する処理(モデル生成方法)の一例を示すフローチャートである。なお、図5の処理の前提として、移動者を定点カメラにて撮影した動画像から抽出した時系列のフレーム画像が画像201として記憶部20に記憶されているとする。無論、記憶部20に動画像を記憶しておき、オブジェクト検出部101等が、その動画像からフレーム画像を抽出する構成としてもよい。また、動画像に写る移動者は、移動先の予測の対象とする対象者と同一人物であってもよいし、他の人物であってもよい。また、異なる移動者を撮影した複数の動画像からそれぞれ抽出した画像201が記憶されていてもよい。
S1では、オブジェクト検出部101が、記憶部20に記憶されている一連のフレームの画像201を取得し、取得した各画像201から移動者を含む各種オブジェクトを検出する。例えば、2秒間の動画像から抽出した60フレーム分の画像201から1つの移動情報202を生成する場合、オブジェクト検出部101は、60フレーム分の画像201を取得して、それらの全てについてオブジェクトの検出を行う。
S2では、オブジェクト検出部101は、各画像201について、S1で検出した移動者の位置を特定する処理を行い、その特定結果に基づいて移動者の軌跡情報を生成する。上述のように、移動者の位置は、画像201における位置座標として特定すればよく、その座標を用いて軌跡情報を生成することができる。
S3では、空間情報生成部102が、S2で検出された移動者の周囲に複数の領域を設定し、各領域に写るオブジェクトを特定する。例えば、空間情報生成部102は、図3の例のように、移動者の重心の位置Pを中心とする4つのグリッドを設定し、各グリッド内の領域で検出されたオブジェクトを特定してもよい。この処理は、一連のフレームの画像201のそれぞれについて行い、空間情報生成部102は、各特定結果に基づいて図4に示したような空間情報を生成する。
S4では、移動情報生成部103が、S2で生成された軌跡情報と、S3で生成された空間情報とを対応付けて移動情報202を生成し、これを記憶部20に記憶させる。そして、S5では、移動情報生成部103は、必要な数の移動情報202の生成が終了しているか否かを判定する。例えば、機械学習に必要な教師データの数が決まっている場合、移動情報生成部103は、必要数の教師データを作成できるだけの移動情報202が生成済みであればS5でYESと判定し、生成されていなければS5ではNOと判定する。S5でYESと判定された場合にはS6の処理に進み、S5でNOと判定された場合にはS1の処理に戻る。S1の処理に戻った場合、移動情報202の生成に用いられていない一連のフレームの画像201が取得される。
S6(教師データ取得ステップ)では、教師データ生成部104が、S4で生成された移動情報202から教師データを生成する。具体的には、教師データ生成部104は、各移動情報202に、その移動情報202と時系列で連続する所定期間の位置情報を正解データとして対応付けて教師データを生成する。
例えば、4秒間の動画像の前半2秒間から生成された移動情報202と、後半2秒間から生成された移動情報202があった場合を考える。この場合、教師データ生成部104は、前半2秒間から生成された移動情報202に対し、後半2秒間から生成された移動情報202に含まれる位置情報を対応付けて教師データとする。これにより、2秒間の移動者の移動軌跡およびその周囲のオブジェクトと、その後の2秒間における移動者の移動軌跡との関係を示す教師データを生成することができる。
S7(学習ステップ)では、学習部105が、S6で生成された教師データを用いて予測モデル203を構築する。そして、S8では、学習部105は、S7で構築した予測モデル203を記憶部20に記憶させる。これにより、予測モデルの構築処理は終了となる。
(移動位置を予測する処理の流れ)
図6に基づいて対象者が移動する位置を予測する処理の流れを説明する。図6は、対象者が移動する位置を予測する処理(予測方法)の一例を示すフローチャートである。なお、図6の処理の前提として、対象者を定点カメラにて所定時間撮影した動画像から抽出した時系列のフレーム画像が画像201として記憶部20に記憶されているとする。以下の処理では、これらの画像201からその後の対象者の移動位置を予測する。また、S11(オブジェクト検出ステップ)〜S14の処理は、図5のS1〜S4の処理と同様であるから説明を省略する。
S15(予測ステップ)では、予測部106が、S14で生成された移動情報202を予測モデル203に入力し、対象者が移動する位置を出力させる。例えば、予測モデル203が60フレーム分の画像201から生成された移動情報202から、当該60フレームに続く、将来の60フレームにおける対象者の移動位置を予測するモデルである場合を考える。この場合、予測モデル203は、将来の60フレームの対象者の位置情報を出力するので、予測部106はそれらの位置情報を対象者が移動する位置を示す情報として取得する。
S16では、予測部106は、S16の予測結果を出力部40に出力させる。例えば、出力部40が表示装置である場合、予測部106は、対象者が移動する位置を示す情報を表示させる。表示態様は、対象者がどのような位置に移動するかを認識させることができるようなものであればよい。例えば、予測部106は、対象者を撮影した動画像から抽出した最後のフレームの画像201に重畳して、対象者の予想移動軌跡を示す線分を表示させてもよい。
なお、教師データ生成部104は、予測のために生成された移動情報202と、その後、対象者の移動する様子を撮影することによって得られた画像とを用いて、新たな教師データを生成してもよい。そして、学習部105は、新たに生成された教師データを用いて予測モデル203を更新してもよい。これにより、予測モデル203の予測精度を維持または向上させることができる。
(Faster RCNNとSORTの組み合わせによるオブジェクトのトレース)
各フレームの画像201からの対象者とオブジェクトの検出、および、それらの位置のトレースには、Faster RCNNとSORT(Simple Online and Realtime Tracking)を用いてもよい。この場合、オブジェクト検出部101は、Faster RCNNを用いて、対象者を撮影した動画像の先頭フレームの画像201から対象者と各オブジェクトを検出し、それらの画像201における位置と範囲を特定する。そして、オブジェクト検出部101は、SORTを用いて、後続の各フレームの画像201における対象者と各オブジェクトの位置と範囲をトレースする。このような構成であっても、図4に示すような移動情報202を生成するために必要な各種情報(具体的には対象者の軌跡情報と空間情報)を取得することができる。
〔実施形態2〕
本発明の他の実施形態について、図7および図8に基づいて以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
(構成例)
図7に基づいて本実施形態に係る予測装置の構成を説明する。図7は、予測装置1Aの要部構成の一例を示すブロック図である。予測装置1Aは、制御部10に方向判定部121が含まれている点、空間情報生成部102が空間情報生成部102Aに変わっている点で予測装置1と相違している。また、予測装置1Aは、記憶部20に記憶されている移動情報202と予測モデル203がそれぞれ移動情報202Aと予測モデル203Aに変わっている点でも予測装置1と相違している。
また、予測装置1Aは、予測モデル203Aの構築に関する構成、すなわち教師データ生成部104と学習部105を備えていない点でも予測装置1と相違している。このため、予測装置1Aでは、学習部105を備えたモデル生成装置が生成した予測モデル203を予め記憶部20に記憶しておく。なお、予測装置1も予測装置1Aと同様に、予測モデル203の構築に関する構成を備えていない構成としてもよい。この場合も、モデル生成装置が生成した予測モデル203を予め記憶しておけばよい。無論、予測装置1Aを、教師データ生成部104と学習部105を備える構成としてもよい。
方向判定部121は、画像201に写る対象者が向いている方向を判定する。そして、空間情報生成部102Aは、画像201に写る対象者に対して、方向判定部121が特定した方向に位置する領域に写るオブジェクトを検出する。つまり、実施形態1の空間情報生成部102は対象者の周囲の全方向のオブジェクトを検出するが、本実施形態の空間情報生成部102Aは方向判定部121が特定した方向のオブジェクトを検出する点で相違している。
上述のように、空間情報生成部102Aは方向判定部121が特定した方向、すなわち対象者が向いている方向にあるオブジェクトを検出する。このため、移動情報202Aに含まれる空間情報は、対象者が向いている方向で検出されたオブジェクトを示すものとなっている。また、予測モデル203Aは、上記のような移動情報202Aを元に生成された教師データを用いて構築されたものであり、移動情報202Aを入力データとして、対象者の移動する位置を出力する構成となっている。このため、予測部106は、対象者が向いている方向に位置する領域に写るオブジェクトの検出結果を示す空間情報を予測モデル203Aに入力することになる。
(移動情報の生成例)
図7に基づいて移動情報202Aの生成例を説明する。図7は、画像201からの対象者とオブジェクトと対象者の向きの検出例と、それらの検出結果に基づいて生成された移動情報202Aの例を示す図である。
図8の(a)に示す画像201では、対象者が検出されていると共に、3種類のオブジェクト(壁、作業デスク、作業対象物体)が検出されている。また、方向判定部121により、対象者が向いている方向が特定されている。同図では、対象者が向いている方向を矢印で示している。
対象者の向いている方向は、画像201を解析することによって特定することが可能である。図8の(a)の例では、対象者が着用している帽子にマーカが付いているので、方向判定部121は画像201からマーカを検出し、その検出結果に基づいて対象者の向いている方向を正確に特定することができる。無論、対象者の向いている方向の特定方法は任意であり、この例に限定されない。
空間情報生成部102Aは、方向判定部121が特定した方向にグリッドを設定する。具体的には、図8の(a)の例では、空間情報生成部102Aは、対象者の重心の位置Pに対して当該対象者の右前方に位置する右前方グリッドと、位置Pに対して当該対象者の左前方に位置する左前方グリッドを設定している。この場合、図8の(b)に示すように、空間情報生成部102Aが生成する空間情報は、左前方グリッドには作業対象物体が検出され、右前方グリッドには壁が検出されたことを示すものとなる。
対象者の位置の予測に用いる動画像から抽出した一連のフレームの画像201のそれぞれについて空間情報を生成する上述の処理を行う。また、移動情報生成部103は、実施形態1と同様にして対象者の軌跡情報を生成して、上記の空間情報と対応付けることにより、図8の(b)に示すような移動情報202Aを生成する。
移動するとき、人は自身の進行方向を向くものであるから、対象者が向いている方向に位置する領域に写るオブジェクトが存在する場所は対象者の移動先となる可能性があり、また当該オブジェクトが対象者の進路に影響を与える可能性もある。よって、対象者が向いている方向に位置する領域に写るオブジェクトの検出結果を示す移動情報202Aを予測モデル203Aに入力する本実施形態の構成によれば、対象者の移動先に関連する可能性のあるオブジェクトを考慮して高精度な予測を行うことが可能になる。
§4.変形例
空間情報を取得するために対象者の周囲に設定する領域の形状、サイズ、および数は、任意である。例えば、対象者の前方には広い領域を設定し、後方には狭い領域を設定する等のように、サイズの異なる複数の領域を設定してもよい。ただし、領域が広過ぎると、関連性の低いオブジェクトが検出される割合が高くなる。例えば、領域の幅は、通路の幅と同程度から通路の幅の2倍程度までとし、領域の奥行きも同程度としてもよい。これにより、通路の両脇にどのようなオブジェクトが存在するかを考慮した予測が可能になる。また、例えば、対象者を斜め上方から見下ろす角度で撮影したような場合には、対象者の周囲に立体の領域を設定してもよい。
予測装置1は、自律移動する車両やロボットなどの各種機器の動作制御に利用することができる。この場合、各種機器の制御装置は、当該機器の周囲の人がどのように移動するかを予測装置1に予測させ、その予測結果に基づいて各種機器の動作を制御する。これにより、例えば、各種機器を人に接触することなく安全に移動させることも可能になる。このように、本発明の一態様には、予測装置1の予測結果に基づいて機器を制御する制御装置も含まれる。
〔ソフトウェアによる実現例〕
予測装置1および1Aの制御ブロック(特に制御部10に含まれる各部)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、予測装置1および1Aは、各機能を実現するソフトウェアであるプログラム(予測プログラム/モデル生成プログラム)の命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
1 予測装置(モデル生成装置)
101 オブジェクト検出部
106 予測部
201 画像
203 予測モデル
1A 予測装置
121 方向判定部

Claims (9)

  1. 対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置であって、
    前記画像に写るオブジェクトを検出するオブジェクト検出部と、
    前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測部と、を備えている予測装置。
  2. 前記オブジェクト検出部は、前記対象者が作業を行う場所に存在するオブジェクトを検出する、請求項1に記載の予測装置。
  3. 前記オブジェクト検出部は、前記対象者の動作対象となるオブジェクトを検出する、請求項1に記載の予測装置。
  4. 前記対象者が向いている方向を判定する方向判定部を備え、
    前記予測部は、前記対象者に対して前記方向に位置する前記領域に写るオブジェクトの検出結果を示す情報を前記予測モデルに入力する、請求項1から3の何れか1項に記載の予測装置。
  5. 対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置であって、
    1または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得部と、
    上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習部と、を備えているモデル生成装置。
  6. 対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置による予測方法であって、
    前記画像に写るオブジェクトを検出するオブジェクト検出ステップと、
    前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測ステップと、を含む予測方法。
  7. 対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置によるモデル生成方法であって、
    1または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得ステップと、
    上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習ステップと、を含むモデル生成方法。
  8. 請求項1に記載の予測装置としてコンピュータを機能させるための予測プログラムであって、上記オブジェクト検出部および上記予測部としてコンピュータを機能させるための予測プログラム。
  9. 請求項5に記載のモデル生成装置としてコンピュータを機能させるためのモデル生成プログラムであって、上記教師データ取得部および上記学習部としてコンピュータを機能させるためのモデル生成プログラム。
JP2019127805A 2019-07-09 2019-07-09 予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム Active JP7354626B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019127805A JP7354626B2 (ja) 2019-07-09 2019-07-09 予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019127805A JP7354626B2 (ja) 2019-07-09 2019-07-09 予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム

Publications (2)

Publication Number Publication Date
JP2021012651A true JP2021012651A (ja) 2021-02-04
JP7354626B2 JP7354626B2 (ja) 2023-10-03

Family

ID=74227461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019127805A Active JP7354626B2 (ja) 2019-07-09 2019-07-09 予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム

Country Status (1)

Country Link
JP (1) JP7354626B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015167017A (ja) * 2014-03-03 2015-09-24 ゼロックス コーポレイションXerox Corporation マルチタスク学習を使用したラベル付けされていないビデオのための自己学習オブジェクト検出器
JP2018032078A (ja) * 2016-08-22 2018-03-01 Kddi株式会社 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法
JP2019075051A (ja) * 2017-10-19 2019-05-16 セコム株式会社 画像処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015167017A (ja) * 2014-03-03 2015-09-24 ゼロックス コーポレイションXerox Corporation マルチタスク学習を使用したラベル付けされていないビデオのための自己学習オブジェクト検出器
JP2018032078A (ja) * 2016-08-22 2018-03-01 Kddi株式会社 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法
JP2019075051A (ja) * 2017-10-19 2019-05-16 セコム株式会社 画像処理装置

Also Published As

Publication number Publication date
JP7354626B2 (ja) 2023-10-03

Similar Documents

Publication Publication Date Title
Roberts et al. Vision-based construction worker activity analysis informed by body posture
CN104811660B (zh) 控制装置及控制方法
TWI684136B (zh) 機器人、控制系統以及用以操作機器人之方法
JP6159179B2 (ja) 画像処理装置、画像処理方法
JP2015520470A (ja) データベース生成及び更新に深度ベースのトラッキングを用いた顔認識自己学習
JP2018508851A (ja) モニタリング
CN110533685B (zh) 对象跟踪方法和装置、存储介质及电子装置
CN102457680A (zh) 图像处理装置及图像处理方法
JP2018160219A (ja) 移動経路予測装置、及び移動経路予測方法
US20210044793A1 (en) Generation method for generating free viewpoint image, display method for displaying free viewpoint image, free viewpoint image generation device, and display device
CN112070052A (zh) 一种间距监测方法、装置、系统及存储介质
Álvarez-Aparicio et al. Biometric recognition through gait analysis
JP2020170252A (ja) 画像処理装置、情報処理方法及びプログラム
CN113435432A (zh) 视频异常检测模型训练方法、视频异常检测方法和装置
Jeong et al. Vision-Based Productivity Monitoring of Tower Crane Operations during Curtain Wall Installation Using a Database-Free Approach
JP2018509670A (ja) モニタリング
Cai et al. Integrating positional and attentional cues for construction working group identification: A long short-term memory based machine learning approach
US11341774B2 (en) Information processing apparatus, data generation method, and non-transitory computer readable medium storing program
JP2021012651A (ja) 予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム
JP2015019296A (ja) 画像処理装置、画像処理方法、および画像処理プログラム
WO2019207875A1 (ja) 情報処理装置、情報処理方法及びプログラム
US11922291B2 (en) Image processing via isotonic convolutional neural networks
Rehman et al. Human tracking robotic camera based on image processing for live streaming of conferences and seminars
Zengeler et al. Person tracking in heavy industry environments with camera images
Chen et al. Estimation of people movement in video based on optical flow block method and motion maps

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230904

R150 Certificate of patent or registration of utility model

Ref document number: 7354626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150