JP2021012651A

JP2021012651A - 予測装置、モデル生成装置、予測方法、モデル生成方法、予測プログラム、およびモデル生成プログラム

Info

Publication number: JP2021012651A
Application number: JP2019127805A
Authority: JP
Inventors: 火炎木焦; Kaen Kogashi
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2021-02-04
Anticipated expiration: 2039-07-09
Also published as: JP7354626B2

Abstract

【課題】対象者の周囲の状況を考慮して対象者の位置を高精度に予測する。【解決手段】予測装置（１）は、画像（２０１）に写るオブジェクトを検出するオブジェクト検出部（１０１）と、対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおけるオブジェクトの検出結果を示す情報とを予測モデル（２０３）に入力して対象者が移動する位置を予測する予測部（１０６）と、を備えている。【選択図】図１

Description

本発明は、対象者を撮影した画像を用いて当該対象者の移動先を予測する予測装置等に関する。

人間の動きを機械学習することにより構築した予測モデルを用いて、対象者の動きを予測する技術が従来技術として知られている。例えば、下記の非特許文献１には、多数の人が行き交う人ごみの中で対象者がどのように移動するかを、ＬＳＴＭ（long short-term memory）を用いた予測モデルを用いて予測する技術が開示されている。

Alexandre Alahi et. al.，"Social LSTM: Human Trajectory Prediction in Crowded Spaces"，CVPR2016 pp.961-971, 2016

しかしながら、上記従来技術は、例えば工場内等のように通行者が比較的少ない場所において、対象者がどのような位置に移動するかを予測するために最適な技術であるとはいえない。これは、通行者が比較的少ない状況下では、通行者以外の要素が、対象者の移動先に影響を与える主因となることが多いためである。

本発明の一態様は、対象者の周囲の状況を適切に考慮して、対象者が移動する位置を高精度に予測することが可能な予測装置等を実現することを目的とする。

上記の課題を解決するために、本発明の一側面に係る予測装置は、対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置であって、前記画像に写るオブジェクトを検出するオブジェクト検出部と、前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測部と、を備えている。

上記の構成によれば、対象者の周囲に設定された複数の領域のそれぞれにおけるオブジェクトの検出結果を示す情報を、機械学習済みの予測モデルに入力して、対象者が移動する位置を予測する。よって、対象者の周囲の状況を考慮して対象者が移動する位置を高精度に予測することが可能になる。

上記予測装置において、前記オブジェクト検出部は、前記対象者が作業を行う場所に存在するオブジェクトを検出してもよい。

対象者が作業を行う場所は、対象者の移動先となる可能性がある場所である。よって、対象者が作業を行う場所に存在するオブジェクトを検出して、その検出結果を示す情報を予測モデルに入力する上記の構成によれば、対象者の移動先となる可能性がある場所を考慮して高精度な予測を行うことが可能になる。

上記予測装置において、前記オブジェクト検出部は、前記対象者の動作対象となるオブジェクトを検出してもよい。

対象者の動作対象となるオブジェクトが存在する場所は、対象者の移動先となる可能性がある場所である。よって、対象者の動作対象となるオブジェクトを検出して、その検出結果を示す情報を予測モデルに入力する上記の構成によれば、対象者の移動先となる可能性がある場所を考慮して高精度な予測を行うことが可能になる。

上記予測装置は、前記対象者が向いている方向を判定する方向判定部を備えていてもよく、この場合、前記予測部は、前記対象者に対して前記方向に位置する前記領域に写るオブジェクトの検出結果を示す情報を前記予測モデルに入力してもよい。

移動するとき、人は自身の進行方向を向くものであるから、対象者が向いている方向に位置する領域に写るオブジェクトが存在する場所は対象者の移動先となる可能性があり、また当該オブジェクトが対象者の進路に影響を与える可能性もある。よって、対象者が向いている方向に位置する領域に写るオブジェクトの検出結果を示す情報予測モデルに入力する上記の構成によれば、対象者の移動先に関連する可能性のあるオブジェクトを考慮して高精度な予測を行うことが可能になる。

上記の課題を解決するために、本発明の一側面に係るモデル生成装置は、対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置であって、１または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得部と、上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習部と、を備えている。

上記の構成によれば、移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを用いて予測モデルを構築する。よって、この予測モデルを用いることにより、対象者の周囲の状況を考慮して対象者が移動する位置を高精度に予測することが可能になる。

上記の課題を解決するために、本発明の一側面に係る予測方法は、対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置による予測方法であって、前記画像に写るオブジェクトを検出するオブジェクト検出ステップと、前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測ステップと、を含む。この予測方法によれば、上記予測装置と同様の作用効果を奏する。

上記の課題を解決するために、本発明の一側面に係るモデル生成方法は、対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置によるモデル生成方法であって、１または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得ステップと、上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習ステップと、を含む。このモデル生成方法によれば、上記モデル生成装置と同様の作用効果を奏する。

また、上記予測装置としてコンピュータを機能させるための予測プログラムであって、上記オブジェクト検出部および上記予測部としてコンピュータを機能させるための予測プログラムによれば、上記予測装置と同様の作用効果を奏する。

また、上記モデル生成装置としてコンピュータを機能させるためのモデル生成プログラムであって、上記教師データ取得部および上記学習部としてコンピュータを機能させるためのモデル生成プログラムによれば、上記モデル生成装置と同様の作用効果を奏する。

本発明の一態様によれば、対象者の周囲の状況を適切に考慮して、対象者が移動する位置を高精度に予測することが可能になる。

本発明の実施形態１に係る予測装置の要部構成の一例を示すブロック図である。上記予測装置の適用場面の一例を示す図である。画像からの対象者とオブジェクトの検出例を示す図である。上記検出結果に基づいて生成された移動情報の例を示す図である。予測モデルを構築する処理の一例を示すフローチャートである。対象者が移動する位置を予測する処理の一例を示すフローチャートである。本発明の実施形態２に係る予測装置の要部構成の一例を示すブロック図である。画像からの対象者とオブジェクトと対象者の向きの検出例と、それらの検出結果に基づいて生成された移動情報の例を示す図である。

以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。

〔実施形態１〕
§１．適用例
図２を用いて本発明が適用される場面の一例について説明する。図２は、本実施形態に係る予測装置１の適用場面の一例を示す図である。予測装置１は、対象者を撮影した画像を用いて、その対象者が移動する位置を予測する装置である。

上記の予測に先立ち、予測装置１は、当該予測に用いる予測モデルを構築する。具体的には、図２の（ａ）に示すように、まず、移動者が移動する様子をカメラ等の撮影装置で撮影し、撮影によって得られた画像を予測装置１に入力する。予測装置１は、この画像を用いて機械学習用の教師データを生成し、生成した教師データを用いて予測モデルを構築する。

上記の教師データは、画像に写る移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられたデータである。なお、オブジェクトとは、画像に写るものであればよい。例えば、上記オブジェクトは、壁や柱等の構造物やその一部分であってもよいし、椅子や文房具、機材等の移動させることが可能なものであってもよいし、壁や床等に描かれた文字や記号等の二次元のものであってもよいし、人や動物等のように移動するものであってもよい。

移動者の時系列の位置情報に加えて、その周囲にある上記のようなオブジェクトの検出結果を示す情報を教師データに含めることにより、移動者の周囲の状況を加味した学習が可能になる。なお、移動者は複数人であってもよい。その場合、各移動者の時系列の位置情報とその周囲におけるオブジェクトの検出結果とに基づいて教師データがそれぞれ生成される。

以上のようにして予測モデルが構築された後、図２の（ｂ）に示すように、移動する位置を予測する対象者が移動する様子を撮影した画像を予測装置１に入力すると、予測装置１は、対象者がその後に移動する位置を予測し、その結果を出力する。具体的には、まず、予測装置１は、撮影された画像に写るオブジェクトを検出する。そして、予測装置１は、撮影された画像に基づいて特定した対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおけるオブジェクトの検出結果を示す情報とを、上述の予測モデルに入力する。これにより、予測モデルから対象者が移動する位置の予測結果が出力される。このように、予測装置１によれば、対象者の周囲の状況を考慮して対象者が移動する位置を高精度に予測することが可能になる。

§２．構成例
図１に基づいて予測装置１の構成例を説明する。図１は、予測装置１の要部構成の一例を示すブロック図である。図１に示すように、予測装置１は、予測装置１の各部を統括して制御する制御部１０と、予測装置１が使用する各種データを記憶する記憶部２０を備えている。また、予測装置１は、予測装置１に対するデータの入力を受け付ける入力部３０と、予測装置１がデータを出力するための出力部４０を備えている。なお、記憶部２０、入力部３０、および出力部４０は、予測装置１に対して外付けされた機器であってもよい。

制御部１０には、オブジェクト検出部１０１、空間情報生成部１０２、移動情報生成部１０３、教師データ生成部（教師データ取得部）１０４、学習部１０５、および予測部１０６が含まれている。また、記憶部２０には、予測装置１による位置予測の対象者が写った画像である画像２０１と、対象者がどのような状況でどのように移動したかを示す移動情報２０２と、対象者の位置を予測するための予測モデル２０３が記憶されている。記憶部２０に記憶されているこれらのデータの詳細は図３および図４に基づいて後述する。

オブジェクト検出部１０１は、画像２０１に写るオブジェクトを検出する。検出対象のオブジェクトには、画像２０１に写る対象者も含まれる。対象者以外のオブジェクトは、対象者の移動に直接的または間接的に影響を与えるものであればよい。例えば、対象者の通行の妨げになるものや、対象者が立ち寄る可能性のある場所に存在するものを検出対象のオブジェクトとしてもよい。

オブジェクトの検出方法は特に限定されない。例えば、検出対象の各オブジェクトの画像を教師データとした機械学習により構築した学習済みモデルを用いてオブジェクトの検出を行ってもよい。この場合、例えば深層学習によって構築した学習済みモデルを用いることが、検出速度および検出精度の点から好ましい。具体例を挙げれば、Faster R-CNN（Regional Convolutional Neural Network）等の学習済みモデルが好適である。

なお、画像２０１に写る対象者の検出と、他のオブジェクトを個別の処理部で検出する構成としてもよい。この場合、例えば、対象者は画像解析で検出し、他のオブジェクトはFaster RCNNで検出する構成としてもよい。画像解析で対象者を検出する場合、例えば、対象者の着衣や装身具等の色が既知であれば、画像２０１におけるその色の領域を対象者が写っている領域として検出してもよい。

空間情報生成部１０２は、対象者の周囲の空間に関する空間情報を生成する。空間情報は、対象者の周囲に存在している因子であって、該対象者の移動先に関連する因子を示す情報である。本実施形態では、一例として、空間情報生成部１０２が、画像２０１における対象者の周囲に複数の領域を設定し、各領域内におけるオブジェクトの検出結果を示す空間情報を生成する例を説明する。空間情報の具体例は図３および図４に基づいて後述する。

移動情報生成部１０３は、オブジェクト検出部１０１が検出した対象者の移動軌跡を示す軌跡情報を生成し、この軌跡情報と、空間情報生成部１０２が生成した空間情報とを対応付けて移動情報２０２を生成する。軌跡情報の生成方法は特に限定されず、例えば時系列の画像２０１において対象者が検出された各位置の座標を特定し、それらの座標を対象者の位置情報とし、それらの位置情報を時系列順に配列して軌跡情報としてもよい。

教師データ生成部１０４は、１または複数の移動者が移動する様子を撮影した画像から生成された教師データを取得する。この教師データは、移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報（上述の空間情報）とが対応付けられたものである。詳細は後述するが、教師データ生成部１０４は、移動情報２０２を用いて上記教師データを生成することにより、当該教師データを取得する。なお、教師データの生成を他の装置で行う構成としてもよく、この場合、教師データ生成部１０４は、当該他の装置から教師データを取得すればよい。

学習部１０５は、教師データ生成部１０４が生成した教師データを用いて予測モデル２０３を構築する。このように、予測装置１は、予測モデル２０３を構築するモデル生成装置としての機能も備えている。なお、教師データの生成および予測モデル２０３の構築の詳細は図５に基づいて後述する。

予測部１０６は、対象者が移動する位置を予測する。より詳細には、予測部１０６は、移動情報生成部１０３が生成した移動情報２０２を予測モデル２０３に入力する。そして、予測部１０６は、予測モデル２０３の出力から、対象者が移動する位置を予測する。

なお、予測モデル２０３は、移動者の時系列の位置情報および当該移動者の周囲のオブジェクトと、当該移動者の移動先との関係をモデル化したものであればよい。ただし、予測モデル２０３の入力データは時系列のデータとなるため、時系列データを入力データとすることができるモデルを用いる。また、高い予測精度が必要とされる場合には、深層学習に対応したモデルを用いることが好ましく、End-to-End学習ができるモデルであればさらに好ましい。これらの条件を満たすモデルとしては、例えば、シーケンス・トゥー・シーケンス型のＬＳＴＭが挙げられる。予測モデル２０３をＬＳＴＭのモデルとした場合、入力データのデータ長を可変とすることができるという利点もある。

（移動情報の生成例）
図３および図４に基づいて移動情報２０２の生成例について説明する。図３は、画像２０１からの対象者とオブジェクトの検出例を示す図である。図３に示す画像２０１は、対象者が同図の左端から右方向に移動している様子を撮影した動画像から所定の時間間隔で抽出したフレーム画像の一つである。図４は、上記検出結果に基づいて生成された移動情報２０２の例を示す図である。

図３に示す画像２０１には、対象者が写っていると共に、４種類のオブジェクト（壁、作業デスク、作業対象物体、および作業者以外の人）が写っている。対象者およびこれらのオブジェクトはオブジェクト検出部１０１によって検出される。なお、オブジェクトが写っていない領域は通路であり、対象者が移動可能な領域である。

検出するオブジェクトのうち「壁」は、対象者の通行の妨げとなるオブジェクトである。柱や他の構造物も対象者の通行の妨げとなるオブジェクトとして検出してもよい。また、このような各オブジェクトの検出結果は、例えば「対象者の通行の妨げとなるオブジェクト」としてまとめて記録してもよい。以下説明する他の種類のオブジェクトについても同様である。

検出するオブジェクトのうち「作業デスク」は、対象者が作業を行う場所に存在するオブジェクトである。椅子や作業場所を示す文字等も対象者が作業を行う場所に存在するオブジェクトとして検出してもよい。対象者が作業を行う場所は、対象者の移動先となる可能性がある場所であるから、上記のようなオブジェクトを検出することにより、対象者の移動先となる可能性がある場所を考慮して高精度な予測を行うことが可能になる。

検出するオブジェクトのうち「作業対象物体」は、対象者の動作対象となるオブジェクトである。例えば、作業者が運ぶ荷物、作業に使用する機器等を対象者の動作対象となるオブジェクトとして検出してもよい。また、例えば、対象者が目を留める可能性のある絵画や表示装置などの作業に関連しないものを検出対象としてもよい。

検出するオブジェクトのうち「人」は、対象者の通行の妨げともなり得るし、話しかける等の動作の対象にもなり得るオブジェクトである。検出した「人」がどのような人であるか、またどのように移動しているか、等は対象者の通行に影響を与え得るから、そのような情報についても併せて記録しておき、それを学習に利用してもよい。

なお、上述した各種類のオブジェクトは例示に過ぎず、これらのオブジェクトを全て検出対象とする必要はなく、他の種類のオブジェクトが検出対象に含まれていてもよい。このようなオブジェクトの検出結果から空間情報が生成される。

上述のように、空間情報生成部１０２は、画像２０１における対象者の周囲に複数の領域を設定する。図３の例では、対象者の位置（より正確には対象者が写っている領域の重心の位置Ｐ）を中心として４つの矩形状の領域が設定されている。具体的には、対象者の右上には右上グリッド、右下上には右下グリッド、左上には左上グリッド、そして左下には左下グリッドが設定されている。

空間情報生成部１０２は、このように設定した各グリッド内におけるオブジェクトの検出結果を示す空間情報を生成する。例えば、図３の例では、右上グリッド内では作業デスク、右下グリッド内では人、左上グリッド内では壁、そして左下グリッド内では作業対象物体が検出されたことを示す空間情報を生成する。また、空間情報生成部１０２は、動画像から抽出された各フレームの画像２０１から同様の処理により空間情報を生成する。つまり、空間情報生成部１０２は、各フレームの画像２０１のそれぞれから空間情報を生成する。

また、上述のように、移動情報生成部１０３は、画像２０１において対象者が検出された位置の座標を特定する。例えば、移動情報生成部１０３は、４つのグリッドの中心である位置Ｐの座標を、対象者の検出位置の座標としてもよい。そして、移動情報生成部１０３は、動画像から抽出された各フレームの画像２０１のそれぞれについてこのような処理を行い、それによって得られた座標を時系列順（フレーム順）に並べて軌跡情報を生成する。

移動情報生成部１０３は、上記のようにして生成した軌跡情報と、空間情報生成部１０２が生成した空間情報とを対応付けることにより、図４に示すような移動情報２０２を生成する。図４に示す移動情報２０２は、動画像から抽出した６０フレーム分の画像２０１から生成したものである。例えば、１秒の動画像から３０フレームの画像２０１を抽出した場合、２秒間の動画像から図示のような移動情報２０２を生成することができる。

図４の移動情報２０２は、各フレームの画像２０１から生成された位置情報（座標）と空間情報とが時系列順に配列している。よって、移動情報２０２から、対象者の位置の遷移と、各位置における対象者の周囲のオブジェクトを特定することができる。例えば、図示の移動情報２０２からは、１フレーム目において、対象者の位置情報は（０，５０）であり、左上グリッドと右上グリッドの位置には壁があり、左下グリッドの位置にはオブジェクトはなく、右下グリッドの位置には作業デスクがあったことが分かる。なお、図４では、説明を分かりやすくするため、オブジェクトの名称を記載しているが、実際の移動情報２０２では、オブジェクトに固有の識別情報を設定し、その識別情報を記憶しておけばよい。

§３．動作例
（予測モデルを構築する処理の流れ）
図５に基づいて予測モデル２０３を構築する処理の流れを説明する。図５は、予測モデル２０３を構築する処理（モデル生成方法）の一例を示すフローチャートである。なお、図５の処理の前提として、移動者を定点カメラにて撮影した動画像から抽出した時系列のフレーム画像が画像２０１として記憶部２０に記憶されているとする。無論、記憶部２０に動画像を記憶しておき、オブジェクト検出部１０１等が、その動画像からフレーム画像を抽出する構成としてもよい。また、動画像に写る移動者は、移動先の予測の対象とする対象者と同一人物であってもよいし、他の人物であってもよい。また、異なる移動者を撮影した複数の動画像からそれぞれ抽出した画像２０１が記憶されていてもよい。

Ｓ１では、オブジェクト検出部１０１が、記憶部２０に記憶されている一連のフレームの画像２０１を取得し、取得した各画像２０１から移動者を含む各種オブジェクトを検出する。例えば、２秒間の動画像から抽出した６０フレーム分の画像２０１から１つの移動情報２０２を生成する場合、オブジェクト検出部１０１は、６０フレーム分の画像２０１を取得して、それらの全てについてオブジェクトの検出を行う。

Ｓ２では、オブジェクト検出部１０１は、各画像２０１について、Ｓ１で検出した移動者の位置を特定する処理を行い、その特定結果に基づいて移動者の軌跡情報を生成する。上述のように、移動者の位置は、画像２０１における位置座標として特定すればよく、その座標を用いて軌跡情報を生成することができる。

Ｓ３では、空間情報生成部１０２が、Ｓ２で検出された移動者の周囲に複数の領域を設定し、各領域に写るオブジェクトを特定する。例えば、空間情報生成部１０２は、図３の例のように、移動者の重心の位置Ｐを中心とする４つのグリッドを設定し、各グリッド内の領域で検出されたオブジェクトを特定してもよい。この処理は、一連のフレームの画像２０１のそれぞれについて行い、空間情報生成部１０２は、各特定結果に基づいて図４に示したような空間情報を生成する。

Ｓ４では、移動情報生成部１０３が、Ｓ２で生成された軌跡情報と、Ｓ３で生成された空間情報とを対応付けて移動情報２０２を生成し、これを記憶部２０に記憶させる。そして、Ｓ５では、移動情報生成部１０３は、必要な数の移動情報２０２の生成が終了しているか否かを判定する。例えば、機械学習に必要な教師データの数が決まっている場合、移動情報生成部１０３は、必要数の教師データを作成できるだけの移動情報２０２が生成済みであればＳ５でＹＥＳと判定し、生成されていなければＳ５ではＮＯと判定する。Ｓ５でＹＥＳと判定された場合にはＳ６の処理に進み、Ｓ５でＮＯと判定された場合にはＳ１の処理に戻る。Ｓ１の処理に戻った場合、移動情報２０２の生成に用いられていない一連のフレームの画像２０１が取得される。

Ｓ６（教師データ取得ステップ）では、教師データ生成部１０４が、Ｓ４で生成された移動情報２０２から教師データを生成する。具体的には、教師データ生成部１０４は、各移動情報２０２に、その移動情報２０２と時系列で連続する所定期間の位置情報を正解データとして対応付けて教師データを生成する。

例えば、４秒間の動画像の前半２秒間から生成された移動情報２０２と、後半２秒間から生成された移動情報２０２があった場合を考える。この場合、教師データ生成部１０４は、前半２秒間から生成された移動情報２０２に対し、後半２秒間から生成された移動情報２０２に含まれる位置情報を対応付けて教師データとする。これにより、２秒間の移動者の移動軌跡およびその周囲のオブジェクトと、その後の２秒間における移動者の移動軌跡との関係を示す教師データを生成することができる。

Ｓ７（学習ステップ）では、学習部１０５が、Ｓ６で生成された教師データを用いて予測モデル２０３を構築する。そして、Ｓ８では、学習部１０５は、Ｓ７で構築した予測モデル２０３を記憶部２０に記憶させる。これにより、予測モデルの構築処理は終了となる。

（移動位置を予測する処理の流れ）
図６に基づいて対象者が移動する位置を予測する処理の流れを説明する。図６は、対象者が移動する位置を予測する処理（予測方法）の一例を示すフローチャートである。なお、図６の処理の前提として、対象者を定点カメラにて所定時間撮影した動画像から抽出した時系列のフレーム画像が画像２０１として記憶部２０に記憶されているとする。以下の処理では、これらの画像２０１からその後の対象者の移動位置を予測する。また、Ｓ１１（オブジェクト検出ステップ）〜Ｓ１４の処理は、図５のＳ１〜Ｓ４の処理と同様であるから説明を省略する。

Ｓ１５（予測ステップ）では、予測部１０６が、Ｓ１４で生成された移動情報２０２を予測モデル２０３に入力し、対象者が移動する位置を出力させる。例えば、予測モデル２０３が６０フレーム分の画像２０１から生成された移動情報２０２から、当該６０フレームに続く、将来の６０フレームにおける対象者の移動位置を予測するモデルである場合を考える。この場合、予測モデル２０３は、将来の６０フレームの対象者の位置情報を出力するので、予測部１０６はそれらの位置情報を対象者が移動する位置を示す情報として取得する。

Ｓ１６では、予測部１０６は、Ｓ１６の予測結果を出力部４０に出力させる。例えば、出力部４０が表示装置である場合、予測部１０６は、対象者が移動する位置を示す情報を表示させる。表示態様は、対象者がどのような位置に移動するかを認識させることができるようなものであればよい。例えば、予測部１０６は、対象者を撮影した動画像から抽出した最後のフレームの画像２０１に重畳して、対象者の予想移動軌跡を示す線分を表示させてもよい。

なお、教師データ生成部１０４は、予測のために生成された移動情報２０２と、その後、対象者の移動する様子を撮影することによって得られた画像とを用いて、新たな教師データを生成してもよい。そして、学習部１０５は、新たに生成された教師データを用いて予測モデル２０３を更新してもよい。これにより、予測モデル２０３の予測精度を維持または向上させることができる。

（Faster RCNNとSORTの組み合わせによるオブジェクトのトレース）
各フレームの画像２０１からの対象者とオブジェクトの検出、および、それらの位置のトレースには、Faster RCNNとSORT（Simple Online and Realtime Tracking）を用いてもよい。この場合、オブジェクト検出部１０１は、Faster RCNNを用いて、対象者を撮影した動画像の先頭フレームの画像２０１から対象者と各オブジェクトを検出し、それらの画像２０１における位置と範囲を特定する。そして、オブジェクト検出部１０１は、SORTを用いて、後続の各フレームの画像２０１における対象者と各オブジェクトの位置と範囲をトレースする。このような構成であっても、図４に示すような移動情報２０２を生成するために必要な各種情報（具体的には対象者の軌跡情報と空間情報）を取得することができる。

〔実施形態２〕
本発明の他の実施形態について、図７および図８に基づいて以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

（構成例）
図７に基づいて本実施形態に係る予測装置の構成を説明する。図７は、予測装置１Ａの要部構成の一例を示すブロック図である。予測装置１Ａは、制御部１０に方向判定部１２１が含まれている点、空間情報生成部１０２が空間情報生成部１０２Ａに変わっている点で予測装置１と相違している。また、予測装置１Ａは、記憶部２０に記憶されている移動情報２０２と予測モデル２０３がそれぞれ移動情報２０２Ａと予測モデル２０３Ａに変わっている点でも予測装置１と相違している。

また、予測装置１Ａは、予測モデル２０３Ａの構築に関する構成、すなわち教師データ生成部１０４と学習部１０５を備えていない点でも予測装置１と相違している。このため、予測装置１Ａでは、学習部１０５を備えたモデル生成装置が生成した予測モデル２０３を予め記憶部２０に記憶しておく。なお、予測装置１も予測装置１Ａと同様に、予測モデル２０３の構築に関する構成を備えていない構成としてもよい。この場合も、モデル生成装置が生成した予測モデル２０３を予め記憶しておけばよい。無論、予測装置１Ａを、教師データ生成部１０４と学習部１０５を備える構成としてもよい。

方向判定部１２１は、画像２０１に写る対象者が向いている方向を判定する。そして、空間情報生成部１０２Ａは、画像２０１に写る対象者に対して、方向判定部１２１が特定した方向に位置する領域に写るオブジェクトを検出する。つまり、実施形態１の空間情報生成部１０２は対象者の周囲の全方向のオブジェクトを検出するが、本実施形態の空間情報生成部１０２Ａは方向判定部１２１が特定した方向のオブジェクトを検出する点で相違している。

上述のように、空間情報生成部１０２Ａは方向判定部１２１が特定した方向、すなわち対象者が向いている方向にあるオブジェクトを検出する。このため、移動情報２０２Ａに含まれる空間情報は、対象者が向いている方向で検出されたオブジェクトを示すものとなっている。また、予測モデル２０３Ａは、上記のような移動情報２０２Ａを元に生成された教師データを用いて構築されたものであり、移動情報２０２Ａを入力データとして、対象者の移動する位置を出力する構成となっている。このため、予測部１０６は、対象者が向いている方向に位置する領域に写るオブジェクトの検出結果を示す空間情報を予測モデル２０３Ａに入力することになる。

（移動情報の生成例）
図７に基づいて移動情報２０２Ａの生成例を説明する。図７は、画像２０１からの対象者とオブジェクトと対象者の向きの検出例と、それらの検出結果に基づいて生成された移動情報２０２Ａの例を示す図である。

図８の（ａ）に示す画像２０１では、対象者が検出されていると共に、３種類のオブジェクト（壁、作業デスク、作業対象物体）が検出されている。また、方向判定部１２１により、対象者が向いている方向が特定されている。同図では、対象者が向いている方向を矢印で示している。

対象者の向いている方向は、画像２０１を解析することによって特定することが可能である。図８の（ａ）の例では、対象者が着用している帽子にマーカが付いているので、方向判定部１２１は画像２０１からマーカを検出し、その検出結果に基づいて対象者の向いている方向を正確に特定することができる。無論、対象者の向いている方向の特定方法は任意であり、この例に限定されない。

空間情報生成部１０２Ａは、方向判定部１２１が特定した方向にグリッドを設定する。具体的には、図８の（ａ）の例では、空間情報生成部１０２Ａは、対象者の重心の位置Ｐに対して当該対象者の右前方に位置する右前方グリッドと、位置Ｐに対して当該対象者の左前方に位置する左前方グリッドを設定している。この場合、図８の（ｂ）に示すように、空間情報生成部１０２Ａが生成する空間情報は、左前方グリッドには作業対象物体が検出され、右前方グリッドには壁が検出されたことを示すものとなる。

対象者の位置の予測に用いる動画像から抽出した一連のフレームの画像２０１のそれぞれについて空間情報を生成する上述の処理を行う。また、移動情報生成部１０３は、実施形態１と同様にして対象者の軌跡情報を生成して、上記の空間情報と対応付けることにより、図８の（ｂ）に示すような移動情報２０２Ａを生成する。

移動するとき、人は自身の進行方向を向くものであるから、対象者が向いている方向に位置する領域に写るオブジェクトが存在する場所は対象者の移動先となる可能性があり、また当該オブジェクトが対象者の進路に影響を与える可能性もある。よって、対象者が向いている方向に位置する領域に写るオブジェクトの検出結果を示す移動情報２０２Ａを予測モデル２０３Ａに入力する本実施形態の構成によれば、対象者の移動先に関連する可能性のあるオブジェクトを考慮して高精度な予測を行うことが可能になる。

§４．変形例
空間情報を取得するために対象者の周囲に設定する領域の形状、サイズ、および数は、任意である。例えば、対象者の前方には広い領域を設定し、後方には狭い領域を設定する等のように、サイズの異なる複数の領域を設定してもよい。ただし、領域が広過ぎると、関連性の低いオブジェクトが検出される割合が高くなる。例えば、領域の幅は、通路の幅と同程度から通路の幅の２倍程度までとし、領域の奥行きも同程度としてもよい。これにより、通路の両脇にどのようなオブジェクトが存在するかを考慮した予測が可能になる。また、例えば、対象者を斜め上方から見下ろす角度で撮影したような場合には、対象者の周囲に立体の領域を設定してもよい。

予測装置１は、自律移動する車両やロボットなどの各種機器の動作制御に利用することができる。この場合、各種機器の制御装置は、当該機器の周囲の人がどのように移動するかを予測装置１に予測させ、その予測結果に基づいて各種機器の動作を制御する。これにより、例えば、各種機器を人に接触することなく安全に移動させることも可能になる。このように、本発明の一態様には、予測装置１の予測結果に基づいて機器を制御する制御装置も含まれる。

〔ソフトウェアによる実現例〕
予測装置１および１Ａの制御ブロック（特に制御部１０に含まれる各部）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、予測装置１および１Ａは、各機能を実現するソフトウェアであるプログラム（予測プログラム／モデル生成プログラム）の命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１予測装置（モデル生成装置）
１０１オブジェクト検出部
１０６予測部
２０１画像
２０３予測モデル
１Ａ予測装置
１２１方向判定部

Claims

対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置であって、
前記画像に写るオブジェクトを検出するオブジェクト検出部と、
前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測部と、を備えている予測装置。
前記オブジェクト検出部は、前記対象者が作業を行う場所に存在するオブジェクトを検出する、請求項１に記載の予測装置。
前記オブジェクト検出部は、前記対象者の動作対象となるオブジェクトを検出する、請求項１に記載の予測装置。
前記対象者が向いている方向を判定する方向判定部を備え、
前記予測部は、前記対象者に対して前記方向に位置する前記領域に写るオブジェクトの検出結果を示す情報を前記予測モデルに入力する、請求項１から３の何れか１項に記載の予測装置。
対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置であって、
１または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得部と、
上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習部と、を備えているモデル生成装置。
対象者を撮影した画像を用いて、前記対象者が移動する位置を予測する予測装置による予測方法であって、
前記画像に写るオブジェクトを検出するオブジェクト検出ステップと、
前記対象者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれにおける前記オブジェクトの検出結果を示す情報とを、機械学習済みの予測モデルに入力して、前記予測モデルの出力から前記対象者が移動する位置を予測する予測ステップと、を含む予測方法。
対象者を撮影した画像から前記対象者が移動する位置を予測するための予測モデルを生成するモデル生成装置によるモデル生成方法であって、
１または複数の移動者が移動する様子を撮影した画像から生成された、前記移動者の時系列の位置情報と、当該位置情報の示す各位置の周囲に設定された複数の領域のそれぞれに写るオブジェクトの検出結果を示す情報とが対応付けられた教師データを取得する教師データ取得ステップと、
上記教師データを用いて、前記対象者が移動する位置を予測するための予測モデルを構築する学習ステップと、を含むモデル生成方法。
請求項１に記載の予測装置としてコンピュータを機能させるための予測プログラムであって、上記オブジェクト検出部および上記予測部としてコンピュータを機能させるための予測プログラム。
請求項５に記載のモデル生成装置としてコンピュータを機能させるためのモデル生成プログラムであって、上記教師データ取得部および上記学習部としてコンピュータを機能させるためのモデル生成プログラム。