JP7438515B2

JP7438515B2 - 俯瞰データ生成装置、学習装置、俯瞰データ生成プログラム、俯瞰データ生成方法、及びロボット

Info

Publication number: JP7438515B2
Application number: JP2023022034A
Authority: JP
Inventors: 真衣黒瀬（西村）; 章平延原; 恒西野
Original assignee: Omron Corp; Kyoto University
Current assignee: Omron Corp; Kyoto University
Priority date: 2022-03-15
Filing date: 2023-02-15
Publication date: 2024-02-27
Anticipated expiration: 2043-02-15
Also published as: JP2023135615A

Description

特許法第３０条第２項適用変更を要しないため省略する

本発明は、俯瞰データ生成装置、学習装置、俯瞰データ生成プログラム、俯瞰データ生成方法、及びロボットに関する。

従来より、一人称視点で撮影された映像で観測した人物骨格に基づき、俯瞰視点での人物位置分布を推定する技術が知られている（非特許文献１）。

また、静的なランドマーク基準の自己位置推定（ＳｉｍｕｌｔａｎｅｏｕｓｌｙＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ：ＳＬＡＭ）の最適化対象に移動体を加えて逐次最適化を行う技術が知られている（非特許文献２）。

また、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）により位置を推定する技術が知られている（非特許文献３）。

また、俯瞰視点映像中における一人称映像の撮影位置を推定する技術が知られている（特許文献１）。この技術では、推定のために俯瞰視点及び一人称視点の両視点から抽出された動き特徴の照合を行っている。

"ＭｏｎｏＬｏｃｏ：Ｍｏｎｏｃｕｌａｒ３ＤＰｅｄｅｓｔｒｉａｎＬｏｃａｌｉｚａｔｉｏｎａｎｄＵｎｃｅｒｔａｉｎｔｙＥｓｔｉｍａｔｉｏｎ"，インターネット検索＜ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０６．０６０５９＞，Ｊｕｎ２０１９ "ＣｕｂｅＳＬＡＭ：Ｍｏｎｏｃｕｌａｒ３ＤＯｂｊｅｃｔＳＬＡＭ"，インターネット検索＜ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０６．００５５７＞，Ｊｕｎ２０１８「フィールドロボティクスの現状と展望」、インターネット検索＜ＵＲＬ：ｈｔｔｐｓ：／／ｃｏｍｍｉｔｔｅｅｓ．ｊｓｃｅ．ｏｒ．ｊｐ／ｏｐｃｅｔ＿ｓｉｐ／ｓｙｓｔｅｍ／ｆｉｌｅｓ／０１３０＿０１．ｐｄｆ＞

特開２０２１－７７２８７号公報

しかしながら、上記非特許文献１記載の技術では、観測カメラの運動や周辺の移動体の移動軌跡を復元することはできない。

また、上記非特許文献２記載の技術は、移動体と共に静的なランドマークが安定して観測可能な環境でしか適用できない。また、移動体の動きモデルが単純な剛体運動に限られ、相互作用を考慮した移動体の動きに対応できない。

また、上記非特許文献３記載の技術では、ＧＮＳＳを搭載した装置自身の自己位置の復元のみを対象とし、周辺の移動体の位置を復元できない。また、高層ビルなどによる遮蔽が生じる環境では、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）電波の受信が不安定となり、位置復元結果が不正確となる。

また、上記特許文献１記載の技術は、俯瞰視点の映像が手に入らない場合には適用できない。

本発明は、上記の点に鑑みてなされたものであり、静的なランドマークが検出されない状況であっても、動的な環境において観測装置を搭載した観測移動体からの視点で観測された２次元観測情報から、観測移動体の地面上の移動軌跡、及び移動体の各々の地面上の移動軌跡を表す俯瞰データを生成することができる俯瞰データ生成装置、学習装置、俯瞰データ生成プログラム、俯瞰データ生成方法、及びロボットを提供することを目的とする。

開示の第１態様は、俯瞰データ生成装置であって、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、を含む。

上記第１態様において、前記生成部は、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を推定する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の位置分布を表す移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成するようにしてもよい。

上記第１態様において、前記２次元観測情報の時系列データから、前記移動体の各々を追跡し、前記２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを取得する追跡部を更に含み、前記生成部は、前記２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する前記学習済みモデルを用いて、前記俯瞰データを生成するようにしてもよい。

上記第１態様において、前記学習済みモデルは、前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第２エンコーダと、前記第１エンコーダによって出力された前記ベクトル、及び前記第２エンコーダによって出力された前記ベクトルを入力とし、前記対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含むようにしてもよい。

開示の第２態様は、学習装置であって、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさの時系列データと、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの時系列データとの組み合わせを教師データとして取得する取得部と、前記教師データに基づいて、前記２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定するモデルを学習する学習部と、を含む。

上記第２態様において、前記モデルは、前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第２エンコーダと、前記第１エンコーダによって出力された前記ベクトル、及び前記第２エンコーダによって出力された前記ベクトルを入力とし、対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含むようにしてもよい。

開示の第３態様は、俯瞰データ生成装置であって、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、を含む。

上記第３態様において、前記生成部は、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を予測する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の位置分布を表す移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成するようにしてもよい。

開示の第４態様は、俯瞰データ生成プログラムであって、コンピュータに、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、を含む処理を実行させるためのプログラムである。

開示の第５態様は、俯瞰データ生成方法であって、コンピュータが、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、を含む処理を実行する。

開示の第６態様は、ロボットであって、動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、前記ロボットを自律走行させる自律走行部と、前記俯瞰データを用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、を含む。

開示の第７態様は、俯瞰データ生成プログラムであって、コンピュータに、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、を含む処理を実行させるためのプログラムである。

開示の第８態様は、俯瞰データ生成方法であって、コンピュータが、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、を含む処理を実行する。

開示の第９態様は、ロボットであって、動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記２次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、前記ロボットを自律走行させる自律走行部と、前記俯瞰データの予測結果を用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、を含む。

本発明によれば、静的なランドマークが検出されない状況であっても、動的な環境において観測装置を搭載した観測移動体からの視点で観測された２次元観測情報から、観測移動体の地面上の移動軌跡、及び移動体の各々の地面上の移動軌跡を表す俯瞰データを生成することができる。

第１実施形態に係るロボットの概略構成を示す図である。カメラにより撮影される画像の一例を示す図である。画像から人物を検出した結果の一例を示す図である。学習済みモデルの一例を示す図である。俯瞰データの一例を示す図である。第１、第２実施形態に係る俯瞰データ生成装置及び学習装置のハードウェア構成を示すブロック図である。第１、第２実施形態に係る学習装置の概略構成を示す図である。第１、第２実施形態に係る学習装置による学習処理の流れを示すフローチャートである。第１、第２実施形態に係る俯瞰データ生成装置による俯瞰データ生成処理の流れを示すフローチャートである。第２実施形態に係る情報処理端末の概略構成を示す図である。俯瞰データの一例を示す図である。俯瞰データの他の例を示す図である。画像から人物を検出した結果の一例を示す図である。

以下、本発明の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。

［第１実施形態］
図１は、本発明の第１実施形態に係るロボット１００の概略構成を示す図である。図１に示すように、ロボット１００は、カメラ１０、俯瞰データ生成装置２０、報知部５０、及び自律走行部６０を備える。俯瞰データ生成装置２０は、取得部２２、追跡部２４、生成部２６、モデル記憶部２７、及び制御部２８を備える。なお、ロボット１００が、観測移動体の一例であり、カメラ１０が、観測装置の一例である。

カメラ１０は、スタート地点から目的地に移動するまでの間、ロボット１００の周囲を予め定めた間隔で撮影し、撮影した画像を俯瞰データ生成装置２０の取得部２２に出力する。なお、画像が、２次元観測情報の一例である。

例えば、動的な環境においてロボット１００からの視点で観測された少なくとも１人の人物を表す画像が、カメラ１０により撮影される（図２参照）。

カメラ１０として、透視投影のＲＧＢカメラを用いてもよいし、魚眼カメラや３６０度カメラを用いてもよい。

取得部２２は、カメラ１０によって撮影された画像の時系列データを取得する。

追跡部２４は、取得した画像の時系列データから、人物の各々を追跡し、画像上の人物の各々の各時刻の位置及び大きさを取得する。

例えば、図３に示すように、画像上の人物の各々について、当該人物を表すバウンディングボックスを検出して追跡し、画像上の人物の中心位置（バウンディングボックスの中心位置）及び高さ（バウンディングボックスの高さ）を時刻毎に取得する。

生成部２６は、ロボット１００の地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから取得した画像上の人物の各々の各時刻の位置及び大きさから、ロボット１００を俯瞰した位置から観測した場合に得られる、ロボット１００の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成する。

具体的には、生成部２６は、画像上の人物の各々の各時刻の位置及び大きさを入力として、ロボット１００の地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、俯瞰データを生成する。

ここで、学習済みモデルは、人物の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、一時刻前について得られた、ロボット１００の地面上の動き、及び人物の各々の地面上の動きを入力とし、ベクトルを出力する第２エンコーダと、第１エンコーダによって出力されたベクトル、及び第２エンコーダによって出力されたベクトルを入力とし、対象時刻についてのロボット１００の地面上の動き、及び人物の各々の地面上の動きを出力するデコーダとを含む。

より具体的には、図４に示すように、学習済みモデル７０は、第１エンコーダ７２と、第２エンコーダ７４と、デコーダ７６とを備えている。

第１エンコーダ７２は、ロボット１００が一人称視点で観測した各人物の位置及び大きさを入力とし、人物間のセルフアテンションをとり、得られたベクトルを出力する。

具体的には、画像上の人物の各々の時刻ｔの位置及び大きさを表すベクトルを、多層パーセプトロン（ＭＬＰ：Multilayer perceptron）７２０に入力して得られたベクトルを、第１エンコーダ７２の入力ベクトルとする。

第１エンコーダ７２のマルチヘッドセルフアテンション層７２２が、第１エンコーダ７２の入力ベクトルを、Query、Key、Valueの各々として受け付け、セルフアテンションをとってベクトルを出力する。

第１エンコーダ７２の第１正規化層７２４は、第１エンコーダ７２の入力ベクトルと、マルチヘッドセルフアテンション層７２２の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力する。

順伝播型ニューラルネットワーク７２６は、第１正規化層７２４の出力ベクトルを入力とし、ベクトルを出力する。

第２正規化層７２８は、第１正規化層７２４の出力ベクトルと、順伝播型ニューラルネットワーク７２６の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力し、これを第１エンコーダ７２の出力ベクトルとする。この出力ベクトルは、一人称視点の埋め込みを表している。

第２エンコーダ７４は、一時刻前について得られた、ロボット１００の地面上の動き、及び人物の各々の地面上の動きを入力とし、ロボット１００の位置に対する各人物の相対位置及び速度をエンコーディングし、得られたベクトルを出力する。

具体的には、時刻ｔ－１について得られた、ロボット１００の地面上の動き、及び人物の各々の地面上の動きから、ロボット１００の位置に対する人物の各々の地面上の動きを表すベクトルを求め、このベクトルを、多層パーセプトロン７４０に入力して得られたベクトルを、第２エンコーダ７４の入力ベクトルとする。

第２エンコーダ７４のマルチヘッドセルフアテンション層７４２が、第２エンコーダ７４の入力ベクトルを、Query、Key、Valueの各々として受け付け、セルフアテンションをとってベクトルを出力する。

第２エンコーダ７４の正規化層７４４は、第２エンコーダ７４の入力ベクトルと、マルチヘッドセルフアテンション層７４２の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力する。このベクトルは、俯瞰視点の埋め込みを表している。

デコーダ７６は、第１エンコーダ７２の出力ベクトルと第２エンコーダ７４の出力ベクトルとの間で、クロスアテンションをとり、クロスアテンションの結果から得られたベクトルを出力する。このベクトルは、ロボット１００の地面上の動き、及び人物の各々の地面上の動きをマルチヘッドで予測した結果を表している。

具体的には、第１エンコーダ７２の出力ベクトルと第２エンコーダ７４の出力ベクトルを、デコーダ７６の入力とする。

デコーダ７６のマルチヘッドクロスアテンション層７６０が、第１エンコーダ７２の出力ベクトルを、Key、Valueの各々として受け付け、第２エンコーダ７４の出力ベクトルを、Queryとして受け付け、クロスアテンションをとってベクトルを出力する。

デコーダ７６の第１正規化層７６２は、第２エンコーダ７４の出力ベクトルと、マルチヘッドクロスアテンション層７６０の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力する。

順伝播型ニューラルネットワーク７６４は、第１正規化層７６２の出力ベクトルを入力とし、ベクトルを出力する。

第２正規化層７６６は、第１正規化層７６２の出力ベクトルと、順伝播型ニューラルネットワーク７６４の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力し、これをデコーダ７６の出力ベクトルとする。

順伝播型ニューラルネットワーク７６８は、デコーダ７６の出力ベクトルを入力とし、時刻ｔのロボット１００の動きを表すベクトルを出力する。

また、順伝播型ニューラルネットワーク７７０は、デコーダ７６の出力ベクトルを入力とし、時刻ｔの人物の各々の動きを表すベクトルを出力する。

ここで、動きを表すベクトルは、例えば、一時刻前に対する相対位置及び相対速度を表すベクトルである。なお、動きを表すベクトルは、一時刻前に対する相対位置を表すベクトル、又は一時刻前に対する相対速度を表すベクトルであってもよい。

本実施形態では、生成部２６は、画像上の人物の各々の時刻ｔの位置及び大きさを表すベクトル、並びに時刻ｔ－１について得られた、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルから、学習済みモデル７０を用いて、時刻ｔにおける、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルを求めることを、各時刻ｔについて繰り返すことにより、俯瞰データを生成する。

生成部２６は、例えば、図５に示すような俯瞰データを生成する。図５は、黒丸をつないだ線でロボット１００の地面上の移動軌跡を示し、破線で人物の地面上の移動軌跡を示す例を示している。

制御部２８は、俯瞰データを用いて、ロボット１００が目的地に移動するように自律走行部６０を制御する。例えば、制御部２８は、ロボット１００の移動方向及び速度を指定し、指定された移動方向及び速度で移動するように自律走行部６０を制御する。

また、制御部２８は、俯瞰データを用いて、介入行動が必要と判断した場合には、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らすよう報知部５０を制御する。

次に、ロボット１００の俯瞰データ生成装置２０のハードウェア構成について説明する。

図６に示すように、俯瞰データ生成装置２０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）６３、ストレージ６４、及び通信インタフェース（Ｉ/Ｆ）６５を有する。各構成は、バス６６を介して相互に通信可能に接続されている。

本実施形態では、ストレージ６４には、俯瞰データ生成プログラムが格納されている。ＣＰＵ６１は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ６１は、ストレージ６４からプログラムを読み出し、ＲＡＭ６３を作業領域としてプログラムを実行する。ＣＰＵ６１は、ストレージ６４に記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

ＲＯＭ６２は、各種プログラム及び各種データを格納する。ＲＡＭ６３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ６４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

通信インタフェース６５は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

上記学習済みモデル７０は、図７に示す学習装置１２０によって予め学習される。以下、この学習装置１２０について説明する。

図７は、本発明の第１実施形態に係る学習装置１２０の概略構成を示す図である。図７に示すように、学習装置１２０は、教師データ記憶部１２２、取得部１２４、学習部１２６、及びモデル記憶部１２８を備える。

教師データ記憶部１２２には、動的な環境においてロボット１００からの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数記憶されている。

取得部１２４は、教師データ記憶部１２２から、複数の教師データを取得する。

学習部１２６は、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル７０と同様の構成を有するモデルが、教師データのロボット１００の地面上の動き、及び人物の各々の地面上の動きの時系列データを出力するように、当該モデルのパラメータを学習する。

モデル記憶部１２８には、学習部１２６による学習結果が、学習済みモデルとして記憶される。

次に、学習装置１２０のハードウェア構成について説明する。

上記図６に示すように、学習装置１２０は、俯瞰データ生成装置２０と同様に、ＣＰＵ６１、ＲＯＭ６２、ＲＡＭ６３、ストレージ６４、及び通信インタフェース６５を有する。各構成は、バス６６を介して相互に通信可能に接続されている。本実施形態では、ストレージ６４には、学習プログラムが格納されている。

次に、学習装置１２０の作用について説明する。

まず、学習装置１２０に、動的な環境においてロボット１００からの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数入力され、教師データ記憶部１２２に記憶される。

図８は、学習装置１２０による学習処理の流れを示すフローチャートである。ＣＰＵ６１がストレージ６４から学習プログラムを読み出して、ＲＡＭ６３に展開し実行することにより、学習処理が行なわれる。

ステップＳ１００では、ＣＰＵ６１が、取得部１２４として、教師データ記憶部１２２から、複数の教師データを取得する。

ステップＳ１０２では、ＣＰＵ６１が、学習部１２６として、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル７０と同様の構成を有するモデルが、教師データのロボット１００の地面上の動き、及び人物の各々の地面上の動きの時系列データを出力するように、当該モデルのパラメータを学習する。

そして、学習部１２６による学習結果が、学習済みモデルとしてモデル記憶部１２８に記憶される。

次に、ロボット１００の作用について説明する。

まず、学習装置１２０によって学習された学習済みモデルが、俯瞰データ生成装置２０のモデル記憶部２７に記憶される。

そして、ロボット１００が、自律走行部６０により目的地まで移動する際に、カメラ１０は、ロボット１００の周囲を予め定めた間隔で撮影し、俯瞰データ生成装置２０は、定期的に、図９に示す俯瞰データ生成処理により俯瞰データを生成し、俯瞰データに基づいて、ロボット１００が目的地に移動するように自律走行部６０を制御する。

図９は、俯瞰データ生成装置２０による俯瞰データ生成処理の流れを示すフローチャートである。ＣＰＵ６１がストレージ６４から俯瞰データ生成プログラムを読み出して、ＲＡＭ６３に展開し実行することにより、俯瞰データ生成処理が行なわれる。

ステップＳ１１０では、ＣＰＵ６１が、取得部２２として、カメラ１０によって撮影された画像の時系列データを取得する。

ステップＳ１１２では、ＣＰＵ６１が、追跡部２４として、取得した画像の時系列データから、人物の各々を追跡し、画像上の人物の各々の各時刻の位置及び大きさを取得する。

ステップＳ１１４では、ＣＰＵ６１が、生成部２６として、取得した画像の時系列データの最初の時刻より一時刻前についての、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルに対し、初期値を設定する。また、画像の時系列データの最初の時刻を時刻ｔとする。

ステップＳ１１６では、ＣＰＵ６１が、生成部２６として、画像上の人物の各々の時刻ｔの位置及び大きさを表すベクトル、並びに時刻ｔ－１について得られた、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルから、学習済みモデル７０を用いて、時刻ｔにおける、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルを推定する。

ステップＳ１１８では、ＣＰＵ６１が、生成部２６として、予め定められた反復終了条件を満たしたか否かを判定する。例えば、画像の時系列データの最後の時刻に到達したことを、反復終了条件として用いればよい。反復終了条件を満たした場合には、ＣＰＵ６１は、ステップＳ１２０へ移行する。一方、反復終了条件を満たしていない場合には、ＣＰＵ６１は、ステップＳ１１６へ戻り、次の時刻を時刻ｔとして、処理を繰り返す。

ステップＳ１２０では、ＣＰＵ６１が、生成部２６として、各時刻について得られた、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルから、各時刻についての、ロボット１００の地面上の位置、カメラ１０の観測方向、及び人物の各々の地面上の位置を表す俯瞰データを生成し、制御部２８に出力し、俯瞰データ生成処理を終了する。

制御部２８は、生成された俯瞰データを用いて、ロボット１００が目的地に移動するように、ロボット１００の移動方向及び速度を指定し、指定された移動方向及び速度で移動するように自律走行部６０を制御する。また、制御部２８は、俯瞰データを用いて、介入行動が必要と判断した場合には、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らすよう報知部５０を制御する。

このように、本実施形態では、ロボット１００の地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから、ロボット１００を俯瞰した位置から観測した場合に得られる、ロボット１００の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成する。これにより、静的なランドマークが検出されない状況であっても、動的な環境においてカメラ１０を搭載したロボット１００からの視点で観測された画像から、ロボット１００の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成することができる。

また、学習済みモデルを用いた計算で実現できるため、計算量が少なくなり、リアルタイムでの俯瞰データの生成が可能となる。

また、教師データとして、画像上の人物の各々の各時刻の位置及び大きさの時系列データを用いるため、実画像を用いる必要がない。これにより、教師データを作成する負担が軽減される。

［第２実施形態］
次に、第２実施形態に係る俯瞰データ生成装置について説明する。なお、第１実施形態と同様の構成となる部分については、同一符号を付して詳細な説明を省略する。

第２実施形態では、ユーザが保持している情報処理端末が、俯瞰データ生成装置を備えている場合を例に説明する。

図１０は、本発明の第２実施形態に係る情報処理端末２００の概略構成を示す図である。図１０に示すように、情報処理端末２００は、カメラ１０、俯瞰データ生成装置２２０、及び出力部２５０を備える。俯瞰データ生成装置２２０は、取得部２２、追跡部２４、生成部２６、及びモデル記憶部２７を備える。なお、ユーザが、観測移動体の一例であり、カメラ１０が、観測装置の一例である。

情報処理端末２００は、ユーザにより直接保持されているか、あるいは、ユーザが保持する保持物体（例えば、スーツケース）に搭載されている。

カメラ１０は、ユーザの周囲を予め定めた間隔で撮影し、撮影した画像を俯瞰データ生成装置２２０の取得部２２に出力する。

生成部２６は、ユーザの地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから取得した画像上の人物の各々の各時刻の位置及び大きさから、ユーザを俯瞰した位置から観測した場合に得られる、ユーザの地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成し、出力部２５０へ出力する。

モデル記憶部２７には、上記第１実施形態と同様に学習装置１２０によって学習された、ユーザの地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルが、記憶されている。

出力部２５０は、生成された俯瞰データをユーザに提示したり、インターネットを介してサーバ（図示省略）へ俯瞰データを送信する。

また、俯瞰データ生成装置２２０は、図６に示すように、上記第１実施形態の俯瞰データ生成装置２０と同様のハードウェア構成を有する。

なお、俯瞰データ生成装置２２０の他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

また、上記図７に示すように、第２実施形態に係る学習装置１２０は、教師データ記憶部１２２、取得部１２４、学習部１２６、及びモデル記憶部１２８を備える。

教師データ記憶部１２２には、動的な環境においてユーザからの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ユーザの地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数記憶されている。

学習部１２６は、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル７０と同様の構成を有するモデルが、教師データのユーザの地面上の動き、及び人物の各々の地面上の動きの時系列データを出力するように、当該モデルのパラメータを学習する。

なお、学習装置１２０の他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

このように、本実施形態では、情報処理端末２００を保持したユーザの地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから、ユーザを俯瞰した位置から観測した場合に得られる、ユーザの地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成する。これにより、静的なランドマークが検出されない状況であっても、動的な環境においてカメラ１０を有する情報処理端末２００を保持したユーザからの視点で観測された画像から、ユーザの地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成することができる。

本発明は、自動運転車両にも応用することができる。この場合、観測移動体は自動運転車両であり、観測装置は、カメラ、レーザーレーダー、ミリ波レーダーであり、移動体は他の車両、オートバイ、歩行者等である。

［第３実施形態］
次に、第３実施形態に係る俯瞰データ生成装置について説明する。なお、第３実施形態に係る俯瞰データ生成装置は、第１実施形態と同様の構成であるため、同一符号を付して詳細な説明を省略する。

第３実施形態では、ユーザの地面上の動きの分布、及び人物の各々の地面上の動きの分布を予測する点が、第１実施形態と異なっている。

第３実施形態に係る俯瞰データ生成装置２０の生成部２６は、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの分布を予測する学習済みモデルを用いて、画像の時系列データから取得した画像上の人物の各々の各時刻の位置及び大きさから、ロボット１００を俯瞰した位置から観測した場合に得られる、ロボット１００の地面上の移動軌跡、及び人物の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成する。

具体的には、生成部２６は、画像上の人物の各々の各時刻の位置及び大きさを入力として、一時刻先のロボット１００の地面上の動き、及び人物の各々の地面上の動きの分布を予測する学習済みモデルを用いて、俯瞰データの予測結果を生成する。

ここで、学習済みモデルは、人物の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、対象時刻について得られた、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの分布を入力とし、ベクトルを出力する第２エンコーダと、第１エンコーダによって出力されたベクトル、及び第２エンコーダによって出力されたベクトルを入力とし、対象時刻より一時刻先についてのロボット１００の地面上の動き、及び人物の各々の地面上の動きの分布を出力するデコーダとを含む。

より具体的には、学習済みモデル７０の第１エンコーダ７２は、ロボット１００が一人称視点で観測した各人物の位置及び大きさを入力とし、人物間のセルフアテンションをとり、得られたベクトルを出力する。

第２エンコーダ７４は、対象時刻について得られた、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの分布を入力とし、ロボット１００の位置に対する各人物の相対位置の分布及び速度の分布をエンコーディングし、得られたベクトルを出力する。

具体的には、時刻ｔについて得られた、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの分布から、ロボット１００の位置に対する人物の各々の地面上の動きの分布を表すベクトルを求め、このベクトルを、多層パーセプトロン７４０に入力して得られたベクトルを、第２エンコーダ７４の入力ベクトルとする。

デコーダ７６は、第１エンコーダ７２の出力ベクトルと第２エンコーダ７４の出力ベクトルとの間で、クロスアテンションをとり、クロスアテンションの結果から得られたベクトルを出力する。このベクトルは、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの分布をマルチヘッドで予測した結果を表している。

ここで、動きの分布を表すベクトルは、例えば、対象時刻に対する相対位置のガウス分布（平均及び分散）、並びに相対速度のガウス分布（平均及び分散）を表すベクトルである。なお、動きの分布を表すベクトルは、対象時刻に対する相対位置のガウス分布（平均及び分散）を表すベクトル、又は対象時刻に対する相対速度のガウス分布（平均及び分散）を表すベクトルであってもよい。

本実施形態では、生成部２６は、画像上の人物の各々の時刻ｔの位置及び大きさを表すベクトル、並びに時刻ｔについて得られた、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きの分布を表すベクトルから、学習済みモデル７０を用いて、時刻ｔ＋１における、ロボット１００の地面上の動きを表すベクトル、及び人物の各々の地面上の動きの分布を表すベクトルを求めることを、各時刻ｔについて繰り返すことにより、俯瞰データの予測結果を生成する。

生成部２６は、例えば、図１１Ａに示すような俯瞰データの予測結果を生成する。図１１Ａは、相対位置から求まる位置を示す黒丸をつないだ線でロボット１００の地面上の移動軌跡を示している。また、図１１Ａは、相対位置の平均から求まる平均位置を示す×印をつないだ線で人物の各々の地面上の移動軌跡を示し、×印の周りの楕円で、相対位置の分布から求まる位置の分布を示す例を示している。分布を示す楕円は、円であってもよいし、等高線、高さの分布を示す色分けをして表示してもよい。また、ロボット１００の位置は、ロボット１００の制御や位置を特定するセンサの誤差を含むため、その不確定性の分布を含み計算し、分布と共に表示してもよい
また、図１１Ｂに示すような、次の時刻の人物の各々の地面上の位置の分布を表す俯瞰データを生成してもよい。図１１Ｂでは、縦軸、横軸は距離を表し、ロボット（逆三角）、人の位置の分布を含む俯瞰図の例を示している。等高線の楕円は、不確かさの分布を伴う人の位置を示し、点線はロボット１００のカメラの視界を示している。図１１Ｂの例は、ロボット１００内の情報を表した図のため、ロボットの位置は固定（不確かさの分布はない）され、人のみが不確かさの分布を持つ。

制御部２８は、俯瞰データを用いて、ロボット１００が人物と衝突せず、かつ、ロボット１００が目的地に移動するように自律走行部６０を制御する。例えば、制御部２８は、ロボット１００の移動方向及び速度を指定し、指定された移動方向及び速度で移動するように自律走行部６０を制御する。このとき、上記図１１の俯瞰データの楕円の範囲を回避するように、ロボット１００の移動方向及び速度を指定することにより、ロボット１００と人物との衝突をより回避することができる。

第３実施形態に係る学習装置１２０の教師データ記憶部１２２には、動的な環境においてロボット１００からの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ロボット１００の地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数記憶されている。ここで、教師データでは、動的な環境においてユーザからの視点で観測された画像上の人物の各々の当該時刻の位置及び大きさと、ユーザの次時刻の地面上の動き、及び人物の各々の次時刻の地面上の動きとが対応付けられている。

学習部１２６は、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル７０と同様の構成を有するモデルが、教師データのロボット１００の地面上の動きに対応する動きの時系列データ、及び教師データの人物の各々の地面上の動きに対応する動きの分布の時系列データを出力するように、当該モデルのパラメータを学習する。

なお、第３実施形態に係る俯瞰データ生成装置２０及び学習装置１２０の他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

このように、本実施形態によれば、ロボット１００の次時刻の地面上の動き、及び人物の各々の次時刻の地面上の動きを予測する学習済みモデルを用いて、画像の時系列データから、ロボット１００を俯瞰した位置から観測した場合に得られる、ロボット１００の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する。これにより、静的なランドマークが検出されない状況であっても、動的な環境においてカメラ１０を搭載したロボット１００からの視点で観測された画像から、ロボット１００の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成することができる。

［実施例］
上記第１実施形態の俯瞰データ生成装置２０により、画像の時系列データから、俯瞰データを生成した例について説明する。

比較例として、各時刻についての、ロボットからの人物の相対位置と、動きモデルとを用いて表される事後分布であって、一時刻前のロボット及び人物の各々の地面上の位置、並びに現時刻における画像上の人物の各々の位置及び大きさが与えられた下での、ロボット及び人物の各々の地面上の位置の事後分布を最大化するように、俯瞰データを生成する方法を用いた。

「Ｈｏｔｅｌ」、「ＥＴＨ」、「Ｓｔｕｄｅｎｔｓ」という異なるシーンのデータベースに対して、計算量を測定した。また、比較例では、ＣＰＵを用い、実施例では、ＣＰＵ、ＧＰＵを用いた場合について計算量を測定した。計算量を測定した結果を、表１に示す。

表１に示すように、比較例（ＧｅｏＶＢ）に比べて、実施例（ＶｉｅｗＢｉｒｄｉｆｏｒｍｅｒ）の方が、計算量が少なくなることが分かった。また、デバイスとしてＧＰＵを用いると、更に計算量が少なくなることが分かった。

［変形例］
なお、上記の実施形態では、ロボット１００や情報処理端末２００が俯瞰データ生成装置２０、２２０を備えた場合について説明したが、俯瞰データ生成装置２０、２２０の機能を外部サーバに設けてもよい。この場合、ロボット１００や情報処理端末２００は、カメラ１０で撮影した画像の時系列データを外部サーバに送信する。外部サーバは、送信された画像の時系列データから、俯瞰データを生成し、ロボット１００や情報処理端末２００に送信する。

また、生成部２６は、カメラ１０により撮影される画像から静的なランドマークが検出される条件下では、画像が表す静的なランドマークを用いて俯瞰データを生成してもよい。例えば、上記の非特許文献２に記載の技術を用いてもよい。この場合、カメラ１０により撮影される画像から静的なランドマークが検出される条件下では、画像が表す静的なランドマークを用いて俯瞰データを生成するようにし、カメラ１０により撮影される画像から静的なランドマークが検出されない条件下（例えば、混雑した環境）では、上記の実施形態で説明した手法により、俯瞰データを生成してもよい。また、画像が表す静的なランドマークを用いて生成された俯瞰データと、上記の実施形態で説明した手法により生成された俯瞰データとを統合するようにしてもよい。

また、追跡部２４は、画像上の人物の各々について、当該人物を表すバウンディングボックスを検出して追跡し、画像上の人物の中心位置（バウンディングボックスの中心位置）及び高さ（バウンディングボックスの高さ）を時刻毎に取得する場合を例に説明したが、これに限定されるものではない。例えば、追跡部２４は、画像上の人物の各々について、当該人物を表す人物骨格を検出して追跡し、画像上の人物の中心位置（人物骨格の中心位置）及び高さ（人物骨格の高さ）を時刻毎に取得するようにしてもよい。また、図１２に示すように、追跡部２４は、画像上の人物の各々について、当該人物を表す高さを示す線を検出して追跡し、画像上の人物の中心位置（線の中心位置）及び高さ（線の高さ）を時刻毎に取得するようにしてもよい。

また、２次元観測情報が、画像である場合を例に説明したが、これに限定されるものではない。例えば、観測装置がイベントカメラであれば、各画素について、動きに応じた画素値を有するデータを、２次元観測情報として用いてもよい。

また、俯瞰データが表す移動体が人物である場合を例に説明したが、これに限定されるものではない。例えば、俯瞰データが表す移動体が、自転車、車両などのパーソナルモビリティであってもよい。

また、上記第１実施形態において、上記第３実施形態と同様に、ロボットの地面上の動き、及び人物の各々の地面上の動きの分布を推定する学習済みモデルを用いて、２次元観測情報の時系列データから、ロボットを俯瞰した位置から観測した場合に得られる、ロボットの地面上の移動軌跡、及び人物の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成するようにしてもよい。

また、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行し俯瞰データ生成処理及び学習処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、俯瞰データ生成処理及び学習処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

また、上記各実施形態では、俯瞰データ生成プログラム及び学習プログラムがストレージ６４に予め記憶されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

以上の実施形態に関し、更に以下の付記を開示する。

［付記１］
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
を含む俯瞰データ生成装置。

［付記２］
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を推定する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成する付記１記載の俯瞰データ生成装置。

［付記３］
前記２次元観測情報の時系列データから、前記移動体の各々を追跡し、前記２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを取得する追跡部を更に含み、
前記生成部は、前記２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する前記学習済みモデルを用いて、前記俯瞰データを生成する付記１又は２記載の俯瞰データ生成装置。

［付記４］
前記学習済みモデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第２エンコーダと、
前記第１エンコーダによって出力された前記ベクトル、及び前記第２エンコーダによって出力された前記ベクトルを入力とし、前記対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む付記３記載の俯瞰データ生成装置。

［付記５］
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさの時系列データと、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの時系列データとの組み合わせを教師データとして取得する取得部と、
前記教師データに基づいて、前記２次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定するモデルを学習する学習部と、
を含む学習装置。

［付記６］
前記モデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第２エンコーダと、
前記第１エンコーダによって出力された前記ベクトル、及び前記第２エンコーダによって出力された前記ベクトルを入力とし、対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む付記５記載の学習装置。

［付記７］
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
を含む俯瞰データ生成装置。

［付記８］
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を予測する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成する付記７記載の俯瞰データ生成装置。

［付記９］
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。

［付記１０］
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。

［付記１１］
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データを用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。

［付記１２］
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。

［付記１３］
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。

［付記１４］
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも１つの移動体を表す２次元観測情報の時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記２次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データの予測結果を用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。

１０カメラ
２０俯瞰データ生成装置
２２取得部
２４追跡部
２６生成部
２８制御部
５０報知部
６０自律走行部
７０学習済みモデル
７２第１エンコーダ
７４第２エンコーダ
７６デコーダ
１００ロボット
１２０学習装置
１２２教師データ記憶部
１２４取得部
１２６学習部
２００情報処理端末
２２０俯瞰データ生成装置

Claims

動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
を含む俯瞰データ生成装置。
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を推定する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成する請求項１記載の俯瞰データ生成装置。
前記時系列データから、前記移動体の各々を追跡し、前記移動体の各々の各時刻の位置及び大きさを取得する追跡部を更に含み、
前記生成部は、前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する前記学習済みモデルを用いて、前記俯瞰データを生成する請求項１記載の俯瞰データ生成装置。
前記学習済みモデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第２エンコーダと、
前記第１エンコーダによって出力された前記ベクトル、及び前記第２エンコーダによって出力された前記ベクトルを入力とし、前記対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む請求項３記載の俯瞰データ生成装置。
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体の各々の各時刻の位置及び大きさの時系列データと、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの時系列データとの組み合わせを教師データとして取得する取得部と、
前記教師データに基づいて、前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定するモデルを学習する学習部と、
を含む学習装置。
前記モデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第１エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第２エンコーダと、
前記第１エンコーダによって出力された前記ベクトル、及び前記第２エンコーダによって出力された前記ベクトルを入力とし、対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む請求項５記載の学習装置。
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
を含む俯瞰データ生成装置。
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を予測する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成する請求項７記載の俯瞰データ生成装置。
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データを用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも１つの移動体を表す時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データの予測結果を用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。
前記取得部は、カメラ、レーザーレーダー、及びミリ波レーダーのいずれかを含む請求項１の俯瞰データ生成装置。
前記取得工程は、カメラ、レーザーレーダー、及びミリ波レーダーのいずれかを用いて観測された前記少なくとも１つの移動体を表す時系列データを取得する請求項１３の俯瞰データ生成方法。