JP2023135615A - Bird's eye view data generation device, learning device, bird's eye view data generation program, bird's eye view data generation method, and robot - Google Patents

Bird's eye view data generation device, learning device, bird's eye view data generation program, bird's eye view data generation method, and robot Download PDF

Info

Publication number
JP2023135615A
JP2023135615A JP2023022034A JP2023022034A JP2023135615A JP 2023135615 A JP2023135615 A JP 2023135615A JP 2023022034 A JP2023022034 A JP 2023022034A JP 2023022034 A JP2023022034 A JP 2023022034A JP 2023135615 A JP2023135615 A JP 2023135615A
Authority
JP
Japan
Prior art keywords
ground
movement
bird
observed
eye view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023022034A
Other languages
Japanese (ja)
Other versions
JP2023135615A5 (en
JP7438515B2 (en
Inventor
真衣 黒瀬(西村)
Kurose, (Nishimura) Mai
章平 延原
Shohei Nobuhara
恒 西野
Ko Nishino
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Kyoto University
Original Assignee
Omron Corp
Kyoto University
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Kyoto University, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to PCT/JP2023/009949 priority Critical patent/WO2023176854A1/en
Publication of JP2023135615A publication Critical patent/JP2023135615A/en
Publication of JP2023135615A5 publication Critical patent/JP2023135615A5/ja
Priority to JP2024015106A priority patent/JP2024059653A/en
Application granted granted Critical
Publication of JP7438515B2 publication Critical patent/JP7438515B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

To make it possible to generate, from two-dimensional observation information observed from a viewpoint of an observation moving body mounted with an observation device in a dynamic environment, a movement locus of the observation moving body on the ground and bird's eye view data representing a movement locus of each of the moving bodies on the ground even in a situation in which a static landmark is not detected.SOLUTION: A bird's eye view data generation device includes: an acquisition unit 22 that acquires time series data of two-dimensional observation information representing at least one moving body observed from a viewpoint from an observation moving body mounted with an observation device in a dynamic environment; and a generation unit 26 that, using a learned model for estimating a movement of the observation moving body on the ground and a movement of each of the moving bodies on the ground, generates a movement locus of the observation moving body on the ground, which is acquired from the time-series data of the two-dimensional observation information when the observation moving body is observed from a bird's eye view position, and bird's-eye view data representing a movement locus of each of the moving bodies on the ground.SELECTED DRAWING: Figure 1

Description

新規性喪失の例外適用申請有り There is an application for exception to loss of novelty.

本発明は、俯瞰データ生成装置、学習装置、俯瞰データ生成プログラム、俯瞰データ生成方法、及びロボットに関する。 The present invention relates to an overhead view data generation device, a learning device, an overhead view data generation program, an overhead view data generation method, and a robot.

従来より、一人称視点で撮影された映像で観測した人物骨格に基づき、俯瞰視点での人物位置分布を推定する技術が知られている(非特許文献1)。 BACKGROUND ART Conventionally, there has been known a technique for estimating a person's position distribution from an overhead perspective based on a human skeleton observed in a video shot from a first-person perspective (Non-Patent Document 1).

また、静的なランドマーク基準の自己位置推定(Simultaneously Localization and Mapping:SLAM)の最適化対象に移動体を加えて逐次最適化を行う技術が知られている(非特許文献2)。 Furthermore, a technique is known in which a moving object is added to the optimization target of static landmark-based self-position estimation (SLAM) and sequential optimization is performed (Non-Patent Document 2).

また、GNSS(Global Navigation Satellite System)により位置を推定する技術が知られている(非特許文献3)。 Furthermore, a technique for estimating a position using GNSS (Global Navigation Satellite System) is known (Non-Patent Document 3).

また、俯瞰視点映像中における一人称映像の撮影位置を推定する技術が知られている(特許文献1)。この技術では、推定のために俯瞰視点及び一人称視点の両視点から抽出された動き特徴の照合を行っている。 Furthermore, a technique for estimating the shooting position of a first-person video in an overhead view video is known (Patent Document 1). In this technique, motion features extracted from both the bird's-eye view and the first-person view are compared for estimation.

"MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation",インターネット検索<URL: https://arxiv.org/abs/1906.06059>, Jun 2019"MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation", Internet search <URL: https://arxiv. org/abs/1906.06059>, Jun 2019 "CubeSLAM: Monocular 3D Object SLAM",インターネット検索<URL: https://arxiv.org/abs/1806.00557>,Jun 2018"CubeSLAM: Monocular 3D Object SLAM", Internet search <URL: https://arxiv. org/abs/1806.00557>, Jun 2018 「フィールドロボティクスの現状と展望」、インターネット検索<URL: https://committees.jsce.or.jp/opcet_sip/system/files/0130_01.pdf>"Current status and prospects of field robotics", Internet search <URL: https://committees. jsce. or. jp/opcet_sip/system/files/0130_01. pdf>

特開2021-77287号公報JP2021-77287A

しかしながら、上記非特許文献1記載の技術では、観測カメラの運動や周辺の移動体の移動軌跡を復元することはできない。 However, with the technique described in Non-Patent Document 1, it is not possible to restore the movement of the observation camera or the movement trajectory of surrounding moving objects.

また、上記非特許文献2記載の技術は、移動体と共に静的なランドマークが安定して観測可能な環境でしか適用できない。また、移動体の動きモデルが単純な剛体運動に限られ、相互作用を考慮した移動体の動きに対応できない。 Further, the technique described in Non-Patent Document 2 can only be applied in an environment where static landmarks can be stably observed together with moving objects. Furthermore, the motion model of the moving body is limited to simple rigid body motion, and cannot support the movement of the moving body in consideration of interaction.

また、上記非特許文献3記載の技術では、GNSSを搭載した装置自身の自己位置の復元のみを対象とし、周辺の移動体の位置を復元できない。また、高層ビルなどによる遮蔽が生じる環境では、GPS(Global Positioning System)電波の受信が不安定となり、位置復元結果が不正確となる。 Further, the technique described in Non-Patent Document 3 is only intended to restore the self-position of the device equipped with GNSS, and cannot restore the positions of surrounding moving objects. Furthermore, in an environment where there is shielding from a skyscraper or the like, reception of GPS (Global Positioning System) radio waves becomes unstable, resulting in inaccurate position restoration results.

また、上記特許文献1記載の技術は、俯瞰視点の映像が手に入らない場合には適用できない。 Further, the technique described in Patent Document 1 cannot be applied when an overhead view video is not available.

本発明は、上記の点に鑑みてなされたものであり、静的なランドマークが検出されない状況であっても、動的な環境において観測装置を搭載した観測移動体からの視点で観測された2次元観測情報から、観測移動体の地面上の移動軌跡、及び移動体の各々の地面上の移動軌跡を表す俯瞰データを生成することができる俯瞰データ生成装置、学習装置、俯瞰データ生成プログラム、俯瞰データ生成方法、及びロボットを提供することを目的とする。 The present invention has been made in view of the above points, and even in a situation where static landmarks are not detected, it can be observed from the perspective of an observation vehicle equipped with an observation device in a dynamic environment. A bird's-eye view data generation device, a learning device, and a bird's-eye view data generation program capable of generating bird's-eye view data representing a movement trajectory on the ground of an observed moving object and a movement trajectory on the ground of each moving object from two-dimensional observation information, The purpose of this invention is to provide a bird's-eye view data generation method and a robot.

開示の第1態様は、俯瞰データ生成装置であって、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、を含む。 A first aspect of the disclosure is a bird's-eye view data generation device that generates time-series data of two-dimensional observation information representing at least one moving object observed from the viewpoint of an observation moving object equipped with an observation device in a dynamic environment. and a trained model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground, from the time series data of the two-dimensional observation information. a generation unit that generates bird's-eye view data representing a movement trajectory of the observed moving object on the ground and a movement trajectory of each of the moving objects on the ground obtained when the observed moving object is observed from a bird's-eye view position; include.

上記第1態様において、前記生成部は、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を推定する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の位置分布を表す移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成するようにしてもよい。 In the first aspect, the generation unit uses a trained model that estimates the movement of the observation moving object on the ground and the distribution of the movement of each of the moving objects on the ground to estimate the two-dimensional observation information. A movement trajectory representing the position distribution of the observed moving object on the ground, obtained when the observed moving object is observed from a bird's-eye view position, and a position distribution of each of the moving objects on the ground, obtained from time-series data. Bird's-eye view data representing the movement trajectory may be generated.

上記第1態様において、前記2次元観測情報の時系列データから、前記移動体の各々を追跡し、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを取得する追跡部を更に含み、前記生成部は、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する前記学習済みモデルを用いて、前記俯瞰データを生成するようにしてもよい。 In the first aspect, tracking each of the moving objects is tracked from time-series data of the two-dimensional observation information, and the position and size of each of the moving objects at each time on the two-dimensional observation information is acquired. The generation unit receives the position and size at each time of each of the moving objects on the two-dimensional observation information as input, and generates the movement of the observed moving object on the ground and each of the moving objects. The bird's-eye view data may be generated using the learned model that estimates movement on the ground.

上記第1態様において、前記学習済みモデルは、前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第2エンコーダと、前記第1エンコーダによって出力された前記ベクトル、及び前記第2エンコーダによって出力された前記ベクトルを入力とし、前記対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含むようにしてもよい。 In the first aspect, the learned model includes a first encoder that receives as input the position and size of each of the moving objects at the target time and outputs a vector, and a first encoder that receives the position and size of each of the moving objects at the target time and outputs a vector, and a second encoder that takes as input the movement on the ground of The decoder may also include a decoder that receives the vector as an input and outputs the movement of the observation moving object on the ground at the target time and the movement of each of the moving objects on the ground.

開示の第2態様は、学習装置であって、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさの時系列データと、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの時系列データとの組み合わせを教師データとして取得する取得部と、前記教師データに基づいて、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定するモデルを学習する学習部と、を含む。 A second aspect of the disclosure is a learning device that learns about at least one moving object on two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment. Obtaining a combination of time-series data of the position and size at each time, movement of the observed moving object on the ground, and time-series data of the movement of each of the moving objects on the ground as training data. and the movement of the observed moving object on the ground, and the movement of each of the moving objects on the ground based on the teacher data and the position and size of each of the moving objects on the two-dimensional observation information at each time as input. a learning unit that learns a model for estimating movement on the ground.

上記第2態様において、前記モデルは、前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第2エンコーダと、前記第1エンコーダによって出力された前記ベクトル、及び前記第2エンコーダによって出力された前記ベクトルを入力とし、対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含むようにしてもよい。 In the second aspect, the model includes a first encoder that receives as input the position and size of each of the moving objects at a target time and outputs a vector, and a ground surface of the observed moving object obtained one time ago. a second encoder that inputs the above movement and the movement of each of the moving objects on the ground and outputs a vector; the vector output by the first encoder; and the vector output by the second encoder. The decoder may also include a decoder that receives as input and outputs the movement of the observed moving object on the ground at the target time and the movement of each of the moving objects on the ground.

開示の第3態様は、俯瞰データ生成装置であって、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、を含む。 A third aspect of the disclosure is an overhead data generation device that generates time-series data of two-dimensional observation information representing at least one moving object observed from the viewpoint of an observation moving object equipped with an observation device in a dynamic environment. from the time-series data of the two-dimensional observation information using an acquisition unit that acquires the movement of the observed moving object on the ground and a trained model that predicts the movement of each of the moving objects on the ground. a generation unit that generates a prediction result of bird's-eye view data representing a movement trajectory of the observed moving object on the ground, and a movement trajectory of each of the moving objects on the ground, obtained when the observed moving object is observed from a bird's-eye view position; and, including.

上記第3態様において、前記生成部は、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を予測する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の位置分布を表す移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成するようにしてもよい。 In the third aspect, the generation unit uses a trained model that predicts the movement of the observation moving object on the ground and the distribution of the movement of each of the moving objects on the ground to predict the two-dimensional observation information. A movement trajectory representing the position distribution of the observed moving object on the ground, obtained when the observed moving object is observed from a bird's-eye view position, and a position distribution of each of the moving objects on the ground, obtained from time-series data. A prediction result of bird's-eye view data representing a movement trajectory may be generated.

開示の第4態様は、俯瞰データ生成プログラムであって、コンピュータに、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、を含む処理を実行させるためのプログラムである。 A fourth aspect of the disclosure is a bird's-eye view data generation program that causes a computer to generate two-dimensional observation information representing at least one moving object observed from the viewpoint of an observation moving object equipped with an observation device in a dynamic environment. an acquisition step of acquiring time-series data; and a learned model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground. A generation step of generating bird's-eye view data representing a movement trajectory of the observed moving object on the ground, and a movement trajectory of each of the moving objects on the ground, obtained when the observed moving object is observed from a bird's-eye view position. This is a program for executing processing including.

開示の第5態様は、俯瞰データ生成方法であって、コンピュータが、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、を含む処理を実行する。 A fifth aspect of the disclosure is a bird's-eye view data generation method, in which a computer generates two-dimensional observation information representing at least one moving object observed from the viewpoint of an observation moving object equipped with an observation device in a dynamic environment. an acquisition step of acquiring time-series data; and a learned model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground. A generation step of generating bird's-eye view data representing a movement trajectory of the observed moving object on the ground, and a movement trajectory of each of the moving objects on the ground, obtained when the observed moving object is observed from a bird's-eye view position. Execute processing including.

開示の第6態様は、ロボットであって、動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、前記ロボットを自律走行させる自律走行部と、前記俯瞰データを用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、を含む。 A sixth aspect of the disclosure is a robot, and an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of a robot equipped with an observation device in a dynamic environment. Then, using a trained model that estimates the movement of the robot on the ground and the movement of each of the moving objects on the ground, the robot is observed from a bird's-eye view position based on the time series data of the two-dimensional observation information. a generation unit that generates bird's-eye view data representing a movement trajectory of the robot on the ground and a movement trajectory of each of the moving bodies on the ground, obtained when the robot moves autonomously; A control unit that controls the autonomous traveling unit so that the robot moves to a destination using bird's-eye view data.

開示の第7態様は、俯瞰データ生成プログラムであって、コンピュータに、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、を含む処理を実行させるためのプログラムである。 A seventh aspect of the disclosure is a bird's-eye view data generation program that causes a computer to generate two-dimensional observation information representing at least one moving object observed from the viewpoint of an observation moving object equipped with an observation device in a dynamic environment. an acquisition step of acquiring time-series data, and a learned model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground, to obtain the time-series data of the two-dimensional observation information. From this, a prediction result of bird's-eye view data representing the movement trajectory of the observed moving object on the ground and the movement trajectory of each of the moving objects on the ground obtained when the observed moving object is observed from a bird's-eye view position is generated. This is a program for executing processing including a generation process.

開示の第8態様は、俯瞰データ生成方法であって、コンピュータが、動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、を含む処理を実行する。 An eighth aspect of the disclosure is a bird's-eye view data generation method, in which a computer generates two-dimensional observation information representing at least one moving object observed from the perspective of an observation moving object equipped with an observation device in a dynamic environment. an acquisition step of acquiring time-series data, and a learned model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground, to obtain the time-series data of the two-dimensional observation information. From this, a prediction result of bird's-eye view data representing the movement trajectory of the observed moving object on the ground and the movement trajectory of each of the moving objects on the ground obtained when the observed moving object is observed from a bird's-eye view position is generated. A process including a generation process is executed.

開示の第9態様は、ロボットであって、動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、前記2次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、前記ロボットを自律走行させる自律走行部と、前記俯瞰データの予測結果を用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、を含む。 A ninth aspect of the disclosure is a robot, and an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of a robot equipped with an observation device in a dynamic environment. Then, using a trained model that predicts the movement of the robot on the ground and the movement of each of the moving objects on the ground, the robot is observed from a bird's-eye view position based on the time series data of the two-dimensional observation information. a generation unit that generates a prediction result of bird's-eye view data representing a movement trajectory of the robot on the ground and a movement trajectory of each of the moving objects on the ground, obtained when and a control unit that controls the autonomous traveling unit so that the robot moves to a destination using the prediction result of the bird's-eye view data.

本発明によれば、静的なランドマークが検出されない状況であっても、動的な環境において観測装置を搭載した観測移動体からの視点で観測された2次元観測情報から、観測移動体の地面上の移動軌跡、及び移動体の各々の地面上の移動軌跡を表す俯瞰データを生成することができる。 According to the present invention, even in a situation where static landmarks are not detected, the observation vehicle can be detected from two-dimensional observation information observed from the viewpoint of the observation vehicle equipped with an observation device in a dynamic environment. It is possible to generate overhead view data representing a movement trajectory on the ground and a movement trajectory of each moving object on the ground.

第1実施形態に係るロボットの概略構成を示す図である。FIG. 1 is a diagram showing a schematic configuration of a robot according to a first embodiment. カメラにより撮影される画像の一例を示す図である。FIG. 3 is a diagram showing an example of an image taken by a camera. 画像から人物を検出した結果の一例を示す図である。It is a figure which shows an example of the result of detecting a person from an image. 学習済みモデルの一例を示す図である。FIG. 3 is a diagram showing an example of a trained model. 俯瞰データの一例を示す図である。FIG. 3 is a diagram showing an example of bird's-eye view data. 第1、第2実施形態に係る俯瞰データ生成装置及び学習装置のハードウェア構成を示すブロック図である。FIG. 2 is a block diagram showing the hardware configuration of an overhead view data generation device and a learning device according to the first and second embodiments. 第1、第2実施形態に係る学習装置の概略構成を示す図である。FIG. 1 is a diagram showing a schematic configuration of a learning device according to first and second embodiments. 第1、第2実施形態に係る学習装置による学習処理の流れを示すフローチャートである。It is a flowchart showing the flow of learning processing by the learning device according to the first and second embodiments. 第1、第2実施形態に係る俯瞰データ生成装置による俯瞰データ生成処理の流れを示すフローチャートである。2 is a flowchart showing the flow of overhead view data generation processing by the overhead view data generation device according to the first and second embodiments. 第2実施形態に係る情報処理端末の概略構成を示す図である。FIG. 2 is a diagram showing a schematic configuration of an information processing terminal according to a second embodiment. 俯瞰データの一例を示す図である。FIG. 3 is a diagram showing an example of bird's-eye view data. 俯瞰データの他の例を示す図である。FIG. 7 is a diagram showing another example of bird's-eye view data. 画像から人物を検出した結果の一例を示す図である。It is a figure which shows an example of the result of detecting a person from an image.

以下、本発明の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。 An example of an embodiment of the present invention will be described below with reference to the drawings. In addition, the same reference numerals are given to the same or equivalent components and parts in each drawing. Further, the dimensional ratios in the drawings may be exaggerated for convenience of explanation and may differ from the actual ratios.

[第1実施形態]
図1は、本発明の第1実施形態に係るロボット100の概略構成を示す図である。図1に示すように、ロボット100は、カメラ10、俯瞰データ生成装置20、報知部50、及び自律走行部60を備える。俯瞰データ生成装置20は、取得部22、追跡部24、生成部26、モデル記憶部27、及び制御部28を備える。なお、ロボット100が、観測移動体の一例であり、カメラ10が、観測装置の一例である。
[First embodiment]
FIG. 1 is a diagram showing a schematic configuration of a robot 100 according to a first embodiment of the present invention. As shown in FIG. 1, the robot 100 includes a camera 10, an overhead view data generation device 20, a notification section 50, and an autonomous traveling section 60. The bird's-eye view data generation device 20 includes an acquisition section 22 , a tracking section 24 , a generation section 26 , a model storage section 27 , and a control section 28 . Note that the robot 100 is an example of an observation moving object, and the camera 10 is an example of an observation device.

カメラ10は、スタート地点から目的地に移動するまでの間、ロボット100の周囲を予め定めた間隔で撮影し、撮影した画像を俯瞰データ生成装置20の取得部22に出力する。なお、画像が、2次元観測情報の一例である。 The camera 10 photographs the surroundings of the robot 100 at predetermined intervals until it moves from the start point to the destination, and outputs the photographed images to the acquisition unit 22 of the bird's-eye view data generation device 20. Note that the image is an example of two-dimensional observation information.

例えば、動的な環境においてロボット100からの視点で観測された少なくとも1人の人物を表す画像が、カメラ10により撮影される(図2参照)。 For example, an image representing at least one person observed from the viewpoint of the robot 100 in a dynamic environment is captured by the camera 10 (see FIG. 2).

カメラ10として、透視投影のRGBカメラを用いてもよいし、魚眼カメラや360度カメラを用いてもよい。 As the camera 10, a perspective projection RGB camera, a fisheye camera, or a 360-degree camera may be used.

取得部22は、カメラ10によって撮影された画像の時系列データを取得する。 The acquisition unit 22 acquires time-series data of images captured by the camera 10.

追跡部24は、取得した画像の時系列データから、人物の各々を追跡し、画像上の人物の各々の各時刻の位置及び大きさを取得する。 The tracking unit 24 tracks each person from the time series data of the acquired images, and acquires the position and size of each person on the image at each time.

例えば、図3に示すように、画像上の人物の各々について、当該人物を表すバウンディングボックスを検出して追跡し、画像上の人物の中心位置(バウンディングボックスの中心位置)及び高さ(バウンディングボックスの高さ)を時刻毎に取得する。 For example, as shown in Figure 3, for each person on an image, a bounding box representing the person is detected and tracked, and the center position (center position of the bounding box) and height (center position of the bounding box) of the person on the image are detected and tracked. height) at each time.

生成部26は、ロボット100の地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから取得した画像上の人物の各々の各時刻の位置及び大きさから、ロボット100を俯瞰した位置から観測した場合に得られる、ロボット100の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成する。 The generation unit 26 uses a learned model that estimates the movement of the robot 100 on the ground and the movement of each person on the ground to calculate the time of each person on the image obtained from the time series data of the image. From the position and size, overhead view data representing the movement trajectory of the robot 100 on the ground and the movement trajectory of each person on the ground, obtained when the robot 100 is observed from a bird's-eye view position, is generated.

具体的には、生成部26は、画像上の人物の各々の各時刻の位置及び大きさを入力として、ロボット100の地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、俯瞰データを生成する。 Specifically, the generation unit 26 receives the position and size of each person on the image at each time as input, and is trained to estimate the movement of the robot 100 on the ground and the movement of each person on the ground. Generate bird's-eye view data using the model.

ここで、学習済みモデルは、人物の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、一時刻前について得られた、ロボット100の地面上の動き、及び人物の各々の地面上の動きを入力とし、ベクトルを出力する第2エンコーダと、第1エンコーダによって出力されたベクトル、及び第2エンコーダによって出力されたベクトルを入力とし、対象時刻についてのロボット100の地面上の動き、及び人物の各々の地面上の動きを出力するデコーダとを含む。 Here, the trained model includes a first encoder that inputs the position and size of each target time of the person and outputs a vector, and the movement of the robot 100 on the ground obtained one time ago and the person. a second encoder that inputs the movement on the ground of each of the robots 100 and outputs a vector; and a second encoder that inputs the movement on the ground of each of and a decoder that outputs the movement of each person on the ground.

より具体的には、図4に示すように、学習済みモデル70は、第1エンコーダ72と、第2エンコーダ74と、デコーダ76とを備えている。 More specifically, as shown in FIG. 4, the learned model 70 includes a first encoder 72, a second encoder 74, and a decoder 76.

第1エンコーダ72は、ロボット100が一人称視点で観測した各人物の位置及び大きさを入力とし、人物間のセルフアテンションをとり、得られたベクトルを出力する。 The first encoder 72 inputs the position and size of each person observed by the robot 100 from a first-person viewpoint, takes self-attention between the people, and outputs the obtained vector.

具体的には、画像上の人物の各々の時刻tの位置及び大きさを表すベクトルを、多層パーセプトロン(MLP:Multilayer perceptron)720に入力して得られたベクトルを、第1エンコーダ72の入力ベクトルとする。 Specifically, a vector representing the position and size of each person on the image at time t is input into a multilayer perceptron (MLP) 720, and the obtained vector is used as the input vector of the first encoder 72. shall be.

第1エンコーダ72のマルチヘッドセルフアテンション層722が、第1エンコーダ72の入力ベクトルを、Query、Key、Valueの各々として受け付け、セルフアテンションをとってベクトルを出力する。 The multi-head self-attention layer 722 of the first encoder 72 receives the input vectors of the first encoder 72 as each of Query, Key, and Value, takes self-attention, and outputs the vectors.

第1エンコーダ72の第1正規化層724は、第1エンコーダ72の入力ベクトルと、マルチヘッドセルフアテンション層722の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力する。 The first normalization layer 724 of the first encoder 72 adds the input vector of the first encoder 72 and the output vector of the multi-head self-attention layer 722, performs normalization, and outputs the vector.

順伝播型ニューラルネットワーク726は、第1正規化層724の出力ベクトルを入力とし、ベクトルを出力する。 The forward propagation neural network 726 inputs the output vector of the first normalization layer 724 and outputs the vector.

第2正規化層728は、第1正規化層724の出力ベクトルと、順伝播型ニューラルネットワーク726の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力し、これを第1エンコーダ72の出力ベクトルとする。この出力ベクトルは、一人称視点の埋め込みを表している。 The second normalization layer 728 adds the output vector of the first normalization layer 724 and the output vector of the forward propagation neural network 726, performs normalization, outputs the vector, and sends this to the first encoder 72. Let be the output vector of . This output vector represents the first-person perspective embedding.

第2エンコーダ74は、一時刻前について得られた、ロボット100の地面上の動き、及び人物の各々の地面上の動きを入力とし、ロボット100の位置に対する各人物の相対位置及び速度をエンコーディングし、得られたベクトルを出力する。 The second encoder 74 inputs the movement of the robot 100 on the ground and the movement of each person on the ground obtained one time ago, and encodes the relative position and velocity of each person with respect to the position of the robot 100. , output the obtained vector.

具体的には、時刻t-1について得られた、ロボット100の地面上の動き、及び人物の各々の地面上の動きから、ロボット100の位置に対する人物の各々の地面上の動きを表すベクトルを求め、このベクトルを、多層パーセプトロン740に入力して得られたベクトルを、第2エンコーダ74の入力ベクトルとする。 Specifically, a vector representing the movement of each person on the ground with respect to the position of the robot 100 is calculated from the movement of the robot 100 on the ground and the movement of each person on the ground obtained at time t-1. This vector is input to the multilayer perceptron 740, and the obtained vector is used as the input vector to the second encoder 74.

第2エンコーダ74のマルチヘッドセルフアテンション層742が、第2エンコーダ74の入力ベクトルを、Query、Key、Valueの各々として受け付け、セルフアテンションをとってベクトルを出力する。 The multi-head self-attention layer 742 of the second encoder 74 receives the input vectors of the second encoder 74 as each of Query, Key, and Value, takes self-attention, and outputs the vectors.

第2エンコーダ74の正規化層744は、第2エンコーダ74の入力ベクトルと、マルチヘッドセルフアテンション層742の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力する。このベクトルは、俯瞰視点の埋め込みを表している。 The normalization layer 744 of the second encoder 74 adds the input vector of the second encoder 74 and the output vector of the multi-head self-attention layer 742, then performs normalization and outputs the vector. This vector represents the embedding of the bird's-eye view.

デコーダ76は、第1エンコーダ72の出力ベクトルと第2エンコーダ74の出力ベクトルとの間で、クロスアテンションをとり、クロスアテンションの結果から得られたベクトルを出力する。このベクトルは、ロボット100の地面上の動き、及び人物の各々の地面上の動きをマルチヘッドで予測した結果を表している。 The decoder 76 performs cross-attention between the output vector of the first encoder 72 and the output vector of the second encoder 74, and outputs a vector obtained as a result of the cross-attention. This vector represents the result of multi-head prediction of the movement of the robot 100 on the ground and the movement of each person on the ground.

具体的には、第1エンコーダ72の出力ベクトルと第2エンコーダ74の出力ベクトルを、デコーダ76の入力とする。 Specifically, the output vector of the first encoder 72 and the output vector of the second encoder 74 are input to the decoder 76.

デコーダ76のマルチヘッドクロスアテンション層760が、第1エンコーダ72の出力ベクトルを、Key、Valueの各々として受け付け、第2エンコーダ74の出力ベクトルを、Queryとして受け付け、クロスアテンションをとってベクトルを出力する。 The multi-head cross-attention layer 760 of the decoder 76 receives the output vector of the first encoder 72 as a key and value, receives the output vector of the second encoder 74 as a query, takes cross-attention, and outputs the vector. .

デコーダ76の第1正規化層762は、第2エンコーダ74の出力ベクトルと、マルチヘッドクロスアテンション層760の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力する。 The first normalization layer 762 of the decoder 76 adds the output vector of the second encoder 74 and the output vector of the multi-head cross-attention layer 760, performs normalization, and outputs the vector.

順伝播型ニューラルネットワーク764は、第1正規化層762の出力ベクトルを入力とし、ベクトルを出力する。 The forward propagation neural network 764 inputs the output vector of the first normalization layer 762 and outputs the vector.

第2正規化層766は、第1正規化層762の出力ベクトルと、順伝播型ニューラルネットワーク764の出力ベクトルとを加算した後に、正規化を行い、ベクトルを出力し、これをデコーダ76の出力ベクトルとする。 The second normalization layer 766 adds the output vector of the first normalization layer 762 and the output vector of the forward propagation neural network 764, performs normalization, outputs the vector, and outputs the vector from the decoder 76. Let it be a vector.

順伝播型ニューラルネットワーク768は、デコーダ76の出力ベクトルを入力とし、時刻tのロボット100の動きを表すベクトルを出力する。 The forward propagation neural network 768 inputs the output vector of the decoder 76 and outputs a vector representing the movement of the robot 100 at time t.

また、順伝播型ニューラルネットワーク770は、デコーダ76の出力ベクトルを入力とし、時刻tの人物の各々の動きを表すベクトルを出力する。 Further, the forward propagation neural network 770 receives the output vector of the decoder 76 as input, and outputs a vector representing each movement of the person at time t.

ここで、動きを表すベクトルは、例えば、一時刻前に対する相対位置及び相対速度を表すベクトルである。なお、動きを表すベクトルは、一時刻前に対する相対位置を表すベクトル、又は一時刻前に対する相対速度を表すベクトルであってもよい。 Here, the vector representing movement is, for example, a vector representing relative position and relative velocity with respect to one time ago. Note that the vector representing movement may be a vector representing a relative position with respect to one time ago, or a vector representing relative velocity with respect to one time ago.

本実施形態では、生成部26は、画像上の人物の各々の時刻tの位置及び大きさを表すベクトル、並びに時刻t-1について得られた、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルから、学習済みモデル70を用いて、時刻tにおける、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルを求めることを、各時刻tについて繰り返すことにより、俯瞰データを生成する。 In this embodiment, the generation unit 26 generates a vector representing the position and size of each person on the image at time t, a vector representing the movement of the robot 100 on the ground obtained at time t-1, and Using the learned model 70, find a vector representing the movement of the robot 100 on the ground and a vector representing the movement of each person on the ground at time t from vectors representing the movement of each person on the ground. By repeating this for each time t, overhead view data is generated.

生成部26は、例えば、図5に示すような俯瞰データを生成する。図5は、黒丸をつないだ線でロボット100の地面上の移動軌跡を示し、破線で人物の地面上の移動軌跡を示す例を示している。 The generation unit 26 generates bird's-eye view data as shown in FIG. 5, for example. FIG. 5 shows an example in which a line connecting black circles indicates the locus of movement of the robot 100 on the ground, and a broken line indicates the locus of movement of the person on the ground.

制御部28は、俯瞰データを用いて、ロボット100が目的地に移動するように自律走行部60を制御する。例えば、制御部28は、ロボット100の移動方向及び速度を指定し、指定された移動方向及び速度で移動するように自律走行部60を制御する。 The control unit 28 uses the bird's-eye view data to control the autonomous traveling unit 60 so that the robot 100 moves to the destination. For example, the control unit 28 specifies the moving direction and speed of the robot 100, and controls the autonomous traveling unit 60 to move in the specified moving direction and speed.

また、制御部28は、俯瞰データを用いて、介入行動が必要と判断した場合には、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らすよう報知部50を制御する。 In addition, if the control unit 28 determines that intervention is necessary using the bird's-eye view data, the control unit 28 controls the notification unit 50 to output a message such as "Please clear the road" or to sound a warning sound. do.

次に、ロボット100の俯瞰データ生成装置20のハードウェア構成について説明する。 Next, the hardware configuration of the bird's-eye view data generation device 20 of the robot 100 will be described.

図6に示すように、俯瞰データ生成装置20は、CPU(Central Processing Unit)61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、ストレージ64、及び通信インタフェース(I/F)65を有する。各構成は、バス66を介して相互に通信可能に接続されている。 As shown in FIG. 6, the bird's-eye view data generation device 20 includes a CPU (Central Processing Unit) 61, a ROM (Read Only Memory) 62, a RAM (Random Access Memory) 63, a storage 64, and a communication interface (I/F) 65. has. Each component is communicably connected to each other via a bus 66.

本実施形態では、ストレージ64には、俯瞰データ生成プログラムが格納されている。CPU61は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、CPU61は、ストレージ64からプログラムを読み出し、RAM63を作業領域としてプログラムを実行する。CPU61は、ストレージ64に記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。 In this embodiment, the storage 64 stores an overhead view data generation program. The CPU 61 is a central processing unit that executes various programs and controls each component. That is, the CPU 61 reads the program from the storage 64 and executes the program using the RAM 63 as a work area. The CPU 61 controls each of the above components and performs various arithmetic operations according to programs recorded in the storage 64.

ROM62は、各種プログラム及び各種データを格納する。RAM63は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ64は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。 The ROM 62 stores various programs and various data. The RAM 63 temporarily stores programs or data as a work area. The storage 64 is configured with an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores various programs including an operating system and various data.

通信インタフェース65は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI又はWi-Fi(登録商標)等の規格が用いられる。 The communication interface 65 is an interface for communicating with other devices, and uses, for example, a standard such as Ethernet (registered trademark), FDDI, or Wi-Fi (registered trademark).

上記学習済みモデル70は、図7に示す学習装置120によって予め学習される。以下、この学習装置120について説明する。 The trained model 70 is trained in advance by the learning device 120 shown in FIG. This learning device 120 will be explained below.

図7は、本発明の第1実施形態に係る学習装置120の概略構成を示す図である。図7に示すように、学習装置120は、教師データ記憶部122、取得部124、学習部126、及びモデル記憶部128を備える。 FIG. 7 is a diagram showing a schematic configuration of the learning device 120 according to the first embodiment of the present invention. As shown in FIG. 7, the learning device 120 includes a teacher data storage section 122, an acquisition section 124, a learning section 126, and a model storage section 128.

教師データ記憶部122には、動的な環境においてロボット100からの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ロボット100の地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数記憶されている。 The teacher data storage unit 122 stores time series data of the position and size of each person on the image at each time observed from the viewpoint of the robot 100 in a dynamic environment, the movement of the robot 100 on the ground, A plurality of combinations of the time-series data of the movement of each person on the ground and the movement of each person on the ground are stored as teacher data.

取得部124は、教師データ記憶部122から、複数の教師データを取得する。 The acquisition unit 124 acquires a plurality of pieces of teacher data from the teacher data storage unit 122.

学習部126は、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル70と同様の構成を有するモデルが、教師データのロボット100の地面上の動き、及び人物の各々の地面上の動きの時系列データを出力するように、当該モデルのパラメータを学習する。 The learning unit 126 has the same configuration as the learned model 70 when inputting time series data of the position and size of each person on the image of the teacher data at each time based on a plurality of pieces of teacher data. The parameters of the model are learned so that the model outputs time-series data of the movement of the robot 100 on the ground and the movement of each person on the ground as teacher data.

モデル記憶部128には、学習部126による学習結果が、学習済みモデルとして記憶される。 The model storage unit 128 stores the learning results obtained by the learning unit 126 as a learned model.

次に、学習装置120のハードウェア構成について説明する。 Next, the hardware configuration of the learning device 120 will be explained.

上記図6に示すように、学習装置120は、俯瞰データ生成装置20と同様に、CPU61、ROM62、RAM63、ストレージ64、及び通信インタフェース65を有する。各構成は、バス66を介して相互に通信可能に接続されている。本実施形態では、ストレージ64には、学習プログラムが格納されている。 As shown in FIG. 6 above, the learning device 120 includes a CPU 61, a ROM 62, a RAM 63, a storage 64, and a communication interface 65, similarly to the bird's-eye view data generation device 20. Each component is communicably connected to each other via a bus 66. In this embodiment, the storage 64 stores a learning program.

次に、学習装置120の作用について説明する。 Next, the operation of the learning device 120 will be explained.

まず、学習装置120に、動的な環境においてロボット100からの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ロボット100の地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数入力され、教師データ記憶部122に記憶される。 First, the learning device 120 is provided with time series data of the position and size at each time of each person on the image observed from the viewpoint of the robot 100 in a dynamic environment, the movement of the robot 100 on the ground, and A plurality of combinations of time-series data of each person's movement on the ground are input as teacher data and stored in the teacher data storage unit 122.

図8は、学習装置120による学習処理の流れを示すフローチャートである。CPU61がストレージ64から学習プログラムを読み出して、RAM63に展開し実行することにより、学習処理が行なわれる。 FIG. 8 is a flowchart showing the flow of learning processing by the learning device 120. The learning process is performed by the CPU 61 reading the learning program from the storage 64, loading it onto the RAM 63, and executing it.

ステップS100では、CPU61が、取得部124として、教師データ記憶部122から、複数の教師データを取得する。 In step S100, the CPU 61, as the acquisition unit 124, acquires a plurality of pieces of teacher data from the teacher data storage unit 122.

ステップS102では、CPU61が、学習部126として、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル70と同様の構成を有するモデルが、教師データのロボット100の地面上の動き、及び人物の各々の地面上の動きの時系列データを出力するように、当該モデルのパラメータを学習する。 In step S102, when the CPU 61, as the learning unit 126, inputs time series data of the position and size of each person on the image of the teacher data at each time based on a plurality of pieces of teacher data, The parameters of a model having a configuration similar to the model 70 are learned so that the model outputs time-series data of the movement of the robot 100 on the ground and the movement of each person on the ground as teacher data.

そして、学習部126による学習結果が、学習済みモデルとしてモデル記憶部128に記憶される。 The learning result by the learning unit 126 is then stored in the model storage unit 128 as a trained model.

次に、ロボット100の作用について説明する。 Next, the operation of the robot 100 will be explained.

まず、学習装置120によって学習された学習済みモデルが、俯瞰データ生成装置20のモデル記憶部27に記憶される。 First, the learned model learned by the learning device 120 is stored in the model storage unit 27 of the bird's-eye view data generation device 20.

そして、ロボット100が、自律走行部60により目的地まで移動する際に、カメラ10は、ロボット100の周囲を予め定めた間隔で撮影し、俯瞰データ生成装置20は、定期的に、図9に示す俯瞰データ生成処理により俯瞰データを生成し、俯瞰データに基づいて、ロボット100が目的地に移動するように自律走行部60を制御する。 Then, when the robot 100 moves to the destination by the autonomous traveling unit 60, the camera 10 takes pictures of the surroundings of the robot 100 at predetermined intervals, and the bird's-eye view data generation device 20 periodically takes pictures of the surroundings of the robot 100 as shown in FIG. Bird's-eye view data is generated by the bird's-eye view data generation process shown in FIG.

図9は、俯瞰データ生成装置20による俯瞰データ生成処理の流れを示すフローチャートである。CPU61がストレージ64から俯瞰データ生成プログラムを読み出して、RAM63に展開し実行することにより、俯瞰データ生成処理が行なわれる。 FIG. 9 is a flowchart showing the process of generating bird's-eye view data by the bird's-eye view data generating device 20. The CPU 61 reads the bird's-eye view data generation program from the storage 64, expands it to the RAM 63, and executes it, thereby performing the bird's-eye view data generation process.

ステップS110では、CPU61が、取得部22として、カメラ10によって撮影された画像の時系列データを取得する。 In step S110, the CPU 61, as the acquisition unit 22, acquires time-series data of images photographed by the camera 10.

ステップS112では、CPU61が、追跡部24として、取得した画像の時系列データから、人物の各々を追跡し、画像上の人物の各々の各時刻の位置及び大きさを取得する。 In step S112, the CPU 61, as the tracking unit 24, tracks each person from the time series data of the acquired image, and acquires the position and size of each person on the image at each time.

ステップS114では、CPU61が、生成部26として、取得した画像の時系列データの最初の時刻より一時刻前についての、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルに対し、初期値を設定する。また、画像の時系列データの最初の時刻を時刻tとする。 In step S114, the CPU 61, as the generation unit 26, generates a vector representing the movement of the robot 100 on the ground and the movement of each person on the ground one hour before the first time of the time series data of the acquired image. Set the initial value for the vector representing . Further, the first time of the time series data of the image is assumed to be time t.

ステップS116では、CPU61が、生成部26として、画像上の人物の各々の時刻tの位置及び大きさを表すベクトル、並びに時刻t-1について得られた、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルから、学習済みモデル70を用いて、時刻tにおける、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルを推定する。 In step S116, the CPU 61, as the generation unit 26, generates a vector representing the position and size of each person on the image at time t, and a vector representing the movement of the robot 100 on the ground obtained at time t-1. , and a vector representing the movement of each person on the ground, using the learned model 70, a vector representing the movement of the robot 100 on the ground and a vector representing the movement of each person on the ground at time t. Estimate.

ステップS118では、CPU61が、生成部26として、予め定められた反復終了条件を満たしたか否かを判定する。例えば、画像の時系列データの最後の時刻に到達したことを、反復終了条件として用いればよい。反復終了条件を満たした場合には、CPU61は、ステップS120へ移行する。一方、反復終了条件を満たしていない場合には、CPU61は、ステップS116へ戻り、次の時刻を時刻tとして、処理を繰り返す。 In step S118, the CPU 61, acting as the generation unit 26, determines whether a predetermined repetition end condition is satisfied. For example, reaching the final time of the time-series data of an image may be used as the repetition termination condition. If the repetition end condition is satisfied, the CPU 61 moves to step S120. On the other hand, if the repetition end condition is not satisfied, the CPU 61 returns to step S116, sets the next time to time t, and repeats the process.

ステップS120では、CPU61が、生成部26として、各時刻について得られた、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きを表すベクトルから、各時刻についての、ロボット100の地面上の位置、カメラ10の観測方向、及び人物の各々の地面上の位置を表す俯瞰データを生成し、制御部28に出力し、俯瞰データ生成処理を終了する。 In step S120, the CPU 61, as the generation unit 26, generates a vector for the robot 100 at each time from a vector representing the movement of the robot 100 on the ground and a vector representing the movement of each person on the ground. 100 on the ground, the observation direction of the camera 10, and the position of each person on the ground are generated and output to the control unit 28, and the bird's-eye view data generation process is completed.

制御部28は、生成された俯瞰データを用いて、ロボット100が目的地に移動するように、ロボット100の移動方向及び速度を指定し、指定された移動方向及び速度で移動するように自律走行部60を制御する。また、制御部28は、俯瞰データを用いて、介入行動が必要と判断した場合には、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らすよう報知部50を制御する。 Using the generated bird's-eye view data, the control unit 28 specifies the moving direction and speed of the robot 100 so that the robot 100 moves to the destination, and autonomously runs the robot 100 so that the robot 100 moves in the specified moving direction and speed. 60. In addition, if the control unit 28 determines that intervention is necessary using the bird's-eye view data, the control unit 28 controls the notification unit 50 to output a message such as "Please clear the road" or to sound a warning sound. do.

このように、本実施形態では、ロボット100の地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから、ロボット100を俯瞰した位置から観測した場合に得られる、ロボット100の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成する。これにより、静的なランドマークが検出されない状況であっても、動的な環境においてカメラ10を搭載したロボット100からの視点で観測された画像から、ロボット100の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成することができる。 In this way, in this embodiment, using a trained model that estimates the movement of the robot 100 on the ground and the movement of each person on the ground, the robot 100 is estimated from a bird's-eye view position based on time-series data of images. Overhead view data representing the movement trajectory of the robot 100 on the ground and the movement trajectory of each person on the ground, obtained when observed, is generated. As a result, even in a situation where static landmarks are not detected, the movement trajectory of the robot 100 on the ground and the person It is possible to generate bird's-eye view data representing the movement locus on the ground of each of the ground planes.

また、学習済みモデルを用いた計算で実現できるため、計算量が少なくなり、リアルタイムでの俯瞰データの生成が可能となる。 In addition, since it can be realized by calculation using a trained model, the amount of calculation is reduced and it is possible to generate bird's-eye view data in real time.

また、教師データとして、画像上の人物の各々の各時刻の位置及び大きさの時系列データを用いるため、実画像を用いる必要がない。これにより、教師データを作成する負担が軽減される。 Further, since time-series data of the position and size of each person on the image at each time is used as the training data, there is no need to use an actual image. This reduces the burden of creating teacher data.

[第2実施形態]
次に、第2実施形態に係る俯瞰データ生成装置について説明する。なお、第1実施形態と同様の構成となる部分については、同一符号を付して詳細な説明を省略する。
[Second embodiment]
Next, a bird's-eye view data generation device according to a second embodiment will be described. Note that parts having the same configuration as those in the first embodiment are given the same reference numerals and detailed explanations will be omitted.

第2実施形態では、ユーザが保持している情報処理端末が、俯瞰データ生成装置を備えている場合を例に説明する。 In the second embodiment, an example will be described in which an information processing terminal held by a user includes an overhead view data generation device.

図10は、本発明の第2実施形態に係る情報処理端末200の概略構成を示す図である。図10に示すように、情報処理端末200は、カメラ10、俯瞰データ生成装置220、及び出力部250を備える。俯瞰データ生成装置220は、取得部22、追跡部24、生成部26、及びモデル記憶部27を備える。なお、ユーザが、観測移動体の一例であり、カメラ10が、観測装置の一例である。 FIG. 10 is a diagram showing a schematic configuration of an information processing terminal 200 according to the second embodiment of the present invention. As shown in FIG. 10, the information processing terminal 200 includes a camera 10, an overhead data generation device 220, and an output unit 250. The bird's-eye view data generation device 220 includes an acquisition section 22 , a tracking section 24 , a generation section 26 , and a model storage section 27 . Note that the user is an example of an observation moving object, and the camera 10 is an example of an observation device.

情報処理端末200は、ユーザにより直接保持されているか、あるいは、ユーザが保持する保持物体(例えば、スーツケース)に搭載されている。 The information processing terminal 200 is held directly by the user, or is mounted on a holding object (for example, a suitcase) held by the user.

カメラ10は、ユーザの周囲を予め定めた間隔で撮影し、撮影した画像を俯瞰データ生成装置220の取得部22に出力する。 The camera 10 photographs the surroundings of the user at predetermined intervals, and outputs the photographed images to the acquisition unit 22 of the bird's-eye view data generation device 220.

生成部26は、ユーザの地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから取得した画像上の人物の各々の各時刻の位置及び大きさから、ユーザを俯瞰した位置から観測した場合に得られる、ユーザの地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成し、出力部250へ出力する。 The generation unit 26 uses a trained model that estimates the movement of the user on the ground and the movement of each person on the ground to calculate the position of each person on the image at each time obtained from the time series data of the image. and the size, it generates bird's-eye view data representing the movement trajectory of the user on the ground and the movement trajectory of each person on the ground, obtained when observing the user from a position overlooking the user, and outputs it to the output unit 250. .

モデル記憶部27には、上記第1実施形態と同様に学習装置120によって学習された、ユーザの地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルが、記憶されている。 The model storage unit 27 stores learned models for estimating the movement of the user on the ground and the movements of each person on the ground, which are learned by the learning device 120 in the same manner as in the first embodiment. There is.

出力部250は、生成された俯瞰データをユーザに提示したり、インターネットを介してサーバ(図示省略)へ俯瞰データを送信する。 The output unit 250 presents the generated bird's-eye view data to the user and transmits the bird's-eye view data to a server (not shown) via the Internet.

また、俯瞰データ生成装置220は、図6に示すように、上記第1実施形態の俯瞰データ生成装置20と同様のハードウェア構成を有する。 Further, as shown in FIG. 6, the bird's-eye view data generation device 220 has the same hardware configuration as the bird's-eye view data generation device 20 of the first embodiment.

なお、俯瞰データ生成装置220の他の構成及び作用については、第1実施形態と同様であるため、説明を省略する。 Note that the other configurations and operations of the bird's-eye view data generation device 220 are the same as those in the first embodiment, and therefore description thereof will be omitted.

また、上記図7に示すように、第2実施形態に係る学習装置120は、教師データ記憶部122、取得部124、学習部126、及びモデル記憶部128を備える。 Further, as shown in FIG. 7 above, the learning device 120 according to the second embodiment includes a teacher data storage section 122, an acquisition section 124, a learning section 126, and a model storage section 128.

教師データ記憶部122には、動的な環境においてユーザからの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ユーザの地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数記憶されている。 The teacher data storage unit 122 stores time-series data of the position and size of each person on the image at each time observed from the user's viewpoint in a dynamic environment, the movement of the user on the ground, and the person. A plurality of combinations of each movement on the ground with time series data are stored as teacher data.

学習部126は、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル70と同様の構成を有するモデルが、教師データのユーザの地面上の動き、及び人物の各々の地面上の動きの時系列データを出力するように、当該モデルのパラメータを学習する。 The learning unit 126 has the same configuration as the learned model 70 when inputting time series data of the position and size of each person on the image of the teacher data at each time based on a plurality of pieces of teacher data. The parameters of the model are learned so that the model outputs time-series data of the user's movement on the ground and the movement of each person on the ground in the training data.

なお、学習装置120の他の構成及び作用については、第1実施形態と同様であるため、説明を省略する。 Note that the other configurations and functions of the learning device 120 are the same as those in the first embodiment, so their explanations will be omitted.

このように、本実施形態では、情報処理端末200を保持したユーザの地面上の動き、及び人物の各々の地面上の動きを推定する学習済みモデルを用いて、画像の時系列データから、ユーザを俯瞰した位置から観測した場合に得られる、ユーザの地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成する。これにより、静的なランドマークが検出されない状況であっても、動的な環境においてカメラ10を有する情報処理端末200を保持したユーザからの視点で観測された画像から、ユーザの地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データを生成することができる。 In this way, in this embodiment, the user's movement is estimated from the time-series data of images using a trained model that estimates the movement of the user holding the information processing terminal 200 on the ground and the movement of each person on the ground. Bird's-eye view data representing the user's movement trajectory on the ground and the movement trajectory of each person on the ground, obtained when observed from a bird's-eye view position, is generated. As a result, even in a situation where static landmarks are not detected, the movement of the user on the ground can be determined based on the image observed from the viewpoint of the user holding the information processing terminal 200 having the camera 10 in a dynamic environment. It is possible to generate overhead view data representing the trajectory and the movement trajectory of each person on the ground.

本発明は、自動運転車両にも応用することができる。この場合、観測移動体は自動運転車両であり、観測装置は、カメラ、レーザーレーダー、ミリ波レーダーであり、移動体は他の車両、オートバイ、歩行者等である。 The present invention can also be applied to autonomous vehicles. In this case, the observation moving object is a self-driving vehicle, the observation device is a camera, a laser radar, a millimeter wave radar, and the moving object is another vehicle, a motorcycle, a pedestrian, etc.

[第3実施形態]
次に、第3実施形態に係る俯瞰データ生成装置について説明する。なお、第3実施形態に係る俯瞰データ生成装置は、第1実施形態と同様の構成であるため、同一符号を付して詳細な説明を省略する。
[Third embodiment]
Next, a bird's-eye view data generation device according to a third embodiment will be described. Note that the bird's-eye view data generation device according to the third embodiment has the same configuration as the first embodiment, so the same reference numerals are given and detailed explanation will be omitted.

第3実施形態では、ユーザの地面上の動きの分布、及び人物の各々の地面上の動きの分布を予測する点が、第1実施形態と異なっている。 The third embodiment differs from the first embodiment in that the distribution of the user's movement on the ground and the distribution of the movement of each person on the ground are predicted.

第3実施形態に係る俯瞰データ生成装置20の生成部26は、ロボット100の地面上の動き、及び人物の各々の地面上の動きの分布を予測する学習済みモデルを用いて、画像の時系列データから取得した画像上の人物の各々の各時刻の位置及び大きさから、ロボット100を俯瞰した位置から観測した場合に得られる、ロボット100の地面上の移動軌跡、及び人物の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成する。 The generation unit 26 of the bird's-eye view data generation device 20 according to the third embodiment generates a time series of images using a trained model that predicts the distribution of the movement of the robot 100 on the ground and the movement of each person on the ground. From the position and size at each time of each person on the image acquired from the data, the movement trajectory of the robot 100 on the ground and the position of each person on the ground obtained when observing the robot 100 from a bird's-eye view position. A prediction result of bird's-eye view data representing a movement trajectory representing the position distribution of is generated.

具体的には、生成部26は、画像上の人物の各々の各時刻の位置及び大きさを入力として、一時刻先のロボット100の地面上の動き、及び人物の各々の地面上の動きの分布を予測する学習済みモデルを用いて、俯瞰データの予測結果を生成する。 Specifically, the generation unit 26 inputs the position and size of each person on the image at each time, and calculates the movement of the robot 100 on the ground one time ahead and the movement of each person on the ground. Generate prediction results for bird's-eye view data using a trained model that predicts distribution.

ここで、学習済みモデルは、人物の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、対象時刻について得られた、ロボット100の地面上の動き、及び人物の各々の地面上の動きの分布を入力とし、ベクトルを出力する第2エンコーダと、第1エンコーダによって出力されたベクトル、及び第2エンコーダによって出力されたベクトルを入力とし、対象時刻より一時刻先についてのロボット100の地面上の動き、及び人物の各々の地面上の動きの分布を出力するデコーダとを含む。 Here, the trained model includes a first encoder that inputs the position and size of each target time of the person and outputs a vector, and a first encoder that outputs a vector, the movement of the robot 100 on the ground obtained at the target time, and the person's A second encoder takes as input the distribution of movement on each ground and outputs a vector, and takes as input the vector output by the first encoder and the vector output by the second encoder, and calculates the time one time ahead from the target time. The decoder outputs the movement of the robot 100 on the ground, and the distribution of the movement of each person on the ground.

より具体的には、学習済みモデル70の第1エンコーダ72は、ロボット100が一人称視点で観測した各人物の位置及び大きさを入力とし、人物間のセルフアテンションをとり、得られたベクトルを出力する。 More specifically, the first encoder 72 of the trained model 70 inputs the position and size of each person observed by the robot 100 from a first-person viewpoint, takes self-attention between the people, and outputs the obtained vector. do.

第2エンコーダ74は、対象時刻について得られた、ロボット100の地面上の動き、及び人物の各々の地面上の動きの分布を入力とし、ロボット100の位置に対する各人物の相対位置の分布及び速度の分布をエンコーディングし、得られたベクトルを出力する。 The second encoder 74 inputs the distribution of the movement of the robot 100 on the ground and the movement of each person on the ground obtained at the target time, and the distribution of the relative position and velocity of each person with respect to the position of the robot 100. encodes the distribution of and outputs the obtained vector.

具体的には、時刻tについて得られた、ロボット100の地面上の動き、及び人物の各々の地面上の動きの分布から、ロボット100の位置に対する人物の各々の地面上の動きの分布を表すベクトルを求め、このベクトルを、多層パーセプトロン740に入力して得られたベクトルを、第2エンコーダ74の入力ベクトルとする。 Specifically, from the distribution of the movement of the robot 100 on the ground and the movement of each person on the ground obtained at time t, the distribution of the movement of each person on the ground with respect to the position of the robot 100 is expressed. A vector is determined, and this vector is input to the multilayer perceptron 740, and the obtained vector is used as the input vector to the second encoder 74.

デコーダ76は、第1エンコーダ72の出力ベクトルと第2エンコーダ74の出力ベクトルとの間で、クロスアテンションをとり、クロスアテンションの結果から得られたベクトルを出力する。このベクトルは、ロボット100の地面上の動き、及び人物の各々の地面上の動きの分布をマルチヘッドで予測した結果を表している。 The decoder 76 performs cross-attention between the output vector of the first encoder 72 and the output vector of the second encoder 74, and outputs a vector obtained as a result of the cross-attention. This vector represents the result of multi-head prediction of the movement of the robot 100 on the ground and the distribution of the movement of each person on the ground.

ここで、動きの分布を表すベクトルは、例えば、対象時刻に対する相対位置のガウス分布(平均及び分散)、並びに相対速度のガウス分布(平均及び分散)を表すベクトルである。なお、動きの分布を表すベクトルは、対象時刻に対する相対位置のガウス分布(平均及び分散)を表すベクトル、又は対象時刻に対する相対速度のガウス分布(平均及び分散)を表すベクトルであってもよい。 Here, the vector representing the distribution of motion is, for example, a vector representing a Gaussian distribution (average and variance) of relative position with respect to the target time and a Gaussian distribution (average and variance) of relative velocity. Note that the vector representing the distribution of motion may be a vector representing a Gaussian distribution (average and variance) of relative positions to the target time, or a vector representing a Gaussian distribution (average and variance) of relative velocities to the target time.

本実施形態では、生成部26は、画像上の人物の各々の時刻tの位置及び大きさを表すベクトル、並びに時刻tについて得られた、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きの分布を表すベクトルから、学習済みモデル70を用いて、時刻t+1における、ロボット100の地面上の動きを表すベクトル、及び人物の各々の地面上の動きの分布を表すベクトルを求めることを、各時刻tについて繰り返すことにより、俯瞰データの予測結果を生成する。 In this embodiment, the generation unit 26 generates a vector representing the position and size of each person on the image at time t, a vector representing the movement of the robot 100 on the ground obtained at time t, and a vector representing the movement of the robot 100 on the ground obtained at time t. Using the learned model 70, a vector representing the movement of the robot 100 on the ground and a vector representing the distribution of the movement of each person on the ground at time t+1 are obtained from vectors representing the distribution of movement on the ground. By repeating the calculation for each time t, a prediction result of the bird's-eye view data is generated.

生成部26は、例えば、図11Aに示すような俯瞰データの予測結果を生成する。図11Aは、相対位置から求まる位置を示す黒丸をつないだ線でロボット100の地面上の移動軌跡を示している。また、図11Aは、相対位置の平均から求まる平均位置を示す×印をつないだ線で人物の各々の地面上の移動軌跡を示し、×印の周りの楕円で、相対位置の分布から求まる位置の分布を示す例を示している。分布を示す楕円は、円であってもよいし、等高線、高さの分布を示す色分けをして表示してもよい。また、ロボット100の位置は、ロボット100の制御や位置を特定するセンサの誤差を含むため、その不確定性の分布を含み計算し、分布と共に表示してもよい
また、図11Bに示すような、次の時刻の人物の各々の地面上の位置の分布を表す俯瞰データを生成してもよい。図11Bでは、縦軸、横軸は距離を表し、ロボット(逆三角)、人の位置の分布を含む俯瞰図の例を示している。等高線の楕円は、不確かさの分布を伴う人の位置を示し、点線はロボット100のカメラの視界を示している。図11Bの例は、ロボット100内の情報を表した図のため、ロボットの位置は固定(不確かさの分布はない)され、人のみが不確かさの分布を持つ。
The generation unit 26 generates a prediction result of bird's-eye view data as shown in FIG. 11A, for example. FIG. 11A shows the movement trajectory of the robot 100 on the ground by a line connecting black circles indicating positions determined from relative positions. In addition, in FIG. 11A, the movement locus of each person on the ground is shown by a line connecting x marks indicating the average position found from the average relative position, and the ellipse around the x mark indicates the position found from the distribution of relative positions. An example showing the distribution of is shown. The ellipse indicating the distribution may be a circle, or may be displayed using contour lines or color-coded lines indicating the height distribution. Furthermore, since the position of the robot 100 includes errors in the control of the robot 100 and sensors that specify the position, it may be calculated including the uncertainty distribution and displayed together with the distribution. , overhead view data representing the distribution of the positions of each person on the ground at the next time may be generated. In FIG. 11B, the vertical and horizontal axes represent distance, and an example of an overhead view including the distribution of the positions of robots (inverted triangles) and people is shown. The contour ellipse shows the position of the person with the distribution of uncertainty, and the dotted line shows the field of view of the camera of the robot 100. The example in FIG. 11B is a diagram showing information within the robot 100, so the position of the robot is fixed (there is no uncertainty distribution), and only the person has an uncertainty distribution.

制御部28は、俯瞰データを用いて、ロボット100が人物と衝突せず、かつ、ロボット100が目的地に移動するように自律走行部60を制御する。例えば、制御部28は、ロボット100の移動方向及び速度を指定し、指定された移動方向及び速度で移動するように自律走行部60を制御する。このとき、上記図11の俯瞰データの楕円の範囲を回避するように、ロボット100の移動方向及び速度を指定することにより、ロボット100と人物との衝突をより回避することができる。 The control unit 28 uses the bird's-eye view data to control the autonomous traveling unit 60 so that the robot 100 does not collide with a person and the robot 100 moves to the destination. For example, the control unit 28 specifies the moving direction and speed of the robot 100, and controls the autonomous traveling unit 60 to move in the specified moving direction and speed. At this time, by specifying the moving direction and speed of the robot 100 so as to avoid the elliptical range of the bird's-eye view data in FIG. 11, a collision between the robot 100 and the person can be further avoided.

第3実施形態に係る学習装置120の教師データ記憶部122には、動的な環境においてロボット100からの視点で観測された画像上の人物の各々の各時刻の位置及び大きさの時系列データと、ロボット100の地面上の動き、及び人物の各々の地面上の動きの時系列データとの組み合わせが、教師データとして複数記憶されている。ここで、教師データでは、動的な環境においてユーザからの視点で観測された画像上の人物の各々の当該時刻の位置及び大きさと、ユーザの次時刻の地面上の動き、及び人物の各々の次時刻の地面上の動きとが対応付けられている。 The teacher data storage unit 122 of the learning device 120 according to the third embodiment stores time-series data of the position and size of each person on the image at each time observed from the viewpoint of the robot 100 in a dynamic environment. A plurality of combinations of the time-series data of the movement of the robot 100 on the ground, and the movement of each person on the ground are stored as teacher data. Here, the training data includes the position and size at the relevant time of each person on the image observed from the user's viewpoint in a dynamic environment, the user's movement on the ground at the next time, and the position and size of each person on the image at the next time. It is associated with the movement on the ground at the next time.

取得部124は、教師データ記憶部122から、複数の教師データを取得する。 The acquisition unit 124 acquires a plurality of pieces of teacher data from the teacher data storage unit 122.

学習部126は、複数の教師データに基づいて、教師データの画像上の人物の各々の各時刻の位置及び大きさの時系列データを入力としたときに、学習済みモデル70と同様の構成を有するモデルが、教師データのロボット100の地面上の動きに対応する動きの時系列データ、及び教師データの人物の各々の地面上の動きに対応する動きの分布の時系列データを出力するように、当該モデルのパラメータを学習する。 The learning unit 126 has the same configuration as the learned model 70 when inputting time series data of the position and size of each person on the image of the teacher data at each time based on a plurality of pieces of teacher data. The model outputs time-series data of movement corresponding to the movement of the robot 100 on the ground in the teacher data, and time-series data of movement distribution corresponding to the movement of each person in the teacher data on the ground. , learn the parameters of the model.

モデル記憶部128には、学習部126による学習結果が、学習済みモデルとして記憶される。 The model storage unit 128 stores the learning results obtained by the learning unit 126 as a learned model.

なお、第3実施形態に係る俯瞰データ生成装置20及び学習装置120の他の構成及び作用については、第1実施形態と同様であるため、説明を省略する。 Note that the other configurations and operations of the bird's-eye view data generation device 20 and the learning device 120 according to the third embodiment are the same as those in the first embodiment, and therefore description thereof will be omitted.

このように、本実施形態によれば、ロボット100の次時刻の地面上の動き、及び人物の各々の次時刻の地面上の動きを予測する学習済みモデルを用いて、画像の時系列データから、ロボット100を俯瞰した位置から観測した場合に得られる、ロボット100の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する。これにより、静的なランドマークが検出されない状況であっても、動的な環境においてカメラ10を搭載したロボット100からの視点で観測された画像から、ロボット100の地面上の移動軌跡、及び人物の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成することができる。 As described above, according to the present embodiment, the learned model that predicts the movement of the robot 100 on the ground at the next time and the movement of each person on the ground at the next time is used to predict the movement of the robot 100 on the ground at the next time. , a prediction result of bird's-eye view data representing the movement trajectory of the robot 100 on the ground and the movement trajectory of each person on the ground obtained when the robot 100 is observed from a bird's-eye view position is generated. As a result, even in a situation where static landmarks are not detected, the moving trajectory of the robot 100 on the ground and the person It is possible to generate a prediction result of bird's-eye view data representing the movement trajectory on the ground of each of the ground planes.

[実施例]
上記第1実施形態の俯瞰データ生成装置20により、画像の時系列データから、俯瞰データを生成した例について説明する。
[Example]
An example in which bird's-eye view data is generated from time-series data of images by the bird's-eye view data generation device 20 of the first embodiment will be described.

比較例として、各時刻についての、ロボットからの人物の相対位置と、動きモデルとを用いて表される事後分布であって、一時刻前のロボット及び人物の各々の地面上の位置、並びに現時刻における画像上の人物の各々の位置及び大きさが与えられた下での、ロボット及び人物の各々の地面上の位置の事後分布を最大化するように、俯瞰データを生成する方法を用いた。 As a comparative example, the posterior distribution is expressed using the relative position of the person from the robot and the movement model at each time, and the position of the robot and the person on the ground one time ago, as well as the current position. A method of generating bird's-eye view data is used to maximize the posterior distribution of the positions of the robot and the person on the ground, given the position and size of each person on the image at the time. .

「Hotel」、「ETH」、「Students」という異なるシーンのデータベースに対して、計算量を測定した。また、比較例では、CPUを用い、実施例では、CPU、GPUを用いた場合について計算量を測定した。計算量を測定した結果を、表1に示す。 The amount of calculation was measured for databases of different scenes: "Hotel", "ETH", and "Students". Further, in the comparative example, a CPU was used, and in the example, the amount of calculation was measured using a CPU and a GPU. Table 1 shows the results of measuring the amount of calculation.

表1に示すように、比較例(GeoVB)に比べて、実施例(ViewBirdiformer)の方が、計算量が少なくなることが分かった。また、デバイスとしてGPUを用いると、更に計算量が少なくなることが分かった。 As shown in Table 1, it was found that the amount of calculation was smaller in the example (ViewBirdiformer) than in the comparative example (GeoVB). Furthermore, it was found that the amount of calculation can be further reduced by using a GPU as the device.

[変形例]
なお、上記の実施形態では、ロボット100や情報処理端末200が俯瞰データ生成装置20、220を備えた場合について説明したが、俯瞰データ生成装置20、220の機能を外部サーバに設けてもよい。この場合、ロボット100や情報処理端末200は、カメラ10で撮影した画像の時系列データを外部サーバに送信する。外部サーバは、送信された画像の時系列データから、俯瞰データを生成し、ロボット100や情報処理端末200に送信する。
[Modified example]
In addition, although the above-mentioned embodiment explained the case where the robot 100 and the information processing terminal 200 were equipped with the bird's-eye view data generation devices 20 and 220, the functions of the bird's-eye view data generation devices 20 and 220 may be provided in an external server. In this case, the robot 100 and the information processing terminal 200 transmit time-series data of images captured by the camera 10 to an external server. The external server generates bird's-eye view data from the time series data of the transmitted images and transmits it to the robot 100 and the information processing terminal 200.

また、生成部26は、カメラ10により撮影される画像から静的なランドマークが検出される条件下では、画像が表す静的なランドマークを用いて俯瞰データを生成してもよい。例えば、上記の非特許文献2に記載の技術を用いてもよい。この場合、カメラ10により撮影される画像から静的なランドマークが検出される条件下では、画像が表す静的なランドマークを用いて俯瞰データを生成するようにし、カメラ10により撮影される画像から静的なランドマークが検出されない条件下(例えば、混雑した環境)では、上記の実施形態で説明した手法により、俯瞰データを生成してもよい。また、画像が表す静的なランドマークを用いて生成された俯瞰データと、上記の実施形態で説明した手法により生成された俯瞰データとを統合するようにしてもよい。 Further, under conditions where a static landmark is detected from the image captured by the camera 10, the generation unit 26 may generate the bird's-eye view data using the static landmark represented by the image. For example, the technique described in Non-Patent Document 2 mentioned above may be used. In this case, under the condition that a static landmark is detected from the image photographed by the camera 10, the static landmark represented by the image is used to generate overhead view data, and the image photographed by the camera 10 is Under conditions where static landmarks are not detected (for example, in a crowded environment), overhead view data may be generated using the method described in the above embodiment. Further, the bird's-eye view data generated using the static landmark represented by the image and the bird's-eye view data generated by the method described in the above embodiment may be integrated.

また、追跡部24は、画像上の人物の各々について、当該人物を表すバウンディングボックスを検出して追跡し、画像上の人物の中心位置(バウンディングボックスの中心位置)及び高さ(バウンディングボックスの高さ)を時刻毎に取得する場合を例に説明したが、これに限定されるものではない。例えば、追跡部24は、画像上の人物の各々について、当該人物を表す人物骨格を検出して追跡し、画像上の人物の中心位置(人物骨格の中心位置)及び高さ(人物骨格の高さ)を時刻毎に取得するようにしてもよい。また、図12に示すように、追跡部24は、画像上の人物の各々について、当該人物を表す高さを示す線を検出して追跡し、画像上の人物の中心位置(線の中心位置)及び高さ(線の高さ)を時刻毎に取得するようにしてもよい。 The tracking unit 24 also detects and tracks a bounding box representing each person on the image, and determines the center position (center position of the bounding box) and height (height of the bounding box) of the person on the image. Although the explanation has been given using an example where the data is acquired at each time, the present invention is not limited to this. For example, the tracking unit 24 detects and tracks a human skeleton representing each person on the image, and determines the center position (center position of the human skeleton) and height (height of the human skeleton) of the person on the image. ) may be acquired at each time. Further, as shown in FIG. 12, the tracking unit 24 detects and tracks a line indicating the height of each person on the image, and detects and tracks the center position of the person on the image (the center position of the line). ) and height (line height) may be acquired at each time.

また、2次元観測情報が、画像である場合を例に説明したが、これに限定されるものではない。例えば、観測装置がイベントカメラであれば、各画素について、動きに応じた画素値を有するデータを、2次元観測情報として用いてもよい。 Further, although the two-dimensional observation information has been described using an example of an image, the present invention is not limited to this. For example, if the observation device is an event camera, data having a pixel value corresponding to the movement of each pixel may be used as the two-dimensional observation information.

また、俯瞰データが表す移動体が人物である場合を例に説明したが、これに限定されるものではない。例えば、俯瞰データが表す移動体が、自転車、車両などのパーソナルモビリティであってもよい。 Further, although the case where the moving object represented by the bird's-eye view data is a person has been described as an example, the present invention is not limited to this. For example, the moving object represented by the bird's-eye view data may be a personal mobility object such as a bicycle or a vehicle.

また、上記第1実施形態において、上記第3実施形態と同様に、ロボットの地面上の動き、及び人物の各々の地面上の動きの分布を推定する学習済みモデルを用いて、2次元観測情報の時系列データから、ロボットを俯瞰した位置から観測した場合に得られる、ロボットの地面上の移動軌跡、及び人物の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成するようにしてもよい。 Furthermore, in the first embodiment described above, similarly to the third embodiment described above, two-dimensional observation information is obtained using a trained model that estimates the distribution of the movement of the robot on the ground and the movement of each person on the ground. From the time series data, overhead view data representing the movement trajectory of the robot on the ground and the movement trajectory representing the position distribution of each person on the ground obtained when the robot is observed from a bird's-eye view position is generated. You can.

また、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行し俯瞰データ生成処理及び学習処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、俯瞰データ生成処理及び学習処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。 Further, in each of the above embodiments, the CPU reads and executes the software (program), and the bird's-eye view data generation process and the learning process may be executed by various processors other than the CPU. In this case, the processor includes a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing, such as an FPGA (Field-Programmable Gate Array), and an ASIC (Application Specific Integrated Cipher). rcuit) to execute specific processing such as An example is a dedicated electric circuit that is a processor having a specially designed circuit configuration. Additionally, the bird's-eye view data generation process and the learning process may be executed by one of these various processors, or by a combination of two or more processors of the same type or different types (for example, multiple FPGAs and CPUs). It may also be executed in combination with FPGA, etc.). Further, the hardware structure of these various processors is, more specifically, an electric circuit that is a combination of circuit elements such as semiconductor elements.

また、上記各実施形態では、俯瞰データ生成プログラム及び学習プログラムがストレージ64に予め記憶されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disc Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。 Further, in each of the embodiments described above, a mode has been described in which the bird's-eye view data generation program and the learning program are stored in advance in the storage 64, but the present invention is not limited thereto. The program can be stored on recording media such as CD-ROM (Compact Disc Read Only Memory), DVD-ROM (Digital Versatile Disc Read Only Memory), and USB (Universal Serial Bus) memory. It may also be provided in recorded form. Further, the program may be downloaded from an external device via a network.

以上の実施形態に関し、更に以下の付記を開示する。 Regarding the above embodiments, the following additional notes are further disclosed.

[付記1]
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
を含む俯瞰データ生成装置。
[Additional note 1]
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation unit that generates bird's-eye view data representing the
A bird's-eye view data generation device including:

[付記2]
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成する付記1記載の俯瞰データ生成装置。
[Additional note 2]
The generation unit is
Using a trained model that estimates the movement of the observed moving object on the ground and the distribution of the movement of each of the moving objects on the ground,
A movement trajectory of the observed moving object on the ground, obtained when the observed moving object is observed from a bird's-eye view position, and a position distribution of each of the moving objects on the ground, from the time series data of the two-dimensional observation information. The bird's-eye view data generation device according to supplementary note 1, which generates bird's-eye view data representing a movement trajectory.

[付記3]
前記2次元観測情報の時系列データから、前記移動体の各々を追跡し、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを取得する追跡部を更に含み、
前記生成部は、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する前記学習済みモデルを用いて、前記俯瞰データを生成する付記1又は2記載の俯瞰データ生成装置。
[Additional note 3]
further comprising a tracking unit that tracks each of the moving objects from the time series data of the two-dimensional observation information and obtains the position and size of each of the moving objects at each time on the two-dimensional observation information,
The generation unit inputs the position and size at each time of each of the moving objects on the two-dimensional observation information, and generates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground. The bird's-eye view data generation device according to supplementary note 1 or 2, which generates the bird's-eye view data using the learned model that estimates the bird's-eye view data.

[付記4]
前記学習済みモデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第2エンコーダと、
前記第1エンコーダによって出力された前記ベクトル、及び前記第2エンコーダによって出力された前記ベクトルを入力とし、前記対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む付記3記載の俯瞰データ生成装置。
[Additional note 4]
The trained model is
a first encoder that receives as input the position and size of each target time of the moving body and outputs a vector;
a second encoder that receives as input the movement of the observation moving object on the ground and the movement of each of the moving objects on the ground obtained one time ago, and outputs a vector;
The vector output by the first encoder and the vector output by the second encoder are input, and the movement of the observation moving object on the ground at the target time and the movement of each of the moving objects on the ground are calculated. 3.

[付記5]
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさの時系列データと、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの時系列データとの組み合わせを教師データとして取得する取得部と、
前記教師データに基づいて、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定するモデルを学習する学習部と、
を含む学習装置。
[Additional note 5]
Time-series data of the position and size of each of the moving objects at each time on two-dimensional observation information representing at least one moving object observed from the viewpoint of an observation moving object equipped with an observation device in a dynamic environment. and an acquisition unit that acquires a combination of the movement of the observed moving object on the ground and time-series data of the movement of each of the moving objects on the ground as training data;
Based on the teacher data, the position and size at each time of each of the moving objects on the two-dimensional observation information are input, and the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground are calculated. a learning unit that learns a model for estimating the movement of the
learning devices including;

[付記6]
前記モデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第2エンコーダと、
前記第1エンコーダによって出力された前記ベクトル、及び前記第2エンコーダによって出力された前記ベクトルを入力とし、対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む付記5記載の学習装置。
[Additional note 6]
The model is
a first encoder that receives as input the position and size of each target time of the moving body and outputs a vector;
a second encoder that receives as input the movement of the observation moving object on the ground and the movement of each of the moving objects on the ground obtained one time ago, and outputs a vector;
The vector output by the first encoder and the vector output by the second encoder are input, and the movement of the observation moving object on the ground at the target time and the movement of each of the moving objects on the ground are calculated. The learning device according to supplementary note 5, including a decoder that outputs motion.

[付記7]
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
を含む俯瞰データ生成装置。
[Additional note 7]
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation unit that generates a prediction result of bird's-eye view data representing;
A bird's-eye view data generation device including:

[付記8]
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成する付記7記載の俯瞰データ生成装置。
[Additional note 8]
The generation unit is
Using a trained model that predicts the movement of the observed moving object on the ground and the distribution of the movement of each of the moving objects on the ground,
A movement trajectory of the observed moving object on the ground, obtained when the observed moving object is observed from a bird's-eye view position, and a position distribution of each of the moving objects on the ground, from the time series data of the two-dimensional observation information. 8. The bird's-eye view data generation device according to supplementary note 7, which generates a prediction result of bird's-eye view data representing a movement trajectory.

[付記9]
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。
[Additional note 9]
to the computer,
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating bird's-eye view data representing the
A bird's-eye view data generation program for executing processing including.

[付記10]
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。
[Additional note 10]
The computer is
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating bird's-eye view data representing the
A bird's-eye view data generation method that performs processing including.

[付記11]
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データを用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。
[Additional note 11]
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from the viewpoint of a robot equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the robot on the ground and the movement of each of the moving objects on the ground,
Bird's-eye view data representing the movement trajectory of the robot on the ground and the movement trajectory of each of the mobile objects on the ground, obtained when the robot is observed from a bird's-eye view position from the time series data of the two-dimensional observation information. a generation unit that generates
an autonomous traveling unit that causes the robot to autonomously travel;
a control unit that uses the bird's-eye view data to control the autonomous traveling unit so that the robot moves to a destination;
including robots.

[付記12]
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。
[Additional note 12]
to the computer,
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating a prediction result of bird's-eye view data representing the
A bird's-eye view data generation program for executing processing including.

[付記13]
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。
[Additional note 13]
The computer is
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating a prediction result of bird's-eye view data representing the
A bird's-eye view data generation method that performs processing including.

[付記14]
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データの予測結果を用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。
[Additional note 14]
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from the viewpoint of a robot equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the robot on the ground and the movement of each of the moving objects on the ground,
Bird's-eye view data representing the movement trajectory of the robot on the ground and the movement trajectory of each of the mobile objects on the ground, obtained when the robot is observed from a bird's-eye view position from the time series data of the two-dimensional observation information. a generation unit that generates a prediction result of
an autonomous traveling unit that causes the robot to autonomously travel;
a control unit that controls the autonomous traveling unit so that the robot moves to a destination using a prediction result of the bird's-eye view data;
including robots.

10 カメラ
20 俯瞰データ生成装置
22 取得部
24 追跡部
26 生成部
28 制御部
50 報知部
60 自律走行部
70 学習済みモデル
72 第1エンコーダ
74 第2エンコーダ
76 デコーダ
100 ロボット
120 学習装置
122 教師データ記憶部
124 取得部
126 学習部
200 情報処理端末
220 俯瞰データ生成装置
10 Camera 20 Overhead data generation device 22 Acquisition unit 24 Tracking unit 26 Generation unit 28 Control unit 50 Notification unit 60 Autonomous traveling unit 70 Learned model 72 First encoder 74 Second encoder 76 Decoder 100 Robot 120 Learning device 122 Teacher data storage unit 124 Acquisition unit 126 Learning unit 200 Information processing terminal 220 Overhead view data generation device

Claims (14)

動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
を含む俯瞰データ生成装置。
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation unit that generates bird's-eye view data representing the
A bird's-eye view data generation device including:
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データを生成する請求項1記載の俯瞰データ生成装置。
The generation unit is
Using a trained model that estimates the movement of the observed moving object on the ground and the distribution of the movement of each of the moving objects on the ground,
A movement trajectory of the observed moving object on the ground, obtained when the observed moving object is observed from a bird's-eye view position, and a position distribution of each of the moving objects on the ground, from the time series data of the two-dimensional observation information. The bird's-eye view data generation device according to claim 1, wherein the bird's-eye view data generating device generates bird's-eye view data representing a movement trajectory.
前記2次元観測情報の時系列データから、前記移動体の各々を追跡し、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを取得する追跡部を更に含み、
前記生成部は、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する前記学習済みモデルを用いて、前記俯瞰データを生成する請求項1記載の俯瞰データ生成装置。
further comprising a tracking unit that tracks each of the moving objects from the time series data of the two-dimensional observation information and obtains the position and size of each of the moving objects at each time on the two-dimensional observation information,
The generation unit inputs the position and size at each time of each of the moving objects on the two-dimensional observation information, and generates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground. The bird's-eye view data generation device according to claim 1, wherein the bird's-eye view data is generated using the learned model that estimates the bird's-eye view data.
前記学習済みモデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第2エンコーダと、
前記第1エンコーダによって出力された前記ベクトル、及び前記第2エンコーダによって出力された前記ベクトルを入力とし、前記対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む請求項3記載の俯瞰データ生成装置。
The trained model is
a first encoder that receives as input the position and size of each target time of the moving body and outputs a vector;
a second encoder that receives as input the movement of the observation moving object on the ground and the movement of each of the moving objects on the ground obtained one time ago, and outputs a vector;
The vector output by the first encoder and the vector output by the second encoder are input, and the movement of the observation moving object on the ground at the target time and the movement of each of the moving objects on the ground are calculated. 4. The bird's-eye view data generation device according to claim 3, further comprising a decoder that outputs a motion of the object.
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさの時系列データと、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの時系列データとの組み合わせを教師データとして取得する取得部と、
前記教師データに基づいて、前記2次元観測情報上の前記移動体の各々の各時刻の位置及び大きさを入力として、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定するモデルを学習する学習部と、
を含む学習装置。
Time-series data of the position and size of each of the moving objects at each time on two-dimensional observation information representing at least one moving object observed from the viewpoint of an observation moving object equipped with an observation device in a dynamic environment. and an acquisition unit that acquires a combination of the movement of the observed moving object on the ground and time-series data of the movement of each of the moving objects on the ground as training data;
Based on the teacher data, the position and size at each time of each of the moving objects on the two-dimensional observation information are input, and the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground are calculated. a learning unit that learns a model for estimating the movement of the
learning devices including;
前記モデルは、
前記移動体の各々の対象時刻の位置及び大きさを入力とし、ベクトルを出力する第1エンコーダと、
一時刻前について得られた、前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを入力とし、ベクトルを出力する第2エンコーダと、
前記第1エンコーダによって出力された前記ベクトル、及び前記第2エンコーダによって出力された前記ベクトルを入力とし、対象時刻についての前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを出力するデコーダとを含む請求項5記載の学習装置。
The model is
a first encoder that receives as input the position and size of each target time of the moving body and outputs a vector;
a second encoder that receives as input the movement of the observation moving object on the ground and the movement of each of the moving objects on the ground obtained one time ago, and outputs a vector;
The vector output by the first encoder and the vector output by the second encoder are input, and the movement of the observation moving object on the ground at the target time and the movement of each of the moving objects on the ground are calculated. The learning device according to claim 5, further comprising a decoder that outputs motion.
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
を含む俯瞰データ生成装置。
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation unit that generates a prediction result of bird's-eye view data representing;
A bird's-eye view data generation device including:
前記生成部は、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きの分布を予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の位置分布を表す移動軌跡を表す俯瞰データの予測結果を生成する請求項7記載の俯瞰データ生成装置。
The generation unit is
Using a trained model that predicts the movement of the observed moving object on the ground and the distribution of the movement of each of the moving objects on the ground,
A movement trajectory of the observed moving object on the ground, obtained when the observed moving object is observed from a bird's-eye view position, and a position distribution of each of the moving objects on the ground, from the time series data of the two-dimensional observation information. 8. The bird's-eye view data generation device according to claim 7, which generates a prediction result of bird's-eye view data representing a movement trajectory.
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。
to the computer,
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating bird's-eye view data representing the
A bird's-eye view data generation program for executing processing including.
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。
The computer is
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating bird's-eye view data representing the
A bird's-eye view data generation method that performs processing including.
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを推定する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データを生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データを用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from the viewpoint of a robot equipped with an observation device in a dynamic environment;
Using a trained model that estimates the movement of the robot on the ground and the movement of each of the moving objects on the ground,
Bird's-eye view data representing the movement trajectory of the robot on the ground and the movement trajectory of each of the mobile objects on the ground, obtained when the robot is observed from a bird's-eye view position from the time series data of the two-dimensional observation information. a generation unit that generates
an autonomous traveling unit that causes the robot to autonomously travel;
a control unit that uses the bird's-eye view data to control the autonomous traveling unit so that the robot moves to a destination;
including robots.
コンピュータに、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行させるための俯瞰データ生成プログラム。
to the computer,
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating a prediction result of bird's-eye view data representing the
A bird's-eye view data generation program for executing processing including.
コンピュータが、
動的な環境において観測装置を搭載した観測移動体からの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得工程と、
前記観測移動体の地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記観測移動体を俯瞰した位置から観測した場合に得られる、前記観測移動体の地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成工程と、
を含む処理を実行する俯瞰データ生成方法。
The computer is
an acquisition step of acquiring time-series data of two-dimensional observation information representing at least one moving object observed from a viewpoint of an observation moving object equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the observed moving object on the ground and the movement of each of the moving objects on the ground,
A movement trajectory on the ground of the observed moving object, obtained when the observed moving object is observed from a bird's-eye view position, and a moving trajectory on the ground of each of the moving objects, from the time series data of the two-dimensional observation information. a generation step of generating a prediction result of bird's-eye view data representing the
A bird's-eye view data generation method that performs processing including.
動的な環境において観測装置を搭載したロボットからの視点で観測された少なくとも1つの移動体を表す2次元観測情報の時系列データを取得する取得部と、
前記ロボットの地面上の動き、及び前記移動体の各々の地面上の動きを予測する学習済みモデルを用いて、
前記2次元観測情報の時系列データから、前記ロボットを俯瞰した位置から観測した場合に得られる、前記ロボットの地面上の移動軌跡、及び前記移動体の各々の地面上の移動軌跡を表す俯瞰データの予測結果を生成する生成部と、
前記ロボットを自律走行させる自律走行部と、
前記俯瞰データの予測結果を用いて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
を含むロボット。
an acquisition unit that acquires time-series data of two-dimensional observation information representing at least one moving object observed from the viewpoint of a robot equipped with an observation device in a dynamic environment;
Using a trained model that predicts the movement of the robot on the ground and the movement of each of the moving objects on the ground,
Bird's-eye view data representing the movement trajectory of the robot on the ground and the movement trajectory of each of the mobile objects on the ground, obtained when the robot is observed from a bird's-eye view position from the time series data of the two-dimensional observation information. a generation unit that generates a prediction result of
an autonomous traveling unit that causes the robot to autonomously travel;
a control unit that controls the autonomous traveling unit so that the robot moves to a destination using a prediction result of the bird's-eye view data;
including robots.
JP2023022034A 2022-03-15 2023-02-15 Bird's-eye view data generation device, learning device, bird's-eye view data generation program, bird's-eye view data generation method, and robot Active JP7438515B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2023/009949 WO2023176854A1 (en) 2022-03-15 2023-03-14 Bird's-eye data generation device, learning device, bird's-eye data generation program, bird's-eye data generation method, and robot
JP2024015106A JP2024059653A (en) 2022-03-15 2024-02-02 Bird's-eye view data generating device, learning device, bird's-eye view data generating program, bird's-eye view data generating method, and robot

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022039936 2022-03-15
JP2022039936 2022-03-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024015106A Division JP2024059653A (en) 2022-03-15 2024-02-02 Bird's-eye view data generating device, learning device, bird's-eye view data generating program, bird's-eye view data generating method, and robot

Publications (3)

Publication Number Publication Date
JP2023135615A true JP2023135615A (en) 2023-09-28
JP2023135615A5 JP2023135615A5 (en) 2023-12-14
JP7438515B2 JP7438515B2 (en) 2024-02-27

Family

ID=88144318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023022034A Active JP7438515B2 (en) 2022-03-15 2023-02-15 Bird's-eye view data generation device, learning device, bird's-eye view data generation program, bird's-eye view data generation method, and robot

Country Status (1)

Country Link
JP (1) JP7438515B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6543313B2 (en) 2017-10-02 2019-07-10 株式会社エイチアイ Image generation record display device and program for mobile object
WO2020202741A1 (en) 2019-03-29 2020-10-08 ソニー株式会社 Information processing device, information processing method, computer program, and moving body device
JP7322670B2 (en) 2019-11-13 2023-08-08 オムロン株式会社 Self-localization model learning method, self-localization model learning device, self-localization model learning program, self-localization method, self-localization device, self-localization program, and robot
JP7400371B2 (en) 2019-11-13 2023-12-19 オムロン株式会社 Robot control model learning method, robot control model learning device, robot control model learning program, robot control method, robot control device, robot control program, and robot
JP2021163096A (en) 2020-03-31 2021-10-11 パナソニックIpマネジメント株式会社 Object detection method, object detection apparatus, and program
US11210533B1 (en) 2020-08-09 2021-12-28 Phantom AI, Inc. Method of predicting trajectory of vehicle

Also Published As

Publication number Publication date
JP7438515B2 (en) 2024-02-27

Similar Documents

Publication Publication Date Title
US11788861B2 (en) Map creation and localization for autonomous driving applications
US11138751B2 (en) Systems and methods for semi-supervised training using reprojected distance loss
US11176709B2 (en) Systems and methods for self-supervised scale-aware training of a model for monocular depth estimation
US11436743B2 (en) Systems and methods for semi-supervised depth estimation according to an arbitrary camera
CN110796692A (en) End-to-end depth generation model for simultaneous localization and mapping
US10909411B2 (en) Information processing apparatus, information processing method, and computer program product
US11138465B2 (en) Systems and methods for transforming coordinates between distorted and undistorted coordinate systems
KR101784183B1 (en) APPARATUS FOR RECOGNIZING LOCATION MOBILE ROBOT USING KEY POINT BASED ON ADoG AND METHOD THEREOF
JP5023186B2 (en) Object motion detection system based on combination of 3D warping technique and proper object motion (POM) detection
KR102056147B1 (en) Registration method of distance data and 3D scan data for autonomous vehicle and method thereof
JP2010165352A (en) System and method for detecting object movement based on multiple three-dimensional warping and vehicle having system
US20210281814A1 (en) Systems and methods for self-supervised depth estimation according to an arbitrary camera
US20230135234A1 (en) Using neural networks for 3d surface structure estimation based on real-world data for autonomous systems and applications
US20220397903A1 (en) Self-position estimation model learning method, self-position estimation model learning device, recording medium storing self-position estimation model learning program, self-position estimation method, self-position estimation device, recording medium storing self-position estimation program, and robot
JP2009178782A (en) Mobile object, and apparatus and method for creating environmental map
JP7438515B2 (en) Bird&#39;s-eye view data generation device, learning device, bird&#39;s-eye view data generation program, bird&#39;s-eye view data generation method, and robot
CN112800822A (en) 3D automatic tagging with structural and physical constraints
WO2023176854A1 (en) Bird&#39;s-eye data generation device, learning device, bird&#39;s-eye data generation program, bird&#39;s-eye data generation method, and robot
US20230077856A1 (en) Systems and methods for single-shot multi-object 3d shape reconstruction and categorical 6d pose and size estimation
Silva et al. Towards a grid based sensor fusion for visually impaired navigation using sonar and vision measurements
JP2020064029A (en) Mobile body controller
JP7438510B2 (en) Bird&#39;s-eye view data generation device, bird&#39;s-eye view data generation program, bird&#39;s-eye view data generation method, and robot
JP2023054608A (en) Actual scale depth calculation device, actual scale depth calculation method, and actual scale depth calculation program
Yang et al. Inertial-aided vision-based localization and mapping in a riverine environment with reflection measurements
CN118056398A (en) Overhead data generation device, overhead data generation program, overhead data generation method, and robot

Legal Events

Date Code Title Description
AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231130

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R150 Certificate of patent or registration of utility model

Ref document number: 7438515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150