JP6916091B2 - Position / orientation estimation system and position / orientation estimation device - Google Patents

Position / orientation estimation system and position / orientation estimation device Download PDF

Info

Publication number
JP6916091B2
JP6916091B2 JP2017217482A JP2017217482A JP6916091B2 JP 6916091 B2 JP6916091 B2 JP 6916091B2 JP 2017217482 A JP2017217482 A JP 2017217482A JP 2017217482 A JP2017217482 A JP 2017217482A JP 6916091 B2 JP6916091 B2 JP 6916091B2
Authority
JP
Japan
Prior art keywords
dimensional
optical sensing
orientation
change amount
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017217482A
Other languages
Japanese (ja)
Other versions
JP2019091102A (en
Inventor
雄介 関川
雄介 関川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2017217482A priority Critical patent/JP6916091B2/en
Publication of JP2019091102A publication Critical patent/JP2019091102A/en
Application granted granted Critical
Publication of JP6916091B2 publication Critical patent/JP6916091B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、自走体からの観察により得られた光学センシングデータに基づいて該自走体の位置及び姿勢を推定する位置姿勢推定システム及び位置姿勢推定装置に関する。 The present invention relates to a position / orientation estimation system and a position / attitude estimation device that estimate the position and orientation of the self-propelled body based on optical sensing data obtained by observation from the self-propelled body.

従来、自走体(以下、車両を例として説明する)の位置及び姿勢を計測するのに全地球測位システム(Global Positioning System、以下「GPS」という。)が用いられている。車両はGPS受信機を備えており、複数のGPS衛星からの信号をこのGPS受信機で受信することにより、コード測位方式又は搬送波測位方式で自車両の位置を測定できる。 Conventionally, a Global Positioning System (hereinafter referred to as "GPS") has been used to measure the position and posture of a self-propelled body (hereinafter, a vehicle will be described as an example). The vehicle is equipped with a GPS receiver, and by receiving signals from a plurality of GPS satellites with the GPS receiver, the position of the own vehicle can be measured by a code positioning method or a carrier wave positioning method.

しかしながら、GPS受信機がGPS衛星からの信号を受信できないトンネル内等の場所では、GPSによる自車両の位置測定ができない。自車両の位置を測定するGPS以外の方法の一つとして、ホイールオドメトリやビジュアルオドメトリがある。ホイールオドメトリは、自車両の車輪の方向と回転数とを積分することで自車両の移動軌跡を測定して自車両の位置及び姿勢を推定するものである。ビジュアルオドメトリは、自車両に固定されたカメラによる連続的な複数の画像に基づいて自車両の移動軌跡を推定することで、自車の位置及び姿勢を推定するものである。 However, the position of the own vehicle cannot be measured by GPS in a place such as a tunnel where the GPS receiver cannot receive the signal from the GPS satellite. As one of the methods other than GPS for measuring the position of the own vehicle, there are wheel odometry and visual odometry. The wheel odometry measures the movement locus of the own vehicle by integrating the direction and the number of rotations of the wheels of the own vehicle, and estimates the position and posture of the own vehicle. The visual odometry estimates the position and posture of the own vehicle by estimating the movement locus of the own vehicle based on a plurality of continuous images taken by a camera fixed to the own vehicle.

このビジュアルオドメトリについては、モデルベースの手法が長らく研究されてきたが、近年ディープニューラルネットワーク(Deep Neural Network、以下「DNN」という。)を使った学習ベースの手法が着目されている(例えば、特許文献1)。 For this visual odometry, a model-based method has been studied for a long time, but in recent years, a learning-based method using a deep neural network (hereinafter referred to as "DNN") has attracted attention (for example, a patent). Document 1).

e.g., R. Clark, S. Wang, H. Wen, A. Markham, and N. Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence learning problem. In AAAI, pages 3995-4001, 2017e.g., R. Clark, S. Wang, H. Wen, A. Markham, and N. Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence learning problem. In AAAI, pages 3995-4001, 2017

ビジュアルオドメトリにおいて、自車両の位置姿勢推定を精度良く行うには、時間的解像度の高いイメージセンサを用いて長時間の相関をモデル化する必要がある。そのような時間的解像度の高いイメージセンサとして、イベントカメラが注目されている。 In visual odometry, it is necessary to model the long-term correlation using an image sensor with high temporal resolution in order to accurately estimate the position and orientation of the own vehicle. Event cameras are attracting attention as such image sensors with high temporal resolution.

しかしながら、従来のDNNは、短時間の相関を把握することはできたが、長時間の相関を把握するにはシステムの処理負荷(処理時間、使用メモリ容量)が過大になり、現実的ではなかった。 However, although the conventional DNN can grasp the correlation for a short time, it is not realistic because the processing load (processing time, memory capacity used) of the system becomes excessive to grasp the correlation for a long time. rice field.

そこで、本発明は、長時間の相関をモデル化できるCNN(Long Short-Term CNN、以下「LSTCNN」という。)を用いてビジュアルオドメトリを行う位置姿勢推定システム、位置姿勢推定方法、及び位置姿勢推定プログラムを提供することを目的とする。 Therefore, the present invention presents a position / orientation estimation system, a position / orientation estimation method, and a position / orientation estimation that perform visual odometry using a CNN (Long Short-Term CNN, hereinafter referred to as “LSTCNN”) that can model a long-term correlation. The purpose is to provide a program.

本願発明の位置姿勢推定装置は、ビジュアルオドメトリを行うためにイメージセンサのデータに対して行う時空間の3次元CNNを空間の2次元CNNと時間の1次元CNNとに分解して実行する。これにより、処理負荷を過大にすることなく、畳込処理が可能な時間範囲を長くすることができる。 The position / orientation estimation device of the present invention decomposes the space-time three-dimensional CNN performed on the image sensor data into the space two-dimensional CNN and the time one-dimensional CNN for visual odometry. As a result, the time range in which the convolution process can be performed can be extended without increasing the processing load.

本発明の一態様の位置姿勢推定システムは、2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置と、時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置とを備える。前記位置姿勢推定装置は、前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部とを備えている。 The position / orientation estimation system according to one aspect of the present invention includes an optical sensing device that generates three-dimensional optical sensing data including two-dimensional position information and one-dimensional time information, and the optical sensing data input in a time series. Based on this, a position / orientation estimation device for estimating the position / orientation of the optical sensing device by visual odometry is provided. The position / orientation estimation device includes a two-dimensional convolution unit composed of a plurality of two-dimensional CNN modules that input the position information of each of a plurality of continuous frames composed of the optical sensing data and output a feature amount. A one-dimensional CNN module composed of a one-dimensional CNN module that inputs a plurality of the feature amounts output from each of the plurality of two-dimensional CNN modules and outputs the amount of change in position and orientation between adjacent frames as a local change amount. The cumulative value of the local change amount is obtained by accumulating the local change amounts of the folding portion and the plurality of frames, and by adding the cumulative value to the initial value of the position and orientation, after the plurality of frames. It includes a cumulative unit for determining the position and orientation of the optical sensing device.

この構成により、時系列に入力される2次元位置情報と1次元時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。 With this configuration, the 3D CNN to be executed for optical sensing data consisting of 2D position information and 1D time information input in time series is divided into 2D CNN for position information and 1D CNN for time information. Therefore, it is possible to lengthen the time range in which convolution processing is possible (increase the number of optical sensing data in the time direction) without increasing the processing load.

上記の位置姿勢推定システムにおいて、前記光学センシング装置は、イベントカメラであってよい。イベントカメラの時間解像度は高く、単位時間当たりのフレーム数が多くなるが、この構成によれば、そのような多フレーム(長時間)についても畳込を有効に行って位置姿勢を推定できる。 In the position / orientation estimation system, the optical sensing device may be an event camera. The time resolution of the event camera is high, and the number of frames per unit time is large. According to this configuration, the position and orientation can be estimated by effectively performing the convolution even for such a large number of frames (long time).

上記の位置姿勢推定システムにおいて、前記位置姿勢推定装置は、前記光学センシング装置から入力された前記光学センシングデータの時間解像度を低下させて、時間解像度が低下した前記複数のフレームを生成する前処理部をさらに含んでいてよい。この構成により、光学センシング装置からの光学センシングデータの時間解像度が高すぎて畳込処理における入力データが時間方向に疎(スパース)になりすぎることを回避できる。 In the position / orientation estimation system, the position / orientation estimation device reduces the time resolution of the optical sensing data input from the optical sensing device to generate the plurality of frames having the reduced time resolution. May further be included. With this configuration, it is possible to prevent the time resolution of the optical sensing data from the optical sensing device from being too high and the input data in the convolution process becoming too sparse in the time direction.

上記の位置姿勢推定システムにおいて、前記光学センシング装置は、車両の外側をセンシングするように該車両に固定されていてよく、前記累積部は、モデルベースで前記局所変化量を累積し、前記局所変化量を直進変化量及び角度変化量のパラメータで表現してよい。この構成により、車両の移動の制約を活かして少パラメータのモデルで局所変化慮鵜の累積を行うことができる。 In the position / orientation estimation system, the optical sensing device may be fixed to the vehicle so as to sense the outside of the vehicle, and the cumulative unit accumulates the local change amount on a model basis and the local change. The quantity may be expressed by the parameters of the straight-ahead change amount and the angle change amount. With this configuration, it is possible to accumulate local change cormorants with a model with a small number of parameters by taking advantage of the restrictions on the movement of the vehicle.

上記の位置姿勢推定システムにおいて、前記2次元CNNモジュールの各々は、LSTMモジュールであってよい。 In the above position / orientation estimation system, each of the two-dimensional CNN modules may be an LSTM module.

本発明の一態様の位置姿勢推定装置は、2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置とともに用いられ、時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置であって、前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部とを備えている。 The position / orientation estimation device of one aspect of the present invention is used together with an optical sensing device that generates three-dimensional optical sensing data including two-dimensional position information and one-dimensional time information, and the optical sensing is input in a time series. It is a position / orientation estimation device that estimates the position / orientation of the optical sensing device by visual odometry based on the data, and is characterized by inputting the position information of each of a plurality of consecutive frames composed of the optical sensing data. A position between the two-dimensional convolution unit composed of a plurality of two-dimensional CNN modules that output quantities and the plurality of feature quantities output from each of the plurality of two-dimensional CNN modules and adjacent frames. The cumulative value of the local change amount is obtained by accumulating the one-dimensional convoluted portion composed of the one-dimensional CNN module that outputs the change amount of the posture as the local change amount and the local change amount of the plurality of frames, and the position and orientation. By adding the cumulative value to the initial value of the above, the cumulative portion for obtaining the position and orientation of the optical sensing device after the plurality of frames is provided.

この構成によっても、時系列に入力される2次元位置情報と1次元時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。 Even with this configuration, the 3D CNN to be executed for the optical sensing data consisting of the 2D position information and the 1D time information input in time series is divided into the 2D CNN for the position information and the 1D CNN for the time information. Since the data are executed separately, the time range in which the convolution process can be performed can be lengthened (the number of optical sensing data in the time direction is large) without increasing the processing load.

本発明によれば、時系列に入力される2次元位置情報と1次元時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。 According to the present invention, the three-dimensional CNN to be executed for the optical sensing data consisting of the two-dimensional position information and the one-dimensional time information input in time series are the two-dimensional CNN for the position information and the one-dimensional CNN for the time information. Since the data is executed separately, the time range in which the convolution process can be performed can be lengthened (the number of optical sensing data in the time direction is large) without increasing the processing load.

本発明の実施の形態の位置姿勢推定システムの構成を示すブロック図A block diagram showing a configuration of a position / orientation estimation system according to an embodiment of the present invention. 本発明の実施の形態のイベントカメラによるイベントデータと通常のカメラによる画像との時間解像度を比較する図The figure which compares the time resolution of the event data by the event camera of embodiment of this invention, and the image by a normal camera. 本発明の実施の形態のビジュアルオドメトリにおけるネットワーク構造及びデータの流れを示す図The figure which shows the network structure and data flow in the visual odometry of embodiment of this invention. 本発明の実施の形態の1次元CNNモジュール23及び累積部24のネットワーク構造を示す図The figure which shows the network structure of the one-dimensional CNN module 23 and the cumulative part 24 of embodiment of this invention. 本発明の実施の形態の平行2輪車両のモデルを示す図The figure which shows the model of the parallel two-wheeled vehicle of embodiment of this invention

以下、図面を参照して本発明の実施の形態を説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the embodiments described below show an example of the case where the present invention is carried out, and the present invention is not limited to the specific configuration described below. In carrying out the present invention, a specific configuration according to the embodiment may be appropriately adopted.

図1は、本発明の実施の形態の位置姿勢推定システムの構成を示すブロック図である。位置姿勢推定システム100は、光学センシング装置10と位置姿勢推定装置20とからなる。位置姿勢装置20は、前処理部21、2次元畳込部22、1次元畳込部23、及び累積部24を備えている。光学センシング装置10は、自走体である車両に固定されて、車両外部を光学的にセンシングすることで光学センシングデータとしてイベントフレームを生成し、生成したイベントフレームを時系列に順に位置姿勢推定装置20に出力する。 FIG. 1 is a block diagram showing a configuration of a position / orientation estimation system according to an embodiment of the present invention. The position / orientation estimation system 100 includes an optical sensing device 10 and a position / orientation estimation device 20. The position / posture device 20 includes a pretreatment unit 21, a two-dimensional folding unit 22, a one-dimensional folding unit 23, and a cumulative unit 24. The optical sensing device 10 is fixed to a vehicle that is a self-propelled body, generates an event frame as optical sensing data by optically sensing the outside of the vehicle, and generates an event frame in chronological order. Output to 20.

本実施の形態では、光学センシング装置10として、生物学的知見に基づいた(biologically inspired)カメラとしてのイベントカメラを採用する。通常のカメラは、各ピクセルが所定の露光時間に蓄積した光子の数を測定して、すべてのピクセルの測定結果を1フレームとして同時に出力する。これに対して、イベントカメラは、各ピクセルが非同期で作動する。また、イベントカメラは、前の検出強度(明度)と現在の検出強度(明度)との相違を検出したときに、1フレームの光学センシングデータとしてイベントフレームを出力する。イベントフレーム(以下、単に「フレーム」ともいう。)を構成するイベントデータには、検出強度の相違が生じているピクセルの位置情報、時間情報としてのタイムスタンプ、及び検出強度が増加しているか減少しているかを示す極性情報が含まれる。 In the present embodiment, as the optical sensing device 10, an event camera as a biologically inspired camera is adopted. A normal camera measures the number of photons accumulated in a predetermined exposure time for each pixel, and simultaneously outputs the measurement results of all the pixels as one frame. On the other hand, in the event camera, each pixel operates asynchronously. Further, the event camera outputs an event frame as one frame of optical sensing data when it detects a difference between the previous detection intensity (brightness) and the current detection intensity (brightness). In the event data constituting the event frame (hereinafter, also simply referred to as "frame"), the position information of the pixel in which the detection intensity is different, the time stamp as time information, and the detection intensity are increased or decreased. It contains polarity information that indicates whether or not it is done.

図2は、イベントカメラによるイベントデータと通常のカメラによる画像との時間解像度を比較する図である。イベントカメラは、時間解像度がマイクロ秒オーダであり、通常のカメラ(例えば、30フレーム/秒)と比較して時間的解像度が極めて高い。また、イベントカメラは、強度の絶対値を検出せず、強度変化の極性のみを検出するので、ダイナミックレンジが広い。例えば、通常のカメラのダイナミックレンジが50dB程度であるのに対して、イベントカメラのダイナミックレンジは120dB程度である。さらに、通常のカメラは強度が比較的強い部分しか検出できないのに対して、イベントカメラは、暗部と明部とを同時に検出できる。 FIG. 2 is a diagram comparing the time resolutions of the event data obtained by the event camera and the image obtained by the normal camera. The event camera has a time resolution on the order of microseconds, and has an extremely high time resolution as compared with a normal camera (for example, 30 frames / second). Further, the event camera does not detect the absolute value of the intensity, but detects only the polarity of the intensity change, so that the dynamic range is wide. For example, the dynamic range of a normal camera is about 50 dB, while the dynamic range of an event camera is about 120 dB. Further, while a normal camera can detect only a portion having a relatively high intensity, an event camera can detect a dark portion and a bright portion at the same time.

イベントカメラの上記の特性から、イベントカメラは車両の自動運転のシーンで有効に活用される。ただし、上述のようにイベントカメラの時間解像度は高いので、位置姿勢推定装置20は、長時間(多フレーム)の相関を扱える必要がある。 Due to the above characteristics of the event camera, the event camera is effectively used in the scene of automatic driving of a vehicle. However, since the time resolution of the event camera is high as described above, the position / orientation estimation device 20 needs to be able to handle the long-term (multi-frame) correlation.

位置姿勢推定装置20は、光学センシング装置10から時系列に並んだ複数のイベントフレームを取得して、それらのフレーム数を減少させてフレームe1〜eKを抽出する。ここで、Kは、位置姿勢推定装置20において一度に処理可能なフレーム数(以下、「許容フレーム数」ともいう。)である。位置姿勢推定装置20は、複数のフレームe1〜eKから、ビジュアルオドメトリによって1フレーム後〜Kフレーム後の自車両の位置姿勢pKを求める。 The position / orientation estimation device 20 acquires a plurality of event frames arranged in time series from the optical sensing device 10 and reduces the number of these frames to extract frames e1 to eK. Here, K is the number of frames that can be processed by the position / orientation estimation device 20 at one time (hereinafter, also referred to as “allowable frame number”). The position / orientation estimation device 20 obtains the position / orientation pK of the own vehicle after one frame to K frames by visual odometry from the plurality of frames e1 to eK.

即ち、位置姿勢推定装置20によって、下式(1)によるビジュアルオドメトリが実行される。

Figure 0006916091
ここで、
Figure 0006916091
は、タイムステップkのフレーム(以下、「第kフレーム」等と表現する。)であり、M×Nは、イベントカメラの画素数である。また、mは、ホイールオドメトリ、慣性測定装置等のビジュアルオドメトリ以外の方法で得られた付加的なセンシングデータである。入力データにmを含めるか否かは任意である。また、pkは、第kフレームにおける光学センシング装置(が固定された自車両)の位置姿勢である。 That is, the position / orientation estimation device 20 executes the visual odometry according to the following equation (1).
Figure 0006916091
here,
Figure 0006916091
Is a frame of the time step k (hereinafter, referred to as “kth frame” or the like), and M × N is the number of pixels of the event camera. Further, m is additional sensing data obtained by a method other than visual odometry such as wheel odometry and inertial measurement device. Whether or not to include m in the input data is optional. Further, pk is the position and orientation of the optical sensing device (own vehicle to which the optical sensing device is fixed) in the kth frame.

具体的には、位置姿勢推定装置20は、隣り合うフレーム間における自車両の位置及び姿勢の変化(以下、「局所変化量」ともいう。)Δp1〜ΔpKを求め、それらを順に累積(連結)して、自車両の位置及び姿勢の初期値(以下、「初期位置姿勢」という。)p0に加えることで、第Kフレームの自車両の位置姿勢pKを算出する。これを式で表すと、下式(2)となる。

Figure 0006916091
Specifically, the position / orientation estimation device 20 obtains Δp1 to ΔpK of changes in the position and attitude of the own vehicle (hereinafter, also referred to as “local change amount”) between adjacent frames, and accumulates (connects) them in order. Then, the position / orientation pK of the own vehicle in the K frame is calculated by adding it to the initial values (hereinafter, referred to as “initial position / attitude”) p0 of the position and attitude of the own vehicle. When this is expressed by an equation, it becomes the following equation (2).
Figure 0006916091

上記のように、イベントカメラは時間解像度が高いので、位置姿勢推定装置20におけるLSTCNNは、長時間(多フレーム、例えば、数千フレーム)の相関を扱える必要がある。そこで、位置姿勢推定装置20は、光学センシング装置10から入力された複数のフレームデータに対して実行すべき時空間の3次元CNNを空間の2次元CNNと時間の1次元CNNとに分解して実行する。このために、位置姿勢推定装置20は、光学センシング装置10から入力される複数のイベントフレームの数を削減する前処理部21を備えている。また、位置姿勢推定装置20は、空間の2次元CNNを実行する2次元畳込部22と、時間の1次元CNNを実行する1次元畳込部23とを有し、複数のフレームについて行う3次元CNNを2次元CNNと1次元CNNとに分割して行う。 As described above, since the event camera has a high time resolution, the LSTCNN in the position / orientation estimation device 20 needs to be able to handle long-term (multi-frame, for example, several thousand frames) correlation. Therefore, the position / orientation estimation device 20 decomposes the three-dimensional CNN in space and time to be executed for a plurality of frame data input from the optical sensing device 10 into a two-dimensional CNN in space and a one-dimensional CNN in time. Execute. For this purpose, the position / orientation estimation device 20 includes a preprocessing unit 21 that reduces the number of a plurality of event frames input from the optical sensing device 10. Further, the position / orientation estimation device 20 has a two-dimensional folding unit 22 that executes a two-dimensional CNN in space and a one-dimensional folding unit 23 that executes a one-dimensional CNN in time, and performs the position / orientation estimation device 20 for a plurality of frames. The dimensional CNN is divided into a two-dimensional CNN and a one-dimensional CNN.

前処理部21について説明する。光学センシング装置10から出力される複数のイベントフレームは、各ピクセルにおいて非同期であり、各イベントフレームは{u,v,t,p}の4次元のイベントデータからなる。ここで、u、vはイベントが検出された位置であり、tはイベントが検出された時刻(タイムスタンプ)であり、pは検出されたイベントの極性である。これらのイベントデータは、前処理部21において時空間のイベントフレームに変換される。 The preprocessing unit 21 will be described. The plurality of event frames output from the optical sensing device 10 are asynchronous at each pixel, and each event frame is composed of {u, v, t, p} four-dimensional event data. Here, u and v are the positions where the event was detected, t is the time (time stamp) when the event was detected, and p is the polarity of the detected event. These event data are converted into spatiotemporal event frames by the preprocessing unit 21.

前処理部21は、イベントフレームを構成するために、イベントフレームの各データu、v、t、pを、3次元テンソルの対応する時空間位置に投影する。イベントカメラの時間解像度は、1マイクロ秒程度と非常に小さいので、3次元テンソルをその粒度で用意すると、2次元畳込部22に入力される複数のフレームが疎(スパース)になりすぎてCNNで処理するのに非効率的になる。そこで前処理部21は、十分に粗く、ただし、通常のカメラのフレームレート(例えば、30フレーム/秒)よりは小さい時間解像度τ(例えば、1,000マイクロ秒程度)にまでイベントフレームの時間解像度を低下させる。 The preprocessing unit 21 projects each data u, v, t, p of the event frame onto the corresponding spatiotemporal position of the three-dimensional tensor in order to form the event frame. Since the time resolution of the event camera is very small, about 1 microsecond, if a 3D tensor is prepared with that particle size, multiple frames input to the 2D convolution unit 22 become too sparse (sparse) and CNN. Becomes inefficient to process with. Therefore, the preprocessing unit 21 is sufficiently coarse, but the time resolution of the event frame is reduced to a time resolution τ (for example, about 1,000 microseconds) smaller than the frame rate of a normal camera (for example, 30 frames / second). To reduce.

前処理部21は、光学センシング装置10から得られた細かい時間情報を維持するために、各イベントに対する

Figure 0006916091
の3つの重み係数を下式(4)〜(6)によって計算する。
Figure 0006916091
ここで、tはイベントのタイムスタンプであり、
Figure 0006916091
は、tに最も近い離散化タイムスタンプであり、
Figure 0006916091
である。 The preprocessing unit 21 responds to each event in order to maintain detailed time information obtained from the optical sensing device 10.
Figure 0006916091
The three weighting coefficients of are calculated by the following equations (4) to (6).
Figure 0006916091
Here, t is the time stamp of the event,
Figure 0006916091
Is the discretized time stamp closest to t,
Figure 0006916091
Is.

前処理部21は、上記のようにして、時間解像度が光学センシング装置10から入力される複数のイベントフレームより小さい複数のフレームを生成して2次元畳込部22に入力する。 As described above, the preprocessing unit 21 generates a plurality of frames whose time resolution is smaller than the plurality of event frames input from the optical sensing device 10 and inputs them to the two-dimensional convolution unit 22.

2次元畳込部22は、前処理部21から入力される各フレームに対して、それぞれ2次元CNNを実行する複数の2次元CNNモジュール22−1〜22−Kからなり、1次元畳込部23は、1次元CNNモジュールからなる。各2次元CNNモジュール22−1〜22−Kは、時分割されたM×N×Lの短時間のイベントフレームを処理し、1次元CNNモジュールは、F×1×Tのサイズの長時間の特徴量を処理する。ここで、Fは、各2次元CNNモジュール22−1〜22−Kから出力される特徴量の長さであり、Tは、T=K/Lを満たす。 The two-dimensional folding unit 22 is composed of a plurality of two-dimensional CNN modules 22-1 to 22-K that execute two-dimensional CNN for each frame input from the preprocessing unit 21, and the one-dimensional folding unit 22. Reference numeral 23 denotes a one-dimensional CNN module. Each 2D CNN module 22-1 to 22-K processes a time-divided M × N × L short-time event frame, and the 1-dimensional CNN module has a long-time F × 1 × T size. Process features. Here, F is the length of the feature amount output from each of the two-dimensional CNN modules 22-1 to 22-K, and T satisfies T = K / L.

図3は、本発明の実施の形態のビジュアルオドメトリにおけるネットワーク構造及びデータの流れを示す図である。Lは、入力されるフレームの特性に応じて1〜Kの間で任意に設定される。例えば、K=3000のときにL=100と設定してよい。 FIG. 3 is a diagram showing a network structure and a data flow in the visual odometry according to the embodiment of the present invention. L is arbitrarily set between 1 and K according to the characteristics of the input frame. For example, when K = 3000, L = 100 may be set.

各2次元CNNモジュール22−1〜22−Kは、空間(2次元)の畳み込みを行い、1次元CNNモジュール23は、時間(1次元)の畳み込みを行う。各2次元CNNモジュール22−1〜22−Kの構造は、例えばVGG−16(Simonyan, K., and isserman, A. 2014. Very deep convolutional networks for large-scale image recognition. CoRR abs/1409.1556.)ネットワークの畳込部分と同様であってよい。また、1次元CNNモジュール23は、WaveNet(van den Oord, A.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A. W.; and Kavukcuoglu, K. 2016. Wavenet: A generative model for raw audio. CoRR abs/1609.03499.)に似た通常の畳込モジュールを積み重ねて構成される。 Each of the two-dimensional CNN modules 22-1 to 22-K convolves in space (two-dimensional), and the one-dimensional CNN module 23 convolves in time (one dimension). The structure of each 2D CNN module 22-1 to 22-K is, for example, VGG-16 (Simonyan, K., and isserman, A. 2014. Very deep convolutional networks for large-scale image recognition. CoRR abs / 1409.1556.) It may be similar to the convolutional part of the network. The one-dimensional CNN module 23 includes WaveNet (van den Oord, A .; Dieleman, S .; Zen, H .; Simonyan, K .; Vinyals, O .; Graves, A .; Kalchbrenner, N .; Senior, AW; and Kavukcuoglu, K. 2016. Wavenet: A generative model for raw audio. CoRR abs / 1609.03499.) It is composed by stacking ordinary convolutional modules.

図4は、1次元CNNモジュール23及び累積部24のネットワーク構造を示す図である。1次元CNNモジュール23は、WaveNetで用いられているように、下式(3)で示されるゲート付き活性化関数(gated activation)ユニットを用いて、複雑な時間依存をモデル化する。

Figure 0006916091
FIG. 4 is a diagram showing a network structure of the one-dimensional CNN module 23 and the cumulative unit 24. The one-dimensional CNN module 23 models a complex time dependence using a gated activation unit represented by the following equation (3), as used in WaveNet.
Figure 0006916091

ここで、fは2次元CNNモジュールのネットワーク22−1〜22−Kであり、gは1次元CNNモジュール23のネットワークである。1次元CNNネットワークgはO層(Oは自然数)の層構造を有し、第(O−1)層の出力は、連続するフレームから推定される隣接フレーム間の変化(局所変化量)であり、第O層は、パラメータレスのモデルベース位置姿勢連結(Model-based Pose Concatenation、以下「MPC」という。)である。MPCは累積部24として実装される。MPCモジュール、即ち累積部24は、タイムステップkの局所変化量Δpkを用いてタイムステップkの位置姿勢pkを更新することでタイムステップk+1の位置姿勢pk+1を推定する。 Here, f is a network of two-dimensional CNN modules 22-1 to 22-K, and g is a network of one-dimensional CNN modules 23. The one-dimensional CNN network g has a layer structure of an O layer (O is a natural number), and the output of the (O-1) layer is a change (local change amount) between adjacent frames estimated from consecutive frames. The Oth layer is a parameterless model-based Pose Concatenation (hereinafter referred to as "MPC"). The MPC is implemented as a cumulative unit 24. The MPC module, that is, the cumulative unit 24 estimates the position / orientation pk + 1 of the time step k + 1 by updating the position / orientation pk of the time step k using the local change amount Δpk of the time step k.

1次元畳込部23の最終層では推定された位置姿勢のエラーが計算される。このエラーは、2次元畳込部22及び1次元畳込部23のパラメータの更新に用いられる。MPCモジュールとしての累積部24は、最終的なエラーから安定したデリバティブ(derivative)(即ち、各ニューロンのパラメータに対する微分)を効果的に算出できる。このMPCモジュールは、以下の知見から得られるものである。 In the final layer of the one-dimensional folding unit 23, the estimated position / orientation error is calculated. This error is used to update the parameters of the two-dimensional folding unit 22 and the one-dimensional folding unit 23. The cumulative unit 24 as an MPC module can effectively calculate a stable derivative (that is, the derivative with respect to the parameter of each neuron) from the final error. This MPC module is obtained from the following findings.

図5は、平行2輪車両のモデルを示す図である。図5に示すように、車両の動きには制約があり、リー代数se(2)又はse(3)のパラメータセットよりも少ないパラメータで表現できる。すなわち、平行2輪車両モデルでは、局所的な移動は、直進速度vと角速度ωのパラメータによって表現できるが、本実施の形態の累積部24は、直進変化ΔLと角度変化Δθを用い、位置姿勢エラーをΣΔLとΣΔθで定義する。このようなパラメータ化及び位置姿勢エラーの定義の変更によって、各局所変化量についてのエラー関数のデリバティブの計算を容易かつ安定的にすることができる。 FIG. 5 is a diagram showing a model of a parallel two-wheeled vehicle. As shown in FIG. 5, the movement of the vehicle is restricted and can be expressed by a parameter smaller than the parameter set of the Lie algebra se (2) or se (3). That is, in the parallel two-wheeled vehicle model, the local movement can be expressed by the parameters of the straight-ahead speed v and the angular velocity ω, but the cumulative portion 24 of the present embodiment uses the straight-ahead change ΔL and the angular change Δθ, and the position and orientation. The error is defined by ΣΔL and ΣΔθ. By such parameterization and change of the definition of the position / orientation error, it is possible to easily and stably calculate the derivative of the error function for each local change amount.

以下では、まず、簡単のために、車両が2次元平面を走行する(車両の高さ方向の移動を考慮しない)2次元の場合を説明する。2次元の場合には、車両の位置姿勢は、車両の位置及び直進角

Figure 0006916091
で表示できる。 In the following, for the sake of simplicity, a two-dimensional case in which the vehicle travels on a two-dimensional plane (movement in the height direction of the vehicle is not considered) will be described first. In the case of two dimensions, the position and orientation of the vehicle is the position of the vehicle and the straight-ahead angle.
Figure 0006916091
Can be displayed with.

通常は、位置姿勢は、第kフレームにおける局所時間Δtの間の局所変化量

Figure 0006916091
を用いて下式(7)で更新される。
Figure 0006916091
ここで、Δθkは、
Figure 0006916091
によって与えられ、ΔLは、v及びωを用いて下式(8)により計算される。
Figure 0006916091
Normally, the position and orientation are the amount of local change during the local time Δt in the kth frame.
Figure 0006916091
Is updated by the following equation (7).
Figure 0006916091
Here, Δθk is
Figure 0006916091
Given by, ΔL is calculated by equation (8) below using v and ω.
Figure 0006916091

タイムステップk−1のエラーはタイムステップkのエラーに依存しているので、位置姿勢pKの各局所変化量zkに関するデリバティブは、非線形に式(7)及び式(8)に関連している。よって、計算負荷が高く、また、実装が困難であり、さらに、位置姿勢の累積が真の位置姿勢から遠くなっている場合に、デリバティブ自体が不安定となってしまう。 Since the error of the time step k-1 depends on the error of the time step k, the derivative for each local change amount zk of the position-posture pK is non-linearly related to the equations (7) and (8). Therefore, the calculation load is high, the implementation is difficult, and the derivative itself becomes unstable when the cumulative position and orientation are far from the true position and orientation.

従来の誤差の定義の場合には、タイムステップkの位置姿勢の誤差は、タイムステップ1〜k−1の位置姿勢のエラーに依存するので、その微分は過去の式(8)を経由して過去の微分に影響される。したがって、微分は位置姿勢の積分を行う区間全部のエラーの関数になってしまい、結果として計算負荷が大きくなる。これに対して、本実施の形態では、最終的に積分したエラーの各タイムステップ(時刻)の局所変化量に対する微分がタイムステップごとに独立になるので、計算が簡単で軽量になる。 In the case of the conventional definition of error, the error of the position and orientation of the time step k depends on the error of the position and orientation of the time steps 1 to k-1, so that the differentiation is via the past equation (8). Affected by past differentiation. Therefore, the differentiation becomes a function of the error of the entire interval for integrating the position and orientation, and as a result, the calculation load becomes large. On the other hand, in the present embodiment, the derivative of each time step (time) of the finally integrated error with respect to the local change amount becomes independent for each time step, so that the calculation is simple and lightweight.

具体的には、本実施の形態の累積部24では、局所変化量を

Figure 0006916091
と表現する代わりに、
Figure 0006916091
と表現し、累積された経路と角度のエラーを
Figure 0006916091
ではなく、
Figure 0006916091
と表記する。 Specifically, in the cumulative unit 24 of the present embodiment, the amount of local change is determined.
Figure 0006916091
Instead of expressing
Figure 0006916091
And the accumulated path and angle errors
Figure 0006916091
not,
Figure 0006916091
Notated as.

第(O−1)層、即ち1次元CNN部23の出力層は、

Figure 0006916091
を出力し、第O層はMPCモジュールとして現在の車両の動きを式(7)を用いて更新する。ここで、qkは、下式(9)のように定義できる。
Figure 0006916091
The first (O-1) layer, that is, the output layer of the one-dimensional CNN unit 23 is
Figure 0006916091
Is output, and the Oth layer updates the current movement of the vehicle as an MPC module using the equation (7). Here, qk can be defined as in the following equation (9).
Figure 0006916091

MPCモジュールで計算される累積位置姿勢エラーLaccumは、下式(10)で定義される。

Figure 0006916091
ここで、
Figure 0006916091
は、累積された経路及び角度の真値である。 The cumulative position / orientation error Laccom calculated by the MPC module is defined by the following equation (10).
Figure 0006916091
here,
Figure 0006916091
Is the true value of the accumulated path and angle.

Figure 0006916091
の局所変化量
Figure 0006916091
に関するヤコビ行列は、下式(11)で計算される。
Figure 0006916091
Figure 0006916091
Local change amount of
Figure 0006916091
The Jacobian matrix with respect to is calculated by the following equation (11).
Figure 0006916091

MPCモジュールは、上記の累積位置姿勢エラーLaccumに加えて、局所変化量のエラーLlocalも下式(12)で計算する。

Figure 0006916091
In addition to the above-mentioned cumulative position / orientation error Laccum, the MPC module also calculates the error Llocal of the amount of local change by the following equation (12).
Figure 0006916091

これらの累積位置姿勢エラーLaccumと局所移動エラーLlocalの合計

Figure 0006916091
は、ネットワークを学習するのに用いられる。調整パラメータλ1、λ2は、学習の初期にはLlocalを強調し、学習の後期にはLaccumを強調するように調整する。これにより、連結された位置姿勢の推定の精度を向上できる。 The sum of these cumulative position / orientation error Laccoum and local movement error Llocal
Figure 0006916091
Is used to learn the network. The adjustment parameters λ1 and λ2 are adjusted so as to emphasize Llocal in the early stage of learning and emphasize Laccoum in the later stage of learning. As a result, the accuracy of estimating the connected position and orientation can be improved.

次に、位置姿勢推定装置20の学習について説明する。位置姿勢推定装置20の学習を行う際には、入力データとして、許容フレーム数Kの2倍の長さの2Kフレーム分の連続するシーケンスがデータセットからランダムに抽出される。位置姿勢推定装置20は、時分割された(M×N×L)の入力データを2T回にわたって2次元畳込部22に入力することで、F×1×2Tの大きさのテンソルを取得する。 Next, learning of the position / orientation estimation device 20 will be described. When learning the position / orientation estimation device 20, a continuous sequence of 2K frames having a length twice the allowable number of frames K is randomly extracted from the data set as input data. The position / orientation estimation device 20 acquires a tensor having a size of F × 1 × 2T by inputting time-divisioned (M × N × L) input data into the two-dimensional convolution unit 22 over 2T times. ..

これらのテンソルは1次元畳込部23に入力され、1次元畳込部23において位置姿勢及び位置姿勢のエラーが計算される。1次元畳込部23は、このエラーを用いて更新される。2次元畳込部22の直前のエラーは、Tこの短時間エラーに分割され、T回にわたって2次元畳込部22の更新に用いられる。なお、2Kフレームは、1次元畳込部23から有効なTを取得する必要がある。 These tensors are input to the one-dimensional folding unit 23, and the position-posture error and the position-posture error are calculated in the one-dimensional folding unit 23. The one-dimensional convolution unit 23 is updated using this error. The error immediately before the two-dimensional folding unit 22 is divided into T this short-time error, and is used for updating the two-dimensional folding unit 22 over T times. For the 2K frame, it is necessary to acquire a valid T from the one-dimensional folding unit 23.

本実施の形態では、通常の畳込層について水増しを行わないので、カーネルサイズの半分まで出力を減少させることができる。また、付加的なセンシングデータmが利用できる場合には、それらは2次元畳込部22の出力に連結され、その時間情報は2次元畳込部22の出力とともに1次元畳込部23によってモデル化される。 In this embodiment, since the normal convolutional layer is not padded, the output can be reduced to half the kernel size. If additional sensing data m is available, they are linked to the output of the two-dimensional convolution unit 22, and the time information is modeled by the one-dimensional convolution unit 23 together with the output of the two-dimensional convolution unit 22. Be transformed.

2次元畳込部22の各2次元CNNモジュール22−1〜22−K及び1次元畳込部23の1次元CNNモジュールを最適化するために、Adam(Kingma, D., and Ba, J. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.)をハイパーパラメータ(学習レートは、l=0.001、β1=0.9、β2=0.999、ε=0.00000001)とともに利用することができる。 Adam (Kingma, D., and Ba, J. 2014. Adam: A method for stochastic optimization. ArXiv preprint arXiv: 1412.6980.) With hyperparameters (learning rate is l = 0.001, β1 = 0.9, β2 = 0.999, ε = 0.00000001) It can be used.

以上のように、本実施の形態の位置姿勢推定システム100によれば、時系列に入力される2次元の位置情報と1次元の時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができる。 As described above, according to the position / orientation estimation system 100 of the present embodiment, the three-dimensional CNN to be executed for the optical sensing data consisting of the two-dimensional position information and the one-dimensional time information input in time series. Is executed separately for the two-dimensional CNN for the position information and the one-dimensional CNN for the time information, so that the time range in which the convolution process can be performed is extended without increasing the processing load (the number of optical sensing data in the time direction is increased). Many) can.

本発明は、時系列に入力される2次元の位置情報と1次元の時間情報からなる光学センシングデータに対して実行すべき3次元CNNを位置情報に対する2次元CNNと時間情報に対する1次元CNNとに分けて実行するので、処理負荷を過大にすることなく、畳込処理可能な時間範囲を長く(光学センシングデータの時間方向の数を多く)することができ、自走体から撮影された画像に基づいて該自走体の位置及び姿勢を推定する位置姿勢推定システム等として有用である。 In the present invention, the three-dimensional CNN to be executed for the optical sensing data consisting of the two-dimensional position information and the one-dimensional time information input in time series are the two-dimensional CNN for the position information and the one-dimensional CNN for the time information. Since it is executed separately, the time range in which convolution processing can be performed can be lengthened (the number of optical sensing data in the time direction is large) without increasing the processing load, and the image taken from the self-propelled body. It is useful as a position / orientation estimation system or the like that estimates the position and orientation of the self-propelled body based on the above.

10 光学センシング装置
20 位置姿勢推定装置
21 前処理部
22 2次元畳込部
23 1次元畳込部
24 累積部
100 位置姿勢推定システム
10 Optical sensing device 20 Position / orientation estimation device 21 Preprocessing unit 22 Two-dimensional folding unit 23 One-dimensional folding unit 24 Cumulative unit 100 Position / orientation estimation system

Claims (5)

2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置と、
時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置と、
を備え、
前記位置姿勢推定装置は、
前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、
前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、
前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部と、
を備え
前記光学センシング装置は、車両の外側をセンシングするように該車両に固定され、
前記累積部は、モデルベースで前記局所変化量を累積し、前記局所変化量を直進変化量及び角度変化量のパラメータで表現する、位置姿勢推定システム。
An optical sensing device that generates three-dimensional optical sensing data including two-dimensional position information and one-dimensional time information, and
A position / orientation estimation device that estimates the position / orientation of the optical sensing device by visual odometry based on the optical sensing data input in time series.
With
The position / orientation estimation device is
A two-dimensional convolutional unit composed of a plurality of two-dimensional CNN modules for inputting the position information of each of a plurality of consecutive frames composed of the optical sensing data and outputting the feature amount.
A one-dimensional CNN module composed of a one-dimensional CNN module that inputs a plurality of the feature amounts output from each of the plurality of two-dimensional CNN modules and outputs the amount of change in position and orientation between adjacent frames as a local change amount. Folding part and
By accumulating the local change amounts of the plurality of frames, the cumulative value of the local change amount is obtained, and by adding the cumulative value to the initial value of the position and orientation, the optical sensing device after the plurality of frames Cumulative part for finding position and posture,
Equipped with a,
The optical sensing device is fixed to the vehicle so as to sense the outside of the vehicle.
The cumulative unit is a position / posture estimation system that accumulates the local change amount on a model basis and expresses the local change amount with parameters of a straight-ahead change amount and an angle change amount.
前記光学センシング装置は、イベントカメラである、請求項1に記載の位置姿勢推定システム。 The position / orientation estimation system according to claim 1, wherein the optical sensing device is an event camera. 前記位置姿勢推定装置は、前記光学センシング装置から入力された前記光学センシングデータの時間解像度を低下させて、時間解像度が低下した前記複数のフレームを生成する前処理部をさらに含む、請求項1又は2に記載の位置姿勢推定システム。 The position / orientation estimation device further includes a preprocessing unit that lowers the time resolution of the optical sensing data input from the optical sensing device to generate the plurality of frames whose time resolution is lowered. 2. The position / orientation estimation system according to 2. 前記累積部は、前記パラメータについての第1のエラーと、前記局所変化量についての第2のエラーとをそれぞれ第1の重み及び第2の重みで重みづけして学習に用い、ここで、学習の初期には前記第2の重みを重くし、学習の後期には前記第1の重みを重くするように調整して学習を行う、請求項1〜3のいずれかに記載の位置姿勢推定システム。 The cumulative unit uses the first error for the parameter and the second error for the local change amount for learning by weighting them with a first weight and a second weight, respectively. The position / orientation estimation system according to any one of claims 1 to 3, wherein the second weight is made heavier at the initial stage of the learning, and the first weight is made heavier at the latter stage of learning to perform learning. .. 2次元の位置情報及び1次元の時間情報を含む3次元の光学センシングデータを生成する光学センシング装置とともに用いられ、時系列に入力される前記光学センシングデータに基づいて、ビジュアルオドメトリによって前記光学センシング装置の位置姿勢を推定する位置姿勢推定装置であって、
前記光学センシングデータからなる連続する複数のフレームの各々の前記位置情報をそれぞれ入力して、特徴量を出力する複数の2次元CNNモジュールからなる2次元畳込部と、
前記複数の2次元CNNモジュールの各々から出力される複数の前記特徴量を入力して、隣接する前記フレームの間の位置姿勢の変化量を局所変化量として出力する1次元CNNモジュールからなる1次元畳込部と、
前記複数のフレームの前記局所変化量を累積することで前記局所変化量の累積値を求め、位置姿勢の初期値に前記累積値を加えることで、前記複数のフレームの後の前記光学センシング装置の位置姿勢を求める累積部と、
を備え
前記光学センシング装置は、車両の外側をセンシングするように該車両に固定され、
前記累積部は、モデルベースで前記局所変化量を累積し、前記局所変化量を直進変化量及び角度変化量のパラメータで表現する、位置姿勢推定装置。
The optical sensing device is used together with an optical sensing device that generates three-dimensional optical sensing data including two-dimensional position information and one-dimensional time information, and is based on the optical sensing data input in a time series by visual odometry. It is a position / orientation estimation device that estimates the position / orientation of
A two-dimensional convolutional unit composed of a plurality of two-dimensional CNN modules for inputting the position information of each of a plurality of consecutive frames composed of the optical sensing data and outputting the feature amount.
A one-dimensional configuration consisting of a one-dimensional CNN module that inputs a plurality of the feature amounts output from each of the plurality of two-dimensional CNN modules and outputs the amount of change in position and orientation between adjacent frames as a local change amount. Folding part and
By accumulating the local change amounts of the plurality of frames, the cumulative value of the local change amount is obtained, and by adding the cumulative value to the initial value of the position and orientation, the optical sensing device after the plurality of frames Cumulative part for finding position and posture,
Equipped with a,
The optical sensing device is fixed to the vehicle so as to sense the outside of the vehicle.
The cumulative unit is a position / posture estimation device that accumulates the local change amount on a model basis and expresses the local change amount with parameters of a straight-ahead change amount and an angle change amount.
JP2017217482A 2017-11-10 2017-11-10 Position / orientation estimation system and position / orientation estimation device Active JP6916091B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017217482A JP6916091B2 (en) 2017-11-10 2017-11-10 Position / orientation estimation system and position / orientation estimation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017217482A JP6916091B2 (en) 2017-11-10 2017-11-10 Position / orientation estimation system and position / orientation estimation device

Publications (2)

Publication Number Publication Date
JP2019091102A JP2019091102A (en) 2019-06-13
JP6916091B2 true JP6916091B2 (en) 2021-08-11

Family

ID=66836355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017217482A Active JP6916091B2 (en) 2017-11-10 2017-11-10 Position / orientation estimation system and position / orientation estimation device

Country Status (1)

Country Link
JP (1) JP6916091B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488320B2 (en) 2019-07-31 2022-11-01 Samsung Electronics Co., Ltd. Pose estimation method, pose estimation apparatus, and training method for pose estimation
CN116279457B (en) * 2023-05-15 2023-08-01 北京斯年智驾科技有限公司 Anti-collision method, device, equipment and storage medium based on Lei Dadian cloud

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105993041B (en) * 2014-02-24 2017-10-31 日产自动车株式会社 Self-position computing device and self-position computational methods
US9883122B2 (en) * 2014-09-16 2018-01-30 Qualcomm Incorporated Event-based down sampling
US10260862B2 (en) * 2015-11-02 2019-04-16 Mitsubishi Electric Research Laboratories, Inc. Pose estimation using sensors

Also Published As

Publication number Publication date
JP2019091102A (en) 2019-06-13

Similar Documents

Publication Publication Date Title
CN111595333B (en) Modularized unmanned vehicle positioning method and system based on visual inertia laser data fusion
JP7032387B2 (en) Vehicle behavior estimation system and method based on monocular video data
CN106780608B (en) Pose information estimation method and device and movable equipment
Indelman et al. Factor graph based incremental smoothing in inertial navigation systems
EP3451288A1 (en) Visual-inertial odometry with an event camera
JP2022019642A (en) Positioning method and device based upon multi-sensor combination
TW202018330A (en) Vehicle positioning system using lidar
EP3588129A1 (en) Apparatus and method with ego motion estimation
KR101950359B1 (en) Method for position estimation of hybird motion capture system
US20180075614A1 (en) Method of Depth Estimation Using a Camera and Inertial Sensor
CN109238277B (en) Positioning method and device for visual inertial data depth fusion
CN110770758A (en) Determining the position of a mobile device
JP2017215193A (en) Information processing device and method therefor
KR101737950B1 (en) Vision-based navigation solution estimation system and method in terrain referenced navigation
Shamwell et al. Vision-aided absolute trajectory estimation using an unsupervised deep network with online error correction
Aslan et al. Visual-Inertial Image-Odometry Network (VIIONet): A Gaussian process regression-based deep architecture proposal for UAV pose estimation
US11537819B1 (en) Learned state covariances
JP6916091B2 (en) Position / orientation estimation system and position / orientation estimation device
CN111623773B (en) Target positioning method and device based on fisheye vision and inertial measurement
Li et al. Towards end-to-end learning of visual inertial odometry with an EKF
WO2022004773A1 (en) Model generation device, regression device, model generation method, and model generation program
US11866056B2 (en) Ballistic estimation of vehicle data
Wei et al. Rapid and robust initialization for monocular visual inertial navigation within multi-state Kalman filter
CN115235454B (en) Pedestrian motion constraint visual inertial fusion positioning and mapping method and device
CN114993306B (en) Scale self-recovery visual inertial integrated navigation method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210715

R150 Certificate of patent or registration of utility model

Ref document number: 6916091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150