JP7034837B2 - 3次元畳込み演算装置、ビジュアルオドメトリシステム、及び3次元畳込みプログラム - Google Patents

3次元畳込み演算装置、ビジュアルオドメトリシステム、及び3次元畳込みプログラム Download PDF

Info

Publication number
JP7034837B2
JP7034837B2 JP2018105747A JP2018105747A JP7034837B2 JP 7034837 B2 JP7034837 B2 JP 7034837B2 JP 2018105747 A JP2018105747 A JP 2018105747A JP 2018105747 A JP2018105747 A JP 2018105747A JP 7034837 B2 JP7034837 B2 JP 7034837B2
Authority
JP
Japan
Prior art keywords
dimensional
time
convolution
data
visual odometry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018105747A
Other languages
English (en)
Other versions
JP2019211879A (ja
Inventor
雄介 関川
康太 石川
幸一郎 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2018105747A priority Critical patent/JP7034837B2/ja
Publication of JP2019211879A publication Critical patent/JP2019211879A/ja
Application granted granted Critical
Publication of JP7034837B2 publication Critical patent/JP7034837B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Description

本発明は、2次元空間要素と時間要素とを含む3次元データの畳込み演算を行う3次元畳込み演算装置、及びそれを含むビジュアルオドメトリシステム、並びに3次元畳込みプログラムに関する。
動作や行動の認識、ビジュアルオドメトリ(即ち、視覚情報に基づく位置姿勢推定)では、連続するデータから時空間特徴を学習することが重要である。ニューラルネットワーク(Neural Network:以下、「NN」とも表記する)は、様々な分野で高い性能を示しており、NNを利用して時空間情報と特徴を捉える方法として、3次元畳込みニューラルネットワーク(3 Demensional Convolutional Neural Network:以下、「3DCNN」ともいう。)が有効であることが知られている(例えば、非特許文献1)。しかしながら、3DCNNに必要な3次元畳込み演算は、計算量が大きく、高い時間解像度の信号に適用することは、計算量及びメモリ使用量の観点から困難である。
近年、イベントカメラという生物の視覚にヒントを得たカメラデバイスが注目されている。従来のカメラが輝度をフレームで取得するのに対して、イベントカメラは、人間の知覚システムを模倣したカメラであり、輝度の変化のみを捉える。イベントカメラの出力は、輝度が所定の閾値以上に変化した場合の時刻、画素の位置、極性(輝度が小さくなったか大きくなったか)を表す非同期のデータ列である。
よって、イベントカメラの出力は、従来のカメラの出力と比較して、空間的に非常にスパース(疎)であり、データ量が非常に少ない。また、イベントカメラは、従来のカメラと比較して、時間解像度が非常に高く(例えば、マイクロミリ秒オーダ)、ダイナミックレンジが高いという特性がある。すなわち、イベントカメラは、従来のカメラと比較して、少データ量、高時間解像度、ハイダイナミックレンジ(HDR)という特性を有している。これらの特性は、瞬時ないしリアルタイムに画像処理をして移動体を検知したり、ビジュアルオドメトリで自己の姿勢及び位置の推定を行う必要がある車載システムにとっては非常に重要である。
そこで、このイベントカメラの出力に3DCNNを適用することが考えられる。
Tran, D., Bourdev, L.D., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3D convolutional networks. In: ICCV, pp. 4489-4497 (2015)
しかしながら、3次元畳込み演算の制約から、イベントカメラの高時間解像度の信号を3DCNNで処理することは困難である。また、3次元畳込み演算は、デンスなデータを想定しており、イベントカメラの出力のようなスパースなデータに3次元畳込演算を適用する場合には、スパースなデータをデンスにする必要があり、イベントカメラのスパース性を活かした効率的な処理を行うことはできない。
本発明は、イベントカメラの出力が、スパースであり、高時間解像度であるという特性を損ねることなく、イベントカメラの出力に3次元畳込みを行う3次元畳込み演算装置を提供することを目的とする。
本発明の一態様は3次元畳込み演算装置であって、この3次元畳込み演算装置は、2次元空間要素と時間要素とを含む時系列データを取得し、前記時系列データに対する2次元空間の2次元カーネルの2次元畳込み演算の時間方向の積和演算によって、畳込み演算を行う構成を有している。
この構成により、3次元の畳込みカーネルを2次元空間の2次元カーネルと等速直線運動の速度との積に分解することで、3次元畳込み演算を2次元畳込み演算の時間方向の積和演算に置き換えるので、畳込み演算の演算量を削減できる。
上記の3次元畳込み演算装置において、複数の異なる前記速度について、前記2次元カーネルによる畳込み演算の結果を共有してよい。
この構成により、畳込み演算の演算量をさらに削減できる。
上記の3次元畳込み演算装置において、前記2次元カーネルの空間方向の大きさは、前記3次元カーネルの空間方向の大きさよりも小さくてよい。
この構成により、畳込み演算の演算量をさらに削減できる。
上記の3次元畳込み演算装置において、前記時間方向の積和演算を周波数空間での平面のサンプリングとその逆フーリエ変換により行ってよい。
この構成により、3次元フーリエ空間で平面をサンプリングする処理が行われるので、3次元的な変形を行う従来の処理と比較して、畳込み演算の演算量を削減できる。
上記の3次元畳込み演算装置において、過去の演算結果をコピーして再利用して、時間方向の受容野に新たに入るデータと時間方向の受容野から出るデータとの寄与のみを計算してよい。
この構成により、時系列データの場合は前回の結果をほとんど再利用できるので、時間方向の受容野に新しく入ってくる分と、消える分を考慮するだけで、あとは前回の結果を速度に応じてコピーするだけで3次元畳込み演算の結果を得ることができる。
上記の3次元畳込み演算装置において、ハードウェア回路を用いて前記再利用のためのメモリコピーを行ってよい。
過去の演算結果の再利用のためのメモリコピーは固定であるので、この構成によりハードウェアを用いることで、メモリコピーを高速に行うことができる。
上記の3次元畳込み演算装置において、前記時系列データとしてイベントカメラからのイベントデータを取得してよく、前記イベントデータの2次元空間要素に応じて前記2次元カーネルをコピーして再利用してよい。
イベントカメラで得られるイベントデータはスパースであるので、この構成により、入力イベントの座標に応じて2次元カーネルをコピーするという演算で3次元畳込み演算を実現できる。
本発明の一態様は、ビジュアルオドメトリシステムであって、このビジュアルオドメトリシステムは、車両に前向きに設置され、2次元空間要素と時間要素とを含む時系列データとしてイベントデータを生成するイベントカメラと、前記時系列データに対する2次元空間の2次元カーネルの2次元畳込み演算の時間方向の積和演算によって、畳込み演算を行う3次元畳込み演算装置と、前記畳込み演算の結果を用いてビジュアルオドメトリにより前記車両の位置姿勢を推定するビジュアルオドメトリ装置とを備えた構成を有している。
この構成により、ビジュアルオドメトリのための畳込み演算の演算量を削減できる。
上記のビジュアルオドメトリシステムにおいて、前記3次元畳込み演算装置と前記ビジュアルオドメトリ装置とでLSTCNNが構成されてよく、前記LSTCNNは、前記3次元畳込み演算装置で構成される第1モジュールと、前記ビジュアルオドメトリ装置で構成される第2及び第3モジュールとを含んでよく、前記第1モジュールは、前記時系列データの局所的な時空間的特徴を捕捉してよく、前記第2モジュールは、前記第1モジュールの出力の空間相関を捕捉してよく、前記第3モジュールは、前記第2モジュールの出力の時間相関を捕捉してよい。
本発明の一態様は、3次元畳込みプログラムであって、この3次元畳込みプログラムは、コンピュータに、2次元空間要素と時間要素とを含む時系列データを取得するステップ、及び前記時系列データに対する2次元空間の2次元カーネルの2次元畳込み演算の時間方向の積和演算によって、畳込み演算を行うステップ、を実行させる。
本発明によれば、3次元の畳込みカーネルを2次元空間の2次元カーネルと等速直線運動の速度との積に分解することで、3次元畳込み演算を2次元畳込み演算の時間方向の積和演算に置き換えるので、畳込み演算の演算量を削減できる。
図1は、本発明の実施の形態のビジュアルオドメトリシステムの構成を示すブロック図である。 図2Aは、イベントカメラから見た車両前方の画像の例である。 図2Bは、図2Aの場合のイベントデータを可視化して示す図である。 図3Aは、一般的な3次元畳込みニューラルネットワークにおける畳込み演算を示す図である。 図3Bは、定速3次元畳込みにおける畳込み演算を示す図である。 図3Cは、入力データがスパースである場合の定速3次元畳込み演算を示す図である。 図4は、本発明の実施の形態のビジュアルオドメトリシステムにおけるLSTCNNの全体構成を示す図である。 図5は、本発明の実施の形態のビジュアルオドメトリ装置におけるネットワーク構造を示す図である。
以下、図面を参照して本発明の実施の形態を説明する。なお、以下に説明する実施の形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。
図1は、本発明の実施の形態のビジュアルオドメトリシステムの構成を示すブロック図である。ビジュアルオドメトリシステム100は、イベントカメラ10と、3次元畳込み演算装置20と、ビジュアルオドメトリ装置30とを備えている。イベントカメラ10は、2次元の座標(x,y)、タイムステップt、及び極性(プラスに変化したかマイナスに変化したか)pからなるデータを出力する。
イベントカメラ10は、各ピクセルの受光強度を測定して閾値以上の変化があったときに他のピクセルとは非同期にイベントデータ(x,y,t,p)を出力する。すなわち、このイベントカメラ10の出力は、2次元空間要素(x,y)と時間要素(t)とを含む時系列データであり、時空間特徴を表している。本実施の形態では、イベントカメラ10は、車両に前方を向けて設置されている。
図2Aは、イベントカメラから見た車両前方の画像の例であり、図2Bは図2Aの場合のイベントデータを可視化して示す図である。図2Bでは、所定の時間内にイベントが生じた回数が多いピクセルをより明るくすることでイベントデータを可視化している。
イベントカメラ10が車両に前方を向けて設置されているので、図2Bに示すように、このイベントカメラ10で取得されるイベントデータでは、建物や道路上のエッジが、局所的には時間とともに概ね等速で移動している。すなわち、イベントデータから任意に取り出した部分領域のデータは、短時間でみると概ね一定の速度でシフトする。
3次元畳込み演算装置20は、イベントカメラ10から入力データとして時系列のイベントデータを取得する。3次元畳込み演算装置20は、入力データに対して畳込みカーネルで畳込み演算を行う。
時空間特徴をモデル化するために、3次元畳込みニューラルネットワークを利用することができる。一般的な3次元畳込みニューラルネットワークは、以下の式(1)で表される。
Figure 0007034837000001
ここで、
Figure 0007034837000002
は、時空間特徴の入力データであり、
Figure 0007034837000003
は、3次元畳込みカーネルであり、zは入力データと同サイズの出力データである。
図3Aは、一般的な3次元畳込みニューラルネットワークにおける畳込み演算を示す図である。この3次元畳込ニューラルネットワークでは、入力データと3次元畳込みカーネルとの内積演算(即ち、3次元点乗積演算)を時空間方向(即ち、3次元方向)にスライドさせて行う必要がある。各3次元点乗積には、(kL×kL×τ)回の積和演算が必要であり、これを(W×H×T)回繰り返す必要がある。このように、3次元畳込みニューラルネットワークは、膨大な演算量を必要とする。
そこで、本実施の形態では、定速近似を行う。上述のように、イベントカメラ10は車両に前方を向いて設置されているため、任意の部分領域ないし1ピクセルを短時間でみると、イベントは一定の速度でシフトするとみなすことができる。以下、小さな領域についての微小時間、即ち空間的かつ時間的に微小部分を「局所」という。
3次元畳込み演算装置20は、車両に設置されたイベントカメラ10のイベントデータが局所的に定速であるという性質を利用して、3次元畳込み演算のコストを低減する。3次元畳込み演算装置20によるこのような3次元畳込み(演算)を、以下では、「定速3次元畳込み(演算)」という。
いま、座標(x,y)における局所的に一定の速度ξを
Figure 0007034837000004
と定義する。
イベントデータが局所的に一定速度である場合には、時刻tにおける局所的な一定速度を示す3次元畳込みカーネルwは、下式(2)のように近似できる。
Figure 0007034837000005
式(2)の局所的定速が成り立つ場合には、画像領域X(・,・,t)における畳込みによって、時刻tによらずに同じ応答が得られる。こようなのパラメータ化によって、本実施の形態の定速3次元畳込みが実現される。
上記の式(2)によって、式(1)の3次元畳込みニューラルネットワークは、下式(3)のように書き換えることができる。
Figure 0007034837000006
ここで、
Figure 0007034837000007
は、下式(4)で表される速度カーネルである。
Figure 0007034837000008
図3Bは、定速3次元畳込みにおける畳込み演算を示す図である。3次元畳込み演算装置20は、図3Bに示すように、3次元畳込みカーネルを2次元空間カーネルと3次元速度カーネルに分解する。
速度カーネルを含む畳込み演算は、総和Σを使って下式(5)で表される。
Figure 0007034837000009
ここで、
Figure 0007034837000010
は、入力データXと2次元畳込みカーネルw(・,・,1)との2次元畳込みであり、これによって従来の3次元畳込みよりも低コストに演算が可能となる。
また、この2次元畳込み演算の結果は、次のタイムステップのzξ(・,・,t+1)に再利用することができる。即ち、式(5)は、異なるξによって特徴づけられる異なる3次元畳込みカーネルが、同一の2次元畳込み演算の結果を共用できるということを意味している。
さらに、式(2)で表される分解では、w(・,・,1)の非0要素が排除されない限り、w(・,・,1)の空間次元のサイズkをvξ(・,・,・)の空間次元のサイズkより小さくすることができる。よって、高速で移動するエッジを小さな2次元カーネルでモデル化することができる。
最終的な3次元畳込み演算の結果は、ξで定義される異なる方向についてζの積和演算を行うことで得られる。以下では、2通りの積和演算の手法を説明する。3次元畳込みカーネルの表現は、時間方向に沿った構造正則化をするものであり、時間次元の項に沿ったパラメータの共有として解釈することができる。このパラメータ共有では、空間次元でパラメータを共有するので、CNN自体が正則化として機能するのと同じ方法で正則化として機能することが期待される。
なお、式(2)で表される分解は、3次元畳込みカーネルw(・,・,・)の低階数テンソル近似ではなく、むしろ通常は(速度が0(ξ=[0,0])である場合を除いて)全階級(フルランク)を有する。したがって、分離可能フィルタの技術を使用することはできない。
過去の畳込み演算の結果を利用することで、時系列データの効率的な積和演算が可能になる。すなわち、式(5)によれば、タイムステップ(t+1)の3次元畳込み演算の結果を得るために必要な計算の大部分は、すでにタイムステップtで計算されている。すなわち、下式(6)の再帰式が成り立つ。
Figure 0007034837000011
ここで、
Figure 0007034837000012
であり、
Figure 0007034837000013
であり、それぞれ時間方向の受容野から除去されるデータ、及び時間方向の受容野に新たに入ってくるデータの寄与に対応している。実装の際には、各ピクセルに対して4つの積和演算を必要とするバイリニア補間が使用される。
もう一つの積和演算の手法は、3次元フーリエ空間で平面をサンプリングする手法である。式(6)は、時系列データに対して有効であるが、ニューラルネットワークのミニバッチ学習などランダムに取り出した時系列データの場合には有効ではない。そこで、式(5)の効率的な積和演算のための別のアルゴリズムとして、下式(7)のフーリエ変換を用いて導出されるアルゴリズムを用いる。
Figure 0007034837000014
ここで、ζ^は、ζのフーリエ変換
Figure 0007034837000015
であり、FTは、添え字によって示される次元に対して作用するフーリエ変換を表す。
フーリエ変換を利用する定速3次元畳込みの各項は、それぞれ、2次元畳込み、時間方向の1次元フーリエ変換、空間方向の2次元フーリエ変換を表す。
本実施の形態の3次元畳込み装置20は、定速3次元畳込み演算をニューラルネットワークに適用するために、逆伝搬アルゴリズムも導出する。2次元のパラメータは、異なるξによって共有されるので、2次元カーネルw(・,・,1)のパラメータに対する上位層からの誤差Eの導関数は、各ξの寄与の和として下式(8)で計算される。
Figure 0007034837000016
ここで、畳込み
Figure 0007034837000017
は、上記のフーリエ変換を利用する手法によって計算できる。
本実施の形態の3次元畳込み演算装置20は、イベントデータのスパース性を利用して、さらに演算量を削減する。図3Cは、入力データがスパースである場合の定速3次元畳込み演算を示す図である。イベントデータはスパース性を有するため、下式(9)に示すように、イベントごとに2次元畳込みを計算できる。
Figure 0007034837000018
ここで、x:={x,y,t,p}はイベントを表しており、Sは、画素[x,yの2次元畳込みカーネルw(・,・,1)を変換し、かつ、pに基づいてその記号を変更する関数である。3次元畳込み演算装置20は、タイムステップ(t-1)からtまでの時間間隔δtで生じたイベント全体について、この関数Sの総和をとる。
一般的な3次元畳込みでは、時間的カーネルのサイズτ内に過去のイベントが格納されている必要があるが、式(9)によれば、ζへの寄与分が計算されると、イベントデータを連続的に破棄することができる。これにより、メモリ使用量および処理速度に関して、計算上非常に効率的なアルゴリズムが得られる。
表1は、演算効率を比較した表である。表1において、各パラメータは、W=240、H=180、T=100、k=33、k=17、τ=32、B=1、及びα=0.01とした。また、長さOの信号のFFTの演算数は、OlogOとしている。
Figure 0007034837000019
表1において、「3dconv」は一般的な3次元畳込みであり、「cv3dconv」は本実施の形態の定速3次元畳込みである。表1には、積和演算の回数とともに、CPU及びGPUのそれぞれの実際の演算時間(Time[s])が示されている。また、表1には、一般的な3次元畳込み演算に対する積和演算回数の逆比(Ratio)も示されている。本実施の形態の定速3次元畳込みでは、3次元畳込みのために必要な積和演算の数は、約(k/kτν倍に減少する。
本実施の形態の3次元畳込み装置20では、必要な積和演算及びパラメータの数が大幅に削減される。これは、1)3次元畳込みが、効率的な2次元畳込みのτ倍まで減少し、2)2次元カーネルの空間次元が、元の3次元カーネルの空間次元のk/k倍に減少し、3)2次元畳込み演算の結果が、νの異なる速度において共有される、という要因によるものである。
時系列データについては、式(7)を用いて積和演算の結果をコピーして再利用することもでき、時間方向の受容野に新たに入るデータと除去されるデータを考慮するだけでよい。さらに、スパース度αのスパースデータの場合は、2次元畳込みにおける積和演算の回数をα倍だけ減少させることができる。
なお、実際の速度ゲインは、積和演算の大幅な削減(約1万倍)と比較して緩やかである(CPUは約10倍、GPUは約25倍)。これは、表1には示されていないが式(7)のメモリコピー操作が操作を支配する(>95%)ためである。しかしながら、コピー操作は固定されているので、このコピー操作をGPU言語でコード化してCUDA(Compute Unified Device Architecture)などの専用のハードウェアを用いて行うようにすれば、コピー操作の速度を大幅に向上できる。
ビジュアルオドメトリ装置30は、定速3次元畳込み演算を用いて時空間特徴をモデル化する典型的なアプリケーションとして、LSTCNNを用いたビジュアルオドメトリによる自車両の位置姿勢推定を行う。ノイズと目に見えない特徴に対して頑健な推定をするためには、3次元畳込み演算装置20で得られた局所的な特徴の長期依存性をモデル化することが有効である。
ビジュアルオドメトリ装置30は、定速3次元畳込みによって抽出された局所時空間特徴のグローバルな時空間相関をモデル化するために、LSTCNNアーキテクチャを利用する。いま、時系列の入力データを
Figure 0007034837000020
とする。ここで、M×Nは、入力データの空間解像度であり、Tはモデル化したい時間長である。LSTCNNであるfは、ターゲット値pにかかわらず、下式(10)のようになる。
Figure 0007034837000021
ビジュアルオドメトリ装置30のLSTCNNは、定速3次元畳込みと同様の考え方で設計される。すなわち、ビジュアルオドメトリ装置30のLSTCNNは、過去のタイムステップの計算を再利用することで、時系列の入力データの演算効率を向上する。したがって、本実施の形態のLSTCNNアーキテクチャは、従来のように3次元畳込みないし定速3次元畳込みの層を積み重ねることはない。すなわち、本実施の形態のLSTCNNは、過去の演算結果を可能な限り利用するために、定速3次元畳込みとそれに続く2次元CNNと1次元CNNで構成されている。
図4は、本発明の実施の形態のビジュアルオドメトリシステムにおけるLSTCNNの全体構成を示す図である。第1モジュールf3Dには、定速3次元畳込みの単層が含まれている。第1モジュールf3Dは、入力データにおける局所的な時空間的特徴を捕捉するものである。第2モジュールf2Dは、第1モジュールf3Dによって捕捉された局所的な時空間特徴の空間相関を捕捉する2次元空間CNNである。第3モジュールf1Dは、第2モジュールf2Dからの圧縮された特徴の長期間の時間相関を捕捉する1次元因果CNNである。
第1モジュールf3Dは、局所的な時空間の相関を捕捉する。{x,y,t,p}で構成されるイベントデータのデータ列は、イベントカメラ10の各ピクセルから非同期的に出力される。各イベントは、密な3次元ボクセルに変換されることなく、式(10)を使用して訓練されたカーネルに直接畳み込まれる。
第1モジュールf3Dは、ReLUの非線形性に続く定速3次元畳込みの単層から構成される。第1モジュールf3Dは、入力データXを連続的に受けて、連続的に局所的な時空間特徴
Figure 0007034837000022
を出力する。ここで、本実施の形態のビジュアルオドメトリ装置30では、畳込み前のパディングは使用しないので、M´×N´は、M×Nより小さく、カーネルのサイズkによって決定される。
図5は、本発明の実施の形態のビジュアルオドメトリ装置におけるネットワーク構造を示す図である。また、図5では、第3モジュールf1Dによる1次元因果CNNの詳細な構造を示している。2次元空間CNNである第2モジュールf2Dは、空間相関を捕捉する。第2モジュールf2Dは、空間情報が折り畳まれて圧縮された特徴
Figure 0007034837000023
を算出するために定速3次元畳込みによって抽出される局所的な時空間特徴
Figure 0007034837000024
を処理する。
上述のように、ビジュアルオドメトリ装置30では、第2モジュール及び第1モジュールが構成されている。ビジュアルオドメトリ装置30では、パディングなしの畳込み層の後にバッチ正則化(Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: International conference on machine learning. (2015) 448-45)及びReLUのアクティブ化が行われる。第2モジュールf2Dでは、最後のfc層の後には、バッチ正則化及びReLUのアクティブ化は行われない。第2モジュールf2Dは、2次元CNNから構成され、各特徴e(k=1,…,T)とは独立して動作する。
第3モジュールf1Dは、時間相関を捕捉する。第3モジュールf1Dは、圧縮された特徴
Figure 0007034837000025
のシーケンスを処理し、回帰目標値p(例えば、動き)を出力する。第3モジュールf1Dは、最終層にタスク固有のエラー関数を有する因果CNNモジュールのスタックからなる。
本実施の形態のビジュアルオドメトリ装置30は、複雑な時間依存性をモデル化するために、WaveNet(van den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A.W., Kavukcuoglu, K.: Wavenet: A generative model for raw audio. CoRR abs/1609.03499 (2016))で使用されているのと同じゲート付活性化ユニット(gated activation unit)
Figure 0007034837000026
を使用する。
第3モジュールf1Dの最終層は、自車両の局所的な運動を出力する。図8は、自車両の姿勢を更新するために使用されるモデルを示す図である。LSTCNNは、(T+τ-1)の入力フレームを使用して局所的なモーションδpを出力する。
通常の都市環境で走行する車両のビジュアルオドメトリによる位置姿勢推定には、図8に示すように、2次元平面上を移動する2次元車両運動を考えるのみで十分である。時刻kにおける自車両の位置姿勢は、p=[x,y,θ]、即ち、自車両の位置、及び方位角によって表現される。本実施の形態では、時刻(k-1)からkまでの前進距離ΔL及び角速度Δθで表現される局所的運動Δp=[ΔL,Δθを用いて自車両の姿勢を更新する。
具体的には、ビジュアルオドメトリ装置30は、局所的運動Δpを用いて、自車両の位置姿勢を下式(11)で更新する。
Figure 0007034837000027
式(11)では、SE(3)やSE(2)によるパラメータ化よりはパラメータ数が少なくできている。車は回転せずに横向きに進むことはできないため、式(11)は車両が実行可能な動きを出力するものである。
以上のように、本実施の形態のビジュアルオドメトリシステム100によれば、3次元の畳込みカーネルを2次元空間の2次元カーネルと等速直線運動の速度との積に分解することで、3次元畳込み演算を2次元畳込み演算の時間方向の積和演算に置き換えるので、畳込み演算の演算量を削減できる。
本発明は、3次元の畳込みカーネルを2次元空間の2次元カーネルと等速直線運動の速度との積に分解することで、3次元畳込み演算を2次元畳込み演算の時間方向の積和演算に置き換えるので、畳込み演算の演算量を削減でき、ビジュアルオドメトリシステム及びそれを構成する3次元畳込み演算装置等として有用である。
100 ビジュアルオドメトリシステム
10 イベントカメラ
20 3次元畳込み円座装置
30 ビジュアルオドメトリ装置

Claims (10)

  1. 2次元空間要素と時間要素とを含む時系列データを取得し、
    前記時系列データに対する2次元空間の2次元カーネルの2次元畳込み演算の時間方向の積和演算によって、畳込み演算を行う、3次元畳込み演算装置。
  2. 複数の異なる速度について、前記2次元カーネルによる畳込み演算の結果を共有する、請求項1に記載の3次元畳込み演算装置。
  3. 前記2次元カーネルの空間方向の大きさは、3次元カーネルの空間方向の大きさよりも小さい、請求項1又は2に記載の3次元畳込み演算装置。
  4. 前記時間方向の積和演算を周波数空間での平面のサンプリングとその逆フーリエ変換により行う、請求項1~3のいずれかに記載の3次元畳込み演算装置。
  5. 過去の演算結果をコピーして再利用して、時間方向の畳み込み受容野に新たに入るデータと時間方向の受容野から出るデータとの寄与のみを計算する、請求項1~3のいずれかに記載の3次元畳込み演算装置。
  6. ハードウェア回路を用いて前記再利用のためのメモリコピーを行う、請求項5に記載の3次元畳込み演算装置。
  7. 前記時系列データとしてイベントカメラからのイベントデータを取得し、
    ここで、前記イベントカメラは、輝度が所定の閾値以上に変化した場合の時刻、画素の位置、極性を表す非同期のデータ列を前記イベントデータとして出力するカメラであり、
    前記イベントデータの2次元空間要素に応じて前記2次元カーネルをコピーして再利用する、請求項1~6のいずれかに記載の3次元畳込み演算装置。
  8. 車両に前向きに設置され、2次元空間要素と時間要素とを含む時系列データとしてイベントデータを生成するイベントカメラと、
    前記時系列データに対する2次元空間の2次元カーネルの2次元畳込み演算の時間方向の積和演算によって、畳込み演算を行う3次元畳込み演算装置と、
    前記畳込み演算の結果を用いてビジュアルオドメトリにより前記車両の位置姿勢を推定するビジュアルオドメトリ装置と、
    を備えた、ビジュアルオドメトリシステム。
  9. 前記3次元畳込み演算装置と前記ビジュアルオドメトリ装置とでLSTCNNが構成され、
    前記LSTCNNは、前記3次元畳込み演算装置で構成される第1モジュールと、前記ビジュアルオドメトリ装置で構成される第2及び第3モジュールとを含み、
    前記第1モジュールは、前記時系列データの局所的な時空間的特徴を捕捉し、
    前記第2モジュールは、前記第1モジュールの出力の空間相関を捕捉し、
    前記第3モジュールは、前記第2モジュールの出力の時間相関を捕捉する、請求項8に記載のビジュアルオドメトリシステム。
  10. コンピュータに、
    2次元空間要素と時間要素とを含む時系列データを取得するステップ、及び
    前記時系列データに対する2次元空間の2次元カーネルの2次元畳込み演算の時間方向の積和演算によって、畳込み演算を行うステップ、
    を実行させる3次元畳込みプログラム。
JP2018105747A 2018-06-01 2018-06-01 3次元畳込み演算装置、ビジュアルオドメトリシステム、及び3次元畳込みプログラム Active JP7034837B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018105747A JP7034837B2 (ja) 2018-06-01 2018-06-01 3次元畳込み演算装置、ビジュアルオドメトリシステム、及び3次元畳込みプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018105747A JP7034837B2 (ja) 2018-06-01 2018-06-01 3次元畳込み演算装置、ビジュアルオドメトリシステム、及び3次元畳込みプログラム

Publications (2)

Publication Number Publication Date
JP2019211879A JP2019211879A (ja) 2019-12-12
JP7034837B2 true JP7034837B2 (ja) 2022-03-14

Family

ID=68845273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018105747A Active JP7034837B2 (ja) 2018-06-01 2018-06-01 3次元畳込み演算装置、ビジュアルオドメトリシステム、及び3次元畳込みプログラム

Country Status (1)

Country Link
JP (1) JP7034837B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021161652A1 (ja) * 2020-02-10 2021-08-19 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、イメージセンサ、撮像装置、信号処理方法
JP7425276B1 (ja) 2023-05-11 2024-01-31 浙江工商大学 可視光画像を融合するイベントカメラの再構成画像の補強方法、媒体及び装置
CN118330787B (zh) * 2024-06-11 2024-09-13 浙江工业大学 一种基于多模态域变换和自适应融合的台风生成预报方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009105725A (ja) 2007-10-24 2009-05-14 Canon Inc フィルタ演算方法及び装置、パターン識別方法、プログラム
JP2013200761A (ja) 2012-03-26 2013-10-03 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2017530467A (ja) 2014-09-16 2017-10-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated 事象ベースのシステムとフレームベースの処理システムとをインターフェースすること

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE151583T1 (de) * 1990-02-05 1997-04-15 Scitex Corp Ltd Geräte und verfahren zur verarbeitung von daten, wie zum beispiel farbbildern

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009105725A (ja) 2007-10-24 2009-05-14 Canon Inc フィルタ演算方法及び装置、パターン識別方法、プログラム
JP2013200761A (ja) 2012-03-26 2013-10-03 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2017530467A (ja) 2014-09-16 2017-10-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated 事象ベースのシステムとフレームベースの処理システムとをインターフェースすること

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Andrea Censi, 外1名,"Low-latency event-based visual odometry",2014 IEEE International Conference on Robotics and Automation (ICRA),米国,IEEE,2014年06月07日,p.703-710
Du Tran, 外4名,"Learning Spatiotemporal Features with 3D Convolutional Networks",2015 International Conference on Computer Vision (ICCV),米国,IEEE,2015年12月13日,p.4489-4497
Sen Wang, 外3名,"DeepVO: Towards end-to-end visual odometry with deep Recurrent Convolutional Neural Networks",2017 IEEE International Conference on Robotics and Automation (ICRA),米国,IEEE,2017年06月03日,p.2043-2050
多田啓一, 外2名,"動き情報を用いた巡回型時空間フィルタによる低SN比映像の質改善",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2006年09月19日,第106巻, 第263号,p.59-64

Also Published As

Publication number Publication date
JP2019211879A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
Baldwin et al. Time-ordered recent event (tore) volumes for event cameras
Scheerlinck et al. Fast image reconstruction with an event camera
US20210350168A1 (en) Image segmentation method and image processing apparatus
CN107507126B (zh) 一种利用rgb图像还原3d场景的方法
CN113076685B (zh) 图像重建模型的训练方法、图像重建方法及其装置
Mangalam et al. Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
Dorta et al. Structured uncertainty prediction networks
JP7389116B2 (ja) 深層ニューラルネットワーク姿勢推定システム
JP7034837B2 (ja) 3次元畳込み演算装置、ビジュアルオドメトリシステム、及び3次元畳込みプログラム
CN110390249A (zh) 利用卷积神经网络提取关于场景的动态信息的装置和方法
CN106875426B (zh) 基于相关粒子滤波的视觉跟踪方法及装置
EP3857457B1 (en) Neural network systems for decomposing video data into layered representations
WO2021109118A1 (en) Object re-identification using pose part based models
JP4643741B2 (ja) 画像処理方法及び画像処理装置
Vitoria et al. Event-based image deblurring with dynamic motion awareness
CN111833400B (zh) 一种相机位姿定位方法
JP2010511241A5 (ja)
Wang et al. Paul: Procrustean autoencoder for unsupervised lifting
CN108509830B (zh) 一种视频数据处理方法及设备
Khowaja et al. Cascaded and Recursive ConvNets (CRCNN): An effective and flexible approach for image denoising
Sekikawa et al. Constant velocity 3D convolution
Shedligeri et al. High frame rate optical flow estimation from event sensors via intensity estimation
Russo et al. Blurring prediction in monocular slam
Figueiredo Teaching a new trick to an old dog: Revisiting the quadratic programming formulation of sparse recovery using ADMM
CN116503503A (zh) 图像生成方法及装置、训练图像生成模型的方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220302

R150 Certificate of patent or registration of utility model

Ref document number: 7034837

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150