JP2021510823A - 車両位置特定 - Google Patents

車両位置特定 Download PDF

Info

Publication number
JP2021510823A
JP2021510823A JP2020539786A JP2020539786A JP2021510823A JP 2021510823 A JP2021510823 A JP 2021510823A JP 2020539786 A JP2020539786 A JP 2020539786A JP 2020539786 A JP2020539786 A JP 2020539786A JP 2021510823 A JP2021510823 A JP 2021510823A
Authority
JP
Japan
Prior art keywords
training
representation
trainable
transformation
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020539786A
Other languages
English (en)
Other versions
JPWO2019141992A5 (ja
Inventor
ポール ニューマン
ポール ニューマン
ホリア ポラヴ
ホリア ポラヴ
ウィル マダン
ウィル マダン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oxford University Innovation Ltd
Original Assignee
Oxford University Innovation Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oxford University Innovation Ltd filed Critical Oxford University Innovation Ltd
Publication of JP2021510823A publication Critical patent/JP2021510823A/ja
Publication of JPWO2019141992A5 publication Critical patent/JPWO2019141992A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Electromagnetism (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)
  • Stored Programmes (AREA)

Abstract

エンティティの位置特定に用いられるように構成される第1の訓練可能な変換を生成する電算化された方法において、変換は、環境の第1表現を、環境の、異なる第2表現に変換するように構成される。方法は、変換された第1訓練表現を生成するように、第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理することと、i)誤差信号を生成するように、第1訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、ii)誤差信号を生成するように、第1訓練表現に対応するが異なる光条件下である第2訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、のうちの少なくとも1つを実施することと、c)第1の変換を訓練するために誤差信号を用いることと、を含む。【選択図】 図2

Description

発明の詳細な説明
[発明の技術分野]
本発明は、通常、見た目に大きな変化を伴う環境における車両の位置特定のための方法及び関連する装置に関する。詳細には、実施形態はカメラのみのシステムであるが、これに限定するものではない。
[発明の背景]
キーポイント特徴マッチング(例えば、SURF、SIFT、BRIEF、ORBなど)は、
[1]C.Lineger、W.Churchill、及び、P.Newman「Made to measure:Bespoke landmarks for 24−hour,all−weather localisation with a camera」Proceedings−IEEE International Conference(Robotics and Automation、2016年6月号、2016年、787〜794ページ)、
[2]C.McManus、B.Upcroft、及び、P.Newman「Learning place−dependant features for long−term vision−based localisation」Autonomous Robots、vol.39、no.3、363〜387ページ、2015年、
[3]W.Churchill、及び、P.Newman「Experience−based navigation for longterm localisation」The International Journal of Robotics Research、vol.32、no.14、1645〜1661ページ、2013年、
[4]R.Mur−Artal、及び、J.D.Tard’os「ORB−SLAM2:an open−source SLAM system for monocular,stereo and RGB−D cameras」CoRR、vol.abs/1610.06475、2016年、
[5]P.Furgale、及び、T.D.Barfoot「Visual teach and repeat for long−range rover autonomy」Journal of Field Robotics、vol.27、no.5、534〜560ページ、2010年5月、
などの従来技術文献にて用いられるような、マルチマップ視覚的位置特定システム、及び、多数の他の商用システムにおいて、先進的なアプローチを示す。これは、類似の光条件のシーンをマッチングする場合に良好に機能する一方で、例えば、屋外で用いられるときなどの照度変化、または、季節差によりシーンの見た目が異なる場合に、性能が急速に低下する。標準的な記述子(例えば、SURF、SIFT、BRIEF、ORBなど)の使用を試みることは、不十分な位置特定の原因となるであろう。これらのポイント特徴に基づく方法を機能させるために、マッピング手法は、一般的に、それぞれの見た目のカテゴリ(晴れ、雪、夜明け、夕暮れ、雨、夜など)に対して実施されることが必要であろう。
さらなる従来技術が、[6]C.Linegar、W.Churchill、及び、P.Newman「Work smart,not hard:Recalling relevant experiences for vast−scale but time−constrained localisation」Proceedings−IEEE International Conference on Robotics and Automation、2015年6月号、6月号、2015年、90〜97ページ、[7]J.Zhu、T.Park、P.Isola、及び、A.A.Efros「Unpaired image−to−image translation using cycle−consistent adversarial networks」、CoRR、vol.abs/1703.10593、2017年、
[8]W.Yan、X.Shi、X.Yan、及び、L.Wang「Computing OpenSURF on OpenCL and general purpose GPU」International Journal of Advanced Robotic Systems、vol.10、2013年、
[9]T.B.Terriberry、L.M.French、及び、J.Helmsen「Gpu accelerating speeded−up robust features」Proceedings of 3DPVT、vol.8、2008年、355〜362ページ、
レンダリング画像を改善するために、識別可能なHOG記述子を導入し、パイプライン内でそれを用いる、[10]W.W.−C.Chiu、及び、M.Fritz「See the difference:Direct pre−image reconstruction and pose estimation by differentiating hog」2015 IEEE International Conference on Computer Vision(ICCV)、468〜476ページ、2015年、に示される。
II.関連研究
トポロジカル位置特定:見た目に大きな変化のある画像をマッチングするときには視点が大きく異なることを示し、続いて、クエリ画像の視点に合致する画像を合成するためにグーグルストリートビューパノラマを用いる、[12]A.Torii、R.Arandjelovi’c、J.Sivic、M.Okutomi、及び、T.Pajdla「24/7 place recognition by view synthesis」Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition、6月7〜12日号、2015年、1808〜1817ページ、のトポロジカル位置特定において、合成画像は使用されてきた。CNN特徴のための同時可視性グラフは、その時点で問い合わせされる、特に「中間」ビューを生成する画像の近傍のビューからの特徴を追加することによって、視点変化に対する不変性を強化する[13]S.Cascianelli、G.Costante、E.Bellocchio、P.Valigi、M.L.Fravolini、及び、T.A.Ciarfuglia「Robust visual semi−semantic loop closure detection by a covisibility graph and CNN features」Robotics and Autonomous Systems、vol.92、53〜65ページ、2017年、によって用いられた。[14]E.Johns、及び、G.−Z.Yang「Feature co−occurrence maps:Appearancebased localisation throughout the day」Robotics and Automation(ICRA)、2013 IEEE International Conference on IEEE、2013年、3212〜3218ページにおいて、1日の異なる時間に撮像されたそれぞれの画像に共通に生じる特徴は、照明条件に関わらないという観点から、何れの画像においても識別可能な特徴を含む固有の表現に結び付けられる。
季節をまたぐ画像における変化は、スーパーピクセルのボキャブラリーを用いて、場所認識のために用いられる[15]P.Neubert、N.Sunderhauf、及び、P.Protzel「Appearance change prediction for long−term navigation across seasons」Mobile Robots(ECMR)、2013 European Conference on IEEE、2013年、198〜203ページによって、予測された。冬のシーンが夏にどのように見えるか(逆もまた同様)は、まず、画像をスーパーピクセルに区分化し、それぞれのスーパーピクセルを、冬のボキャブラリー中のエントリーと関連付け、その後、そのスーパーピクセルを、ボキャブラリー間をマッピングする辞書を用いることによって、夏のボキャブラリーの対応するものに置換することによって、予測される。しかしながら、これらの合成ビューは、位置合わせ不良またはポイント特徴の劣化を受けるので、メトリックな(計量的な)位置特定は実現されない。
メトリック位置特定:メトリック位置特定の観点から、[16]P.M¨uhlfellner、M.B¨urki、M.Bosse、W.Derendarz、R.Philippsen、及び、P.Furgale「Summary Maps for Lifelong Visual Localization」Journal of Field Robotics、vol.33、no.5、561〜590ページ、2016年8月は、サンプリング手法及びランキング関数のフレームワークを用いて、オンライン位置特定の間に、マルチ経験マップから「概要マップ」を生成するステップを導入することによってマルチ経験アプローチを改良する。しかしながら、それらのアプローチは、様々な条件下でマッピングを実施する必要性を軽減しない。[17]G.Yu、及び、J.−M.Morel「Asift:An algorithm for fully affine invariant comparison」Image Processing On Line、vol.1、11〜38ページ、2011年において、著者は、アフィン変換を用いて、マッチングされる画像の異なるビューを生成し、これらの生成したビューにSIFTを適用して、視点の変化に対して改善されたロバスト性を示したが、見た目の変化には言及していない。
ビジュアルオドメトリの観点から、高ダイナミックレンジ画像マッチングは、画像の時間的に一貫性のある強調された表現を生成するようにLSTMディープニューラルネットワークを訓練することによって、[18]R.Gomez−Ojeda、Z.Zhang、J.Gonzalez−Jimenez、及び、D.Scaramuzza「Learning−based image enhancement for visual odometry in challenging hdr environments」arXivプレプリント、arXiv:1707.01274、2017年、において改善される。しかしながら、ビジュアルオドメトリは、光または見た目がほとんど変化しない時間的に近接する画像を扱う。
見た目の変換:合成画像技術は他の課題のために用いられてきたが、位置特定の場面において期待されており、[19]Y.Shih、S.Paris、F.Durand、及び、W.T.Freeman「Data−driven hallucination of different times of day from a single outdoor photo」ACM Trans.Graph、vol.32、no.6、200:1〜200:11ページ、2013年11月は、1日の異なる時間における画像の見た目に「幻覚を起こさせる」ために色変換技術において局所アフィン変換を用いる。[20]L.A.Gatys、A.S.Ecker、及び、M.Bethge「Image style transfer using convolutional neural networks」The IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2016年6月、において、画像はVGG−19ネットワークを用いてスタイル及びコンテンツ表現に分解され、その後、ホワイトノイズ画像から始まり、入力画像のコンテンツ表現とターゲット画像のスタイル表現とを対応させる画像の勾配降下を用いる合成が続く。
[7]は、XからYへマッピングするG、及び、YからXへマッピングするFの一対のCNN生成器を訓練することによる教師無しでの画像から画像への変換を明示し、XとF(G(X))との間に、Gの出力に関する識別器損失L、及び、Fの出力に関する識別器損失Lと共に、「サイクル一貫性」L1損失を適用する。同様にして、[21]M.Liu、T.Breuel、及び、J.Kautz「Unsupervised image−to−image translation networks」CoRR、vol.abs/1703.00848、2017年、は、位置合わせされていない画像を用いて画像変換するために、画像用の一対の変分オートエンコーダ−敵対的生成ネットワーク(VAE−GANs)を訓練するが、サイクル一貫性損失を用いず、代わりに、高レベル層の重みを部分的に共有し、VAE間の潜在空間符号化を共有することを選択する。著者は、セマンティックラベルと自然画像、及び、昼画像と夜画像、を含む異なるドメイン変換のペアについて訓練するが、いかなるトポロジカル、または、メトリック位置特定の適用も明示していない。我々は、我々が、見た目変換アプローチを用いたメトリック位置特定に最初に直接的に取り組んだと確信する。
[発明の概要]
本発明の第1の態様によれば、エンティティ(実在物)の位置特定に用いられるように構成される第1の訓練可能な変換を生成する電算化された方法が提供される。便宜上、本変換は、環境の第1表現を、環境の、異なる第2表現に変換するように構成される。本方法は、
a)変換された第1訓練表現を生成するように、第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理することと、
b)i)誤差信号を生成するように、第1訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
ii)誤差信号を生成するように、第1訓練表現に対応するが異なる光条件下である第2訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
のうちの少なくとも1つを実施することと、
c)第1の変換を訓練するために誤差信号を用いることと、
のうちの少なくとも1つを含んでもよい。
従来技術は、位置特定を改善するために、検出器、記述子、または、他の周知のプロセッサを改善しようとする。しかしながら、上記の態様を提供する実施形態は、代わりに訓練可能な変換を訓練することによって入力画像を修正する。このようにして、訓練可能な変換は、位置特定のためにより適切であり得る表現を生成するために用いられ得る。典型的に、このようにして処理される表現は、特徴マッチングに基づく任意の既存のシステムと共に、通常、変更を加えることなく用いられ得る。
全ての条件に対するマッピングは、多大な時間を必要とし、費用がかかり、ある場合においては不可能となり得るので、このような実施形態は、大幅に手間を省くはずである。また、悪条件下で収集されたデータの品質は、訓練された変換によって変換された表現と比較した場合に、より劣ることがあり、任意の生成されたマップにおける、より低い精度の原因となり得ることに留意すべきである。
実施形態は、異なる条件下における同じ場所での画像を合成するように設計された敵対的訓練ネットワークの一部として、識別可能な特徴検出器、及び/または、記述子パイプライン(または、任意の他の適切な周知の変換)を提供すると考えられてもよい。
いくつかの実施形態は、訓練の第1段階を提供してもよい。このような第1段階において、本方法は、ソース条件のトラバーサル(測量記録)の全て、及び、ターゲット条件のトラバーサルの少ない一部を選択することを含んでもよく、画像のいかなる位置合わせもすることなく、一対の訓練可能な変換を訓練してもよい。訓練は、以下では、サイクル一貫性損失、識別器損失、及び、特徴検出器及び記述子損失の何れかを含む誤差信号によって実施されてもよい。
いくつかの実施形態は、微調整段階と呼ばれ得るさらなる訓練段階を提供してもよい。さらなる訓練段階において、複数の十分に位置合わせされたターゲット及びソース表現のペアが選択される。訓練可能な変換は、その後、これらの十分に位置合わせされた表現を用いて変換されてもよく、一般的には、(特徴検出器、及び/または、識別器の出力のような)周知の変換にL1損失を用いる。十分に位置合わせされた表現は、メトリック6自由度グラウンドトゥルース(地上検証データ)に基づいて選択されてもよい。
いくつかの実施形態において、第1段階を提供することなく、単純にさらなる訓練段階を提供してもよい。他の実施形態は、第1段階のみを提供してもよく、または、第1及び第2段階の両方を提供してもよい。
便宜上、変換された第1訓練は、第2の訓練可能な変換を用いて変換され、第2の訓練可能な変換は、第1の訓練可能な変換の効果を反転し、合成第1訓練表現を生成するように訓練される。
いくつかの実施形態において、修正された第1訓練表現は、変換された第1訓練表現である。
いくつかの実施形態において、修正された第1訓練表現は、合成第1訓練表現である。
便宜上、誤差信号は、第2の訓練可能な変換を訓練するためにも用いられる。
通常、第1及び第2の訓練可能な変換は、ニューラルネットワークによって提供される。しかしながら、いくつかの実施形態において、遺伝的アルゴリズムなどの他の訓練可能な変換が用いられてもよい。
便宜上、周知のプロセスは、特徴記述子を生成する。
追加的に、または、代替的に、周知のプロセスは、第1及び第2表現内の特徴を検出する。
通常、訓練可能な変換の重みは、訓練開始前の値をゼロまたはその他に設定するために、訓練開始前に初期化される。
いくつかの実施形態において、表現が、第1、及び/または、第2の訓練可能な変換によって生成される表現の質の改善を可能にする合成表現であるかどうかを識別可能にするために、識別器を用いてもよい。
本方法は、第1訓練表現からの表現と対応するが異なる光条件下の表現である一組の第2訓練表現を用いる方法の訓練を繰り返すように構成されてもよい。
一実施形態において、このような方法は、エンティティの位置特定に用いられるように構成される第1及び第2の訓練可能な変換を生成する以下の方法を提供してもよく、変換は、環境の第1表現を、環境の、異なる第2表現に変換するように構成され、方法は、
a)変換された第1訓練表現を生成するように、第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理することと、
b)第1の訓練可能な変換を反転して合成第1訓練表現を生成するように構成される第2の訓練可能な変換を用いて、変換された第1訓練表現を処理することと、
c)誤差信号を生成するように、第1訓練表現及び合成第1訓練表現の両方について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するように構成されるように選択される、少なくとも1つの周知のプロセスを実行することと、
d)第1及び第2の訓練可能な変換のうちの少なくとも1つを訓練するために誤差信号を用いることと、
を含む。
本発明の第2の態様によれば、本発明の第1の態様の方法によって訓練された訓練可能な変換の使用であって、車両内で、該車両の位置を特定するために、または、少なくとも該車両の位置の特定を補助するために、格納された表現のライブラリに対する入力表現のマッチングにおいて行われる、訓練可能な変換の使用が提供される。
本発明の第3の態様によれば、車両の周囲の現在の表現を取得するように構成されるセンサを備える車両が提供される。車両は、周囲の格納された表現のライブラリへのアクセスを有する処理回路を備えてもよく、処理回路は、
a)i)変換を用いて現在の表現を変換すること、及び、格納された表現のライブラリから変換された画像を検索すること、
ii)ライブラリからの少なくともいくつかの格納された表現を変換すること、及び、変換された格納された表現から現在の表現を検索すること、
のうちの少なくとも1つと、
b)車両の位置特定のために、格納された表現のライブラリから検索で探し出された表現を用いること、
を実施するように構成され、
ステップa)で実施される変換は、変換された表現内の特徴を強調するように構成される。
訓練可能な変換が訓練されると、それらは合成表現を生成するために用いられてもよく、車両内で用いられてもよい。一実施形態において、合成画像は、その後、[3]に基づくステレオ位置特定パイプラインにおいて用いられる。このパイプラインは、まず、場所認識を実施し、車両のライブフレームと同一の場所からのものである可能性が最も高い候補フレームを出力し、次に、ライブフレームと、場所認識の間に取得されたフレームとの間のメトリックポーズを算出するためにキーポイント特徴マッチングを用いる。
当業者は、変換された表現への参照は、変換を経た表現を意味するよう意図されていることを理解するであろう。本発明の態様の観点から、変換された画像は、修正された画像または合成画像であってもよい。
本発明の第4の態様によれば、環境の第1表現を、環境の、異なる第2表現に変換するように構成される第1の訓練可能な変換を訓練するように構成されるシステムが提供される。システムは、
a)変換された第1訓練表現を生成するように、第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理することと、
b)i)誤差信号を生成するように、第1訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
ii)誤差信号を生成するように、第1訓練表現に対応するが異なる光条件下である第2訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
のうちの少なくとも1つを実施することと、
c)第1の変換を訓練するために誤差信号を用いることと、
のうちの少なくとも1つを実施するようにプログラムされる処理回路を備えてもよい。
本発明の第5の態様によれば、コンピュータによって読み取られる場合に、機械に、
a)変換された第1訓練表現を生成するように、第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理することと、
b)i)誤差信号を生成するように、第1訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
ii)誤差信号を生成するように、第1訓練表現に対応するが異なる光条件下である第2訓練表現、及び、修正された第1訓練表現について、第1の訓練可能な変換が第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
のうちの少なくとも1つを実施することと、
c)第1の変換を訓練するために誤差信号を用いることと、
のうちの1つ以上を実施させる命令を含む機械可読媒体が提供される。
本発明の第6の態様によれば、車両の周囲の現在の表現を取得するように構成される車両のセンサを用いること、を含む車両の位置特定の方法が提供され、方法は、
a)i)変換を用いて現在の表現を変換すること、及び、格納された表現のライブラリから変換された画像を検索すること、
ii)ライブラリからの少なくともいくつかの格納された表現を変換すること、及び、変換された格納された表現から現在の表現を検索すること、
のうちの少なくとも1つを実施することと、
b)車両の位置特定のために、格納された表現のライブラリから検索で探し出された表現を用いることと、
のうちの1つ以上を含み、
ステップa)で実施される変換は、変換された表現内の特徴を強調するように構成される。
本発明の第7の態様によれば、コンピュータによって読み取られる場合に、車両上のコンピュータに、
a)車両の周囲の現在の表現を取得するように構成される車両のセンサを使用することと、
b)i)変換を用いて現在の表現を変換すること、及び、格納された表現のライブラリから変換された画像を検索すること、
ii)ライブラリからの少なくともいくつかの格納された表現を変換すること、及び、変換された格納された表現から現在の表現を検索すること、
のうちの少なくとも1つを実施することと、
c)車両の位置特定のために、格納された表現のライブラリから検索で探し出された表現を使用することと、
のうちの少なくとも1つを実施させる命令を含む機械可読媒体であって、
ステップa)で実施される変換は、変換された表現内の特徴を強調するように構成される、機械可読媒体が提供される。
上述の本発明の態様の何れかにおいて参照される機械可読媒体は、CDROM、DVD ROM/RAM(−R/−RW、または、+R/+RWを含む)、ハードディスクドライブ、メモリ(USBドライブ、SCカード、コンパクトフラッシュカードなどを含む)、伝送信号(インターネットダウンロード、FTPファイル転送などを含む)、ワイヤ、などの何れかであってもよい。
上述の本発明の態様の何れかに関連して説明される特徴は、必要に応じて変更を加えて、本発明の他の態様の何れかに適用されてもよい。
[本発明の実施形態の簡単な説明]
実施形態の具体化を概略的に示す。 見た目をソースからターゲット表現に変換し、逆もまた同様にするために、表現の登録を必要とすることなく、一対の生成器を訓練するように構成される、第1段階にて用いられるアーキテクチャを概略的に示す。 異なる条件間の特徴検出器と記述子層との差を最小にするために、十分に位置合わせされた訓練表現のサブセットに関する訓練プロセスの第2段階にて用いられるアーキテクチャを概略的に示す。 Haar応答の積み重ねを示す。 内部アーキテクチャを概略的に示す。 入力画像(左側の画像)から生成された画像(右側の画像)を図示する。 位置特定誤差を強調し、リアルの昼からリアルの夜への位置特定と、リアルの昼から合成の昼への位置特定との対比を示す。 移動距離の関数として、リアルの昼とリアルの夜との位置特定、及び、リアルの昼と合成の夜との位置特定に関するインライア数を示す。 位置特定に障害が発生した場合の推測航法の確率を距離の関数として与えるグラフを示す。 見た目の変換を用いた異なる条件間の特徴に基づく位置特定の例を示し、4枚一組の画像のそれぞれの上の2つの画像は、リアル画像間のマッチングを示し、下の2つの画像は、同じリアル画像と、合成画像との間のマッチングを示す(ここで、水平線は、インライアの合致を示す)。 方法を説明するフローチャートを示す。
図1は、後述の実施形態によって訓練される訓練可能な変換に対して配置される車両を説明する。それゆえに、図1は、後述の訓練プロセスの出力、訓練可能な変換を利用するシステムを説明する。
図1は、センサ102を搭載した車両100を示す。ここでセンサは単眼カメラであるが、例えば、立体カメラ対、LiDARセンサなどの任意の他の適切なセンサであってもよい。
センサ102は、その場所をモニタし、モニタリングに基づいてデータを生成し、それにより、車両の周囲の検知されたシーンに関するデータを提供する。
図1に示される実施形態において、車両100は道路108に沿って移動し、センサ100は、車両100が移動するにつれて、その場所(例えば、建物110、道路108など)を撮像する。この実施形態において、車両102はまた、センサからデータを取り込み、その後、センサ102によって生成されたデータ(この場合においては画像であるが、他の表現もあり得る)を処理するように構成される処理回路112も備える。こうして、処理回路は、センサ102からデータを取り込む。説明される実施形態において、処理回路112は、車両上に格納装置114も備えるか、または、車両上の格納装置114にアクセスできる。
車両は、上述の参考文献[3]に説明されるように、位置特定パイプラインを採用してもよい。論文[3]は、参照することにより本願明細書に援用され、当業者は、この論文を読み、特に、位置特定パイプラインを参照するように案内される。
図の下部は、典型的な処理回路112に見られ得る構成要素を示す。処理ユニット118が設けられてもよく、これは、例えばI5、I7プロセッサなどのIntel(登録商標)X86プロセッサであってもよい。処理ユニット118は、システムバス120を介して、I/Oサブシステム122(及び、それにより外部のネットワーク、ディスプレイなど)、及び、メモリ124と通信するように構成される。
当業者は、メモリ124が、揮発性メモリ、ハードディスクドライブ、不揮発性メモリ、他で説明される任意の機械可読媒体などを含む様々な構成要素によって提供され得ることを理解するであろう。実際に、メモリ124は、処理ユニット118の制御下の複数の構成要素を備えてもよい。
しかしながら、典型的には、メモリ124は、実行されたときに動作を実施するプログラムコードを格納するように構成されるプログラム格納部126、及び、一時的に、及び/または、永久的にデータを格納するために用いられ得るデータ格納部128を提供する。
他の実施形態において、処理回路112の少なくとも一部は、車両から離れて設けられてもよい。それにより、センサ102によって生成されるデータの処理は、車両100外で、または、部分的に車両100上、且つ、部分的に車両100外で実施されることが考え得る。実施形態において、処理回路は、車両の上や外の両方に、ひいては、ネットワーク接続(例えば、3G UMTS(ユニバーサル移動体通信システム)、4G(例えば、LTE−ロングタームエボリューションなど)、WiFi(IEEE802.11)、WiMAXなど)上や外の両方に設けられる。
道路に沿って移動する車両100を参照することは都合が良いが、当業者は、本発明の実施形態が陸上車に限定される必要はなく、例えば、船、ボートなどの水上船舶、または、実際に、例えば飛行機などの空輸機であり得ることを理解するであろう。実際に、本方法は、例えば、ロボット、または、ユーザによって運ばれる移動体装置など車両以外のエンティティによって実施され得るであろう。
さらに、以下の記述において、センサ100によって生成される画像データを参照することは都合が良いが、本発明の他の実施形態は、他の種類のデータを生成してもよい。それゆえに、説明される実施形態は、画像、つまり、環境の写真を利用する。しかしながら、他の種類の環境表現も適切であり得ると考えられる。例えば、LiDARスキャンが、画像の代わりに用いられてもよい。それゆえに、以下における画像への言及は、他の種類のデータをカバーするものと考えるべきである。
説明される実施形態は、画像を変換するためにニューラルネットワーク(NN)を訓練する。ニューラルネットワークは、訓練可能な変換の例を提供する。訓練されたニューラルネットワークは、その後、以下に説明されるように、車両などの位置特定を支援するために用いられ得る画像を生成するために用いられ得る。
説明される実施形態は、[22]H.Bay、T.Tuytelaars、及び、L.Van Gool「Surf:Speeded up robust features」Computer vision−ECCV 2006、404〜417ページ,2006年、のSURF特徴を用いる特徴検出、及び、マッチングパイプラインを用い、2段階の訓練手法を採用する。他の実施形態は、説明される実施形態の両方の段階を用いなくてもよい。他の実施形態が第1段階のみ、または、第2段階のみを用いることは可能である。しかしながら、両方の段階を共に用いることは、説明される実施形態によって生成される合成画像の品質において優位性を示すことが分かっている。
第1段階において、[7]と同様に、サイクル一貫性アーキテクチャが、入力ソース画像をターゲット条件の合成画像に変換するように生成器を訓練するために用いられる。生成器は、訓練フェーズの間に訓練され、そこに入力される画像(または他の表現)を変換するように構成されるので、訓練可能な変換であると考えられるであろう。第1生成器によって生成される合成画像は、続いて(同様に訓練可能な変換であると考えられるであろう)第2生成器によって、逆方向に繰り返されるプロセスにて、初期状態を有する合成画像に再び変換される。
第2段階において、画像生成器は、十分に位置合わせされたデータセットのサブセットを用いて、独立して微調整される。
第1段階において、図2に示されるように、2つの(つまり、第1及び第2の訓練可能な変換)生成器、条件Aを条件Bに変換する第1GAB、及び、条件Bを条件Aに変換する第2GBAは、対にされていないソース及びターゲット画像の収集物を用いて訓練される。GBAはGABの効果を反転する方法を学習するように構成/訓練される。GAB及びGBAは、それぞれ、訓練可能な変換であると考えられるであろう。識別器損失が合成画像に適用され、L1損失が合成画像と入力画像との間で適用される。さらに、SURF検出器応答マップ(つまり、周知のプロセスの出力)が合成及び入力画像について算出され、それらの間でL1損失を適用し、同様に、画素毎の高密度SURF記述子マップ(つまり、周知のプロセスの出力)を合成及び入力画像について算出し、それらの間でL1損失を適用するが、これらの方法は、以下のIII−A及びIII−Bにてさらに説明される。
このように、第1段階が第1訓練表現200を取得し(ステップ1100)、それを第1の訓練可能な変換(ここではGAB)を用いて変換することが分かる。GABの出力は、第1訓練表現の修正版202であると考えられるであろう。
次に、第1訓練表現の修正版202は、第2の訓練可能な変換(ここではGBA)に入力され、第1訓練表現の合成版204が生成される。
その後、説明される実施形態において、記述子マップ及び検出器応答マップの両方が、第1訓練画像206と、合成版208とのそれぞれに対して計算され(つまり、周知のプロセスが実行され)、誤差信号210を生成するために用いられる。
ここで、ソース画像は、第1訓練表現であると考えられてもよく、ターゲット画像は、第2訓練表現であると考えられてもよい。ここで説明される第1段階において、第1訓練表現(ソース画像)は、第2訓練表現(ターゲット画像)と対になっていないが、第2訓練表現は、第1表現と類似の表現に対応する。
第2段階において、GAB及びGBA(つまり、訓練可能な変換)は、昼夜の画像が位置合わせされた少数のデータセット(つまり、各第1表現に対して提供される第2の十分に位置合わせされた表現を有する、第1及び第2表現)を用いて別途訓練される。画素が位置合わせされた画像の使用は、いかなる明確な画素毎のマッピングも伴わず、画像分布を位置合わせする方法を学習するだけの第1段階で用いられた教師なしの方法によって取り込まれなかったものであり得る、ある特徴変換を、生成器が学習することを可能にする。このとき、L1損失は、位置合わせされたターゲット画像及び合成画像について算出されるSURF検出器応答マップ(つまり、検出器応答マップは、周知のプロセスの出力である)間、及び、位置合わせされたターゲット画像及び合成画像について算出される高密度記述子応答マップ(つまり、記述子応答マップ)間で適用される。第2段階のアーキテクチャは、図3に示される。
次に、第2の微調整段階は、第1訓練表現に対応する第2訓練表現を取得することと考えられてもよい。ここで、第1及び第2訓練表現は、十分に位置合わせされる。
訓練可能な変換は(GABとGBAのそれぞれは順に)、その後、修正された訓練表現を生成するように、第1訓練表現を変換することによって訓練される。次に、SURF検出器マップ及び記述子マップが、修正された第1訓練表現及び第2訓練表現の両方について生成され、つまり、周知のプロセスが、修正された第1訓練表現及び第2訓練表現のそれぞれに対して実施される。その後、訓練可能な変換を訓練するために、記述子、及び/または、検出器マップを比較することによって誤差信号が生成される。
説明される実施形態において、第1段階に続いて第2微調整段階が続く。しかしながら、いくつかの実施形態は、第1段階のみ、または、第2段階のみを実施し得ることも可能である。
上の説明において、記述子マップ及び検出器マップの生成は、画像に対して実行する周知のプロセスの例において用いられる。他の実施形態は、第1訓練画像及び合成画像が、画像分類ネットワークに入力され、層のうちの1つにおける活性化を比較する、知覚的損失のような他の周知のプロセスを用いてもよい。
生成器アーキテクチャは、[23]R.Guerrero、C.Qin、O.Oktay、C.Bowles、L.Chen、R.Joules、R.Wolz、M.Valdes−Hernandez、D.Dickie、J.Wardlaw等「White matter hyperintensity and stroke lesion segmentation and differentiation using convolutional neural networks」arXivプレプリント、arXiv:1706.00935、2017年、のUResNetに基づき、これは、[24]O.Ronneberger、P.Fischer、及び、T.Brox「U−net:Convolutional networks for biomedical image segmentation」International Conference on Medical Image Computing and Computer−Assisted Intervention、Springer、2015年、234〜241ページのUNetを、[25]K.He、X.Zhang、S.Ren、及び、J.Sun「Deep residual learning for image recognition」The IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2016年6月モジュールのResidual(ResNet)と組み合せている。生成器の内部アーキテクチャは、図5に示される。
説明される実施形態において、識別器アーキテクチャは、5層のCNNである。最初の4層は、インスタンス正規化及びleaky ReLU(Rectified Linear Unit)が続く畳み込み演算を有し、最終層は、画像空間内の受容野をリアルまたはフェイクに分類するH/8×W/8マップを出力する畳み込み演算であり、H及びWは、入力画像の高さ及び幅を示す。
より具体的には、このアーキテクチャは、ストライド2の3つの下畳み込み層500,502,504、9つのResNetブロック518、及び、分数ストライド1/2の3つの上畳み込み層506,508,510を、対応する下及び上畳み込み層の間にスキップ接続512,514,516を有して採用する。それぞれの畳み込み層は、層(506〜516)のシェーディングによって示されるように、インスタンス正規化及びleaky ReLUが続く畳み込み演算からなる。それぞれのResNetブロック518は、畳み込み、続いて、インスタンス正規化、leaky ReLU、第2畳み込み、インスタンス正規化、及び、得られる出力に入力されるオリジナルブロックの加算、からなる。
AB及びGBAの両方に関する生成器の結果の例は、様々な異なる条件のペアに関して図10に示される。
A.SURF検出器応答マップ
SURF検出器応答マップは、上述の[22]にて説明されるヘッセ行列式の独自な近似方法の畳み込み版を用いて得られる。それぞれのスケールに関して、我々は、X、Y及び斜め方向のそれぞれについてガウシアン
Figure 2021510823
の2階微分を近似するために、3つのボックスフィルタを生成する。我々は、これらのフィルタを画像Iで畳み込み、応答マップLxx(σ)、Lyy(σ)、及び、Lxy(σ)をもたらす。
アダマール積を用いると、ヘッセ行列式の近似行列は、
Figure 2021510823
である。
高密度SURF記述子
OpenSURF([26]C.Evans「Notes on the OpenSURF Library」ブリストル大学Tech Rep CSTR09001 1月、no.1、25ページ、2009年)において用いられる方法論を適合させ、画素毎の高密度SURF記述子を構築するための高速の畳み込み方法が採用され、これを通して勾配が渡され得る。N個の選択されたスケールのそれぞれのスケールに関して、我々は、
・SURF記述子を構築するために用いられる近傍画素の81の相対オフセットに関する検索テーブル
・81のオフセットのスケール固有のガウシアン重みに関するNx81マトリクス
・16の近傍のガウシアン重みに関する長さ16の列ベクトル
・X及びYの両方向に関するHAAR−likeボックスフィルタ
を予め計算する。
入力画像は、その後、HAARボックスフィルタにて畳み込まれ、ウェーブレット応答が保存される。選択されるスケールのそれぞれに関して、我々は、81のウェーブレット応答の複製を積み重ね、スケール固有のガウシアン重みをそれらに乗じる。
その後、SURF記述子を成す16の近傍画素のそれぞれに関し、我々は、
・オフセット検索テーブル(例えば、400a、400bなどのオフセット参照)により、積み重ねられた複製を、X及びY方向に沿ってオフセットし、
・近傍固有のガウシアン重みを乗算し、
・積み重ね方向に沿って、生値及び絶対値の両方をX及びY方向のそれぞれに対して加算して4つのマトリクスをもたらし、
・それぞれのマトリクスと、その近傍固有のガウシアン重みLUTとを要素ごとに乗算し、
・4つの結果として生じるマトリクスを積み重ねる。
最後に、結果として生じるH×Wサイズマトリクスの64層の積み重ねのそれぞれの行が正規化され、ここでH及びWは入力画像の高さ及び幅である。この積み重ねは、それぞれのスケールに関する画素毎の高密度SURF記述子を示す。積み重ね及び加算演算は、図4に示される。
b)記述子損失
このように、説明される実施形態は、記述子損失を利用する。このような記述子損失LDescは、訓練可能な変換(つまり、生成器)の訓練をガイドすると考えられてもよく、それゆえに、初期条件下の特定のシーンを示す入力された第1表現から得られる変換された第1表現の領域またはサブ領域成分の記述子は、ターゲット条件下の特定のシーンを示す第2表現の領域またはサブ領域成分の記述子と可能な限り厳密に合致する。訓練可能な変換の訓練フェーズの間、第1及び第2表現は、一般的に、訓練セットからの表現で与えられる。(車両100上で利用されるときのような)実行時間の間、第1表現は、一般的に、センサ102からの表現で与えられる。
代替的に、または、追加的に、初期条件下の特定のシーンを示す入力表現から得られる変換された表現の領域またはサブ領域成分の記述子の分布は、ターゲット条件下の特定のシーンを示す画像の領域またはサブ領域成分の記述子の分布と可能な限り厳密に合致する。
ここで、記述子は、領域またはサブ域成分の強度、領域またはサブ領域成分の強度の線形変換、領域またはサブ領域成分の強度の非線形変換を示してもよい。
a)検出器損失
さらに、説明される実施形態はまた検出器損失も利用する。このような検出器損失は、訓練可能な変換の訓練をガイドすると考えられてもよく、それゆえに、初期条件下の特定のシーンを示す入力画像から得られる変換された画像の関心領域またはサブ領域成分の位置は、ターゲット条件下の特定のシーンを示す画像の関心領域またはサブ領域成分の位置と可能な限り厳密に合致する。
代替的に、または、追加的に、検出器は、初期条件下で特定のシーンを示す入力画像から得られる変換された画像の関心領域またはサブ領域成分の位置の分布が、ターゲット条件下の特定のシーンを示す画像の関心領域またはサブ領域成分の位置の分布と可能な限り厳密に合致するようにされている。
ここで、関心領域またはサブ領域成分は、領域にわたるそれらの強度/振幅の差、または、分散、または、共通の尺度を用いて定量化可能な情報コンテンツによって分類されてもよい。
ここで、変換された画像は、修正、及び/または、合成された画像のような、訓練可能な変換の出力を含む。
昼−夜マッチングのための特徴検出器及び記述子は、大部分の特徴が、小さなスケール(<10)で検出されることを示す、[27]H.Zhou、T.Sattler、及び、D.W.Jacobs「Evaluating local features for day−night matcing」Computer Vision−ECCV 2016 Workshops−アムステルダム、オランダ、10月8〜10日及び15〜16日、2016年、Proceedings、パートIII、2016年、724〜736ページ、において評価されている。実験に続いて、説明される本実施形態は、訓練プロセスの高速化のために最初の5スケールに対してSURF損失タームを算出し、このことが、性能の大きな損失を引き起こさないことが判明した。より少ない近傍画素内では、異なる条件の画像間の見た目の変化は、より多い近傍画素と比較してより均一になり得ることがこれに関する説明となり得るだろう。しかしながら、当業者は、他の実施形態が、精度がさらに向上し得るより大きなスケールに対して損失タームを算出してもよいが、一般的に、処理時間が増加するという不利益があることを理解するであろう。さらに、他の実施形態は、5スケールより小さなスケールで算出してもよい。
B.損失
[7]と同様に、説明される実施形態は、識別器を通してそれぞれの生成器の出力に、つまり、識別器Dを通して生成器GABの出力に、識別器Dを通して、生成器GBAの出力に、敵対的な損失を適用する。この損失は、
Figure 2021510823
Figure 2021510823
のように定式化される。
敵対的オブジェクティブLadvは、
Figure 2021510823
となる。
識別器は、以下の損失を最小にするように訓練される。
Figure 2021510823
Figure 2021510823
識別器オブジェクティブLdiscは、
Figure 2021510823
となる。
サイクル一貫性損失[7]が、入力画像と合成画像との間、及び、SURF検出器Det(・)と、これらの2つの画像から算出される高密度記述子Desc(・)マップとの間に適用される。
Figure 2021510823
Figure 2021510823
Figure 2021510823
完全な生成器オブジェクティブLgenは、
Figure 2021510823
となる。
それぞれのλ項は、それぞれの損失成分の影響に重み付けするハイパーパラメータである。ターゲット画像が、入力及び合成画像と位置合わせされる微調整段階に関して、損失は、
Figure 2021510823
Figure 2021510823
となる。
微調整オブジェクティブLfinetuneは、
Figure 2021510823
となる。
説明される実施形態は、
Figure 2021510823
のような、生成器関数GAB、GBAを算出する。
説明される実施形態は、上述の損失を、以下のように最小にするように構成される。
データは、最大で1年分収集され、5つの条件ぺア:昼−夜、昼−雪、昼−夜明け、昼−晴れ、及び、昼−雨を提供する、オックスフォードロボットカーデータセット[11]W.Maddern、G.Pascoe、C.Linegar、及び、P.Newman「1 Year,1000km:The Oxford RobotCar Dataset」The International Journal of Robotics Research(IJRR)、vol.36、no.1、3〜15ページ、2017年、からの6つのトラバーサルから用いられた。それぞれのトラバーサルについて、RTK−GPSグラウンドトゥルースはフィルタ処理され、並進標準偏差で25cmより大きいデータ点は何れも破棄された。
それぞれの条件ペアに関する訓練データセットは、十分な量のマッピングデータが獲得できない場合をシミュレートするために、昼のトラバーサル全体、及び、ペアの条件のおよそ20%を示す部分から生成された。ペアの条件の残りの80%は、合成画像の性能を評価するために用いられた。
第2訓練段階で用いられる十分に位置合わせされたデータセットは、それらの間に視点回転が全く存在しないか、または、ごくわずかしか存在しない画像のペアを選択することによって生成された。並進または回転ずれの無い画像ペアはそのまま用いられ、微小な回転差を有する画像については、ターゲット画像は、RTK−GPSグラウンドトゥルースによって提供される既知のポーズを用いて、ソース画像のフレームにアフィンワープされた。
A.訓練
サイクル一貫性段階(つまり、第1段階)のため、[7]に類似のネットワーク訓練レジメンが採用される。それぞれの反復について、識別器は、Ldiscを最小化する目標を有する以前の反復からのリアルターゲットドメイン画像及び合成画像で訓練され、その後、生成器が、Lgenを最小にするように、入力画像で訓練される。具体的には、説明される実施形態は、Adamソルバ([28]D.P.Kingma、及び、J.Ba「Adam:A method for stochastic optimization」CoRR、vol.abs/1412.6980、2014年)を、0.0002に設定される初期学習率、バッチサイズ1、λrec=8、λdet=2、λdesc=2、及び、λadv=1にて用いた。当業者は、他のソルバが利用できることを理解するであろう。
微調整段階(つまり、第2段階)については、少数の十分に位置合わせされたデータセットのサブセットが、訓練のために用いられ、同一の学習パラメータを用いてLfinetuneを最小にするように構成される。
B.位置特定
一旦、パラメータが上述の方法によって学習されると、車両などの位置特定のためにパラメータを用いることが可能となる。
ここで説明される一実施形態は、昼マップフレームをターゲット条件フレームに変換するように、訓練された生成器GABを用い、5種類のターゲット条件フレームを昼条件フレームに変換するように、訓練された生成器GBAを用いた。
位置特定の観点から合成画像を評価するために、実施形態は、RANSAC([30]M.A.Fischler、及び、R.C.Bolles「Random sample consensus:a paradigm for model fitting with applications to image analysis and automated cartography」Communications of the ACM、vol.24、no.6、381〜395ページ、1981年6月)を用いる幾何学的な検証段階が続く、特徴に基づくトポロジー的位置特定([29]M.Cummins、及び、P.Newman「Appearance−only slam at large scale with fab−map 2.0」The International Journal of Robotics Research、vol.30、no.9、1100〜1123ページ、2011年)と、インライア再投影誤差を最小にするための非線形最適化と、を実行する[3]の体験型ナビゲーションシステムを用いた。
別のマップとして合成フレームを追加することとは対照的に、特徴の対応は、リアル画像とリアル画像とのマッチング、及び、合成画像とリアル画像とのマッチングから蓄積され、このことは、より安定的で精度の高い解決策につながることが判明した。
説明される実施形態において、生成器は、Nvidia Titan X GPU上で、1280×960の解像度の画像に対しておよそ1Hzで動作し、640×480の解像度の画像に対しておよそ3Hzで動作する。当業者は、これらの周波数は、異なるプロセッサ(つまり、GPU)が用いられる場合に、変わり得ると理解するであろう。
V.結果
A.定量的結果
以下に、結果が、位置特定の頻度及び品質の両方を考慮して示される。
Figure 2021510823
表1−様々なネットワークアーキテクチャに対するメトリック位置特定
表1は、昼−夜位置特定の場合における、RTK−GPSグラウンドトゥルースに対する二乗平均平方根並進誤差(RMSE(m))及び回転誤差(RMSE(O))と、移動距離のパーセンテージとしての累積有効特定位置と、を比較する。結果は、原画像、[7]のRGBのみ実施にて得られる画像、及び、上述の実施形態の第1段階及び第2段階を用いて得られた画像に関して示される。結果は、第1段階のモデルから生成される合成画像を用いる位置特定の精度の向上、及び、第2段階の微調整モデルからのさらなる精度の向上を示す。
Figure 2021510823
表2−条件間のメトリック位置特定性能
表2は、第1段階の訓練がされたモデルを用いて、昼へと変換された幅広い条件の位置特定結果を示し、単一の条件に対して位置特定する場合の方法の性能を説明する。すべての場合において、位置特定率は(大抵は2倍に)改善され、メトリック誤差は削減される。
図7は、グラウンドトゥルースに対する並進及び回転誤差の分布を与える2つのヒストグラムを示し、それぞれのヒストグラムは、昼−夜位置特定の場合における、原画像のマッチングと、我々の最良の解決策に関するマッチングと、を示す。原画像及び[7]のRGBのみの実施によって作成される画像と比較して、位置特定の精度において、全体として大幅な改善が認められた。
ヒストグラムを生成するために、絶対値で5メートルより大きい並進外れ値は、−5及び+5メートルのビンに累積されている。絶対値で30度より大きい回転外れ値は、−30度及び+30度のビンに累積されている。
図8は、昼−夜位置特定の場合における、原画像、及び、我々の最良の解決策に関して、合致インライア数を移動距離の関数として示す。リアル画像とリアル画像とのマッチングと比較して、リアルと合成のマッチングに関するインライア数の大幅な増加が認められた。
図9は、位置特定に障害が発生した場合のVO(ビジュアルオドメトリ)ベースの開ループにおける移動確率を移動距離の関数として示す。上述の実施形態を用いて生成された合成画像を用いる場合、大幅な改善が認められた。なお、おそらく意外にも、[7]のRGBのみの実施を用いて生成された画像は、ロバスト性において大きな改善をもたらさなかった。
なお、図9から、合成画像を用いた場合、昼−夜位置特定のロバスト性において、大幅な向上が認められた。マップは昼間から、入力画像は夜で図9を生成する。
B.質的な結果
図10は、オックスフォード全体にわたる一連の場所における質的な結果を示し、ここで、原画像間のマッチングは、失敗したか、または、極めて少数のインライアをもたらした。画像ペア内のマッチングは、画像ペア内で対応するポイント間の水平線によって示される。本図は、リアル画像の間(上)、及び、リアル画像と合成画像との間(下)の対応を示す。ウィンドウフレームなどの特徴検出器及び記述子によって説明される詳細を再構築する質的に良好な仕事を、(構築による)学習後の画像変換がどのように行うかを示す。
VI.結論
悪条件下でロバストな位置特定を提供するシステムが示される。本システムは、(例えば、車両または他のエンティティがアクセス可能な画像ライブラリ上の)格納された画像とのポイント毎のマッチングを強調するように変換された入力画像を取得すると考えられるであろう。説明される実施形態において、訓練可能な変換は、明確に、属性特徴検出及び記述段階からなる一方で、サイクリックGANを用いて学習する。説明される実施形態は、特徴検出器及び記述子応答を利用する。
マッピングに費用がかかり、時間を要し、または、困難である状況をエミュレートする少量のターゲット訓練データを用いる場合、説明される実施形態は、ベースラインと比較して場所認識及びメトリック位置特定が一貫して改善される、結果として生じる合成画像を生成した。それゆえに、このような実施形態は、多様な条件下のマッピングの費用及び不便さを、おそらく大幅に削減するだけでなく、我々の方法と併用して用いられる場合に、生成されるマップの有効性を改善するであろう。
さらに、説明される実施形態は、一般的に、オフラインまたはオンラインの何れでも、位置特定パイプラインの外側の画像ストリームを処理するように構成され、従って、多数の既存システムのフロントエンドとして用いられるであろう。

Claims (16)

  1. エンティティの位置特定に用いられるように構成される第1の訓練可能な変換を生成する電算化された方法であって、前記変換は、環境の第1表現を、環境の、異なる第2表現に変換するように構成され、
    a)変換された第1訓練表現を生成するように、前記第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理することと、
    b)i)誤差信号を生成するように、前記第1訓練表現、及び、修正された前記第1訓練表現について、前記第1の訓練可能な変換が前記第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
    ii)誤差信号を生成するように、前記第1訓練表現に対応するが異なる光条件下である第2訓練表現、及び、修正された前記第1訓練表現について、前記第1の訓練可能な変換が前記第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
    のうちの少なくとも1つを実施することと、
    c)前記第1の変換を訓練するために前記誤差信号を用いることと、
    を含む方法。
  2. 変換された前記第1訓練表現は、第2の訓練可能な変換を用いて変換され、前記第2の訓練可能な変換は、前記第1の訓練可能な変換の効果を反転し、合成第1訓練表現を生成するように訓練される、請求項1に記載の方法。
  3. 修正された前記第1訓練表現は、前記合成第1訓練表現である、請求項2に記載の方法。
  4. 前記誤差信号は、前記第2の訓練可能な変換を訓練するためにも用いられる、請求項2または請求項3に記載の方法。
  5. 前記第1、及び/または、第2の訓練可能な変換は、ニューラルネットワークによって提供される、請求項2〜4の何れか一項に記載の方法。
  6. 前記周知のプロセスは、特徴記述子を生成する、請求項1〜5の何れか一項に記載の方法。
  7. 前記周知のプロセスは、前記第1及び第2表現内の特徴を検出する、請求項1〜6の何れか一項に記載の方法。
  8. 前記訓練可能な変換の重みは、訓練開始前に初期化される、請求項1〜7の何れか一項に記載の方法。
  9. 表現が合成表現であるかどうかを識別可能にするために識別器を訓練する、請求項1〜8の何れか一項に記載の方法。
  10. 前記第1訓練表現からの表現に対応するが異なる光条件下の表現である一組の第2訓練表現を用いる方法の訓練を繰り返す、請求項1〜9の何れか一項に記載の方法。
  11. 請求項1〜10の何れか一項の方法によって訓練された訓練可能な変換の使用であって、車両内で、該車両の位置を特定するために、または、少なくとも該車両の位置の特定を補助するために、格納された表現のライブラリに対する入力表現のマッチングにおいて行われる、訓練可能な変換の使用。
  12. 車両の周囲の現在の表現を取得するように構成されるセンサを備える車両であって、前記車両は、前記周囲の格納された表現のライブラリへのアクセスを有する処理回路をさらに備え、前記処理回路は、
    a)i)変換を用いて前記現在の表現を変換すること、及び、格納された表現の前記ライブラリから前記変換された画像を検索すること、
    ii)前記ライブラリからの少なくともいくつかの前記格納された表現を変換すること、及び、変換された前記格納された表現から前記現在の表現を検索すること、
    のうちの少なくとも1つと、
    b)前記車両の位置特定のために、前記格納された表現の前記ライブラリから検索で探し出された表現を用いることと、
    を実施するように構成され、
    ステップa)で実施される前記変換は、前記変換された表現内の特徴を強調するように構成される、車両。
  13. 環境の第1表現を、環境の、異なる第2表現に変換するよう構成される第1の訓練可能な変換を訓練するように構成されるシステムであって、
    a)変換された第1訓練表現を生成するように、前記第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理し、
    b)i)誤差信号を生成するように、前記第1訓練表現、及び、修正された前記第1訓練表現について、前記第1の訓練可能な変換が前記第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
    ii)誤差信号を生成するように、前記第1訓練表現に対応するが異なる光条件下である第2訓練表現、及び、修正された前記第1訓練表現について、前記第1の訓練可能な変換が前記第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
    のうちの少なくとも1つを実施し、
    c)前記第1の変換を訓練するために前記誤差信号を用いる、
    ようにプログラムされる処理回路を備えるシステム。
  14. コンピュータによって読み取られる場合に、機械に、
    a)変換された第1訓練表現を生成するように、第1の訓練可能な変換を用いて、環境の複数の第1訓練表現を処理することと、
    b)i)誤差信号を生成するように、前記第1訓練表現、及び、修正された前記第1訓練表現について、前記第1の訓練可能な変換が前記第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
    ii)誤差信号を生成するように、前記第1訓練表現に対応するが異なる光条件下である第2訓練表現、及び、修正された前記第1訓練表現について、前記第1の訓練可能な変換が前記第1訓練表現内の特徴を強調するよう構成されるように選択される、少なくとも1つの周知のプロセスを実行すること、
    のうちの少なくとも1つを実施することと、
    c)前記第1の変換を訓練するために前記誤差信号を用いることと、
    を実施させる命令を含む機械可読媒体。
  15. 車両の周囲の現在の表現を取得するように構成される車両のセンサを用いること、を含む車両の位置特定の方法であって、
    a)i)変換を用いて前記現在の表現を変換すること、及び、格納された表現のライブラリから前記変換された画像を検索すること、
    ii)前記ライブラリからの少なくともいくつかの前記格納された表現を変換すること、及び、変換された前記格納された表現から前記現在の表現を検索すること、
    のうちの少なくとも1つを実施することと、
    b)前記車両の位置特定のために、前記格納された表現の前記ライブラリから検索で探し出された表現を用いることと、
    を含む方法であって、
    ステップa)で実施される前記変換は、前記変換された表現内の特徴を強調するように構成される、方法。
  16. コンピュータによって読み取られる場合に、車両上のコンピュータに、
    a)前記車両の周囲の現在の表現を取得するように構成される車両のセンサを使用させ、
    b)i)変換を用いて前記現在の表現を変換すること、及び、格納された表現のライブラリから前記変換された画像を検索すること、
    ii)前記ライブラリからの少なくともいくつかの前記格納された表現を変換すること、及び、変換された前記格納された表現から前記現在の表現を検索すること、
    のうちの少なくとも1つを実施させ、
    c)前記車両の位置特定のために、前記格納された表現の前記ライブラリから検索で探し出された表現を使用させる、
    命令を含む機械可読媒体であって、
    ステップa)で実施される前記変換は、前記変換された表現内の特徴を強調するように構成される、機械可読媒体。
JP2020539786A 2018-01-18 2019-01-18 車両位置特定 Pending JP2021510823A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1800811.0A GB201800811D0 (en) 2018-01-18 2018-01-18 Localising a vehicle
GB1800811.0 2018-01-18
PCT/GB2019/050133 WO2019141992A1 (en) 2018-01-18 2019-01-18 Localising a vehicle

Publications (2)

Publication Number Publication Date
JP2021510823A true JP2021510823A (ja) 2021-04-30
JPWO2019141992A5 JPWO2019141992A5 (ja) 2022-01-25

Family

ID=61283580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020539786A Pending JP2021510823A (ja) 2018-01-18 2019-01-18 車両位置特定

Country Status (8)

Country Link
US (1) US20200379481A1 (ja)
EP (1) EP3740907A1 (ja)
JP (1) JP2021510823A (ja)
KR (1) KR20200110768A (ja)
CN (1) CN111566675A (ja)
AU (1) AU2019208479B2 (ja)
GB (1) GB201800811D0 (ja)
WO (1) WO2019141992A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022512340A (ja) * 2019-06-24 2022-02-03 センスタイム グループ リミテッド 画像生成及びニューラルネットワーク訓練方法、装置、機器並びに媒体

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019012330A2 (en) * 2017-07-12 2019-01-17 Banuba Limited COMPUTER-IMPLEMENTED METHODS AND CONFIGURED COMPUTER SYSTEMS TO GENERATE SYNTHETIC REPRESENTATIONS WITH PHOTOREALIST IMITATION OF SUBJECTS
US11443442B2 (en) * 2020-01-28 2022-09-13 Here Global B.V. Method and apparatus for localizing a data set based upon synthetic image registration
US11852751B2 (en) * 2020-03-02 2023-12-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, computing device and computer-readable storage medium for positioning
CN116391210A (zh) * 2020-09-02 2023-07-04 谷歌有限责任公司 全景图像的条件感知生成

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6281928B1 (en) * 1998-05-13 2001-08-28 Chuo Hatsujo Kabushiki Kaisha Positional detector device for a vehicular license plate
JP5041229B2 (ja) * 2007-12-07 2012-10-03 ソニー株式会社 学習装置および方法、認識装置および方法、並びにプログラム
US8538201B2 (en) * 2008-05-21 2013-09-17 Tp Vision Holding B.V. Image resolution enhancement
GB201409625D0 (en) * 2014-05-30 2014-07-16 Isis Innovation Vehicle localisation
WO2018112028A1 (en) * 2016-12-16 2018-06-21 Mako Surgical Corp. Techniques for detecting errors or loss of accuracy in a surgical robotic system
CN106815583B (zh) * 2017-01-16 2020-07-14 上海理工大学 一种基于mser和swt相结合的夜间车辆车牌定位方法
US11175132B2 (en) * 2017-08-11 2021-11-16 Zoox, Inc. Sensor perturbation
CN107506739B (zh) * 2017-08-31 2021-01-12 南京富士通南大软件技术有限公司 一种夜间前向车辆检测及测距方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022512340A (ja) * 2019-06-24 2022-02-03 センスタイム グループ リミテッド 画像生成及びニューラルネットワーク訓練方法、装置、機器並びに媒体

Also Published As

Publication number Publication date
AU2019208479A1 (en) 2020-07-30
GB201800811D0 (en) 2018-03-07
WO2019141992A1 (en) 2019-07-25
US20200379481A1 (en) 2020-12-03
CN111566675A (zh) 2020-08-21
AU2019208479B2 (en) 2024-05-02
EP3740907A1 (en) 2020-11-25
KR20200110768A (ko) 2020-09-25

Similar Documents

Publication Publication Date Title
Porav et al. Adversarial training for adverse conditions: Robust metric localisation using appearance transfer
Zhang et al. Visual place recognition: A survey from deep learning perspective
Guerry et al. Snapnet-r: Consistent 3d multi-view semantic labeling for robotics
Piasco et al. A survey on visual-based localization: On the benefit of heterogeneous data
Maddern et al. 1 year, 1000 km: The oxford robotcar dataset
Wang et al. Fusing bird’s eye view lidar point cloud and front view camera image for 3d object detection
Li et al. DeepI2P: Image-to-point cloud registration via deep classification
JP2021510823A (ja) 車両位置特定
McManus et al. Scene signatures: Localised and point-less features for localisation
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
Panek et al. Meshloc: Mesh-based visual localization
JP7439153B2 (ja) 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み
Ouchra et al. Object detection approaches in images: a survey
Mueller et al. Image-to-image translation for enhanced feature matching, image retrieval and visual localization
CN111860197A (zh) 基于多光谱多模的低慢小目标感知方法及系统
Wang et al. Near-surface pedestrian detection method based on deep learning for UAVs in low illumination environments
Zhao et al. YOLO-highway: An improved highway center marking detection model for unmanned aerial vehicle autonomous flight
Vallone et al. Danish airs and grounds: A dataset for aerial-to-street-level place recognition and localization
US20230298335A1 (en) Computer-implemented method, data processing apparatus and computer program for object detection
Venator et al. Self-Supervised learning of domain-invariant local features for robust visual localization under challenging conditions
Schenkel et al. Domain adaptation for semantic segmentation using convolutional neural networks
Venator et al. Enhancing collaborative road scene reconstruction with unsupervised domain alignment
Marnissi et al. Feature distribution alignments for object detection in the thermal domain
Singh et al. Image based Bird Species Identification
Dudhat et al. Image Semantic Segmentation based on E-Net with Different Patch-Size Convolution

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230314