JP2022513868A - カメラ位置決め - Google Patents

カメラ位置決め Download PDF

Info

Publication number
JP2022513868A
JP2022513868A JP2021534170A JP2021534170A JP2022513868A JP 2022513868 A JP2022513868 A JP 2022513868A JP 2021534170 A JP2021534170 A JP 2021534170A JP 2021534170 A JP2021534170 A JP 2021534170A JP 2022513868 A JP2022513868 A JP 2022513868A
Authority
JP
Japan
Prior art keywords
image
camera
orientation
processed
absolute position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021534170A
Other languages
English (en)
Inventor
虎▲軍▼ ▲鮑▼
国▲鋒▼ 章
昭▲陽▼ 黄
▲ヤン▼ ▲許▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sensetime Technology Development Co Ltd
Original Assignee
Zhejiang Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sensetime Technology Development Co Ltd filed Critical Zhejiang Sensetime Technology Development Co Ltd
Publication of JP2022513868A publication Critical patent/JP2022513868A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、カメラ位置決め方法と装置、及び記録媒体を提供し、前記方法は、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得することと、前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得ることと、前記目標画像に基づいて前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定することと、を含む。【選択図】図1

Description

本発明は、コンピュータ視覚の分野に関し、具体的には、カメラ位置決め方法と装置、及び記録媒体に関する。
視覚位置決めは、幅広い用途がある。実際の適用環境において、物体移動などの要因が視覚位置決めの精度に影響を与える可能性があり、さらには、視覚位置決めの失敗に直接つながることがある。
本発明は、カメラ位置決め方法と装置、及び記録媒体を提供する。
本発明の実施例の第1態様によると、カメラ位置決め方法を提供し、前記方法は、
画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得することと、
前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得ることと、
前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定することと、を含む。
本発明の実施例の第2態様によると、カメラ位置決め装置を提供し、前記装置は、
画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得するための取得モジュールと、
前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得るための実行モジュールと、
前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定するための位置決めモジュールと、を備える。
本発明の実施例の第3態様によると、コンピュータ可読記録媒体を提供し、前記記録媒体には、コンピュータプログラムが格納されており、前記コンピュータプログラムは、上述した第1態様に記載のカメラ位置決め方法の実行に用いられる。
本発明の実施例の第4態様によると、カメラ位置決め装置を提供し、前記装置は、プロセッサと、前記プロセッサによって実行可能な命令を格納するためのメモリと、を備える。その中で、前記プロセッサは、前記メモリに格納されている実行可能命令を呼び出して、第1態様に記載のカメラ位置決め方法を実現する。
本実施例において、まず、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得し、事前確率に基づいて画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得ることができ、目標画像に基づいてカメラのワールド座標系における絶対位置姿勢を決定することができる。カメラが画像を収集する場面での物体の移動が、移動可能な機械デバイス上のカメラを位置決めする結果に与える影響を低減し、カメラ位置決めの正確性を向上させた。
上記の一般的な説明および以下の詳細な説明は、例示的および解釈的なものに過ぎず、本発明を限定するものではないことを理解すべきである。
本発明の1つの例示的な実施例に係るカメラ位置決め方法を示すフローチャートである。 本発明の1つの例示的な実施例に係るステップ110を示すフローチャートである。 本発明の1つの例示的な実施例に係る画像テンプレートを示す模式図である。 本発明の1つの例示的な実施例に係るステップ120を示すフローチャートである。 本発明の別の例示的な実施例に係るカメラ位置決め方法を示すフローチャートである。 本発明の1つの例示的な実施例に係るステップ150を示すフローチャートである。 本発明の1つの例示的な実施例に係る複数の絶対位置姿勢を示す模式図である。 本発明の1つの例示的な実施例に係る補正位置姿勢を決定する過程を示す模式図である。 本発明の1つの例示的な実施例に係る最適化後の位置姿勢図を示す模式図である。 本発明の別の例示的な実施例に係るカメラ位置決め方法を示すフローチャートである。 本発明の1つの例示的な実施例に係るステップ230を示すフローチャートである。 本発明の1つの例示的な実施例に係るセルフアテンションメカニズムを示す模式図である。 本発明の1つの例示的な実施例に係る処理すべき画像を示す模式図である。 本発明の1つの例示的な実施例に係る重み値調整後の特徴抽出画像を示す模式図である。 本発明の別の例示的な実施例に係るカメラ位置決め方法フローチャートである。 本発明の1つの例示的な実施例に係る目標ニューラルネットワークを示すアーキテクチャ図である。 本発明の1つの例示的な実施例に係るカメラ位置決め装置を示すブロック図である。 本発明の1つの例示的な実施例に係る取得モジュールを示すブロック図である。 本発明の1つの例示的な実施例に係る実行モジュールを示すブロック図である。 本発明の1つの例示的な実施例に係る位置決めモジュールを示すブロック図である。 本発明の別の例示的な実施例に係るカメラ位置決め装置を示すブロック図である。 本発明の1つの例示的な実施例に係る第2決定モジュールを示すブロック図である。 本発明の別の例示的な実施例に係るカメラ位置決め装置を示すブロック図である。 本発明の1つの例示的な実施例に係る取得モジュールを示すブロック図である。 本発明の1つの例示的な実施例に係る実行モジュールを示すブロック図である。 本発明の1つの例示的な実施例に係る位置決めモジュールを示すブロック図である。 本発明の別の例示的な実施例に係るカメラ位置決め装置を示すブロック図である。 本発明の1つの例示的な実施例に係る電子デバイスの構成模式図である。
ここで、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面での同じ符号は同じまたは類似の要素を表す。以下の例示的な実施例で説明する実施形態は、本発明と一致するすべての実施形態を表すわけではない。逆に、それらは、添付の特許請求の範囲に詳述されているように、本発明のいくつかの態様と一致する装置と方法の単なる例である。
本発明で使用する用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明および添付の特許請求の範囲で使用される「1種」、「前記」、および、「当該」の単数形も、文脈が他の意味を明確に示さない限り、複数形を含むことを意図する。本明細書で使用される「および/または」という用語は、1つまたは複数の関連するリストされた項目の任意またはすべての可能な組み合わせを指すことをさらに理解すべきである。
本発明では、第1、第2、第3などの用語を使用してさまざまな情報を説明することができるが、これら情報はこれら用語に限定されるべきではないことを理解すべきである。これら用語は、同じタイプの情報を互いに区別するためにのみ使用される。たとえば、本発明の範囲から逸脱することなく、第1情報はまた第2情報と呼ばれ得、同様に、第2情報もまた第1情報と呼ばれ得る。文脈に応じて、ここで使用される「もし」という単語は、「……と」または「……場合」または「決定されたことに応答して」と解釈することができる。
本発明の実施例は、カメラ位置決め方法を提供し、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率に基づいて、画像テンプレートと同じ大きさの処理すべき画像中の一部のピクセル点を破棄して目標画像を得ることができ、さらに、目標画像に基づいてカメラの絶対位置姿勢を決定することができ、カメラが画像を収集する場面において物体の移動がカメラ位置決め結果に与える影響を低減して、カメラ位置決めの正確性および精度を向上させた。
本発明の実施例によって提供されるカメラ位置決め方法は、移動可能な機械デバイスに適用され得、移動可能な機械デバイス上に装着されたカメラに対して位置決めを実行することができる。移動可能な機械デバイスは、カメラが装着されたドローン、無人車両、ロボットなどを含むが、これらに限定されない。
移動可能な機械デバイスが移動するので、それに応じてデバイス上に装着されたカメラの位置姿勢も変わることになる。カメラ位置決めの正確性は、移動可能な機械デバイスがさまざまなタスクを実行するときの正確度を向上させることができる。たとえば、無人車両に装着されたカメラによって収集された車両の前方環境の画像に基づいて、カメラの現在の位置決め情報を決定することができ、カメラの位置決め情報に基づいて車両の現在の位置情報を特定し、さらに、当該無人車両に対して、経路計画、軌跡追跡、衝突警告などの中の少なくとも1つのインテリジェントな運転制御を実行することができる。
図1に示すように、本発明の実施例によって提供されるカメラ位置決め方法は、以下のステップ110~130を含み得る。
ステップ110において、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得する。
本発明の実施例において、画像テンプレートは、現在の場面に対応する、画像テンプレートと同じ大きさの画像内の複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を記録するためのテンプレートであり得る。移動可能な物体は、バス、車、人、自転車、トラック、オートバイ、動物などの、単独で移動できるか制御下で移動できるさまざまな物体を含むがこれらに限定されない。事前確率とは、過去に収集された現在の場面と同じまたは類似な画像を分析して得られた当該画像内の各ピクセル点が移動可能な物体に属する確率を指す。あるピクセル点に対応する事前確率がより高いと、場面に対して収集した画像内の当該ピクセル点に移動可能な物体が出現する可能性がより高いことを意味し、逆に、あるピクセル点に対応する事前確率がより低いと、場面に対して収集した画像内の当該ピクセル点に移動可能な物体が出現する可能性がより低いことを意味する。当該画像テンプレートは、収集された画像内の異なるピクセル点に移動可能な物体が出現する先験的な可能性を反映することができる。
現在の場面と同じまたは類似な場面に対して収集した画像セットに対して、上述した画像セット内の各画像内の各ピクセル点に移動可能な物体が出現する確率を分析し、この確率を、現在の場面に対応する画像テンプレート内の各ピクセル点に移動可能な物体が出現する事前確率として使用する。
たとえば、現在の場面は、無人車両が都市のメインストリートを走行する場面である場合、無人車両に装着されたカメラに対して位置決めを実行すると、現在の場面と同じまたは類似な場面で収集した画像セットは、当該都市のメインストリートの少なくとも1つの画像を含み得る。
ステップ120において、前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得る。
処理すべき画像は、当該移動可能な機械デバイスの移動過程で、当該移動可能な機械デバイス上に装着されたカメラによって収集された少なくとも1つの画像であり得る。移動可能な機械デバイスは、現在の場面に対応する画像テンプレート内の各ピクセル点に対応する事前確率に従って、移動可能な機械デバイス上に装着されたカメラによって収集された画像テンプレートと同じ大きさの少なくとも1つの画像に対して、一部のピクセル点を破棄する操作を実行することによって、目標画像を得ることができる。
本発明の実施例において、一部のピクセル点を破棄する操作は、カメラによって収集された画像テンプレートと同じ大きさの少なくとも1つの画像内の、事前確率のサンプリング値が予め設定された値よりも大きいピクセル点を、全部破棄または一部をランダムに破棄することを含むがこれらに限定されない。
ステップ130において、前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定する。
たとえば、移動可能な機械デバイスは、目標画像に基づいて、回帰損失関数を利用して、カメラのワールド座標系における絶対位置姿勢を決定することができる。回帰損失関数は、平均二乗誤差損失関数(L2損失関数など)、平均絶対誤差(L1損失関数など)、平滑平均絶対誤差損失関数(Huber損失関数など)、対数双曲線余弦損失関数、または、分位(quintile)損失関数などであり得る。
上述した実施例において、移動可能な機械デバイスは、現在の場面に対応する画像テンプレート内の複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を参照して、現在の場面で移動可能な機械デバイス上に装着されたカメラによって収集された少なくとも1つの画像に対して、一部のピクセル点の破棄を実行して目標画像を得、目標画像を利用してカメラの絶対位置姿勢を決定することができる。このように、現在の場面で物体の移動がカメラ位置決めに与える悪影響を効果的に低減することができ、カメラ位置決めの正確性および精度を向上させた。
移動可能な機械デバイス上に装着されたカメラの場合、その位置姿勢が移動可能な機械デバイスの移動および/またはカメラの位置調整などの要因によって変わることがあり、したがってカメラに対して位置決めを実行する必要がある。本発明の発明者は、カメラによって収集された画像の視野内に物体の移動が存在すると、当該物体の移動が、カメラによって収集された画像の該当する部分の画質が低下させ、たとえば、画像のぼやけ、ジッターなどが現れ、これら低品質の部分が収集された画像の特徴全体の品質に影響を与え、さらには、画像全体特徴に基づくカメラ位置決めの正確性および精度に影響を与えることを、発見した。しかしながら、収集された画像内の一部の動かないまたは固定された物体は、逆にカメラ位置決めに役立っている。
このため、本発明の実施例は、先験的知識を参照して収集された画像内の各ピクセル点に移動可能な物体が出現する確率(すなわち事前確率)を決定し、決定された確率に基づいて収集された画像に対して一部のピクセル点の破棄を実行し、たとえば一部の移動可能な物体が出現する事前確率がより高いピクセル点を破棄することによって、これらピクセル点の画像全体の品質に対する悪影響を低減し、したがって、局部のピクセル点を破棄した後の画像の品質全体に基づくカメラ位置決めの精度の改善に有利である。
いくつかのオプションの実施例において、ステップ110は、電子デバイスによって実行され得、当該電子デバイスは、移動可能な機械デバイスであってもよいし、クラウドプラットフォームなどの、ニューラルネットワークをトレーニングする電子デバイスであってもよく、本発明はこれに対して限定しない。図2に示すように、ステップ110は、ステップ111~113を含み得る。
ステップ111において、現在の場面に関連する所定の画像セット内の各画像に対して、ピクセルレベルのセマンティックセグメンテーションを実行する。
本発明の実施例において、現在の場面に関連する所定の画像セットは、現在の場面と同じまたは類似な場面で収集された複数のイメージを含み得る。電子デバイスは、所定の画像セット内の各画像に存在する内容を検索して、各画像のピクセルレベルのセマンティックセグメンテーション結果を得ることができる。たとえば、現在の場面は、無人車両が都市のメインストリートを走行する場面である場合、現在の場面に関連する所定の画像セットは、図3に示された画像m、m……mを含み得る。
ステップ112において、ピクセルレベルのセマンティックセグメンテーションの結果に基づいて、前記各画像内の移動可能な物体に属する第1ピクセル点および背景に属する第2ピクセル点を決定する。
オプションとして、背景は、画像内の移動不可の物体であり得、たとえば、画像内の移動可能な物体として決定された物体以外の他の物体であり得、具体的に、空、建物、木、道路などであり得る。
ステップ113において、所定の画像セット内の各画像内の第1ピクセル点および第2ピクセル点の統計分布に基づいて、前記所定の画像セット内の画像と同じ大きさの画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を決定する。
本発明の実施例において、電子デバイスは、現在の場面に関連する所定の画像セット内の各画像内の移動可能な物体に属する第1ピクセル点および背景に属する第2ピクセル点の統計分布に基づいて、現在の場面に対応する画像テンプレートを得て、たとえば図3中の画像テンプレートMを得て、現在の場面で収集された、画像テンプレートと同じ大きさの画像内の各ピクセル点に移動可能な物体が出現する事前確率を記録する。
本発明の実施例において、画像テンプレートに記録した各ピクセル点に移動可能な物体が出現する事前確率は、1つの統計分布範囲であり、1つの固定値ではない。その後に前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行するときに、毎回に事前確率の統計分布範囲に基づいて異なるピクセル点を破棄して、異なる目標画像を得ることができる。また、複数の異なる目標画像に基づいてカメラの絶対位置姿勢を決定して、特に大規模な都市交通場面で、より良いカメラ位置決め結果を得ることができる。
オプションとして、画像テンプレートに含まれている各ピクセル点に移動可能な物体が出現する事前確率は、ガウス分布に準拠することができ、数1に示したようである。
(数1)
p(M(i,j))~N(σ(i,j),μ(i,j))
ここで、iは、画像テンプレート内のi行目のピクセル点を示し、jは、画像テンプレート内のj列目のピクセル点を示し、(i,j)は、ピクセル点座標に対応し、ピクセル点(i,j)の数学的期待値は、μ(i,j)であり、μ(i,j)=1/NΣ k=1(i,j)であり、Nは、ピクセル点の数であり、ピクセル点(i,j)の分散は、σ(i,j)であり、σ(i,j)=μ(i,j)(1-μ(i,j))であり、p(M(i,j))は、ピクセル点(i,j)の事前確率である。
いくつかのオプションの実施例において、たとえば図4に示すように、ステップ120は、ステップ121~ステップ122を含み得る。
ステップ121において、前記処理すべき画像に含まれている少なくとも一部のピクセル点に対応する事前確率に対してサンプリングを実行する。
カメラによって収集された少なくとも1つの処理すべき画像の場合、各処理すべき画像内の各ピクセル点に移動可能な物体が出現する事前確率の分布は、ガウス分布を満たす。
少なくとも1つの処理すべき画像の中の各々の処理すべき画像に対して、移動可能な機械デバイスは、当該処理すべき画像に含まれている少なくとも一部のピクセル点に対応する事前確率に対してサンプリングを実行することによって、今回のサンプリングした後の当該処理すべき画像内の少なくとも一部のピクセル点に対応する事前確率のサンプリング値を得ることができる。
ステップ122において、前記処理すべき画像内で、事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点を除去することによって、今回のサンプリングに対応する目標画像を得る。
今回のサンプリング結果中で、処理すべき画像1内のピクセル点1の事前確率のサンプリング値が予め設定された閾値よりも大きいと、ピクセル点1が移動可能な物体に属すると見なされ、移動可能な機械デバイスは、処理すべき画像1内でピクセル点1を除去して、処理すべき画像1の今回のサンプリングに対応する目標画像を得る。
少なくとも1つの処理すべき画像の中の各々の処理すべき画像に対して、移動可能な機械デバイスは、当該処理すべき画像に対して上述した方式によって事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点を全部除去するか、または事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点をランダムに一部除去して、処理すべき画像の今回のサンプリングに対応する目標画像を得ることができる。
いくつかのオプションの実施例において、移動可能な機械デバイスは、処理すべき画像内のピクセル点に対応する事前確率に対してサンプリングを複数回実行すると、同じ処理すべき画像内の同じピクセル点に対応する事前確率の毎回のサンプリング値が異なるようにすることによって、一部のピクセル点を破棄する操作を実行した後に得えられた複数の目標画像の任意の2つの目標画像の間に、少なくとも1つの異なるピクセル点が存在するようにすることができる。
たとえば、1回目にサンプリングするときに、処理すべき画像1内のピクセル点1に対応する事前確率のサンプリング値はPであり、2回目にサンプリングするときに、処理すべき画像1内のピクセル点1に対応する事前確率のサンプリング値はPであり、予め設定された閾値はTである。ここで、P<T<Pである。そうすれば、1回目にサンプリングした後に得られた目標画像は、ピクセル点1を保持し、2回目にサンプリングした後に得られた目標画像は、ピクセル点1を除去する必要がある。
上述した過程を通じて、移動可能な機械デバイスが、同じ処理すべき画像内のピクセル点に対応する事前確率に対してサンプリングを複数回実行し、これに応じてカメラ位置決めを行うための複数の異なる目標画像を得ることができ、最終に得られるカメラ位置決めの正確性の確保に有利である。
いくつかのオプションの実施例において、ステップ130は、前記処理すべき画像を目標ニューラルネットワークに入力して、前記カメラのワールド座標系における絶対位置姿勢を得ることを含み得る。
移動可能な機械デバイスは、処理すべき画像を目標ニューラルネットワークに入力し、目標ニューラルネットワークを利用して当該処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を直接出力することができる。
上述した実施例において、移動可能な機械デバイスは、画像テンプレート内の各ピクセル点が移動可能な物体に属する事前確率に基づいて、処理すべき画像内の事前確率が予め設定された値よりも大きい少なくとも一部のピクセル点を破棄することによって、カメラ位置決めの正確性を向上させた。
いくつかのオプションの実施例において、処理すべき画像が、前記カメラによって収集された、時間の前後性、すなわち時系列を有するkフレームの画像(kは2以上の整数)を含むと、図5に示すように、前記方法は、ステップ140~150をさらに含む。
ステップ140において、前記kフレームの画像に基づいて、前記kフレームの画像を撮影するときの前記カメラの相対位置姿勢を決定する。
本発明の実施例において、移動可能な機械デバイスは、視覚オドメトリ法を使用して、k-1フレームの画像を収集するときに対する、kフレームの画像を収集するときのカメラの相対位置姿勢を決定することができる。
ステップ150において、前記カメラの相対位置姿勢および絶対位置姿勢に基づいて、前記カメラの補正位置姿勢を決定する。
本発明の実施例において、移動可能な機械デバイスは、kフレームの画像の中の時系列で最も前の1フレームの画像(第1フレームの画像とも呼ばれる)を収集するときのカメラの、ワールド座標系における絶対位置姿勢を参照として、第1フレームの画像と隣接する第2フレームの画像を収集するときのカメラの相対位置姿勢および絶対位置姿勢に基づいて、カメラの補正位置姿勢を決定することができる。
その後で、移動可能な機械デバイスは、補正位置姿勢に基づいてカメラの位置姿勢を調整することによって、場面で物体の移動がカメラ位置決めに与える影響を低減し、移動可能な機械デバイスがさまざまなタスクを実行する正確度の確保に有利である。
いくつかのオプションの実施例において、図6に示すように、ステップ150は、具体的にステップ151~153を含み得る。
ステップ151において、前記絶対位置姿勢の決定性確率を決定する。
本発明の実施例において、決定性確率は、前記絶対位置姿勢の結果に対する正確程度評価である。決定性確率が高いほど、絶対位置姿勢の結果が正確であることを意味し、そうではないと、絶対位置姿勢の結果が正確ではないことを意味する。
移動可能な機械デバイスは、モンテカルロ法などのランダムサンプリングの方法を採用して、カメラによって収集された時系列を有するkフレームの画像に対応する事前確率に対してサンプリングを実行して、複数回のサンプリングのサンプリング結果を得ることができる。kは、2以上の整数である。
たとえば図7に示すように、画像テンプレートMに含まれている各ピクセル点の事前確率に基づいて、現在画像に対してサンプリングを複数回実行し、毎回のサンプリングに対応する目標画像に基づいて当該現在画像に対応する複数の絶対位置姿勢をそれぞれ決定することができる。
現在画像に対応する複数の絶対位置姿勢に基づいて現在画像に対応する絶対位置姿勢の決定性確率を決定する。たとえば、現在画像に対応する複数の絶対位置姿勢のうち、任意の2つ絶対位置姿勢の間の差異がより大きいと、現在画像に対応する絶対位置姿勢の決定性確率がより低いと決定することができ、逆の場合は、現在画像に対応する絶対位置姿勢の決定性確率がより高いと決定することができる。
ステップ152において、前記絶対位置姿勢の決定性確率に基づいて前記相対位置姿勢の第1重みおよび前記絶対位置姿勢の第2重みを決定する。
本発明の実施例において、カメラによって収集された時系列を有するkフレームの画像に対して、移動可能な機械デバイスは、各フレームの画像に対応する絶対位置姿勢の決定性確率に基づいて各フレームの画像に対応する相対位置姿勢の第1重みおよび各フレームの画像に対応する絶対位置姿勢の第2重みを決定することができる。
たとえば、現在画像に対応する絶対位置姿勢の決定性確率がより高いと、当該現在画像に対応する絶対位置姿勢の第2重みを増やすことができ、現在画像に対応する絶対位置姿勢の決定性確率がより低いと、当該現在画像に対応する相対位置姿勢の第1重みを増やすことができる。
ステップ153において、前記相対位置姿勢、前記第1重み、前記絶対位置姿勢、および前記第2重みに基づいて、前記カメラの補正位置姿勢を決定する。
本発明の実施例において、たとえば図8に示すように、時系列を有するkフレームの画像の中の第1フレームの画像に対応する絶対位置姿勢を参考として、スライディングウィンドウの方式を採用して順次移動し、第2フレームの画像に対応する相対位置姿勢、第1重み、絶対位置姿勢、および第2重みに基づいて、第2フレームの画像の第1フレームの画像に対する補正位置姿勢を決定する。
本発明の実施例において、相対位置姿勢がより正確であると、相対位置姿勢の重みを増やすことができ、絶対位置姿勢がより正確であると、絶対位置姿勢の重みを増やすことができる。このようにして、相対位置姿勢および絶対位置姿勢のそれぞれが異なる重みを有するようにして補正位置姿勢を決定することによって、補正位置姿勢がより正確になるようにすることができ、つまりカメラ位置決めがより正確になるようにすることができる。
補正位置姿勢によって、最終に決定されるカメラの位置姿勢図に対して最適化を実行し、最適化後の位置姿勢の図面は、図9に示すようである。図9中の三角形は、各フレームの画像を収集するときのカメラの絶対位置姿勢を表し、矢印の付いた線分は、相対位置姿勢を表し、円は、スライディングウィンドウを表す。図9中の補正後の絶対位置姿勢と相対位置姿勢は、矢印方向に沿って順次に図8中の左上隅から右下隅までの絶対位置姿勢と相対位置姿勢に対応される。
上述した実施例において、VO(Visual Odometry、視覚オドメトリ)法を採用して決定した位置姿勢を画像に対応する相対位置姿勢として使用することができる。VO法は、上述したkフレームの画像を分析してカメラの位置と姿勢を決定するものである。kフレームの画像に対して特徴マッチングなどの方法を実行してカメラの隣接するフレーム間の動きを推定し、前の1フレームの画像を収集するときに対する、次の1フレームの画像を収集するときのカメラの相対位置姿勢を得ることができる。
さらに、本発明の実施例において、絶対位置姿勢と相対位置姿勢を結合して位置姿勢補正を実行して、カメラ位置決めの精度をさらに向上させた。
1つの実施例において、本発明によって提供されるカメラ位置決め方法は、さらに、クラウドプラットフォーム、ニューラルネットワークトレーニングプラットフォームなどの、ニューラルネットワークをトレーニングする電子デバイスに適用され得る。電子デバイスによって、当該方法を採用してニューラルネットワークに対してトレーニングを実行して、目標ニューラルネットワークを得る。その後に、画像を目標ニューラルネットワークに入力した後に、当該画像を収集するカメラのワールド座標系における絶対位置姿勢を得ることができる。
図10に示すように、本発明の実施例によって提供されるカメラ位置決め方法は、以下のステップ210~230を含み得る。
ステップ210において、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得する。
所定の画像セット内の各画像内で、移動可能な物体に属するピクセル点が知られている。電子デバイスは、上述した各画像に基づいて、各画像内の各ピクセル点に移動可能な物体が出現する確率を分析し、この確率を、各画像と同じ大きさの画像テンプレート内の各ピクセル点に移動可能な物体が出現する事前確率として使用することができる。
ステップ220において、前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得る。
処理すべき画像は、少なくとも1つのサンプル画像であり得、電子デバイスは、画像テンプレート内の各ピクセル点に対応する事前確率に従って、少なくとも1つのサンプル画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得ることができる。
本発明の実施例において、一部のピクセル点を破棄する操作は、少なくとも1つのサンプル画像内の事前確率のサンプリング値が予め設定された値よりも大きいピクセル点に対して全部破棄する操作またはランダムに一部を破棄する操作を実行することを含むが、これらに限定されない。
ステップ230において、前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定する。
電子デバイスは、得られた目標画像に基づいて、回帰損失関数を利用して、少なくとも1つのサンプル画像を収集するカメラのワールド座標系における絶対位置姿勢を決定することができる。
回帰損失関数は、平均二乗誤差損失関数(たとえばL2損失関数)、平均絶対誤差(たとえばL1損失関数)、平滑平均絶対誤差損失関数(たとえばHuber損失関数)、双曲線余弦損失関数、または、分位損失関数などであり得る。
いくつかのオプションの実施例において、ステップ210は、ニューラルネットワークをトレーニングする電子デバイスによって実行され得、実行する過程は、図2中のステップ110の実行と同じであり、ここでは繰り返して説明しない。
いくつかのオプションの実施例において、ステップ220は、ニューラルネットワークをトレーニングする電子デバイスによって実行され得、実行する過程は、図4中のステップ120の実行過程と同じであり、ここでは繰り返して説明しない。
いくつかのオプションの実施例において、ステップ230は、ニューラルネットワークをトレーニングする電子デバイスによって実行され得、たとえば図11に示すように、ステップ230は、ステップ231~233を含み得る。
ステップ231において、ニューラルネットワークを利用して前記目標画像の特徴パラメータを抽出して、特徴抽出画像を得る。
ニューラルネットワークは、少なくとも1つの目標画像から各目標画像の特徴パラメータを抽出することによって、各目標画像に対応する特徴抽出画像を得ることができる。
ステップ232において、前記ニューラルネットワークの予め設定された空間次元および/または予め設定されたチャネル次元上で、前記特徴抽出画像内の背景に属する第2ピクセル点に対応する重み値を増加する。
ニューラルネットワークは、予め設定された空間次元と予め設定されたチャネル次元との少なくとも1つの次元上で、セルフアテンションメカニズムによって特徴抽出画像内の背景に属する第2ピクセル点の重み値を増加することができる。
たとえば図12Aに示すように、ニューラルネットワークは、H(高さ)×W(幅)×C(チャネル)のある特徴抽出画像に対して空間セルフアテンションメカニズム変換を実行した後に、同一のチャネル上の画像H×W×1を得る。また、たとえば図12Bに示すように、ニューラルネットワークは、H×W×Cのある特徴抽出画像に対してチャネルセルフアテンションメカニズム変換を実行した後に、同一の高さと幅の画像1×1×Cを得る。
ニューラルネットワークは、セルフアテンションメカニズムを通じて、移動可能な物体に属する第1ピクセル点の情報を可能な限り無視し、背景に属する第2ピクセル点の情報にもっと注目する。
ニューラルネットワークの予め設定された空間次元および予め設定されたチャネル次元上で、図13Aに示された画像内で実線のボックスで囲まれた第2ピクセル点の重み値を増加した後に、図13Bに示された画像を得る。図13Bに示された画像内で実線のボックスによって囲まれたピクセル点のグレー値は、図13Bに示された画像内の他の一部のピクセル点のグレー値よりも高い。
本発明の実施例において、図13Aに示された画像で、点線のボックスで囲まれたピクセル点は、移動可能な物体である自動車に属し、この前のステップ210を通じて、図13Aに示された画像と同じ大きさの画像テンプレート中各ピクセル点に移動可能な物体が出現する事前確率を取得し、ステップ220を通じて図13Aに示された画像内の事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点の全部または一部を破棄することができる。
さらに、ステップ232を通じて、2つの次元上で移動不可物体に属する重み値を増加することで、ニューラルネットワークが交通標識や電柱などの移動不可または移動確率がより低い物体にもっと注目するようにして、カメラが画像を収集する場面での物体の移動が、移動可能な機械デバイス上のカメラを位置決めする結果に与える影響を低減し、ニューラルネットワークのカメラ位置決めに対する正確性および精度を向上させ、位置決め検出結果の堅牢性を向上させた。
ステップ233において、ニューラルネットワークを利用して重み値調整後の特徴抽出画像に対して分析を実行して、前記処理すべき画像を収集するカメラのワールド座標系における前記絶対位置姿勢を得る。
本発明の実施例において、ニューラルネットワークは、平均二乗誤差関数、絶対値誤差関数などの回帰損失関数を使用して、重み値調整後の特徴抽出画像に対して分析を実行して、少なくとも1つのサンプル画像を収集するカメラのワールド座標システムにおける絶対位置姿勢を得ることができる。
いくつかのオプションの実施例において、たとえば図14に示すように、ニューラルネットワークのトレーニングを実行する過程において、上述したカメラ位置決め方法は、ステップ240をさらに含む。
ステップ240において、前記絶対位置姿勢と予め決定された前記処理すべき画像の前記カメラの位置姿勢の真値との差異に基づいて、ニューラルネットワークのネットワークパラメータを調整して、目標ニューラルネットワークをトレーニングして得る。
本発明の実施例において、本ステップは、ニューラルネットワークをトレーニングする電子デバイスによって実行され得る。画像テンプレートと同じ大きさの少なくとも1つのサンプル画像を収集するときのカメラの位置姿勢の真値は、知られており、電子デバイスは、ニューラルネットワークによって出力された、少なくとも1つのサンプル画像を収集するカメラのワールド座標システムにおける絶対位置姿勢と既知の位置姿勢の真値との差異に基づいて、ニューラルネットワークのネットワークパラメータを調整して、当該ニューラルネットワークの損失関数を最小化し、最終に必要な目標ニューラルネットワークをトレーニングして得る。
いくつかのオプションの実施例において、本発明の実施例は、上述したカメラ位置決め方法に基づいて、目標ニューラルネットワークのアーキテクチャ図をさらに提供し、たとえば図15に示すように、Probabilistic Dropout Module(一部ピクセル点破棄モジュール)と、Feature Ectractor Module(特徴抽出モジュール)と、Self-attention Module(セルフアテンションモジュール)と、Regressor Module(回帰モジュール)と、を含む。
目標ニューラルネットワークのトレーニング過程において、少なくとも1つのサンプル画像を一部ピクセル点破棄モジュールの入力値として設定し、一部ピクセル点破棄モジュールは、順に接続された少なくとも5つのサブネットワークによって構成され得る。各サブネットワークは、畳み込み層、Relu層、プーリング層などの予め設定された順序に従って設置したネットワークユニットを採用して個別に実装され得る。
第1サブネットワークは、少なくとも1つのサンプル画像の中の各画像に対してピクセルレベルのセマンティックセグメンテーションをそれぞれ実行することができ、第2サブネットワークは、ピクセルレベルのセマンティックセグメンテーションの結果に基づいて、各サンプル画像内の前記移動可能な物体に属する第1ピクセル点および背景に属する第2ピクセル点を決定することができ、第3サブネットワークは、各サンプル画像内の前記第1ピクセル点および前記第2ピクセル点の統計分布に基づいて、サンプル画像と同じ大きさの画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に前記移動可能な物体が出現する事前確率を決定することができ、第4サブネットワークは、少なくとも1つのサンプル画像に含まれている少なくとも一部のピクセル点に対応する事前確率に対してサンプリングを実行して、今回のサンプリングのサンプリング結果を得ることができ、第5サブネットワークは、今回のサンプリング結果に基づいて、少なくとも1つのサンプル画像内で事前確率のサンプリング値が予め設定された閾値Tよりも大きいピクセル点を除去して、前記目標画像を得ることができる。
特徴抽出モジュールは、畳み込み層、Relu層、プーリング層などの予め設定された順序に従って設置したネットワークユニットを、予め設定された構成に従って積み重ね設計して得ることができ、Probabilistic Dropout Moduleによって得られた目標画像の特徴パラメータを抽出して、特徴抽出画像を得ることができる。
セルフアテンションモジュールは、同様に、少なくとも2つの個別の第5サブネットワークおよび第6サブネットワークによって構成されえ、各サブネットワークは、畳み込み層、Relu層、プーリング層などの予め設定された順序に従って設置したネットワークユニットを含み、ここで、第5サブネットワークは、予め設定された空間次元を注目し、第6サブネットワークは、予め設定されたチャネル次元を注目することができ、上述した2つのサブネットワークを通じた後に特徴抽出画像内の背景に属する第2ピクセル点の重み値を調整することができる。本発明の実施例は、第5サブネットワークおよび第6サブネットワークの前後順序に対して限定しない。
回帰モジュールは、第7サブネットワークを含み得、第7サブネットワークは、畳み込み層、Relu層、プーリング層などの予め設定された順序に従って設置したネットワークユニットを含み得、第7サブネットワークは、セルフアテンションモジュールによって出力された画像を入力値とし、既知の少なくとも1つのサンプル画像を収集するカメラの位置姿勢を出力値とする。第7サブネットワークは、1つの回帰損失関数に対応される。当該回帰損失関数は、平均二乗誤差損失関数(たとえばL2損失関数)、平均絶対誤差(たとえばL1損失関数)、平滑平均絶対誤差損失関数(たとえばHuber損失関数)、双曲線余弦損失関数、および、分位損失関数などを含み得る。
上述した実施例において、最終に得られた目標ニューラルネットワークは、サンプル画像内の移動可能な物体に対する注目を減らし、サンプル画像内の背景に属するピクセル点をより多く注目し、すなわち、動かないまたは固定の物体の情報をより多く注目することによって、移動可能な物体に対応するピクセル点の画像全体の画質に対する影響を減らして、目標ニューラルネットワークの堅牢性を向上させた。
本発明は、前述した方法の実施例に対応して、カメラ位置決め装置の実施例をさらに提供する。
本発明の実施例は、カメラ位置決め装置をさらに提供し、移動可能な機械デバイスに適用され得る。移動可能電子デバイスが移動するので、それに応じて移動可能な機械デバイス上に装着されたカメラの位置姿勢が変わることになる。カメラ位置決めの高い正確性は、移動可能な機械デバイスがさまざまなタスクを実行するときの正確度を向上させることができる。
図16に示すように、図16は、本発明の1つの例示的な実施例に係るカメラ位置決め装置のブロック図であり、当該装置は、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得するための取得モジュール310と、前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得るための実行モジュール320と、前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定するための位置決めモジュール330と、を備える。
いくつかの実施例において、たとえば図17に示すように、前記取得モジュール310は、所定の画像セット内の各画像に対してピクセルレベルのセマンティックセグメンテーションを実行するための分割サブモジュール311と、ピクセルレベルのセマンティックセグメンテーションの結果に基づいて前記各画像内の移動可能な物体に属する第1ピクセル点および背景に属する第2ピクセル点を決定するための第1決定サブモジュール312と、前記各画像内の前記第1ピクセル点および前記第2ピクセル点の統計分布に基づいて、前記所定の画像セット内の画像と同じ大きさの画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に前記移動可能な物体が出現する前記事前確率を決定するための第2決定サブモジュール313と、を備える。
いくつかの実施例において、たとえば図18に示すように、前記実行モジュール320は、前記処理すべき画像に含まれている少なくとも一部のピクセル点に対応する前記事前確率に対してサンプリングを実行するためのサンプリングサブモジュール321と、前記処理すべき画像内で、事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点を除去することによって、前記目標画像を得るための実行サブモジュール322と、を備える。
いくつかの実施例において、サンプリング回数が複数回である場合、一部のピクセル点を破棄する操作を実行した後に得えられた複数の目標画像について、任意の2つの当該目標画像の間には、少なくとも1つの異なるピクセル点が存在する。
いくつかの実施例において、図19に示すように、前記位置決めモジュール330は、前記処理すべき画像を前記目標ニューラルネットワークに入力して、前記処理すべき画像のカメラのワールド座標系における前記絶対位置姿勢を得るための第2位置決めサブモジュール331を備える。
いくつかの実施例において、前記処理すべき画像は、前記カメラによって収集された時系列を有する少なくとも2つのフレームの画像を含み、たとえば図20に示すように、前記装置は、前記少なくとも2つのフレームの画像に基づいて前記少なくとも2つのフレームの画像を撮影するときの前記カメラの相対位置姿勢を決定するための第1決定モジュール340と、前記カメラの相対位置姿勢と前記絶対位置姿勢とに基づいて、前記カメラの補正位置姿勢を決定するための第2決定モジュール350と、をさらに備える。
いくつかの実施例において、たとえば図21に示すように、前記第2決定モジュール350は、前記絶対位置姿勢の決定性確率を決定するための第3決定サブモジュール351と、前記決定性確率に基づいて前記相対位置姿勢の第1重みおよび前記絶対位置姿勢の第2重みを決定するための第4決定サブモジュール352と、前記相対位置姿勢、前記第1重み、前記絶対位置姿勢、および前記第2重みに基づいて、前記カメラの補正位置姿勢を決定するための第5決定サブモジュール353と、をさらに備える。
いくつかのオプションの実施例において、本発明は、電子デバイスに適用され得るカメラ位置決め装置をさらに提供し、当該電子デバイスは、ニューラルネットワークをトレーニングして、目標ニューラルネットワークを得ることができる。その後、画像を目標ニューラルネットワークに入力した後に、当該画像を収集するカメラのワールド座標系における絶対位置姿勢を得ることができる。
図22に示すように、図22は、本発明の1つの例示的な実施例に係るカメラ位置決め装置を示すブロック図であり、当該装置は、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得するための取得モジュール410と、前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得るための実行モジュール420と、前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定するための位置決めモジュール430と、を備える。
いくつかの実施例において、たとえば図23に示すように、前記取得モジュール410は、所定の画像セット内の各画像に対してピクセルレベルのセマンティックセグメンテーションを実行するための分割サブモジュール411と、ピクセルレベルのセマンティックセグメンテーションの結果に基づいて、前記各画像内の移動可能な物体に属する第1ピクセル点および背景に属する第2ピクセル点を決定するための第1決定サブモジュール412と、前記各画像内の前記第1ピクセル点および前記第2ピクセル点の統計分布に基づいて、前記所定の画像セット内の画像と同じ大きさの画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に前記移動可能な物体が出現する前記事前確率を決定するための第2決定サブモジュール413と、を備える。
いくつかの実施例において、たとえば図24に示すように、前記実行モジュール420は、前記処理すべき画像に含まれている少なくとも一部のピクセル点に対応する前記事前確率に対してサンプリングを実行するためのサンプリングサブモジュール421と、前記処理すべき画像内で、事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点を除去することによって、前記目標画像を得るための実行サブモジュール422と、を備える。
いくつかの実施例において、サンプリング回数が複数回である場合、一部のピクセル点を破棄する操作を実行した後に得えられた複数の目標画像について、任意の2つの当該目標画像の間には、少なくとも1つの異なるピクセル点が存在する。
いくつかの実施例において、たとえば図25に示すように、前記位置決めモジュール430は、ニューラルネットワークを利用して前記目標画像の特徴パラメータを抽出して、特徴抽出画像を得るための第1処理サブモジュール431と、前記ニューラルネットワークの予め設定された空間次元および/または予め設定されたチャネル次元上で、前記特徴抽出画像内の背景に属する第2ピクセル点に対応する重み値を増加するための第2処理サブモジュール432と、ニューラルネットワークを利用して重み値調整後の特徴抽出画像に対して分析を実行して、前記処理すべき画像を収集するカメラのワールド座標系における前記絶対位置姿勢を得るための第1位置決めサブモジュール433と、を備える。
いくつかの実施例において、たとえば図26に示すように、前記装置は、前記絶対位置姿勢と予め決定された前記処理すべき画像を収集する前記カメラの位置姿勢の真値との差異に基づいて、ニューラルネットワークのネットワークパラメータを調整して、目標ニューラルネットワークをトレーニングして得るためのトレーニングモジュール440をさらに備える。
装置の実施例の場合、基本的に方法の実施例に対応しているので、関連する部分については、方法の実施例の説明の一部を参照されたい。以上に説明した装置の実施例は、ただ模式的なものであり、その中で分離された部件として説明したユニットは、物理的に分離されてもされなくてもよく、ユニットとして示した部件は、物理的なユニットであってもなくてもよい。すなわち、1つの場所に配置されてもよいし、複数のネットワークユニットに分布されてもよい。実際の必要に従ってその中の一部またはすべてのモジュールを選択して本発明の構成の目的を実現することができる。当業者は、創造的な作業なしで、本発明の構成を理解して実行することができる。
本発明の実施例は、コンピュータ可読記録媒体をさらに提供し、記録媒体には、コンピュータプログラムが格納されており、コンピュータプログラムは、上述した任意のカメラ位置決め方法の実行に用いられる。
本発明の実施例は、カメラ位置決め装置をさらに提供し、当該装置は、プロセッサと、プロセッサによって実行可能な命令を格納するためのメモリと、を備え、プロセッサは、メモリに格納されている実行可能命令を呼び出して、上述した任意のカメラ位置決め方法を実現する。
本発明の実施例によって提供されるカメラ位置決め装置は、上述した任意の実施例によって提供される方法を実現することができる。当該カメラ位置決め装置は、画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率に基づいて、画像テンプレートと同じ大きさの処理すべき画像中の一部のピクセル点を破棄し、さらに、得られた目標画像に基づいてカメラの絶対位置姿勢を決定することができ、カメラが画像を収集する場面での物体の移動が、移動可能な機械デバイス上のカメラを位置決めする結果に与える影響を低減し、カメラ位置決めの正確性を向上させた。
本発明の実施例によって提供されるカメラ位置決め装置は、移動可能な機械デバイス上に適用され得、移動可能な機械デバイス上に装着されたカメラに対して位置決めを実行することができる。移動可能な機械デバイスが移動するので、それに応じてデバイス上に装着されたカメラの位置姿勢も変えることになる。カメラ位置決めの正確性は、移動可能な機械デバイスがさまざまなタスクを実行するときの正確度を向上させることができる。たとえば、無人車両に装着されたカメラによって収集された車両の前方環境の画像に基づいて、カメラの現在の位置決め情報を決定することができ、カメラの位置決め情報に基づいて車両の現在の位置決め情報を位置決めし、さらに、当該無人車両に対して、経路計画、軌跡追跡、衝突警告などの中の少なくとも1つのインテリジェントな運転制御を実行することができる。
本発明によって提供されるカメラ位置決め装置は、さらに、クラウドプラットフォーム、ニューラルネットワークトレーニングプラットフォームなどの、ニューラルネットワークをトレーニングする電子デバイスに適用され得る。電子デバイスによって、当該方法を採用してニューラルネットワークをトレーニングして、目標ニューラルネットワークを得る。その後、画像を目標ニューラルネットワークに入力した後に、当該画像を収集するカメラのワールド座標系における絶対位置姿勢を得ることができる。
図27に示すように、図27は、1つの例示的な実施例に係る電子デバイス2700の構成を示す模式図である。当該電子デバイス2700は、移動可能な機械デバイスと、ニューラルネットワークをトレーニングするクラウドプラットフォームと、を備える。
図27を参照すると、電子デバイス2700は、処理コンポーネント2722を含み、さらに、当該処理コンポーネント2722は、1つまたは複数のプロセッサと、メモリ2732に代表されるメモリリソースとを備え、メモリ2732は、処理コンポーネント2722によって実行され得る命令、例えば、アプリケーションプログラムを記憶する。メモリ2732に記憶されるアプリケーションプログラムは、それぞれが1セットの命令に対応する1つ又は1つ以上のモジュールを備えてもよい。また、処理コンポーネント2722は、命令を実行することで上述した任意のカメラ位置決め方法を実施するように構成される。
電子デバイス2700は、電子デバイス2700の電源管理を実行するように構成される電源コンポーネント2726と、電子デバイス2700をネットワークに接続するように構成される有線又は無線のネットワークインターフェース2750と、入力・出力(I/O)インターフェース2758とを更に備えてもよい。電子デバイス2700は、メモリ2732に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又はその他を操作してもよい。電子デバイス2700が移動可能な機械デバイスである場合、電子デバイス2700は、画像を収集するためのカメラをさらに含む。電子デバイス2700がニューラルネットワークをトレーニングするクラウドプラットフォームである場合、電子デバイスは、当該入力・出力インターフェース2758を介して移動可能な機械デバイスと通信することができる。
当業者は、明細書を検討し、ここで開示された本発明を実施した後、本発明の他の実施形態を容易に考えることができる。本発明は、本発明の任意の変形、用途、または適応的変更をカバーすることを意図している。これらの変形、用途、または適応的変更は、本発明の一般原理に従い、本発明に開示されていない技術分野における常識または従来の技術的手段を含む。明細書および実施例は、例示的なものとしてのみ見なされるべきであり、本発明の真の範囲および精神は、以下の特許請求の範囲によって指摘される。
上記は本発明の好ましい実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも、本発明が保護する範囲に含まれるべきである。

Claims (20)

  1. カメラ位置決め方法であって、
    画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得することと、
    前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得ることと、
    前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定することと、を含む
    ことを特徴とするカメラ位置決め方法。
  2. 画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得することは、
    所定の画像セット内の各画像に対してピクセルレベルのセマンティックセグメンテーションを実行することと、
    ピクセルレベルのセマンティックセグメンテーションの結果に基づいて、前記各画像内の移動可能な物体に属する第1ピクセル点および背景に属する第2ピクセル点を決定することと、
    前記各画像内の前記第1ピクセル点および前記第2ピクセル点の統計分布に基づいて、前記所定の画像セット内の画像と同じ大きさの画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に前記移動可能な物体が出現する前記事前確率を決定することと、を含む
    ことを特徴とする請求項1に記載のカメラ位置決め方法。
  3. 前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得ることは、
    前記処理すべき画像に含まれている少なくとも一部のピクセル点に対応する事前確率に対してサンプリングを実行することと、
    前記処理すべき画像内で、事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点を除去することによって、前記目標画像を得ることと、を含む
    ことを特徴とする請求項1または2に記載のカメラ位置決め方法。
  4. サンプリング回数が複数回である場合、一部のピクセル点を破棄する操作を実行した後に得えられた複数の目標画像について、任意の2つの当該目標画像の間に少なくとも1つの異なるピクセル点が存在する
    ことを特徴とする請求項3に記載のカメラ位置決め方法。
  5. 前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定することは、
    ニューラルネットワークを利用して前記目標画像の特徴パラメータを抽出して、特徴抽出画像を得ることと、
    前記ニューラルネットワークの予め設定された空間次元および/または予め設定されたチャネル次元上で、前記特徴抽出画像内の背景に属する第2ピクセル点に対応する重み値を増加することと、
    前記ニューラルネットワークを利用して重み値調整後の特徴抽出画像に対して分析を実行して、前記処理すべき画像を収集するカメラのワールド座標系における前記絶対位置姿勢を得ることと、を含む
    ことを特徴とする請求項1~4の中のいずれか1項に記載のカメラ位置決め方法。
  6. 前記ニューラルネットワークを利用して重み値調整後の特徴抽出画像に対して分析を実行して、前記処理すべき画像を収集するカメラのワールド座標系における前記絶対位置姿勢を得ることの後に、前記カメラ位置決め方法は、
    前記絶対位置姿勢と予め決定された前記処理すべき画像を収集する前記カメラの位置姿勢の真値との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整して、目標ニューラルネットワークをトレーニングして得ることをさらに含む
    ことを特徴とする請求項5に記載のカメラ位置決め方法。
  7. 前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定することは、
    前記処理すべき画像を前記目標ニューラルネットワークに入力して、前記処理すべき画像を収集するカメラのワールド座標系における前記絶対位置姿勢を得ることを含む
    ことを特徴とする請求項6に記載のカメラ位置決め方法。
  8. 前記処理すべき画像は、前記カメラによって収集された時系列を有する少なくとも2つのフレームの画像を含み、
    前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定することの後に、前記カメラ位置決め方法は、
    前記少なくとも2つのフレームの画像に基づいて、前記少なくとも2つのフレームの画像を撮影するときの前記カメラの相対位置姿勢を決定することと、
    前記カメラの相対位置姿勢と前記絶対位置姿勢とに基づいて、前記カメラの補正位置姿勢を決定することと、をさらに含む
    ことを特徴とする請求項1~7の中のいずれか1項に記載のカメラ位置決め方法。
  9. 前記カメラの相対位置姿勢と前記絶対位置姿勢とに基づいて、前記カメラの補正位置姿勢を決定することは、
    前記絶対位置姿勢の決定性確率を決定することと、
    前記決定性確率に基づいて前記相対位置姿勢の第1重みおよび前記絶対位置姿勢の第2重みを決定することと、
    前記相対位置姿勢、前記第1重み、前記絶対位置姿勢、および前記第2重みに基づいて、前記カメラの補正位置姿勢を決定することと、を含む
    ことを特徴とする請求項8に記載のカメラ位置決め方法。
  10. カメラ位置決め装置であって、
    画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に移動可能な物体が出現する事前確率を取得するための取得モジュールと、
    前記事前確率に基づいて前記画像テンプレートと同じ大きさの処理すべき画像に対して一部のピクセル点を破棄する操作を実行することによって、目標画像を得るための実行モジュールと、
    前記目標画像に基づいて、前記処理すべき画像を収集するカメラのワールド座標系における絶対位置姿勢を決定するための位置決めモジュールと、を備える
    ことを特徴とするカメラ位置決め装置。
  11. 前記取得モジュールは、
    所定の画像セット内の各画像に対してピクセルレベルのセマンティックセグメンテーションを実行するための分割サブモジュールと、
    ピクセルレベルのセマンティックセグメンテーションの結果に基づいて、前記各画像内の移動可能な物体に属する第1ピクセル点および背景に属する第2ピクセル点を決定するための第1決定サブモジュールと、
    前記各画像内の前記第1ピクセル点および前記第2ピクセル点の統計分布に基づいて、前記所定の画像セット内の画像と同じ大きさの画像テンプレートに含まれている複数のピクセル点の中の各ピクセル点に前記移動可能な物体が出現する前記事前確率を決定するための第2決定サブモジュールと、を備える
    ことを特徴とする請求項10に記載のカメラ位置決め装置。
  12. 前記実行モジュールは、
    前記処理すべき画像に含まれている少なくとも一部のピクセル点に対応する事前確率に対してサンプリングを実行するためのサンプリングサブモジュールと、
    前記処理すべき画像内で、事前確率のサンプリング値が予め設定された閾値よりも大きいピクセル点を除去することによって、前記目標画像を得るための実行サブモジュールと、を備える
    ことを特徴とする請求項10または11に記載のカメラ位置決め装置。
  13. サンプリング回数が複数回である場合、一部のピクセル点を破棄する操作を実行した後に得えられた複数の目標画像について、任意の2つの当該目標画像の間には少なくとも1つの異なるピクセル点が存在する
    ことを特徴とする請求項12に記載のカメラ位置決め装置。
  14. 前記位置決めモジュールは、
    ニューラルネットワークを利用して前記目標画像の特徴パラメータを抽出して、特徴抽出画像を得るための第1処理サブモジュールと、
    前記ニューラルネットワークの予め設定された空間次元および/または予め設定されたチャネル次元上で、前記特徴抽出画像内の背景に属する第2ピクセル点に対応する重み値を増加するための第2処理サブモジュールと、
    前記ニューラルネットワークを利用して重み値調整後の特徴抽出画像に対して分析を実行して、前記処理すべき画像を収集するカメラのワールド座標系における前記絶対位置姿勢を得るための第1位置決めサブモジュールと、を備える
    ことを特徴とする請求項10~13の中のいずれか1項に記載のカメラ位置決め装置。
  15. 前記絶対位置姿勢と予め決定された前記処理すべき画像を収集する前記カメラの位置姿勢の真値との差異に基づいて、前記ニューラルネットワークのネットワークパラメータを調整して、目標ニューラルネットワークをトレーニングして得るためのトレーニングモジュールをさらに備える
    ことを特徴とする請求項14に記載のカメラ位置決め装置。
  16. 前記位置決めモジュールは、
    前記処理すべき画像を前記目標ニューラルネットワークに入力して、前記処理すべき画像を収集するカメラのワールド座標系における前記絶対位置姿勢を得るための第2位置決めサブモジュールを備える
    ことを特徴とする請求項15に記載のカメラ位置決め装置。
  17. 前記処理すべき画像は、前記カメラによって収集された時系列を有する少なくとも2つのフレームの画像を含み、
    前記カメラ位置決め装置は、
    前記少なくとも2つのフレームの画像に基づいて、前記少なくとも2つのフレームの画像を撮影するときの前記カメラの相対位置姿勢を決定するための第1決定モジュールと、
    前記カメラの相対位置姿勢と前記絶対位置姿勢とに基づいて、前記カメラの補正位置姿勢を決定するための第2決定モジュールと、をさらに備える
    ことを特徴とする請求項10~16の中のいずれか1項に記載のカメラ位置決め装置。
  18. 前記第2決定モジュールは、
    前記絶対位置姿勢の決定性確率を決定するための第3決定サブモジュールと、
    前記決定性確率に基づいて前記相対位置姿勢の第1重みおよび前記絶対位置姿勢の第2重みを決定するための第4決定サブモジュールと、
    前記相対位置姿勢、前記第1重み、前記絶対位置姿勢、および前記第2重みに基づいて、前記カメラの補正位置姿勢を決定するための第5決定サブモジュールと、をさらに備える
    ことを特徴とする請求項17に記載のカメラ位置決め装置。
  19. コンピュータ可読記録媒体であって、
    前記コンピュータ可読記録媒体には、コンピュータプログラムが格納されており、
    前記コンピュータプログラムは、請求項1~9の中のいずれか1項に記載のカメラ位置決め方法の実行に用いられる
    ことを特徴とするコンピュータ可読記録媒体。
  20. 電子デバイスであって、
    プロセッサと、
    前記プロセッサによって実行可能な命令を格納するためのメモリと、を備え、
    前記プロセッサは、前記メモリに格納されている実行可能命令を呼び出して、請求項1~9の中のいずれか1項に記載のカメラ位置決め方法を実現する
    ことを特徴とする電子デバイス。
JP2021534170A 2019-05-27 2020-05-22 カメラ位置決め Pending JP2022513868A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910447759.7 2019-05-27
CN201910447759.7A CN112001968B (zh) 2019-05-27 2019-05-27 相机定位方法及装置、存储介质
PCT/CN2020/091768 WO2020238790A1 (zh) 2019-05-27 2020-05-22 相机定位

Publications (1)

Publication Number Publication Date
JP2022513868A true JP2022513868A (ja) 2022-02-09

Family

ID=73461260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534170A Pending JP2022513868A (ja) 2019-05-27 2020-05-22 カメラ位置決め

Country Status (4)

Country Link
JP (1) JP2022513868A (ja)
KR (1) KR20210095925A (ja)
CN (1) CN112001968B (ja)
WO (1) WO2020238790A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885134B (zh) * 2021-01-24 2023-05-16 陕西合友网络科技有限公司 一种基于大数据的智慧城市交通管理方法
CN114118367B (zh) * 2021-11-16 2024-03-29 上海脉衍人工智能科技有限公司 增量式神经辐射场构建的方法及设备
CN114693776A (zh) * 2022-03-25 2022-07-01 广东电网有限责任公司 一种电缆位置信息确定方法、装置、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215052A (ja) * 2010-03-31 2011-10-27 Aisin Aw Co Ltd 風景画像認識を用いた自車位置検出システム
JP2013092955A (ja) * 2011-10-27 2013-05-16 Hitachi Ltd 映像解析装置及びシステム
JP2016177388A (ja) * 2015-03-18 2016-10-06 株式会社リコー 移動体位置姿勢計測装置
JP2018113021A (ja) * 2017-01-06 2018-07-19 キヤノン株式会社 情報処理装置およびその制御方法、プログラム
WO2018134587A1 (en) * 2017-01-23 2018-07-26 Oxford University Innovation Limited Determining the location of a mobile device
CN109387204A (zh) * 2018-09-26 2019-02-26 东北大学 面向室内动态环境的移动机器人同步定位与构图方法
JP2019045892A (ja) * 2017-08-29 2019-03-22 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び、移動体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978722A (zh) * 2015-07-06 2015-10-14 天津大学 基于背景建模的多曝光图像融合鬼影去除方法
CN105931275A (zh) * 2016-05-23 2016-09-07 北京暴风魔镜科技有限公司 基于移动端单目和imu融合的稳定运动跟踪方法和装置
US10467756B2 (en) * 2017-05-14 2019-11-05 International Business Machines Corporation Systems and methods for determining a camera pose of an image
CN107833236B (zh) * 2017-10-31 2020-06-26 中国科学院电子学研究所 一种动态环境下结合语义的视觉定位系统和方法
CN108257177B (zh) * 2018-01-15 2021-05-04 深圳思蓝智创科技有限公司 基于空间标识的定位系统与方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011215052A (ja) * 2010-03-31 2011-10-27 Aisin Aw Co Ltd 風景画像認識を用いた自車位置検出システム
JP2013092955A (ja) * 2011-10-27 2013-05-16 Hitachi Ltd 映像解析装置及びシステム
JP2016177388A (ja) * 2015-03-18 2016-10-06 株式会社リコー 移動体位置姿勢計測装置
JP2018113021A (ja) * 2017-01-06 2018-07-19 キヤノン株式会社 情報処理装置およびその制御方法、プログラム
WO2018134587A1 (en) * 2017-01-23 2018-07-26 Oxford University Innovation Limited Determining the location of a mobile device
JP2019045892A (ja) * 2017-08-29 2019-03-22 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び、移動体
CN109387204A (zh) * 2018-09-26 2019-02-26 东北大学 面向室内动态环境的移动机器人同步定位与构图方法

Also Published As

Publication number Publication date
KR20210095925A (ko) 2021-08-03
CN112001968B (zh) 2022-07-15
WO2020238790A1 (zh) 2020-12-03
CN112001968A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
US10719940B2 (en) Target tracking method and device oriented to airborne-based monitoring scenarios
JP7218805B2 (ja) ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション
JP2022513868A (ja) カメラ位置決め
CN109166094B (zh) 一种基于深度学习的绝缘子故障定位识别方法
CN110688925B (zh) 基于深度学习的级联目标识别方法及系统
CN111127557B (zh) 一种基于深度学习的视觉slam前端位姿估计方法
CN111126399B (zh) 一种图像检测方法、装置、设备及可读存储介质
CN111079561A (zh) 一种基于虚拟训练的机器人智能抓取方法
CN109977774B (zh) 一种基于自适应卷积的快速目标检测方法
CN109145836B (zh) 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法
CN114207541B (zh) 轨线预测
CN108197566B (zh) 一种基于多路神经网络的监控视频行为检测方法
CN109377555B (zh) 自主水下机器人前景视场三维重建目标特征提取识别方法
Ringwald et al. UAV-Net: A fast aerial vehicle detector for mobile platforms
CN109658442B (zh) 多目标跟踪方法、装置、设备及计算机可读存储介质
CN108320306B (zh) 融合tld和kcf的视频目标跟踪方法
CN111091023B (zh) 一种车辆检测方法、装置及电子设备
CN111738114A (zh) 基于无锚点精确采样遥感图像车辆目标检测方法
CN110363799B (zh) 人机共存环境下基于视觉的多运动人体目标跟踪方法
KR102613887B1 (ko) 비디오 신원 복원 모델을 이용한 얼굴 이미지 재구성 방법 및 장치
CN115909110A (zh) 一种基于Siamese网络的轻量级红外无人机目标跟踪方法
CN108053422A (zh) 移动目标监测方法
CN113989296A (zh) 基于改进U-net网络的无人机麦田遥感图像分割方法
CN112819856A (zh) 一种应用于无人机的目标跟踪方法及自定位方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210614

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230131