JP2023181990A - ニューラルネットワークモデル訓練方法及び画像生成方法 - Google Patents

ニューラルネットワークモデル訓練方法及び画像生成方法 Download PDF

Info

Publication number
JP2023181990A
JP2023181990A JP2023095769A JP2023095769A JP2023181990A JP 2023181990 A JP2023181990 A JP 2023181990A JP 2023095769 A JP2023095769 A JP 2023095769A JP 2023095769 A JP2023095769 A JP 2023095769A JP 2023181990 A JP2023181990 A JP 2023181990A
Authority
JP
Japan
Prior art keywords
point
point cloud
points
scene
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023095769A
Other languages
English (en)
Inventor
▲イェン▼岩
Yan Yan
陳▲ウィン▼韜
Yuntao Chen
王乃岩
Nai Yan Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tusimple Technology Co Ltd
Original Assignee
Beijing Tusimple Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tusimple Technology Co Ltd filed Critical Beijing Tusimple Technology Co Ltd
Publication of JP2023181990A publication Critical patent/JP2023181990A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/06Ray-tracing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/60Shadow generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】画像を生成する過程において点群の特性を十分に利用し、広範囲の背景に関連する画像情報を生成することができ、及び/又は移動物体の画像情報を正確に生成する画像生成方法及びニューラルネットワークモデル訓練方法を提供する。【解決手段】ニューラルネットワークモデル訓練方法は、カメラが収集したシーンに関連する画像を取得するステップと、少なくとも前記画像を収集する時のカメラのパラメータに基づいて、複数の放射線を決定するステップと、放射線とシーンの一部分に関連する点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップと、前記画像におけるサンプリング点に対応する画素の色情報を決定するステップと、前記サンプリング点の位置及び前記画素の色情報に基づいてニューラルネットワークモデルを訓練するステップと、を含む。【選択図】図4

Description

本開示はシーンシミュレーションに関し、特に、ニューラルネットワークモデル訓練方法、及びニューラルネットワークモデルを用いて画像を生成する方法に関する。
深層学習の急速な発展に伴い、必要なデータ量もますます大きくなる。自動運転分野では、深層学習モデルが様々なシーンをカバーするために、一般的に、大量のデータが必要とされる。自動運転車両がテストコースを絶えず繰り返し走行し、その間、車両に取り付けられたセンサが車両周辺環境のデータを収集するようにすることが慣例である。しかし、いくつかの希少なシーンが一般的なロードテストにおいて遭遇しにくい。したがって、これらの希少なシーンについては、十分な量のデータを収集することが一般的に困難であり、深層学習モデルがこのようなシーンを処理する能力も大きく損なわれる。したがって、自動運転シミュレーションプラットフォーム、特にディープニューラルネットワークを用いる自動運転シミュレーションプラットフォームは、ますます重要視されている。自動運転シミュレーションプラットフォームでは、一般的に、高速で走行する移動車両をモデリングする必要があるため、複雑なシーン(例えば、広範囲シーン)のシミュレーション及びレンダリングが必要とされる。
本開示はニューラルネットワークモデル訓練方法、及びニューラルネットワークモデルを用いて画像を生成する方法を提供し、当該方法を用いるシミュレーションプラットフォームは複雑なシーンを処理することができる。
一態様において、本開示は、
カメラが収集したシーンに関連する画像を取得するステップと、
少なくとも前記画像を収集する時のカメラのパラメータに基づいて、複数の放射線を決定するステップと、
前記放射線と点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップであって、前記点群は前記シーンの一部分に関連するステップと、
前記画像におけるサンプリング点に対応する画素の色情報を決定するステップと、
前記サンプリング点の位置及び前記画素の色情報に基づいてニューラルネットワークモデルを訓練するステップと、を含む、ニューラルネットワークモデル訓練方法を提供する。
別の態様において、本開示は、
所定の位置から複数の方向に発する複数の放射線を決定するステップと、
前記放射線と点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップであって、前記点群はシーンの少なくとも一部分に関連するステップと、
前記複数のサンプリング点を訓練されたニューラルネットワークモデルに入力し、各サンプリング点の色情報を得るステップと、
前記複数のサンプル点の色情報に基づいて前記シーンの前記少なくとも一部分に関連する画像を生成するステップと、を含む、画像を生成するための方法を提供する。
自動運転シミュレーションプラットフォームでは、移動物体(例えば、車両)をモデリングすると、シミュレーション及びレンダリングのシーン範囲は非常に大きい。本開示のニューラルネットワークモデル訓練方法によれば、このような複雑なシーンを好適に処理することができる。本開示のニューラルネットワークモデル訓練方法は、画像及び点群に合わせてニューラルネットワークモデルを訓練し、点群の特性(例えば、点群のスパース性及び点群のレジストレーション可能性)を十分に利用し、ニューラルネットワークモデルが広範囲の背景を表すことができ、及び/又は移動物体を正確に表すことができるようにする。本開示の画像を生成するための方法によれば、画像を生成する過程において点群の特性(例えば、点群のスパース性及び点群のレジストレーション可能性)を十分に利用し、広範囲の背景に関連する画像情報を生成することができ、及び/又は移動物体の画像情報を正確に生成することができる。
図面は実施例を例示的に示し、明細書の一部として構成されるものであり、明細書の文字記載とともに実施例の例示的な実施形態を説明するために用いられる。当然のことながら、以下の説明における図面は単に本発明のいくつかの実施例であり、当業者であれば、創造的な労力をせず、これらの図面に基づいて他の図面を得ることができる。全ての図面において、同一の符号は、必ずしも同一ではないが類似の要素を指す。
本開示の様々な技術が実装され得る車両の模式図である。 本開示の例示的な実施例によるコンピューティング機器の模式図である。 本開示の例示的な実施例による異なる時刻でのシーンの模式図である。 本開示の例示的な実施例による異なる時刻でのシーンの模式図である。 開示された例示的な実施例によるニューラルネットワークモデル訓練方法のフローチャートである。 開示された例示的な実施例による訓練されたニューラルネットワークモデルを用いて画像を生成する方法のフローチャートである。 本開示の例示的な実施例によるニューラルネットワークモデルの模式図である。 本開示の例示的な実施例によるニューラルネットワークモデルの模式図である。 本開示の例示的な実施例によるニューラルネットワークモデルの模式図である。 本開示の例示的な実施例による複数のグリッドを用いて複数のサンプリング点を生成するプロセスのフローチャートである。
以下、図面及び実施例に合わせて本開示についてさらに詳しく説明する。本明細書に記載された具体的な実施例は本開示を説明するためのものに過ぎず、本開示を限定するものではないことを理解されたい。また、矛盾しない場合、本開示における実施例及び実施例における特徴は互いに組み合わせることができる。なお、説明の便宜上、構造の全部ではなく、本開示に関連する部分のみを図面において示す。
なお、本開示の実施例に言及する「第1」、「第2」などの概念は異なる装置、モジュール、ユニット又は他のオブジェクトを区別するためのものに過ぎず、これらの装置、モジュール、ユニット又は他のオブジェクトが実行する機能の順序又は相互依存関係を限定するためのものではないことに留意されたい。
図1は本明細書に開示される様々な技術が実装され得る車両100の模式図である。車両100は乗用車、トラック、オートバイ、バス、レクリエーション用車両、遊園地車両、路面電車、ゴルフカート、列車、トロリーバス、又は他の車両であってよい。車両100は完全又は部分的に自動運転モードで走行することができる。自動運転モードでは、車両100はそれ自身を制御することができ、例えば、車両100は、車両の現在の状態及び車両を取り巻く環境の現在の状態を決定し、当該環境における少なくとも1つの他の車両の予測行動を決定し、当該少なくとも1つの他の車両が予測行動を実行する可能性に対応する信頼レベルを決定し、また、決定した情報に基づいて、車両100自身を制御することができる。自動運転モードにある場合、車両100はインタラクション無しで走行できる。
車両100は、例えば、駆動システム142、センサシステム144、制御システム146、コンピューティングシステム150及び通信システム152など、様々な車両システムを含んでよい。車両100はより多くのシステム又はより少ないシステムを含んでもよく、各システムは複数のユニットを含んでよい。さらに、車両100のそれぞれのシステム及びユニットの間は相互接続できる。例えば、コンピューティングシステム150は駆動システム142、センサシステム144、制御システム146及び通信システム152のうちの1つ又は複数とデータ通信を行うことができる。さらなる例では、付加的な機能性部材又は実体部材を車両100に追加することができる。
駆動システム142は車両100に運動エネルギーを提供する複数の操作可能な部材(又はユニット)を含んでよい。一実施例において、駆動システム142はエンジン又は電動機、車輪、変速機、電子システム、及び動力(又は動力源)を含んでよい。
センサシステム144は、車両100の環境及び条件の情報を検知するための複数のセンサを含んでよい。例えば、センサシステム144は慣性測定ユニット(IMU)、全地球航法衛星システム(GNSS)受信機(例えば、全地球測位システム(GPS)受信機)、無線検知と測距(RADAR)センサ、レーザ検知と測距(LIDAR)センサ、音響センサ、超音波センサ、及び画像キャプチャ装置(例えばカメラ)を含んでよい。センサシステム144に含まれる1つ又は複数のセンサは、1つ又は複数のセンサの姿勢(例えば、位置及び向き)を更新するために、個別に駆動されても、集合的に駆動されてもよい。
LIDARセンサは、レーザを使用して車両100を取り巻く環境における物体を検知する任意のセンサであってよい。一実施例において、LIDARセンサはレーザ光源、レーザスキャナー、及び検知器を含んでよい。LIDARセンサは、連続的又は不連続な検出モードで動作するために用いられる。画像キャプチャ装置は、車両100を取り巻く環境の複数の画像をキャプチャするための装置を含んでよい。画像キャプチャ装置の一例として、カメラが挙げられ、カメラは静止画像カメラであっても、動画カメラであってもよい。
センサシステム144のいくつかのセンサは、例えばカメラ及びLIDARセンサが挙げられ、同一の時刻又はほぼ同一の時刻で、カメラが収集した画像及びLIDARセンサが収集した点群は同一のシーン内容に関連するデータを有するように、重なる視野を有することができる。
制御システム146は車両100及びその部材(又はユニット)への操作を制御するために用いられる。それに応じて、制御システム146は、例えば、ステアリングユニット、動力制御ユニット、制動ユニット及びナビゲーションユニットなど、様々なユニットを含んでよい。
通信システム152は、1つ又は複数の機器や周辺の他の車両と通信する手段を車両100に提供することができる。例示的な一実施例において、通信システム152は、直接、又は通信ネットワークを介して1つ又は複数の機器と通信することができる。通信システム152は、例えば有線又は無線通信システムであってよい。例えば、通信システムは、3Gセルラ通信(例えば、CDMA、EVDO、GSM/GPRS)又は4Gセルラ通信(例えば、WiMAX又はLTEe)を用いてよく、5Gセルラ通信を用いてもよい。任意選択的に、通信システムは、無線ローカルエリアネットワーク(WLAN)と通信することができる(例えば、WIFI(登録商標)を用いる)。情報/データはネットワーク114を介して通信システム152と車両100に対して遠隔に設置されたコンピューティング機器(例えばコンピューティング機器120)との間を伝搬することができる。ネットワーク114は単一のネットワークであっても、少なくとも2つの異なるネットワークの組み合わせであってもよい。例えば、ネットワーク114は、ローカルエリアネットワーク、ワイドエリアネットワーク、パブリックネットワーク、プライベートネットワークなどのうちの1つ又は複数の組み合わせを含んでよいが、これらに限定されない。なお、図1において、コンピューティング機器120が車両100に対して遠隔に設置されるが、当業者であれば理解できるように、コンピューティング機器120は車両100内に位置してもよく、またコンピューティングシステム150の一部としてもよい。
コンピューティングシステム150は車両100の機能の一部又は全部を制御することができる。コンピューティングシステム150における自動運転制御ユニットは、車両100を取り巻く環境における潜在的な障害物を認識し、評価し、回避し、又は越えるために用いることができる。いくつかの実施例において、自動運転制御ユニットは、例えば、GPSトランシーバのデータ、RADARデータ、LIDARデータ、カメラデータといったセンサからのデータ、及び他の車両システムからのデータを組み合わせて、車両100の走行経路又は軌跡を決定するために用いられる。
コンピューティングシステム150は少なくとも1つのプロセッサ(それは少なくとも1つのマイクロプロセッサを含んでよい)及びメモリ(メモリはコンピュータ読み取り可能な記憶媒体の一例である)を含んでよく、プロセッサはメモリに記憶された処理命令を実行する。いくつかの実施例において、メモリは、プロセッサにより実行されて車両100の様々な機能を実現する処理命令(例えば、プログラム論理)を含んでよい。メモリは、データ送信のための命令、データ受信のための命令、インタラクションのための命令、又は駆動システム142、センサシステム144、制御システム146若しくは通信システム152を制御するための命令を含む他の命令を含んでもよい。
メモリは、処理命令を記憶することに加えて、例えば、センサシステム144の各センサのパラメータ及びセンサシステム144から受信されたデータ(例えば、LIDARセンサから受信された点群、カメラから受信された画像)といった様々な情報又はデータを記憶することができる。
図1において、自動運転制御ユニットはプロセッサ及びメモリとは別個に示されているが、いくつかの実施形態において、自動運転制御ユニットの機能の何らか又は全部は、メモリ中に存在しているプログラムコード命令により実現し、プロセッサにより実行することができることを理解されたい。
図2は本願の例示的な実施例による図1のコンピューティング機器120の模式図である。コンピューティング機器120はサーバ、パーソナルコンピュータ(PC)、ラップトップコンピュータ、タブレットコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、スマートフォン、セットトップボックス(STB)などであってよい。例示的なコンピューティング機器120は、バス206又は他のデータ伝送システムを介して互いに通信できるデータプロセッサ202(例えば、システムオンチップ(SoC)、汎用プロセッサコア、グラフィックカーネル及びオプションの他の処理論理)及びメモリ204を含んでよい。コンピューティング機器120は様々な入力/出力(I/O)機器又はインタフェース210(例えば、タッチスクリーンディスプレイ、オーディオジャック、音声インタフェース)及びオプションのネットワークインタフェース212を含んでもよい。ネットワークインタフェース212は3Gセルラ通信(例えば、CDMA、EVDO、GSM/GPRS)又は4Gセルラ通信(例えば、WiMAX又はLTEe)を用いてよく、5Gセルラ通信を用いてもよい。任意選択的に、ネットワークインタフェース212は無線ローカルエリアネットワーク(WLAN)と通信することができる(例えば、WIFI(登録商標)を用いる)。例示的な実施例において、ネットワークインタフェース212は、実際には、任意の有線及び/又は無線通信と、データ処理機構とを含むか、又はサポートすることができ、当該機構により、情報/データはネットワーク214を介してコンピューティング機器120と別のコンピューティング機器又はシステム(例えば、コンピューティングシステム150)との間を伝播することができる。ネットワーク214は図1に示すネットワーク114と同様なネットワークであっても、ネットワーク114とは異なる別のネットワークであってもよい。
メモリ204はコンピュータ読み取り可能な記憶媒体の一例であり、コンピュータ読み取り可能な記憶媒体には、本明細書に説明及び/又は請求される方法又は機能のいずれか1つ又は複数の1つ又は複数の命令セット、ソフトウェア、ファームウェア、又は他の処理論理(例えば、論理208)が記憶される。コンピューティング機器120により実行される間に、論理208、又はその一部分は完全に又は少なくとも部分的にプロセッサ202内に存在してもよい。論理208、又はその一部分は処理論理又は論理として構成されてもよく、当該処理論理又は論理の少なくとも一部分は部分的にハードウェアに実装される。論理208、又はその一部分はネットワークインタフェース212を経由してネットワーク214を介して伝送又は受信されてもよい。
用語のコンピュータ読み取り可能な記憶媒体は、1つ又は複数の命令セットを記憶する単一の非一時的媒体又は複数の非一時的媒体(例えば、集中型又は分散型データベース及び/又は関連するキャッシュメモリとコンピューティングシステム)を含むものとして理解されてよい。用語のコンピュータ読み取り可能な記憶媒体は、機械に実行させるために、命令セットを記憶、符号化又は携帯し、様々な実施例の方法のいずれか1つ又は複数を機械に実行させることができ、又はこのような命令セットに利用されたり、関連付けられたりするデータ構造を記憶、符号化、又は携帯できる、任意の非一時的媒体を含むものとして理解されてもよい。したがって、用語のコンピュータ読み取り可能な記憶媒体は、ソリッドステートメモリ、光学媒体及び磁気媒体を含むが、これらに限定されないものとして理解されてよい。
図3A及び図3Bは本願の例示的な実施例によるシーンの模式図を示す。図3Aは第1の時刻でのシーンの模式図であり、図3Bは第1の時刻後の第2の時刻での当該シーンの模式図である。図3A及び図3Bに示すように、車両100はシーン300において走行でき、車両100はセンサシステム144(図1参照)によりシーン300に関連するシーンデータ(センサデータとも呼ばれる)を収集する。シーン300は、例えば、静的オブジェクト及び動的オブジェクトといった様々なオブジェクト(すなわちシーン内容)を含んでよい。静的オブジェクトは、建物、道路標識、木、縁石などを含むシーンの背景を構成することができる。動的オブジェクトは、車両、自転車、歩行者などを含む。静的オブジェクト同士の相対的な位置は、一般的に、車両100がシーンデータを収集する過程において変化しないが、動的オブジェクト同士の相対的な位置及び動的オブジェクトと静的オブジェクトとの相対的な位置は、一般的に、車両100がシーンデータを収集する過程において変化する。
例えば、図3A及び図3Bの例において、シーン300は、道路320、木321、縁石322、建物323及び道路上の車線325などの静的オブジェクトを含んでよく、これらの静的オブジェクトはシーン300の背景を構成する。シーン300は車両331及び車両332などの動的オブジェクトを含んでもよい。図3Aに示すように、第1の時刻では、車両331及び車両332はシーン300のほぼ中央位置にある。図3Bに示すように、第2の時刻では、車両331及び車両332はシーンのより右側の位置まで移動する。図3A及び図3Bから分かるように、第1の時刻と第2の時刻との間に、道路320、木321、縁石322、建物323、車線325などの静的オブジェクトの位置が変化せず、車両331及び車両332などの動的オブジェクトの位置が変化する。
車両100のセンサシステム144(図1参照)は図3A及び図3Bに示すカメラ304及びLIDARセンサ306を含む。カメラ304及びLIDARセンサ306は重なる視野を有する。図3A及び図3Bの両方には、車両100における1つのカメラ及び1つのLIDARセンサが示されるが、当業者であれば理解できるように、車両100のセンサシステムはより多くのカメラ及びより多くのLIDARセンサを含んでもよい。車両100のセンサシステムは図3に示されていない他のタイプのセンサを含んでもよい。車両100はシーン300において複数回往復走行できる。車両100がシーン300において走行する過程において、車両100のセンサシステムを用いてシーン300のシーンデータを取得することができる。シーンデータはカメラ304が収集した1フレーム又は複数フレームの画像、及びLIDARセンサ306が収集した1フレーム又は複数フレームの点群を含んでよい。シーンデータは他の種類のセンサ(例えばRadar)が収集したシーンデータを含んでもよい。以上図1に記述したように、車両100のコンピューティングシステム150はセンサシステム144と相互接続し、センサシステム144のセンサ(例えば、カメラ及びLIDARセンサ)を、当該シーンのシーンデータ(例えば、画像及び点群)を収集するように制御することができる。
LIDARセンサ306が収集した点群はLIDARセンサの視野内のシーン内容を表す点を含む。いくつかの実施形態において、点群の点はシーン内容に関連する位置情報を含んでよい。例えば、LIDARセンサが収集した点群における各点は局地座標系(すなわち、車両100を参照物体として確立された座標系)における1組の座標を有する。一例において、局地座標系はLIDARセンサの中心を原点、車両の向きを局地座標系のX軸、車両の所在地面に垂直な方向を局地座標系のZ軸、X軸及びZ軸に垂直な方向を局地座標系のY軸とする。
図1と併せて図3A及び図3Bを参照すると、車両100の走行中に、コンピューティングシステム150はトリガ信号をセンサシステム144のセンサ(例えば、カメラ304及びLIDARセンサ306)に同時に送信し、カメラ304及びLIDARセンサ306を、画像及び点群を収集するように同時又はほぼ同時にトリガすることができる。1つのトリガ信号のトリガで、カメラ304は1フレームの画像を収集し、LIDARセンサ306は1フレームの点群を収集する。車両100の走行中に、コンピューティングシステム150はカメラ304及びLIDAR306にトリガ信号を周期的に送信でき、それにより、複数フレームの画像及び複数フレームの点群を収集する。カメラ304及びLIDARセンサ306は重なる視野を有するため、同一の時刻又はほぼ同一の時刻で、カメラが収集した画像及びLIDARセンサが収集した点群は同一のシーン内容に関連するデータを有する。コンピューティングシステム150は各フレームの画像及び各フレームの点群にタイムスタンプを付加し、タイムスタンプは当該フレームの画像及び点群の収集時間を表すために用いることができる。コンピューティングシステム150は各フレームの画像及び各フレームの点群にカメラ304のパラメータ及びLIDARセンサ306のパラメータ(センサパラメータと総称)を付加してもよい。これらのセンサパラメータは各センサの内部パラメータ及び外部パラメータを含んでよい。カメラ304については、その内部パラメータは、例えば、焦点距離、画素サイズ、画像形成中心の位置などを含み、外部パラメータはカメラの姿勢(姿勢は位置及び向きを含む)を含む。タイムスタンプ及びセンサパラメータが付加されたこれらのシーンデータ(例えば、画像及び点群)は、コンピューティングシステム150のメモリに記憶されても、又はコンピューティング機器120に伝送されてもよい。
いくつかの実施例において、コンピューティング機器120はコンピューティングシステム150から受信した各フレームの点群に対して目標識別を行うことができる。コンピューティング機器120は、いくつかのフレーム内において、いずれもある動的オブジェクト(例えば、車両331及び車両332)に関連する点を識別することがある(本開示では、これらのフレームは当該動的オブジェクトの関連フレームとも呼ばれる)。これらの動的オブジェクトの関連フレームに対して、コンピューティング機器120は各フレームにおける当該動的オブジェクトに関連する点に基づいて当該動的オブジェクトの元の表示(例えば元のバウンディングボックス)を生成することができ、コンピューティング機器120は各フレームの点群に対して他の点(例えば元のバウンディングボックス以外の点)を除去し、当該動的オブジェクトに関連する点のみを保持することができる。本開示では、当該動的オブジェクトに関連する点のみを有するこれらのフレームは当該動的オブジェクトに関連する点群配列とも呼ばれる。すなわち、当該点群配列は複数フレームの点群を含み、各フレームの点群は当該動的オブジェクトに関連する点のみを有する。反復最接近点(Iterative Closest Point、ICP)アルゴリズムにより、前記点群配列に対してレジストレーションを行い、レジストレーションを行われた点群配列を重畳し、それにより当該動的オブジェクトの点群(すなわち、集合点群)を得ることができる。当該動的オブジェクトの点群に基づいて動的オブジェクトのより正確な形状を確認でき、当該動的オブジェクトの点群に基づいて当該動的オブジェクトの表示(例えば、バウンディングボックス)を生成できる。ICPアルゴリズムを用いることにより、動的オブジェクトの関連フレームの各フレームに対して、動的オブジェクトの姿勢をより正確に決定することもできる。
いくつかの実施例において、コンピューティング機器120はコンピューティングシステム150から受信した各フレームの点群から、動的オブジェクトに関連する点を除去し、静的オブジェクトに関連する点のみを残し、次いで、これらのフレームを集合することによって、シーンの静的オブジェクト全体を得ることができる。いくつかの実施形態において、コンピューティング機器120は分割アルゴリズムにより、動的オブジェクト(例えば、車両331及び332)に関連する点を各フレームから除去し、静的オブジェクト(例えば、道路320、木321、建物323、車線325)に関連する点を保持する。いくつかの実施例において、コンピューティング機器120は、まず、分割アルゴリズムを実行して、点群における各点に意味カテゴリを割り当てることができる。意味カテゴリは静的意味カテゴリ(静的オブジェクトに関連する)及び動的意味カテゴリ(動的オブジェクトに関連する)を含んでよい。続いて、コンピューティング機器120は、既に動的意味カテゴリに割り当てられた点を点群から削除し、静的意味カテゴリの点を保持する。
動的オブジェクトに関連する点を除去した後、コンピューティング機器120は各フレームの点群をいずれも共通座標系(世界座標系とも呼ばれ、すなわちシーン300の静的オブジェクト(例えば、道路又は建物)を参照物体として確立された座標系)に関連付けて集合点群を生成することができ、本開示では、このようにして得られた点群は静的オブジェクト点群又は背景点群とも呼ばれる。例えば、1フレームの点群に対して、当該フレームの点群を収集する時の車両100の姿勢(例えば、車両の位置及び向き)に基づいて、当該フレームを対応する局地座標系から世界座標系に変換することができる。こうして、点群の各点は世界座標系における1組の座標を有する。一例として、世界座標系は、原点が図3A及び図3Bに示すシーン300の左下にあり、道路300に平行な方向をX軸、道路に垂直且つ路面に平行な方向をY軸、路面に垂直な方向をZ軸とする。
図4は本開示の例示的な実施例によるニューラルネットワークモデル訓練方法である。当該ニューラルネットワークモデル訓練方法は、例えば、図2に示すコンピューティング機器120によって実行されてよい。
図4に示すように、ステップ401において、コンピューティング機器はカメラが収集したシーンに関連する画像を取得する。
図1及び図2と併せて図3A及び図3Bに示すように、コンピューティング機器120は車両100のコンピューティングシステム150から、車両100がシーン300において走行する時にセンサシステム144及びカメラ304によって収集したシーン300に関連する1フレーム又はより多くのフレームの画像を受信することができる。コンピューティング機器120はメモリ204に記憶されたシーンデータから1フレーム又はより多くのフレームの画像を取得することもでき、上記したように、メモリ204に記憶されたシーンデータはコンピューティング機器120が車両100のコンピューティングシステム150から予め受信したものである。
ステップ402において、コンピューティング機器120は少なくとも前記画像を収集する時のカメラのパラメータに基づいて、複数の放射線を決定する。
ステップ401で取得した各フレームの画像に対して、コンピューティング機器120は当該画像における1つ又は複数の画素を選択することができる。上記したように、センサシステム144のカメラ304及びLIDARセンサ306は重なる視野を有する。このように、画素を選択する時、カメラ304及びLIDARセンサ306によって取り込まれた同一のシーン内容を反映する画素を選択することができる。コンピューティング機器120は選択した画素ごとに記述されたシーン内容を意味識別によって決定し、それに基づいて画素の属性情報を生成することができる。属性情報は選択した画素の意味カテゴリ、すなわち選択した画素に記述されたオブジェクトを明示するために用いられる。選択した画素が静的オブジェクトを記述するか、動的オブジェクトを記述するかを属性情報により知ることができ、動的オブジェクトを記述すれば、選択した画素が具体的にどのオブジェクトを記述するか(例えば、選択した画素が車両331を記述するか、又は車両332を記述するか)を属性情報により知ることができる。1フレームの画像において選択したいずれかの画素に対して、当該フレームの画像を収集する時のカメラ304のパラメータに基づいて、少なくとも1つの放射線を決定し(すなわち、1つの画素は少なくとも1つの放射線を生成することができ、或いは1つの画素は少なくとも1つの放射線に対応する)、当該画素の属性情報を当該少なくとも1つの放射線に付与することができる。コンピューティングシステム150が画像を収集する時のカメラのパラメータを画像に付加するため、コンピューティング機器120は画像から当該フレームの画像を収集する時のカメラのパラメータ(例えば、カメラの外部パラメータ及び内部パラメータ)を直接読み取ることができる。1フレームの画像において選択したいずれかの画素に対して、当該フレームの画像を収集する時のカメラのパラメータがあると、当該画素の少なくとも1つの光線の部分を生成する光路を決定することができる。当該光路に基づいて当該フレームの画像を収集する時のカメラの位置を原点としてシーンに指向する放射線を生成することができ、当該放射線の方向は当該画素を生成する光線の方向と逆である。
いくつかの実施形態において、コンピューティング機器120は、ステップ401において取得した各フレームの画像に対して、画像におけるシーン300の一部分(すなわち、第1の部分)に関連する内容を決定し、コンピューティング機器120は、当該画像を収集する時のカメラ304のパラメータに加えて、当該画像におけるシーンのこの部分に関連する内容に基づいて、複数の放射線を決定する。ここでいわれるシーンの一部分は、シーンにおける少なくとも1つのオブジェクトであってよく、例えばシーン300の静的オブジェクト(すなわち、背景)又は動的オブジェクト(例えば、車両331又は車両332)であってよい。
いくつかの実施例において、シーンの第1の部分はシーンの静的オブジェクト(すなわち、背景)である。画像におけるシーンの第1の部分(すなわち、静的オブジェクト)に関連する内容(例えば、画像の画素)を決定するために、コンピューティング機器120は、ステップ401において取得した各フレームの画像に対して意味識別を行い、他の部分(すなわち、第2の部分であり、例えば、シーンの動的オブジェクトであってよい)に関連する内容を識別し、続いて画像から第2の部分(すなわち、動的オブジェクト)に関連する内容を除去し、シーンの第1の部分(すなわち、静的オブジェクト)に関連する内容を得ることができる。例えば、コンピューティング機器120は画像に対して意味識別を行い、動的オブジェクト(例えば、車両331及び車両332)に関連する画素を識別し、動的オブジェクトに関連する画素を画像の全ての画素からフィルタリングし、画像における静的オブジェクトに関連する画素を得ることができる。このようにして、1フレームの画像に対しては、当該フレームの画像を収集する時のカメラのパラメータ、及び当該画像における静的オブジェクトに関連する画素に基づいて、静的オブジェクトに対して複数の放射線を生成することができ、各放射線はいずれも原点及び方向(例えば、世界座標系における原点及び方向)を含む。
以上、意味識別によって画像における静的オブジェクトに関連する画素を決定する時に動的オブジェクトの影(すなわち、投影)を考慮しない。一般的に、意味識別はオブジェクトの影を付けない。したがって、いくつかの実施例において、画像におけるシーンの静的オブジェクト(すなわち、背景)に関連する内容を決定するために、コンピューティング機器120は、ステップ401で取得した各フレームの画像に対して意味識別を行い、動的オブジェクト(例えば、車両331及び車両332)に関連する内容を識別することができる。次いで、コンピューティング機器120は画像における動的オブジェクトの影(すなわち、投影)に関連する内容を決定し、動的オブジェクトの影に関連する内容及び動的オブジェクトに関連する内容を画像から除去し、静的オブジェクトに関連する内容を得る。例えば、このように、コンピューティング機器120は1フレームの画像に対して意味識別を行い、動的オブジェクトに関連する画素を識別することができる。コンピューティング機器120は、当該画像を収集する時間及び地理位置に基づいて、当該時間に太陽が空にある位置を判断し、続いて上記した動的オブジェクトの表示(例えばバウンディングボックス)、当該画像を収集するとともに収集する点群フレームにおける動的オブジェクトの姿勢、及び当該画像を収集する時のカメラのパラメータに合わせて、当該画像における動的オブジェクトの影に関連する画素を判断することができる。動的オブジェクトに関連する画素及び動的オブジェクトの影に関連する画素を画像からフィルタリングし、最終的に静的オブジェクトに関連する画素を得る。
いくつかの実施例において、シーンの第1の部分はシーンの1つの動的オブジェクト(例えば、車両331)である。コンピューティング機器120は、ステップ401で取得した各フレームの画像に対して意味識別を行い、画像におけるシーンの第1の部分に関連する内容を決定することができる。例えば、コンピューティング機器120は画像に対して意味識別を行い、当該動的オブジェクト(例えば、車両331)に関連する画素を識別することができる。コンピューティング機器120は当該動的オブジェクトの表示(例えば、バウンディングボックス)に基づいてオブジェクト座標系を生成することができる。上記したように、当該動的オブジェクトの点群に基づいて当該動的オブジェクトの表示を生成することができる。一例において、オブジェクト座標系の原点は動的オブジェクトの表示(例えば、バウンディングボックス)の中心に位置する。コンピューティング機器120は、1フレームの画像に対して、当該フレームの画像を収集する時のカメラの姿勢をオブジェクト座標系における姿勢に変換することができ、次いで、当該フレームの画像を収集する時のカメラのパラメータ、及び当該画像における動的オブジェクトに関連する画素に基づいて、当該動的オブジェクトに対して複数の放射線を生成することができ、各放射線はいずれも原点及び方向(例えば、オブジェクト座標系における原点及び方向)を含む。
ステップ403において、コンピューティング機器120は放射線と点群(当該点群は上記シーンの第1の部分に関連する)との相対的な位置関係に基づいて、複数のサンプリング点を決定する。
放射線の属性情報に基づいて当該放射線に関連するシーン部分(すなわち、当該放射線に対応する画素が記述するオブジェクト)を知ることができ、コンピューティング機器120は当該放射線及び当該シーン部分に関連する点群に基づいて、複数のサンプリング点を決定することができる。これらのサンプリング点が当該放射線に対応する画素の色を決定し、或いは、当該放射線に対応する画素の色はこれらのサンプリング点に関連する。点群における各点は関連するシーン内容又はオブジェクトの位置を反映する位置データを含み、したがって、放射線の原点及び方向が知られ、点群に合わせて、放射線と関連するシーン内容又はオブジェクトとの1つ又は複数の交点(すなわち、サンプリング点)を決定することができる。当該交点からの光線がカメラの受光領域に到達した後に、当該放射線に対応する画素を生成し、或いは、当該画素の色は当該交点の色を反映する。
シーンの第1の部分がシーンの静的オブジェクト(すなわち、背景)である場合、コンピューティング機器120は放射線と静的オブジェクト点群(すなわち、背景点群)との相対的な位置関係に基づいて、静的オブジェクト(すなわち、背景)に関連する複数のサンプリング点を決定する。コンピューティング機器120が静的オブジェクトに関連するサンプリング点を決定する際に、静的オブジェクトといかなる交点も存在しない可能性がある放射線があり、このような放射線ごとにおいて1点を選択し、当該点を放射線原点との距離が当該放射線原点とシーンの最遠点との距離より大きいようにし、選択した点をサンプリング点とすることができる。
いくつかの実施例において、コンピューティング機器120はグリッドを生成し、グリッドを用いて放射線と静的オブジェクト点群との位置関係を決定することができる。例えば、世界座標系によって画定された空間を三次元(3D)グリッドに分割してよい。当該3Dグリッドは等しいサイズの単位立方体(ボクセルとも呼ばれる)を含んでよく、これらの単位立方体は互いに隣接して配列される。コンピューティング機器120は各単位立方体上において1点を1つのグリッド点として選択することができる。例えば、各単位立方体の世界座標系の原点に最も近い頂点を、当該単位立方体のグリッド点として選択してよい。このようにして、コンピューティング機器120が生成したグリッドは複数のグリッド点を有することができ、グリッド点の数は単位立方体の数と同じである。
コンピューティング機器120は静的オブジェクト点群(すなわち、背景点群)の1つの単位立方体にある各点をいずれも当該単位立方体のグリッド点にマッピングすることにより、点群マッピング点を生成することができる。各放射線に対して、コンピューティング機器120は当該放射線上において複数の点を選択することができ(例えば、所定の長さおきに1点を選択してよい)、1つの単位立方体に位置する点は当該単位立方体のグリッド点にマッピングされ、それによって放射線マッピング点が生成される。
1つの放射線上における1点に対して、コンピューティング機器120は当該点に対応する放射線マッピング点が1つの点群マッピング点と重なるか否かを判断する(放射線マッピング点と点群マッピング点が重なるとは当該放射線マッピング点と当該点群マッピング点が同一のグリッド点に位置することを意味する)。当該放射線マッピング点は1つの点群マッピング点と重なると、放射線における当該点、当該点群マッピング点及び当該点群マッピング点に対応する点群点(すなわちマッピング操作によって当該点群マッピング点の点群点を生成する)のうちの少なくとも1つに基づいてサンプリング点を生成する。いくつかの実施例において、当該放射線マッピング点は1つの点群マッピング点と重なる場合、放射線上における当該点、当該点群マッピング点及び当該点群マッピング点に対応する点群点からいずれか1つを選択してサンプリング点とすることができる。このようにして得られたサンプリング点は交点の近似である。このような近似は、ニューラルネットワークモデルの訓練過程を加速し、コンピューティングリソースを節約することができる。コンピューティング機器120は各放射線上において選択した各点に対して、いずれも同様にその対応する放射線マッピング点が1つの点群マッピング点と重なるか否かを判断することができる。
1つの放射線の全ての放射線マッピング点がいずれの点群マッピング点と重ならない場合、コンピューティング機器120は当該放射線上において1点(当該点と放射線原点との距離が当該放射線原点とシーンの最遠点との距離より大きい)を選択し、当該点をサンプリング点とすることができる。
いくつかの実施例において、点群マッピング点(すなわち、点群マッピング点の座標)をテーブル(例えば、ハッシュテーブル)に保存することができ、各放射線マッピング点に対して、コンピューティング機器120はルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の座標と同じ座標が含まれるか否か)を判断する。
いくつかの実施例において、コンピューティング機器120は点群マッピング点を量子化し(すなわち、その座標を量子化し)、量子化した点群マッピング点(すなわち、量子化座標)をテーブル(例えば、ハッシュテーブル)に保存することができる。各放射線マッピング点に対して、コンピューティング機器120はそれを量子化し(すなわち、その座標を量子化し)、続いてルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の量子化座標と同じ量子化座標が含まれるか否か)を判断することもできる。量子化操作の一例は、座標に定数(すなわち、量子化定数)を乗算して整数化することである。
当業者であれば理解できるように、量子化定数を適切に選択し、点群(例えば、静的オブジェクト点群)の1つの単位立方体上に位置する点(その数は1つ又は複数であってよい)の座標を量子化し、対応する点群マッピング点の座標を量子化することにより、同じ量子化座標を得ることができ、また、放射線上における点の座標を量子化し、対応する放射線マッピング点の座標を量子化することにより、同じ量子化座標を得ることができる。このとき、点群点の量子化座標が対応する点群マッピング点の量子化座標であり、放射線上における点の量子化座標が対応する放射線マッピング点の量子化座標である。これを基に、いくつかの実施例において、点群点を量子化し(すなわち、その座標を量子化し)、量子化した点群点(すなわち、その量子化座標)をテーブル(例えば、ハッシュテーブル)に保存し、放射線上における点を量子化し(すなわち、その座標を量子化し)、得た数値(すなわち、量子化座標)に基づいて、テーブルにおいて対応する数値(例えばそれと等しい数値)が存在するか否かを調べる。存在する場合、放射線上における当該点及びテーブルにおける当該数値に対する点群点のうちの少なくとも1つに基づいてサンプリング点を生成し、例えば、放射線上における当該点及びテーブルにおける当該数値に対応する点群点のうちのいずれか1つをサンプリング点としてよい。
一例において、グリッドの単位立方体の隣接する3つの辺は世界座標系の3つの軸にそれぞれ平行である。単位立方体の辺長はそれぞれa、b、cであり(単位はcmであってよい)、a、b、cはゼロより大きい任意の実数であってよく、且つ、a、b、cは等しくてよい。いくつかの実施例において、a、b、cはゼロより大きい任意の整数である。各単位立方体の世界座標系の原点に最も近い頂点は当該単位立方体のグリッド点である。点(点群点又は放射線上における点)の3つの座標(すなわち、X座標、Y座標及びZ座標)をそれぞれ単位立方体の対応する辺長で割り、すなわち、X座標をX軸に平行な単位立方体の辺長(例えばa)で、Y座標をY軸に平行な単位立方体の辺長(例えばb)で、Z座標をZ軸に平行な単位立方体の辺長(例えばc)で割り、続いて、得た値を整数化することにより、量子化操作を実現する。
例えば、1点(点群点又は放射線上における点)の座標が(X,Y,Z)であり、量子化定数が1/a、1/b、1/c(すなわち、単位立方体の隣接する3つの辺長の逆数)とされると、座標(X,Y,Z)に定数1/a、1/b、1/cを乗算して一組の数値(X/a、Y/b、Z/c)を得ることができ、続いてX/a、Y/b、Z/cに対してそれぞれ整数化して当該点の量子化座標([X/a],[Y/b],[Z/c])を得ることができ、符号[]は整数化操作を表す。
いくつかの実施例において、コンピューティング機器120は異なるスケールの複数のグリッド(すなわち、異なるグリッドの単位立方体のサイズが異なる)を生成して、異なるスケールの複数のグリッドを用いて放射線と静的オブジェクト点群との位置関係を決定することができる。例えば、世界座標系によって画定された空間は複数の3Dグリッドに分割されてよい。各グリッドは等しいサイズの単位立方体(すなわち、ボクセル)を含んでよく、これらの単位立方体は互いに隣接して配列される。コンピューティング機器120が生成するグリッドの数は2つ、3つ又はそれ以上であってよい。コンピューティング機器120が生成する複数のグリッドのうちのいずれか2つについて、1つのグリッド(すなわち、第1のグリッド)のスケールが別のグリッド(すなわち、第2のグリッド)のスケールより大きい(すなわち、第1のグリッドの単位立方体が第2のグリッドの単位立方体より大きい)場合、第1のグリッドの各単位立方体は少なくとも2つの第2のグリッドの単位立方体を含み、第2のグリッドの各単位立方体は2つ又は複数の第1のグリッドの単位立方体にまたがることがない。
いくつかの実施例において、コンピューティング機器120が生成する複数のグリッドのうちの2つについて、1つのグリッドの単位立方体の隣接する3つの辺の辺長はそれぞれa、b、cであり(単位はcmであってよい)、a、b、cはゼロより大きい任意の実数又はゼロより大きい任意の整数であってよく、a、b、cは等しくてよい。別のグリッドの単位立方体の隣接する3つの辺の辺長はそれぞれa、b、cのn倍(すなわち、n×a、n×b、n×c)であり、ここで、nは2以上の正の整数である。
コンピューティング機器120は1つのグリッドの各単位立方体上において1点を1つのグリッド点として選択し、同様に、他の各グリッドの各単位立方体上において1点を1つのグリッド点として選択することができる。例えば、各単位立方体の世界座標系の原点に最も近い頂点を、当該単位立方体のグリッド点として選択してよい。
コンピューティング機器120は静的オブジェクト点群(すなわち、背景点群)の1つのグリッドの1つの単位立方体にある各点をいずれも当該単位立方体のグリッド点にマッピングすることにより、点群マッピング点を生成することができる。各放射線に対して、コンピューティング機器120は当該放射線上において複数の点を選択することができ(例えば、所定の長さおきに1点を選択してよい)、1つのグリッドの1つの単位立方体に位置する点は当該単位立方体のグリッド点にマッピングされ、それによって放射線マッピング点が生成される。同様の方法に基づいて他のグリッド上において点群マッピング点及び放射線マッピング点を生成することができる。
図7は本開示の例示的な実施例による複数のグリッドを用いて複数のサンプリング点を生成するプロセスのフローチャートである。コンピューティング機器120は、1つの放射線上において選択した点に対して1つのグリッドを選択し、例えば、最大スケールのグリッド(すなわち、最大単位立方体を有するグリッド)を選択する。図7に示すように、ステップ701において、コンピューティング機器120は、放射線上におけるこの点に対応する放射線マッピング点が1つの点群マッピング点と重なるか否かを判断する(ここでの放射線マッピング点と点群マッピング点はいずれも選択したグリッド上の放射線マッピング点と点群マッピング点を指す)。ステップ701において、コンピューティング機器120は、放射線上におけるこの点に対応する放射線マッピング点が点群マッピング点と重ならないと判断した場合、プロセスはステップ702に進む。本願に基づいて、ステップ701において、コンピューティング機器120は、放射線上におけるこの点に対応する放射線マッピング点が点群マッピング点と重ならないと判断した場合、コンピューティング機器120は、当該点群マッピング点が位置するグリッド点に対応する単位立方体(選択したグリッド上の単位立方体)をスキップし、すなわち、当該放射線上における当該単位立方体内に落ちる他の点に対して、対応する放射線マッピング点が点群マッピング点と重なるか否かを判断しない。また、コンピューティング機器120はこの単位立方体に含まれる、選択したこのグリッドのスケールより小さいグリッドの単位立方体をスキップし、すなわち、これらの小さいスケールのグリッドの単位立方体に対して、放射線上において選択したこの点に対応する放射線マッピング点が点群マッピング点と重なるか否かを判断しない。当該グリッドの単位立方体及び対応する小さいスケールのグリッドの単位立方体をスキップすることにより、サンプリング点生成の効率を高めることができる。ステップ702において、コンピューティング機器120はこの放射線上における他の点を選択し、当該点は前に選択した点から所定の距離を離れる。当該所定の距離を適切に設定することにより、新たに選択した点及び前に選択した点を、選択したグリッドの異なる単位立方体内に位置させることができる。続いて、プロセスはステップ701に戻り、コンピューティング機器120は放射線上において再選択したこの点に対応する放射線マッピング点が1つの点群マッピング点と重なるか否かを判断する。選択したこのグリッドについて、この放射線における全ての放射線マッピング点がいずれの点群マッピング点と重ならない場合、コンピューティング機器120は当該放射線上において1点(該点と放射線原点との距離が当該放射線原点とシーンの最遠点との距離より大きい)を選択し、当該点をサンプリング点とすることができる。ステップ701において、コンピューティング機器120が、当該放射線マッピング点が1つの点群マッピング点と重なると決定した場合、プロセスはステップ703に進み、ステップ703において、コンピューティング機器120は当該点群マッピング点が位置するグリッド点に対応する単位立方体(すなわち、選択したこのグリッドにおける単位立方体)を決定する。続いて、ステップ704において、コンピューティング機器120はこの単位立方体に含まれる、選択したグリッドのスケールより小さいグリッドの複数の単位立方体を決定し、ステップ705において、放射線上におけるこの点のより小さいスケールのグリッド上における放射線マッピング点がより小さいスケールのグリッドの部分集合上における点群マッピング点と重なるか否かを判断する。ステップ705において、コンピューティング機器120は当該放射線マッピング点が当該より小さいスケールのグリッド上における1つの点群マッピング点と重なると決定した場合、ステップ706において、コンピューティング機器120は、より小さいスケールのグリッドが最小グリッドであるか否かを判断し、そうであれば、ステップ707において、放射線上における当該点、当該より小さいスケールのグリッド上における当該点群マッピング点及び当該点群マッピング点に対応する点群点のうちの少なくとも1つに基づいてサンプリング点を生成し、又は放射線上における当該点、当該部分集合上における当該点群マッピング点及び当該点群マッピング点に対応する点群点からいずれか1つを選択してサンプリング点とする。ステップ705において、コンピューティング機器120は当該より小さいスケールのグリッド上に当該放射線マッピング点と重なる点群マッピング点がないと判断した場合、プロセスはステップ702に戻る。ステップ706において、コンピューティング機器120はより小さいスケールのグリッドが最小グリッドではないと判断した場合、コンピューティング機器120はより小さいスケールのグリッドよりスケールが小さいグリッドを選択し、プロセスはステップ701に戻る。
いくつかの実施例において、各グリッドに対して、点群マッピング点(例えば、点群マッピング点の座標)をテーブル(例えば、ハッシュテーブル)に保存することができ、各放射線マッピング点に対して、コンピューティング機器120はルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の座標と同じ座標が含まれるか否か)を判断する。
いくつかの実施例において、各グリッドに対して、コンピューティング機器120は点群マッピング点を量子化し(すなわち、その座標を量子化し)、量子化した点群マッピング点(すなわち、量子化座標)をテーブル(例えば、ハッシュテーブル)に保存することができる。各放射線マッピング点に対して、コンピューティング機器120はそれを量子化し(すなわち、その座標を量子化し)、続いてルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の量子化座標と同じ量子化座標が含まれるか否か)を判断することもできる。量子化の一例は、座標に定数を乗算して整数化することである。
当業者であれば理解できるように、量子化定数を適切に選択し、点群(例えば、静的オブジェクト点群)の1つの単位立方体上に位置する点(その数は1つ又は複数であってよい)の座標を量子化し、対応する点群マッピング点の座標を量子化することにより、同じ量子化座標を得ることができ、また、放射線上における点の座標を量子化し、対応する放射線マッピング点の座標を量子化することにより、同じ量子化座標を得ることができる。このとき、点群点の量子化座標が対応する点群マッピング点の量子化座標であり、放射線上における点の量子化座標が対応する放射線マッピング点の量子化座標である。これを基に、いくつかの実施例において、各グリッドに対して、コンピューティング機器120は点群点を量子化し(すなわち、その座標を量子化し)、量子化した点群点(すなわち、量子化座標)をテーブル(例えば、ハッシュテーブル)に保存することができる。グリッドの数が2であれば、テーブル数も2となる。大きいスケールのグリッドで量子化した点群点を第1のテーブルに保存し、小さいスケールのグリッドで量子化した点群点を第2のテーブルに保存し、このように第1のテーブルの各値は第2のテーブルの少なくとも2つの値に対応する。放射線上における1点に対して、コンピューティング機器120は、まず第1のテーブルにおいて関連する値、例えば、放射線上における当該点の第1の量子化座標と同じ値が存在するか否かを調べる。存在する場合、コンピューティング機器120第2のテーブルにおける複数の値を決定し、これらの値は第1のテーブルにおいて調べられた値に対応する。次いで、コンピューティング機器120は、第2のテーブルにおいて決定したこれらの値から、当該点に関連する値、例えば放射線上における当該点の第2の量子化座標と同じ値が存在するか否かを調べ、存在する場合、放射線上における当該点を1つのサンプリング点とすることができる。第1の量子化座標は放射線上における当該点の大きいスケールのグリッドにおける量子化座標であり、第2の量子化座標は放射線上における当該点の小さいスケールのグリッドにおける量子化座標である。放射線上における全ての点に対していずれも同じ操作を実行して、複数のサンプリング点を決定する。
上記したように、ハッシュテーブルを用いて点群マッピング点、量子化された点群マッピング点又は量子化された点群点を記憶することができ、各グリッドは1つのハッシュテーブルに対応する。いくつかの実施例において、点群マッピング点、量子化された点群マッピング点又は量子化された点群点の位置(すなわち座標)をキーとしてハッシュテーブルを作成することができ、ハッシュテーブルの値は対応する点の属性情報を保存し、属性情報は当該点の意味カテゴリ、すなわち当該点に関連するオブジェクトを指示する。属性情報により、当該点が静的オブジェクトに関連するか、又は動的オブジェクトに関連するかを知ることができ、動的オブジェクトに関連すれば、属性情報により、当該点がどの動的オブジェクトに関連するか(すなわち、車両331か、車両332か)を知ることができる。
シーンの第1の部分がシーンの1つの動的オブジェクト(例えば、車両331)である場合、コンピューティング機器120は放射線と当該動的オブジェクト点群との相対的な位置関係に基づいて、当該動的オブジェクトに関連する複数のサンプリング点を決定する。いくつかの実施例において、コンピューティングの簡略化のために、動的オブジェクトの表示(例えば、バウンディングボックス)を用いて、放射線と動的オブジェクト点群との位置関係を決定することができる。上記したように、動的オブジェクトに対して生成される放射線は当該放射線のオブジェクト座標系における原点及び方向を含む。オブジェクト座標系において、放射線と動的オブジェクトの表示(例えば、バウンディングボックス)との交点を決定し、当該交点をサンプリング点として決定することができる。
ステップ404において、前記画像におけるサンプリング点に対応する画素の色情報を決定する。
上記したように、各放射線は画像における画素によって決定され、この放射線によって少なくとも1つのサンプリング点を決定した後、当該画素の色情報を当該サンプリング点に関連付けることができる。当該画素の色情報は、実際には、当該サンプリング点が表すシーン内容によって決定される。
ステップ405において、前記サンプリング点の位置及び前記画素の色情報に基づいてニューラルネットワークモデルを訓練する。
サンプリング点及び画素の色情報を用いてニューラルネットワークモデルを訓練することができる。図6A~図6Cは本開示の例示的な実施例によるニューラルネットワークモデルの模式図である。ニューラルネットワークモデルの一例は、三次元空間内の点及び当該点の方向を入力し、当該点の色及び密度(又は透明度)を出力する、ニューラル放射輝度場(Neural Radiance Fields、NeRF)である。
同一の放射線で得られた(1つ又は複数の)サンプリング点(すなわちサンプリング点の位置情報、例えば座標)及び当該放射線の方向がニューラルネットワークモデルに入力されると、ニューラルネットワークモデルは各サンプリング点に対応する色情報及び密度を出力し、密度を重みとして色情報を累積し、累積色情報を当該放射線に対応する画素の色情報と比較する。比較結果に基づいて、ニューラルネットワークモデルの1つ又は複数のパラメータの1つ又は複数の値を、満足した比較結果が得られるまで修正し、それによりニューラルネットワークモデルの訓練を完了する。
いくつかの実施例において、1つの目的関数を評価することができる。当該目的関数はニューラルネットワークモデルが生成した1つの放射線の全てのサンプリング点の累積色情報と当該放射線に対応する画素の色情報を比較し、全ての放射線に対して同じ操作を実行する。続いて、少なくとも部分的に目的関数に基づいてニューラルネットワークモデルの1つ又は複数のパラメータを修正することにより、このニューラルネットワークモデルを訓練する。
いくつかの実施例において、コンピューティング機器120は複数の訓練されたニューラルネットワークモデルを生成し、静的オブジェクトのサンプリング点によって訓練されたニューラルネットワークモデルと動的オブジェクトのサンプリング点によって訓練されたニューラルネットワークモデルとを区別するように、これらの訓練されたニューラルネットワークモデルにラベルを付けることができる。いくつかの実施例において、ネットワークモデルラベルはさらに、異なる動的オブジェクトのサンプリング点によって訓練されたニューラルネットワークモデルを区別するために用いられる。図6Aは、静的オブジェクトのサンプリング点を用いてニューラルネットワークモデルを訓練し、訓練したニューラルネットワークモデル601を得ることができることを示す。図6Bは、第1の動的オブジェクト(例えば、図3A及び図3Bに示す動的オブジェクト331)のサンプリング点を用いてニューラルネットワークモデルを訓練し、訓練したニューラルネットワークモデル602を得ることができることを示す。図6Cは、第2の動的オブジェクト(例えば、図3A及び図3Bに示す動的オブジェクト332)のサンプリング点を用いてニューラルネットワークモデルを訓練し、訓練したニューラルネットワークモデル603を得ることができることを示す。コンピューティング機器120は、これらの訓練したニューラルネットワークモデルにラベルを付けることにより、訓練されたニューラルネットワークモデル601を静的オブジェクトに関連付け、訓練されたニューラルネットワークモデル602を第1の動的オブジェクトに関連付け、訓練されたニューラルネットワークモデル603を第2の動的オブジェクトに関連付ける。
図5は開示された例示的な実施例による訓練されたニューラルネットワークモデル(例えば、図4に示す方法により訓練されたニューラルネットワークモデル)を用いて画像を生成する方法である。当該画像生成方法は、例えば、図2に示すコンピューティング機器120によって実行されてよい。当該方法によって生成される画像は、シーン(例えば、図3A及び図3Bに示すシーン300、又は図3A及び図3Bに示すシーン300に関連するシーン)の画像、又は当該シーンの一部分の画像であってよく、このプロセスはレンダリングとも呼ばれる。図3A及び図3Bに示すシーン300に関連するシーンの一例は、シーン300における動的オブジェクトの位置及び/又は姿勢が変化した後に得られるシーンである。コンピューティング機器120はユーザの選択に応じてシーン300における動的オブジェクトの位置及び/又は姿勢を変更することができる。
図5に示すように、ステップ501において、コンピューティング機器120は所定の位置から複数の方向に発する複数の放射線を決定する。カメラの基本的な検知過程は、カメラが1つの放射線を発し、放射線が世界のある物体の表面に当たると、表面の色値を記録した後に戻り、最後にカメラがこれらの放射線に基づいて画像画素を生成するように簡素化することができる。実際には、多くの半透明の物体が存在し、物体の透明度合いは密度(又は透明度)で評価することができ、物体が透明であればあるほど、物体の密度は低くなる。こうすると、上記カメラの検知過程は、放射線が通過した全ての位置にいずれも色値(すなわち色情報)及び密度値を記録し、最後に密度を重みとしてこれらの色値を累積して最終的な画像を得るように拡張される。
カメラの検知過程に応じて、シーンの画像を生成するために、コンピューティング機器120は仮想カメラを生成し、ユーザの選択に応じて仮想カメラのパラメータ(すなわち、仮想カメラの内部パラメータ及び外部パラメータ)を決定することができる。一般的に、ユーザは画像を形成しようとするシーンの内容に応じて仮想カメラのパラメータを選択することができる。そして、コンピューティング機器120はカメラのパラメータに基づいて、仮想カメラの位置(すなわち、視点位置)から複数の方向に発する複数の放射線を生成する。これらの放射線は原点及び方向を含む。一般的に、仮想カメラの位置を放射線の原点とする。各放射線は生成しようとする画像の1つの画素に対応してよい。
ステップ502において、コンピューティング機器120は放射線と点群(当該点群はシーンの少なくとも一部分に関連する)との相対的な位置関係に基づいて、複数のサンプリング点を決定する。ここでいうシーンの少なくとも一部分は静的オブジェクトのみ又は動的オブジェクトのみを含むシーン内容であってよい。例えば、シーンの少なくとも一部分はシーン300の静的オブジェクト(すなわち、背景)、又は動的オブジェクト(例えば、車両331又は車両332)であってよい。ここでいうシーンの少なくとも一部分は静的オブジェクトも含み、動的オブジェクトも含むシーン内容であってもよい。
コンピューティング機器120は放射線及び当該シーン部分に関連する点群に基づいて、複数のサンプリング点を決定することができる。これらのサンプリング点は当該放射線に対応する画素の色を決定することができ、或いは、放射線に対応する画素の色はこれらのサンプリング点に関連する。点群における各点は関連するシーン内容又はオブジェクトの位置を反映する位置データを含み、したがって、放射線の原点及び方向が知られ、点群に合わせて、放射線と関連するシーン内容又はオブジェクトとの1つ又は複数の交点(すなわち、サンプリング点)を決定することができる。
上記したように、コンピューティング機器120はシーン300のために、背景点群(すなわち、静的オブジェクト点群)及び(1つ又は複数の)動的オブジェクト点群を生成する。コンピューティング機器120は放射線と静的オブジェクト点群(すなわち、背景点群)との相対的な位置関係に基づいて、静的オブジェクト(すなわち、背景)に関連する複数のサンプリング点を決定する。
静的オブジェクトも含み、動的オブジェクトも含むシーン内容(シーンにおける動的オブジェクトの姿勢はユーザによって設定されてよい)に対して、コンピューティング機器120は放射線と当該シーン内容の点群との相対的な位置関係に基づいて、当該シーン内容に関連する複数のサンプリング点を決定する。上記したように、静的オブジェクト点群の各点は世界座標系における1組の座標を有する。動的オブジェクト点群に対して、ユーザが設定した動的オブジェクトのシーンにおける姿勢に基づいて、動的オブジェクト点群の各点の世界座標系における1組の座標を決定することができる。これらの動的オブジェクト点群と静的オブジェクト点群を組み合わせて当該シーン内容点群を構成する。シーン内容点群の各点は世界座標系における1組の座標を有する。シーン内容点群の各点は、位置情報に加えて、当該点の意味カテゴリ、すなわち、当該点に関連するオブジェクトを指示する属性情報をさらに有する。属性情報により、当該点が静的オブジェクトに関連するか、又は動的オブジェクトに関連するかを知ることができ、動的オブジェクトに関連すれば、属性情報により、当該点がどの動的オブジェクトに関連するかを知ることができる。
いくつかの実施例において、コンピューティング機器120はグリッドを生成し、グリッドを用いて放射線と静的オブジェクト点群又は上記のシーン内容点群との位置関係を決定することができる。例えば、世界座標系によって画定された空間は3Dグリッドに分割されてよい。当該3Dグリッドは等しいサイズの単位立方体(ボクセルとも呼ばれる)を含んでよく、これらの単位立方体は互いに隣接して配列される。コンピューティング機器120は各単位立方体上において1点を1つのグリッド点として選択することができる。例えば、各単位立方体の世界座標系の原点に最も近い頂点を、当該単位立方体のグリッド点として選択してよい。このようにして、コンピューティング機器120が生成したグリッドは複数のグリッド点を有することができ、グリッド点の数は単位立方体の数と同じである。
コンピューティング機器120は静的オブジェクト点群又は上記のシーン内容点群の1つの単位立方体にある各点をいずれも当該単位立方体のグリッド点にマッピングすることにより、点群マッピング点(各点群マッピング点もそれに対応する点群点の属性情報を有する)を生成することができる。各放射線に対して、コンピューティング機器120は当該放射線において複数の点を選択することができ(例えば、所定の長さおきに1点を選択してよい)、1つの単位立方体に位置する点は当該単位立方体のグリッド点にマッピングされ、それによって放射線マッピング点が生成される。
1つの放射線上における1点に対して、コンピューティング機器120は当該点に対応する放射線マッピング点が1つの点群マッピング点と重なるか否かを判断する(放射線マッピング点と点群マッピング点が重なるとは当該放射線マッピング点と当該点群マッピング点が同一のグリッド点に位置することを意味する)。当該放射線マッピング点は1つの点群マッピング点と重なると、放射線上における当該点、当該点群マッピング点及び当該点群マッピング点に対応する点群点(すなわちマッピング操作によって当該点群マッピング点の点群点を生成する)のうちの少なくとも1つに基づいてサンプリング点を生成し、生成したサンプリング点は当該点群マッピング点の属性情報を有する。いくつかの実施例において、放射線上における当該点、当該点群マッピング点及び当該点群マッピング点に対応する点群点からいずれか1つを選択してサンプリング点とすることができる。このようにして得られたサンプリング点は交点の近似である。このような近似は、画像生成過程を加速し、コンピューティングリソースを節約することができる。コンピューティング機器120は各放射線上において選択した各点に対して、いずれも同様にその対応する放射線マッピング点が1つの点群マッピング点と重なるか否かを判断することができる。
いくつかの実施例において、1本の放射線における全ての放射線マッピング点がいずれの点群マッピング点と重ならない場合、コンピューティング機器120は当該放射線において1点(当該点と放射線原点との距離が当該放射線原点とシーンの最遠点との距離より大きい)を選択し、当該点をサンプリング点とすることができる。
いくつかの実施例において、点群マッピング点(すなわち、点群マッピング点の座標)をテーブル(例えば、ハッシュテーブル)に保存することができ、各放射線マッピング点に対して、コンピューティング機器120はルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の座標と同じ座標が含まれるか否か)を判断する。
いくつかの実施例において、コンピューティング機器120は点群マッピング点を量子化し(すなわち、その座標を量子化し)、量子化した点群マッピング点(すなわち、量子化座標)をテーブル(例えば、ハッシュテーブル)に保存することができる。各放射線マッピング点に対して、コンピューティング機器120はそれを量子化し(すなわち、その座標を量子化し)、続いてルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の量子化座標と同じ量子化座標が含まれるか否か)を判断することもできる。量子化操作の一例は、座標に定数(すなわち、量子化定数)を乗算して整数化することである。
当業者であれば理解できるように、量子化定数を適切に選択し、点群(例えば、静的オブジェクト点群又は上記のシーン内容点群)の1つの単位立方体上に位置する点(その数は1つ又は複数であってよい)の座標を量子化し、対応する点群マッピング点の座標を量子化することにより、同じ量子化座標を得ることができ、また、放射線上における点の座標を量子化し、対応する放射線マッピング点の座標を量子化することにより、同じ量子化座標を得ることができる。このとき、点群点の量子化座標が対応する点群マッピング点の量子化座標であり、放射線上における点の量子化座標が対応する放射線マッピング点の量子化座標である。これを基に、いくつかの実施例において、点群点を量子化し(すなわち、その座標を量子化し)、量子化した点群点(すなわち、その量子化座標)をテーブル(例えば、ハッシュテーブル)に保存し、放射線上における点を量子化し(すなわち、その座標を量子化し)、得た数値(すなわち、量子化座標)に基づいて、テーブルにおいて対応する数値(例えばそれと等しい数値)が存在するか否かを検索する。存在する場合、放射線上における当該点及びテーブルにおける当該数値に対する点群点のうちの少なくとも1つに基づいてサンプリング点を生成し、例えば、放射線上における当該点及びテーブルにおける当該数値に対応する点群点のうちのいずれか1つをサンプリング点としてよい。
いくつかの実施例において、コンピューティング機器120は異なるスケールの複数のグリッド(すなわち、異なるグリッドの単位立方体のサイズが異なる)を生成して、異なるスケールの複数のグリッドを用いて放射線と静的オブジェクト点群又は上記のシーン内容点群との位置関係を決定することができる。例えば、世界座標系によって画定された空間は複数の3Dグリッドに分割されてよい。各グリッドは等しいサイズの単位立方体(すなわち、ボクセル)を含んでよく、これらの単位立方体は互いに隣接して配列される。コンピューティング機器120が生成するグリッドの数は2つ、3つ又はそれ以上であってよい。コンピューティング機器120が生成する複数のグリッドのうちのいずれか2つについて、1つのグリッド(すなわち、第1のグリッド)のスケールが別のグリッド(すなわち、第2のグリッド)のスケールより大きい(すなわち、第1のグリッドの単位立方体が第2のグリッドの単位立方体より大きい)場合、第1のグリッドの各単位立方体は少なくとも2つの第2のグリッドの単位立方体を含み、第2のグリッドの各単位立方体は2つ又は複数の第1のグリッドの単位立方体にまたがることがない。
いくつかの実施例において、コンピューティング機器120が生成する複数のグリッドのうちの2つについて、1つのグリッドの単位立方体の隣接する3つの辺長はそれぞれa、b、cであり(単位はcmであってよい)、a、b、cはゼロより大きい任意の実数又はゼロより大きい任意の整数であってよく、a、b、cは等しくてよい。別のグリッドの単位立方体の隣接する3つの辺長はそれぞれa、b、cのn倍(すなわち、n×a、n×b、n×c)であり、ここで、nは2以上の正の整数である。
コンピューティング機器120は1つのグリッドの各単位立方体上において1点を1つのグリッド点として選択し、同様に、他の各グリッドの各単位立方体上において1点を1つのグリッド点として選択することができる。例えば、各単位立方体の世界座標系の原点に最も近い頂点を、当該単位立方体のグリッド点として選択してよい。
コンピューティング機器120は静的オブジェクト点群又は上記のシーン内容点群の1つのグリッドの1つの単位立方体にある各点をいずれも当該単位立方体のグリッド点にマッピングすることにより、点群マッピング点を生成することができる。各放射線に対して、コンピューティング機器120は当該放射線において複数の点を選択することができ(例えば、所定の長さおきに1点を選択してよい)、1つのグリッドの1つの単位立方体に位置する点は当該単位立方体のグリッド点にマッピングされ、それによって放射線マッピング点が生成される。同様の方法に基づいて他のグリッド上において点群マッピング点及び放射線マッピング点を生成することができる。
いくつかの実施例において、コンピューティング機器120は図7に示すプロセスを用いて複数のグリッドを用いて複数のサンプリング点を生成することができる。生成された各サンプリング点は対応する点群マッピング点の属性情報を有する。図7のプロセスは、以上既に詳細に説明され、簡潔のために、ここでは説明は省略する。
いくつかの実施例において、各グリッドに対して、点群マッピング点(例えば、点群マッピング点の座標)をテーブル(例えば、ハッシュテーブル)に保存することができ、各放射線マッピング点に対して、コンピューティング機器120はルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の座標と同じ座標が含まれるか否か)を判断する。
いくつかの実施例において、各グリッドに対して、コンピューティング機器120は点群マッピング点を量子化し(すなわち、その座標を量子化し)、量子化した点群マッピング点(すなわち、量子化座標)をテーブル(例えば、ハッシュテーブル)に保存することができる。各放射線マッピング点に対して、コンピューティング機器120はそれを量子化し(すなわち、その座標を量子化し)、続いてルックアップテーブルにより当該放射線マッピング点が1つの点群マッピング点と重なるか否か(すなわち、ルックアップテーブルに放射線マッピング点の量子化座標と同じ量子化座標が含まれるか否か)を判断することもできる。量子化の一例は、座標に定数を乗算して整数化することである。
当業者であれば理解できるように、量子化定数を適切に選択し、点群(例えば、静的オブジェクト点群)の1つの単位立方体上に位置する点(その数は1つ又は複数であってよい)の座標を量子化し、対応する点群マッピング点の座標を量子化することにより、同じ量子化座標を得ることができ、また、放射線上における点の座標を量子化し、対応する放射線マッピング点の座標を量子化することにより、同じ量子化座標を得ることができる。このとき、点群点の量子化座標が対応する点群マッピング点の量子化座標であり、放射線上における点の量子化座標が対応する放射線マッピング点の量子化座標である。これを基に、いくつかの実施例において、各グリッドに対して、コンピューティング機器120は点群点を量子化し(すなわち、その座標を量子化し)、量子化した点群点(すなわち、量子化座標)をテーブル(例えば、ハッシュテーブル)に保存することができる。グリッドの数が2であれば、テーブル数も2となる。大きいスケールのグリッドで量子化した点群点を第1のテーブルに保存し、小さいスケールのグリッドで量子化した点群点を第2のテーブルに保存し、このように第1のテーブルの各値は第2のテーブルの少なくとも2つの値に対応する。放射線上における1点に対して、コンピューティング機器120は、まず第1のテーブルにおいて関連する値、例えば、放射線上における当該点の第1の量子化座標と同じ値が存在するか否かを調べる。存在する場合、コンピューティング機器120第2のテーブルにおける複数の値を決定し、これらの値は第1のテーブルにおいて調べられた値に対応する。次いで、コンピューティング機器120は、第2のテーブルにおいて決定されたこれらの値から、当該点に関連する値、例えば放射線上における当該点の第2の量子化座標と同じ値が存在するか否かを調べ、存在する場合、放射線上における当該点を1つのサンプリング点とすることができる。第1の量子化座標は放射線上における当該点の大きいスケールのグリッドにおける量子化座標であり、第2の量子化座標は放射線上における当該点の小さいスケールのグリッドにおける量子化座標である。放射線上における全ての点に対していずれも同じ操作を実行して、複数のサンプリング点を決定する。
上記したように、ハッシュテーブルを用いて点群マッピング点、量子化された点群マッピング点又は量子化された点群点を記憶することができ、各グリッドは1つのハッシュテーブルに対応する。いくつかの実施例において、点群マッピング点、量子化された点群マッピング点又は量子化された点群点の位置(すなわち座標)をキーとしてハッシュテーブルを作成することができ、ハッシュテーブルの値は対応する点の属性情報を保存し、属性情報は当該点の意味カテゴリ、すなわち当該点に関連するオブジェクトを指示する。属性情報により、当該点が静的オブジェクトに関連するか、又は動的オブジェクトに関連するかを知ることができ、動的オブジェクトに関連すれば、属性情報により、当該点がどの動的オブジェクトに関連するか(すなわち、車両331か、車両332か)を知ることができる。
いくつかの実施例において、コンピューティング機器120は放射線とある動的オブジェクトの点群との相対的な位置関係に基づいて、当該動的オブジェクトに関連する複数のサンプリング点を決定する。コンピューティングの簡略化のために、動的オブジェクトの表示(例えば、バウンディングボックス)を用いて、放射線と動的オブジェクト点群との位置関係を決定することができる。上記したように、動的オブジェクトに対して生成される放射線は当該放射線のオブジェクト座標系における原点及び方向を含む。オブジェクト座標系において、放射線と動的オブジェクトの表示(例えばバウンディングボックス)との交点を決定し、当該交点をサンプリング点として決定することができる。
ステップ503において、コンピューティング機器120はサンプリング点を訓練されたニューラルネットワークモデルに入力し、各サンプリング点の色情報を得る。
上記したように、各放射線は生成しようとする画像における1つの画素に対応し、各放射線に対して少なくとも1つのサンプリング点を決定した後、コンピューティング機器120は各放射線の方向及びその対応するサンプリング点を訓練されたニューラルネットワークモデル(例えば図4の実施例を参照して訓練されたニューラルネットワークモデル)に入力し、当該放射線の各サンプリング点に対応する色情報及び密度を得る。
上記したように、コンピューティング機器120は、静的オブジェクトのサンプリング点によって訓練されたニューラルネットワークモデルと、異なる動的オブジェクトのサンプリング点によって訓練されたニューラルネットワークモデルとを含む、複数の訓練されたニューラルネットワークモデルを生成する。したがって、コンピューティング機器120が決定した複数のサンプリング点はいずれもある動的オブジェクトに関連するものであれば、これらのサンプリング点を前に当該動的オブジェクトサンプリング点によって訓練されたニューラルネットワークモデルに入力する。例えば、コンピューティング機器120が決定した複数のサンプリング点はいずれも動的オブジェクト331に関連するものであれば、これらのサンプリング点を訓練されたニューラルネットワークモデル602に入力する。コンピューティング機器120が決定した複数のサンプリング点はいずれも動的オブジェクト332に関連するものであれば、これらのサンプリング点を訓練されたニューラルネットワークモデル603に入力する。コンピューティング機器120が決定した複数のサンプリング点はいずれもある静的オブジェクトに関連するものであれば、これらのサンプリング点を前に静的オブジェクトサンプリング点によって訓練されたニューラルネットワークモデル(例えば訓練されたニューラルネットワークモデル601)に入力する。コンピューティング機器120が決定した複数のサンプリング点は静的オブジェクトに関連するサンプリング点も含み、動的オブジェクトに関連するサンプリング点も含む場合、サンプリング点の属性情報に基づいて、静的オブジェクトに関連するサンプリング点を前に静的オブジェクトサンプリング点によって訓練されたニューラルネットワークモデルに入力し、ある動的オブジェクトに関連するサンプリング点を前に当該動的オブジェクトサンプリング点によって訓練されたニューラルネットワークモデルに入力する。
いくつかの実施例において、生成する画像の真実性を向上させるために、静的オブジェクトも含み、動的オブジェクトも含むシーン内容に対して、コンピューティング機器120は当該動的オブジェクトのために影を生成する。コンピューティング機器120は当該動的オブジェクト点群に基づいて動的オブジェクト輪郭を決定し、次に、コンピューティング機器120はユーザが選択した時間に基づいて、当該時間に太陽が空にある位置を判断し、続いてユーザが当該オブジェクトのために選択した姿勢に合わせて影の位置及び形状を判断することができる。コンピューティング機器120はどの放射線が影と交差するかを判断し、影の色に基づいてこれらの放射線のサンプリング点の色情報を調整することができる。
ステップ504において、サンプリング点の色情報に基づいて上記シーンの少なくとも一部分に関連する画像を生成する。
各放射線に対して、ニューラルネットワークモデルは当該放射線の各サンプリング点に対応する色情報(又は調整された色情報)及び密度を出力し、密度を重みとして色情報を累積し、累積色情報を当該放射線に対応する画素の色情報とする。複数の放射線に対応する複数の画素の色情報に基づいて、生成しようとする画像を取得することができる。各画素の画像における位置は放射線の原点及び方向、並びに仮想カメラのパラメータに基づいて決定され得る。
本明細書には多くの詳細が含まれるが、これらの詳細は、特許請求される発明の範囲を限定するものとしてではなく、特定の実施形態に特有の特徴の説明として解釈されるべきである。本明細書では、異なる実施例の文脈において説明される特定の特徴は単一の実施例において組み合わせてもよい。逆に、単一の実施例の文脈において説明される様々な特徴は複数の実施例において、単独で、又は任意の適切なサブコンビネーションで実施されてもよい。さらに、以上、特徴は、特定の組み合わせで機能するものとして記載され、さらに最初に特許請求されるが、特許請求された組み合わせからの1つ又は複数の特徴は、場合によっては、組み合わせから除去されてもよく、特許請求された組み合わせは、サブコンビネーション又はサブコンビネーションの変形に向けられてもよい。同様に、図面において特定の順序で操作を説明したが、示された特定の順番又は順序の順番でこれらの操作を実行し、又は説明される全ての操作を実行して望まれる結果を実現することが要求されると理解されるべきではない。
以上記載したものは本開示の好ましい実施例及び用いられる技術原理に過ぎないことに注意されたい。当業者であれば理解できるように、本開示は本明細書に記載の特定の実施例に限定されるものではなく、当業者であれば本開示の保護範囲から逸脱することなく、各種の明らかな変更、再調整及び置換を行うことができる。したがって、以上の実施例によって本開示をより詳細に説明したが、本開示は以上の実施例に限定されるものではなく、本開示の概念から逸脱することなく、さらに多くの他の等価な実施例を含んでよく、本開示の範囲は添付の特許請求の範囲によって決定される。

Claims (16)

  1. カメラが収集したシーンに関連する画像を取得するステップと、
    少なくともカメラのパラメータに基づいて、複数の放射線を決定するステップと、
    前記放射線と点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップであって、前記点群は前記シーンの一部分に関連するステップと、
    前記画像におけるサンプリング点に対応する画素の色情報を決定するステップと、
    前記サンプリング点の位置及び前記画素の色情報に基づいてニューラルネットワークモデルを訓練するステップと、を含む、ニューラルネットワークモデル訓練方法。
  2. 前記画像における前記シーンの前記部分に関連する内容を決定するステップをさらに含む方法であって、
    少なくとも前記画像を収集する時のカメラのパラメータに基づいて、複数の放射線を決定するステップは、
    画像を収集する時のカメラのパラメータ、及び前記画像における前記シーンの前記部分に関連する画像の内容に基づいて、複数の放射線を決定するステップを含む、請求項1に記載の方法。
  3. 前記部分は前記シーンの第1の部分であり、
    前記画像における前記シーンの前記部分に関連する内容を決定するステップは、
    前記画像における前記シーンの第2の部分に関連する内容を決定するステップであって、前記第2の部分は前記第1の部分と異なるステップと、
    前記画像から前記シーンの第2の部分に関連する内容を除去するステップと、を含む、請求項2に記載の方法。
  4. 前記部分はシーンの1つ又は複数の静的オブジェクトを含むシーンの静的部分であり、
    前記画像における前記シーンの前記部分に関連する内容を決定するステップは、
    前記画像における前記シーンの動的オブジェクトに関連する内容を決定するステップと、
    前記画像を収集する時間に基づいて、前記動的オブジェクトの投影を決定するステップと、
    前記画像から前記動的オブジェクトに関連する内容、及び前記投影に関連する内容を除去するステップと、を含む、請求項2に記載の方法。
  5. 複数のグリッド点を含むグリッドを生成するステップと、
    前記点群における各点を前記複数のグリッド点のうちの1つにマッピングし、複数の点群マッピング点を得るステップと、をさらに含む方法であって、
    前記放射線と点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップは、
    各放射線上において複数の点を選択するステップと、
    前記放射線上における前記複数の点のうちの各点に対して、
    当該点を前記複数のグリッド点のうちの1つにマッピングし、放射線マッピング点を得るステップと、
    当該放射線マッピング点が前記複数の点群マッピング点のうちの1つと重なるか否かを判断するステップと、
    当該放射線マッピング点が前記複数の点群マッピング点のうちの1つと重なることに応答し、当該点、当該点群マッピング点及び点群における当該点群マッピング点に関連する点のうちの1つに基づいて1つのサンプリング点を生成するステップと、を含む、請求項1に記載の方法。
  6. 前記点群に基づいて前記シーンの前記部分を表す表現を生成するステップをさらに含む方法であって、
    前記放射線と点群との相対な位置関係に基づいて、複数のサンプリング点を決定するステップは、
    前記放射線と前記表現との交点を決定して、前記サンプリング点とするステップを含む、請求項1に記載の方法。
  7. 前記点群は集合点群である方法であって、
    前記シーンの前記部分に関連する点群配列を取得するステップと、
    前記配列における点群に対してレジストレーションを行うステップと、
    レジストレーションを行われた配列を重畳し、前記集合点群を得るステップと、を含む、請求項6に記載の方法。
  8. 所定の位置から複数の方向に発する複数の放射線を決定するステップと、
    前記放射線と点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップであって、前記点群はシーンの少なくとも一部分に関連するステップと、
    前記複数のサンプリング点を訓練されたニューラルネットワークモデルに入力し、各サンプリング点の色情報を得るステップと、
    前記複数のサンプリング点の色情報に基づいて前記シーンの前記少なくとも一部分に関連する画像を生成するステップと、を含む、画像を生成するための方法。
  9. 複数のグリッド点を含むグリッドを生成するステップと、
    前記点群における各点を前記複数のグリッド点のうちの1つにマッピングし、複数の点群マッピング点を得るステップと、をさらに含む方法であって、
    前記放射線と点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップは、
    各放射線上において複数の点を選択するステップと、
    前記放射線上における前記複数の点のうちの各点に対して、
    当該点を前記複数のグリッド点のうちの1つにマッピングし、放射線マッピング点を得るステップと、
    当該放射線マッピング点が前記複数の点群マッピング点のうちの1つと重なるか否かを判断するステップと、
    当該放射線マッピング点が前記複数の点群マッピング点のうちの1つと重なることに応答し、当該点、当該点群マッピング点及び点群における当該点群マッピング点に関連する点のうちの1つに基づいて1つのサンプリング点を生成するステップと、を含む、請求項8に記載の方法。
  10. 前記点群に基づいて前記シーンの前記部分を表す表現を生成するステップをさらに含む方法であって、
    前記放射線と点群との相対的な位置関係に基づいて、複数のサンプリング点を決定するステップは、
    前記放射線と前記表現との交点を決定して、前記サンプリング点とするステップを含む、請求項8に記載の方法。
  11. 前記点群は集合点群である方法であって、
    前記シーンの前記部分に関連する点群配列を取得するステップと、
    前記配列における点群に対してレジストレーションを行うステップと、
    レジストレーションを行われた点群を重畳し、前記集合点群を得るステップと、を含む、請求項10に記載の方法。
  12. 前記点群は第1の点群及び第2の点群を含み、シーンの少なくとも一部分はシーンの第1の部分及び第2の部分を含み、前記第1の点群は前記第1の部分に関連し、第2の点群は前記第2の部分に関連し、
    前記放射線と点群との相対な位置関係に基づいて、複数のサンプリング点を決定するステップは、
    前記放射線と第1の点群及び第2の点群との相対的な位置関係に基づいて、複数のサンプリング点及び各サンプリング点の属性を決定するステップであって、前記属性は対応するサンプリング点が前記第1の部分に関連するか、又は前記第2の部分に関連するかを示すステップを含む、請求項8に記載の方法。
  13. 訓練されたニューラルネットワークモデルは第1の訓練されたニューラルネットワークモデル及び第2の訓練されたニューラルネットワークモデルを含み、
    前記複数のサンプリング点を訓練されたニューラルネットワークモデルに入力するステップは、
    前記属性に基づいて、前記複数のサンプリング点をそれぞれ第1の訓練されたニューラルネットワークモデル及び第2の訓練されたニューラルネットワークモデルに入力するステップを含む、請求項12に記載の方法。
  14. 前記第1の部分はシーンの1つ又は複数の静的オブジェクトを含み、前記第2の部分は前記シーンの動的オブジェクトを含む方法であって、
    前記第2の点群に基づいて前記シーンの動的オブジェクトの模擬影を生成するステップと、
    前記放射線と模擬影との相対的な位置関係に基づいて、前記模擬影の色情報を得るステップと、
    前記模擬影の色情報に基づいて前記シーンの静的オブジェクトに関連するサンプリング点の色情報を調整するステップと、をさらに含む、請求項12に記載の方法。
  15. プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムはコンピューティング装置のプロセッサにより実行されると、前記コンピューティング装置に請求項1~14のいずれか一項に記載の方法を実行させる、コンピュータ読み取り可能な記憶媒体。
  16. プロセッサと、
    プログラムが記憶されているメモリであって、前記プログラムはプロセッサにより実行されると、前記プロセッサに請求項1~14のいずれか一項に記載の方法を実行させるメモリと、を含む、電子装置。
JP2023095769A 2022-06-13 2023-06-09 ニューラルネットワークモデル訓練方法及び画像生成方法 Pending JP2023181990A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210662178.7A CN117274526A (zh) 2022-06-13 2022-06-13 神经网络模型训练方法和生成图像的方法
CN202210662178.7 2022-06-13

Publications (1)

Publication Number Publication Date
JP2023181990A true JP2023181990A (ja) 2023-12-25

Family

ID=86760681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023095769A Pending JP2023181990A (ja) 2022-06-13 2023-06-09 ニューラルネットワークモデル訓練方法及び画像生成方法

Country Status (5)

Country Link
US (1) US20230401837A1 (ja)
EP (1) EP4293622A1 (ja)
JP (1) JP2023181990A (ja)
CN (1) CN117274526A (ja)
AU (1) AU2023203583A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475104A (zh) * 2022-07-22 2024-01-30 戴尔产品有限公司 用于渲染目标场景的方法、电子设备和计算机程序产品

Also Published As

Publication number Publication date
CN117274526A (zh) 2023-12-22
EP4293622A1 (en) 2023-12-20
AU2023203583A1 (en) 2024-01-04
US20230401837A1 (en) 2023-12-14

Similar Documents

Publication Publication Date Title
US12020476B2 (en) Data synthesis for autonomous control systems
Fang et al. Augmented LiDAR simulator for autonomous driving
US11455565B2 (en) Augmenting real sensor recordings with simulated sensor data
US11487988B2 (en) Augmenting real sensor recordings with simulated sensor data
KR102145109B1 (ko) 지도 생성 및 운동 객체 위치 결정 방법 및 장치
US11068627B2 (en) Procedural world generation
JP2019527832A (ja) 正確な位置特定およびマッピングのためのシステムおよび方法
CN110386142A (zh) 用于自动驾驶车辆的俯仰角校准方法
US11288522B2 (en) Generating training data from overhead view images
US20210199446A1 (en) Overhead view image generation
WO2021138357A1 (en) Map feature extraction using overhead view images
CN110135376A (zh) 确定图像传感器的坐标系转换参数的方法、设备和介质
US20220300681A1 (en) Devices, systems, methods, and media for point cloud data augmentation using model injection
US11798289B2 (en) Streaming object detection and segmentation with polar pillars
CN112749584A (zh) 一种基于图像检测的车辆定位方法及车载终端
CN113608234A (zh) 一种城市数据采集系统
JP2023181990A (ja) ニューラルネットワークモデル訓練方法及び画像生成方法
CN114295139A (zh) 一种协同感知定位方法及系统
WO2021202785A1 (en) Mapping pipeline optimization using aggregated overhead view reconstruction
CN116740127A (zh) 障碍物轨迹预测方法、装置、计算机设备和存储介质
US11727601B2 (en) Overhead view image generation
US20210383213A1 (en) Prediction device, prediction method, computer program product, and vehicle control system
Li et al. RF-LOAM: Robust and Fast LiDAR Odometry and Mapping in Urban Dynamic Environment
US20220371606A1 (en) Streaming object detection and segmentation with polar pillars
US20240127603A1 (en) Unified framework and tooling for lane boundary annotation