JP6949266B2 - 対象三次元検出及びスマート運転制御方法、装置、媒体並びに機器 - Google Patents

対象三次元検出及びスマート運転制御方法、装置、媒体並びに機器 Download PDF

Info

Publication number
JP6949266B2
JP6949266B2 JP2021501280A JP2021501280A JP6949266B2 JP 6949266 B2 JP6949266 B2 JP 6949266B2 JP 2021501280 A JP2021501280 A JP 2021501280A JP 2021501280 A JP2021501280 A JP 2021501280A JP 6949266 B2 JP6949266 B2 JP 6949266B2
Authority
JP
Japan
Prior art keywords
target
dimensional
key point
detector
dimensional detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021501280A
Other languages
English (en)
Other versions
JP2021524115A (ja
Inventor
インジエ ツァイ
インジエ ツァイ
シンユー ゾン
シンユー ゾン
ジュンジエ イエン
ジュンジエ イエン
シャオガン ワン
シャオガン ワン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021524115A publication Critical patent/JP2021524115A/ja
Application granted granted Critical
Publication of JP6949266B2 publication Critical patent/JP6949266B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)

Description

(関連出願の相互参照)
本出願は、2018年08月07日に中国特許局に提出された出願番号がCN201810891535.0であり、発明名称が「対象三次元検出及びスマート運転制御方法、装置、媒体並びに機器」である中国特許出願の優先権を要求し、その全ての内容は引用によって本出願に援用される。
本出願は、コンピュータビジョン技術に関し、特に、対象三次元検出方法、対象三次元検出装置、スマート運転制御方法、スマート運転制御方法、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。
対象三次元(3D)検出は、一般的には、物体の空間位置、運動方向及び3D寸法などの三次元空間パラメータの予測に用いられる。例えば、自動運転技術において、道路上の他の車両に対して三次元検出を行い、他の車両の三次元直方体、車両走行方向及び撮影装置の位置関係などを取得する必要がある。物体の三次元検出結果を正確に得ることは、自動運転の安全性の向上に寄与する。
本出願の実施例は、対象三次元検出及びスマート運転制御の技術的解決手段を提供する。
本出願の実施例の一態様によれば、対象三次元検出方法を提供する。前記方法は、被処理画像におけるターゲット対象のキーポイントの二次元座標を取得することと、前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築することと、前記キーポイントの深度情報を取得することと、前記キーポイントの深度情報及び前記擬似三次元検出体に基づいて、前記ターゲット対象の三次元検出体を決定することとを含む。
本出願の実施例のもう1つの態様によれば、スマート運転制御方法を提供する。前記方法は、車両に設けられた撮影装置により採取されたビデオに含まれるビデオフレームを被処理画像として、本出願の実施例の上記いずれか1つの方法でターゲット対象の三次元検出体を決定することと、前記三次元検出体の情報に基づいて車両制御命令を生成することと、前記車両に前記車両制御命令を送信することとを含む。
本出願のまた1つの態様によれば、対象三次元検出装置を提供する。前記装置は、被処理画像におけるターゲット対象のキーポイントの二次元座標を取得するように構成される二次元座標取得モジュールと、前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築するように構成される三次元検出体構築モジュールと、前記キーポイントの深度情報を取得するように構成される深度情報取得モジュールと、前記キーポイントの深度情報及び前記擬似三次元検出体に基づいて、前記ターゲット対象の三次元検出体を決定するように構成される三次元検出体決定モジュールとを備える。
本出願の実施例のまた1つの態様によれば、スマート運転制御装置を提供する。前記装置は、車両に設けられた撮影装置により採取されたビデオに含まれるビデオフレームを被処理画像として、ターゲット対象の三次元検出体を決定するように構成される上記いずれか1つの実施例に記載の対象三次元検出装置と、前記三次元検出体の情報に基づいて車両制御命令を生成するように構成される命令生成モジュールと、前記車両に前記車両制御命令を送信するように構成される命令送信するモジュールとを備える。
本出願の実施例のまた1つの態様によれば、電子機器を提供する。前記電子機器は、コンピュータプログラムを記憶するように構成されるメモリと、前記メモリに記憶されているコンピュータプログラムを実行し、且つ前記コンピュータプログラムが実行される時、本出願の上記いずれか1つの実施例に記載の方法を実現させるように構成されるプロセッサとを備える。
本出願の実施例のまた1つの態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、本出願の上記いずれか1つの実施例に記載の方法を実現させる。
本出願の実施例のまた1つの態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムはコンピュータ命令を含み、前記コンピュータ命令が機器のプロセッサで実行される時、本出願の上記いずれか1つの実施例に記載の方法を実現させる。
本出願で提供される対象三次元検出方法、対象三次元検出装置、スマート運転制御方法、スマート運転制御装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムによれば、ターゲット対象のキーポイントの二次元座標を利用して、二次元平面において、該ターゲット対象の擬似三次元検出体を構築する。ターゲット対象のキーポイント検出結果の正確度が確保されるため、本出願の実施例は、キーポイントの深度情報及び擬似三次元検出体により、ターゲット対象の三次元検出体のサイズをターゲット対象の実際のサイズに可能な限り類似させることができ、コンピューティングリソースを小さく消費する前提で、対象三次元検出の正確性を向上させるのに寄与し、また、低いコストを確保する上で、自動運転の安全性を向上させるのに寄与する。
以下、図面及び実施例を参照しながら、本出願の技術的解決手段を詳しく説明する。
本出願による対象三次元検出方法の一実施例を示すフローチャートである。 本出願による被処理画像におけるターゲット対象のキーポイントの一実施例を示す概略図である。 本出願による擬似三次元検出体の一実施例を示す概略図である。 本出願によるスマート運転制御方法の一実施例を示すフローチャートである。 本出願による対象三次元検出装置の一実施例の構造を示す概略図である。 本出願によるスマート運転制御装置の一実施例の構造を示す概略図である。 本出願の実施例による一例示的な機器を示すブロック図である。
明細書の一部を構成する図面は、本出願の実施例を記述し、その記述とともに、本出願の原理の解釈に役立つ。
図面を参照しながら、下記詳細な記述に基づいて、本出願をより明確に理解することができる。
以下、図面を参照しながら、本出願の様々な例示的な実施例を詳しく説明する。別途明記されない限り、これらの実施例において説明される構成要素の相対的配置及びステップの相対的配列、数式及び数値は、本出願の範囲を限定するものではないことに留意されたい。
また、本出願において、「複数」とは、2つ又は2つ以上を意味してもよく、「少なくとも1つ」とは、1つ、2つ又は2つ以上を意味してもよいことも理解されるべきである。
本出願の実施例における「第1」、「第2」等の用語は、異なるステップ、機器又はモジュールを区別するためのものに過ぎず、いかなる特定の技術的意味を表すものではないし、それら同士間の必然的な論理順序を表すものではないことは、当業者であれば理解すべきである。
本出願で言及されたいずれか1つの部材、データ又は構造について、明確に限定されないか又は文脈では反対となるものが示唆された場合、一般的には、1つ又は複数と解釈されることも理解されるべきである。
また、本出願において、各実施例を説明する場合、各実施例の相違点に重点が置かれており、その同じ又は類似した部分は互いに参照することができる。簡潔化を図るために、詳細な説明を省略する。
また、説明の便宜上、図示の各部分の寸法は実際の比例関係に従って描かれたものではないことが理解されるべきである。
以下の少なくとも1つの例示的な実施例の説明は本質的に単なる例であり、本発明及びその適用又は用途を限定することをまったく意図しない。
当業者が既知の技術、方法および設備について詳しく述べることはないが、適宜な状況において、前記技術、方法および設備は明細書の一部とみなすべきである。
類似した符号及びアルファベットは下記図面において類似した要素を表すため、いずれか1つの要素が1つの図面において定義された場合、後続図面においてそれをこれ以上検討する必要がないことに留意されたい。
なお、本出願において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、多種の関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。なお、符号「/」は、一般的には、前後の関連する対象が「又は」の関係であることを示す。
本出願の実施例は、端末装置、コンピュータシステム及びサーバなどの電子機器に適用される。それは、多数の他の汎用又は専用コンピュータシステム環境又は構成とともに動作する。端末装置、コンピュータシステム及びサーバなどの電子機器と共に適用されるのに適する周知の端末装置、コンピューティングシステム、環境及び/又は構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者向け電子機器製品、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末装置、コンピュータシステム及びサーバ等の電子機器は、コンピュータシステムにより実行されるコンピュータシステムによる実行可能な命令(例えば、プログラムモジュール)の一般的な内容で説明できる。一般的には、プログラムモジュールは、ルーチン、プログラム、対象プログラム、ユニット、ロジック、データ構造などを含んでもよいが、これらは、特定のタスクを実行するか又は特定の抽象データ型を実現させる。コンピュータシステム/サーバを、分散型クラウドコンピューティング環境において実行することができる。分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを介してリンクされるリモート処理デバイスにより実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶装置を備えるローカル又はリモートコンピューティングシステム記憶媒体に位置してもよい。
図1は、本出願による対象三次元検出方法の一実施例を示すフローチャートである。図1に示すように、該実施例の方法は、以下を含む。
S100、被処理画像におけるターゲット対象キーポイントの二次元座標を取得する。
任意選択的な例において、本出願の実施例における被処理画像は、静的状態であるピクチャ又は写真などの画像であってもよいし、動的状態であるビデオにおけるビデオフレームであってもよい。例えば、移動体に設けられた撮影装置により撮影られたビデオにおけるビデオフレームである。また例えば、固定位置に設けられた撮影装置により撮影られたビデオにおけるビデオフレームである。上記移動体は、車両、ロボット又はメカニカルアームなどであってもよい。上記固定位置は、机又は壁などであってもよい。本出願の実施例は、移動体又は固定位置の表現形態を限定するものではない。
任意選択的な例において、本出願の実施例における被処理画像は、普通の高解像度撮影装置により得られた画像であってもよい。レーザー測距装置及びデプスカメラを利用しなければならないことによるコストが高いなどの状況を避けることができる。
任意選択的な例において、本出願の実施例におけるターゲット対象は、少なくとも前後左右の四つの面を含む。例えば、本出願の実施例におけるターゲット対象は、自動車(特に、ガソリン自動車、電気自動車又は自律走行自動車などのような自動車を指す)、軽車両(例えば、自転車、人力三輪車など)、歩行者、動物、建築物、植物、障害物、危険物、交通標識又は物品などであってもよい。本出願の実施例は、ターゲット対象の表現形態を限定するものではない。ターゲット対象が種々の形態であってもよいため、本出願の実施例の対象三次元検出方法は、汎用性が高いという特徴を持つ。
任意選択的な例において、本出願の実施例におけるキーポイントは、意味を有するキーポイントであり、且つ該キーポイントは、一般的には、ターゲット対象の外輪郭キーポイントである。ターゲット対象が車両である場合、本出願の実施例における意味を有するキーポイントは、車両の左前隅キーポイント(例えば、図2における1であり、以下、左前下と略称される)、車両ルーフの左前隅キーポイント(例えば、図2における2であり、以下、左前上と略称される)、車両ルーフの左後隅キーポイント(例えば、図2における3であり、以下、左後上と略称される)、車両の左後隅キーポイント(例えば、図2における4であり、以下、左後下と略称される)、左後輪底部キーポイント(例えば、図2における5であり、以下、左後輪と略称される)、左前輪底部キーポイント(例えば、図2における6であり、以下、左前輪と略称される)、車両の右前隅キーポイント(例えば、図2における7であり、以下、右前下と略称される)、車両ルーフの右前隅キーポイント(例えば、図2における8であり、以下、右前上と略称される)、車両ルーフの右後隅キーポイント(図2における3と左右対称であり、以下、右後上と略称される)、車両の右後隅キーポイント(図2における4と左右対称であり、以下、右後下と略称される)、右後輪底部キーポイント(図2における5と左右対称であり、以下、右後輪と略称される)及び右前輪底部キーポイント(図2における6と左右対称であり、以下、右前輪と略称される)を含んでもよい。つまり、キーポイントの意味は、キーポイントの車両における位置を示すことができる。なお、本出願の実施例における車両は、より多くの数のキーポイントを備えてもよい。本出願の実施例は、ターゲット対象のキーポイントの数及びキーポイントにより表される意味を限定するものではない。
任意選択的な例において、本出願の実施例におけるいずれか1つのキーポイントは、一般的には、擬似三次元検出体(例えば、三次元直方体)の1つの面、2つの面又は3つの面に対応する。同様に、本出願の実施例におけるキーポイントは、一般的には、三次元検出体の1つの面、2つの面又はより多くの面に対応する。つまり、キーポイントが、擬似三次元検出体の面及び三次元検出体の面と、対応関係を有する。例えば、図2において、左前下、左前上、右前下及び右前上は、擬似三次元検出体及び三次元検出体の前面に対応する。つまり、車両の前方位置から、左前下、左前上、右前下及び右前上という4つのキーポイントを観測することができる。左前下、左前上、左後下、左後下、左前輪及び左後輪は、擬似三次元検出体及び三次元検出体の左面に対応する。つまり、車両の右方位置から、左前下、左前上、左後下、左後下、左前輪及び左後輪という6つのキーポイントを観測することができる。左後下、左後上、右後下及び右後上は、擬似三次元検出体及び三次元検出体の後面に対応する。つまり、車両の後方位置から、左後下、左後上、右後下及び右後上という4つのキーポイントを観測することができる。右前下、右前上、右後下、右後下、右前輪及び右後輪は、擬似三次元検出体及び三次元検出体の右面に対応する。つまり、車両の右方位置から、左後下、左後上、右後下及び右後上という4つのキーポイントを観測することができる。右前下、右前上、右後下、右後下、右前輪及び右後輪という6つのキーポイント。左前下、左前上、右前下、右前上、左後下、左後上、右後下及び右後上は、擬似三次元検出体及び三次元検出体の上面に対応する。つまり、車両の上方位置から、左前下、左前上、右前下、右前上、左後下、左後上、右後下及び右後上という8つのキーポイントを観察することができる。左前下、右前下、左後下、右後下、左前輪、右前輪、左後輪及び右後輪は、擬似三次元検出体及び三次元検出体の下面に対応する。つまり、車両の下方位置から、左前下、右前下、左後下、右後下、左前輪、右前輪、左後輪及び右後輪という8つのキーポイントを観測することができる。なお、本出願の実施例において、キーポイントと擬似三次元検出体及び三次元検出体の上面及び下面との対応関係を設定しなくてもよいことに特に留意されたい。
任意選択的な例において、上記操作S100の前に、被処理画像に対してターゲット対象検出を行い、ターゲット対象を含む二次元ターゲット検出枠を得ることもできる。なお、S100において、被処理画像における二次元ターゲット検出枠に対応する画像部分に基づいて、ターゲット対象のキーポイントの二次元座標を得ることができる。
任意選択的な例において、本出願の実施例は、従来のニューラルネットワークを利用して、被処理画像におけるターゲット対象のキーポイントの二次元座標を得ることができる。例えば、ターゲット対象(例えば車両)を含む被処理画像をニューラルネットワークに入力し、該ニューラルネットワークにより、被処理画像に対してキーポイント検出(例えば車両キーポイント検出)処理を行う。これにより、ニューラルネットワークから出力された情報に基づいて、ターゲット対象の各キーポイントの被処理画像における二次元座標を得ることができる。また例えば、まず、被処理画像に対して、ターゲット対象の検出処理を行い、ターゲット対象を含む二次元ターゲット検出枠の位置を得る。続いて、二次元ターゲット検出枠の位置に基づいて、被処理画像を分割処理し、ターゲット対象画像ブロック(即ち、ターゲット対象を含む画像ブロックであり、例えば、車両を含む画像ブロックである車両画像ブロックである)を得る。ターゲット対象画像ブロックをニューラルネットワークに入力し、該ニューラルネットワークにより、ターゲット対象画像ブロックに対して、キーポイント検出(例えば、車両キーポイント検出)処理を行うことで、ニューラルネットワークから出力された情報に基づいて、ターゲット対象(例えば車両)の各キーポイントのターゲット対象画像ブロック(例えば車両画像ブロック)における二次元座標を得ることができる。更に、ターゲット対象の各キーポイントのターゲット対象画像ブロックにおける二次元座標をターゲット対象の各キーポイントの被処理画像における二次元座標に変換することができる。本出願の実施例は、ニューラルネットワークを利用してターゲット対象のキーポイントの二次元座標を得るための実現形態を限定するものではない。なお、二次元ターゲット検出枠(即ち、ターゲット対象を含む検出枠)の取得に成功した場合、本出願の実施例は、対象三次元検出方法における他のステップを引き続き実行する。そうでなければ、本出願の実施例は、対象三次元検出方法における他のステップを引き続き実行せず、コンピューティングリソースの節約に役立つ。
任意選択的な例において、本出願の実施例におけるニューラルネットワークは、畳み込み層、非線形Relu層、プーリング層及び全結合層などを含んでもよいが、これらに限定されない。該ニューラルネットワークに含まれる層数が多いほど、ネットワークが深くなる。本出願の実施例のニューラルネットワークは、Stack hourglassニューラルネットワークフレームワーク構造を用いてもよいし、ASM(Active Shape Model:アクティブシェイプモデル)、AAM(Active Appearnce Model:アクティブ外観モデル)又はカスケードポーズ回帰アルゴリズムに基づいたニューラルネットワークフレームワーク構造を用いてもよい。本出願の実施例は、ニューラルネットワークの構造を限定するものではない。
任意選択的な例において、該操作S100は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される二次元座標取得モジュール500により実行されてもよい。
S110、キーポイントの二次元座標に基づいて、二次元平面において、ターゲット対象の擬似三次元検出体を構築する。
任意選択的な例において、本出願の実施例におけるターゲット対象の擬似三次元検出体は一般的には、二次元平面においてターゲット対象を囲むことができる直方体を指す。つまり、二次元平面において作図することで、直方体を形成することができる。該直方体が、三次元空間における真の直方体ではなく、平面から見た直方体であるため、本出願の実施例は、それを擬似三次元検出体と呼ぶ。しかしながら、擬似三次元検出体は、三次元空間における真の直方体ではないが、その長さ・幅・高さが、依然としてターゲット対象の長さ・幅・高さを反映することができる。一般的には、擬似三次元検出体の長さ・幅・高さを擬似三次元検出体内のターゲット対象の長さ・幅・高さと認めることができる。つまり、擬似三次元検出体を、二次元平面におけるターゲット対象の外接直方体と認めることができる。なお、本出願の実施例における擬似三次元検出体は、擬似三次元立方体を含む。
任意選択的な例において、本出願の実施例は、まず、現在取得されたターゲット対象の全てのキーポイントを選出し、予測正確度要件に合致するキーポイントを選出する(例えば、信頼度が所定の信頼度閾値より高いキーポイントを選出する)。続いて、選出された予測正確度要件に合致するキーポイントの二次元座標を利用して、二次元平面において、ターゲット対象の擬似三次元検出体を構築する。ターゲット対象の擬似三次元検出体を構築する過程において、予測正確度の低いキーポイントが利用されるのを避けるため、本出願の実施例は、構築される擬似三次元直方体の正確性の向上に寄与する。
任意選択的な例において、本出願の実施例は、まず、キーポイントとターゲット対象に含まれる面との所定の第1所属関係及びキーポイントの二次元座標に基づいて、ターゲット対象の少なくとも1つのあり得る面を構築する。続いて、構築されたあり得る面に基づいて、ターゲット対象の擬似三次元検出体を構築する。本出願の実施例におけるあり得る面は最適面であってもよい。本出願の実施例におけるあり得る面は、最適面及び準最適面であってもよい。
本出願の実施例におけるあり得る面が最適面である場合、任意選択的な例において、所定の面品質判定ルールに基づいて、構築された少なくとも1つのあり得る面から、最適面を決定してから、最適面に基づいてターゲット対象の擬似三次元検出体を構築する。
本出願の実施例におけるあり得る面が最適面及び準最適面である場合、任意選択的な例において、構築された少なくとも1つのあり得る面から、最適面及び準最適面を決定してから、最適面及び準最適面に基づいて、ターゲット対象の擬似三次元検出体を構築する。
任意選択的な例において、本出願の実施例は、まず、被処理画像におけるターゲット対象の最適面を決定し、二次元平面において該最適面を構築してから、該最適面の法線ベクトルを決定し、該最適面におけるキーポイントの、該法線ベクトル方向に沿った拡張によって、擬似三次元検出体を形成する。擬似三次元検出体を迅速かつ正確に構築するのに寄与する。
任意選択的な例において、ターゲット対象のキーポイントは、複数含まれてもよい。なお、本出願の実施例において、被処理画像におけるターゲット対象の最適面を決定する形態は以下の通りであってもよい。まず、予測正確度要件に合致するキーポイントのそれぞれに対応する面に対して、各面の品質を決定する。つまり、予測正確度要件に合致するキーポイントに基づいて、各面に対して品質評価を行う。続いて、品質評価が最も高い面をターゲット対象の最適面とする。なお、該実施例において、選出されたキーポイントの二次元座標に基づいて、ターゲット対象の擬似三次元検出体を構築することができる。
任意選択的な例において、面の品質評価形態は、以下の通りであってもよい。各面に対応する、予測正確度要件に合致するキーポイントの数を統計し、統計された数を品質評価スコアとする。従って、1つの面に対応する、予測正確度要件に合致するキーポイントの数が多いほど、該面の品質評価スコアが高くなる。例えば、図2において、キーポイント1、キーポイント2、キーポイント3、キーポイント4、キーポイント5、キーポイント6、キーポイント7及びキーポイント8がいずれも、予測正確度要件に合致するキーポイントであるとすれば、キーポイント1、キーポイント2、キーポイント3、キーポイント4、キーポイント5及びキーポイント6が車両の左面に対応し、キーポイント1、キーポイント2、キーポイント7及びキーポイント8が車両の前面に対応するため、車両の左面の品質評価スコアが最も高く、車両の左面が最適面である。
任意選択的な例において、面の品質評価形態は以下の通りであってもよい。各面に対応する、予測正確度要件に合致するのキーポイントの予測正確度の和を統計する。従って、少なくとも1つの面が1つの予測正確度スコアに対応する。本出願の実施例は、面に対応する予測正確度スコアを面の品質評価スコアとすることができる。従って、面に対応する予測正確度スコアが高いほど、該面の品質評価スコアが高くなる。
任意選択的な例において、面の品質評価形態は以下の通りであってもよい。各面に対応する、予測正確度要件に合致するのキーポイントの数及び予測正確度の和を統計する。従って、各面は、1つのキーポイント数及び予測正確度スコアに対応する。本出願の実施例は、各面に対応する予測正確度スコアとキーポイントの数との商を算出する。つまり、各面の予測正確度平均スコアを算出する。面に対応する予測正確度平均スコアを面の品質評価スコアとする。従って、面に対応する予測正確度平均スコアが高いほど、該面の品質評価スコアが高くなる。
以上、3つの面の品質評価形態のみを列挙した。本出願の実施例は、他の形態で、面の品質を決定することもできる。本出願の実施例は、面の品質評価形態の実現形態を限定するものではない。
任意選択的な例において、本出願の実施例は、種々の形態により、二次元平面において、最適面を構築することができる。例えば、最適面における1つのキーポイントを利用して二次元平面において、垂線(即ち、キーポイントの垂直方向を通った線)を下ろし、最適面における1つの辺は、該垂線に位置し、該垂線と他の面における辺との交点は、最適面の1つの頂点である。また例えば、最適面における2つのキーポイントを利用して、二次元平面において、連結線を作成する。該連結線は、最適面における1つの辺であってもよい。又は該連結線及びその延長線は、最適面における1つの辺であってもよい。つまり、該2つのキーポイントは最適面における2つの頂点であってもよい。又は、該2つのキーポイントの連結線の延長線と他の面の辺との交点は、該最適面の頂点であってもよい。また例えば、最適面における1つのキーポイントを利用して平行線を作成する。該平行線は、最適面におけるもう1つの辺に平行である線である。つまり、最適面における1つのキーポイントを利用して、最適面におけるもう1つの辺の平行線を作成する。最適面における1つの辺は、該平行線に位置する。該平行線と上記垂線との交点又は他の面の辺との交点は、該最適面の頂点である。本出願の実施例は、二次元平面において最適面を構築するための実現形態を限定するものではない。
任意選択的な例において、本出願の実施例において、種々の形態により、最適面の法線ベクトルを決定することができる。第1の例において、まず、擬似三次元検出体の準最適面を決定してから、準最適面におけるキーポイントを利用して最適面に向けて垂線を下ろすことで、該垂線を最適面の法線ベクトルとすることができる。第2の例において、予測正確度要件に合致する全てのキーポイントから、最適面に対応するキーポイントを除去し、残りのキーポイントから、予測正確度が最も高いキーポイントを選出し、該キーポイントを経由して最適面に向けて垂線を下ろし、該垂線を最適面の法線ベクトルとする。第3の例において、2つのキーポイントが最適面に属する隣接面が存在し、且つ該2つのキーポイントの連結線が隣接面の、最適面に垂直な辺に位置すると、該2つのキーポイントの二次元平面における座標差を最適面の法線ベクトルとすることができる。例えば、図2において、車両の左面が最適面であって、車両の前面が準最適面であって、キーポイント7の二次元平面における座標が
Figure 0006949266
であって、キーポイント1の二次元平面における座標が
Figure 0006949266
であるとすれば、本出願の実施例は、
Figure 0006949266
を最適面の法線ベクトルとすることができる。以上、3つの例のみを列挙した。本出願の実施例は、他の形態で、最適面の法線ベクトルを得ることもできる。本出願の実施例は、最適面の法線ベクトルを得るための実現形態を限定するものではない。
任意選択的な例において、本出願の実施例において準最適面を決定する過程は以下の通りであってもよい。まず、最適面に隣接する面を決定し、最適面に属するキーポイント以外の他のキーポイントに対して、最適面に隣接する各面のそれぞれに含まれるキーポイントの数を統計する。本出願の実施例は、含まれるキーポイントの数が最も多い面を準最適面とすることで、準最適面選択が不適切であるという現象を避けることができる。例えば、図2において、キーポイント検出過程においてエラーが発生したため、本出願の実施例は、キーポイント1、キーポイント2、キーポイント3、キーポイント4、キーポイント5、キーポイント6、キーポイント7及びキーポイント8を取得しただけでなく、キーポイント10も取得した。キーポイント1、キーポイント2、キーポイント3、キーポイント4、キーポイント5、キーポイント6、キーポイント7、キーポイント8及びキーポイント10がいずれも予測正確度要件に合致し、且つキーポイント10の予測正確度が高いため、上記場合、キーポイント10にはキーポイント検出エラーが発生したことが明らかである。本出願の実施例は、上記形態で準最適面を決定することで、キーポイント10から最適面に向けて垂線を下ろし、最適面の法線ベクトルを得るという現象を避けることができる。
任意選択的な例において、本出願の実施例は、最適面及びその法線ベクトルを決定してから、最適面における頂点を該最適面の法線ベクトル方向に沿って拡張させ、他の面の辺と交差させ、最終的に、擬似三次元検出体を形成する。例えば、図2において、まず、キーポイント1を通った第1垂線及びキーポイント4を通った第2垂線を形成してから、キーポイント6及びキーポイント5を同時に通って且つ第1垂線及び第2垂線とそれぞれ交差する第1線を形成する。続いて、キーポイント2又はキーポイント3を通って上記第1線に平行であり、且つ2本の垂線とそれぞれ交差する第2線を形成することで、最適面の4本の線及び4つの頂点を形成する。該最適面の法線ベクトルは、
Figure 0006949266
である。該法線ベクトルは、準最適面の底辺である。本出願の実施例は、キーポイント7を通った第3垂線を形成し、キーポイント7により、第1線又は第2線に平行である第3線を作成する。最適面における左上隅の頂点の、該法線ベクトル方向に沿った拡張が第3垂線と交差し、準最適面の頂辺を形成する。また、該交点とキーポイント8との連結線は、最適面における右上隅の頂点が該法線ベクトル方向に沿って拡張した線と交差する。該交点により第4垂線を下ろす。第4垂線は、最適面の右下隅の頂点が法線ベクトル方向に沿って拡張した線と交差する。これにより二次元空間において、擬似三次元検出体を形成する。本出願の実施例において、被処理画像におけるターゲット対象のために形成された擬似三次元検出体の一例は、図3に示す通りである。本出願の実施例は、最適面及びその法線ベクトルを決定してから、種々の形態で擬似三次元検出体を形成することができる。本出願の実施例は、擬似三次元検出体の形成のための実現過程を限定するものではない。
任意選択的な例において、該操作S110は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される三次元検出体構築モジュール510により実行されてもよい。
S120、キーポイントの深度情報を取得する。
任意選択的な例において、本出願の実施例は、単眼形態又は両眼形態などにより、被処理画像の深度マップを得てから、キーポイントの二次元座標を利用して該深度マップから、キーポイントの深度値を読み取ることができる。本出願の実施例は、H行列の形態でキーポイントの深度値を直接的に得ることができる。つまり、キーポイントの二次元座標とH行列を乗算し、乗算結果から、キーポイントの深度値(単位がメートルであってもよい)を得る。また、撮影装置が深度ベースの撮影装置である場合、キーポイントの深度値を直接的に得ることができる。本出願の実施例は、キーポイントの深度値を得るための実現形態を限定するものではない。
任意選択的な例において、該操作S120は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される深度情報取得モジュール520により実行されてもよい。
S130、キーポイントの深度情報及び擬似三次元検出体に基づいて、ターゲット対象の三次元検出体を決定する。
任意選択的な例において、該操作S130は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される三次元検出体決定モジュール530により実行されてもよい。
任意選択的な例において、本出願の実施例は、まず、キーポイントの二次元座標及び深度情報に基づいて、三次元空間において、ターゲット対象の初期三次元検出体(例えば、初期三次元直方体)を構築してから、少なくとも擬似三次元検出体を三次元検出体に対する制約要件として、初期三次元検出体に対して補正処理を行うことで、ターゲット対象の三次元検出体(例えば、三次元直方体)を得る。
任意選択的な例において、本出願の実施例は、まず、キーポイントの深度情報に基づいて、キーポイントの二次元座標を三次元空間における三次元座標に変換してから、変換により得られたキーポイントの三次元座標に基づいて、ターゲット対象の初期三次元検出体を構築する。本出願の実施例は、キーポイントの二次元座標を三次元空間における三次元座標に変換する過程において、選択的に変換を行うことができる。例えば、予測正確度要件に合致するキーポイントのみの二次元座標を三次元空間における三次元座標に変換する。勿論、本出願の実施例は、全てのキーポイントの二次元座標を三次元空間における三次元座標に変換するが、ターゲット対象の初期三次元検出体を構築する過程において、予測正確度要件に合致するキーポイントのみの三次元座標に基づいて,ターゲット対象の初期三次元検出体を構築することもできる。本出願の実施例における三次元空間は一般的には、例えば撮影装置の三次元座標系に基づいた三次元空間のような実世界の三次元空間である。
任意選択的な例において、本出願の実施例は、種々の形態でキーポイントの二次元座標を三次元空間における三次元座標に変換することができる。
例えば、上記得られたキーポイントの深度値を三次元空間における距離に変換する。該距離は、キーポイントと撮影装置との距離と認められてもよい。続いて、下記式(1)により、各キーポイントの三次元座標を算出する。
Figure 0006949266
式(1)
上記式(1)において、
Figure 0006949266
は、撮影装置のパラメータを表す。
Figure 0006949266

Figure 0006949266

Figure 0006949266
は、キーポイントの三次元座標を表し、つまり、キーポイントの実世界の三次元空間における三次元座標を表す。ただし、
Figure 0006949266
として上記得られたキーポイントの深度値を代入することができる。
Figure 0006949266
及び
Figure 0006949266
は、キーポイントの二次元座標を表し、つまり、キーポイントの被処理画像の座標系における二次元座標を表す。
Figure 0006949266
は、スケーリングファクタを表す。
Figure 0006949266
が下記3×3の行列で表わされる場合、
Figure 0006949266
上記式(1)は、下記式(2)の形態で表わされてもよい。
Figure 0006949266
式(2)
複数のキーポイントの二次元座標を上記式(2)に代入することで、変数
Figure 0006949266

Figure 0006949266
及び
Figure 0006949266
を解き、キーポイントの三次元座標である
Figure 0006949266
を得ることができる。
任意選択的な例において、本出願の実施例は、まず、ターゲット対象の三次元空間における最適面を決定し、三次元平面において該最適面を構築してから、該最適面の法線ベクトルを決定し、該最適面におけるキーポイントの、該法線ベクトル方向に沿った拡張によって、初期三次元検出体(例えば三次元直方体)を形成する。
任意選択的な例において、本出願の実施例においてターゲット対象の三次元空間における最適面を決定するための形態は以下の通りであってもよい。まず、予測正確度要件に合致するキーポイントのそれぞれに対応する面に対して、各面の品質を決定する。つまり、予測正確度要件に合致するキーポイントに基づいて、各面に対して品質評価を行う。続いて、品質評価が最も高い面をターゲット対象の最適面とする。面の品質評価形態は、上記ステップS110で列挙した幾つかの形態であってもよい。ここで、詳細な説明を省略する。
任意選択的な例において、本出願の実施例は、種々の形態により、三次元平面において、最適面を構築することができる。例えば、最適面における1つのキーポイントを利用して三次元空間において、垂線(即ち、キーポイントの垂直方向(y方向)を通った線)を下ろし、最適面における1つの辺は、該垂線に位置し、該垂線と他の面における辺との交点は、最適面の1つの頂点である。また例えば、最適面における2つのキーポイントを利用して、三次元空間において、連結線を作成する。該連結線は、最適面における1つの辺であってもよい。又は該連結線及びその延長線は、最適面における1つの辺であってもよい。つまり、該2つのキーポイントは最適面における2つの頂点であってもよい。又は、該2つのキーポイントの連結線の延長線と他の面の辺との交点は、該最適面の頂点であってもよい。また例えば、最適面における1つのキーポイントを利用して平行線を作成する。該平行線は、最適面におけるもう1つの辺に平行である線である。つまり、最適面における1つのキーポイントを利用して、最適面におけるもう1つの辺の平行線を作成する。最適面における1つの辺は、該平行線に位置する。該平行線と上記垂線との交点又は他の面の辺との交点は、該最適面の頂点である。本出願の実施例は、三次元空間において最適面を構築するための実現形態を限定するものではない。
任意選択的な例において、本出願の実施例において、種々の形態により、最適面の法線ベクトルを決定することができる。第1の例において、まず、三次元検出体の準最適面を決定してから、準最適面におけるキーポイントを利用して最適面に向けて垂線を下ろすことで、該垂線を最適面の法線ベクトルとすることができる。第2の例において、予測正確度要件に合致する全てのキーポイントから、最適面に対応するキーポイントを除去し、残りのキーポイントから、予測正確度が最も高いキーポイントを選出し、該キーポイントを経由して最適面に向けて垂線を下ろし、該垂線を最適面の法線ベクトルとする。第3の例において、2つのキーポイントが最適面に属する隣接面が存在し、且つ該2つのキーポイントの連結線が隣接面の、最適面に垂直な辺に位置すると、該2つのキーポイントの三次元空間における座標差を最適面の法線ベクトルとすることができる。例えば、図2において、車両の左面が最適面であって、車両の前面が準最適面であって、キーポイント7の三次元空間における座標が
Figure 0006949266
であって、キーポイント1の三次元空間における座標が
Figure 0006949266
であるとすれば、本出願の実施例は、
Figure 0006949266
を最適面の法線ベクトルとすることができる。以上、3つの例のみを列挙した。本出願の実施例は、他の形態で、最適面の法線ベクトルを得ることもできる。本出願の実施例は、最適面の法線ベクトルを得るための実現形態を限定するものではない。
任意選択的な例において、本出願の実施例は、最適面及びその法線ベクトルを決定してから、最適面における頂点を、該最適面の法線ベクトル方向に沿って拡張させ、他の面の辺と交差させ、最終的に、初期三次元検出体を形成する。例えば、図2において、まず、キーポイント1を通った第1垂線及びキーポイント4を通った第2垂線を形成してから、キーポイント6及びキーポイント5を同時に通って且つ第1垂線及び第2垂線とそれぞれ交差する第1線を形成する。続いて、キーポイント2又はキーポイント3を通って上記第1線に平行であり、且つ2本の垂線とそれぞれ交差する第2線を形成することで、最適面の4本の線及び4つの頂点を形成する。該最適面の法線ベクトルは、
Figure 0006949266
である。該法線ベクトルは、準最適面の底辺である。本出願の実施例は、キーポイント7を通った第3垂線を形成し、キーポイント7により、第1線又は第2線に平行である第3線を作成する。最適面における左上隅の頂点の、該法線ベクトル方向に沿った拡張が第3垂線と交差し、準最適面の頂辺を形成する。また、該交点とキーポイント8との連結線は、最適面における右上隅の頂点が該法線ベクトル方向に沿って拡張した線と交差する。該交点により第4垂線を下ろす。第4垂線は、最適面の右下隅の頂点が法線ベクトル方向に沿って拡張した線と交差する。これにより二次元空間において、三次元検出体を形成する。本出願の実施例において、最適面及びその法線ベクトルを決定してから、種々の形態で初期三次元検出体を形成することができる。本出願の実施例は、初期三次元検出体の形成のための実現過程を限定するものではない。
上記形態によれば、道路分割及び意味領域分割などのコンピュータビジョンバックグラウンドタスクを必要としないため、ターゲット対象のために、初期三次元検出体を迅速に構築することができる。また、該初期三次元検出体を構築するためのコンピューティングリソースの消費が小さく、コストが低い。なお、本出願の実施例は、ターゲット対象のキーポイントを基礎として、初期三次元検出体を構築するため、初期三次元検出体の構築過程は、ターゲット対象が地上に位置するかどうかなどの要因と無関係である。従って、本出願の実施例は、ターゲット対象が地上に位置しないなどのシーンでにおいて、対象三次元検出を実現できないなどの現象を効果的に避けることができ、対象三次元検出の適用範囲の拡大に寄与する。
任意選択的な例において、擬似三次元検出体に基づいて初期三次元検出体を補正し、ターゲット対象の三次元検出体を形成することは、二次元平面における擬似三次元検出体に基づいて三次元空間における初期三次元検出体を調整することであってもよい。それにより、三次元検出体の二次元平面にマッピングする領域と擬似三次元検出体との面積の重なり度合いを向上させる。
任意選択的な例において、本出願の実施例は、初期三次元検出体における各頂点を二次元平面にマッピングすることで、初期三次元検出体の二次元平面における図形を得る。本出願の実施例は、三次元空間における初期三次元検出体に対して調整することで、二次元平面にマッピングする図形領域と二次元平面における擬似三次元検出体の面積の重なり度合いを変化させることができる。例えば、両者の重なり面積を可能な限り最大化する。また例えば、両者のオーバーラップ率を可能な限り最大化する。
任意選択的な例において、本出願の実施例において両者の重なり度合いを変化させる形態は、以下を含んでもよい。初期三次元検出体の三次元空間における位置を調整し、初期三次元検出体の二次元平面にマッピングする図形領域と擬似三次元検出体との重なり面積を最大化する。例えば、初期三次元検出体の二次元平面にマッピングする図形領域で擬似三次元検出体を完全に覆うようにする。また例えば、擬似三次元検出体で、初期三次元検出体の二次元平面にマッピングする図形領域を完全に覆うようにする。
任意選択的な例において、本出願の実施例において両者の面積の重なり度合いを変化させる形態は、以下を含んでもよい。初期三次元検出体の三次元空間における寸法を調整し、初期三次元検出体の二次元平面にマッピングする図形領域と擬似三次元検出体の図形領域を可能な限り一致させる。例えば、初期三次元検出体が二次元空間中にマッピングする時に、その長さ/幅/高さの値と擬似三次元検出体の長さ/幅/高さの値との比が所定の比(例えば0.9−1.1)を満たしていないと、本出願の実施例は、初期三次元検出体の三次元空間における長さ/幅/高さの値に対して調整し、調整後の三次元検出体が二次元空間にマッピングする長さ/幅/高さの値と擬似三次元検出体の長さ/幅/高さの値との比を、所定の比を満たさせるか又は一致させる。
被処理画像におけるターゲット対象のキーポイントの検出正確度が相対的高くて、且つ検出速度が相対的速いため、ターゲット対象のキーポイントを利用することで、二次元平面において、正確度の高い擬似三次元検出体を迅速に構築することができる。本出願の実施例は、擬似三次元検出体を利用することで、三次元空間における初期三次元検出体に対して補正を行うため、ターゲット対象に対して三次元空間において構築される三次元検出体の正確度の向上に寄与する。
任意選択的な例において、本出願の実施例は、ターゲット対象の所定の長さ・幅・高さの比を初期三次元検出体の制約要件とすることで、三次元空間において、該制約要件に基づいて、初期三次元検出体を補正することができる。例えば、ターゲット対象が車両である場合、本出願の実施例は、車両の長さ・幅・高さの比を予め2:1:1とすることで、初期三次元検出体の長さ・幅・高さの比が2:1:1を一定の範囲超えると、初期三次元検出体の長さ・幅・高さを調整し、調整後の三次元検出体の長さ・幅・高さの比が2:1:1を一定の範囲超えないようにする。
任意選択的な例において、本出願の実施例は、ターゲット対象の被処理画像における検出枠を初期三次元検出体の制約要件とすることで、三次元空間において該制約要件に基づいて初期三次元検出体を補正することができる。例えば、ターゲット対象が車両である場合、本出願の実施例は、車両検出枠(車両外接枠と呼ばれてもよい)を初期三次元検出体の制約要件とし、初期三次元検出体の全体的位置及び/又は長さ・幅・高さを調整する。これにより、調整後の三次元検出体が二次元空間にマッピングする時に、検出枠に完全に収まる。ターゲット対象の検出枠が一般的には正確であるため、検出枠を制約要件として初期三次元検出体を補正すると、対象三次元検出結果の正確性の向上に寄与する。
任意選択的な例において、被処理画像が時間順序関係を有する複数の被処理画像のうちの1つの被処理画像(例えばビデオにおける1つのビデオフレーム)である場合、本出願の実施例は、調整後の三次元検出体に対して平滑化処理を行うことができる。該平滑化処理は、三次元検出体の長さ・幅・高さに対する平滑化処理、三次元検出体の運動方向に対する平滑化処理及び三次元検出体の鳥瞰図の中心点に対する平滑化処理のうちの少なくとも1つを含む。なお、本出願の実施例は、三次元検出体の8つの頂点に対して平滑化処理を行うこともできる。本出願の実施例は、三次元検出体に対して平滑化処理を行うことで、対象三次元検出の正確性の向上に寄与し、ターゲット対象が前後隣接する2つのビデオフレームにおいて大幅に振れるのを効果的に避け、自動運転の安全性の向上に寄与する。
平滑化処理の実現過程において、本出願の実施例は、現在の被処理画像の前の複数の履歴被処理画像(例えば、5つ、6つ又は7つの履歴ビデオフレーム)を利用して、対応するフィッティング関数により、現在の被処理画像のターゲット対象の三次元検出体の長さ・幅・高さ、運動方向又は鳥瞰図の中心点などのパラメータを予測することができる。勿論、本出願の実施例は、ターゲット対象の三次元検出体の8つの頂点に対して平滑化処理を行うこともできる。本出願の実施例におけるフィッティング関数として二次関数、次指数関数又は対数関数などを利用してもよい。本出願の実施例は、バランス処理過程において用いられるフィッティング関数の表現形態を限定するものではない。
フィッティング関数とする二次関数の一例は、式(3)に示す通りである。
Figure 0006949266
式(3)
上記式(3)において、
Figure 0006949266
は、フィッティング最適化を行う履歴ビデオフレームの値を表す。例えば、5つの履歴ビデオフレームを利用してフィッティングを行う場合、
Figure 0006949266
である。
Figure 0006949266
は、履歴ビデオフレームに対応する時刻を表す。例えば、5つの履歴ビデオフレームを利用してフィッティングを行う場合、
Figure 0006949266
である。
Figure 0006949266

Figure 0006949266
及び
Figure 0006949266
は、二次関数の係数を表す。
本出願の実施例は、履歴ビデオフレームを利用して、まず式(3)における
Figure 0006949266

Figure 0006949266
及び
Figure 0006949266
を得てから、式(3)を利用して現在のビデオフレームの予測結果
Figure 0006949266
を得ることができる。
本出願の実施例は、重み付けの形態で、現在のビデオフレームにおけるターゲット対象の三次元検出体の長さ・幅・高さ、運動方向又は鳥瞰図の中心点等のパラメータを調整することで、対応する平滑化処理を実現させることができる。例えば、本出願の実施例は、下記式(4)を利用して現在のビデオフレームにおけるターゲット対象の三次元検出体の長さ・幅・高さ、運動方向又は鳥瞰図の中心点等のパラメータを調整することができる。
Figure 0006949266
式(4)
上記式(4)において、
Figure 0006949266
は予測結果に対応する重みを表す。
Figure 0006949266
は、予測結果を表す。
Figure 0006949266
は、現在のビデオフレームの対象三次元検出結果に対応する重みを表す。
Figure 0006949266
は、現在のビデオフレームの対象三次元検出結果を表す。
Figure 0006949266
は、平滑化処理された現在のビデオフレームの対象三次元検出結果を表す。
重み値の設定は、実際の需要に応じて決定してもよい。例えば、予測結果と現在のビデオフレームの対象三次元検出結果との差が大きくない(例えば、差が所定の値以下である)場合、
Figure 0006949266
及び
Figure 0006949266
とすることができる。また例えば、予測結果と現在のビデオフレームの対象三次元検出結果との差が大きい(例えば差が所定の値に達した)場合、
Figure 0006949266
及び
Figure 0006949266
とすることができ、
Figure 0006949266
及び
Figure 0006949266
等とすることもできる。本出願の実施例は、重みの値を限定するものではない。
任意選択的な例において、本出願の実施例は、ターゲット対象のキーポイントの三次元座標に基づいて、最終的に得られた三次元検出体の三次元空間パラメータを取得することもできる。例えば、三次元検出体の運動方向、三次元検出体と被処理画像を撮影する撮影装置との位置関係、及び三次元検出体の寸法のうちのいずれか1つ又は複数を取得する。取得された三次元空間パラメータは、ターゲット対象の制御に用いられる。例えば、取得された三次元空間パラメータに基づいて対応する制御命令などを生成する。
本出願の実施例はスマート運転制御方法を更に提供する。該実施例のスマート運転制御方法は、車両に設けられた撮影装置により採取されたビデオに含まれるビデオフレームを被処理画像として、本出願の上記いずれか1つの実施例における対象三次元検出方法でターゲット対象の三次元検出体を決定することと、該三次元検出体の情報に基づいて車両制御命令を生成することと、車両に前記車両制御命令を送信することとを含む。
図4は、本出願の実施例によるスマート運転制御方法の一実施例を示すフローチャートである。本出願の実施例のスマート運転制御方法は、自動運転(例えば、人による支援が全くない自動運転)環境に適用可能であり、支援運転環境にも適用である。本出願の実施例は、スマート運転制御方法の適用環境を制御するものではない。
図4に示すように、該実施例のスマート運転制御は以下を含む。
S400、車両に設けられた撮像装置により採取された被処理画像におけるターゲット対象のキーポイントの二次元座標を取得する。本操作の実現形態は、上記方法実施例における図1の操作S100に関する説明を参照することができる。ここで、詳細な説明を省略する。
任意選択的な例において、該操作S400は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される二次元座標取得モジュール500により実行されてもよい。
S410、キーポイントの二次元座標に基づいて、ターゲット対象の擬似三次元検出体を構築する。本操作の実現形態は、上記方法実施例における図1の操作S110に関する説明を参照することができる。ここで、詳細な説明を省略する。
任意選択的な例において、該操作S410は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される三次元検出体構築モジュール510により実行されてもよい。
S420、キーポイントの深度情報を取得する。本操作の実現形態は、上記方法実施例における図1の操作S120に関する説明を参照することができる。ここで、詳細な説明を省略する。
任意選択的な例において、該操作S420は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される深度情報取得モジュール520により実行されてもよい。
S430、キーポイントの深度情報及び擬似三次元検出体に基づいて、ターゲット対象の三次元検出体を決定する。本操作の実現形態は、上記方法実施例における図1の操作S130に関する説明を参照することができる。ここで、詳細な説明を省略する。
任意選択的な例において、該操作S430は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される三次元検出体決定モジュール530により実行されてもよい。
S440、三次元検出体の情報に基づいて車両制御命令を生成する。
任意選択的な例において、本出願の実施例における三次元検出体の情報は、三次元検出体の運動方向、三次元検出体と前記撮影装置との位置関係、三次元検出体の寸法のうちの1つ又は複数を含む。本出願の実施例は、三次元検出体の情報に含まれるものを限定するものではない。
任意選択的な例において、本出願の実施例において三次元検出体の情報に基づいて生成される車両制御命令は、ブレーキ命令、抑速走行命令、左ステアリング命令、右ステアリング命令、現在の走行速度保持命令、鳴笛命令、加速走行命令のうちの1つ又は複数を含んでもよい。本出願の実施例は、車両制御命令の表現形態を限定するものではない。
任意選択的な例において、該操作S440は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される命令生成モジュール610により実行されてもよい。
S450、車両に車両制御命令を送信する。
任意選択的な例において、該操作S450は、プロセッサによりメモリに記憶されている対応する命令を呼び出すことで実行されてもよいし、プロセッサで実行される命令送信モジュール620により実行されてもよい。
本出願の実施例の対象三次元検出技術は、スマート運転制御分野に加えて、他の分野にも適用可能であり、例えば、工業製造における対象検出、スーパーマーケットなどの室内分野における対象検出、セキュリティ分野における対象検出などを実現させることができ、本出願の実施例は、対象三次元検出技術の適用シーンを限定するものではないことに特に留意されたい。
本出願の実施例で提供されるいずれか1つの対象三次元検出及びスマート運転制御方法は、データ処理能力を持つ如何なる適切な装置により実行されてもよい。該装置は、端末装置及びサーバなどを含むが、これらに限定されない。又は、本出願の実施例で提供されるいずれか1つの対象三次元検出及びスマート運転制御方法は、プロセッサにより実行されてもよい。例えば、プロセッサは、メモリに記憶されている対応する命令を呼び出すことで、本出願の実施例で言及したいずれか1つの対象三次元検出及びスマート運転制御方法を実行する。以下、詳細な説明を省略する。
当業者であればわかるように、上記各方法実施例の全て又は一部の操作の実現は、プログラム命令に関するハードウェアにより完成することができる。上述したプログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行される場合、上記方法実施例における操作を実行する。上述した記憶媒体は、ROM、RAM、磁気ディスク又は光ディスクのような、プログラムコードを記憶できる様々な媒体を含む。
図5は、本出願の実施例による対象三次元検出装置の一実施例の構造を示す概略図である。図5に示すように、該実施例による装置は、二次元座標取得モジュール500、三次元検出体構築モジュール510、深度情報取得モジュール520及び三次元検出体決定モジュール530を備える。任意選択的に、該装置は、キーポイント選択モジュール540、ターゲット検出枠取得モジュール550、平滑化処理モジュール560、運動方向取得モジュール570及び位置関係取得モジュール580を備える。
二次元座標取得モジュール500は、被処理画像におけるターゲット対象のキーポイントの二次元座標を取得するように構成される。本出願の実施例における被処理画像は、移動物に設けられた撮影装置により撮影られたビデオにおけるビデオフレームであってもよい。本出願の実施例における被処理画像は、固定位置に設けられた撮影装置により撮影られたビデオにおけるビデオフレームであってもよい。本出願の実施例におけるターゲット対象は、自動車、軽車両、歩行者、動物、建築物、植物、障害物、危険物、交通標識又は物品のうちのいずれか1つ又は複数を含んでもよい。
任意選択的な例において、二次元座標取得モジュール500が操作を実行する前に、ターゲット検出枠取得モジュール550は、被処理画像に対してターゲット対象検出を行い、ターゲット対象を含む二次元ターゲット検出枠を得ることができる。従って、二次元座標取得モジュール500は、被処理画像における二次元ターゲット検出枠に対応する画像部分に基づいて、ターゲット対象のキーポイントの二次元座標を取得することができる。なお、ターゲット対象検出過程において、ターゲット検出枠取得モジュール550がターゲット対象を含む二次元ターゲット検出枠の取得に成功しなかった場合、本出願の実施例の対象三次元検出装置は、対象の三次元検出処理を引き続き実行しなくてもよい。例えば、二次元座標取得モジュール500は、二次元ターゲット検出枠の取得装置を引き続き実行しない。
三次元検出体構築モジュール510は、キーポイントの二次元座標に基づいて、ターゲット対象の擬似三次元検出体を構築するように構成される。
任意選択的な例において、三次元検出体構築モジュール510は、第1サブモジュールと第2サブモジュールとを備えてもよい。ここで、第1サブモジュールは、キーポイントとターゲット対象に含まれる面との所定の第1所属関係及びキーポイントの二次元座標に基づいて、少なくとも1つのターゲット対象のあり得る面を構築するように構成される。ここで、第2サブモジュールは、あり得る面に基づいて、ターゲット対象の擬似三次元検出体を構築するように構成される。
任意選択的な例において、上記第2サブモジュールは、第1ユニットと第2ユニットとを備えてもよい。ここで、第1ユニットは、所定の面品質判定ルールに基づいて、構築された少なくとも1つのあり得る面から最適面を決定するように構成される。ここで、第2ユニットは、最適面に基づいてターゲット対象の擬似三次元検出体を構築するように構成される。なお、第1ユニットは、所定の面品質判定ルールに基づいて、構築された少なくとも1つのあり得る面から、最適面及び準最適面を決定することができる。第2ユニットは、最適面及び準最適面に基づいてターゲット対象の擬似三次元検出体を構築することができる。
任意選択的な例において、第2ユニットは、まず、最適面の法線ベクトルを決定してから、最適面における頂点の、法線ベクトル方向に沿った拡張によって、擬似三次元検出体を形成することができる。ここで、第2ユニットによる最適面の法線ベクトルの決定の形態は、準最適面におけるキーポイントから最適面に向けて下ろされる垂線を最適面の法線ベクトルとすることであってもよい。本出願の実施例の第2ユニットによる最適面の法線ベクトルの決定の形態は、最適面に対応するキーポイント以外の他のキーポイントのうち予測正確度が最も高いキーポイントから最適面に向けて下ろされる垂線を最適面の法線ベクトルとすることであってもよい。本出願の実施例の第2ユニットによる最適面の法線ベクトルの決定の形態は、最適面の隣接面における、最適面に垂直である辺における2つのキーポイントの座標差を最適面の法線ベクトルとすることであってもよい。
任意選択的な例において、ターゲット対象のキーポイントが複数含まれる場合、三次元検出体構築モジュール510により擬似三次元検出体の構築操作を実行する前に、キーポイント選択モジュール540は、複数のキーポイントから、予測正確度要件に合致するキーポイントを選出するように構成されていてもよい。これにより、三次元検出体構築モジュール510は、キーポイント選択モジュール540により選出されたキーポイントの二次元座標に基づいて、ターゲット対象の擬似三次元検出体を構築することができる。
深度情報取得モジュール520は、キーポイントの深度情報を取得するように構成さっる。
三次元検出体決定モジュール530は、キーポイントの深度情報及び擬似三次元検出体に基づいて、ターゲット対象の三次元検出体を決定するように構成される。
任意選択的な例において、三次元検出体決定モジュール530は、第3サブモジュール、第4サブモジュール及び第5サブモジュールを備えてもよい。ここで、第3サブモジュールは、キーポイントの深度情報に基づいて、キーポイントの二次元座標を三次元空間における三次元座標に変換するように構成される。例えば、第3サブモジュールは、予測正確度要件に合致するキーポイントの二次元座標を三次元空間における三次元座標に変換することができる。第4サブモジュールは、キーポイントの三次元座標に基づいて、ターゲット対象の初期三次元検出体を構築するように構成される。第5サブモジュールは、擬似三次元検出体に基づいて初期三次元検出体を補正し、ターゲット対象の三次元検出体を形成するように構成される。例えば、第5サブモジュールは、二次元平面における擬似三次元検出体に基づいて、三次元空間における初期三次元検出体を調整することで、調整後の三次元検出体の二次元平面にマッピングする領域と擬似三次元検出体との面積の重なり度合いを向上させる。なお、第5サブモジュールは、ターゲット対象の所定の長さ・幅・高さの比に基づいて、初期三次元検出体を補正することもできる。第5サブモジュールは、ターゲット対象の、被処理画像における検出枠に基づいて、初期三次元検出体を補正することで、調整後の三次元検出体の二次元平面にマッピングする領域を前記検出枠に属させることもできる。
任意選択的な例において、第4サブモジュールは、第3ユニット、第4ユニット及び第5ユニットを備えてもよい。ここで、第3ユニットは、キーポイントの三次元座標のそれぞれに対応する面に基づいて、ターゲット対象の最適面を決定し、三次元空間においてターゲット対象の最適面を構築するように構成される。第4ユニットは、最適面の法線ベクトルを決定するように構成される。例えば、第4ユニットは、準最適面におけるキーポイントから最適面に向けて下ろされる垂線を最適面の法線ベクトルとする。また例えば、第4ユニットは、最適面に対応するキーポイント以外の他のキーポイントのうち予測正確度が最も高いキーポイントから最適面に向けて下ろされる垂線を最適面の法線ベクトルとする。また例えば、第4ユニットは、最適面の隣接面における、最適面に垂直である辺における2つのキーポイントの座標差を最適面の法線ベクトルとする。第5ユニットは、最適面における頂点の、法線ベクトル方向に沿った拡張によって、初期三次元検出体を形成するように構成される。
平滑化処理モジュール560は、時間順序関係を有する複数の被処理画像における同一のターゲット対象の三次元検出体に対して平滑化処理を行うように構成される。本出願の実施例における平滑化処理は、三次元検出体の長さ・幅・高さに対する平滑化処理、三次元検出体の運動方向に対する平滑化処理、三次元検出体の鳥瞰図の中心点に対する平滑化処理及び三次元検出体の頂点に対する平滑化処理のうちのいずれか1つ又は複数を含んでもよい。
運動方向取得モジュール570は、ターゲット対象のキーポイントの三次元座標に基づいて、三次元検出体の運動方向を取得するように構成される。
位置関係取得モジュール580は、ターゲット対象のキーポイントの三次元座標に基づいて、ターゲット対象と前記被処理画像を撮影する撮影装置との位置関係を取得するように構成される。
本出願の実施例における二次元座標取得モジュール500、三次元検出体構築モジュール510、深度情報取得モジュール520、三次元検出体決定モジュール530、キーポイント選択モジュール540、ターゲット検出枠取得モジュール550、平滑化処理モジュール560、運動方向取得モジュール570及び位置関係取得モジュール580などのモジュールにより実行される操作は、上記方法実施例における関連説明を参照することができる。ここで、詳細な説明を省略する。
図6は、本出願の実施例によるスマート運転制御装置の一実施例の構造を示す概略図である。図6における装置は、主に、対象三次元検出装置600、命令生成モジュール610及び命令送信モジュール620を備える。
命令生成モジュール610は、対象三次元検出装置600により得られた三次元検出体の情報に基づいて、車両制御命令を生成するように構成される。
命令送信モジュール620は、車両に車両制御命令を送信するように構成される。
対象三次元検出装置600の構造は、本出願の上記いずれか1つの対象三次元検出装置の実施例における説明を参照することができる。命令生成モジュール610及び命令送信モジュール620により実行される操作は、上記方法実施例における関連説明を参照することができる。ここで、詳細な説明を省略する。
図7は、本出願の実施例を実現させるための例示的な機器700を示す。機器700は、車両に配置された制御システム/電子システム、携帯端末(例えばスマートフォン等)、パーソナルコンピュータ(例えば、デスクトップコンピュータ又はノートパソコンなどのようなPC)、タブレット及びサーバ等の電子機器であってもよい。図7において、機器700は、1つ又は複数のプロセッサ、通信部等を含む。前記1つ又は複数のプロセッサは、1つ又は複数の中央演算処理ユニット(CPU)701、及び/又は、ニューラルネットワークを利用して視覚的追跡を行うための画像処理装置(GPU)713等であってもよい。プロセッサは、読み出し専用メモリ(ROM)702に記憶されている実行可能な命令又は記憶部708からランダムアクセスメモリ(RAM)703にロードされた実行可能な命令に基づいて、様々な適切な動作及び処理を実行することができる。通信部712は、ネットワークカードを含んでもよいが、これに限定されない。前記ネットワークカードは、IB(Infiniband)ネットワークカードを含んでもよいが、これに限定されない。プロセッサは、読み出し専用メモリ702及び/又はランダムアクセスメモリ703と通信して、実行可能な命令を実行し、バス704を介して通信部712に接続され、通信部712を経由して他の対象装置と通信することで、本出願の実施例で提供されるいずれか1つの対象三次元検出方法に対応する操作を完了する。例えば、被処理画像におけるターゲット対象のキーポイントの二次元座標を取得し、前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築し、前記キーポイントの深度情報を取得し、前記キーポイントの深度情報及び前記擬似三次元検出体に基づいて、前記ターゲット対象の三次元検出体を決定する。なお、プロセッサは、読み出し専用メモリ702及び/又はランダムアクセスメモリ703と通信して、実行可能な命令を実行し、バス704を介して通信部712に接続され、通信部712を経由して他の対象装置と通信することで、本出願の実施例で提供されるいずれか1つのスマート運転制御方法に対応する操作を完了する。例えば、車両に設けられた撮影装置により採取されたビデオに含まれるビデオフレームを被処理画像として、本出願のいずれか1つの実施例に記載の対象三次元検出方法でターゲット対象の三次元検出体を決定し、前記三次元検出体の情報に基づいて車両制御命令を生成し、前記車両に前記車両制御命令を送信する。
上記各命令により実行される操作は、本出願の上記対象三次元検出方法又はスマート運転制御方法実施例における関連説明を参照することができる。ここで、詳細な説明を省略する。
なお、RAM 703に、装置の操作に必要な様々なプログラム及びデータが記憶されてもよい。CPU701、ROM702及びRAM703は、バス704を介して相互接続される。RAM1503が存在する場合、ROM1502は、任意選択的なモジュールである。RAM703が存在する場合、ROM702は、選択可能なモジュールである。RAM703に実行可能な命令が記憶されている。又は、実行中に、ROM702に実行可能な命令を書き込む。実行可能な命令は、中央演算処理ユニット701に上記対象三次元検出方法又はスマート運転制御方法に対応する操作を実行させる。1入力/出力(I/O)インタフェース705もバス704に接続される。通信部712は、一体的に設けられてもよいし、それぞれバスに接続される複数のサブモジュール(例えば、複数のIBネットワークカード)を有するものとして設けられてもよい。
キーボード、マウスなどを含む入力部706、陰極線管(CRT)、液晶ディスプレイ(LCD)及びスピーカー等を含む出力部707、ハードディスク等を含む記憶部708、及びLANカード、モデム等のようなネットワークインタフェースカードを含む通信部709は、I/Oインタフェース705に接続される。通信部709は、インターネットのようなネットワークを経由して通信処理を実行する。ドライブ710も必要に応じてI/Oインタフェース705に接続される。磁気ディスク、光ディスク、磁気光ディスク、半導体メモリ等のようなリムーバブル媒体711は、必要に応じてドライブ710に取り付けられ、それから読み出されたコンピュータプログラムを必要に応じて記憶部708にインストールするようになる。
図7に示したアーキテクチャは、任意選択的な実現形態に過ぎず、実践過程において、実際の需要に応じて、上記図7に示した部材の数及びタイプを選択、削除、増加、置き換えることができることに特に留意されたい。異なる機能部材を設ける場合、分散型配置又は集積型配置などのような実現形態を用いてもよい。例えば、GPU713とCPU701を離して設けてもよい。また、例えば、GPU713をCPU701に集積してもよい。通信部は、離間するように設けられてもよいし、CPU701又はGPU713に集積して設けられてもよい。これらの置き換え可能な実施形態は、いずれも本出願の保護範囲内に含まれる。
特に、本出願の実施例によれば、フローチャートを参照しながら記載された下記プロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本出願の実施例は、機械可読媒体上に有体に具現されたコンピュータプログラムを含むコンピュータプログラム製品を含む。コンピュータプログラムは、フローチャートに示した工程を実行するためのプログラムコードを含む。プログラムコードは、本出願の実施例が提供する対象三次元検出方法又はスマート運転制御方法におけるステップに対応する命令を含んでもよい。例えば、被処理画像におけるターゲット対象のキーポイントの二次元座標を取得するための命令、前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築するための命令、前記キーポイントの深度情報を取得するための命令、前記キーポイントの深度情報及び前記擬似三次元検出体に基づいて、前記ターゲット対象の三次元検出体を決定するための命令を含む。又は、車両に設けられた撮影装置により採取されたビデオに含まれるビデオフレームを被処理画像として、本出願のいずれか1つの実施例に記載の対象三次元検出方法でターゲット対象の三次元検出体を決定するための命令、前記三次元検出体の情報に基づいて車両制御命令を生成するための命令、前記車両に前記車両制御命令を送信するための命令を含む。
このような実施例において、該コンピュータプログラムは、通信部709により、ネットワークからダウンロードされてインストールされか、及び/又はリムーバブル媒体711からインストールされる。該コンピュータプログラムが中央演算処理ユニット(CPU)701により実行される場合、本出願に記載の、上記対応する工程を実現させるするための命令を実行する。
1つ又は複数の任意選択的な実施例において、本出願の実施例は、コンピュータ可読命令を記憶するためのコンピュータプログラム製品を更に提供する。前記命令が実行される場合、コンピュータに上記任意の実施例に記載の対象三次元検出方法又はスマート運転制御方法を実行させる。
該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェアまたはその組み合わせにより実現されてもよい。任意選択的な一例において、前記コンピュータプログラム製品は具体的には、コンピュータ記憶媒体として体現される。別の任意選択的な例において、前記コンピュータプログラム製品は、具体的には、ソフトウェア開発キット(Software Development Kit:SDK)等のようなソフトウェア製品として体現される。
1つ又は複数の任意選択的な実施例において、本出願の実施例は、もう1つの対象三次元検出方法又はスマート運転制御方法並びにそれに対応する装置及び電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供する。ここで、前記方法は、第1装置が、対象三次元検出指示又はスマート運転制御指示を第2装置に送信し、該指示によれば、第2装置が、上記いずれか1つの実施例における対象三次元検出方法又はスマート運転制御方法を実行することと、第1装置が第2装置からの、対象三次元検出結果又はスマート運転制御結果を受信することとを含む。
幾つかの実施例において、該対象三次元検出指示又はスマート運転制御指示は、呼び出された命令であってもよい。第1装置は、呼出しにより、対象三次元検出操作又はスマート運転制御操作を実行するように第2装置に指示を出すことができる。なお、呼び出された命令を受信したことに応答して、第2装置は、上記対象三次元検出方法又はスマート運転制御方法におけるいずれか1つの実施例における工程及び/又はフローを実行することができる。
本明細書における各実施例は漸進的方式で説明され、各実施例が重点的に説明したのは、その他の実施例との相違点であり、各実施例の同じ又は類似した部分は互いに参照することができる。システムの実施例は、基本的に方法の実施例と類似するので、説明が比較的に簡単であり、関連する部分は方法の実施例の一部の説明を参考すればよい。
本出願の方法及び装置、電子機器並びにコンピュータ可読記憶媒体を多くの態様で実行できる。例えば、本出願の方法及び装置、電子機器並びにコンピュータ可読記憶媒体をソフトウェア、ハードウェア、ファームウェア又はソフトウェア、ハードウェア、ファームウェアの任意の組み合わせにより実行することができる。前記方法の工程に用いられる上記順番は説明のためのものに過ぎず、本出願の方法の工程は、他の方式で特に説明すること以外、上記具体的に記述した順番に限定されない。なお、幾つかの実施例において、本出願を記録媒体に記録されているプログラムとして実行することもできる。これらのプログラムは、本出願の方法を実現させるための機械可読命令を含む。従って、本出願は、本出願の方法を実行するためのプログラムを記憶するための記録媒体を更に含む。
本出願の記述は、例示および説明のためのものであり、網羅的もしくは本出願を開示された形態に限定するように意図されていない。多くの修正及び変化は当業者には明らかであろう。実施例の選択及び説明は、本出願の原理及び実際の適用をより好適に説明するためのものであり、また当業者が本出願を理解して特定の用途向けの様々な修正を含む様々な実施例を設計するようになる。

Claims (20)

  1. 対象三次元検出方法であって、
    被処理画像におけるターゲット対象のキーポイントの二次元座標を取得することと、
    前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築することと、
    前記キーポイントの深度情報を取得することと、
    前記キーポイントの深度情報及び前記擬似三次元検出体に基づいて、前記ターゲット対象の三次元検出体を決定することとを含むことを特徴とする、対象三次元検出方法。
  2. 前記被処理画像は、移動体に設けられた撮影装置により撮影されたビデオにおけるビデオフレーム、又は、固定位置に設けられた撮影装置により撮影されたビデオにおけるビデオフレームを含み、
    前記ターゲット対象は、自動車、軽車両、歩行者、動物、建築物、植物、障害物、危険物、交通標識又は物品のうちのいずれか1つ又は複数を含むことを特徴とする
    請求項1に記載の方法。
  3. 前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築することは、
    キーポイントとターゲット対象に含まれる面との所定の第1所属関係及び前記キーポイントの二次元座標に基づいて、少なくとも1つのターゲット対象のあり得る面を構築することと、
    前記あり得る面に基づいて、前記ターゲット対象の擬似三次元検出体を構築することとを含むことを特徴とする
    請求項1又は2に記載の方法。
  4. 前記あり得る面に基づいて、前記ターゲット対象の擬似三次元検出体を構築することは、
    所定の面品質判定ルールに基づいて、構築された少なくとも1つのあり得る面から、最適面を決定することと、
    前記最適面に基づいて前記ターゲット対象の擬似三次元検出体を構築することとを含むことを特徴とする
    請求項3に記載の方法。
  5. 所定の面品質判定ルールに基づいて、構築された少なくとも1つのあり得る面から、最適面を決定することは、
    所定の面品質判定ルールに基づいて、構築された少なくとも1つのあり得る面から、最適面及び準最適面を決定することを含み、
    前記最適面に基づいて前記ターゲット対象の擬似三次元検出体を構築することは、
    前記最適面及び前記準最適面に基づいて、前記ターゲット対象の擬似三次元検出体を構築することを含むことを特徴とする
    請求項4に記載の方法。
  6. 前記ターゲット対象のキーポイントが複数含まれ、
    前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築する前に、前記方法は、
    複数の前記キーポイントから、予測正確度要件に合致するキーポイントを選出することを更に含み、
    前記キーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築することは、
    前記選出されたキーポイントの二次元座標に基づいて、前記ターゲット対象の擬似三次元検出体を構築することを含むことを特徴とする
    請求項1から5のいずれか一項に記載の方法。
  7. 被処理画像におけるターゲット対象のキーポイントの二次元座標を取得する前に、前記方法は、
    前記被処理画像に対してターゲット対象検出を行い、ターゲット対象を含む二次元ターゲット検出枠を得ることを更に含み、
    被処理画像におけるターゲット対象のキーポイントの二次元座標を取得することは、
    前記被処理画像における前記二次元ターゲット検出枠に対応する画像部分に基づいて、前記ターゲット対象のキーポイントの二次元座標を取得することを含むことを特徴とする
    請求項1から6のいずれか一項に記載の方法。
  8. 前記方法は、
    前記被処理画像に対してターゲット対象検出を行う過程において、ターゲット対象を含む二次元ターゲット検出枠の取得に成功しなかった場合、対象の三次元検出処理を実行しないことを更に含むことを特徴とする
    請求項7に記載の方法。
  9. 前記最適面及び前記準最適面に基づいて、前記ターゲット対象の擬似三次元検出体を構築することは、
    前記最適面の法線ベクトルを決定することと、
    前記最適面における頂点の、前記法線ベクトル方向に沿った拡張によって、前記擬似三次元検出体を形成することとを含み、
    前記最適面の法線ベクトルを決定することは、
    前記準最適面におけるキーポイントから最適面に向けて下ろされる垂線を最適面の法線ベクトルとすること、又は、
    前記最適面に対応するキーポイント以外の他のキーポイントのうち予測正確度が最も高いキーポイントから前記最適面に向けて下ろされる垂線を、最適面の法線ベクトルとすること、又は、
    前記最適面の隣接面における、前記最適面に垂直である辺における2つのキーポイントの座標差を最適面の法線ベクトルとすることを含むことを特徴とする
    請求項5に記載の方法。
  10. 前記キーポイントの深度情報及び前記擬似三次元検出体に基づいて、前記ターゲット対象の三次元検出体を決定することは、
    前記キーポイントの深度情報に基づいて、前記キーポイントの二次元座標を三次元空間における三次元座標に変換することと、
    前記キーポイントの三次元座標に基づいて、前記ターゲット対象の初期三次元検出体を構築することと、
    前記擬似三次元検出体に基づいて前記初期三次元検出体を補正し、前記ターゲット対象の三次元検出体を形成することとを含むことを特徴とする
    請求項9に記載の方法。
  11. 前記キーポイントの二次元座標を三次元空間における三次元座標に変換することは、
    予測正確度要件に合致するキーポイントの二次元座標を三次元空間における三次元座標に変換することを含むことを特徴とする
    請求項10に記載の方法。
  12. 前記キーポイントの三次元座標に基づいて、前記ターゲット対象の初期三次元検出体を構築することは、
    前記キーポイントの三次元座標のそれぞれに対応する面に基づいて、前記ターゲット対象の最適面を決定し、三次元空間において前記ターゲット対象の最適面を構築することと、
    前記最適面の法線ベクトルを決定することと、
    前記最適面における頂点の、前記法線ベクトル方向に沿った拡張によって、前記初期三次元検出体を形成することとを含むことを特徴とする
    請求項11に記載の方法。
  13. 前記最適面の法線ベクトルを決定することは、
    前記準最適面におけるキーポイントから前記最適面に向けて下ろされる垂線を前記最適面の法線ベクトルとすること、又は、
    前記最適面に対応するキーポイント以外の他のキーポイントのうち予測正確度が最も高いキーポイントから前記最適面に向けて下ろされる垂線を前記最適面の法線ベクトルとすること、又は、
    前記最適面の隣接面における、前記最適面に垂直である辺における2つのキーポイントの座標差を前記最適面の法線ベクトルとすることを含むことを特徴とする
    請求項12に記載の方法。
  14. 前記擬似三次元検出体に基づいて前記初期三次元検出体を補正し、前記ターゲット対象の三次元検出体を形成することは、
    次元平面における擬似三次元検出体に基づいて、前記三次元空間における初期三次元検出体を調整することで、調整後の三次元検出体の二次元平面にマッピングする領域と擬似三次元検出体との面積の重なり度合いを向上させることを含むことを特徴とする
    請求項10から13のいずれか一項に記載の方法。
  15. 前記擬似三次元検出体に基づいて前記初期三次元検出体を補正し、前記ターゲット対象の三次元検出体を形成することは、
    前記ターゲット対象の所定の長さ・幅・高さの比に基づいて、前記初期三次元検出体を補正すること、
    前記ターゲット対象の、被処理画像における検出枠に基づいて、前記初期三次元検出体を補正することで、調整後の三次元検出体の二次元平面にマッピングする領域を前記検出枠に属させることのうちのいずれか1つ又は複数を含むことを特徴とする
    請求項14に記載の方法。
  16. 前記方法は、
    時間順序関係を有する複数の被処理画像における同一のターゲット対象の三次元検出体に対して平滑化処理を行うことを更に含むことを特徴とする
    請求項1から15のいずれか一項に記載の方法。
  17. 前記平滑化処理は、三次元検出体の長さ・幅・高さに対する平滑化処理、三次元検出体の運動方向に対する平滑化処理、三次元検出体の鳥瞰図中心点に対する平滑化処理及び三次元検出体の頂点に対する平滑化処理のうちのいずれか1つ又は複数を含むことを特徴とする
    請求項16に記載の方法。
  18. 前記方法は、
    前記ターゲット対象のキーポイントの三次元座標に基づいて、前記三次元検出体の運動方向を取得すること、
    前記ターゲット対象のキーポイントの三次元座標に基づいて、前記ターゲット対象と前記被処理画像を撮影する撮影装置との位置関係を取得することのうちのいずれか1つ又は複数を更に含むことを特徴とする
    請求項1から17のいずれか一項に記載の方法。
  19. 電子機器であって、
    コンピュータプログラムを記憶するように構成されるメモリと、
    前記メモリに記憶されているコンピュータプログラムを実行し、且つ前記コンピュータプログラムが実行される時、請求項1−18のいずれか一項に記載の方法を実現させるように構成されるプロセッサとを備える、電子機器。
  20. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、前記プロセッサに、請求項1−18のいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
JP2021501280A 2018-08-07 2019-07-16 対象三次元検出及びスマート運転制御方法、装置、媒体並びに機器 Active JP6949266B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810891535.0A CN110826357B (zh) 2018-08-07 2018-08-07 对象三维检测及智能驾驶控制的方法、装置、介质及设备
CN201810891535.0 2018-08-07
PCT/CN2019/096232 WO2020029758A1 (zh) 2018-08-07 2019-07-16 对象三维检测及智能驾驶控制的方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
JP2021524115A JP2021524115A (ja) 2021-09-09
JP6949266B2 true JP6949266B2 (ja) 2021-10-13

Family

ID=69414504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021501280A Active JP6949266B2 (ja) 2018-08-07 2019-07-16 対象三次元検出及びスマート運転制御方法、装置、媒体並びに機器

Country Status (5)

Country Link
US (1) US11100310B2 (ja)
JP (1) JP6949266B2 (ja)
CN (1) CN110826357B (ja)
SG (1) SG11202100378UA (ja)
WO (1) WO2020029758A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11159811B2 (en) * 2019-03-15 2021-10-26 Tencent America LLC Partitioning of coded point cloud data
CN112767300A (zh) * 2019-10-18 2021-05-07 宏达国际电子股份有限公司 自动生成手部的标注数据的方法和计算骨骼长度的方法
CN111340886B (zh) * 2020-02-25 2023-08-15 深圳市商汤科技有限公司 检测物体的拾取点的方法及装置、设备、介质和机器人
JP7393270B2 (ja) 2020-03-25 2023-12-06 株式会社コア 情報処理装置、情報処理方法及び情報処理プログラム
CN111723716B (zh) * 2020-06-11 2024-03-08 深圳地平线机器人科技有限公司 确定目标对象朝向的方法、装置、系统、介质及电子设备
CN111931643A (zh) * 2020-08-08 2020-11-13 商汤集团有限公司 一种目标检测方法、装置、电子设备及存储介质
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11321862B2 (en) 2020-09-15 2022-05-03 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
US11508080B2 (en) 2020-09-15 2022-11-22 Toyota Research Institute, Inc. Systems and methods for generic visual odometry using learned features via neural camera models
US11615544B2 (en) 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
WO2022110877A1 (zh) * 2020-11-24 2022-06-02 深圳市商汤科技有限公司 深度检测方法、装置、电子设备、存储介质及程序
US11475628B2 (en) * 2021-01-12 2022-10-18 Toyota Research Institute, Inc. Monocular 3D vehicle modeling and auto-labeling using semantic keypoints
US11922640B2 (en) * 2021-03-08 2024-03-05 Toyota Research Institute, Inc. Semi-supervised 3D object tracking in videos via 2D semantic keypoints
CN113221751B (zh) * 2021-05-13 2024-01-12 北京百度网讯科技有限公司 关键点检测的方法、装置、设备以及存储介质
US20220383543A1 (en) * 2021-05-26 2022-12-01 Abb Schweiz Ag Multi-Stage Autonomous Localization Architecture for Charging Electric Vehicles
CN113469115A (zh) * 2021-07-20 2021-10-01 阿波罗智联(北京)科技有限公司 用于输出信息的方法和装置
CN113449373B (zh) * 2021-07-21 2024-04-30 深圳须弥云图空间科技有限公司 重叠检测方法、装置及电子设备
CN115345919B (zh) * 2022-08-25 2024-04-12 北京精英路通科技有限公司 一种深度确定方法、装置、电子设备以及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3052681B2 (ja) * 1993-08-06 2000-06-19 松下電器産業株式会社 3次元動画像生成装置
KR100201739B1 (ko) * 1995-05-18 1999-06-15 타테이시 요시오 물체 관측 방법 및 그 방법을 이용한 물체 관측장치와,이 장치를 이용한 교통흐름 계측장치 및 주차장 관측장치
GB2383915B (en) * 2001-11-23 2005-09-28 Canon Kk Method and apparatus for generating models of individuals
US7262767B2 (en) * 2004-09-21 2007-08-28 Victor Company Of Japan, Limited Pseudo 3D image creation device, pseudo 3D image creation method, and pseudo 3D image display system
JP4600760B2 (ja) * 2005-06-27 2010-12-15 アイシン精機株式会社 障害物検出装置
JP2009041972A (ja) * 2007-08-07 2009-02-26 Toshiba Corp 画像処理装置及びその方法
JP2010256252A (ja) * 2009-04-27 2010-11-11 Topcon Corp 三次元計測用画像撮影装置及びその方法
JP5299173B2 (ja) * 2009-08-26 2013-09-25 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US8260539B2 (en) * 2010-05-12 2012-09-04 GM Global Technology Operations LLC Object and vehicle detection and tracking using 3-D laser rangefinder
CN102262724B (zh) * 2010-05-31 2013-01-09 汉王科技股份有限公司 目标图像特征点定位方法和目标图像特征点定位系统
CN101915573B (zh) * 2010-08-04 2012-12-12 中国科学院自动化研究所 一种基于标记物的关键点检测的定位测量方法
CN102901446A (zh) 2012-09-27 2013-01-30 无锡天授信息科技有限公司 一种运动目标三维立体定位系统及方法
CN104021368A (zh) 2013-02-28 2014-09-03 株式会社理光 估计路面高度形状的方法和系统
US9296895B2 (en) * 2013-06-13 2016-03-29 Autonomic Materials, Inc. Self-healing polymeric materials via unsaturated polyester resin chemistry
CN105313782B (zh) * 2014-07-28 2018-01-23 现代摩比斯株式会社 车辆行驶辅助系统及其方法
CN107093171B (zh) * 2016-02-18 2021-04-30 腾讯科技(深圳)有限公司 一种图像处理方法及装置、系统
CN107203962B (zh) * 2016-03-17 2021-02-19 掌赢信息科技(上海)有限公司 一种利用2d图片制作伪3d图像的方法及电子设备
CN106251395A (zh) 2016-07-27 2016-12-21 中测高科(北京)测绘工程技术有限责任公司 一种三维模型快速重建方法及系统
US10372970B2 (en) * 2016-09-15 2019-08-06 Qualcomm Incorporated Automatic scene calibration method for video analytics
US10235771B2 (en) * 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
US10031526B1 (en) * 2017-07-03 2018-07-24 Baidu Usa Llc Vision-based driving scenario generator for autonomous driving simulation
CN108229305B (zh) * 2017-11-21 2021-06-04 北京市商汤科技开发有限公司 用于确定目标对象的外接框的方法、装置和电子设备
CN108038902B (zh) 2017-12-07 2021-08-27 合肥工业大学 一种面向深度相机的高精度三维重建方法和系统

Also Published As

Publication number Publication date
WO2020029758A1 (zh) 2020-02-13
US11100310B2 (en) 2021-08-24
SG11202100378UA (en) 2021-02-25
JP2021524115A (ja) 2021-09-09
US20210165997A1 (en) 2021-06-03
CN110826357A (zh) 2020-02-21
CN110826357B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
JP6949266B2 (ja) 対象三次元検出及びスマート運転制御方法、装置、媒体並びに機器
JP7002589B2 (ja) 対象の三次元検出およびインテリジェント運転制御方法、装置、媒体および機器
JP7282080B2 (ja) 二次元画像および点群データからの三次元境界ボックス
US20210110599A1 (en) Depth camera-based three-dimensional reconstruction method and apparatus, device, and storage medium
Hirschmüller et al. Memory efficient semi-global matching
JP2014096152A (ja) ポイントクラウド内の埋め戻しポイント
JP7091485B2 (ja) 運動物体検出およびスマート運転制御方法、装置、媒体、並びに機器
US20220138977A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
EP3968266A1 (en) Obstacle three-dimensional position acquisition method and apparatus for roadside computing device
CN113240734B (zh) 一种基于鸟瞰图的车辆跨位判断方法、装置、设备及介质
CN112287824A (zh) 基于双目视觉的三维目标检测方法、装置及系统
KR20190060679A (ko) 이동 객체의 자세 학습 방법 및 장치
WO2020238073A1 (zh) 确定目标对象朝向方法、智能驾驶控制方法和装置及设备
CN116097316A (zh) 用于非模态中心预测的对象识别神经网络
CN112509126A (zh) 三维物体检测的方法、装置、设备及存储介质
EP4107650A1 (en) Systems and methods for object detection including pose and size estimation
CN117315372A (zh) 一种基于特征增强的三维感知方法
Hou et al. Octree-Based Approach for Real-Time 3D Indoor Mapping Using RGB-D Video Data
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN116704112A (zh) 一种用于对象重建的3d扫描系统
Chen et al. SGSR-Net: Structure Semantics Guided LiDAR Super-Resolution Network for Indoor LiDAR SLAM
He et al. Sparse depth map upsampling with rgb image and anisotropic diffusion tensor
CN113312979B (zh) 图像处理方法、装置、电子设备、路侧设备及云控平台
KR102540676B1 (ko) 카메라이미지를 이용하여 객체의 위치를 도출하는 방법 및 그 시스템
CN116152345B (zh) 一种嵌入式系统实时物体6d位姿和距离估计方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210114

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210921

R150 Certificate of patent or registration of utility model

Ref document number: 6949266

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250