JP2020173799A - 対象の三次元検出およびインテリジェント運転制御方法、装置、媒体および機器 - Google Patents

対象の三次元検出およびインテリジェント運転制御方法、装置、媒体および機器 Download PDF

Info

Publication number
JP2020173799A
JP2020173799A JP2020062660A JP2020062660A JP2020173799A JP 2020173799 A JP2020173799 A JP 2020173799A JP 2020062660 A JP2020062660 A JP 2020062660A JP 2020062660 A JP2020062660 A JP 2020062660A JP 2020173799 A JP2020173799 A JP 2020173799A
Authority
JP
Japan
Prior art keywords
dimensional
target
key point
detector
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020062660A
Other languages
English (en)
Other versions
JP7002589B2 (ja
Inventor
インジエ ツァイ
Yingjie Cai
インジエ ツァイ
シーナン リウ
Shinan Liu
シーナン リウ
シンユー ゾン
Xingyu Zeng
シンユー ゾン
ジュンジエ イエン
Junjie Yan
ジュンジエ イエン
シアオガン ワン
Xiaogang Wang
シアオガン ワン
アツシ カワムラ
Atsushi Kawamura
アツシ カワムラ
ユウジ ヤスイ
Yuji Yasui
ユウジ ヤスイ
トキトモ アリヨシ
Tokitomo Ariyoshi
トキトモ アリヨシ
ユウジ カネダ
Yuji Kaneda
ユウジ カネダ
ユウヒ ゴトウ
Yuhi Goto
ユウヒ ゴトウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime Group Ltd
Honda Motor Co Ltd
Original Assignee
Sensetime Group Ltd
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime Group Ltd, Honda Motor Co Ltd filed Critical Sensetime Group Ltd
Publication of JP2020173799A publication Critical patent/JP2020173799A/ja
Application granted granted Critical
Publication of JP7002589B2 publication Critical patent/JP7002589B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0242Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using non-visible light signals, e.g. IR or UV signals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electromagnetism (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

【課題】コンピューティングリソースの消費が小さい場合に、対象の三次元検出の精度を向上させ、それにより、低実現コストを確保する。【解決手段】三次元検出方法は、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得しS100、所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築しS110、擬似三次元検出体の複数の頂点の深度情報を取得しS120、擬似三次元検出体の複数の頂点の深度情報に従って、三次元空間における目標対象の三次元検出体を決定するS130。【選択図】図1

Description

本開示は、コンピュータビジョン技術に関し、特に、対象の三次元検出方法、対象の三次元検出装置、インテリジェント運転制御方法、インテリジェント運転制御装置、電子機器、コンピュータ読み取り可能な記憶媒体およびコンピュータプログラムに関する。
対象の三次元検出は、通常、対象の空間位置、移動方向および3Dサイズなど三次元空間のパラメータを予測するために使用される。例えば、インテリジェント運転技術において、道路上の他の車両に対して三次元検出を実行して、他の車両の三次元直方体、車両進行方向および撮影装置との位置関係などを取得する。対象の三次元検出結果を正確に取得することは、インテリジェント運転の安全性の向上に有益である。
本開示の実施形態は、対象の三次元検出およびインテリジェント運転制御の技術的解決策を提供する。
本開示の実施形態に係る一態様において、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得することと、前記所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築することと、前記擬似三次元検出体の複数の頂点の深度情報を取得することと、前記擬似三次元検出体の複数の頂点の深度情報に従って、前記三次元空間における目標対象の三次元検出体を決定することとを含む、対象の三次元検出方法を提供する。
本開示の実施形態に係る別の態様において、車両に設置された撮影装置を介して前記車両の位置する道路上のビデオストリームを取得することと、本開示の対象の三次元検出方法を採用して、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して目標対象の三次元検出を実行して、前記三次元空間における目標対象の三次元検出体を取得することと、前記三次元検出体に従って前記車両の制御命令を生成することと、前記車両に前記車両の制御命令を送信することとを含む、インテリジェント運転制御方法を提供する。
本開示の実施形態に係る別の態様において、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得するように構成される二次元座標取得モジュールと、前記所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築するように構成される構築モジュールと、前記擬似三次元検出体の複数の頂点の深度情報を取得するように構成される深度情報取得モジュールと、前記擬似三次元検出体の複数の頂点の深度情報に従って、前記三次元空間における目標対象の三次元検出体を決定するように構成される三次元検出体決定モジュールとを含む、対象の三次元検出装置を提供する。
本開示の実施形態に係るさらに別の態様において、車両に設置された撮影装置を介して前記車両の位置する道路上のビデオストリームを取得するように構成されるビデオストリーム取得モジュールと、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して目標対象の三次元検出を実行して、前記三次元空間における目標対象の三次元検出体を取得するように構成される対象の三次元検出装置と、前記三次元検出体に従って前記車両の制御命令を生成するように構成される命令生成モジュールと、前記車両に前記車両の制御命令を送信するように構成される命令送信モジュールとを含む、インテリジェント運転制御装置を提供する。
本開示の実施形態に係るさらに別の態様において、コンピュータプログラムを記憶するように構成されるメモリと、前記メモリに記憶されたコンピュータプログラムを実行するように構成されるプロセッサとを含む電子機器を提供し、前記コンピュータプログラムが実行される時に、本開示の任意の方法実施形態を実現する。
本開示の実施形態に係るさらに別の態様において、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時に、本開示の任意の方法実施形態を実現する。
本開示の実施形態に係るさらに別の態様において、コンピュータ命令を含むコンピュータプログラムを提供し、前記コンピュータ命令が機器のプロセッサに実行される時に、本開示の任意の方法実施形態を実現する。
本開示に基づいて提供される対象の三次元検出方法および装置、インテリジェント運転制御方法および装置、電子機器、コンピュータ読み取り可能な記憶媒体およびコンピュータプログラムは、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を使用して、擬似三次元検出体を構築し、前記擬似三次元検出体の複数の頂点の深度情報を使用して目標対象の三次元検出体を形成することにより、ニューラルネットワークを完全に使用せずに、対象の三次元検出を実現することができ、それにより、限られたコンピューティングリソースの適用シナリオへの本開示によって提供される技術的解決策の適用を促進することに有益である。本開示における擬似三次元検出体の構築、擬似三次元検出体の複数の頂点の深度情報の取得、および目標対象の三次元検出体の形成のこれらの3つの部分はそれぞれ実現されることができ、各部分で形成される結果を別の部分の入力パラメータとして使用してもよいため、これらの3つの部分の間の結合度を下げることに有益であり、それにより対象の三次元検出の実現プロセスを便利に最適化することに有益である。
これから分かるように、本開示によって提供される技術的解決策は、コンピューティングリソースの消費が小さい場合に、対象の三次元検出の精度を向上させ、それにより、低実現コストを確保しながら、インテリジェント運転制御の安全性を向上させることに有益である。
以下、添付の図面および実施形態によって、本開示の技術的解決策をさらに詳細に説明する。
明細書の一部を構成する添付の図面は、本開示の実施形態を説明し、説明と共に本開示の原理を解釈するために用いられる。
図面を参照して、以下の詳細な説明に従って、本開示をより明確に理解することができる。
本開示の対象の三次元検出方法の一実施形態のフローチャートである。 本開示の被処理画像内の目標対象の所定のキーポイントの一実施形態の概略図である。 本開示の被処理画像内の目標対象の所定のキーポイントの別の実施形態の概略図である。 本開示の被処理画像内の目標対象の所定のキーポイントのさらに別の実施形態の概略図である。 本開示の鳥瞰図に投射された一実施形態の概略図である。 本開示の擬似三次元検出体の概略図である。 本開示の対象の三次元検出方法の別の実施形態のフローチャートである。 本開示の断面および厚さに従って構築された擬似三次元検出体の概略図である。 本開示の断面および厚さに従って構築された別の擬似三次元検出体の概略図である。 本開示の対象の三次元検出方法のさらに別の実施形態のフローチャートである。 本開示の擬似三次元検出体の概略図である。 本開示の対象の三次元検出方法のさらに別の実施形態のフローチャートである。 本開示のインテリジェント運転制御方法の一実施形態のフローチャートである。 本開示の対象の三次元検出装置の一実施形態の概略的な構造図である。 本開示のインテリジェント運転制御装置の一実施形態の概略的な構造図である。 本開示の実施形態を実現するための例示的な機器のブロック図である。
ここで、図面を参照して本開示の様々な例示的な実施例を詳細に説明する。特に明記しない限り、これらの実施例に記載の部品およびステップの相対的な配置、数値表現および数値は、本開示の範囲を限定しないことを留意されたい。同時に、説明の便宜上、図面に示された各部分のサイズは、実際の比例関係に従って描かれていないことを理解されたい。以下、少なくとも1つの例示的な実施例の説明は、実際には説明のためなものに過ぎず、本開示およびその応用または使用を制限することを意図するものではない。
関連分野の当業者に知られている技術、方法および機器に対しては、詳細に説明されない可能性があるが、適切な場合、前記技術、方法および機器は明細書の一部と見なされるべきである。同じ参照数字および文字は、以下の図面において同じアイテムを示し、したがって、あるアイテムが1つの図面で定義されると、後続の図面でさらに議論する必要がないことに留意されたい。
本開示の実施例は、端末機器、コンピュータシステムおよびサーバなどの電子機器に適用されることができ、多くの他の汎用または専用のコンピューティングシステム環境または構成と一緒に動作されることができる。端末機器、コンピュータシステムおよびサーバなどの電子機器と一緒に使用することに適用されるよく知られている端末機器、コンピューティングシステム、環境および/または構成の例は、車載機器、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ機器、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブルコンシューマ電子製品、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム、および前記任意のシステムを含む分散クラウドコンピューティングテクノロジー環境などを含むが、これらに限定されない。
端末機器、コンピュータシステムおよびサーバなどの電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能な命令(プログラムモジュールなど)の一般的なコンテキストで説明することができる。一般的に、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、コンポネット、ロジックおよびデータ構造などを含むことができ、これらは特定のタスクを実行し、または特定の抽象データタイプを実行する。コンピュータシステム/サーバは、分散クラウドコンピューティング環境で実施することができ、分散クラウドコンピューティング環境で、タスクは、通信ネットワークを介してリンクされたモート処理機器によって実行される。分散クラウドコンピューティング環境において、プログラムモジュールは、記憶機器を含むローカルまたはリモートコンピューティングシステムの記憶媒体に位置することができる。
例示的な実施例
図1は、本開示の対象の三次元検出方法の一実施例のフローチャートである。
図1に示されたように、前記実施例の方法は、ステップS100、ステップS110、ステップS120およびステップS130を含む。以下、各ステップを詳細に説明する。
ステップS100において、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得する。
可能な例において、本開示の被処理画像は、ピクチャ、写真など、またはビデオフレームなどであってもよい。例えば、可動物体に設置された撮影装置によって撮影されるビデオのビデオフレームであり、さらに例えば、固定位置に設置された撮影装置によって撮影されるビデオのビデオフレームである。前記可動物体は、車両、ロボットまたはロボットアームなどを含み得るが、これらに限定されない。前記固定位置は、デスクトップ、壁および道端などを含み得るが、これらに限定されない。
可能な例において、本開示の被処理画像は、赤外線(IR:Infrared Ray)カメラ、赤緑青(RGB:Red Green Blue)カメラなど、一般的な高解像度撮影装置を使用して撮影された画像であってもよい。本開示は、レーダ測距装置および深度撮影装置などのハイスペックハードウェアを使用する必要があることによる、高い実現コストなどの現象を回避することができる。
可能な例において、本開示における目標対象は、一般的に、正面、背面、左面および右面の少なくとも4つの面を含む。例えば、本開示における目標対象は、車両、歩行者、動物、建物、植物、障害物、危険物、交通標識または物体などを含み得るが、これらに限定されない。ここで、車両は、二輪自動車(二輪のオートバイ、電動自転車など)、二輪以上(二輪を含まない)の自動車(三輪のオートバイ、三輪自動車、四輪自動車など)、二輪の非自動運転車両(自転車など)または二輪以上(二輪を含まない)の非自動運転車両(三輪の人力車など)などを含み得るが、これらに限定されない。本開示における目標対象は様々な異なる形態であり得るため、本開示は、対象の三次元検出の汎用性を向上させることに有益である。
可能な例において、本開示における目標対象の所定のキーポイントは、セマンティックを有するキーポイントである。目標対象の所定のキーポイントは、一般的に、目標対象の外輪郭キーポイントを含む。
例えば、目標対象が二輪以上の自動車または二輪以上の非自動運転車両である場合、本開示における目標対象の所定のキーポイントは、車両の左前隅部キーポイント(図2の1に示し、以下、左前下端と略称する)、車両ルーフの左前隅部キーポイント(図2の2に示し、以下、左前上端と略称する)、車両ルーフの左後隅部キーポイント(図2の3に示し、以下、左後上端と略称する)、車両の左後隅部キーポイント(図2の4に示し、以下、左後下端と略称する)、左後輪の底部キーポイント(図2の5に示し、以下、左後輪と略称する)、左前輪の底部キーポイント(図2の6に示し、以下、左前輪と略称する)、車両の右前隅部キーポイント(図2の7に示し、以下、右前下端と略称する)、車両ルーフの右前隅部キーポイント(図2の8に示し、以下、右前上端と略称する)、車両ルーフの右後隅部キーポイント(図2の3と左右対称し、図2に表記されなく、以下、右後上端と略称する)、車両の右後隅部キーポイント(図2の4と左右対称し、図2に表記されなく、以下、右後下端と略称する)、右後輪の底部キーポイント(図2の5と左右対称し、図2に表記されなく、以下、右後輪と略称する)、右前輪の底部キーポイント(図2の6と左右対称し、図2に表記されなく、以下、右前輪と略称する)、車両ドアキーポイント(図2の12に示す)、バックミラーキーポイント(図2の11に示す)、ナンバープレートキーポイント(図2の9に示す)およびライトキーポイント(図2の10に示す)のうちの少なくとも1つを含み得るが、これらに限定されない。ここでの車両ドアキーポイントは、左前車両ドアキーポイント、左後車両ドアキーポイント、右前車両ドアキーポイントおよび右後車両ドアキーポイントのうちの少なくとも1つを含み得る。ここでのナンバープレートキーポイントは、フロントナンバープレートキーポイントおよびリアナンバープレートキーポイントのうちの少なくとも1つを含み得る。ここでのライトキーポイントは、左前ライトキーポイント、右前ライトキーポイント、左後ライトキーポイントおよび右後ライトキーポイントのうちの少なくとも1つを含み得る。上記した説明から、本開示の所定のキーポイントのセマンティックは、所定のキーポイントの車両での具体的な位置を示すことができることを分かることができる。
さらに例えば、目標対象が二輪自動車(注:運転者を含まない)または二輪の非自動運転車両(注:運転者を含まない)である場合、本開示の所定のキーポイントは、前輪の中心キーポイント(図3のaに示す)、後輪の中心キーポイント(図3のbに示す)、前輪の接地キーポイント(図3のcに示す)、後輪の接地キーポイント(図3のdに示す)、シートサポートキーポイント(図3のeに示す)、ペダルベアリングキーポイント(図3のfに示す)、ハンドルバーの中心キーポイント(図3のgに示す)、ハンドルバーの左端キーポイント(図3のhに示す)、ハンドルバーの右端キーポイント(図3のiに示す)、前輪の先端キーポイント(図3のpに示す)および後輪の後端キーポイント(図3のqに示す)のうちの1つまたは複数を含み得るが、これらに限定されない。
さらに例えば、目標対象が二輪自動車およびそのライダ運転者または二輪の非自動運転車両およびその運転者である場合、本開示の所定のキーポイントは、前輪の中心キーポイント(図4のaに示す)、後輪の中心キーポイント(図4のbに示す)、前輪の接地キーポイント(図4のcに示す)、後輪の接地キーポイント(図4のdに示す)、シートサポートキーポイント(図4のeに示す)、ペダルベアリングキーポイント(図4のfに示す)、ハンドルバーの中心キーポイント(図4のgに示す)、ハンドルバーの左端キーポイント(図4のhに示す)、ハンドルバーの右端キーポイント(図4のiに示す)、運転者の肩の左キーポイント(図4のjに示す)、運転者の肩の右キーポイント(図4のkに示す)および運転者の頭頂部キーポイント(図4のmに示す)のうちの1つまたは複数を含むが、これらに限定されない。選択的に、所定のキーポイントは、前輪の先端キーポイントおよび後輪の後端キーポイントをさらに含み得る。
可能な例において、所定のキーポイントは、被処理画像に対してキーポイント検出を実行することによって取得される目標対象のすべてのキーポイントであってもよく、検出から取得された目標対象の複数のキーポイントからスクリーニングされたキーポイントであってもよい。例えば、本開示は、先にキーポイント検出によって、被処理画像内の目標対象のすべてのキーポイントを取得し、その後、すべてのキーポイントの中での信頼性がプリセットの信頼性の閾値を超えるキーポイントを、目標対象の所定のキーポイントとして使用する。本開示は、高い予測信頼性を有するキーポイントを所定のキーポイントとして使用することによって、構築された擬似三次元直方体の精度を向上させることに有益である。
選択的に、本開示は、目標対象の所定のキーポイントを取得した場合、一般的に、本開示の対象の三次元検出方法の他のステップを実行し続け、そうでなければ、対象の三次元検出方法の他のステップを実行しないため、コンピューティングリソースの節約に有益である。本開示は、目標対象の所定のキーポイントを成功的に取得しなかった場合に、本開示の対象の三次元検出方法から既存の対象の検出方法に切り替えることができる。例えば、目標対象の二次元目標検出方法に切り替えて、目標対象を取得するための二次元目標検出の動作を実行する。さらに、本開示は、目標対象のキーポイントを取得してない場合に、本開示の対象の三次元検出方法を既存の対象の三次元検出方法に切り替えることができ、例えば、レーダ測距装置に基づいて取得された点群データに従って、目標対象の三次元検出を実現する。
可能な例において、本開示は、ニューラルネットワーク(深層学習に基づく畳み込みニューラルネットワーク)を使用して被処理画像内の目標対象のキーポイントを取得することができる。
例えば、目標対象が含まれた被処理画像をニューラルネットワークに入力し、前記ニューラルネットワークによって、被処理画像に対してキーポイント検出の処理を行い、それによりニューラルネットワークによって出力される情報に従って、キーポイントの番号および被処理画像内のキーポイントの二次元座標を取得するなど、目標対象の各キーポイントを取得することができる。
さらに例えば、まず、被処理画像に対して目標対象検出の処理を行い、それにより目標対象の少なくとも一部が含まれた二次元目標検出フレームを取得し、その後、前記二次元目標検出フレームに従って被処理画像をセグメンテーション処理して、目標対象の画像ブロック(即ち、目標対象の少なくとも一部が含まれた画像ブロック、例えば、四輪自動車の少なくとも一部が含まれた画像ブロックである)を取得し、さらに、目標対象画像ブロックをニューラルネットワークに入力し、前記ニューラルネットワークによって目標対象画像ブロックに対してキーポイント検出の処理を行い、それにより、ニューラルネットワークによって出力される情報に従って、キーポイントの番号および目標対象画像ブロックにおけるキーポイントの二次元座標を取得するなど、目標対象の各キーポイントを取得することができ、さらに、本開示は、目標対象画像ブロックにおける目標対象の各キーポイントの二次元座標を被処理画像内の目標対象の各キーポイントの二次元座標に切り替えることができる。
前記二次元目標検出フレームは、二輪自動車に対する二次元目標検出フレーム、二輪の非自動運転車両に対する二次元目標検出フレーム、二輪自動車および前記二輪自動車の運転者に対する二次元目標検出フレーム、または二輪の非自動運転車両および前記二輪の非自動運転車両の運転者に対する二次元目標検出フレームであってもよい。いくつかの適用シナリオにおいて、目標対象が二輪自動車およびその運転者を含む場合、本開示は、被処理画像に対して目標対象検出を実行することによって、二輪自動車の少なくとも一部を含む二次元目標検出フレームを取得することができ、二輪自動車およびその運転者の少なくとも一部を含む二次元目標検出フレームを取得することもできる。別の適用シナリオにおいて、目標対象が二輪の非自動運転車両およびその運転者を含む場合では、本開示は、被処理画像に対して目標対象検出を実行することによって、二輪の非自動運転車両の少なくとも一部を含む二次元目標検出フレームを取得することができ、二輪の非自動運転車両およびその運転者の少なくとも一部を含む二次元目標検出フレームを取得することもできる。
可能な例において、本開示における目標対象の所定のキーポイントを取得するために使用されるニューラルネットワークは、畳み込み層、Relu層、プーリング層および完全に接続されたレイヤ等を含み得るが、これらに限定されなく、前記ニューラルネットワークに含まれる層が多いほど、ネットワークは深くなる。本開示のニューラルネットワークは、スタック砂時計(Stack hourglass)ニューラルネットワークフレーム構造を使用してもよく、アクティブ形状モデル(ASM:Active Shape Model)、アクティブ外観モデル(AAM:Active Appearnce Model)またはカスケード形状回帰アルゴリズムに基づくニューラルネットワークフレーム構造を採用してもよく、本開示は、これらに限定されない。
ステップS110において、所定のキーポイントの二次元座標に従って、二次元空間における目標対象の擬似三次元検出体を構築する。
可能な例において、本開示の擬似三次元検出体は、実際には二次元ポリゴンに基づいて構築された多面体である。視覚が二次元ポリコンから多面体を感じることができることは、人間の目の両眼視差によって「脳補数深度」を実行することができ、または、人間の目は特定の戦略に従って二次元ポリゴンに対して三次元構造を実行することができるなどの要因を含む。しかし、実際には、このような二次元ポリゴンは実際の深度情報がなく、二次元座標しかないため、本開示では「擬似三次元検出体」と称する。深度情報を有する空間多面体は、それに応じて「三次元検出体」と称する。擬似三次元検出体は、三次元空間の真の三次元形状ではないが、前記擬似三次元検出体には、同様に、左側面、右側面、正面、背面、上面および底面が含まれ、これらの6つの面によって形成される収容空間は、少なくとも目標対象の一部またはすべてを囲む。さらに、擬似三次元検出体の長さ、幅、および高さは、目標対象の長さ、幅、および高さをある程度反映することができる。本開示の三次元空間は、一般的に、現実世界における三次元空間、例えば、撮影装置の三次元座標系に基づく三次元空間などである。
選択的に、本開示における目標対象の擬似三次元検出体は、一般的に、二次元平面における目標対象の一部またはすべてを少なくとも囲まれる直方体など、二次元平面における少なくとも目標対象の一部またはすべてをその中に囲むことができる多面体である。前記直方体は、二次元平面に描画することによって構築され、現実の三次元空間の深度情報を使用して構築される直方体ではなく、二次元平面に存在する直方体であり、本開示では、「擬似三次元直方体」と称し得る。擬似三次元直方体の各エッジの二次元平面における組み合わせによって形成される外部輪郭は、通常に不規則な形状を示す。本開示は、擬似三次元直方体の長さ、幅、高さを擬似三次元直方体によって囲まれた目標対象の長さ、幅、高さと見なすことができる。いくつかの適用シナリオにおいて、擬似三次元直方体を二次元平面内の目標対象の外接直方体と考えられることができる。本開示の擬似三次元直方体は、擬似三次元立方体を含む。選択的に、擬似三次元検出体は、目標対象の少なくとも一部が二次元平面に囲まれる平行六面体などの別の形状の多面体であってもよい。
いくつかの適用シナリオにおいて、本開示の擬似三次元検出体は、その厚さ(即ち、幅)を所定の値に簡略的に設定する擬似三次元検出体であり得ることを特に留意されたい。本開示の所定の値は、ほぼゼロである小さな値であってもよい。二輪自動車、二輪の非自動運転車両、二輪以上の自動車および二輪以上の非自動運転車両において、目標対象の長さは車体の長さ方向に対応し、目標対象の幅は車体の幅方向に対応し、目標対象の高さは車体の高さ方向に対応する。可能な例では、二輪自動車(自転車、二輪のオートバイなど)または歩行者または交通標識などの本体の厚さが薄い目標対象において、本開示の擬似三次元検出体は、その厚さがほぼゼロである1つの小さな値に簡略的に設定される擬似三次元検出体であり得る。しかしながら、二輪以上の自動車、二輪以上の非自動運転車両などの目標対象において、擬似三次元検出体の厚さは、通常、事前に設定された所定の値ではない。本体の厚さが薄いことは、本体の他のサイズに対して、厚さの数値が小さいと考えられる。例えば、自転車の長さ(前輪と後輪の最も外側の点の間の距離など)および高さ(ハンドルバーの最高点と地面の間の距離など)に対して、自転車的厚さ(2つのハンドルバーの最も外側の点の間の距離など)は、一般的に小さい。
可能な例において、本開示は、所定の信頼性の閾値より高い信頼性のキーポイントをスクリーニングするなど、ニューラルネットワークを使用して取得された目標対象のすべてのキーポイントに対してスクリーニング処理を実行し、スクリーニングされたキーポイントを予測精度要求を満たす所定のキーポイントとして使用し、さらに、スクリーニングされた所定のキーポイントの二次元座標を使用して、二次元平面で目標対象の擬似三次元検出体を構築する。
可能な例では、本開示は、先に所定のキーポイントの二次元座標に従って、長さ方向の目標対象の断面を決定し、その後、目標対象の厚さを決定することができる。例えば、プリセットの厚さ値(即ち、既知の値)を目標対象の厚さとして使用し、さらに例えば、前記断面以外に位置する所定のキーポイント(ハンドルバーの両端キーポイントまたは肩の2つのキーポイントなど)の二次元座標に従って、目標対象の厚さを決定し(計算されたハンドルバー両端の間の距離を目標対象の厚さとして使用するなど、または計算された両肩の間の距離を目標対象の厚さとして使用するなど)、その後、前記断面および厚さに従って、目標対象の擬似三次元検出体を構築する。
別の可能な例では、本開示は、まず、所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、目標対象の少なくとも1つの構造面(ベース面など、またはベース面およびび準ベース面など)を決定し、その後、構造面および所定のキーポイントの二次元座標に従って、目標対象の擬似三次元検出体を構築する。
前記2つの選択的な例の具体的な実現プロセスは、以下の図7および図10に対する説明を参照することができる。ここでは、再び詳細に説明しない。
ステップS120において、三次元検出体の複数の頂点の深度情報を取得する。
可能な例において、本開示の擬似三次元検出体の任意の頂点の深度情報は、擬似三次元検出体の対応する垂直エッジの深度情報と考えられることができ、擬似三次元検出体の対応する垂直エッジの2つの端点の深度情報とも考えられることができ、さらに、垂直エッジ以外の他のエッジに対応する端点の深度情報とも考えられることができる。本開示の垂直エッジは、通常、擬似三次元検出体の目標対象の高さ方向に対応し、且つ目標対象を搬送する平面(地面またはプラットフォームなど)に垂直であるエッチを指す。擬似三次元検出体の1つの垂直エッジの各点(垂直エッジの頂点を含む)の深度情報は、通常同じである。本開示の垂直エッジ以外の他のエッジは、通常、擬似三次元検出体の目標対象の長さ方向または幅方向に対応し、且つ目標対象を搬送する平面に並行するエッジを指す。前記他のエッジは、撮影装置のXOZ平面に位置するエッジまたは前記XOZ平面に並行するエッジであってもよい。説明の便宜上、以下の説明では、他のエッジを水平方向のエッジまたは水平エッジと称する。
可能な例において、本開示の擬似三次元検出体の垂直エッジの2つの端点の深度情報を取得する方法は、次の2つのステップを含む。
ステップ1において、擬似三次元検出体の任意の1つの垂直エッジにおいて、前記垂直エッジの2つの端点の被処理画像内の二次元座標およびプリセットの目標対象の高さ値に従って、前記垂直エッジの鳥瞰図に対応するレイ上の点位置の単位ピクセルで表される距離を取得する。
本開示のプリセットの目標対象の高さ値は、通常、目標対象の現実世界における高さ値である。プリセットの目標対象の高さ値は既知の値である。例えば、少なくとも1種のモデルの四輪自動車の高さ値が事前に設定された、それにより、本開示は、被処理画像内の四輪自動車の種類またはモデルを識別することによって、事前に設定された種類またはモデルと高さ値の対応関係から、被処理画像内の四輪自動車のプリセットの高さ値を見つけることができる。前記種類は、セダン種類、SUV種類、大型トラッカ種類およびバス種類などを含むが、これらに限定されない。前記モデルは、四輪自動車のブランドおよびブランドのシリーズなどを含むが、これらに限定されない。さらに、本開示は、リカレントニューラルネットワークを使用して目標対象の高さを予測するなど、リアルタイムの高さの検出方法等によって目標対象の高さ値を取得する可能性も排除しない。
本開示における鳥瞰図は、通常、撮影装置の三次元座標系のy軸方向が下向きとなる視野角から、取得される撮影装置の位置を含むマッピングである。図5の右上の画像は、被処理画像であり、前記被処理画像は、四輪自動車の画像ブロックを含み、前記自動車の1つの擬似三次元検出体の2つの垂直エッジにおいて、被処理画像内の右側による2つの明るい灰色の垂直線分ので示すようである。これらの2つの垂直線分の左側の線分は鳥瞰図のA点としてマッピングされ、撮影装置は鳥瞰図のo点としてマッピングされ、oAは1つのレイであり、レイoAは、即ち擬似三次元検出体の1つの垂直エッジの鳥瞰図内に対応するレイである。擬似三次元検出体の1つの垂直エッジを1つのピラーと称すると、本開示によって形成される擬似三次元検出体は、一般的に、4つのピラーを含む。
被処理画像内の異なる位置に位置し、且つ同じ高さを有するピラーは、鳥瞰図における同じレイ上にマッピングされるが、前記レイ上の異なる位置の点にマッピングされることもできる。さらに、鳥瞰図内の1つのレイ上の点は前記レイ上で移動することができ、前記点が前記レイ上の異なる位置に移動する場合、前記点が代表される、被処理画像内の同じ高さを有するピラーに対応するピクセルは同じではない。これから、鳥瞰図における1つのレイ上の異なる位置に位置する点が同じ高さを有するピラーによってマッピングされて生成される場合に、前記レイ上の異なる位置の点は、1つのピクセル数にそれぞれ唯一対応し、異なる位置の点に対応するピクセル数は異なることが分かる。
上記の状況に基づいて、本開示は、擬似三次元検出体の垂直エッジの2つの端点の被処理画像内の二次元座標に従って、被処理画像内の垂直エッジの高さを計算することができ、例えば、擬似三次元検出体の1つの垂直エッジの2つの端点の二次元座標それぞれは、
および
であり、被処理画像内の前記垂直エッジの中の高さは
である。ここで、
は*の絶対値を示す。
目標対象の高さ値はプリセットされたものであるため、目標対象の高さ値(
として表記される)は既知であり、1.5メートルなどであってもよい。目標対象の高さ値は、通常、目標対象の二次元座標系における垂直方向(Y軸など)の座標値を指す。本開示は、
を使用して、前記垂直エッジの鳥瞰図に対応するレイする点位置での単位ピクセルで表される距離を計算し、即ち真のスケール(
として表記される)であり、即ち、次の式(1)を使用して
を計算することができる。
式(1)
前記式(1)において、
は、事前に設定された目標対象の高さ値を示し、
は*の絶対値を示し、
は、垂直エッジの1つの端点の二次元座標の垂直方向(Y軸など)の座標値を示し、
は、垂直エッジの別の端点の二次元座標の垂直方向の座標値を示す。
ステップ2において、前記取得した距離および撮影装置のパラメータに従って、前記垂直エッチの深度情報を決定する。
可能な例において、本開示の撮影装置のパラメータは、通常、撮影装置の焦点距離(
として表記される)および光学中心オフセット(
として表記される)を含む。撮影装置のパラメータは、通常、既知の値である。撮影装置から特定の距離にある平面上の任意の方向の単位ピクセルが表される真のスケールは同じであるため、本開示は、
を使用して前記垂直エッジの三次元座標系における水平方向(X軸など)の座標を取得し、ここでの
は光学中心オフセットである。図5の

を満たす。それにより、本開示は、次の式(2)を使用して垂直エッジ上の端点の深度情報(
として表記される)を計算することができる。
式(2)
前記式(2)において、
は、垂直エッジの1つの端点の二次元座標の水平方向(X軸など)の座標値を示し、
は、垂直エッジの1つの端点の三次元座標系における深度方向(Z軸など)の座標を示し、
は撮影装置の焦点距離を示し、
は光学中心オフセットを示す。
前記垂直エッジの深度情報を取得し、または垂直エッジの端点の深度情報を取得する方法は、ピラー戦略に基づく深度情報の取得方式と称し得る。本開示は、撮影装置のマッピング原理を使用して垂直エッジの深度情報を取得することによって、必ずレーダ測距装置および深度に基づく撮影装置などのハイスペックで高いコストのハードウェア機器を使用して、深度情報を取得する現象を回避することができ、それによりコンピューティングリソースの低消費の場合、低コストで迅速に三次元検出体の深度情報を取得するのに有益であり、さらに本開示の対象の三次元検出の適用範囲を改善することに有益である。
可能な例において、本開示は、まず、単眼または両眼方式などを使用して、被処理画像の深度図を取得することができ、その後、擬似三次元検出体の少なくとも1つの頂点の二次元座標をさらに使用して、前記深度図から頂点に対応する深度値を読み取って、三次元検出体の垂直エッジに対応する深度情報を取得することができる。さらに、本開示は、Hマトリックスの方式を使用して擬似三次元検出体の複数の頂点の深度値を直接に取得することもでき、即ち擬似三次元検出体の頂点の二次元座標とHマトリックスを掛け算して、掛け算の結果から前記頂点の深度値(単位はメートルであり得る)を取得し、また、撮影装置が深度に基づく撮影装置である場合、本開示は、目標対象のキーポイントの深度値を直接に取得することができ、それにより擬似三次元検出体の垂直エッジに対応する深度値を取得し、本開示は、擬似三次元検出体の垂直エッジの深度情報を取得する具体的な実現プロセスを限定しない。
特に説明されたいことは、本開示は、前記ステップ1およびステップ2を使用することによって、擬似三次元検出体の垂直エッジの端点の深度情報を取得して、それにより、擬似三次元検出体の対応する頂点の深度情報を取得する。本開示は、擬似三次元検出体の水平エッジの2つの端点の深度情報を取得することによって、擬似三次元検出体の対応する頂点の深度情報を取得することができたとも考えられる。例えば、本開示は、目標対象の高さ値を、目標対象の幅値(即ち厚さ)と切り替えることができ、同様に、前記幅値は、通常、事前に設定された既知の値であり、例えば、幅値は1.6メートルなどである。それに応じて、鳥瞰図は左面図または右面図に切り替え、水平エッジと
を掛け算することによって、水平エッジの左面図または右面図上の投影されたエッジを取得することができ、ここでの
は、擬似三次元検出体の水平エッジと撮影装置のZ軸の間の角度を示し、その後、本開示は、次の式(3)によって、投影されたエッジ上の単位ピクセルによって示される距離(
として表記される)を計算することができる。
式(3)
式(3)において、
は、水平エッジの左側の端点の二次元座標の水平方向の座標値(X軸の座標値など)を示し、
は、水平エッジの右側の端点の二次元座標の水平方向の座標値(X軸の座標値など)を示し、
は、擬似三次元検出体の水平エッジと撮影装置のZ軸の間の角度を示し、
である。
その後、本開示は、前記距離
および撮影装置のパラメータに従って、次の式(4)を使用して水平エッジの2つの端点の深度情報(それぞれ
および
として表記される)を計算して、擬似三次元検出体の対応する頂点の深度情報を取得する。
式(4)
式(4)において、
は、水平エッジの左側の端点の二次元座標の水平方向の座標値(X軸の座標値など)を示し、
は、水平エッジの右側の端点の二次元座標の水平方向の座標値(X軸の座標値など)を示し、
は、垂直エッジの1つの端点の三次元座標系における深度方向(Z軸など)の座標を示し、
は、撮影装置の焦点距離を示し、
は、光学中心オフセットを示し、
は、水平エッジの左側の端点の深度情報を示し、
は、水平エッジの右側の端点の深度情報を示す。
ステップS130において、擬似三次元検出体の複数の頂点の深度情報に従って、三次元空間における目標対象の三次元検出体を決定する。
可能な例において、本開示は、擬似三次元検出体の少なくとも4つの頂点の二次元座標および前記少なくとも4つの頂点の深度情報に従って、少なくとも4つの頂点の三次元座標を決定することができる。前記少なくとも4つの頂点は具体的に8つの頂点である場合、本開示は、三次元検出体の8つの頂点の三次元座標を取得し、それにより、目標対象の三次元検出体を取得することができる。前記少なくとも4つの頂点が8つ未満の頂点である場合、本開示は、擬似三次元検出体のエッジとエッジの間の位置関係(平行、垂直および同じ高さなどの関係など)に従って、他の頂点の三次元座標を決定することができる。前記少なくとも4つの頂点は、擬似三次元検出体の上面に位置する頂点および擬似三次元検出体の底面に位置する頂点を含み、即ち前記少なくとも4つの頂点は、2つの水平面に分布する頂点を含む。
可能な例において、本開示は、先に擬似三次元検出体の少なくとも2つの垂直エッジの各端点の二次元座標および深度情報に従って、三次元空間に目標対象の三次元検出体を構築することができる。
例えば、本開示は、まず、擬似三次元検出体の2つの垂直エッジ(擬似三次元検出体の上面または底面の1つの対角線に位置する2つの垂直エッジなど)の各端点の二次元座標および前記2つの垂直エッジの4つの端点の深度情報に従って、前記2つの垂直エッジの4つの端点の三次元座標を決定することができ、その後、前記2つの垂直エッジと擬似三次元検出体の他の2つの垂直エッジの間の位置関係に従って、他の2つの垂直エッジの4つの端点の三次元座標をさらに決定する。本開示の端点の三次元座標を先に決定した2つの垂直エッジは、被処理画像を形成する撮影装置と距離が最も近い1つの垂直エッジを含み得る。最も近い1つの垂直エッジに対して、取得された端点の深度情報はより正確的である傾向があるため、前記深度情報に基づいて決定された端点の三次元座標は一般的にはより正確であり、それにより、このような端点の三次元座標を使用して取得された他の端点の三次元座標はより正確である傾向があり、目標対象の三次元検出体の精度を改善することに有益である。
さらに例えば、本開示は、先に擬似三次元検出体の3つの垂直エッジの各端点の二次元座標および前記3つの垂直エッジの6つの端点の深度情報に従って、前記3つの垂直エッジの6つの端点の三次元座標を決定することができ、その後、さらに、擬似三次元検出体の前記3つの垂直エッジと残り1つの垂直エッジの位置関係に従って、別の垂直エッジの2つの端点の三次元座標を決定する。前記3つの垂直エッジは、被処理画像を形成する撮影装置と距離が最も近い3つの垂直エッジを含み得、最も近い3つの垂直エッジに対して、取得された端点の深度情報はより正確的である傾向があるため、前記深度情報に基づいて決定された端点の三次元座標はより正確である傾向があり、それにより、このような端点の三次元座標を使用して取得された他の端点の三次元座標はほぼより正確である。これから分かるように、前記方法は、同様に、目標対象の三次元検出体の精度を改善することに有益である。
可能な例において、擬似三次元検出体の任意の1つの垂直エッジにおいて、本開示は、被処理画像を形成する撮影装置のパラメータ、前記垂直エッジの2つの端点の二次元座標およびこれらの2つの端点の深度情報に従って、三次元空間における2つの端点の三次元座標を計算することができる。
例えば、前記取得された垂直エッジの端点の深度値を三次元空間の距離に切り替え、前記距離は、対応する垂直エッジの端点と撮影装置の間の距離であると考えられることができ、その後、次の式(5)を使用して各端点の三次元座標を計算する。
式(5)
前記式(5)において、
は、撮影装置のパラメータを示し、


は、端点の三次元座標を示し、即ち端点の現実世界の三次元空間における三次元座標であり、ここでの
は、前記取得した端点の深度情報を代入することができ、
および
は、端点の二次元座標を示し、即ち端点の被処理画像の座標系の二次元座標であり、
はスケーリング係数を示し、

と同じであってもよい。
が以下の3×3のマトリックスとして示される場合、
前記式(5)は、次の式(6)の方式で示されることができる。
式(6)
複数の端点の二次元座標を前記式(6)に代入することによって、変数

および
を解くことができ(もちろん、

が等しい場合、変数
および
を解けることができる)、それにより端点の三次元座標を取得し、即ち
である。本開示は、式(6)を介して擬似三次元検出体のすべての端点(8つの端点など)の三次元座標を取得することができ、前記式(6)を介して擬似三次元検出体の三次元座標を先に取得し、その後、三次元検出体の各垂直エッジ間の垂直、平行および同じ高さなどの関係に従って、擬似三次元検出体の別の一部の端点の三次元座標を取得することができる。例えば、図6において、擬似三次元検出体Fの第3のピラーZZ3は、鳥瞰図Nのa点に対応し、擬似三次元検出体Fの第1のピラーZZ1は、鳥瞰図Nのb点に対応し、擬似三次元検出体Fの第2のピラーZZ2は、鳥瞰図Nのc点に対応し、abとbcをそれぞれ接続し、abはbcに垂直であり、第4のピラーの鳥瞰図Nにおける点は、平行および垂直の関係によって取得することができ、それにより、第4のピラーの2つの端点の深度情報を決定することができ、三次元空間における2つの端点の三次元座標を計算する。
前記方式によって、道路セグメンテーションおよびセマンティックセグメンテーションなどのコンピュータビジョンの基本的なタスクが不要であるため、本開示は目標対象の三次元検出体を迅速に構築することができ、且つ前記三次元検出体を構築するためのコンピューティングリソースの消費は小さく、実現コストも低い。本開示は、目標対象のキーポイントに基づいて、三次元検出体を構築するため、三次元検出体を構築するプロセスおよび目標対象が地面に位置するかどうかなどの要因に依存しなく、したがって、本開示は、目標対象が地面ではない場所に位置する場合、対象の三次元検出を実現することができないなどの現象を効率的に回避することができ、それにより、対象の三次元検出の適用範囲を向上させることに有益である。
可能な例において、前記構築された三次元検出体に対して校正する必要がある適用シナリオにおいて、前記構築された三次元検出体は、初期三次元検出体(初期三次元直方体など)と称し得る。例えば、本開示は、少なくとも擬似三次元検出体を三次元検出体の制約条件として使用し、初期三次元検出体を調整して、目標対象の最終の三次元検出体(最終の三次元直方体など)を取得することができる。
可能な例において、本開示は、初期三次元検出体の各頂点を二次元平面にマッピングして、初期三次元検出体の二次元平面における投影グラフィックを取得することができる。本開示は、三次元空間の初期三次元検出体を調整することによって、投影グラフィックの領域と二次元平面の擬似三次元検出体の面積のオーバーラップを改善することができ、例えば、本開示は、両方のオーバーラップ面積を可能な限り大きくすることができ、さらに例えば、本開示は、両方のクロスオーバー率を可能な限り大きくすることができる。
可能な例において、本開示の両方の面積のオーバーラップ状況を変化させる方法は、初期三次元検出体の三次元空間における位置(左右位置または上下位置など)を調整して、初期三次元検出体の二次元平面にマッピングされた投影グラフィック領域と擬似三次元検出体のオーバーラップ面積を最も大きくすることを含み、例えば、初期三次元検出体の二次元平面にマッピングされた投影グラフィック領域が擬似三次元検出体を完全に覆うようにし、さらに例えば、擬似三次元検出体が初期三次元検出体の二次元平面にマッピングされた投影グラフィック領域を完全に覆うようにする。
可能な例において、本開示の両方の面積のオーバーラップ状況を変化させる方法は、初期三次元検出体の三次元空間におけるサイズを調整して、サイズの調整後の初期三次元検出体の二次元平面にマッピングされた投影グラフィック領域が擬似擬似三次元検出体のグラフィック領域と可能な限り一致するようにすることをさらに含む。初期三次元検出体が二次元空間にマッピングされる場合、形成された投影グラフィックの長さ/幅/高さの値と擬似三次元検出体の長さ/幅/高さの値の比率が、所定の比率(0.9〜1.1など)に満たされないと、本開示は、調整後の三次元検出体の二次元空間にマッピングされた投影グラフィックの長さ/幅/高さの値と擬似三次元検出体の長さ/幅/高さの値との比率が、所定の比率を満たし、同じでさえあるようにするために、初期三次元検出体の三次元空間における長さ/幅/高さの値を調整することができる。
被処理画像内の目標対象のキーポイントを検出する精度は比較的に高く、検出速度も比較的に速いため、目標対象のキーポイントを使用して二次元平面に精度が高い擬似三次元検出体を構築することができる。本開示は、擬似三次元検出体を使用して三次元空間における初期三次元検出体を調整、校正することによって、目標対象の三次元空間に構築された三次元検出体の精度を改善することに有益である。
可能な例において、本開示は、さらに、目標対象のプリセットの長さ、幅、高さの比率を初期三次元検出体の制約条件として使用して、三次元空間において、前記制約条件に従って初期三次元検出体を校正することができる。例えば、目標対象が四輪自動車である場合、本開示は、四輪自動車の長さ、幅、高さの比率を2:1:1とプリセットして、初期三次元検出体の長さ、幅、高さの比率が2:1:1の特定の範囲を超える時に、初期三次元検出体の長さ、幅、高さを調整して、調整後の三次元検出体の長さ、幅、高さの比率が2:1:1の特定の範囲を超えないようにすることができる。
可能な例において、本開示は、さらに、目標対象の被処理画像内の二次元目標検出フレームを初期三次元検出体の制約条件として使用して、前記制約条件に従って三次元空間で初期三次元検出体を調整することができる。例えば、目標対象が四輪自動車である場合、本開示は、四輪自動車の検出フレーム(二次元の四輪自動車の境界ボックスとも称し得る)を初期三次元検出体の制約条件として使用し、初期三次元検出体の位置および/または長さ、幅、高さを調整して、調整後の三次元検出体の二次元空間にマッピングされた投影グラフィックが四輪自動車の検出フレーム内に囲むようにする。目標対象の二次元目標検出フレームは、通常はより正確であるため、二次元目標検出フレームを制約条件として使用して初期三次元検出体を調整すると、対象の三次元検出体の精度を向上させることに有益である。
可能な例において、本開示は、タイミング関係を有する複数の被処理画像(ビデオのビデオフレームなど)に対して対象の三次元検出をそれぞれ実行する場合、複数の被処理画像内の同じ目標対象の三次元検出体(調整、校正した後の三次元検出体)に対して平滑化処理することができる。前記平滑化処理は、三次元検出体の長さ、幅、高さの平滑化処理、三次元検出体の移動方向の平滑化処理、三次元検出体の鳥瞰図の中心点の平滑化処理および三次元検出体の頂点(8つの頂点など)の平滑化処理のうちの少なくとも1つを含み得る。本開示は、複数の被処理画像内の同じ目標対象の三次元検出体を平滑化処理することによって、対象の三次元検出の精度を改善することに有益であり、目標対象の前後に隣接するビデオフレームの大幅に揺れる現象を回避することに有益であり、それによりインテリジェント運転の安全性を向上させることに有益である。
平滑化処理を実現するプロセスにおいて、本開示は、現在の被処理画像の前の複数の処理する履歴画像(5つまたは6つまたは7つなどの履歴ビデオフレームなど)を使用し、対応する適合関数を使用して現在の被処理画像内の目標対象の三次元検出体の長さ、幅、高さ、移動方向、目標対象の鳥瞰図の中心点または頂点などのパラメータを平滑化処理することを予測することができる。本開示の適合関数は、二次関数、三次指数関数または対数関数などを含み得るが、これらに限定されない。
適合関数として使用される二次関数の一例は、次の式(7)に示されたようである。
式(7)
式(7)において、
は、適合された履歴ビデオフレームを最適化する値を示し、5つの履歴ビデオフレームを使用して適合する場合では、

は、履歴ビデオフレームに対応する時間を示し、5つの履歴ビデオフレームを使用して適合する場合は、


および
は、二次関数の係数を示す。
本開示は、履歴ビデオフレームを使用して、式(7)の

および
を先に取得することができ、その後、式(7)をさらに使用して現在のビデオフレームの予測結果
を取得する。
本開示は、重み付けの方法によって現在のビデオフレーム内の目標対象の三次元検出体の長さ、幅、高さ、移動方向、鳥瞰図の中心点または頂点などのパラメータを対応する調整して、対応する平滑化処理を実現することができ、例えば、本開示は、次の式(8)を使用して現在のビデオフレーム内の目標対象の三次元検出体の長さ、幅、高さ、移動方向、鳥瞰図の中心点または頂点などのパラメータを調整することができる。
式(8)
式(8)において、
は、予測結果に対応する重みを示し、
は予測結果を示し、
は、現在のビデオフレームの対象の三次元検出結果に対応する重みを示し、
は、現在のビデオフレームの対象の三次元検出結果を示し、
は、平滑化処理後の現在のビデオフレームの対象の三次元検出結果を示す。
重みの値の設定は実際のニーズに従って決定することができ、例えば、予測結果が現在のビデオフレームの対象の三次元検出結果と大きな違いがない(差が所定の値を超えないなど)場合、
および
と設定することができ、さらに例えば、予測結果が現在のビデオフレームの対象の三次元検出結果と大きな違いがある(差が所定の値に達するなど)場合、
および
と設定してもよく、
および
などと設定してもよい。本開示は、重みの具体的な値の取り方に対して限定しない。
可能な例において、本開示は、目標対象の三次元検出体に従って、目標対象の情報を決定することができる。目標対象の情報は、目標対象の向き情報、目標対象の空間サイズ情報、目標対象が位置する車線情報、目標対象の移動予測情報、目標対象と被処理画像を撮影する撮影装置との間の距離情報、目標対象と被処理画像を撮影する撮影装置との間の位置情報などを含み得るが、これらに限定されない。
目標対象が二輪自動車、二輪の非自動運転車両、二輪自動車およびその運転者、または二輪の非自動運転車両およびその運転者である場合、本開示の対象の三次元検出方法の一実施例のフローチャートは図7に示されたようである。
ステップS700において、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得する。
可能な例において、本開示は、ニューラルネットワークを使用して被処理画像内の目標対象のキーポイント(キーポイントの番号および二次元座標などを含む)を取得することができ、本開示は、取得されたすべてのキーポイントを目標対象の所定のキーポイントとして使用してもよく、ニューラルネットワークによって取得されたすべてのキーピントをスクリーニングして、キーポイントにおける信頼性がプリセットの信頼性の閾値を超えるすべてのキーポイントを、目標対象の所定のキーポイントとして使用してもよい。具体的には、上記した実施例のステップS100の関連説明を参照し、ここでは、再び詳細に説明しない。
ステップS710において、所定のキーポイントの二次元座標に従って、長さ方向の目標対象の断面を決定する。ここで、目標対象の長さは、擬似三次元検出体の長さに対応し、且つ長さ方向の目標対象の断面は二次元平面に基づく断面である。
可能な例において、本開示における目標対象の長さ方向とは、車両の前から車両の後への方向を指す。目標対象が二輪自動車または二輪の非自動運転車両である場合、本開示は、前輪の中心キーポイント、後輪の中心キーポイント、前輪の先端キーポイント、後輪の後端キーポイント、前輪の接地キーポイント、後輪の接地キーポイント、シートサポートキーポイント、ペダルベアリングキーポイント、ハンドルバーの中心キーポイント、ハンドルバーの両端キーポイントのうちの少なくとも2つキーポイントの二次元座標を使用して、長さ方向の目標対象の断面(図8に示された断面など)を決定することができる。
一例として、前輪の接地キーポイントの二次元座標
および後輪の接地キーポイントの二次元座標
に従って、前輪の接地キーポイントと後輪の接地キーポイントの間の距離
を先に決定し、その後、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線の方向に沿って、それぞれ外側に拡張して、断面の長さを形成し、断面の長さは
であってもよく、ここでの
は所定の拡大率であり、
は0より大きく、1以下の小数以下(0.3や0.2など)であり、例えば、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線の方向に沿って、それぞれ外側に
を拡張して、断面の長さ
を形成し、その後、ハンドルバーの中心キーポイントから前記連結線までの垂直距離を、断面の高さとして使用して、断面を形成する。いくつかの適用シナリオにおいて、前記例における垂直距離は、ハンドルバーの中心キーポイントから始め、重力の方向に沿って下向きの線を作成し、前記下向きの線と前記連結線の間に交差点が存在し、ハンドルバーの中心キーポイントから前記交差点までの長さは即ち垂直距離であり得る。さらに、所定のキーポイントが、前輪の先端キーポイントおよび後輪の後端キーポイントをさらに含むと、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線の方向に沿って、それぞれ外側に拡張する場合、拡張する長さは、前輪の先端キーポイントおよび後輪の後端キーポイントの位置に従って決定することができる。
可能な例において、目標対象が二輪自動車およびその運転者、または二輪の非自動運転車両およびその運転者である場合、本開示は、前輪の中心キーポイント、後輪の中心キーポイント、前輪の先端キーポイント、後輪の後端キーポイント、前輪の接地キーポイント、後輪の接地キーポイント、シートサポートキーポイント、ペダルベアリングキーポイント、ハンドルバーの中心キーポイント、ハンドルバーの両端キーポイントおよび車両運転者の頭頂部キーポイントのうちの少なくとも2つキーポイントの二次元座標を使用して、長さ方向の目標対象の断面(図9に示された断面など)を決定することができる。
一例として、前輪の接地キーポイントの二次元座標
および後輪の接地キーポイントの二次元座標
に従って、前輪の接地キーポイントと後輪の接地キーポイントの間の距離
を先に決定し、その後、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線の方向に沿って、それぞれ外側に拡張して、断面の長さを形成し、断面の長さは
であってもよく、ここでの
は所定の拡大率、
は0より大きく、1以下の小数以下(0.3や0.2など)であり、例えば、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線の方向に沿って、それぞれ外側に
を拡張して、断面の長さ
を形成し、その後、車両運転者の頭頂部キーポイントから前記連結線の垂直距離を、断面の高さとして使用して、断面を形成する。いくつかの適用シナリオにおいて、前記例における垂直距離は、頭頂部キーポイントから始め、重力の方向に沿って下向きの線を作成し、前記下向きの線と前記連結線の間に交差点が存在し、頭頂部キーポイントから前記交差点までの長さは、即ち垂直距離であり得る。さらに、所定のキーポイントが、前輪の先端キーポイントおよび後輪の後端キーポイントをさらに含むと、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線の方向に沿って、それぞれ外側に拡張する場合、拡張する長さは、前輪の先端キーポイントおよび後輪の後端キーポイントの位置に従って決定することができる。
ステップS720において、目標対象の厚さを決定する。前記厚さは、二次元平面に基づく厚さである。
可能な例において、本開示は、断面の長さ、または高さに従って目標対象の厚さを決定することができ、例えば、断面の長さ/高さの所定の減少率(0.2または0.3または0.4または0.5など)に従って、目標対象の厚さを決定する。
可能な例において、本開示は、断面以外に位置する所定のキーポイントの二次元座標に従って、目標対象の厚さを決定することができる。例えば、目標対象が二輪自動車または二輪の非自動運転車両である場合、本開示は、ハンドルバーの両端キーポイントの二次元座標に従って、ハンドルバーの両端キーポイントの間の距離を計算することができ、前記距離を目標対象の厚さとして使用する。さらに例えば、目標対象が二輪自動車およびその運転者または二輪の非自動運転車両およびその運転者である場合、本開示車両運転者の肩の2つのキーポイントの二次元座標に従って、肩の2つのキーポイントの間の距離を計算することができ、前記距離を目標対象の厚さとして使用する。
ステップS730において、断面の各頂点をそれぞれ開始点とし、断面の垂直な方向に沿って、目標対象の厚さの半分を断面の両側にそれぞれ延長して、二次元空間における目標対象の擬似三次元検出体を形成する。
選択的に、本開示は、前記断面の法線ベクトルを決定し、前記断面の各頂点の法線ベクトルの方向および前記法線ベクトルの方向の反対方向に基づいて、2つの方向に目標対象の半分の厚さをそれぞれ延長して、その後、延長後に形成された8つの点の連結線を作成することによって、二次元空間における目標対象の擬似三次元検出体を形成することができる。例えば、目標対象が二輪の非自動運転車両である場合、構築された二次元空間における目標対象の擬似三次元検出体は、図8に示されたようである。さらに例えば、目標対象が二輪の非自動運転車両およびその運転者である場合、構築された二次元空間における目標対象の擬似三次元検出体は、図9に示されたようである。
ステップS740において、擬似三次元検出体の複数の頂点の深度情報を取得する。前記ステップの具体的な内容は、前記実施形態のS120に対する説明を参照することができ、ここでは、再び詳細に説明しない。
ステップS750において、擬似三次元検出体の複数の頂点の深度情報に従って、三次元空間における目標対象の三次元検出体を決定する。前記ステップの具体的な内容は前記実施形態のS130に対する説明を参照することができ、さらに、図7に示された実施形態は初期三次元検出体の校正プロセスおよび平滑化処理プロセスをさらに含み得、ここでは再び詳細に説明しない。
目標対象が二輪以上の自動車(四輪自動車など)または二輪以上の非自動運転車両(四輪の人力車など)である場合、本開示の対象の三次元検出方法の一実施例のフローチャートは図10に示されたようである。
ステップS1000において、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得する。
可能な例において、本開示は、ニューラルネットワークを使用して被処理画像内の目標対象のキーポイント(キーポイントの番号および二次元座標を含む)を取得することができ、例えば、本開示は、ニューラルネットワークを使用して被処理画像の目標対象の二次元目標検出フレームを先に取得し、その後、前記二次元目標検出フレームに従って被処理画像をセグメントし、ニューラルネットワークを使用してセグメントされた画像ブロックをキーポイント検出して、目標対象のキーポイント(キーポイントの番号およびキーポイントの二次元座標など)を取得することができる。選択的に、本開示は、取得されたすべてのキーポイントを、目標対象の所定のキーポイントとして使用することができ、取得されたすべてのキーポイントをスクリーニングして、キーポイントにおける信頼性がプリセットの信頼性の閾値を超えるすべてのキーポイントを、目標対象の所定のキーポイントとして使用するすこともできる。具体的には、上記した実施例のステップS100の関連説明を参照し、ここでは、再び詳細に説明しない。
ステップS1010において、所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、目標対象の少なくとも1つの構造面を決定する。
可能な例において、本開示は、目標対象の1つの構造面を決定し、前記構造面に基づいて、擬似三次元検出体を構築することができる。前記構造面はベース面とも称し得る。本開示は、目標対象の2つの構造面を決定することもでき、即ちベース面および準ベース面であり、前記ベース面および準ベース面に基づいて、擬似三次元検出体を構築する。
可能な例において、本実施形態の任意の所定のキーポイントは、擬似三次元検出体(三次元直方体など)の1つの面または2つの面または3つの面にすべて対応し、同様に、所定のキーポイントは、一般的に、三次元検出体の1つの面または2つの面または複数の面に対応する。即ち、所定のキーポイントと擬似三次元検出体の面の間には対応関係が存在し、所定のキーポイントと三次元検出体の面の間には対応関係が存在する。
図2に示されたように、左前下端キーポイント、左前上端キーポイント、右前下端キーポイント、右前上端キーポイント、左前ライトキーポイントおよび右前ライトキーポイントは擬似三次元検出体および三次元検出体の正面に対応し、即ち四輪自動車の正面位置から左前下端、左前上端、右前下端、右前上端、左前ライトキーポイント、右前ライトキーポイントの6つのキーポイントを観測することができ、左前下端、左前上端、左後下端、左後下端、左前輪、左後輪、左前ライトキーポイントおよび左後ライトキーポイントは擬似三次元検出体および三次元検出体の左側面に対応し、即ち四輪自動車の左側面の位置から左前下端、左前上端、左後下端、左後下端、左前輪、左後輪、左前ライトキーポイントおよび左後ライトキーポイントの8つのキーポイントを観測することができ、左後下端、左後上端、右後下端、右後上端、左後ライトキーポイントおよび右後ライトキーポイントは擬似三次元検出体および三次元検出体の背面に対応し、即ち四輪自動車の背面位置から左後下端、左後上端、右後下端、右後上端、左後ライトキーポイントおよび右後ライトキーポイントの6つのキーポイントを観測することができ、右前下端、右前上端、右後下端、右後下端、右前輪、右後輪、右前ライトキーポイントおよび右後ライトキーポイントは擬似三次元検出体および三次元検出体の右側面に対応し、即ち四輪自動車の右側の位置から右前下端、右前上端、右後上端、右後下端、右前輪、右後輪、右前ライトキーポイントおよび右後ライトキーポイントの8つのキーポイントを観測することができ、左前下端、左前上端、右前下端、右前上端、左後下端、左後上端、右後下端、右後上端、左前ライトキーポイント、右前ライトキーポイント、左後ライトキーポイントおよび右後ライトキーポイントは擬似三次元検出体および三次元検出体の上面に対応し、即ち四輪自動車の上面の位置から左前下端、左前上端、右前下端、右前上端、左後下端、左後上端、右後下端、右後上端、左前ライトキーポイント、右前ライトキーポイント、左後ライトキーポイントおよび右後ライトキーポイントの12個のキーポイントを観測することができ、左前下端、右前下端、左後下端、右後下端、左前輪、右前輪、左後輪および右後輪は擬似三次元検出体および三次元検出体の底面に対応し、即ち四輪自動車の底面の位置から左前下端、右前下端、左後下端、右後下端、左前輪、右前輪、左後輪および右後輪の8つのキーポイントを観測することができる。
本開示は、所定のキーポイントと擬似三次元検出体および三次元検出体の上面または底面の対応関係を設定しない場合があることに特に留意されたい。さらに、前記所定のキーポイントと、擬似三次元検出体および三次元検出体の対応面との間の対応関係は単なる例として説明されることに過ぎず、所定のキーポイントと、擬似三次元検出体および三次元検出体の対応面との間の対応関係は前記例に限定されなく、例えば、左前下端、左前上端、右前下端、右前上端、左前輪および右前輪は擬似三次元検出体および三次元検出体の正面に対応するなどである。
可能な例において、本開示の被処理画像内の目標対象のベース面を決定する方法は、まず、所定のキーポイントの各対応する面に従って、各面の品質を決定し、その後、最高品質の面を目標対象のベース面として使用することを含むが、これらに限定されない。本開示における面の品質を決定する方法は、以下の方式を含まれるが、これらに限定されない。
可能な例において、各面の品質を決定する方法は、各面に対応する所定のキーポイントの数を統計し、統計された所定のキーポイントの数を面のスコアとして使用することができ、それにより、面に対応する所定のキーポイントの数が多いほど、前記面のスコアが高い。例えば、図2において、キーポイント1、キーポイント2、キーポイント3、キーポイント4、キーポイント5、キーポイント6、キーポイント7およびキーポイント8のすべては検出される所定のキーポイントであると仮定すると、キーポイント1、キーポイント2、キーポイント3、キーポイント4、キーポイント5およびキーポイント6は四輪自動車の左面に対応し、キーポイント1、キーポイント2、キーポイント7およびキーポイント8は四輪自動車の正面に対応し、したがって、四輪自動車の左面のスコアが最も高いため、四輪自動車の左面をベース面として使用することができる。
可能な例において、各面の品質を決定する方法は、各面に対応する所定のキーポイントの信頼性の合計を統計し、統計された信頼性の合計を面のスコアとして使用することができ、それにより面に対応する信頼性の合計が高いほど、前記面のスコアは高い。
可能な例において、各面の品質を決定する方法は、さらに、各面に対応する所定のキーポイントの数および信頼性の合計を統計し、各面は1つの所定のキーポイントの数および1つの信頼性の合計に対応し、各面に対して、本開示は前記面の信頼性の合計と所定のキーポイントの数の商を計算することができ、即ち、1つの面の所定のキーポイントの信頼性の平均値を計算し、前記面の所定のキーポイントの信頼性の平均値を面のスコアとして使用することができ、それにより面に対応する信頼性の平均値が高いほど、前記面のスコアは高い。
可能な例において、本開示における準ベース面を決定するプロセスは、ベース面に隣接する面を決定し、ベース面に属するキーポイント以外の他の所定のキーポイントに対して、ベース面に隣接する各面のそれぞれに含まれる所定のキーポイントの数を合計し、所定のキーポイントの数を最も多く含む面を準ベース面として使用することを含むが、これらに限定されない。前記方法は準ベース面を合理的に選択することに有益である。
ステップS1020において、構造面および所定のキーポイントの二次元座標に従って、二次元空間における目標対象の擬似三次元検出体を構築する。
可能な例において、本開示は、まず、所定のキーポイントの二次元座標に従って、二次元平面にベース面を構築し、その後、ベース面の法線ベクトルを決定し、前記ベース面の頂点が前記法線ベクトルの方向に沿って拡張することに基づいて、擬似三次元検出体を形成する。前記実現方法は、擬似三次元検出体を迅速且つ正確的に構築することに有益である。
可能な例において、本開示は、リカレントネットワークまたは面のセグメンテーションなどの方法を採用してベース面を構築することができ、さらに、本開示は、所定のキーポイントの線を作成することに基づく方法を使用して二次元平面にベース面を構築することもできる。所定のキーポイントの線を作成する方法に基づいて二次元平面にベース面を構築するプロセスは、次の少なくとも1つのステップを含むが、これらに限定されない。
1つのステップにおいて、ベース面上の1つの所定のキーポイントを使用して二次元平面に垂直線(即ち、所定のキーポイントを垂直方向を通す線)を作成し、ベース面の1つのエッジは前記垂直線に位置し、前記垂直線と他の面のエッジの交差点は、即ち前記ベース面の1つの頂点である。
別のステップにおいて、ベース面の2つのキーポイントを使用して二次元平面に連続線を作成し、前記連続線はベース面の1つのエッジであってもよく、または前記連続線およびその延長線はベース面の1つのエッジであってもよく、即ち、これらの2つのキーポイントがベース面の2つの頂点であってもよく、または、これらの2つのキーポイントの連続線の延長線と他の面のエッジの交差点が前記ベース面の頂点であってもよい。
さらに別のステップにおいて、ベース面の1つのキーポイントを使用して平行線を作成し、前記平行線はベース面の別のエッジと平行する線であり、即ちベース面の1つのキーポイントを通してベース面の別のエッジの平行線を作成し、ベース面の1つのエッジは前記平行線に位置し、前記平行線と前記垂直線の交差点または他の面のエッジのエッジの交差点は即ち前記ベース面の頂点である。
可能な例において、本開示におけるベース面の法線ベクトルを決定する実現方法は、次の可能な例を含むが、これらに限定されない。
第1の可能な例において、まず、すべての所定のキーポイントからベース面に属する所定のキーポイントを削除し、その後、残りの所定のキーポイントから1つの最も信頼性の高い所定のキーポイントを選択し、選択した前記所定のキーポイントを介してベース面に垂直線を作成し、前記垂直線をベース面の法線ベクトルとして使用する。
第2の可能な例において、準ベース面の所定のキーポイントを使用してベース面に垂直線を作成して、前記垂直線をベース面の法線ベクトルとして使用することができる。
選択的に、図2に示されたように、キーポイント1、キーポイント2、キーポイント3、キーポイント4、キーポイント5、キーポイント6、キーポイント7、キーポイント8および右後輪のすべては検出される所定のキーポイントであり、右後輪の信頼性が高いと仮定すると、この場合、右後輪でキーポイントの検出エラーが発生したことが明らかである場合、本開示は、ベース面に隣接し且つ所定のキーポイントを最も多く含む面を準ベース面として使用し、準ベース面の所定のキーポイントを使用してベース面の法線ベクトルを取得することは、検出された右後輪からベース面に垂直線を作成してベース面の法線ベクトルを取得する現象を回避することに有益であり、擬似三次元検出体を構築する精度を改善することに有益である。
第3の可能な例において、2つの所定のキーポイントがベース面の隣接面に属し、これらの2つの所定のキーポイントの連続線が隣接面のベース面に垂直するエッジに位置する場合、これらの2つの所定のキーポイントの二次元平面の座標差をベース面の法線ベクトルとして使用することができる。例えば、図2において、四輪自動車の左面がベース面であり、四輪自動車の正面が準ベース面であり、キーポイント7の二次元平面の座標が
であり、キーポイント1の二次元平面の座標が
であろと仮定すると、本開示は、
をベース面の法線ベクトルとして使用することができる。
可能な例において、本開示は、ベース面およびその法線ベクトルを決定した後、ベース面の各頂点を前記ベース面の法線ベクトルの方向に沿って拡張して、他の面のエッジと交差して、最終的に、擬似三次元検出体を形成することができる。例えば、図2において、まず、キーポイント1を通る第1の垂直線およびキーポイント4を通る第2の垂直線を形成し、キーポイント6およびキーポイント5を同時に通リ、第1の垂直線および第2の垂直線とそれぞれ交差する第1の線を形成し、その後、キーポイント2またはキーポイント3を通リ、前記第1の線と平行し、その2つの垂直線とそれぞれ交差する第2の線を形成して、ベース面の4つの線および4つの頂点を形成し、前記ベース面の法線ベクトルは
である。前記法線ベクトルは準ベース面の下端のエッジであってもよく、本開示はキーポイント7を通る第3の垂直線を形成し、キーポイント7が第1の線または第2の線に平行する第3の線を形成することによって、ベース面の左上隅部の頂点は前記法線ベクトルの方向に沿って拡張され、第3の垂直線と交差して、準ベース面の上端のエッジを形成し、前記交差点とキーポイント8との連結線は、ベース面の右上隅部の頂点が法線ベクトルの方向に沿って拡張した線と交差し、前記交差点を通る第4の垂直線を作成し、第4の垂直線はベース面の右下隅部の頂点の法線ベクトルの方向に沿って拡張した線と交差して、二次元空間に、擬似三次元検出体を形成する。本開示が被処理画像内の目標対象(四輪自動車)のために形成した擬似三次元検出体の一例は図11に示されたようである。
本開示は、他の方式を使用して擬似三次元検出体の構築を実現することができ、例えば、被処理画像または被処理画像内の目標対象の二次元目標検出フレームをリカレントネットワークに提供し、リカレントネットワークを介して擬似三次元検出体を取得することができることに特に留意されたい。本開示は、三次元検出体を構築する具体的な実現プロセスを限定しない。
ステップS1030において、擬似三次元検出体の複数の頂点の深度情報を取得する。前記ステップの具体的な内容は前記実施形態のステップS120に対する説明を参照することができ、ここでは、再び詳細に説明しない。
ステップS1040において、擬似三次元検出体の複数の頂点の深度情報に従って、三次元空間における目標対象の三次元検出体を決定する。前記ステップの具体的な内容は前記実施形態でのS130に対する関連説明を参照することができ、さらに、図10に示された実施形態は初期三次元検出体の校正プロセスおよび平滑化処理プロセスをさらに含み、ここでは再び詳細に説明しない。
本開示の対象の三次元検出方法の一実施例のフローチャートは図12に示されたようである。
ステップS1200において、被処理画像に対して目標対象の検出を実行する。前記ステップの具体的な内容は前記実施形態でのS100に対する関連説明を参照することができ、ここでは、再び詳細に説明しない。
ステップS1210において、目標対象を含む二次元目標検出フレームを正常に取得したかどうかを判断する。二次元目標検出フレームを正常に取得した場合、ステップS1220に進み、そうでなければ、ステップS1270に進む。
ステップS1220において、被処理画像の前記二次元目標検出フレームに対応する画像部分に基づいて、目標対象のキーポイント検出を実行する。前記ステップの具体的な内容は前記実施形態のS100に対する関連説明を参照し、ここでは、再び詳細に説明しない。
ステップS1230において、目標対象の所定のキーポイントを正常に取得したかどうかを判断し、目標対象の所定のキーポイントを正常に取得した場合、ステップS1240に進み、そうでなければ、ステップS1270に進む。
ステップS1240において、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標に従って、二次元空間における目標対象の擬似三次元検出体を構築する。前記ステップの具体的な内容は前記実施形態のS110に対する関連説明を参照し、ここでは、再び詳細に説明しない。
ステップS1250において、擬似三次元検出体の複数の頂点の深度情報を取得する。前記ステップの具体的な内容は前記実施形態のS120に対する関連説明を参照することができ、ここでは、再び詳細に説明しない。
ステップS1260において、擬似三次元検出体の複数の頂点の深度情報に従って、三次元空間における目標対象の三次元検出体を決定する。前記ステップの具体的な内容は前記実施形態のS130に対する説明を参照することができ、さらに、このステップは、初期三次元検出体の校正プロセスおよび平滑化処理プロセスをさらに含むことができ、ここでは再び詳細に説明しない。
ステップS1270において、本開示の対象の三次元検出処理を再び実行しなく、本開示の方法を終了し、選択的に、対象の二次元目標検出方法に切り替えてもよく、レーダ測距装置によって取得された点群データを使用して、目標対象の三次元検出するプロセスに切り替えてもよい。
図13は、本開示のインテリジェント運転制御方法の一実施例のフローチャートである。本開示のインテリジェント運転制御方法は、自動運転(完全にアシストされていない自動運転など)環境またはアシスト運転環境に適用されるが、これらに限定されない。
ステップS1300において、車両(四輪自動車など)に設置された撮影装置を介して車両が位置する道路のビデオストリームを取得する。前記撮影装置は、RGBに基づく撮影装置などを含むが、これらに限定されない。
ステップS1310において、ビデオストリームに含まれる少なくとも1フレームの画像に対して目標対象の三次元検出を実行して、三次元空間における目標対象の三次元検出体を取得する。前記ステップの具体的な実現プロセスは、前記方法の実施形態での図1または図10に対する説明を参照することができる。
ステップS1320において、三次元検出体に従って車両の制御命令を生成する。
可能な例において、まず、本開示は、目標対象の三次元検出体に従って、目標対象の情報を決定することができる。目標対象の向き情報(目標対象の車両の前部の向き方向など)、目標対象の空間サイズ情報(現実世界における目標対象の三次元サイズなど)、目標対象が位置する車線情報(目標対象が自体の左側/右側の車道にあるなど)、目標対象の移動予測情報(目標対象が加速移動するなど)、目標対象と被処理画像を撮影する撮影装置との間の距離情報(両方の直線距離など)および目標対象と被処理画像を撮影する撮影装置との間の位置情報(目標対象と撮影装置のZ軸の間の角度など)のうちの少なくとも1つを決定する。その後、本開示は、目標対象の情報に従って車両の制御命令を生成する。本開示の生成される制御命令は、速度維持制御命令、速度調整制御命令(減速運転命令または加速運転命令など)、方向維持制御命令、方向調整制御命令(左折命令、右折命令、左車線への並列命令、または右車線への並列命令など)、ホイッスル命令、警告プロンプト制御命令または運転モード切替制御命令(自動クルーズ運転モードへの切り替えなど)を含むが、これらに限定されない。
ステップS1330において、車両に車両制御命令を送信する。
図14は、本開示の対象の三次元検出装置の一実施例の概略的な構造図である。図14に示されたように、前記装置は、二次元座標取得モジュール1400、構築モジュール1410、深度情報取得モジュール1420および三次元検出体決定モジュール1430を含む。選択的に、本開示の前記装置は、第1の校正モジュール1440、第2の校正モジュール1450、第3の校正モジュール1460、制御実行モジュール1470、平滑化処理モジュール1480および目標対象情報決定モジュール1490のうちの少なくとも1つを含む。
二次元座標取得モジュール1400は、被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得するように構成される。
可能な例において、本開示における二次元座標取得モジュール1400は、ニューラルネットワークを使用して被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得することができる。選択的に、二次元座標取得モジュール1400は、キーポイント取得サブモジュールおよびスクリーニングサブモジュールを含み得る。ここでのキーポイント取得サブモジュールは、被処理画像に対して目標対象の検出を実行して、目標対象の少なくとも一部を含む二次元目標検出フレームを取得し、その後、キーポイント取得サブモジュールは、被処理画像に対応する二次元目標検出フレームの画像部分に対してキーポイント検出を実行する。目標対象が二輪自動車およびその運転者を含む場合、キーポイント取得サブモジュールによって取得された二次元目標検出フレームは、前記二輪自動車を含む二次元目標検出フレームであってもよく、前記二輪自動車およびその運転者を含む二次元目標検出フレームであってもよい。目標対象が二輪の非自動運転車両およびその運転者を含む場合、キーポイント取得サブモジュールによって取得された二次元目標検出フレームは、二輪の非自動運転車両を含む二次元目標検出フレームであってもよく、二輪の非自動運転車両およびその運転者を含む二次元目標検出フレームであってもよい。ここでのスクリーニングサブモジュールは、目標対象のキーポイント検出結果における信頼性がプリセットの信頼性の閾値を超えるキーポイントを、目標対象の所定のキーポイントとして使用するように構成される。被処理画像、目標対象、所定のキーポイントの具体的に含まれる内容、および二次元座標取得モジュール1400によって実行される特定の操作に対しては、S100の関連説明を参照されたい。
構築モジュール1410は、所定のキーポイントの二次元座標に従って、二次元空間における目標対象の擬似三次元検出体を構築するように構成される。
可能な例において、構築モジュール1410は、第1のサブモジュールおよび第2のサブモジュールを含み得る。ここでの第1のサブモジュールは、所定のキーポイントの二次元座標に従って、長さ方向の目標対象の断面を決定するように構成される。例えば、目標対象が二輪自動車または二輪の非自動運転車両である適用シナリオに対して、第1のサブモジュールは、前輪の接地キーポイントの二次元座標および後輪の接地キーポイントの二次元座標に従って、前輪の接地キーポイントと後輪の接地キーポイントの間の距離を決定し、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線を沿って、それぞれ外側に拡張して、断面の長さを形成することができ、第1のサブモジュールは、ハンドルバーの中心キーポイントの二次元座標から前記連結線までの垂直距離を断面の高さとして使用することができる。さらに例えば、目標対象が二輪自動車およびその運転者または二輪の非自動運転車両およびその運転者である適用シナリオに対して、第1のサブモジュールは、前輪の接地キーポイントの二次元座標および後輪の接地キーポイントの二次元座標に従って、前輪の接地キーポイントと後輪の接地キーポイントの間の距離を決定し、前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線を沿って、それぞれ外側に拡張して、断面の長さを形成することができ、第1のサブモジュールは、車両運転者の頭頂部キーポイントの二次元座標から連結線までの垂直距離を断面の高さとして使用することができる。ここでの第2のサブモジュールは、それぞれ断面の各頂点を開始点とし、断面の垂直な方向に沿って、それぞれ目標対象の厚さの半分を両側に拡張して、二次元空間における目標対象の擬似三次元検出体を形成するように構成される。選択的に、目標対象の厚さはプリセットの厚さ値であってもよく、目標対象の厚さは、ハンドルバーの両端キーポイントの二次元座標に従って決定されたハンドルバー両端の間の距離であってもよく、目標対象の厚さは、運転者の肩の2つのキーポイントの二次元座標に従って決定された運転者の両肩の間の距離であってもよい。
別の可能な例において、構築モジュール1410は、第3のサブモジュールおよび第4のサブモジュールを含み得る。ここでの第3のサブモジュールは、所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、所定のキーポイントの数を最も多く含む面を目標対象の少なくとも1つの構造面として決定するように構成される。ここでの第4のサブモジュールは、構造面および所定のキーポイントの二次元座標に従って、二次元空間における目標対象の擬似三次元検出体を構築するように構成される。
例えば、目標対象が二輪以上の自動車または二輪以上の非自動運転車両である場合、構築モジュール1410は、車両の左前隅部キーポイント、車両ルーフの左前隅部キーポイント、車両ルーフの左後隅部キーポイント、車両の左後隅部キーポイント、左後輪の底部キーポイント、左前輪の底部キーポイント、車両の右前隅部キーポイント、車両ルーフの右前隅部キーポイント、車両ルーフの右後隅部キーポイント、車両の右後隅部キーポイント、右後輪の底部キーポイント、右前輪の底部キーポイント、車両ドアキーポイント、バックミラーキーポイント、ナンバープレートキーポイントおよびライトキーポイントのうちの少なくとも2つのキーポイントを使用して目標対象の擬似三次元検出体を構築することができる。
可能な例において、本開示における第3のサブモジュールは、1つのベース面を決定し、前記ベース面を目標対象の1つの構造面として使用することができ、例えば、第3のサブモジュールは、所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、所定のキーポイントの数を最も多く含む面をベース面として使用することができる。この場合、第4のサブモジュールは、ベース面の法線ベクトルを決定し、ベース面の頂点が法線ベクトルの方向に沿って拡張することに従って、擬似三次元検出体を形成することができる。例えば、第4のサブモジュールは、ベース面に属しない所定のキーポイントで最も信頼性が高い所定のキーポイントからベース面へ作成した垂直線を、ベース面の法線ベクトルとして使用することができる。さらに例えば、第4のサブモジュールは、ベース面の隣接面での、ベース面に垂直なエッジ上の2つの所定のキーポイントの座標差をベース面の法線ベクトルとして使用することができる。
別の可能な例において、本開示における第3のサブモジュールは、1つのベース面および1つの準ベース面を決定し、前記ベース面および準ベース面すべてを目標対象の構造面として使用することができる。例えば、第3のサブモジュールは、所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、所定のキーポイントの数を最も多く含む面をベース面として使用し、ベース面に隣接し、ベース面に属する所定のキーポイント以外の他の所定のキーポイントを最も多く含む面を準ベース面として使用することができる。この場合、第4のサブモジュールは、準ベース面の所定のキーポイントからベース面に作成する垂直線を、ベース面の法線ベクトルとして使用し、ベース面の頂点が法線ベクトルの方向に沿って拡張することに従って、擬似三次元検出体を形成することができる。
構築モジュール1410およびそのサブモジュールによって実行される具体的な操作に対しては、前記S110の関連説明を参照することができ、ここでは、再び詳細に説明しない。
深度情報取得モジュール1420は、三次元検出体の複数の頂点の深度情報を取得するように構成される。
可能な例において、本開示における深度情報取得モジュール1420は、第1の距離サブモジュールおよび第1の深度サブモジュールを含み得る。ここで、第1の距離サブモジュールは、擬似三次元検出体の1つの垂直エッジの2つの端点の被処理画像内の二次元座標およびプリセットの目標対象の高さ値に従って、垂直エッジの鳥瞰図に対応するレイ上の点位置の単位ピクセルで表される距離を取得することができ、ここで、前記レイの原点は、被処理画像を形成する撮影装置の前記鳥瞰図における位置である。ここで、第1の深度サブモジュールは、距離および撮影装置のパラメータに従って、垂直エッジの2つの端点の深度情報を決定するように構成される。例えば、第1の深度サブモジュールは、端点の二次元座標の水平方向の座標と光学中心オフセットの差と距離のの積を、端点の三次元座標系の水平方向の座標として使用し、撮影装置の焦点距離と端点の三次元座標系の水平方向の座標の積と、端点の二次元座標の水平方向の座標と光学中心オフセットの差の比率を、端点の三次元座標系における深度方向の座標(式2を参照)として使用する。
別の可能な例において、本開示における深度情報取得モジュール1420は、第2の距離サブモジュールおよび第2の深度サブモジュールを含み得る。ここで、第2の距離サブモジュールは、擬似三次元検出体の1つの水平方向のエッジの2つの端点の被処理画像内の二次元座標およびプリセットの目標対象の幅値に従って、水平方向のエッジの左面図/右面図の対応する投影線分の単位ピクセルで表される距離を取得することができる。ここでの第2の深度サブモジュールは、距離および撮影装置のパラメータに従って、水平方向のエッジの2つの端点の深度情報を決定するように構成される。例えば、第2の深度サブモジュールは、端点の二次元座標の水平方向の座標と光学中心オフセットの差と距離の積を、端点の三次元座標系における水平方向の座標として使用し、前記撮影装置の焦点距離と端点の三次元座標系の水平方向の座標の積と、端点の二次元座標の水平方向の座標と光学中心オフセットの差の比率を端点の三次元座標系における深度方向の座標(式4を参照)として使用する。
三次元検出体決定モジュール1430は、擬似三次元検出体の複数の頂点の深度情報に従って、三次元空間における目標対象の三次元検出体を決定するように構成される。
可能な例において、三次元検出体決定モジュール1430は、擬似三次元検出体の少なくとも4つの頂点の二次元座標および少なくとも4つの頂点の深度情報に従って、少なくとも4つの端点の三次元座標を決定することができ、前記少なくとも4つの頂点以外に他の頂点がさらに存在する場合、三次元検出体決定モジュール1430は、擬似三次元検出体のエッジとエッジとの間の位置関係に従って、他の頂点の三次元座標を決定することができる。選択的に、前記少なくとも4つの頂点は、被処理画像を形成する撮影装置に最も近い少なくとも1つの垂直エッジの端点を含む。三次元検出体決定モジュール1430によって実行される特定の操作に対しては、前記S110の関連説明を参照することができる。
第1の校正モジュール1440は、二次元平面の擬似三次元検出体に従って、三次元空間の三次元検出体を調整して、調整後の三次元検出体の二次元平面にマッピングされた投影グラフィック領域と擬似三次元検出体の面積のオーバーラップを改善するように構成される。
第2の校正モジュール1450は、目標対象のプロセットの長さ、幅、高さの比率に従って、三次元検出体を調整するように構成される。
第3の校正モジュール1460は、目標対象の被処理画像内の二次元目標検出フレームに従って、調整後の三次元検出体の二次元平面にマッピングされた投影グラフィック領域が前記二次元目標検出フレームに属するようにするように構成される。
制御実行モジュール1470は、目標対象のキーポイントを取得しないことに応答して、対象の三次元検出処理を実行せず、前記目標対象を取得する二次元目標検出の動作が実行されるように構成される。制御実行モジュール1470は、目標対象のキーポイントを取得しないことに応答して、レーダ測距装置に基づいて取得した点群データに従って目標対象の三次元検出を実現するように構成され得る。
平滑化処理モジュール1480は、タイミング関係を有する複数の被処理画像の同じ三次元空間における目標対象の三次元検出体を平滑化処理するように構成される。例えば、平滑化処理モジュール1480によって実行される平滑化処理の動作は、三次元検出体の長さ、幅、高さの平滑化処理、三次元検出体の移動方向の平滑化処理、三次元検出体の鳥瞰図の中心点の平滑化処理および三次元検出体の頂点の平滑化処理のうちの少なくとも1つを含み得る。
目標対象情報決定モジュール1490は、三次元空間における目標対象の三次元検出体に従って、目標対象の情報を決定するように構成される。例えば、目標対象情報決定モジュール1490によって決定される目標対象の情報は、目標対象の向き情報、目標対象の空間サイズ情報、目標対象が位置する車線情報、目標対象の移動予測情報、目標対象と被処理画像を撮影する撮影装置との間の距離情報、目標対象と被処理画像を撮影する撮影装置との間の位置情報のうちの1つの情報を含み得る。
図15は、本開示のインテリジェント運転制御装置の一実施例の概略的な構造図である。図15に示されたように、前記装置は、ビデオストリーム取得モジュール1500、対象の三次元検出装置1510、命令生成モジュール1520および命令送信モジュール1530を含む。
ビデオストリーム取得モジュール1500は、車両に設置された撮影装置を介して車両が位置する道路のビデオストリームを取得するように構成される。
対象の三次元検出装置1510は、ビデオストリームに含まれる少なくとも1フレームの画像に対して目標対象の三次元検出を実行して、三次元空間における目標対象の三次元検出体を取得するように構成される。対象の三次元検出装置1510の具体的な構造およびそれに含まれる各モジュールが実行する動作は前記装置の実施形態での図14に対する説明を参照する。
命令生成モジュール1520は、三次元検出体に従って前記車両の制御命令を生成するように構成される。
可能な例において、命令生成モジュール1520は、まず、目標対象の三次元検出体に従って、目標対象の情報を決定することができる。例えば、命令生成モジュール1520は、目標対象の向き情報(目標対象の車両の前部の向き方向など)、目標対象の空間サイズ情報(現実世界における目標対象の三次元サイズなど)、目標対象が位置する車線情報(目標対象が自体の左側/右側の車道にあるなど)、目標対象の移動予測情報(目標対象が加速移動するなど)、目標対象と被処理画像を撮影する撮影装置との間の距離情報(両方の直線距離など)および目標対象と被処理画像を撮影する撮影装置との間の位置情報(目標対象と撮影装置のZ軸の間の角度など)のうちの少なくとも1つを決定する。その後、命令生成モジュール1520は、目標対象の情報に従って車両の制御命令を生成する。命令生成モジュール1520によって生成される命令は、速度維持制御命令、速度調整制御命令(減速運転命令または加速運転命令など)、方向維持制御命令、方向調整制御命令(左折命令、右折命令、左車線への並列命令、または右車線への並列命令など)、ホイッスル命令、警告プロンプト制御命令または運転モード切替制御命令(自動クルーズ運転モードへの切り替えなど)を含むが、これらに限定されない。
命令送信モジュール1530は、車両に車両制御命令を送信するように構成される。
本開示の対象の三次元検出方法および装置は、インテリジェント運転制御の分野に適用されることができ、それ以外に、さらに、他の分野にも適用されることができ、例えば、適用分野は、産業製造分野、スーパーマーケットなどの屋内監視およびセキュリティ分野などを含むが、これらに限定されない。
例示的な機器
図16は、本開示の実現に適用する例示的な機器1600を示し、機器1600は、車両に設置された制御システム/電子システム、モバイル端末(スマートフォンなど)、パーソナルコンピュータ(PC、デスクトップコンピュータまたはノートコンピュータなど)、タブレットおよびサーバなどであってもよい。図16において、機器1600は、1つまたは複数のプロセッサ、通信部などを含み、前記1つまたは複数のプロセッサは、1つまたは複数の中央処理装置(CPU)1601、および/または、1つまたは複数の加速ユニット1613を含み、加速ユニットは、グラフィック処理ユニット(GPU)、プログラマブルロジックアレイ(FPGA)などを含み得るが、これらに限定されなく、プロセッサは、読み取り専用メモリ(ROM)1602に記憶された実行可能な命令または記憶部1608からランダムアクセスメモリ(RAM)1603にロードされた実行可能な命令に従って、様々な適切な動作および処理を実行することができる。通信ユニット1612は、ネットワークカードを含み得るが、これらに限定されなく、前記ネットワークカードは、IB(Infiniband)ネットワークカードを含み得るが、これらに限定されない。プロセッサは、読み取り専用メモリ1602および/またはランダムアクセスメモリ1603と通信して、実行可能な命令を実行し、バス1604を介して通信ユニット1612に接続し、通信ユニット1612を介して他のターゲット機器と通信して、本開示における対応するステップを完了することができる。前記各命令によって実行される動作は、前記方法の実施例における関連する説明を参照し、ここでは、再び詳細に説明しない。なお、RAM1603は、さらに、装置の動作に必要な様々なプログラムおよびデータを記憶することができる。CPU1601、ROM1602およびRAM1603は、バス1604を介して相互に接続される。
RAM1603がある場合、ROM1602はオプションモジュールである。RAM1603は実行可能な命令を記憶するか、実行する時にROM1602に実行可能な命令を書き込み、実行可能な命令は、中央処理装置1601によって対象の三次元検出方法またはインテリジェント運転制御方法に含まれたステップを実行するようにする。入力/出力(I/O)インターフェース1605もバス1604に接続する。通信ユニット1612は、統合的に設置されてもよく、複数のサブモジュール(例えば、複数のIBネットワークカード)を有し、バスにそれぞれ接続するように設置されてもよい。キーボード、マウスなどを含む入力部1606、ブラウン管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部1607、ハードウェアなどを含む記憶部1608、およびLANカード、モデムなどのネットワークインターフェースカードを含む通信部1609は、I/Oインターフェース1605に接続する。通信部1609は、インターネットなどのネットワークを介して通信処理を行う。ドライブ1610も、ニーズによってI/Oインターフェース1605に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体1611は、ニーズによってドライブ1610に実装され、そこから読み取られたコンピュータプログラムがニーズによって記憶部1608により簡単に実装される。
図16に示されたアーキテクチャは単なる選択的な実現方法であり、具体的な実施プロセスにおいて、実際のニーズによって前記図16の部品の数およびタイプを選択、削除、追加または交換することができ、異なる機能部品の設置において、独立して設置し、または統合的に設置するなどの実現方法を採用することができ、例えば、GPU1613およびCPU1601は独立して設置することができ、または、GPU1613をCPU1601に統合することができ、通信ユニットは独立して設置されてもよく、CPU1601またはGPU1613に統合的に設置されてもよいことを特に留意されたい。これらの代替実施形態のすべては、本開示の保護範囲に含まれる。
特に、本開示の実施形態によれば、以下でフローチャートを参照して説明されるプロセスは、コンピュータソフトウェアプログラムとして実装され得、例えば、本開示の実施形態はコンピュータプログラム製品を含み、それには機械読み取り可能な媒体に具体的に含まれたコンピュータプログラムを含み、コンピュータプログラムは、フローチャートに示されたステップを実行するために使用されるプログラムコードを含み、プログラムコードは、本開示によって提供される方法の対応するステップを実行することに対応する命令を含み得る。
そのような実施形態において、前記コンピュータプログラムは、通信部1609を介してネットワークからダウンロードされ、およびインストールされてもよく、および/またはリムーバブル媒体1611からインストールされてもよい。前記コンピュータプログラムが中央処理装置(CPU)1601によって実行される時に、本開示に記載された前記対応するステップを実現する命令を実行する。
1つまたは複数の可能な実施形態において、本開示の実施例は、コンピュータ読み取り可能な命令を記憶するために使用されるコンピュータプログラムプログラム製品をさらに提供して、前記命令が実行される時に、コンピュータが前記任意の実施例に記載の対象の三次元検出方法またはインテリジェント運転制御方法を実行するようにする。
前記コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらの組み合わせの方式によって実現されることができる。可能な一例として、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体的に具現される。別の可能な例において、コンピュータプログラム製品は、ソフトウェア開発キット(SDK:Software Development Kit)などのソフトウェア製品として具体的に具現される。
1つまたは複数の可能な実施形態において、本開示の実施例は、別の対象の三次元検出方法およびインテリジェント運転制御方法およびそれに対応する装置および電子機器、コンピュータ記憶媒体、コンピュータプログラムおよびコンピュータプログラム製品をさらに提供し、ここでの方法は、第1の装置が、第2の装置に対象の三次元検出指示またはインテリジェント運転制御指示を送信することであって、前記指示は、第2の装置に前記任意の可能な実施例の対象の三次元検出方法またはインテリジェント運転制御方法を実行させることと、第1の装置が、第2の装置によって送信される対象の三次元検出結果またはインテリジェント運転制御結果を受信することとを含む。
いくつかの実施例において、前記対象の三次元検出指示またはインテリジェント運転制御指示は、具体的には呼び出し命令であってもよく、第1の装置は、呼び出しの方法によって第2の装置が対象の三次元検出動作またはインテリジェント運転制御動作を実行するように指示することができ、それに応じて、呼び出し命令を受信することに応答し、第2の装置は、前記対象の三次元検出方法またはインテリジェント運転制御方法の実施例のいずれかのステップおよび/またはプロセスを実行することができる。
本開示の実施例はにおける「第1」、「第2」などの用語は、区別するためのものに過ぎず、本開示の実施例を限定するものとして解釈されるべきではないことを理解されたい。本開示では、「複数」は2つまたは2つ以上を指すことができ、「少なくとも1つ」は1つ、2つまたは2つ以上を指すことができることも理解されたい。本開示で言及される任意の部品、データまたは構造に対して、明確に定義されていないか、本文で反対の啓示が与えられていない場合、通常は、1つまたは複数として理解され得ることも理解されたい。本開示の各実施例に対する説明は、各実施例間の相違を強調し、その同じまたは類似な所は相互に参照されることができ、簡潔のために、ここで再び説明しないことも理解されたい。
多くの方法によって、本開示の方法および装置、電子機器およびコンピュータ読み取り可能な記憶媒体は実現されることができる。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの組み合わせによって、本開示の方法および装置、電子機器およびコンピュータ読み取り可能な記憶媒体を実現される。方法のステップの前記順序は、単に説明をするためであり、本開示の方法のステップは、時に明記しない限り、以上の具体的な説明の順序に限定されない。なお、いくつかの実施形態において、本開示は、記録媒体に記録されたプログラムとして実装することもでき、これらのプログラムは、本開示に係る方法を実行するために使用される機械読み取り可能な命令を含む。したがって、本開示は、本開示に係る方法を実行するために使用されるプログラムを記憶する記憶媒体をさらに覆う。
本開示の説明は、例示および説明のために与えられ、網羅的ではなく、開示された形態に限定されない。多くの修正および変形が当業者にとっては明らかであろう。実施形態の選択および説明は、本開示の原理および実際の応用をより明確に説明するためであり、当業者が本開示の実施例を理解して、それにより、特定の用途に適用した様々な修正を伴う様々な実施形態を設計するようにする。

Claims (22)

  1. 対象の三次元検出方法であって、
    被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得することと、
    前記所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築することと、
    前記擬似三次元検出体の複数の頂点の深度情報を取得することと、
    前記擬似三次元検出体の複数の頂点の深度情報に従って、前記三次元空間における目標対象の三次元検出体を決定することとを含むことを特徴とする、前記対象の三次元検出方法。
  2. 前記所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築することは、
    前記所定のキーポイントの二次元座標に従って、長さ方向の目標対象の断面を決定することであって、前記目標対象の長さは、擬似三次元検出体の長さに対応することと、
    前記断面の各頂点をそれぞれ開始点とし、前記断面の垂直な方向に沿って、前記目標対象の厚さの半分を両側にそれぞれ延長して、前記二次元空間における目標対象の擬似三次元検出体を形成することとを含むことを特徴とする、
    請求項1に記載の対象の三次元検出方法。
  3. 前記目標対象は、二輪自動車、二輪の非自動運転車両、二輪自動車およびその運転者、または二輪の非自動運転車両およびその運転者を含み、前記所定のキーポイントは、前輪の中心キーポイント、後輪の中心キーポイント、前輪の先端キーポイント、後輪の後端キーポイント、前輪の接地キーポイント、後輪の接地キーポイント、シートサポートキーポイント、ペダルベアリングキーポイント、ハンドルバーの中心キーポイント、ハンドルバーの両端キーポイント、運転者の頭頂部キーポイント、運転者の肩の2つのキーポイントのうちの少なくとも1つを含み、
    前記所定のキーポイントの二次元座標に従って、長さ方向の目標対象の断面を決定することは、
    前輪の接地キーポイントの二次元座標および後輪の接地キーポイントの二次元座標に従って、前輪の接地キーポイントと後輪の接地キーポイントの間の距離を決定することと、
    前輪の接地キーポイントおよび後輪の接地キーポイントから両方の連結線を沿って、それぞれ外側に拡張して、前記断面の長さを形成することと、
    ハンドルバーの中心キーポイントの二次元座標または前記車両運転者の頭頂部キーポイントの二次元座標から前記連結線までの垂直距離を、前記断面の高さとして使用することとを含むことを特徴とする、
    請求項2に記載の対象の三次元検出方法。
  4. 前記目標対象の厚さは、プリセットの厚さ値を含み、または、
    前記目標対象の厚さは、前記ハンドルバーの両端キーポイントの二次元座標に従って決定されるハンドルバーの両端間の距離、または、
    前記運転者の肩の2つのキーポイントの二次元座標に従って決定される運転者の両肩の間の距離を含むことを特徴とする、
    請求項3に記載の対象の三次元検出方法。
  5. 前記所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築することは、
    所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、目標対象の少なくとも1つの構造面を決定することと、
    前記構造面および所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築することとを含むことを特徴とする、
    請求項1に記載の対象の三次元検出方法。
  6. 前記目標対象は、二輪以上の自動車または二輪以上の非自動運転車両を含み、前記目標対象の擬似三次元検出体を構築するために使用される所定のキーポイントは、
    車両の左前隅部キーポイント、車両ルーフの左前隅部キーポイント、車両ルーフの左後隅部キーポイント、車両の左後隅部キーポイント、左後輪の底部キーポイント、左前輪の底部キーポイント、車両の右前隅部キーポイント、車両ルーフの右前隅部キーポイント、車両ルーフの右後隅部キーポイント、車両の右後隅部キーポイント、右後輪の底部キーポイント、右前輪の底部キーポイント、車両ドアキーポイント、バックミラーキーポイント、ナンバープレートキーポイントおよびライトキーポイントのうちの少なくとも2つを含むことを特徴とする、
    請求項5に記載の対象の三次元検出方法。
  7. 前記少なくとも1つの構造面は、1つのベース面を含み、
    前記所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、目標対象の少なくとも1つの構造面を決定することは、
    所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、所定のキーポイントの数を最も多く含む面をベース面として使用することを含み、
    前記構造面および所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築することは、
    前記ベース面の法線ベクトルを決定することと、
    前記ベース面の頂点が法線ベクトルの方向に沿って拡張することに従って、前記擬似三次元検出体を形成することとを含み、
    前記ベース面の法線ベクトルを決定することは、
    前記ベース面に属さない所定のキーポイントの中で最も信頼性が高い所定のキーポイントから前記ベース面へ作った垂直線を、前記ベース面の法線ベクトルとして使用すること、または
    前記ベース面の隣接面での、前記ベース面に垂直なエッジ上の2つの所定のキーポイントの座標差を、前記ベース面の法線ベクトルとして使用することを含むことを特徴とする、
    請求項5または6に記載の対象の三次元検出方法。
  8. 前記少なくとも1つの構造面は、1つのベース面および1つの準ベース面を含み、
    前記所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、目標対象の少なくとも1つの構造面を決定することは、
    所定のキーポイントと目標対象に含まれる面との間の所定の帰属関係に従って、所定のキーポイントの数を最も多く含む面をベース面として使用し、前記ベース面に隣接し、且つベース面に属する所定のキーポイント以外の他の所定のキーポイントの数を最も多く含む面を準ベース面として使用することを含み、
    前記構造面および所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築することは、
    前記準ベース面の所定のキーポイントから前記ベース面へ作った垂直線を、前記ベース面の法線ベクトルとして使用することと、
    前記ベース面の頂点が前記法線ベクトルの方向に沿って拡張することに従って、前記擬似三次元検出体を形成することとを含むことを特徴とする、
    請求項5または6に記載の対象の三次元検出方法。
  9. 前記被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得することは、
    前記被処理画像に対して目標対象の検出を実行して、目標対象の少なくとも一部を含む二次元目標検出フレームを取得することと、
    前記被処理画像の前記二次元目標検出フレームに対応する画像部分に対してキーポイント検出を実行することと、
    前記目標対象のキーポイント検出結果における信頼性がプリセットの信頼性の閾値を超えるキーポイントを、前記目標対象の所定のキーポイントとして使用することとを含むことを特徴とする、
    請求項1ないし8のいずれか一項に記載の対象の三次元検出方法。
  10. 前記目標対象は、二輪自動車およびその運転者を含み、前記被処理画像に対して目標対象の検出を実行して、目標対象の少なくとも一部を含む二次元目標検出フレームを取得することは、前記被処理画像に対して目標対象の検出を実行して、前記二輪自動車を含む二次元目標検出フレームまたは前記二輪自動車およびその運転者を含む二次元目標検出フレームを取得することを含み、または、
    前記目標対象は、二輪の非自動運転車両およびその運転者を含み、前記被処理画像に対して目標対象の検出を実行して、目標対象の少なくとも一部を含む二次元目標検出フレームを取得することは、前記被処理画像に対して目標対象の検出を実行して、前記二輪の非自動運転車両を含む二次元目標検出フレームまたは前記二輪の非自動運転車両およびその運転者を含む二次元目標検出フレームを取得することを含むことを特徴とする、
    請求項9に記載の対象の三次元検出方法。
  11. 前記擬似三次元検出体の複数の深度情報を取得することは、
    前記擬似三次元検出体の1つの垂直エッジの2つの端点の前記被処理画像内の二次元座標およびプリセットの前記目標対象の高さ値に従って、前記垂直エッジの鳥瞰図に対応するレイ上の点位置の単位ピクセルで表される距離を取得することであって、レイの原点は、前記被処理画像を形成する撮影装置の前記鳥瞰図における位置であることと、
    前記距離および前記撮影装置のパラメータに従って、前記垂直エッジの2つの端点の深度情報を決定することとを含み、
    または、
    前記擬似三次元検出体の1つの水平方向のエッジの2つの端点の前記被処理画像内の二次元座標およびプロセットの前記目標対象の幅値に従って、前記水平方向のエッジの左面図/右面図の対応する投影線分の単位ピクセルで表される距離を取得することと、
    前記距離および前記撮影装置のパラメータに従って、前記水平方向のエッジの2つの端点の深度情報を取得することとを含むことを特徴とする、
    請求項1ないし10のいずれか一項に記載の対象の三次元検出方法。
  12. 前記距離および前記撮影装置のパラメータに従って、前記垂直エッジの2つの端点の深度情報を決定し、または、前記距離および前記撮影装置のパラメータに従って、前記水平方向のエッジの2つの端点の深度情報を決定することは、
    前記端点の二次元座標の水平方向の座標と光学中心オフセットの差と前記距離の積を、前記端点の三次元座標系における水平方向の座標として使用することと、
    前記撮影装置の焦点距離と前記端点の三次元座標系の水平方向の座標との積と、前記端点の二次元座標の水平方向の座標と光学中心オフセットの差の比率を、前記端点の三次元座標系における深度方向の座標として使用することとを含むことを特徴とする、
    請求項11に記載の対象の三次元検出方法。
  13. 前記擬似三次元検出体の複数の頂点の深度情報に従って、前記三次元空間における目標対象の三次元検出体を決定することは、
    前記擬似三次元検出体の少なくとも4つの頂点の二次元座標および前記少なくとも4つの頂点の深度情報に従って、前記少なくとも4つの端点の三次元座標を決定することと、
    前記少なくとも4つの頂点以外に、他の頂点が存在する場合、前記擬似三次元検出体のエッジとエッジとの間の位置関係に従って、前記他の頂点の三次元座標を決定することとを含むことを特徴とする、
    請求項1ないし12のいずれか一項に記載の対象の三次元検出方法。
  14. 前記少なくとも4つの頂点は、前記被処理画像を形成する撮影装置に最も近い少なくとも1つの垂直エッジの端点を含むことを特徴とする、
    請求項13に記載の対象の三次元検出方法。
  15. 前記三次元空間における目標対象の三次元検出体を決定した後、前記方法は、
    二次元平面の擬似三次元検出体に従って、三次元空間の三次元検出体を調整して、調整後の三次元検出体の二次元平面にマッピングされた投影グラフィック領域と前記擬似三次元検出体の面積のオーバーラップを改善すること、
    前記目標対象のプロセットの長さ、幅、高さの比率に従って、前記三次元検出体を調整すること、
    前記目標対象の被処理画像内の二次元目標検出フレームに従って、前記三次元検出体を調整して、調整後の三次元検出体の二次元平面にマッピングされた投影グラフィック領域が前記二次元目標検出フレームに属するようにすることのうちの少なくとも1つをさらに含むことを特徴とする、
    請求項1ないし14のいずれか一項に記載の対象の三次元検出方法。
  16. 前記方法は、
    目標対象の所定のキーポイントを取得しないことに応答して、対象の三次元検出処理を実行せず、前記目標対象を取得する二次元目標検出の動作を実行すること、または、
    目標対象のキーポイントを取得しないことに応答して、レーダ測距装置に基づいて取得した点群データに従って目標対象の三次元検出を実現することをさらに含むことを特徴とする、
    請求項1ないし15のいずれか一項に記載の対象の三次元検出方法。
  17. 前記三次元空間における目標対象の三次元検出体を決定した後、前記方法は、
    タイミング関係を有する複数の被処理画像の同じ三次元空間における目標対象の三次元検出体を平滑化処理することをさらに含み、
    前記平滑化処理は、三次元検出体の長さ、幅、高さの平滑化処理、三次元検出体の移動方向の平滑化処理、三次元検出体の鳥瞰図の中心点の平滑化処理および三次元検出体の頂点の平滑化処理のうちの少なくとも1つを含み、
    および/または、
    前記三次元空間における目標対象の三次元検出体を決定した後、前記方法は、
    前記三次元空間における目標対象の三次元検出体に従って、前記目標対象の情報を決定することをさらに含み、前記目標対象の情報は、
    前記目標対象の向き情報、前記目標対象の空間サイズ情報、前記目標対象が位置する車線情報、前記目標対象の移動予測情報、前記目標対象と前記被処理画像を撮影する撮影装置との間の距離情報、前記目標対象と前記被処理画像を撮影する撮影装置との間の位置情報のうちの少なくとも1つを含むことを特徴とする、
    請求項1ないし16のいずれか一項に記載の対象の三次元検出方法。
  18. インテリジェント運転制御方法であって、
    車両に設置された撮影装置を介して前記車両の位置する道路上のビデオストリームを取得することと、
    請求項1ないし17のいずれか一項に記載の方法を採用して、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して目標対象の三次元検出を実行して、前記三次元空間における目標対象の三次元検出体を取得することと、
    前記三次元検出体に従って前記車両の制御命令を生成することと、
    前記車両に前記車両の制御命令を送信することとを含むことを特徴とする、前記インテリジェント運転制御方法。
  19. 対象の三次元検出装置であって、
    被処理画像内の目標対象の少なくとも1つの所定のキーポイントの二次元座標を取得するように構成される二次元座標取得モジュールと、
    前記所定のキーポイントの二次元座標に従って、前記二次元空間における目標対象の擬似三次元検出体を構築するように構成される構築モジュールと、
    前記擬似三次元検出体の複数の頂点の深度情報を取得するように構成される深度情報取得モジュールと、
    前記擬似三次元検出体の複数の頂点の深度情報に従って、前記三次元空間における目標対象の三次元検出体を決定するように構成される三次元検出体決定モジュールとを含むことを特徴とする、前記対象の三次元検出装置。
  20. インテリジェント運転制御装置であって、
    車両に設置された撮影装置を介して前記車両が位置する道路のビデオストリームを取得するように構成されるビデオストリーム取得モジュールと、
    前記ビデオストリームに含まれる少なくとも1フレームの画像に対して目標対象の三次元検出を実行して、前記三次元空間における目標対象の三次元検出体を取得するように構成される対象の三次元検出装置と、
    前記三次元検出体に従って前記車両の制御命令を生成するように構成される命令生成モジュールと、
    前記車両に前記車両の制御命令を送信するように構成される命令送信モジュールとを含むことを特徴とする、前記インテリジェント運転制御装置。
  21. 電子機器であって、
    コンピュータプログラムを記憶するように構成されるメモリと、
    前記メモリに記憶されたコンピュータプログラムを実行するように構成されるプロセッサとを含み、前記コンピュータプログラムが実行される時に、請求項1ないし18のいずれか一項に記載の方法を実現する、前記電子機器。
  22. コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行される時に、請求項1ないし18のいずれか一項に記載の対象の三次元検出方法を実現する、前記コンピュータ読み取り可能な記憶媒体。
JP2020062660A 2019-04-09 2020-03-31 対象の三次元検出およびインテリジェント運転制御方法、装置、媒体および機器 Active JP7002589B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910281899.1A CN111857111A (zh) 2019-04-09 2019-04-09 对象三维检测及智能驾驶控制方法、装置、介质及设备
CN201910281899.1 2019-04-09

Publications (2)

Publication Number Publication Date
JP2020173799A true JP2020173799A (ja) 2020-10-22
JP7002589B2 JP7002589B2 (ja) 2022-02-10

Family

ID=72747439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020062660A Active JP7002589B2 (ja) 2019-04-09 2020-03-31 対象の三次元検出およびインテリジェント運転制御方法、装置、媒体および機器

Country Status (3)

Country Link
US (1) US11138756B2 (ja)
JP (1) JP7002589B2 (ja)
CN (1) CN111857111A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022269980A1 (ja) * 2021-06-24 2022-12-29 日立Astemo株式会社 外界認識装置、および、外界認識方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
WO2020040734A1 (en) * 2018-08-21 2020-02-27 Siemens Aktiengesellschaft Orientation detection in overhead line insulators
JP7336367B2 (ja) * 2019-11-22 2023-08-31 株式会社Subaru 車外環境認識装置
US11851060B2 (en) 2020-03-15 2023-12-26 Ron Zass Controlling vehicles in response to windows
CN112967339B (zh) * 2020-12-28 2023-07-25 北京市商汤科技开发有限公司 一种车辆位姿的确定方法、车辆控制方法及装置、车辆
CN112819880A (zh) * 2021-01-07 2021-05-18 北京百度网讯科技有限公司 三维物体检测方法、装置、设备及存储介质
US11475628B2 (en) * 2021-01-12 2022-10-18 Toyota Research Institute, Inc. Monocular 3D vehicle modeling and auto-labeling using semantic keypoints
CN113256709A (zh) * 2021-04-13 2021-08-13 杭州飞步科技有限公司 目标检测方法、装置、计算机设备以及存储介质
CN113223104B (zh) * 2021-04-16 2023-03-24 山东师范大学 一种基于因果关系的心脏mr图像插补方法及系统
CN113128434B (zh) * 2021-04-27 2023-11-21 南京大学 一种对单目rgb图像进行3d目标检测的方法
CN113344998B (zh) * 2021-06-25 2022-04-29 北京市商汤科技开发有限公司 深度检测方法、装置、计算机设备及存储介质
CN113643350B (zh) * 2021-07-21 2023-09-12 宜宾中星技术智能系统有限公司 在视频画面上进行立体测量的方法、装置、终端设备
CN116681758A (zh) * 2022-02-23 2023-09-01 北京百度网讯科技有限公司 车辆的姿态估计方法、装置、电子设备及存储介质
CN114581831B (zh) * 2022-03-04 2022-09-20 广东工业大学 基于图像和点云的无人机障碍物检测和避障方法及系统
WO2023245635A1 (en) * 2022-06-24 2023-12-28 Intel Corporation Apparatus and method for object detection
CN115393423A (zh) * 2022-09-19 2022-11-25 北京京东尚科信息技术有限公司 目标检测方法和装置
TWI838018B (zh) * 2022-12-16 2024-04-01 鴻海精密工業股份有限公司 車輛控制方法、電腦設備及儲存介質
CN116067474A (zh) * 2023-02-21 2023-05-05 广州计量检测技术研究院 一种基于深度学习检测识别的电子台案秤智能检定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012527705A (ja) * 2009-05-19 2012-11-08 ディジマーク コーポレイション 物体認識用のヒストグラム方法及びシステム
JP2018195037A (ja) * 2017-05-17 2018-12-06 株式会社Subaru 車外環境認識装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008535116A (ja) * 2005-04-07 2008-08-28 エヌエックスピー ビー ヴィ 3次元レンダリング用の方法及び装置
US8717416B2 (en) * 2008-09-30 2014-05-06 Texas Instruments Incorporated 3D camera using flash with structured light
US8593574B2 (en) * 2010-06-30 2013-11-26 At&T Intellectual Property I, L.P. Apparatus and method for providing dimensional media content based on detected display capability
JP5100874B1 (ja) * 2011-08-31 2012-12-19 株式会社東芝 映像処理装置および映像処理方法
US9471988B2 (en) * 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
US20130136336A1 (en) * 2011-11-24 2013-05-30 Kabushiki Kaisha Toshiba Image processing apparatus and controlling method for image processing apparatus
KR101339900B1 (ko) * 2012-03-09 2014-01-08 한국과학기술연구원 2차원 단일 영상 기반 3차원 몽타주 생성 시스템 및 방법
US20150011824A1 (en) * 2013-07-08 2015-01-08 Yi Sun Wilkinson Endoscope with Electrically Adjustable Liquid Crystal Adaptive Lens
JPWO2017154606A1 (ja) * 2016-03-10 2019-01-10 ソニー株式会社 情報処理装置および情報処理方法
KR102029895B1 (ko) * 2016-09-30 2019-11-08 (주)태성에스엔아이 구조물 손상 정보가 매핑된 3차원 모델 생성 방법 및 이를 실행시키는 프로그램이 기록된 기록 매체
JP6965891B2 (ja) * 2016-11-07 2021-11-10 ソニーグループ株式会社 情報処理装置、情報処理方法、及び記録媒体
EP3465267A4 (en) * 2017-08-25 2019-05-22 Beijing Didi Infinity Technology and Development Co., Ltd. METHODS AND SYSTEMS FOR DETECTING ENVIRONMENTAL INFORMATION OF A VEHICLE
US10438371B2 (en) * 2017-09-22 2019-10-08 Zoox, Inc. Three-dimensional bounding box from two-dimensional image and point cloud data
CN109697749A (zh) * 2017-10-20 2019-04-30 虹软科技股份有限公司 一种用于三维建模的方法和装置
JP7223978B2 (ja) * 2018-05-23 2023-02-17 パナソニックIpマネジメント株式会社 校正装置および校正方法
JP7113375B2 (ja) * 2018-07-11 2022-08-05 パナソニックIpマネジメント株式会社 表示装置、画像処理装置及び制御方法
DE102019124290A1 (de) * 2018-09-13 2020-03-19 Aisin Seiki Kabushiki Kaisha Vorrichtung zur Erzeugung Dreidimensionaler Skelettinformationen
US10733800B2 (en) * 2018-09-17 2020-08-04 Facebook Technologies, Llc Reconstruction of essential visual cues in mixed reality applications
KR20210011657A (ko) * 2019-07-23 2021-02-02 에스케이하이닉스 주식회사 반도체 소자의 분석 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012527705A (ja) * 2009-05-19 2012-11-08 ディジマーク コーポレイション 物体認識用のヒストグラム方法及びシステム
JP2018195037A (ja) * 2017-05-17 2018-12-06 株式会社Subaru 車外環境認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FLORIAN CHABOT, ET AL.: "Deep MANTA:A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular im", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2017, JPN7021001724, 2017, US, pages 2040 - 2049, ISSN: 0004508373 *
ZENGYI QIN, ET AL.: "MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization", ARXIV, JPN7021001725, 2018, US, ISSN: 0004508374 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022269980A1 (ja) * 2021-06-24 2022-12-29 日立Astemo株式会社 外界認識装置、および、外界認識方法

Also Published As

Publication number Publication date
US20200327690A1 (en) 2020-10-15
CN111857111A (zh) 2020-10-30
US11138756B2 (en) 2021-10-05
JP7002589B2 (ja) 2022-02-10

Similar Documents

Publication Publication Date Title
JP7002589B2 (ja) 対象の三次元検出およびインテリジェント運転制御方法、装置、媒体および機器
JP6949266B2 (ja) 対象三次元検出及びスマート運転制御方法、装置、媒体並びに機器
JP7282080B2 (ja) 二次元画像および点群データからの三次元境界ボックス
JP7101255B2 (ja) 目標対象の運動の向きを予測するための方法、車両制御方法及び装置
WO2019202397A2 (en) Vehicle environment modeling with a camera
CN109214980A (zh) 一种三维姿态估计方法、装置、设备和计算机存储介质
WO2022053015A1 (zh) 基于单目图像的目标检测方法和装置
CN100492412C (zh) 体三维显示中的体素数据生成方法
JP7091485B2 (ja) 運動物体検出およびスマート運転制御方法、装置、媒体、並びに機器
CN116645649B (zh) 车辆位姿及尺寸估计方法、设备及存储介质
US20210078597A1 (en) Method and apparatus for determining an orientation of a target object, method and apparatus for controlling intelligent driving control, and device
CN115375836A (zh) 基于多元置信度滤波的点云融合三维重建方法和系统
CN115082681A (zh) 语义分割、环境感知方法、装置和无人车
CN117315372A (zh) 一种基于特征增强的三维感知方法
CN116452748A (zh) 一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端
CN115222815A (zh) 障碍物距离检测方法、装置、计算机设备和存储介质
CN114648639A (zh) 一种目标车辆的检测方法、系统及装置
Ren et al. Real-Time 3D Tele-operation of Unmanned Ground Vehicles
KR20230174353A (ko) 차량의 사각지대를 시각화하는 전자 장치 및 그 동작 방법
US20240153250A1 (en) Neural shape machine learning for object localization with mixed training domains
US20220414887A1 (en) Systems and methods for birds eye view segmentation
Druml et al. A Smartphone-Based Virtual White Cane Prototype Featuring Time-of-Flight 3D Imaging
CN117994777A (zh) 一种基于路侧相机的三维目标检测方法
CN118113036A (zh) 使用超声传感器用于自主系统及应用的传感器融合
CN114266900A (zh) 一种基于动态卷积的单目3d目标检测方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200401

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20200508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211227

R150 Certificate of patent or registration of utility model

Ref document number: 7002589

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250