JP2023508986A - 交通弱者の意図を予測する方法および装置 - Google Patents

交通弱者の意図を予測する方法および装置 Download PDF

Info

Publication number
JP2023508986A
JP2023508986A JP2022539182A JP2022539182A JP2023508986A JP 2023508986 A JP2023508986 A JP 2023508986A JP 2022539182 A JP2022539182 A JP 2022539182A JP 2022539182 A JP2022539182 A JP 2022539182A JP 2023508986 A JP2023508986 A JP 2023508986A
Authority
JP
Japan
Prior art keywords
vrus
estimating
computer system
estimated
video frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022539182A
Other languages
English (en)
Other versions
JP7480302B2 (ja
Inventor
アディティヤ、ランガ
ジャグディーシュ、バヌシャリ
Original Assignee
ヴァレオ・シャルター・ウント・ゼンゾーレン・ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴァレオ・シャルター・ウント・ゼンゾーレン・ゲーエムベーハー filed Critical ヴァレオ・シャルター・ウント・ゼンゾーレン・ゲーエムベーハー
Publication of JP2023508986A publication Critical patent/JP2023508986A/ja
Application granted granted Critical
Publication of JP7480302B2 publication Critical patent/JP7480302B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • B60W30/0956Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • B60W40/04Traffic conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

車両の近くの歩行者および他の道路利用者の意図を推定する手法が記載される。特定の実施形態では、この手法は、1つまたは複数のセンサを備える車両のコンピュータシステムにより、車両の外のシーンに対応する連続するビデオフレームを取得することと、連続するビデオフレーム内で1人または複数人交通弱者(VRU)を検出することを含み、検出には検出された1人または複数人のVRUのそれぞれの姿勢を推定することを含む。この手法は、ビデオフレームの1つまたは複数を用いてシーンのセグメンテーションマップを生成することと、1人または複数人のVRUの推定される姿勢およびセグメンテーションマップを用いて、1つまたは複数の意図の確率を推定することであって、意図の確率はそれぞれ検出された1人または複数人のVRUのうちの1人に対応する、推定することと、推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転動作を調整することと、をさらに含む。

Description

本開示の態様は自動運転に関し、より詳細には、道路を車両と共有するユーザの意図を予測することに関する。
自動車は、運転者が様々な状況で彼らの車両を手動で操縦するのを支援するよう設計されているセンサ技術をますます多く備えている。これらのセンサにより、駐車支援、車線逸脱警告、死角検出などの様々な機能が可能となり、それら機能のすべては、現在では標準車両構成への拡張機能として利用可能である。また、これらのセンサの一部は自動運転および自律運転に関連して使用される。自律運転技術は近年急速に発展したが、いまだにすべての状況で人による制御無しに操作可能となるには不充分である。
車両の自動制御システムに困難な課題をもたらす、一つの通常遭遇する状況は、歩行者および他の道路利用者の行動を理解することである。歩行者は、特定の目的地および目標を念頭に市街地の道路を移動している。道路を進んでいる間、歩行者は他の道路利用者と直接相互作用し、状況に応じて決定を下す。自動運転または自律運転の車両は、道路を安全に進むために、すべての他の車両、歩行者、自転車に乗っている人、スクーター、およびほかのデバイスを識別して、それらの軌道を推定する必要がある。
車道上または車道の周辺の交通弱者(VRU)の意図を推定するための方法、装置、およびコンピュータ可読媒体が開示される。一実施形態では、方法は、1つまたは複数のセンサを含む車両のコンピュータシステムにより、車両の外のシーンに対応する連続するビデオフレームを取得することを含む。コンピュータシステムは、連続するビデオフレーム内で1人または複数人のVRUを検出する。検出することには、検出された1人または複数人のVRUのそれぞれの姿勢を推定することが含まれうる。コンピュータシステムはさらに、ビデオフレームの1つまたは複数を用いてシーンのセグメンテーションマップを生成し、1人または複数人のVRUの推定される姿勢およびセグメンテーションマップを用いて1つまたは複数の意図の確率を推定する。それぞれの意図の確率は、検出された1人または複数人のVRUのうちの1人に対応しうる。コンピュータシステムはさらに、推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転動作を調整する。
一実施形態では、コンピュータシステムは、少なくともVRUの推定される姿勢に基づいて1つまたは複数の行動状態を推定し、推定される1つまたは複数の行動状態を用いて1人または複数人のVRUの将来の軌道を推定する。加えて、コンピュータシステムは、VRUの過去の状態、検出された姿勢、および境界ボックスを用いて、将来の軌道を推定することができる。各行動状態は、検出されたVRUのうちの1人に対応しうる。
一実施形態では、検出するステップ、生成するステップ、および推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、1人または複数人のVRUの推定される姿勢および当該1人または複数人のVRUの対応する行動状態を、前記1人または複数人のVRUのそれぞれの近くの分割されたシーンと順次関連付けることで行うことができる。
一実施形態では、コンピュータシステムはさらに、少なくとも1人または複数人のVRUの推定される姿勢に基づいて1つまたは複数の行動状態をマルチタスクモデルを用いて推定し、推定される1つまたは複数の行動状態に基づいて1つまたは複数の意図の確率を推定することで、1つまたは複数の意図の確率を推定する。
一実施形態では、コンピュータシステムは、ニューラルネットワークアーキテクチャを1人または複数人のVRUのそれぞれの連続した一連の姿勢に適用することで1つまたは複数の行動状態を推定して、複数のあらかじめ定義された行動状態の中からVRUのための行動状態を選択する。
一実施形態では、コンピュータシステムは、ニューラルネットワークアーキテクチャをビデオフレームの1つまたは複数に適用することでセグメンテーションマップを生成して、ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類する。それぞれのクラスは、セグメンテーションマップ内のあるセグメントに対応しうる。
一実施形態では、コンピュータシステムは、予測される行動状態および各VRUの車両への近さに基づいて、1人または複数人のVRUの中から少なくとも1人の危険性の高いVRUを選択する。その結果、コンピュータシステムは、車両の運転者に危険な行動を通知する、あるいは自律走行車の軌道を変更して、危険性の高いVRUを巻き込んだ将来の事故を回避することができる。
一実施形態では、コンピュータシステムは、1人または複数人のVRUとセグメンテーションマップ内の物体に対応する1つまたは複数のクラスとの間の社会的相互作用を分析することで、1人または複数人のVRUの意図の確率を推定する。
一実施形態では、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと結合された記憶装置とを含むコンピュータシステムが説明される。少なくとも1つのプロセッサは、1つまたは複数のセンサによりキャプチャされる車両の外のシーンに対応する連続するビデオフレームを取得するよう構成される。少なくとも1つのプロセッサはさらに、連続するビデオフレーム内で1人または複数人のVRUを検出し、検出された1人または複数人のVRUのそれぞれの姿勢を推定し、ビデオフレームの1つまたは複数を用いてシーンのセグメンテーションマップを生成し、1人または複数人のVRUの推定される姿勢およびセグメンテーションマップを用いて1つまたは複数の意図の確率を推定して、推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転操作を調整するよう構成される。それぞれの意図の確率は、検出された1人または複数人のVRUのうちの1人に対応しうる。
一実施形態では、コンピュータ可読記憶媒体が説明される。コンピュータ可読記憶媒体は、車両のコンピュータシステムの1つまたは複数のプロセッサにより実行された場合に、この1つまたは複数のプロセッサに車両の外のシーンに対応する連続するビデオフレームを取得させる命令を記憶する。連続するビデオフレームは、1つまたは複数のセンサを用いてキャプチャされる。この命令はさらに、1つまたは複数のプロセッサに、連続するビデオフレーム内で1人または複数人のVRUを検出することであって、検出された1人または複数人のVRUのそれぞれの姿勢を推定することを含む、検出することと、ビデオフレームの1つまたは複数を用いてシーンのセグメンテーションマップを生成することと、1人または複数人のVRUの推定される姿勢およびセグメンテーションマップを用いて、1つまたは複数の意図であってそれぞれが検出された1人または複数人のVRUのうちの1人に対応する1つまたは複数の意図の確率を推定することと、推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転操作を調整することと、を行わせる。
本開示の特定の実施形態に係る、開示される意図予測システムを利用しうる車両システムの簡易ブロック図である。 本開示の特定の実施形態に係るVRU意図予測システムのハイレベルブロック図の例を示す。 本開示の特定の実施形態に係る知覚モジュールの例を示す。 本開示の特定の実施形態に係る行動予測モジュールの例を示す。 本開示の特定の実施形態に係る意図予測モジュールのブロック図の例を示す。 本開示の特定の実施形態に係る、提案されている方法のフローチャートの例を示す。 本開示の特定の実施形態に係る、例示の画像に対する意図叙述の結果の例を示す。 本開示の特定の実施形態に係る、例示の画像に対する軌道推定の結果の例を示す。
これより、本明細書の一部を成す添付の図面に関するいくつかの例示の実施形態を説明する。本開示の1つまたは複数の態様が実現されうる特定の実施形態が以下で説明されるが、他の実施形態を使用することが可能であり、本開示の範囲または添付の請求の範囲の趣旨を逸脱することなく様々な変更を行うことができる。
「交通弱者」(VRU)という用語は、本明細書では、歩行者、自転車乗り、オートバイに乗っている人間、スクーターに乗っている人間、および同種のもののクラスを指すのに使用される。一般的に、VRUは、道路上の車両と直接相互作用する、車道上または車道の周囲の任意の人間を指す。一般的に、VRUは、車両内に座っている人よりも事故の危険性が潜在的に高くなりうる。
本開示は、交通弱者を検出して識別する手法に関する。本明細書に記載される実施形態は、部分的な運転者支援から運転作業のすべての側面の完全自動化におよぶ、様々な程度の自動運転能力を提供する車両において使用されうる。米国運輸省道路交通安全局(The National Highway Traffic Safety Administration、NHTSA)、およびソサエティオブオートモーティブエンジニアズインターナショナル(Society of Automotive Engineers (SAE) International)は、以下のように車両自律性のレベルを定義している:レベル0において、運転者が車両を完全に制御する、レベル1において、運転支援システムが操舵または加速/減速を制御する、レベル2において、運転支援システムが操舵および加速/減速を制御し、運転者が運転作業の他のすべての側面を行う、レベル3において、運転のすべての側面は運転支援システムにより行われるが、自動車両が安全に対処できない特別な状況が発生した場合は運転者が介入しなければならないことがある、レベル4において、運転のすべての側面は、運転者が介入を要請された場合に適切に対応しない状況でも運転支援システムにより行われる、レベル5において、乗員がいるかどうかに関わらず、車両がすべての運転状況において完全に自律的に運転する。
本明細書では、「自動運転」という用語は、自動運転システムにより行われる任意の運転動作を指すのに使用される。例えば、「車線維持アシスタント」が作動されている場合、車線維持アシスタント(例えば自動運転システム)により行われる動作は「自動運転動作」と呼ばれる。対照的に、人間の運転者により行われる任意の運転動作は手動運転動作と考えられる。自動化のレベル1~レベル3では、運転支援システムが少なくとも運転の何らかの側面を制御する場合に何らかの形の自動運転動作が行われることがある。しかし、レベル1~レベル3では、人間の運転者からの何らかの入力がそれでも想定されうる。本明細書では、「自律走行車」という用語は、自動化のレベル4およびレベル5を使用する車両を指すのに使用され、システムがほとんどの時間、または常に自動運転動作を行い、人間の運転者による介入はほとんどない、またはまったくない。
先進認知システムおよび経路計画システムは、どのような自律走行車でも根底にある。自律走行車は、安全な移動計画のために自身の周囲および他の道路利用者の意図を理解する必要がある。都市部のユースケースでは、歩行者および他のVRUの意図に気づくこと、および予測することが非常に重要である。特定の実施形態では、車両の周囲にいる1人または複数人のVRUの意図を推定および予測するシステムが開示されている。VRUの意図は、VRUの現在の活動、そのVRUの他の車両および他のVRUとの相互作用、およびVRUの将来の操作を規定する長期にわたる軌道の組み合わせを用いて推定される。意図予測システムは、VRUの活動を分類する、エンドツーエンドの訓練済みディープニューラルネットワークモデルを利用し、連続するビデオフレームを入力として用いて、それらのVRUの将来の軌道を予測する。
自動走行車、自律走行車、またはロボットは、車両またはロボットのごく近くにいる人間の状態、行動パターン、および全体的な意図を理解することが非常に重要である。当技術分野の従来の方法は、シーン内のすべての当事者を空間内の点として扱い、行動予測モジュールは高水準の情報のみを使用する、モデルベースのシステムもしくはルールベースのシステム、または確率的なシステムである。しかし、これらの従来の方法は、シーン内の物体の他のクラス(例えば、車両、トラック、および同種のもの)と比べてVRUの行動を正確に理解して予測することができない。
人工知能(AI)および深層学習を利用して、特定の実施形態では特に自律運転およびロボット工学の分野の課題のいくつかに取り組んでいる。市街地の道路上での配送ロボットや自動運転車でのそのような課題の一つは、常に歩行者や自転車乗りと関わり合いながら経路を計画することである。道路上の歩行者は、特定の規則を順守し、シーン内の他の当事者と相互作用しつつ、特定の目標を持って動き回る。一般的に、人間の運転者は、運転中に歩行者に道を譲る必要があるかどうかを決定しながら、歩行者の状態を理解して歩行者の意図を予測するのが非常に優れている。
特定の実施形態は、道路上の人間達の歩き方、速度、頭部および身体の姿勢、動作(物体を運んでいる、カートを押している、子供を抱いている、など)、および意識/注意散漫(電話で話している、ヘッドセットを装着している、など)レベルを検出/推定するVRU意図予測システムを提示し、これらの行動パターンを利用して道路内または道路の周囲の人間の将来の軌道を予測する。VRU意図予測システムは人工知能を使用し、市街地の道路上のVRUの活動を認識してそれらの軌道を予測するようにビデオシーケンスで訓練される。短期間の個別の活動の認識と将来の連続する軌道の予測の組み合わせによってVRUの意図が要約され、自律走行車内の経路計画モジュールに正確な入力が与えられる。
特定の実施形態は、シーン内の各VRUに対する低水準の特徴を活用し、データ駆動型の深層学習手法を用いて、VRUの状態と、VRUの全体的なシーンとの行動上の関わりを学習する。本明細書で開示される方法は人間の行動を認識して理解し、状態の過去の履歴および空間的な入力から連続する軌道の重み付けを時間的に予測する。
図1は、特定の実施形態に係る、開示される意図予測システムを利用しうる車両システム100の簡易ブロック図である。車両システム100は、自動走行車または自律走行車とすることができる。車両システム100は、車両制御サブシステム110、1つまたは複数のI/Oデバイス(入力/出力デバイス)120、1つまたは複数のセンサ130、および1つまたは複数の通信インタフェース140を含む。
車両制御サブシステム110は、1つまたは複数の車両制御装置112(例えば電子制御装置、すなわちECU)を含むコンピュータシステムを含む。車両制御装置112は、それぞれが車両の1つもしくは複数のセンサ、電気システム、または他のサブシステムを制御する、任意の数の組み込み型システムを含みうる。車両制御装置112の例として、限定しないが、エンジン制御装置、パワーステアリング制御装置、駆動系制御モジュール、速度制御装置、テレマティクス制御装置、変速装置制御装置、ブレーキ制御モジュール、カメラ制御モジュール、LIDAR制御モジュール、または任意の他の種類の制御モジュールが挙げられる。
一部の実施形態では、車両制御装置112は、1つまたは複数のプロセッサと、プロセッサ実行可能命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体を含みうる。例えば、車両制御装置112は、センサ情報を処理するソフトウェアアプリケーションを実行して自動運転操作(例えば、車両の周囲のVRUの軌道を判定してそれらのVRUの軌道が車両の経路を横切る場合は措置を講じる)を決定する、あるいは車両の乗員または運転者に対してI/Oデバイス120を介して出力を生成するよう構成されているプロセッサを含みうる。
センサ130は、車両システム100が配備されている車両、および/または車両の外の環境についての情報を提供する任意の数のデバイスを含みうる。センサ130の例として、限定しないが、カメラ、マイク、レーダーセンサ、超音波センサ、LIDARセンサ、全地球測位システム(GPS)センサ、操舵角センサ、および/またはモーションセンサ(例えば、加速度計および/またはジャイロスコープ)が挙げられる。特に、車両システム100は、車両の近くのVRUを検出して位置を特定するのに使用できる1つまたは複数のカメラを備えることができる。
一部の実施形態では、車両制御サブシステム110は先進運転支援システム(ADAS)114を含む。ADASシステム114は、自動クルーズコントロールシステム、死角検出システム、駐車支援システム、緊急ブレーキシステム、または任意の他の種類の自動システムを含みうる。加えて、ADASシステムは、本明細書に記載される、VRU意図予測モジュール116および経路計画モジュール118を含みうる。
一部の実施形態では、ADASシステム114は、先進運転支援システムの自律的動作を可能とする、ハードウェア(例えばアクチュエータ)および/またはソフトウェアを含みうる。一部の実施形態では、ADASシステム114は、1つまたは複数の車両制御装置112(例えば、パワーステアリング制御装置、および/または駆動系制御モジュール)と1つまたは複数のセンサ130(例えば、カメラ、レーダーセンサ、超音波センサ、および/またはLIDARセンサ)との間を調整し、VRUおよびその軌道を識別して迫りくる衝突を検出し、自動緊急ブレーキを作動させる命令一式を含みうる。
I/Oデバイス120は、車両の乗員に対して手動操作または自動操作に関連する出力を生成するよう操作することができる、音声出力デバイス、触覚出力デバイス、表示装置、および/または他のデバイスを含むことができる。
通信インタフェース140は、他の車両および他のデバイスへメッセージを送信し、他の車両および他のデバイスからメッセージを受信するよう構成される無線通信インタフェースを含む。車両メッセージはV2XまたはDSRCとして伝送することができる、あるいは、任意の他の無線通信プロトコルに準拠することができる。通信インタフェース140は、全地球測位システムの1つまたは複数の構成要素(例えば、衛星や局地的支援サーバ)と通信を行うよう構成されている送受信機をさらに含みうる。
図2は、本開示の特定の実施形態に係るVRU意図予測システム200のハイレベルブロック図の例を示す。VRU意図予測システム200は、図1のVRU意図予測モジュール116を実装することができて、知覚モジュール210と、行動予測モジュール220と、意図予測モジュール230と、を含む。
知覚モジュール210は、シーン内のVRUを検出、識別して、位置を特定する。さらに、知覚モジュールは、シーン内で検出されたVRUそれぞれに対して2次元(2D)の姿勢および3D境界ボックスを推定する。さらに、知覚モジュール210は、3Dのシーン内で検出されたVRUを追跡する。加えて、知覚モジュールは、物体のいくつかの既知のクラスのうちの一つに属するように入力画像の各画素を分類する、セグメンテーションディープニューラルネットワークを利用する。一例では、画素の分類は、セマンティックシーンセグメンテーション手法を用いて、入力画像をエンコーダデコーダアーキテクチャに通してシーン記述を生成することで行うことができる。知覚モジュールの出力には、2D境界ボックス、重要な点、シーンセグメンテーションマスク、および同種のものが含まれうる。加えて、知覚モジュール210は、画像フレームまたはビデオフレームを入力として用いて、シーン内の物体を検出する。
行動予測モジュール220は知覚モジュールからシーン記述および推定姿勢を受信し、シーン内の各VRUの活動および状態を検出する。加えて、行動予測モジュール220は1人または複数人のVRUの過去の位置の履歴を受信して、シーン内のすべてのVRUの将来取り得る画素の位置を出力する。
意図予測モジュール230はVRUの推定される軌道およびそれらのVRUの活動状態を入力として受信し、VRUの意図する経路が車両の経路を横切る確率を出力する。
図3は、本開示の特定の実施形態に係る知覚モジュール300の例を示す。知覚モジュール300は、図2の知覚モジュール210を実装することができる。知覚モジュール300は、セマンティックセグメンテーションモジュール310と、物体検出および人間姿勢推定モジュール320と、を含みうる。セマンティックセグメンテーションモジュール310は、物体検出モジュール320と並列して動作して、シーンの理解を生成する。セマンティックセグメンテーションモジュール310は、シーンのすべての画素をそれらの画素のそれぞれのクラスと関連付けて、シーン内の人の2Dの空間的位置と関連付けることができる完全なシーン記述を出力する。一実施形態では、セマンティックセグメンテーションモジュール310は、エンコーダデコーダアーキテクチャを利用する。一例として、セマンティックセグメンテーションモジュール310は、VGGまたはResNetディープニューラルネットワークモデルを、Unetや完全畳み込みネットワーク(FCN)デコーダニューラルネットワークと共に、ImageNetなどの既知のデータセットで訓練済みエンコーダとして使用することができる。一例では、モデルが入力として画像を撮影し、いくつかのプーリング層を有する2DのCNN層とバッチ正規化を用いて、シーンを符号化する。さらに、モデルは、デコーダを用いて最大解像度のセグメンテーションマスクを再構成する。モデルは、注釈付けされたセマンティックセグメンテーションデータで訓練されて、各画素を適切なクラスと照合する。シーンセグメンテーションの場合、出力には、人、ランドマーク、車、道路、縁石、交通標識などのあらかじめ定義されたクラスのセットへの各画素の分類が含まれる。
物体検出モジュール320は訓練済みの物体検出ネットワークと、シーン内の各個人に対する視覚的な手掛かり(特徴)のすべてを符号化するのに使用される2D人間姿勢推定ネットワークと、を含む。シーン内の各歩行者の2次元の空間的位置、2Dの重要な点、および姿勢は、低水準の特徴と、各画像での歩行者の身体および頭の向き、および連続する画像における相対的な手足の動きに関する記述と、を提供する。これは、物体の画素上での2D位置、または世界座標系での3D位置だけを用いるのと比べて、非常に豊富な情報である。
図4は、本開示の一態様に係る行動予測モジュール400の例を示す。行動予測モジュール400は、図2の行動予測モジュール220を実装することができて、活動/状態予測モジュール410と、軌道予測モジュール420と、を含む。活動予測モジュール410は、知覚モジュール300から検出されたVRUのそれぞれのシーン記述と推定姿勢を受信する。活動予測モジュール410は、VRUの2D姿勢の一連の過去の履歴と、過去Nフレームでの各VRUの境界ボックスと、を用いて、以下のクラスまたは状態を認識する:
・運動状態(歩き方):歩いている/立ち止まっている/座っている
・意識状態:注視している/注視していない
・注意散漫状態:デバイスでおしゃべりしている/他の人と話している
・向き:左/右/後方/前方
活動予測モジュール410は、逐次入力される、2D境界ボックス、2D姿勢、および連続するビデオフレーム内での相対的な姿勢を変換して、物体レベル特徴表現を得る。一例では、活動予測モジュール410は、線形埋め込み層および再帰型ニューラルネットワーク(RNN)層にその入力値を通して、空間的変換および時間的変換を行う。融合されたシーンおよび物体符号化が最後の全結合層に通されて、活動のクラスの出力が生成される。このようにして、最後のNフレームについての情報が入力としてLSTMユニットへ与えられて、モデルはシーン内のすべての歩行者の活動/状態を認識できるようになる。開示されるシステムは、最後のVRUの意図と共に活動および軌道の多数のクラスを学習する、それゆえ、このシステムはマルチタスク学習モデルである。
軌道予測モジュール420は、シーン内で検出されたVRUの軌道を推定する。ネットワークは、所与の長さの連続する入力データに対し、畳み込みニューラルネットワークの符号化層を用いて、知覚モジュールからの2D姿勢および2D/3D境界ボックスを符号化する。連続的な物体符号化およびシーン符号化が融合されて、再帰型ユニット(例えばLSTM)を有するデコーダへ渡されて、シーン内の個々のVRUそれぞれの将来の2D画素位置が出力される。
出力されるxy画素位置は、二乗L2損失を用いてグラウンドトゥルース軌道値で訓練される。推測を行っている間において、軌道予測モジュールは、過去NフレームでのVRU位置の入力履歴を用いて、次のt+nフレームでのシーン内のすべてのVRUの取り得る将来の画素位置を予測する。一例では、軌道予測モジュール420は、軌道を推定するための別々の分岐を有する活動予測モデルとして、同一のニューラルネットワークモデルを利用する。一実施形態では、軌道予測モジュール420は、物体検出モジュールからの出力で訓練される再帰型エンコーダデコーダモデルを使用する。
社会的相互作用の学習
シーン内のVRUは、他の物体(他のVRU、車両など)と相互作用を行い、特定の定義済みの目標を念頭に移動している。シーン内のVRUと複数の歩行者との間、および/またはシーン内のVRUと他のVRUとの間に、モデルが道路上の各人に対して理解して正確に予測する必要がある社会的相互作用要素が存在する。VRUの意図を予測し、VRUの社会的相互作用を識別することで、VRUの将来の軌道および車両の経路を横切るVRUの意図を予測する際のシステムの精度が向上する。
学術研究に由来する敵対的生成ネットワークを用いた社会的に許容される軌道(ソーシャルGAN)/ソーシャルLSTMなどの当技術分野での現在の方法は、歩行者に対する特徴のプーリングを用いて社会的学習という概念を提示する。しかし、こうしたモデルは複数の歩行者だけの間の相互作用のみをモデル化することに極めて限定されている。特定の実施形態は、1人または複数人の歩行者の間の社会的相互作用、歩行者と他の物体の間の相互作用、およびシーンをモデル化する方法を提示する。特定の実施形態は、符号化されたシーンの豊富な意味を軌道予測モジュールへ入力される特徴として含めることで、歩行者と他の物体の間のシーン内の相互作用を予測して、歩行者がシーンと行いうる相互作用を識別および検出する。
加重学習
特定の実施形態は、集団で歩いている歩行者、何かを運んでいる歩行者、他のユーザまたは物体を物理的に抱えている歩行者、および同種のものを含む運動状態を独自の方法で限定してモデル化する。行動の意図は、上記の場合のそれぞれに対して非常に異なっていることに留意されたい。一実施形態では、注釈付けされたラベルを、各VRUがグループに属しているか、または個人であるかを識別するモデルに加えることができる。モデル内にこの教師あり学習の能力を含めることで、歩行者/VRUが異なる集団運動状態を持つ場合にシステムが異なる反応をすることができる。符号化層の社会的プーリングが歩行者間の相互作用を学習するのに使用される。
図5は、本開示の特定の実施形態に係る意図確率予測モジュール500の例を示す。一実施形態では、軌道予測および活動予測がDNNモデルの最後の全結合層に入力されて、各VRUに対する最終的な意図が、確率と共に推定/予測される。特定の実施形態は、行動モジュールに対して個別のクラスのラベルのそれぞれを訓練するための重み付けされた交差エントロピー損失を使用し、別々のリッジ回帰損失関数が軌道モデルを訓練するのに使用される。示されるように、意図確率予測モジュールは、VRU活動状態(例えば、歩き方、注意、向かい合っている、横切っている、など)およびVRUの軌道を入力として受信する。意図確率予測モジュールは、VRUのそれぞれの意図の確率を推定する。例として、意図確率予測モジュールは、VRUが車両の将来の軌道を横切る確率を推定する。例えば、第1歩行者が横断歩道の手前で立ち止まっていて、赤信号/青信号に能動的に注意を払っている場合、この第1歩行者が車道を横切る意図の確率は高くなるであろう。別の例では、第2歩行者が交差点で立ち止まっていて、車道よりも建物の側面の近くで自分の電話で話している場合、第2歩行者が横切るという意図の確率は第1歩行者よりも低い(たぶん、第2歩行者は交差点で友人と会うために待っている)。
VRU意図予測システムは、ADAS/自動運転(AD)能力を持つ車両の、計画モジュールまたは警告システムへの入力として、現在の状態および将来の予測を提供する。VRU意図予測システムは、ADASアプリケーションでは警告システムとして機能して、360のシーン内の歩行者から異常または危険な意図が検出された場合に、運転席にいる運転者に制御させる、あるいは警告することができる。同様に、自律走行車は、その軌道を計画するために道路利用者(例えば、VRUや車)の意図を正確に推定する必要があり、それに応じて移動する。任意の配送ロボット(食料、雑貨、ラストマイルなど)において、ロボットは、常に縁石にいる歩行者および自転車乗りと関わり合いながら進む必要がある。
図6は、本開示の特定の実施形態に係る、提案されている方法のフローチャートの例を示す。610において、1つまたは複数のセンサを含む車両のコンピュータシステムは、車両の外のシーンに対応する連続するビデオフレームを取得する。連続するビデオフレームは、1つまたは複数のセンサの少なくとも1つを用いてキャプチャすることができる。例として、連続するビデオフレームは、1つまたは複数の魚眼カメラを用いてキャプチャすることができる。
620において、コンピュータシステムは、連続するビデオフレーム内で1人または複数人のVRUを検出する。一例では、コンピュータシステムはシーン内で1人または複数人のVRUを識別し、シーン内のVRUのそれぞれに対して境界ボックスを生成して、検出された1人または複数人のVRUのそれぞれの姿勢を推定する。
630において、コンピュータシステムは、ビデオフレームの1つまたは複数を用いてシーンのセグメンテーションマップを生成する。一例では、コンピュータシステムは、シーンの各セグメントをシーン内の物体の多数のクラスのうちの一つに分類する。一例では、コンピュータシステムは、ニューラルネットワークアーキテクチャを連続するビデオフレームに適用することによってセグメンテーションマップを生成して、連続するビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類する。それぞれのクラスは、セグメンテーションマップ内のあるセグメントに対応する。一実施形態では、セグメンテーションマップはビデオまたは画像の各フレームに対して行われる。
640において、コンピュータシステムは、1人または複数人のVRUの推定される姿勢およびセグメンテーションマップを用いて、1人または複数人のVRUの1つまたは複数の意図の確率を推定する。それぞれの意図の確率は、検出された1人または複数人のVRUのうちの1人に対応しうる。
一例では、コンピュータシステムは、1人または複数人のVRUとセグメンテーションマップ内の物体に対応する1つまたは複数のクラスの間の社会的相互作用を分析することで、1つまたは複数の意図の確率を推定する。
一例では、コンピュータシステムは、まず、マルチタスクモデルを用いて、少なくとも1人または複数人のVRUの推定される姿勢に基づいて1つまたは複数の行動状態を推定し、推定される行動状態を利用して1つまたは複数の意図の確率を推定することで、1つまたは複数の意図の確率を推定する。
一例では、コンピュータシステムは、少なくともVRUの推定される姿勢に基づいて1つまたは複数の行動状態を推定することができる。各行動状態は、検出されたVRUのうちの1人に対応しうる。コンピュータシステムは、ニューラルネットワークアーキテクチャを1人または複数人のVRUのそれぞれの連続した一連の姿勢に適用することで1つまたは複数の行動状態を推定して、複数のあらかじめ定義された行動状態の中からVRUに対してある行動状態を選択することができる。前述したように、あらかじめ定義された行動状態は、歩き方、注意、向かい合っている、横切っている、および同種のものとすることができる。そして、コンピュータシステムは、推定される1つまたは複数の行動状態を用いて1人または複数人のVRUの将来の軌道を推定することができる。
一例では、上述した、検出するステップ、生成するステップ、および推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、1人または複数人のVRUの推定される姿勢および1人または複数人のVRUの対応する行動状態を、1人または複数人VRUのそれぞれの近くの分割されたシーンと順次関連付けることで行われる。
650において、コンピュータシステムは、推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転動作を調整する。例として、自動運転動作は、車両の運転者に対して、車道に入ってこの車両に出くわそうとしているVRUとの迫りくる衝突についての警告を生成することである可能性がある。別の例では、自動運転動作は、車道に入ろうとしている歩行者に衝突するのを回避するために自動走行車または自律走行車の軌道を変更することである可能性がある。別の例では、動作は、自動緊急ブレーキシステムを作動させて歩行者に衝突するのを回避することである可能性がある。任意の他の自動運転動作が本開示の範囲内に含まれうることに留意されたい。一実施形態では、コンピュータシステムは、予測される行動状態および各VRUの車両への近さに基づいて、1人または複数人のVRUの中から少なくとも1人の危険性の高いVRUを選択することができる。そして、コンピュータシステムは、運転者または自動運転システムに危険性の高いVRU(例えば、道路へ飛び出して車両の軌道を横切ろうとしている子供など)の存在について通知することができる。
図7Aおよび図7Bは、本開示の特定の実施形態に係る、2つの例示の画像に対する意図叙述システムの出力の例を示す
図7Aは、活動予測モジュールの出力が付されている例示の画像を示す。図7Aに示されるように、2人の歩行者が車道上、または車道へ向かって歩いている。第1歩行者710は左を向いており、注意散漫な状態で歩いている。この歩行者が車道を通過して車両と出会う確率は0.97である。他の歩行者720はまだ歩道上におり、デバイスを持って左を向いて歩いており、周囲を意識している。この歩行者が次の数個のタイムスタンプ内に道路を横切ることを意図する確率は0.82である。
図7Bは、車両の近くを歩いている別の複数の歩行者の例を示す。この画像では、4人の歩行者が歩く軌道が示されている。そして、これらの軌道は、意図確率推定システムがこれらの歩行者(例えばVRU)のそれぞれが車道を横切る確率を推定するのに使用される。そして、自動システムは、その経路計画システムにおいてこの推定される確率を用いて、事故を防ぐために自身の軌道を推定することができる。
VRU意図検出システムの利点
本明細書で提示されるVRU意図予測システムは、歩行者および他の道路利用者の将来の経路を推定する精度を向上させる。各VRUについての低水準の情報を利用することで、意図予測システムは、VRUのそれぞれが近い将来に車道を横切る、または歩道に留まる意図を予測することができる。自動走行車または自律走行車は、VRU意図予測システムを利用して、市街地の道路を運転している間のその操作の総合的な安全性を向上させることができる。その結果、意図予測システムは、道路を車両と共有するVRUの安全性を向上させる。例として、VRUが道路を横切ろうとしていることを自動走行車または自律走行車が検出した場合、(例えば、VRUが優先権を持っている場合に)VRUに譲るために、自動走行車または自律走行車は、その速度を落とす、および/または停止することができる。VRUが優先権を持っていない(例えば、歩行者の信号が赤である)場合、自動走行車または自律走行車は、(例えば、そのVRUが車道へ足を踏み入れると決めた場合に)将来の事故を防ぐため、シーン内の危険性が高いVRUであると印が付けられたVRUに特別な注意を払いながら、その経路を維持しうる。
本明細書で開示されるVRU意図予測システムは、いくつかの利点を有する。まず、歩行者およびVRUの他のクラスの意図を理解することで、市街地の道路上のどのような自律走行車またはロボットも、人が運転を行ってシーン内のVRUと相互作用する方法に似た、自然主義的な運転行動を実現することができる。加えて、シーン内のVRUの姿勢および3D位置についての低水準の情報を用いて、連続するフレーム内の変化を時間的に関連付けることで、VRU意図予測モデルは、歩き方、意識、注意散漫などの活動の認識において約98パーセントの精度を達成する(注釈付けされたデータで訓練されて評価された場合)。
さらに、マルチタスク学習方法、または教師あり訓練データを用いて訓練することができるディープニューラルネットワークを用いることで、特定の実施形態は、行動、将来の軌道、および意図を予測する作業をずっと少ない(例えば30~40パーセントの)演算・記憶装置要件で達成する。これは、ネットワークが、重み共有と、低水準の特徴、行動、および予測される軌道の相互関連付けと、を活用するからである。これにより、活動の認識、軌道の予測、および意図の予測の質と精度において、著しい改善がもたらされる。
特定の実施形態は、開示されるVRU意図予測方法を魚眼カメラおよび/または360度の視界のコクーンカメラ(cocoon camera)(例えば、車両の前部に1つのカメラ、車両の後部に1つのカメラ、車両の側面に2つのカメラ)からの画像に対して使用して、車両の周囲のVRUに対する360度の検出・予測能力を実現する。開示されるシステムは、前方衝突警告および移動計画に役立つだけでなく、後方運転モード(例えば、駐車場から車を出している間、または後方AEB(自動緊急ブレーキ)の予測範囲を改善するため)にも役立つ。これにより、制御システムは、VRUの将来の状態を予測することで、ずっと早くに制動工程を開始することができる。
さらに、シーンのセグメンテーションマスクを入力として用いて、システムは、物理的な相互作用、及び、VRUの現在の行動とシーンの異なる要素との間の因果関係を考慮することで、VRUの軌道および活動を学習して予測する。例として、提案されているシステムは、シーン内で歩行者または自転車乗りが車や建物を通り抜けることができないことを理解および予測して、そのような要素の周囲の軌道を正確に予測する。加えて、複数の個人またはVRUの集団、及び複数のVRUと、他の物体と、の間のシーン内における社会的な行動の理解が改善される。
本明細書で論じられる方法、システム、およびデバイスは例である。様々な実施形態では様々な手順や構成要素を必要に応じて省略、置換、または追加してもよい。例えば、特定の実施形態に関して記載された特徴を、様々な他の実施形態において組み合わせてもよい。同様に、異なる態様と複数の実施形態の要素を組み合わせてもよい。本明細書で提供される図の様々な構成要素は、ハードウェアおよび/またはソフトウェアで具現化することができる。また、技術は進化するので、要素の多くは、本開示の範囲をそれらの特定の例に制限することのない例である。
いくつかの実施形態を記載したが、様々な変更、代替の構造、および均等物を、本開示の趣旨を逸脱することなく使用することができる。例えば、上記の要素は大型のシステムの構成要素に過ぎないことがあり、他の規則が実施形態の適用より優先されることがある、あるいはそうでなければ、他の規則が実施形態の適用を変更することがある。また、多数のステップが、上記の要素が考慮される前、考慮されている間、または考慮された後に行われることがある。その結果、上記の記述は、本開示の範囲を記載された実施形態そのものに制限しない。

Claims (20)

  1. 1つまたは複数のセンサを含む車両のコンピュータシステムにより、前記車両の外のシーンに対応する連続するビデオフレームを取得することであって、前記連続するビデオフレームは前記1つまたは複数のセンサの少なくとも1つを用いてキャプチャされる、取得することと、
    前記コンピュータシステムにより、前記連続するビデオフレーム内で1人または複数人の交通弱者(VRU)を検出することであって、前記検出された1人または複数人のVRUのそれぞれの姿勢を推定することを含む、検出することと、
    前記コンピュータシステムにより、前記ビデオフレームの1つまたは複数を用いて前記シーンのセグメンテーションマップを生成することと、
    前記コンピュータシステムにより、前記1人または複数人のVRUの推定される姿勢および前記セグメンテーションマップを用いて1つまたは複数の意図の確率を推定することであって、前記意図の確率はそれぞれ前記検出された1人または複数人のVRUのうちの1人に対応する、推定することと、
    前記コンピュータシステムにより、前記推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転動作を調整することと、
    を含む、方法。
  2. 前記コンピュータシステムにより、少なくとも前記1人または複数人のVRUの前記推定される姿勢に基づいて1つまたは複数の行動状態を推定することであって、各行動状態は、前記検出された1人または複数人のVRUのうちの1人に対応する、推定することと、
    前記コンピュータシステムにより、前記推定される1つまたは複数の行動状態を用いて、前記1人または複数人のVRUの将来の軌道を推定することと、
    をさらに含む、請求項1に記載の方法。
  3. 前記検出するステップ、前記生成するステップ、および前記推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、前記1人または複数人のVRUの前記推定される姿勢および前記1人または複数人のVRUの対応する行動状態を、前記1人または複数人のVRUのそれぞれの近くの分割されたシーンと順次関連付けることで行われる、請求項1に記載の方法。
  4. 前記1つまたは複数の意図の確率を推定することは、
    マルチタスクモデルを用いて、少なくとも前記1人または複数人のVRUの前記推定される姿勢に基づいて前記1つまたは複数の行動状態を推定することと、
    前記推定される1つまたは複数の行動状態に基づいて前記1つまたは複数の意図の確率を推定することと、
    を含む、請求項1に記載の方法。
  5. 前記1つまたは複数の行動状態を推定することは、
    ニューラルネットワークアーキテクチャを前記1人または複数人のVRUのそれぞれの連続した一連の姿勢に適用して、複数のあらかじめ定義された行動状態の中から前記VRUのための行動状態を選択すること、
    を含む、請求項4に記載の方法。
  6. 前記セグメンテーションマップを生成することは、
    ニューラルネットワークアーキテクチャを前記ビデオフレームの1つまたは複数に適用して、前記ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類することを含み、それぞれのクラスは、前記セグメンテーションマップ内のあるセグメントに対応する、請求項1に記載の方法。
  7. 前記コンピュータシステムにより、前記予測される行動状態および前記VRUのそれぞれの前記車両への近さに基づいて、前記1人または複数人のVRUの中から少なくとも1人の危険性の高いVRUを選択すること、をさらに含む、請求項1に記載の方法。
  8. 前記コンピュータシステムにより、前記1人または複数人のVRUと前記セグメンテーションマップ内の物体に対応する1つまたは複数のクラスとの間の社会的相互作用を分析することで、前記1つまたは複数の意図の確率を推定すること、をさらに含む、請求項1に記載の方法。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと結合された記憶装置であって、前記少なくとも1つのプロセッサは、
    1つまたは複数のセンサによりキャプチャされる車両の外のシーンに対応する連続するビデオフレームを取得することと、
    前記連続するビデオフレーム内で1人または複数人の交通弱者(VRU)を検出することであって、前記検出された1人または複数人のVRUのそれぞれの姿勢を推定することを含む、検出することと、
    前記ビデオフレームの1つまたは複数を用いて前記シーンのセグメンテーションマップを生成することと、
    前記1人または複数人のVRUの推定される姿勢および前記セグメンテーションマップを用いて1つまたは複数の意図の確率を推定することであって、前記意図の確率はそれぞれ前記検出された1人または複数人のVRUのうちの1人に対応する、推定することと、
    前記推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転動作を調整することと、
    を行うよう構成されている、記憶装置と、
    を含むコンピュータシステム。
  10. 前記少なくとも1つのプロセッサはさらに、
    少なくとも前記1人または複数人のVRUの前記推定される姿勢に基づいて1つまたは複数の行動状態を推定することであって、前記行動状態はそれぞれ前記検出された1人または複数人のVRUのうちの1人に対応する、推定することと、
    前記推定される1つまたは複数の行動状態を用いて、前記1人または複数人のVRUの将来の軌道を推定することと、
    を行うよう構成される、請求項9に記載のコンピュータシステム。
  11. 前記検出するステップ、前記生成するステップ、および前記推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、前記1人または複数人のVRUの前記推定される姿勢および前記VRUの対応する行動状態を前記1人または複数人のVRUのそれぞれの近くの分割されたシーンと順次関連付けることで行われる、請求項9に記載のコンピュータシステム。
  12. 前記少なくとも1つのプロセッサはさらに、
    前記1つまたは複数の意図の確率を、
    マルチタスクモデルを用いて、少なくとも前記1人または複数人のVRUの前記推定される姿勢に基づいて前記1つまたは複数の行動状態を推定し、
    前記推定される1つまたは複数の行動状態に基づいて前記1つまたは複数の意図の確率を推定する、
    ことにより推定するよう構成される、請求項9に記載のコンピュータシステム。
  13. 前記少なくとも1つのプロセッサはさらに、
    ニューラルネットワークアーキテクチャを前記1人または複数人のVRUのそれぞれの連続した一連の姿勢に適用することで前記1つまたは複数の行動状態を推定して、複数のあらかじめ定義された行動状態の中から前記VRUに対してある行動状態を選択する、
    よう構成される、請求項12に記載のコンピュータシステム。
  14. 前記少なくとも1つのプロセッサはさらに、
    ニューラルネットワークアーキテクチャを前記ビデオフレームの1つまたは複数に適用することによって前記セグメンテーションマップを生成して、前記ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類し、それぞれのクラスが前記セグメンテーションマップ内のあるセグメントに対応する、
    よう構成される、請求項9に記載のコンピュータシステム。
  15. 前記少なくとも1つのプロセッサはさらに、
    前記予測される行動状態および前記VRUのそれぞれの前記車両への近さに基づいて、前記1人または複数人のVRUの中から少なくとも1人の危険性の高いVRUを選択する、
    よう構成される、請求項9に記載のコンピュータシステム。
  16. 前記少なくとも1つのプロセッサはさらに、
    前記1人または複数人のVRUと前記セグメンテーションマップ内の物体に対応する1つまたは複数のクラスとの間の社会的相互作用を分析することで、前記1つまたは複数の意図の確率を推定する、
    よう構成される、請求項9に記載のコンピュータシステム。
  17. 車両のコンピュータシステムの1つまたは複数のプロセッサにより実行された場合に前記1つまたは複数のプロセッサに、
    1つまたは複数のセンサを用いてキャプチャされる前記車両の外のシーンに対応する連続するビデオフレームを取得することと、
    前記連続するビデオフレーム内で1人または複数人の交通弱者(VRU)を検出することであって、前記検出された1人または複数人のVRUのそれぞれの姿勢を推定することを含む、検出することと、
    前記ビデオフレームの1つまたは複数を用いて前記シーンのセグメンテーションマップを生成することと、
    前記1人または複数人のVRUの推定される姿勢および前記セグメンテーションマップを用いて1つまたは複数の意図の確率を推定することであって、前記意図の確率はそれぞれ前記検出された1人または複数人のVRUのうちの1人に対応する、推定することと、
    前記推定される1つまたは複数の意図の確率に基づいて1つまたは複数の自動運転動作を調整することと、
    を行わせる命令を記憶する、コンピュータ可読記憶媒体。
  18. 前記命令はさらに、前記1つまたは複数のプロセッサに、
    少なくとも前記1人または複数人のVRUの前記推定される姿勢に基づいて1つまたは複数の行動状態を推定することであって、前記行動状態はそれぞれ前記検出された1人または複数人のVRUのうちの1人に対応する、推定することと、
    前記推定される1つまたは複数の行動状態を用いて、前記1人または複数人のVRUの将来の軌道を推定することと、
    を行わせる、請求項17に記載のコンピュータ可読記憶媒体。
  19. 前記命令はさらに、前記1つまたは複数のプロセッサに、
    マルチタスクモデルを用いて、少なくとも前記1人または複数人のVRUの前記推定される姿勢に基づいて前記1つまたは複数の行動状態を推定することと、
    前記推定される1つまたは複数の行動状態に基づいて前記1つまたは複数の意図の確率を推定することと、
    を行わせる、請求項17に記載のコンピュータ可読記憶媒体。
  20. 前記命令はさらに、前記1つまたは複数のプロセッサに、
    ニューラルネットワークアーキテクチャを前記ビデオフレームの1つまたは複数に適用して、前記ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類し、それぞれのクラスが前記セグメンテーションマップ内のあるセグメントに対応すること、
    を行わせる、請求項17に記載のコンピュータ可読記憶媒体。
JP2022539182A 2019-12-27 2020-12-21 交通弱者の意図を予測する方法および装置 Active JP7480302B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/727,926 US11587329B2 (en) 2019-12-27 2019-12-27 Method and apparatus for predicting intent of vulnerable road users
US16/727,926 2019-12-27
PCT/US2020/066310 WO2021133706A1 (en) 2019-12-27 2020-12-21 Method and apparatus for predicting intent of vulnerable road users

Publications (2)

Publication Number Publication Date
JP2023508986A true JP2023508986A (ja) 2023-03-06
JP7480302B2 JP7480302B2 (ja) 2024-05-09

Family

ID=74191923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022539182A Active JP7480302B2 (ja) 2019-12-27 2020-12-21 交通弱者の意図を予測する方法および装置

Country Status (6)

Country Link
US (1) US11587329B2 (ja)
EP (1) EP4081931A1 (ja)
JP (1) JP7480302B2 (ja)
KR (1) KR20220119720A (ja)
CN (1) CN115039142A (ja)
WO (1) WO2021133706A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11734907B2 (en) * 2020-04-24 2023-08-22 Humanising Autonomy Limited Tracking vulnerable road users across image frames using fingerprints obtained from image analysis
US11783710B2 (en) * 2020-06-24 2023-10-10 Humanising Autonomy Limited Appearance and movement based model for determining risk of micro mobility users
US11682272B2 (en) * 2020-07-07 2023-06-20 Nvidia Corporation Systems and methods for pedestrian crossing risk assessment and directional warning
KR20220039903A (ko) * 2020-09-21 2022-03-30 현대자동차주식회사 자율주행 제어 장치 및 방법
US11724641B2 (en) * 2021-01-26 2023-08-15 Ford Global Technologies, Llc Hazard condition warning for package delivery operation
US20230196817A1 (en) * 2021-12-16 2023-06-22 Adobe Inc. Generating segmentation masks for objects in digital videos using pose tracking data
WO2023152422A1 (en) * 2022-02-11 2023-08-17 Teknologian Tutkimuskeskus Vtt Oy Light-emitting device
DE102022212869B3 (de) 2022-11-30 2024-03-28 Volkswagen Aktiengesellschaft Verfahren zum Betreiben zumindest eines autonom betriebenen Fahrzeugs, Fahrzeugführungssystem, sowie Fahrzeug

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017056382A1 (ja) * 2015-09-29 2017-04-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2019048011A1 (de) * 2017-09-11 2019-03-14 Conti Temic Microelectronic Gmbh Gestensteuerung zur kommunikation mit einem autonomen fahrzeug auf basis einer einfachen 2d kamera
JP2019057247A (ja) * 2017-09-22 2019-04-11 アイシン精機株式会社 画像処理装置及びプログラム
WO2019116099A1 (en) * 2017-12-13 2019-06-20 Humanising Autonomy Limited Systems and methods for predicting pedestrian intent
JP2019109691A (ja) * 2017-12-18 2019-07-04 日立オートモティブシステムズ株式会社 移動体挙動予測装置および移動体挙動予測方法
CN110135304A (zh) * 2019-04-30 2019-08-16 北京地平线机器人技术研发有限公司 人体位姿识别方法及装置
US20190279010A1 (en) * 2018-03-09 2019-09-12 Baidu Online Network Technology (Beijing) Co., Ltd . Method, system and terminal for identity authentication, and computer readable storage medium

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170329332A1 (en) 2016-05-10 2017-11-16 Uber Technologies, Inc. Control system to adjust operation of an autonomous vehicle based on a probability of interference by a dynamic object
US9760806B1 (en) 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
US20180096595A1 (en) 2016-10-04 2018-04-05 Street Simplified, LLC Traffic Control Systems and Methods
KR101958868B1 (ko) 2017-02-23 2019-07-02 계명대학교 산학협력단 야간 주행 자동차를 위한 보행자 의도 예측 시스템 및 이를 이용한 방법
GB2560387B (en) 2017-03-10 2022-03-09 Standard Cognition Corp Action identification using neural networks
US10635116B2 (en) * 2017-10-19 2020-04-28 Ford Global Technologies, Llc Video calibration with illumination invariant image
US10733431B2 (en) * 2017-12-03 2020-08-04 Facebook, Inc. Systems and methods for optimizing pose estimation
DE102018104270A1 (de) 2018-02-26 2019-08-29 Connaught Electronics Ltd. Verfahren zum Vorhersagen des Verhaltens mindestens eines Fußgängers
US11257370B2 (en) 2018-03-19 2022-02-22 Derq Inc. Early warning and collision avoidance
US10824155B2 (en) 2018-08-22 2020-11-03 Ford Global Technologies, Llc Predicting movement intent of objects
US11816914B2 (en) * 2019-09-05 2023-11-14 Humanising Autonomy Limited Modular predictions for complex human behaviors
US11427210B2 (en) * 2019-09-13 2022-08-30 Toyota Research Institute, Inc. Systems and methods for predicting the trajectory of an object with the aid of a location-specific latent map
US11345342B2 (en) * 2019-09-27 2022-05-31 Intel Corporation Potential collision warning system based on road user intent prediction
US11205082B2 (en) * 2019-10-08 2021-12-21 Toyota Research Institute, Inc. Spatiotemporal relationship reasoning for pedestrian intent prediction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017056382A1 (ja) * 2015-09-29 2017-04-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2019048011A1 (de) * 2017-09-11 2019-03-14 Conti Temic Microelectronic Gmbh Gestensteuerung zur kommunikation mit einem autonomen fahrzeug auf basis einer einfachen 2d kamera
JP2019057247A (ja) * 2017-09-22 2019-04-11 アイシン精機株式会社 画像処理装置及びプログラム
WO2019116099A1 (en) * 2017-12-13 2019-06-20 Humanising Autonomy Limited Systems and methods for predicting pedestrian intent
JP2019109691A (ja) * 2017-12-18 2019-07-04 日立オートモティブシステムズ株式会社 移動体挙動予測装置および移動体挙動予測方法
US20190279010A1 (en) * 2018-03-09 2019-09-12 Baidu Online Network Technology (Beijing) Co., Ltd . Method, system and terminal for identity authentication, and computer readable storage medium
CN110135304A (zh) * 2019-04-30 2019-08-16 北京地平线机器人技术研发有限公司 人体位姿识别方法及装置

Also Published As

Publication number Publication date
KR20220119720A (ko) 2022-08-30
WO2021133706A9 (en) 2021-08-12
EP4081931A1 (en) 2022-11-02
JP7480302B2 (ja) 2024-05-09
US11587329B2 (en) 2023-02-21
US20210201052A1 (en) 2021-07-01
WO2021133706A1 (en) 2021-07-01
CN115039142A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
JP7480302B2 (ja) 交通弱者の意図を予測する方法および装置
JP7462665B2 (ja) 外観に基づく動きの予測
US10372130B1 (en) Communicating reasons for vehicle actions
JP6833936B2 (ja) 自己中心映像に基づく将来の車両位置特定のためのシステム及び方法
US20210339741A1 (en) Constraining vehicle operation based on uncertainty in perception and/or prediction
US11427210B2 (en) Systems and methods for predicting the trajectory of an object with the aid of a location-specific latent map
US20190346844A1 (en) System and method for learning and executing naturalistic driving behavior
CN113128326A (zh) 具有语义地图和lstm的车辆轨迹预测模型
US20240010241A1 (en) Systems and Methods for Generating Motion Forecast Data for a Plurality of Actors with Respect to an Autonomous Vehicle
US11180156B2 (en) Fault coordination and management
CN112368753A (zh) 交互式外部运载工具-用户通信
JP7072030B2 (ja) アクション事前分布を使用して将来予測するためのシステム及び方法
JP2021136021A (ja) 運転者中心危険評価:意図認識運転モデルを用いた因果推論を介する危険物体識別
US11789456B2 (en) Object or person attribute characterization
US20210325880A1 (en) Collaborative vehicle guidance
US11584389B2 (en) Teleoperations for collaborative vehicle guidance
US11535270B2 (en) Fault coordination and management
US11710352B1 (en) Machine-learned model training for pedestrian attribute and gesture detection
CN112977473A (zh) 用于预测移动障碍物驶出十字路口的方法及系统
CN112977472A (zh) 预测车辆的移动轨迹的方法及系统
CN113557524A (zh) 用于表示移动平台环境的方法
CN116674593A (zh) 用于自主车辆的具有异常检测的安全增强规划系统
JP2023522844A (ja) 協調的車両ガイダンスのための遠隔操作
US11663913B2 (en) Neural network with lane aggregation for lane selection prediction of moving objects during autonomous driving
Siboo et al. An Empirical Study of DDPG and PPO-Based Reinforcement Learning Algorithms for Autonomous Driving

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240424

R150 Certificate of patent or registration of utility model

Ref document number: 7480302

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150