JP2023552105A - 人間行動のオクルージョン対応予測 - Google Patents
人間行動のオクルージョン対応予測 Download PDFInfo
- Publication number
- JP2023552105A JP2023552105A JP2023530925A JP2023530925A JP2023552105A JP 2023552105 A JP2023552105 A JP 2023552105A JP 2023530925 A JP2023530925 A JP 2023530925A JP 2023530925 A JP2023530925 A JP 2023530925A JP 2023552105 A JP2023552105 A JP 2023552105A
- Authority
- JP
- Japan
- Prior art keywords
- occlusion
- model
- person
- parameters
- given frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims description 10
- 230000006399 behavior Effects 0.000 claims abstract description 104
- 238000004458 analytical method Methods 0.000 claims abstract description 101
- 230000003542 behavioural effect Effects 0.000 claims abstract description 31
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims 2
- 238000013178 mathematical model Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 description 28
- 238000012549 training Methods 0.000 description 16
- 230000033001 locomotion Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000903 blocking effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000004313 glare Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000010415 Low Vision Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000036626 alertness Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000004303 low vision Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
オクルージョン解析システムは、数学モデルに情報を提供してより正確な予測を生成できるオクルージョンパラメータを生成することによって、行動予測モデルの精度を改善する。オクルージョン解析システムは、人物の遮られ方、オクルージョン割合、オクルージョンタイプなどのオクルージョンパラメータを生成するためのモデルを訓練し適用する。行動予測システムは、オクルージョンパラメータ、ならびに人間の活動に関連する他のパラメータを行動予測のための第2の数学モデルに入力することができる。第2の機械学習モデルは、人間が将来の行動を示すであろうとの予測と、その予測に関連付けられた信頼水準とを出力するように訓練されたより高レベルなモデルである。信頼水準は、オクルージョンパラメータに基づいて少なくとも部分的に決定される。行動予測システムは、車両に関連付けられたコマンドを生成する制御システムおよび他の知的ビデオ解析システムに、予測および信頼水準を出力することができる。
Description
本発明は、人間行動のオクルージョン対応予測に関する。
関連出願の相互参照
本出願は、参照により組み込まれる2020年12月11日出願の米国特許仮出願第63/124,326号明細書「Occlusion-Aware Prediction of Human Behavior」の優先権の利益を主張するものである。
本出願は、参照により組み込まれる2020年12月11日出願の米国特許仮出願第63/124,326号明細書「Occlusion-Aware Prediction of Human Behavior」の優先権の利益を主張するものである。
コンピュータビジョンベースの技術を使用して人間行動に関する予測を行う場合、よくある問題は、人間がしばしばカメラから環境内の他の物体や他の人の後ろに一時的に隠されるために、ビデオフレーム内の人間が遮られ得ることである。行動の機械学習解析を推進するために使用されるキーポイントが、モデルに入力された画像中で視認できないので、オクルージョンが、近い将来に人物がどんな行動を示しそうであるかを理解する際の難題となる。さらに、人物が完全に遮られている場合には、遮られたキーポイントに追跡が依拠し得るので、人がオクルージョンから再び現れたときにその人が同一人物であるかどうかを決定する際に難題が生じる。既存のシステムを使用する場合、オクルージョンはしばしば不適切な仮定をもたらし、その仮定が不適切な予測につながる。たとえば、人物が壁の後ろにいてその脚が遮られている場合、既存のシステムでは、その人物が実際には動いているのに動いていないと仮定したり、オクルージョンが取り除かれたときにその人物が別人であると仮定したりし得る。
人間行動を予測するためのオクルージョン解析システムに関するシステムおよび方法が本明細書で開示される。オクルージョン解析システムは、入力画像またはビデオストリームを受信し、収集されたデータを使用して機械学習モデルを訓練および適用することにより、オクルージョンについての様々なメトリクスを決定する。オクルージョン解析システムでは、訓練データセットを使用して機械学習モデル(たとえば、オクルージョン検出モジュール)を訓練することができ、このデータセットは入力を、画像を特徴付ける1つまたは複数のラベルと一緒に含み得る。一実施形態では、オクルージョン解析システムは、追加のオクルージョン情報に基づいて行動予測システムの出力を調整することができる。入力には、人物の生のビデオ映像またはクロップされたビデオ映像からなどの画像が含まれ得る。(人物は例示的なものであり、動物および人間以外を含む交通弱者であることもある。)オクルージョン解析システムでは、人物の遮られ方、オクルージョンのレベル(たとえば、割合)、オクルージョンのタイプなどの、オクルージョンについての情報(たとえば、オクルージョンパラメータ)を含む出力を生成することができる。オクルージョンのタイプは、たとえば、歩行者が別の歩行者を遮っているもの、水平オクルージョン、垂直オクルージョン、透過オクルージョン(たとえば、網状フェンスが人間の一部を隠しているが人間は概して透けて見える)などを含み得る。モデルは、画像を取り入れ(たとえば、任意選択で他の補助情報と一緒に)、オクルージョンについての理解をその後にもたらすことができるデータを検出メトリクスと一緒に出力することができる。オクルージョン解析システムからの生成された出力は、行動予測のための信頼水準を決定したり、行動予測モデルのための追加情報をもたらすために、行動予測システムに渡される。
開示されたシステムおよび方法は、いくつかの有利な技法的特徴を提供する。たとえば、開示されたシステムおよび方法は、オクルージョン情報を組み込んで個々のモデルに情報を与えることによって行動予測モデルの精度を改善し、オクルージョン解析システムからの結果は、動きモデルに情報を与えてより正確な追跡を生み出し、動き予測を改善することができる。人物が部分的または全体的に遮られていることを表す情報を出力することに加えて、オクルージョン解析システムはまた、その人物がどのように遮られているかの表示を出力することもでき、これによって行動予測モデルは、検出の確実性と、その検出に依拠するさらなるモデルとを決定し得る。
たとえば、人物が歩いているかどうかを決定しようとするに際して、人物の脚が生け垣で遮られている場合に、その人物が歩いているかどうかを決定するロコモーションモデルは、信頼水準のオクルージョンモデルの出力に基づいて認識し、オクルージョン情報が入力として画像/ビデオに加えて使用されていることを考えると、その推定を行うのに限られたデータに依拠しているということを認識することになる。そのような情報をロコモーションモデルに提供すると、その精度が向上し(たとえば、それが、予測を推進するのに十分な情報を有する他のモデル出力にアクセスできるという点で)、よりいっそう説明可能なモデルを許容し、このことは機能的安全性およびエッジケース検出には重要である。
さらに、開示されたシステムおよび方法は、人物の部分的オクルージョン画像(occluded image)に基づいて完全なバウンディングボックスを予測することができる。予測された完全なバウンディングボックスは、距離推定にさらに使用されてもよく、この距離推定は、バウンディングボックス補正によって改善され、オクルージョン理解をもたらす。訓練に関して、オクルージョン解析システムは、訓練データを生成するための追加のオクルージョン情報を提供する。オクルージョン情報を含むラベル付き訓練セットは、行動予測モデルをより堅牢にする。これは、訓練データセットが、モデルを、写真のように完璧に視認できる人に対してではなく、多くのオクルージョンを有するモデルが置かれる実世界の環境に対してより適切にするからである。さらには、オクルージョン解析システムは、集団行動に基づいて歩行者の行動を決定すること、人間行動の物理的制限を決定すること(たとえば、柵の後ろを歩いている人物)、および以下の説明で論じられるさらに多くのものなどの、人間行動を理解するためのさらなる洞察を提供する。
図は、本発明の様々な実施形態を例示のためだけに示している。当業者には、本明細書に記載された本発明の原理から逸脱することなく、本明細書に例示された構造および方法の代替実施形態が使われてよいことが以下の議論から容易に理解されよう。
システム概要
図1は、1つの実施形態による、オクルージョン解析システムのための例示的なシステム環境を示す。環境100は、カメラ110、ネットワーク120、オクルージョン解析システム130、および行動予測システム140を含む。カメラ110は、周囲の画像を取り込み、またはビデオストリームを記録し、ネットワーク120を介してデータをオクルージョン解析システム130および行動予測システム140へ送信する。カメラ110は通常、自動運転車両または半自動運転車両などの車両に動作可能に結合される。いくつかの実施形態では、カメラ110は、スマートフォン、拡張現実機器、車載カメラ、路側カメラ、ドアベル、監視カメラなどの、インフラストラクチャおよび他の応用例と結合され得る。カメラ110はまた、画像を取り込むことができる任意のインフラストラクチャまたは応用例であってもよい。インフラストラクチャまたは非車両用途のカメラ110からの情報は、車両に結合されているカメラからの入力と組み合わせた入力として使用されてよい。本明細書で使用される、動作可能に結合されているという表現は、車両に直接または間接的に取り付けられていること、および/または車両のコンピュータと通信していることを指すことがある。たとえば、カメラ110は、車両に装着されていてよく、環境の画像および/またはビデオストリームを取り込むことによって、車両が周囲を認識できるようにすることができる。車両は、自動車(すなわち、任意の動力四輪車両または動力二輪車両)であってよい。カメラ110は、車両に組み込まれていてもよいし、独立型(たとえば、専用カメラ)または一体化デバイス(たとえば、車両に装着されたスマートフォンまたは車載カメラなどのクライアントデバイス)であってもよい。1つのカメラ110だけが図示されているが、任意の数のカメラが車両に動作可能に結合されてもよいし、独立して動作しても(たとえば、ビデオ/画像が互いに関係なく処理される)、協調して動作してもよい(たとえば、ビデオ/画像が互いに同期して取り込まれてもよいし、つなぎ合わされてより広い視像が取り込まれてもよい)。
図1は、1つの実施形態による、オクルージョン解析システムのための例示的なシステム環境を示す。環境100は、カメラ110、ネットワーク120、オクルージョン解析システム130、および行動予測システム140を含む。カメラ110は、周囲の画像を取り込み、またはビデオストリームを記録し、ネットワーク120を介してデータをオクルージョン解析システム130および行動予測システム140へ送信する。カメラ110は通常、自動運転車両または半自動運転車両などの車両に動作可能に結合される。いくつかの実施形態では、カメラ110は、スマートフォン、拡張現実機器、車載カメラ、路側カメラ、ドアベル、監視カメラなどの、インフラストラクチャおよび他の応用例と結合され得る。カメラ110はまた、画像を取り込むことができる任意のインフラストラクチャまたは応用例であってもよい。インフラストラクチャまたは非車両用途のカメラ110からの情報は、車両に結合されているカメラからの入力と組み合わせた入力として使用されてよい。本明細書で使用される、動作可能に結合されているという表現は、車両に直接または間接的に取り付けられていること、および/または車両のコンピュータと通信していることを指すことがある。たとえば、カメラ110は、車両に装着されていてよく、環境の画像および/またはビデオストリームを取り込むことによって、車両が周囲を認識できるようにすることができる。車両は、自動車(すなわち、任意の動力四輪車両または動力二輪車両)であってよい。カメラ110は、車両に組み込まれていてもよいし、独立型(たとえば、専用カメラ)または一体化デバイス(たとえば、車両に装着されたスマートフォンまたは車載カメラなどのクライアントデバイス)であってもよい。1つのカメラ110だけが図示されているが、任意の数のカメラが車両に動作可能に結合されてもよいし、独立して動作しても(たとえば、ビデオ/画像が互いに関係なく処理される)、協調して動作してもよい(たとえば、ビデオ/画像が互いに同期して取り込まれてもよいし、つなぎ合わされてより広い視像が取り込まれてもよい)。
ネットワーク120は、インターネットなどの任意のデータネットワークであってよい。いくつかの実施形態では、ネットワーク120は、カメラ110とのローカルデータ接続であってもよい。1つの実施形態では、ネットワーク120は、環境100の他の要素が通信するための通信チャネルを提供する。ネットワーク120は、有線通信システムおよび/または無線通信システムの両方を使用して、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含むことができる。1つの実施形態では、ネットワーク120は、標準的な通信技術および/またはプロトコルを使用する。たとえば、ネットワーク120は、Ethernet(登録商標)、802.11、WiMAX(Worldwide Interoperability for Microwave Access)、3G、4G、5G、CDMA(Code Division Multiple Access)、DSL(Digital Subscriber line)などの技術を使用する、通信リンクを含むことができる。ネットワーク120を介して通信するために使用されるネットワークプロトコルの例には、MPLS(Multiprotocol label Switching)、TCP/IP(Transmission control Protocol/Internet Protocol)、HTTP(Hypertext Transport Protocol)、SMTP(Simple Mail Transfer Protocol)、およびFTP(File Transfer Protocol)が含まれる。ネットワーク120を介して交換されるデータは、HTML(Hypertext Markup language)またはXML(Extensible Markup language)などの、任意の適切なフォーマットを使用して表現されてよい。いくつかの実施形態では、ネットワーク120の通信リンクの全部または一部は、任意の適切な1つまたは複数の技法を使用して暗号化され得る。
1つの実施形態では、ネットワーク120は、インターネットベースの接続ではなく他の接続手段であってもよい。ネットワーク120は、カメラと一緒に搭載されたGPU(Graphics Processing Unit)、マイクロチップ、または任意の処理ユニットであってもよい。GPUまたはマイクロチップは、カメラ110によって収集されたデータを入力として取得し、その収集されたデータをさらなる解析のためにオクルージョン解析システム130および行動予測システム140に供給することができる。オクルージョン解析システム130および行動予測システム140は、クラウドに存在しても、カメラ110に接続されたGPU/マイクロチップに存在してもよい。
行動予測システム140は、周囲から収集されたデータに基づいて人間行動を予測する。行動予測システム140は、人物が行動を示す(たとえば、現在の経路を進み続ける(たとえば、自動運転車両を制御することに関連して、注意散漫になる、街路を横切るつもりである、実際に街路を横切る、車両に気付くなどの)確率を決定する。ある実施形態では、行動予測システム130は、道路上の車両のカメラから撮影された画像などの、人物を描写する画像を受信する。行動予測システム130は、画像の少なくとも一部分(または画像から抽出された特徴ベクトル)をモデル(たとえば、数学モデル、機械学習モデル、または統計モデル)に入力し、モデルからの出力として、人物を記述する複数の確率を受信する。確率のそれぞれは、その人物が所与の状態にある確率に対応している。行動予測システム130は、複数の確率の少なくともいくつかに基づいて、人物が行動を示す(たとえば、現在の経路を進み続ける)確率を決定し、人物がその行動を示す確率を制御システムに出力する。全体が参照により本明細書に組み込まれる2020年4月24日に出願された「Tracking Vulnerable Road Users Across Image Frames Using Fingerprints Obtained from Image Analysis」という名称の、本出願の権利者が所有する特許文献1の開示は、別々のブランチがそれぞれ訓練されて人物についての予測を形成するマルチタスモデルに関してさらなる情報を開示している。別々の分類を行動予測に組み合わせることに関するさらなる情報が、2020年9月3日に出願された「Modular Predictions for Complex Human Behaviors」という名称の特許文献2で論じられており、同出願の開示内容は、全体が参照により本明細書に組み込まれる。
行動予測システム140は、予測の確実性のレベルを決定するために、オクルージョン解析システム130から出力を取り入れることができる。より高レベルな人間行動が、複数のモデルを一緒に組み合わせるモジュール手法によって推論される場合、そのような基礎をなすモデルの確実性について理解することが精度を向上させ、そのような予測に対してより正確な不確定値を許容する。信頼スコアおよび不確定値、ならびに様々なより低レベルなモデルおよびより高レベルなモデルは、本出願の権利者が所有する2020年9月3日出願の特許文献2にさらに詳細に記載されており、同出願の開示内容は、その全体が参照により本明細書に組み込まれ、同出願の開示内容は本明細書に援用されている。部分的または完全に遮られているVRUを追跡する方法は、さらに詳細に、本出願の権利者が所有する2020年4月24日出願の特許文献1に記載されており、同出願の開示内容は、その全体が参照により本明細書に組み込まれ、同出願の開示内容は本明細書に援用されている。ある実施形態では、モデルは、特許文献1に記載の追跡モデルから入力を受信して、オクルージョンについての情報を特定することができる。たとえば、追跡モデルを使用して決定されるときに、2つのバウンディングボックス検出が互いに重なる場合、システムは、一方の人物が他方を遮っている可能性を特定する。したがって、追跡モデル出力が本明細書に記載の1つまたは複数のモデルに入力されて、さらなるオクルージョンを決定するとともに、これらのオクルージョンがどのようにして、なぜ発生しているかを決定することができる。
行動予測システム140は、予測スコアおよび/または信頼スコアを生成し、その結果を制御システムに出力することができ、制御システムは、それに基づいてコマンドを出力することができる。コマンドは、措置(たとえば、車両を停止させる、クラクションを鳴らす、ハンドルを切る、速度を落とすなど)を講ずるように命令を車両制御システムへ送信することを含み得る。コマンドは、その後の解析のために情報をデータベースに記憶することを含み得る。コマンドは、(たとえば、車両のダッシュボードに装着されたディスプレイを介して)車両オペレータにメッセージを出力することを含み得る。コマンドは、(たとえば、特定のデータを強調するために車載カメラの)ビデオフィードを増強することを含み得る。コマンドは、記録されたビデオフィードのデータに注釈を付けることを含み得る。コマンドは、ロボット(たとえば、倉庫内の作業ロボット)に対して、環境を考慮した動きのための命令を送信することを含み得る。コマンドは、自動車、有軌道車両、船舶、水陸両用車、および航空機などの作業用車両へ命令を送信することを含み得る。コマンドは、環境設定(たとえば、照明およびまぶしさ)を調整するように作業員に指示を送信することを含み得る。
オクルージョン解析システム
オクルージョン解析システム130は、行動予測システム140が人間行動を予測する際にオクルージョン情報を活用できるようにする出力オクルージョンパラメータを生成するための数学モデル(たとえば、機械学習モデルまたは統計モデル)を学習し適用する。1つの実施形態では、オクルージョン解析システム130は、行動予測システム140のサブモデル(たとえば、検出モデル、ポーズ推定モデル、視線推定モデル、追跡モデルなど)と並列に動作する。いくつかの実施形態では、オクルージョン解析システム130は、サブモデルに埋め込まれる。オクルージョン解析システム130は、画像、または交通弱者(VRU)の生のビデオ映像またはクロップされたビデオ映像からなどの一連の画像を含む、訓練データを使用することができる。画像は一連のフレームであってよく、フレームのうちの少なくとも1つは、部分的または全体的に遮られている人物を含む。オクルージョン解析システム130は、人物の遮られ方、オクルージョンのレベル(たとえば、割合)、オクルージョンのタイプなどの、オクルージョンについての情報を含むオクルージョンパラメータを生成することができる。オクルージョンのタイプには、たとえば、歩行者が別の歩行者を遮っているもの、水平オクルージョン、垂直オクルージョン、透過オクルージョン(たとえば、網状フェンスが人間の一部を隠しているが人間は概して透けて見える)などが含まれ得る。例示的な人物の遮られ方には、遮られる体の一部分(たとえば、人間がパーカを着ている場合は後頭部および周辺部、人間が電話を自分の耳に持ってきている場合は耳、視力障害者眼鏡が検出された場合は目など)が含まれ得る。訓練データは、人物分類器(human classifier)によってラベル付けされてもよく、この場合、人物分類器は、各画像(または画像内の各人物)にオクルージョンの表示をラベル付けすることができる。人物分類器はまた、遮られた人物をバウンディングボックス(または円、多角形など)で囲むことによって、訓練データをラベル付けすることもできる。訓練データはまた、オクルージョンのタイプおよびオクルージョンの態様などの、他のオクルージョン情報がラベル付けされてもよい。1つの実施形態では、いくつかのオクルージョンが、行動についてよりよく理解するために、オクルージョンを引き起こす物体がラベル付けされる。たとえば、片脚が遮られている人物の側面視像は、その人物がオートバイに乗っていることを示し、片脚が遮られている人物の正面視像は、その人物が電動スクータに乗っていることを示し得る。次に、ラベル付けされたデータセットは、オクルージョンパラメータを出力する1つまたは複数の機械学習モデルを訓練するために使用される。
オクルージョン解析システム130は、行動予測システム140が人間行動を予測する際にオクルージョン情報を活用できるようにする出力オクルージョンパラメータを生成するための数学モデル(たとえば、機械学習モデルまたは統計モデル)を学習し適用する。1つの実施形態では、オクルージョン解析システム130は、行動予測システム140のサブモデル(たとえば、検出モデル、ポーズ推定モデル、視線推定モデル、追跡モデルなど)と並列に動作する。いくつかの実施形態では、オクルージョン解析システム130は、サブモデルに埋め込まれる。オクルージョン解析システム130は、画像、または交通弱者(VRU)の生のビデオ映像またはクロップされたビデオ映像からなどの一連の画像を含む、訓練データを使用することができる。画像は一連のフレームであってよく、フレームのうちの少なくとも1つは、部分的または全体的に遮られている人物を含む。オクルージョン解析システム130は、人物の遮られ方、オクルージョンのレベル(たとえば、割合)、オクルージョンのタイプなどの、オクルージョンについての情報を含むオクルージョンパラメータを生成することができる。オクルージョンのタイプには、たとえば、歩行者が別の歩行者を遮っているもの、水平オクルージョン、垂直オクルージョン、透過オクルージョン(たとえば、網状フェンスが人間の一部を隠しているが人間は概して透けて見える)などが含まれ得る。例示的な人物の遮られ方には、遮られる体の一部分(たとえば、人間がパーカを着ている場合は後頭部および周辺部、人間が電話を自分の耳に持ってきている場合は耳、視力障害者眼鏡が検出された場合は目など)が含まれ得る。訓練データは、人物分類器(human classifier)によってラベル付けされてもよく、この場合、人物分類器は、各画像(または画像内の各人物)にオクルージョンの表示をラベル付けすることができる。人物分類器はまた、遮られた人物をバウンディングボックス(または円、多角形など)で囲むことによって、訓練データをラベル付けすることもできる。訓練データはまた、オクルージョンのタイプおよびオクルージョンの態様などの、他のオクルージョン情報がラベル付けされてもよい。1つの実施形態では、いくつかのオクルージョンが、行動についてよりよく理解するために、オクルージョンを引き起こす物体がラベル付けされる。たとえば、片脚が遮られている人物の側面視像は、その人物がオートバイに乗っていることを示し、片脚が遮られている人物の正面視像は、その人物が電動スクータに乗っていることを示し得る。次に、ラベル付けされたデータセットは、オクルージョンパラメータを出力する1つまたは複数の機械学習モデルを訓練するために使用される。
オクルージョン解析システム130は、ラベル付きデータセットを使用するオクルージョン解析のために、1つまたは複数のモデル(たとえば、機械学習モデルおよび/または統計的/数学モデル)を訓練することができる。機械学習モデルが訓練された後、オクルージョン解析システム130は、画像を取り入れ(たとえば、任意選択で他の補助情報と一緒に)、訓練済み機械学習モデルを使用して、オクルージョンについての理解を次にもたらすことができるオクルージョンパラメータを検出メトリクスと一緒に出力することができる。このオクルージョンパラメータは行動予測システム140に渡されて、さらなる洞察が人間行動にもたらされ得る。これにより、モデルは、検出の確実性と、その検出に依拠するさらなるモデルとを決定することを許容する。オクルージョン解析システム130については、図2に従ってより詳細に論じられ、オクルージョン解析システム130からの出力が行動予測のためにどのように使用され得るかについては、図6に従ってより詳細に論じられる。
図2は、1つの実施形態による、オクルージョン解析システム130の例示的なモジュールを示す。オクルージョン解析システム130は、オクルージョンに関連付けられたパラメータを検出および決定するオクルージョン検出モジュール210と、オクルージョン画像に基づいてバウンディングボックス全体を予測するバウンディングボックス予測モジュール220と、水平オクルージョンを検出する水平オクルージョン解析モジュール230と、垂直オクルージョンを検出する垂直オクルージョン解析モジュール240と、透過オクルージョンを検出する透過オクルージョン解析モジュール250と、歩行者オクルージョンに基づいて集団行動を検出する集団行動解析モジュール260と、他のタイプのオクルージョンを検出する追加オクルージョン解析モジュール270とを含み得る。
オクルージョン検出モジュール210は、オクルージョンに関連付けられたパラメータを検出し決定する。オクルージョン検出モジュール210は、ラベル付きデータを用いて訓練された機械学習モデルに基づいて、オクルージョンが画像中に存在するかどうかを決定することができる。決定は、二値でも数値でもよい。二値決定では、オクルージョン検出モジュール210は、人物が遮られているか否かを出力する。数値決定では、オクルージョン検出モジュール210は、遮られている人物の分量および/または領域(たとえば、画像内の領域)の割合などの表現を決定してもよい。オクルージョン検出モジュール210はまた、オクルージョンの方向およびオクルージョンの度合いを検出することもでき、これについては、図3A~図3Cに従ってさらに詳細に説明され論じられる。
図3A~図3Cは、異なるオクルージョン方向の例示的な実施形態を示す。図3Aは、人物の上半身または下半身が遮られている水平オクルージョンを示す。図3Aに示された例では、人物の脚が壁によって遮られており、これは、行動予測システム140の不確定性をもたらし得る。図3Bは、人物が完全に遮られ、ある期間フレームから消え、再び現れ得る垂直オクルージョンを示す。オクルージョン検出モジュール210は、オクルージョンの方向などの追加のオクルージョンパラメータをさらに決定することができる。図3Cは、オクルージョン検出モジュール210が、オクルージョンの方向および/または位置を示すベクトル310と、オクルージョンの方向の角度320とを決定する1つの例示的な実施形態を示す。オクルージョン検出モジュール210から出力された、オクルージョンの表示、オクルージョンの割合、角度および方向などのパラメータは、行動予測システム140に渡されてよい。オクルージョン検出モジュール210からの結果は、以下で論じられるモジュールにおけるさらなるオクルージョン解析のために使用され得る。
図2に戻って参照すると、バウンディングボックス予測モジュール220は、オクルージョン画像に基づいてバウンディングボックス全体を予測する。1つの実施形態では、バウンディングボックス予測モジュール220は、入力としてオクルージョン検出モジュール210からのパラメータおよび他の情報を取り入れ、遮られた人物の完全なバウンディングボックスを予測することができる。バウンディングボックス予測モジュール220は、オクルージョンの割合および方向を使用して、完全なバウンディングボックスを予測するための拡張する方向とどのくらいの割合拡張するかを知らせることができる。完全なバウンディングボックス予測に関するさらなる詳細は、図4A~図4Dに示されている。
図4A~図4Dは、1つの実施形態による、オクルージョン画像に基づいて完全なバウンディングボックスを予測する例示的な実施形態を示す。図4Aは、オクルージョンがある画像におけるバウンディングボックス検出を示す。人物が遮られているので、決定されたバウンディングボックス410は、人物の一部分だけを囲む。オクルージョン検出モジュール210は、人物の40%が遮られていること、およびオクルージョンが水平であることを決定することができる。バウンディングボックス予測モジュール220は、この情報を使用して、一部を切り取られたバウンディングボックス410の拡張する割合を決定するとともに、人物全体を囲むと想定される完全なバウンディングボックス420(図4Bに図示されるように)を生成することができる。1つの実施形態では、バウンディングボックス予測モジュール220はまた、ポーズ予測に基づいて完全なバウンディングボックスを生成することもできる。たとえば、図4Cに示されるように、上半身のポーズは、上半身のポーズジョイントに基づいて特定される。ポーズ特定は、線で接続された黒いドットで図4Cに示されるように、人物の頭部、体幹、および四肢の位置を含み得る。バウンディングボックス410で特定されたポーズに基づいて、図4Dに示されたような全身ポーズが行動予測システム140によって予測される。バウンディングボックス予測モジュール220は、この全身ポーズ予測に基づいて完全なバウンディングボックス420を予測することができる。
図2についての議論を続けると、水平オクルージョン解析モジュール230は、人間の水平部分(たとえば、脚)が壁や車などの物体によって遮られている場合に、水平オクルージョンを検出することができる。1つの実施形態では、水平オクルージョン解析モジュール230は、上部ボックスおよび下部ボックスなどの独立した追跡バウンディングボックスを使用して人間を追跡することによって、水平オクルージョンを検出することができる。下部ではなく上部追跡ボックスの動きの変化(またはその逆)を検出することに応じて、水平オクルージョン解析モジュール230は、上部追跡ボックスおよび下部追跡ボックスの動きパターンの相対的変化に基づいて、人物が部分的に遮られていることを検出することができる。たとえば、水平オクルージョン解析モジュール230は、上半身を追跡するための上部バウンディングボックス、および下半身を追跡するための下部バウンディングボックスなどの、動いている人物を追跡するための2つの(またはそれより多い)独立したバウンディングボックスを使用することができ、その2つのバウンディングボックスは、初期検出において互いに垂直に整列する。ある時点で、水平オクルージョン解析モジュール230は、上部バウンディングボックスが一定の速度で移動しているが下部バウンディングボックスは異なる速度で移動していることを検出し得る。2つのバウンディングボックス間の相対的な動きの差違を検出することに応じて、水平オクルージョン解析モジュール230は、その人物が遮られていると決定することができる。1つの実施形態では、遮られた人物の画像が抽出されることがあり、遮られた人物に対するさらなる解析が、オクルージョン検出モジュール210およびバウンディングボックス予測モジュール220によって実施され得る。1つの実施形態では、水平オクルージョン解析モジュール230は、オクルージョンが発生するフレームの前または後のフレームを特定し、その特定されたフレームを行動予測のために行動予測システム140へ送信することができる。
1つの実施形態では、水平オクルージョン解析モジュール230は、バウンディングボックスの縁部の位置を追跡することによって水平オクルージョンを検出し、経時的な相対的変化を比較することができる。水平オクルージョン解析モジュール230は、バウンディングボックスの上縁部の位置と下縁部の位置を別々に追跡することができる。水平オクルージョン解析モジュール230は、これらの位置を比較し、上部オクルージョンまたは下部オクルージョンが発生したかどうかを決定することができる。たとえば、下縁部が(カメラに対して)右側の方へ一定の速度で移動しているが、上縁部はそのような速度で移動していないことを検出することに応じて、水平オクルージョン解析モジュール230は、人間が上部で部分的に遮られていると決定することができる。1つの実施形態では、水平オクルージョン解析モジュール230は、同様の方法を使用して側面オクルージョンを検出することができる。すなわち、水平オクルージョン解析モジュール230は、バウンディングボックスの左縁部と右縁部の位置における速度の相対的変化を検出することができる。相対的な変化の検出に基づいて、水平オクルージョン解析モジュール230は、人間がその側部で遮られていると決定することができる。
垂直オクルージョン解析モジュール240は、人物が障害物によって垂直に遮られている場合に、垂直オクルージョンを検出することができる。垂直オクルージョン(建物、街灯柱など)は、ある期間ビデオストリームのフレームから人物が完全に遮られる原因となることがある。垂直オクルージョン解析モジュール240は、オクルージョンが垂直オクルージョンであることを検出して表示を出力し、次に、行動予測システム140は、人物に関するより多くの情報を含むオクルージョン画像の前または後のフレームを行動予測のために使用することを決定することができる。
透過オクルージョン解析モジュール250は、網状フェンスなどが人間の一部を遮るが、人間は概して透けて見える透過オクルージョンを検出する。透過オクルージョン解析モジュール250は、人間がフェンスをまたいだり乗り越えたりして車道に歩いて入る確率が低いので、人間を遮っている物体が、人間の物理的制約を知らせる街路仕切りまたは垣根であると決定してよい(たとえば、物体認識モデルを使用して)。透過オクルージョン解析モジュール250は、行動予測のために出力を行動予測システム140に渡すことができる。透過オクルージョン解析モジュール250のリソースからの出力はまた、計算リソースを割り当てることの助けにもなり得る。フェンスまたは街路仕切りの後ろを歩いている人間は、車道を横切る可能性がより低いので、行動予測システム140は、そのような個人を解析するために割り当てる計算能力をより少なくし、より高いリスクと関連付けられた他の人間に注目することができる。
集団行動解析モジュール260は、歩行者オクルージョンに基づいて集団行動を検出する。集団行動解析モジュール260は、歩行者が1人または複数の他の歩行者を遮っていることを検出し、潜在的な集団行動が検出され得ると決定することができる。集団行動解析モジュール260は、集団行動がラベル付けされた画像を含む訓練データを使用して機械学習モデルを訓練することができる。たとえば、訓練データは、集団とその集団内の対応する個人とがラベル付けされた画像を含み得る。1つの実施形態では、集団行動解析モジュール260は、群衆が街路を横断しているときなどに、場所に基づいて集団行動を特定することができる。1つの実施形態では、集団行動解析モジュール260は、同様の制服を着た学生の集団など、集団行動を同様の外見に基づいて特定することができる。集団行動解析モジュール260は、訓練データを使用して、訓練されたときに集団行動を通知する予測を出力する、機械学習モデルを訓練することができる。集団行動解析モジュール260は、人物に集団内の他の人が続いているかどうかなど、人の集団または群衆の構成を解析することができる。その出力は、行動予測のために行動予測システム140に渡されてよい。行動予測システム140は、その出力を使用して、たとえば横断行動の手本を示す集団内の特定の人物に集団の残りがどのように応じるか、または従うかを決定することができる。
追加オクルージョン解析モジュール270は、他のタイプのオクルージョンを検出する。追加オクルージョン解析モジュール270は、別々のオクルージョンメトリクスおよび画像特性を別々のラベル付き推論にマッピングするラベル付き訓練セットにオクルージョン情報を適合させることができる。追加オクルージョン解析モジュール270は、訓練データを用いて機械学習モデルを訓練し、その訓練されたモデルを使用して予測を行うことができる。たとえば、追加オクルージョン解析モジュール270は、人物の顔が部分的に遮られていることを検出し、物体認識モデルが、その人物がパーカを着ている、または視力障害者眼鏡をかけている、または携帯電話を持っていると推論することができ、これにより行動予測システム140は、その人物が環境に対する注意力がより低く、したがって車道に入るより高いリスクに関連付けられると決定する。別の例として、追加オクルージョン解析モジュール270は、困難なコントラスト/光(影、まぶしさ)環境に起因するオクルージョンを検出することができる。照明の故に情報を失う画像は、完全なバウンディングボックス予測のためにバウンディングボックス予測モジュール220へ送信され、次に、行動予測システム140に渡されてよい。あるいは、行動予測システム140は、より良い予測結果が得られるように、画像の照明を調整し、画像中の失われた情報を回復させてもよい。
オクルージョン解析システムからの出力に基づく行動予測
図5は、1つの実施形態による、オクルージョン解析システムからの出力に基づいて行動を予測する例示的な実施形態を示す。オクルージョン解析システム130の出力は、オクルージョンについての理解を行動予測システム140に提供し、行動予測システム140は、その情報を利用して行動予測を改善することができる。
図5は、1つの実施形態による、オクルージョン解析システムからの出力に基づいて行動を予測する例示的な実施形態を示す。オクルージョン解析システム130の出力は、オクルージョンについての理解を行動予測システム140に提供し、行動予測システム140は、その情報を利用して行動予測を改善することができる。
行動予測システム140は、オクルージョン解析システム130からの出力に基づいて、時空間的な情報(たとえば、時間および周辺環境に関連付けられた情報)を通知510することができる。上述のように、遮られた人物に対するバウンディングボックスは、完全なバウンディングボックスよりも小さく、これにより、その人物が車両から実際の距離よりも遠くにあるように見え得る。行動予測システム140は、オクルージョン情報のないオクルージョン画像を使用して、実際の距離よりも長い距離を推定することができる。推定を改善するための1つの実施形態では、オクルージョン解析システム140は、予測された完全なバウンディングボックスを生成し、その出力を行動予測システム140に渡すことができ、行動予測システム140は、その予測された完全なバウンディングボックスに基づいてより正確な距離推定を生成することができる。その予測結果は、ひいては、いつ車両にブレーキをかけるか、または車両を減速させるかの決定に影響を及ぼすなど、制御システムに影響を及ぼし得る。
行動予測システム140は、オクルージョン解析システム130からの出力に基づいて、行動予測のための信頼水準520を調整することができる。1つの実施形態では、行動予測システム140は、人間行動の様々な態様を予測するための複数のサブモデル(たとえば、追跡モデル、注意決定モデル、ロコモーションモデルなど)を組み合わせたモジュール手法を使用することができる。1つの実施形態では、オクルージョンパラメータは訓練データに組み込まれ、行動予測モデルは、その訓練データを使用して訓練される。行動予測システム140は、オクルージョン解析モジュール130から出力されたオクルージョンパラメータ(たとえば、オクルージョン表示、オクルージョン割合、オクルージョン方向など)を使用して信頼水準を、生成された予測ごとに決定することができ、これにより各モデルは、検出の確実性と、その検出に依拠するさらなるモデルとを決定することができる。たとえば、人間の脚が生け垣によって遮られている場合、ロコモーションモデルは、ロコモーションモデルが限られたデータに基づいて推定を生成するので、オクルージョンパラメータ(たとえば、60%水平下部オクルージョン)に基づいて、その予測に対して比較的低い信頼水準を決定し得る。行動予測システム140は、信頼スコアがより高い別のサブモデルの結果に依拠することを、そのような結果が入手可能である場合に決定することができる。1つの実施形態では、行動予測のための各サブモデルは、達成すべき信頼水準の閾値と関連付けられている。異なるサブモデルは、オクルージョンパラメータによって異なる影響を受け得る。第1のモデルに対する信頼水準が信頼水準の第1の閾値未満であることに応じて、行動予測システム140は、オクルージョンに対する感受性がより低い、したがって閾値レベルよりも高い、より高い信頼水準に関連付けられた予測を行う、第2のモデルを使用することを決定してもよい。1つの実施形態では、第2のモデルは、第2のモデルに対する入力が何らかのオクルージョン情報を活用しているかどうかという決定によって特定されてよい。オクルージョン情報を含まない(またはほとんど含まない)データを使用するが、センサデータなどの他のタイプの情報に依存しているモデルは、オクルージョンに対する感受性がより低いことがあり得る。
1つの実施形態では、行動予測システム140は、異なる信頼区間に対して異なる措置を決定するためのマルチ閾値システムを含み得る。たとえば、マルチ閾値システムは、高閾値(たとえば、80%)および低閾値(たとえば、60%)を含むことができ、この場合、高閾値を超える信頼水準は、モデルの結果が行動予測に使用され得ることを示し、低閾値を超えるが高閾値よりも低い信頼水準は、行動予測システム140が行動予測のために追加のモデルからの結果を活用する必要があり得ることを示し、低閾値以下の信頼水準は、行動予測システム140がその結果を行動予測に使用しない場合があることを示し得る。
行動予測システム140は、オクルージョン解析システム130からの出力に基づいて、注目の人物530により多くの処理能力を集中させることを決定してもよい。1つの実施形態では、歩行者の集団に関して、集団行動解析モジュール260は、集団内の特定の人物の後ろに群衆が続く可能性があると決定し得る。行動予測システム140は、その情報を入力として使用し、より多くの処理能力を割り当ててその特定の人物に関連する情報を処理することを決定することができ、特定の人物についてより正確な行動予測を生成する。別の実施形態では、行動予測システム140は、透過オクルージョン解析モジュール250からの結果に基づいて、歩行者がフェンスの後ろを歩いていると決定することができ、その結果、行動予測システム140は、その歩行者が車道を横切る可能性が低いために、より少ない処理能力を歩行者に集中させることを決定してもよい。
オクルージョン解析システム130は、行動予測をさらに強化する追加の行動信号540を行動予測システム140にさらに通知することができる。1つの実施形態では、行動予測システム140は、人物の体の一部分(たとえば、人間がパーカを着ている場合は後頭部および周辺部、人間が電話を自分の耳に持ってきている場合は耳、視力障害者眼鏡が検出された場合は目など)が遮られていることを示す、オクルージョン解析システム130からの出力を受信することができ、これにより行動予測システム140に、その人物がその環境に対する注意力がより低いと決定させ、行動予測システム140は、そのような個人に関連付けられたより高いリスクを予測することができる。1つの実施形態では、オクルージョン解析システム130は、側面視像で見て人物の脚が遮られているので、その人物がオートバイに乗っていると予測することができる。オクルージョン解析システム130は、その画像をオートバイに乗っているVRUのラベルと関連付け、その情報を行動予測システム140に渡すことができ、行動予測システム140は、オートバイのライダーに関する行動予測のための関連したモデルを適用することができる。1つの実施形態では、オクルージョン解析システム130は、正面視像で見て人物の脚が遮られているので、その人物が電動スクータに乗っていると予測することができる。オクルージョン解析システム130は、その画像を電動スクータに乗っているVRUのラベルと関連付け、その情報を行動予測システム140に渡すことができ、行動予測システム140は、電動スクータに関する行動予測のための関連したモデルを適用することができる。
オクルージョン解析システム130は、行動予測システム140の追跡モデル550にさらに影響を及ぼし得る。1つの実施形態では、行動予測システム140は、フレームベースの推定を行い、フレームごとの不確定性を抽出することができる。一連のフレームに関して、行動予測システム140は、オクルージョン解析システム130からのオクルージョンパラメータを使用して、追跡の質を改善し得る、不確定性が経時的にどのように変化するかを決定することができ、ひいては、追跡情報に依拠するすべてのモデルについての下流精度利得(downstream accuracy gains)がある。1つの実施形態では、追跡モデルは、人物に関連付けられた特性を解析するために、確実性がより高い(たとえば、オクルージョンがより少ない)フレームを使用することを決定してもよい。オクルージョンがより少ないフレームから抽出されたより多くの情報を用いて、追跡モデルは、より高い精度で個人を追跡することができ得る。
図6は、1つの実施形態による、オクルージョン解析に基づく行動予測のための例示的なプロセスを示す。プロセス600は、オクルージョン解析システム130が、一連のフレームを含むビデオを受信すること610から開始することができ、少なくともフレームのうちの1つにおいて、人間が部分的または全体的に視認可能である。オクルージョン解析システム130は、その一連のフレームを1つまたは複数のオクルージョンモデルに適用すること620ができ、オクルージョンモデルは、ビデオ中の人間のオクルージョンを検出するように訓練された機械学習モデルである。行動予測システム140は、オクルージョン解析システム130から出力を受信すること630ができ、この出力は、オクルージョン情報を通知するオクルージョンパラメータである。行動予測システム140は、オクルージョンパラメータ、ならびに、人間の活動に関連する他のパラメータ(たとえば、外観、動き、位置など)を、行動予測のための第2の機械学習モデルに入力すること640ができる。第2の機械学習モデルは、人間が将来の行動を示すであろうとの予測と、その予測に関連付けられた信頼水準とを出力するように訓練されたより高レベルなモデルであってもよい。信頼水準は、オクルージョンパラメータに基づいて少なくとも部分的に決定される。行動予測システム140は、予測および信頼水準を、車両に対するコマンドを生成したり運転者に対するアラートを生成したりする制御システムに出力すること650ができる。
追加の考慮事項
本発明の実施形態についての前述の説明は例示の目的で提示されている。説明は網羅的なものではなく、または、開示されたそのままの形に本発明を限定するものでもない。当業者は、上記の開示に照らして多くの修正形態および変形形態が可能であることを理解するだろう。
本発明の実施形態についての前述の説明は例示の目的で提示されている。説明は網羅的なものではなく、または、開示されたそのままの形に本発明を限定するものでもない。当業者は、上記の開示に照らして多くの修正形態および変形形態が可能であることを理解するだろう。
本明細書のいくつかの部分は、本発明の実施形態を情報の操作のアルゴリズムおよび記号表現に関して説明している。これらのアルゴリズムに関する説明および表現は、データ処理技術分野の当業者によって、その仕事の内容を他の当業者に効果的に伝えるために通常使用されている。これらの動作は、機能的、計算的、または論理的に説明されているが、コンピュータプログラムまたは同等の電気回路、マイクロコードなどによって実現されると理解される。さらに、これらの動作の構成をモジュールと呼ぶことが場合により便利であることも、一般性を失うことなく判明している。説明された動作およびその関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの任意の組合せとして具現化され得る。
本明細書に記載のステップ、動作、または処理のいずれも、1つまたは複数のハードウェアモジュールまたはソフトウェアモジュールだけで、または他のデバイスとの組合せで実施され、または実現され得る。1つの実施形態では、ソフトウェアモジュールが、コンピュータプログラムコードを含有するコンピュータ可読媒体を含むコンピュータプログラム製品によって実装され、このコンピュータプログラムコードは、記載されたステップ、動作、または処理のいずれか、または全部を行うために、コンピュータプロセッサによって実行され得る。
本発明の実施形態はまた、本明細書の動作を行うための装置とも関連がある。この装置は、必要とされる目的のために特別に構築されてよく、かつ/または、コンピュータに記憶されたコンピュータプログラムによって選択的に起動もしくは再構成される汎用計算デバイスを備えることができる。このようなコンピュータプログラムは、非一時的な有形のコンピュータ可読記憶媒体、または電子的命令を記憶するのに適している任意のタイプの媒体に記憶されてよく、これらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及されるいずれの計算システムも、単一のプロセッサを含むことができ、または計算能力の増大のために複数のプロセッサ設計を使うアーキテクチャであり得る。
本発明の実施形態はまた、本明細書に記載の計算処理によって製造される製品にも関連があり得る。このような製品は、計算処理から得られた情報を含むことができ、この情報は、非一時的な有形のコンピュータ可読記憶媒体に記憶され、また、本明細書に記載のコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
最後に、本明細書に使用される文言は、読みやすさおよび教示の目的のために主として選ばれており、本発明の主題を詳細に叙述する、または範囲を定めるために選ばれてはいないことがある。したがって、本発明の範囲は、本明細書の「発明を実施するための形態」によってではなく、本明細書に基づいて出願時に出されるいずれかの特許請求の範囲によって限定されるものである。それゆえに、本発明の実施形態の開示は、添付の特許請求の範囲に明示されている本発明の範囲を限定するものではなく、例示するものである。
Claims (20)
- 一連のフレームを含むビデオを受信するステップであって、人間の少なくとも一部が前記一連のフレームのうちの所与のフレーム内で視認できる、ステップと、
前記一連のフレームをオクルージョンモデルに適用するステップであって、前記オクルージョンモデルは、前記ビデオ中の前記人間のオクルージョンを検出するように訓練された機械学習モデルである、ステップと、
前記オクルージョンモデルからの出力として、1つまたは複数のオクルージョンパラメータを受信するステップと、
前記1つまたは複数のオクルージョンパラメータ、ならびに前記人間の活動に関連する他のパラメータを第2のモデルに入力するステップであって、前記第2のモデルは、前記他のパラメータに基づいて、前記人間が将来の行動を示すであろうと予測し、または前記人間の現在の行動を認識し、前記第2のモデルは、前記1つまたは複数のオクルージョンパラメータに基づいている、前記予測に関連付けられた信頼水準を出力する、ステップと、
前記予測および前記信頼水準を制御システムに出力するステップと
を含む方法。 - 前記オクルージョンモデルからの前記出力中の前記1つまたは複数のオクルージョンパラメータは、前記所与のフレーム内で前記人間が遮られている割合である請求項1に記載の方法。
- 前記オクルージョンモデルからの前記出力中の前記1つまたは複数のオクルージョンパラメータは、第1のフレーム内の前記人間のオクルージョンの方向の度合いを含む請求項2に記載の方法。
- 前記割合およびオクルージョンの方向の前記度合いが使用されて、前記人間の予測される速度および距離が調整される請求項3に記載の方法。
- 前記1つまたは複数のオクルージョンパラメータは、前記人間が遮られているかどうかの二値表示を含み、前記表示は、前記第2のモデルに対する入力として使用される請求項1に記載の方法。
- 前記信頼水準は、前記1つまたは複数のオクルージョンパラメータが、前記所与のフレーム内で前記人間が遮られていることを示しているかどうかに基づいて決定される請求項1に記載の方法。
- 前記信頼水準が前記第2のモデルに関連付けられた第1の閾値レベル未満であることに応じて、行動予測のための第3のモデルを選択するステップであって、前記1つまたは複数のオクルージョンパラメータを使用して予測された前記第3のモデルの予測信頼水準は、前記第3のモデルに関連付けられた第2の閾値信頼水準を超える、ステップをさらに含む請求項6に記載の方法。
- 前記オクルージョンモデルは、遮られていない前記人間の前記部分を示す第1のバウンディングボックスに基づいて、オクルージョンのない前記人間を示す第2のバウンディングボックスを予測する請求項1に記載の方法。
- 前記オクルージョンモデルは、前記所与のフレーム内の遮られていない前記人間の一部に基づいて、前記人間のポーズを予測する請求項1に記載の方法。
- 前記所与のフレーム内でオクルージョンを検出することに応じて、前記ビデオ中の前記所与のフレームの前または後にある別の所与のフレームを使用することを決定するステップであって、前記人間が前記別の所与のフレーム内では遮られていない、ステップをさらに含む請求項1に記載の方法。
- 処理能力が閾値未満であることを検出することに応じて、前記1つまたは複数のオクルージョンパラメータに基づいて、前記所与のフレームの注目領域に前記処理能力を集中させることを決定するステップをさらに含む請求項1に記載の方法。
- 前記オクルージョンモデルは、照明環境によって引き起こされるオクルージョンをさらに検出する請求項1に記載の方法。
- 前記オクルージョンモデルは、前記人間が人の集団に属していることを、前記人間が前記集団内の別の人間によって遮られているパターンの解析に基づいて決定する請求項1に記載の方法。
- 前記オクルージョンモデルは、独立型モデルであるか、または前記第2のモデルに埋め込まれている請求項1に記載の方法。
- 1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに動作を実施させる実行可能なコンピュータ命令が符号化されているメモリを含む、非一時的なコンピュータ可読記憶媒体であって、前記命令は、
一連のフレームを含むビデオを受信することであって、人間の少なくとも一部が前記一連のフレームのうちの所与のフレーム内で視認できることと、
前記一連のフレームをオクルージョンモデルに適用することであって、前記オクルージョンモデルは、前記ビデオ中の前記人間のオクルージョンを検出するように訓練された機械学習モデルであることと、
前記オクルージョンモデルからの出力として、1つまたは複数のオクルージョンパラメータを受信することと、
前記1つまたは複数のオクルージョンパラメータ、ならびに前記人間の活動に関連する他のパラメータを、前記他のパラメータに基づいて、前記人間が将来の行動を示すであろうと予測し、または前記人間の現在の行動を認識する第2のモデルであって、さらに、前記1つまたは複数のオクルージョンパラメータに基づいている、前記予測に関連付けられた信頼水準を出力する第2のモデルに入力することと、
前記予測および前記信頼水準を制御システムに出力する
命令を含む、非一時的なコンピュータ可読記憶媒体。 - 前記オクルージョンモデルからの前記出力中の前記1つまたは複数のオクルージョンパラメータは、前記所与のフレーム内で前記人間が遮られている割合である請求項15に記載の非一時的なコンピュータ可読記憶媒体。
- 前記信頼水準は、前記1つまたは複数のオクルージョンパラメータが、前記所与のフレーム内で前記人間が遮られていることを示しているかどうかに基づいて決定される請求項15に記載の非一時的なコンピュータ可読記憶媒体。
- 前記命令は、
前記信頼水準が前記第2のモデルに関連付けられた第1の閾値レベル未満であることに応じて、行動予測のための第3のモデルを選択することであって、前記1つまたは複数のオクルージョンパラメータを使用して予測された前記第3のモデルの予測信頼水準は、前記第3の機械学習モデルに関連付けられた第2の閾値信頼水準を超える、選択することを行う命令を含む請求項17に記載の非一時的なコンピュータ可読記憶媒体。 - 前記1つまたは複数のオクルージョンパラメータは、前記人間が遮られているかどうかの二値表示を含み、前記表示は、前記第2のモデルに対する入力として使用される請求項15に記載の非一時的なコンピュータ可読記憶媒体。
- 前記命令は、前記所与のフレーム内でオクルージョンを検出することに応じて、前記ビデオ中の前記所与のフレームの前または後にある別の所与のフレームを使用することを決定することであって、前記人間が前記別の所与のフレーム内では遮られていない、決定することを行う命令を含む請求項15に記載の非一時的なコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063124326P | 2020-12-11 | 2020-12-11 | |
US63/124,326 | 2020-12-11 | ||
PCT/IB2021/000855 WO2022123309A1 (en) | 2020-12-11 | 2021-12-13 | Occlusion-aware prediction of human behavior |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023552105A true JP2023552105A (ja) | 2023-12-14 |
Family
ID=80123471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023530925A Pending JP2023552105A (ja) | 2020-12-11 | 2021-12-13 | 人間行動のオクルージョン対応予測 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12094252B2 (ja) |
EP (1) | EP4260298A1 (ja) |
JP (1) | JP2023552105A (ja) |
WO (1) | WO2022123309A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021235355A1 (ja) * | 2020-05-22 | 2021-11-25 | 富士フイルム株式会社 | 画像データ処理装置及び画像データ処理システム |
EP4260298A1 (en) * | 2020-12-11 | 2023-10-18 | Humanising Autonomy Limited | Occlusion-aware prediction of human behavior |
US12030528B2 (en) * | 2021-12-03 | 2024-07-09 | Zoox, Inc. | Vehicle perception system with temporal tracker |
CN115658544B (zh) * | 2022-11-14 | 2023-07-14 | 广州掌动智能科技有限公司 | 一种基于模拟点击的测试方法 |
JP2024093370A (ja) * | 2022-12-27 | 2024-07-09 | オムロン株式会社 | 予測方法、表示方法、プログラム、予測システム、表示システム、及び学習済みモデル |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9904852B2 (en) | 2013-05-23 | 2018-02-27 | Sri International | Real-time object detection, tracking and occlusion reasoning |
US10049307B2 (en) * | 2016-04-04 | 2018-08-14 | International Business Machines Corporation | Visual object recognition |
US20180144476A1 (en) * | 2016-11-23 | 2018-05-24 | Qualcomm Incorporated | Cascaded-time-scale background modeling |
US10699421B1 (en) * | 2017-03-29 | 2020-06-30 | Amazon Technologies, Inc. | Tracking objects in three-dimensional space using calibrated visual cameras and depth cameras |
WO2020020446A1 (en) * | 2018-07-24 | 2020-01-30 | Toyota Motor Europe | A method and a system training a model to perform semantic segmentation on foggy images |
US11935288B2 (en) * | 2019-12-01 | 2024-03-19 | Pointivo Inc. | Systems and methods for generating of 3D information on a user display from processing of sensor data for objects, components or features of interest in a scene and user navigation thereon |
US11089762B1 (en) * | 2020-10-15 | 2021-08-17 | Ecto, Inc. | Methods for generating consensus biomass estimates |
EP4260298A1 (en) * | 2020-12-11 | 2023-10-18 | Humanising Autonomy Limited | Occlusion-aware prediction of human behavior |
-
2021
- 2021-12-13 EP EP21851844.7A patent/EP4260298A1/en not_active Withdrawn
- 2021-12-13 US US17/549,680 patent/US12094252B2/en active Active
- 2021-12-13 JP JP2023530925A patent/JP2023552105A/ja active Pending
- 2021-12-13 WO PCT/IB2021/000855 patent/WO2022123309A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US12094252B2 (en) | 2024-09-17 |
US20220189210A1 (en) | 2022-06-16 |
WO2022123309A1 (en) | 2022-06-16 |
EP4260298A1 (en) | 2023-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023552105A (ja) | 人間行動のオクルージョン対応予測 | |
US10387725B2 (en) | System and methodologies for occupant monitoring utilizing digital neuromorphic (NM) data and fovea tracking | |
US11392131B2 (en) | Method for determining driving policy | |
JP7332726B2 (ja) | ヒートマップを使用したドライバーの注目の検出 | |
US9881221B2 (en) | Method and system for estimating gaze direction of vehicle drivers | |
JP7011578B2 (ja) | 運転行動を監視する方法及びシステム | |
JP7480302B2 (ja) | 交通弱者の意図を予測する方法および装置 | |
Kim | Real time object tracking based on dynamic feature grouping with background subtraction | |
CN110765807B (zh) | 驾驶行为分析、处理方法、装置、设备和存储介质 | |
US11845464B2 (en) | Driver behavior risk assessment and pedestrian awareness | |
KR20160135482A (ko) | 동적 장애물 움직임 예측 장치 및 그 방법 | |
WO2020226696A1 (en) | System and method of generating a video dataset with varying fatigue levels by transfer learning | |
JP7488376B2 (ja) | マイクロモビリティユーザーのリスクを判断するための外観と動きに基づくモデル | |
Rajendar et al. | Prediction of stopping distance for autonomous emergency braking using stereo camera pedestrian detection | |
Shariff et al. | Event Cameras in Automotive Sensing: A Review | |
CN111950339A (zh) | 视频处理 | |
JP2021531598A (ja) | 映像ストリームからの物体検出において用いるためのシステム及び方法 | |
KR20220098677A (ko) | 교통사고 예측 방법 및 시스템 | |
KR101432727B1 (ko) | 차량과 객체의 충돌을 방지하기 위한 헤드라이트 빔 패턴을 이용한 이동객체 검출 장치 및 이를 이용한 이동객체 검출 방법 | |
Nair et al. | Smart System for Drowsiness and Accident Detection | |
Dubey et al. | Guidance System for Visually Impaired Persons Using Deep Learning and Optical Flow | |
US20230109171A1 (en) | Operator take-over prediction | |
Ahmed et al. | Real Time Driver Drowsiness Detection Based on Convolution Neural Network | |
WO2022126355A1 (zh) | 基于图像的处理方法和设备 | |
Gaikwad et al. | Driver Assistance Systems with Driver Drowsiness Detection Using Haar-Cascade Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240917 |