JP2023552105A

JP2023552105A - 人間行動のオクルージョン対応予測

Info

Publication number: JP2023552105A
Application number: JP2023530925A
Authority: JP
Inventors: エルユースーフィワッシム; ノイドミニク; チトラプラディープヤジニ; オーヴァーイブラードジェームズ; セースノーテボームレスリー; ボーズラウナック; オードリーララピンディアスマヤ
Original assignee: ヒューマニシングオートノミーリミテッド
Priority date: 2020-12-11
Filing date: 2021-12-13
Publication date: 2023-12-14
Also published as: US12094252B2; EP4260298A1; US20220189210A1; WO2022123309A1

Abstract

オクルージョン解析システムは、数学モデルに情報を提供してより正確な予測を生成できるオクルージョンパラメータを生成することによって、行動予測モデルの精度を改善する。オクルージョン解析システムは、人物の遮られ方、オクルージョン割合、オクルージョンタイプなどのオクルージョンパラメータを生成するためのモデルを訓練し適用する。行動予測システムは、オクルージョンパラメータ、ならびに人間の活動に関連する他のパラメータを行動予測のための第２の数学モデルに入力することができる。第２の機械学習モデルは、人間が将来の行動を示すであろうとの予測と、その予測に関連付けられた信頼水準とを出力するように訓練されたより高レベルなモデルである。信頼水準は、オクルージョンパラメータに基づいて少なくとも部分的に決定される。行動予測システムは、車両に関連付けられたコマンドを生成する制御システムおよび他の知的ビデオ解析システムに、予測および信頼水準を出力することができる。

Description

本発明は、人間行動のオクルージョン対応予測に関する。

関連出願の相互参照
本出願は、参照により組み込まれる２０２０年１２月１１日出願の米国特許仮出願第６３／１２４，３２６号明細書「Ｏｃｃｌｕｓｉｏｎ－ＡｗａｒｅＰｒｅｄｉｃｔｉｏｎｏｆＨｕｍａｎＢｅｈａｖｉｏｒ」の優先権の利益を主張するものである。

コンピュータビジョンベースの技術を使用して人間行動に関する予測を行う場合、よくある問題は、人間がしばしばカメラから環境内の他の物体や他の人の後ろに一時的に隠されるために、ビデオフレーム内の人間が遮られ得ることである。行動の機械学習解析を推進するために使用されるキーポイントが、モデルに入力された画像中で視認できないので、オクルージョンが、近い将来に人物がどんな行動を示しそうであるかを理解する際の難題となる。さらに、人物が完全に遮られている場合には、遮られたキーポイントに追跡が依拠し得るので、人がオクルージョンから再び現れたときにその人が同一人物であるかどうかを決定する際に難題が生じる。既存のシステムを使用する場合、オクルージョンはしばしば不適切な仮定をもたらし、その仮定が不適切な予測につながる。たとえば、人物が壁の後ろにいてその脚が遮られている場合、既存のシステムでは、その人物が実際には動いているのに動いていないと仮定したり、オクルージョンが取り除かれたときにその人物が別人であると仮定したりし得る。

米国特許出願第１６／８５７，６４５号明細書米国特許出願第１７／０１１，８５４号明細書

人間行動を予測するためのオクルージョン解析システムに関するシステムおよび方法が本明細書で開示される。オクルージョン解析システムは、入力画像またはビデオストリームを受信し、収集されたデータを使用して機械学習モデルを訓練および適用することにより、オクルージョンについての様々なメトリクスを決定する。オクルージョン解析システムでは、訓練データセットを使用して機械学習モデル（たとえば、オクルージョン検出モジュール）を訓練することができ、このデータセットは入力を、画像を特徴付ける１つまたは複数のラベルと一緒に含み得る。一実施形態では、オクルージョン解析システムは、追加のオクルージョン情報に基づいて行動予測システムの出力を調整することができる。入力には、人物の生のビデオ映像またはクロップされたビデオ映像からなどの画像が含まれ得る。（人物は例示的なものであり、動物および人間以外を含む交通弱者であることもある。）オクルージョン解析システムでは、人物の遮られ方、オクルージョンのレベル（たとえば、割合）、オクルージョンのタイプなどの、オクルージョンについての情報（たとえば、オクルージョンパラメータ）を含む出力を生成することができる。オクルージョンのタイプは、たとえば、歩行者が別の歩行者を遮っているもの、水平オクルージョン、垂直オクルージョン、透過オクルージョン（たとえば、網状フェンスが人間の一部を隠しているが人間は概して透けて見える）などを含み得る。モデルは、画像を取り入れ（たとえば、任意選択で他の補助情報と一緒に）、オクルージョンについての理解をその後にもたらすことができるデータを検出メトリクスと一緒に出力することができる。オクルージョン解析システムからの生成された出力は、行動予測のための信頼水準を決定したり、行動予測モデルのための追加情報をもたらすために、行動予測システムに渡される。

開示されたシステムおよび方法は、いくつかの有利な技法的特徴を提供する。たとえば、開示されたシステムおよび方法は、オクルージョン情報を組み込んで個々のモデルに情報を与えることによって行動予測モデルの精度を改善し、オクルージョン解析システムからの結果は、動きモデルに情報を与えてより正確な追跡を生み出し、動き予測を改善することができる。人物が部分的または全体的に遮られていることを表す情報を出力することに加えて、オクルージョン解析システムはまた、その人物がどのように遮られているかの表示を出力することもでき、これによって行動予測モデルは、検出の確実性と、その検出に依拠するさらなるモデルとを決定し得る。

たとえば、人物が歩いているかどうかを決定しようとするに際して、人物の脚が生け垣で遮られている場合に、その人物が歩いているかどうかを決定するロコモーションモデルは、信頼水準のオクルージョンモデルの出力に基づいて認識し、オクルージョン情報が入力として画像／ビデオに加えて使用されていることを考えると、その推定を行うのに限られたデータに依拠しているということを認識することになる。そのような情報をロコモーションモデルに提供すると、その精度が向上し（たとえば、それが、予測を推進するのに十分な情報を有する他のモデル出力にアクセスできるという点で）、よりいっそう説明可能なモデルを許容し、このことは機能的安全性およびエッジケース検出には重要である。

さらに、開示されたシステムおよび方法は、人物の部分的オクルージョン画像（occluded image）に基づいて完全なバウンディングボックスを予測することができる。予測された完全なバウンディングボックスは、距離推定にさらに使用されてもよく、この距離推定は、バウンディングボックス補正によって改善され、オクルージョン理解をもたらす。訓練に関して、オクルージョン解析システムは、訓練データを生成するための追加のオクルージョン情報を提供する。オクルージョン情報を含むラベル付き訓練セットは、行動予測モデルをより堅牢にする。これは、訓練データセットが、モデルを、写真のように完璧に視認できる人に対してではなく、多くのオクルージョンを有するモデルが置かれる実世界の環境に対してより適切にするからである。さらには、オクルージョン解析システムは、集団行動に基づいて歩行者の行動を決定すること、人間行動の物理的制限を決定すること（たとえば、柵の後ろを歩いている人物）、および以下の説明で論じられるさらに多くのものなどの、人間行動を理解するためのさらなる洞察を提供する。

１つの実施形態による、オクルージョン解析システムの例示的なシステム環境を示す図である。１つの実施形態による、オクルージョン解析システムの例示的なモジュールを示す図である。１つの実施形態による、オクルージョン方向の例示的な実施形態を示す図である。１つの実施形態による、オクルージョン方向の例示的な実施形態を示す図である。１つの実施形態による、オクルージョン方向の例示的な実施形態を示す図である。１つの実施形態による、オクルージョン画像に基づいて完全なバウンディングボックスを予測する例示的な実施形態を示す図である。１つの実施形態による、オクルージョン画像に基づいて完全なバウンディングボックスを予測する例示的な実施形態を示す図である。１つの実施形態による、オクルージョン画像に基づいて完全なバウンディングボックスを予測する例示的な実施形態を示す図である。１つの実施形態による、オクルージョン画像に基づいて完全なバウンディングボックスを予測する例示的な実施形態を示す図である。１つの実施形態による、オクルージョン解析システムからの出力を行動予測のために使用する例示的な実施形態を示す図である。１つの実施形態による、オクルージョン解析に基づいて人間行動を予測するための例示的なプロセスを示す図である。

図は、本発明の様々な実施形態を例示のためだけに示している。当業者には、本明細書に記載された本発明の原理から逸脱することなく、本明細書に例示された構造および方法の代替実施形態が使われてよいことが以下の議論から容易に理解されよう。

システム概要
図１は、１つの実施形態による、オクルージョン解析システムのための例示的なシステム環境を示す。環境１００は、カメラ１１０、ネットワーク１２０、オクルージョン解析システム１３０、および行動予測システム１４０を含む。カメラ１１０は、周囲の画像を取り込み、またはビデオストリームを記録し、ネットワーク１２０を介してデータをオクルージョン解析システム１３０および行動予測システム１４０へ送信する。カメラ１１０は通常、自動運転車両または半自動運転車両などの車両に動作可能に結合される。いくつかの実施形態では、カメラ１１０は、スマートフォン、拡張現実機器、車載カメラ、路側カメラ、ドアベル、監視カメラなどの、インフラストラクチャおよび他の応用例と結合され得る。カメラ１１０はまた、画像を取り込むことができる任意のインフラストラクチャまたは応用例であってもよい。インフラストラクチャまたは非車両用途のカメラ１１０からの情報は、車両に結合されているカメラからの入力と組み合わせた入力として使用されてよい。本明細書で使用される、動作可能に結合されているという表現は、車両に直接または間接的に取り付けられていること、および／または車両のコンピュータと通信していることを指すことがある。たとえば、カメラ１１０は、車両に装着されていてよく、環境の画像および／またはビデオストリームを取り込むことによって、車両が周囲を認識できるようにすることができる。車両は、自動車（すなわち、任意の動力四輪車両または動力二輪車両）であってよい。カメラ１１０は、車両に組み込まれていてもよいし、独立型（たとえば、専用カメラ）または一体化デバイス（たとえば、車両に装着されたスマートフォンまたは車載カメラなどのクライアントデバイス）であってもよい。１つのカメラ１１０だけが図示されているが、任意の数のカメラが車両に動作可能に結合されてもよいし、独立して動作しても（たとえば、ビデオ／画像が互いに関係なく処理される）、協調して動作してもよい（たとえば、ビデオ／画像が互いに同期して取り込まれてもよいし、つなぎ合わされてより広い視像が取り込まれてもよい）。

ネットワーク１２０は、インターネットなどの任意のデータネットワークであってよい。いくつかの実施形態では、ネットワーク１２０は、カメラ１１０とのローカルデータ接続であってもよい。１つの実施形態では、ネットワーク１２０は、環境１００の他の要素が通信するための通信チャネルを提供する。ネットワーク１２０は、有線通信システムおよび／または無線通信システムの両方を使用して、ローカルエリアネットワークおよび／またはワイドエリアネットワークの任意の組合せを含むことができる。１つの実施形態では、ネットワーク１２０は、標準的な通信技術および／またはプロトコルを使用する。たとえば、ネットワーク１２０は、Ｅｔｈｅｒｎｅｔ（登録商標）、８０２．１１、ＷｉＭＡＸ（ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）、３Ｇ、４Ｇ、５Ｇ、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ＤＳＬ（ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒｌｉｎｅ）などの技術を使用する、通信リンクを含むことができる。ネットワーク１２０を介して通信するために使用されるネットワークプロトコルの例には、ＭＰＬＳ（ＭｕｌｔｉｐｒｏｔｏｃｏｌｌａｂｅｌＳｗｉｔｃｈｉｎｇ）、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎｃｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）、ＨＴＴＰ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）、ＳＭＴＰ（ＳｉｍｐｌｅＭａｉｌＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）、およびＦＴＰ（ＦｉｌｅＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）が含まれる。ネットワーク１２０を介して交換されるデータは、ＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐｌａｎｇｕａｇｅ）またはＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐｌａｎｇｕａｇｅ）などの、任意の適切なフォーマットを使用して表現されてよい。いくつかの実施形態では、ネットワーク１２０の通信リンクの全部または一部は、任意の適切な１つまたは複数の技法を使用して暗号化され得る。

１つの実施形態では、ネットワーク１２０は、インターネットベースの接続ではなく他の接続手段であってもよい。ネットワーク１２０は、カメラと一緒に搭載されたＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロチップ、または任意の処理ユニットであってもよい。ＧＰＵまたはマイクロチップは、カメラ１１０によって収集されたデータを入力として取得し、その収集されたデータをさらなる解析のためにオクルージョン解析システム１３０および行動予測システム１４０に供給することができる。オクルージョン解析システム１３０および行動予測システム１４０は、クラウドに存在しても、カメラ１１０に接続されたＧＰＵ／マイクロチップに存在してもよい。

行動予測システム１４０は、周囲から収集されたデータに基づいて人間行動を予測する。行動予測システム１４０は、人物が行動を示す（たとえば、現在の経路を進み続ける（たとえば、自動運転車両を制御することに関連して、注意散漫になる、街路を横切るつもりである、実際に街路を横切る、車両に気付くなどの）確率を決定する。ある実施形態では、行動予測システム１３０は、道路上の車両のカメラから撮影された画像などの、人物を描写する画像を受信する。行動予測システム１３０は、画像の少なくとも一部分（または画像から抽出された特徴ベクトル）をモデル（たとえば、数学モデル、機械学習モデル、または統計モデル）に入力し、モデルからの出力として、人物を記述する複数の確率を受信する。確率のそれぞれは、その人物が所与の状態にある確率に対応している。行動予測システム１３０は、複数の確率の少なくともいくつかに基づいて、人物が行動を示す（たとえば、現在の経路を進み続ける）確率を決定し、人物がその行動を示す確率を制御システムに出力する。全体が参照により本明細書に組み込まれる２０２０年４月２４日に出願された「ＴｒａｃｋｉｎｇＶｕｌｎｅｒａｂｌｅＲｏａｄＵｓｅｒｓＡｃｒｏｓｓＩｍａｇｅＦｒａｍｅｓＵｓｉｎｇＦｉｎｇｅｒｐｒｉｎｔｓＯｂｔａｉｎｅｄｆｒｏｍＩｍａｇｅＡｎａｌｙｓｉｓ」という名称の、本出願の権利者が所有する特許文献１の開示は、別々のブランチがそれぞれ訓練されて人物についての予測を形成するマルチタスモデルに関してさらなる情報を開示している。別々の分類を行動予測に組み合わせることに関するさらなる情報が、２０２０年９月３日に出願された「ＭｏｄｕｌａｒＰｒｅｄｉｃｔｉｏｎｓｆｏｒＣｏｍｐｌｅｘＨｕｍａｎＢｅｈａｖｉｏｒｓ」という名称の特許文献２で論じられており、同出願の開示内容は、全体が参照により本明細書に組み込まれる。

行動予測システム１４０は、予測の確実性のレベルを決定するために、オクルージョン解析システム１３０から出力を取り入れることができる。より高レベルな人間行動が、複数のモデルを一緒に組み合わせるモジュール手法によって推論される場合、そのような基礎をなすモデルの確実性について理解することが精度を向上させ、そのような予測に対してより正確な不確定値を許容する。信頼スコアおよび不確定値、ならびに様々なより低レベルなモデルおよびより高レベルなモデルは、本出願の権利者が所有する２０２０年９月３日出願の特許文献２にさらに詳細に記載されており、同出願の開示内容は、その全体が参照により本明細書に組み込まれ、同出願の開示内容は本明細書に援用されている。部分的または完全に遮られているＶＲＵを追跡する方法は、さらに詳細に、本出願の権利者が所有する２０２０年４月２４日出願の特許文献１に記載されており、同出願の開示内容は、その全体が参照により本明細書に組み込まれ、同出願の開示内容は本明細書に援用されている。ある実施形態では、モデルは、特許文献１に記載の追跡モデルから入力を受信して、オクルージョンについての情報を特定することができる。たとえば、追跡モデルを使用して決定されるときに、２つのバウンディングボックス検出が互いに重なる場合、システムは、一方の人物が他方を遮っている可能性を特定する。したがって、追跡モデル出力が本明細書に記載の１つまたは複数のモデルに入力されて、さらなるオクルージョンを決定するとともに、これらのオクルージョンがどのようにして、なぜ発生しているかを決定することができる。

行動予測システム１４０は、予測スコアおよび／または信頼スコアを生成し、その結果を制御システムに出力することができ、制御システムは、それに基づいてコマンドを出力することができる。コマンドは、措置（たとえば、車両を停止させる、クラクションを鳴らす、ハンドルを切る、速度を落とすなど）を講ずるように命令を車両制御システムへ送信することを含み得る。コマンドは、その後の解析のために情報をデータベースに記憶することを含み得る。コマンドは、（たとえば、車両のダッシュボードに装着されたディスプレイを介して）車両オペレータにメッセージを出力することを含み得る。コマンドは、（たとえば、特定のデータを強調するために車載カメラの）ビデオフィードを増強することを含み得る。コマンドは、記録されたビデオフィードのデータに注釈を付けることを含み得る。コマンドは、ロボット（たとえば、倉庫内の作業ロボット）に対して、環境を考慮した動きのための命令を送信することを含み得る。コマンドは、自動車、有軌道車両、船舶、水陸両用車、および航空機などの作業用車両へ命令を送信することを含み得る。コマンドは、環境設定（たとえば、照明およびまぶしさ）を調整するように作業員に指示を送信することを含み得る。

オクルージョン解析システム
オクルージョン解析システム１３０は、行動予測システム１４０が人間行動を予測する際にオクルージョン情報を活用できるようにする出力オクルージョンパラメータを生成するための数学モデル（たとえば、機械学習モデルまたは統計モデル）を学習し適用する。１つの実施形態では、オクルージョン解析システム１３０は、行動予測システム１４０のサブモデル（たとえば、検出モデル、ポーズ推定モデル、視線推定モデル、追跡モデルなど）と並列に動作する。いくつかの実施形態では、オクルージョン解析システム１３０は、サブモデルに埋め込まれる。オクルージョン解析システム１３０は、画像、または交通弱者（ＶＲＵ）の生のビデオ映像またはクロップされたビデオ映像からなどの一連の画像を含む、訓練データを使用することができる。画像は一連のフレームであってよく、フレームのうちの少なくとも１つは、部分的または全体的に遮られている人物を含む。オクルージョン解析システム１３０は、人物の遮られ方、オクルージョンのレベル（たとえば、割合）、オクルージョンのタイプなどの、オクルージョンについての情報を含むオクルージョンパラメータを生成することができる。オクルージョンのタイプには、たとえば、歩行者が別の歩行者を遮っているもの、水平オクルージョン、垂直オクルージョン、透過オクルージョン（たとえば、網状フェンスが人間の一部を隠しているが人間は概して透けて見える）などが含まれ得る。例示的な人物の遮られ方には、遮られる体の一部分（たとえば、人間がパーカを着ている場合は後頭部および周辺部、人間が電話を自分の耳に持ってきている場合は耳、視力障害者眼鏡が検出された場合は目など）が含まれ得る。訓練データは、人物分類器（human classifier）によってラベル付けされてもよく、この場合、人物分類器は、各画像（または画像内の各人物）にオクルージョンの表示をラベル付けすることができる。人物分類器はまた、遮られた人物をバウンディングボックス（または円、多角形など）で囲むことによって、訓練データをラベル付けすることもできる。訓練データはまた、オクルージョンのタイプおよびオクルージョンの態様などの、他のオクルージョン情報がラベル付けされてもよい。１つの実施形態では、いくつかのオクルージョンが、行動についてよりよく理解するために、オクルージョンを引き起こす物体がラベル付けされる。たとえば、片脚が遮られている人物の側面視像は、その人物がオートバイに乗っていることを示し、片脚が遮られている人物の正面視像は、その人物が電動スクータに乗っていることを示し得る。次に、ラベル付けされたデータセットは、オクルージョンパラメータを出力する１つまたは複数の機械学習モデルを訓練するために使用される。

オクルージョン解析システム１３０は、ラベル付きデータセットを使用するオクルージョン解析のために、１つまたは複数のモデル（たとえば、機械学習モデルおよび／または統計的／数学モデル）を訓練することができる。機械学習モデルが訓練された後、オクルージョン解析システム１３０は、画像を取り入れ（たとえば、任意選択で他の補助情報と一緒に）、訓練済み機械学習モデルを使用して、オクルージョンについての理解を次にもたらすことができるオクルージョンパラメータを検出メトリクスと一緒に出力することができる。このオクルージョンパラメータは行動予測システム１４０に渡されて、さらなる洞察が人間行動にもたらされ得る。これにより、モデルは、検出の確実性と、その検出に依拠するさらなるモデルとを決定することを許容する。オクルージョン解析システム１３０については、図２に従ってより詳細に論じられ、オクルージョン解析システム１３０からの出力が行動予測のためにどのように使用され得るかについては、図６に従ってより詳細に論じられる。

図２は、１つの実施形態による、オクルージョン解析システム１３０の例示的なモジュールを示す。オクルージョン解析システム１３０は、オクルージョンに関連付けられたパラメータを検出および決定するオクルージョン検出モジュール２１０と、オクルージョン画像に基づいてバウンディングボックス全体を予測するバウンディングボックス予測モジュール２２０と、水平オクルージョンを検出する水平オクルージョン解析モジュール２３０と、垂直オクルージョンを検出する垂直オクルージョン解析モジュール２４０と、透過オクルージョンを検出する透過オクルージョン解析モジュール２５０と、歩行者オクルージョンに基づいて集団行動を検出する集団行動解析モジュール２６０と、他のタイプのオクルージョンを検出する追加オクルージョン解析モジュール２７０とを含み得る。

オクルージョン検出モジュール２１０は、オクルージョンに関連付けられたパラメータを検出し決定する。オクルージョン検出モジュール２１０は、ラベル付きデータを用いて訓練された機械学習モデルに基づいて、オクルージョンが画像中に存在するかどうかを決定することができる。決定は、二値でも数値でもよい。二値決定では、オクルージョン検出モジュール２１０は、人物が遮られているか否かを出力する。数値決定では、オクルージョン検出モジュール２１０は、遮られている人物の分量および／または領域（たとえば、画像内の領域）の割合などの表現を決定してもよい。オクルージョン検出モジュール２１０はまた、オクルージョンの方向およびオクルージョンの度合いを検出することもでき、これについては、図３Ａ～図３Ｃに従ってさらに詳細に説明され論じられる。

図３Ａ～図３Ｃは、異なるオクルージョン方向の例示的な実施形態を示す。図３Ａは、人物の上半身または下半身が遮られている水平オクルージョンを示す。図３Ａに示された例では、人物の脚が壁によって遮られており、これは、行動予測システム１４０の不確定性をもたらし得る。図３Ｂは、人物が完全に遮られ、ある期間フレームから消え、再び現れ得る垂直オクルージョンを示す。オクルージョン検出モジュール２１０は、オクルージョンの方向などの追加のオクルージョンパラメータをさらに決定することができる。図３Ｃは、オクルージョン検出モジュール２１０が、オクルージョンの方向および／または位置を示すベクトル３１０と、オクルージョンの方向の角度３２０とを決定する１つの例示的な実施形態を示す。オクルージョン検出モジュール２１０から出力された、オクルージョンの表示、オクルージョンの割合、角度および方向などのパラメータは、行動予測システム１４０に渡されてよい。オクルージョン検出モジュール２１０からの結果は、以下で論じられるモジュールにおけるさらなるオクルージョン解析のために使用され得る。

図２に戻って参照すると、バウンディングボックス予測モジュール２２０は、オクルージョン画像に基づいてバウンディングボックス全体を予測する。１つの実施形態では、バウンディングボックス予測モジュール２２０は、入力としてオクルージョン検出モジュール２１０からのパラメータおよび他の情報を取り入れ、遮られた人物の完全なバウンディングボックスを予測することができる。バウンディングボックス予測モジュール２２０は、オクルージョンの割合および方向を使用して、完全なバウンディングボックスを予測するための拡張する方向とどのくらいの割合拡張するかを知らせることができる。完全なバウンディングボックス予測に関するさらなる詳細は、図４Ａ～図４Ｄに示されている。

図４Ａ～図４Ｄは、１つの実施形態による、オクルージョン画像に基づいて完全なバウンディングボックスを予測する例示的な実施形態を示す。図４Ａは、オクルージョンがある画像におけるバウンディングボックス検出を示す。人物が遮られているので、決定されたバウンディングボックス４１０は、人物の一部分だけを囲む。オクルージョン検出モジュール２１０は、人物の４０％が遮られていること、およびオクルージョンが水平であることを決定することができる。バウンディングボックス予測モジュール２２０は、この情報を使用して、一部を切り取られたバウンディングボックス４１０の拡張する割合を決定するとともに、人物全体を囲むと想定される完全なバウンディングボックス４２０（図４Ｂに図示されるように）を生成することができる。１つの実施形態では、バウンディングボックス予測モジュール２２０はまた、ポーズ予測に基づいて完全なバウンディングボックスを生成することもできる。たとえば、図４Ｃに示されるように、上半身のポーズは、上半身のポーズジョイントに基づいて特定される。ポーズ特定は、線で接続された黒いドットで図４Ｃに示されるように、人物の頭部、体幹、および四肢の位置を含み得る。バウンディングボックス４１０で特定されたポーズに基づいて、図４Ｄに示されたような全身ポーズが行動予測システム１４０によって予測される。バウンディングボックス予測モジュール２２０は、この全身ポーズ予測に基づいて完全なバウンディングボックス４２０を予測することができる。

図２についての議論を続けると、水平オクルージョン解析モジュール２３０は、人間の水平部分（たとえば、脚）が壁や車などの物体によって遮られている場合に、水平オクルージョンを検出することができる。１つの実施形態では、水平オクルージョン解析モジュール２３０は、上部ボックスおよび下部ボックスなどの独立した追跡バウンディングボックスを使用して人間を追跡することによって、水平オクルージョンを検出することができる。下部ではなく上部追跡ボックスの動きの変化（またはその逆）を検出することに応じて、水平オクルージョン解析モジュール２３０は、上部追跡ボックスおよび下部追跡ボックスの動きパターンの相対的変化に基づいて、人物が部分的に遮られていることを検出することができる。たとえば、水平オクルージョン解析モジュール２３０は、上半身を追跡するための上部バウンディングボックス、および下半身を追跡するための下部バウンディングボックスなどの、動いている人物を追跡するための２つの（またはそれより多い）独立したバウンディングボックスを使用することができ、その２つのバウンディングボックスは、初期検出において互いに垂直に整列する。ある時点で、水平オクルージョン解析モジュール２３０は、上部バウンディングボックスが一定の速度で移動しているが下部バウンディングボックスは異なる速度で移動していることを検出し得る。２つのバウンディングボックス間の相対的な動きの差違を検出することに応じて、水平オクルージョン解析モジュール２３０は、その人物が遮られていると決定することができる。１つの実施形態では、遮られた人物の画像が抽出されることがあり、遮られた人物に対するさらなる解析が、オクルージョン検出モジュール２１０およびバウンディングボックス予測モジュール２２０によって実施され得る。１つの実施形態では、水平オクルージョン解析モジュール２３０は、オクルージョンが発生するフレームの前または後のフレームを特定し、その特定されたフレームを行動予測のために行動予測システム１４０へ送信することができる。

１つの実施形態では、水平オクルージョン解析モジュール２３０は、バウンディングボックスの縁部の位置を追跡することによって水平オクルージョンを検出し、経時的な相対的変化を比較することができる。水平オクルージョン解析モジュール２３０は、バウンディングボックスの上縁部の位置と下縁部の位置を別々に追跡することができる。水平オクルージョン解析モジュール２３０は、これらの位置を比較し、上部オクルージョンまたは下部オクルージョンが発生したかどうかを決定することができる。たとえば、下縁部が（カメラに対して）右側の方へ一定の速度で移動しているが、上縁部はそのような速度で移動していないことを検出することに応じて、水平オクルージョン解析モジュール２３０は、人間が上部で部分的に遮られていると決定することができる。１つの実施形態では、水平オクルージョン解析モジュール２３０は、同様の方法を使用して側面オクルージョンを検出することができる。すなわち、水平オクルージョン解析モジュール２３０は、バウンディングボックスの左縁部と右縁部の位置における速度の相対的変化を検出することができる。相対的な変化の検出に基づいて、水平オクルージョン解析モジュール２３０は、人間がその側部で遮られていると決定することができる。

垂直オクルージョン解析モジュール２４０は、人物が障害物によって垂直に遮られている場合に、垂直オクルージョンを検出することができる。垂直オクルージョン（建物、街灯柱など）は、ある期間ビデオストリームのフレームから人物が完全に遮られる原因となることがある。垂直オクルージョン解析モジュール２４０は、オクルージョンが垂直オクルージョンであることを検出して表示を出力し、次に、行動予測システム１４０は、人物に関するより多くの情報を含むオクルージョン画像の前または後のフレームを行動予測のために使用することを決定することができる。

透過オクルージョン解析モジュール２５０は、網状フェンスなどが人間の一部を遮るが、人間は概して透けて見える透過オクルージョンを検出する。透過オクルージョン解析モジュール２５０は、人間がフェンスをまたいだり乗り越えたりして車道に歩いて入る確率が低いので、人間を遮っている物体が、人間の物理的制約を知らせる街路仕切りまたは垣根であると決定してよい（たとえば、物体認識モデルを使用して）。透過オクルージョン解析モジュール２５０は、行動予測のために出力を行動予測システム１４０に渡すことができる。透過オクルージョン解析モジュール２５０のリソースからの出力はまた、計算リソースを割り当てることの助けにもなり得る。フェンスまたは街路仕切りの後ろを歩いている人間は、車道を横切る可能性がより低いので、行動予測システム１４０は、そのような個人を解析するために割り当てる計算能力をより少なくし、より高いリスクと関連付けられた他の人間に注目することができる。

集団行動解析モジュール２６０は、歩行者オクルージョンに基づいて集団行動を検出する。集団行動解析モジュール２６０は、歩行者が１人または複数の他の歩行者を遮っていることを検出し、潜在的な集団行動が検出され得ると決定することができる。集団行動解析モジュール２６０は、集団行動がラベル付けされた画像を含む訓練データを使用して機械学習モデルを訓練することができる。たとえば、訓練データは、集団とその集団内の対応する個人とがラベル付けされた画像を含み得る。１つの実施形態では、集団行動解析モジュール２６０は、群衆が街路を横断しているときなどに、場所に基づいて集団行動を特定することができる。１つの実施形態では、集団行動解析モジュール２６０は、同様の制服を着た学生の集団など、集団行動を同様の外見に基づいて特定することができる。集団行動解析モジュール２６０は、訓練データを使用して、訓練されたときに集団行動を通知する予測を出力する、機械学習モデルを訓練することができる。集団行動解析モジュール２６０は、人物に集団内の他の人が続いているかどうかなど、人の集団または群衆の構成を解析することができる。その出力は、行動予測のために行動予測システム１４０に渡されてよい。行動予測システム１４０は、その出力を使用して、たとえば横断行動の手本を示す集団内の特定の人物に集団の残りがどのように応じるか、または従うかを決定することができる。

追加オクルージョン解析モジュール２７０は、他のタイプのオクルージョンを検出する。追加オクルージョン解析モジュール２７０は、別々のオクルージョンメトリクスおよび画像特性を別々のラベル付き推論にマッピングするラベル付き訓練セットにオクルージョン情報を適合させることができる。追加オクルージョン解析モジュール２７０は、訓練データを用いて機械学習モデルを訓練し、その訓練されたモデルを使用して予測を行うことができる。たとえば、追加オクルージョン解析モジュール２７０は、人物の顔が部分的に遮られていることを検出し、物体認識モデルが、その人物がパーカを着ている、または視力障害者眼鏡をかけている、または携帯電話を持っていると推論することができ、これにより行動予測システム１４０は、その人物が環境に対する注意力がより低く、したがって車道に入るより高いリスクに関連付けられると決定する。別の例として、追加オクルージョン解析モジュール２７０は、困難なコントラスト／光（影、まぶしさ）環境に起因するオクルージョンを検出することができる。照明の故に情報を失う画像は、完全なバウンディングボックス予測のためにバウンディングボックス予測モジュール２２０へ送信され、次に、行動予測システム１４０に渡されてよい。あるいは、行動予測システム１４０は、より良い予測結果が得られるように、画像の照明を調整し、画像中の失われた情報を回復させてもよい。

オクルージョン解析システムからの出力に基づく行動予測
図５は、１つの実施形態による、オクルージョン解析システムからの出力に基づいて行動を予測する例示的な実施形態を示す。オクルージョン解析システム１３０の出力は、オクルージョンについての理解を行動予測システム１４０に提供し、行動予測システム１４０は、その情報を利用して行動予測を改善することができる。

行動予測システム１４０は、オクルージョン解析システム１３０からの出力に基づいて、時空間的な情報（たとえば、時間および周辺環境に関連付けられた情報）を通知５１０することができる。上述のように、遮られた人物に対するバウンディングボックスは、完全なバウンディングボックスよりも小さく、これにより、その人物が車両から実際の距離よりも遠くにあるように見え得る。行動予測システム１４０は、オクルージョン情報のないオクルージョン画像を使用して、実際の距離よりも長い距離を推定することができる。推定を改善するための１つの実施形態では、オクルージョン解析システム１４０は、予測された完全なバウンディングボックスを生成し、その出力を行動予測システム１４０に渡すことができ、行動予測システム１４０は、その予測された完全なバウンディングボックスに基づいてより正確な距離推定を生成することができる。その予測結果は、ひいては、いつ車両にブレーキをかけるか、または車両を減速させるかの決定に影響を及ぼすなど、制御システムに影響を及ぼし得る。

行動予測システム１４０は、オクルージョン解析システム１３０からの出力に基づいて、行動予測のための信頼水準５２０を調整することができる。１つの実施形態では、行動予測システム１４０は、人間行動の様々な態様を予測するための複数のサブモデル（たとえば、追跡モデル、注意決定モデル、ロコモーションモデルなど）を組み合わせたモジュール手法を使用することができる。１つの実施形態では、オクルージョンパラメータは訓練データに組み込まれ、行動予測モデルは、その訓練データを使用して訓練される。行動予測システム１４０は、オクルージョン解析モジュール１３０から出力されたオクルージョンパラメータ（たとえば、オクルージョン表示、オクルージョン割合、オクルージョン方向など）を使用して信頼水準を、生成された予測ごとに決定することができ、これにより各モデルは、検出の確実性と、その検出に依拠するさらなるモデルとを決定することができる。たとえば、人間の脚が生け垣によって遮られている場合、ロコモーションモデルは、ロコモーションモデルが限られたデータに基づいて推定を生成するので、オクルージョンパラメータ（たとえば、６０％水平下部オクルージョン）に基づいて、その予測に対して比較的低い信頼水準を決定し得る。行動予測システム１４０は、信頼スコアがより高い別のサブモデルの結果に依拠することを、そのような結果が入手可能である場合に決定することができる。１つの実施形態では、行動予測のための各サブモデルは、達成すべき信頼水準の閾値と関連付けられている。異なるサブモデルは、オクルージョンパラメータによって異なる影響を受け得る。第１のモデルに対する信頼水準が信頼水準の第１の閾値未満であることに応じて、行動予測システム１４０は、オクルージョンに対する感受性がより低い、したがって閾値レベルよりも高い、より高い信頼水準に関連付けられた予測を行う、第２のモデルを使用することを決定してもよい。１つの実施形態では、第２のモデルは、第２のモデルに対する入力が何らかのオクルージョン情報を活用しているかどうかという決定によって特定されてよい。オクルージョン情報を含まない（またはほとんど含まない）データを使用するが、センサデータなどの他のタイプの情報に依存しているモデルは、オクルージョンに対する感受性がより低いことがあり得る。

１つの実施形態では、行動予測システム１４０は、異なる信頼区間に対して異なる措置を決定するためのマルチ閾値システムを含み得る。たとえば、マルチ閾値システムは、高閾値（たとえば、８０％）および低閾値（たとえば、６０％）を含むことができ、この場合、高閾値を超える信頼水準は、モデルの結果が行動予測に使用され得ることを示し、低閾値を超えるが高閾値よりも低い信頼水準は、行動予測システム１４０が行動予測のために追加のモデルからの結果を活用する必要があり得ることを示し、低閾値以下の信頼水準は、行動予測システム１４０がその結果を行動予測に使用しない場合があることを示し得る。

行動予測システム１４０は、オクルージョン解析システム１３０からの出力に基づいて、注目の人物５３０により多くの処理能力を集中させることを決定してもよい。１つの実施形態では、歩行者の集団に関して、集団行動解析モジュール２６０は、集団内の特定の人物の後ろに群衆が続く可能性があると決定し得る。行動予測システム１４０は、その情報を入力として使用し、より多くの処理能力を割り当ててその特定の人物に関連する情報を処理することを決定することができ、特定の人物についてより正確な行動予測を生成する。別の実施形態では、行動予測システム１４０は、透過オクルージョン解析モジュール２５０からの結果に基づいて、歩行者がフェンスの後ろを歩いていると決定することができ、その結果、行動予測システム１４０は、その歩行者が車道を横切る可能性が低いために、より少ない処理能力を歩行者に集中させることを決定してもよい。

オクルージョン解析システム１３０は、行動予測をさらに強化する追加の行動信号５４０を行動予測システム１４０にさらに通知することができる。１つの実施形態では、行動予測システム１４０は、人物の体の一部分（たとえば、人間がパーカを着ている場合は後頭部および周辺部、人間が電話を自分の耳に持ってきている場合は耳、視力障害者眼鏡が検出された場合は目など）が遮られていることを示す、オクルージョン解析システム１３０からの出力を受信することができ、これにより行動予測システム１４０に、その人物がその環境に対する注意力がより低いと決定させ、行動予測システム１４０は、そのような個人に関連付けられたより高いリスクを予測することができる。１つの実施形態では、オクルージョン解析システム１３０は、側面視像で見て人物の脚が遮られているので、その人物がオートバイに乗っていると予測することができる。オクルージョン解析システム１３０は、その画像をオートバイに乗っているＶＲＵのラベルと関連付け、その情報を行動予測システム１４０に渡すことができ、行動予測システム１４０は、オートバイのライダーに関する行動予測のための関連したモデルを適用することができる。１つの実施形態では、オクルージョン解析システム１３０は、正面視像で見て人物の脚が遮られているので、その人物が電動スクータに乗っていると予測することができる。オクルージョン解析システム１３０は、その画像を電動スクータに乗っているＶＲＵのラベルと関連付け、その情報を行動予測システム１４０に渡すことができ、行動予測システム１４０は、電動スクータに関する行動予測のための関連したモデルを適用することができる。

オクルージョン解析システム１３０は、行動予測システム１４０の追跡モデル５５０にさらに影響を及ぼし得る。１つの実施形態では、行動予測システム１４０は、フレームベースの推定を行い、フレームごとの不確定性を抽出することができる。一連のフレームに関して、行動予測システム１４０は、オクルージョン解析システム１３０からのオクルージョンパラメータを使用して、追跡の質を改善し得る、不確定性が経時的にどのように変化するかを決定することができ、ひいては、追跡情報に依拠するすべてのモデルについての下流精度利得（downstream accuracy gains）がある。１つの実施形態では、追跡モデルは、人物に関連付けられた特性を解析するために、確実性がより高い（たとえば、オクルージョンがより少ない）フレームを使用することを決定してもよい。オクルージョンがより少ないフレームから抽出されたより多くの情報を用いて、追跡モデルは、より高い精度で個人を追跡することができ得る。

図６は、１つの実施形態による、オクルージョン解析に基づく行動予測のための例示的なプロセスを示す。プロセス６００は、オクルージョン解析システム１３０が、一連のフレームを含むビデオを受信すること６１０から開始することができ、少なくともフレームのうちの１つにおいて、人間が部分的または全体的に視認可能である。オクルージョン解析システム１３０は、その一連のフレームを１つまたは複数のオクルージョンモデルに適用すること６２０ができ、オクルージョンモデルは、ビデオ中の人間のオクルージョンを検出するように訓練された機械学習モデルである。行動予測システム１４０は、オクルージョン解析システム１３０から出力を受信すること６３０ができ、この出力は、オクルージョン情報を通知するオクルージョンパラメータである。行動予測システム１４０は、オクルージョンパラメータ、ならびに、人間の活動に関連する他のパラメータ（たとえば、外観、動き、位置など）を、行動予測のための第２の機械学習モデルに入力すること６４０ができる。第２の機械学習モデルは、人間が将来の行動を示すであろうとの予測と、その予測に関連付けられた信頼水準とを出力するように訓練されたより高レベルなモデルであってもよい。信頼水準は、オクルージョンパラメータに基づいて少なくとも部分的に決定される。行動予測システム１４０は、予測および信頼水準を、車両に対するコマンドを生成したり運転者に対するアラートを生成したりする制御システムに出力すること６５０ができる。

追加の考慮事項
本発明の実施形態についての前述の説明は例示の目的で提示されている。説明は網羅的なものではなく、または、開示されたそのままの形に本発明を限定するものでもない。当業者は、上記の開示に照らして多くの修正形態および変形形態が可能であることを理解するだろう。

本明細書のいくつかの部分は、本発明の実施形態を情報の操作のアルゴリズムおよび記号表現に関して説明している。これらのアルゴリズムに関する説明および表現は、データ処理技術分野の当業者によって、その仕事の内容を他の当業者に効果的に伝えるために通常使用されている。これらの動作は、機能的、計算的、または論理的に説明されているが、コンピュータプログラムまたは同等の電気回路、マイクロコードなどによって実現されると理解される。さらに、これらの動作の構成をモジュールと呼ぶことが場合により便利であることも、一般性を失うことなく判明している。説明された動作およびその関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの任意の組合せとして具現化され得る。

本明細書に記載のステップ、動作、または処理のいずれも、１つまたは複数のハードウェアモジュールまたはソフトウェアモジュールだけで、または他のデバイスとの組合せで実施され、または実現され得る。１つの実施形態では、ソフトウェアモジュールが、コンピュータプログラムコードを含有するコンピュータ可読媒体を含むコンピュータプログラム製品によって実装され、このコンピュータプログラムコードは、記載されたステップ、動作、または処理のいずれか、または全部を行うために、コンピュータプロセッサによって実行され得る。

本発明の実施形態はまた、本明細書の動作を行うための装置とも関連がある。この装置は、必要とされる目的のために特別に構築されてよく、かつ／または、コンピュータに記憶されたコンピュータプログラムによって選択的に起動もしくは再構成される汎用計算デバイスを備えることができる。このようなコンピュータプログラムは、非一時的な有形のコンピュータ可読記憶媒体、または電子的命令を記憶するのに適している任意のタイプの媒体に記憶されてよく、これらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及されるいずれの計算システムも、単一のプロセッサを含むことができ、または計算能力の増大のために複数のプロセッサ設計を使うアーキテクチャであり得る。

本発明の実施形態はまた、本明細書に記載の計算処理によって製造される製品にも関連があり得る。このような製品は、計算処理から得られた情報を含むことができ、この情報は、非一時的な有形のコンピュータ可読記憶媒体に記憶され、また、本明細書に記載のコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。

最後に、本明細書に使用される文言は、読みやすさおよび教示の目的のために主として選ばれており、本発明の主題を詳細に叙述する、または範囲を定めるために選ばれてはいないことがある。したがって、本発明の範囲は、本明細書の「発明を実施するための形態」によってではなく、本明細書に基づいて出願時に出されるいずれかの特許請求の範囲によって限定されるものである。それゆえに、本発明の実施形態の開示は、添付の特許請求の範囲に明示されている本発明の範囲を限定するものではなく、例示するものである。

Claims

一連のフレームを含むビデオを受信するステップであって、人間の少なくとも一部が前記一連のフレームのうちの所与のフレーム内で視認できる、ステップと、
前記一連のフレームをオクルージョンモデルに適用するステップであって、前記オクルージョンモデルは、前記ビデオ中の前記人間のオクルージョンを検出するように訓練された機械学習モデルである、ステップと、
前記オクルージョンモデルからの出力として、１つまたは複数のオクルージョンパラメータを受信するステップと、
前記１つまたは複数のオクルージョンパラメータ、ならびに前記人間の活動に関連する他のパラメータを第２のモデルに入力するステップであって、前記第２のモデルは、前記他のパラメータに基づいて、前記人間が将来の行動を示すであろうと予測し、または前記人間の現在の行動を認識し、前記第２のモデルは、前記１つまたは複数のオクルージョンパラメータに基づいている、前記予測に関連付けられた信頼水準を出力する、ステップと、
前記予測および前記信頼水準を制御システムに出力するステップと
を含む方法。
前記オクルージョンモデルからの前記出力中の前記１つまたは複数のオクルージョンパラメータは、前記所与のフレーム内で前記人間が遮られている割合である請求項１に記載の方法。
前記オクルージョンモデルからの前記出力中の前記１つまたは複数のオクルージョンパラメータは、第１のフレーム内の前記人間のオクルージョンの方向の度合いを含む請求項２に記載の方法。
前記割合およびオクルージョンの方向の前記度合いが使用されて、前記人間の予測される速度および距離が調整される請求項３に記載の方法。
前記１つまたは複数のオクルージョンパラメータは、前記人間が遮られているかどうかの二値表示を含み、前記表示は、前記第２のモデルに対する入力として使用される請求項１に記載の方法。
前記信頼水準は、前記１つまたは複数のオクルージョンパラメータが、前記所与のフレーム内で前記人間が遮られていることを示しているかどうかに基づいて決定される請求項１に記載の方法。
前記信頼水準が前記第２のモデルに関連付けられた第１の閾値レベル未満であることに応じて、行動予測のための第３のモデルを選択するステップであって、前記１つまたは複数のオクルージョンパラメータを使用して予測された前記第３のモデルの予測信頼水準は、前記第３のモデルに関連付けられた第２の閾値信頼水準を超える、ステップをさらに含む請求項６に記載の方法。
前記オクルージョンモデルは、遮られていない前記人間の前記部分を示す第１のバウンディングボックスに基づいて、オクルージョンのない前記人間を示す第２のバウンディングボックスを予測する請求項１に記載の方法。
前記オクルージョンモデルは、前記所与のフレーム内の遮られていない前記人間の一部に基づいて、前記人間のポーズを予測する請求項１に記載の方法。
前記所与のフレーム内でオクルージョンを検出することに応じて、前記ビデオ中の前記所与のフレームの前または後にある別の所与のフレームを使用することを決定するステップであって、前記人間が前記別の所与のフレーム内では遮られていない、ステップをさらに含む請求項１に記載の方法。
処理能力が閾値未満であることを検出することに応じて、前記１つまたは複数のオクルージョンパラメータに基づいて、前記所与のフレームの注目領域に前記処理能力を集中させることを決定するステップをさらに含む請求項１に記載の方法。
前記オクルージョンモデルは、照明環境によって引き起こされるオクルージョンをさらに検出する請求項１に記載の方法。
前記オクルージョンモデルは、前記人間が人の集団に属していることを、前記人間が前記集団内の別の人間によって遮られているパターンの解析に基づいて決定する請求項１に記載の方法。
前記オクルージョンモデルは、独立型モデルであるか、または前記第２のモデルに埋め込まれている請求項１に記載の方法。
１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに動作を実施させる実行可能なコンピュータ命令が符号化されているメモリを含む、非一時的なコンピュータ可読記憶媒体であって、前記命令は、
一連のフレームを含むビデオを受信することであって、人間の少なくとも一部が前記一連のフレームのうちの所与のフレーム内で視認できることと、
前記一連のフレームをオクルージョンモデルに適用することであって、前記オクルージョンモデルは、前記ビデオ中の前記人間のオクルージョンを検出するように訓練された機械学習モデルであることと、
前記オクルージョンモデルからの出力として、１つまたは複数のオクルージョンパラメータを受信することと、
前記１つまたは複数のオクルージョンパラメータ、ならびに前記人間の活動に関連する他のパラメータを、前記他のパラメータに基づいて、前記人間が将来の行動を示すであろうと予測し、または前記人間の現在の行動を認識する第２のモデルであって、さらに、前記１つまたは複数のオクルージョンパラメータに基づいている、前記予測に関連付けられた信頼水準を出力する第２のモデルに入力することと、
前記予測および前記信頼水準を制御システムに出力する
命令を含む、非一時的なコンピュータ可読記憶媒体。
前記オクルージョンモデルからの前記出力中の前記１つまたは複数のオクルージョンパラメータは、前記所与のフレーム内で前記人間が遮られている割合である請求項１５に記載の非一時的なコンピュータ可読記憶媒体。
前記信頼水準は、前記１つまたは複数のオクルージョンパラメータが、前記所与のフレーム内で前記人間が遮られていることを示しているかどうかに基づいて決定される請求項１５に記載の非一時的なコンピュータ可読記憶媒体。
前記命令は、
前記信頼水準が前記第２のモデルに関連付けられた第１の閾値レベル未満であることに応じて、行動予測のための第３のモデルを選択することであって、前記１つまたは複数のオクルージョンパラメータを使用して予測された前記第３のモデルの予測信頼水準は、前記第３の機械学習モデルに関連付けられた第２の閾値信頼水準を超える、選択することを行う命令を含む請求項１７に記載の非一時的なコンピュータ可読記憶媒体。
前記１つまたは複数のオクルージョンパラメータは、前記人間が遮られているかどうかの二値表示を含み、前記表示は、前記第２のモデルに対する入力として使用される請求項１５に記載の非一時的なコンピュータ可読記憶媒体。
前記命令は、前記所与のフレーム内でオクルージョンを検出することに応じて、前記ビデオ中の前記所与のフレームの前または後にある別の所与のフレームを使用することを決定することであって、前記人間が前記別の所与のフレーム内では遮られていない、決定することを行う命令を含む請求項１５に記載の非一時的なコンピュータ可読記憶媒体。