JP2023044674A

JP2023044674A - 自律運転における可動オブジェクトについての深層学習モデルを診断及び改善するための視覚的分析システム

Info

Publication number: JP2023044674A
Application number: JP2022148246A
Authority: JP
Inventors: ゴウリャン; liang Gou; ヅォウリンカン; Lincan Zou; レンリウ; Liu Ren; フーウェンビン; Wenbin He
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-17
Filing date: 2022-09-16
Publication date: 2023-03-30
Also published as: CN115830569A; DE102022209528A1; US20230085938A1

Abstract

【課題】自律運転用のオブジェクト検出機械学習モデルを診断するシステム及び方法の実施形態を本明細書に開示する。【解決手段】車両内又は車両上に取り付けられたカメラから、シーンを示す入力画像が受け取られる。シーン内の可動オブジェクトの空間分布が、コンテキストアウェア空間表現機械学習モデルを使用して導出される。空間敵対的機械学習モデルを利用して、元の入力画像内に存在しない未観測のオブジェクトがシーン内に生成される。オブジェクト検出機械学習モデルを失敗させるために、当該空間敵対的機械学習モデルを介して、未観測のオブジェクトが種々異なる位置へ移動される。インタラクティブユーザインタフェースによって、ユーザは、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能を分析することができる。【選択図】図１

Description

本開示は、自律運転における可動オブジェクトについての深層学習モデルを診断及び改善するための視覚的分析システムに関する。

背景
自律運転によって、車両は、自身の環境を検出することができ、人間による入力をほとんど又は全く用いずに安全に移動することができる。多くのシステムが自律運転を可能にしている。このようなシステムの１つが、セマンティックセグメンテーションである。セマンティックセグメンテーションには、車両内又は車両上に取り付けられたカメラからの画像を取得して、入力画像をピクセルレベルで意味論的に有意な複数の領域へ区分することと、各領域に歩行者、乗用車、道路などのセマンティックラベルを割り当てることとが含まれる。

深層畳み込みニューラルネットワーク（ＣＮＮ）は、オブジェクト検出及びセマンティックセグメンテーションを含む自律運転用の認識システムにおいてますます重要な役割を果たすようになってきている。ＣＮＮの性能は優れているものの、安全上の懸念から、自律型車両への配備の前にモデルの精度及びロバストネスについての徹底的な評価が必要である。一方では、モデルの精度は、モデルが失敗する傾向を示し得る時点及び原因を完全に理解するために、オブジェクトに関して、多数のセマンティッククラス及びデータソースを用いて分析されるべきである。他方では、未観測の運転シーンに対するモデルのロバストネスを改善するためには、モデルの潜在的な脆弱性を識別及び理解することがきわめて重要である。

概要
一実施形態によれば、自律運転用のオブジェクト検出機械学習モデルを診断するためのコンピュータ実装された方法が提供される。コンピュータ実装された方法は、カメラからシーンを示す入力画像を受け取るステップと、コンテキストアウェア空間表現機械学習モデルを利用して、シーン内の可動オブジェクトの空間分布を導出するステップと、空間敵対的機械学習モデルを利用して、入力画像内に存在しない未観測のオブジェクトをシーン内に生成するステップと、オブジェクト検出機械学習モデルを失敗させるために、空間敵対的機械学習モデルを介して、未観測のオブジェクトを種々異なる位置へ移動させるステップと、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、インタラクティブユーザインタフェースを出力するステップと、を含む。

一実施形態によれば、ヒューマンインザループによる自律運転用のオブジェクト検出機械学習モデルを診断するシステムが提供される。システムは、ユーザインタフェースを含む。システムは、カメラから受け取られた車両外部のシーンを示す入力画像を記憶するメモリであって、シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令をさらに記憶し、かつ、未観測のオブジェクトを生成してシーン内へ挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令をさらに記憶したメモリを含む。システムは、メモリに通信可能に結合されたプロセッサであって、シーンのセマンティックマスクをセマンティックセグメンテーションによって生成し、コンテキストアウェア空間表現機械学習モデルを利用して、セマンティックマスクに基づいてシーン内の可動オブジェクトの空間分布を特定し、空間敵対的機械学習モデルを利用して、入力画像内に存在しない未観測のオブジェクトをシーン内に生成し、オブジェクト検出機械学習モデルを失敗させるために、空間敵対的機械学習モデルを利用して、未観測のオブジェクトを種々異なる位置へ移動させ、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、ユーザインタフェース上に視覚的分析を出力するようにプログラミングされたプロセッサを備える。

一実施形態によれば、システムは、（ｉ）カメラから受け取られた車両外部のシーンを示す入力画像、（ｉｉ）当該入力画像に関連付けられたセマンティックマスク、（ｉｉｉ）シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令、及び、（ｉｖ）未観測のオブジェクトを生成してシーン内へ挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令を記憶したメモリを備える。システムは、メモリと通信し、コンテキストアウェア空間表現機械学習モデルを介して、シーン内の可動オブジェクトの座標を潜在空間内へ符号化し、座標をデコーダにより再構成して可動オブジェクトの空間分布を特定するようにプログラミングされた１つ又は複数のプロセッサを備える。１つ又は複数のプロセッサは、さらに、空間敵対的機械学習モデルを介して、（ｉ）シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングし、（ｉｉ）メモリから類似のバウンディングボックス座標を有するオブジェクトを取り出し、（ｉｉｉ）当該オブジェクトをバウンディングボックス内に配置することにより、入力画像内に存在しない未観測のオブジェクトをシーン内に生成するようにプログラミングされている。１つ又は複数のプロセッサは、さらに、オブジェクト検出機械学習モデルを失敗させるために、空間敵対的機械学習モデルを介して、試行の際に、空間敵対的機械学習モデルを利用して未観測のオブジェクトを種々異なる位置へ移動させるようにプログラミングされている。１つ又は複数のプロセッサは、さらに、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、ユーザインタフェース上に視覚的分析を出力するようにプログラミングされている。

一実施形態による、視覚的分析ツール及びその基礎となる機械学習モデルを実施するシステムの概略図である。一実施形態による、入力画像から予測マスクを生成する機械学習モデルの概略図である。一実施形態による、可動オブジェクトに関するセマンティックセグメンテーションモデルの精度及びロバストネスを診断及び改善するように構成されたシステムの概略図である。一実施形態によるコンテキストアウェア空間表現機械学習モデルの概略図である。一実施形態による空間敵対的機械学習モデルの概略図である。一実施形態による、ユーザインタフェース上にＭａｔｒｉｘＳｃａｐｅビュー又は領域を出力するように構成されたシステムの概略図である。一実施形態による、ユーザインタフェース上に可視のＭａｔｒｉｘＳｃａｐｅビューの一例としての市街地運転シーンのためのセマンティックセグメンテーションモデルの性能景観図である。２つのデータセットの比較、即ち、このケースにおいてはトレーニングデータセット又はオリジナルデータセットと敵対的データセットとの比較のブロックビューであり、それぞれのブロックは、一実施形態によれば、ブロックによって表現された画像の観測のために拡張可能である。本明細書に開示するプロセッサによって実装される方法又はアルゴリズムのフローチャートである。

詳細な説明
本開示の実施形態を本明細書において説明する。ただし、開示する実施形態は単なる例であり、他の実施形態として様々な代替形態を取り得ることを理解されたい。各図面は必ずしも縮尺通りに描かれておらず、いくつかの特徴は、特定の構成要素の詳細を示すために、誇張し又は縮小したところがある。従って、本明細書に開示する特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、むしろ実施形態の様々な利用を当業者に教示するための単なる代表的な基礎として解釈されるべきである。当業者には理解されるように、図面のいずれか１つを参照して図示及び説明する様々な特徴は、１つ又は複数の他の図面に示されている特徴と組み合わせて、明示的に図示又は説明されない実施形態を構成することができる。図示の特徴の組合せにより、典型的な用途のための代表的な実施形態が提供される。なお、本開示の教示と一致する特徴の様々な組合せ及び修正は、特定の用途又は実施にとって望ましいものであり得る。

自律運転車両は、適当な決定を行うために運転シーンを認識及び理解する必要がある。セマンティックセグメンテーションは、運転領域を認識して歩行者、乗用車及びその他などの道路上の重要なオブジェクトを検出するために、自律運転システムにおいて一般的に使用されている。セマンティックセグメンテーションは、種々の技術により（即ち、画像技術だけでなく）使用することができるが、本開示においては、（例えば、車両内又は車両上に取り付けられたカメラから取得された）画像をピクセルレベルで意味論的に有意な複数の領域に分割し、各セグメントをクラス（例えば、道路、歩行者、車両、乗用車、建物など）に分類する、画像データのセマンティックセグメンテーションに焦点を当てている。図１は、動作中のセマンティックセグメンテーションの例を示している。入力画像は１つ以上の機械学習モデルに供給され、当該機械学習モデルにより予測マスクが出力される。予測マスクとは、入力画像内において観測された様々な項目を複数のセグメントに分割し、各セグメントをクラスに分類するための画像である。同様のクラスは、同様の色又は陰影により着色又は陰影付けすることができる。セマンティックセグメンテーションにより、自律運転車両システムは、車両が運転安全性のために制御可能となるように、車両の周囲にあるオブジェクトをより良好に理解することができる。

自律運転用の現在の視覚的分析ソリューションは、主にオブジェクト検出に焦点を当てており、セマンティックセグメンテーションモデルは、この分野においてはあまり研究されていない。セマンティックセグメンテーションモデルが重要なオブジェクトを検出できなかった時点及び原因を評価及び診断することは困難である。通常、テストすべき大量のデータセットが存在するので、特にシーンコンテキストに関連して失敗のケースを迅速に識別し、これらの失敗の根本的な原因を診断することは困難である。例えば、歩行者がコンテキスト内においてトラフィックコーンに似た色の衣服を着ているために、セマンティックセグメンテーションモデルによって見落とされることがある。さらに、開放領域及び歩道の歩行者など、オブジェクトが通常のコンテキスト内にある場合には、モデルもその大部分を観測することができるが、以前に観測したことのないコンテキスト依存性の位置も存在することがあり、例えば、トラックとポストとの間にいる人物は、セマンティックセグメンテーションモデルによって検出されないことがあり得る。こうした潜在的なリスクを明らかにし、これらのエッジケースに対するオブジェクト検出器の空間的ロバストネスを評価することは困難である。

深層畳み込みネットワーク（ＣＮＮ）は、自律運転用の認識システム、例えばオブジェクト検出及びセマンティックセグメンテーションにおいてますます重要な役割を果たすようになってきている。ＣＮＮの性能は優れているものの、安全上の懸念から、自律型車両への配備の前にＣＮＮの徹底的な評価が必要であり、このために、複雑なＣＮＮの挙動を分析、解釈及び理解すべく、視覚的分析が広く使用されている。ＣＮＮを解析するために、主にモデルの解釈及び診断に焦点を当てた視覚的分析のアプローチがいくつか提案されてきた。モデル解釈の目的は、ニューロン及び特徴マップを直接的に視覚化することにより、又は、説明可能な代替モデル（例えば、線形モデル）を利用することにより、ＣＮＮのブラックボックスを開放することである。モデル診断においては、モデルの予測結果を要約して比較し、潜在的な脆弱性を分析することによって、モデルの性能を評価及び理解することに焦点が当てられている。

本明細書に開示する実施形態においては、システムは、まず、与えられた運転シーンから、位置、サイズ及びアスペクト比などの、オブジェクトのコンテキストアウェア空間表現を学習する。当該空間表現によって、システムは、（１）種々異なる運転シーンにおけるオブジェクトの空間情報（例えば、可能な位置、サイズ及びアスペクト比）の分布を推定し、（２）オブジェクトの空間情報に関するモデルの性能を要約及び解釈し、（３）シーンのコンテキストを考慮して、運転シーン内へ新たなオブジェクトを適当に挿入することによって、新たなテストケースを生成することができる。この場合、実施形態においては、システムはまた、敵対的学習を使用して、学習された空間表現内のオブジェクトの位置及びサイズを摂動させ又は変更することによって、未観測のテスト例を効率的に生成する。次に、視覚的分析システムが、自然データ及び敵対的データの双方にわたるモデルの性能を視覚化及び分析し、モデルの精度及び空間的ロバストネスを改善するための行動可能な洞察を導出する。これらのことは全て、人間が操作可能なインタラクティブ視覚的分析システムにおいて行われる。

より具体的には、図面を参照しながら後にさらに説明するように、自律運転における臨界的なオブジェクトの検出のためのセマンティックセグメンテーションモデルを評価し、解釈し、改善する視覚的分析システムを以下に開示する。視覚分析システムは、与えられたシーンにおける可動オブジェクトの空間分布を学習するために、コンテキストアウェア表現学習（図４）を使用する。モデルは、バウンディングボックス座標を低次元の潜在空間内へ符号化し、デコーダによりボックスを再構成することによって、空間情報を学習する。システムはまた、条件入力としてセマンティックマスクを使用して、空間分布を強制的にシーンコンテキストに依存させる。このように、潜在次元は、可動オブジェクトの解釈可能な空間分布を捕捉するものである。このことは、オブジェクトに関する情報、例えば、オブジェクトの位置（例えば、左から右へ、又は、近から遠へ）の視覚的な理解を支援する視覚ツールをユーザに提供することに役立つ。これはまた、オブジェクトの全体的な性能の解釈にも役立つ。以下において説明するように、当該システムは、１つのコンテキスト内の種々の位置において未観測のオブジェクトを生成してモデルのロバストネスをテストするための空間敵対的機械学習モデル（図５）も含む。運転シーンが与えられると、システムは、別の可動オブジェクトを生成して、その位置の小さい有意の変更により、検出器を失敗させることができる。これは、空間的な潜在空間からオブジェクトの可能な位置をサンプリングすることによって行うことができる。当該位置は、与えられたシーンマスク上において調整される。検出器が失敗し得る新たな位置が生成されるように、潜在次元を変更することができる。敵対的勾配推定がこれを達成することができる。潜在次元にわたる最小変更量は、空間的なロバストネスを示すことができる。オリジナルデータ及び生成された敵対的データを用いて、視覚的分析システムは、人間がセマンティックセグメンテーションモデルを分析及び改善できるように、ユーザインタフェースを生成することができる（図６乃至図８）。これらの図面については、以下において、より詳細に説明する。

図１には、本明細書に開示するシステムを実施することが可能であって、これを実施するように構成された全体的なシステム１００が示されており、当該システムには、視覚的分析ツール及びその基礎となる機械学習モデルが含まれている。システム１００は、少なくとも１つのコンピューティングシステム１０２を含み得る。コンピューティングシステム１０２は、メモリユニット１０８又はメモリに動作可能に接続された少なくとも１つのプロセッサ１０４を含み得る。プロセッサ１０４は、中央処理ユニット（ＣＰＵ）１０６の機能を実装した１つ又は複数の集積回路を含み得る。ＣＰＵ１０６は、例えば、ｘ８６、ＡＲＭ、Ｐｏｗｅｒ又はＭＩＰＳ命令セットファミリなどのうちの１つの命令セットを実装した市販入手可能な処理ユニットであり得る。動作中に、ＣＰＵ１０６は、メモリユニット１０８に記憶されそこから取り出されたプログラム命令を実行することができる。記憶されたプログラム命令は、本明細書に記載の動作を実行するためにＣＰＵ１０６の動作を制御するソフトウェアを含み得る。いくつかの例においては、プロセッサ１０４は、ＣＰＵ１０６、メモリユニット１０８、ネットワークインタフェース及び入出力インタフェースの機能を単一の集積装置に集積したシステムオンチップ（ＳｏＣ）であるものとしてよい。コンピューティングシステム１０２は、様々な態様の動作を管理するオペレーティングシステムを実装することができる。

メモリユニット１０８は、命令及びデータを記憶する揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリは、ソリッドステートメモリ、例えばＮＡＮＤフラッシュメモリ、磁気記憶媒体及び光学記憶媒体、又は、コンピューティングシステム１０２が非アクティブ状態のとき又は電力を喪失したときにデータを保持する任意の他の適当なデータストレージデバイスを含み得る。揮発性メモリは、プログラム命令及びデータを記憶するスタティックランダムアクセスメモリ及びダイナミックランダムアクセスメモリ（ＲＡＭ）を含み得る。例えば、メモリユニット１０８は、機械学習モデル１１０又はアルゴリズム、機械学習モデル１１０のためのトレーニングデータセット１１２、及び、ローソースデータセット１１５を記憶し得る。

コンピューティングシステム１０２は、外部のシステム及びデバイスとの通信を提供するように構成されたネットワークインタフェースデバイス１２２を含み得る。例えば、ネットワークインタフェースデバイス１２２は、ＩＥＥＥ（Institute of Electrical and Electronics Engineers）８０２．１１規格ファミリによって規定されている有線及び／又は無線のイーサネットインタフェースを含み得る。ネットワークインタフェースデバイス１２２は、セルラネットワーク（例えば、３Ｇ、４Ｇ、５Ｇ）と通信するためのセルラ通信インタフェースを含み得る。ネットワークインタフェースデバイス１２２は、さらに、外部ネットワーク１２４又はクラウドへの通信インタフェースを提供するように構成され得る。

外部ネットワーク１２４は、ワールドワイドウェブ又はインターネットと称され得る。外部ネットワーク１２４は、コンピューティングデバイス間における標準的な通信プロトコルを確立することができる。外部ネットワーク１２４は、コンピューティングデバイスとネットワークとの間における情報及びデータの容易な交換を可能にし得る。１つ以上のサーバ１３０が外部ネットワーク１２４と通信することができる。１つ以上のサーバ１３０は、本明細書に開示するシステムを実施するように構成されたメモリ及びプロセッサを有し得る。

コンピューティングシステム１０２は、デジタル及び／又はアナログの入力及び出力を提供するように構成される入出力（Ｉ／Ｏ）インタフェース１２０を含み得る。Ｉ／Ｏインタフェース１２０は、外部デバイスと通信するための付加的なシリアルインタフェース（例えば、ユニバーサルシリアルバス（ＵＳＢ）インタフェース）を備えるものとすることができる。

コンピューティングシステム１０２は、システム１００が制御入力を受け取ることを可能にする任意のデバイスを含み得るマンマシンインタフェース（ＨＭＩ）デバイス１１８を含み得る。入力デバイスの例として、キーボード、マウス、タッチスクリーン、音声入力デバイス、及び、他の同様のデバイスのようなヒューマンインタフェースを含み得る。コンピューティングシステム１０２は、ディスプレイデバイス１３２を含み得る。コンピューティングシステム１０２は、グラフィックス情報及びテキスト情報をディスプレイデバイス１３２に出力するためのハードウェア及びソフトウェアを含み得るものである。ディスプレイデバイス１３２は、電子ディスプレイスクリーン、プロジェクタ、プリンタ、又は、ユーザ若しくはオペレータに情報を表示するための他の適当なデバイスを含み得るものであり、ユーザがヒューマンインザループのオペレータとして行動することにより、視覚分析システムを介して機械学習モデルが相互作用によって診断される。さらに、コンピューティングシステム１０２は、ネットワークインタフェースデバイス１２２を介したリモートＨＭＩ及びリモートディスプレイデバイスとの間の相互作用を可能にするように構成されるものとしてよい。ＨＭＩ１１８及びディスプレイ１３２は、集合的にユーザインタフェース（例えば、分析システムに対する視覚的コンポーネント）をユーザに提供することができ、これにより、人間であるユーザとプロセッサ１０４との相互作用が可能となる。

システム１００は、１つ又は複数のコンピューティングシステムを使用して実装され得るものである。この例は、説明する特徴の全てを実現した単一のコンピューティングシステム１０２を示しているが、様々な特徴及び機能が相互に通信する複数のコンピューティングユニットに分離されて実現され得ることが意図されている。選択された特定のシステムアーキテクチャは、種々の要因に依存し得るものであり、図１に示したシステムは、単なる一例である。

システム１００は、ローソースデータセット１１５を分析するように構成された機械学習アルゴリズム１１０を実装し得る。ローソースデータセット１１５は、ローセンサデータ若しくは未処理のセンサデータ、又は、機械学習システムのための入力データセットを表現することのできる画像データを含み得る。ローソースデータセット１１５は、動画像、動画像セグメント、静止画像、テキストに基づく情報、及び、ローセンサデータ又は部分的に処理されたセンサデータ（例えば、オブジェクトのレーダマップ）を含み得る。いくつかの例においては、機械学習アルゴリズム１１０は、所定の機能を実行するように設計されたニューラルネットワークアルゴリズムであるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、自動車用途において、画像又は画像列（例えば、動画像）内の項目（例えば、歩行者、標識、建物、空、道路など）を識別し、さらにはこうした項目のラベルも含まれるように画像に注釈を付すべく構成することが可能である。機械学習アルゴリズム１１０は、これらの機能を実行する（例えば）ＣＮＮに依拠し得るものであり又はこれを含み得るものである。

コンピュータシステム１００は、機械学習アルゴリズム１１０に対するトレーニングデータセット１１２を記憶することができる。トレーニングデータセット１１２は、機械学習アルゴリズム１１０をトレーニングするための、以前に構築されたデータセットを表現し得る。トレーニングデータセット１１２は、ニューラルネットワークアルゴリズムに関連付けられた重み係数を学習するために、機械学習アルゴリズム１１０によって使用可能である。トレーニングデータセット１１２は、機械学習アルゴリズム１１０が学習プロセスを介して複製を試みた対応する成果又は結果を有するソースデータのセットを含み得る。この例においては、トレーニングデータセット１１２は、シーン内の項目を有する又は有さないソース静止画像又はソース動画像並びに対応する項目の有無情報及び位置情報を有する又は有さないソース静止画像又はソース動画像を含むものとしてよい。

機械学習アルゴリズム１１０は、トレーニングデータセット１１２を入力として使用する学習モードで動作させることができる。機械学習アルゴリズム１１０は、トレーニングデータセット１１２からのデータを使用して、複数回の反復にわたって実行され得る。それぞれの反復により、機械学習アルゴリズム１１０は、達成された結果に基づいて内部重み付け係数を更新することができる。例えば、機械学習アルゴリズム１１０は、出力結果（例えば、注釈、潜在変数、敵対的ノイズなど）を、トレーニングデータセット１１２に含まれているものと比較することができる。トレーニングデータセット１１２は、予期された結果を含むものであるので、機械学習アルゴリズム１１０は、性能が許容可能である時点を決定することができる。機械学習アルゴリズム１１０が所定の性能レベル（例えば、トレーニングデータセット１１２に関連付けられた成果との１００％の一致）を達成した後、機械学習アルゴリズム１１０は、トレーニングデータセット１１２内に存在しないデータを使用して実行され得る。トレーニング済みの機械学習アルゴリズム１１０は、注釈付きデータの生成のために、新たなデータセットに適用され得る。

図３は、可動オブジェクトに関するセマンティックセグメンテーションモデルの精度及びロバストネスを診断及び改善するように構成された視覚的分析システム３００の概観を提供している。一般に、システム３００は、インタラクティブ視覚的分析システムを生成するためにコンテキストアウェア空間敵対的機械学習モデルと空間敵対的機械学習モデルとの双方を含む。システム３００は、３０２においてオリジナルデータを使用し、このオリジナルデータは、検出されたオブジェクト上に配置されるグラウンドトゥルースのバウンディングボックスと、本明細書に記載する方法に従ってオリジナルデータから作成される対応するマスクとを含む。システム３００は、与えられたシーンにおける可動オブジェクトの空間分布を学習するために、コンテキストアウェア表現学習モデル３０４を使用する。システム３００は、モデルのロバストネスをテストするためにコンテキスト内の種々異なる位置（例えば、敵対的データ３０８）に未観測のオブジェクトを生成する、空間敵対的機械学習モデル３０６も使用する。オリジナルデータ３０２及び生成された敵対的データ３０８を用いて、システム３００は、システム３００全体に関してユーザがヒューマンインザループによるセマンティックセグメンテーションモデルを分析及び改善することができるようにするインタラクティブ視覚的分析ユーザインタフェース３１０を生成する。コンテキストアウェア空間敵対的機械学習モデル３０４、空間敵対的機械学習モデル３０６及びインタラクティブ視覚的分析ユーザインタフェース３１０のそれぞれについては、以下において詳細に説明する。

コンテキストアウェア空間敵対的機械学習モデル３０４は、図４により詳細に示されている。コンテキストアウェア空間敵対的機械学習モデル３０４は、まず（例えば、エンコーダを介して）バウンディングボックス座標を低次元の潜在空間内へ符号化し、次いで、デコーダを用いてボックスを再構成することによって、空間情報を学習する。特に、モデル３０４は、与えられた運転シーンを条件として、可動オブジェクトの空間情報（位置、サイズ及びアスペクト比など）の潜在表現を抽出するように構成されている。条件付き可変オートエンコーダ（ＣＶＡＥ）は、２つの主要なコンポーネント、即ち、エンコーダｅ_θ及びデコーダｄ_φを含み、コンテキストアウェア空間表現学習を実行するように構成されており、ここで、θ及びφは、それぞれのディープニューラルネットワークの重みである。運転シーンにおいてオブジェクトが与えられた場合、そのバウンディングボックス

が、エンコーダを介して、運転シーンのグラウンドトゥルースセグメンテーション（例えば、各ピクセル位置にセマンティッククラスラベルを有するマスク）ｍ_ｉを条件として、潜在ベクトルｚ_ｉ４０２へと符号化される。次いで、当該潜在ベクトルｚ_ｉが、同様にセマンティックセグメンテーションマスクｍ_ｉを条件とするデコーダｄ_φを使用して、再構成されたバウンディングボックス

へとマッピングされる。従って、条件入力ｍ_ｉによって、モデルにコンテキストアウェア空間表現を学習させることができる。換言すれば、セマンティックマスクが、空間分布を強制的にシーンコンテキストに依存させる条件入力として使用される。このように、潜在次元は、可動オブジェクトの解釈可能な空間分布を捕捉するものである。

一実施形態においては、ＣＶＡＥは、２つの損失を用いて訓練され、再構成損失ｌ_ｒ及び潜在損失ｌ_ｌを含む。再構成損失を用いて入力バウンディングボックスｂ_ｉと再構成バウンディングボックス

との差が測定され、この差に対して、ｂ_ｉと

との平均絶対誤差が、

として特定される。潜在損失は、近似された事後分布とガウシアンの事前分布との間のカルバック‐ライブラー情報量Ｄ_ＫＬであり得る。トレーナは、β‐ＶＡＥを用いて潜在表現を解膠する（disentangle）ことができ、これは、再構成損失ｌ_ｒと重みβを有する潜在損失ｌ_ｌとを組み合わせたもの、即ち、ｌ＝ｌ_ｒ＋βｌ_ｌである。実験により見出された実施形態においては、βを２ｅ－３に設定して、再構成の精度と潜在表現の解膠とを平衡化することができた。

訓練後、エンコーダ及びデコーダは、データの要約及び生成に使用することができる。エンコーダによって、各バウンディングボックスを、運転シーンに対するその空間情報、例えば、位置及びサイズを捕捉する潜在ベクトル４０２へとマッピングすることができる。潜在ベクトルの次元も、左から右へ、近から遠へ、小から大へといった意味論的意味を有している。これは、インタラクティブ視覚的分析ユーザインタフェース３１０の内部に又はその一部として設けられ得る一例として３１２に示されており、ここで、ｙ軸は、オブジェクトがどの程度近いか又は遠いかの第１の潜在次元であるものとしてよく、ｘ軸は、左から右への第２の潜在次元であるものとしてよい。潜在ベクトルは、オブジェクトの空間情報に関するセマンティックセグメンテーションモデルの性能を要約するために使用される。潜在空間から引き出されたサンプルが与えられると、デコーダは、与えられた運転シーンにおけるオブジェクトの可能な位置及びサイズ（例えば、マスク４０４内に示されているバウンディングボックス）を生成することができ、この位置及びサイズが、ロバストネスのテストのための敵対例の生成をガイドするために使用される。

図３に戻ると、空間敵対的機械学習モデル３０６に関して、空間敵対的機械学習モデル３０６の目標は、次の通りである。即ち、運転シーンが与えられたとき、セマンティックセグメンテーションモデルのロバストネスをテスト及び改善する目的で、学習された空間表現に基づいて、その位置における敵対例の変更によって検出器を失敗させるための別の可動オブジェクトを生成することができる。敵対例は、２つのステップ、即ち、（１）意味論的に一貫した方式により新たなオブジェクトを運転シーン内へ適当に挿入するステップと、（２）シーン内のオブジェクトの空間変換（例えば、位置及びサイズ）を調整して敵対的学習を介してターゲットモデルを欺くために潜在表現を摂動させるステップとによって生成することができる。これらの２つのステップは、空間敵対的機械学習モデル３０６のより詳細なビューである図５に示されている。特に、第１のステップ（例えば、オブジェクト挿入５０２）は、学習された空間潜在空間をサンプリングして新たなオブジェクトを挿入することにより、オブジェクトのコンテキストアウェア可能位置を取得することを含む。第２のステップ（例えば、空間敵対的学習５０４）は、敵対的学習を用いた潜在空間の検索によってモデルを失敗させるためにオブジェクトの位置及びサイズを摂動させることを含む。

オブジェクト挿入５０２に関して、システムは、運転シーンが与えられると、敵対的検索のために新たなオブジェクトをシーンに適当に挿入する。既存のオブジェクトについては、不要なアーチファクトの発生を回避するために、シーン内における変更又は移動は行われない。挿入されたオブジェクトをシーンセマンティクスに適合させる（例えば、歩行者は空に配置すべきでない）ために、学習された空間表現が活用されて、可能な位置がサンプリングされる。例えば、ステップ５０２において示されているように、まず、サンプルｚ_ｉが潜在空間から引き出されて、デコーダｄ_φとターゲット運転シーンｘ_ｉのセマンティックセグメンテーションマスクｍ_ｉとを用いて、バウンディングボックスｂ_ｉへとマッピングされる。次いで、（例えば、本明細書において説明しているメモリに記憶されている）全てのトレーニングデータが探索され、生成されたボックスｂ_ｉを含む最も類似したバウンディングボックスを有するオブジェクトが見出されて、取り出されたオブジェクトがバウンディングボックスｂ_ｉに適合するようにスケーリング及び平行移動される。類似のバウンディングボックスを有するオブジェクトを選択する理由は、スケーリング及び平行移動後にオブジェクトの忠実度を維持するためである。新たなオブジェクトを運転シーンにシームレスに混合するために、ポアソン混合を使用して、オブジェクトの色及び照明を周囲のコンテキストに一致させることができる。その一方では、境界アーチファクトを軽減するために、ガウシアンぼかしをオブジェクトの境界に適用することができる。

空間敵対的学習５０４に関して、これは、シーン内に挿入されたオブジェクトを適当にかつ効率的に移動させ、これにより、全体的なオブジェクト検出機械学習モデルによるオブジェクトの正確な検出を失敗させるために行われる。当該アイデアは、挿入されたオブジェクトの空間潜在表現を摂動させて、このオブジェクトを移動させてターゲットモデルを欺かせるための最速の手段を見出すことにある。具体的には、一実施形態において、バウンディングボックスｂ_ｉ内にオブジェクトｏ_ｉが配置された運転シーンｘ_ｉが与えられると、モデルｆが変換されたオブジェクトのセグメンテーションの正確な予測に失敗するように、オブジェクトの配置のための新たなバウンディングボックスｂ’_ｉを探索することによって、敵対例が生成される。モデルが失敗するかどうかを判定するために、変換されたオブジェクトｏ’_ｉを含む新たなシーンｘ’_ｉを評価し、新たなセマンティックセグメンテーションマスクｍ’_ｉとの比較を行う。次に、変換されたオブジェクトｏ’_ｉのモデル性能が計算され、モデル性能閾値と比較されて、モデル性能がモデル性能閾値より小さい場合、モデルが失敗したものとされる。

新たなバウンディングボックスｂ’_ｉが運転シーンに関して意味論的に有意であることを保証するために、システムは、バウンディングボックスを直接的に操作することに代えて、潜在空間において敵対的検索を実行することができる。敵対例を生成する最小変化を伴う潜在ベクトルｚ’_ｉを見出すために、システムは、セマンティックセグメンテーションモデルのアーキテクチャを明示的に既知とすることを必要としないように、ブラックボックス付加法を採用することができる。まず、勾配推定アプローチが自然進化ストラテジと共に使用されて、モデルの性能を最も速いペースで低下させる潜在空間内の勾配方向が見出される。次いで、モデル性能が閾値よりも小さくなるまで、予め定められたステップサイズで潜在ベクトルｚ_ｉを勾配方向に沿って反復して移動させることができる。オブジェクトを移動させている間に、オブジェクトを運転シーンに混合するためには、ガウシアンぼかしを適用するだけでよい。なぜなら、焦点は、ポアソン混合によって生じる色ずれの箇所にではなく、オブジェクトの空間情報の変化によって引き起こされるモデルの性能の変化箇所に配置されるべきだからである。

敵対例を用いることにより、システムは、ターゲットモデルのロバストネスを解釈することができる。このために、空間的なロバストネススコアｓ_ｒｉが、各潜在次元の標準偏差によって正規化された潜在ベクトルｚ_ｉとｚ’_ｉとの間の平均絶対誤差、即ち、ｓ_ｒｉ＝｜ｚ_ｉ－ｚ’_ｉ｜／｜ｚ_ｓｔｄ｜として、各オブジェクトｏ_ｉに対して定義される。当該スコアは、モデルを失敗させるために必要な潜在空間における変化量を捕捉するものである。

データ前処理（例えば、表現及び敵対的学習）の後、システムは、オリジナルデータ（即ち、トレーニング、検証及びテストのデータ）及び敵対的データを、モデルの予測と共に収集して、ユーザに提供される視覚的分析システムのユーザインタフェースを駆動することができる。具体的には、各オブジェクトに対して、その空間情報（例えば、バウンディングボックス、サイズ、潜在表現）が抽出され、性能メトリック（例えば、モデル性能、グラウンドトゥルースクラス、及び、予測クラス）が抽出される。一実施形態においては、オブジェクトの各ピクセルがそれぞれ異なるクラスとして予測可能となり、これに対して、オブジェクトの予測クラスはピクセルの最大数を有するクラスとして定義される。敵対的学習のため、攻撃パターンを分析すべく、ロバストネス及び勾配方向を抽出することができる。

図３に戻ると、オリジナルデータ３０２及び生成された敵対的データ３０８を用いて、システムは、ＨＭＩデバイス１１８、ディスプレイ１３２などを介して、視覚的分析システムのユーザインタフェース３１０をユーザに提示することができる。図３に示されているユーザインタフェース３１０は、ユーザインタフェースがユーザの画面上にどのように表示され得るかについての概観又は概略図である。一般に、相互作用及びユーザによる閲覧のための３つの領域、即ち、以下に詳述する要約領域３２０、ＭａｔｒｉｘＳｃａｐｅ領域３２２及び運転シーン領域３２４が存在する。これらの領域の各々は、ディスプレイ１３２上の単一のウィンドウ上若しくはペイン上に提供することができ、又は、各領域を移動若しくは最小化して、各領域がユーザインタフェース上に表示される時点及び位置をユーザがカスタマイズできるようにすることができる。

要約領域３２０は、データ構成及びオブジェクトの主要なプロパティの統計の要約を含む。示されているデータには、データスプリット、インスタンスクラス及び関心モデルを含む、データの基本的構成が含まれ得る。さらに、棒グラフを使用して、開発されたオブジェクトのサイズ（上段のグラフ）、モデル性能（中段のグラフ）、モデルのロバストネス（下段のグラフ）といったオブジェクトの主要なプロパティのヒストグラムが示されている。要約領域３２０は、モデルの性能の概観を提供し、ユーザがＭａｔｒｉｘＳｃａｐｅ領域３２２における詳細な分析のためにデータをフィルタリングすることを可能にする。例えば、ユーザは、要約領域内の様々なインスタンスクラス（例えば、歩行者、乗用車、トラック、バス、鉄道車両、建物など）を選択することができ、ＭａｔｒｉｘＳｃａｐｅ領域３２２内に表示されたデータを相互作用により更新する。また、ユーザは、オブジェクトサイズ、モデル性能及び／又はロバストネスの範囲を制限することにより、データのさらなるフィルタリングのために、当該棒グラフをブラッシュオンすることができる。

ＭａｔｒｉｘＳｃａｐｅ領域３２２は、図６乃至図７により詳細に示されている。ＭａｔｒｉｘＳｃａｐｅ領域３２２は、データ属性の種々の態様（図６、領域ａ）からの多数のオブジェクトの性能景観を種々の詳細レベル（図６、領域ｂ及び領域ｃ）において示している。当該ビューは、ユーザが種々のセマンティッククラス、データソース及びモデルバージョンにわたってモデルの性能を比較することによりデータの関心サブセットを識別すること、並びに、コンテキスト内におけるオブジェクトの空間情報に対するモデルの性能を理解することを支援するように設計されている。

図６には、一実施形態による、ＭａｔｒｉｘＳｃａｐｅ領域３２２の設計の概略図が示されている。異なるカテゴリ属性に基づいて、それぞれ異なるタイプの属性（ａ）を有するオブジェクトがまずグループ化され、ブロック（ｂ）の行列として視覚化される。当該オブジェクトを複数のグループに区分して、グラウンドトゥルースクラス／予測クラス、データソース、又は、モデルバージョンなどの、ユーザが選択したカテゴリ属性に関するオブジェクトの性能の概観を提供することができる。例えば、グラウンドトゥルースクラス（例えば、歩行者、乗用車など）及び予測クラスに基づいてオブジェクトがグループ化される間に、ユーザは、モデル性能の混同行列のビュー（ｂ１）を得ることができ、ここで、各ブロックのサイズは、内部のオブジェクトの数を表現し、色は、当該オブジェクトの平均モデル性能又はロバストネススコアを表現する。ユーザは、データソース又はモデルによってグラウンドトゥルースクラスを編成するデータ／モデル比較（ｂ２）において、種々のデータソース又はモデルバージョンにわたってモデルの性能を比較することができる。また、ユーザは、唯一のカテゴリ属性に基づいてオブジェクトをグループ化し、データ分布を視覚化することもできる（ｂ３）。例えば、（ｂ３）に示されているように、グラウンドトゥルースクラスに基づいてオブジェクトをグループ化することにより、オブジェクトクラスの分布を取得することができる。

行列内の関心データブロックが識別された後、ユーザは、より詳細なビューのために任意のいずれかのボックスを強調表示又は選択することができる。図６は、ユーザが所定のグラウンドトゥルースクラス及び所定の予測クラスのモデル性能を表現した混同行列の右下のボックス（ｂ１）を選択した例を示している。結果がＭａｔｒｉｘＳｃａｐｅビューとなり、より詳細なビューが得られる（ｃ）。詳細図に示されているオブジェクトは、学習された潜在表現、サイズ、モデル性能などの数値属性（ｃ１）に基づいてビンへと集約される。（ｂ）のブロックビューと同様に、ユーザは、オブジェクトを集約するために数値属性を変化させることができる。例えば、ユーザは、潜在次元のうちの２つを選択し、これらの次元についてのオブジェクトの潜在表現を使用してオブジェクトを集約することができる。集約後、各ビンに対して代表的なオブジェクトを選択し、種々の視覚エンコーディング又は表現、例えばモデル性能又はロバストネス（ｃ３）、画像パッチ（ｃ３）及びセマンティックセグメンテーションパッチ（ｃ４）を使用して当該オブジェクトを視覚化することによって、モデル性能の空間パターンを視覚化することができる。ユーザは、各ビンの代表的なオブジェクトをどのように選択するかを定義することができる。また、１つの数値属性のみが用いられる場合、選択属性のデータ分布をブロックごとに（例えば、ヒストグラムにおいて）視覚化することができる（ｃ５）。

図７は、ＭａｔｒｉｘＳｃａｐｅビューの例としての市街地運転シーンに関するセマンティックセグメンテーションモデルの性能景観ビューの例を示している。ブロックビュー（ａ）は、オブジェクトのグラウンドトゥルース及び予測クラスに基づく混同行列として編成されている。この実施例において、クラス（グラウンドトゥルース及び予測の双方）には、乗用車、歩行者、自転車、ライダ、モータサイクル、トラック、バス、建物、鉄道車両、植生、道路、フェンス、ポール、歩道、交通標識、壁、地形、交通信号機、及び、空が含まれる。もちろん、本明細書に開示しているシステムにより、異なるクラス、より多くのクラス又はより少ないクラスも利用可能である。各ブロックのサイズは、当該ブロック内のオブジェクトの数を表現しており、色は、当該オブジェクトの平均モデル性能又はロバストネススコアを表現している。この実施例においては、ユーザは、歩行者のグラウンドトゥルースクラスと歩行者の予測クラスとを比較するボックスを選択している。当該ボックスを選択することによって、ユーザには、詳細ビュー（ｂ）において視覚化されている個々のオブジェクトの性能景観が提供され得る。この実施例においては、オブジェクトは、その空間分布の視覚化及び要約が可能となるように、学習された空間表現の２つの次元に基づいて集約されている。例えば、第１の次元（潜在次元１）は歩行者の水平方向位置を表現しており、他の次元（潜在次元３）は歩行者から車両までの距離を表現している。それぞれ異なる視覚エンコーディングを用いてオブジェクトを、例えば性能スコア（ｂに示されている）として視覚化することができ、ここで、各色は、その潜在次元におけるモデル性能、画像パッチ（ｃ）及びセマンティックセグメンテーションパッチ（ｄ）を表現しており、これにより、ユーザがモデル性能の空間パターンを理解しやすくなる。ユーザは、（ｂ）に示されている性能スコア行列内の任意のブロック上においてホバリングしたり又はこれを選択したりすることができ、ユーザインタフェースは、オブジェクトが検出された画像のストリートビューを、オブジェクト周囲のバウンディングボックスと共に出力することができる。これにより、ユーザは、（ｂ）に示されている行列内の種々のボックスをクリックするのみで、得られたこれらの性能スコアを形成した実際の画像を容易に観察することができる。潜在次元（左から右へ、及び、近から遠へ）と検出されたオブジェクトの実際の位置との間の相関は、図７においては、選択された様々な画像によって示されている。

ユーザによるブロックビュー内のデータグループの比較を支援するために、行及び列を、これらに含まれるオブジェクトの総数又はブロック内のオブジェクトの数の分散に基づいてランク付けすることができる。例えば、図８は、２つのデータセットに対する歩行者検出のためのモデル性能のブロック図を示しており、ここで、各行は、データセット（例えば、訓練データセット／オリジナルデータセット及び敵対的データセット）を表現しており、各列は、歩行者の予測クラスを表現している。当該列は、オリジナルデータセットと敵対的データセットとの間の差に基づいてランク付けされ、これにより、ユーザは、２つのデータセットが最大効率で異なっているクラスを識別することができる。

この例示された実施例において、歩行者のセグメンテーションに関するモデル性能を調査するために、ユーザは、図８のブロックビュー（ａ）から、敵対的データが、ライダ、植生、建物、ポール及びフェンスなどのオリジナルデータ／訓練データと比較して、特定のクラスとして誤って分類されたより多くの歩行者を有することを見て取ることができる。敵対的データにおけるこれらの個々のブロックをズーム又は選択し、（ｂ）に示されているようにグラウンドトゥルースセグメンテーションを視覚化することによって、ユーザは、誤った分類のほとんどが歩行者と周囲のコンテキストとの相互作用によって引き起こされたことを理解することができる。例えば、建物、ポール及びフェンスの前に歩行者が配置されており、モデルが失敗するに至っている。これらのクラスと相互作用する歩行者に関するモデル性能を改善するために、これらのクラスと相互作用するより多くの歩行者を生成して、モデルの再訓練のために使用することができる。

図９には、本明細書において開示しているメモリに記憶された画像、機械学習モデルプログラム命令などにアクセスすることにより、本明細書において記載しているプロセッサによって実装可能なフローチャートが示されている。９０２において、入力画像がメモリから取り出される。入力画像は、カメラにより撮影されたロー画像、及び／又は、入力画像から導出された関連する予測マスク（例えば、図２を参照）であるものとしてよい。９０４において、プロセッサがシーン内の可動オブジェクトの空間分布を導出する。これは、コンテキストアウェア空間表現機械学習モデル３０４を利用して行うことができる。このように、プロセッサは、可動オブジェクトの座標を潜在空間内へ符号化し、座標をデコーダにより再構成するようにプログラミングすることができる（例えば、図４を参照）。可動オブジェクトの座標は、セマンティックマスクにおけるオブジェクト周囲に配置された、可動オブジェクトに関連付けられたバウンディングボックスの座標であるものとしてよい。９０６において、プロセッサは、入力画像内に存在しない未観測のオブジェクトをシーン内に生成するようにプログラミングされている。換言すれば、カメラによって観測された入力画像内に示されていない新たなオブジェクトを画像内に挿入する。このことは、空間敵対的機械学習モデル３０６を利用して実行され得る。このように、プロセッサは、シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングし、同様のバウンディングボックス座標を有するオブジェクトをメモリから取り出し、このオブジェクトをバウンディングボックス内に配置するようにプログラミングされ得る（例えば、図５を参照）。当該プロセッサは、９１０において、オブジェクト検出機械学習モデルを失敗させる試行において、未観測のオブジェクトを種々異なる位置へ移動させるようにプログラミングされている。これは、空間敵対的機械学習モデルを利用して、未観測のオブジェクトの空間潜在表現を摂動させ、オブジェクト検出機械学習モデルの敵対的性能に対応する潜在空間内の勾配方向を見出すことによって行われ得る。換言すれば、新たなオブジェクトは、オブジェクト検出機械学習モデルがこの新たなオブジェクトをプロパティによって識別及び分類することが困難である位置へと移動される。９１０において、プロセッサは、インタラクティブユーザインタフェースを出力することができるが、その例は、図６乃至図８に示されており、これらを参照して説明されている。

例示的な実施形態を上述したが、これらの実施形態は、特許請求の範囲に包含される全ての可能な形態を説明することを意図するものではない。本明細書において使用している用語は、限定ではなく説明のための語であり、本開示の精神及び範囲から逸脱することなく様々な変更が可能であることが理解される。前述したように、様々な実施形態の特徴を組み合わせて、明示的には説明又は図示されていないことがある本発明のさらなる実施形態を構成することができる。様々な実施形態を、１つ又は複数の所望の特性に関して、他の実施形態又は従来技術の実現形態を上回る利点を提供するものとして又はこれらよりも好ましいものとして説明したところがあるが、当業者には、特定の用途及び実現形態に応じて、望ましい全体的なシステム属性を得るために、１つ又は複数の特徴又は特性について妥協を甘受し得ることが認識される。こうした属性には、以下に限定されるものではないが、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、包装、サイズ、保守、重量、製造、組立ての容易さなどが含まれ得る。従って、任意の実施形態が他の実施形態又は従来技術の実施よりも１つ又は複数の特徴に関して望ましくないと説明した箇所についても、これらの実施形態が本開示の範囲外にあるというわけではなく、特定の用途にとっては望ましいものであることもある。

Claims

自律運転用のオブジェクト検出機械学習モデルを診断するためのコンピュータ実装された方法であって、前記コンピュータ実装された方法は、
カメラからシーンを示す入力画像を受け取るステップと、
コンテキストアウェア空間表現機械学習モデルを利用して、シーン内の可動オブジェクトの空間分布を導出するステップと、
空間敵対的機械学習モデルを利用して、前記入力画像内に存在しない未観測のオブジェクトを前記シーン内に生成するステップと、
前記オブジェクト検出機械学習モデルを失敗させるために、前記空間敵対的機械学習モデルを介して、前記未観測のオブジェクトを種々異なる位置へ移動させるステップと、
前記未観測のオブジェクトを含まないシーン及び前記未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、インタラクティブユーザインタフェースを出力するステップと、
を含む、コンピュータ実装された方法。
前記導出するステップは、
前記可動オブジェクトの座標を潜在空間内へ符号化するステップと、
前記座標をデコーダにより再構成するステップと、
を含む、請求項１に記載のコンピュータ実装された方法。
前記方法は、前記シーンのセマンティックマスクを生成するステップをさらに含み、前記セマンティックマスクは、前記可動オブジェクトの空間分布が前記セマンティックマスクに基づくように、前記導出するステップのための入力として使用される、請求項２に記載のコンピュータ実装された方法。
前記可動オブジェクトの座標は、前記可動オブジェクトに関連付けられたバウンディングボックスの座標である、請求項３に記載のコンピュータ実装された方法。
前記バウンディングボックスの座標は、前記セマンティックマスク内のピクセルのセマンティッククラスラベルに基づいて調整された潜在ベクトルへと符号化される、請求項４に記載のコンピュータ実装された方法。
前記生成するステップは、
（ｉ）前記シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングするステップと、
（ｉｉ）類似のバウンディングボックス座標を有するオブジェクトをメモリから取り出すステップと、
（ｉｉｉ）前記オブジェクトを前記バウンディングボックス内に配置するステップと、
を含む、請求項１に記載のコンピュータ実装された方法。
前記方法は、ポアソン混合を利用して前記オブジェクトを前記シーンに混合するステップをさらに含む、請求項６に記載のコンピュータ実装された方法。
前記移動させるステップは、前記未観測のオブジェクトの空間潜在表現を摂動させることを含む、請求項１に記載のコンピュータ実装された方法。
前記移動させるステップは、最大のレートで低下する前記オブジェクト検出機械学習モデルの性能に対応する潜在空間内の勾配方向を見出すステップを含む、請求項８に記載のコンピュータ実装された方法。
前記インタラクティブユーザインタフェースは、前記オブジェクトのグラウンドトゥルースクラス及び前記オブジェクトの対応する予測クラスに関する前記オブジェクト検出機械学習モデルの性能を示すテーブルを含む、請求項１に記載のコンピュータ実装された方法。
ヒューマンインザループによる自律運転用のオブジェクト検出機械学習モデルを診断するシステムであって、
ユーザインタフェースと、
カメラから受け取られた車両外部のシーンを示す入力画像を記憶するメモリであって、前記シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令をさらに記憶し、かつ、未観測のオブジェクトを生成して前記シーン内へ挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令をさらに記憶したメモリと、
前記メモリに通信可能に結合されたプロセッサであって、
前記シーンのセマンティックマスクをセマンティックセグメンテーションによって生成し、
前記コンテキストアウェア空間表現機械学習モデルを利用して、前記セマンティックマスクに基づいて前記シーン内の可動オブジェクトの空間分布を特定し、
前記空間敵対的機械学習モデルを利用して、前記入力画像内に存在しない未観測のオブジェクトを前記シーン内に生成し、
前記オブジェクト検出機械学習モデルを失敗させるために、前記空間敵対的機械学習モデルを利用して、前記未観測のオブジェクトを種々異なる位置へ移動させ、
前記未観測のオブジェクトを含まないシーン及び前記未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、前記ユーザインタフェース上に視覚的分析を出力する
ようにプログラミングされたプロセッサと、
を備えるシステム。
前記プロセッサは、前記可動オブジェクトの座標を潜在空間内へ符号化し、前記座標をデコーダにより再構成して前記可動オブジェクトの空間分布を特定するようにさらにプログラミングされている、請求項１１に記載のシステム。
前記可動オブジェクトの座標は、前記可動オブジェクトに関連付けられたバウンディングボックスの座標である、請求項１２に記載のシステム。
前記バウンディングボックスの座標は、前記セマンティックマスク内のピクセルのセマンティッククラスラベルに基づいて調整された潜在ベクトルへと符号化される、請求項１３に記載のシステム。
前記プロセッサは、
前記シーンの一部の潜在空間座標をサンプリングして、バウンディングボックスをマッピングし、
前記メモリから、類似のバウンディングボックス座標を有するオブジェクトを取り出し、
前記オブジェクトを前記バウンディングボックス内に配置する
ようにさらにプログラミングされている、請求項１１に記載のシステム。
前記プロセッサは、ポアソン混合を利用して前記オブジェクトを前記シーンに混合するようにさらにプログラミングされている、請求項１５に記載のシステム。
前記プロセッサは、前記未観測のオブジェクトの空間潜在表現を摂動させるようにさらにプログラミングされている、請求項１１に記載のシステム。
前記プロセッサは、前記オブジェクト検出機械学習モデルの低下する性能に対応する潜在空間内の勾配方向を特定するようにさらにプログラミングされている、請求項１７に記載のシステム。
前記プロセッサは、前記ユーザインタフェース上に、前記オブジェクトのグラウンドトゥルースクラス及び前記オブジェクトの対応する予測クラスに関するオブジェクト検出機械学習モデルの性能を表すテーブルを表示するようにさらにプログラミングされている、請求項１１に記載のシステム。
（ｉ）カメラから受け取られた車両外部のシーンを示す入力画像、（ｉｉ）前記入力画像に関連付けられたセマンティックマスク、（ｉｉｉ）前記シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令、及び、（ｉｖ）未観測のオブジェクトを生成して前記シーン内に挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令を記憶したメモリと、
前記メモリと通信する１つ又は複数のプロセッサであって、
前記コンテキストアウェア空間表現機械学習モデルを介して、前記シーン内の可動オブジェクトの座標を潜在空間内へ符号化し、前記座標をデコーダにより再構成して前記可動オブジェクトの空間分布を特定し、
前記空間敵対的機械学習モデルを介して、（ｉ）前記シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングし、（ｉｉ）前記メモリから類似のバウンディングボックス座標を有するオブジェクトを取り出し、（ｉｉｉ）前記オブジェクトを前記バウンディングボックス内に配置することにより、前記入力画像内に存在しない未観測のオブジェクトを前記シーン内に生成し、
前記空間敵対的機械学習モデルを介して、オブジェクト検出機械学習モデルを失敗させるために、試行の際に、前記空間敵対的機械学習モデルを利用して前記未観測のオブジェクトを種々異なる位置へ移動させ、
未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関する前記オブジェクト検出機械学習モデルの性能をユーザが分析できるように、ユーザインタフェース上に視覚的分析を出力する
ようにプログラミングされたプロセッサと、
を備えるシステム。