JP7359802B2

JP7359802B2 - 自動運転における機能テスト方法に基づくセマンティックな敵対的生成

Info

Publication number: JP7359802B2
Application number: JP2021076261A
Authority: JP
Inventors: ヴェントアクセル; ゴウリャン; ヅォウリンカン; レンリウ
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-04-30
Filing date: 2021-04-28
Publication date: 2023-10-11
Anticipated expiration: 2041-04-28
Also published as: CN113590457A; KR20210134240A; US20210342647A1; KR102657335B1; US11301724B2; DE102021204172A1; JP2021174556A

Description

本開示は、自律動作と、自動運転において収集される入力画像を含む入力画像のテストとに関する。

背景
ロバスト性及び潜在的な脆弱性を理解することは、特に安全性が極めて重要な用途、例えば自動運転における、ディープニューラルネットワーク（ＤＮＮ）モデルに対する機能テストでの重要なタスクである。近年、ＤＮＮに基づくモデルは、コンピュータビジョンの分野における精度、例えば、画像分類、対象物検出、セマンティックセグメンテーションなどに関して重要な性能を示している。これらのモジュールは、通常、自動運転における知覚システムとしてのコアコンポーネントであるものとしてよい。従って、このようなモデルに対する全機能テストが、自動運転におけるモデルの採用にとって極めて重要である。

概要
第１の実施形態によれば、システムは、オブジェクトから画像情報を取得するように構成されたカメラを含む。システムは、カメラと通信するプロセッサであって、画像情報を含む入力データを受信し、エンコーダを介して入力データを符号化し、入力データの属性を定義する潜在変数を取得し、少なくとも潜在変数及び敵対的ノイズを利用して入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも入力と再構築との比較を利用して入力データと一連の再構築との間の残差を取得し、当該比較に基づき敵対的ノイズと比較される入力のテスト結果を示す平均シフトを出力するようにプログラミングされたプロセッサも含む。

第２の実施形態によれば、装置は、少なくともオブジェクトの画像を含む入力データを受信し、エンコーダを介して入力データを符号化し、入力データの属性を定義する潜在変数を取得し、少なくとも潜在変数及び敵対的ノイズを利用して入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも入力と再構築との比較を利用して入力データと一連の再構築との間の残差を取得し、当該比較に基づき敵対的ノイズと比較される入力のテスト結果を示す平均シフトを出力するようにプログラミングされたプロセッサを含む。

第３の実施形態によれば、コンピュータプログラム製品は、コンピュータによって実行されるときに、コンピュータに、入力データを受信させ、エンコーダを介して入力データを符号化させ、入力データの属性を定義する潜在変数を取得させ、少なくとも潜在変数及び敵対的ノイズを利用して入力データの一連の再構築を生成させ、潜在空間における平均シフトの少なくとも入力と再構築との比較を利用して入力データと一連の再構築との間の残差を取得させ、当該比較に基づき敵対的ノイズと比較される入力のテスト結果を示す平均シフトを出力させるための命令を格納する。

システムを実現するためのデータアノテーションシステム１００を示す図である。セマンティックな敵対的訓練システム２００の実施形態を示す図である。ブラックボックスクエリに限定されたセマンティックな敵対的学習システム３００を示す図である。 disentangledな（解きほぐされた）表現を用いた、生成器の事前訓練プロセスを含むシステムを示す図である。元画像をクラスタリングした図である。学習された敵対的サンプルを用いて元画像をクラスタリングした図である。学習された敵対的入力と元の入力との間のピクセル値の差をクラスタリングした図である。

詳細な説明
ここで、本開示の実施形態を説明する。ただし、開示された実施形態は例示に過ぎず、他の実施形態は種々の選択的な形態を取ることができるということを理解されたい。図面は、一定の縮尺であるとは限らない。いくつかの特徴は、強調して又は最小限に特定のコンポーネントの詳細を示すことができる。従って、本明細書に開示された具体的な構造上及び機能的な詳細は、限定と解釈されるべきではなく、単に実施形態の種々の使用を当業者に教示するための代表的な基準と解釈されるべきである。当業者であれば理解するように、図面のいずれか１つを参照して図示及び説明する種々の特徴を、他の１つ以上の図面に図示した特徴と組み合わせて、明示的に図示又は説明していない実施形態を提供することができる。図示した特徴の組合せにより、典型的な用途の代表となる実施形態を提供する。しかしながら、特定の用途又は実現形態には、本開示の教示と一致する特徴の種々の組合せ及び変形形態が望まれ得る。

強力な敵対的攻撃方法は、ロバストなディープニューラルネットワーク（ＤＮＮ）を構築する方法を理解し、防御技術を徹底的にテストするために必須である。バニラＤＮＮと種々の防御技術によって生成されたＤＮＮとの両方を破ることができるブラックボックスの敵対的攻撃アルゴリズムが、有用となる可能性がある。標的となるＤＮＮへの無害な入力のための「最適な」敵対的サンプルを探索する代わりに、入力を中心とする小さい領域にわたる確率密度分布を見出すことを１つの解決手段とすることができ、これにより、ＤＮＮの内部層又は重みにアクセスする必要なしに、この分布から抽出されたサンプルが敵対的サンプルである可能性が高くなる。敵対的訓練により、最良の防御技術のうちの１つが残存し、敵対的サンプルは、プレーンなＤＮＮを横断する場合ほどには防御されたＤＮＮを横断して転移することができなくなる。

ロバスト性及び潜在的な脆弱性を理解することは、特に安全性が極めて重要な用途、例えば自動運転における、ディープニューラルネットワーク（ＤＮＮ）モデルに対する機能テストでの重要なタスクである。近年、ＤＮＮに基づくモデルは、コンピュータビジョンの分野における精度、例えば、画像分類、対象物検出、セマンティックセグメンテーションなどに関して重要な性能を示している。これらのモジュールは、通常、自動運転における知覚システムとしてのコアコンポーネントであるものとしてよい。従って、このようなモデルに対する全機能テストが、自動運転におけるモデルの採用にとって極めて重要である。

敵対的攻撃に関する近年の進歩には、ＤＮＮモデルの機能テストのためのいくつかの大きな可能性がある。機能テストにおける１つの課題は、ＤＮＮモデルの潜在的な脆弱性を良好に掩護すること及び明らかにすることにより、テストケースを十分に収集又は生成する方法である。敵対的サンプル学習は、ＤＮＮモデルから取得された勾配情報を用いて敵対的空間を探索することにより、エンドツーエンドソリューションを有する機会を提供する。モデル勾配からのいくらかのノイズを加えることにより、分類器を欺いてパンダをテナガザルとして誤分類させ得るモデルにおいては、ＤＮＮモデルは、モデルが既に良好な性能を有するテストケースに対して敵対的なテストケースを重点的に取り扱うことができる。

ＤＮＮモデルに対する機能テストを敵対的攻撃学習に適用することは、重要なタスクである。敵対的攻撃方法を主流に組み込むには、いくつかの課題がある。第一に、多くの敵対的攻撃方法は、セマンティクスを用いた例を生成しない。これらの方法は、人間が知覚し得ないほどの最小限のノイズを加えることにより目標モデルに誤りを加え、生成された敵対的サンプルが人間にとっては元画像と同様に見えるようにすることを意図している。従って、これらのノイズは、人間がＤＮＮモデルの弱点を理解し得るような物理的意味又はセマンティクスを有していない。第二に、攻撃方法の主要な部分は、敵対的サンプルを生成するために、目標モデルのアーキテクチャ及びパラメータの詳細を知る、即ち、ホワイトボックスアプローチを行う必要がある。このホワイトボックスアプローチは、機能テストへの適用が制限されている。というのも、これらの詳細を取得して多数のモデルをテストするには高額のコストを要するからである。いくつかのブラックボックスに基づくアプローチが提案されているが、このアプローチも非セマンティックな敵対的サンプルのみにしか適用されていない。そのうえ、モデルの敵対的景観を明らかにするメカニズム又は方法は存在しない。例えば、現行の方法においては、学習された敵対的サンプルの共通パターンが何であるのかは知られていない。これらのパターンが説明可能であり、方法を改善するために有用となるかどうかについては、明らかではないことがある。以下に示す、対象物検出モデルに対するブラックボックスクエリに限定された、機能テスト方法に基づくセマンティックな敵対的生成によって、このような課題に取り組むことができる。

図１は、システムを実現するためのデータアノテーションシステム１００を描写している。データアノテーションシステム１００は、少なくとも１つのコンピューティングシステム１０２を含み得る。コンピューティングシステム１０２は、少なくとも１つのプロセッサ１０４を含み得る。プロセッサ１０４は、メモリユニット１０８に動作可能に接続されている。プロセッサ１０４は、１つ以上の集積回路を含み得る。集積回路は、中央処理装置（ＣＰＵ）１０６の機能を実装する。ＣＰＵ１０６は、命令セット、例えば、ｘ８６、ＡＲＭ、Ｐｏｗｅｒ又はＭＩＰＳの命令セットファミリのうちの１つを実装する市販入手可能な処理装置であるものとしてよい。動作中に、ＣＰＵ１０６は、メモリユニット１０８から取り出されて、格納されたプログラム命令を実行することができる。格納されたプログラム命令は、ＣＰＵ１０６の動作を制御して本明細書に記載した動作を実施するためのソフトウェアを含み得る。いくつかの実施例においては、プロセッサ１０４は、ＣＰＵ１０６、メモリユニット１０８、ネットワークインタフェース及び入出力インタフェースの機能を単一の集積デバイスに組み込んだシステム・オン・チップ（ＳｏＣ）であるものとしてよい。コンピューティングシステム１０２は、動作の種々の様態を管理するためのオペレーティングシステムを実装しているものとしてよい。

メモリユニット１０８は、命令及びデータを格納するための揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリは、コンピューティングシステム１０２の動作が不活性である場合、又は、コンピューティングシステム１０２が電力を喪失している場合に、データを保持するソリッドステートメモリ、例えば、ＮＡＮＤ型フラッシュメモリ、光磁気記憶媒体又は任意の他の適当なデータ記憶装置を含み得る。揮発性メモリは、プログラム命令及びデータを格納するスタティック及びダイナミックランダムアクセスメモリ（ＲＡＭ）を含み得る。例えば、メモリユニット１０８は、機械学習モデル１１０又は機械学習アルゴリズム、機械学習モデル１１０のための訓練データセット１１２、生ソースデータセット１１５を格納することができる。

コンピューティングシステム１０２は、ネットワークインタフェースデバイス１２２を含み得る。ネットワークインタフェースデバイス１２２は、外部システム及び外部デバイスとの通信を提供するように構成されている。例えば、ネットワークインタフェースデバイス１２２は、米国電気電子学会（ＩＥＥＥ）８０２．１１規格ファミリにより定義されているような、有線及び／又は無線のイーサネットインタフェースを含み得る。ネットワークインタフェースデバイス１２２は、セルラネットワーク（例えば、３Ｇ、４Ｇ、５Ｇ）を用いて通信するためのセルラ通信インタフェースを含み得る。ネットワークインタフェースデバイス１２２は、さらに、外部ネットワーク１２４又はクラウドへの通信インタフェースを提供するように構成されているものとしてよい。

外部ネットワーク１２４は、ワールド・ワイド・ウェブ又はインタネットと称され得る。外部ネットワーク１２４は、コンピューティングデバイス間の標準通信プロトコルを確立することができる。外部ネットワーク１２４は、情報及びデータを、コンピューティングデバイスとネットワークとの間において容易に交換させることができる。１つ以上のサーバ１３０は、外部ネットワーク１２４と通信することができる。

コンピューティングシステム１０２は、入出力（Ｉ／Ｏ）インタフェース１２０を含み得る。Ｉ／Ｏインタフェース１２０は、デジタル入出力及び／又はアナログ入出力を供給するように構成されているものとしてよい。Ｉ／Ｏインタフェース１２０は、外部デバイス（例えば、ユニバーサルシリアルバス（ＵＳＢ）インタフェース）を用いて通信するための追加のシリアルインタフェースを含み得る。

コンピューティングシステム１０２は、マンマシンインタフェース（ＨＭＩ）デバイス１１８を含み得る。ＨＭＩデバイス１１８は、システム１００が制御入力を受信し得るようにする任意のデバイスを含み得る。入力デバイスの例としては、ヒューマンインタフェース入力デバイス、例えば、キーボード、マウス、タッチパネル、音声入力デバイス及び他の類似のデバイスが挙げられる。コンピューティングシステム１０２は、表示デバイス１３２を含み得る。コンピューティングシステム１０２は、グラフィックス及びテキスト情報を表示デバイス１３２に出力するためのハードウェア及びソフトウェアを含み得る。表示デバイス１３２は、ユーザ又はオペレータに情報を表示するための電子ディスプレイスクリーン、プロジェクタ、プリンタ又は他の適当なデバイスを含み得る。コンピューティングシステム１０２は、さらに、リモートＨＭＩデバイス及びリモート表示デバイスを用いてネットワークインタフェースデバイス１２２を介したインタラクションを可能にするように構成されているものとしてよい。

システム１００は、１つ又は複数のコンピューティングシステムを使用するように実装されているものとしてよい。実施例は、説明している特徴の総てを実装する単一のコンピューティングシステム１０２を描写しているが、互いに通信し合うマルチコンピューティングユニットによって、種々の特徴及び機能を個別化して実装し得ることを意図している。選択された特定のシステム構造は、種々の要因に依存し得る。

システム１００は、機械学習アルゴリズム１１０を実装しているものとしてよく、機械学習アルゴリズム１１０は、生ソースデータセット１１５を分析するように構成されている。生ソースデータセット１１５は、生の又は処理されていないセンサデータを含み得る。このセンサデータは、機械学習システム用の入力データセットを意味し得る。生ソースデータセット１１５は、ビデオ、ビデオセグメント、画像、テキストに基づく情報、及び、生の又は部分的に処理されたセンサデータ（例えば、オブジェクトのレーダマップ）を含み得る。いくつかの実施例においては、機械学習アルゴリズム１１０は、予め定められた機能を実施するように設計されたニューラルネットワークアルゴリズムであるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、自動車用途において、ビデオ画像内の歩行者を識別するように構成されているものとしてよい。

システム１００は、機械学習アルゴリズム１１０用の訓練データセット１１２を格納することができる。訓練データセット１１２は、機械学習アルゴリズム１１０を訓練するための、事前に構築されたデータのセットを表し得る。訓練データセット１１２は、機械学習アルゴリズム１１０がニューラルネットワークアルゴリズムに関連付けられた重み付け係数を学習するために使用することができる。訓練データセット１１２は、対応する成果又は結果を有するソースデータのセットを含むことがあり、当該成果又は結果を、機械学習アルゴリズム１１０が学習プロセスを介して複製しようと試みる。本実施例においては、訓練データセット１１２は、歩行者を含むソース動画像及び歩行者を含まないソース動画像並びに対応するプレゼンス情報及び位置情報を含み得る。ソース動画像は、歩行者を識別する種々のシナリオを含み得る。

機械学習アルゴリズム１１０を学習モードにおいて動作させ、訓練データセット１１２を入力として使用することができる。機械学習アルゴリズム１１０は、訓練データセット１１２からのデータを使用して、多数の反復にわたって実行可能である。それぞれの反復により、機械学習アルゴリズム１１０は、得られた結果に基づき内部の重み付け係数を更新することができる。例えば、機械学習アルゴリズム１１０は、出力された結果（例えば、アノテーション、潜在変数、敵対的ノイズなど）を訓練データセット１１２内に含まれる結果と比較することができる。訓練データセット１１２は予測された結果を含むので、機械学習アルゴリズム１１０は、性能が許容可能となる時点を特定することができる。機械学習アルゴリズム１１０が予め定められた性能レベル（例えば、訓練データセット１１２に関連付けられた成果との１００％の一致）を達成した後、訓練データセット１１２内に存在しないデータを使用して、機械学習アルゴリズム１１０を実行することができる。訓練された機械学習アルゴリズム１１０は、新たなデータセットを適用して注釈付きデータを生成することができる。

機械学習アルゴリズム１１０は、生ソースデータ１１５に含まれる特定の特徴を識別するように構成されているものとしてよい。生ソースデータ１１５は、アノテーション結果が望まれる複数のインスタンス又は入力データセットを含み得る。例えば、機械学習アルゴリズム１１０は、ビデオ画像内の歩行者の存在を識別して発生セグメントに注釈を付けるように構成されているものとしてよい。機械学習アルゴリズム１１０は、生ソースデータ１１５を処理して特定の特徴の存在を識別するようにプログラミングすることができる。機械学習アルゴリズム１１０は、生ソースデータ１１５に含まれる特徴を予め定められた特徴（例えば、歩行者）として識別するように構成されているものとしてよい。生ソースデータ１１５は、種々のソースから導出することができる。例えば、生ソースデータ１１５は、機械学習システムによって収集された実際の入力データであるものとしてよい。生ソースデータ１１５は、システムをテストするために生成された機械であるものとしてよい。一例として、生ソースデータ１１５は、カメラから取得された生ビデオ画像を含み得る。

当該実施例においては、機械学習アルゴリズム１１０は、生ソースデータ１１５を処理して画像表現の指示を出力することができる。出力は、拡張された画像表現も含み得る。機械学習アルゴリズム１１０は、それぞれの生成された出力に対する信頼水準又は確信度を生成することができる。例えば、予め定められた高信頼度閾値を超過する信頼値は、機械学習アルゴリズム１１０によって、識別された特徴が特定の特徴に対応することが確実であることを示すことができる。低信頼度閾値に満たない信頼値は、機械学習アルゴリズム１１０が、特定の特徴が存在することについてのいくらかの不確実性を有することを示すことができる。

図２は、セマンティックな敵対的訓練システム２００の実施形態を開示している。一実施例においては、交通信号機の検出問題を利用することができる。高水準で、システムは先ず、アプローチに基づくdisentangledな表現の学習、例えば、変分オートエンコーダ（ＶＡＥ）を用いてセマンティックな敵対的生成器を学習し、その後、目標モデルをテストするためにセマンティクスを用いて敵対的サンプルを生成することができる。敵対的サンプル及びテスト結果は、要約されて報告され得る。データソース入力は、オブジェクト画像２０１（例えば、交通信号機を伴う運転シーン）を含むことがあり、また、データソース入力は、例えば、セマンティックな敵対的学習コンポーネント２０３のようなコンポーネント、セマンティックな敵対的生成及びテスト２０５、並びに、セマンティックな敵対的報告２０７を含む。このように、セマンティックな敵対的訓練システム２００は、自動運転シナリオにおいて利用することができる。

セマンティックな敵対的学習コンポーネント２０３は、disentangledな表現の学習アプローチ、例えば、（以下において図３に示すような）ＶＡＥ、βＶＡＥなどを用いてセマンティックな敵対的生成器を学習することができる。このコンポーネントは、先ず、disentangledな表現を用いて生成器を訓練し、その後、事前訓練された生成器の潜在空間におけるそれぞれの訓練データ用の敵対的平均シフトの分布を学習することができる。平均シフトを生成器に注入することにより、システムは、敵対的サンプルを生成することができる。これらの敵対的サンプルは、その後、後続の訓練に利用することができる。従って、典型的に識別されるオブジェクトを、敵対的ノイズを加えることによりシミュレートして、システムがどのように識別を予測し得るかを確認することができる。敵対的ノイズは、画像、オブジェクト又はビデオ、例えば、コントラスト、背景色、輝度などの種々の属性において変化し得る。

システムは、disentangledな表現を用いて生成器を事前訓練することができる。システムは、解釈可能な潜在表象を用いて画像生成器を学習することを試みることができる。システムは、その後、このような例が有するセマンティックな変化について解釈することができる。disentangledな表現モデル、例えばＶＡＥを、一実施形態において採用することができる。以下において図４に示すように、ＶＡＥモデルは、disentangledな潜在空間を学習し、その後、潜在空間から新たな画像を生成することができる。これらの潜在次元の望ましい特性は、これらが有し得るセマンティクスである。例えば、１つの次元は、交通信号機の色変化を捕捉することができ、他の次元は、オブジェクトの種々の回転又は他の特性を表すことができる。

敵対的生成器の学習コンポーネントは、事前訓練された生成器の潜在空間における平均シフトの分布を学習することができ、平均シフトは、目標モデルに誤りを加える画像を生成することができる。従って、システムは、システムに誤りを加えることによりシステムを良好に訓練することを意図的に試みることができる。従って、システムは、目標モデルへのクエリに限定されたブラックボックス法を利用することができる。典型的なシステムの代わりに、画像空間における小さいノイズを探索することができ、システムは、潜在空間における平均シフトを学習することを試みることができる。

図３は、ブラックボックスクエリに限定されたセマンティックな敵対的学習システム３００を開示している。特定の入力画像３０１にとって、その目的は、この画像に対する平均変位ベクトルを学習して、モデルに誤りを加える敵対的画像を生成することであり得る。従って、誤りが発生すると、システムは、現行の検出方法の弱点を学習することができる。図３に示すように、特定の入力画像３０１にとって、その目的は、この画像に対する平均変位ベクトルを学習して、モデルに誤りを加える敵対的画像を生成することとすることができる。プロセスは、先ず、ＶＡＥを用いて画像を平均ベクトルに符号化することができ、次いで、最小平均を用いてランダムな変位ベクトルを開始する。その後、システムは、データサンプルのセットを現在の平均変位ベクトルの周囲に摂動させ、これらのセットを使用して新たなテスト画像を生成することができる。次に、目標モデルにこれらのテスト画像を供給し、システムは、テストスコアを取得することができる。これらのテストスコア３０９は、勾配３１１を評価するために使用することができ、この勾配３１１は、典型的なＳＧＤ（確率的勾配降下法）アプローチとして、変位ベクトルの平均を更新するために使用される。敵対的サンプルが見出されたとき、又は、クエリバジェットの限界が満たされたときに、このプロセスは停止する。

入力３０１を、disentangledな表現の敵対的生成器３０３に供給することができる。入力３０１は、画像又はビデオなどであるものとしてよい。生成器３０３は、次いで、生成されたオブジェクト３０５を出力することができる。生成器３０３は、入力３０１の種々の属性を変化させることができる。生成されたオブジェクト３０５を、ブラックボックス検出器３０７に供給することができる。テスト結果３０９を出力することができ、このテスト結果３０９は後で勾配評価３１１に使用される。生成器３０３における属性の変動に沿ったテストスコア３０９の変化を使用して、平均変位ベクトルを更新するために利用される勾配を評価する。勾配評価は、テスト結果３０９におけるテストスコアの変動と生成器３０３における属性の変動との比によって近似させることができる。勾配投影３１３を平均シフト３１５に供給することができ、この平均シフト３１５自体は、生成器３０３に供給される。

システムは、事前訓練されたＶＡＥの生成器と敵対的平均シフトとを用いて入力画像に対する敵対的サンプルを生成することができる。システムは、入力画像の符号化された平均潜在ベクトルに平均変位ベクトルを加え、次いで、この加算の結果をデコーダに通過させて、敵対的サンプルを生成することができる。システムは、学習されたセマンティックな敵対的サンプルを用いて目標モデルのロバスト性をセマンティクスによって集約させて定量化することができる。システムを利用して、敵対的サンプルの総ての平均変位ベクトル３１５をクラスタリングし、敵対的パターンを視覚的に集約させることができる。クラスタリング結果は、セマンティックな含意を有する。というのも、平均ベクトルがdisentangledな表現の学習を用いたセマンティクスを含むからである。

平均シフト３１５を利用して、特定の敵対的ノイズを用いて検出された問題における弱点を識別することができる。例えば、システムは、敵対的ノイズが輝度を調整する場合に、システムが入力画像に対する輝度における変化を伴うという問題を識別することが可能であり得る。システムは、次いで、このような結果をシステムに供給することができる、即ち、図示したように、平均シフト３１５の出力間の結果が生成器３０３に供給される。従って、システムは、これらの特定の敵対的ノイズを重点的に取り扱い、改良することができる。

図４に示したように、システム４００は、disentangledな表現を用いた、生成器の事前訓練プロセスを含み得る。disentangledな表現は、例えばＶＡＥを利用することができる。入力４０１（例えば、交通信号機の画像）を、ＶＡＥ４０３に供給することができる。入力４０１は、あらゆる種類のデータ入力、例えば、画像又はビデオを含み得る。ＶＡＥ４０３は、１番目のパスでエンコーダを含み得る。２番目のパス、３番目のパス、Ｎ番目のパスまでを含むマルチパスが存在するものとしてもよい。潜在変数を順次に更新して、入力データと、各フォワードパスを通じて事前に更新された潜在変数からの再構築との間の残差を学習することができる。ネットワークは、disentangledなセマンティックベクトル

として再構築を出力することができる。ＶＡＥは、ｇΦとすることができるエンコーダネットワークと、ｆθと定義されるデコーダとを含み得る。

ＶＡＥ４０３のデコーダは、各中間ステップ

を出力することができ、これらに対応する残差（Δ_１，．．．，Δ_１０）を出力することができる。この結果により、デコーダの出力及び残差が協働して、各ステップにおいて学習されたdisentangledな係数を捕捉及び出力し得ることを示すことができる。例えば、各ステップにおける係数は、Ｘ位置、Ｙ位置、大きさ、回転＋形状、及び、形状、色、記号、向き、背景などであるものとしてよい。一実施例においては、再構築された画像のＸ位置が、第１のステップ中に生成される。第２のステップにおいて、Ｘ位置及びＹ位置の両方を生成することができる。このプロセスを継続して、各ステップでデコーダの出力及び残差が、学習された潜在的な符号化に従って画像を変形させることができる。

「残差学習」メカニズムは、同一（又は類似の）エンコーダｇΦ及びデコーダｆθを備えたフォワードパスｄから構成されるものとしてよい。潜在変数は、入力データと蓄積された再構築との間の残差の符号化から順次にサンプリングすることができる。各ステップにおいて、加えられた潜在変数は、現在の残差から学習された分布に追従することができる一方、事前の潜在変数は、対応する残差から学習された同様の分布に追従することができる。

ＶＡＥ４０３は、disentangledな表現４０５を出力することができる。disentangledな表現４０５は、元の入力４０１を変更したdisentangledなセマンティックベクトル４０７を有し得る。例えば、disentangledなセマンティックベクトル４０７は、画像の属性（例えば、潜在変数）を変更し得るので、画像によって表されたオブジェクトが変更されたように見える。disentangledなセマンティックベクトル４０７は、色に対する変化を含み得る。例えば、ＶＡＥは、１つの領域において青信号を示すのではなく、画像を変更して赤信号を出力し得る。disentangledなセマンティックベクトル４０７は、オブジェクトを表すために利用される記号に対する変化を含み得る。例えば、ＶＡＥは、信号灯の代わりとして丸を示すのではなく、画像を変更して信号灯としての記号、例えば矢印を出力し得る。他の実施例においては、disentangledなセマンティックベクトル４０７は、交通信号機の向きにおける変化を含み得る。さらに他の実施例においては、disentangledなセマンティックベクトル４０７は、背景色における変化を含み得る。

図５Ａは、元画像をクラスタリングした図である。図５Ｂは、学習された敵対的サンプルを用いて元画像をクラスタリングした図である。従って、敵対的サンプルは、画像に関連付けられた異なる属性を有することができる。このような属性は、色、記号、向き、背景などを含み得る。図５Ｃは、学習された敵対的入力と元の入力との間のピクセル値の差をクラスタリングした図である。クラスタの底部のピクセルと、図の右下のピクセルとは、変化量を示すことができ、より大きい差分値を有し得る。

図５Ａは、２つのコンポーネントを用いたｔ－ＳＮＥによるクラスタリング結果を示しており、２Ｄ平面における複数の画像を視覚化している。左側のクラスタリング結果は、元画像を示しており、右側のクラスタリング結果は、対応する敵対的生成を示している。図５Ａの画像は、容易に検出及び分類し得る元画像であるものとしてよい。システムは、元画像の上部に敵対的サンプルを加えることができる。図５Ｂにおいては、システムは、元画像の上部に敵対的サンプルを視覚化することができる。図５Ｃは、敵対的画像と元画像との間のピクセル値の差を視覚化している。

図は、敵対的画像に対するパターンにおける変化を示すことができる（輝度は、変化量を示す、即ち、より明るいピクセルは、より大きい差分値を有する）。即ち、左側のクラスタは、元画像に由来する信号灯の、多くの緑色のピクセルの除去を示すことができ、右上のクラスタは、黄色のピクセルを減少させ、底部の２つのクラスタは、交通信号機の輪郭の除去を示すことができる。

システムは、ロバスト性のモデルを、敵対的サンプルが要求する変化量にわたる敵対的サンプルのスコアの低下の比として（例えば、テスト結果として）利用することにより、以下に示すようにロバスト性を定量化することが可能であり得る。

Ｍ＿ｒｂｔ＝｜Ｚｍ＿ｏｒｇ－Ｚｍ＿ｇｅｎ｜／｜Ｓ＿ｏｒｇ－Ｓ＿ａｄｖ｜

｜Ｓ＿ｏｒｇ－Ｓ＿ａｄｖ｜は、スコアの差であり、｜Ｚｍ＿ｏｒｇ－Ｚｍ＿ｇｅｎ｜は、平均ベクトルＬ１の距離である。この測定は、モデル性能を減少させるためにどの程度の操作労力が必要とされるかを示すことができる。システムは、各クラスタに対するロバスト性を測定することもでき、ひいては、モデルが異なるパターンによって攻撃されるとき、モデルがどの程度ロバストであるかを理解することができる。攻撃パターンを理解し、セマンティックな潜在空間における変化、即ち、Ｚｍ＿ｏｒｇ－Ｚｍ＿ｇｅｎによって説明することができる。例えば、大きい変化を伴う潜在次元は、特定の色を減少させる又はオブジェクトの輪郭を変化させるものと解釈することができる。

本明細書に開示するプロセス、方法又はアルゴリズムは、任意の既存のプログラマブル電子制御ユニット又は専用の電子制御ユニットを含み得る処理装置、コントローラ又はコンピュータに伝送可能であるものとしてよく又はこれらによって実現されるものとしてよい。同様に、プロセス、方法又はアルゴリズムを、コントローラ又はコンピュータによって実行可能なデータ及び命令として、書込み不可能な記憶媒体、例えば、ＲＯＭデバイスに恒久的に格納される情報と、書込み可能な記憶媒体、例えば、フレキシブルディスク、磁気テープ、ＣＤ、ＲＡＭデバイス及び他の光磁気媒体に変更可能に格納される情報とを含むがこれらに限定されるものではない多くの形態において格納することができる。プロセス、方法又はアルゴリズムは、ソフトウェアを実行し得るオブジェクトとして実装することもできる。選択的に、プロセス、方法又はアルゴリズムを、全体的に又は部分的に、適当なハードウェアコンポーネント、例えば、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、状態機械、コントローラ、又は、他のハードウェアコンポーネント若しくはハードウェアデバイス、又は、ハードウェアコンポーネントとソフトウェアコンポーネントとファームウェアコンポーネントとの組合せを用いて、具現化することができる。

例示的な実施形態を上記において説明したが、これらの実施形態は、特許請求の範囲によって包含される、考えられる総ての形態を説明することを意図していない。明細書において使用する語句は、限定のためではなく説明のための語句であり、本開示の趣旨及び範囲から逸脱せずに種々の変更を行い得ることを理解されたい。上記で説明したように、種々の実施形態の特徴を組み合わせて、明示的に説明又は図示され得ない本発明のさらなる実施形態を形成するものとしてもよい。１つ以上の所望の特性に関して、他の実施形態又は従来技術の実現形態に比較して利点を提供するものとして又は好ましいものとして、種々の実施形態を説明したが、所望の全体的なシステム属性を達成するために１つ以上の特徴又は特性を妥結することもあり、このことは特定の用途及び実現形態に依存することを、当業者は認識する。これらの属性は、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、パッケージング、大きさ、保守容易性、重量、製造可能性、組立容易性などを含み得るが、これらに限定されるものではない。このように、１つ以上の特性に関して、ある実施形態が他の実施形態又は従来技術の実現形態よりも望ましいものではないと記載されている箇所においては、これらの実施形態は、本開示の範囲を逸脱するものではなく、特定の用途について望ましいものであり得る。

Claims

オブジェクトから画像情報を取得するように構成されたカメラと、
前記カメラと通信するプロセッサと、
を備えるシステムであって、
前記プロセッサは、
前記画像情報を含む入力データを受信し、
変分オートエンコーダを介して前記入力データを符号化し、
前記入力データの属性を定義する潜在変数を取得し、敵対的ノイズを用いて識別された問題を解決するように、少なくとも前記潜在変数及び前記敵対的ノイズを利用して前記入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも前記入力データと前記再構築との比較を利用して前記入力データと前記一連の再構築との間の残差を取得し、
前記比較に基づき前記敵対的ノイズと比較される前記入力データのテスト結果を示す前記平均シフトを出力する、
ようにプログラミングされており、
前記敵対的ノイズは、前記入力データの輝度、色又はコントラストを変更する、システム。
前記平均シフトの出力は、生成器に送信され、前記平均シフトに応じて、前記生成器は、追加の敵対的ノイズを生成するように構成されている、請求項１に記載のシステム。
前記システムは、さらに、前記比較の勾配評価に関連付けられた平均変位ベクトルを出力するように構成されている、請求項１に記載のシステム。
前記敵対的ノイズは、第２の入力画像を含む、請求項１に記載のシステム。
前記変分オートエンコーダは、ニューラルネットワークエンコーダである、請求項１に記載のシステム。
前記入力データは、前記カメラから取得されるビデオ情報を含む、請求項１に記載のシステム。
プロセッサを備える装置であって、
前記プロセッサは、
少なくともオブジェクトの画像を含む入力データを受信し、
変分オートエンコーダを介して前記入力データを符号化し、
前記入力データの属性を定義する潜在変数を取得し、敵対的ノイズを用いて識別された問題を解決するように、少なくとも前記潜在変数及び前記敵対的ノイズを利用して前記入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも前記入力データと前記再構築との比較を利用して前記入力データと前記一連の再構築との間の残差を取得し、
前記比較に基づき前記敵対的ノイズと比較される前記入力データのテスト結果を示す前記平均シフトを出力する、
ようにプログラミングされており、
前記敵対的ノイズは、前記入力データの輝度、色又はコントラストを変更する、装置。
前記テスト結果は、数値を含む、請求項７に記載の装置。
前記平均シフトの出力は、追加の敵対的ノイズを生成するために送信される、請求項７に記載の装置。
前記プロセッサは、さらに、第１のシーケンスにおいて第１の潜在変数及び第２の潜在変数の残差を比較し、第２のシーケンスにおいて前記第１の潜在変数と前記第２の潜在変数との間の残差を比較するようにプログラミングされている、請求項７に記載の装置。
前記変分オートエンコーダは、ニューラルネットワークエンコーダである、請求項７に記載の装置。
前記敵対的ノイズは、第２の入力画像を含み、前記第２の入力画像は、少なくとも前記オブジェクトの前記画像を含む前記入力データに対する変更を含む、請求項７に記載の装置。
命令を含むコンピュータプログラムであって、
当該命令は、コンピュータによって実行されるときに、前記コンピュータに、
少なくともオブジェクトの画像を含む入力データを受信させ、
変分オートエンコーダを介して前記入力データを符号化させ、
前記入力データの属性を定義する潜在変数を取得させ、敵対的ノイズを用いて識別された問題を解決するように、少なくとも前記潜在変数及び前記敵対的ノイズを利用して前記入力データの一連の再構築を生成させ、潜在空間における平均シフトの少なくとも前記入力データと前記再構築との比較を利用して前記入力データと前記一連の再構築との間の残差を取得させ、
前記比較に基づき前記敵対的ノイズと比較される前記入力データのテスト結果を示す平均シフトを出力させる、
ためのものであり、
前記敵対的ノイズは、前記入力データの輝度、色又はコントラストを変更する、コンピュータプログラム。
前記入力データは、前記コンピュータと通信するカメラから受信される画像を含む、請求項１３に記載のコンピュータプログラム。
前記変分オートエンコーダは、ニューラルネットワークを含む、請求項１３に記載のコンピュータプログラム。
前記入力データは、複数の画像のデータセットを含む、請求項１３に記載のコンピュータプログラム。
前記コンピュータプログラムは、追加の各シーケンスの間に単一の潜在変数を更新するための命令をさらに含む、請求項１３に記載のコンピュータプログラム。
前記敵対的ノイズは、第２の入力画像を含み、前記第２の入力画像は、少なくとも前記オブジェクトの前記画像を含む前記入力データに対する変更を含む、請求項１３に記載のコンピュータプログラム。