JP2023544186A

JP2023544186A - 敵対的補間バックドア検出

Info

Publication number: JP2023544186A
Application number: JP2023520455A
Authority: JP
Inventors: ルートヴィヒ、ハイコ、エイチ; チュバ、エブベ; チェン、ブライアント; エドワーズ、ベンジャミン、ジェームス; リー、テソン; モロイ、イアン、マイケル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-10-13
Filing date: 2021-08-19
Publication date: 2023-10-20
Also published as: DE112021004652T5; CN116348879A; US20220114259A1; GB202305408D0; GB2614996A; WO2022078062A1

Abstract

一つ以上のコンピュータ・プロセッサが信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定する。一つ以上のコンピュータ・プロセッサは、敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成し、この画像対の各画像は異なるクラスからのものである。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像を利用して、信頼できないモデルに関連するバックドアを検出する。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像により信頼できないモデルを訓練することによって、信頼できないモデルを強化する。

Description

本発明は、一般に機械学習の分野に関し、特に、バックドア付きニューラル・ネットワークの検出に関する。

ディープ・ラーニングは、複雑な構造であるかあるいは複数の非線形変換で構成されることが多いモデル・アーキテクチャを使用することによりデータの高レベルの抽象化をモデル化する一連のアルゴリズムに基づく機械学習の一分野である。ディープ・ラーニングは、データ表現の学習に基づく機械学習方法のより広いファミリーの一部である。観察（例えば画像）が、ピクセル当たりの強度値のベクトルなどの多くのやり方で、またはエッジのセット、特定の形状の領域などとしてより抽象的なやり方で表現されうる。一部の表現は、例からタスク学習すること（例えば顔認識または表情認識）をより容易にする。ディープ・ラーニング・アルゴリズムは、特徴抽出および変換のために非線形処理ユニットの多数の層のカスケードを使用することが多い。各連続する層は、前の層からの出力を入力として使用する。アルゴリズムは教師ありまたは教師なしであることができ、用途にはパターン分析（教師なし）および分類（教師あり）が含まれる。

ニューラル・ネットワーク（ＮＮ：Ｎｅｕｒａｌｎｅｔｗｏｒｋ）は、生体のニューラル・ネットワークに触発されたコンピューティング・システムである。ＮＮは単にアルゴリズムではなく、多数の異なる機械学習アルゴリズムが協働して複雑なデータ入力を処理するためのフレームワークである。このようなシステムは、一般にタスク固有のルールでプログラムされずに、例を考察することによってタスクを行うことを学習する。例えば画像認識では、ＮＮは、真または偽（例えば猫または猫ではない）と正しくラベル付けされた画像例を分析し、その結果を用いて他の画像内のオブジェクト（例えば猫）を識別することによって、猫を含む画像を識別することを学習する。この例では、ＮＮは猫についての例えば猫には毛、尾、ひげ、およびとがった耳があるとの事前知識なしで分類する。代わりに、ＮＮは学習材料から識別特性を自動的に生成する。ＮＮは、生体の脳のニューロンを大まかにモデル化した人工ニューロンと呼ばれる接続されたユニットまたはノードの集合に基づき、各接続部が、生体の脳のシナプスのように、一つの人工ニューロンから別の人工ニューロンに信号を伝送しうる。信号を受信した人工ニューロンは、信号を処理してから、その信号をさらなる人工ニューロンに転送しうる。

一般的なＮＮの実装では、人工ニューロン間の接続部の信号は実数であり、各人工ニューロンの出力は、その入力の合計の何らかの非線形関数によって計算される。人工ニューロン間の接続部はエッジと呼ばれる。人工ニューロンおよびエッジは通常、学習が進むにしたがって調整される重みを有する。重みは、接続部の信号の強度を増減する。人工ニューロンは、合計信号がその閾値を超える場合にのみ信号が送られるような閾値を有しうる。通常、人工ニューロンは層に集められる。異なる層は、それらの入力に対して異なる種類の変換を行いうる。信号は、第一層（入力層）から、場合によっては層を複数回横断した後、最後の層（出力層）まで伝わる。

畳み込みニューラル・ネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）は、視覚的イメージの分析に最も一般的に適用されるニューラル・ネットワークのクラスである。ＣＮＮは、一つの層の各ニューロンが次の層の全てのニューロンに接続される多層パーセプトロン（例えば全接続ネットワーク）の正則化されたバージョンである。ＣＮＮは、データの階層パターンを利用し、より小さくより単純なパターンを使用してより複雑なパターンを組み立てる。ＣＮＮは、画像を小さなパッチ（例えば５×５ピクセルのパッチ）に分解してから、指定されたストライド長さだけ画像を横断して移動する。したがって、ＣＮＮは他の画像分類アルゴリズムと比較して相対的に少ない前処理を用いるため、接続性および複雑性のスケールではＣＮＮは低いほうの極端にあり、ネットワークが従来のアルゴリズムでは手作業で作られていたフィルタを学習することが可能になる。

本発明の実施形態は、コンピュータ実施方法、コンピュータ・プログラム製品、およびシステムを開示する。このコンピュータ実施方法は、一つ以上のコンピュータ・プロセッサが信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するステップを含む。一つ以上のコンピュータ・プロセッサは、敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成し、この画像対の各画像は異なるクラスからのものである。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像を利用して、信頼できないモデルに関連するバックドアを検出する。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像により信頼できないモデルを訓練することによって、信頼できないモデルを強化する。

本発明の実施形態による計算環境を示した機能ブロック・ダイヤグラムである。本発明の実施形態による、生成された補間された敵対的画像を利用してバックドア付きニューラル・ネットワークを検出および強化するための、図１の計算環境内のサーバ・コンピュータ上のプログラムの動作ステップを示したフローチャートである。本発明の実施形態による猫および犬のクラスの間の範囲の複数の補間された画像を生成するプログラムの図である。本発明の実施形態によるサーバ・コンピュータのコンポーネントのブロック・ダイヤグラムである。

訓練データが悪意を持って改ざんされると、結果として生じる訓練されたモデル（例えばディープ畳み込みニューラル・ネットワーク（ＣＮＮ））の関連する予測がバックドア攻撃として知られる設計されたトリガ・パターンの存在下で操作されうる。ディープＣＮＮは、コンピュータ・ビジョン、音声理解、ゲーム・プレイなどの分野で最先端のパフォーマンスを達成するが、訓練段階にバックドア攻撃と呼ばれる悪意を持って導入される脆弱性が存在する。バックドア攻撃は、機械学習システム、特に画像分類、顔認識および自律車両に関連するシステムにダメージを与え、モデルおよび応用の信頼性に重大な課題をもたらしうる。敵対者または悪行者は、普通の入力に対する正しい予測は維持したまま、攻撃者が選んだ入力をいくつかのターゲット・ラベルに分類する能力を有するバックドア例によりニューラル・ネットワークにバックドアを設けうる。バックドアと、訓練段階でニューラル・ネットワークによって学習されたいくつかの「キー」入力とによって異常挙動が起動される。敵対的攻撃は、データ入力がテスト段階で容易に誤分類されるように、テスト・データに人間が知覚できない摂動を加える。敵対者は、バックドア攻撃など、入念に作成された悪意のデータを訓練セットに挿入することによって機械学習モデルを大きく制御する。これは、安全でないまたはクラウドソーシングによるデータ取得、頻繁な再訓練、（例えばモデル市場からの）モデルのカスタマイズ、および転移学習のシナリオに特に関わる。

本発明の実施形態は、モデルに悪意のキーまたはトリガによりバックドアが設けられているか否かを判断する。本発明の実施形態は、モデルにバックドアが存在するか否かを判断するために、複数の補間された敵対的摂動を生成する。本発明の実施形態は、生成された補間された敵対的摂動および関連する敵対的画像を利用してモデルを訓練／再訓練することによってモデルを強化する。本発明の実施形態は、モデル効率を維持し、考えられるバックドアおよび関連する画像の検出を改善するために、ヒューマン・イン・ザ・ループ訓練方法を利用する。本発明の実施形態の実装は様々な形をとることができ、例示的な実装の詳細が図面を参照して後述される。

次に、図面を参照して本発明を詳細に説明する。

図１は、本発明の一実施形態による、一般に１００と指定される計算環境を示した機能ブロック・ダイヤグラムである。本明細書で使用されるところの「計算」という用語は、単一のコンピュータ・システムとして一緒に動作する複数の物理的に異なるデバイスを含むコンピュータ・システムを表す。図１は、一実装の例示を提供するにすぎず、様々な実施形態が実装されうる環境に関するいかなる制限も示唆しない。図示の環境に対する多数の修正が、特許請求の範囲によって挙げられる本発明の範囲から逸脱することなく当業者によってなされうる。

計算環境１００は、ネットワーク１０２を介して接続されたサーバ・コンピュータ１２０を含む。ネットワーク１０２は、例えば遠隔通信ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｗｔｗｏｒｋ）、インターネットなどのワイド・エリア・ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、またはこれら三つの組み合わせであり得、有線、無線、または光ファイバ接続を含みうる。ネットワーク１０２は、音声、データ、およびビデオ情報を含むマルチメディア信号を含むデータ信号、音声信号、もしくはビデオ信号またはそれらの組み合わせを受信および伝送することができる一つ以上の有線ネットワークもしくは無線ネットワークまたはその両方を含みうる。一般に、ネットワーク１０２は、サーバ・コンピュータ１２０とモデル１１０および計算環境１００内の他のコンピューティング・デバイス（図示せず）との間の通信をサポートする接続およびプロトコルの任意の組み合わせでありうる。様々な実施形態において、ネットワーク１０２は、有線、無線、または光接続を介してローカルに動作し、接続およびプロトコルの任意の組み合わせ（例えばパーソナル・エリア・ネットワーク（ＰＡＮ：ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、近距離無線通信（ＮＦＣ：ｎｅａｒｆｉｅｌｄｃｏｍｍｕｎｉｃａｔｉｏｎ）、レーザ、赤外線、超音波など）でありうる。

モデル１１０は、ディープ・ラーニング技術を利用して訓練し、重みを計算し、入力を取り込み、複数の解ベクトルを出力するモデルを代表する。一実施形態では、モデル１１０は、教師ありまたは教師なし方法で訓練されうる転移可能なニューラル・ネットワーク・アルゴリズムおよびモデル（例えば長・短期記憶（ＬＳＴＭ：ｌｏｎｇｓｈｏｒｔ‐ｔｅｒｍｍｅｍｏｒｙ）、ディープ・スタッキング・ネットワーク（ＤＳＮ：ｄｅｅｐｓｔａｃｋｉｎｇｎｅｔｗｏｒｋ）、ディープ・ビリーフ・ネットワーク（ＤＢＮ：ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、畳み込みニューラル・ネットワーク（ＣＮＮ）、複合階層ディープ・モデルなど）などのディープ・ラーニング・モデル、技術、およびアルゴリズムの任意の組み合わせを含む。図示の実施形態では、モデル１１０は、教師あり敵対的訓練方法を利用して訓練されるＣＮＮである。本実施形態では、敵対的訓練方法は、未修正例および敵対的例の両方を正しく分類するようにモデルを訓練するプロセスである。敵対的訓練は、元の例に対する汎化性能を維持しながら敵対的サンプル（すなわち画像）に対するロバスト性を改善する。一実施形態では、モデル１１０はバックドアによって侵害されており、モデル１１０は後に誤ったターゲット・クラスで誤分類される（異なる真ラベルの）バックドアに関連する任意の入力を消費する。一実施形態では、モデル１１０は信頼できないモデルであり、この信頼できないモデルは安全でないまたは信頼できないソースから取得され、前記ソースから取得されるいずれのモデルも直ちに検証できないようなものである。

サーバ・コンピュータ１２０は、スタンドアロンコンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、または、データを受信、送信、および処理することができる任意の他の電子デバイスもしくはコンピューティング・システムでありうる。他の実施形態では、サーバ・コンピュータ１２０は、クラウド・コンピューティング環境などでサーバ・システムとして複数のコンピュータを利用するサーバコンピューティング・システムを表しうる。別の実施形態では、サーバ・コンピュータ１２０は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ（ＰＣ：ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、デスクトップ・コンピュータ、携帯情報端末（ＰＤＡ：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、スマート・フォン、またはネットワーク１０２を介して計算環境１００内の他のコンピューティング・デバイス（図示せず）と通信することができる任意のプログラム可能電子デバイスでありうる。別の実施形態では、サーバ・コンピュータ１２０は、計算環境１００内でアクセスされたときにシームレスなリソースの単一プールとして働くクラスタ化されたコンピュータおよびコンポーネント（例えばデータベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータなど）を利用するコンピューティング・システムを表す。図示された実施形態では、サーバ・コンピュータ１２０は、データベース１２２およびプログラム１５０を含む。他の実施形態では、サーバ・コンピュータ１２０は、計算環境１００に図示されていない他のアプリケーション、データベース、プログラムなどを含みうる。サーバ・コンピュータ１２０は、図４に関して図示されさらに詳細に説明されるように、内部および外部ハードウェア・コンポーネントを含みうる。

データベース１２２は、プログラム１５０によって使用されるデータのリポジトリである。図示の実施形態では、データベース１２２はサーバ・コンピュータ１２０上にある。別の実施形態では、データベース１２２は、プログラム１５０がデータベース１２２にアクセスできるならば計算環境１００内の他所にありうる。データベースは、整理されたデータの集まりである。データベース１２２は、データベース・サーバ、ハード・ディスク・ドライブ、またはフラッシュ・メモリなど、プログラム１５０によってアクセスおよび利用されうるデータおよび構成ファイルを記憶することができる任意のタイプの記憶デバイスにより実装されうる。一実施形態では、データベース１２２は、過去の補間された敵対的画像、過去のバックドア、過去のクリーン・モデル、過去のバックドア・モデル、および関連データセット（例えばテスト・セット、バリデーション・セット、および訓練セット）など、プログラム１５０によって使用されるデータを記憶する。

プログラム１５０は、生成された補間された敵対的画像を利用してバックドア付きニューラル・ネットワークを検出および強化するためのプログラムである。様々な実施形態において、プログラム１５０は、信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するステップと、敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するステップであって、画像対の各画像は異なるクラスからのものである、ステップと、生成された複数の補間された敵対的画像を利用して、信頼できないモデルに関連するバックドアを検出するステップと、生成された複数の補間された敵対的画像により信頼できないモデルを訓練することによって、信頼できないモデルを強化するステップとを実施しうる。図示された実施形態では、プログラム１５０はスタンドアロンのソフトウェア・プログラムである。別の実施形態では、プログラム１５０またはその任意の組み合わせのプログラムの機能性が、単一のソフトウェア・プログラムに統合されうる。いくつかの実施形態では、プログラム１５０は、別個のコンピューティング・デバイス（図示せず）上に位置しうるが、なおネットワーク１０２を介して通信しうる。様々な実施形態では、計算環境１００内の任意の他のコンピューティング・デバイス（図示せず）上にプログラム１５０のクライアント・バージョンがある。プログラム１５０は、図２に関して図示されさらに詳細に説明される。

本発明は、ユーザが処理を望まないパーソナル記憶デバイス、データ、コンテンツ、または情報を含みうるデータベース１２２などの様々なアクセス可能なデータ・ソースを含みうる。処理とは、個人データに対して行われる収集、記録、編成、構造化、記憶、適応、変更、検索、参照、使用、伝送、配布、もしくはその他のやり方で利用可能にすることによる開示、組み合わせ、制限、消去、または破壊などの、任意の自動化されたまたは自動化されない動作または一連の動作を指す。プログラム１５０は、個人データの収集の通知を含む情報に基づく同意を提供して、ユーザが個人データの処理にオプトインまたはオプトアウトすることを可能にする。同意はいくつかの形をとりうる。オプトイン同意は、個人データが処理される前に積極的行動をとることをユーザに課しうる。あるいは、オプトアウト同意は、データが処理される前に個人データの処理を阻止する積極的行動をとることをユーザに課しうる。プログラム１５０は、追跡情報などのユーザ情報、ならびに個人識別情報または機密個人情報などの個人データの許可された安全な処理を可能にする。プログラム１５０は、個人データおよび処理の性質（例えばタイプ、範囲、目的、期間など）に関する情報を提供する。プログラム１５０は、ユーザに記憶された個人データのコピーを提供する。プログラム１５０は、誤ったまたは不完全な個人データの訂正または完成を可能にする。プログラム１５０は、個人データの即時削除を可能にする。

図２は、本発明の実施形態による、生成された補間された敵対的画像を利用してバックドア付きニューラル・ネットワークを検出および強化するためのプログラム１５０の動作ステップを示したフローチャート２００を示す。

プログラム１５０は、信頼できないモデルを監視する（ステップ２０２）。一実施形態では、プログラム１５０は、ユーザが信頼できないモデルをプログラム１５０に入力したときに開始する。別の実施形態では、プログラム１５０は、一つ以上の信頼できないモデルをバックドアの兆候につき監視（例えば取得または受信）する。一実施形態では、プログラムは、信頼できないモデルのアーキテクチャおよび関連する予め訓練された重みを受信する。別の実施形態では、プログラム１５０は、一つ以上の信頼できないモデルが訓練または再訓練されるたびに起動する。別の実施形態では、プログラム１５０は、訓練サンプルの追加、修正、または削除などの、訓練サンプルまたはデータセットの一つ以上の変化に応答して開始する。あるシナリオ例では、攻撃者は訓練セットを変更するが、テスト・セットもモデル詳細および関連する訓練アルゴリズムも変更しない。一実施形態では、プログラム１５０は、信頼できないモデルに関連するそれぞれのラベルを備えたクリーンな訓練およびバリデーション・データのセットを受信する。例えば、プログラム１５０は、各画像がラベル付けされた訓練およびバリデーション画像のセットを受信する。別の実施形態では、プログラム１５０は、敵対的訓練方法および関連するパラメータを受信する。

プログラム１５０は、信頼できないモデルに関連する許容値およびノルム値を決定する（ステップ２０４）。プログラム１５０が信頼できないモデルに関連するクリーンなテスト・セットおよびバリデーション・セットを受信したことに応答して、プログラム１５０は、関連するバリデーション・データを利用して許容値を受信または決定する。この実施形態では、許容度は、強度が増大する敵対的攻撃に対するモデルのロバスト性の尺度である。一実施形態では、プログラム１５０は、バリデーション・データを利用してモデルをテストし、一つ以上の誤り率を計算することによって許容度を決定する。別の実施形態では、プログラム１５０は、摂動のサイズを指定のイプシロンよりも小さく保ちながら特定の入力に対するモデルの損失を最大化するノルム値を受信または決定する。この実施形態では、ノルム値は摂動のＬ^２またはＬ∞ノルムとして表される。一実施形態では、プログラム１５０は、バリデーション・セットからモデルのロバスト性をテストするためのデータのセットを選択し、ロバストなモデルは、有用であるが非ロバストな特徴の学習を有効に阻止する。

プログラム１５０は、決定された許容値およびノルム値を利用して複数の補間された敵対的画像を生成する（ステップ２０６）。一実施形態では、プログラム１５０は、関連するクラス・ラベルを変更しうる摂動がそれぞれ加えられた複数のイプシロンが大きい敵対的画像を生成する。一実施形態では、プログラム１５０は、決定されたノルム値および決定された許容値を利用して、摂動および関連する敵対的画像を調整する。さらなる実施形態では、プログラム１５０は、バリデーション・データセットの各ラベルおよびデータの対ごとに敵対的画像を生成し、生成された各画像に正しいラベルを付ける。別の実施形態では、プログラム１５０は、各イテレーションでのデータ点による線形化された損失関数を利用することによって摂動を計算する。例えば、プログラム１５０は、ＩｔｅｒａｔｉｖｅＬｅａｓｔ‐ＬｉｋｅｌｙＣｌａｓｓ（反復的最小尤度クラス）法という最もあり得ない予測を所望のクラスとして選択する反復勾配に基づく方法を利用する。ここでは、プログラム１５０は、それぞれが異なるクラスからの画像の対の間の範囲の複数の補間された画像を生成する。一実施形態では、プログラム１５０は、二つの画像ｘ、ｘ’を所与として、ｘおよびｘ’のそれぞれのクラスの間で補間された画像を生成する。一実施形態では、プログラム１５０は、テスト・セットもしくはバリデーション・セットまたはその両方に含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行う。上記実施形態では、プログラム１５０は、元の画像と別のクラスの別の画像クラスとの間でそれぞれのクラス間の滑らかな補間に線形に補間する。さらなる実施形態では、ロバストなモデルでは前記摂動は元の画像に（例えば人間の目に見える）知覚可能な変化を引き起こす。一実施形態では、プログラム１５０は、画像のセクションまたは領域のみを摂動させる。上記の実施形態では、生成される補間された画像は、後述のように、訓練の様々なポイントでのモデルのロバスト性のテストとして働く。

プログラム１５０は、生成された複数の補間された敵対的画像を利用してバックドアを検出する（ステップ２０８）。一実施形態では、プログラム１５０は、生成された複数の補間された敵対的画像を利用して、複数の補間された敵対的画像に応答した誤分類または分類の変化を識別することによって前記画像内に存在するバックドアを検出する。一実施形態では、プログラム１５０は、バックドアの付近の画像の統計がクリーンな画像の統計と異なることから、入力された補間された敵対的画像に関連する一つ以上の勾配を分析することによってバックドアを検出する。一実施形態では、プログラム１５０は、平均および標準偏差を利用して、画像にバックドアが設けられているか否かを判断する。一実施形態では、プログラム１５０は、勾配がバックドアが存在することを示したか、敵対的画像が解読不能になるかまたはターゲット・クラスのデータに知覚的に類似するまで、上記のステップを続ける。非ロバストなモデルでは、敵対的摂動はランダム・ノイズとして表れるが、ロバストなモデルはバックドアに起因する誤分類を阻止しながらバックドアを明らかにすることができる。

一実施形態では、プログラム１５０は、モデルの訓練の進捗を監視するために、ヒューマン・イン・ザ・ループ訓練方法を利用する（すなわちユーザがイベントまたはプロセスの結果を変更することを可能にする）。例えば、プログラム１５０は、敵対的再訓練に関連する経時的な一つ以上の勾配を監視する。さらなる例では、プログラム１５０は、一つ以上の勾配を視覚化として定期的に一人以上のユーザに表示する。さらなる実施形態では、プログラム１５０は、画像の不一致を検出するのを助けるためにユーザに提示される一つ以上の視覚化を生成する。一実施形態では、プログラム１５０は、モデル訓練における様々なポイントで複数のチェックポイントを確立する。この実施形態では、プログラム１５０は、その時点でのモデルの現在の状態を保存する。さらなる実施形態では、プログラム１５０は、上述のような敵対的補間をヒューマン・イン・ザ・ループ訓練方法として利用して、ユーザが敵対的変化または生成された画像がバックドアであると考える場合に人間の介入を可能にする。この実施形態では、ユーザはモデルが再訓練されるべきか否かを決定する。別の実施形態では、プログラム１５０は、生成され適用される敵対的摂動の人間による検証を利用して、訓練の特定のステップでモデルを監視し中断する。様々な実施形態において、プログラム１５０は、バックドアに起因してシフトしている可能性がある一つ以上の分類をユーザに提供する。様々な実施形態において、プログラム１５０は、チェックポイントを利用して、以前の訓練を再訪問し、前記訓練および関連する統計を人間の監督者に提示する。ヒューマン・イン・ザ・ループ訓練は、モデルのロバスト性を維持するために訓練プロセスにおける人間の介入を可能にする。一実施形態では、生成された敵対的画像が入力に対する解釈可能な（すなわち人間によって検出可能な）摂動を明らかにしない場合には、プログラム１５０は、生成された画像を利用して敵対的訓練を行い、摂動が解釈可能になるまで上記のステップを繰り返す。一例では、解釈不能な摂動はガウス・ノイズ、または目に見えるパターンを形成しない他のノイズ・パターンである。

プログラム１５０は、生成された敵対的画像により信頼できないモデルを再訓練することによって、検出されたバックドアを除去する（ステップ２１０）。一実施形態では、プログラム１５０は、ロバストなモデルの訓練のために生成された敵対的補間画像を利用して信頼できないモデルを訓練することによって、信頼できないモデルを強化する。別の実施形態では、プログラム１５０は、後続の入力をフィルタし、検出されたバックドアを含む画像を除去する。別の実施形態では、プログラム１５０は、全ての入力を処理し、バックドアが検出されれば入力内の領域を除去する。様々な実施形態において、プログラム１５０は、バックドア付きデータを関連するソース・クラスで再ラベル付けし、再ラベル付けされたバックドア付きデータを利用してモデルの訓練を続ける。一実施形態では、プログラム１５０は、後続の推論およびスコアリングのために強化されたモデルを展開する。

図３は、本発明の例示的な実施形態による図３００を示す。図３００は、猫（すなわち元の画像３０２）および犬のクラス（すなわち補間された画像３０４Ｄ）の間の範囲の複数の補間された画像（すなわち補間された画像３０４Ａ、３０４Ｂ、および３０４Ｃ）を含む。図３００は、プログラム１５０がステップ２０６で説明されるように猫および犬のクラスの間の範囲の複数の補間された画像を生成するのを示す。ここでは、プログラム１５０は、元の画像３０２および関連するクラス（すなわち猫）に一つ以上の敵対的摂動を加えて、ターゲット・クラス（すなわち犬）に向かって補間する。補間された画像３０２Ａ、３０４Ｂ、３０４Ｃ、および３０４Ｄに示されるように、プログラム１５０は、補間された画像３０４Ｄの犬としての分類に示されるように補間された画像がターゲット・クラスとして分類されるまで敵対的摂動を加え続ける。

図４は、本発明の例示的な実施形態によるサーバ・コンピュータ１２０のコンポーネントを示したブロック・ダイヤグラム４００を示す。図４は、一実装の例示を提供するにすぎず、様々な実施形態が実装されうる環境に関するいかなる制限も示唆しないことが理解されねばならない。図示された環境に多くの変更が加えられうる。

サーバ・コンピュータ１２０はそれぞれ通信ファブリック４０４を含み、通信ファブリック４０４は、キャッシュ４０３、メモリ４０２、永続ストレージ４０５、通信ユニット４０７、および入力／出力（Ｉ／Ｏ）インタフェース４０６の間の通信を提供する。通信ファブリック４０４は、プロセッサ（マイクロ・プロセッサ、通信、およびネットワーク・プロセッサなど）、システム・メモリ、周辺デバイス、およびシステム内の任意の他のハードウェア・コンポーネントの間でデータを渡すためおよび／または情報を制御するために設計された任意のアーキテクチャにより実装されうる。例えば通信ファブリック４０４は、一つ以上のバスまたはクロスバー・スイッチにより実装されうる。

メモリ４０２および永続ストレージ４０５は、コンピュータ可読記憶媒体である。本実施形態において、メモリ４０２は、ランダム・アクセス・メモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）を含む。一般に、メモリ４０２は、任意の適切な揮発性または不揮発性コンピュータ可読記憶媒体を含みうる。キャッシュ４０３は、メモリ４０２から最近アクセスされたデータ、およびアクセスされたデータに近いデータを保持することによってコンピュータ・プロセッサ（単数または複数）４０１の性能を高める高速メモリである。

プログラム１５０は、キャッシュ４０３を介したそれぞれのコンピュータ・プロセッサ（単数または複数）４０１のうちの一つ以上による実行のために永続ストレージ４０５およびメモリ４０２に記憶されうる。一実施形態では、永続ストレージ４０５は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブに代わってまたは加えて、永続ストレージ４０５は、ソリッドステート・ハード・ドライブ、半導体記憶デバイス、リードオンリ・メモリ（ＲＯＭ：ｒｅａｄ‐ｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラム可能リードオンリ・メモリ（ＥＰＲＯＭ：ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ‐ｏｎｌｙｍｅｍｏｒｙ、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶できる任意の他のコンピュータ可読記憶媒体を含みうる。

永続ストレージ４０５によって使用される媒体は、取り外し可能であってもよい。例えば、取り外し可能ハード・ドライブが永続ストレージ４０５のために使用されうる。他の例には、同じく永続ストレージ４０５の一部である別のコンピュータ可読記憶媒体への転送のためにドライブに挿入される光ディスクおよび磁気ディスク、サム・ドライブ、およびスマート・カードが含まれる。ソフトウェアおよびデータ４１２が、キャッシュ４０３を介したそれぞれのプロセッサ４０１のうちの一つ以上によるアクセスもしくは実行またはその両方のために永続ストレージ４０５に記憶されうる。

通信ユニット４０７は、これらの例において、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット４０７は、一つ以上のネットワーク・インタフェース・カードを含む。通信ユニット４０７は、物理通信リンクおよび無線通信リンクのいずれかまたは両方の使用を通じて通信を提供しうる。通信ユニット４０７を通じて永続ストレージ４０５にプログラム１５０がダウンロードされうる。

Ｉ／Ｏインタフェース（単数または複数）４０６は、サーバ・コンピュータ１２０に接続されうる他のデバイスによるデータの入力および出力を可能にする。例えば、Ｉ／Ｏインタフェース（単数または複数）４０６は、キーボード、キーパッド、タッチ・スクリーン、もしくは他の何らかの適切な入力デバイスまたはそれらの組み合わせなどの外部デバイス（単数または複数）４０８への接続を提供しうる。外部デバイス４０８は、例えばサム・ドライブ、ポータブル光または磁気ディスク、およびメモリ・カードなどのポータブル・コンピュータ可読記憶媒体も含みうる。本発明の実施形態を実践するために使用されるソフトウェアおよびデータ、例えばプログラム１５０が、Ｉ／Ｏインタフェース（単数または複数）４０６を介してそのようなポータブル・コンピュータ可読記憶媒体に記憶されることができ、永続ストレージ４０５にロードされることができる。Ｉ／Ｏインタフェース（単数または複数）４０６はディスプレイ４０９にも接続する。

ディスプレイ４０９は、ユーザにデータを表示するための機構を提供し、例えばコンピュータ・モニタとすることができる。

本明細書に記載されるプログラムは、それらが本発明の特定の実施形態において実装される用途に基づいて識別される。しかし、本明細書におけるいずれの特定のプログラムの呼称も便宜上使用されるにすぎず、したがって本発明は、そのような呼称によって識別および／または示唆されるいずれの特定の用途における使用にも限定されてはらないことが理解されねばならない。

本発明は、システム、方法、もしくはコンピュータ・プログラム製品またはそれらの組み合わせでありうる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を遂行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（単数または複数）を含みうる。

コンピュータ可読記憶媒体は、命令実行デバイスにより使用するための命令を保持および記憶しうる有形のデバイスでありうる。コンピュータ可読記憶媒体は、例えば電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または以上の任意の適切な組み合わせでありうるがこれらに限定されない。コンピュータ可読記憶媒体のさらなる具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リードオンリ・メモリ（ＲＯＭ）、消去可能プログラム可能リードオンリ・メモリ（ＥＰＲＯＭすなわちフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ポータブル・コンパクト・ディスク・リードオンリ・メモリ（ＣＤ‐ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ‐ｏｎｌｙｍｅｍｏｒｙ）、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）、メモリスティック、フレキシブルディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的にエンコードされたデバイス、および以上の任意の適切な組み合わせを含む。本明細書で使用されるところのコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通じて伝播する電磁波（例えば光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号などの一時的信号そのものと解釈されてはならない。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはそれらの組み合わせを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードされうる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバまたはそれらの組み合わせを含みうる。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体への記憶のためにコンピュータ可読プログラム命令を転送する。

本発明の動作を遂行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：ｉｎｓｔｒｕｃｔｉｏｎ‐ｓｅｔ‐ａｒｃｈｉｔｅｃｔｕｒｅ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、「Ｃ」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語、および量子計算言語（ＱＣＬ：ｑｕａｎｔｕｍｃｏｍｐｕｔａｔｉｏｎｌａｎｇｕａｇｅ）もしくは類似のプログラミング言語などの量子プログラミング言語、アセンブリ言語もしくは類似のプログラミング言語などの低水準プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードでありうる。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンのソフトウェア・パッケージとして、部分的にユーザのコンピュータ上で、および部分的にリモート・コンピュータ上で、または全体的にリモート・コンピュータもしくはサーバ上で、実行しうる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されることができ、または（例えばインターネット・サービス・プロバイダを使用してインターネットを通じて）外部コンピュータに接続がなされうる。いくつかの実施形態において、例えばプログラム可能論理回路、フィールドプログラム可能ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ‐ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、またはプログラム可能ロジック・アレイ（ＰＬＡ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を含む電子回路は、本発明の態様を行うためにコンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによってコンピュータ可読プログラム命令を実行しうる。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック・ダイヤグラムまたはその両方を参照して本明細書に説明される。フローチャート図もしくはブロック・ダイヤグラムまたはその両方の各ブロック、およびフローチャート図もしくはブロック・ダイヤグラムまたはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されうることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令がフローチャートもしくはブロック・ダイヤグラムまたはその両方の一つまたは複数のブロックに指定された機能／行為を実施するための手段を生み出すように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて機械を生成しうる。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体がフローチャートもしくはブロック・ダイヤグラムまたはその両方の一つまたは複数のブロックに指定された機能／行為の態様を実施する命令を含む製造品を含むように、コンピュータ・プログラム可能データ処理装置もしくは他のデバイスまたはそれらの組み合わせに特定の様式で機能するように指示しうるコンピュータ可読記憶媒体に記憶されてもよい。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令がフローチャートもしくはブロック・ダイヤグラムまたはその両方の一つまたは複数のブロックに指定された機能／行為を実施するように、コンピュータ実施プロセスを生成するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされてコンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作行為を行わせることもできる。

図面のフローチャートおよびブロック・ダイヤグラムは、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実装のアーキテクチャ、機能性および動作を示す。これに関して、フローチャートまたはブロック・ダイヤグラムの各ブロックは、指定された論理機能（単数または複数）を実装するための一つ以上の実行可能命令を含むモジュール、セグメント、または命令の一部を表しうる。いくつかの代替的実装では、ブロック内に記された機能は、図面に記されるのとは異なる順序で生じうる。例えば、関連する機能性に応じて、連続して示される二つのブロックが実際には実質的に同時に実行されてもよいし、またはそれらのブロックが逆の順序で実行されることもありうる。ブロック・ダイヤグラムもしくはフローチャート図またはその両方の各ブロック、およびブロック・ダイヤグラムもしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能もしくは動作を行う、または専用ハードウェアおよびコンピュータ命令の組み合わせを遂行する専用ハードウェアベース・システムにより実装されうることにも留意されたい。

様々な実施形態の説明が例示の目的で提示されているが、網羅的であることも、開示された実施形態に限定されることも意図していない。通常の技術を有する当業者には、説明された実施形態の範囲から逸脱することなく、多数の修正例およびバリエーションが明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用例または市場で見られる技術に対する技術的改善を最もよく説明するために、または通常の技術を有する他の当業者が本明細書に開示される実施形態を理解できるようにするために選択された。

Claims

一つ以上のコンピュータ・プロセッサによって、信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するステップと、
一つ以上のコンピュータ・プロセッサによって、前記敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するステップであって、前記画像対の各画像は異なるクラスからのものである、ステップと、
一つ以上のコンピュータ・プロセッサによって、前記生成された複数の補間された敵対的画像を利用して、前記信頼できないモデルに関連するバックドアを検出するステップと、
一つ以上のコンピュータ・プロセッサによって、前記生成された複数の補間された敵対的画像により前記信頼できないモデルを訓練することによって、前記信頼できないモデルを強化するステップと
を含む、コンピュータ実施方法。
前記敵対的訓練方法を利用して前記画像対の間の範囲の前記複数の補間された敵対的画像を生成するステップは、
一つ以上のコンピュータ・プロセッサによって、テスト・セットに含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行うステップ
を含む、請求項１に記載のコンピュータ実施方法。
前記一つ以上の摂動は線形補間される、請求項２に記載のコンピュータ実施方法。
一つ以上のコンピュータ・プロセッサによって、ヒューマン・イン・ザ・ループ訓練方法を利用して前記信頼できないモデルを監視するステップ
をさらに含む、請求項１に記載のコンピュータ実施方法。
一つ以上のコンピュータ・プロセッサによって、前記信頼できないモデルに関連する一つ以上の勾配を定期的に表示するステップ
をさらに含む、請求項４に記載のコンピュータ実施方法。
一つ以上のコンピュータ・プロセッサによって、前記検出されたバックドアを含む一つ以上の後続の入力をフィルタするステップ
をさらに含む、請求項１に記載のコンピュータ実施方法。
前記強化されたモデルは推論のために展開される、請求項１に記載のコンピュータ実施方法。
一つ以上のコンピュータ・プロセッサによって、前記信頼できないモデル、関連する予め訓練された重み、クリーンなテスト・セット、バリデーション・セット、および前記敵対的訓練方法を受信するステップであって、前記クリーンなテスト・セットおよび前記バリデーション・セットはそれぞれ関連するラベルを備えた複数の画像を含む、ステップ
をさらに含む、請求項１に記載のコンピュータ実施方法。
一つ以上のコンピュータ可読記憶媒体および前記一つ以上のコンピュータ可読記憶媒体に記憶されたプログラム命令
を含むコンピュータ・プログラム製品であって、前記記憶されたプログラム命令は、
信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するプログラム命令と、
前記敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するプログラム命令であって、前記画像対の各画像は異なるクラスからのものである、プログラム命令と、
前記生成された複数の補間された敵対的画像を利用して、前記信頼できないモデルに関連するバックドアを検出するプログラム命令と、
前記生成された複数の補間された敵対的画像により前記信頼できないモデルを訓練することによって、前記信頼できないモデルを強化するプログラム命令と
を含む、コンピュータ・プログラム製品。
前記敵対的訓練方法を利用して前記画像対の間の範囲の前記複数の補間された敵対的画像を生成する前記プログラム命令は、
テスト・セットに含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行うプログラム命令
を含む、請求項９に記載のコンピュータ・プログラム製品。
前記一つ以上の摂動は線形補間される、請求項１０に記載のコンピュータ・プログラム製品。
前記一つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
ヒューマン・イン・ザ・ループ訓練方法を利用して前記信頼できないモデルを監視するプログラム命令
をさらに含む、請求項９に記載のコンピュータ・プログラム製品。
前記一つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
前記信頼できないモデルに関連する一つ以上の勾配を定期的に表示するプログラム命令
をさらに含む、請求項１２に記載のコンピュータ・プログラム製品。
前記強化されたモデルは推論のために展開される、請求項９に記載のコンピュータ・プログラム製品。
一つ以上のコンピュータ・プロセッサと、
一つ以上のコンピュータ可読記憶媒体と、
前記一つ以上のプロセッサのうちの少なくとも一つによる実行のために前記一つ以上のコンピュータ可読記憶媒体に記憶されたプログラム命令であって、前記記憶されたプログラム命令は、
信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するプログラム命令と、
前記敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するプログラム命令であって、前記画像対の各画像は異なるクラスからのものである、プログラム命令と、
前記生成された複数の補間された敵対的画像を利用して、前記信頼できないモデルに関連するバックドアを検出するプログラム命令と、
前記生成された複数の補間された敵対的画像により前記信頼できないモデルを訓練することによって、前記信頼できないモデルを強化するプログラム命令と
を含む、プログラム命令と
を含む、コンピュータ・システム。
前記敵対的訓練方法を利用して前記画像対の間の範囲の前記複数の補間された敵対的画像を生成する前記プログラム命令は、
テスト・セットに含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行うプログラム命令
を含む、請求項１５に記載のコンピュータ・システム。
前記一つ以上の摂動は線形補間される、請求項１６に記載のコンピュータ・システム。
ヒューマン・イン・ザ・ループ訓練方法を利用して前記信頼できないモデルを監視するプログラム命令、請求項１５に記載のコンピュータ・システム。
前記一つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
前記信頼できないモデルに関連する一つ以上の勾配を定期的に表示するプログラム命令
をさらに含む、請求項１８に記載のコンピュータ・システム。
前記強化されたモデルは推論のために展開される、請求項１５に記載のコンピュータ・システム。