JP2023544186A - 敵対的補間バックドア検出 - Google Patents

敵対的補間バックドア検出 Download PDF

Info

Publication number
JP2023544186A
JP2023544186A JP2023520455A JP2023520455A JP2023544186A JP 2023544186 A JP2023544186 A JP 2023544186A JP 2023520455 A JP2023520455 A JP 2023520455A JP 2023520455 A JP2023520455 A JP 2023520455A JP 2023544186 A JP2023544186 A JP 2023544186A
Authority
JP
Japan
Prior art keywords
computer
adversarial
images
model
interpolated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023520455A
Other languages
English (en)
Inventor
ルートヴィヒ、ハイコ、エイチ
チュバ、エブベ
チェン、ブライアント
エドワーズ、ベンジャミン、ジェームス
リー、テソン
モロイ、イアン、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023544186A publication Critical patent/JP2023544186A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Virology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一つ以上のコンピュータ・プロセッサが信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定する。一つ以上のコンピュータ・プロセッサは、敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成し、この画像対の各画像は異なるクラスからのものである。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像を利用して、信頼できないモデルに関連するバックドアを検出する。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像により信頼できないモデルを訓練することによって、信頼できないモデルを強化する。

Description

本発明は、一般に機械学習の分野に関し、特に、バックドア付きニューラル・ネットワークの検出に関する。
ディープ・ラーニングは、複雑な構造であるかあるいは複数の非線形変換で構成されることが多いモデル・アーキテクチャを使用することによりデータの高レベルの抽象化をモデル化する一連のアルゴリズムに基づく機械学習の一分野である。ディープ・ラーニングは、データ表現の学習に基づく機械学習方法のより広いファミリーの一部である。観察(例えば画像)が、ピクセル当たりの強度値のベクトルなどの多くのやり方で、またはエッジのセット、特定の形状の領域などとしてより抽象的なやり方で表現されうる。一部の表現は、例からタスク学習すること(例えば顔認識または表情認識)をより容易にする。ディープ・ラーニング・アルゴリズムは、特徴抽出および変換のために非線形処理ユニットの多数の層のカスケードを使用することが多い。各連続する層は、前の層からの出力を入力として使用する。アルゴリズムは教師ありまたは教師なしであることができ、用途にはパターン分析(教師なし)および分類(教師あり)が含まれる。
ニューラル・ネットワーク(NN:Neural network)は、生体のニューラル・ネットワークに触発されたコンピューティング・システムである。NNは単にアルゴリズムではなく、多数の異なる機械学習アルゴリズムが協働して複雑なデータ入力を処理するためのフレームワークである。このようなシステムは、一般にタスク固有のルールでプログラムされずに、例を考察することによってタスクを行うことを学習する。例えば画像認識では、NNは、真または偽(例えば猫または猫ではない)と正しくラベル付けされた画像例を分析し、その結果を用いて他の画像内のオブジェクト(例えば猫)を識別することによって、猫を含む画像を識別することを学習する。この例では、NNは猫についての例えば猫には毛、尾、ひげ、およびとがった耳があるとの事前知識なしで分類する。代わりに、NNは学習材料から識別特性を自動的に生成する。NNは、生体の脳のニューロンを大まかにモデル化した人工ニューロンと呼ばれる接続されたユニットまたはノードの集合に基づき、各接続部が、生体の脳のシナプスのように、一つの人工ニューロンから別の人工ニューロンに信号を伝送しうる。信号を受信した人工ニューロンは、信号を処理してから、その信号をさらなる人工ニューロンに転送しうる。
一般的なNNの実装では、人工ニューロン間の接続部の信号は実数であり、各人工ニューロンの出力は、その入力の合計の何らかの非線形関数によって計算される。人工ニューロン間の接続部はエッジと呼ばれる。人工ニューロンおよびエッジは通常、学習が進むにしたがって調整される重みを有する。重みは、接続部の信号の強度を増減する。人工ニューロンは、合計信号がその閾値を超える場合にのみ信号が送られるような閾値を有しうる。通常、人工ニューロンは層に集められる。異なる層は、それらの入力に対して異なる種類の変換を行いうる。信号は、第一層(入力層)から、場合によっては層を複数回横断した後、最後の層(出力層)まで伝わる。
畳み込みニューラル・ネットワーク(CNN:Convolutional neural network)は、視覚的イメージの分析に最も一般的に適用されるニューラル・ネットワークのクラスである。CNNは、一つの層の各ニューロンが次の層の全てのニューロンに接続される多層パーセプトロン(例えば全接続ネットワーク)の正則化されたバージョンである。CNNは、データの階層パターンを利用し、より小さくより単純なパターンを使用してより複雑なパターンを組み立てる。CNNは、画像を小さなパッチ(例えば5×5ピクセルのパッチ)に分解してから、指定されたストライド長さだけ画像を横断して移動する。したがって、CNNは他の画像分類アルゴリズムと比較して相対的に少ない前処理を用いるため、接続性および複雑性のスケールではCNNは低いほうの極端にあり、ネットワークが従来のアルゴリズムでは手作業で作られていたフィルタを学習することが可能になる。
本発明の実施形態は、コンピュータ実施方法、コンピュータ・プログラム製品、およびシステムを開示する。このコンピュータ実施方法は、一つ以上のコンピュータ・プロセッサが信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するステップを含む。一つ以上のコンピュータ・プロセッサは、敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成し、この画像対の各画像は異なるクラスからのものである。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像を利用して、信頼できないモデルに関連するバックドアを検出する。一つ以上のコンピュータ・プロセッサは、生成された複数の補間された敵対的画像により信頼できないモデルを訓練することによって、信頼できないモデルを強化する。
本発明の実施形態による計算環境を示した機能ブロック・ダイヤグラムである。 本発明の実施形態による、生成された補間された敵対的画像を利用してバックドア付きニューラル・ネットワークを検出および強化するための、図1の計算環境内のサーバ・コンピュータ上のプログラムの動作ステップを示したフローチャートである。 本発明の実施形態による猫および犬のクラスの間の範囲の複数の補間された画像を生成するプログラムの図である。 本発明の実施形態によるサーバ・コンピュータのコンポーネントのブロック・ダイヤグラムである。
訓練データが悪意を持って改ざんされると、結果として生じる訓練されたモデル(例えばディープ畳み込みニューラル・ネットワーク(CNN))の関連する予測がバックドア攻撃として知られる設計されたトリガ・パターンの存在下で操作されうる。ディープCNNは、コンピュータ・ビジョン、音声理解、ゲーム・プレイなどの分野で最先端のパフォーマンスを達成するが、訓練段階にバックドア攻撃と呼ばれる悪意を持って導入される脆弱性が存在する。バックドア攻撃は、機械学習システム、特に画像分類、顔認識および自律車両に関連するシステムにダメージを与え、モデルおよび応用の信頼性に重大な課題をもたらしうる。敵対者または悪行者は、普通の入力に対する正しい予測は維持したまま、攻撃者が選んだ入力をいくつかのターゲット・ラベルに分類する能力を有するバックドア例によりニューラル・ネットワークにバックドアを設けうる。バックドアと、訓練段階でニューラル・ネットワークによって学習されたいくつかの「キー」入力とによって異常挙動が起動される。敵対的攻撃は、データ入力がテスト段階で容易に誤分類されるように、テスト・データに人間が知覚できない摂動を加える。敵対者は、バックドア攻撃など、入念に作成された悪意のデータを訓練セットに挿入することによって機械学習モデルを大きく制御する。これは、安全でないまたはクラウドソーシングによるデータ取得、頻繁な再訓練、(例えばモデル市場からの)モデルのカスタマイズ、および転移学習のシナリオに特に関わる。
本発明の実施形態は、モデルに悪意のキーまたはトリガによりバックドアが設けられているか否かを判断する。本発明の実施形態は、モデルにバックドアが存在するか否かを判断するために、複数の補間された敵対的摂動を生成する。本発明の実施形態は、生成された補間された敵対的摂動および関連する敵対的画像を利用してモデルを訓練/再訓練することによってモデルを強化する。本発明の実施形態は、モデル効率を維持し、考えられるバックドアおよび関連する画像の検出を改善するために、ヒューマン・イン・ザ・ループ訓練方法を利用する。本発明の実施形態の実装は様々な形をとることができ、例示的な実装の詳細が図面を参照して後述される。
次に、図面を参照して本発明を詳細に説明する。
図1は、本発明の一実施形態による、一般に100と指定される計算環境を示した機能ブロック・ダイヤグラムである。本明細書で使用されるところの「計算」という用語は、単一のコンピュータ・システムとして一緒に動作する複数の物理的に異なるデバイスを含むコンピュータ・システムを表す。図1は、一実装の例示を提供するにすぎず、様々な実施形態が実装されうる環境に関するいかなる制限も示唆しない。図示の環境に対する多数の修正が、特許請求の範囲によって挙げられる本発明の範囲から逸脱することなく当業者によってなされうる。
計算環境100は、ネットワーク102を介して接続されたサーバ・コンピュータ120を含む。ネットワーク102は、例えば遠隔通信ネットワーク、ローカル・エリア・ネットワーク(LAN:local area newtwork)、インターネットなどのワイド・エリア・ネットワーク(WAN:wide area network)、またはこれら三つの組み合わせであり得、有線、無線、または光ファイバ接続を含みうる。ネットワーク102は、音声、データ、およびビデオ情報を含むマルチメディア信号を含むデータ信号、音声信号、もしくはビデオ信号またはそれらの組み合わせを受信および伝送することができる一つ以上の有線ネットワークもしくは無線ネットワークまたはその両方を含みうる。一般に、ネットワーク102は、サーバ・コンピュータ120とモデル110および計算環境100内の他のコンピューティング・デバイス(図示せず)との間の通信をサポートする接続およびプロトコルの任意の組み合わせでありうる。様々な実施形態において、ネットワーク102は、有線、無線、または光接続を介してローカルに動作し、接続およびプロトコルの任意の組み合わせ(例えばパーソナル・エリア・ネットワーク(PAN:personal area network)、近距離無線通信(NFC:near field communication)、レーザ、赤外線、超音波など)でありうる。
モデル110は、ディープ・ラーニング技術を利用して訓練し、重みを計算し、入力を取り込み、複数の解ベクトルを出力するモデルを代表する。一実施形態では、モデル110は、教師ありまたは教師なし方法で訓練されうる転移可能なニューラル・ネットワーク・アルゴリズムおよびモデル(例えば長・短期記憶(LSTM:long short‐term memory)、ディープ・スタッキング・ネットワーク(DSN:deep stacking network)、ディープ・ビリーフ・ネットワーク(DBN:deep belief network)、畳み込みニューラル・ネットワーク(CNN)、複合階層ディープ・モデルなど)などのディープ・ラーニング・モデル、技術、およびアルゴリズムの任意の組み合わせを含む。図示の実施形態では、モデル110は、教師あり敵対的訓練方法を利用して訓練されるCNNである。本実施形態では、敵対的訓練方法は、未修正例および敵対的例の両方を正しく分類するようにモデルを訓練するプロセスである。敵対的訓練は、元の例に対する汎化性能を維持しながら敵対的サンプル(すなわち画像)に対するロバスト性を改善する。一実施形態では、モデル110はバックドアによって侵害されており、モデル110は後に誤ったターゲット・クラスで誤分類される(異なる真ラベルの)バックドアに関連する任意の入力を消費する。一実施形態では、モデル110は信頼できないモデルであり、この信頼できないモデルは安全でないまたは信頼できないソースから取得され、前記ソースから取得されるいずれのモデルも直ちに検証できないようなものである。
サーバ・コンピュータ120は、スタンドアロンコンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、または、データを受信、送信、および処理することができる任意の他の電子デバイスもしくはコンピューティング・システムでありうる。他の実施形態では、サーバ・コンピュータ120は、クラウド・コンピューティング環境などでサーバ・システムとして複数のコンピュータを利用するサーバコンピューティング・システムを表しうる。別の実施形態では、サーバ・コンピュータ120は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC:personal computer)、デスクトップ・コンピュータ、携帯情報端末(PDA:personal digital assistant)、スマート・フォン、またはネットワーク102を介して計算環境100内の他のコンピューティング・デバイス(図示せず)と通信することができる任意のプログラム可能電子デバイスでありうる。別の実施形態では、サーバ・コンピュータ120は、計算環境100内でアクセスされたときにシームレスなリソースの単一プールとして働くクラスタ化されたコンピュータおよびコンポーネント(例えばデータベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータなど)を利用するコンピューティング・システムを表す。図示された実施形態では、サーバ・コンピュータ120は、データベース122およびプログラム150を含む。他の実施形態では、サーバ・コンピュータ120は、計算環境100に図示されていない他のアプリケーション、データベース、プログラムなどを含みうる。サーバ・コンピュータ120は、図4に関して図示されさらに詳細に説明されるように、内部および外部ハードウェア・コンポーネントを含みうる。
データベース122は、プログラム150によって使用されるデータのリポジトリである。図示の実施形態では、データベース122はサーバ・コンピュータ120上にある。別の実施形態では、データベース122は、プログラム150がデータベース122にアクセスできるならば計算環境100内の他所にありうる。データベースは、整理されたデータの集まりである。データベース122は、データベース・サーバ、ハード・ディスク・ドライブ、またはフラッシュ・メモリなど、プログラム150によってアクセスおよび利用されうるデータおよび構成ファイルを記憶することができる任意のタイプの記憶デバイスにより実装されうる。一実施形態では、データベース122は、過去の補間された敵対的画像、過去のバックドア、過去のクリーン・モデル、過去のバックドア・モデル、および関連データセット(例えばテスト・セット、バリデーション・セット、および訓練セット)など、プログラム150によって使用されるデータを記憶する。
プログラム150は、生成された補間された敵対的画像を利用してバックドア付きニューラル・ネットワークを検出および強化するためのプログラムである。様々な実施形態において、プログラム150は、信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するステップと、敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するステップであって、画像対の各画像は異なるクラスからのものである、ステップと、生成された複数の補間された敵対的画像を利用して、信頼できないモデルに関連するバックドアを検出するステップと、生成された複数の補間された敵対的画像により信頼できないモデルを訓練することによって、信頼できないモデルを強化するステップとを実施しうる。図示された実施形態では、プログラム150はスタンドアロンのソフトウェア・プログラムである。別の実施形態では、プログラム150またはその任意の組み合わせのプログラムの機能性が、単一のソフトウェア・プログラムに統合されうる。いくつかの実施形態では、プログラム150は、別個のコンピューティング・デバイス(図示せず)上に位置しうるが、なおネットワーク102を介して通信しうる。様々な実施形態では、計算環境100内の任意の他のコンピューティング・デバイス(図示せず)上にプログラム150のクライアント・バージョンがある。プログラム150は、図2に関して図示されさらに詳細に説明される。
本発明は、ユーザが処理を望まないパーソナル記憶デバイス、データ、コンテンツ、または情報を含みうるデータベース122などの様々なアクセス可能なデータ・ソースを含みうる。処理とは、個人データに対して行われる収集、記録、編成、構造化、記憶、適応、変更、検索、参照、使用、伝送、配布、もしくはその他のやり方で利用可能にすることによる開示、組み合わせ、制限、消去、または破壊などの、任意の自動化されたまたは自動化されない動作または一連の動作を指す。プログラム150は、個人データの収集の通知を含む情報に基づく同意を提供して、ユーザが個人データの処理にオプトインまたはオプトアウトすることを可能にする。同意はいくつかの形をとりうる。オプトイン同意は、個人データが処理される前に積極的行動をとることをユーザに課しうる。あるいは、オプトアウト同意は、データが処理される前に個人データの処理を阻止する積極的行動をとることをユーザに課しうる。プログラム150は、追跡情報などのユーザ情報、ならびに個人識別情報または機密個人情報などの個人データの許可された安全な処理を可能にする。プログラム150は、個人データおよび処理の性質(例えばタイプ、範囲、目的、期間など)に関する情報を提供する。プログラム150は、ユーザに記憶された個人データのコピーを提供する。プログラム150は、誤ったまたは不完全な個人データの訂正または完成を可能にする。プログラム150は、個人データの即時削除を可能にする。
図2は、本発明の実施形態による、生成された補間された敵対的画像を利用してバックドア付きニューラル・ネットワークを検出および強化するためのプログラム150の動作ステップを示したフローチャート200を示す。
プログラム150は、信頼できないモデルを監視する(ステップ202)。一実施形態では、プログラム150は、ユーザが信頼できないモデルをプログラム150に入力したときに開始する。別の実施形態では、プログラム150は、一つ以上の信頼できないモデルをバックドアの兆候につき監視(例えば取得または受信)する。一実施形態では、プログラムは、信頼できないモデルのアーキテクチャおよび関連する予め訓練された重みを受信する。別の実施形態では、プログラム150は、一つ以上の信頼できないモデルが訓練または再訓練されるたびに起動する。別の実施形態では、プログラム150は、訓練サンプルの追加、修正、または削除などの、訓練サンプルまたはデータセットの一つ以上の変化に応答して開始する。あるシナリオ例では、攻撃者は訓練セットを変更するが、テスト・セットもモデル詳細および関連する訓練アルゴリズムも変更しない。一実施形態では、プログラム150は、信頼できないモデルに関連するそれぞれのラベルを備えたクリーンな訓練およびバリデーション・データのセットを受信する。例えば、プログラム150は、各画像がラベル付けされた訓練およびバリデーション画像のセットを受信する。別の実施形態では、プログラム150は、敵対的訓練方法および関連するパラメータを受信する。
プログラム150は、信頼できないモデルに関連する許容値およびノルム値を決定する(ステップ204)。プログラム150が信頼できないモデルに関連するクリーンなテスト・セットおよびバリデーション・セットを受信したことに応答して、プログラム150は、関連するバリデーション・データを利用して許容値を受信または決定する。この実施形態では、許容度は、強度が増大する敵対的攻撃に対するモデルのロバスト性の尺度である。一実施形態では、プログラム150は、バリデーション・データを利用してモデルをテストし、一つ以上の誤り率を計算することによって許容度を決定する。別の実施形態では、プログラム150は、摂動のサイズを指定のイプシロンよりも小さく保ちながら特定の入力に対するモデルの損失を最大化するノルム値を受信または決定する。この実施形態では、ノルム値は摂動のLまたはL∞ノルムとして表される。一実施形態では、プログラム150は、バリデーション・セットからモデルのロバスト性をテストするためのデータのセットを選択し、ロバストなモデルは、有用であるが非ロバストな特徴の学習を有効に阻止する。
プログラム150は、決定された許容値およびノルム値を利用して複数の補間された敵対的画像を生成する(ステップ206)。一実施形態では、プログラム150は、関連するクラス・ラベルを変更しうる摂動がそれぞれ加えられた複数のイプシロンが大きい敵対的画像を生成する。一実施形態では、プログラム150は、決定されたノルム値および決定された許容値を利用して、摂動および関連する敵対的画像を調整する。さらなる実施形態では、プログラム150は、バリデーション・データセットの各ラベルおよびデータの対ごとに敵対的画像を生成し、生成された各画像に正しいラベルを付ける。別の実施形態では、プログラム150は、各イテレーションでのデータ点による線形化された損失関数を利用することによって摂動を計算する。例えば、プログラム150は、Iterative Least‐Likely Class(反復的最小尤度クラス)法という最もあり得ない予測を所望のクラスとして選択する反復勾配に基づく方法を利用する。ここでは、プログラム150は、それぞれが異なるクラスからの画像の対の間の範囲の複数の補間された画像を生成する。一実施形態では、プログラム150は、二つの画像x、x’を所与として、xおよびx’のそれぞれのクラスの間で補間された画像を生成する。一実施形態では、プログラム150は、テスト・セットもしくはバリデーション・セットまたはその両方に含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行う。上記実施形態では、プログラム150は、元の画像と別のクラスの別の画像クラスとの間でそれぞれのクラス間の滑らかな補間に線形に補間する。さらなる実施形態では、ロバストなモデルでは前記摂動は元の画像に(例えば人間の目に見える)知覚可能な変化を引き起こす。一実施形態では、プログラム150は、画像のセクションまたは領域のみを摂動させる。上記の実施形態では、生成される補間された画像は、後述のように、訓練の様々なポイントでのモデルのロバスト性のテストとして働く。
プログラム150は、生成された複数の補間された敵対的画像を利用してバックドアを検出する(ステップ208)。一実施形態では、プログラム150は、生成された複数の補間された敵対的画像を利用して、複数の補間された敵対的画像に応答した誤分類または分類の変化を識別することによって前記画像内に存在するバックドアを検出する。一実施形態では、プログラム150は、バックドアの付近の画像の統計がクリーンな画像の統計と異なることから、入力された補間された敵対的画像に関連する一つ以上の勾配を分析することによってバックドアを検出する。一実施形態では、プログラム150は、平均および標準偏差を利用して、画像にバックドアが設けられているか否かを判断する。一実施形態では、プログラム150は、勾配がバックドアが存在することを示したか、敵対的画像が解読不能になるかまたはターゲット・クラスのデータに知覚的に類似するまで、上記のステップを続ける。非ロバストなモデルでは、敵対的摂動はランダム・ノイズとして表れるが、ロバストなモデルはバックドアに起因する誤分類を阻止しながらバックドアを明らかにすることができる。
一実施形態では、プログラム150は、モデルの訓練の進捗を監視するために、ヒューマン・イン・ザ・ループ訓練方法を利用する(すなわちユーザがイベントまたはプロセスの結果を変更することを可能にする)。例えば、プログラム150は、敵対的再訓練に関連する経時的な一つ以上の勾配を監視する。さらなる例では、プログラム150は、一つ以上の勾配を視覚化として定期的に一人以上のユーザに表示する。さらなる実施形態では、プログラム150は、画像の不一致を検出するのを助けるためにユーザに提示される一つ以上の視覚化を生成する。一実施形態では、プログラム150は、モデル訓練における様々なポイントで複数のチェックポイントを確立する。この実施形態では、プログラム150は、その時点でのモデルの現在の状態を保存する。さらなる実施形態では、プログラム150は、上述のような敵対的補間をヒューマン・イン・ザ・ループ訓練方法として利用して、ユーザが敵対的変化または生成された画像がバックドアであると考える場合に人間の介入を可能にする。この実施形態では、ユーザはモデルが再訓練されるべきか否かを決定する。別の実施形態では、プログラム150は、生成され適用される敵対的摂動の人間による検証を利用して、訓練の特定のステップでモデルを監視し中断する。様々な実施形態において、プログラム150は、バックドアに起因してシフトしている可能性がある一つ以上の分類をユーザに提供する。様々な実施形態において、プログラム150は、チェックポイントを利用して、以前の訓練を再訪問し、前記訓練および関連する統計を人間の監督者に提示する。ヒューマン・イン・ザ・ループ訓練は、モデルのロバスト性を維持するために訓練プロセスにおける人間の介入を可能にする。一実施形態では、生成された敵対的画像が入力に対する解釈可能な(すなわち人間によって検出可能な)摂動を明らかにしない場合には、プログラム150は、生成された画像を利用して敵対的訓練を行い、摂動が解釈可能になるまで上記のステップを繰り返す。一例では、解釈不能な摂動はガウス・ノイズ、または目に見えるパターンを形成しない他のノイズ・パターンである。
プログラム150は、生成された敵対的画像により信頼できないモデルを再訓練することによって、検出されたバックドアを除去する(ステップ210)。一実施形態では、プログラム150は、ロバストなモデルの訓練のために生成された敵対的補間画像を利用して信頼できないモデルを訓練することによって、信頼できないモデルを強化する。別の実施形態では、プログラム150は、後続の入力をフィルタし、検出されたバックドアを含む画像を除去する。別の実施形態では、プログラム150は、全ての入力を処理し、バックドアが検出されれば入力内の領域を除去する。様々な実施形態において、プログラム150は、バックドア付きデータを関連するソース・クラスで再ラベル付けし、再ラベル付けされたバックドア付きデータを利用してモデルの訓練を続ける。一実施形態では、プログラム150は、後続の推論およびスコアリングのために強化されたモデルを展開する。
図3は、本発明の例示的な実施形態による図300を示す。図300は、猫(すなわち元の画像302)および犬のクラス(すなわち補間された画像304D)の間の範囲の複数の補間された画像(すなわち補間された画像304A、304B、および304C)を含む。図300は、プログラム150がステップ206で説明されるように猫および犬のクラスの間の範囲の複数の補間された画像を生成するのを示す。ここでは、プログラム150は、元の画像302および関連するクラス(すなわち猫)に一つ以上の敵対的摂動を加えて、ターゲット・クラス(すなわち犬)に向かって補間する。補間された画像302A、304B、304C、および304Dに示されるように、プログラム150は、補間された画像304Dの犬としての分類に示されるように補間された画像がターゲット・クラスとして分類されるまで敵対的摂動を加え続ける。
図4は、本発明の例示的な実施形態によるサーバ・コンピュータ120のコンポーネントを示したブロック・ダイヤグラム400を示す。図4は、一実装の例示を提供するにすぎず、様々な実施形態が実装されうる環境に関するいかなる制限も示唆しないことが理解されねばならない。図示された環境に多くの変更が加えられうる。
サーバ・コンピュータ120はそれぞれ通信ファブリック404を含み、通信ファブリック404は、キャッシュ403、メモリ402、永続ストレージ405、通信ユニット407、および入力/出力(I/O)インタフェース406の間の通信を提供する。通信ファブリック404は、プロセッサ(マイクロ・プロセッサ、通信、およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、およびシステム内の任意の他のハードウェア・コンポーネントの間でデータを渡すためおよび/または情報を制御するために設計された任意のアーキテクチャにより実装されうる。例えば通信ファブリック404は、一つ以上のバスまたはクロスバー・スイッチにより実装されうる。
メモリ402および永続ストレージ405は、コンピュータ可読記憶媒体である。本実施形態において、メモリ402は、ランダム・アクセス・メモリ(RAM:random access memory)を含む。一般に、メモリ402は、任意の適切な揮発性または不揮発性コンピュータ可読記憶媒体を含みうる。キャッシュ403は、メモリ402から最近アクセスされたデータ、およびアクセスされたデータに近いデータを保持することによってコンピュータ・プロセッサ(単数または複数)401の性能を高める高速メモリである。
プログラム150は、キャッシュ403を介したそれぞれのコンピュータ・プロセッサ(単数または複数)401のうちの一つ以上による実行のために永続ストレージ405およびメモリ402に記憶されうる。一実施形態では、永続ストレージ405は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブに代わってまたは加えて、永続ストレージ405は、ソリッドステート・ハード・ドライブ、半導体記憶デバイス、リードオンリ・メモリ(ROM:read‐only memory)、消去可能プログラム可能リードオンリ・メモリ(EPROM:erasable programmable read‐only memory、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶できる任意の他のコンピュータ可読記憶媒体を含みうる。
永続ストレージ405によって使用される媒体は、取り外し可能であってもよい。例えば、取り外し可能ハード・ドライブが永続ストレージ405のために使用されうる。他の例には、同じく永続ストレージ405の一部である別のコンピュータ可読記憶媒体への転送のためにドライブに挿入される光ディスクおよび磁気ディスク、サム・ドライブ、およびスマート・カードが含まれる。ソフトウェアおよびデータ412が、キャッシュ403を介したそれぞれのプロセッサ401のうちの一つ以上によるアクセスもしくは実行またはその両方のために永続ストレージ405に記憶されうる。
通信ユニット407は、これらの例において、他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット407は、一つ以上のネットワーク・インタフェース・カードを含む。通信ユニット407は、物理通信リンクおよび無線通信リンクのいずれかまたは両方の使用を通じて通信を提供しうる。通信ユニット407を通じて永続ストレージ405にプログラム150がダウンロードされうる。
I/Oインタフェース(単数または複数)406は、サーバ・コンピュータ120に接続されうる他のデバイスによるデータの入力および出力を可能にする。例えば、I/Oインタフェース(単数または複数)406は、キーボード、キーパッド、タッチ・スクリーン、もしくは他の何らかの適切な入力デバイスまたはそれらの組み合わせなどの外部デバイス(単数または複数)408への接続を提供しうる。外部デバイス408は、例えばサム・ドライブ、ポータブル光または磁気ディスク、およびメモリ・カードなどのポータブル・コンピュータ可読記憶媒体も含みうる。本発明の実施形態を実践するために使用されるソフトウェアおよびデータ、例えばプログラム150が、I/Oインタフェース(単数または複数)406を介してそのようなポータブル・コンピュータ可読記憶媒体に記憶されることができ、永続ストレージ405にロードされることができる。I/Oインタフェース(単数または複数)406はディスプレイ409にも接続する。
ディスプレイ409は、ユーザにデータを表示するための機構を提供し、例えばコンピュータ・モニタとすることができる。
本明細書に記載されるプログラムは、それらが本発明の特定の実施形態において実装される用途に基づいて識別される。しかし、本明細書におけるいずれの特定のプログラムの呼称も便宜上使用されるにすぎず、したがって本発明は、そのような呼称によって識別および/または示唆されるいずれの特定の用途における使用にも限定されてはらないことが理解されねばならない。
本発明は、システム、方法、もしくはコンピュータ・プログラム製品またはそれらの組み合わせでありうる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を遂行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(単数または複数)を含みうる。
コンピュータ可読記憶媒体は、命令実行デバイスにより使用するための命令を保持および記憶しうる有形のデバイスでありうる。コンピュータ可読記憶媒体は、例えば電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または以上の任意の適切な組み合わせでありうるがこれらに限定されない。コンピュータ可読記憶媒体のさらなる具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リードオンリ・メモリ(ROM)、消去可能プログラム可能リードオンリ・メモリ(EPROMすなわちフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)、ポータブル・コンパクト・ディスク・リードオンリ・メモリ(CD‐ROM:compact disc read‐only memory)、デジタル多用途ディスク(DVD:digital versatile disk)、メモリスティック、フレキシブルディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的にエンコードされたデバイス、および以上の任意の適切な組み合わせを含む。本明細書で使用されるところのコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通じて伝播する電磁波(例えば光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号などの一時的信号そのものと解釈されてはならない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはそれらの組み合わせを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードされうる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバまたはそれらの組み合わせを含みうる。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体への記憶のためにコンピュータ可読プログラム命令を転送する。
本発明の動作を遂行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA:instruction‐set‐architecture)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、または、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、「C」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語、および量子計算言語(QCL:quantum computation language)もしくは類似のプログラミング言語などの量子プログラミング言語、アセンブリ言語もしくは類似のプログラミング言語などの低水準プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードでありうる。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンのソフトウェア・パッケージとして、部分的にユーザのコンピュータ上で、および部分的にリモート・コンピュータ上で、または全体的にリモート・コンピュータもしくはサーバ上で、実行しうる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されることができ、または(例えばインターネット・サービス・プロバイダを使用してインターネットを通じて)外部コンピュータに接続がなされうる。いくつかの実施形態において、例えばプログラム可能論理回路、フィールドプログラム可能ゲート・アレイ(FPGA:field‐programmable gate array)、またはプログラム可能ロジック・アレイ(PLA:programmable logic array)を含む電子回路は、本発明の態様を行うためにコンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによってコンピュータ可読プログラム命令を実行しうる。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック・ダイヤグラムまたはその両方を参照して本明細書に説明される。フローチャート図もしくはブロック・ダイヤグラムまたはその両方の各ブロック、およびフローチャート図もしくはブロック・ダイヤグラムまたはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されうることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令がフローチャートもしくはブロック・ダイヤグラムまたはその両方の一つまたは複数のブロックに指定された機能/行為を実施するための手段を生み出すように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて機械を生成しうる。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体がフローチャートもしくはブロック・ダイヤグラムまたはその両方の一つまたは複数のブロックに指定された機能/行為の態様を実施する命令を含む製造品を含むように、コンピュータ・プログラム可能データ処理装置もしくは他のデバイスまたはそれらの組み合わせに特定の様式で機能するように指示しうるコンピュータ可読記憶媒体に記憶されてもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令がフローチャートもしくはブロック・ダイヤグラムまたはその両方の一つまたは複数のブロックに指定された機能/行為を実施するように、コンピュータ実施プロセスを生成するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされてコンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作行為を行わせることもできる。
図面のフローチャートおよびブロック・ダイヤグラムは、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実装のアーキテクチャ、機能性および動作を示す。これに関して、フローチャートまたはブロック・ダイヤグラムの各ブロックは、指定された論理機能(単数または複数)を実装するための一つ以上の実行可能命令を含むモジュール、セグメント、または命令の一部を表しうる。いくつかの代替的実装では、ブロック内に記された機能は、図面に記されるのとは異なる順序で生じうる。例えば、関連する機能性に応じて、連続して示される二つのブロックが実際には実質的に同時に実行されてもよいし、またはそれらのブロックが逆の順序で実行されることもありうる。ブロック・ダイヤグラムもしくはフローチャート図またはその両方の各ブロック、およびブロック・ダイヤグラムもしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能もしくは動作を行う、または専用ハードウェアおよびコンピュータ命令の組み合わせを遂行する専用ハードウェアベース・システムにより実装されうることにも留意されたい。
様々な実施形態の説明が例示の目的で提示されているが、網羅的であることも、開示された実施形態に限定されることも意図していない。通常の技術を有する当業者には、説明された実施形態の範囲から逸脱することなく、多数の修正例およびバリエーションが明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用例または市場で見られる技術に対する技術的改善を最もよく説明するために、または通常の技術を有する他の当業者が本明細書に開示される実施形態を理解できるようにするために選択された。

Claims (20)

  1. 一つ以上のコンピュータ・プロセッサによって、信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するステップと、
    一つ以上のコンピュータ・プロセッサによって、前記敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するステップであって、前記画像対の各画像は異なるクラスからのものである、ステップと、
    一つ以上のコンピュータ・プロセッサによって、前記生成された複数の補間された敵対的画像を利用して、前記信頼できないモデルに関連するバックドアを検出するステップと、
    一つ以上のコンピュータ・プロセッサによって、前記生成された複数の補間された敵対的画像により前記信頼できないモデルを訓練することによって、前記信頼できないモデルを強化するステップと
    を含む、コンピュータ実施方法。
  2. 前記敵対的訓練方法を利用して前記画像対の間の範囲の前記複数の補間された敵対的画像を生成するステップは、
    一つ以上のコンピュータ・プロセッサによって、テスト・セットに含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行うステップ
    を含む、請求項1に記載のコンピュータ実施方法。
  3. 前記一つ以上の摂動は線形補間される、請求項2に記載のコンピュータ実施方法。
  4. 一つ以上のコンピュータ・プロセッサによって、ヒューマン・イン・ザ・ループ訓練方法を利用して前記信頼できないモデルを監視するステップ
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  5. 一つ以上のコンピュータ・プロセッサによって、前記信頼できないモデルに関連する一つ以上の勾配を定期的に表示するステップ
    をさらに含む、請求項4に記載のコンピュータ実施方法。
  6. 一つ以上のコンピュータ・プロセッサによって、前記検出されたバックドアを含む一つ以上の後続の入力をフィルタするステップ
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  7. 前記強化されたモデルは推論のために展開される、請求項1に記載のコンピュータ実施方法。
  8. 一つ以上のコンピュータ・プロセッサによって、前記信頼できないモデル、関連する予め訓練された重み、クリーンなテスト・セット、バリデーション・セット、および前記敵対的訓練方法を受信するステップであって、前記クリーンなテスト・セットおよび前記バリデーション・セットはそれぞれ関連するラベルを備えた複数の画像を含む、ステップ
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  9. 一つ以上のコンピュータ可読記憶媒体および前記一つ以上のコンピュータ可読記憶媒体に記憶されたプログラム命令
    を含むコンピュータ・プログラム製品であって、前記記憶されたプログラム命令は、
    信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するプログラム命令と、
    前記敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するプログラム命令であって、前記画像対の各画像は異なるクラスからのものである、プログラム命令と、
    前記生成された複数の補間された敵対的画像を利用して、前記信頼できないモデルに関連するバックドアを検出するプログラム命令と、
    前記生成された複数の補間された敵対的画像により前記信頼できないモデルを訓練することによって、前記信頼できないモデルを強化するプログラム命令と
    を含む、コンピュータ・プログラム製品。
  10. 前記敵対的訓練方法を利用して前記画像対の間の範囲の前記複数の補間された敵対的画像を生成する前記プログラム命令は、
    テスト・セットに含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行うプログラム命令
    を含む、請求項9に記載のコンピュータ・プログラム製品。
  11. 前記一つ以上の摂動は線形補間される、請求項10に記載のコンピュータ・プログラム製品。
  12. 前記一つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    ヒューマン・イン・ザ・ループ訓練方法を利用して前記信頼できないモデルを監視するプログラム命令
    をさらに含む、請求項9に記載のコンピュータ・プログラム製品。
  13. 前記一つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    前記信頼できないモデルに関連する一つ以上の勾配を定期的に表示するプログラム命令
    をさらに含む、請求項12に記載のコンピュータ・プログラム製品。
  14. 前記強化されたモデルは推論のために展開される、請求項9に記載のコンピュータ・プログラム製品。
  15. 一つ以上のコンピュータ・プロセッサと、
    一つ以上のコンピュータ可読記憶媒体と、
    前記一つ以上のプロセッサのうちの少なくとも一つによる実行のために前記一つ以上のコンピュータ可読記憶媒体に記憶されたプログラム命令であって、前記記憶されたプログラム命令は、
    信頼できないモデルおよび敵対的訓練方法に関連する許容値およびノルム値を決定するプログラム命令と、
    前記敵対的訓練方法を利用して画像対の間の範囲の複数の補間された敵対的画像を生成するプログラム命令であって、前記画像対の各画像は異なるクラスからのものである、プログラム命令と、
    前記生成された複数の補間された敵対的画像を利用して、前記信頼できないモデルに関連するバックドアを検出するプログラム命令と、
    前記生成された複数の補間された敵対的画像により前記信頼できないモデルを訓練することによって、前記信頼できないモデルを強化するプログラム命令と
    を含む、プログラム命令と
    を含む、コンピュータ・システム。
  16. 前記敵対的訓練方法を利用して前記画像対の間の範囲の前記複数の補間された敵対的画像を生成する前記プログラム命令は、
    テスト・セットに含まれる各クラスにつき、補間された敵対的画像のサブセット内への指定のクラスに向かった一つ以上の摂動を反復的に行うプログラム命令
    を含む、請求項15に記載のコンピュータ・システム。
  17. 前記一つ以上の摂動は線形補間される、請求項16に記載のコンピュータ・システム。
  18. ヒューマン・イン・ザ・ループ訓練方法を利用して前記信頼できないモデルを監視するプログラム命令、請求項15に記載のコンピュータ・システム。
  19. 前記一つ以上のコンピュータ可読記憶媒体に記憶された前記プログラム命令は、
    前記信頼できないモデルに関連する一つ以上の勾配を定期的に表示するプログラム命令
    をさらに含む、請求項18に記載のコンピュータ・システム。
  20. 前記強化されたモデルは推論のために展開される、請求項15に記載のコンピュータ・システム。
JP2023520455A 2020-10-13 2021-08-19 敵対的補間バックドア検出 Pending JP2023544186A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/068,853 2020-10-13
US17/068,853 US20220114259A1 (en) 2020-10-13 2020-10-13 Adversarial interpolation backdoor detection
PCT/CN2021/113562 WO2022078062A1 (en) 2020-10-13 2021-08-19 Adversarial interpolation backdoor detection

Publications (1)

Publication Number Publication Date
JP2023544186A true JP2023544186A (ja) 2023-10-20

Family

ID=81077732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023520455A Pending JP2023544186A (ja) 2020-10-13 2021-08-19 敵対的補間バックドア検出

Country Status (6)

Country Link
US (1) US20220114259A1 (ja)
JP (1) JP2023544186A (ja)
CN (1) CN116348879A (ja)
DE (1) DE112021004652T5 (ja)
GB (1) GB2614996A (ja)
WO (1) WO2022078062A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501206B2 (en) * 2019-09-20 2022-11-15 Nxp B.V. Method and machine learning system for detecting adversarial examples
JP2022109031A (ja) * 2021-01-14 2022-07-27 富士通株式会社 情報処理プログラム、装置、及び方法
US11977626B2 (en) * 2021-03-09 2024-05-07 Nec Corporation Securing machine learning models against adversarial samples through backdoor misclassification
CN114896597B (zh) * 2022-05-09 2022-11-15 南开大学 基于可执行文件线性序列表示的计算机恶意代码检测方法

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0955881A (ja) * 1995-08-17 1997-02-25 Dainippon Screen Mfg Co Ltd 画像の影付け方法
CN103959205B (zh) * 2012-01-23 2016-10-26 三菱电机株式会社 信息显示装置
US10909459B2 (en) * 2016-06-09 2021-02-02 Cognizant Technology Solutions U.S. Corporation Content embedding using deep metric learning algorithms
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN106920206B (zh) * 2017-03-16 2020-04-14 广州大学 一种基于对抗神经网络的隐写分析方法
CN110709864A (zh) * 2017-08-30 2020-01-17 谷歌有限责任公司 人机回环交互式模型训练
US20190095764A1 (en) * 2017-09-26 2019-03-28 Panton, Inc. Method and system for determining objects depicted in images
US10657259B2 (en) * 2017-11-01 2020-05-19 International Business Machines Corporation Protecting cognitive systems from gradient based attacks through the use of deceiving gradients
US10592787B2 (en) * 2017-11-08 2020-03-17 Adobe Inc. Font recognition using adversarial neural network training
US11443178B2 (en) * 2017-12-15 2022-09-13 Interntional Business Machines Corporation Deep neural network hardening framework
US10944767B2 (en) * 2018-02-01 2021-03-09 International Business Machines Corporation Identifying artificial artifacts in input data to detect adversarial attacks
US10970765B2 (en) * 2018-02-15 2021-04-06 Adobe Inc. Generating user-customized items using a visually-aware image generation network
US20190286938A1 (en) * 2018-03-13 2019-09-19 Recogni Inc. Real-to-synthetic image domain transfer
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
US11501156B2 (en) * 2018-06-28 2022-11-15 International Business Machines Corporation Detecting adversarial attacks through decoy training
US10733292B2 (en) * 2018-07-10 2020-08-04 International Business Machines Corporation Defending against model inversion attacks on neural networks
US10621697B2 (en) * 2018-08-06 2020-04-14 Apple Inc. Blended neural network for super-resolution image processing
RU2698402C1 (ru) * 2018-08-30 2019-08-26 Самсунг Электроникс Ко., Лтд. Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты)
CN109584178A (zh) * 2018-11-29 2019-04-05 腾讯科技(深圳)有限公司 图像修复方法、装置和存储介质
US11263323B2 (en) * 2018-12-19 2022-03-01 Google Llc Systems and methods for increasing robustness of machine-learned models and other software systems against adversarial attacks
US11481617B2 (en) * 2019-01-22 2022-10-25 Adobe Inc. Generating trained neural networks with increased robustness against adversarial attacks
CN109902723A (zh) * 2019-01-31 2019-06-18 北京市商汤科技开发有限公司 图像处理方法及装置
JP7161107B2 (ja) * 2019-02-19 2022-10-26 日本電信電話株式会社 生成装置及びコンピュータプログラム
US11210554B2 (en) * 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
KR102034248B1 (ko) * 2019-04-19 2019-10-18 주식회사 루닛 GAN(Generative Adversarial Networks)을 이용하는 이상 검출 방법, 장치 및 그 시스템
CN110070612B (zh) * 2019-04-25 2023-09-22 东北大学 一种基于生成对抗网络的ct图像层间插值方法
US20220180447A1 (en) * 2019-05-16 2022-06-09 Retrace Labs Artificial Intelligence Platform for Dental Claims Adjudication Prediction Based on Radiographic Clinical Findings
US10990855B2 (en) * 2019-06-13 2021-04-27 Baidu Usa Llc Detecting adversarial samples by a vision based perception system
US11262906B2 (en) * 2019-08-13 2022-03-01 Amazon Technologies, Inc. In-place scrolling for a user in interface
US11042799B2 (en) * 2019-08-20 2021-06-22 International Business Machines Corporation Cohort based adversarial attack detection
US11048932B2 (en) * 2019-08-26 2021-06-29 Adobe Inc. Transformation of hand-drawn sketches to digital images
US11367268B2 (en) * 2019-08-27 2022-06-21 Nvidia Corporation Cross-domain image processing for object re-identification
WO2021038788A1 (ja) * 2019-08-29 2021-03-04 日本電気株式会社 ロバスト性評価装置、ロバスト性評価方法および記録媒体
US10997470B2 (en) * 2019-08-30 2021-05-04 Accenture Global Solutions Limited Adversarial patches including pixel blocks for machine learning
US11443069B2 (en) * 2019-09-03 2022-09-13 International Business Machines Corporation Root cause analysis of vulnerability of neural networks to adversarial examples
US20210077060A1 (en) * 2019-09-17 2021-03-18 GE Precision Healthcare LLC System and methods for interventional ultrasound imaging
CN110717522A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 图像分类网络的对抗防御方法及相关装置
EP3798917A1 (en) * 2019-09-24 2021-03-31 Naver Corporation Generative adversarial network (gan) for generating images
US11494639B2 (en) * 2019-09-24 2022-11-08 Robert Bosch Gmbh Bayesian-optimization-based query-efficient black-box adversarial attacks
US11455515B2 (en) * 2019-09-24 2022-09-27 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure
US11334671B2 (en) * 2019-10-14 2022-05-17 International Business Machines Corporation Adding adversarial robustness to trained machine learning models
US11250572B2 (en) * 2019-10-21 2022-02-15 Salesforce.Com, Inc. Systems and methods of generating photorealistic garment transference in images
CN110991636B (zh) * 2019-11-14 2023-07-04 东软医疗系统股份有限公司 生成式对抗网络的训练方法及装置、图像增强方法及设备
US11335128B2 (en) * 2019-11-19 2022-05-17 Visa International Service Association Methods and systems for evaluating a face recognition system using a face mountable device
CN111260655B (zh) * 2019-12-31 2023-05-12 深圳云天励飞技术有限公司 基于深度神经网络模型的图像生成方法与装置
CN111259968A (zh) * 2020-01-17 2020-06-09 腾讯科技(深圳)有限公司 非法图像识别方法、装置、设备和计算机可读存储介质
EP3885973A1 (en) * 2020-03-27 2021-09-29 Robert Bosch GmbH Measuring the sensitivity of neural network image classifiers against adversarial attacks
US11803758B2 (en) * 2020-04-17 2023-10-31 Microsoft Technology Licensing, Llc Adversarial pretraining of machine learning models
US20220012572A1 (en) * 2020-07-10 2022-01-13 International Business Machines Corporation Efficient search of robust accurate neural networks
KR102434689B1 (ko) * 2020-07-20 2022-08-23 한국과학기술원 일반적인 역문제에 적용 가능한 비지도 학습 방법 및 그 장치
US11335062B2 (en) * 2020-08-14 2022-05-17 Accenture Global Solutions Limited Automated apparel design using machine learning
EP3979187A1 (en) * 2020-08-26 2022-04-06 Volkswagen Ag Methods, systems and computer programs for processing image data and for generating a filter
US11687777B2 (en) * 2020-08-27 2023-06-27 International Business Machines Corporation Certifiably robust interpretation
DE102020122979A1 (de) * 2020-09-02 2022-03-03 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bereitstellen eines komprimierten, robusten neuronalen Netzes und Assistenzeinrichtung
KR20230018310A (ko) * 2021-07-29 2023-02-07 국방과학연구소 심층신경망의 성능하락을 유발시키는 객체검출용 적대적공격 방법 및 그 시스템

Also Published As

Publication number Publication date
DE112021004652T5 (de) 2023-06-29
CN116348879A (zh) 2023-06-27
US20220114259A1 (en) 2022-04-14
GB202305408D0 (en) 2023-05-31
GB2614996A (en) 2023-07-26
WO2022078062A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
US11373093B2 (en) Detecting and purifying adversarial inputs in deep learning computing systems
JP7374545B2 (ja) 勾配を使用したニューラル・ネットワーク内のバックドアの検出
US11681918B2 (en) Cohort based adversarial attack detection
US11394742B2 (en) Detecting trojan neural networks
US11443178B2 (en) Deep neural network hardening framework
JP2023544186A (ja) 敵対的補間バックドア検出
CN108111489B (zh) Url攻击检测方法、装置以及电子设备
US11494496B2 (en) Measuring overfitting of machine learning computer model and susceptibility to security threats
CA3058010A1 (en) Systems and methods for malicious code detection
US10977562B2 (en) Filter for harmful training samples in active learning systems
US11675896B2 (en) Using multimodal model consistency to detect adversarial attacks
US11341598B2 (en) Interpretation maps with guaranteed robustness
CN114519185A (zh) 检测深度神经网络(dnn)上的对抗攻击
Maymí et al. AI in cyberspace: Beyond the hype
Liao et al. Server-based manipulation attacks against machine learning models
US11334769B2 (en) Mixup image captioning
US11157811B2 (en) Stub image generation for neural network training
US20210303937A1 (en) Ensemble weak support vector machines
Vrejoiu Neural networks and deep learning in cyber security
Zeng et al. Detection of Adversarial Examples Based on the Neurons Distribution
US11763544B2 (en) Denoising autoencoder image captioning
US11595438B2 (en) Webpage phishing detection using deep reinforcement learning
US11809847B2 (en) Hardcoded string detection
Harshith et al. Evaluating the Vulnerabilities in ML systems in terms of adversarial attacks
Gupta Robust filtering schemes for machine learning systems to defend Adversarial Attack

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230517

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230425

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20230517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240123