JP2024508582A - Making machine learning models safe against adversarial samples with backdoor misclassification - Google Patents

Making machine learning models safe against adversarial samples with backdoor misclassification Download PDF

Info

Publication number
JP2024508582A
JP2024508582A JP2023537385A JP2023537385A JP2024508582A JP 2024508582 A JP2024508582 A JP 2024508582A JP 2023537385 A JP2023537385 A JP 2023537385A JP 2023537385 A JP2023537385 A JP 2023537385A JP 2024508582 A JP2024508582 A JP 2024508582A
Authority
JP
Japan
Prior art keywords
model
backdoored
sample
samples
backdoor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023537385A
Other languages
Japanese (ja)
Inventor
セバスティアン・アンドレイナ
ジョルジア・アズーラ・マルソン
ガッサン・カラメ
Original Assignee
エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/342,571 external-priority patent/US11977626B2/en
Application filed by エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー filed Critical エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー
Publication of JP2024508582A publication Critical patent/JP2024508582A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

真正な機械学習モデルを敵対的サンプルに対して安全にするための方法は、分類されるサンプルにトリガを付加するステップと、トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップとを含む。さらなるステップにおいて、バックドア化モデルの出力が、バックドア化モデルのバックドアクラスと同一かどうかが判定され、かつ/または外れ値検出方法がロジットに適用され、真正なサンプルを使用して計算された正当なロジットと比較される。これらのステップは、別々のトリガと、それぞれ関連付けられたバックドア化モデルとを使用して、繰り返される。サンプルが敵対的なものかどうかを判定するために、バックドア化モデルの出力がそれぞれのバックドアクラスと同じでなかった回数が1つまたは複数の閾値と比較され、かつ/または外れ値検出方法を適用することによって判定された差が1つまたは複数の閾値と比較される。The method for making a bona fide machine learning model secure against adversarial samples involves attaching a trigger to the sample to be classified, and using the backdoored model to be backdoored using the trigger. , classifying the triggered samples. In a further step, it is determined whether the output of the backdoored model is the same as the backdoor class of the backdoored model and/or an outlier detection method is applied to the logit calculated using authentic samples. is compared with the valid logit. These steps are repeated using separate triggers and each associated backdooring model. To determine whether a sample is adversarial, the number of times the output of the backdooring model was not the same as the respective backdoor class is compared to one or more thresholds and/or an outlier detection method The difference determined by applying is compared to one or more thresholds.

Description

本発明は、人工知能(AI)用途において使用可能な、敵対的サンプルを検出するための、詳細には機械学習モデルおよびニューラルネットワークを安全にするための、方法、システムおよびコンピュータ可読媒体に関する。 The present invention relates to methods, systems and computer-readable media for detecting adversarial samples, particularly for securing machine learning models and neural networks, which can be used in artificial intelligence (AI) applications.

機械学習は、漸進的な改善および発展により、多くの日常的な技術システムの不可欠な部分になった。機械学習は、大抵の場合、安全性に関するシナリオにおいて、技術システムの重要な部分として使用される。したがって、攻撃および/または強要下でのそのようなモデルの頑健性の欠如が、技術システムの安全障害をもたらす恐れがある。 Machine learning has become an integral part of many everyday technological systems through gradual improvement and development. Machine learning is often used as an important part of technical systems in safety-related scenarios. Therefore, the lack of robustness of such models under attack and/or duress may result in safety failures of technical systems.

詳細には、過去数十年間において、ニューラルネットワークベースの画像分類は、その多様性、小さい実現要求および精度のために、関心が大いに高まっている。しかしながら、ニューラルネットワークは、十分には理解されておらず、誤分類を引き起こすために目視では判別できないように通常のサンプルに対して念入りに作られた修正である敵対的サンプルを使用する攻撃などの攻撃に対して脆弱である。 In particular, in the past few decades, neural network-based image classification has gained much interest due to its versatility, small implementation requirements, and accuracy. However, neural networks are not well understood and are susceptible to attacks such as those that use adversarial samples, which are carefully crafted modifications to normal samples that are invisible to the naked eye to cause misclassification. Vulnerable to attack.

近年、深層学習は、ビッグデータおよびより容易に利用可能な計算パワーの高まりによって加速され、急速に進歩した。しかしながら、深層学習は、予測における自信過剰のために、敵対的混乱に対して特に弱いことが判明した。機械学習コミュニティは、深層学習モデルを安全にする技術的課題に取り組んでいる。敵対者は、有効なデータサンプルに対して、念入りに作られた混乱を導入することにより、しばしば機械学習モデルを欺くことできる。混乱は、気付かれないようにできるだけ小さく、それでもなおモデルの本来の正確な予測を変化させるほど十分に大きく、選択される。たとえば、画像認識の分野では、これは、犬の画像を変化させて、変更された画像を視覚的には原本と判別不能に保ったまま、モデルの、犬の正確な予測を、ある別の動物の予測に変化させることができるであろう。 In recent years, deep learning has advanced rapidly, accelerated by big data and the rise of more readily available computing power. However, deep learning turns out to be particularly vulnerable to adversarial perturbations due to overconfidence in predictions. The machine learning community is grappling with the technical challenges of making deep learning models secure. Adversaries can often fool machine learning models by introducing carefully crafted perturbations to valid data samples. The perturbations are chosen to be as small as possible so as not to be noticed, yet large enough to change the model's originally accurate predictions. For example, in the field of image recognition, this means changing an image of a dog so that the model's accurate predictions of the dog are different from one another while keeping the modified image visually indistinguishable from the original. It would be possible to vary the animal's predictions.

実用モデルには、特に機械学習の統計的性質のために誤りが常に存在するので、ニューラルネットワークまたは機械学習モデルに対する攻撃から保護するには複数の技術的な課題がある。攻撃に対する既存の提案された防御は、敵対者が敵対的サンプルを作成するのをより困難にするために、モデルパラメータを秘密にすることに基づくものである。しかしながら、最近の研究により、サロゲートモデル(攻撃されるモデルに類似のクラスにおいて局所的に訓練されたモデル)上で作成された敵対的サンプルが、ターゲットモデル上に高い確率(>90%)で転移し、この特性は、サロゲートモデルが、ターゲットモデルと同一の内部レイアウト(たとえば異なる層数/層サイズ)を有しない場合にも、同一の精度を有しない場合にも(たとえばサロゲートモデル約90%対ターゲットモデル約99%)当てはまることが示された。サロゲートモデルはターゲットモデルのエミュレーションである。サロゲートモデルは、ターゲットモデルに対するブラックボックスアクセスを有する攻撃者によって、入力xの任意の選択肢を指定してモデルの予測y=f(x)を取得することができるように作成される。ターゲットモデルのパラメータは、通常、秘密に保たれるが、入出力の対(x, f(x))に対して機械学習モデルを訓練することにより、有効なサロゲートモデルを取得することができ、しかもサロゲートモデルをバイパスする最も敵対的なサンプルはターゲットモデルも欺くという意味で「有効である」ことが調査によって示されている。 There are multiple technical challenges in protecting against attacks on neural networks or machine learning models, since errors are always present in practical models, especially due to the statistical nature of machine learning. Existing proposed defenses against attacks are based on keeping model parameters secret in order to make it more difficult for an adversary to create adversarial samples. However, recent research has shown that adversarial samples created on a surrogate model (a model locally trained in a class similar to the model being attacked) transfer onto the target model with high probability (>90%). However, this property applies even if the surrogate model does not have the same internal layout as the target model (e.g. different number of layers/layer sizes) or the same accuracy (e.g. about 90% of the surrogate model It was shown that the target model was applicable (approximately 99%). A surrogate model is an emulation of the target model. A surrogate model is created by an attacker with black box access to the target model such that he can specify any choice of input x to obtain the model's prediction y=f(x). The parameters of the target model are usually kept secret, but by training a machine learning model on the input-output pair (x, f(x)), an effective surrogate model can be obtained. Moreover, research has shown that the most adversarial samples that bypass the surrogate model are ``effective'' in the sense that they also fool the target model.

Goodfellow、Ian J.ら、"Explaining and Harnessing Adversarial Examples"、arXiv: 1412.6572、International Conference on Learning Representations 2015の会議資料、1~11頁(2015年3月20日)、Kurakin、Alexeyら、"Adversarial Examples in the Physical World"、arXiv: 1607.02533、Workshop at International Conference on Learning Representations 2017、1~14頁(2017年2月11日)、Carlini、Nicholasら、"Towards Evaluating the Robustness of Neural Networks"、arXiv: 1608.04644、Clinical Orthopedics and Related Research: 1~19頁(2018年8月13日)、Tramer、Florianら、"Ensemble Adversarial Training: Attacks and Defenses"、arXiv: 1705.07204、International Conference on Learning Representations 2018の会議資料、1~22頁(2018年1月30日)、Madry、Aleksanderら、"Towards Deep Learning Models Resistant to Adversarial Attacks"、arXiv: 1706:06083、International Conference on Learning Representations 2018の会議資料、1~28頁(2017年11月9日)、Dong、Yinpengら、"Boosting Adversarial Attacks with Momentum"、arXiv: 1710.06081、CVPR2018: 1~12頁(2018年3月22日)、Zhang、Hongyangら、"Theoretically Principled Trade-Off between Robustness and Accuracy"、arXiv: 1901:08573、International Conference on Machine Learningの会議資料: 1~31頁(2019年6月24日)、Liu、Xuanqingら、"Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network"、arXiv: 1810.01279、Clinical Orthopedics and Related Research: 1~3頁(2019年5月4日)、Wong、Ericら、"Fast is better than free: Revisiting adversarial training"、arXiv: 2001.03994、ICLR 2020の会議資料、1~17頁(2020年1月12日)、Moosavi-Dezfooli、Seyed-Mohsenら、"DeepFool: a simple and accurate method to fool deep neural networks"、arXiv: 1511.04599、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016の議事録、1~9頁(2016年7月4日)、Wang、Yueら、"Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems"、arXiv: 2003.07859、1~19頁(2020年6月8日)、およびZimmermann、Roland S.、"Comment on 'Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network'"、arXiv: 1907.00895 (2019年7月2日)は、それぞれ、以下で参照される微細な攻撃(Goodfellow、Ian J.らの文献およびTramer、Florianらの文献)およびより強力な攻撃(Carlini、Nicholasらの文献およびMadry、Aleksanderらの文献)を含む種々の攻撃を論じている。前述の公刊資料の各々が、ここで、参照によって全体が本明細書に組み込まれる。 Goodfellow, Ian J. et al., "Explaining and Harnessing Adversarial Examples", arXiv: 1412.6572, Conference Papers of the International Conference on Learning Representations 2015, pp. 1-11 (March 20, 2015), Kurakin, Alexey et al., "Adversarial Examples" Carlini, Nicholas et al., "Towards Evaluating the Robustness of Neural Networks", arXiv: 1608.04644 , Clinical Orthopedics and Related Research: pp. 1-19 (August 13, 2018), Tramer, Florian et al., "Ensemble Adversarial Training: Attacks and Defenses", arXiv: 1705.07204, Conference Papers of the International Conference on Learning Representations 2018, 1 -22 pages (January 30, 2018), Madry, Aleksander et al., "Towards Deep Learning Models Resistant to Adversarial Attacks", arXiv: 1706:06083, International Conference on Learning Representations 2018 Conference Papers, pages 1-28 (2017) (November 9, 2018), Dong, Yinpeng et al., "Boosting Adversarial Attacks with Momentum", arXiv: 1710.06081, CVPR2018: pp. 1-12 (March 22, 2018), Zhang, Hongyang et al., "Theoretically Principled Trade-Off between Robustness and Accuracy", arXiv: 1901:08573, Conference Papers of the International Conference on Machine Learning: pp. 1-31 (June 24, 2019), Liu, Xuanqing et al., "Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network", arXiv: 1810.01279, Clinical Orthopedics and Related Research: pp. 1-3 (May 4, 2019), Wong, Eric et al., "Fast is better than free: Revisiting adversarial training", arXiv: 2001.03994, ICLR 2020 Conference Papers, pp. 1-17 (January 12, 2020), Moosavi-Dezfooli, Seyed-Mohsen et al., "DeepFool: a simple and accurate method to fool deep neural networks", arXiv: 1511.04599, IEEE Conference on Computer Vision Wang, Yue et al., "Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems," in Proceedings of the and Pattern Recognition (CVPR) 2016, pp. 1-9 (July 4, 2016). , arXiv: 2003.07859, pp. 1-19 (June 8, 2020), and Zimmermann, Roland S., "Comment on 'Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network'", arXiv: 1907.00895 (2019) July 2, 2015) are micro-attacks (Goodfellow, Ian J. et al. and Tramer, Florian et al.) and more powerful attacks (Carlini, Nicholas et al. and Madry, Aleksander), referenced below, respectively. A variety of attacks are discussed, including (Ref. et al.). Each of the aforementioned publications is herein incorporated by reference in its entirety.

Goodfellow、Ian J.ら、"Explaining and Harnessing Adversarial Examples"、arXiv: 1412.6572、International Conference on Learning Representations 2015の会議資料: 1~11頁(2015年3月20日)Goodfellow, Ian J. et al., "Explaining and Harnessing Adversarial Examples", arXiv: 1412.6572, International Conference on Learning Representations 2015 Conference Papers: pp. 1-11 (March 20, 2015) Kurakin、Alexeyら、"Adversarial Examples in the Physical World"、arXiv: 1607.02533、Workshop at International Conference on Learning Representations 2017、1~14頁(2017年2月11日)Kurakin, Alexey et al., "Adversarial Examples in the Physical World", arXiv: 1607.02533, Workshop at International Conference on Learning Representations 2017, pp. 1-14 (February 11, 2017) Carlini、Nicholasら、"Towards Evaluating the Robustness of Neural Networks"、arXiv: 1608.04644、Clinical Orthopedics and Related Research: 1~19頁(2018年8月13日)Carlini, Nicholas et al., "Towards Evaluating the Robustness of Neural Networks," arXiv: 1608.04644, Clinical Orthopedics and Related Research: pp. 1-19 (August 13, 2018) Tramer、Florianら、"Ensemble Adversarial Training: Attacks and Defenses"、arXiv: 1705.07204、International Conference on Learning Representations 2018の会議資料、1~22頁(2018年1月30日)Tramer, Florian et al., "Ensemble Adversarial Training: Attacks and Defenses", arXiv: 1705.07204, International Conference on Learning Representations 2018 Conference Papers, pp. 1-22 (January 30, 2018). Madry、Aleksanderら、"Towards Deep Learning Models Resistant to Adversarial Attacks"、arXiv: 1706:06083、International Conference on Learning Representations 2018の会議資料、1~28頁(2017年11月9日)Madry, Aleksander et al., "Towards Deep Learning Models Resistant to Adversarial Attacks", arXiv: 1706:06083, Conference Papers of the International Conference on Learning Representations 2018, pp. 1-28 (November 9, 2017) Dong、Yinpengら、"Boosting Adversarial Attacks with Momentum"、arXiv: 1710.06081、CVPR2018: 1~12頁(2018年3月22日)Dong, Yinpeng et al., "Boosting Adversarial Attacks with Momentum", arXiv: 1710.06081, CVPR2018: pp. 1-12 (March 22, 2018) Zhang、Hongyangら、"Theoretically Principled Trade-Off between Robustness and Accuracy"、arXiv: 1901:08573、International Conference on Machine Learningの会議資料: 1~31頁(2019年6月24日)Zhang, Hongyang et al., "Theoretically Principled Trade-Off between Robustness and Accuracy", arXiv: 1901:08573, International Conference on Machine Learning conference papers: pp. 1-31 (June 24, 2019) Liu、Xuanqingら、"Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network"、arXiv: 1810.01279、Clinical Orthopedics and Related Research: 1~3頁(2019年5月4日)Liu, Xuanqing et al., "Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network", arXiv: 1810.01279, Clinical Orthopedics and Related Research: pp. 1-3 (May 4, 2019) Wong、Ericら、"Fast is better than free: Revisiting adversarial training"、arXiv: 2001.03994、ICLR 2020の会議資料、1~17頁(2020年1月12日)Wong, Eric et al., "Fast is better than free: Revisiting adversarial training", arXiv: 2001.03994, ICLR 2020 conference paper, pp. 1-17 (January 12, 2020) Moosavi-Dezfooli、Seyed-Mohsenら、"DeepFool: a simple and accurate method to fool deep neural networks"、arXiv: 1511.04599、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016の議事録、1~9頁(2016年7月4日)Moosavi-Dezfooli, Seyed-Mohsen et al., "DeepFool: a simple and accurate method to fool deep neural networks", arXiv: 1511.04599, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016, pp. 1-9 (2016) July 4th) Wang、Yueら、"Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems"、arXiv: 2003.07859、1~19頁(2020年6月8日)Wang, Yue et al., "Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems", arXiv: 2003.07859, pp. 1-19 (June 8, 2020) Zimmermann、Roland S.、"Comment on 'Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network'"、arXiv: 1907.00895 (2019年7月2日)Zimmermann, Roland S., "Comment on 'Adv-BNN: Improved Adversarial Defense Through Robust Bayesian Neural Network'", arXiv: 1907.00895 (July 2, 2019)

一実施形態では、本発明は、敵対的サンプルに対して、真正な機械学習モデルを安全にするための方法を提供するものである。この方法は、分類されるサンプルにトリガを付加するステップa)と、トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップb)とを含む。ステップc)において、ステップb)におけるバックドア化モデルの出力がバックドア化モデルのバックドアクラスと同一であるかどうかが判定され、かつ/または、ステップb)からのロジットに対して、トリガを付加してバックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットと比較する外れ値検出方法が適用される。ステップd)によって、これらのステップa)~c)が、種々のトリガに関連付けられた種々のトリガおよびバックドア化モデルをそれぞれ使用して繰り返される。ステップe)において、サンプルが敵対的サンプルかどうかを判定するために、バックドア化モデルの出力のそれぞれが、バックドア化モデルのそれぞれのバックドアクラスと同じでなかった回数が所定の閾値と比較され、かつ/または外れ値検出方法を適用することによって判定された差が差閾値と比較される。 In one embodiment, the present invention provides a method for making authentic machine learning models secure against adversarial samples. This method consists of step a) of attaching a trigger to the sample to be classified, and step b) of classifying the triggered sample using a backdoored model that is backdoored using the trigger. including. In step c), it is determined whether the output of the backdoored model in step b) is the same as the backdoor class of the backdoored model, and/or a trigger is applied to the logit from step b). An outlier detection method is applied that compares to the legitimate logit calculated using authentic samples that are additionally applied to the backdoored model. By step d) these steps a) to c) are repeated using different triggers and backdooring models respectively associated with different triggers. In step e), the number of times each of the outputs of the backdoored model was not the same as the respective backdoor class of the backdoored model is compared with a predetermined threshold to determine whether the sample is an adversarial sample. and/or the difference determined by applying an outlier detection method is compared to a difference threshold.

本発明の実施形態が、例示の図を基に、以下でさらに詳細に説明される。本発明は例示的な実施形態に限定されない。本明細書で説明され、かつ/または示されたすべての特徴は、本発明の実施形態において、単独で、または種々の組合せに組み合わせて使用できる。本発明の様々な実施形態の特徴および利点は、添付の図面を参照して以下の詳細な説明を読めば明らかになるであろう。 Embodiments of the invention are explained in more detail below on the basis of exemplary figures. The invention is not limited to the exemplary embodiments. All features described and/or illustrated herein can be used alone or in combination in various combinations in embodiments of the invention. Features and advantages of various embodiments of the invention will become apparent from the following detailed description taken in conjunction with the accompanying drawings.

本発明の一実施形態によるセットアップ段階を示す概略図である。1 is a schematic diagram illustrating a setup phase according to an embodiment of the invention; FIG. 本発明の一実施形態による評価段階を示す概略図である。1 is a schematic diagram illustrating an evaluation stage according to an embodiment of the invention; FIG. 本発明の一実施形態による、1つのバックドア化モデルを使用して改善された評価を示す概略図である。FIG. 3 is a schematic diagram illustrating improved evaluation using one backdoored model, according to an embodiment of the invention. 本発明の一実施形態による、バックドア化モデルの作成を示す概略図である。FIG. 2 is a schematic diagram illustrating the creation of a backdooring model according to an embodiment of the invention.

本発明の実施形態は、AIおよび機械学習の用途において、攻撃および敵対的サンプルに対するセキュリティを改善するものである。たとえば、敵対的サンプルによる攻撃を可能にするニューラルネットワークの欠陥および脆弱性は、そのような敵対的サンプルを検出して拒絶するために、機械学習モデルにおけるバックドアを注意深く生成して利用する本発明の実施形態によって対処される。詳細には、本発明の実施形態は、バックドア化モデル上で評価されたときのサンプルの挙動を、正当なサンプルの挙動に付加されたトリガと比較することによって敵対的サンプルを検出する。 Embodiments of the invention improve security against attacks and adversarial samples in AI and machine learning applications. For example, flaws and vulnerabilities in neural networks that enable attacks with adversarial samples are subject to our invention, which carefully generates and exploits backdoors in machine learning models to detect and reject such adversarial samples. is addressed by embodiments of. In particular, embodiments of the present invention detect adversarial samples by comparing the behavior of the sample when evaluated on a backdoored model with triggers attached to the behavior of legitimate samples.

脅威モデル:
本発明の実施形態による脅威モデルは、敵対者が機械学習モデルMに対する十分な知見とアクセス権とを有するホワイトボックス攻撃のシナリオを考慮に入れる。敵対者は、無制限のクエリ-応答対によってモデルから自由に学習する。しかしながら、敵対者は、たとえばモデルを訓練するように使用されるデータを悪化させることによってモデルまたは訓練プロセスをごまかすことはできない。
Threat model:
The threat model according to embodiments of the invention takes into account white box attack scenarios where the adversary has sufficient knowledge and access to the machine learning model M. The adversary is free to learn from the model with unlimited query-response pairs. However, an adversary cannot cheat the model or the training process, for example by corrupting the data used to train the model.

敵対者の目標は、y=M(S)と(正しく)分類されるサンプルSを所与として、y'(y≠y')と分類される敵対的サンプルS'を作成することである。SとS'との間の差は、人が目視では検出できないほど十分に小さくするべきであるので、敵対者が、元のサンプルSに施すことができる可能な修正は制限されている。これは、画素間距離の2乗平均を255のうち8に制限するrms(S'-S)<8などの距離の制限によってインスタンス化される。 Given a sample S that is (correctly) classified as y=M(S), the adversary's goal is to create an adversarial sample S' that is classified as y' (y≠y'). Since the difference between S and S' should be small enough that it cannot be detected visually by humans, the possible modifications that an adversary can make to the original sample S are limited. This is instantiated by a distance constraint, such as rms(S'-S)<8, which limits the root mean square of interpixel distances to 8 out of 255.

本発明の実施形態による解決策の目標は、サンプルSを所与として、Sが正当な(真正な)サンプルである場合y←M(S)を出力し、敵対的サンプルであると判定されたサンプルSは拒絶することである。 The goal of the solution according to embodiments of the present invention is, given a sample S, if S is a legitimate (genuine) sample, output y←M(S), and it is determined that it is an adversarial sample. Sample S is to reject.

攻撃のインスタンス化:
基本的に、攻撃は、モデルの予測を変化させるように導入される微細な混乱を推定することによって機械学習モデルを欺こうとするものである。ホワイトボックス攻撃は、分類器の応答に基づいて選択された有効な入力サンプルを選出し、各ステップにおいてモデルに小さな混乱を繰り返し照会することによってこれを達成する。したがって、攻撃者は、混乱が分類器にどのような影響を及ぼすかを予測し、適応して対応する。各ステップにおいて追加される混乱は、攻撃タイプに依拠して異なる。敵対者の最終的な目標は、本来のターゲットysを有する真正なサンプルsを、ターゲットクラスya≠ysに分類される敵対的サンプルsa(rms(s-sa)<Max_Perturbation)に変換することである。
Instantiating the attack:
Essentially, attacks attempt to fool machine learning models by estimating subtle perturbations that are introduced to change the model's predictions. White-box attacks accomplish this by picking valid input samples that are selected based on the classifier's response and repeatedly interrogating the model with small perturbations at each step. Therefore, the attacker can predict how the disruption will affect the classifier and respond adaptively. The disruption added at each step varies depending on the attack type. The final goal of the adversary is to transform a genuine sample s with the original target y s into an adversarial sample s a (rms(ss a )<Max_Perturbation) that is classified into the target class y a ≠ y s That's true.

多くの既存の防御提案は、アドホック攻撃には効果を発揮するが、適応型敵対者、すなわち防御に関する知見に基づいて攻撃を適応させる敵対者を阻止することはできない。上記で論じられたように、この分野は現在大いに調査されており、考慮に入れるべき多くの既存の攻撃があるばかりでなく、防御方策を構築するときには、克服するべき多くの技術的な課題がある。既存の文献において論じられた攻撃の各々に関して、これらの攻撃の変更された適応型バージョンも存在して、深刻なセキュリティ脅威をもたらす。 Although many existing defense proposals are effective against ad hoc attacks, they cannot thwart adaptive adversaries, i.e., adversaries that adapt their attacks based on what they know about the defense. As discussed above, this area is currently highly researched, and there are not only many existing attacks to take into account, but also many technical challenges to overcome when building defense strategies. be. For each of the attacks discussed in the existing literature, modified and adaptive versions of these attacks also exist, posing serious security threats.

既存の防御方策の1つには、入力サンプルに、ランダム性を追加してフィルタを適用するなどの変換を実行することによって、可能性のある敵対的サンプルを駆除することを目指すものがある。この手法には、モデルの精度が低下することと、変換の知見を有する適応型攻撃者には防御がバイパスされてしまうこととの、2つの短所がある。別の既存の防御方策には、訓練セットに敵対的サンプルを含めることにより、攻撃に対する回復力を持たせるようにモデルを「強化する」ことに依拠するものがある。このタイプの防御も、アドホック攻撃には比較的うまく効果を発揮するが、なお60%の精度に達することができる、ターゲットを絞った攻撃にはあまり有効ではない。その上、これら既存の防御方策の各々の学習プロセスは非常に遅く、したがってセットアップするのがかなり困難である。これら既存の防御方策は、現在知られているものとは異なる攻撃方法を使用する攻撃に対して回復力があるかどうかということも不明瞭である。 One existing defense strategy aims to eliminate potentially adversarial samples by performing transformations on the input samples, such as adding randomness and applying filters. This approach has two drawbacks: it reduces the accuracy of the model, and the defenses can be bypassed by an adaptive attacker with knowledge of the transformation. Another existing defense strategy relies on "hardening" a model to make it resilient to attacks by including adversarial samples in the training set. This type of defense also works relatively well against ad-hoc attacks, but is less effective against targeted attacks, which can still reach an accuracy of 60%. Moreover, the learning process of each of these existing defense strategies is very slow and therefore fairly difficult to set up. It is also unclear whether these existing defense strategies are resilient to attacks using attack methods different from those currently known.

モデルの悪化:
機械学習モデルの別の一般的な攻撃にはモデルの悪化と称されるものがある。このタイプの攻撃は、訓練段階の前にモデルの訓練セットを悪化させることに頼る。悪化させるステップは、サンプルSを選択してトリガtを付加し、それらのターゲットクラスをytに変化させるように起こる。新たに作成されたサンプルにより、モデルは、特定のトリガtを認識し、トリガtを伴う画像をターゲットクラスytへと常に分類するように確実に訓練される。トリガは、黄色い四角などの簡単な視覚的パターンから、画像に追加される微細で判別不能な任意のパターンまで、任意のパターンが可能である。画像認識用途では、トリガは任意の画素パターンが可能である。しかしながら、トリガは、たとえば発話または単語認識といった他の分類問題についても定義できる(これらの実例では、トリガは、それぞれ特定の音響または単語/文でよい)。モデルの悪化による、モデルの精度に対する影響は最小限である。「バックドア」および「悪化」という用語は、本明細書では、互換性があるように使用される。
Model deterioration:
Another common attack on machine learning models is called model degradation. This type of attack relies on degrading the model's training set before the training phase. The degrading step occurs by selecting the samples S and attaching a trigger t, changing their target class to y t . The newly created samples ensure that the model is trained to recognize a particular trigger t and always classify images with trigger t into the target class y t . The trigger can be any pattern, from a simple visual pattern such as a yellow square to any minute, indiscernible pattern added to the image. For image recognition applications, the trigger can be any pixel pattern. However, triggers can also be defined for other classification problems, such as utterances or word recognition (in these instances, the triggers can be specific sounds or words/sentences, respectively). Model degradation has minimal impact on model accuracy. The terms "backdoor" and "exacerbation" are used interchangeably herein.

敵対者が、訓練データへのアクセスを可能にする厳密なやり方は、機械学習分類器が配備される用途に依拠する。信頼できないソースから訓練データが収集される場合には、すべてのシナリオにおいてモデルが悪化される可能性がある。たとえば、GOOGLEの連合学習構造では、自発的ユーザによって提供されたデータを使用して共有モデルを訓練することが可能である。したがって、攻撃者を含む誰もが、訓練プロセスに参加することができる。前述のように、攻撃者は、サンプルに追加したトリガがサンプルの分類を変化させるやり方を調べるためにモデルまたはサロゲートモデルで実験することができ、それによってターゲットクラスを変化させる。 The exact manner in which an adversary gains access to training data depends on the application for which the machine learning classifier is deployed. If training data is collected from untrusted sources, the model can be degraded in all scenarios. For example, GOOGLE's federated learning structure allows data provided by voluntary users to be used to train shared models. Therefore, anyone, including the attacker, can participate in the training process. As mentioned above, an attacker can experiment with the model or surrogate model to see how triggers added to the sample change the classification of the sample, thereby changing the target class.

既存の(訓練された)モデルを悪化させるために、本発明の実施形態による、データを悪化させる手法が使用され、必要とするのは、悪化させたサンプルを使用する数回の追加の訓練のみである。モデルを悪化させるために、最初に、モデルによって認識されるパターンであるトリガが生成される。次いで、訓練セットのある特定の画像にトリガが付加され、画像のターゲットクラスが、(たとえば画像のラベルを変更することによって)バックドアターゲットクラスに変更される。これに続いて、バックドアの精度が十分な値(たとえば90%の精度)に達するまで、真正な訓練データと悪化させた訓練データとの両方を含有する訓練が数回実行される。真正なデータは、有利には、バックドア化されたサンプルを用いて訓練された後のモデルが、依然として、バックドアを含有していないサンプルを正しく分類できることを確認するために、このステップにおいて使用ができる。このステップは、モデルの通常の訓練段階中に必要とされるような膨大な量のデータを必要とせず、精度に関して無視できるコストで、モデルに混乱を迅速に挿入することを可能にする。 A data degradation technique according to embodiments of the present invention is used to degrade an existing (trained) model, requiring only a few additional trainings using the degraded samples. It is. To degrade the model, first a trigger is generated, which is a pattern recognized by the model. A trigger is then attached to a particular image in the training set and the target class of the image is changed to the backdoor target class (eg, by changing the image's label). Following this, several training runs containing both genuine and corrupted training data are performed until the accuracy of the backdoor reaches a sufficient value (eg, 90% accuracy). Authentic data is advantageously used in this step to ensure that the model after being trained with backdoored samples is still able to correctly classify samples that do not contain backdoors. I can do it. This step does not require huge amounts of data as is required during the normal training phase of the model, and allows perturbations to be quickly inserted into the model at a negligible cost in terms of accuracy.

バックドア誤分類による防御:
現況技術に基づき、システムの十分な知見を持った敵対者からの敵対的サンプルに対して防御することは不可能であると推定される。機械学習モデルおよびその重みを完全に秘密に保つことも不可能であろう。したがって、本発明の実施形態は、パラダイムを変化させて、攻撃者の知見と防御者の知見との間にいくらかの非対称性をもたらすことを目的とするものである。この目的のために、本発明の実施形態は、可能性のある敵対的サンプルを検出するためにモデルを自ら悪化させることに基づく防御を提供するものである。詳細には、トリガtを付加されてバックドア化モデルMt上で評価された真正なサンプルは、バックドアターゲットクラスytに分類されると予期されるが、敵対的サンプルについては、バックドア化されたクラスではなく、依然としてターゲットの攻撃クラスyaに分類されることもある。
Backdoor misclassification protection:
Based on current state of the art, it is presumed that it is impossible to defend against adversarial samples from an adversary with sufficient knowledge of the system. It may also be impossible to keep machine learning models and their weights completely secret. Embodiments of the invention therefore aim to change the paradigm and introduce some asymmetry between the attacker's knowledge and the defender's knowledge. To this end, embodiments of the invention provide a defense based on self-degrading the model to detect possible adversarial samples. In detail, a genuine sample evaluated on the backdoored model M t with a trigger t is expected to be classified into the backdoor target class y t , whereas for an adversarial sample, the backdoor It may still be classified as the target's attack class y a rather than the classified class.

敵対的サンプルに導入された混乱は、モデルの固有のバックドアのような、挙動における弱いトリガと見なすことが可能である。したがって、生成されたバックドア化モデルが、元のモデルに十分に近く、十分に弱いトリガを有する場合には、敵対的サンプルは、バックドア化モデル上のトリガを用いて評価されても依然として誤って分類される可能性がある。モデルにバックドアを追加することは比較的迅速であるため、敵対者は、バックドア化されていない本来のモデルMの十分な知見を有するが、バックドア化モデルやそれらのトリガについては何も知らないので、防御者にのみ既知の有利な機密情報である更新された脅威モデルを有利に使用することができる。 Perturbations introduced to adversarial samples can be viewed as weak triggers in behavior, like inherent backdoors in the model. Therefore, if the generated backdoored model is close enough to the original model and has a weak enough trigger, then an adversarial sample that is evaluated using the trigger on the backdoored model will still be incorrect. There is a possibility that it will be classified as such. Because adding a backdoor to a model is relatively quick, an adversary has sufficient knowledge of the original unbackdoored model M, but nothing about the backdoored models or their triggers. Since we do not know, the updated threat model can be used to our advantage, advantageous secret information known only to the defender.

この防御は、図1に示されるように、N個のモデルのそれぞれのトリガtNに基づき、敵対者には未知の、バックドア化されたバージョンのN個のモデルM'1..Nを迅速に生成することに頼るものである。その後、図2に表されるように、それぞれの分類要求rが、σ=0を使用する簡単なやり方で、以下の流れで処理される。
1. y0←M(s)
2. diff←0
3. For i in 1..N:
a. yi←M'i(s+ti)
b. If yi≠y0 then diff++
4. If diff>σ*N then REJECT
5. else return y0
ここで、diffはカウンタであって、diff++はカウンタに1を加え、また、この実施形態では、任意数N個のバックドア化されたバージョンのモデルM'1..Nにアルゴリズムを適用することができるように、閾値σは[0,1]の間の割合または値である。
This defense is based on a trigger t N for each of the N models, as shown in Fig. 1, and a backdoored version of the N models M' 1..N that is unknown to the adversary. It relies on rapid generation. Then, as depicted in Figure 2, each classification request r is processed in the following flow in a simple manner using σ=0.
1.y 0 ←M(s)
2. diff←0
3. For i in 1..N:
a. y i ←M' i (s+t i )
b. If y i ≠y 0 then diff++
4. If diff>σ*N then REJECT
5. else return y 0
Here, diff is a counter, diff++ adds 1 to the counter, and in this embodiment, the algorithm is applied to any number N of backdoored versions of the model M' 1..N . The threshold σ is a ratio or value between [0,1] so that

一実施形態では、本発明は、敵対的サンプルに対して、真正な機械学習モデルを安全にするための方法を提供するものである。この方法は、分類されるサンプルにトリガを付加するステップa)と、トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップb)とを含む。ステップc)において、ステップb)におけるバックドア化モデルの出力がバックドア化モデルのバックドアクラスと同一であるかどうかが判定され、かつ/または、ステップb)からのロジットに対して、トリガを付加してバックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットと比較する外れ値検出方法が適用される。ステップd)によって、これらのステップa)~c)が、種々のトリガに関連付けられた種々のトリガおよびバックドア化モデルをそれぞれ使用して繰り返される。ステップe)において、サンプルが敵対的サンプルかどうかを判定するために、バックドア化モデルの出力のそれぞれが、バックドア化モデルのそれぞれのバックドアクラスと同じでなかった回数が所定の閾値と比較され、かつ/または外れ値検出方法を適用することによって判定された差が差閾値と比較される。 In one embodiment, the present invention provides a method for making authentic machine learning models secure against adversarial samples. This method consists of step a) of attaching a trigger to the sample to be classified, and step b) of classifying the triggered sample using a backdoored model that is backdoored using the trigger. including. In step c), it is determined whether the output of the backdoored model in step b) is the same as the backdoor class of the backdoored model, and/or a trigger is applied to the logit from step b). An outlier detection method is applied that compares to the legitimate logit calculated using authentic samples that are additionally applied to the backdoored model. By step d) these steps a) to c) are repeated using different triggers and backdooring models respectively associated with different triggers. In step e), the number of times each of the outputs of the backdoored model was not the same as the respective backdoor class of the backdoored model is compared with a predetermined threshold to determine whether the sample is an adversarial sample. and/or the difference determined by applying an outlier detection method is compared to a difference threshold.

一実施形態では、この方法は、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値以下である場合、サンプルに関する分類要求の結果として、トリガを付加されていないサンプルを、真正な機械学習モデルを使用して分類するステップと、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値よりも多い場合、このサンプルを敵対的サンプルとして拒絶するステップとをさらに含む。 In one embodiment, the method determines that if the number of times each of the outputs of the backdoored model was not the same as each of the backdoor classes of the backdoored model is less than or equal to a threshold, then as a result of a classification request on the sample, Classifying the untriggered samples using a bona fide machine learning model and counting the number of times each of the outputs of the backdoored model was not the same as each of the backdoor classes of the backdoored model. and rejecting the sample as an adversarial sample if the number is greater than a threshold.

一実施形態では、この方法は、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値よりも多い場合、サンプルに、不正に変更されたものとしてフラグを立てるステップをさらに含む。一実施形態では、閾値はゼロである。 In one embodiment, the method determines whether a sample has been tampered with if each of the outputs of the backdoored model was not the same as each of the backdoored classes of the backdoored model more than a threshold. further comprising flagging the information as such. In one embodiment, the threshold is zero.

一実施形態では、バックドア化モデルの各々が、それぞれのトリガを、真正な機械学習モデルによって認識可能なパターンとして生成するステップと、複数の訓練サンプルに対してそれぞれのトリガを追加するステップと、それぞれのトリガを追加された訓練サンプルのターゲットクラスを、バックドアクラスのそれぞれに変更するステップと、それぞれのトリガを追加された訓練サンプルを使用して、真正な機械学習モデルの別のバージョンを訓練するステップとによって生成される。 In one embodiment, each of the backdoored models generates a respective trigger as a pattern recognizable by a bona fide machine learning model, and adds the respective trigger to a plurality of training samples; Changing the target class of each trigger-added training sample to each of the backdoor classes, and using each trigger-added training sample to train another version of the bona fide machine learning model. generated by the step of

一実施形態では、訓練は、それぞれのバックドア化モデルが90%以上の精度を得るまで実行される。 In one embodiment, training is performed until each backdoored model obtains an accuracy of 90% or greater.

一実施形態では、真正な機械学習モデルおよび真正な機械学習モデルのバージョンがそれぞれ訓練され、それぞれのトリガを追加された訓練サンプルを使用して真正な機械学習モデルのバージョンを訓練するステップは、真正な機械学習モデルからそれぞれのバックドア化モデルを作成するための追加の訓練である。 In one embodiment, a bona fide machine learning model and a version of the bona fide machine learning model are each trained, and training the version of the bona fide machine learning model using the respective trigger-added training samples comprises This is additional training to create each backdoored model from the machine learning model.

一実施形態では、追加の訓練は、それぞれのトリガを追加されたサンプルとともに真正なサンプルを用いて訓練するステップを含む。 In one embodiment, additional training includes training each trigger with authentic samples along with added samples.

一実施形態では、分類するステップb)は、バックドア化モデルを使用して、トリガを付加されたサンプルの分類におけるロジットを抽出するステップを含み、バックドア化モデルの出力クラスが、サンプルが敵対的サンプルかどうかを判定するために使用されることはなく、ステップe)において、ステップb)からのロジットが正当なロジットのセットと比較され、正当なロジットは、それぞれのトリガを付加されてから複数の真正なサンプルを使用して計算され、バックドア化モデルの各々に適用されたものである。 In one embodiment, step b) of classifying includes extracting logits in the classification of the triggered sample using the backdoored model, such that the output class of the backdoored model is In step e), the logit from step b) is compared to the set of legal logits, which are then combined with the respective trigger and then It was calculated using multiple authentic samples and applied to each of the backdoored models.

一実施形態では、この方法は、ロジットの各々についての外れ値検出方法の結果が差閾値以下である場合、サンプルに関する分類要求の結果として、真正な機械学習モデルを使用して、トリガを付加されていなサンプルを分類するステップと、ロジットの各々についての外れ値検出方法の結果が差閾値よりも大きい場合、サンプルを敵対的サンプルとして拒絶するステップとをさらに含む。一実施形態では、外れ値検出方法は、Local Outlier Factorアルゴリズムを使用する。 In one embodiment, the method applies a trigger using the bona fide machine learning model as a result of a classification request on the sample if the result of the outlier detection method for each of the logits is less than or equal to a difference threshold. and rejecting the sample as an adversarial sample if the result of the outlier detection method for each of the logits is greater than a difference threshold. In one embodiment, the outlier detection method uses a Local Outlier Factor algorithm.

一実施形態では、真正な機械学習モデルは、ニューラルネットワークに基づいて画像分類用に訓練される。 In one embodiment, a genuine machine learning model is trained for image classification based on neural networks.

別の実施形態では、本発明が提供する、真正な機械学習モデルを敵対的サンプルに対して安全にするためのシステムは、a)分類されるサンプルにトリガを付加するステップと、b)トリガを使用してバックドア化されたバックドア化モデルを使用して、トリガを付加されたサンプルを分類するステップと、c)ステップb)におけるバックドア化モデルの出力がバックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、トリガを付加した真正なサンプルを使用して計算され、バックドア化モデルに適用された正当なロジットとを比較する外れ値検出方法を適用するステップと、d)別々のトリガを使用してステップa)~c)を繰り返すステップと、e)サンプルが敵対的サンプルかどうかを判定するために、バックドア化モデルの出力のそれぞれが、バックドア化モデルのそれぞれのバックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または外れ値検出方法を適用することによって判定された差を差閾値と比較するステップとの実行を促進するために、単独で、または組合せにおいて構成される1つまたは複数のハードウェアプロセッサを備える。 In another embodiment, the present invention provides a system for making a bona fide machine learning model secure against adversarial samples, comprising the steps of: a) attaching a trigger to a sample to be classified; c) classifying the triggered sample using the backdoored model, the output of the backdoored model in step b) being the backdoored model's backdoored class; and/or compare the logit from step b) with the legitimate logit calculated using the triggered authentic sample and applied to the backdoored model. d) repeating steps a) to c) using separate triggers; and e) applying a backdoored model to determine whether the sample is an adversarial sample. The number of times each of the outputs of the One or more hardware processors, configured alone or in combination, are provided to facilitate performance of the comparing step.

一実施形態では、システムは、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値以下である場合、サンプルに関する分類要求の結果として、トリガを付加されていないサンプルを、真正な機械学習モデルを使用して分類し、バックドア化モデルの出力のそれぞれが、バックドア化モデルのバックドアクラスのそれぞれと同じでなかった回数が閾値よりも多い場合、このサンプルを敵対的サンプルとして拒絶するようにさらに構成される。 In one embodiment, the system triggers as a result of a classification request for a sample if the number of times each of the outputs of the backdoored model was not the same as each of the backdoored classes of the backdoored model is less than or equal to a threshold. Classify the untagged samples using a bona fide machine learning model such that the number of times each of the outputs of the backdoored model was not the same as each of the backdoored classes of the backdoored model is less than a threshold. If so, it is further configured to reject this sample as an adversarial sample.

さらなる実施形態では、本発明は、命令を有する有体の非一時的コンピュータ可読媒体を提供するものであり、命令は、1つまたは複数のプロセッサによって実行されると、本発明の一実施形態による任意の方法のステップの実行を促進することにより、真正な機械学習モデルを安全にする。 In a further embodiment, the present invention provides a tangible, non-transitory computer-readable medium having instructions, which, when executed by one or more processors, according to an embodiment of the present invention. Make bona fide machine learning models secure by facilitating the execution of arbitrary method steps.

図1は、本発明の一実施形態によるセットアップ段階10を概略図に示す。セットアップ段階10は、既存の(訓練された)機械学習モデル12から始まる。別々のトリガt1、t2、t3およびt4を付加された各サンプルを用いて、それぞれの場合において既存の機械学習モデル12を追加訓練することにより、既存の機械学習モデル12から複数のN個のバックドア化モデル15が生成される。トリガは、既存の機械学習モデル12によって認識可能なサンプルに追加された何らかの画素パターンであるが、多くは微細であって、人の観測者には、変更されていないサンプルと見分けがつかない。好ましくは、それぞれのバックドア化モデルM'1、M'2、M'3およびM'4は、互いに異なるそれぞれのトリガt1、t2、t3およびt4ならびにトリガt1、t2、t3およびt4に関連付けられる。また、好ましくは、様々なバックドア化モデル15を訓練するために使用されるデータサンプルは、バックドア化されるそれぞれの所与のモデルに関連のそれぞれのトリガを付加し、それに応じてターゲットバックドアクラスに対するラベルを変更することにより、同一の訓練セットから作成される。したがって、本発明の一実施形態によれば、これらの訓練サンプルは、同一のデータセットから生成できるが、バックドア化モデルにわたって異なる。 FIG. 1 schematically depicts a setup step 10 according to an embodiment of the invention. The setup stage 10 begins with an existing (trained) machine learning model 12. Create multiple N backs from an existing machine learning model 12 by additionally training the existing machine learning model 12 in each case with each sample appended with a separate trigger t1, t2, t3 and t4. Door model 15 is generated. A trigger is some pixel pattern added to a sample that is recognizable by an existing machine learning model 12, but is often so subtle that it is indistinguishable from an unaltered sample to a human observer. Preferably, each backdooring model M' 1 , M' 2 , M' 3 and M' 4 has a respective trigger t 1 , t 2 , t 3 and t 4 that is different from each other and a trigger t 1 , t 2 , Associated with t 3 and t 4 . Preferably, the data samples used to train the various backdoored models 15 also append respective triggers associated with each given model to be backdoored and target backdoors accordingly. Created from the same training set by changing the labels for the door classes. Therefore, according to one embodiment of the invention, these training samples can be generated from the same dataset, but are different across the backdoored models.

図2は、本発明の一実施形態による評価段階20を概略的に示す。既存の真正な機械学習モデル12に対して、(たとえば分類要求に応答して画像を分類するために、)またはそのようなモデルを訓練するための入力として、サンプル22が提供され、真正なサンプルかそれとも敵対的サンプルであるかが評価される。それぞれのバックドア化モデルM'1、M'2、M'3およびM'4を訓練するために使用されたトリガt1、t2、t3およびt4がサンプル22に追加され、それぞれの場合において、それぞれのバックドア化モデル15に対する入力として適用され(サンプルsに追加されたトリガt1が、トリガt1を使用してバックドア化モデルM'1に対する入力として適用される、など)、出力y1、y2、y3、y4としてそれぞれのクラスをもたらす。バックドア化モデル15のうち1つからの出力yiのうち1つが、モデル15のそれぞれのターゲットバックドアクラス
とは異なる回数が、合計dとして判定される。ターゲットバックドアクラス
は、それぞれの場合において、それぞれのトリガtiに関連した分類結果によって判定される(たとえば、バックドアクラス
はトリガt1に関連付けられたクラスに対応する、など)。この合計dは、任意数のバックドア化モデル15を使用するように正規化することが可能であり、所定の閾値σと比較される。この例ではσはゼロであり、したがって、バックドア化モデル15のすべてが、それぞれのバックドアクラス
と等しいそれぞれの出力yiをもたらすと、サンプルは真正であると判定され、そうでない場合、サンプル22は、不正に変更された敵対的サンプルと判定されて拒絶され、好ましくは不正に変更されたものとしてフラグを立てられる。サンプル22は、真正なサンプルであると判定されると、トリガを付加されることなく、真正な機械学習モデルに対する入力として、または同モデルを訓練するために適用でき、分類要求の結果として出力を返すことができる。
FIG. 2 schematically depicts an evaluation stage 20 according to an embodiment of the invention. Samples 22 are provided to an existing bona fide machine learning model 12 (e.g., to classify images in response to a classification request) or as input for training such a model, and the bona fide samples It is evaluated whether it is a sample or an adversarial sample. Triggers t 1 , t 2 , t 3 and t 4 that were used to train the respective backdoored models M' 1 , M' 2 , M ' 3 and M' 4 are added to sample 22 and their respective (Trigger t 1 added to sample s is applied as input to backdooring model M' 1 using trigger t 1 , etc.) in case , yielding the respective classes as outputs y 1 , y 2 , y 3 , y 4 . The output y from one of the backdooring models 15 i is the target backdoor class for each of the models 15.
The number of times different from d is determined as the total d. Target backdoor class
is determined in each case by the classification results associated with each trigger t i (e.g. backdoor class
corresponds to the class associated with trigger t1 , etc.). This sum d can be normalized to use any number of backdoored models 15 and compared to a predetermined threshold σ. In this example, σ is zero, so all of the 15 backdooring models have their respective backdoor classes.
yielding the respective output y i equal to , the sample is determined to be authentic, otherwise the sample 22 is determined to be a tampered adversarial sample and is rejected, preferably tampered with be flagged as such. Once the sample 22 is determined to be a genuine sample, it can be applied as an input to or to train a genuine machine learning model without being triggered, and output as a result of a classification request. can be returned.

図3は、本発明の別の実施形態による評価段階30を概略的に示す。最初に、たとえばセットアップ段階中に、真正なサンプル32にトリガが追加され、それぞれの場合においてそれぞれのトリガに関連付けられたバックドア化モデル15を使用して分類される。図3は、真正なサンプルsgにトリガt1が追加され、トリガt1に関連付けられた、バックドア化モデルM'1を使用して分類されるステップの一例を示す。検出精度を改善するために、前述の実施形態と同様に、複数のトリガおよびそれぞれのトリガに関連付けられた複数のモデルが使用される。しかしながら、ここで、使用される、バックドア化モデル15を使用した分類の結果は、バックドア化モデル15の最後から2番目の層であるロジットlである。最後の層はsoftmax層と称され、廃棄されるかまたは評価から除外される。本発明の一実施形態によって、softmax層はサンプルが敵対的サンプルかどうかを判定するのに有効ないくつかの情報を廃棄することと、ロジットlを使用することによって敵対的サンプルを識別する精度がさらに改善できることとが発見された。ロジット
は、それぞれの場合において、それぞれのトリガを追加したそれぞれの真正なサンプル32をそれぞれのバックドア化モデル15に適用して生成されたロジットのセットを指定し、真正なサンプル32の真正な挙動を表す。トリガを追加されたサンプル22は、真正なサンプルかそれとも敵対的サンプルか判定され、バックドア化モデル15に対する入力として適用されてロジットlsをもたらす。もたらされるロジットlsは関数is diff(たとえば、類似度もしくはL-distanceなどの距離測度、または好ましくはLocal Outlier Factor(LOF)アルゴリズム)によって、真正なロジットのセット
と比較され、結果が所定の差閾値σよりも大きいかどうか判定される。関数is diffの結果が所定の差閾値σよりも大きい場合、サンプル22は敵対的サンプルと判定して拒絶され、好ましくは、不正に変更されたものとしてフラグを立てられる。そうでない場合、関数is diffの結果が所定の差閾値σ以下であると、サンプル22は真正なサンプルであると判定され、トリガなしで、真正な機械学習モデルに対する入力として、または同モデルを訓練するために適用され、分類要求の結果として出力を返すことができる。
FIG. 3 schematically depicts an evaluation stage 30 according to another embodiment of the invention. Initially, for example during a setup phase, triggers are added to the genuine samples 32 and classified using the backdooring model 15 associated in each case with the respective trigger. FIG. 3 shows an example of a step in which a trigger t 1 is added to a genuine sample s g and classified using a backdoored model M′ 1 associated with the trigger t 1 . To improve detection accuracy, multiple triggers and multiple models associated with each trigger are used, similar to the previous embodiments. However, here, the result of the classification using the backdoored model 15 used is the logit l, which is the penultimate layer of the backdoored model 15. The last layer is called the softmax layer and is discarded or excluded from the evaluation. According to one embodiment of the present invention, the softmax layer improves the accuracy of identifying adversarial samples by discarding some information that is useful in determining whether a sample is an adversarial sample and by using logit l. It was discovered that further improvements could be made. logit
In each case, we specify a set of logits generated by applying each authentic sample 32 with the respective trigger added to each backdoored model 15, and define the authentic behavior of the authentic sample 32. represent. The triggered sample 22 is determined to be a genuine or adversarial sample and is applied as an input to the backdooring model 15, resulting in logit l s . The resulting logit l s is determined by a function is diff (e.g., a similarity or distance measure such as L-distance, or preferably a Local Outlier Factor (LOF) algorithm) into the set of true logits.
It is determined whether the result is greater than a predetermined difference threshold σ. If the result of the function is diff is greater than a predetermined difference threshold σ, the sample 22 is determined to be an adversarial sample and is rejected, preferably flagged as tampered with. Otherwise, if the result of the is diff function is less than or equal to a predetermined difference threshold σ, sample 22 is determined to be a genuine sample and can be used as an input to or train a genuine machine learning model without a trigger. can be applied to return an output as a result of a classification request.

LOFは既存の異常検出方法であり、ポイントの、その近傍に対する近さを、近傍に特有の近さと比較して検査することにより、データセットにおける外れ値を識別する。Local Outlier FactorであるLOFk(x;N)は、整数パラメータk、ポイントxおよびいくつかの近傍のポイント{x1、...、xn}を所与として、xとそのk個の最も近い近傍の近さに基づき、逸脱度または「外れ度」を与えるものである。たとえば、LOFk(x;N)>1は、xが他のポイントよりもクラスタ化され難く、可能性として外れ値であることを指示する。 LOF is an existing anomaly detection method that identifies outliers in a dataset by examining the closeness of a point to its neighborhood compared to the neighborhood-specific closeness. The Local Outlier Factor, LOFk(x;N), is the local outlier factor of x and its k nearest neighbors, given an integer parameter k, a point It gives a deviance or "outlier" based on proximity. For example, LOFk(x;N)>1 indicates that x is less likely to cluster than other points and is likely an outlier.

一実施形態によれば、所定の差閾値σは、複数の真正なサンプルを使用する(すなわち
をロジット
に入力する)出力に基づくものであり、lsを有する別々のロジット
の間の距離が、(たとえば、いくらかの許容差を加えた)ロジット間の平均距離よりも大きい場合、サンプルは敵対的であると報告される。
According to one embodiment, the predetermined difference threshold σ uses multiple authentic samples (i.e.
logit
is based on the output (input to ) and separate logit with l s
A sample is reported as adversarial if the distance between the logits is greater than the average distance between the logits (e.g., plus some tolerance).

図4は、セットアップ段階10における図1のバックドア化モデル15のうち1つを生成するための方法40を概略的に示す。最初に、画像24を含有しているサンプル22が、トリガ25を含むように変更される。次いで、変更されたサンプル22は、既存の機械学習モデル12をさらに訓練するために使用される。このプロセスは、同一のトリガを含むように変更された別々のサンプルを用いて、精度が、条件を満たす値に達する(たとえば、同一のトリガを有するサンプルの約90%が同様に誤って分類される)まで繰り返される。理想的には、バックドア化モデルは、所与のトリガを含有しているすべてのサンプルを、そのトリガに関連付けられたターゲットクラスに属するものと予測するべきである。好ましくは、新たに作成されるサンプルの数は約100以上である。たった約10のバックドア化モデルを用いて好結果を達成できることが既に分かっている。 FIG. 4 schematically depicts a method 40 for generating one of the backdoored models 15 of FIG. 1 at a setup stage 10. First, sample 22 containing image 24 is modified to include trigger 25. The modified samples 22 are then used to further train the existing machine learning model 12. This process uses separate samples modified to contain the same trigger to reach a satisfying value for accuracy (e.g., approximately 90% of samples with the same trigger are similarly misclassified). ) is repeated until Ideally, a backdooring model should predict all samples containing a given trigger to belong to the target class associated with that trigger. Preferably, the number of newly created samples is about 100 or more. It has already been shown that good results can be achieved using only about 10 backdoored models.

複数のバックドア化モデルを使用すると、システムの検出精度を全体として改善する。なおまた、本発明の実施形態によるこの解決策は、強い敵対的サンプルを検出するのに有効であり、敵対頑健性の場合にも適切な転移性を確保することが判明した。この解決策は、「微細な」敵対的サンプルに対する精度はそれほど高くないが、本発明の実施形態によって、多層の防御システムの最初の層として特に有利に適用できる。 Using multiple backdooring models improves the detection accuracy of the system as a whole. Furthermore, this solution according to embodiments of the invention has been found to be effective in detecting strong adversarial samples and ensures adequate transferability even in the case of adversarial robustness. Although this solution is not very accurate for "fine" adversarial samples, it can be applied particularly advantageously by embodiments of the invention as the first layer of a multi-layered defense system.

本発明の実施形態による、バックドア化モデルを使用するこの解決策が、上記で言及された既存の文献において論じられている攻撃に関して評価された。この評価は、本発明の実施形態によって与えられた敵対的サンプルに対して機械学習モデルのセキュリティにおける改善を実験的に実証した。「最強の」攻撃に対して、0%までのフォールスネガティブ率が達成され、フォールスポジティブ率は約6%であった。閾値σを増加させると、フォールスポジティブ率は減少するが、フォールスネガティブ率が増加する。 This solution using a backdooring model according to embodiments of the invention was evaluated with respect to the attacks discussed in the existing literature mentioned above. This evaluation experimentally demonstrated improvements in the security of machine learning models against adversarial samples provided by embodiments of the present invention. For the "strongest" attacks, false negative rates of ~0% were achieved, and false positive rates were approximately 6%. Increasing the threshold σ decreases the false positive rate but increases the false negative rate.

出願人による別の手法には、比較することによって敵対的サンプルを検出するために、悪化されたモデルを使用する、転移性の防止を目指すものがある。詳細には、この別の手法は、悪化されたモデルは真正な相当モデルとは大いに異なることが可能であり、その間の差のために、「弱い」敵対的サンプルが誤って分類されることはないはずであるという事実に依存する。対照的に、本発明の実施形態は、トリガを付加して悪化されたモデル上で分類されたときの、真正なサンプルと敵対的サンプルとの間の挙動差に依存する。手法におけるこの相違は、結果に大きな相違をもたらす。以前の手法は微細な攻撃に対して特に優れているが、転移性に関して最適化された攻撃にはそれほど有効ではないであろう。他方では、転移性が向上すると、悪化されたモデル上で分類されたときの挙動差も増加するので、本発明の実施形態は、そのような攻撃を見つけるのに、より有効であると言える。これら別々の手法は、別々のタイプの攻撃に対するセキュリティを向上させて、機械学習コンピュータシステムおよびネットワークに、さらに優れた全体的なセキュリティを達成するために、相補的なやり方で使用されるであろう。 Another approach by the applicant aims to prevent transferability, using a degraded model to detect adversarial samples by comparison. In detail, this alternative technique suggests that the degraded model can be very different from the genuine equivalent model, and because of the difference between them, it is unlikely that a "weak" adversarial sample will be misclassified. Depends on the fact that there should be no. In contrast, embodiments of the present invention rely on behavioral differences between genuine and adversarial samples when classified on a model degraded with triggers. This difference in methodology leads to large differences in results. Previous techniques are particularly good against microscopic attacks, but may be less effective against attacks that are optimized for metastaticity. On the other hand, as the transferability increases, the behavioral differences when classified on the degraded model also increase, so embodiments of the present invention can be said to be more effective in finding such attacks. These separate techniques will be used in a complementary manner to improve security against separate types of attacks and achieve better overall security for machine learning computer systems and networks. .

改善された防御:
以前に提案された防御を上回る、本発明の一実施形態によるさらなる改善は、図3に示されるようにシステムの分類出力を使用する代わりに、またはそれに加えて、最後のロジットlに依存するものである。この実施形態では、必須ではないが、有利には、バックドア化モデルがバックドアクラスを出力するかどうかを判定することが可能である。この改善ではモデルの最後の層は廃棄される。モデルの最後の層はsoftmax層と称され、ニューラルネットワークの出力を実数から確率分布
へとマッピングするために使用される。この層は、通常、分類に関するモデルの信頼度を理解するのに非常に有効ではあるが、敵対的サンプルを検出するために使用される可能性があるいくつかの情報を廃棄してしまう。本発明の実施形態は、ベクトルlに変更されたモデルの出力を当てる。そこで、防御は、モデルの真正な挙動を、(何千もの結果を含有できる可能性がある)ベクトル
に計算するために使用される、真正なサンプルsgのプールに依存する。新規のサンプルsを受け取ると、次いで、受け取られたサンプルが真正なものであることを判断するために、このサンプルの出力lsが、真正な挙動の出力
と比較される。
Improved defense:
A further improvement according to an embodiment of the present invention over previously proposed defenses is one that relies on the last logit l instead of or in addition to using the classification output of the system as shown in Figure 3. It is. In this embodiment, it is advantageously, but not necessarily, possible to determine whether the backdoored model outputs a backdoor class. In this refinement, the last layer of the model is discarded. The last layer of the model is called the softmax layer, which distributes the output of the neural network from real numbers to a probability distribution.
used to map to. Although this layer is typically very effective in understanding the model's confidence in classification, it discards some information that could be used to detect adversarial samples. Embodiments of the invention apply the output of the modified model to the vector l. So the defense is to describe the true behavior of the model in a vector (which can contain potentially thousands of results).
depends on the pool of authentic samples s g used to calculate. Upon receiving a new sample s, then in order to determine that the received sample is genuine, the output l s of this sample is the output of the genuine behavior.
compared to

関数is diff"は多数の方法において実施することが可能である。たとえば、L-distanceを使用することが可能である。より優れた結果をもたらす別の可能性には、Local Outlier Factor(LOF)などの外れ値検出システムを使用する、一般的には、入力のセットから、その最も近い近傍の密度に基づき、所与の入力が外れ値かどうかを判断するために使用される方法がある。LOFを使用して、精度における改善が実証された。微細な攻撃の精度は、95%のフォールスネガティブ率から、(Kurakin、Alexeyらの文献に記述されている攻撃に対する)40%~(Moosavi-Dezfooli、Seyed-Mohsenらの文献、およびGoodfellow、Ian Jらの文献に記述されている攻撃に対する)55%のフォールスネガティブ率へと改善された。強い攻撃の精度は、(Carlini、Nicholasらの文献およびMadry、Aleksanderらの文献に記述されている攻撃に対して)0%のフォールスネガティブ率と変わらず、一方、最適化された攻撃のフォールスネガティブ率も80%から約25%へと大いに減少した。さらなる最適化を使用すれば、セキュリティのさらなる改善を保証するために精度をさらに改善することも可能であった。微細な攻撃は、敵対的混乱を最小化する攻撃方策を表し、強い攻撃は、高信頼度の敵対的サンプルの生成を最適化する攻撃方策を表す。 The function "is diff" can be implemented in a number of ways. For example, it is possible to use L-distance. Another possibility that gives better results is the Local Outlier Factor (LOF) There are methods commonly used to determine whether a given input is an outlier based on the density of its closest neighbors from a set of inputs, such as using an outlier detection system. Using LOF, improvements in accuracy have been demonstrated, ranging from a 95% false negative rate for subtle attacks to 40% (for the attack described in Kurakin, Alexey et al.) The accuracy of the strong attack was improved to a false negative rate of 55% (against the attacks described in Dezfooli, Seyed-Mohsen et al., and Goodfellow, Ian J et al.). and Madry, Aleksander et al.) remained unchanged at a false negative rate of 0%, while the false negative rate of the optimized attack was also significantly reduced from 80% to approximately 25%. .With further optimization, it was also possible to further improve the accuracy to ensure further improvements in security. Subtle attacks represent attack strategies that minimize adversarial disruption, while strong attacks , represents an attack strategy that optimizes the generation of highly reliable adversarial samples.

敵対的サンプルの例:
上記では、敵対者の強度が増したことを理由として、(たとえば敵対的サンプルをデジタル的に変化させる)デジタルバージョンの攻撃のみを基に説明されているが、物理的な敵対的サンプルも可能であり、本発明の実施形態は、そのような攻撃を検出するためにも同様に適用できることが示された。たとえば、悪意のあるパーティが、そのような攻撃により、一時停止標識にいくつかの些細な修正を追加することによって、自動運転車のアルゴリズムを、一時停止標識を別の標識として自動運転車に認識させるように欺く可能性がある。攻撃者の綿密なプロセスは、交通標識認識モデルのサロゲートモデルを生成するステップと、誤分類を招くように標識を変化させるための方法を調べるステップとを包含する可能性がある。次いで、攻撃者は、標的の自律運転システムを含む自動車を借りる/買い取ることにより、変更された標識にソフトウェアが対処するやり方を検査して、攻撃の成功率を評価することができる。この種の攻撃は、攻撃者に経済的利益をもたらさないことがあるが、重大な公的セキュリティリスクを提起し、事故の場合には、自動車の製造業者の責任に関係する可能性もある。
Example of an adversarial sample:
Although the above discussion is based only on digital versions of the attack (e.g. digitally altering the adversarial sample) due to the increased strength of the adversary, physical adversarial samples are also possible. It has been shown that embodiments of the present invention are equally applicable to detecting such attacks. For example, such an attack could allow a malicious party to make a self-driving car's algorithm recognize a stop sign as another sign by adding some minor modifications to a stop sign. It is possible to deceive someone into doing so. The attacker's elaborate process may involve generating a surrogate model for the traffic sign recognition model and exploring ways to alter the sign to result in misclassification. The attacker can then assess the success rate of the attack by renting/buying a car containing the target's autonomous driving system and examining the way the software deals with the modified signage. Although this type of attack may not bring economic benefits to the attacker, it poses a significant public security risk and may also implicate the liability of the vehicle manufacturer in case of an accident.

同様に、そのような攻撃の使用事例は、顔認識システムを対象とすることもできるであろう。この場合、真正な対象者の認識を避ける(混乱攻撃)ため、またはサンプルを別の識別情報と誤って一致させる(扮装攻撃)ための、いずれかの敵対的サンプルが生成されて使用できる。そのような攻撃は、経済的な危害および/または個人的な危害をもたらす可能性があり、権限のない敵対者が安全装置または安全設備にアクセスできてしまう、技術的なセキュリティシステムの侵害の可能性もある。 Similarly, use cases for such attacks could also target facial recognition systems. In this case, adversarial samples can be generated and used either to avoid recognition of the genuine subject (confusion attack) or to falsely match the sample to another identity (impersonation attack). Such attacks may result in economic harm and/or personal harm, and the potential for compromise of technical security systems allowing unauthorized adversaries to gain access to safety devices or equipment. There is also gender.

したがって、本発明の実施形態は以下の改善を提供するものである。
1.機械学習モデルのセキュリティを向上し、拡張セキュリティを有する機械学習モデルの用途を技術分野において改善する。
2.既知の真正なサンプルの参照のプールを使用することによって敵対的なサンプルと正当なサンプルとを区別するために、バックドア化モデルの出力を利用する。
3.敵対者に知られていないトリガを使用することにより、機械学習モデルのバックドア化変形形態を生成および利用して、トリガを付加されて、機械学習モデルのバックドア変形形態において評価された敵対的サンプルの分類の出力を、トリガを付加された真正なサンプルの分類の出力と比較することにより、敵対的サンプルを検出する。
4.n個の別々のトリガを使用して、敵対者に知られていない、モデルのN個のバックドア化変形形態を生成および使用して、N個のバックドア化変形形態におけるそれらのサンプルの分類の出力を検査することにより、敵対的サンプルを検出する。
5.既存の防御方策と比較して、(いくつかの真正なサンプルが誤って拒絶されることによる)精度の損失が軽減されて軽微になる。
6.既存の防御方策と比較して、防御の知見を有する敵対者に対するセキュリティが強化される。
Accordingly, embodiments of the present invention provide the following improvements.
1. Improve the security of machine learning models and improve the use of machine learning models with enhanced security in technical fields.
2. Utilize the output of the backdooring model to distinguish between adversarial and legitimate samples by using a reference pool of known genuine samples.
3. Generate and utilize a backdoored variant of a machine learning model by using a trigger unknown to the adversary; Adversarial samples are detected by comparing the output of the classification of the adversarial sample with the output of the classification of the triggered genuine sample.
4. Use n separate triggers to generate and use N backdoored variants of the model, unknown to the adversary, to sample them in N backdoored variants Detect adversarial samples by inspecting the output of the classification.
5. The loss in accuracy (due to false rejection of some genuine samples) is reduced and becomes minor compared to existing defense strategies.
6. Compared to existing defense measures, security against adversaries with knowledge of defense is enhanced.

本発明の一実施形態によれば、敵対的サンプルに対して機械学習モデルのセキュリティを向上する方法は、以下の段階を含む。
セットアップ段階:
- 分類モデルMを受け取る
- ランダムトリガt1、..、tNを局所的に使用して、バックドア化モデルM'1、..、M'Nを生成する
検出段階:
- 分類するべきサンプルsを受け取ったとき:
〇それぞれのバックドア化モデルM'1、..、M'Nについて、トリガtiを付加された、バックドア化モデルM'iにおいて、サンプルsを分類する(yi←M'i(s+ti))
〇出力のセットy1..Nを使用して、出力がバックドアクラスと等しくない(yi
)回数をカウントする。
〇誤分類の数が閾値σを上回ったらサンプルを拒絶し、不正に変更されたものとしてフラグを立て、そうでない場合、正当なモデル(M)に対する分類要求の結果を出力する
高度な検出:
- 追加のセットアップ:
〇複数の真正なサンプルsgを選択する
〇それぞれの真正なサンプルsgについて、バックドア化モデルM'i..Nの各々のサンプルsのロジットlを計算して、ロジット出力
のセットに記憶する
- 検出:
〇分類するべきサンプルsを受け取ったとき、
■それぞれのバックドア化モデルM'i..Nについて、トリガtiを付加されたバックドアモデルM'iにおいてサンプルsを分類し(yi←M'i(s+ti))、liとしてロジットを抽出する
■それぞれのバックドア化モデルM'i..Nについて、それぞれのバックドア化モデルを使用して生成された正当なロジット
のセットと比較されたロジットにおいて、外れ値検出方法(LOFなど)を適用する
■σ∈[0,1]が所定の閾値であるとき、σNよりも多くのバックドア化モデルMiがロジットベクトルliを外れ値として検出したら、対応するサンプルsが拒絶される。この機構は、特定の出力を与えるバックドア化モデルの数(図2におけるd)がこの実施形態ではカウントされないという意味で、図2に示された機構(この例では閾値σは0に設定されている)に類似である。図2の例では、この特定の出力はターゲットクラスと異なる分類であるが、この高度な検出の実施形態では、特定の出力は外れ値評決である。図2の実施形態と高度な検出との両方において、d>σNである場合サンプルが拒絶される。
According to one embodiment of the present invention, a method for improving the security of a machine learning model against adversarial samples includes the following steps.
Setup stage:
- receive classification model M
- a detection phase that locally uses random triggers t 1 , .., t N to generate backdoored models M' 1 , .., M' N :
- When receiving samples to classify:
〇For each backdoor model M' 1 , .., M' N , classify sample s in backdoor model M' i to which trigger t i is added (y i ←M' i (s +t i ))
〇 With the set of outputs y 1..N , the output is not equal to the backdoor class (y i
) Count the number of times.
o Advanced detection that rejects the sample if the number of misclassifications exceeds a threshold σ, flags it as tampered with, and otherwise outputs the result of the classification request against the legitimate model (M):
- Additional setup:
〇 Select multiple genuine samples s g 〇 For each genuine sample s g , calculate the logit l of each sample s of the backdoored model M' i..N , and logit output
be stored in the set of
- Detection:
〇When receiving the sample s to be classified,
■For each backdoor model M' i..N , classify sample s in backdoor model M' i to which trigger t i is added (y i ←M' i (s+t i )), and li Extract the logit as ■For each backdoored model M' i..N , the legitimate logit generated using each backdoored model
Apply an outlier detection method (such as LOF) on the logit compared to the set of ■When σ∈[0,1] is a given threshold, more backdoored models M i than σN If l i is detected as an outlier, the corresponding sample s is rejected. This mechanism is similar to the mechanism shown in Figure 2 (the threshold σ is set to 0 in this example) in the sense that the number of backdoored models that give a particular output (d in Figure 2) is not counted in this embodiment. is similar to In the example of Figure 2, this particular output is a different classification than the target class, but in this advanced detection embodiment, the particular output is an outlier verdict. In both the embodiment of FIG. 2 and advanced detection, samples are rejected if d>σN.

本発明の実施形態は、攻撃者と防御者との間の対称な知見を壊すことにより、適応型攻撃に対する頑健性を有利に提供するものである。バックドア化モデルのトリガは、攻撃者に対する未知の機密キーとして働く。 Embodiments of the present invention advantageously provide robustness against adaptive attacks by breaking the symmetric knowledge between attacker and defender. The trigger of the backdooring model acts as an unknown secret key to the attacker.

本発明の実施形態は、図および前述の説明において詳細に示され、説明されてきたが、そのような図示および説明は実例または例示であって、限定的ではないと考えられるべきである。当業者なら以下の特許請求の範囲の範囲内で変更および修正をなすことができることが、理解されよう。詳細には、本発明は、上記および下記の別々の実施形態からの特徴の任意の組合せを用いる実施形態を、さらに包含するものである。加えて、本明細書における、本発明を特徴付ける記述は、本発明の一実施形態を指し、必ずしもすべての実施形態を指すわけではない。 While embodiments of the invention have been shown and described in detail in the drawings and foregoing description, such illustration and description are to be considered illustrative or exemplary and not restrictive. It will be appreciated by those skilled in the art that changes and modifications can be made within the scope of the following claims. In particular, the invention further encompasses embodiments using any combination of features from the separate embodiments above and below. Additionally, statements herein that characterize the invention refer to one embodiment and not necessarily to all embodiments of the invention.

特許請求の範囲において使用される用語は、前述の説明と矛盾しない、最も広範かつ適切な解釈を得るように解釈されるべきである。たとえば、要素を紹介する際の"a"または"the"といった冠詞の使用は、複数の要素を除外するように解釈されるべきではない。同様に、「または」の詳説は包括的に解釈されるべきであり、「AまたはB」の詳説は、状況または先行の説明からAおよびBのうち1つだけを意図することが明らかでない場合、「AおよびB」を除外しない。さらに、「A、BおよびCのうち少なくとも1つ」の詳説は、A、BおよびCがカテゴリとして関係があろうとなかろうと、A、BおよびCから成る要素のグループのうち1つまたは複数と解釈されるべきであり、列挙された要素A、BおよびCの各々を少なくとも1つ必要とするように解釈されるべきではない。なおまた、「A、Bおよび/またはC」または「A、BまたはCのうち少なくとも1つ」の詳説は、列挙された要素からの、たとえば任意の単数のエンティティであるA、列挙された要素からの、たとえばAおよびBといった任意のサブセット、または要素A、BおよびCの全体のリストを含むと解釈されるべきである。 The terms used in the claims should be interpreted to obtain the broadest appropriate interpretation consistent with the foregoing description. For example, the use of articles such as "a" or "the" when introducing an element should not be construed to exclude multiple elements. Similarly, references to "or" should be construed inclusively, and references to "A or B" should be used unless it is clear from the context or previous description that only one of A and B is intended. , do not exclude "A and B". Furthermore, the remark ``at least one of A, B, and C'' refers to one or more of the group of elements consisting of A, B, and C, whether or not A, B, and C are related as categories. and should not be construed to require at least one of each of the listed elements A, B and C. Furthermore, references to "A, B and/or C" or "at least one of A, B or C" refer to references to "A, B and/or C" or "at least one of A, B or C" from the enumerated elements, such as A being any singular entity from the enumerated elements. , for example A and B, or the entire list of elements A, B and C.

10 セットアップ段階
12 機械学習モデル
15 バックドア化モデル
20 評価段階
22 サンプル
24 画像
25 トリガ
30 評価段階
32 真正なサンプル
40 バックドア化モデルを生成するための方法
10 Setup phase
12 Machine learning models
15 Backdoor model
20 evaluation stages
22 samples
24 images
25 trigger
30 evaluation stages
32 Authentic Sample
40 Methods for generating backdoored models

Claims (15)

敵対的サンプルに対して、真正な機械学習モデルを安全にするための方法であって、
a)分類されるサンプルにトリガを付加するステップと、
b)前記トリガを使用してバックドア化されたバックドア化モデルを使用して、前記トリガを付加された前記サンプルを分類するステップと、
c)ステップb)における前記バックドア化モデルの出力が前記バックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、前記トリガを付加して前記バックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットとを比較する外れ値検出方法を適用するステップと、
d)別々のトリガおよびそれぞれ前記別々のトリガに関連付けられたバックドア化モデルを使用してステップa)~c)を繰り返すステップと、
e)前記サンプルが敵対的サンプルかどうかを判定するために、前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルのそれぞれの前記バックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または前記外れ値検出方法を適用することによって判定された差を差閾値と比較するステップと
を含む、方法。
A method for making a bona fide machine learning model secure against adversarial samples, the method comprising:
a) attaching a trigger to the sample to be classified;
b) classifying the triggered sample using the backdoored model that was backdoored using the trigger;
c) determining whether the output of the backdoored model in step b) is the same as the backdoor class of the backdooring model, and/or appending the logit from step b) and the trigger; applying an outlier detection method that compares the logit to a legitimate logit calculated using authentic samples applied to the backdoored model;
d) repeating steps a) to c) using separate triggers and backdooring models each associated with said separate trigger;
e) in order to determine whether said sample is an adversarial sample, the number of times each of said outputs of said backdoored model was not the same as said backdoor class of each of said backdoored model is set to a predetermined threshold; and/or comparing the difference determined by applying the outlier detection method to a difference threshold.
前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値以下である場合、前記サンプルに関する分類要求の結果として、前記トリガを付加されていない前記サンプルを、前記真正な機械学習モデルを使用して分類するステップと、
前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値よりも多い場合、前記サンプルを前記敵対的サンプルとして拒絶するステップと
をさらに含む、請求項1に記載の方法。
triggering the trigger as a result of a classification request for the sample if the number of times each of the outputs of the backdoored model was not the same as each of the backdoor classes of the backdoored model is less than or equal to the threshold; classifying the non-added samples using the authentic machine learning model;
rejecting the sample as the adversarial sample if the number of times each of the outputs of the backdoored model was not the same as each of the backdoor classes of the backdoored model is greater than the threshold; 2. The method of claim 1, further comprising:
前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値よりも多い場合、前記サンプルに、不正に変更されたものとしてフラグを立てるステップをさらに含む、請求項2に記載の方法。 If the number of times each of the outputs of the backdoored model was not the same as each of the backdoor classes of the backdoored model is greater than the threshold, then the sample is flagged as tampered with. 3. The method of claim 2, further comprising the step of establishing . 前記閾値がゼロである、請求項3に記載の方法。 4. The method of claim 3, wherein the threshold is zero. 前記バックドア化モデルの各々が、
前記それぞれのトリガを、前記真正な機械学習モデルによって認識可能なパターンとして生成するステップと、
複数の訓練サンプルに対して前記それぞれのトリガを追加するステップと、
前記それぞれのトリガを追加された前記訓練サンプルのターゲットクラスを、前記バックドアクラスのそれぞれに変更するステップと、
前記それぞれのトリガを追加された前記訓練サンプルを使用して、前記真正な機械学習モデルの別のバージョンを訓練するステップと
によって生成される、請求項1から4のいずれか一項に記載の方法。
Each of the backdoor models is
generating each of the triggers as a pattern recognizable by the authentic machine learning model;
adding said respective triggers for a plurality of training samples;
changing the target class of the training samples to which the respective triggers have been added to each of the backdoor classes;
and training another version of the authentic machine learning model using the training samples appended with the respective triggers. .
前記訓練が、前記それぞれのバックドア化モデルが90%以上の精度を得るまで実行される、請求項5に記載の方法。 6. The method of claim 5, wherein the training is performed until the respective backdoored model obtains an accuracy of 90% or greater. 前記真正な機械学習モデルおよび前記真正な機械学習モデルの前記バージョンがそれぞれ訓練され、前記それぞれのトリガを追加された前記訓練サンプルを使用して前記真正な機械学習モデルの前記バージョンを訓練する前記ステップが、前記真正な機械学習モデルから前記それぞれのバックドア化モデルを作成するための追加の訓練である、請求項5に記載の方法。 said authentic machine learning model and said version of said authentic machine learning model are each trained, said step of training said version of said authentic machine learning model using said training samples appended with said respective triggers; 6. The method of claim 5, wherein is additional training to create the respective backdoored model from the authentic machine learning model. 前記追加の訓練が、前記それぞれのトリガを追加された前記サンプルとともに真正なサンプルを用いて訓練するステップを含む、請求項7に記載の方法。 8. The method of claim 7, wherein the additional training comprises training the respective triggers with authentic samples with the added samples. 前記分類するステップb)が、前記バックドア化モデルを使用して、前記トリガを付加された前記サンプルの分類における前記ロジットを抽出するステップを含み、前記バックドア化モデルの出力クラスが、前記サンプルが前記敵対的サンプルかどうかを判定するために使用されることはなく、ステップe)において、ステップb)からの前記ロジットが、前記それぞれのトリガを付加されて、前記バックドア化モデルの各々に適用された、複数の真正なサンプルを使用して計算されたものである、正当なロジットのセットと比較される、請求項1から8のいずれか一項に記載の方法。 The classifying step b) includes using the backdoored model to extract the logits in the classification of the triggered sample, and the output class of the backdoored model is is not used to determine whether the adversarial sample is the adversarial sample, and in step e) the logits from step b) are appended with the respective triggers to each of the backdoored models. 9. The method according to any one of claims 1 to 8, wherein the applied logit is compared with a set of valid logits, which are calculated using a plurality of authentic samples. 前記ロジットの各々についての前記外れ値検出方法の結果が前記差閾値以下である場合、前記サンプルに関する分類要求の結果として、前記真正な機械学習モデルを使用して、前記トリガを付加されていな前記サンプルを分類するステップと、
前記ロジットの各々についての前記外れ値検出方法の前記結果が前記差閾値よりも大きい場合、前記サンプルを前記敵対的サンプルとして拒絶するステップと
をさらに含む、請求項9に記載の方法。
If the result of the outlier detection method for each of the logits is less than or equal to the difference threshold, then as a result of the classification request for the sample, the genuine machine learning model is used to detect the untriggered a step of classifying the sample;
10. The method of claim 9, further comprising: rejecting the sample as the adversarial sample if the result of the outlier detection method for each of the logits is greater than the difference threshold.
前記外れ値検出方法がLocal Outlier Factorアルゴリズムを使用する、請求項10に記載の方法。 11. The method of claim 10, wherein the outlier detection method uses a Local Outlier Factor algorithm. 前記真正な機械学習モデルがニューラルネットワークに基づいて画像分類用に訓練される、請求項1から11のいずれか一項に記載の方法。 12. A method according to any one of claims 1 to 11, wherein the authentic machine learning model is trained for image classification based on a neural network. 敵対的サンプルに対して、真正な機械学習モデルを安全にするためのシステムであって、
a)分類されるサンプルにトリガを付加するステップと、
b)前記トリガを使用してバックドア化されたバックドア化モデルを使用して、前記トリガを付加された前記サンプルを分類するステップと、
c)ステップb)における前記バックドア化モデルの出力が前記バックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、前記トリガを付加して前記バックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットとを比較する外れ値検出方法を適用するステップと、
d)別々のトリガを使用してステップa)~c)を繰り返すステップと、
e)前記サンプルが敵対的サンプルかどうかを判定するために、前記バックドア化モデルの前記出力のそれぞれが、前記バックドア化モデルのそれぞれの前記バックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または前記外れ値検出方法を適用することによって判定された差を差閾値と比較するステップと
の実行を促進するために、単独で、または組合せにおいて構成される1つまたは複数のハードウェアプロセッサを備える、システム。
A system for making authentic machine learning models secure against adversarial samples, the system comprising:
a) attaching a trigger to the sample to be classified;
b) classifying the triggered sample using the backdoored model that was backdoored using the trigger;
c) determining whether the output of the backdoored model in step b) is the same as the backdoor class of the backdooring model, and/or appending the logit from step b) and the trigger; applying an outlier detection method that compares the logit to a legitimate logit calculated using authentic samples applied to the backdoored model;
d) repeating steps a) to c) using separate triggers;
e) in order to determine whether said sample is an adversarial sample, the number of times each of said outputs of said backdoored model was not the same as said backdoor class of each of said backdoored model is set to a predetermined threshold; and/or comparing the difference determined by applying said outlier detection method to a difference threshold. A system with a hardware processor.
前記バックドア化モデルの前記出力のそれぞれが前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値以下である場合、前記サンプルに関する分類要求の結果として、前記トリガを付加されていない前記サンプルを、前記真正な機械学習モデルを使用して分類し、
前記バックドア化モデルの前記出力のそれぞれが前記バックドア化モデルの前記バックドアクラスのそれぞれと同じでなかった回数が前記閾値よりも多い場合、前記サンプルを前記敵対的サンプルとして拒絶する
ようにさらに構成される、請求項13に記載のシステム。
adding the trigger as a result of a classification request for the sample if the number of times each of the outputs of the backdoored model was not the same as each of the backdoor classes of the backdoored model is less than or equal to the threshold; using the authentic machine learning model to classify the samples that are not
rejecting the sample as the adversarial sample if the number of times each of the outputs of the backdoored model was not the same as each of the backdoor classes of the backdoored model is greater than the threshold; 14. The system of claim 13, configured.
命令を有する、有体の非一時的コンピュータ可読媒体であって、前記命令が、1つまたは複数のプロセッサによって実行されたとき、
a)分類されるサンプルにトリガを付加するステップと、
b)前記トリガを使用してバックドア化されたバックドア化モデルを使用して、前記トリガを付加された前記サンプルを分類するステップと、
c)ステップb)における前記バックドア化モデルの出力が前記バックドア化モデルのバックドアクラスと同一であるかどうかを判定し、かつ/または、ステップb)からのロジットと、前記トリガを付加して前記バックドア化モデルに適用された真正なサンプルを使用して計算された正当なロジットとを比較する外れ値検出方法を適用するステップと、
d)別々のトリガを使用してステップa)~c)を繰り返すステップと、
e)前記サンプルが敵対的サンプルかどうかを判定するために、前記バックドア化モデルの前記出力のそれぞれが前記バックドア化モデルのそれぞれの前記バックドアクラスと同じでなかった回数を所定の閾値と比較し、かつ/または前記外れ値検出方法を適用することによって判定された差を差閾値と比較するステップと
を実行することにより、真正な機械学習モデルを敵対的サンプルに対して安全にする、有体の非一時的コンピュータ可読媒体。
a tangible, non-transitory computer-readable medium having instructions, the instructions, when executed by one or more processors;
a) attaching a trigger to the sample to be classified;
b) classifying the triggered sample using the backdoored model that was backdoored using the trigger;
c) determining whether the output of the backdoored model in step b) is the same as the backdoor class of the backdooring model, and/or appending the logit from step b) and the trigger; applying an outlier detection method that compares the logit to a legitimate logit calculated using authentic samples applied to the backdoored model;
d) repeating steps a) to c) using separate triggers;
e) in order to determine whether said sample is an adversarial sample, the number of times each of said outputs of said backdoored model was not the same as said backdoor class of each of said backdoored model is set to a predetermined threshold; and/or comparing the difference determined by applying said outlier detection method to a difference threshold; Tangible non-transitory computer-readable medium.
JP2023537385A 2021-03-09 2021-12-07 Making machine learning models safe against adversarial samples with backdoor misclassification Pending JP2024508582A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163158387P 2021-03-09 2021-03-09
US63/158,387 2021-03-09
US17/342,571 2021-06-09
US17/342,571 US11977626B2 (en) 2021-03-09 2021-06-09 Securing machine learning models against adversarial samples through backdoor misclassification
PCT/EP2021/084554 WO2022189018A1 (en) 2021-03-09 2021-12-07 Securing machine learning models against adversarial samples through backdoor misclassification

Publications (1)

Publication Number Publication Date
JP2024508582A true JP2024508582A (en) 2024-02-28

Family

ID=79025074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023537385A Pending JP2024508582A (en) 2021-03-09 2021-12-07 Making machine learning models safe against adversarial samples with backdoor misclassification

Country Status (2)

Country Link
JP (1) JP2024508582A (en)
WO (1) WO2022189018A1 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475130B2 (en) * 2019-05-29 2022-10-18 Anomalee Inc. Detection of test-time evasion attacks

Also Published As

Publication number Publication date
WO2022189018A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
Li et al. Backdoor learning: A survey
US11514297B2 (en) Post-training detection and identification of human-imperceptible backdoor-poisoning attacks
Zheng et al. Robust detection of adversarial attacks by modeling the intrinsic properties of deep neural networks
Gao et al. Strip: A defence against trojan attacks on deep neural networks
US11829879B2 (en) Detecting adversarial attacks through decoy training
Yousefi-Azar et al. Autoencoder-based feature learning for cyber security applications
US11609990B2 (en) Post-training detection and identification of human-imperceptible backdoor-poisoning attacks
US11475130B2 (en) Detection of test-time evasion attacks
US11977626B2 (en) Securing machine learning models against adversarial samples through backdoor misclassification
Khalid et al. Fademl: Understanding the impact of pre-processing noise filtering on adversarial machine learning
Crecchi et al. Detecting adversarial examples through nonlinear dimensionality reduction
Moayeri et al. Sample efficient detection and classification of adversarial attacks via self-supervised embeddings
Vani Towards efficient intrusion detection using deep learning techniques: a review
Dathathri et al. Detecting adversarial examples via neural fingerprinting
Chen et al. LinkBreaker: Breaking the backdoor-trigger link in DNNs via neurons consistency check
Mahmood et al. Besting the Black-Box: barrier zones for adversarial example defense
Mundra et al. Adversarial image detection in cyber-physical systems
US20220245243A1 (en) Securing machine learning models against adversarial samples through model poisoning
Jia et al. Enhancing cross-task transferability of adversarial examples with dispersion reduction
Vargas et al. Model agnostic dual quality assessment for adversarial machine learning and an analysis of current neural networks and defenses
Ping et al. Open-set intrusion detection with MinMax autoencoder and pseudo extreme value machine
JP2024508582A (en) Making machine learning models safe against adversarial samples with backdoor misclassification
Cennamo et al. A statistical defense approach for detecting adversarial examples
Kwon et al. FriendNet backdoor: indentifying backdoor attack that is safe for friendly deep neural network
Zhang et al. Backdoor Attack through Machine Unlearning