DE102020211851A1 - Auf bayes'scher optimierung basierende abfrageeffiziente gegnerische black-box-angriffe - Google Patents

Auf bayes'scher optimierung basierende abfrageeffiziente gegnerische black-box-angriffe Download PDF

Info

Publication number
DE102020211851A1
DE102020211851A1 DE102020211851.5A DE102020211851A DE102020211851A1 DE 102020211851 A1 DE102020211851 A1 DE 102020211851A1 DE 102020211851 A DE102020211851 A DE 102020211851A DE 102020211851 A1 DE102020211851 A1 DE 102020211851A1
Authority
DE
Germany
Prior art keywords
input
classifier
disturbance
candidate
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020211851.5A
Other languages
English (en)
Inventor
Jeremy Zieg Kolter
Devin Willmott
Anit Kumar Sahu
Satya Narayan Shukla
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of DE102020211851A1 publication Critical patent/DE102020211851A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Das Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes wird beschrieben. Ein Datensatz von Eingabe-Ausgabe-Paaren wird konstruiert, wobei jedes Eingabeelement der Eingabe-Ausgabe-Paare zufällig aus einem Suchraum ausgewählt wird, wobei jedes Ausgabeelement der Eingabe-Ausgabe-Paare eine Vorhersageausgabe des Klassifizierers eines neuronalen Netzes für das entsprechende Eingabeelement anzeigt. Ein Gaußprozess wird auf dem Datensatz von Eingabe-Ausgabe-Paaren genutzt, um eine Erfassungsfunktion zu optimieren, um ein bestes Störungseingabeelement aus dem Datensatz zu finden. Das beste Störungseingabeelement wird upgesampelt, um ein upgesampeltes bestes Eingabeelement zu generieren. Das upgesampelte beste Eingabeelement wird zu einer ursprünglichen Eingabe hinzugefügt, um eine Kandidateneingabe zu generieren. Der Klassifizierer eines neuronalen Netzes wird abgefragt, um eine Klassifizierervorhersage für die Kandidateneingabe zu bestimmen. Ein Score für die Klassifizierervorhersage wird berechnet. Die Kandidateneingabe wird als einen erfolgreichen gegnerischen Angriff in Reaktion darauf, dass die Klassifizierervorhersage falsch ist, akzeptiert.

Description

  • GEBIET DER TECHNIK
  • Die vorliegende Offenbarung betrifft das Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes und insbesondere auf Bayes'scher Optimierung basierende abfrageeffiziente gegnerische Black-Box-Angriffe.
  • HINTERGRUND
  • Gegnerische Black-Box-Angriffe sind ein aktives Forschungsgebiet. Die nachfolgenden drei Referenzen beschreiben jeweils Ansätze zum Herstellen von gegnerischen Black-Box-Beispielen. Ein Ansatz unter Verwendung natürlicher Evolutionsstrategien findet sich in Ilyas, A., Engstrom, L., Athalye, A. & Lin, J. (2018, Juli). Black-box Adversarial Attacks with Limited Queries and Information, veröffentlicht in International Conference on Machine Learning. ar Xiv:1804.08598. Diese Referenz definiert drei realistische Bedrohungsmodelle, die viele Klassifizierer aus der realen Welt genauer charakterisieren: abfragebegrenzte Umgebung, Teilinformationsumgebung und Nur-Label-Umgebung. Die Referenz entwickelt neue Angriffe, die Klassifizierer unter diesen restriktiveren Bedrohungsmodellen täuschen, wo frühere Verfahren unpraktisch oder ineffektiv wären. Die Referenz demonstriert, dass unsere Verfahren gegen einen ImageNet-Klassifizierer unter unseren vorgeschlagenen Bedrohungsmodellen effektiv sind. Die Referenz demonstriert auch einen gezielten Black-Box-Angriff gegen einen kommerziellen Klassifizierer, der die Herausforderungen des eingeschränkten Abfragezugriffs, Teilinformationen und anderer praktischer Probleme überwindet, um die Google Cloud Vision API zu brechen.
  • Ein Ansatz, der den Gradienten mit Gradienten-Priors schätzt und dann einen Gradientenabstieg durchführt, findet sich in Ilyas, A., Engstrom, L. & Madry, A. (2018). Prior Convictions: Black-Box Adversarial Attacks with Bandits and Priors. arXiv preprint arXiv:1807.07978. Diese Referenz untersucht das Problem der Generierung von gegnerischen Beispielen in einer Black-Box-Umgebung, in der nur ein Loss-Oracle-Zugriff auf ein Modell verfügbar ist. Die Referenz führt ein Framework ein, das einen Großteil der bestehenden Arbeiten zu Black-Box-Angriffen konzeptionell vereinheitlicht und demonstriert, dass die derzeitigen Verfahren nach dem Stand der Technik im natürlichen Sinne optimal sind. Trotz dieser Optimalität zeigt die Referenz, wie Black-Box-Angriffe verbessert werden können, indem ein neues Element in das Problem gebracht wird: Gradienten-Priors. Die Referenz gibt einen auf Bandit-Optimierung basierenden Algorithmus an, der es ermöglicht, derartige Priors nahtlos zu integrieren, und identifiziert und bezieht explizit zwei Beispiele ein.
  • Ein Ansatz, der eine submodulare Optimierung verwendet, kann in Moon, S., An, G. & Song, H. O. (2019) gefunden werden. Parsimonious Black-Box Adversarial Attacks via Efficient Combinatorial Optimization. arXiv preprint arXiv:1905.06635. Die Referenz schlägt ein effizientes diskretes Surrogat für das Optimierungsproblem vor, das keine Schätzung des Gradienten erfordert und folglich frei von den zu tunenden Update-Hyperparametem erster Ordnung wird. Die Experimente mit Cifar-10 und ImageNet zeigen die Black-Box-Angriffsleistung mit einer signifikanten Reduzierung der erforderlichen Abfragen im Vergleich zu einer Reihe kürzlich vorgeschlagener Verfahren.
  • KURZFASSUNG
  • In einem oder mehreren veranschaulichenden Beispielen beinhaltet ein Verfahren zum Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes das Konstruieren eines Datensatzes von Eingabe-Ausgabe-Paaren, wobei jedes Eingabeelement der Eingabe-Ausgabe-Paare zufällig aus einem Suchraum ausgewählt wird, wobei jedes Ausgabeelement der Eingabe-Ausgabe-Paare eine Vorhersageausgabe des Klassifizierers eines neuronalen Netzes für das entsprechende Eingabeelement anzeigt; Nutzen eines Gaußprozesses auf dem Datensatz von Eingabe-Ausgabe-Paaren, um eine Erfassungsfunktion zu optimieren, um ein bestes Störungseingabeelement aus dem Datensatz zu finden; Upsampeln des besten Störungseingabeelements, um ein upgesampeltes bestes Eingabeelement zu generieren; Hinzufügen des upgesampelten besten Eingabeelements zu einer ursprünglichen Eingabe, um eine Kandidateneingabe zu generieren; Abfragen des Klassifizierers eines neuronalen Netzes, um eine Klassifizierervorhersage für die Kandidateneingabe zu bestimmen; Berechnen eines Scores für die Klassifizierervorhersage; und Akzeptieren der Kandidateneingabe als einen erfolgreichen gegnerischen Angriff in Reaktion darauf, dass die Klassifizierervorhersage falsch ist.
  • Das Verfahren kann ferner das Zurückweisen der Kandidateneingabe in Reaktion darauf, dass die Klassifizierervorhersage korrekt ist, einschließen. Das Verfahren kann ferner in Reaktion auf das Zurückweisen der Kandidateneingabe das Hinzufügen der Kandidateneingabe und der Klassifiziererausgabe zum Datensatz und Fortsetzen der Iteration durch den Datensatz, um Kandidateneingaben zu generieren, bis eine vordefinierte Anzahl von Abfragen des Datensatzes verstrichen ist, einschließen.
  • Beim Verfahren kann der Klassifizierer eines neuronalen Netzes ein Bildklassifizierer sein, die ursprüngliche Eingabe kann eine Bildeingabe sein, die Störung kann eine Bildstörung sein, und die Kandidateneingabe kann eine pixelweise Summe der Bildeingabe und der Bildstörung sein, wobei jedes Pixel der Bildstörung kleiner als eine vordefinierte Größe ist.
  • Beim Verfahren kann das Störungseingabeelement eine kleinere Dimension als das Originalbild aufweisen. Beim Verfahren darf die vordefinierte Größe der Bildstörung nicht größer als ein bestimmter Wert entweder in einer L2-Norm oder in einer L -Norm sein.
  • Beim Verfahren kann der Klassifizierer eines neuronalen Netzes ein Audioklassifizierer sein, die ursprüngliche Eingabe kann eine Audioeingabe sein, die Störung kann eine Audiostörung sein, die Kandidateneingabe kann eine Summe aus der Audioeingabe und der Audiostörung sein, und die Norm für den Klassifizierer kann die menschliche Hörwahrnehmung messen.
  • Beim Verfahren kann das Upsampling unter Verwendung eines Nächster-Nachbar-Upsamplings durchgeführt werden. Beim Verfahren kann der Klassifizierer Vorhersagen für jedes von einer Mehrzahl von möglichen Klassen-Labels für die Eingabe in den Klassifizierer ausgeben. Oder der Klassifizierer kann nur die wahrscheinlichste vorhergesagte Klasse der Mehrzahl möglicher Klassen-Labels für die Eingabe in den Klassifizierer ausgeben.
  • In einem oder mehreren veranschaulichenden Beispielen beinhaltet ein Rechensystem zum Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes einen Speicher, der Anweisungen von Bayes'schen Optimierungs- und Dimensionalitätsreduktionsalgorithmen eines Softwareprogramms speichert; und einen Prozessor, der programmiert ist, um die Anweisungen auszuführen, um Operationen durchzuführen, einschließlich zum Konstruieren eines Datensatzes von Eingabe-Ausgabe-Paaren, wobei jedes Eingabeelement der Eingabe-Ausgabe-Paare zufällig aus einem Suchraum ausgewählt wird, wobei jedes Ausgabeelement der Eingabe-Ausgabe-Paare eine Vorhersageausgabe des Klassifizierers eines neuronalen Netzes für das entsprechende Eingabeelement anzeigt; Nutzen eines Gaußprozesses auf dem Datensatz von Eingabe-Ausgabe-Paaren, um eine Erfassungsfunktion zu optimieren, um ein bestes Störungseingabeelement aus dem Datensatz zu finden; Upsampeln des besten Störungseingabeelements, um ein upgesampeltes bestes Eingabeelement zu generieren; Hinzufügen des upgesampelten besten Eingabeelements zu einer ursprünglichen Eingabe, um eine Kandidateneingabe zu generieren; Abfragen des Klassifizierers eines neuronalen Netzes, um eine Klassifizierervorhersage für die Kandidateneingabe zu bestimmen; Berechnen eines Scores für die Klassifizierervorhersage; in Reaktion darauf, dass die Klassifizierervorhersage falsch ist, Akzeptieren der Kandidateneingabe als einen erfolgreichen gegnerischen Angriff; und in Reaktion darauf, dass die Klassifizierervorhersage korrekt ist, Zurückweisen der Kandidateneingabe, Hinzufügen der Kandidateneingabe und der Klassifiziererausgabe zum Datensatz; und Fortsetzen der Iteration durch den Datensatz, um Kandidateneingaben zu generieren, bis eine vordefinierte Anzahl von Abfragen des Datensatzes verstrichen ist.
  • Im System kann der Klassifizierer eines neuronalen Netzes ein Bildklassifizierer sein, die ursprüngliche Eingabe kann eine Bildeingabe sein, die Störung kann eine Bildstörung sein, und die Kandidateneingabe kann eine pixelweise Summe der Bildeingabe und der Bildstörung sein, wobei jedes Pixel der Bildstörung kleiner als eine vordefinierte Größe sein kann.
  • Im System kann das Störungseingabeelement eine kleinere Dimension als das Originalbild aufweisen. Im System darf die vordefinierte Größe der Bildstörung nicht größer als ein bestimmter Wert entweder in einer L2-Norm oder in einer L -Norm sein.
  • Im System kann der Klassifizierer eines neuronalen Netzes ein Audioklassifizierer sein, die ursprüngliche Eingabe kann eine Audioeingabe sein, die Störung kann eine Audiostörung sein, die Kandidateneingabe kann eine Summe aus der Audioeingabe und der Audiostörung sein, und die Norm für den Klassifizierer kann die menschliche Hörwahrnehmung messen.
  • Im System kann das Upsampling unter Verwendung eines Nächster-Nachbar-Upsamplings durchgeführt werden. Im System kann der Klassifizierer Vorhersagen für jedes von einer Mehrzahl von möglichen Klassen-Labels für die Eingabe in den Klassifizierer ausgeben. Oder der Klassifizierer kann nur die wahrscheinlichste vorhergesagte Klasse der Mehrzahl möglicher Klassen-Labels für die Eingabe in den Klassifizierer ausgeben.
  • In einem oder mehreren veranschaulichenden Beispielen beinhaltet ein nicht-transitorisches computerlesbares Medium Anweisungen zum Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes, die, wenn sie durch einen Prozessor ausgeführt werden, den Prozessor veranlassen zum Konstruieren eines Datensatzes von Eingabe-Ausgabe-Paaren, wobei jedes Eingabeelement der Eingabe-Ausgabe-Paare zufällig aus einem Suchraum ausgewählt wird, wobei jedes Ausgabeelement der Eingabe-Ausgabe-Paare eine Vorhersageausgabe des Klassifizierers eines neuronalen Netzes für das entsprechende Eingabeelement anzeigt; Nutzen eines Gaußprozesses auf dem Datensatz von Eingabe-Ausgabe-Paaren, um eine Erfassungsfunktion zu optimieren, um ein bestes Störungseingabeelement aus dem Datensatz zu finden; Upsampeln des besten Störungseingabeelements, um ein upgesampeltes bestes Eingabeelement zu generieren; Hinzufügen des upgesampelten besten Eingabeelements zu einer ursprünglichen Eingabe, um eine Kandidateneingabe zu generieren; Abfragen des Klassifizierers eines neuronalen Netzes, um eine Klassifizierervorhersage für die Kandidateneingabe zu bestimmen; Berechnen eines Scores für die Klassifizierervorhersage; in Reaktion darauf, dass die Klassifizierervorhersage falsch ist, Akzeptieren der Kandidateneingabe als einen erfolgreichen gegnerischen Angriff; und in Reaktion darauf, dass die Klassifizierervorhersage korrekt ist, Zurückweisen der Kandidateneingabe, Hinzufügen der Kandidateneingabe und der Klassifiziererausgabe zum Datensatz; und Fortsetzen der Iteration durch den Datensatz, um Kandidateneingaben zu generieren, bis eine vordefinierte Anzahl von Abfragen des Datensatzes verstrichen ist.
  • Für das Medium kann der Klassifizierer eines neuronalen Netzes ein Bildklassifizierer sein, die ursprüngliche Eingabe kann eine Bildeingabe sein, die Störung kann eine Bildstörung sein, und die Kandidateneingabe kann eine pixelweise Summe der Bildeingabe und der Bildstörung sein, wobei jedes Pixel der Bildstörung kleiner als eine vordefinierte Größe sein kann.
  • Für das Medium kann der Klassifizierer eines neuronalen Netzes ein Audioklassifizierer sein, die ursprüngliche Eingabe kann eine Audioeingabe sein, die Störung kann eine Audiostörung sein, die Kandidateneingabe kann eine Summe aus der Audioeingabe und der Audiostörung sein, und die Norm für den Klassifizierer kann die menschliche Hörwahrnehmung messen.
  • Figurenliste
    • 1 ist ein Beispiel für ein Nächster-Nachbar-Upsampling;
    • 2 ist ein beispielhaftes Datenflussdiagramm zum Durchführen von auf Bayes'scher Optimierung basierenden abfrageeffizienten gegnerischen Black-Box-Angriffen; und
    • 3 ist eine schematische Darstellung einer Rechenplattform, die genutzt werden kann, um die auf Bayes'scher Optimierung basierenden abfrageeffizienten gegnerischen Black-Box-Angriffe zu implementieren.
  • DETAILLIERTE BESCHREIBUNG
  • Ausführungsformen der vorliegenden Offenbarung werden hierin beschrieben. Es ist jedoch zu verstehen, dass die offenbarten Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen unterschiedliche und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert sein, um Details von bestimmten Komponenten zu zeigen. Deshalb sind hierin offenbarte spezielle strukturelle und funktionelle Details nicht als einschränkend auszulegen, sondern lediglich als eine repräsentative Basis, um Fachleuten auf dem Gebiet den verschiedenartigen Einsatz der Ausführungsformen zu lehren. Wie Durchschnittsfachleute auf dem Gebiet verstehen werden, können verschiedene, unter Bezugnahme auf eine beliebige der Figuren veranschaulichte und beschriebene Merkmale mit in einer oder mehreren anderen Figuren veranschaulichten Merkmalen kombiniert werden, um Ausführungsformen zu erzeugen, die nicht explizit veranschaulicht oder beschrieben sind. Die Kombinationen von veranschaulichten Merkmalen stellen repräsentative Ausführungsformen für typische Anwendungen bereit. Verschiedene Kombinationen und Modifikationen der Merkmale, die mit den Lehren dieser Offenbarung übereinstimmen, könnten jedoch für bestimmte Anwendungen oder Implementierungen gewünscht sein.
  • Diese Offenbarung betrifft ein Verfahren zum gegnerischen Angriff auf einen Klassifizierer eines tiefen neuronalen Netzes. Das heißt, die Offenbarung betrifft ein Verfahren, das ein vorhandenes Bild nimmt und eine kleine Störung des Bilds findet, die für einen Menschen schwer oder unmöglich zu detektieren ist (d. h. das Grundwahrheits-Label bleibt gleich), aber das neuronale Netz veranlasst, das Bild falsch zu klassifizieren. Der Begriff „klein“ wird normalerweise formalisiert, indem verlangt wird, dass die Größe der Störung in einer Norm nicht größer als ein bestimmter Wert ∈ ist; L2-Norm und L-Norm sind üblich.
  • Gegnerische Angriffe fallen in eine von zwei Kategorien: White-Box-Angriffe, bei denen vollständige Kenntnisse des Gegners über die Architektur und die Parameter des neuronalen Netzes angenommen werden; und Black-Box-Angriffe, bei denen kein Zugriff auf derartige Informationen verfügbar ist. Diese Offenbarung betrifft insbesondere die Black-Box-Kategorie, die als wesentlich schwieriger angesehen wird.
  • In der Black-Box-Angriffsumgebung können Informationen über das Modell nur durch Abfragen erhalten werden, das heißt, indem dem Modell eine Eingabe gegeben und seine Vorhersage entweder als einzelne Vorhersage über eine Klasse oder als Wahrscheinlichkeitsverteilung über Klassen erhalten wird. Wenn durch Abfragen mehr Informationen über das Modell gewonnen werden, nimmt die Angriffsgenauigkeit im Allgemeinen zu; in einem realen Angriffsszenario ist es jedoch unrealistisch anzunehmen, dass ein Modell so oft abgefragt werden kann, wie man möchte. Daher wird bei der Bewertung von Black-Box-Angriffen häufig angenommen, dass es eine maximale Anzahl zulässiger Abfragen pro Angriff geben wird, das sogenannte Abfragebudget. Die Aufgabe besteht darin, die Angriffsgenauigkeit für ein gegebenes Abfragebudget zu maximieren. Es sei jedoch zu beachten, dass das Beschränken auf eine gegebene Anzahl von Abfragen eine Konvention ist, die in Experimenten verwendet wird, um die Erfolgsrate von Angriffen in einer Umgebung mit begrenzten Abfragen zu vergleichen, aber eine feste Grenze ist in der Praxis möglicherweise nicht unbedingt erforderlich: Man kann nach einer bestimmten Anzahl von Abfragen stoppen oder man kann (abgesehen von einer Einschränkung von außen) weiter abfragen, solange man dies wünscht.
  • Das Verfahren in dieser Offenbarung soll im Vergleich zu den oben erwähnten Verfahren eine viel höhere Angriffsgenauigkeit erreichen, insbesondere wenn das Abfragebudget sehr klein ist (unter 1000 oder sogar unter 100). Die offenbarten Ansätze können dementsprechend verwendet werden, um nach Schwachstellen für bereitstellbare Deep-Learning-Modelle zu suchen. Als eine andere Anwendung können die offenbarten Ansätze verwendet werden, um Daten für ein gegnerisches Training tiefer neuronaler Netze zu generieren, um die Robustheit des Modells zu verbessern. Somit stellen die hierin offenbarten Aspekte des Rechensystems, des computerlesbaren Mediums und des Verfahrens eine nicht abstrakte technologische Verbesserung gegenüber bekannten Ansätzen zum Identifizieren von Modellschwächen sowie zum Adressieren dieser Schwächen bereit.
  • Dazu werden zwei Haupttechniken verwendet: Bayes'sche Optimierung und Dimensionalitätsreduktion. Die Bayes'sche Optimierung ist ein gradientenfreies Optimierungsverfahren, das in Fällen verwendet wird, in denen die Anzahl der Abfragen an die Zielfunktion gering gehalten werden soll. Bei der Bayes'schen Optimierung gibt es eine Zielfunktion ƒ: ℝn → ℝ und den Wunsch, argmin ƒ(x) zu lösen. Dies erfolgt mithilfe eines Gaußprozesses, der x∈X eine Wahrscheinlichkeitsverteilung über Funktionen vom Suchraum X zu ℝ definiert, und einer Erfassungsfunktion A, die den potenziellen Nutzen des Hinzufügens eines Eingabe-Ausgabe-Paars (x, y) zum Datensatz misst.
  • Die Bayes'sche Optimierung beginnt mit einem Datensatz D = {(x1, y1), ..., (xd,yd)} und einem Gaußprozess GP mit D als Prior. Dann wird die Iteration wie folgt durchgeführt:
    Für t = d + 1,...:
    • 1) x t argmax x X   A ( G P , x ) \ \  Maximierer  x t  der Erfassungsfunktion finden
      Figure DE102020211851A1_0001
    • 2) y t f ( x t ) \ \   f  bei  x t  abfragen
      Figure DE102020211851A1_0002
    • 3) D f ( x t ) \ \  Eingabe-Ausgabe-Paar zum Datensatz hinzuf u ¨ gen
      Figure DE102020211851A1_0003
    • 4) x * argmin x i ,1 i t   y i \ \  Aktuellen besten Minimierer  x * ausw a ¨ hlen
      Figure DE102020211851A1_0004
    • 5) Gaußprozess GP mit dem neuen Datenpunkt aktualisieren
  • Dieser Prozess wird fortgesetzt, bis das Abfragebudget von ƒ erreicht ist, die Zeit abläuft oder der Funktionsminimierer x* adäquat wird.
  • Die Geschwindigkeit und Genauigkeit der Bayes'schen Optimierung hängt stark von der Dimension n von ƒ ab; sie wird normalerweise verwendet, wenn n ziemlich klein ist, oft weniger als 10. Die Dimensionalität von Eingaben für selbst kleine neuronale Netze erreicht jedoch häufig Zehn- oder Hunderttausende. Damit die Bayes'sche Optimierung nützlich ist, ist es daher wünschenswert, ein Verfahren zum Reduzieren der Dimension der Eingaben zu haben.
  • Diese Dimensionsreduktion kann mittels Kacheln der Störung durchgeführt werden. Beispielsweise angenommen, es wird versucht, eine Störung eines 6 × 6-Bilds zu finden. Falls jede Dimension unabhängig behandelt wird, handelt es sich um ein 36-dimensionales Optimierungsproblem; falls jedoch stattdessen ein 3x3-Bild gefunden wird (ein 9-dimensionales Problem), kann ein Nächster-Nachbar-Upsampling durchgeführt werden, um eine 6 × 6-Störung zu produzieren. 1 veranschaulicht ein Beispiel 100 für ein Nächster-Nachbar-Upsampling. Eine derartige Upsampling-Operation kann als eine Funktion U bezeichnet werden.
  • 2 veranschaulicht ein beispielhaftes Datenflussdiagramm zum Durchführen von auf Bayes'scher Optimierung basierenden abfrageeffizienten gegnerischen Black-Box-Angriffen. Unter Bezugnahme auf 2 wird angenommen, dass N ein Bildklassifizierer für ein Klassifizierungsproblem der K-Klasse ist und (x, y) ein Bild-Label-Paar ist. Angenommen, ein Angriff x wird versucht. Die Ausgabe des neuronalen Netzes N(x) ist ein K-dimensionaler Vektor, und die vorhergesagte Klasse ist der Index des größten Werts von N(x), gegeben durch argmax N(x)k. Es kann angenommen werden, dass x durch N korrekt klassifiziert ist, das heißt, es k=1,...,K wird angenommen, dass y = argmax k = 1, , K   N ( x ) k .
    Figure DE102020211851A1_0005
  • Das Ziel ist es, eine Störung zu finden, die dazu führt, dass N x falsch klassifiziert, wobei jedes Pixel der Störung kleiner als ∈ ist und das Abfragebudget q beträgt. Insbesondere ist es erwünscht, eine Störung δ* eines kleineren Bilds zu finden, die upgesampelt und zu x hinzugefügt wird, um ein Kandidatenbild zu erstellen, wobei N dann das Kandidatenbild falsch klassifiziert. Mathematisch bedeutet dies, dass die Absicht besteht, ein δ zu finden, so dass | U(δ*) | ≤ ∈ und y # argmaxN(x + U(δ*))k, wobei U eine Upsampling-Funktion ist (z.B. ist ein Beispiel davon oben k=1,...,K unter Bezugnahme auf 1 gezeigt).
  • Zu diesem Zweck wird eine Bayes'sche Optimierung mit einem Suchraum X = {δ : |δ|_∞ ≤ ∈} und einer Zielfunktion wie folgt durchgeführt: f ( δ ) = max ( N ( x + U ( δ ) ) y ( argmax k y   N ( x + U ( δ ) ) k ) ,0 ) .
    Figure DE102020211851A1_0006
  • In Bezug auf die Intuition, die dahinter steht, warum eine derartige Funktion verwendet wird, sei zu beachten, dass dies die Differenz zwischen dem Wert des wahren Labels y und dem höchsten anderen ist, oder 0, falls dieser Wert negativ ist. Falls ƒ(δ) = 0 für ein δ ist, dann ist x + U(δ) ein erfolgreicher gegnerischer Angriff auf N, da dies genau dann geschehen kann, wenn die Ausgabe des Netzes N(x + U(δ)) auf dem wahren Klassen-Label y kleiner als ein anderes Element der Ausgabe ist.
  • Zu Beginn wird ein Datensatz D = {(δ1,ℓ1), ..., (δd, ℓd)} gebildet, wobei jedes δi zufällig vom Inneren des Suchraums X ausgewählt ist und ℓi = ƒ(δi). Daraus wird ein Gaußprozess GP von D gebildet. Dann wird die Iteration wie folgt durchgeführt:
    Für t = d + 1, ...,q:
    • 1) δ t argmax  | d | ε A ( G P , δ ) \ \  Maximierer  d t  der Erfassungsfunktion finden
      Figure DE102020211851A1_0007
    • 2) l t f ( δ t ) \ \   f  abfragen
      Figure DE102020211851A1_0008
    • 3) Unterbrechen , falls  l t = 0 ;  fertig , da  x + U ( δ t )  ein erfolgreicher gegnerischer Angriff ist
      Figure DE102020211851A1_0009
    • 4) Andernfalls Datensatz und Gaußprozess aktualisieren:
      • a. D ← D U (δt,ℓt) \\ Eingabe-Ausgabe-Paar zum Datensatz hinzufügen
      • b. Gaußprozess mit (δt,ℓt) aktualisieren
  • Der Angriff war mit t Abfragen an das Modell erfolgreich, falls die Unterbrechung während Schritt 3 der Iteration t durchgeführt wird; andernfalls war der Angriff nicht erfolgreich.
  • Der obige Algorithmus kann auf nachfolgende Weise variiert werden. In einer Variation kann die anfängliche Auswahl des Datensatzes D zur Bildung eines Priors unter Verwendung einer beliebigen Verteilung (Gauß, uniforme usw.) oder sogar deterministisch (z.B. mit Sobol-Sequenzen) erfolgen.
  • Als eine andere Variation, obgleich die obige Beschreibung annimmt, dass x ein Bild ist und dass das Bild in der L-Norm begrenzt ist, kann dieses Verfahren in anderen Domänen gleich gut funktionieren, wenn eine geeignete Norm zum Messen der Störungsgröße und ein geeignetes Dimensionalitätsreduktionsschema gegeben sind. Beispielsweise kann der beschriebene Ansatz in einen Klassifizierer für Audio mit einer Norm übersetzt werden, die die menschliche Hörwahrnehmung misst.
  • Als weitere Variation erfolgt die Dimensionalitätsreduktion hier durch Durchführung einer Störung der Dimension, die kleiner als das Originalbild in der Bayes'schen Optimierungsschleife ist, und anschließendem Upsampling, um die tatsächlich betrachtete Störung zu erhalten. Das Upsampling kann unter Verwendung von Interpolationstechniken in einigen Variationen durchgeführt werden, von denen einige Beispiele lineare Interpolation, bilineare Interpolation, trilineare Interpolation, bikubische Interpolation usw. einschließen. Andere Techniken zum Reduzieren der Dimensionalität sind ebenfalls möglich, z.B. durch Trainieren eines Autoencoders, um eine niedrigdimensionale Repräsentation von Störungen zu produzieren.
  • Als noch weitere Variation nimmt insbesondere dieser Algorithmus an, dass der Klassifizierer N Vorhersagen für jeden möglichen Klassen-Label ausgibt. Dies wird als Soft-Label-Fall (z.B. Score-basiert) bezeichnet, im Gegensatz zum Hard-Label-Fall (z.B. entscheidungsbasiert), bei dem das Netz nur die vorhergesagte Klasse ausgibt (d. h. nur den Index der größten Klasse der Soft-Label-Ausgabe). Das Verfahren kann für den Hard-Label-Fall unter Verwendung der Zielfunktion ƒ(δ) = 1 angepasst werden, falls N die Klasse y vorhersagt, und andernfalls 0.
  • Die Bayes'schen Optimierungs- und Dimensionalitätsreduktionsalgorithmen und/oder -methoden einer oder mehrerer Ausführungsformen werden unter Verwendung einer Rechenplattform implementiert, wie in 3 gezeigt. Die Rechenplattform 300 kann einen Speicher 302, einen Prozessor 304 und eine nichtflüchtige Speichereinrichtung 306 einschließen. Der Prozessor 304 kann eine oder mehrere Vorrichtungen einschließen, die aus Hochleistungsrechner(HPC, High-Performance Computing)-Systemen ausgewählt sind, einschließlich Hochleistungskerne, Mikroprozessoren, Mikrocontroller, digitale Signalprozessoren, Mikrocomputer, zentrale Verarbeitungseinheiten, feldprogrammierbare Gate-Arrays, programmierbare Logikvorrichtungen, Zustandsmaschinen, Logikschaltungen, analoge Schaltungen, digitale Schaltungen oder beliebige andere Vorrichtungen, die (analoge oder digitale) Signale basierend auf computerausführbaren Anweisungen manipulieren, die sich im Speicher 302 befinden. Der Speicher 302 kann eine einzelne Speichervorrichtung oder eine Anzahl von Speichervorrichtungen einschließen, einschließlich Direktzugriffsspeicher (RAM, Random Access Memory), flüchtigen Speicher, nichtflüchtigen Speicher, statischen Direktzugriffsspeicher (SRAM, Static Random Access Memory), dynamischen Direktzugriffsspeicher (DRAM, Dynamic Random Access Memory), Flash-Speicher, Cache-Speicher oder eine beliebige andere Vorrichtung, die in der Lage ist, Informationen zu speichern, ohne jedoch darauf beschränkt zu sein. Die nichtflüchtige Speichereinrichtung 306 kann eine oder mehrere persistente Datenspeicherungsvorrichtungen, wie beispielsweise eine Festplatte, ein optisches Laufwerk, ein Bandlaufwerk, eine nichtflüchtige Solid-State-Vorrichtung, eine Cloud-Speicherung oder eine beliebige andere Vorrichtung, die in der Lage ist, Informationen persistent zu speichern, einschließen.
  • Der Prozessor 304 kann konfiguriert sein, um in den Speicher 302 einzulesen und computerausführbare Anweisungen auszuführen, die sich im Softwaremodul 308 der nichtflüchtigen Speichereinrichtung 306 befinden und Bayes'sche Optimierungs- und Dimensionalitätsreduktionsalgorithmen und/oder -methoden einer oder mehrerer Ausführungsformen verkörpern. Das Softwaremodul 308 kann Betriebssysteme und Anwendungen einschließen. Die Softwaremodule 308 können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder Technologien erstellt werden, einschließlich, ohne darauf beschränkt werden, und entweder allein oder in Kombination, Java, C, C++, C#, Objective C, Fortran, Pascal, Java Script, Python, Perl und PL/SQL.
  • Bei der Ausführung durch den Prozessor 304 können die computerausführbaren Anweisungen des Softwaremoduls 308 dazu führen, dass die Rechenplattform 300 einen oder mehrere der hierin offenbarten Bayes'schen Optimierungs- und Dimensionalitätsreduktionsalgorithmen und/oder -methoden implementiert. Die nichtflüchtige Speichereinrichtung 306 kann auch Daten 310 einschließen, die die Funktionen, Merkmale und Prozesse der hierin beschriebenen einen oder mehreren Ausführungsformen unterstützen.
  • Der Programmcode, der die hierin beschriebenen Algorithmen und/oder Methoden verkörpert, kann einzeln oder kollektiv als ein Programmprodukt in einer Vielzahl verschiedener Formen verteilt werden. Der Programmcode kann unter Verwendung eines computerlesbaren Speicherungsmediums mit darauf befindlichen computerlesbaren Programmanweisungen verteilt werden, um einen Prozessor zu veranlassen, Aspekte einer oder mehrerer Ausführungsformen auszuführen. Computerlesbare Speicherungsmedien, die inherent nicht-transitorisch sind, können flüchtige und nichtflüchtige sowie entfernbare und nicht-entfernbare konkrete Medien einschließen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zum Speichern von Informationen, wie beispielsweise computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten, implementiert sind. Computerlesbare Speichermedien können ferner RAM, ROM, löschbaren programmierbaren Nur-Lese-Speicher (EPROM, Erasable Programmable Read-Only Memory), elektrisch löschbaren programmierbaren Nur-Lese-Speicher (EEPROM, Electrically Erasable Programmable Read-Only Memory), Flash-Speicher oder andere Solid-State-Speichertechnologie, tragbare Compact Disc Read-Only Memory (CD-ROM) oder andere optische Speichereinrichtung, Magnetkassetten, Magnetbänder, Magnetplattenspeichereinrichtung oder andere Magnetspeicherungsvorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Informationen verwendet werden kann und das von einem Computer gelesen werden kann, einschließen. Computerlesbare Programmanweisungen können von einem computerlesbaren Speicherungsmedium oder über ein Netz auf einen externen Computer oder eine externe Speicherungsvorrichtung auf einen Computer, einen anderen Typ einer programmierbaren Datenverarbeitungsvorrichtung oder eine andere Vorrichtung heruntergeladen werden.
  • Computerlesbare Programmanweisungen, die in einem computerlesbaren Medium gespeichert sind, können verwendet werden, um einen Computer, andere Typen programmierbarer Datenverarbeitungsvorrichtungen oder andere Vorrichtungen anzuweisen, auf eine bestimmte Weise zu funktionieren, so dass die im computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel produzieren, einschließlich Anweisungen, die die in den Flussdiagrammen oder Darstellungen spezifizierten Funktionen, Handlungen und/oder Operationen implementieren. In bestimmten alternativen Ausführungsformen können die in den Flussdiagrammen und Darstellungen spezifizierten Funktionen, Handlungen und/oder Operationen in Übereinstimmung mit einer oder mehreren Ausführungsformen neu angeordnet, seriell verarbeitet und/oder gleichzeitig verarbeitet werden. Darüber hinaus kann jedes der Flussdiagramme und/oder Darstellungen mehr oder weniger Knoten oder Blöcke einschließen als diejenigen, die in Übereinstimmung mit einer oder mehreren Ausführungsformen veranschaulicht sind.
  • Obgleich oben beispielhafte Ausführungsformen beschrieben werden, ist nicht beabsichtigt, dass diese Ausführungsformen alle von den Ansprüchen umfassten möglichen Formen beschreiben sollen. Die in der Beschreibung verwendeten Worte sind beschreibende und nicht beschränkende Worte, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Wesen und Schutzbereich der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen zur Bildung weiterer Ausführungsformen der Erfindung, die nicht ausdrücklich beschrieben oder veranschaulicht sind, kombiniert werden. Obgleich verschiedene Ausführungsformen beschrieben worden sein könnten, die Vorteile bieten oder gegenüber anderen Ausführungsformen oder Implementierungen des Stands der Technik in Bezug auf eine oder mehrere erwünschte Eigenschaften bevorzugt sind, erkennen Durchschnittsfachleute auf dem Gebiet, dass auf eines oder mehrere Merkmale oder Eigenschaften verzichtet werden kann, um die erwünschten Gesamtsystemattribute zu erzielen, die von der speziellen Anwendung und Implementierung abhängen. Diese Attribute können Kosten, Festigkeit, Haltbarkeit, Lebenszykluskosten, Marktfähigkeit, Aussehen, Packung, Größe, Servicefreundlichkeit, Gewicht, Herstellbarkeit, Montagefreundlichkeit usw. umfassen, ohne jedoch darauf beschränkt zu sein. In dem Maße, in dem Ausführungsformen in Bezug auf eine oder mehrere Eigenschaften als weniger wünschenswert als andere Ausführungsformen oder Implementierungen des Stands der Technik beschrieben werden, liegen diese Ausführungsformen nicht außerhalb des Schutzbereichs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims (21)

  1. Verfahren zum Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes, umfassend: Konstruieren eines Datensatzes von Eingabe-Ausgabe-Paaren, wobei jedes Eingabeelement der Eingabe-Ausgabe-Paare zufällig aus einem Suchraum ausgewählt wird, wobei jedes Ausgabeelement der Eingabe-Ausgabe-Paare eine Vorhersageausgabe des Klassifizierers eines neuronalen Netzes für das entsprechende Eingabeelement anzeigt; Nutzen eines Gaußprozesses auf dem Datensatz von Eingabe-Ausgabe-Paaren, um eine Erfassungsfunktion zu optimieren, um ein bestes Störungseingabeelement aus dem Datensatz zu finden; Upsampeln des besten Störungseingabeelements, um ein upgesampeltes bestes Eingabeelement zu generieren; Hinzufügen des upgesampelten besten Eingabeelements zu einer ursprünglichen Eingabe, um eine Kandidateneingabe zu generieren; Abfragen des Klassifizierers eines neuronalen Netzes, um eine Klassifizierervorhersage für die Kandidateneingabe zu bestimmen; Berechnen eines Scores für die Klassifizierervorhersage; und Akzeptieren der Kandidateneingabe als einen erfolgreichen gegnerischen Angriff in Reaktion darauf, dass die Klassifizierervorhersage falsch ist.
  2. Verfahren nach Anspruch 1, ferner umfassend Zurückweisen der Kandidateneingabe in Reaktion darauf, dass die Klassifizierervorhersage korrekt ist.
  3. Verfahren nach Anspruch 2, ferner umfassend in Reaktion auf das Zurückweisen der Kandidateneingabe: Hinzufügen der Kandidateneingabe und der Klassifiziererausgabe zum Datensatz; und Fortsetzen der Iteration durch den Datensatz, um Kandidateneingaben zu generieren, bis eine vordefinierte Anzahl von Abfragen des Datensatzes verstrichen ist.
  4. Verfahren nach Anspruch 1, wobei der Klassifizierer eines neuronalen Netzes ein Bildklassifizierer ist, die ursprüngliche Eingabe eine Bildeingabe ist, die Störung eine Bildstörung ist und die Kandidateneingabe eine pixelweise Summe der Bildeingabe und der Bildstörung ist, wobei jedes Pixel der Bildstörung kleiner als eine vordefinierte Größe ist.
  5. Verfahren nach Anspruch 4, wobei das Störungseingabeelement eine kleinere Dimension als das Originalbild aufweist.
  6. Verfahren nach Anspruch 4, wobei die vordefinierte Größe der Bildstörung nicht größer als ein bestimmter Wert entweder in einer L2-Norm oder in einer L-Norm ist.
  7. Verfahren nach Anspruch 1, wobei der Klassifizierer eines neuronalen Netzes ein Audioklassifizierer ist, die ursprüngliche Eingabe eine Audioeingabe ist, die Störung eine Audiostörung ist, die Kandidateneingabe eine Summe aus der Audioeingabe und der Audiostörung ist und die Norm für den Klassifizierer die menschliche Hörwahrnehmung misst.
  8. Verfahren nach Anspruch 1, wobei das Upsampling unter Verwendung eines Nächster-Nachbar-Upsamplings durchgeführt wird.
  9. Verfahren nach Anspruch 1, wobei der Klassifizierer Vorhersagen für jedes von einer Mehrzahl von möglichen Klassen-Labels für die Eingabe in den Klassifizierer ausgibt.
  10. Verfahren nach Anspruch 1, wobei der Klassifizierer nur die wahrscheinlichste vorhergesagte Klasse der Mehrzahl möglicher Klassen-Labels für die Eingabe in den Klassifizierer ausgibt.
  11. Rechensystem zum Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes, das System umfassend: einen Speicher, der Anweisungen von Bayes'schen Optimierungs- und Dimensionalitätsreduktionsalgorithmen eines Softwareprogramms speichert; und einen Prozessor, der programmiert ist, um die Anweisungen auszuführen, um Operationen durchzuführen, einschließlich zum Konstruieren eines Datensatzes von Eingabe-Ausgabe-Paaren, wobei jedes Eingabeelement der Eingabe-Ausgabe-Paare zufällig aus einem Suchraum ausgewählt wird, wobei jedes Ausgabeelement der Eingabe-Ausgabe-Paare eine Vorhersageausgabe des Klassifizierers eines neuronalen Netzes für das entsprechende Eingabeelement anzeigt; Nutzen eines Gaußprozesses auf dem Datensatz von Eingabe-Ausgabe-Paaren, um eine Erfassungsfunktion zu optimieren, um ein bestes Störungseingabeelement aus dem Datensatz zu finden; Upsampeln des besten Störungseingabeelements, um ein upgesampeltes bestes Eingabeelement zu generieren; Hinzufügen des upgesampelten besten Eingabeelements zu einer ursprünglichen Eingabe, um eine Kandidateneingabe zu generieren; Abfragen des Klassifizierers eines neuronalen Netzes, um eine Klassifizierervorhersage für die Kandidateneingabe zu bestimmen; Berechnen eines Scores für die Klassifizierervorhersage; in Reaktion darauf, dass die Klassifizierervorhersage falsch ist, Akzeptieren der Kandidateneingabe als einen erfolgreichen gegnerischen Angriff; und in Reaktion darauf, dass die Klassifizierervorhersage korrekt ist, Zurückweisen der Kandidateneingabe, Hinzufügen der Kandidateneingabe und der Klassifiziererausgabe zum Datensatz; und Fortsetzen der Iteration durch den Datensatz, um Kandidateneingaben zu generieren, bis eine vordefinierte Anzahl von Abfragen des Datensatzes verstrichen ist.
  12. Rechensystem nach Anspruch 11, wobei der Klassifizierer eines neuronalen Netzes ein Bildklassifizierer ist, die ursprüngliche Eingabe eine Bildeingabe ist, die Störung eine Bildstörung ist und die Kandidateneingabe eine pixelweise Summe der Bildeingabe und der Bildstörung ist, wobei jedes Pixel der Bildstörung kleiner als eine vordefinierte Größe ist.
  13. Rechensystem nach Anspruch 12, wobei das Störungseingabeelement eine kleinere Dimension als das Originalbild aufweist.
  14. Rechensystem nach Anspruch 12, wobei die vordefinierte Größe der Bildstörung nicht größer als ein bestimmter Wert entweder in einer L2-Norm oder in einer L-Norm ist.
  15. Rechensystem nach Anspruch 11, wobei der Klassifizierer eines neuronalen Netzes ein Audioklassifizierer ist, die ursprüngliche Eingabe eine Audioeingabe ist, die Störung eine Audiostörung ist, die Kandidateneingabe eine Summe aus der Audioeingabe und der Audiostörung ist und die Norm für den Klassifizierer die menschliche Hörwahrnehmung misst.
  16. Rechensystem nach Anspruch 11, wobei das Upsampling unter Verwendung eines Nächster-Nachbar-Upsamplings durchgeführt wird.
  17. Rechensystem nach Anspruch 11, wobei der Klassifizierer Vorhersagen für jedes von einer Mehrzahl von möglichen Klassen-Labels für die Eingabe in den Klassifizierer ausgibt.
  18. Rechensystem nach Anspruch 11, wobei der Klassifizierer nur die wahrscheinlichste vorhergesagte Klasse der Mehrzahl möglicher Klassen-Labels für die Eingabe in den Klassifizierer ausgibt.
  19. Nicht-transitorisches computerlesbares Medium, umfassend Anweisungen zum Durchführen eines gegnerischen Angriffs auf einen Klassifizierer eines neuronalen Netzes, die, wenn sie durch einen Prozessor ausgeführt werden, den Prozessor veranlassen zum: Konstruieren eines Datensatzes von Eingabe-Ausgabe-Paaren, wobei jedes Eingabeelement der Eingabe-Ausgabe-Paare zufällig aus einem Suchraum ausgewählt wird, wobei jedes Ausgabeelement der Eingabe-Ausgabe-Paare eine Vorhersageausgabe des Klassifizierers eines neuronalen Netzes für das entsprechende Eingabeelement anzeigt; Nutzen eines Gaußprozesses auf dem Datensatz von Eingabe-Ausgabe-Paaren, um eine Erfassungsfunktion zu optimieren, um ein bestes Störungseingabeelement aus dem Datensatz zu finden; Upsampeln des besten Störungseingabeelements, um ein upgesampeltes bestes Eingabeelement zu generieren; Hinzufügen des upgesampelten besten Eingabeelements zu einer ursprünglichen Eingabe, um eine Kandidateneingabe zu generieren; Abfragen des Klassifizierers eines neuronalen Netzes, um eine Klassifizierervorhersage für die Kandidateneingabe zu bestimmen; Berechnen eines Scores für die Klassifizierervorhersage; in Reaktion darauf, dass die Klassifizierervorhersage falsch ist, Akzeptieren der Kandidateneingabe als einen erfolgreichen gegnerischen Angriff; und in Reaktion darauf, dass die Klassifizierervorhersage korrekt ist, Zurückweisen der Kandidateneingabe, Hinzufügen der Kandidateneingabe und der Klassifiziererausgabe zum Datensatz; und Fortsetzen der Iteration durch den Datensatz, um Kandidateneingaben zu generieren, bis eine vordefinierte Anzahl von Abfragen des Datensatzes verstrichen ist.
  20. Medium nach Anspruch 19, wobei der Klassifizierer eines neuronalen Netzes ein Bildklassifizierer ist, die ursprüngliche Eingabe eine Bildeingabe ist, die Störung eine Bildstörung ist und die Kandidateneingabe eine pixelweise Summe der Bildeingabe und der Bildstörung ist, wobei jedes Pixel der Bildstörung kleiner als eine vordefinierte Größe ist.
  21. Medium nach Anspruch 19, wobei der Klassifizierer eines neuronalen Netzes ein Audioklassifizierer ist, die ursprüngliche Eingabe eine Audioeingabe ist, die Störung eine Audiostörung ist, die Kandidateneingabe eine Summe aus der Audioeingabe und der Audiostörung ist und die Norm für den Klassifizierer die menschliche Hörwahrnehmung misst.
DE102020211851.5A 2019-09-24 2020-09-22 Auf bayes'scher optimierung basierende abfrageeffiziente gegnerische black-box-angriffe Pending DE102020211851A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/580587 2019-09-24
US16/580,587 US11494639B2 (en) 2019-09-24 2019-09-24 Bayesian-optimization-based query-efficient black-box adversarial attacks

Publications (1)

Publication Number Publication Date
DE102020211851A1 true DE102020211851A1 (de) 2021-03-25

Family

ID=74846722

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020211851.5A Pending DE102020211851A1 (de) 2019-09-24 2020-09-22 Auf bayes'scher optimierung basierende abfrageeffiziente gegnerische black-box-angriffe

Country Status (3)

Country Link
US (1) US11494639B2 (de)
CN (1) CN112633309A (de)
DE (1) DE102020211851A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486736A (zh) * 2021-06-21 2021-10-08 南京航空航天大学 一种基于活跃子空间与低秩进化策略的黑盒对抗攻击方法
CN113673581A (zh) * 2021-07-29 2021-11-19 厦门路桥信息股份有限公司 硬标签黑盒深度模型对抗样本的生成方法、存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL270116A (en) * 2019-10-23 2021-04-29 De Identification Ltd A system and method for identifying and protecting against cyber attacks against classification systems
US11977632B2 (en) * 2020-04-23 2024-05-07 Booz Allen Hamilton Inc. Evaluating automatic malware classifiers in the absence of reference labels
US12019747B2 (en) * 2020-10-13 2024-06-25 International Business Machines Corporation Adversarial interpolation backdoor detection
US12026621B2 (en) * 2020-11-30 2024-07-02 Robert Bosch Gmbh Method and system for low-query black-box universal attacks
CN113804200B (zh) * 2021-04-12 2023-12-29 之江实验室 基于动态强化指令攻击模块的视觉语言导航系统及方法
CN113052314B (zh) * 2021-05-27 2021-09-14 华中科技大学 一种认证半径引导攻击方法、优化训练方法及系统
CN113271321B (zh) * 2021-07-20 2021-09-17 成都信息工程大学 一种基于网络异常攻击的传播预测处理方法及系统
CN116204890B (zh) * 2023-04-28 2023-07-21 浙江鹏信信息科技股份有限公司 一种自适应增强人工智能算法安全的算法组件库

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315012B2 (en) * 2018-01-12 2022-04-26 Intel Corporation Neural network training using generated random unit vector
US11275841B2 (en) * 2018-09-12 2022-03-15 Adversa Ai Ltd Combination of protection measures for artificial intelligence applications against artificial intelligence attacks
US20200250304A1 (en) * 2019-02-01 2020-08-06 Nec Laboratories America, Inc. Detecting adversarial examples
US20220180447A1 (en) * 2019-05-16 2022-06-09 Retrace Labs Artificial Intelligence Platform for Dental Claims Adjudication Prediction Based on Radiographic Clinical Findings
US11455515B2 (en) * 2019-09-24 2022-09-27 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486736A (zh) * 2021-06-21 2021-10-08 南京航空航天大学 一种基于活跃子空间与低秩进化策略的黑盒对抗攻击方法
CN113486736B (zh) * 2021-06-21 2024-04-02 南京航空航天大学 一种基于活跃子空间与低秩进化策略的黑盒对抗攻击方法
CN113673581A (zh) * 2021-07-29 2021-11-19 厦门路桥信息股份有限公司 硬标签黑盒深度模型对抗样本的生成方法、存储介质
CN113673581B (zh) * 2021-07-29 2023-08-01 厦门路桥信息股份有限公司 硬标签黑盒深度模型对抗样本的生成方法、存储介质

Also Published As

Publication number Publication date
CN112633309A (zh) 2021-04-09
US11494639B2 (en) 2022-11-08
US20210089879A1 (en) 2021-03-25

Similar Documents

Publication Publication Date Title
DE102020211851A1 (de) Auf bayes'scher optimierung basierende abfrageeffiziente gegnerische black-box-angriffe
DE102020211853A1 (de) Effiziente gegnerische blackbox-angriffe unter ausnutzung einer eingabedatenstruktur
DE60208223T2 (de) Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells
DE112016006360T5 (de) Verbessern eines lernens einer abstandsmetrik mit einem n-paar-verlust
DE202017007528U1 (de) Differenzmetrik für auf maschinellem Lernen basierende Verarbeitungssysteme
DE112020000537T5 (de) Verbesserung von fairness durch bestärkendes lernen
DE112020000584T5 (de) Verfahren für unüberwachte bild-zu-bild-übersetzung mit wenigen aufnahmen
DE102014223226A1 (de) Diskriminator, Unterscheidungsprogramm und Unterscheidungsverfahren
DE102018119682A1 (de) Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und nicht-vorübergehendes computerlesbares speichermedium
DE112011104487T5 (de) Verfahren und System zur prädiktiven Modellierung
DE112020000448T5 (de) Kameraselbstkalibrierungsnetz
DE112017002468T5 (de) Schlussfolgern und Lernen basierend auf sensomotorischen Eingabedaten
DE102020210352A1 (de) Verfahren und Vorrichtung zum Transferlernen zwischen modifizierten Aufgaben
DE112021004652T5 (de) Hintertürerkennung gegnerischer Interpolation
DE112017002766T5 (de) Merkmalspunktschätzvorrichtung, merkmalspunktpositionsschätzssystem, merkmalspunktpositionsschätzverfahren und merkmalspunktpositionsschätzprogramm
DE202019105282U1 (de) Vorrichtung zum Optimieren eines System für das maschinelle Lernen
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
DE102021204943A1 (de) Meta-gelehrte evolutionsstrategie-blackbox-optimierungsklassifizierer
DE102019203634A1 (de) Verfahren und Vorrichtung zum Ansteuern eines Roboters
DE102019210507A1 (de) Vorrichtung und computerimplementiertes Verfahren für die Verarbeitung digitaler Sensordaten und Trainingsverfahren dafür
DE102021124445A1 (de) Metamerkmal-trainingsmodelle für maschinenlernalgorithmen
DE112021000251T5 (de) Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz
DE102023210093A1 (de) System und Verfahren zum effizienten Analysieren und Vergleichen von Maschinenlernmodellen auf Slice-Basis
DE102012025349A1 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE202019105304U1 (de) Vorrichtung zum Erstellen eines künstlichen neuronalen Netzes

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: ISARPATENT - PATENT- UND RECHTSANWAELTE BARTH , DE

R016 Response to examination communication