DE102021207471A1

DE102021207471A1 - Techniken zum absichern eines computer-basierten klassifiaktors

Info

Publication number: DE102021207471A1
Application number: DE102021207471.5A
Authority: DE
Inventors: Paulius Duplys; Roland Schmitz
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-01-19
Also published as: US20230014606A1

Abstract

Ein allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Absichern eines Computer-basierten Klassifikators, das Bestimmen einer ersten Ähnlichkeit einer Mehrzahl von Eingabedatensätzen eines Computer-basierten Klassifikators, Vergleichen der bestimmten ersten Ähnlichkeit der Mehrzahl von Eingabedatensätzen und einer zweiten Ähnlichkeit eines Vergleichskorpus von Eingabedatensätzen und Erkennen der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator, wenn die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen und die zweite Ähnlichkeit des Vergleichskorpus in einer vorbestimmten Weise voneinander abweichen umfasst.

Description

Stand der Technik
In vielerlei Umgebungen werden Computer-basierte Klassifikatoren (in Folge auch kurz „Klassifikatoren“) eingesetzt, um Eingabedaten zu bewerten (d.h. ein Klassifikationsergebnis auszugeben). Die Klassifikatoren können mittels maschinellem Lernen trainiert sein. Basierend auf dem Klassifikationsergebnis können z.B. Funktionen von technischen Systemen ausgelöst werden.
Ein erstes Beispiel ist die Erkennung von Sicherheitsmerkmalen (wie Wasserzeichen) in digitalen Bildern oder anderen digitalen Daten. Hier kann ein Computer-basierter Klassifikator Bilder, die ein Sicherheitsmerkmal aufweisen von solchen unterscheiden, die es nicht aufweisen (wenn in der vorliegenden Offenbarung von einer Computer-implementierten Funktion die Rede ist, ist bei der Beschreibung immer gemeint, dass das jeweilige Ziels der Funktion in einzelnen Fällen auch nicht erreicht wird - die Funktion ist lediglich zum Erreichen des Ziels ausgelegt, was besser oder schlechter gelingen mag). In einem anderen Beispiel kann ein Computer-basierter Klassifikator in einem Umfeld-Erkennungssystem eines Fahrzeugs Objekte (z.B. Verkehrsschilder, Fahrwege oder andere Verkehrsteilnehmer) erkennen. Wie aus den vorgenannten Beispielen ersichtlich, können Computer-basierte Klassifikatoren sicherheitsrelevanten Einfluss auf das System haben, in dem sie eingesetzt werden.
Aus diesem Grund sollten Computer-basierte Klassifikatoren gegen verschiedene Angriffe abgesichert werden. Ein Typ von Angriff ist der sogenannte Orakel-Angriff (auf Englisch „oracle attack“). Ziel des Orakel-Angriffs ist es, das in dem Computer-basierte Klassifikator verwendete Klassifikations-Modell auszuspähen (und insbesondere Grenzen zwischen verschiedenen Klassen des Klassifikators zu ermitteln). Dieses Wissen kann dann wiederum verwendet werden, um Eingabedatensätze zu verändern, zu erzeugen oder auszuwählen, die den Computer-basierten Klassifikatoren täuschen. In den oben beschriebenen Beispielen können mit einem Wasserzeichen versehene Bilddaten als nicht mit dem Wasserzeichen versehen klassifiziert werden (d.h. die Funktion des Wasserzeichens wird aufgehoben) oder Umgebungsdaten eines Umfeldsensors so manipuliert werden, dass nicht vorhandene Objekte erkannt werden.
Das Wissen um das in dem Computer-basierte Klassifikator verwendete Klassifikations-Modell kann auch verwendet werden, um einen Computer-basierten Klassifikatoren nachzuahmen.
Die vorliegende Offenbarung schlägt Maßnahmen vor, Computer-basierte Klassifikatoren gegen Angriffe abzusichern.
Offenbarung der Erfindung
Ein erster allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Absichern eines Computer-basierten Klassifikators, das Bestimmen einer ersten Ähnlichkeit einer Mehrzahl von Eingabedatensätzen eines Computer-basierten Klassifikators, Vergleichen der bestimmten ersten Ähnlichkeit der Mehrzahl von Eingabedatensätzen und einer zweiten Ähnlichkeit eines Vergleichskorpus von Eingabedatensätzen und Erkennen der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator, wenn die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen und die zweite Ähnlichkeit des Vergleichskorpus in einer vorbestimmten Weise voneinander abweichen, umfasst. Ein zweiter allgemeiner Aspekt der vorliegenden Offenbarung betrifft eine Vorrichtung, die dazu ausgelegt ist, das Verfahren gemäß dem ersten allgemeinen Aspekt der vorliegenden Offenbarung auszuführen.
Die Techniken des ersten und zweiten allgemeinen Aspekts können in manchen Situationen einen oder mehrere der folgenden Vorteile haben.
Erstens kann ein Angriff, insbesondere ein Orakel-Angriff, auf den Computer-basierten Klassifikator erkannt werden. In vielen Situationen wird ein Angreifer mehrere sehr ähnliche Eingabedaten an den Computer-basierten Klassifikator schicken (z.B. Bilddaten, in denen wenige Pixelwerte verändert wurden). In dieser Weise können zum Beispiel die Grenzen zwischen zwei Klassen des Computer-basierten Klassifikators ausgeforscht werden. Die Ähnlichkeit dieser Eingabedaten eines Angriffes kann daher zum Beispiel höher sein als eine (z.B. durchschnittliche) Ähnlichkeit von Eingabedaten, die während des (Normal-) Betriebs des Computer-basierten Klassifikators empfangen werden. In den Techniken der vorliegenden Offenbarung kann dieses Wissen genutzt werden, um anhand des Vergleichs einer (z.B. durchschnittlichen) Ähnlichkeit eines Vergleichskorpus von Eingabedatensätzen mit der Ähnlichkeit von zwei oder mehr empfangenen Eingabedatensätzen eine Möglichkeit eines Angriffs zu erkennen. Basierend auf diese Information können dann Gegenmaßnahmen eingeleitet werden (zum Beispiel das Blockieren einer Quelle von Eingabedatensätzen).
Zweitens können die Techniken der vorliegenden Offenbarung im Vergleich zu manchen Verfahren des Stands der Technik vergleichsweise einfache Berechnungsschritte umfassen. In einem Bespiel kann eine Ähnlichkeit von zwei Eingabedatensätzen anhand eines Abstandsmaßes der Datensätze (z.B. eines durchschnittlichen pixelweisen Abstands der Pixelwerte zweier Bilddatensätze) ermittelt werden und dann in einer Vergleichsoperation mit einer Ähnlichkeit des Vergleichskorpus von Eingabedatensätzen verglichen werden. Die vergleichsweise Einfachheit der Berechnungen kann dazu führen, dass die Techniken der vorliegenden Offenbarung ressourcensparender und/oder schneller ausgeführt werden können.
Einige Begriffe werden in der vorliegenden Offenbarung in folgender Weise verwendet.
Ein „computer-basierter Klassifikator“ ist in der vorliegenden Offenbarung jede Computer-basierte Funktion, die Eingabedatensätze in zwei oder mehr Klassen klassifiziert. Dabei kann ein Eingabedatensatz insgesamt einer oder mehreren der Klassen zugeordnet werden oder ausschnittsweise klassifiziert werden (z.B. in einer pixelweisen oder Bereichsweisen Klassifizierung von Bilddaten). Ein computer-basierter Klassifikator kann mit Techniken des maschinellen Lernens trainiert sein (z.B. ein neuronales Netzwerk umfassen), ist aber nicht darauf beschränkt. So können computer-basierte Klassifikatoren auch andere trainierte Klassifikatoren (z.B. basierend auf Support-Vektor-Machines) umfassen oder in manchen Beispielen auch nicht trainiert sein. In der Folge werden in den Beispielen hauptsächlich Bildklassifikatoren beschrieben, die Techniken der vorliegenden Offenbarung sind aber nicht auf Bildklassifikatoren beschränkt (es sein denn, es werden dezidierte Merkmale von Bildklassifikatoren beschrieben). Die für Bildklassifikatoren beschriebenen Techniken können daher auch auf andere in der vorliegenden Offenbarung genannten Klassifikatoren übertragen werden.
Ein „Eingabedatensatz“ (an manchen Stellen auch einfach „Eingabe“) ist in der vorliegenden Offenbarung jedes Datum, dass in einem bestimmten Zeitraum einem computer-basierten Klassifikator zugeführt (und von diesem prozessiert) werden kann, um ein Klassifikationsergebnis zu erhalten. In manchen Fällen ist ein Eingabedatensatz das Datum, anhand dessen ein Klassifikationsprozess durchgeführt werden kann. Dementsprechend kann ein Eingabedatensatz unterschiedliche Daten enthalten (z.B. Bilddaten oder Zeitreihendaten). Auch kann ein bestimmtes Datum für einen ersten computer-basierten Klassifikator ein (vollständiger) Eingabedatensatz sein, während dasselbe Datum für einen zweiten computer-basierten Klassifikator nur ein Teil eines Eingabedatensatzes sein kann. Z.B. kann ein Einzelbild für einen ersten Bildklassifikator ein (vollständiger) Eingabedatensatz sein, während es für einen zweiten Bildklassifikator, der Videodaten klassifiziert, nur ein Teil eines Eingabedatensatzes sein kann.
Eine „Ähnlichkeit“ einer Mehrzahl von Eingabedatensätzen (zum Beispiel von zwei Eingabedatensätzen) quantifiziert in der vorliegenden Offenbarung, wie stark zwei oder mehr Eingabedatensätze sich voneinander unterscheiden. Ein geringerer Unterschied drückt sich in einer größeren Ähnlichkeit aus. Ein größerer Unterschied drückt sich in einer geringeren Ähnlichkeit aus.
Der Ausdruck „Erkennen der Möglichkeit eines Angriffs“ drückt lediglich aus, dass ein bestimmtes Kriterium erfüllt wurde (vorliegend, dass die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen und die zweite Ähnlichkeit des Vergleichskorpus in einer vorbestimmten Weise voneinander abweichen). Damit wird nicht zum Ausdruck gebracht, dass ein Angriff auch wirklich vorliegt und/oder dieses objektiv bewertet werden kann. Es wird nur zum Ausdruck gebracht, dass eine bestimmte Abweichung der Ähnlichkeiten erkannt wurde, die mit einem Angriff zusammenhängen kann.
Figurenliste

1 ist ein Flussdiagramm, das die Techniken der vorliegenden Offenbarung zum Absichern eines Computer-basierten Klassifikators illustriert.
2 zeigt eine Implementierung der Bestimmungs- und Vergleichsoperationen der vorliegenden Offenbarung.
3 zeigt schematisch Systeme, in denen die Techniken der vorliegenden Offenbarung zum Absichern eines Computer-basierten Klassifikators eingesetzt werden können.

Detaillierte Beschreibung
Zunächst wird anhand von 1 eine Übersicht über die Techniken der vorliegenden Offenbarung zum Absichern eines Computer-basierten Klassifikators gegeben. Danach werden in Bezug auf 2 verschiedene Aspekte der Bestimmungs- und Vergleichsoperationen der vorliegenden Offenbarung geschildert. Zuletzt werden mittels der 3 verschiedene Beispiele für Anwendungen und Systeme, in denen die Techniken der vorliegenden Offenbarung zum Absichern eines Computer-basierten Klassifikators eingesetzt werden können, erläutert.
In 1 ist ein Flussdiagramm, das die Techniken der vorliegenden Offenbarung zum Absichern eines Computer-basierten Klassifikators illustriert.
In 1 sind in der linken Spalte Aktionen gezeigt, die durch einen Computer-basierten Klassifikator ausgeführt werden können. Die Aktionen in der mittleren Spalte können von einem Absicherungs-Modul für den Computer-basierten Klassifikator ausgeführt werden. Die Aktionen in der rechten Spalte können in einer (entfernten) Datenbank ausgeführt werden. Diese Aufteilung ist jedoch nur beispielhaft. Weitere Beispiele bezüglich der Systeme, in denen die Techniken der vorliegenden Offenbarung zum Absichern eines Computer-basierten Klassifikators eingesetzt werden können, sind weiter unten in Bezug auf 3 beschrieben. Generell können alle hierin beschriebenen Verfahrensschritte Computerimplementiert sein (d.h. sie werden auf einer Einrichtung der elektronischen Datenverarbeitung ausgeführt), sofern sie nicht explizit „händisch“ ausgeführt werden.
Ein Verfahren zum Absichern eines Computer-basierten Klassifikators umfasst zunächst Bestimmen 101 einer ersten Ähnlichkeit einer Mehrzahl von Eingabedatensätzen eines Computer-basierten Klassifikators. In der Folge wird ein Bildklassifikator als beispielhafter Klassifikator verwendet (weitere Beispiele für Klassifikatoren finden sich weiter unten). Dementsprechend kann ein Eingabedatensatz ein Bilddatum sein. Die Mehrzahl von Eingabedatensätzen kann in manchen Fällen aus zwei Eingabedatensätzen bestehen (z.B. aus zwei Bildern), deren Ähnlichkeit bestimmt wird. In anderen Fällen kann eine Ähnlichkeit von mehr als zwei (z.B. mehr als fünf oder mehr als zehn) Eingabedatensätzen bestimmt werden. Aspekte zur Bestimmung der Ähnlichkeit werden weiter unten in Bezug auf 2 erläutert. Die Mehrzahl von Eingabedatensätzen kann im Betrieb des Computer-basierten Klassifikators diesem über einen Eingabekanal (z.B. eine Netzwerkschnittstelle oder eine Sensorschnittstelle) zugeführt werden, um diese zu klassifizieren (d.h. ein Klassifikationsergebnis für jeden der Mehrzahl von Eingabedatensätzen zu erzeugen). In manchen Beispielen kann der Computer-basierte Klassifikator dazu ausgelegt sein, fortlaufend (periodisch oder aperiodisch) Eingabedatensätze zu empfangen und zu klassifizieren. Die Mehrzahl von Eingabedatensätzen können Eingabedatensätze sein, die in einem bestimmten zeitlichen Abstand (z.B. nicht mehr als 5 Minuten oder nicht mehr als 30 Sekunden zwischen jeweils zwei Eingabedatensätzen der Mehrzahl von Eingabedatensätzen) und/oder in einem bestimmten Abstand in der Folge von Eingabedatenätzen des Computer-basierten Klassifikators an diesen übermittelt werden. In manchen Beispielen liegen zwischen zwei benachbarten Eingabedatensätzen der Mehrzahl von Eingabedatensätze nicht mehr als zehn weitere Eingabedatensätze (z.B. nicht mehr als fünf Eingabedatensätzen, oder nicht mehr als ein Eingabedatensatz). In manchen Beispielen sind zwei oder mehr der Mehrzahl von Eingabedatensätze direkt benachbart (d.h. unmittelbar aufeinander folgende Eingabedatensätze des Computer-basierten Klassifikators). In manchen Fällen wird ein Angreifer versuchen, in kurzem zeitlichen Abstand die Mehrzahl der Eingabedatensätze an den Computer-basierten Klassifikator zu übermitteln, um diesen Auszuspähen. Die Techniken der vorliegenden Offenbarung können eine auffällige Ähnlichkeit dieser Eingabedatensätze ermitteln, um die Möglichkeit eines Angriffs zu erkennen.
In manchen Beispielen können aber auch Eingabedatensätze eines Angreifers zwischen einer Mehrzahl von anderen Eingabedatensätzen eingestreut sein (d.h. ein zeitlicher Abstand und/oder Abstand in der Folge von Eingabedatenätzen des Computer-basierten Klassifikators kann relativ groß sein). Der Angreifer kann beispielsweise versuchen, einen Angriff in dieser Weise zu verschleiern. In manchen Beispielen können die Techniken der vorliegenden Offenbarung daher einen Schritt der Auswahl der Mehrzahl von Eingabedatensätzen aus Eingabedatensätzen (z.B. allen Eingabedatensätzen) des Computer-basierten Klassifikators enthalten, die Ähnlichkeit derer dann wiederum geprüft wird. Die Auswahl der der Mehrzahl von Eingabedatensätzen aus Eingabedatensätzen (z.B. allen Eingabedatensätzen) des Computer-basierten Klassifikators kann wiederum basierend auf der Ähnlichkeit der Eingabedatensätze erfolgen (z.B. ein bestimmter Prozentsatz von Eingabedatensätzen, die eine bestimmte Ähnlichkeit haben). In anderen Beispielen kann die Mehrzahl der Eingabedatensätze auf andere Weisen ermittelt werden. Zum Beispiel kann eine Regelmäßigkeit des Empfangens von Eingabedatensätzen für den Computer-basierten Klassifikator festgestellt werden (z.B. in gleichem Abstand oder zu gleichen Zeiten). Diese regelmäßig empfangenen Eingabedatensätze können als die Mehrzahl von Eingabedatensätzen aus Eingabedatensätzen (z.B. allen Eingabedatensätzen) des Computer-basierten Klassifikators ausgewählt werden.
In manchen Beispielen kann der Computer-basierte Klassifikator der vorliegenden Offenbarung eine bestimmte Instanz (d.h. eine bestimmte als Hardware- und/oder Software-Modul implementierte Vorrichtung) umfassen. In anderen Beispielen kann der Computer-basierte Klassifikator mehrere Instanzen (d.h. mehrere als Hardware- und/oder Software-Modul implementierte Vorrichtung) desselben Klassifikatormodells umfassen. So kann z.B. ein Angriff mehrere Instanzen eines Klassifikatormodells mit Eingabedatensätzen beschicken (die sich im Wesentlichen gleich verhalten sollten) und hiermit Informationen über den Computer-basierten Klassifikator ermitteln. Dabei kann ein eine erste Instanz des Computer-basierten Klassifikators für einen ersten Eingabedatensatz ein erstes Klassifikationsergebnis liefern, während eine zweite Instanz des Computer-basierten Klassifikators für einen zweiten Eingabedatensatz ein zweites Klassifikationsergebnis liefert. Die Ähnlichkeit dieser beiden Eingabedatensätze kann mittels der Techniken der vorliegenden Offenbarung ermittelt werden.
Das Verfahren umfasst weiter Vergleichen 103 der bestimmten ersten Ähnlichkeit der Mehrzahl von Eingabedatensätzen und einer zweiten Ähnlichkeit eines Vergleichskorpus von Eingabedatensätzen.
Die Aspekte dieses Vergleiches werden wiederum weiter unten in Bezug auf 2 detailliert erläutert. Der Vergleichskorpus von Eingabedatensätzen kann historische Eingabedatensätze des Computer-basierten Klassifikators enthalten, oder anderer Computer-basierten Klassifikatoren (die Eingabedatensätze derselben Art wie der abzusichernde Computer-basierte Klassifikator empfangen). In anderen Fällen kann der Vergleichskorpus oder können Teile des Vergleichskorpus synthetisch erzeugt werden.
Maßgeblich ist, dass der Vergleichskorpus die im Betrieb des Computer-basierten Klassifikators anfallenden Eingabedatensätze mit einer gewissen Güte abbildet (z.B. eine repräsentative Stichprobe ist). Die Techniken der vorliegenden Offenbarung beruhen nämlich auf der Annahme, dass die Ähnlichkeit der Eingabedatensätze eines Angreifers in bestimmter Weise von der Gesamtheit der Eingabedatensätze (und so auch der repräsentativen Stichprobe) abweicht. In vielen Fällen ist die Ähnlichkeit der Mehrzahl von Eingabedatensätze des Angreifers höher als die Ähnlichkeit der Gesamtheit der Eingabedatensätze. Eine repräsentative Stichprobe ist mithin eine Stichprobe, die eine Ähnlichkeit der Eingabedatensätze der Gesamtheit der Eingabedatensätze widerspiegelt (d.h. in Bezug auf ein jeweiliges Ähnlichkeitskriterium höchstens um ein bestimmtes Maß - wie z.B. eine Standardabweichung - von der Gesamtheit der Eingabedatensätze abweicht). Allerdings kann der Vergleichskorpus von Eingabedaten auch eine nicht-repräsentative Stichprobe von Eingabedatensätzen des Computer-basierten Klassifikators umfassen. In diesem Fall mag aber die Zuverlässigkeit des Erkennens der Möglichkeit des Angriffs auf den Computer-basierten Klassifikator weniger groß sein als bei Auswahl einer repräsentativen Stichprobe.
Das Verfahren umfasst zudem Erkennen 105 der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator, wenn die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen und die zweite Ähnlichkeit des Vergleichskorpus in einer vorbestimmten Weise voneinander abweichen.
In manchen Beispielen kann die erste Ähnlichkeit in der Mehrzahl der Eingabedatensätze größer (z.B. um ein bestimmtes Mindestmaß größer) sein als die zweite Ähnlichkeit des Vergleichskorpus. Angreifer können im Rahmen eines Angriffs Eingabedatensätze auswählen, die nur wenig voneinander abweichen und daher eine große Ähnlichkeit aufweisen, um den Computer-basierten Klassifikator auszuforschen. Insbesondere können ähnliche Eingabedatensätze verwendet werden, um herauszufinden, ob relativ geringfügige Änderungen in einem Eingabedatensatz zu einer Änderung des Klassifikationsergebnisses führen. In dieser Weise können zum Beispiel Klassifikationsgrenzen eines Computer-basierten Klassifikators ermittelt werden. Im Beispiel von Bilddaten können einzelne Pixel oder ein Bereich eines Bildes verändert werden, und sowohl das unveränderte als auch das veränderte Bild an den Computer-basierten Klassifikator übermittelt werden. Der gleiche Vorgang kann mehrfach durchgeführt werden. Die so erzeugten Bilddaten können (viel) ähnlicher sein als Bilddaten, die dem Computer-basierten Klassifikator im „Normalbetrieb“ (d.h. wenn kein Angriff vorliegt) übermittelt werden.
Wenn eine Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator erkannt wurde, können ein oder mehrere Reaktionen erfolgen.
In manchen Beispielen umfasst das Verfahren Erkennen des Vorliegens eines Angriffs basierend auf dem Erkennen der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator. Zum Beispiel kann das Vorliegen eines Angriffs erkannt werden, wenn eine bestimmte Anzahl von Malen (zusätzlich optional in einem bestimmten Zeitraum) die Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator erkannt wurde (z.B. mehr als zweimal oder mehr als fünfmal), also eine erste Ähnlichkeit einer jeweiligen Mehrzahl von Eingabedatensätzen und die zweite Ähnlichkeit des Vergleichskorpus in einer vorbestimmten Weise voneinander abweichen. In anderen Beispielen kann bereits bei einmaligem Erkennen der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator auch auf das Vorliegen eines Angriffs auf den Computer-basierten Klassifikator erkannt werden. Alternativ oder zusätzlich können auch andere Kriterien neben dem Abweichen der Ähnlichkeiten herangezogen werden, um das Vorliegen eines Angriffs zu erkennen (z.B. weitere Prüfungen der Mehrzahl der Eingabedaten oder das Auswerten anderer Informationen im Kontext der Übermittlung der Mehrzahl der Eingabedatensätze). In anderen Worten kann das Erkennen der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator eine notwendige, aber nicht hinreichende Bedingung für das Erkennen eines Angriffs sein.
Das Verfahren kann zudem das Einleiten 107 einer oder mehrerer Gegenmaßnahmen gegen den Angriff umfassen (wenn ein Angriff erkannt wurde).
In manchen Fällen können die Gegenmaßnahmen das Identifizieren einer Quelle der Mehrzahl von Eingabedatensätzen umfassen. Zum Beispiel kann eine Netzwerkadresse (bspw. eine IP-Adresse) oder eine andere Adresse der Quelle der Mehrzahl von Eingabedatensätzen identifiziert werden. Zusätzlich oder alternativ kann die Quelle über eine Signatur in der Mehrzahl von Eingabedatensätzen identifiziert werden (z.B. anhand von Metadaten der der Mehrzahl von Eingabedatensätzen). Die so gewonnene Information zur Identität der Quelle kann weiter zur Abwehr des Angriffs oder zur Mitigation des Schadens verwendet werden.
Zusätzlich oder alternativ können die Gegenmaßnahmen Blockieren einer Quelle der Mehrzahl von Eingabedatensätzen in Bezug auf das Übermitteln weiterer Eingabedatensätze an den Computer-basierten Klassifikator umfassen. Zum Beispiel kann die Quelle der Mehrzahl von Eingabedatensätzen auf eine Blacklist (zu Deutsch „schwarze Liste“) gesetzt werden. Die Quellen auf der schwarzen Liste können von der Benutzung des Computer-basierten Klassifikators ausgeschlossen werden. Zum Beispiel kann die Blacklist Netzwerkadressen und/oder Signaturen von Quellen von Eingabedatensätzen umfassen.
Zusätzlich oder alternativ können die Gegenmaßnahmen Blockieren eines Ausgebens von Klassifikationsergebnissen des Computer-basierten Klassifikators an eine Quelle der Mehrzahl von Eingabedatensätzen umfassen. Zum Beispiel können nach Einleiten der Gegenmaßnahme keine Klassifikationsergebnisse für die von der Quelle übermittelten Eingabedatensätze der Mehrzahl von Eingabedatensätze übermittelt werden.
Zusätzlich oder alternativ können die Gegenmaßnahmen Erzeugen einer Warnung, dass die Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator erkannt wurde, umfassen. Die Warnung kann an eine Schnittstelle (z.B. eine Mensch-Maschine-Schnittstelle) ausgegeben werden oder an eine Überwachungsvorrichtung, die den Computer-basierten Klassifikator überwacht. Zusätzlich oder alternativ können die Gegenmaßnahmen Erzeugen eines Protokolleintrags, dass die Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator erkannt wurde, umfassen. Zum Beispiel kann ein Logbucheintrag erzeugt werden, dass ein Angriff erkannt wurde. Der Logbucheintrag kann zudem weitere Informationen bezüglich des Erkannten Angriffs umfassen.
Zusätzlich oder alternativ können die Gegenmaßnahmen das (zumindest zeitweise) Deaktivieren oder Abschalten des Computer-basierten Klassifikators umfassen.
Weitere Gegenmaßnahmen können das aktive Unschädlichmachen der Quelle der Mehrzahl von Eingabedatensätzen umfassen.
Je nach ergriffener Gegenmaßnahme können die Techniken der vorliegenden Offenbarung einen Angriff Erkennen und/oder Stoppen und/oder weitere Angriffe in der Zukunft verhindern und so den Computer-basierten Klassifikator gegen Angriffe absichern.
Wird für einen oder eine Mehrzahl von Eingabedatensätzen keine Möglichkeit eines Angriffs erkannt, kann der eine oder die Mehrzahl von Eingabedatensätzen zum Verarbeiten durch den Computer-basierten Klassifikator freigegeben werden (und z.B. ein Klassifikationsergebnis ausgegeben werden).
In manchen Beispielen ist der Angriff ein Orakel-Angriff auf den Computer-basierten Klassifikator. Wie oben beschrieben, dient ein Orakel-Angriff dazu, das in dem Computer-basierte Klassifikator verwendete Klassifikations-Modell auszuspähen (und insbesondere Grenzen zwischen verschiedenen Klassen des Klassifikators zu ermitteln). Die in der vorliegenden Offenbarung beschriebenen Techniken können insbesondere zur Absicherung gegen Orakel-Angriffe nützlich sein. Sie sind aber nicht auf solche Angriffe beschränkt. Vielmehr können alle Angriffe erkannt werden, im Laufe derer Eingabedatensätze an einen Computer-basierten Klassifikator übermittelt werden, deren Ähnlichkeit in einer vorbestimmten Weise von der Ähnlichkeit eines Vergleichskorpus von Eingabedatensätzen abweicht.
Wie bereits beschrieben können die erste Mehrzahl der Eingabedatensätze an dem Computer-basierten Klassifikator empfangen 109 und an das Absicherungsmodul 111 weitergeleitet werden. In manchen Beispielen erfolgt ein Verarbeiten eines empfangenen Datensatzes unabhängig von der Prüfung des Datensatzes in dem Absicherungs-Modul (d.h., ein Klassifikationsergebnis wird erzeugt und ggf. zur Verfügung gestellt). In anderen Beispielen (s. 2) erfolgt das Verarbeiten 115 nur dann, wenn das Absicherungs-Modul den Eingabedatensatz geprüft und keine Möglichkeit eines Angriffs und/oder keinen Angriff auf den Computer-implementierten Klassifikator erkannt hat.
Der Vergleichskorpus kann in der Datenbank verarbeitet werden 117, um die zweite Ähnlichkeit der Eingabedatensätze des Vergleichskorpus zu bestimmen. Dazu können Eingabedatensätze gesammelt werden. Die Bestimmung der zweiten Ähnlichkeit kann kontinuierlich oder zu bestimmten Zeitpunkten erfolgen. In manchen Beispielen erfolgt die Bestimmung der zweiten Ähnlichkeit nur basierend auf Eingabedatensätzen aus einem eingeschränkten Zeitbereich, bspw. basierend auf aktuellen Eingabedatensätzen (z.B. jünger als ein Jahr oder jünger als ein Monat). Die ermittelte zweite Ähnlichkeit wird dem Absicherungsmodul übermittelt 119 und von diesem empfangen 121, um gemäß den Techniken der vorliegenden Offenbarung verarbeitet zu werden.
Nachdem in den vorangehenden Abschnitten die Schritte der Verfahren zum Absichern eines Computer-basierten Klassifikators der vorliegenden Offenbarung erläutert wurden, werden in der Folge anhand der 2 Implementierungen der Bestimmungs- und Vergleichsoperationen der vorliegenden Offenbarung näher beleuchtet.
In manchen Beispielen kann die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen auf einer Ähnlichkeit von zwei oder mehr der Eingabedatensätze oder einer Ähnlichkeit eines Ausschnitts jedes Eingabedatensatzes von zwei oder mehr der Eingabedatensätze beruhen. In manchen Beispielen wird die erste Ähnlichkeit als Ähnlichkeit von zwei Eingabedatensätzen 21, 22 ermittelt, also ein eine Paarweise Ähnlichkeit (z.B. zwei aufeinander folgende oder in einer bestimmten Abfolge an den Computer-basierten Klassifikator übermittelte Eingabedatensätze). In 2 ist ein erster 21 der zwei Eingabedatensätze (in 2 auch als A` bezeichnet) ein aktueller Eingabedatensatz und ein zweiter 22 der zwei Eingabedatensätze (in 2 auch als A bezeichnet) ein vorangehender Eingabedatensatz (die Reihenfolge kann in anderen Beispielen aber auch anders sein, bspw. können zwischen dem zweiten 22 und dem ersten 21 Eingabedatensatz ein oder mehrere weitere Eingabedatensätze übermittelt werden).
In dem Beispiel von 2 wird die erste Ähnlichkeit durch ein Abstandsmaß 23 (in 2 als „D“ bezeichnet) zwischen den jeweiligen Eingabedatensätzen bestimmt. Ein kleineres Abstandmaß kann eine größere Ähnlichkeit bedeuten. Die genaue Berechnungsvorschrift für das Abstandsmaß hängt von der Art der Eingabedatensätze ab. In manchen Fällen können die Eingabedatensätze als Matrizen (z.B. Vektoren) dargestellt werden. Dann kann eine Abstandsmaß durch elementweise Subtraktion der Matrizen (z.B. Vektoren) berechnet werden. Im Beispiel von 2 werden die die ersten und zweiten Eingabedatensätze elementweise (z.B. pixel-weise subtrahiert), um die Ähnlichkeit zu ermitteln (z.B. gemäß der Vorschrift „D = A' - A“ in 2). Zwei identische Eingabedatensätze weisen einen Abstand von Null in jedem Element auf. Der so ermittelte Abstand kann weiterverarbeitet werden (z.B. durch eine einfache oder gewichtete Addition und/oder eine Mittelwertbildung).
Andere Verfahren zum Berechnen einer ersten Ähnlichkeit zweier Matrizen (z.B. zweier Vektoren) können gleichsam angewendet werden. Es muss lediglich sichergestellt werden, dass die ermittelte erste Ähnlichkeit höher ist, je mehr sich die ersten 21 und zweiten 22 Eingabedatensätze gleichen.
Ebenfalls in 2 gezeigt ist die Berechnung der zweiten Ähnlichkeit des Vergleichskorpus von Eingabedatensätzen 24.
In manchen Beispielen kann zweite Ähnlichkeit des Vergleichskorpus von Eingabedatensätzen 24 auf einer Ähnlichkeit von zwei oder mehr der Eingabedatensätze des Vergleichskorpus oder einer Ähnlichkeit eines Ausschnitts jedes Eingabedatensatzes von zwei oder mehr der Eingabedatensätze des Vergleichskorpus 24 beruhten.
So kann die durchschnittliche Ähnlichkeit („D_avg“ in 2) in manchen Beispielen basierend auf paarweisen Ähnlichkeiten für ein Paar oder mehrere Paare der Eingabedatensätze des Vergleichskorpus 24 bestimmt werden. Dabei können zum Beispiel Paare der Eingabedatensätze des Vergleichskorpus gemäß dem Übermittlungszeitpunkt der Eingabedatensätze an den Computer-basierten Klassifikator gebildet werden (z.B. Paare aus aufeinanderfolgenden Eingabedatensätzen). In anderen Beispielen können Paare nach anderen Kriterien gebildet werden (z.B. zufällig). In manchen Beispielen kommt jeder Eingabedatensatz nur in einem oder zwei Paaren vor (z.B. in einem ersten Paar mit einem vorhergehenden Eingabedatensatz und einem zweiten Paar mit einem nachfolgenden Eingabedatensatz). In wieder anderen Beispielen kann jeder Eingabedatensatz in mehr als zwei Paaren vorkommen. In wieder anderen Beispielen kann jeder Eingabedatensatz des Vergleichskorpus 24 mit jedem anderen Eingabedatensatz gepaart werden. In wieder anderen Beispielen können Paare zwischen einem oder mehreren der Mehrzahl von Eingabedatensätze mit den anderen Eingabedatensätzen der Mehrzahl von Eingabedatensätzen ermittelt werden.
Für jedes der Paare der Eingabedatensätze des Vergleichskorpus 24 kann eine Ähnlichkeit ermittelt werden. Das kann beispielsweise durch die weiter oben beschriebenen Berechnungsvorschriften zur Ermittlung der (ersten) Ähnlichkeit zwischen zwei Eingabedatensätzen der Mehrzahl von Eingabedatensätze geschehen. So kann für jedes der Paare eines der oben beschriebenen Abstandsmaße bestimmt werden. In vielen Fällen werden die gleichen Berechnungsvorschriften sowohl zum Verarbeiten der Mehrzahl von Eingabedatensätze 21, 22 als auch der Eingabedatensätze des Vergleichskorpus 24 eingesetzt werden.
Die ermittelten Ähnlichkeiten der Paare können zu einer durchschnittlichen Ähnlichkeit bzw. ein durchschnittliches Abstandsmaß zusammengefasst werden, die die zweite Ähnlichkeit sein können (zum Beispiel durch eine Mittelwertbildung oder eine andere Durchschnittsbildung).
Basierend auf der ersten und der zweiten Ähnlichkeit kann nun festgestellt werden, ob die beiden Ähnlichkeiten in einer vorbestimmten Weise voneinander abweichen.
In manchen Beispielen umfasst die vorbestimmte Weise der Abweichung, dass die bestimmte erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen größer ist als die zweite Ähnlichkeit der Eingabesätze der Vergleichskorpus. Zum Beispiel kann die vorbestimmte Weise der Abweichung umfassen, dass die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen um ein Mindestmaß größer ist als die zweite Ähnlichkeit der Eingabesätze der Vergleichskorpus. Wie bereits erwähnt zeichnen sich die Eingabedatensätze eines Angriffs in manchen Fällen durch eine (viel) höhere Ähnlichkeit aus als die von Eingabedatensätzen im „Normalbetrieb“. Zudem kann durch ein Mindestmaß an Abstand verhindert werden, dass die Erkennung der Möglichkeit eines Angriffs zu leicht ausgelöst wird.
In anderen Beispielen kann die die vorbestimmte Weise der Abweichung umfassen, dass die bestimmte erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen kleiner ist als die zweite Ähnlichkeit der Eingabesätze der Vergleichskorpus. Zum Beispiel kann die vorbestimmte Weise der Abweichung umfassen, dass die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen um ein Mindestmaß kleiner ist als die zweite Ähnlichkeit der Eingabesätze der Vergleichskorpus.
Im Beispiel der 2 wird die ermittelte zweite Ähnlichkeit (eine durchschnittliche Ähnlichkeit des Vergleichskorpus) zunächst um eine vorbestimmten Wert erhöht 26, um eine erhöhte zweite Ähnlichkeit zu erhalten. Entsprechende Abstandsmaße werden dementsprechend reduziert (in 2 sind die Berechnungsvorschriften für ein Abstandmaß gezeigt, das um einen vorbestimmten Wert m reduziert wird, um ein reduziertes Abstandsmaß T zu erhalten). Danach wird die erhöhte zweite Ähnlichkeit (oder das reduzierte Abstandsmaß) mit der ersten Ähnlichkeit (oder dem entsprechenden Abstandsmaß) verglichen 27 (in 2 durch die Ungleichung „D>T?“ dargestellt). Ist die erste Ähnlichkeit größer als die erhöhte zweite Ähnlichkeit (bzw. das reduzierte durchschnittliche Abstandsmaß für den Vergleichskorpus 24 größer als das Abstandsmaß der zwei Eingabedatensätze 21, 22), wird die Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator erkannt 28. Im Beispiel der 2 wird also die Möglichkeit eines Angriffs erkannt, wenn die erste Ähnlichkeit der Eingabedatensätze um ein Mindestmaß größer ist als die zweite Ähnlichkeit der Eingabesätze der Vergleichskorpus ist.
Die Berechnungsvorschriften in 2 können in anderen Beispielen variiert werden. Zum Beispiel kann nur die erste Ähnlichkeit oder die erste und die zweite Ähnlichkeit verändert werden, um ein Mindestmaß an Unterschied zu prüfen. In manchen Beispielen kann die Ermittlung der ersten Ähnlichkeit und das Vergleichen mit jedem neuen Eingabedatensatz durchgeführt werden. Wenn zum Beispiel ein dritter Eingabedatensatz an den Computer-basierten Klassifikator übermittelt wird, kann die erste Ähnlichkeit zwischen diesem dritten Eingabedatensatz und dem vorhergehenden Eingabedatensatz (d.h. dem ersten Eingabedatensatz 21) ermittelt werden und erneut diese erste Ähnlichkeit mit der zweiten Ähnlichkeit verglichen werden. Diese Schritte können für weitere Eingabedatensätze entsprechend wiederholt werden. In dieser Weise können sequentiell die ersten Ähnlichkeiten einer Reihe von Eingaben überprüft werden.
Wie erwähnt kann erst dann ein Angriff erkannt werden, wenn mehrfach die Möglichkeit eines Angriffs erkannt wurde.
In anderen Fällen kann die erste Ähnlichkeit anders ermittelt werden. In manchen Beispielen ist die erste Ähnlichkeit eine durchschnittliche Ähnlichkeit. So kann für mehr als zwei Eingabedatensätze eine durchschnittliche Ähnlichkeit in der gleichen Weise ermittelt werden, wie weiter oben in Bezug auf die zweite Ähnlichkeit beschrieben. Die durchschnittliche erste Ähnlichkeit der Mehrzahl von Eingabedatensätze kann dann mit der zweiten Ähnlichkeit des Vergleichskorpus verglichen werden, um die Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator zu erkennen.
Die ersten und zweiten Ähnlichkeiten können wie beschrieben in verschiedenen Weisen ermittelt werden. In manchen Beispielen beruhen die erste und/oder die zweite Ähnlichkeit auf einem oder mehreren von einem Durchschnittswert oder einer Abweichung der jeweiligen Eingabedatensätze oder einer Ähnlichkeit eines Ausschnitts jedes Eingabedatensatzes der jeweiligen Eingabedatensätze. So kann in manchen Beispielen eine Abweichung (z.B. eine Standardabweichung) von einem Durchschnittwert der Eingabedatensätze ein Maß für die erste und/oder zweite Ähnlichkeit sein. Eine niedrige Abweichung von einem Durchschnittswert kann wiederum eine geringe Variabilität und damit eine große Ähnlichkeit der Eingabedatensätze bedeuten. Liegt diese für die Mehrzahl der Eingabedatensätze niedriger (z.B. um ein Mindestmaß niedriger) als für den Vergleichskorpus, kann eine Möglichkeit eines Angriffs erkannt werden. Andere Ensemble-Parameter für die Mehrzahl der Eingabedatensätze und den Vergleichskorpus können ebenfalls für die Ermittlung der ersten bzw. zweiten Ähnlichkeit verwendet werden.
Wie bereits erwähnt können in manchen Beispielen nur Ausschnitte oder Teile der Eingabedatensätze zur Ermittlung der Ähnlichkeiten verwendet werden. So kann im Falle von Bilddaten nur ein Ausschnitt oder Bereich jedes Bilddatums wie besprochen verarbeitet werden (zum Beispiel ein Ausschnitt eines Hintergrunds oder mit einem Objekt).
Nachdem in den vorhergehenden Abschnitten die Ermittlung der Ähnlichkeiten und ihre weitere Verarbeitung besprochen wurde, sollen nun in Bezug auf 3 Systeme und Anwendungen, in denen die Techniken der vorliegenden Offenbarung zum Absichern eines Computer-basierten Klassifikators eingesetzt werden können, genauer beleuchtet werden.
Die vorliegende Offenbarung betrifft jede Vorrichtung, die dazu ausgelegt ist, die in der vorliegenden Offenbarung besprochenen Verfahren auszuführen.
Wie in 3 zu sehen kann die Vorrichtung ein Absicherungs-Modul 35 für einen Computer-basierten Klassifikator 34 umfassen. Das Absicherungs-Modul 35 kann in jeder geeigneten Weise als Hardware- und/oder Software-Modul ausgestaltet sein. Zum Beispiel kann das Absicherungs-Modul 35 ein Software-Modul sein (der Begriff „Software-Modul“ meint hier, dass die Funktionalität des Absicherungs-Modul 35 im Wesentlichen in Software definiert ist und auf generalisierter Hardware ausgeführt wird; der Begriff „Hardware-Modul“ meint dementsprechend, dass die Funktionalität des Absicherungs-Moduls 35 im Wesentlichen in Hardware definiert ist; ein „Software- und Hardware-Modul“ stellt eine Mischung dar). Das Absicherungs-Modul 35 kann mit dem Computer-basierten Klassifikator 34 vernetzt sein.
In manchen Beispielen umfasst die Vorrichtung den Computer-basierten Klassifikator 34. Zum Beispiel können das Absicherungs-Modul 35 und der Computer-basierte Klassifikator 34 in einem Software- und/oder Hardware-Modul integriert sein. In anderen Beispielen können der Computer-basierte Klassifikator 34 und das Absicherungs-Modul 35 über ein Netzwerk verbunden sein (z.B. das Internet oder ein anderes Weitbereichsnetzwerk oder ein Nahbereichsnetzwerk). In jedem Fall kann das Absicherungs-Modul 35 dazu eingerichtet sein, Eingabedatensätze 40, 41 für den Computer-basierte Klassifikator 34 zu empfangen. Die Eingabedatensätze 40, 41 können entweder von dem Computer-basierte Klassifikator 34 empfangen werden oder über einen anderen Kanal (z.B. ein weiteres Modul, das die Eingabedatensätze empfängt und sowohl an den Computer-basierten Klassifikator 34 als auch das Absicherungs-Modul 35 weiterleitet).
Sowohl der der Computer-basierte Klassifikator 34 als auch das Absicherungs-Modul 35 können als Stand-Alone-Module ausgeführt sein oder als Komponente eines Software- und/oder Hardware-Systems integriert sein.
In manchen Beispielen kann der Computer-basierte Klassifikator 34 mit einer Netzwerkschnittstelle (nicht in 2 gezeigt) verbunden sein (oder diese umfassen), die dazu ausgelegt ist, Eingabedatensätze 40, 41 für den Computer-basierten Klassifikator über ein Netzwerk (z.B. das Internet oder ein anderes Weitbereichsnetzwerk oder ein Nahbereichsnetzwerk) zu empfangen. Zum Beispiel kann eine Netzwerkschnittstelle des Computer-basierten Klassifikators 34 als Webinterface ausgestaltet sein, um Eingabedatensätze 40, 41 zu empfangen. Zudem kann der Computer-basierte Klassifikator 34 mit eine Ausgabeschnittstelle (nicht in 2 gezeigt) verbunden sein (oder diese umfassen), die dazu ausgelegt ist, Klassifikationsergebnisse 44, 45, 46 über ein Netzwerk (z.B. das Internet oder ein anderes Weitbereichsnetzwerk oder ein Nahbereichsnetzwerk) auszugeben. Zusätzlich oder alternativ kann Ausgabeschnittstelle ein Mensch-Maschine-Interface umfassen.
Das Absicherungs-Modul 35 kann mit einer Datenbank 36 verbunden sein, in der der Vergleichskorpus von Eingabedatensätzen 42 abgelegt ist. Die Datenbank kann zudem dazu ausgelegt sein, die zweite Ähnlichkeit der Eingabedatensätze des Vergleichskorpus 42 zu ermitteln und an das Absicherungs-Modul 35 zu übermitteln. In anderen Beispielen kann das Absicherungs-Modul 35 die zweite Ähnlichkeit ermitteln. In diesem Fall kann der Vergleichskorpus von Eingabedatensätzen 42 von der Datenbank 36 empfangen werden. In anderen Beispielen kann die Datenbank 36 in dem Absicherungs-Modul 35 integriert sein (und z.B. aus den empfangenen Eingabedatensätzen 40 aufgebaut werden).
In 2 sind zudem zwei Quellen von Eingabedatensätzen 31, 32 gezeigt. Jede Quelle kann ein Computer-System sein. Jede der Quellen 31, 32 übermittelt Eingabedatensätze 40, 41 an den Computer-basierten Klassifikator 34. Zum Beispiel können die Quellen über ein Netzwerk 33 (z.B. das Internet oder ein anderes Weitbereichsnetzwerk oder ein Nahbereichsnetzwerk) mit dem Computer-basierten Klassifikator 34 verbunden sein. Die Quellen 31, 32 können über das Netzwerk 33 Klassifikationsergebnisse 44 von dem Computer-basierten Klassifikator 34 empfangen.
In 2 ist eine erste Quelle 31 ein Angreifer, während eine zweite Quelle 32 ein wohlmeinender Benutzer ist. Die Eingabedatensätze beider Quellen 31, 32 werden von dem Absicherungs-Modul 35 empfangen und gemäß den Techniken der vorliegenden Offenbarung verarbeitet. Dabei kann erkannt werden, dass es sich bei der ersten Quelle 31 um einen Angreifer handelt. Das Absicherungs-Modul 35 und/oder der Computer-basierte Klassifikator 34 und/oder ein weiteres Modul können dazu ausgelegt sein, die Gegenmaßnahmen der vorliegenden Offenbarung zu ergreifen (z.B. der ersten Quelle 31 keine Klassifikationsergebnisse zu übermitteln und/oder die erste Quelle 31 zu blockieren).
In den vorangehenden Absätzen wurde ein Fall geschildert, in dem dem Computer-basierten Klassifikator 34 über ein Netzwerk 33 Eingabedatensätze 40, 41 übermittelt werden. Das Übermitteln von Eingabedatensätzen kann aber auch in anderer Weise geschehen. Zum Beispiel können Eingabedatensätze über ein Sensorsystem, das mit dem Computer-basierten Klassifikator 34 verbunden ist, gespeist werden. Ein Angreifer kann in diesem Fall ausgewählte Eingabedatensätze in das Sensorsystem einspeisen. In anderen Beispielen können Eingabedatensätze direkt in den Computer-basierten Klassifikator 34 eingespeist werden (z.B. im Rahmen eines Ausforschens eines bestimmten Computer-basierten Klassifikators 34).
Nachdem die Systeme der vorliegenden Offenbarung beschrieben wurden, werden in der Folge einige beispielhafte Anwendungen genauer beschrieben.
Wie bereits ausgeführt kann der Computer-basierte Klassifikators ein Bildklassifikator sein. Der Bildklassifikator kann dazu ausgelegt sein, Einzelbilder oder Bewegtbilder in eine oder mehrere Klassen zu klassifizieren (zum Beispiel basierend auf semantischer Segmentation der Einzelbilder oder Bewegtbilder). In diesem Fall sind die Eingabedatensätze Bilddaten.
Alternativ oder zusätzlich kann der Computer-basierte Klassifikator ein Klassifikator für Tondaten sein.
Weiter alternativ oder zusätzlich kann der Computer-basierte Klassifikator ein Klassifikator für Zeitreihen sein. Die Zeitreihen können jedwede Daten umfassen, basierend auf deren der Computer-basierte Klassifikator ein Klassifikationsergebnis ermittelt.
Die Eingabedatensätze für die Computer-basierte Klassifikatoren können aus Sensordaten ermittelt werden. Beispielhafte Sensoren sind Kameras, Radar- oder Lidar-Sensoren, Ultraschallsensoren, thermische Sensoren, und akustische Sensoren.
In manchen Beispielen kann der Computer-basierte Klassifikator zum Erkennen eines Wasserzeichens (englisch „watermark“) oder anderen Sicherheitsmerkmals in einem digitalen Datensatz (z.B. einem Bilddatensatz oder einem Tondatensatz sein, ist aber nicht auf diese Datentypen beschränkt). Der Datensatz kann wiederum basierend auf Sensordaten (wobei das Wasserzeichen oder andere Sicherheitsmerkmal entweder bereits in einem mittels Sensoren erfassten Objekt enthalten ist oder nachträglich in den digitalen Datensatz eingefügt wurde). In anderen Beispielen können die Datensätze an einem Computer-System erzeugte Datensätze sein. Als Wasserzeichen werden Informationen bezeichnet, die in einen Datensatz (z.B. einem Bilddatensatz oder einem Tondatensatz) eingebracht werden, um eine Authentifizierung des Datensatzes zu ermöglichen. Dabei sollen üblicherweise die Inhalte des Datensatzes möglichst wenig verändert werden und zudem das Entfernen des Wasserzeichens möglichst schwierig gestaltet werden. Der der Computer-basierte Klassifikator zum Erkennen eines Wasserzeichens kann nun als Klassifikationsergebnis ausgeben, ob ein Eingabedatensatz mit einem Wasserzeichen versehen ist, oder nicht. Das kann dazu nützlich sein, die unerlaubte Verbreitung geschützter Inhalte zu erkennen.
Angreifer können nun versuchen, ein mit einem Wasserzeichen oder einem anderen Sicherheitsmerkmal versehen Datensatz so zu verändern, dass ein Computer-basierter Klassifikator zum Erkennen eines Wasserzeichens oder anderen Sicherheitsmerkmals den Datensatz als nicht mit einem Wasserzeichen oder anderen Sicherheitsmerkmal versehen klassifiziert (z.B. um geschützte Inhalte zu verbreiten). Das kann, wie oben beschrieben, relativ kleine Änderungen an dem Datensatz umfassen, wobei die geänderten Datensätze jeweils als Eingabedatensätze an den Computer-basierten Klassifikator zum Erkennen eines Wasserzeichens oder anderen Sicherheitsmerkmals übermittelt werden. Mittels der Techniken der vorliegenden Offenbarung kann die größere Ähnlichkeit dieser Eingabedatensätze im Vergleich zu der Ähnlichkeit der Eingabedatensätze eines Vergleichskorpus erkannt und so die Möglichkeit eines Angriffs erkannt werden (und ggf. entsprechende Gegenmaßnahmen wie das Blockieren der eingeleitet werden).
In einem weiteren Beispiel kann der Computer-basierte Klassifikator zur Überwachung eines Umfelds (z.B. eines Fahrzeugs oder einer Überwachungsvorrichtung eines Raums oder einer Industrieanlage) ausgelegt sein. In diesem Fall kann ein Angreifer den Computer-basierten Klassifikator zur Überwachung eines Umfelds und/oder ein mit diesem gekoppeltes Sensorsystem mit Eingabedatensätzen beaufschlagen, um den Computer-basierten Klassifikator zur Überwachung eines Umfelds auszuforschen. Wiederum können dazu die Eingabedatensätze jeweils relativ kleine Änderungen und daher eine hohe Ähnlichkeit im Vergleich zu den Eingabedatensätzen eines Vergleichskorpus aufweisen. Mittels der Techniken der vorliegenden Offenbarung kann die größere Ähnlichkeit dieser Eingabedatensätze im Vergleich zu der Ähnlichkeit der Eingabedatensätze eines Vergleichskorpus erkannt werden und so die Möglichkeit eines Angriffs erkannt werden (und ggf. entsprechende Gegenmaßnahmen eingeleitet wie das Abschalte des Computer-basierten Klassifikators eingeleitet werden).
Diese Anwendungsfälle sind nur beispielhaft und nicht abschließend.
Die Vorrichtungen und Hardware-Module der vorliegenden Offenbarung können einen Prozessor umfassen und Speichervorrichtungen, die mit dem Prozessor gekoppelt sind und Instruktionen enthalten, so dass, wenn sie von dem Prozessor ausgeführt werden, die Schritte der Techniken der vorliegenden Offenbarung ausgeführt werden. Die Vorrichtungen und Hardware-Module können verteilte Systeme sein oder in einem System integriert sein.
Die vorliegende Offenbarung betrifft auch Computerprogramme, die dazu ausgelegt ist, die Verfahren gemäß der vorliegenden Offenbarung auszuführen. Die vorliegende Offenbarung betrifft auch Datenträger oder Signale, der/die die Computerprogramme gemäß der vorliegenden Offenbarung enthält/codiert.

Claims

Verfahren zum Absichern eines Computer-basierten Klassifikators, umfassend: Bestimmen (101; 23) einer ersten Ähnlichkeit einer Mehrzahl von Eingabedatensätzen (21; 22; 40; 41) eines Computer-basierten Klassifikators (35); Vergleichen (103; 27) der bestimmten ersten Ähnlichkeit der Mehrzahl von Eingabedatensätzen (21; 22; 40; 41) und einer zweiten Ähnlichkeit eines Vergleichskorpus von Eingabedatensätzen (24; 42); und Erkennen (105)) der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator (35), wenn die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen (21; 22; 40; 41) und die zweite Ähnlichkeit des Vergleichskorpus (24; 42) in einer vorbestimmten Weise voneinander abweichen.
Verfahren gemäß Anspruch 1, wobei die zweite Ähnlichkeit des Vergleichskorpus von Eingabedatensätzen (24; 42) auf einer Ähnlichkeit von zwei oder mehr der Eingabedatensätze des Vergleichskorpus oder einer Ähnlichkeit eines Ausschnitts jedes Eingabedatensatzes von zwei oder mehr der Eingabedatensätze des Vergleichskorpus (24; 42) beruht.
Verfahren gemäß Anspruch 2, wobei die zweite Ähnlichkeit eine durchschnittliche Ähnlichkeit ist, optional wobei die durchschnittliche Ähnlichkeit basierend auf paarweisen Ähnlichkeiten für mehrere Paare der der Eingabedatensätze des Vergleichskorpus (24; 42) bestimmt ist.
Verfahren gemäß einem der Ansprüche 1 bis 3, wobei die Ähnlichkeit durch ein Abstandsmaß zwischen den jeweiligen Eingabedatensätzen bestimmt ist, insbesondere wobei ein kleineres Abstandmaß eine größere Ähnlichkeit bedeutet.
Verfahren gemäß einem der Ansprüche 1 bis 4, wobei die erste Ähnlichkeit eine Ähnlichkeit eines ersten Eingabedatensatzes (21) und eines zweiten Eingabedatensatzes (22) der Mehrzahl von Eingabedatensätzen ist.
Verfahren gemäß einem der Ansprüche 1 bis 5, wobei die vorbestimmte Weise der Abweichung umfasst, dass die bestimmte erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen (21; 22; 40; 41) größer ist als die zweite Ähnlichkeit der Eingabesätze der Vergleichskorpus (24; 42), insbesondere wobei die vorbestimmte Weise der Abweichung umfasst, dass die erste Ähnlichkeit der Mehrzahl von Eingabedatensätzen (21; 22; 40; 41) um ein Mindestmaß größer ist als die zweite Ähnlichkeit der Eingabesätze der Vergleichskorpus (24; 42).
Verfahren gemäß einem der vorangehenden Ansprüche 1 bis 6, weiter umfassend: Bestimmen (117) der zweiten Ähnlichkeit des Vergleichskorpus von Eingabedatensätzen (24; 42)).
Verfahren gemäß einem der vorangehenden Ansprüche 1 bis 7, weiter umfassend: Erkennen des Vorliegens eines Angriffs basierend auf dem Erkennen (105) der Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator (35); und Einleiten (107) einer oder mehrerer Gegenmaßnahmen gegen den Angriff.
Verfahren gemäß Anspruch 8, wobei die Gegenmaßnahmen eines oder mehrere umfassen von: Identifizieren einer Quelle (31) der Mehrzahl von Eingabedatensätzen (40); Blockieren einer Quelle (31) der Mehrzahl von Eingabedatensätzen (40) in Bezug auf das Übermitteln weiterer Eingabedatensätze an den Computer-basierten Klassifikator (35); Blockieren eines Ausgebens von Klassifikationsergebnissen (44) des Computer-basierten Klassifikators (35) an eine Quelle (31) der Mehrzahl von Eingabedatensätzen (40); Erzeugen einer Warnung, dass die Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator (35) erkannt wurde; und Erzeugen eines Protokolleintrags, dass die Möglichkeit eines Angriffs auf den Computer-basierten Klassifikator (35) erkannt wurde.
Verfahren gemäß einem der Ansprüche 1 bis 9, wobei der Computer-basierte Klassifikator (35) ein Bildklassifikator, ein Klassifikator für Tondaten, ein Klassifikator für Zeitreihen und/oder ein Klassifikator von Sensordaten ist und/oder wobei die Eingabedatensätze Bilddaten, Tondaten, Zeitreihendaten und/oder Sensordaten umfassen.
Verfahren gemäß einem der vorangehenden Ansprüche 1 bis 10, wobei der Angriff ein Orakel-Angriff auf den Computer-basierten Klassifikator (35) ist.
Vorrichtung (34; 35; 36), die dazu ausgelegt ist, das Verfahren gemäß einem der Ansprüche 1 bis 11 auszuführen.
Computerprogramm, dass dazu ausgelegt ist, das Verfahren gemäß einem der Ansprüche 1 bis 11 auszuführen.
Datenträger oder Signal, der/das das Computerprogramm gemäß Anspruch 13 enthält/codiert.