DE102022204863A1

DE102022204863A1 - Detektion von Anomalien in einem technischen System durch Überwachung mit mehreren Sensoren

Info

Publication number: DE102022204863A1
Application number: DE102022204863.6A
Authority: DE
Inventors: Andres Mauricio Munoz Delgado
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-11-23
Also published as: WO2023222381A1

Abstract

Verfahren (100) zur Erkennung von Anomalien in einem technischen System (1), dessen Verhalten durch eine Anordnung aus n Sensoren überwacht wird, mit den Schritten:• für jeden Sensor k = 1, ..., n wird eine ZeitreiheRktvon N Beobachtungen dieses Sensors für Zeitpunkte t = 1, ..., N erfasst (110);• für jeden Zeitpunkt t = 1, ...,N sowie für die Indizes i = 1, ..., n und j = 1, ..., n werden KenngrößenKi,jt,die paarweise bedingte Wahrscheinlichkeitsverteilungen PD(i | j) von Beobachtungen der Sensoren i und j charakterisieren, ermittelt (120);• ein Tensor K* aller KenngrößenKi,jtwird von einem trainierten Machine Learning-Modell (2) auf eine Klassifikation (3) dahingehend abgebildet (130), ob das Verhalten des technischen Systems (1) normal oder anormal ist.

Description

Die vorliegende Erfindung betrifft die sensorische Überwachung technischer Systeme zur Erkennung von bekannten und auch unbekannten Anomalien.
Stand der Technik
Komplexe technische Systeme, wie beispielsweise Fahrzeuge oder Industrieanlagen, werden durch eine Vielzahl von Sensoren überwacht, um Anomalien des Betriebs zu erkennen. Hierbei ist es tendenziell schwierig, Anomalien des überwachten technischen Systems von den unvermeidlichen Störungen der sensorischen Überwachung zu unterscheiden. So sind die von den Sensoren erfassten Messsignale häufig mit Rauschen behaftet, und ihre Übertragung über ein Netzwerk kann zeitverzögert sein. Auch wird es mit zunehmender Anzahl der Sensoren immer wahrscheinlicher, dass die Funktion einzelner Sensoren gestört ist. Um basierend auf konkreten Regeln Anomalien zu erkennen und hierbei die genannten Einflüsse auszublenden, müssten die Messdaten sehr stark geglättet werden, wobei sehr viel Information verloren ginge.
Offenbarung der Erfindung
Die Erfindung stellt ein Verfahren zur Erkennung von Anomalien in einem technischen System, dessen Verhalten durch eine Anordnung aus n Sensoren überwacht wird, bereit.
Im Rahmen des Verfahrens wird für jeden Sensor k = 1, ...,n eine Zeitreihe $R_{k}^{t}$
von N Beobachtungen dieses Sensors für Zeitpunkte t = 1, ...,N erfasst. Für jeden Zeitpunkt t = 1, ...,N sowie für die Indizes i = 1, ...,n und j = 1, ...,n wird eine Kenngröße $K_{i, j}^{t}$
ermittelt, die eine paarweise bedingte Wahrscheinlichkeitsverteilung P_D(i | j) von Beobachtungen der Sensoren i und j charakterisiert. P_D (i | j) beschreibt also ausgehend von einer gegebenen Situation, in der der Sensor j eine konkrete Beobachtung liefert, Wahrscheinlichkeiten dafür, dass der Sensor i bestimmte konkrete Beobachtungen liefert. Beispielsweise kann $K_{i, j}^{t}$
als der Mittelwert einer Verteilung von Beobachtungen des Sensors i für alle Zeitschritte ermittelt werden, an denen die Beobachtung des Sensors j den gleichen Wert hat wie im Zeitschritt t. Da die Beobachtungen reellwertig sind, sind möglicherweise keine zwei Beobachtungen exakt gleich, so dass das Erfordernis des „gleichen Werts“ insbesondere beispielsweise zu „in einem Intervall von ± ε um den Wert im Zeitschritt t“ aufgeweicht werden kann. Die Kenngröße $K_{i, j}^{t}$
kann sich alternativ oder in Kombination hierzu auch auf beliebige andere Eigenschaften der paarweise bedingte Wahrscheinlichkeitsverteilung P_D (i | j) beziehen und beispielsweise eine Kenngröße der deskriptiven Statistik von P_D (i | j) umfassen, wie etwa eine Standardabweichung, wenn P_D(i | j) eine Gauß-Verteilung ist. Die Verteilung P_D(i | j) kann auch in beliebiger anderer Weise ermittelt oder angenähert werden, und hieraus kann dann die Kenngröße $K_{i, j}^{t}$
ermittelt werden.
Ein Tensor K* aller Kenngrößen $K_{i, j}^{t}$
ist somit ein „Fingerabdruck“ des Verhaltens des technischen Systems, der die inhärenten Korrelationen zwischen den einzelnen Sensormodalitäten erfasst.
Genau dieser „Fingerabdruck“ K* wird von einem trainierten Machine Learning-Modell auf eine Klassifikation dahingehend abgebildet, ob das Verhalten des technischen Systems normal oder anormal ist. Diese Klassifikation kann eine beliebige Form haben. Sie kann beispielsweise binär sein oder aber einen oder mehrere reellwertige Scores in Bezug auf bestimmte Aspekte des Betriebes enthalten.
Es wurde erkannt, dass die physikalische Konfiguration vieler technischer Systeme physikalische Wechselwirkungen zwischen den von verschiedenen Sensoren erfassten Messgrößen definiert und somit zeitliche Korrelationen zwischen diesen Messgrößen hervorruft. Wenn beispielsweise an einem Ende einer Rohrleitung ein Durchfluss eines fluiden Mediums registriert wird, ist dies damit korreliert, dass wenig später am anderen Ende der Rohrleitung eine veränderte Temperatur registriert wird. Das Vorhandensein einer derartigen Korrelation kann dann als Signal dafür gewertet werden, ob das technische System normal funktioniert. Wenn die Rohrleitung beispielsweise leckgeschlagen oder abgerissen ist und das am einen Ende durchfließende Medium nicht am anderen Ende ankommt, sondern sich stattdessen in die Fabrikhalle ergießt, fehlt plötzlich die Korrelation der veränderten Temperatur mit dem Durchfluss.
Daher werden vorteilhaft mindestens zwei Sensoren für Messgrößen gewählt, zwischen denen die physikalische Konfiguration des technischen Systems im Nominalzustand dieses Systems eine physikalische Wechselwirkung vermittelt.
Die eine Messgröße kann insbesondere beispielsweise ein Maß für eine dem technischen System zugeführte oder in ihm vorhandene Energiemenge sein, und die andere Messgröße kann dann ein Maß für die vorhandene Energiemenge oder eine Energieabgabe durch das technische System sein. Im genannten Beispiel mit der Rohrleitung bringt ein am einen Ende der Rohrleitung zugeführtes warmes Fluid Energie in die Rohrleitung ein, und wenn die Rohrleitung hierdurch erwärmt wird, strahlt sie wiederum Energie ab. Auch wird sich beispielsweise ein erhöhter Motorstrom einer elektrischen Maschine in einer erhöhten Amplitude von Vibrationen dieser Maschine manifestieren. Da die Energie eine physikalische Erhaltungsgröße ist, gibt es in vielen technischen Systemen zeitliche Korrelationen zwischen Messwerten, die verschiedene Sensoren liefern. Diese Korrelationen müssen nicht explizit analysiert und formuliert werden, um mit ihnen das technische System auf normale Funktion zu überwachen. Es genügt, dass die Korrelationen im normalen Betrieb einfach physikalisch vorhanden sind, so dass sie vom Machine Learning-Modell gelernt werden können.
In einer weiteren vorteilhaften Ausgestaltung werden mindestens zwei weitere Sensoren für weitere Messgrößen gewählt, zwischen denen die physikalische Konfiguration des technischen Systems im Nominalzustand dieses Systems eine physikalische Wechselwirkung ausschließt. So sollten beispielsweise Drücke in nicht miteinander verbundenen Bereichen oder Behältnissen nicht miteinander korreliert sein. Existiert eine derartige Korrelation aber doch, kann dies darauf hindeuten, dass es ein unerwünschtes Leck zwischen den Bereichen bzw. Behältnissen gibt.
Daher können insbesondere beispielsweise die weiteren Sensoren auf unterschiedlichen Seiten einer Barriere angeordnet sein, die die physikalische Wechselwirkung zwischen den weiteren Messgrößen im Nominalzustand des technischen Systems unterbindet.
Das Machine Learning-Modul kann insbesondere beispielsweise das normale Verhalten des technischen Systems lernen und dann alles, was „irgendwie anders“ ist, als Anomalie klassifizieren, und zwar auch dann, wenn sich die Anomalie nur in einem kleinen Signalanteil eines oder mehrerer mit den Sensoren erfasster Messsignale bezieht. Dies ist ein Stück weit analog dazu, dass eine Einbruchmeldeanlage keinen Alarm auslöst, wenn der rechtmäßige Hausbewohner mit einem Hammer einen Nagel in die Wand schlägt, während sie zugleich die durch manuelle Bearbeitung des Türschlosses mit Aufsperrwerkzeugen hervorgerufenen Arbeitsgeräusche als Einbruchsversuch erkennt und Alarm auslöst.
Das technische System kann insbesondere beispielsweise ein Fahrzeug oder eine Industrieanlage, die ein oder mehrere Edukte durch einen oder mehrere Verarbeitungsschritte zu einem oder mehreren Produkten verarbeitet, sein. Sowohl in Fahrzeugen als auch in Industrieanlagen wird derzeit schon eine Vielzahl von Messwerten sensorisch erfasst und kann mit dem hier vorgeschlagenen Verfahren besser im Hinblick auf mögliche Anomalien ausgewertet werden. Speziell ein Fahrzeug vermittelt über seine Karosserie, in und an der die Sensoren auf vergleichsweise engem Raum verteilt sind, eine Vielzahl von Korrelationen, die sich zur Erkennung von Anomalien nutzen lassen. In einer Industrieanlage werden derartige Korrelationen beispielsweise durch Materialflüsse von Edukten und/oder Produkten durch die Anlage vermittelt. Steuergeräte in Fahrzeugen, sowie „Plant Historians“ in Industrieanlagen, protokollieren darüber hinaus automatisch eine Vielzahl von Messwerten mit.
Diese Protokolle lassen sich beispielsweise nutzen, um in Verbindung mit dem Wissen, dass es zu bestimmten Zeiten Anomalien gegeben hat oder eben nicht, gelabelte Trainingsdaten sowohl für den normalen Zustand als auch für den anormalen Zustand zu gewinnen. Mit diesen gelabelten Trainingsdaten kann das Machine Learning-Modell überwacht trainiert werden. Es können insbesondere beispielsweise paarweise bedingte Wahrscheinlichkeitsverteilungen P_D(i | j) mit Hilfe von Trainingsdaten ermittelt und/oder angenähert werden. Wie weit ein Machine Learning-Modell in die Vergangenheit blicken kann, wird durch die gewählten Architekturparameter festgelegt, wie beispielsweise den Breiten von Filterkernen in Faltungsschichten.
In einer weiteren vorteilhaften Ausgestaltung wird aus der vom Machine Learning-Modell gelieferten Klassifikation ein Ansteuersignal gebildet. Das technische System wird mit diesem Ansteuersignal angesteuert. Beispielsweise kann in Antwort darauf, dass in einem Fahrzeug eine Anomalie festgestellt wurde, die Höchstgeschwindigkeit reduziert, das Ausführen bestimmter riskanter Fahrmanöver (etwa Überholmanöver) unterbunden oder das Fahrzeug auf einer vorausgeplanten Notstopptrajektorie zum Halten gebracht werden. Eine Industrieanlage kann beispielsweise in einen abgesicherten Modus geschaltet werden, in dem der Durchsatz der Anlage auf ein Mindestmaß reduziert wird. In diesem abgesicherten Modus kann die Anlage dann beispielsweise bei einem Ausfall der automatischen Steuerung auch manuell gefahren werden.
Wie zuvor erwähnt, kann das Machine Learning-Modell mit gelabelten Trainings-Beispielen von Tensoren K* trainiert werden. Jedoch sind speziell gelabelte Trainings-Beispiele für Anomalien häufig knapp, da die technischen Systeme doch meistens so gut arbeiten, dass Anomalien selten sind.
Daher stellt die Erfindung ein Verfahren zum Trainieren eines Machine Learning-Modells für den Einsatz in dem zuvor beschriebenen Verfahren bereit, das mit nur wenigen gelabelten Trainings-Beispielen auskommt.
Im Rahmen dieses Verfahrens werden Trainings-Beispiele für Tensoren K* von Kenngrößen $K_{i, j}^{t},$
die paarweise bedingte Wahrscheinlichkeitsverteilungen P_D (i | j) von Beobachtungen der Sensoren i und j charakterisieren, bereitgestellt.
Für diese Trainings-Beispiele muss noch nicht bekannt sein, ob sie sich auf normales oder anormales Verhalten des technischen Systems beziehen.
Es wird eine Verteilung von Störungen p bereitgestellt, für die bekannt ist, dass sie einen Tensor K* nur in einer Weise abändern, wie dies auch im normalen Betrieb des technischen Systems geschehen kann.
Ein Beispiel für solche Störungen p ist additives normalverteiltes Rauschen, wie es ja auch in den von den Sensoren gelieferten Beobachtungen jeweils enthalten sein kann.
Weitere Beispiele sind ein stochastisches Nullsetzen von Nichtdiagonalelementen des Tensors K*, eine Ersetzung von Elementen $K_{i, j}^{t}$
auf der Ebene t durch Elemente $K_{i, j}^{t + 1}, K_{i, j}^{t - 1}$
auf den Ebenen t + 1 bzw. t - 1, und/oder eine Vertauschung von Ebenen t, t' des Tensors K*. Diese Störungen simulieren Fehler, die bei der sensorischen Erfassung und der Übertragung der Messdaten über ein Netzwerk auftreten können. So kann eine Durchmischung von Elementen $K_{i, j}^{t}$
auf der Ebene t mit Elemente $K_{i, j}^{t + 1}, K_{i, j}^{t - 1}$
auf den Ebenen t + 1 bzw. t - 1 beispielsweise durch eine ungenaue Zeitsynchronisation zwischen Sensoren verursacht werden. Eine schlechte Zeitsynchronisation oder auch Probleme bei der Übertragung der Messdaten über ein Netzwerk können beispielsweise zum Vertauschen von Ebenen t, t' führen. Sporadische Sensorfehler können sich beispielsweise in fehlenden Nichtdiagonalelementen im Tensor K* manifestieren.
Mit den Störungen p können sogenannte positive und negative Paare für den Prozess des kontrastiven Lernens erstellt werden. Kontrastives Lernen ist selbstüberwachtes Lernen anhand von positiven und negativen Beispielen, von denen bekannt ist, dass sie ähnlich bzw. unähnlich zueinander sein sollten.
Positive Paare $(K_{p_{1}}^{*}, K_{p_{2}}^{*})$
von Abwandlungen $K_{p_{1}}^{*} und K_{p_{2}}^{*}$
werden durch Anwenden zweier aus der Verteilung gesampelter Störungen p₁ und p₂ auf ein und dasselbe Trainings-Beispiel K* erzeugt. Die Abwandlungen $K_{p_{1}}^{*} und K_{p_{2}}^{*}$
in diesen Paaren unterscheiden sich also lediglich hinsichtlich Störungen, wie sie im normalen Betrieb des technischen Systems und der sensorischen Überwachung auch vorkommen. Daher sollte das Machine Learning-Modell diese Abwandlungen $K_{p_{1}}^{*} und K_{p_{2}}^{*}$
als zueinander ähnlich erkennen.
Negative Paare $(K_{p_{1}}^{*'}, K_{p_{2}}^{*''})$
von Abwandlungen $K_{p_{1}}^{*'} und K_{p_{2}}^{*''}$
durch Anwenden zweier aus der Verteilung gesampelter Störungen p₁ und p₂ auf zwei verschiedene Trainings-Beispiele K*' und K*'' erzeugt. Die Abwandlungen $K_{p_{1}}^{*'}$
und $K_{p_{2}}^{*''}$
in diesen Paaren unterscheiden sich also nicht nur um besagte übliche Störungen, sondern es handelt sich um Abwandlungen zweier völlig verschiedener Beispiele. Daher sollte das Machine Learning-Modell diese Abwandlungen $K_{p_{1}}^{*'} und K_{p_{2}}^{*''}$
als zueinander unähnlich erkennen.
Um das Machine Learning-Modell genau hierauf zu trainieren, werden mit dem zu trainierenden Machine Learning-Modell aus den Abwandlungen $K_{p_{1}}^{*}, K_{p_{2}}^{*}, K_{p_{1}}^{*'} und K_{p_{2}}^{*''}$

jeweils Verarbeitungsprodukte $V (K_{p_{1}}^{*}), V (K_{p_{2}}^{*}), V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''})$
erzeugt. Dies muss noch nicht die jeweilige finale Ausgabe des Machine Learning-Modells sein, die die Klassifikation hinsichtlich des normalen oder anormalen Zustandes erkennen lässt. Vielmehr kann das Machine Learning-Modell beispielsweise einen Merkmalsextraktor, der Merkmale aus dem Tensor K* extrahiert, und einen Klassifikations-Kopf, der diese Merkmale auf die gesuchte Klassifikation des Verhaltens des technischen Systems abbildet, umfassen. Der Merkmalsextraktor kann insbesondere beispielsweise eine Abfolge aus mehreren Faltungsschichten umfassen, die ihre jeweilige Eingabe durch Anwenden eines oder mehrerer Filterkerne in eine dimensionsreduzierte Merkmalskarte umwandeln. Die Verarbeitungsprodukte $V (K_{p_{1}}^{*}), V (K_{p_{2}}^{*}), V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''})$

können dann von dem Merkmalsextraktor gebildet werden.
Im Rahmen des kontrastiven Lernens werden nun Parameter, die das Verhalten des Machine Learning-Modells charakterisieren, optimiert mit dem Ziel, dass

• eine Ähnlichkeit von Verarbeitungsprodukten $V (K_{p_{1}}^{*}) und V (K_{p_{2}}^{*}),$
die sich auf positive Paare $(K_{p_{1}}^{*}, K_{p_{2}}^{*})$
bezieht, maximiert wird und
• eine Ähnlichkeit von Verarbeitungsprodukten $V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''}),$
die sich auf negative Paare $(K_{p_{1}}^{*'}, K_{p_{2}}^{*''})$
bezieht, minimiert wird.

Das heißt, der Merkmalsextraktor des Machine Learning-Modells wird darauf trainiert, in dem latenten Raum seiner Ausgabe Verarbeitungsprodukte $V (K_{p_{1}}^{*})$
und $V (K_{p_{2}}^{*}),$
die auf positive Paare $(K_{p_{1}}^{*}, K_{p_{2}}^{*})$
zurückgehen, nahe beieinander zu platzieren. Er wird gleichzeitig darauf trainiert, in diesem latenten Raum Verarbeitungsprodukte $V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''}),$
die auf negative Paare $(K_{p_{1}}^{*'}, K_{p_{2}}^{*''})$
zurückgehen, weit entfernt voneinander zu platzieren. Das Verarbeitungsprodukt $V (K_{p_{1}}^{*})$
kann also zu einem Punkt z_i im latenten Raum korrespondieren, und das Verarbeitungsprodukt $V (K_{p_{2}}^{*})$
zu dem gleichen positiven Paar kann zu einem Punkt z_j im latenten Raum korrespondieren. Eine beispielhafte Kostenfunktion, die misst, ob die Punkte z_i und z_j nahe beieinander liegen, ist der NT-Xent-Loss („normalized temperature-scaled cross entropy): $L_{i, j} = - log (\frac{exp (\frac{Ψ (z_{i}, z_{j})}{τ})}{Σ_{k} 1_{[k - i]} exp (\frac{Ψ (z_{i}, z_{j})}{τ})}),$
worin die Funktion Ψ die Ähnlichkeit misst und τ ein Temperaturparameter ist. Der Temperaturparameter τ kann insbesondere beispielsweise nach einem „Annealing-Plan“ als Funktion der Epochenzahl variiert werden.
Das Machine Learning-Modell kann also einen Großteil seines Trainings in dieser Weise selbstüberwacht absolvieren, ohne dass hierfür gelabelte Trainings-Beispiele genutzt werden müssen.
Es kann dann beispielsweise der Klassifikations-Kopf mit Trainings-Beispielen K*, die mit Soll-Klassifikationen gelabelt sind, überwacht trainiert werden. Da der Klassifikations-Kopf nur einen kleinen Anteil des Machine Learning-Modells ausmacht, insbesondere in Bezug auf die Anzahl der zu optimierenden Parameter, genügt für dieses Training eine vergleichsweise geringe Anzahl gelabelter Trainings-Beispiele. In diesem Zusammenhang ist es auch besonders vorteilhaft, dass der Klassifikations-Kopf ein bereits als Ergebnis des selbstüberwachten Trainings gut vorsortiertes Verarbeitungsprodukt als Eingabe erhält. Der Klassifikations-Kopf muss also nicht durch erhöhten Trainingsaufwand etwas richten, was zuvor versäumt worden ist.
Die Erfindung stellt noch ein weiteres Verfahren zum Trainieren eines Machine Learning-Verfahrens für den Einsatz in dem eingangs beschriebenen Verfahren bereit. Im Unterschied zu dem zuvor beschriebenen kontrastiven Lernen verwendet dieses Verfahren ein normales überwachtes Training.
Im Rahmen dieses Verfahrens werden Trainings-Beispiele für Tensoren K* von Kenngrößen $K_{i, j}^{t}$
bereitgestellt, die paarweise bedingte Wahrscheinlichkeitsverteilungen P_D (i | j) von Beobachtungen der Sensoren i und j charakterisieren. Diese Trainings-Beispiele K* beziehen sich auf ein normales Verhalten des technischen Systems.
Es wird nun eine Verteilung von Störungen p* bereitgestellt, für die bekannt ist, dass sie einen Tensor K* in einer Weise abändern, wie dies im normalen Betrieb des technischen Systems nicht zu erwarten ist. Ein Beispiel für derartige Störungen ist uniform verteiltes Rauschen.
Durch Anwenden von aus der Verteilung gesampelten Störungen p* auf Trainings-Beispiele K* werden Abwandlungen K̃* erzeugt. Das Machine Learning-Modell wird mit den Trainings-Beispielen K* für ein normales Verhalten des technischen Systems einerseits und mit den Abwandlungen K̃* als Trainings-Beispiele für ein anormales Verhalten des technischen Systems andererseits überwacht trainiert.
Mit diesem Verfahren kann das Machine Learning-Modell einstufig direkt auf die gewünschte Klassifikationsaufgabe trainiert werden, sofern für die jeweilige Anwendung eine passende Verteilung von Störungen p* verfügbar ist. Sofern eine solche Verteilung von Störungen p* hingegen nicht verfügbar oder schwierig zu modellieren ist, kann auf den zuvor beschriebenen Ansatz über kontrastives Lernen zurückgegriffen werden. Ein wichtiger Vorteil des kontrastiven Lernens ist, dass es nicht auf eine Modellierung der Störungen p* angewiesen ist.
Optional können im Rahmen dieses Verfahrens die Trainings-Beispiele K* durch Anwenden der im Zusammenhang mit dem kontrastiven Lernen diskutierten Störungen p zu weiteren Abwandlungen augmentiert werden, die dann im Rahmen des überwachten Lernens als weitere Trainings-Beispiele für normales Verhalten verwendet werden können.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zur Erkennung von Anomalien in einem technischen System 1;
2 Veranschaulichung eines Tensors K* von Kenngrößen $K_{i, j}^{t};$
3 Ausführungsbeispiel des Verfahrens 200 zum Trainieren eines Machine Learning-Modells 2;
4 Ausführungsbeispiel des Verfahrens 300 zum Trainieren eines Machine Learning-Modells 2.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Erkennung von Anomalien in einem technischen System 1. Das Verhalten dieses Systems 1 wird durch eine Anordnung aus n Sensoren überwacht.
In Schritt 110 wird für jeden Sensor k = 1, ..., n eine Zeitreihe $R_{k}^{t}$
von N Beobachtungen dieses Sensors für Zeitpunkte t = 1, ..., N erfasst.
Hierbei können gemäß Block 111 mindestens zwei Sensoren für Messgrößen gewählt werden, zwischen denen die physikalische Konfiguration des technischen Systems 1 im Nominalzustand dieses Systems 1 eine physikalische Wechselwirkung vermittelt. Gemäß Block 111a können dann auch optional mindestens zwei weitere Sensoren für weitere Messgrößen gewählt werden, zwischen denen die physikalische Konfiguration des technischen Systems 1 im Nominalzustand dieses Systems 1 eine physikalische Wechselwirkung ausschließt.
In Schritt 120 werden für jeden Zeitpunkt t = 1, ...,N sowie für die Indizes i = 1, ...,n und j = 1, ...,n Kenngrößen $K_{i, j}^{t},$
die paarweise bedingte Wahrscheinlichkeitsverteilungen P_D(i | j) von Beobachtungen der Sensoren i und j charakterisieren, ermittelt (120).
In Schritt 130 wird ein Tensor K* aller Kenngrößen $K_{i, j}^{t}$
von einem trainierten Machine Learning-Modell 2 auf die gesuchte Klassifikation 3 dahingehend abgebildet, ob das Verhalten des technischen Systems 1 normal oder anormal ist.
In Schritt 140 wird aus der vom Machine Learning-Modell 2 gelieferten Klassifikation 3 ein Ansteuersignal 4 gebildet.
In Schritt 150 wird das technische System 1 mit dem Ansteuersignal 4 angesteuert.
2 veranschaulicht die Bildung des Tensors K* anhand eines einfachen Beispiels mit drei zeitabhängigen Beobachtungen x(t), y(t) und z(t). Für jeden Zeitpunkt t lassen sich ausgehend davon, dass einer der drei Werte x(t), y(t) und z(t) gegeben ist, bedingte Wahrscheinlichkeiten für die Werte aller Variablen (t), y(t) und z(t) angeben. Kenngrößen $K_{i, j}^{t},$
die Verteilungen dieser paarweise bedingten Wahrscheinlichkeiten charakterisieren, werden in einer zweidimensionalen Matrix zusammengetragen. Alle derartigen Matrizen für alle Zeitpunkte t bilden zusammen den Tensor K*.
3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 zum Trainieren eines Machine Learning-Modells 2 für den Einsatz in dem im Zusammenhang mit 1 beschriebenen Verfahren 100. Das Verfahren 200 basiert auf kontrastivem Lernen.
In Schritt 210 werden Trainings-Beispiele für Tensoren K* von Kenngrößen $K_{i, j}^{t},$
die paarweise bedingte Wahrscheinlichkeitsverteilungen P_D(i | j) von Beobachtungen der Sensoren i und j charakterisieren, bereitgestellt.
In Schritt 220 wird eine Verteilung von Störungen p bereitgestellt, für die bekannt ist, dass sie einen Tensor K* nur in einer Weise abändern, wie dies auch im normalen Betrieb des technischen Systems geschehen kann.
In Schritt 230 werden positive Paare $(K_{p_{1}}^{*}, K_{p_{2}}^{*})$
von Abwandlungen $K_{p_{1}}^{*} und K_{p_{2}}^{*}$
durch Anwenden zweier aus der Verteilung gesampelter Störungen p₁ und p₂ auf ein und dasselbe Trainings-Beispiel K* erzeugt. Diese Abwandlungen unterscheiden sich somit nur um Störungen p, die auch bei normalen Verhalten des technischen Systems 1 und der sensorischen Datenerfassung auftreten.
In Schritt 240 werden negative Paare $(K_{p_{1}}^{*'}, K_{p_{2}}^{*''})$
von Abwandlungen $K_{p_{1}}^{*'} und K_{p_{2}}^{*''}$
durch Anwenden zweier aus der Verteilung gesampelter Störungen p₁ und p₂ auf zwei verschiedene Trainings-Beispiele K*' und K*'' erzeugt. Diese Abwandlungen unterscheiden sich somit um mehr als nur „normale“ Störungen p.
In Schritt 250 werden mit dem zu trainierenden Machine Learning-Modell (2) aus den Abwandlungen $K_{p_{1}}^{*}, K_{p_{2}}^{*}, K_{p_{1}}^{*'} und K_{p_{2}}^{*''}$
jeweils Verarbeitungsprodukte
$V (K_{p_{1}}^{*}), V (K_{p_{2}}^{*}), V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''})$
erzeugt.
Gemäß Block 251 kann das Machine Learning-Modell 2 einen Merkmalsextraktor 21, der Merkmale aus dem Tensor K* extrahiert, und einen Klassifikations-Kopf 22, der diese Merkmale auf die gesuchte Klassifikation des Verhaltens des technischen Systems abbildet, umfasst.
In Schritt 260 werden Parameter 2a, die das Verhalten des Machine Learning-Modells 2 charakterisieren, optimiert mit dem Ziel einer maximalen Ähnlichkeit zwischen $(K_{p_{1}}^{*}) und V (K_{p_{2}}^{*})$
bei gleichzeitig minimaler Ähnlichkeit zwischen $V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''}) .$
Diese Parameter können insbesondere die Parameter 21a des Merkmalsextraktors 21 sein. Der fertig optimierte Zustand der Parameter 2a, 21a ist mit dem Bezugszeichen 2a*, 21a* bezeichnet.
In Schritt 270 wird der Klassifikations-Kopf 22 mit Trainings-Beispielen K*, die mit Soll-Klassifikationen gelabelt sind, überwacht trainiert. Das heißt, die Parameter 22a, die das Verhalten des Klassifikations-Kopfes 22 charakterisieren, werden optimiert mit dem Ziel, dass die Trainings-Beispiele K* vom Machine Learning-Modell 2 auf die jeweiligen Soll-Klassifikationen abgebildet werden. Der fertig optimierte Zustand dieser Parameter ist mit dem Bezugszeichen 22a* bezeichnet.
4 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 300 zum Trainieren eines Machine Learning-Modells 2 für den Einsatz in dem im Zusammenhang mit 1 beschriebenen Verfahren 100. Im Unterschied zum Verfahren 200 basiert dieses Verfahren auf überwachtem Training.
In Schritt 310 werden Trainings-Beispiele für Tensoren K* von Kenngrößen $K_{i, j}^{t},$
die paarweise bedingte Wahrscheinlichkeitsverteilungen P_D(i | j) von Beobachtungen der Sensoren i und j charakterisieren, bereitgestellt. Diese Trainings-Beispiele K* beziehen sich auf ein normales Verhalten des technischen Systems 1.
In Schritt 320 wird eine Verteilung von Störungen p* bereitgestellt, für die bekannt ist, dass sie einen Tensor K* in einer Weise abändern, wie dies im normalen Betrieb des technischen Systems nicht zu erwarten ist.
In Schritt 330 werden durch Anwenden von aus der Verteilung gesampelten Störungen p* auf Trainings-Beispiele K* Abwandlungen K̃* erzeugt.
In Schritt 340 wird das Machine Learning-Modell 2 wird mit den Trainings-Beispielen K* für ein normales Verhalten des technischen Systems 1 einerseits und mit den Abwandlungen K̃* als Trainings-Beispiele für ein anormales Verhalten des technischen Systems 1 andererseits überwacht trainiert. Das heißt, die Parameter 2a, die das Verhalten des Machine Learning-Modells 2 charakterisieren, werden direkt optimiert mit dem Ziel, dass die Trainings-Beispiele K* auf eine Klassifikation als normal und die Abwandlungen K̃* auf eine Klassifikation als anormal abgebildet werden.

Claims

Verfahren (100) zur Erkennung von Anomalien in einem technischen System (1), dessen Verhalten durch eine Anordnung aus n Sensoren überwacht wird, mit den Schritten: • für jeden Sensor k = 1, ..., n wird eine Zeitreihe $R_{k}^{t}$
von N Beobachtungen dieses Sensors für Zeitpunkte t = 1, ..., N erfasst (110); • für jeden Zeitpunkt t = 1, ...,N sowie für die Indizes i = 1, ..., n und j = 1, ..., n wird eine Kenngröße $K_{i, j}^{t},$
die eine paarweise bedingte Wahrscheinlichkeitsverteilung P_D(i | j) von Beobachtungen der Sensoren i und j charakterisiert, ermittelt (120); • ein Tensor K* aller Kenngrößen $K_{i, j}^{t}$
wird von einem trainierten Machine Learning-Modell (2) auf eine Klassifikation (3) dahingehend abgebildet (130), ob das Verhalten des technischen Systems (1) normal oder anormal ist.
Verfahren (100) nach Anspruch 1, wobei mindestens zwei Sensoren für Messgrößen gewählt werden (111), zwischen denen die physikalische Konfiguration des technischen Systems (1) im Nominalzustand dieses Systems (1) eine physikalische Wechselwirkung vermittelt.
Verfahren (100) nach Anspruch 2, wobei die eine Messgröße ein Maß für eine dem technischen System zugeführte oder in ihm vorhandene Energiemenge ist und wobei die andere Messgröße ein Maß für die vorhandene Energiemenge oder eine Energieabgabe durch das technische System ist.
Verfahren (100) nach einem der Ansprüche 2 bis 3, wobei mindestens zwei weitere Sensoren für weitere Messgrößen gewählt werden (111a), zwischen denen die physikalische Konfiguration des technischen Systems (1) im Nominalzustand dieses Systems (1) eine physikalische Wechselwirkung ausschließt.
Verfahren (100) nach Anspruch 4, wobei die weiteren Sensoren auf unterschiedlichen Seiten einer Barriere angeordnet sind, die die physikalische Wechselwirkung zwischen den weiteren Messgrößen im Nominalzustand des technischen Systems (1) unterbindet.
Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei ein Fahrzeug oder eine Industrieanlage, die ein oder mehrere Edukte durch einen oder mehrere Verarbeitungsschritte zu einem oder mehreren Produkten verarbeitet, als technisches System (1) gewählt wird.
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei • aus der vom Machine Learning-Modell (2) gelieferten Klassifikation (3) ein Ansteuersignal (4) gebildet wird (140) und • das technische System (1) mit dem Ansteuersignal (4) angesteuert wird (150).
Verfahren (200) zum Trainieren eines Machine Learning-Modells (2) für den Einsatz in dem Verfahren (100) nach einem der Ansprüche 1 bis 7 mit den Schritten: • es werden Trainings-Beispiele für Tensoren K* von Kenngrößen $K_{i, j}^{t},$
die paarweise bedingte Wahrscheinlichkeitsverteilungen P_D(i | j) von Beobachtungen der Sensoren i und j charakterisieren, bereitgestellt (210); • es wird eine Verteilung von Störungen p bereitgestellt (220), für die bekannt ist, dass sie einen Tensor K* nur in einer Weise abändern, wie dies auch im normalen Betrieb des technischen Systems geschehen kann; • es werden positive Paare $(K_{p_{1}}^{*}, K_{p_{2}}^{*})$
von Abwandlungen $K_{p_{1}}^{*} und K_{p_{2}}^{*}$
durch Anwenden zweier aus der Verteilung gesampelter Störungen p₁ und p₂ auf ein und dasselbe Trainings-Beispiel K* erzeugt (230); • es werden negative Paare $(K_{p_{1}}^{*'}, K_{p_{2}}^{*''})$
von Abwandlungen $K_{p_{1}}^{*'} und K_{p_{2}}^{*''}$
durch Anwenden zweier aus der Verteilung gesampelter Störungen p₁ und p₂ auf zwei verschiedene Trainings-Beispiele K*' und K*'' erzeugt (240); • mit dem zu trainierenden Machine Learning-Modell (2) werden aus den Abwandlungen $K_{p_{1}}^{*}, K_{p_{2}}^{*}, K_{p_{1}}^{*'} und K_{p_{2}}^{*''}$
jeweils Verarbeitungsprodukte $V (K_{p_{1}}^{*}), V (K_{p_{2}}^{*}), V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''})$
erzeugt (250); • Parameter (2a), die das Verhalten des Machine Learning-Modells (2) charakterisieren, werden optimiert (260) mit dem Ziel, dass ◯ eine Ähnlichkeit von Verarbeitungsprodukten $V (K_{p_{1}}^{*}) und V (K_{p_{2}}^{*}),$
die sich auf positive Paare $(K_{p_{1}}^{*}, K_{p_{2}}^{*})$
bezieht, maximiert wird und ◯ eine Ähnlichkeit von Verarbeitungsprodukten $V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''}),$
die sich auf negative Paare $(K_{p_{1}}^{*'}, K_{p_{2}}^{*''})$
bezieht, minimiert wird.
Verfahren (200) nach Anspruch 8, wobei • das Machine Learning-Modell (2) einen Merkmalsextraktor (21), der Merkmale aus dem Tensor K* extrahiert, und einen Klassifikations-Kopf (22), der diese Merkmale auf die gesuchte Klassifikation des Verhaltens des technischen Systems abbildet, umfasst (251), und • die Verarbeitungsprodukte $V (K_{p_{1}}^{*}), V (K_{p_{2}}^{*}), V (K_{p_{1}}^{*'}) und V (K_{p_{2}}^{*''})$
von dem Merkmalsextraktor (21) gebildet werden (252).
Verfahren (200) nach Anspruch 9, wobei der Klassifikations-Kopf (22) mit Trainings-Beispielen K*, die mit Soll-Klassifikationen gelabelt sind, überwacht trainiert wird (270).
Verfahren (200) nach einem der Ansprüche 8 bis 10, wobei die Störungen p • additives normalverteiltes Rauschen, und/oder • ein stochastisches Nullsetzen von Nichtdiagonalelementen des Tensors K*, und/oder • eine Ersetzung von Elementen $K_{i, j}^{t}$
auf der Ebene t durch Elemente $K_{i, j}^{t + 1},$
$K_{i, j}^{t - 1}$
auf den Ebenen t + 1 bzw. t - 1, und/oder • eine Vertauschung von Ebenen t, t' des Tensors K* umfassen.
Verfahren (300) zum Trainieren eines Machine Learning-Modells (2) für den Einsatz in dem Verfahren (100) nach einem der Ansprüche 1 bis 7 mit den Schritten: • es werden Trainings-Beispiele für Tensoren K* von Kenngrößen $K_{i, j}^{t},$
die paarweise bedingte Wahrscheinlichkeitsverteilungen P_D(i | j) von Beobachtungen der Sensoren i und j charakterisieren, bereitgestellt (310), wobei diese Trainings-Beispiele K* sich auf ein normales Verhalten des technischen Systems (1) beziehen; • es wird eine Verteilung von Störungen p* bereitgestellt (320), für die bekannt ist, dass sie einen Tensor K* in einer Weise abändern, wie dies im normalen Betrieb des technischen Systems nicht zu erwarten ist; • durch Anwenden von aus der Verteilung gesampelten Störungen p* auf Trainings-Beispiele K* werden Abwandlungen K̃* erzeugt (330); • das Machine Learning-Modell (2) wird mit den Trainings-Beispielen K* für ein normales Verhalten des technischen Systems (1) einerseits und mit den Abwandlungen K̃* als Trainings-Beispiele für ein anormales Verhalten des technischen Systems (1) andererseits überwacht trainiert (340).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern und/oder Compute-Instanzen ausgeführt werden, den oder die Computer bzw. Compute-Instanzen dazu veranlassen, ein Verfahren (100) nach einem der Ansprüche 1 bis 12 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
Ein oder mehrere Computer und/oder Compute-Instanzen mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.