DE112021004174T5 - Föderiertes lernen zur anomalieerkennung - Google Patents

Föderiertes lernen zur anomalieerkennung Download PDF

Info

Publication number
DE112021004174T5
DE112021004174T5 DE112021004174.6T DE112021004174T DE112021004174T5 DE 112021004174 T5 DE112021004174 T5 DE 112021004174T5 DE 112021004174 T DE112021004174 T DE 112021004174T DE 112021004174 T5 DE112021004174 T5 DE 112021004174T5
Authority
DE
Germany
Prior art keywords
instances
model
edge devices
federated
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021004174.6T
Other languages
English (en)
Inventor
Dongjin Song
Yuncong Chen
Cristian Lumezanu
Takehiko Mizoguchi
Haifeng Chen
Wei Zhu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112021004174T5 publication Critical patent/DE112021004174T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

Systeme und Verfahren zum Trainieren eines neuronalen Netzwerks enthalten ein Sammeln (302) von Modellexemplarinformationen von Edge-Geräten, wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten vorhanden sind. Die gesammelten Modellexemplarinformationen werden unter Verwendung föderierter Mittelwertbildung miteinander aggregiert (304). Globale Modellexemplare werden unter Verwendung von föderiertem eingeschränktem Clustering trainiert (306). Die trainierten globalen Exemplare werden zu jeweiligen Edge-Geräten übertragen (206).

Description

  • INFORMATION ÜBER VERWANDTE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der am 5. August 2021 eingereichten US-Patentanmeldung Nr. 17/395,118 , der am 6. August 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/062,031 , der am 26. August 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/070,437 und der am 8. September 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/075,450 , die hierin jeweils in ihrer Gesamtheit durch Bezugnahme enthalten sind.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft eine Anomalieerkennung in cyber-physischen Systemen und insbesondere die Verwendung föderierten Lernens unter lokalen Modellen, um eine Modellwirksamkeit zu verbessern.
  • Beschreibung des zugehörigen Standes der Technik
  • Während Modelle maschinellen Lernens davon profitieren, mit großen Datenmengen trainiert zu werden, können Richtlinien für gemeinsames Nutzen von Daten die Verfügbarkeit solcher Daten einschränken. Zum Beispiel dürfen bei einem Edge-Gerät gesammelte Daten aus Sorge vor Datenschutzverletzungen nicht zu einer zentralen Stelle weitergeleitet werden.
  • ZUSAMMENFASSUNG
  • Ein Verfahren zum Trainieren eines neuronalen Netzes enthält ein Sammeln von Modellexemplarinformationen von Edge-Geräten, wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten vorhanden sind. Die gesammelten Modellexemplarinformationen werden unter Verwendung föderierter Mittelwertbildung miteinander aggregiert. Globale Modellexemplare werden unter Verwendung von föderiertem eingeschränktem Clustering trainiert. Die trainierten globalen Exemplare werden zu jeweiligen Edge-Geräten gesendet bzw. übertragen.
  • Ein System zum Trainieren eines neuronalen Netzwerkmodells enthält einen Hardwareprozessor, eine Netzwerkschnittstelle in Kommunikation mit Edge-Geräten und einen Speicher. Die Netzwerkschnittstelle ist so konfiguriert, dass Modellexemplarinformationen von den Edge-Geräten gesammelt werden, wobei jedes Modellexemplar unter Verwendung von Informationen, die lokal auf den jeweiligen Edge-Geräten vorhanden sind, trainiert worden ist, und trainierte globale Exemplare zu jeweiligen Edge-Geräten übertragen werden. Der Speicher speichert ein Computerprogrammprodukt, das dann, wenn es durch den Hardwareprozessor ausgeführt wird, veranlasst, dass der Hardwareprozessor die gesammelten Modellexemplarinformationen unter Verwendung föderierter Mittelwertbildung miteinander aggregiert und die globalen Modellexemplare unter Verwendung von föderiertem eingeschränktem Clustering unter Verwendung eines Prozessors trainiert.
  • Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
  • Figurenliste
  • Die Offenbarung wird in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren Details bereitstellen, wobei:
    • 1 ein Blockdiagramm, das ein föderiertes Modelltrainingssystem zeigt, das lokale Modellinformationen von einer Gruppe von Edge-Geräten bei einem zentralen Server sammelt und das globale Modellexemplare zur Verwendung an den Edge-Geräten trainiert, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 2 ein Block-/Flussdiagramm eines Verfahrens zum Trainieren von Edge-Gerätemodellen unter Verwendung potenziell empfindlicher lokaler Sensorinformationen, ohne sie zu einem zentralen Server zu übertragen, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 3 ein Block-/Flussdiagramm eines Verfahrens zum Aggregieren lokaler Edge-Gerätemodelle bei einem zentralen Server, um globale Exemplare zu erzeugen, die verschiedene Betriebsbedingungen erfassen, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 4 ein Block-/Flussdiagramm eines Verfahrens zum Erkennen und Korrigieren anomaler Aktivität in einem cyber-physischen System unter Verwendung von Anomalieerkennungsmodellen, die unter Verwendung föderierten Modelltrainings trainiert werden, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 5 ein Blockdiagramm eines Edge-Geräts, das anomale Aktivität in einem cyber-physischen System unter Verwendung von Anomalieerkennungsmodellen erkennt und korrigiert, die unter Verwendung föderierten Modelltrainings trainiert werden, gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
    • 6 ein Blockdiagramm eines Modelltrainingsservers, der lokale Edge-Gerätemodelle aggregiert und globale Exemplare erzeugt, die verschiedene Betriebsbedingungen erfassen, gemäß einer Ausführungsform der vorliegenden Erfindung ist.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Föderiertes Lernen kann in einer Vielfalt von Anwendungen maschinellen Lernens verwendet werden, und zwar insbesondere dort, wo Sicherheit und Datenschutz ein Training eines Maschinenlernmodells herausfordernd machen. Insbesondere kann föderierte, nicht überwachte Anomalieerkennung, die während eines normalen Betriebs von heterogen verteilten, isolierten Edge-Geräten gesammelte Daten verwendet, unsichtbare heterogene Normaldaten bei verschiedenen Geräten berücksichtigen und kann die Heterogenität lokaler Modelle berücksichtigen, die an einseitig verfälschten Daten trainiert werden.
  • Zu diesem Zweck kann ein exemplarbasierter Ansatz für multivariate Zeitreihen-Anomalieerkennung einen Datenschutz auf Edge-Geräten bewahren und kann Daten handhaben, die nicht auf unabhängige, identische Weise über Edge-Geräte verteilt sind. Lokale Exemplare werden verwendet, um Anomalieerkennung durchzuführen und um eine Datenverteilung von Clients zu erfassen, die dann verwendet werden kann, um eine föderierte Aggregation lokaler Modelle auf eine verteilungsbewusste Weise zu führen bzw. anzuleiten. Jedes Edge-Gerät kann relevante Exemplare updaten bzw. aktualisieren, während ein zentralisierter Server die Exemplare basierend auf Ausrichtung und Clustering aggregiert. Die lokalen Exemplare können als Parameter eines neuronalen Netzes modelliert sein und können Ende-zu-Ende bzw. End-to-End bei den Clients trainiert werden.
  • Nimmt man nun Bezug auf die Figuren, in welchen gleiche Zeichen die gleichen oder ähnliche Elemente darstellen, und zunächst auf 1, sind ein Wartungssystem 104 im Kontext jeweiliger überwachter Systeme 102 gezeigt. Das überwachte System 102 kann irgendein geeignetes System sein, einschließlich physischer Systeme wie beispielsweise Fertigungslinien und physischer Anlagenbetriebe, elektronischer Systeme wie beispielsweise Computer oder anderer computergestützter Geräte, Softwaresysteme wie beispielsweise Betriebssysteme und Anwendungen und cyber-physischer Systeme, die physische Systeme mit elektronischen Systemen und/oder Softwaresystemen kombinieren. Beispielhafte Systeme 102 können eine breite Palette verschiedener Typen enthalten, einschließlich Kraftwerke, Rechenzentren und Transportsysteme.
  • Ein oder mehrere Sensoren innerhalb jedes jeweiligen überwachten Systems 10 zeichnet oder zeichnen Informationen über den Zustand des überwachten Systems 102 auf. Die Sensoren können irgendein geeigneter Typ von Sensor sein, einschließlich beispielsweise physischer Sensoren wie beispielsweise Temperatur-, Feuchtigkeits-, Schwingungs- bzw. Vibrations-, Druck-, Spannungs-, Strom-, Magnetfeld-, Stromfeld- und Lichtsensoren, und Softwaresensoren, wie beispielsweise Protokollierungsdienstprogramme, die auf einem Computersystem installiert sind, um Informationen bezüglich des Zustands und des Verhaltens des Betriebssystems und der auf dem Computersystem ausgeführten bzw. laufenden Anwendungen aufzuzeichnen. Die durch die Sensoren erzeugten Informationen können in irgendeinem geeigneten Format vorliegen und können mit heterogenen Formaten erzeugte Sensorprotokollinformationen enthalten.
  • Die Sensoren eines überwachten Systems 102 können die protokollierten Sensorinformationen durch irgendein geeignetes Kommunikationsmedium und Protokoll, einschließlich drahtloser und drahtgebundener Kommunikation, zu einem jeweiligen lokalen Wartungssystem 104 übertragen. Das lokale Wartungssystem 104 kann zum Beispiel anomales Verhalten identifizieren, indem es die multivariaten Zeitreihen überwacht, die durch den Sensor erzeugt werden. Wenn einmal anomales Verhalten erkannt worden ist, kommuniziert das Wartungssystem 104 mit einer Systemsteuereinheit, um einen oder mehrere Parameter des überwachten Systems 102 zu ändern, um das anomale Verhalten zu korrigieren.
  • Beispielhafte Korrekturaktionen bzw. -maßnahmen enthalten ein Ändern einer Sicherheitseinstellung für eine Anwendung oder Hardwarekomponente, ein Ändern eines Betriebsparameters einer Anwendung oder Hardwarekomponente (zum Beispiel einer Betriebsgeschwindigkeit), ein Anhalten und/oder Neustarten einer Anwendung, ein Anhalten und/oder neues Booten einer Hardwarekomponente, ein Ändern einer Umgebungsbedingung, ein Ändern von Zustand oder Einstellungen einer Netzwerkschnittstelle, etc. Das Wartungssystem 106 korrigiert oder mildert dadurch automatisch das anomale Verhalten. Durch Identifizieren der einzelnen Sensoren 104, die mit der anomalen Klassifizierung assoziiert sind, kann die Menge an Zeit, die benötigt wird, um ein Problem zu isolieren, verringert werden.
  • Jeder der Sensoren gibt eine jeweilige Zeitreihe aus, die durch den Sensor im Zeitverlauf durchgeführte Messungen codiert. Zum Beispiel kann die Zeitreihe Informationspaare enthalten, wobei jedes Paar eine Messung und einen Zeitstempel enthält, welche Paare die Zeit darstellen, zu welcher die Messung durchgeführt wurde. Jede Zeitreihe kann in Segmente unterteilt werden, die Messungen darstellen, die durch den Sensor über einen bestimmten Zeitbereich hinweg durchgeführt werden. Zeitreihensegmente können irgendein geeignetes Intervall darstellen, wie beispielsweise eine Sekunde, eine Minute, eine Stunde oder einen Tag. Zeitreihensegmente können eine eingestellte Anzahl von Sammlungszeitpunkten anstelle einer festen Zeitperiode darstellen, wie zum Beispiel 100 Messungen abdeckend.
  • Anomalieerkennung bei den lokalen Wartungssystemen 104 kann durch jeweilige Maschinenlernmodelle gelenkt werden, die zum Beispiel als neuronale Netzwerke implementiert sind. Jedes derartige Modell kann zwei Teile enthalten, einschließlich eines lokalen Teils, der unter Verwendung von bei dem jeweiligen überwachten System 102 gesammelten Daten trainiert wird, und eines globalen Teils, der durch einen zentralen Modelltrainingsserver 106 trainiert wird. Anstatt Rohdaten zum Modelltrainingsserver 106 weiterzugeben, können die Wartungssysteme 104 ihre jeweiligen lokal trainierten Teile bereitstellen. Der Modelltrainingsserver 106 kann dann den globalen Teil unter Verwendung von aus den gesammelten lokalen Teilen zusammengelesenen Informationen trainieren und den trainierten globalen Teil zum jeweiligen Wartungssystem 104 übertragen. Auf diese Weise können Informationen, die bei den jeweiligen lokalen Wartungssystemen 104 gesammelt werden, verwendet werden, um die Anomalieerkennung anderer solcher Wartungssysteme 104 zu verbessern, ohne potenziell sensible lokale Daten zu riskieren.
  • Selbst in einem Fall, in welchem die verschiedenen überwachten Systeme 102 im Wesentlichen identisch sind, können sie sehr unterschiedliche Umstände erfahren. Zum Beispiel können zwei verschiedene Systeme 102 unterschiedliche Betriebsarten erfahren, von welchen beide als „normaler“ Betrieb bezeichnet sein können. Ein lokal erzeugtes Modell, das seine Trainingsdaten von nur einem solchen System ableitet, kann den normalen Betrieb eines anderen Systems als anomal identifizieren. Um dieses Problem zu vermeiden, kann eine Aggregation von Modellinformationen verwendet werden, um mehrere verschiedene Umgebungen zu berücksichtigen, ohne die potenziell sensiblen lokalen Daten selbst zu übertragen.
  • Nimmt man nun Bezug auf 2, ist ein Verfahren föderierten Lernens gezeigt. Ein Block 202 verteilt ein anfängliches Modell vom Server 106 zu Edge-Geräten (z.B. den lokalen Wartungssystemen 104). Ein Block 204 sammelt lokale Zeitreihendaten bei den Edge-Geräten, wie zum Beispiel durch Sammeln von Zeitreiheninformationen von Sensoren bei den jeweiligen überwachten Systemen 102.
  • Ein Block 206 verwendet die lokalen Zeitreihendaten, um die Modelle bei den Edge-Geräten 104 zu aktualisieren bzw. upzudaten. Jedes Edge-Gerät 104 kann seine eigene jeweilige Aktualisierung durchführen, und zwar basierend auf den Daten, die es zur Verfügung hat. Ein solches Lernen kann nicht überwacht durchgeführt werden, da es sein kann, dass die vom überwachten System 102 gesammelten Daten nicht gekennzeichnet sind.
  • Ein Block 208 aggregiert die Modelle von den jeweiligen Edge-Geräten 104 beim Server 106. Diese Aggregation wird verwendet, um das Servermodell zu aktualisieren. Ein Verarbeiten kehrt dann zurück zum Block 202, da das aktualisierte Servermodell zu den Edge-Geräten 104 verteilt wird. Dieser Prozess kann sich unbegrenzt wiederholen, wenn neue Informationen durch die Edge-Geräte 104 gesammelt werden, oder kann wiederholt werden, bis eine Modellkonvergenz erreicht ist. Neue Modelle können durch den Server 106 periodisch oder nach einem ausreichenden Ausmaß von Änderungen gegenüber einem zuvor verteilten Modell verteilt werden.
  • Anomalieerkennung und Modellaktualisierung im Block 206 kann unter Verwendung der Modelle durchgeführt werden, wobei eine exemplarbasierte Anomalieerkennung Exemplare erzeugt. Clientmodelle können dann auf der Serverseite unter der Anleitung dieser Exemplare aggregiert werden. Exemplarbasierte Anomalieerkennung kann augmentationsfreies kontrastives Lernen verwenden, um latente Repräsentationen zu extrahieren, was für tiefes Clustering und Anomalieerkennung verwendet werden kann. Clustering und Repräsentationslernen können gleichzeitig durchgeführt werden, um ihre Leistungsfähigkeit wechselseitig zu steigern.
  • In diesem Schritt kann davon ausgegangen werden, dass es L Edge-Geräte 104 gibt, wobei das I-te lokale Gerät ein gerätespezifisches Modell lernt, welches Gerät ein Einbettungsnetzwerk fl (·; θl) zur Merkmalscodierung enthält, und ein Exemplarmodul, in welchem eine Gruppe von K lokalen Exemplaren für das I-te Gerät C l = { c 1 l , , c K l } d × K
    Figure DE112021004174T5_0001
    gelernt wird, um potenzielle normale Muster in einem verborgenen Merkmalsraum zu erfassen. Das lokale Modell kann trainiert werden basierend auf bei dem I-ten lokalen Gerät 102 gesammelten Zeitreihendaten zur nicht überwachten Anomalieerkennung. Der zentrale Server 106 aggregiert lokale Modelle von verschiedenen Geräten, um das globale Modell im Block 208 auszubilden. Das Einbettungsnetzwerk des globalen Modells g(·; θ) kann durch föderierte Mittelwertbildung erhalten werden, und das globale Exemplarmodul mit K erlernbaren Exemplaren U = {u1, ...,uK) wird durch Aggregieren und Ausrichten aller lokalen Exemplarmodule erhalten. Der Server 106 sendet das globale Modell zu verschiedenen Edge-Geräten 104, um ihre lokalen Modelle zu aktualisieren.
  • Bei einem Trainingssatz, der aus Daten besteht, die während eines normalen Betriebs gesammelt sind, einschließlich n multivariater Zeitreihensegmente (Xi) ∈ ℝm×t, wobei m eine Anzahl von Zeitreihen ist und t die Länge der Segmente ist, kann die Zielfunktion zum Lernen formuliert werden als: min θ , c 1 n i = 1 n K L ( p i q i ) α T  log ( 1 n i = 1 n q i ) + 1 / n i = 1 n M ( X i )
    Figure DE112021004174T5_0002

    wobei θ ein Satz von Parametern für ein neuronales Netzwerk ist, KL(·) die Kullback-Leibler-Divergenz ist, qi ∈ ℝK der Clustermitgliedschaftsvektor für die i-ten Daten ist,
    wobei qij die Wahrscheinlichkeit für eine Zuordnen der i-ten Daten zum j-ten Exemplar ist und α ∈ ℝK eine vorherige Verteilung über die Exemplare, um Clustergrößen auf den Edge-Geräten zu ermutigen, mit der vorherigen übereinzustimmen,
    ist. Der Wert von qij kann berechnet werden als: q i j = e γ 1 s ( ƒ ( X i ) , c j ) k = 1 K e γ 1 s ( ƒ ( X i ) , c k )
    Figure DE112021004174T5_0003

    wobei s(f (Xi), cj) durch eine Kosinusähnlichkeitsfunktion implementiert werden kann, C = {c1, c2, ..., cK} ∈ ℝK×d die Gruppe von K erlernbaren Exemplaren ist (z.B. Clustering-Zentren) und γ1 ein Skalierungsfaktor ist. Der Ausdruck bzw. Term qij liefert die Wahrscheinlichkeit für ein Zuordnen der i-ten Daten zum j-ten Exemplar.
  • Der Term a kann mit einer gleichmäßigen Verteilung initialisiert werden als 1 K 1,
    Figure DE112021004174T5_0004
    und er kann mit einem exponentiellen sich bewegenden bzw. gleitenden Durchschnitt bei jeder Iteration aktualisiert werden als: α = λ α + ( 1 λ ) ( 1 n ) i = 1 n p i
    Figure DE112021004174T5_0005
    wobei λ ein Parameter ist, der die Lernrate ändert. Der Ausdruck bzw. Term pi kann ein Ziel-Clustermitgliedschaftsvektor sein, und zwar mit Elementen, die bestimmt werden als: p i j = ( q i j 2 ( i ' = 1 ) n q i ' j ) j ' ( q i j ' 2 i ' = 1 n q i ' j ' )
    Figure DE112021004174T5_0006
  • Das neuronale Netzwerk f kann zum Beispiel Schichten für langes Kurzzeitgedächtnis bzw. LSTM(= Long Short-Term Memory)-Schichten oder bidirektionale LSTM-Schichten enthalten, um Dynamiken in den multivariaten Zeitreihen zu codieren. Das neuronale Netzwerk f kann weiterhin eine vollständig verbundene Schicht enthalten, um das Exemplar zu erfassen, und dies kann gemeinsam mit dem Einbettungsnetzwerkparameter θ auf eine End-to-End-Weise trainiert werden. Der erste Ausdruck führt ein tiefes Einbettungsclustering durch. Dies wird auf einer Basis pro Gerät durchgeführt und somit wird die Indizierung / der Kürze halber weggelassen.
  • Der dritte Ausdruck kann für ein Repräsentationslernen mit tiefer relativer Erhaltung verwendet werden, um den latenten Raum zu ermutigen, die lokale Ähnlichkeit des rohen Merkmalsraums zu bewahren als: M ( X i ) = min  θ log ( 1 + ( p P i ) ( n P i ) e γ 2 ( s i n s i p ) )
    Figure DE112021004174T5_0007
    wobei Pi die Gruppe nächster Nachbarn des i-ten Beispiels ist, γ2 ein erlernbarer Skalierungsfaktor ist und sij durch die Kosinusähnlichkeit zwischen der Einbettung der i-ten und derj-ten Probe bzw. Abtastung bestimmt wird. Dieser Ausdruck fördert, dass die Ähnlichkeit positiver Paare größer als die von negativen Paaren ist. Dies kann der Formulierung eines Kreisverlustes folgen. Um Rechen- und Lager- bzw. Speicherkosten für den Graphen zu vermeiden, kann der Graph durch die Abtastungen innerhalb von jedem Mini-Batch angenähert werden.
  • Der Anomalie-Wert kann durch die absolute Ähnlichkeit zwischen Proben bzw. Abtastungen und Exemplaren berechnet werden. Die obige Zielfunktion erzwingt jedoch nur einen relativen Spielraum bzw. eine relative Marge. Um dies zu beheben, kann die Ähnlichkeit der i-ten Probe direkt gegenüber einer weichen Annäherung des nächsten Exemplars optimiert werden: b i = j = 1 K q i j c j .
    Figure DE112021004174T5_0008
    Ein Ausdruck zur Erzwingung einer absoluten Marge kann hinzugefügt werden, um eine endgültige Zielfunktion zu erzeugen: min θ , C 1 n i = 1 n K L ( p i q i ) α T  log ( 1 n i = 1 n q i ) + 1 n i = 1 n M ( X i ) + 1 n i = 1 n log ( 1 + e γ 3 ( ƒ ( X i ) T c ¯ i m ) )
    Figure DE112021004174T5_0009
    wobei γ3 ein erlernbarer Skalierungsfaktor ist und m ein Spielraum bzw. eine Marge ist. Ein Verwenden von Softplus für den vierten Ausdruck bietet eine ähnliche Skalierung wie bei den anderen Ausdrücken bzw. Termen und kann ein Abstimmen von Hyperparametern verhindern, um die Ausdrücke ins Gleichgewicht zu bringen. Der Anomalie-Wert einer Testprobe bzw. -abtastung x kann als die negative Kosinusähnlichkeit zu ihrem nächsten Exemplar berechnet werden: W e r t ( x ) = max j   s ( ƒ ( X ) , c j )
    Figure DE112021004174T5_0010
  • Nach einer Anzahl von Trainingsrunden auf dem I-ten lokalen Gerät können die Parameter des Einbettungsnetzwerks θl, der Gruppe von Exemplaren { c 1 l , , c K l }
    Figure DE112021004174T5_0011
    und des Clusters vor αl vom Edge-Gerät 104 zum Server 106 übertragen werden.
  • Nimmt man nun Bezug auf 3, werden zusätzliche Details über die Aggregation des Modells beim Server 106 im Block 208 bereitgestellt. Bei einem Block 302 übertragen die Edge-Geräte 104 ihre trainierten Edge-Gerätemodelle durch irgendein geeignetes Kommunikationsmedium und Protokoll zum Server 106. Der Server 106 sammelt die lokal trainierten Modelle und führt eine datenfreie Aggregation durch, um ein globales Modell zu erstellen bzw. zu bilden. Ein föderierter Mittelwert bzw. Durchschnitt kann in einem Block 304 unter Verwendung einer elementweisen Mittelwerts- bzw. Durchschnittsbildung lokaler Exemplare durchgeführt werden, und zwar basierend auf dem vorherigen, dass lokale Modelle mit derselben Initialisierung trainiert werden. Aufgrund der Heterogenität lokaler Daten kann es jedoch sein, dass auf verschiedenen Edge-Geräten 104 trainierte Exemplare nicht gut übereinstimmen. Um dieses Problem zu beheben, kann eine föderierte angepasste Mittelwerts- bzw. Durchschnittsbildung 304 Exemplare nach einem Anpassen von ihnen durch ihre Werte einer Mittelwerts- bzw. Durchschnittsbildung unterziehen. Der vorherige und der Wert der Exemplare können jedoch gemeinsam verwendet werden, wobei gelernte Exemplare zu einem latenten Raum projiziert werden und dann gemäß ihrer projizierten Positionen angepasst werden. Föderiertes eingeschränktes Clustering kann durchgeführt werden, um globale Exemplare zu erzeugen, und zwar in einem Block 306.
  • Bei L Edge-Geräten 104 mit K Exemplaren bei jedem Gerät können die Exemplare, die vom I-ten Gerät (l ∈ L) hochgeladen werden, als Cl = {c1, c2, . .., cK} ∈ ℝK×d bezeichnet werden, zusammen mit der Größe jedes Clusters als al. Die globalen Exemplare U werden ausgedrückt als {u1, ..., uK} und erfassen die Gesamtverteilung von durch alle Geräte erfahrenen Daten. Der Ausdruck N = LK kann verwendet werden, um die Gesamtanzahl von Exemplaren zu bezeichnen. Föderiertes, eingeschränktes Clustering von Exemplaren kann dann die lokalen Modelle aggregieren und kann ausgedrückt werden als: min ϕ , { v 1 , v K } 1 N i = 1 K l = 1 L α i l p i l T  log  q i l 1 T  log ( 1 N i = 1 K l = 1 L p i l ) + 1 N i = 1 K l = 1 L R ( c i l )
    Figure DE112021004174T5_0012
    wobei Φ die Parameter des Projektionsnetzwerks h darstellt und wobei {v1, ..., vK} die latenten Clusterzentren im Ausgaberaum von h sind. R(·) ist eine Einschränkungsfunktion, die die gelernte Projektion h ermutigt, ähnliche Einbettungen für Exemplare zu geben, die dieselbe Initialisierung haben. Der Ausdruck qil ist ähnlich zum obigen qij definiert: q i l , j = e γ 4 s ( h ( c i l ) , v j ) k = 1 K e γ 4 s ( h ( c i l ) , v k )
    Figure DE112021004174T5_0013
    wobei γ4 ein Skalierungsfaktor ist. Der Ausdruck pil ist auf ähnliche Weise definiert wie obiges pij. Die Einschränkungsfunktion kann definiert werden als: R ( c i l ) = α i l log ( 1 + m = 1 L j = 1 K e γ 5 e i j s ( h ( c i l ) , h ( c j m ) ) )
    Figure DE112021004174T5_0014
    wobei eij = 1, wenn i = j, was bedeutet, dass die zwei lokalen Exemplare dieselbe Initialisierung gemeinsam nutzen, und sonst -1 ist. Der Ausdruck γ5 ist ein Skalierungsfaktor.
  • Die globalen Exemplare {u1, ..., uK} können basierend auf der Clustering-Indikatorenmatrix erhalten werden: u z = 1 i = 1 K l = 1 L q i l , z c i l
    Figure DE112021004174T5_0015
  • Nimmt man nun Bezug auf 4, ist ein Verfahren einer Anomalieerkennung und -korrektur gezeigt. Ein Block 200 trainiert Edge-Gerätemodelle, wie es oben beschrieben ist, unter Verwendung globaler Exemplare, die durch Aggregation lokal trainierter Modellinformationen erzeugt werden. Ein Block 410 sammelt neue lokale Zeitreihendaten bei den Wartungssystemen 104 von den jeweiligen überwachten Systemen 102. Diese neuen lokalen Zeitreihendaten können jüngste Betriebscharakteristiken der jeweiligen überwachten Systeme 102 widerspiegeln und können als Zeitreiheninformationen ausgedrückt werden.
  • Ein Block 420 verwendet die Edge-Gerätemodelle, um Anomalien in den lokalen Zeitreihendaten zu erkennen. Zum Beispiel kann ein bestimmtes überwachtes System 102 in einem Zustand eines anomalen Betriebs sein, und die jeweiligen Zeitreiheninformationen, die dem Edge-Gerät 104 zur Verfügung gestellt werden, können daher als anomal identifiziert werden.
  • Wenn eine Anomalie erkannt wird, kann ein Block 430 eine Korrekturaktion bzw. -maßnahme durchführen. Zum Beispiel kann das Wartungssystem 104, das die Anomalie erkennt, eine Änderung innerhalb des überwachten Systems auslösen, um den anomalen Betriebszustand automatisch zu korrigieren.
  • Die hierin beschriebenen Ausführungsformen können vollständig Hardware, vollständig Software oder sowohl Hardware- als auch Softwareelemente enthalten. Bei einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, Mikrocode usw. enthält, aber nicht darauf beschränkt ist.
  • Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium aus zugegriffen werden kann, das einen Programmcode zur Verwendung durch oder in Verbindung mit einem Computer oder einem Befehls- bzw. Anweisungsausführungssystem bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann jede Vorrichtung enthalten, die das Programm zur Verwendung durch oder in Verbindung mit dem Befehlsausführungssystem, dem Gerät oder der Vorrichtung speichert, kommuniziert, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder ein Gerät oder eine Vorrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium wie einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine austauschbare Computerdiskette, einen Arbeitsspeicher (RAM), einen schreibgeschützten Speicher (ROM), eine starre Magnetplatte und eine optische Festplatte usw. enthalten.
  • Jedes Computerprogramm kann greifbar in einem maschinenlesbaren Speichermedium oder einer maschinenlesbaren Vorrichtung (z.B. Programmspeicher oder Magnetplatte) gespeichert sein, die von einem allgemeinen oder speziellen programmierbaren Computer gelesen werden kann, um den Betrieb eines Computers zu konfigurieren und zu steuern, wenn das Speichermedium oder die Vorrichtung vom Computer gelesen wird, um die hierin beschriebenen Verfahren durchzuführen. Das erfindungsgemäße System kann auch als in einem computerlesbaren Speichermedium verkörpert angesehen werden, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium bewirkt, dass ein Computer in einer bestimmten und vordefinierten Weise arbeitet, um die hierin beschriebenen Funktionen auszuführen.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor umfassen, der direkt oder indirekt über einen Systembus mit Speicherelementen gekoppelt ist. Die Speicherelemente können einen lokalen Speicher enthalten, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, Massenspeicher und Cache-Speicher, die eine temporäre Speicherung von zumindest einem Teil des Programmcodes bereitstellen, um die Häufigkeit zu reduzieren, mit der ein Code während der Ausführung aus dem Massenspeicher abgerufen wird. Eingabe-/Ausgabe- oder I/O-Vorrichtungen (einschließlich, aber nicht beschränkt darauf, Tastaturen, Displays bzw. Anzeigen, Zeigegeräte usw.) können entweder direkt oder über dazwischenliegende I/O-Steuerung mit dem System gekoppelt sein.
  • Netzwerkadapter können auch mit dem System gekoppelt sein, damit das Datenverarbeitungssystem über dazwischenliegende private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder entfernten Druckern bzw. Remotedruckern oder Speichervorrichtungen gekoppelt werden kann. Modems, Kabelmodems und Ethernet-Karten sind nur einige der derzeit verfügbaren Arten von Netzwerkadaptern.
  • Wie er hierin verwendet ist, kann sich der Begriff „Hardwareprozessor-Subsystem“ oder „Hardwareprozessor“ auf einen Prozessor, Speicher, Software oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben auszuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Datenverarbeitungselemente (z.B. logische Schaltungen, Verarbeitungsschaltungen, Befehlsausführungsvorrichtungen usw.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder rechenelementbasierten Steuerung (z.B. Logikgatter usw.) enthalten sein. Das Hardwareprozessor-Subsystem kann einen oder mehrere On-Board-Speicher enthalten (z.B. Caches, dedizierte Speicherarrays, schreibgeschützten Speicher usw.). Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem einen oder mehrere Speicher enthalten, die sich auf oder außerhalb der Platine befinden können oder die für die Verwendung durch das Hardwareprozessor-Subsystem dediziert sein können (z. B. ROM, RAM, Basic Input / Output System (BIOS) usw.).
  • Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Softwareelemente enthalten und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder spezifischen Code enthalten, um ein bestimmtes Ergebnis zu erzielen.
  • Bei anderen Ausführungsformen kann das Hardwareprozessor-Subsystem dedizierte, spezialisierte Schaltkreise umfassen, die eine oder mehrere elektronische Verarbeitungsfunktionen ausführen, um ein spezifiziertes Ergebnis zu erzielen. Solche Schaltungen können einen oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs (feldprogrammierbare Gate-Arrays) und/oder speicherprogrammierbare Logikarrays (PLAs) umfassen.
  • Diese und andere Variationen eines Hardwareprozessor-Subsystems werden ebenfalls gemäß Ausführungsformen der vorliegenden Erfindung in Betracht gezogen.
  • Nimmt man nun Bezug auf 5, werden zusätzliche Details an dem Wartungssystem/Edge-Gerät 104 gezeigt. Das Wartungssystem 104 enthält einen Hardwareprozessor 502 und einen Speicher 504. Eine Netzwerkschnittstelle 506 stellt eine Kommunikation zwischen dem Wartungssystem 104 und dem Modelltrainingsserver 106 bereit und kann durch irgendein geeignetes drahtgebundenes oder drahtloses Kommunikationsmedium und Protokoll betrieben werden.
  • Eine Sensorschnittstelle 508 empfängt Informationen von einem oder mehreren Sensoren im überwachten System 102. Die Kommunikation mit den Sensoren kann durch irgendein geeignetes drahtgebundenes oder drahtloses Kommunikationsmedium und Protokoll erfolgen und kann irgendeine Kombination von dedizierten Sensoreingaben und allgemeiner Netzwerkkommunikation enthalten. Die gesammelten Sensorinformationen können durch einen Modelltrainer 510 verwendet werden, um ein lokales Modell 512 zu trainieren. Ein Modellmanager 514 kann mit dem Server 106 kommunizieren, was das lokale Modell 512 zur Aggregation überträgt, und kann globale Exemplare vom Server 106 empfangen, damit sie bei zukünftigen Modelltrainingseinheiten verwendet werden.
  • Während des Betriebs können neue Sensordaten als Eingabe für das lokale Modell 512 bereitgestellt werden, um zu bestimmen, ob sich das überwachte System 102 anomal verhält. In dem Fall, dass eine Anomalie erkannt wird, kann eine Steuerung 516 automatisch eine Korrekturmaßnahme durchführen. Zum Beispiel kann die Steuerung mit einem Steuerungssystem innerhalb des überwachten Systems 102 kommunizieren, um eine Anweisung zur Kompensation von Betriebsparametern zu liefern, die außerhalb normaler Grenzen liegen.
  • Nimmt man nun Bezug auf 6, werden zusätzliche Details über den Modelltrainingsserver 106 gezeigt. Der Modelltrainingsserver 106 enthält einen Hardwareprozessor 602 und einen Speicher 604. Eine Netzwerkschnittstelle 606 stellt eine Kommunikation zwischen dem Wartungssystem 104 und dem Modelltrainingsserver 106 bereit und kann durch irgendein geeignetes drahtgebundenes oder drahtloses Kommunikationsmedium und Protokoll betrieben werden.
  • Ein Modellmanager 607 empfängt lokale Modellinformationen von den verschiedenen Wartungssystemen 104. Ein Modellaggregator 610 aggregiert diese lokalen Modelle, wobei ein Modelltrainer 612 ein globales Modell 614 erzeugt, wie es oben beschrieben ist. Das globale Modell 614 wird durch den Modellmanager 608 zu den Wartungssystemen 104 übertragen, was die Grundlage für zukünftiges lokales Modelltraining bereitstellt.
  • Eine Bezugnahme in der Beschreibung auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine Struktur, ein Merkmal usw., das oder die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Daher beziehen sich die Erscheinungen des Ausdrucks „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie alle anderen Variationen, die an verschiedenen Stellen in der Beschreibung auftreten, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es ist jedoch zu verstehen, dass Merkmale einer oder mehrerer Ausführungsformen angesichts der hierin enthaltenen Lehren der vorliegenden Erfindung kombiniert werden können.
  • Es ist zu verstehen, dass die Verwendung von einem der folgenden „/“, „und/oder“ und „wenigstens eine der folgenden Optionen“, wie beispielsweise in den Fällen „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgeführten Option (A) oder nur die Auswahl der zweiten aufgeführten Option (B) umfassen soll, oder die Auswahl beider Optionen (A und B). Als weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgeführten Option (A) oder nur die Auswahl der zweiten aufgeführten Option (B) oder nur die Auswahl der dritten aufgeführten Option (C) umfassen, oder nur die Auswahl der ersten und zweiten aufgeführten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgeführten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgeführten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C). Dies kann auf beliebig viele aufgeführte Elemente ausgeweitet werden.
  • Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht einschränkend zu verstehen, und der Umfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern aus den Ansprüchen, wie sie gemäß der vollen Breite ausgelegt werden, die nach den Patentgesetzen zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur zur Veranschaulichung der vorliegenden Erfindung dienen und dass ein Fachmann auf dem Gebiet verschiedene Modifikationen vornehmen kann, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Sind somit Aspekte der Erfindung mit den Einzelheiten und der Besonderheit, die von den Patentgesetzen gefordert werden, beschrieben worden, wird das, was durch das Patent beansprucht und gewünscht wird, in den beigefügten Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 17395118 [0001]
    • US 63062031 [0001]
    • US 63070437 [0001]
    • US 63075450 [0001]

Claims (20)

  1. Verfahren zum Trainieren eines neuronalen Netzwerkmodells, umfassend: Sammeln (302) von Modellexemplarinformationen von einer Vielzahl von Edge-Geräten, wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten vorhanden sind; Aggregieren (304) der gesammelten Modellexemplarinformationen miteinander unter Verwendung föderierter Mittelwertbildung; Trainieren (306) globaler Modellexemplare unter Verwendung von föderiertem eingeschränktem Clustering unter Verwendung eines Prozessors; und Übertragen (206) der trainierten globalen Exemplare zu jeweiligen Edge-Geräten der Vielzahl von Edge-Geräten.
  2. Verfahren nach Anspruch 1, wobei föderierte Mittelwertbildung ein Bestimmen eines elementweisen Mittelwerts bzw. Durchschnitts lokaler Exemplare enthält.
  3. Verfahren nach Anspruch 2, wobei föderierte Mittelwertbildung eine Mittelwertbildung von Exemplaren nach einem Anpassen der Exemplare durch ihre Werte enthält.
  4. Verfahren nach Anspruch 3, wobei föderierte Mittelwertbildung ein Projizieren der lokalen Exemplare zu einem latenten Raum und ein Anpassen der lokalen Exemplare gemäß ihrer jeweiligen Positionen im latenten Raum enthält.
  5. Verfahren nach Anspruch 1, wobei föderiertes eingeschränktes Clustering durch Minimieren einer Zielfunktion durchgeführt werden kann: min ϕ , { v 1 , v K } 1 N i = 1 K l = 1 L α i l p i l T log  q i l 1 T log ( 1 N i = 1 K l = 1 L p i l )     + 1 N i = 1 K l = 1 L R ( c i l )
    Figure DE112021004174T5_0016
    wobei ϕ Parameter des Projektionsnetzwerks h darstellt, {v1, ..., vK} latente Clusterzentren in einem Ausgaberaum von h sind, N eine Anzahl einer Anzahl von Zeitreihensegmenten ist, K eine Anzahl globaler Exemplare ist, L eine Anzahl von Edge-Geräten ist, R(·) eine Einschränkungsfunktion ist, die das Projektionsnetzwerk h ermutigt, ähnliche Einbettungen für Exemplare zu geben, die dieselbe Initialisierung haben, α i l
    Figure DE112021004174T5_0017
    eine vorherige Verteilung für ein Edge-Gerät I zu einer Zeit i darstellt, pil ein Ziel-Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist, qil ein Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist und c i l
    Figure DE112021004174T5_0018
    das Exemplar für das Edge-Gerät I zur Zeit i ist.
  6. Verfahren nach Anspruch 5, wobei ein Trainieren der globalen Exemplare {u1, ... , uK} folgendes enthält: u z = 1 i = 1 K l = 1 L q i l , z c i l
    Figure DE112021004174T5_0019
    wobei z ein Index zwischen 1 und K ist.
  7. Verfahren nach Anspruch 1, wobei ein Sammeln der Modellexemplarinformationen keine Trainingsdaten für die Modellexemplare von den Edge-Geräten sammelt.
  8. Verfahren nach Anspruch 1, das weiterhin ein Wiederholen des Sammelns, des Aggregierens, des Trainierens und des Übertragens basierend auf aktualisierten Modellexemplarinformationen von den Edge-Geräten umfasst.
  9. Verfahren nach Anspruch 1, wobei die Modellexemplare unter Verwendung von durch die jeweiligen Edge-Geräte gesammelten multivariaten Zeitreihendaten trainiert werden.
  10. Verfahren nach Anspruch 1, wobei die trainierten globalen Modellexemplare konfiguriert sind, um verschiedene Betriebszustände bzw. -bedingungen von cyber-physischen Systemen zu erkennen, die mit der Vielzahl von Edge-Geräten assoziiert sind.
  11. System zum Trainieren eines neuronalen Netzwerkmodells, umfassend: einen Hardwareprozessor (502); eine Netzwerkschnittstelle (506) in Kommunikation mit einer Vielzahl von Edge-Geräten, die konfiguriert ist, um Modellexemplarinformationen von der Vielzahl von Edge-Geräten zu sammeln (302), wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten sind, und um trainierte globale Exemplare zu jeweiligen Edge-Geräten der Vielzahl von Edge-Geräten zu übertragen (206); und einen Speicher (504), der ein Computerprogrammprodukt speichert, das dann, wenn es durch den Hardwareprozessor ausgeführt wird, veranlasst, dass der Hardwareprozessor: die gesammelten Modellexemplarinformationen miteinander unter Verwendung föderierter Mittelwertbildung aggregiert (304); und die globalen Modellexemplare unter Verwendung von föderiertem eingeschränktem Clustering unter Verwendung eines Prozessors trainiert (306).
  12. System nach Anspruch 11, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor zur föderierten Mittelwertbildung einen elementweisen Mittelwert bzw. Durchschnitt lokaler Exemplare bestimmt.
  13. System nach Anspruch 12, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor zur föderierten Mittelwertbildung nach einem Anpassen der Exemplare durch ihre Werte eine Mittelwertbildung von Exemplaren durchführt.
  14. System nach Anspruch 13, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor zur föderierten Mittelwertbildung die lokalen Exemplare zu einem latenten Raum projiziert und die lokalen Exemplare gemäß ihren jeweiligen Positionen im latenten Raum anpasst.
  15. System nach Anspruch 11, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor eine Zielfunktion für föderiertes eingeschränktes Clustering minimiert: min ϕ , { v 1 , v K } 1 N i = 1 K l = 1 L α i l p i l T log  q i l 1 T log ( 1 N i = 1 K l = 1 L p i l )     + 1 N i = 1 K l = 1 L R ( c i l )
    Figure DE112021004174T5_0020
    wobei ϕ Parameter des Projektionsnetzwerks h darstellt, {v1, ..., vK} latente Clusterzentren in einem Ausgaberaum von h sind, N eine Anzahl einer Anzahl von Zeitreihensegmenten ist, K eine Anzahl globaler Exemplare ist, L eine Anzahl von Edge-Geräten ist, R(·) eine Einschränkungsfunktion ist, die das Projektionsnetzwerk h ermutigt, ähnliche Einbettungen für Exemplare zu geben, die dieselbe Initialisierung haben, α i l
    Figure DE112021004174T5_0021
    eine vorherige Verteilung für ein Edge-Gerät I zu einer Zeit i darstellt, pil ein Ziel-Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist, qil ein Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist und c i l
    Figure DE112021004174T5_0022
    das Exemplar für das Edge-Gerät I zur Zeit i ist.
  16. System nach Anspruch 15, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor die globalen Beispiele {u1, ...,uK} trainiert mit: u z = 1 i = 1 K l = 1 L q i l , z c i l
    Figure DE112021004174T5_0023
    wobei z ein Index zwischen 1 und K ist.
  17. System nach Anspruch 11, wobei die Netzwerkschnittstelle keine Trainingsdaten für die Modellexemplare von den Edge-Geräten sammelt.
  18. System nach Anspruch 11, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor das Aggregieren und Trainieren basierend auf aktualisierten Modellbeispielinformationen von den Edge-Geräten wiederholt.
  19. System nach Anspruch 11, wobei die Modellexemplare unter Verwendung von durch die jeweiligen Edge-Geräte gesammelten multivariaten Zeitreihendaten trainiert werden.
  20. System nach Anspruch 11, wobei die trainierten globalen Modellexemplare konfiguriert sind, um verschiedene Betriebszustände bzw. -bedingungen von cyber-physischen Systemen zu erkennen, die mit der Vielzahl von Edge-Geräten assoziiert sind.
DE112021004174.6T 2020-08-06 2021-08-06 Föderiertes lernen zur anomalieerkennung Pending DE112021004174T5 (de)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202063062031P 2020-08-06 2020-08-06
US63/062,031 2020-08-06
US202063070437P 2020-08-26 2020-08-26
US63/070,437 2020-08-26
US202063075450P 2020-09-08 2020-09-08
US63/075,450 2020-09-08
US17/395,118 2021-08-05
US17/395,118 US20220044117A1 (en) 2020-08-06 2021-08-05 Federated learning for anomaly detection
PCT/US2021/044933 WO2022032090A1 (en) 2020-08-06 2021-08-06 Federated learning for anomaly detection

Publications (1)

Publication Number Publication Date
DE112021004174T5 true DE112021004174T5 (de) 2023-06-01

Family

ID=80114589

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021004174.6T Pending DE112021004174T5 (de) 2020-08-06 2021-08-06 Föderiertes lernen zur anomalieerkennung

Country Status (4)

Country Link
US (2) US20220044117A1 (de)
JP (1) JP2023537562A (de)
DE (1) DE112021004174T5 (de)
WO (1) WO2022032090A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020086130A2 (en) * 2018-07-21 2020-04-30 The Regents Of The University Of California Apparatus and method for boundary learning optimization
AU2022274234A1 (en) * 2021-05-11 2023-12-07 Strong Force Vcn Portfolio 2019, Llc Systems, methods, kits, and apparatuses for edge-distributed storage and querying in value chain networks
CN114978893B (zh) * 2022-04-18 2024-04-12 西安交通大学 一种基于区块链的去中心化联邦学习方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9038172B2 (en) * 2011-05-06 2015-05-19 The Penn State Research Foundation Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows
US20180089587A1 (en) * 2016-09-26 2018-03-29 Google Inc. Systems and Methods for Communication Efficient Distributed Mean Estimation
US20190377984A1 (en) * 2018-06-06 2019-12-12 DataRobot, Inc. Detecting suitability of machine learning models for datasets
US10685159B2 (en) * 2018-06-27 2020-06-16 Intel Corporation Analog functional safety with anomaly detection
US11362910B2 (en) * 2018-07-17 2022-06-14 International Business Machines Corporation Distributed machine learning for anomaly detection
US11693965B1 (en) * 2022-06-17 2023-07-04 Uab 360 It Malware detection using federated learning

Also Published As

Publication number Publication date
US20220044117A1 (en) 2022-02-10
WO2022032090A1 (en) 2022-02-10
US20220215256A1 (en) 2022-07-07
JP2023537562A (ja) 2023-09-04

Similar Documents

Publication Publication Date Title
DE112021004174T5 (de) Föderiertes lernen zur anomalieerkennung
DE112020000281T5 (de) Vereinigen von modellen, die jeweilige zielklassen aufweisen, mit destillation
DE112019000744T5 (de) Nicht überwachte domänenübergreifende Abstandsmetrikanpassung mit Merkmalsübertragungsnetz
DE112018004325T5 (de) Systeme und verfahren für die risikoanalyse
DE112019000739T5 (de) Zeitreihengewinnung zum analysieren und korrigieren eines systemstatus
DE102018200724A1 (de) Verfahren und Vorrichtung zum Verbessern der Robustheit gegen "Adversarial Examples"
DE202017007517U1 (de) Aggregatmerkmale für maschinelles Lernen
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
DE112021006232T5 (de) Proaktive anomalieerkennung
DE112021003747T5 (de) Erkennen von anomalien in einer netzwerktopologie
DE112017000669T5 (de) Semantische Segmentierung auf der Grundlage einer globalen Optimierung
DE112016003235T5 (de) Ausgangseffizienzoptimierung in Produktionssystemen
DE112020003826T5 (de) Ensemble gruppierter zweistufiger aufmerksamkeitsbasierter rekurenter neuronaler Netze zur multivariaten Zeitreihenvorhersage
DE102021125856A1 (de) Erkennen von feindlichen angriffen auf ein tiefes neuronales netz (deep neural network (dnn))
DE112021000370T5 (de) Auf maschinellem lernen beruhende datenüberwachung
DE112019003414T5 (de) Videoüberwachung mit neuronalen Netzen
DE112018003496T5 (de) Kognitive energiebewertung durch einen nicht intrusiven sensor in einem wärmeenergie-fluidtransfersystem
DE102021127244A1 (de) Künstliche Intelligenz Optimierungsplattform
DE112021002866T5 (de) Modelltreueüberwachung und -neuerstellung zur entscheidungsunterstützung eines fertigungsverfahrens
EP2854045B1 (de) Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
DE102023103798A1 (de) Automatische fehlervorhersage in rechenzentren
DE112020007472T5 (de) Lernnutzungssystem, nutzungsvorrichtung, lernvorrichtung, programm und lernnutzungsverfahren
DE202022105121U1 (de) Ein Echtzeit-Management-System für Granatapfelkrankheiten zur Erkennung, Vorhersage und Klassifizierung von Granatapfelkrankheiten
DE112015005501B4 (de) Alterungsprofilbildungsmaschine für physikalische Systeme

Legal Events

Date Code Title Description
R012 Request for examination validly filed