DE112021004174T5

DE112021004174T5 - Föderiertes lernen zur anomalieerkennung

Info

Publication number: DE112021004174T5
Application number: DE112021004174.6T
Authority: DE
Inventors: Dongjin Song; Yuncong Chen; Cristian Lumezanu; Takehiko Mizoguchi; Haifeng Chen; Wei Zhu
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-08-06
Filing date: 2021-08-06
Publication date: 2023-06-01
Also published as: US20220215256A1; US20220044117A1; WO2022032090A1; JP2023537562A

Abstract

Systeme und Verfahren zum Trainieren eines neuronalen Netzwerks enthalten ein Sammeln (302) von Modellexemplarinformationen von Edge-Geräten, wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten vorhanden sind. Die gesammelten Modellexemplarinformationen werden unter Verwendung föderierter Mittelwertbildung miteinander aggregiert (304). Globale Modellexemplare werden unter Verwendung von föderiertem eingeschränktem Clustering trainiert (306). Die trainierten globalen Exemplare werden zu jeweiligen Edge-Geräten übertragen (206).

Description

INFORMATION ÜBER VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der am 5. August 2021 eingereichten US-Patentanmeldung Nr. 17/395,118 , der am 6. August 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/062,031 , der am 26. August 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/070,437 und der am 8. September 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/075,450 , die hierin jeweils in ihrer Gesamtheit durch Bezugnahme enthalten sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung betrifft eine Anomalieerkennung in cyber-physischen Systemen und insbesondere die Verwendung föderierten Lernens unter lokalen Modellen, um eine Modellwirksamkeit zu verbessern.
Beschreibung des zugehörigen Standes der Technik
Während Modelle maschinellen Lernens davon profitieren, mit großen Datenmengen trainiert zu werden, können Richtlinien für gemeinsames Nutzen von Daten die Verfügbarkeit solcher Daten einschränken. Zum Beispiel dürfen bei einem Edge-Gerät gesammelte Daten aus Sorge vor Datenschutzverletzungen nicht zu einer zentralen Stelle weitergeleitet werden.
ZUSAMMENFASSUNG
Ein Verfahren zum Trainieren eines neuronalen Netzes enthält ein Sammeln von Modellexemplarinformationen von Edge-Geräten, wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten vorhanden sind. Die gesammelten Modellexemplarinformationen werden unter Verwendung föderierter Mittelwertbildung miteinander aggregiert. Globale Modellexemplare werden unter Verwendung von föderiertem eingeschränktem Clustering trainiert. Die trainierten globalen Exemplare werden zu jeweiligen Edge-Geräten gesendet bzw. übertragen.
Ein System zum Trainieren eines neuronalen Netzwerkmodells enthält einen Hardwareprozessor, eine Netzwerkschnittstelle in Kommunikation mit Edge-Geräten und einen Speicher. Die Netzwerkschnittstelle ist so konfiguriert, dass Modellexemplarinformationen von den Edge-Geräten gesammelt werden, wobei jedes Modellexemplar unter Verwendung von Informationen, die lokal auf den jeweiligen Edge-Geräten vorhanden sind, trainiert worden ist, und trainierte globale Exemplare zu jeweiligen Edge-Geräten übertragen werden. Der Speicher speichert ein Computerprogrammprodukt, das dann, wenn es durch den Hardwareprozessor ausgeführt wird, veranlasst, dass der Hardwareprozessor die gesammelten Modellexemplarinformationen unter Verwendung föderierter Mittelwertbildung miteinander aggregiert und die globalen Modellexemplare unter Verwendung von föderiertem eingeschränktem Clustering unter Verwendung eines Prozessors trainiert.
Diese und andere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
Figurenliste
Die Offenbarung wird in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren Details bereitstellen, wobei:

1 ein Blockdiagramm, das ein föderiertes Modelltrainingssystem zeigt, das lokale Modellinformationen von einer Gruppe von Edge-Geräten bei einem zentralen Server sammelt und das globale Modellexemplare zur Verwendung an den Edge-Geräten trainiert, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
2 ein Block-/Flussdiagramm eines Verfahrens zum Trainieren von Edge-Gerätemodellen unter Verwendung potenziell empfindlicher lokaler Sensorinformationen, ohne sie zu einem zentralen Server zu übertragen, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
3 ein Block-/Flussdiagramm eines Verfahrens zum Aggregieren lokaler Edge-Gerätemodelle bei einem zentralen Server, um globale Exemplare zu erzeugen, die verschiedene Betriebsbedingungen erfassen, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
4 ein Block-/Flussdiagramm eines Verfahrens zum Erkennen und Korrigieren anomaler Aktivität in einem cyber-physischen System unter Verwendung von Anomalieerkennungsmodellen, die unter Verwendung föderierten Modelltrainings trainiert werden, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
5 ein Blockdiagramm eines Edge-Geräts, das anomale Aktivität in einem cyber-physischen System unter Verwendung von Anomalieerkennungsmodellen erkennt und korrigiert, die unter Verwendung föderierten Modelltrainings trainiert werden, gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
6 ein Blockdiagramm eines Modelltrainingsservers, der lokale Edge-Gerätemodelle aggregiert und globale Exemplare erzeugt, die verschiedene Betriebsbedingungen erfassen, gemäß einer Ausführungsform der vorliegenden Erfindung ist.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Föderiertes Lernen kann in einer Vielfalt von Anwendungen maschinellen Lernens verwendet werden, und zwar insbesondere dort, wo Sicherheit und Datenschutz ein Training eines Maschinenlernmodells herausfordernd machen. Insbesondere kann föderierte, nicht überwachte Anomalieerkennung, die während eines normalen Betriebs von heterogen verteilten, isolierten Edge-Geräten gesammelte Daten verwendet, unsichtbare heterogene Normaldaten bei verschiedenen Geräten berücksichtigen und kann die Heterogenität lokaler Modelle berücksichtigen, die an einseitig verfälschten Daten trainiert werden.
Zu diesem Zweck kann ein exemplarbasierter Ansatz für multivariate Zeitreihen-Anomalieerkennung einen Datenschutz auf Edge-Geräten bewahren und kann Daten handhaben, die nicht auf unabhängige, identische Weise über Edge-Geräte verteilt sind. Lokale Exemplare werden verwendet, um Anomalieerkennung durchzuführen und um eine Datenverteilung von Clients zu erfassen, die dann verwendet werden kann, um eine föderierte Aggregation lokaler Modelle auf eine verteilungsbewusste Weise zu führen bzw. anzuleiten. Jedes Edge-Gerät kann relevante Exemplare updaten bzw. aktualisieren, während ein zentralisierter Server die Exemplare basierend auf Ausrichtung und Clustering aggregiert. Die lokalen Exemplare können als Parameter eines neuronalen Netzes modelliert sein und können Ende-zu-Ende bzw. End-to-End bei den Clients trainiert werden.
Nimmt man nun Bezug auf die Figuren, in welchen gleiche Zeichen die gleichen oder ähnliche Elemente darstellen, und zunächst auf 1, sind ein Wartungssystem 104 im Kontext jeweiliger überwachter Systeme 102 gezeigt. Das überwachte System 102 kann irgendein geeignetes System sein, einschließlich physischer Systeme wie beispielsweise Fertigungslinien und physischer Anlagenbetriebe, elektronischer Systeme wie beispielsweise Computer oder anderer computergestützter Geräte, Softwaresysteme wie beispielsweise Betriebssysteme und Anwendungen und cyber-physischer Systeme, die physische Systeme mit elektronischen Systemen und/oder Softwaresystemen kombinieren. Beispielhafte Systeme 102 können eine breite Palette verschiedener Typen enthalten, einschließlich Kraftwerke, Rechenzentren und Transportsysteme.
Ein oder mehrere Sensoren innerhalb jedes jeweiligen überwachten Systems 10 zeichnet oder zeichnen Informationen über den Zustand des überwachten Systems 102 auf. Die Sensoren können irgendein geeigneter Typ von Sensor sein, einschließlich beispielsweise physischer Sensoren wie beispielsweise Temperatur-, Feuchtigkeits-, Schwingungs- bzw. Vibrations-, Druck-, Spannungs-, Strom-, Magnetfeld-, Stromfeld- und Lichtsensoren, und Softwaresensoren, wie beispielsweise Protokollierungsdienstprogramme, die auf einem Computersystem installiert sind, um Informationen bezüglich des Zustands und des Verhaltens des Betriebssystems und der auf dem Computersystem ausgeführten bzw. laufenden Anwendungen aufzuzeichnen. Die durch die Sensoren erzeugten Informationen können in irgendeinem geeigneten Format vorliegen und können mit heterogenen Formaten erzeugte Sensorprotokollinformationen enthalten.
Die Sensoren eines überwachten Systems 102 können die protokollierten Sensorinformationen durch irgendein geeignetes Kommunikationsmedium und Protokoll, einschließlich drahtloser und drahtgebundener Kommunikation, zu einem jeweiligen lokalen Wartungssystem 104 übertragen. Das lokale Wartungssystem 104 kann zum Beispiel anomales Verhalten identifizieren, indem es die multivariaten Zeitreihen überwacht, die durch den Sensor erzeugt werden. Wenn einmal anomales Verhalten erkannt worden ist, kommuniziert das Wartungssystem 104 mit einer Systemsteuereinheit, um einen oder mehrere Parameter des überwachten Systems 102 zu ändern, um das anomale Verhalten zu korrigieren.
Beispielhafte Korrekturaktionen bzw. -maßnahmen enthalten ein Ändern einer Sicherheitseinstellung für eine Anwendung oder Hardwarekomponente, ein Ändern eines Betriebsparameters einer Anwendung oder Hardwarekomponente (zum Beispiel einer Betriebsgeschwindigkeit), ein Anhalten und/oder Neustarten einer Anwendung, ein Anhalten und/oder neues Booten einer Hardwarekomponente, ein Ändern einer Umgebungsbedingung, ein Ändern von Zustand oder Einstellungen einer Netzwerkschnittstelle, etc. Das Wartungssystem 106 korrigiert oder mildert dadurch automatisch das anomale Verhalten. Durch Identifizieren der einzelnen Sensoren 104, die mit der anomalen Klassifizierung assoziiert sind, kann die Menge an Zeit, die benötigt wird, um ein Problem zu isolieren, verringert werden.
Jeder der Sensoren gibt eine jeweilige Zeitreihe aus, die durch den Sensor im Zeitverlauf durchgeführte Messungen codiert. Zum Beispiel kann die Zeitreihe Informationspaare enthalten, wobei jedes Paar eine Messung und einen Zeitstempel enthält, welche Paare die Zeit darstellen, zu welcher die Messung durchgeführt wurde. Jede Zeitreihe kann in Segmente unterteilt werden, die Messungen darstellen, die durch den Sensor über einen bestimmten Zeitbereich hinweg durchgeführt werden. Zeitreihensegmente können irgendein geeignetes Intervall darstellen, wie beispielsweise eine Sekunde, eine Minute, eine Stunde oder einen Tag. Zeitreihensegmente können eine eingestellte Anzahl von Sammlungszeitpunkten anstelle einer festen Zeitperiode darstellen, wie zum Beispiel 100 Messungen abdeckend.
Anomalieerkennung bei den lokalen Wartungssystemen 104 kann durch jeweilige Maschinenlernmodelle gelenkt werden, die zum Beispiel als neuronale Netzwerke implementiert sind. Jedes derartige Modell kann zwei Teile enthalten, einschließlich eines lokalen Teils, der unter Verwendung von bei dem jeweiligen überwachten System 102 gesammelten Daten trainiert wird, und eines globalen Teils, der durch einen zentralen Modelltrainingsserver 106 trainiert wird. Anstatt Rohdaten zum Modelltrainingsserver 106 weiterzugeben, können die Wartungssysteme 104 ihre jeweiligen lokal trainierten Teile bereitstellen. Der Modelltrainingsserver 106 kann dann den globalen Teil unter Verwendung von aus den gesammelten lokalen Teilen zusammengelesenen Informationen trainieren und den trainierten globalen Teil zum jeweiligen Wartungssystem 104 übertragen. Auf diese Weise können Informationen, die bei den jeweiligen lokalen Wartungssystemen 104 gesammelt werden, verwendet werden, um die Anomalieerkennung anderer solcher Wartungssysteme 104 zu verbessern, ohne potenziell sensible lokale Daten zu riskieren.
Selbst in einem Fall, in welchem die verschiedenen überwachten Systeme 102 im Wesentlichen identisch sind, können sie sehr unterschiedliche Umstände erfahren. Zum Beispiel können zwei verschiedene Systeme 102 unterschiedliche Betriebsarten erfahren, von welchen beide als „normaler“ Betrieb bezeichnet sein können. Ein lokal erzeugtes Modell, das seine Trainingsdaten von nur einem solchen System ableitet, kann den normalen Betrieb eines anderen Systems als anomal identifizieren. Um dieses Problem zu vermeiden, kann eine Aggregation von Modellinformationen verwendet werden, um mehrere verschiedene Umgebungen zu berücksichtigen, ohne die potenziell sensiblen lokalen Daten selbst zu übertragen.
Nimmt man nun Bezug auf 2, ist ein Verfahren föderierten Lernens gezeigt. Ein Block 202 verteilt ein anfängliches Modell vom Server 106 zu Edge-Geräten (z.B. den lokalen Wartungssystemen 104). Ein Block 204 sammelt lokale Zeitreihendaten bei den Edge-Geräten, wie zum Beispiel durch Sammeln von Zeitreiheninformationen von Sensoren bei den jeweiligen überwachten Systemen 102.
Ein Block 206 verwendet die lokalen Zeitreihendaten, um die Modelle bei den Edge-Geräten 104 zu aktualisieren bzw. upzudaten. Jedes Edge-Gerät 104 kann seine eigene jeweilige Aktualisierung durchführen, und zwar basierend auf den Daten, die es zur Verfügung hat. Ein solches Lernen kann nicht überwacht durchgeführt werden, da es sein kann, dass die vom überwachten System 102 gesammelten Daten nicht gekennzeichnet sind.
Ein Block 208 aggregiert die Modelle von den jeweiligen Edge-Geräten 104 beim Server 106. Diese Aggregation wird verwendet, um das Servermodell zu aktualisieren. Ein Verarbeiten kehrt dann zurück zum Block 202, da das aktualisierte Servermodell zu den Edge-Geräten 104 verteilt wird. Dieser Prozess kann sich unbegrenzt wiederholen, wenn neue Informationen durch die Edge-Geräte 104 gesammelt werden, oder kann wiederholt werden, bis eine Modellkonvergenz erreicht ist. Neue Modelle können durch den Server 106 periodisch oder nach einem ausreichenden Ausmaß von Änderungen gegenüber einem zuvor verteilten Modell verteilt werden.
Anomalieerkennung und Modellaktualisierung im Block 206 kann unter Verwendung der Modelle durchgeführt werden, wobei eine exemplarbasierte Anomalieerkennung Exemplare erzeugt. Clientmodelle können dann auf der Serverseite unter der Anleitung dieser Exemplare aggregiert werden. Exemplarbasierte Anomalieerkennung kann augmentationsfreies kontrastives Lernen verwenden, um latente Repräsentationen zu extrahieren, was für tiefes Clustering und Anomalieerkennung verwendet werden kann. Clustering und Repräsentationslernen können gleichzeitig durchgeführt werden, um ihre Leistungsfähigkeit wechselseitig zu steigern.
In diesem Schritt kann davon ausgegangen werden, dass es L Edge-Geräte 104 gibt, wobei das I-te lokale Gerät ein gerätespezifisches Modell lernt, welches Gerät ein Einbettungsnetzwerk f^l (·; θ^l) zur Merkmalscodierung enthält, und ein Exemplarmodul, in welchem eine Gruppe von K lokalen Exemplaren für das I-te Gerät $C^{l} = {c_{1}^{l}, \dots, c_{K}^{l}} \in ℝ^{d \times K}$
gelernt wird, um potenzielle normale Muster in einem verborgenen Merkmalsraum zu erfassen. Das lokale Modell kann trainiert werden basierend auf bei dem I-ten lokalen Gerät 102 gesammelten Zeitreihendaten zur nicht überwachten Anomalieerkennung. Der zentrale Server 106 aggregiert lokale Modelle von verschiedenen Geräten, um das globale Modell im Block 208 auszubilden. Das Einbettungsnetzwerk des globalen Modells g(·; θ) kann durch föderierte Mittelwertbildung erhalten werden, und das globale Exemplarmodul mit K erlernbaren Exemplaren U = {u₁, ...,u_K) wird durch Aggregieren und Ausrichten aller lokalen Exemplarmodule erhalten. Der Server 106 sendet das globale Modell zu verschiedenen Edge-Geräten 104, um ihre lokalen Modelle zu aktualisieren.
Bei einem Trainingssatz, der aus Daten besteht, die während eines normalen Betriebs gesammelt sind, einschließlich n multivariater Zeitreihensegmente (Xⁱ) ∈ ℝ^m×t, wobei m eine Anzahl von Zeitreihen ist und t die Länge der Segmente ist, kann die Zielfunktion zum Lernen formuliert werden als: $min_{θ, c} - \frac{1}{n} \sum_{i = 1}^{n} K L (p_{i} ‖ q_{i}) - α^{T} log (\frac{1}{n} \sum_{i = 1}^{n} q_{i}) + 1 / n \sum_{i = 1}^{n} M (X^{i})$

wobei θ ein Satz von Parametern für ein neuronales Netzwerk ist, KL(·) die Kullback-Leibler-Divergenz ist, q_i ∈ ℝ^K der Clustermitgliedschaftsvektor für die i-ten Daten ist,
wobei q_ij die Wahrscheinlichkeit für eine Zuordnen der i-ten Daten zum j-ten Exemplar ist und α ∈ ℝ^K eine vorherige Verteilung über die Exemplare, um Clustergrößen auf den Edge-Geräten zu ermutigen, mit der vorherigen übereinzustimmen,
ist. Der Wert von q_ij kann berechnet werden als: $q_{i j} = \frac{e^{γ_{1} s (ƒ (X^{i}), c_{j})}}{\sum_{k = 1}^{K} e^{γ_{1} s (ƒ (X^{i}), c_{k})}}$

wobei s(f (Xⁱ), c_j) durch eine Kosinusähnlichkeitsfunktion implementiert werden kann, C = {c₁, c₂, ..., c_K} ∈ ℝ^K×d die Gruppe von K erlernbaren Exemplaren ist (z.B. Clustering-Zentren) und γ₁ ein Skalierungsfaktor ist. Der Ausdruck bzw. Term q_ij liefert die Wahrscheinlichkeit für ein Zuordnen der i-ten Daten zum j-ten Exemplar.
Der Term a kann mit einer gleichmäßigen Verteilung initialisiert werden als $\frac{1}{K} 1,$
und er kann mit einem exponentiellen sich bewegenden bzw. gleitenden Durchschnitt bei jeder Iteration aktualisiert werden als: $α = λ α + (1 - λ) (\frac{1}{n}) \sum_{i = 1}^{n} p_{i}$
wobei λ ein Parameter ist, der die Lernrate ändert. Der Ausdruck bzw. Term p_i kann ein Ziel-Clustermitgliedschaftsvektor sein, und zwar mit Elementen, die bestimmt werden als: $p_{i j} = \frac{(\frac{q_{i j}^{2}}{\sum_{(i' = 1)}^{n} q_{i' j}})}{\sum_{j'} (\frac{q_{i j}^{'}^{2}}{\sum_{i' = 1}^{n} q_{i' j'}})}$
Das neuronale Netzwerk f kann zum Beispiel Schichten für langes Kurzzeitgedächtnis bzw. LSTM(= Long Short-Term Memory)-Schichten oder bidirektionale LSTM-Schichten enthalten, um Dynamiken in den multivariaten Zeitreihen zu codieren. Das neuronale Netzwerk f kann weiterhin eine vollständig verbundene Schicht enthalten, um das Exemplar zu erfassen, und dies kann gemeinsam mit dem Einbettungsnetzwerkparameter θ auf eine End-to-End-Weise trainiert werden. Der erste Ausdruck führt ein tiefes Einbettungsclustering durch. Dies wird auf einer Basis pro Gerät durchgeführt und somit wird die Indizierung / der Kürze halber weggelassen.
Der dritte Ausdruck kann für ein Repräsentationslernen mit tiefer relativer Erhaltung verwendet werden, um den latenten Raum zu ermutigen, die lokale Ähnlichkeit des rohen Merkmalsraums zu bewahren als: $M (X^{i}) = min_{θ} log (1 + \sum_{\begin{array}{l} (p \in P_{i}) \\ (n \notin P_{i}) \end{array}} e^{γ_{2} (s_{i n} - s_{i p})})$
wobei P_i die Gruppe nächster Nachbarn des i-ten Beispiels ist, γ₂ ein erlernbarer Skalierungsfaktor ist und s_ij durch die Kosinusähnlichkeit zwischen der Einbettung der i-ten und derj-ten Probe bzw. Abtastung bestimmt wird. Dieser Ausdruck fördert, dass die Ähnlichkeit positiver Paare größer als die von negativen Paaren ist. Dies kann der Formulierung eines Kreisverlustes folgen. Um Rechen- und Lager- bzw. Speicherkosten für den Graphen zu vermeiden, kann der Graph durch die Abtastungen innerhalb von jedem Mini-Batch angenähert werden.
Der Anomalie-Wert kann durch die absolute Ähnlichkeit zwischen Proben bzw. Abtastungen und Exemplaren berechnet werden. Die obige Zielfunktion erzwingt jedoch nur einen relativen Spielraum bzw. eine relative Marge. Um dies zu beheben, kann die Ähnlichkeit der i-ten Probe direkt gegenüber einer weichen Annäherung des nächsten Exemplars optimiert werden: $b_{i} = \sum_{j = 1}^{K} q_{i j} c_{j} .$
Ein Ausdruck zur Erzwingung einer absoluten Marge kann hinzugefügt werden, um eine endgültige Zielfunktion zu erzeugen: $\begin{matrix} min_{θ, C} - \frac{1}{n} \sum_{i = 1}^{n} K L (p_{i} ‖ q_{i}) - α^{T} log (\frac{1}{n} \sum_{i = 1}^{n} q_{i}) + \frac{1}{n} \sum_{i = 1}^{n} M (X^{i}) \\ + \frac{1}{n} \sum_{i = 1}^{n} log (1 + e^{- γ_{3} (ƒ {(X^{i})}^{T} - {\bar{c}}_{i} - m)}) \end{matrix}$
wobei γ₃ ein erlernbarer Skalierungsfaktor ist und m ein Spielraum bzw. eine Marge ist. Ein Verwenden von Softplus für den vierten Ausdruck bietet eine ähnliche Skalierung wie bei den anderen Ausdrücken bzw. Termen und kann ein Abstimmen von Hyperparametern verhindern, um die Ausdrücke ins Gleichgewicht zu bringen. Der Anomalie-Wert einer Testprobe bzw. -abtastung x kann als die negative Kosinusähnlichkeit zu ihrem nächsten Exemplar berechnet werden: $W e r t (x) = - max_{j} s (ƒ (X), c_{j})$
Nach einer Anzahl von Trainingsrunden auf dem I-ten lokalen Gerät können die Parameter des Einbettungsnetzwerks θ^l, der Gruppe von Exemplaren ${c_{1}^{l}, \dots, c_{K}^{l}}$
und des Clusters vor α^l vom Edge-Gerät 104 zum Server 106 übertragen werden.
Nimmt man nun Bezug auf 3, werden zusätzliche Details über die Aggregation des Modells beim Server 106 im Block 208 bereitgestellt. Bei einem Block 302 übertragen die Edge-Geräte 104 ihre trainierten Edge-Gerätemodelle durch irgendein geeignetes Kommunikationsmedium und Protokoll zum Server 106. Der Server 106 sammelt die lokal trainierten Modelle und führt eine datenfreie Aggregation durch, um ein globales Modell zu erstellen bzw. zu bilden. Ein föderierter Mittelwert bzw. Durchschnitt kann in einem Block 304 unter Verwendung einer elementweisen Mittelwerts- bzw. Durchschnittsbildung lokaler Exemplare durchgeführt werden, und zwar basierend auf dem vorherigen, dass lokale Modelle mit derselben Initialisierung trainiert werden. Aufgrund der Heterogenität lokaler Daten kann es jedoch sein, dass auf verschiedenen Edge-Geräten 104 trainierte Exemplare nicht gut übereinstimmen. Um dieses Problem zu beheben, kann eine föderierte angepasste Mittelwerts- bzw. Durchschnittsbildung 304 Exemplare nach einem Anpassen von ihnen durch ihre Werte einer Mittelwerts- bzw. Durchschnittsbildung unterziehen. Der vorherige und der Wert der Exemplare können jedoch gemeinsam verwendet werden, wobei gelernte Exemplare zu einem latenten Raum projiziert werden und dann gemäß ihrer projizierten Positionen angepasst werden. Föderiertes eingeschränktes Clustering kann durchgeführt werden, um globale Exemplare zu erzeugen, und zwar in einem Block 306.
Bei L Edge-Geräten 104 mit K Exemplaren bei jedem Gerät können die Exemplare, die vom I-ten Gerät (l ∈ L) hochgeladen werden, als C_l = {c₁, c₂, . .., c_K} ∈ ℝ^K×d bezeichnet werden, zusammen mit der Größe jedes Clusters als a_l. Die globalen Exemplare U werden ausgedrückt als {u₁, ..., u_K} und erfassen die Gesamtverteilung von durch alle Geräte erfahrenen Daten. Der Ausdruck N = LK kann verwendet werden, um die Gesamtanzahl von Exemplaren zu bezeichnen. Föderiertes, eingeschränktes Clustering von Exemplaren kann dann die lokalen Modelle aggregieren und kann ausgedrückt werden als: $\begin{matrix} min_{ϕ, {v_{1}, \dots v_{K}}} - \frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} α_{i}^{l} p_{i l}^{T} log q_{i l} - 1^{T} log (\frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} p_{i l}) \\ + \frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} R (c_{i}^{l}) \end{matrix}$
wobei Φ die Parameter des Projektionsnetzwerks h darstellt und wobei {v₁, ..., v_K} die latenten Clusterzentren im Ausgaberaum von h sind. R(·) ist eine Einschränkungsfunktion, die die gelernte Projektion h ermutigt, ähnliche Einbettungen für Exemplare zu geben, die dieselbe Initialisierung haben. Der Ausdruck q_il ist ähnlich zum obigen q_ij definiert: $q_{i l, j} = \frac{e^{γ_{4} s (h (c_{i}^{l}), v_{j})}}{\sum_{k = 1}^{K} e^{γ_{4} s (h (c_{i}^{l}), v_{k})}}$
wobei γ₄ ein Skalierungsfaktor ist. Der Ausdruck p_il ist auf ähnliche Weise definiert wie obiges p_ij. Die Einschränkungsfunktion kann definiert werden als: $R (c_{i}^{l}) = α_{i}^{l} log (1 + \sum_{m = 1}^{L} \sum_{j = 1}^{K} e^{γ_{5} e_{i j} s (h (c_{i}^{l}), h (c_{j}^{m}))})$
wobei e_ij = 1, wenn i = j, was bedeutet, dass die zwei lokalen Exemplare dieselbe Initialisierung gemeinsam nutzen, und sonst -1 ist. Der Ausdruck γ₅ ist ein Skalierungsfaktor.
Die globalen Exemplare {u₁, ..., u_K} können basierend auf der Clustering-Indikatorenmatrix erhalten werden: $u_{z} = \frac{1}{\sum_{i = 1}^{K} \sum_{l = 1}^{L} q_{i l, z} c_{i}^{l}}$
Nimmt man nun Bezug auf 4, ist ein Verfahren einer Anomalieerkennung und -korrektur gezeigt. Ein Block 200 trainiert Edge-Gerätemodelle, wie es oben beschrieben ist, unter Verwendung globaler Exemplare, die durch Aggregation lokal trainierter Modellinformationen erzeugt werden. Ein Block 410 sammelt neue lokale Zeitreihendaten bei den Wartungssystemen 104 von den jeweiligen überwachten Systemen 102. Diese neuen lokalen Zeitreihendaten können jüngste Betriebscharakteristiken der jeweiligen überwachten Systeme 102 widerspiegeln und können als Zeitreiheninformationen ausgedrückt werden.
Ein Block 420 verwendet die Edge-Gerätemodelle, um Anomalien in den lokalen Zeitreihendaten zu erkennen. Zum Beispiel kann ein bestimmtes überwachtes System 102 in einem Zustand eines anomalen Betriebs sein, und die jeweiligen Zeitreiheninformationen, die dem Edge-Gerät 104 zur Verfügung gestellt werden, können daher als anomal identifiziert werden.
Wenn eine Anomalie erkannt wird, kann ein Block 430 eine Korrekturaktion bzw. -maßnahme durchführen. Zum Beispiel kann das Wartungssystem 104, das die Anomalie erkennt, eine Änderung innerhalb des überwachten Systems auslösen, um den anomalen Betriebszustand automatisch zu korrigieren.
Die hierin beschriebenen Ausführungsformen können vollständig Hardware, vollständig Software oder sowohl Hardware- als auch Softwareelemente enthalten. Bei einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, Mikrocode usw. enthält, aber nicht darauf beschränkt ist.
Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium aus zugegriffen werden kann, das einen Programmcode zur Verwendung durch oder in Verbindung mit einem Computer oder einem Befehls- bzw. Anweisungsausführungssystem bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann jede Vorrichtung enthalten, die das Programm zur Verwendung durch oder in Verbindung mit dem Befehlsausführungssystem, dem Gerät oder der Vorrichtung speichert, kommuniziert, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder ein Gerät oder eine Vorrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium wie einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine austauschbare Computerdiskette, einen Arbeitsspeicher (RAM), einen schreibgeschützten Speicher (ROM), eine starre Magnetplatte und eine optische Festplatte usw. enthalten.
Jedes Computerprogramm kann greifbar in einem maschinenlesbaren Speichermedium oder einer maschinenlesbaren Vorrichtung (z.B. Programmspeicher oder Magnetplatte) gespeichert sein, die von einem allgemeinen oder speziellen programmierbaren Computer gelesen werden kann, um den Betrieb eines Computers zu konfigurieren und zu steuern, wenn das Speichermedium oder die Vorrichtung vom Computer gelesen wird, um die hierin beschriebenen Verfahren durchzuführen. Das erfindungsgemäße System kann auch als in einem computerlesbaren Speichermedium verkörpert angesehen werden, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium bewirkt, dass ein Computer in einer bestimmten und vordefinierten Weise arbeitet, um die hierin beschriebenen Funktionen auszuführen.
Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor umfassen, der direkt oder indirekt über einen Systembus mit Speicherelementen gekoppelt ist. Die Speicherelemente können einen lokalen Speicher enthalten, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, Massenspeicher und Cache-Speicher, die eine temporäre Speicherung von zumindest einem Teil des Programmcodes bereitstellen, um die Häufigkeit zu reduzieren, mit der ein Code während der Ausführung aus dem Massenspeicher abgerufen wird. Eingabe-/Ausgabe- oder I/O-Vorrichtungen (einschließlich, aber nicht beschränkt darauf, Tastaturen, Displays bzw. Anzeigen, Zeigegeräte usw.) können entweder direkt oder über dazwischenliegende I/O-Steuerung mit dem System gekoppelt sein.
Netzwerkadapter können auch mit dem System gekoppelt sein, damit das Datenverarbeitungssystem über dazwischenliegende private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder entfernten Druckern bzw. Remotedruckern oder Speichervorrichtungen gekoppelt werden kann. Modems, Kabelmodems und Ethernet-Karten sind nur einige der derzeit verfügbaren Arten von Netzwerkadaptern.
Wie er hierin verwendet ist, kann sich der Begriff „Hardwareprozessor-Subsystem“ oder „Hardwareprozessor“ auf einen Prozessor, Speicher, Software oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben auszuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Datenverarbeitungselemente (z.B. logische Schaltungen, Verarbeitungsschaltungen, Befehlsausführungsvorrichtungen usw.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder rechenelementbasierten Steuerung (z.B. Logikgatter usw.) enthalten sein. Das Hardwareprozessor-Subsystem kann einen oder mehrere On-Board-Speicher enthalten (z.B. Caches, dedizierte Speicherarrays, schreibgeschützten Speicher usw.). Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem einen oder mehrere Speicher enthalten, die sich auf oder außerhalb der Platine befinden können oder die für die Verwendung durch das Hardwareprozessor-Subsystem dediziert sein können (z. B. ROM, RAM, Basic Input / Output System (BIOS) usw.).
Bei einigen Ausführungsformen kann das Hardwareprozessor-Subsystem ein oder mehrere Softwareelemente enthalten und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder spezifischen Code enthalten, um ein bestimmtes Ergebnis zu erzielen.
Bei anderen Ausführungsformen kann das Hardwareprozessor-Subsystem dedizierte, spezialisierte Schaltkreise umfassen, die eine oder mehrere elektronische Verarbeitungsfunktionen ausführen, um ein spezifiziertes Ergebnis zu erzielen. Solche Schaltungen können einen oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs (feldprogrammierbare Gate-Arrays) und/oder speicherprogrammierbare Logikarrays (PLAs) umfassen.
Diese und andere Variationen eines Hardwareprozessor-Subsystems werden ebenfalls gemäß Ausführungsformen der vorliegenden Erfindung in Betracht gezogen.
Nimmt man nun Bezug auf 5, werden zusätzliche Details an dem Wartungssystem/Edge-Gerät 104 gezeigt. Das Wartungssystem 104 enthält einen Hardwareprozessor 502 und einen Speicher 504. Eine Netzwerkschnittstelle 506 stellt eine Kommunikation zwischen dem Wartungssystem 104 und dem Modelltrainingsserver 106 bereit und kann durch irgendein geeignetes drahtgebundenes oder drahtloses Kommunikationsmedium und Protokoll betrieben werden.
Eine Sensorschnittstelle 508 empfängt Informationen von einem oder mehreren Sensoren im überwachten System 102. Die Kommunikation mit den Sensoren kann durch irgendein geeignetes drahtgebundenes oder drahtloses Kommunikationsmedium und Protokoll erfolgen und kann irgendeine Kombination von dedizierten Sensoreingaben und allgemeiner Netzwerkkommunikation enthalten. Die gesammelten Sensorinformationen können durch einen Modelltrainer 510 verwendet werden, um ein lokales Modell 512 zu trainieren. Ein Modellmanager 514 kann mit dem Server 106 kommunizieren, was das lokale Modell 512 zur Aggregation überträgt, und kann globale Exemplare vom Server 106 empfangen, damit sie bei zukünftigen Modelltrainingseinheiten verwendet werden.
Während des Betriebs können neue Sensordaten als Eingabe für das lokale Modell 512 bereitgestellt werden, um zu bestimmen, ob sich das überwachte System 102 anomal verhält. In dem Fall, dass eine Anomalie erkannt wird, kann eine Steuerung 516 automatisch eine Korrekturmaßnahme durchführen. Zum Beispiel kann die Steuerung mit einem Steuerungssystem innerhalb des überwachten Systems 102 kommunizieren, um eine Anweisung zur Kompensation von Betriebsparametern zu liefern, die außerhalb normaler Grenzen liegen.
Nimmt man nun Bezug auf 6, werden zusätzliche Details über den Modelltrainingsserver 106 gezeigt. Der Modelltrainingsserver 106 enthält einen Hardwareprozessor 602 und einen Speicher 604. Eine Netzwerkschnittstelle 606 stellt eine Kommunikation zwischen dem Wartungssystem 104 und dem Modelltrainingsserver 106 bereit und kann durch irgendein geeignetes drahtgebundenes oder drahtloses Kommunikationsmedium und Protokoll betrieben werden.
Ein Modellmanager 607 empfängt lokale Modellinformationen von den verschiedenen Wartungssystemen 104. Ein Modellaggregator 610 aggregiert diese lokalen Modelle, wobei ein Modelltrainer 612 ein globales Modell 614 erzeugt, wie es oben beschrieben ist. Das globale Modell 614 wird durch den Modellmanager 608 zu den Wartungssystemen 104 übertragen, was die Grundlage für zukünftiges lokales Modelltraining bereitstellt.
Eine Bezugnahme in der Beschreibung auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine Struktur, ein Merkmal usw., das oder die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Daher beziehen sich die Erscheinungen des Ausdrucks „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie alle anderen Variationen, die an verschiedenen Stellen in der Beschreibung auftreten, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es ist jedoch zu verstehen, dass Merkmale einer oder mehrerer Ausführungsformen angesichts der hierin enthaltenen Lehren der vorliegenden Erfindung kombiniert werden können.
Es ist zu verstehen, dass die Verwendung von einem der folgenden „/“, „und/oder“ und „wenigstens eine der folgenden Optionen“, wie beispielsweise in den Fällen „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgeführten Option (A) oder nur die Auswahl der zweiten aufgeführten Option (B) umfassen soll, oder die Auswahl beider Optionen (A und B). Als weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgeführten Option (A) oder nur die Auswahl der zweiten aufgeführten Option (B) oder nur die Auswahl der dritten aufgeführten Option (C) umfassen, oder nur die Auswahl der ersten und zweiten aufgeführten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgeführten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgeführten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C). Dies kann auf beliebig viele aufgeführte Elemente ausgeweitet werden.
Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht einschränkend zu verstehen, und der Umfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern aus den Ansprüchen, wie sie gemäß der vollen Breite ausgelegt werden, die nach den Patentgesetzen zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur zur Veranschaulichung der vorliegenden Erfindung dienen und dass ein Fachmann auf dem Gebiet verschiedene Modifikationen vornehmen kann, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Sind somit Aspekte der Erfindung mit den Einzelheiten und der Besonderheit, die von den Patentgesetzen gefordert werden, beschrieben worden, wird das, was durch das Patent beansprucht und gewünscht wird, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 17395118 [0001]
US 63062031 [0001]
US 63070437 [0001]
US 63075450 [0001]

Claims

Verfahren zum Trainieren eines neuronalen Netzwerkmodells, umfassend: Sammeln (302) von Modellexemplarinformationen von einer Vielzahl von Edge-Geräten, wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten vorhanden sind; Aggregieren (304) der gesammelten Modellexemplarinformationen miteinander unter Verwendung föderierter Mittelwertbildung; Trainieren (306) globaler Modellexemplare unter Verwendung von föderiertem eingeschränktem Clustering unter Verwendung eines Prozessors; und Übertragen (206) der trainierten globalen Exemplare zu jeweiligen Edge-Geräten der Vielzahl von Edge-Geräten.
Verfahren nach Anspruch 1, wobei föderierte Mittelwertbildung ein Bestimmen eines elementweisen Mittelwerts bzw. Durchschnitts lokaler Exemplare enthält.
Verfahren nach Anspruch 2, wobei föderierte Mittelwertbildung eine Mittelwertbildung von Exemplaren nach einem Anpassen der Exemplare durch ihre Werte enthält.
Verfahren nach Anspruch 3, wobei föderierte Mittelwertbildung ein Projizieren der lokalen Exemplare zu einem latenten Raum und ein Anpassen der lokalen Exemplare gemäß ihrer jeweiligen Positionen im latenten Raum enthält.
Verfahren nach Anspruch 1, wobei föderiertes eingeschränktes Clustering durch Minimieren einer Zielfunktion durchgeführt werden kann: $\begin{array}{l} min_{ϕ, {v_{1}, \dots v_{K}}} - \frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} α_{i}^{l} p_{i l}^{T} log q_{i l} - 1^{T} log (\frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} p_{i l}) \\ + \frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} R (c_{i}^{l}) \end{array}$
wobei ϕ Parameter des Projektionsnetzwerks h darstellt, {v₁, ..., v_K} latente Clusterzentren in einem Ausgaberaum von h sind, N eine Anzahl einer Anzahl von Zeitreihensegmenten ist, K eine Anzahl globaler Exemplare ist, L eine Anzahl von Edge-Geräten ist, R(·) eine Einschränkungsfunktion ist, die das Projektionsnetzwerk h ermutigt, ähnliche Einbettungen für Exemplare zu geben, die dieselbe Initialisierung haben, $α_{i}^{l}$
eine vorherige Verteilung für ein Edge-Gerät I zu einer Zeit i darstellt, p_il ein Ziel-Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist, q_il ein Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist und $c_{i}^{l}$
das Exemplar für das Edge-Gerät I zur Zeit i ist.
Verfahren nach Anspruch 5, wobei ein Trainieren der globalen Exemplare {u₁, ... , u_K} folgendes enthält: $u_{z} = \frac{1}{\sum_{i = 1}^{K} \sum_{l = 1}^{L} q_{i l, z} c_{i}^{l}}$
wobei z ein Index zwischen 1 und K ist.
Verfahren nach Anspruch 1, wobei ein Sammeln der Modellexemplarinformationen keine Trainingsdaten für die Modellexemplare von den Edge-Geräten sammelt.
Verfahren nach Anspruch 1, das weiterhin ein Wiederholen des Sammelns, des Aggregierens, des Trainierens und des Übertragens basierend auf aktualisierten Modellexemplarinformationen von den Edge-Geräten umfasst.
Verfahren nach Anspruch 1, wobei die Modellexemplare unter Verwendung von durch die jeweiligen Edge-Geräte gesammelten multivariaten Zeitreihendaten trainiert werden.
Verfahren nach Anspruch 1, wobei die trainierten globalen Modellexemplare konfiguriert sind, um verschiedene Betriebszustände bzw. -bedingungen von cyber-physischen Systemen zu erkennen, die mit der Vielzahl von Edge-Geräten assoziiert sind.
System zum Trainieren eines neuronalen Netzwerkmodells, umfassend: einen Hardwareprozessor (502); eine Netzwerkschnittstelle (506) in Kommunikation mit einer Vielzahl von Edge-Geräten, die konfiguriert ist, um Modellexemplarinformationen von der Vielzahl von Edge-Geräten zu sammeln (302), wobei jedes Modellexemplar unter Verwendung von Informationen trainiert worden ist, die lokal auf den jeweiligen Edge-Geräten sind, und um trainierte globale Exemplare zu jeweiligen Edge-Geräten der Vielzahl von Edge-Geräten zu übertragen (206); und einen Speicher (504), der ein Computerprogrammprodukt speichert, das dann, wenn es durch den Hardwareprozessor ausgeführt wird, veranlasst, dass der Hardwareprozessor: die gesammelten Modellexemplarinformationen miteinander unter Verwendung föderierter Mittelwertbildung aggregiert (304); und die globalen Modellexemplare unter Verwendung von föderiertem eingeschränktem Clustering unter Verwendung eines Prozessors trainiert (306).
System nach Anspruch 11, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor zur föderierten Mittelwertbildung einen elementweisen Mittelwert bzw. Durchschnitt lokaler Exemplare bestimmt.
System nach Anspruch 12, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor zur föderierten Mittelwertbildung nach einem Anpassen der Exemplare durch ihre Werte eine Mittelwertbildung von Exemplaren durchführt.
System nach Anspruch 13, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor zur föderierten Mittelwertbildung die lokalen Exemplare zu einem latenten Raum projiziert und die lokalen Exemplare gemäß ihren jeweiligen Positionen im latenten Raum anpasst.
System nach Anspruch 11, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor eine Zielfunktion für föderiertes eingeschränktes Clustering minimiert: $\begin{array}{l} min_{ϕ, {v_{1}, \dots v_{K}}} - \frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} α_{i}^{l} p_{i l}^{T} log q_{i l} - 1^{T} log (\frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} p_{i l}) \\ + \frac{1}{N} \sum_{i = 1}^{K} \sum_{l = 1}^{L} R (c_{i}^{l}) \end{array}$
wobei ϕ Parameter des Projektionsnetzwerks h darstellt, {v₁, ..., v_K} latente Clusterzentren in einem Ausgaberaum von h sind, N eine Anzahl einer Anzahl von Zeitreihensegmenten ist, K eine Anzahl globaler Exemplare ist, L eine Anzahl von Edge-Geräten ist, R(·) eine Einschränkungsfunktion ist, die das Projektionsnetzwerk h ermutigt, ähnliche Einbettungen für Exemplare zu geben, die dieselbe Initialisierung haben, $α_{i}^{l}$
eine vorherige Verteilung für ein Edge-Gerät I zu einer Zeit i darstellt, p_il ein Ziel-Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist, q_il ein Clustermitgliedschaftsvektor für das Edge-Gerät I zur Zeit i ist und $c_{i}^{l}$
das Exemplar für das Edge-Gerät I zur Zeit i ist.
System nach Anspruch 15, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor die globalen Beispiele {u₁, ...,u_K} trainiert mit: $u_{z} = \frac{1}{\sum_{i = 1}^{K} \sum_{l = 1}^{L} q_{i l, z} c_{i}^{l}}$
wobei z ein Index zwischen 1 und K ist.
System nach Anspruch 11, wobei die Netzwerkschnittstelle keine Trainingsdaten für die Modellexemplare von den Edge-Geräten sammelt.
System nach Anspruch 11, wobei das Computerprogrammprodukt weiterhin veranlasst, dass der Hardwareprozessor das Aggregieren und Trainieren basierend auf aktualisierten Modellbeispielinformationen von den Edge-Geräten wiederholt.
System nach Anspruch 11, wobei die Modellexemplare unter Verwendung von durch die jeweiligen Edge-Geräte gesammelten multivariaten Zeitreihendaten trainiert werden.
System nach Anspruch 11, wobei die trainierten globalen Modellexemplare konfiguriert sind, um verschiedene Betriebszustände bzw. -bedingungen von cyber-physischen Systemen zu erkennen, die mit der Vielzahl von Edge-Geräten assoziiert sind.