DE112020007371T5

DE112020007371T5 - Verfahren und Einrichtung für ein neuronales Netzwerk basierend auf energiebasierten Modellen einer latenten Variable

Info

Publication number: DE112020007371T5
Application number: DE112020007371.8T
Authority: DE
Inventors: Jun Zhu; Fan Bao; Chongxuan Li; Kun Xu; Hang Su; Siliang Lu
Original assignee: Tsinghua University; Robert Bosch GmbH
Current assignee: Tsinghua University; Robert Bosch GmbH
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-05-25
Also published as: US20230394304A1; CN116391193A; WO2022077345A1; CN116391193B

Abstract

Verfahren und Einrichtungen zum Trainieren von neuronalen Netzwerken basierend auf energiebasierten Modellen einer latenten Variable (EBLVMs) werden bereitgestellt. Das Verfahren umfasst Optimierungen auf zwei Ebenen basierend auf einem Score Matching-Ziel. Die niedrigere Ebene optimiert eine A-posteriori-Variationsverteilung der latenten Variablen, um die wahre A-posteriori-Verteilung des EBLVM näherungsweise zu bestimmen, und die höhere Ebene optimiert die Parameter des neuronalen Netzwerks basierend auf einem modifizierten SM-Ziel in Abhängigkeit von der A-posteriori-Variationsverteilung. Das Verfahren kann angewendet werden, um neuronale Netzwerke basierend auf EBLVMs mit nichtstrukturellen Annahmen zu trainieren.

Description

GEBIET
Die vorliegende Offenbarung bezieht sich allgemein auf Techniken der künstlichen Intelligenz und insbesondere auf Techniken der künstlichen Intelligenz für neuronale Netzwerke basierend auf energiebasierten Modellen einer latenten Variable.
HINTERGRUND
Ein energiebasiertes Modell (EBM) spielt eine wichtige Rolle bei der Forschung und Entwicklung künstlicher neuronaler Netzwerke, auch einfach als neuronale Netzwerke (NNs) bezeichnet. Ein EBM setzt eine Energiefunktion ein, die eine Konfiguration von Variablen auf einen Skalar abbildet, um eine Gibbs-Verteilung zu definieren, deren Dichte proportional zur exponentiellen negativen Energie ist. EBMs können latente Variablen auf natürliche Weise integrieren, um komplexe Daten aufzunehmen und Merkmale zu extrahieren. Eine latente Variable ist eine Variable, die nicht direkt beobachtet werden kann und die die Ausgabeantwort auf eine sichtbare Variable beeinflussen kann. Ein EBM mit latenten Variablen, auch energiebasiertes latentes Modell (EBLVM) genannt, kann verwendet werden, um neuronale Netzwerke zu erzeugen, die eine verbesserte Leistung bereitstellen. Daher kann EBLVM in den Bereichen der Bildverarbeitung, Sicherheit usw. weithin verwendet werden. Zum Beispiel kann ein Bild durch ein neuronales Netzwerk, dessen Lernen auf EBLVM und einem Stapel von Bildern mit dem bestimmten Stil basiert, in einen bestimmten Stil (wie warme Farben) übertragen werden. Als ein anderes Beispiel kann EBLVM verwendet werden, um eine Musik mit einem bestimmten Stil, wie Klassik, Jazz oder sogar einem Stil eines Sängers, zu erzeugen. Allerdings ist das Lernen von EBMs aufgrund des Vorhandenseins der Partitionsfunktion schwierig, die ein Integral über alle möglichen Konfigurationen ist, insbesondere wenn latente Variablen vorhanden sind.
Das am häufigsten verwendete Trainingsverfahren ist die Maximum-Likelihood-Schätzung (MLE) oder das äquivalente Minimieren der KL-Divergenz. Solche Verfahren wenden häufig eine Markov-Kette-Monte-Carlo (MCMC) oder eine Variationsinferenz (VI) an, um die Partitionsfunktion zu schätzen, und mehrere Verfahren versuchen, das Problem des Ableitens der latenten Variablen durch Fortschritte bei der amortisierten Inferenz anzugehen. Diese Verfahren können jedoch möglicherweise nicht gut auf hochdimensionale Daten (wie Bilddaten) angewendet werden, weil die Variationsgrenzen für die Partitionsfunktion entweder eine hohe Vorspannung oder eine hohe Varianz beinhalten. Ein Verfahren zum Score Matching (SM) stellt einen alternativen Ansatz zum Lernen von EBMs bereit. Im Vergleich zu MLE muss SM nicht auf die Partitionsfunktion zugreifen, weil es auf einer Fisher-Divergenz-Minimierung basiert. Aufgrund seiner spezifischen Form ist es jedoch viel schwieriger, latente Variablen in SM als in MLE zu integrieren. Aktuell lassen Erweiterungen von SM für EBLVMs im Hinblick auf die Struktur stark vermuten, dass die A-posteriori-Wahrscheinlichkeit von latenten Variablen lösbar ist.
Daher besteht ein hoher Bedarf an neuen Techniken, um neuronale Netzwerke basierend auf EBLVMs ohne eine strukturelle Annahme zu trainieren.
KURZDARSTELLUNG
Das Folgende stellt eine vereinfachte Kurzdarstellung eines oder mehrerer Gesichtspunkte dar, um ein grundlegendes Verständnis solcher Gesichtspunkte bereitzustellen. Diese Kurzdarstellung ist kein umfassender Überblick über alle in Betracht gezogenen Gesichtspunkte und soll weder Schlüssel- oder kritische Elemente aller Gesichtspunkte identifizieren noch den Umfang eines oder aller Gesichtspunkte abgrenzen. Ihr einziger Zweck besteht darin, einige Konzepte eines oder mehrerer Gesichtspunkte als Vorwegnahme der nachfolgend präsentierten detaillierteren Beschreibung in vereinfachter Form darzustellen.
Unter einem Gesichtspunkt gemäß der Offenbarung wird ein Verfahren zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten offenbart, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (θ), eine sichtbare Variable und eine latente Variable definiert ist. Das Verfahren umfasst: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (θ) relevant ist; Optimieren von Netzwerkparametern (θ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; und Wiederholen der Schritte des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und Optimierens von Netzwerkparametern (θ) auf unterschiedlichen Ministapeln der Trainingsdaten, bis eine Konvergenzbedingung erfüllt ist.
Unter einem anderen Gesichtspunkt gemäß der Offenbarung wird eine Einrichtung zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten offenbart, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (θ), eine sichtbare Variable und eine latente Variable definiert ist, wobei die Einrichtung umfasst: Mittel zum Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (θ) relevant ist; Mittel zum Optimieren von Netzwerkparametern (θ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; wobei das Mittel zum Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung und das Mittel zum Optimieren von Netzwerkparametern (θ) konfiguriert sind, um wiederholt auf unterschiedlichen Ministapeln von Trainingsdaten durchgeführt zu werden, bis eine Konvergenzbedingung erfüllt ist.
Unter einem anderen Gesichtspunkt gemäß der Offenbarung eine Einrichtung zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (θ), eine sichtbare Variable und eine latente Variable definiert ist, wobei die Einrichtung umfasst: einen Speicher und mindestens einen Prozessor, der mit dem Speicher gekoppelt ist und konfiguriert ist zum: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (θ) relevant ist; Optimieren von Netzwerkparametern (θ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; und Wiederholen des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und des Optimierens von Netzwerkparametern (θ) auf unterschiedlichen Ministapeln der Trainingsdaten, bis eine Konvergenzbedingung erfüllt ist.
Unter einem anderen Gesichtspunkt gemäß der Offenbarung ein computerlesbares Medium, das Computercode zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten speichert, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (θ), eine sichtbare Variable und eine latente Variable definiert ist, wobei der Computercode bei Ausführung durch einen Prozessor den Prozessor veranlasst zum: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (θ) relevant ist; Optimieren von Netzwerkparametern (θ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; und Wiederholen des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und des Optimierens von Netzwerkparametern (θ) auf unterschiedlichen Ministapeln der Trainingsdaten, bis eine Konvergenzbedingung erfüllt ist.
Andere Gesichtspunkte oder Variationen der Offenbarung werden unter Berücksichtigung der folgenden detaillierten Beschreibung und beigefügten Zeichnungen offensichtlich.
Figurenliste
Die folgenden Figuren stellen verschiedene Ausführungsformen der vorliegenden Offenbarung lediglich zu Veranschaulichungszwecken dar. Ein Fachmann wird aus der folgenden Beschreibung leicht erkennen, dass alternative Ausführungsformen der hierin offenbarten Verfahren und Strukturen implementiert werden können, ohne vom Wesen und von den Prinzipien der hierin beschriebenen Offenbarung abzuweichen.

1 veranschaulicht eine beispielhafte Struktur einer beschränkten Boltzmann-Maschine basierend auf einem EBLVM gemäß einer Ausführungsform der vorliegenden Offenbarung.
2 veranschaulicht ein allgemeines Flussdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzwerks basierend auf einem EBLVM gemäß einer Ausführungsform der vorliegenden Offenbarung.
3 veranschaulicht ein detailliertes Flussdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzwerks basierend auf einem EBLVM gemäß einer Ausführungsform der vorliegenden Offenbarung.
4 zeigt natürliche Bilder von handschriftlichen Ziffern, die durch ein generatives neuronales Netzwerk, das gemäß einer Ausführungsform der vorliegenden Offenbarung trainiert wird, erzeugt werden.
5 veranschaulicht ein Flussdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung gemäß einer Ausführungsform der vorliegenden Offenbarung.
6 veranschaulicht ein Flussdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung gemäß einer anderen Ausführungsform der vorliegenden Offenbarung.
7 veranschaulicht ein Flussdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung gemäß einer anderen Ausführungsform der vorliegenden Offenbarung.
8 zeigt schematische Diagramme eines Ergebnisses für Wahrscheinlichkeitsdichteverteilung und -Clustering für eine Anomalieerkennung, die gemäß einer Ausführungsform der vorliegenden Offenbarung trainiert wurde.
9 veranschaulicht ein Blockdiagramm einer Einrichtung zum Trainieren eines neuronalen Netzwerks basierend auf einem EBLVM gemäß einer Ausführungsform der vorliegenden Offenbarung.
10 veranschaulicht ein Blockdiagramm einer Einrichtung zum Trainieren eines neuronalen Netzwerks basierend auf einem EBLVM gemäß einer anderen Ausführungsform der vorliegenden Offenbarung.
11 veranschaulicht ein Blockdiagramm einer Einrichtung zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung.

DETAILLIERTE BESCHREIBUNG
Bevor Ausführungsformen der vorliegenden Offenbarung ausführlich erläutert werden, versteht es sich, dass die Offenbarung in ihrer Anwendung nicht auf die Konstruktionsdetails und Merkmalsanordnung beschränkt ist, die in der folgenden Beschreibung dargelegt sind. Die Offenbarung ist zu anderen Ausführungsformen in der Lage und kann auf verschiedene Weise umgesetzt oder ausgeführt zu werden.
Künstliche neuronale Netzwerke (KNNs) sind Rechensysteme, die etwas von den biologischen neuronalen Netzwerken, die Tiergehirne bilden, inspiriert sind. Ein KNN basiert auf einer Sammlung von verbundenen Einheiten oder Knoten, die künstliche Neuronen genannt werden, die die Neuronen in einem biologischen Gehirn lose modellieren. Jede Verbindung, wie die Synapsen in einem biologischen Gehirn, kann ein Signal an andere Neuronen übertragen. Ein künstliches Neuron, das ein Signal empfängt, verarbeitet dieses dann und kann damit verbundene Neuronen signalisieren. Das „Signal“ an einer Verbindung ist eine reelle Zahl, und die Ausgabe jedes Neurons wird durch eine nichtlineare Funktion der Summe ihrer Eingaben berechnet. Die Verbindungen werden als Kanten bezeichnet. Neuronen und Kanten weisen üblicherweise eine Gewichtung auf, die mit fortschreitendem Lernen angepasst wird. Die Gewichtung erhöht oder verringert die Stärke des Signals an einer Verbindung. Neuronen können eine Schwelle aufweisen, sodass ein Signal nur gesendet wird, wenn das aggregierte Signal diese Schwelle überschreitet. Üblicherweise werden Neuronen in Schichten aggregiert. Unterschiedliche Schichten können unterschiedliche Transformationen an ihren Eingaben durchführen. Signale bewegen sich von der ersten Schicht (der Eingabeschicht) zur letzten Schicht (der Ausgabeschicht), möglicherweise nach mehrmaligem Durchqueren der Schichten.
Ein neuronales Netzwerk kann durch einen allgemeinen Prozessor oder einen anwendungsspezifischen Prozessor, wie einen Prozessor eines neuronalen Netzwerks, implementiert werden, oder es kann sogar jedes Neuron im neuronalen Netzwerk durch eine oder mehrere spezifische Logikeinheiten implementiert werden. Ein Prozessor eines neuronalen Netzwerks (NNP) oder eine neuronale Verarbeitungseinheit (NPU) ist eine spezielle Schaltung, die die gesamte erforderliche Steuerungs- und arithmetische Logik implementiert, die erforderlich ist, um ein Maschinenlernen und/oder eine Inferenz eines neuronalen Netzwerks auszuführen. Zum Beispiel bedeutet das Ausführen von tiefen neuronalen Netzwerken (DNNs), wie neuronalen Faltungsnetzwerken, das Durchführen einer sehr großen Menge an Multiplikations-Akkumulations-Operationen, üblicherweise in Milliarden und Trillionen von Iterationen. Eine große Anzahl von Iterationen ergibt sich aus dem Umstand, dass für jede gegebene Eingabe (z. B. ein Bild) eine einzelne Faltung das Iterieren über jeden Kanal und dann jedes Pixel und das Durchführen einer sehr großen Anzahl von MAC-Operationen umfasst. Im Gegensatz zu allgemeinen zentralen Verarbeitungseinheiten, die beim Verarbeiten hochserialisierter Anweisungsströme großartig sind, sind Maschinenlernarbeitslasten tendenziell hochparallelisierbar, wie eine Grafikverarbeitungseinheit (GPU). Darüber hinaus können NPUs im Gegensatz zu einer GPU von einer erheblich einfacheren Logik profitieren, weil ihre Arbeitslasten tendenziell eine hohe Regelmäßigkeit in den Rechenmustern von tiefen neuronalen Netzwerken aufweisen. Aus diesen Gründen wurden viele individuell angepasste dedizierte neuronale Prozessoren entwickelt. NPUs sind dazu ausgelegt, die Leistung gängiger Maschinenlernaufgaben, wie Bildklassifizierung, Maschinenübersetzung, Objekterkennung und verschiedene andere prädiktive Modelle, zu beschleunigen. NPUs können Teil eines großen SoC sein, eine Vielzahl von NPUs kann auf einem Einzelchip instanziiert werden, oder sie können Teil eines dedizierten Beschleunigers eines neuronalen Netzwerks sein.
Es sind viele Typen von neuronalen Netzwerken verfügbar. Sie können klassifiziert werden abhängig von: ihrer Struktur, ihrem Datenfluss, ihren Neuronen und deren Dichte, ihren Schichten und deren Tiefenaktivierungsfiltern usw. Die meisten neuronalen Netzwerke können durch allgemein basierte Modelle (EBMs) ausgedrückt werden. Von diesen wurden repräsentative Modelle, einschließlich beschränkter Boltzmann-Maschinen (RBMs), Deep-Belief-Netzwerken (DBNs) und tiefer Boltzmann-Maschinen (DBMs), weithin übernommen. EBM ist ein nützliches Werkzeug zum Erzeugen eines generativen Modells. Generatives Modellieren ist die Aufgabe des Beobachtens von Daten, wie Bildern oder Text, und des Lernens, die zugrunde liegende Datenverteilung zu modellieren. Das Erfüllen dieser Aufgabe führt dazu, dass Modelle Merkmale hoher Ebene in Daten verstehen und Beispiele synthetisieren, die wie reale Daten aussehen. Generative Modelle weisen viele Anwendungen in natürlicher Sprache, Robotik und Computer Vision auf. Energiebasierte Modelle sind dazu in der Lage, qualitativ und quantitativ hochwertige Bilder zu erzeugen, insbesondere beim Ausführen des Verfeinerungsprozesses für einen längeren Zeitraum zur Testzeit. EBM kann auch zum Erzeugen eines diskriminativen Modells verwendet werden, indem ein neuronales Netzwerk in einem überwachten Maschinenlernen trainiert wird.
EBMs stellen Wahrscheinlichkeitsverteilungen über Daten dar, indem jedem eingegebenen Datenpunkt ein nicht normalisierter Wahrscheinlichkeitsskalar oder „Energie“ zugewiesen wird. Formal kann eine durch ein EBM definierte Verteilung ausgedrückt werden als: $p (w; θ) = \tilde{p} (w; θ) / Z (θ) = e^{- ε (w; θ)} / Z (θ)$
wobei ε(w;ϑ) die zugehörige Energiefunktion ist, die durch lernbare Parameter ϑ parametrisiert wird, p̂(w;ϑ) die nicht normalisierte Dichte ist und Z(ϑ) = ∫e^-ε(w,ϑ) dw die Partitionsfunktion ist.
Unter einem Gesichtspunkt, in dem Fall, dass w vollständig sichtbar und kontinuierlich ist, kann ein Fisher-Divergenz-Verfahren verwendet werden, um das durch Gleichung (1) definierte EBM zu lernen. Die Fisher-Divergenz zwischen der Modellverteilung p(w;ϑ) und der wahren Datenverteilung PD(w) ist definiert als: $D_{F} (p_{D} (w) ‖ p (w; θ)) ≜ \frac{1}{2} E_{p_{D} (w)} [{‖ \nabla_{w} log p (w; θ) - \nabla_{w} log p_{D} (w) ‖}_{2}^{2}]$

wobei ∇_wlogp(w;ϑ) und ∇_wlogp_D(w) die Modellbewertungsfunktion bzw.
Datenbewertungsfunktion sind. Die Modellbewertungsfunktion hängt nicht vom Wert der Partitionsfunktion Z(ϑ) ab, weil: $\nabla_{w} log p (w; θ) = \nabla_{w} log \tilde{p} (w; θ) - \nabla_{w} log Z (θ) = \nabla_{w} log \tilde{p} (w; θ),$
wodurch das Fisher-Divergenz-Verfahren für das Lernen von EBMs geeignet ist.
Unter einem anderen Gesichtspunkt, weil die wahre Datenverteilung P_D(w) allgemein unbekannt ist, wird ein äquivalentes Verfahren mit der Bezeichnung Score Matching (SM) wie folgt bereitgestellt, um das unbekannte ∇_wlogp_D(w) zu beseitigen; $J_{S M} (θ) ≜ E_{p_{D} (w)} [\frac{1}{2} {‖ \nabla_{w} log \tilde{p} (w; θ) ‖}_{2}^{2} + tr (\nabla_{w}^{2} log \tilde{p} (w; θ))] \equiv D_{F} (p_{D} (w) ‖ p (w; θ))$
wobei $\nabla_{w}^{2} log \tilde{p} (w; θ)$
die Hesse-Matrix ist, tr (•) eine Spur einer gegebenen Matrix ist und ≡ Äquivalenz bei der Parameteroptimierung bedeutet. Eine einfache Anwendung von SM ist jedoch ineffizient, weil die Berechnung von $tr \nabla_{w}^{2} log \tilde{p} (w; θ)$
bei hochdimensionalen Daten zeitaufwändig ist.
Unter einem anderen Gesichtspunkt, um das vorstehende Problem beim SM-Verfahren zu lösen, wird ein Sliced Score Matching-Verfahren (SSM-Verfahren) wie folgt bereitgestellt: $J_{S S M} (θ) ≜ \frac{1}{2} E_{p_{D} (w)} [{‖ \nabla_{w} log \tilde{p} (w; θ) ‖}_{2}^{2}] + E_{p_{D} (w)} E_{p (u)} [u^{T} \nabla_{w}^{2} log \tilde{p} (w; θ) u]$
wobei u eine zufällige Variable ist, die von w unabhängig ist, und p(u) bestimmte leichte Bedingungen erfüllt, um sicherzustellen, dass SSM mit SM übereinstimmt. Anstatt die Spur der Hesse-Matrix beim SM-Verfahren zu berechnen, berechnet SSM das Produkt der Hesse-Matrix und einen Vektor, der durch zwei normale Rückpropagationsprozesse effizient implementiert werden kann.
Unter einem anderen Gesichtspunkt wird auch eine andere schnelle Variante eines SM-Verfahrens mit der Bezeichnung Denoising Score Matching (DSM) wie folgt bereitgestellt: $J_{D S M} (θ) ≜ E_{p_{D} (w) p_{σ} (\tilde{w} | w)} {‖ \nabla_{\tilde{w}} log \tilde{p} (w; θ) - \nabla_{\tilde{w}} log {\tilde{p}}_{σ} (\tilde{w}; w) ‖}_{2}^{2} \equiv D_{F} (p_{σ} (\tilde{w}) ‖ p (\tilde{w}; θ))$
wobei w̃ in den durch eine Rauschverteilung p_σ(w|̃w) mit einem Hyperparameter σ und p_σ(w̃) = ∫p_D(w)p_σ(w|̃w) dw gestörten Daten besteht. In einer Ausführungsform kann die Rausch- (oder Störungs-) Verteilung die Gauß-Verteilung sein, sodass p_σ(w|̃w) = N(w|̃w), σ²I).
Unter einem weiteren anderen Gesichtspunkt wird eine Variante eines DSM-Verfahrens mit der Bezeichnung Multiscale Denoising Score Matching (MDSM) wie folgt bereitgestellt, um verschiedene Rauschpegel zu nutzen, um EBMs bei hochdimensionalen Daten zu trainieren: $J_{M D S M} (θ) ≜ E_{p_{D} (w) p (σ) p_{σ} (\tilde{w} | w)} {‖ \nabla_{\tilde{w}} log \tilde{p} (\tilde{w}; θ) - \nabla_{\tilde{w}} log p_{σ_{0}} (\tilde{w} | w) ‖}_{2}^{2}$
wobei p (σ) eine vorherige Verteilung über die Rauschpegel ist und σ₀ ein fester Rauschpegel ist. Obwohl ein SM-basiertes Ziel des Minimierens einer der Gleichungen (2)-(6), wie vorstehend beschrieben, von einem Fachmann für das Lernen von EBMs mit vollständig sichtbaren und kontinuierlichen Variablen eingesetzt werden kann, wird es aufgrund der komplizierten Eigenschaften von hoher Nichtlinearität, hoher Dimension und starkem Koppeln von realen Daten immer schwieriger, präzise und Hochleistungsenergiemodelle basierend auf den bestehenden Verfahren zu erstellen. Die vorliegende Offenbarung weitet das obige SM-basierte Verfahren auf das Lernen von EBMs mit latenten Variablen (d. h. EBLVMs) aus, die auf die komplizierten Eigenschaften von realen Daten in verschiedenen spezifischen tatsächlichen Anwendungen anwendbar sind.
Formal definiert ein EBLVM eine Wahrscheinlichkeitsverteilung über einen Satz von sichtbaren Variablen v und einen Satz von latenten Variablen h wie folgt: $p (v, h; θ) = \tilde{p} (v, h; θ) / Z (θ) = e^{- ε (v, h; θ)} / Z (θ)$
wobei ε(v,h;ϑ) die zugehörige Energiefunktion mit lernbaren Parametern ϑ ist, p̃(v,h;ϑ) die nicht normalisierte Dichte ist und Z(ϑ) = ∫e^-ε(v,h;ϑ)/dvdh die Partitionsfunktion ist. Im Allgemeinen definiert das EBLVM eine gemeinsame Wahrscheinlichkeitsverteilung der sichtbaren Variablen v und der latenten Variablen h mit den lernbaren Parametern ϑ. Mit anderen Worten wird das zu lernende EBLVM durch die Parameter ϑ, einen Satz sichtbarer Variablen v und einen Satz latenter Variablen h definiert.
1 veranschaulicht eine beispielhafte Struktur einer beschränkten Boltzmann-Maschine basierend auf einem energiebasierten Modell einer latenten Variable gemäß einer Ausführungsform der vorliegenden Offenbarung. Eine beschränkte Boltzmann-Maschine (RBM) ist ein repräsentatives neuronales Netzwerk basierend auf EBLVM. RBMs werden weithin für Dimensionalitätsreduktion, Merkmalsextraktion und kollaboratives Filtern verwendet. Die Merkmalsextraktion durch RBM ist vollständig unüberwacht und erfordert keine abgeleiteten Kriterien. RBM und seine Varianten können zur Merkmalsextraktion aus Bildern, Textdaten, Tondaten und anderen verwendet werden.
Wie in 1 gezeigt, ist ein RBM ein stochastisches neuronales Netzwerk mit einer sichtbaren Schicht und einer verborgenen Schicht. Jede neuronale Einheit der sichtbaren Schicht weist eine nicht gerichtete Verbindung mit jeder neuronalen Einheit der verborgenen Schicht auf, wobei diesen Gewichtungen (W) zugeordnet sind. Jede neuronale Einheit der sichtbaren und verborgenen Schicht ist auch mit ihren jeweiligen Vorspannungseinheiten (a und b) verbunden. RBMs weisen keine Verbindungen zwischen den sichtbaren Einheiten auf, und in ähnlicher Weise gilt dies auch in verborgenen Einheiten. Diese Verbindungseinschränkung macht sie zu beschränkten Boltzmann-Maschinen. Die Anzahl (m) von neuronalen Einheiten in der sichtbaren Schicht hängt von der Dimension der sichtbaren Variablen (v) ab, und die Anzahl (n) von neuronalen Einheiten in der verborgenen Schicht hängt von der Dimension von latenten Variablen (b) ab. Der Zustand einer neuronalen Einheit in einer verborgenen Schicht wird basierend auf dem Zustand der sichtbaren Schicht und umgekehrt für die sichtbare Einheit stochastisch aktualisiert.
In dem Beispiel von RBM kann die Energiefunktion von EBLVM in Gleichung (7) als ε(v,h;ϑ) = -a^Tv-b^Tv-h^TWv ausgedrückt werden, wobei a und b die Vorspannung der sichtbaren Einheiten bzw. der verborgenen Einheiten sind, der Parameter W Gewichtungen der Verbindung zwischen Einheiten der sichtbaren und der verborgenen Schicht sind und sich die lernbaren Parameter ϑ auf den Satz von Netzwerkparametern (a, b, W) des RBM beziehen.
In einer anderen Ausführungsform kann ein neuronales Netzwerk basierend auf EBLVM eine Gauß'sche beschränkte Boltzmann-Maschine (GRBM). Die Energiefunktion von GRBM kann als ε(v,h;ϑ) ½_σ2 ||v - b²|| - c^Th - 1/σv^TWh ausgedrückt werden, wobei die lernbaren Netzwerkparameter ϑ (σ, W, b, c) sind. In weiteren Ausführungsformen können einige tiefe neuronale Netzwerke auch basierend auf EBLVMs gemäß der vorliegenden Offenbarung wie Deep-Belief-Netzwerken (DBNs), Deep-Belief-Faltungsnetzwerken (CDBNs) und tiefen Boltzmann-Maschinen (DBMs) usw. und Gauß'schen beschränkten Boltzmann-Maschinen (GRBMs) trainiert werden. Zum Beispiel können DBMs im Vergleich zu dem vorstehend beschriebenen RBM zwei oder mehr verborgene Schichten aufweisen. Ein tiefes EBLVM mit Energiefunktion ε(v,h;ϑ) = g₃(g₂(g₁(v; ϑ₁),h);ϑ2) wird in der vorliegenden Offenbarung offenbart, wobei die lernbaren Netzwerkparameter ϑ = (ϑ1, ϑ₂), g₁(•) ein neuronales Netzwerk sind, das ein Merkmal ausgibt, das die gleiche Dimension mit h teilt, g₂(•,•) eine Schicht der additiven Kopplung ist, um eine starke Kopplung der Merkmale und der latenten Variablen zu bewirken, und g₃(•) ein kleines neuronales Netzwerk ist, das einen Skalar ausgibt.
Im Allgemeinen besteht der Zweck des Trainierens eines neuronalen Netzwerks basierend auf einem EBLVM mit einer Energiefunktion ε(v,h;ϑ) darin, die Netzwerkparameter ϑ zu lernen, wodurch die gemeinsame Wahrscheinlichkeitsverteilung von sichtbaren Variablen v und latenten Variablen h definiert wird. Ein Fachmann kann das neuronale Netzwerk basierend auf den gelernten Netzwerkparametern durch allgemeine Verarbeitungseinheiten/Prozessoren, dedizierte Verarbeitungseinheiten/Prozessoren oder sogar anwendungsspezifische integrierte Schaltungen implementieren. In einer Ausführungsform können die Netzwerkparameter als die Parameter in einem Softwaremodul, das durch einen allgemeinen oder dedizierten Prozessor ausführbar ist, implementiert sein. In einer anderen Ausführungsform können die Netzwerkparameter als die Struktur eines dedizierten Prozessors oder die Gewichtungen zwischen jeder Logikeinheit einer anwendungsspezifischen integrierten Schaltung implementiert sein. Die vorliegende Offenbarung ist nicht auf spezifische Techniken zum Implementieren neuronaler Netzwerke beschränkt.
Um ein neuronales Netzwerk basierend auf einem EBLVM mit einer Energiefunktion ε(v,h;ϑ) zu trainieren, müssen die Netzwerkparameter ϑ basierend auf einem Ziel des Minimierens einer Divergenz zwischen der Randwahrscheinlichkeitsverteilung des Modells p(v; ϑ) und der wahren Datenverteilung p_D(v) optimiert werden. In einer Ausführungsform kann die Divergenz die Fisher-Divergenz zwischen der Randwahrscheinlichkeitsverteilung des Modells p(v; ϑ) und der wahren Datenverteilung p_D(v) wie in vorstehend beschriebener Gleichung (2) oder (3) basierend auf EBMs mit vollständig sichtbaren Variablen sein. In einer anderen Ausführungsform kann die Divergenz die Fisher-Divergenz zwischen der Randwahrscheinlichkeitsverteilung des Modells p(v; ϑ) und der gestörten p_σ(ṽ) = ∫p_D (v)p_σ(ṽ|v)dv wie in Gleichung (5) des vorstehend beschriebenen DSM-Verfahrens sein. In verschiedenen Ausführungsformen können die wahre Datenverteilung p_D(v), die gestörte p_σ(ṽ) sowie die anderen Varianten gleichmäßig als q(v) ausgedrückt werden. Im Allgemeinen kann ein äquivalentes SM-Ziel für das Trainieren von EBMs mit latenten Variablen in der folgenden Form ausgedrückt werden: $J (θ) = E_{q (v, ε)} F (\nabla_{v} log p (v; θ), ε, v)$
wobei F eine Funktion ist, die von einem der SM-Ziele in Gleichungen (3)-(6) abhängt, ∈ verwendet wird, um zusätzliches Zufallsrauschen darzustellen, das in SSM oder DSM verwendet wird, und q(v, ∈) die gemeinsame Verteilung von v und ∈ bezeichnet. Die gleiche Herausforderung für alle SM-Ziele für das Trainieren von neuronalen Netzwerken basierend auf EBLVMs besteht darin, dass die Randbewertungsfunktion ∇_vlogp(v; θ) nicht lösbar ist, weil sowohl die Randwahrscheinlichkeitsverteilung p(v;ϑ) als auch die A-posteriori-Wahrscheinlichkeitsverteilung p(h|v;ϑ) immer nicht lösbar sind.
Dementsprechend wird in der vorliegenden Offenbarung ein Bi-level Score Matching-Verfahren (BiSM-Verfahren) zum Trainieren neuronaler Netzwerke basierend auf EBLVMs bereitgestellt. Das BiSM-Verfahren löst das Problem einer nicht lösbaren Grenzwahrscheinlichkeitsverteilung und A-posteriori-Wahrscheinlichkeitsverteilung durch einen Ansatz zur Optimierung auf zwei Ebenen. Die niedrigere Ebene optimiert eine A-posteriori-Variationsverteilung der latenten Variablen, um die wahre A-posteriori-Verteilung des EBLVM näherungsweise zu bestimmen, und die höhere Ebene optimiert die Parameter des neuronalen Netzwerks basierend auf einem modifizierten SM-Ziel in Abhängigkeit von der A-posteriori-Variationsverteilung.
Zum einen, unter Berücksichtigung, dass die Randbewertungsfunktion umformuliert werden kann als: $\nabla_{v} log p (v; θ) = \nabla_{v} log \frac{\tilde{p} (v, h; θ)}{p (h | v; θ)} - \nabla_{v} log Z (θ) = \nabla_{v} log \frac{\tilde{p} (v, h; θ)}{p (h | v; θ)}$
wird eine A-posteriori-Variationswahrscheinlichkeitsverteilung q(h|v;φ) verwendet, um die wahre A-posteriori-Wahrscheinlichkeitsverteilung p(h/v;ϑ) näherungsweise zu bestimmen, um eine Näherung der Randbewertungsfunktion basierend auf $\nabla_{v} log \frac{\tilde{p} (v, h; θ)}{q (h | v; φ)}$
zu erhalten. Somit besteht bei der Optimierung auf niedrigerer Ebene das Ziel darin, den Satz von Parametern φ der A-posteriori-Variationswahrscheinlichkeitsverteilung q(h|v;φ) zu optimieren, um einen Satz von Parametern φ*(θ) zu erhalten.
In einer Ausführungsform kann φ*(θ) wie folgt definiert werden: $φ * (θ) = \underset{φ \in ϕ}{argmin} G (θ, φ), wobei G (θ, φ) = E_{q (v, ε)} D (q (h | v; φ) ‖ p (h | v; θ))$
wobei ϕ ein Hypothesenraum der A-posteriori-Variationswahrscheinlichkeitsverteilung ist, q(v,ε) die gemeinsame Verteilung von v und ε wie in Gleichung (8) bezeichnet und D eine bestimmte Divergenz abhängig von einer spezifischen Ausführungsform ist. In der vorliegenden Offenbarung ist φ* in Abhängigkeit von ϑ definiert, um die Abhängigkeit dazwischen explizit darzustellen.
Zum anderen werden in der Optimierung auf höherer Ebene die Netzwerkparameter ϑ basierend auf einem Score Matching-Ziel optimiert, indem das Verhältnis der Modellverteilung über eine A-posteriori-Variation verwendet wird, um die Randverteilung des Modells näherungsweise zu bestimmen. In einer Ausführungsform kann das allgemeine SM-Ziel in Gleichung (8) modifiziert werden als: $θ * = arg m i n_{θ \in Θ} J_{B i} (θ, φ * (θ)), J_{B i} (θ, φ) = E_{q (v, ε)} E_{q (h | v; φ)} F (\nabla_{v} log \frac{\tilde{p} (v, h; θ)}{p (h | v; θ)}, ε, v)$
wobei θ der Hypothesenraum des EBLVM ist, φ*(θ) die optimierten Parameter der A-posteriori-Variationswahrscheinlichkeitsverteilung sind und Feine bestimmte Funktion eines SM-basierten Ziels abhängig von einer spezifischen Ausführungsform ist. Es kann nachgewiesen werden, dass unter der Optimierung auf zwei Ebenen in der vorliegenden Offenbarung eine Bewertungsfunktion des ursprünglichen SM-Ziels in Gleichung (8) gleich oder ungefähr gleich einer Bewertungsfunktion des modifizierten SM-Ziels in Gleichung (10) sein kann, d. h. $\nabla_{θ} J (θ) = \nabla_{θ} J_{B i} (θ, φ * (θ)) .$
Das in der vorliegenden Offenbarung beschriebene Bi-level Score Matching-Verfahren (BiSM-Verfahren) ist anwendbar, um ein neuronales Netzwerk basierend auf EBLVMs zu trainieren, selbst wenn das neuronale Netzwerk in hohem Maße nichtlinear und nichtstrukturell (wie DNNs) ist, und die weisen Trainingsdaten komplizierte Eigenschaften von hoher Nichtlinearität, hoher Dimension und starkem Koppeln (wie Bilddaten) auf, wobei in diesen Fällen die meisten vorhandenen Modelle und Trainingsverfahren nicht anwendbar sind. Unterdessen kann das BiSM-Verfahren auch eine vergleichbare Leistung wie die bestehenden Techniken (wie Contrastive Divergence- und SM-basierte Verfahren) bereitstellen, wenn sie anwendbar sind. Eine detaillierte Beschreibung des BiSM-Verfahrens wird nachstehend in Verbindung mit mehreren spezifischen Ausführungsformen und beigefügten Zeichnungen bereitgestellt. Die Varianten der spezifischen Ausführungsformen sind für den Fachmann angesichts der vorliegenden Offenbarung ersichtlich. Der Schutzumfang der vorliegenden Offenbarung ist nicht auf diese hierin beschriebenen spezifischen Ausführungsformen beschränkt.
2 veranschaulicht ein allgemeines Flussdiagramm eines Verfahrens 200 zum Trainieren eines neuronalen Netzwerks basierend auf einem EBLVM gemäß einer Ausführungsform der vorliegenden Offenbarung. Das Verfahren 200 kann zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten verwendet werden. Das zu trainierende neuronale Netzwerk kann durch einen allgemeinen Prozessor, einen anwendungsspezifischen Prozessor, wie einen Prozessor eines neuronalen Netzwerks, oder sogar eine anwendungsspezifische integrierte Schaltung implementiert werden, in der jedes Neuron im neuronalen Netzwerk durch eine oder mehrere spezifische Logikeinheiten implementiert werden kann. Mit anderen Worten bedeutet das Trainieren eines neuronalen Netzwerks durch das Verfahren 200 auch das Entwerfen oder Konfigurieren der Struktur und/oder der Parameter der spezifischen Prozessoren oder Logikeinheiten bis zu einem gewissen Grad.
In einigen Ausführungsformen kann das energiebasierte Modell ein energiebasiertes Modell einer latenten Variable sein, das durch einen Satz von Netzwerkparametern θ, eine sichtbare Variable v und eine latente Variable h definiert ist. Eine Energiefunktion des energiebasierten Modells kann als ε(v,h;ϑ) ausgedrückt werden, und eine gemeinsame Wahrscheinlichkeitsverteilung des Modells kann als p(v,h;ϑ) ausgedrückt werden. Die detaillierten Informationen der Netzwerkparameter θ hängen von der Struktur des neuronalen Netzwerks ab. Zum Beispiel kann das neuronale Netzwerk RBM sein, und die Netzwerkparameter können Gewichtungen W zwischen jedem Neuron in einer sichtbaren Schicht und jedem Neuron in einer verborgenen Schicht und Vorspannungen (a, b) einschließen, wobei jedes von W, a und b ein Vektor sein kann. Als ein anderes Beispiel kann das neuronale Netzwerk ein tiefes neuronales Netzwerk sein, wie Deep-Belief-Netzwerke (DBNs), Deep-Belief-Faltungsnetzwerke (CDBNs) und tiefe Boltzmann-Maschinen (DBMs). Für ein tiefes EBLVM mit Energiefunktion ε(v,h;ϑ),= g₃(g₂(g₁(v; ϑ₁)h);ϑ2) sind die Netzwerkparameter ϑ = (ϑ1, ϑ2), wobei θ1 in den Unternetzwerkparametern eines neuronalen Netzwerks g₁(•) besteht und θ2 in den Unternetzwerkparametern eines neuronalen Netzwerks g₃(•) besteht. Das neuronale Netzwerk in der vorliegenden Offenbarung kann ein beliebiges anderes neuronales Netzwerk sein, das basierend auf EBLVMs ausgedrückt werden kann. Die sichtbare Variable v kann die Variable sein, die direkt aus den Trainingsdaten beobachtet werden kann. Die sichtbare Variable v kann in hochdimensionalen Daten bestehen, die durch einen Vektor ausgedrückt werden. Die latente Variable h kann eine Variable sein, die nicht direkt beobachtet werden kann, und kann die Ausgabeantwort auf eine sichtbare Variable beeinflussen. Die Trainingsdaten können Bilddaten, Videodaten, Audiodaten und ein beliebiger anderer Typ von Daten in einem bestimmten Anwendungsszenario sein.
Bei Schritt 210 kann das Verfahren 200 ein Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten umfassen. Die A-posteriori-Variationswahrscheinlichkeitsverteilung wird bereitgestellt, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, weil die wahre A-posteriori-Wahrscheinlichkeitsverteilung sowie die Randwahrscheinlichkeitsverteilung im Allgemeinen nicht lösbar sind. Die wahre A-posteriori-Wahrscheinlichkeitsverteilung bezieht sich auf die wahre A-posteriori-Wahrscheinlichkeitsverteilung des energiebasierten Modells und ist für die Netzwerkparameter (θ) des Modells relevant. Die Parameter (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung können zu einem Hypothesenraum der A-posteriori-Variationswahrscheinlichkeitsverteilung gehören, und der Hypothesenraum kann von der ausgewählten oder angenommenen Wahrscheinlichkeitsverteilung abhängen. In einer Ausführungsform kann die A-posteriori-Variationswahrscheinlichkeitsverteilung eine Bernoulli-Verteilung sein, die durch eine vollständig verbundene Schicht mit Sigmoidaktivierung parametrisiert wird. In einer anderen Ausführungsform kann die A-posteriori-Variationswahrscheinlichkeitsverteilung eine Gauß-Verteilung sein, die durch ein neuronales Faltungsnetzwerk, wie ein neuronales 2-Schicht-Faltungsnetzwerk, ein neuronales 3-Schicht-Faltungsnetzwerk oder ein neuronales 4-Schicht-Faltungsnetzwerk parametrisiert wird.
Die Optimierung der Parameter (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung kann gemäß Gleichung (9) durchgeführt werden. Um allgemeine EBLVMs mit nicht lösbaren A-posteriori-Werten zu lernen, kann die Optimierung auf niedrigerer Ebene von Schritt 210 bei der Berechnung nur auf die nicht normalisierte Modellverbindungsverteilung p̃(v,h;ϑ) und die A-posteriori-Variationsverteilung q(h|v;ϑ) zugreifen, während die wahre A-posteriori-Verteilung des Modells p(h|v;ϑ) in Gleichung (9) nicht lösbar ist.
In einer Ausführungsform kann eine Kullback-Leibler-Divergenz (KL-Divergenz) übernommen werden, und eine äquivalente Form zum Optimieren der Parameter (ϕ) kann wie nachstehend erhalten werden, aus der eine unbekannte Konstante subtrahiert wird: $D_{K L} (q (h | ν; φ) ‖ p (h | ν; θ)) \equiv E_{q (h | ν; φ)} log \frac{q (h | ν; φ)}{\tilde{p} (ν, h; θ)}$
Daher ist Gleichung (11) ausreichend, um die Parameter (ϕ) zu trainieren, aber nicht zum Auswerten der Inferenzgenauigkeit geeignet.
In einer anderen Ausführungsform kann eine Fisher-Divergenz für eine Variationsinferenz übernommen werden und kann direkt berechnet werden durch: $D_{F} (q (h | ν; φ) ‖ p (h | ν; θ)) = \frac{1}{2} E_{q (h | ν; φ)} [{‖ \nabla_{h} log q (h | ν; φ) - \nabla_{h} log \tilde{p} (ν, h; θ) ‖}_{2}^{2}]$
Im Vergleich zur KL-Divergenz in Gleichung (11) kann die Fisher-Divergenz in Gleichung (12) sowohl für das Trainieren als auch für die Auswertung verwendet werden, kann aber nicht mit der diskreten latenten Variable h umgehen, wobei in diesem Fall ∇_h nicht gut definiert ist. Grundsätzlich kann bei Schritt 210 jede andere Divergenz verwendet werden, die p(v;ϑ) oder p(h|v;ϑ) nicht notwendigerweise kennt. Die spezifische Divergenz in Gleichung (9) kann gemäß dem spezifischen Szenario ausgewählt werden.
Bei Schritt 220 kann das Verfahren 200 ein Optimieren von Netzwerkparametern (θ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf demselben Ministapel von Trainingsdaten wie bei Schritt 210 umfassen. Die Randwahrscheinlichkeitsverteilung wird basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten. Die Optimierung auf höherer Ebene für Netzwerkparameter (θ) kann basierend auf dem Score Matching-Ziel in Gleichung (10) durchgeführt werden. Das Score Matching-Ziel kann mindestens teilweise auf einem von einem Sliced Score Matching (SSM), Denoising Score Matching (DSM) oder Multiscale Denoising Score Matching (MDSM), wie vorstehend beschrieben, basieren. Die Randwahrscheinlichkeitsverteilung kann eine Näherung der Randwahrscheinlichkeitsverteilung eines wahren Modells sein und wird basierend auf der bei Schritt 210 erhaltenen A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung, die aus der Energiefunktion des Modells abgeleitet wird, berechnet.
Das Verfahren 200 kann ferner ein Wiederholen des Schritts 210 des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und des Schritts 220 eines Optimierens von Netzwerkparametern (θ) auf unterschiedlichen Ministapeln der Trainingsdaten, bis eine Konvergenzbedingung erfüllt ist, umfassen. Zum Beispiel, wie bei Schritt 230 gezeigt, wird bestimmt, ob eine Konvergenz des Score Matching-Ziels erfüllt ist. Wenn nein, kehrt das Verfahren 200 zu Schritt 210 zurück und erhält eine A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem anderen Ministapel der Trainingsdaten. Dann fährt das Verfahren 200 zu Schritt 220 fort und optimiert die Netzwerkparameter (θ) auf dem anderen Ministapel der Trainingsdaten weiter. In einer Ausführungsform besteht die Konvergenzbedingung darin, dass das Score Matching-Ziel für eine bestimmte Anzahl von Malen einen bestimmten Schwellenwert erreicht. In einer anderen Ausführungsform besteht die Konvergenzbedingung darin, dass die Schritte 210 und 220 für eine vorbestimmte Anzahl von Malen wiederholt wurden. Die vorbestimmte Anzahl kann von der Leistungsanforderung, dem Volumen von Trainingsdaten, der Zeiteffizienz abhängen. In einem bestimmten Fall kann die vorbestimmte Anzahl von sich wiederholenden Malen null sein. Wenn die Konvergenzbedingung erfüllt ist, fährt das Verfahren 200 zu dem Knoten A fort, wie in 2 gezeigt, wobei das trainierte neuronale Netzwerk zur Erzeugung, Inferenz, Anomalieerkennung usw. basierend auf einer spezifischen Anwendung verwendet werden kann. Die spezifischen Anwendungen eines gemäß einem Verfahren der vorliegenden Offenbarung trainierten neuronalen Netzwerks werden in Verbindung mit 4-7 unten ausführlich beschrieben.
3 veranschaulicht ein detailliertes Flussdiagramm eines Verfahrens 3000 zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten gemäß einer Ausführungsform der vorliegenden Offenbarung. Das energiebasierte Modell kann ein EBLVM sein, das durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist. Die spezifische Ausführungsform des Verfahrens 3000 stellt im Vergleich zur Ausführungsform des Verfahrens 200 mehr Details bereit. Die Beschreibung des Verfahrens 3000 unten kann auch auf das Verfahren 200 angewendet oder damit kombiniert werden. Zum Beispiel können die in 3 gezeigten Schritte 3110-3140 des Verfahrens 3000 dem Schritt 210 des Verfahrens 200 entsprechen und können die Schritte 3210-3250 des Verfahrens 3000 dem Schritt 220 des Verfahrens 200 entsprechen.
Bei Schritt 3010 werden vor dem Starten eines Verfahrens zum Trainieren eines neuronalen Netzwerks basierend auf einem EBLVM gemäß der vorliegenden Offenbarung Netzwerkparameter (θ) für das neuronale Netzwerk basierend auf dem EBLVM und einem Satz von Parametern (ϕ) einer A-posteriori-Variationswahrscheinlichkeitsverteilung zur Näherung der wahren A-posteriori-Wahrscheinlichkeitsverteilung des EBLVM initialisiert. Die Initialisierung kann in zufälliger Weise, basierend auf gegebenen Werten abhängig von bestimmten Szenarien oder basierend auf festen Anfangswerten erfolgen. Die detaillierten Informationen der Netzwerkparameter (θ) können von der Struktur des neuronalen Netzwerks abhängen. Die Parameter (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung können von der ausgewählten oder angenommenen spezifischen Wahrscheinlichkeitsverteilung abhängen.
Bei Schritt 3020 wird ein Ministapel von Trainingsdaten von einem vollständigen Stapel von Trainingsdaten für eine Iteration einer Optimierung auf zwei Ebenen abgetastet, und die Konstanten K und N, die jeweils in der Optimierung auf niedrigerer Ebene und der Optimierung auf höherer Ebene verwendet werden, werden eingestellt, wobei K und N ganze Zahlen größer oder gleich null sind, und können basierend auf einer Systemleistung, einer Zeiteffizienz usw. eingestellt werden. Hier bezieht sich eine Iteration einer Optimierung auf zwei Ebenen auf einen Zyklus von Schritt 3020 zu Schritt 3310. In einer Ausführungsform kann der vollständige Stapel von Trainingsdaten in eine Vielzahl von Ministapeln unterteilt werden und kann jeweils ein Ministapel aus der Vielzahl von Ministapeln sequenziell abgetastet werden. In einer anderen Ausführungsform kann der Ministapel zufällig aus dem vollständigen Stapel abgetastet werden.
Als Nächstes wird eine bevorzugte Lösung zum Durchführen des BiSM-Verfahrens der vorliegenden Offenbarung durch Aktualisieren der Netzwerkparameter (θ) und der Parameter (ϕ) einer A-posteriori-Variationswahrscheinlichkeitsverteilung unter Verwendung eines stochastischen Gradientenabstiegs beschrieben. Die Parameter (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung werden in Schritten 3110-3140 aktualisiert, und die Netzwerkparameter (θ) werden in Schritten 3210-3250 aktualisiert.
Bei Schritt 3110 wird bestimmt, ob K größer als 0 ist. Wenn ja, fährt das Verfahren 3000 zu Schritt 3120 fort, wobei ein stochastischer Gradient eines Divergenzziels zwischen der A-posteriori-Variationswahrscheinlichkeitsverteilung und der wahren A-posteriori-Wahrscheinlichkeitsverteilung des Modells unter gegebenen Netzwerkparametern (θ) berechnet wird. Die gegebenen Netzwerkparameter (θ) können die bei Schritt 3010 in der ersten Iteration der Optimierung auf zwei Ebenen initialisierten Netzwerkparameter (θ) sein oder können die bei Schritt 3250 in einer vorherigen Iteration der Optimierung auf zwei Ebenen aktualisierten Netzwerkparameter (θ) sein. Die Divergenz zwischen der A-posteriori-Variationswahrscheinlichkeitsverteilung und der wahren A-posteriori-Wahrscheinlichkeitsverteilung kann auf Gleichung (9) basieren. Dann kann der stochastische Gradient des Divergenzziels als $\frac{\partial \hat{G} (θ, φ)}{\partial φ},$
berechnet werden, wobei $\hat{G} (θ, φ)$
die Funktion von $G (θ, φ)$
in der Gleichung (10) bezeichnet, die auf dem abgetasteten Ministapel ausgewertet wird.
Bei Schritt 3130 kann der Satz von Parametern (ϕ) basierend auf dem berechneten stochastischen Gradienten aktualisiert werden, indem von dem initialisierten oder zuvor aktualisierten Satz von Parametern (ϕ) gestartet wird. Zum Beispiel kann der Satz von Parametern (ϕ) aktualisiert werden gemäß: $φ \leftarrow φ - α \frac{\partial \hat{G} (θ, φ)}{\partial φ}$
wobei a eine Lernrate ist. In einer Ausführungsform kann a auf einem vorab festgelegten Lernratenschema basieren. In einer anderen Ausführungsform kann a während des Optimierungsverfahrens dynamisch angepasst werden.
Bei Schritt 3140 ist K so eingestellt, dass es K-1 ist. Dann kehrt das Verfahren 3000 zu Schritt 3110 zurück, wo bestimmt wird, ob K>0. In ja werden die Schritte 3120-3140 wieder auf demselben Ministapel wiederholt, bis K unter null liegt. Mit anderen Worten umfasst das Verfahren 3000 ein Wiederholen der Schritte von 3120 und 3130, d. h. ein Aktualisieren des Satzes von Parametern (ϕ), für eine Anzahl von K Malen. Der optimierte oder aktualisierte Satz von Parametern (ϕ) durch Schritte 3110 bis 3140 kann als φ⁰ bezeichnet werden. In einem speziellen Fall des anfänglichen Einstellens von K=0 kann φ⁰ der bei Schritt 3010 initialisierte Satz von Parametern (ϕ) sein.
Um die Netzwerkparameter (θ) zu aktualisieren, ist es aufgrund des Elements φ*(ϑ) schwierig, den stochastischen Gradienten des SM-Ziels J_Bi(ϑ,φ*(θ) in Gleichung (10) zu berechnen. Dementsprechend wird ${\hat{\hat{φ}}}^{N} (ϑ)$
berechnet, um φ*(ϑ) auf dem abgetasteten Ministapel durch Schritte 3210 bis 3230 näherungsweise zu bestimmen. In einer Ausführungsform der vorliegenden Offenbarung wird φ^N(ϑ) rekursiv ausgehend von φ⁰ berechnet durch: ${\hat{φ}}^{1} (θ) = φ^{0} - α \frac{\partial \hat{G} (θ, φ)}{\partial φ} |_{φ = φ^{0}}, u n d {\hat{φ}}^{n} (θ) = {\hat{φ}}^{n - 1} (θ) - α \frac{\partial \hat{G} (θ, φ)}{\partial φ} |_{φ = {\hat{φ}}^{n - 1} (θ)},$
für n = 2, ..., N.
Wie durch Schritt 3210 bis 3230 gezeigt, umfasst das Verfahren 3000 ein rekursives Berechnen des Satzes von Parametern (ϕ) in Abhängigkeit von den Netzwerkparametern (θ) für eine Anzahl von N Malen durch Starten von einem zufällig initialisierten oder zuvor aktualisierten Satz von Parametern (ϕ), wobei N eine ganze Zahl gleich oder größer als null ist. In einem speziellen Fall des anfänglichen Einstellens von N=0 wird ${\hat{\hat{φ}}}^{N} (ϑ)$
als φ⁰ berechnet.
Bei Schritt 3240 wird ein genäherter stochastischer Gradient des Score Matching-Ziels basierend auf dem berechneten φ^N(ϑ) erhalten. In einer Ausführungsform kann der stochastische Gradient $\frac{\partial {\hat{J}}_{B i} (θ, \hat{φ} * (θ))}{\partial θ}$
des SM-Ziels durch den Gradienten eines Ersatzverlusts ${\hat{J}}_{B i} (θ, {\hat{φ}}^{N} (θ))$
genähert werden gemäß: $\frac{\partial {\hat{J}}_{B i} (θ, {\hat{φ}}^{N} (θ))}{\partial θ} = \frac{\partial {\hat{J}}_{B i} (θ, φ)}{\partial θ} |_{φ = {\hat{φ}}^{N} (θ)} + \frac{\partial {\hat{J}}_{B i} (θ, φ)}{\partial φ} |_{φ = {\hat{φ}}^{N} (θ)} \frac{\partial {\hat{φ}}^{N} (θ)}{\partial θ}$
Bei Schritt 3250 werden die Netzwerkparameter (θ) basierend auf dem genäherten stochastischen Gradienten aktualisiert. In einer Ausführungsform kann das Verfahren 3000 ein Aktualisieren der Netzwerkparameter (θ) des trainierten neuronalen Netzwerks umfassen gemäß: $θ \leftarrow θ - β \frac{\partial {\hat{J}}_{B i} (θ, {\hat{φ}}^{N} (θ))}{\partial θ}$
wobei β eine Lernrate ist. In einer Ausführungsform kann a auf einem vorab festgelegten Lernratenschema basieren. In einer anderen Ausführungsform kann a während des Optimierungsverfahrens dynamisch angepasst werden. In dem Fall, dass das neuronale Netzwerk durch einen allgemeinen Prozessor implementiert wird, kann das Aktualisieren der Netzwerkparameter (θ) ein Aktualisieren der Parameter in einem Softwaremodul umfassen, das durch den allgemeinen ausführbar ist. In dem Fall, dass das neuronale Netzwerk durch eine anwendungsspezifische integrierte Schaltung implementiert wird, kann das Aktualisieren der Netzwerkparameter (θ) ein Aktualisieren des Betriebs oder der Gewichtungen zwischen jeder Logikeinheit der anwendungsspezifischen integrierten Schaltung umfassen.
Bei Schritt 3310 wird bestimmt, ob eine Konvergenzbedingung erfüllt ist. Wenn nein, kehrt das Verfahren 3000 zu Schritt 3020 zurück, wo ein anderer Ministapel von Trainingsdaten für eine neue Iteration einer Optimierung auf zwei Ebenen abgetastet wird und die Konstanten K und N auf die gleichen Werte wie die in der vorherigen Iteration eingestellten Werte oder auf davon verschiedene Werte zurückgesetzt werden können. Dann kann das Verfahren 3000 fortfahren, die Optimierung auf niedrigerer Ebene in Schritten 3110-3140 und die Optimierung auf höherer Ebene in Schritten 3210-3250 zu wiederholen. In einer Ausführungsform besteht die Konvergenzbedingung darin, dass das Score Matching-Ziel für eine bestimmte Anzahl von Malen einen bestimmten Schwellenwert erreicht. In einer anderen Ausführungsform besteht die Konvergenzbedingung darin, dass die Iterationen einer Optimierung auf zwei Ebenen für eine vorbestimmte Anzahl von Malen durchgeführt wurden. Wenn bestimmt wird, dass die Konvergenzbedingung erfüllt ist, fährt das Verfahren 3000 zu dem Knoten A fort, wie in 3 gezeigt, wobei das trainierte neuronale Netzwerk zur Erzeugung, Inferenz, Anomalieerkennung usw. basierend auf einer spezifischen Anwendung, wie unten beschrieben, verwendet werden kann.
Das Bi-level Score Matching-Verfahren gemäß der vorliegenden Offenbarung ist anwendbar, um ein neuronales Netzwerk basierend auf komplexen EBLVMs mit nicht lösbarer A-posteriori-Verteilung in einer rein unüberwachten Lerneinstellung zum Erzeugen natürlicher Bilder zu trainieren. 4 zeigt natürliche Bilder von handschriftlichen Ziffern, die durch ein generatives neuronales Netzwerk, das gemäß einer Ausführungsform der vorliegenden Offenbarung trainiert wird, erzeugt werden. In einem solchen Beispiel kann das generative neuronale Netzwerk basierend auf EBLVMs gemäß dem Verfahren 200 und/oder dem Verfahren 3000 der vorliegenden Offenbarung, wie vorstehend in Verbindung mit 2-3 beschrieben, unter der Lerneinstellung wie folgt trainiert werden.
Zum Trainieren eines generativen neuronalen Netzwerks mit handschriftlichen Ziffern kann die Modified National Institute of Standards and Technology-Datenbank (MNIST-Datenbank) als Trainingsdaten verwendet werden. MNIST ist eine große Datenbank von Schwarzweißbildern von handschriftlichen Ziffern mit der Größe 28×28 und Graustufenebenen, die häufig zum Trainieren verschiedener Bildverarbeitungssysteme verwendet werden. In einer Ausführungsform kann ein Stapel von Trainingsdaten 60.000 Zifferbilddatenproben umfassen, die von der MNIST-Datenbank getrennt sind und jeweils 28x28 Graustufenebenenwerte aufweisen.
Das generative neuronale Netzwerk kann auf einem tiefen EBLVM mit Energiefunktion ℇ(v,h;ϑ), = g₃(g₂(g₁(v; ϑ₁)h);ϑ2 basieren, wobei die lernbaren Netzwerkparameter ϑ = (ϑ₁, ϑ₂), g₁(•) in einem neuronalen Netzwerk bestehen, das ein Merkmal ausgibt, das die gleiche Dimension mit h teilt, g₂(•,•) eine Schicht der additiven Kopplung ist, um eine starke Kopplung der Merkmale und der latenten Variablen zu bewirken, und g₃(•) ein kleines neuronales Netzwerk ist, das einen Skalar ausgibt. In diesem Beispiel ist g₁(•) eine ResNet mit 12 Schichten und ist g₃(•) eine vollständig verbundene Schicht mit ELU-Aktivierungsfunktion und verwendet das Quadrat von 2-norm, um einen Skalar auszugeben. Die sichtbare Variable v kann die Graustufenebenen jedes Pixels in den 28x28 Bildern sein. Die Dimension der latenten Variable h kann als 20, 50 und 100 entsprechend den Bildern (a), (b) und (c) in 4 eingestellt werden.
In diesem Beispiel wird die A-posteriori-Variationswahrscheinlichkeitsverteilung q(hlv;cp) zum Nähern der wahren A-posteriori-Wahrscheinlichkeitsverteilung des Modells durch ein neuronales Faltungsnetzwerk mit 3 Schichten als Gauß-Verteilung parametrisiert. K und N, wie bei Schritt 3020 von 3 gezeigt, können für die Zeit- und Speichereffizienz jeweils auf 5 und 0 eingestellt werden. Die Lernraten a und b in Gleichungen (13) und (16) können auf 10^-4 eingestellt werden. Die MDSM-Funktion in Gleichung (6) wird als die Funktion eines SM-basierten Ziels in Gleichung (9) verwendet, d. h. das BiSM-Verfahren in diesem Beispiel kann auch als BiMDSM bezeichnet werden.
Im Allgemeinen kann unter der vorstehend beschriebenen Lerneinstellung ein generatives neuronales Netzwerk mit einem Bild einer handschriftlichen Ziffer basierend auf einem tiefen EBLVM, z. B. ε(v,h;ϑ) = g₃(g₂(g₁(v; ϑ₁)h);ϑ2), trainiert werden, wobei der Stapel von Zifferbilddatenproben umfasst: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable h aufgrund der sichtbaren Variable v durch Optimieren eines Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Zifferbilddaten, die aus dem Stapel von Bilddaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable h aufgrund der sichtbaren Variable v näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (ϑ) relevant ist; Optimieren von Netzwerkparametern (ϑ) basierend auf einem BiMDSM-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Zifferbilddaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable v und der latenten Variable h erhalten wird; und Wiederholen der Schritte des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und Optimierens von Netzwerkparametern (ϑ) auf unterschiedlichen Ministapeln von Zifferbilddaten, bis die Konvergenzbedingung erfüllt ist, z. B. für 100.000 Male von Iterationen.
Das Bi-level Score Matching-Verfahren gemäß der vorliegenden Offenbarung ist anwendbar, um ein neuronales Netzwerk auf unüberwachte Weise zu trainieren, und das derart trainierte neuronale Netzwerk kann zur Anomalieerkennung verwendet werden. Die Anomalieerkennung kann zum Identifizieren anormaler oder defekter Produktkomponenten auf einer Montagelinie verwendet werden. Auf der realen Montagelinie ist die Anzahl defekter oder anormaler Komponenten viel niedriger als die guter oder normaler Komponenten. Die Anomalieerkennung ist von großer Bedeutung, um Fehlerkomponenten zu erkennen, um die Produktqualität sicherzustellen. 5-7 veranschaulichen verschiedene Ausführungsformen zum Durchführen einer Anomalieerkennung durch Trainieren eines neuronalen Netzwerks gemäß den Verfahren der vorliegenden Offenbarung.
5 veranschaulicht ein Flussdiagramm des Verfahrens 500 zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung gemäß einer Ausführungsform der vorliegenden Offenbarung. Bei Schritt 510 wird ein neuronales Netzwerk zur Anomalieerkennung basierend auf einem EBLVM mit einem Stapel von Trainingsdaten trainiert, umfassend ein Erfassen von Datenproben einer Vielzahl von Komponentenproben. Zum Beispiel kann die Komponente Teile von Produkten zum Zusammenbauen eines Kraftfahrzeugs sein. Die Erfassungsdaten können Bilddaten, Tondaten oder andere Daten sein, die durch eine Kamera, ein Mikrofon oder einen Sensor, wie einen IR-Sensor oder Ultraschallsensor, usw. erfasst werden. In einer Ausführungsform kann der Stapel von Trainingsdaten eine Vielzahl von Ultraschallerfassungsdaten umfassen, die durch einen Ultraschallsensor auf einer Vielzahl von Komponentenproben erfasst werden.
Das Trainieren bei Schritt 510 kann gemäß dem Verfahren 200 von 2 oder dem Verfahren 3000 von 3 durchgeführt werden. Im Allgemeinen kann ein neuronales Netzwerk mit Anomalieerkennung basierend auf einem EBLVM, das durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable v und eine latente Variable h definiert ist, mit einem Stapel von Erfassungsdatenproben trainiert werden durch: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable h aufgrund der sichtbaren Variable v durch Optimieren eines Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Erfassungsdaten, die aus dem Stapel von Erfassungsdatenproben abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable h aufgrund der sichtbaren Variable v näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (ϑ) relevant ist; Optimieren von Netzwerkparametern (ϑ) basierend auf einem bestimmten BiSM-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Erfassungsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable v und der latenten Variable h erhalten wird; und Wiederholen der Schritte des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und Optimierens von Netzwerkparametern (ϑ) auf unterschiedlichen Ministapeln der Erfassungsdaten, bis eine Konvergenzbedingung erfüllt ist.
Nach dem Trainieren des neuronalen Netzwerks mit Anomalieerkennung werden bei Schritt 520 die Erfassungsdaten einer zu erkennenden Komponente durch einen entsprechenden Sensor erhalten. Bei Schritt 530 werden die erhaltenen Erfassungsdaten in das trainierte neuronale Netzwerk eingegeben. Bei Schritt 540 wird ein Wahrscheinlichkeitsdichtewert, der der zu erkennenden Komponente entspricht, basierend auf einer Ausgabe des trainierten neuronalen Netzwerks in Bezug auf die eingegebenen Erfassungsdaten erhalten. In einer Ausführungsform kann eine Wahrscheinlichkeitsdichtefunktion basierend auf einer Wahrscheinlichkeitsverteilungsfunktion des Modells des trainierten neuronalen Netzwerks erhalten werden, und die Wahrscheinlichkeitsverteilungsfunktion basiert auf der Energiefunktion des Modells, wie in Gleichung (7) ausgedrückt. Bei Schritt 550 wird der erhaltene Dichtewert der Erfassungsdaten mit einem vorbestimmten Schwellenwert verglichen, und wenn der Dichtewert unter dem Schwellenwert liegt, wird die zu erfassende Komponente als anormale Komponente identifiziert. Zum Beispiel, wie in 8 gezeigt, liegt der Dichtewert der Komponente C1 mit der sichtbaren Variable v_C1 unter dem Schwellenwert und kann als anormale Komponente identifiziert werden, während der Dichtewert der Komponente C2 mit der sichtbaren Variable v_C2 über dem Schwellenwert liegt und als normale Komponente identifiziert werden kann.
6 veranschaulicht ein Flussdiagramm des Verfahrens 600 zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. Bei Schritt 610 wird ein neuronales Netzwerk zur Anomalieerkennung basierend auf einem EBLVM mit einem Stapel von Erfassungsdatenproben einer Vielzahl von Komponentenproben trainiert. Zum Beispiel kann die Komponente Teile von Produkten zum Zusammenbauen eines Kraftfahrzeugs sein. Die Erfassungsdaten können Bilddaten, Tondaten oder andere durch einen Sensor, wie eine Kamera, einen IR-Sensor oder einen Ultraschallsensor, usw. erfasste Daten sein. Das Trainieren bei Schritt 610 kann gemäß dem Verfahren 200 von 2 oder dem Verfahren 3000 von 3 durchgeführt werden.
Nach dem Trainieren des neuronalen Netzwerks werden bei Schritt 620 die Erfassungsdaten einer zu erkennenden Komponente durch einen entsprechenden Sensor erhalten. Bei Schritt 630 werden die erhaltenen Erfassungsdaten in das trainierte neuronale Netzwerk eingegeben. Bei Schritt 640 werden rekonstruierte Erfassungsdaten basierend auf einer Ausgabe vom trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten erhalten. Bei Schritt 650 wird der Unterschied zwischen den eingegebenen Erfassungsdaten und den rekonstruierten Erfassungsdaten bestimmt. Dann wird bei Schritt 660 der bestimmte Unterschied mit einem vorbestimmten Schwellenwert verglichen, und wenn der bestimmte Unterschied über dem Schwellenwert liegt, kann die zu erfassende Komponente als anormale Komponente identifiziert werden. In dieser Ausführungsform können die Erfassungsdatenproben für das Trainieren vollständig von guten oder normalen Komponentenproben sein. Das vollständig mit guten Datenproben trainierte neuronale Netzwerk kann verwendet werden, um die Unterschiede zwischen defekten Komponenten und guten Komponenten festzustellen.
7 veranschaulicht ein Flussdiagramm des Verfahrens 700 zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. Bei Schritt 710 wird ein neuronales Netzwerk zur Anomalieerkennung basierend auf einem EBLVM mit einem Stapel von Erfassungsdatenproben einer Vielzahl von Komponentenproben trainiert. Zum Beispiel kann die Komponente Teile von Produkten zum Zusammenbauen eines Kraftfahrzeugs sein. Die Erfassungsdaten können Bilddaten, Tondaten oder andere durch einen Sensor, wie eine Kamera, einen IR-Sensor oder einen Ultraschallsensor, usw. erfasste Daten sein. Das Trainieren bei Schritt 710 kann gemäß dem Verfahren 200 von 2 oder dem Verfahren 3000 von 3 durchgeführt werden.
Nach dem Trainieren des neuronalen Netzwerks werden bei Schritt 720 die Erfassungsdaten einer zu erkennenden Komponente durch einen entsprechenden Sensor erhalten. Bei Schritt 730 werden die erhaltenen Erfassungsdaten in das trainierte neuronale Netzwerk eingegeben. Bei Schritt 740 werden die Erfassungsdaten basierend auf Merkmalskarten, die durch das trainierte neuronale Netzwerk in Bezug auf die eingegebenen Erfassungsdaten erzeugt werden, geclustert. In einer Ausführungsform kann das Verfahren 700 ein Clustern der Merkmalskarten der Erfassungsdaten durch unüberwachte Lernverfahren, wie K-Means, umfassen. Bei Schritt 750, wenn die Erfassungsdaten außerhalb eines normalen Clusters geclustert werden, wie in einem Cluster mit weniger Trainingsdatenproben geclustert werden, kann die zu erfassende Komponente als anormale Komponente identifiziert werden. Zum Beispiel, wie in 8 gezeigt, sind die Kreispunkte der Stapel von Erfassungsdatenproben einer Vielzahl von Komponentenproben und kann der ovale Bereich als ein normaler Cluster definiert sein. Die zu erfassende Komponente, die durch ein Dreieck bezeichnet ist, kann als anormale Komponente identifiziert werden, weil sie außerhalb des normalen Clusters liegt.
9 veranschaulicht ein Blockdiagramm einer Einrichtung 900 zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten gemäß einer Ausführungsform der vorliegenden Offenbarung. Das energiebasierte Modell kann ein EBLVM sein, das durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist.
Wie in 9 gezeigt, umfasst die Einrichtung 900 Mittel 910 zum Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten und Mittel 920 zum Optimieren von Netzwerkparametern (θ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung einer sichtbaren Variable und einer latenten Variable erhalten wird. Das Mittel 910 zum Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung und das Mittel 920 zum Optimieren von Netzwerkparametern (θ) sind konfiguriert, um wiederholt auf unterschiedlichen Ministapeln von Trainingsdaten durchgeführt zu werden, bis die Konvergenzbedingung erfüllt ist.
Obwohl in 9 nicht gezeigt, kann die Einrichtung 900 Mittel zum Durchführen verschiedener Schritte des Verfahrens 3000 umfassen, wie in Verbindung mit 3 beschrieben. Zum Beispiel kann das Mittel 910 zum Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung konfiguriert sein, um Schritte 3110-3140 des Verfahrens 3000 durchzuführen, und kann das Mittel 920 zum Optimieren von Netzwerkparametern (θ) konfiguriert sein, um Schritte 3210-3250 des Verfahrens 3000 durchzuführen. Außerdem kann die Einrichtung 900 ferner Mittel zum Durchführen einer Anomalieerkennung, wie in Verbindung mit 5-7 beschrieben, gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung umfassen, und der Stapel von Trainingsdaten kann einen Stapel von Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen. Die Mittel 910 und 920 sowie die anderen der Einrichtung 900 können durch Softwaremodule, Firmwaremodule, Hardwaremodule oder eine Kombination davon implementiert werden.
In einer Ausführungsform kann die Einrichtung 900 ferner umfassen: Mittel zum Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Mittel zum Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Mittel zum Erhalten eines Dichtewerts basierend auf einer Ausgabe vom trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten und Mittel zum Identifizieren der zu erkennenden Komponente als anormale Komponente, wenn der Dichtewert unter einem Schwellenwert liegt.
In einer anderen Ausführungsform kann die Einrichtung 900 ferner umfassen: Mittel zum Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Mittel zum Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Mittel zum Erhalten rekonstruierter Erfassungsdaten basierend auf einer Ausgabe vom trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten; Mittel zum Bestimmen eines Unterschieds zwischen den eingegebenen Erfassungsdaten und den rekonstruierten Erfassungsdaten und Mittel zum Identifizieren der zu erkennenden Komponente als anormale Komponente, wenn der bestimmte Unterschied über einem Schwellenwert liegt.
In einer anderen Ausführungsform kann die Einrichtung 900 ferner umfassen: Mittel zum Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Mittel zum Eingeben der Erfassungsdaten der zu erkennenden Komponente in das trainierte neuronale Netzwerk; Mittel zum Clustern der Erfassungsdaten basierend auf Merkmalskarten, die durch das trainierte neuronale Netzwerk in Bezug auf die eingegebenen Erfassungsdaten erzeugt werden; und Mittel zum Identifizieren der zu erkennenden Komponente als anormale Komponente, wenn die Erfassungsdaten außerhalb eines normalen Clusters geclustert werden.
10 veranschaulicht ein Blockdiagramm einer Einrichtung 1000 zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. Das energiebasierte Modell kann ein EBLVM sein, das durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist. Wie in 10 gezeigt, kann die Einrichtung 1000 eine Eingabeschnittstelle 1020, einen oder mehrere Prozessoren 1030, einen Speicher 1040 und eine Ausgabeschnittstelle 1050 umfassen, die über einen Systembus 1060 miteinander gekoppelt sind.
Die Eingabeschnittstelle 1020 kann konfiguriert sein, um Trainingsdaten von einer Datenbank 1010 zu empfangen. Die Eingabeschnittstelle 1020 kann außerdem konfiguriert sein, um Trainingsdaten, wie Bilddaten, Videodaten und Audiodaten, direkt von einer Kamera, einem Mikrofon oder verschiedenen Sensoren, wie einem IR-Sensor und einem Ultraschallsensor, zu empfangen. Die Eingabeschnittstelle 1020 kann außerdem konfiguriert sein, um tatsächliche Daten nach der Trainingsstufe zu empfangen. Die Eingabeschnittstelle 1020 kann ferner eine Benutzerschnittstelle (wie eine Tastatur, eine Maus) zum Empfangen von Eingaben (wie Steueranweisungen) von einem Benutzer umfassen. Die Ausgabeschnittstelle 1050 kann konfiguriert sein, um Ergebnisse, die durch die Einrichtung 1000 während und/oder nach der Trainingsstufe verarbeitet werden, an eine Anzeige, einen Drucker oder eine Vorrichtung, die durch die Einrichtung 1000 gesteuert wird, bereitzustellen. In verschiedenen Ausführungsformen können die Eingabeschnittstelle 1020 und die Ausgabeschnittstelle 1050 eine USB-Schnittstelle, eine Typ-C-Schnittstelle, eine HDMI-Schnittstelle, eine VGA-Schnittstelle oder eine beliebige andere dedizierte Schnittstelle usw. sein, sind aber nicht darauf beschränkt.
Wie in 10 gezeigt, kann der Speicher 1040 ein Modul zur Optimierung auf niedrigerer Ebene 1042 und ein Modul zur Optimierung auf höherer Ebene 1044 umfassen. Mindestens ein Prozessor 1030 ist über den Systembus 1060 mit dem Speicher 1040 gekoppelt. In einer Ausführungsform kann der mindestens eine Prozessor 1030 konfiguriert sein, um das Modul zur Optimierung auf niedrigerer Ebene 1042 auszuführen, um eine A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten zu erhalten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (ϑ) relevant ist. Der mindestens eine Prozessor 1030 kann konfiguriert sein, um das Modul zur Optimierung auf höherer Ebene 1044 auszuführen, um Netzwerkparameter (ϑ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten zu optimieren, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird. Und der mindestens eine Prozessor 1030 kann konfiguriert sein, um das Modul zur Optimierung auf niedrigerer Ebene 1042 und das Modul zur Optimierung auf höherer Ebene 1044 wiederholt auszuführen, bis eine Konvergenzbedingung erfüllt ist.
Der mindestens eine Prozessor 1030 kann allgemeine Prozessoren, dedizierte Prozessoren oder sogar anwendungsspezifische integrierte Schaltungen umfassen, ohne darauf beschränkt zu sein. In einer Ausführungsform kann der mindestens eine Prozessor 1030 einen neuronalen Verarbeitungskern 1032 (wie in 10 gezeigt) umfassen, der eine spezielle Schaltung ist, die die gesamte erforderliche Steuerungs- und arithmetische Logik implementiert, die erforderlich ist, um ein Maschinenlernen und/oder eine Inferenz eines neuronalen Netzwerks auszuführen.
Obwohl in 10 nicht gezeigt, kann der Speicher 1040 ferner beliebige andere Module, die, wenn sie durch den mindestens einen Prozessor 1030 ausgeführt werden, bewirken, dass der mindestens eine Prozessor 1030 die vorstehend in Verbindung mit 3 beschriebenen Schritte des Verfahrens 3000 durchführt, sowie andere verschiedene und/oder äquivalente Ausführungsformen gemäß der vorliegenden Offenbarung umfassen. Zum Beispiel kann der mindestens eine Prozessor 1030 konfiguriert sein, um ein generatives neuronales Netzwerk auf der MNIST in der Datenbank 1010 gemäß der vorstehend in Verbindung mit 4 beschriebenen Lerneinstellung zu trainieren. In diesem Beispiel kann der mindestens eine Prozessor 1030 konfiguriert sein, um aus dem trainierten generativen neuronalen Netzwerk abzutasten. Die Ausgabeschnittstelle 1050 kann auf einer Anzeige oder einem Drucker die abgetasteten natürlichen Bilder von handschriftlichen Ziffern bereitstellen, z. B. wie in 4 gezeigt.
11 veranschaulicht ein Blockdiagramm einer Einrichtung 1100 zum Trainieren eines neuronalen Netzwerks zur Anomalieerkennung basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. Das energiebasierte Modell kann ein EBLVM sein, das durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist. Wie in 11 gezeigt, kann die Einrichtung 1100 eine Eingabeschnittstelle 1120, einen oder mehrere Prozessoren 1130, einen Speicher 1140 und eine Ausgabeschnittstelle 1150 umfassen, die über einen Systembus 1160 miteinander gekoppelt sind. Die Eingabeschnittstelle 1120, ein oder mehrere Prozessoren 1130, der Speicher 1140, die Ausgabeschnittstelle 1150 und der Bus 1160 können der Eingabeschnittstelle 1020, einem oder mehreren Prozessoren 1030, dem Speicher 1040, der Ausgabeschnittstelle 1050 und dem Bus 1060 in 10 entsprechen oder ähnlich sein.
Im Vergleich zu 10 kann der Speicher 1140 ferner ein Anomalieerkennungsmodul 1146 umfassen, das, wenn es durch den mindestens einen Prozessor 1130 ausgeführt wird, bewirkt, dass der mindestens eine Prozess 1030 eine Anomalieerkennung, wie in Verbindung mit 5-7 beschrieben, gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung durchführt. In einer Ausführungsform, während einer Trainingsstufe, kann der mindestens eine Prozess 1030 konfiguriert sein, um einen Stapel von Erfassungsdatenproben einer Vielzahl von Komponentenproben 1110 über die Eingabeschnittstelle 1120 zu empfangen. Die Erfassungsdaten können Bilddaten, Tondaten oder andere Daten sein, die durch eine Kamera, ein Mikrofon oder einen Sensor, wie einen I R-Sensor oder Ultraschallsensor, usw. erfasst werden.
In einer Ausführungsform kann der Prozessor nach der Trainingsstufe konfiguriert sein zum: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Erhalten eines Dichtewerts basierend auf einer Ausgabe vom trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten und Identifizieren der zu erkennenden Komponente als anormale Komponente, wenn der Dichtewert unter einem Schwellenwert liegt.
In einer anderen Ausführungsform kann der Prozessor nach der Trainingsstufe konfiguriert sein zum: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Erhalten rekonstruierter Erfassungsdaten basierend auf einer Ausgabe vom trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten; Bestimmen eines Unterschieds zwischen den eingegebenen Erfassungsdaten und den rekonstruierten Erfassungsdaten und Identifizieren der zu erkennenden Komponente als anormale Komponente, wenn der bestimmte Unterschied über einem Schwellenwert liegt.
In einer anderen Ausführungsform kann der Prozessor nach der Trainingsstufe konfiguriert sein zum: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten der zu erkennenden Komponente in das trainierte neuronale Netzwerk; Clustern der Erfassungsdaten basierend auf Merkmalskarten, die durch das trainierte neuronale Netzwerk in Bezug auf die eingegebenen Erfassungsdaten erzeugt werden; und Identifizieren der zu erkennenden Komponente als anormale Komponente, wenn die Erfassungsdaten außerhalb eines normalen Clusters geclustert werden.
Die vorhergehende Beschreibung der offenbarten Ausführungsformen wird bereitgestellt, um es einem Fachmann zu ermöglichen, die verschiedenen Ausführungsformen herzustellen oder zu verwenden. Verschiedene Modifikationen an diesen Ausführungsformen sind für einen Fachmann leicht ersichtlich, und die hierin definierten generischen Prinzipien können auf andere Ausführungsformen angewendet werden, ohne vom Schutzumfang der verschiedenen Ausführungsformen abzuweichen. Somit sollen die Ansprüche nicht auf die hierin gezeigten Ausführungsformen beschränkt sein, sondern es ist ihnen der breiteste Schutzumfang zu gewähren, der mit den folgenden Ansprüchen und den hierin offenbarten Prinzipien und neuartigen Merkmalen übereinstimmt.

Claims

Verfahren zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist, das Verfahren umfassend: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (ϑ) relevant ist; Optimieren von Netzwerkparametern (ϑ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; und Wiederholen der Schritte des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und Optimierens von Netzwerkparametern (ϑ) auf unterschiedlichen Ministapeln der Trainingsdaten, bis eine Konvergenzbedingung erfüllt ist.
Verfahren nach Anspruch 1, wobei das Optimieren des Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Divergenzziel zwischen der A-posteriori-Variationswahrscheinlichkeitsverteilung und der wahren A-posteriori-Wahrscheinlichkeitsverteilung basiert und das Wiederholen folgender Schritte für eine Anzahl von K Malen umfasst, wobei K eine ganze Zahl gleich oder größer als null ist: Berechnen eines stochastischen Gradienten des Divergenzziels unter gegebenen Netzwerkparametern (ϑ) und Aktualisieren des Satzes von Parametern (φ) basierend auf dem berechneten stochastischen Gradienten durch Starten von einem initialisierten oder zuvor aktualisierten Satz von Parametern (φ).
Verfahren nach Anspruch 1, wobei das Optimieren der Netzwerkparameter (ϑ) umfasst: rekursives Berechnen des Satzes von Parametern (φ) in Abhängigkeit von den Netzwerkparametern (ϑ) für eine Anzahl von N Malen durch Starten von einem initialisierten oder zuvor aktualisierten Satz von Parametern (φ), wobei N eine ganze Zahl gleich oder größer als null ist; Erhalten eines genäherten stochastischen Gradienten des Score Matching-Ziels basierend auf dem berechneten Satz von Parametern (φ) und Aktualisieren der Netzwerkparameter (ϑ) basierend auf dem genäherten stochastischen Gradienten.
Verfahren nach Anspruch 1, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung eine Bernoulli-Verteilung, die durch eine vollständig verbundene Schicht mit Sigmoidaktivierung parametrisiert wird, oder eine Gauß-Verteilung, die durch ein neuronales Faltungsnetzwerk parametrisiert wird, ist.
Verfahren nach Anspruch 1, wobei das Optimieren des Satzes von Parametern (ϕ) der A-posteriori-Variationswahrscheinlichkeitsverteilung basierend auf einem Ziel des Minimierens einer Kullback-Leibler-Divergenz (KL-Divergenz) oder einer Fisher-Divergenz zwischen der A-posteriori-Variationswahrscheinlichkeitsverteilung und der wahren A-posteriori-Wahrscheinlichkeitsverteilung durchgeführt wird.
Verfahren nach Anspruch 1, wobei das Score Matching-Ziel mindestens teilweise auf einem von einem Sliced Score Matching (SSM), Denoising Score Matching (DSM) oder Multiscale Denoising Score Matching (MDSM) basiert.
Verfahren nach Anspruch 1, wobei die Trainingsdaten mindestens eines von Bilddaten, Videodaten und Audiodaten umfassen.
Verfahren nach Anspruch 7, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und das Verfahren ferner umfasst: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Erhalten eines Dichtewerts basierend auf einer Ausgabe von dem trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten; Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn der Dichtewert unter einem Schwellenwert liegt.
Verfahren nach Anspruch 7, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und das Verfahren ferner umfasst: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Erhalten rekonstruierter Erfassungsdaten basierend auf einer Ausgabe von dem trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten; Bestimmen eines Unterschieds zwischen den eingegebenen Erfassungsdaten und den rekonstruierten Erfassungsdaten; Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn der bestimmte Unterschied über einem Schwellenwert liegt.
Verfahren nach Anspruch 7, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und das Verfahren ferner umfasst: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten der zu erkennenden Komponente in das trainierte neuronale Netzwerk; Clustern der Erfassungsdaten basierend auf Merkmalskarten, die durch das trainierte neuronale Netzwerk in Bezug auf die eingegebenen Erfassungsdaten erzeugt werden; Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn die Erfassungsdaten außerhalb eines normalen Clusters geclustert werden.
Einrichtung zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist, die Einrichtung umfassend: Mittel zum Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (ϑ) relevant ist; Mittel zum Optimieren von Netzwerkparametern (ϑ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; wobei das Mittel zum Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung und das Mittel zum Optimieren von Netzwerkparametern (θ) konfiguriert sind, um wiederholt auf unterschiedlichen Ministapeln von Trainingsdaten durchgeführt zu werden, bis die Konvergenzbedingung erfüllt ist.
Einrichtung nach Anspruch 11, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und die Einrichtung ferner umfasst: Mittel zum Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Mittel zum Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Mittel zum Erhalten eines Dichtewerts basierend auf einer Ausgabe von dem trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten Mittel zum Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn der Dichtewert unter einem Schwellenwert liegt.
Einrichtung nach Anspruch 11, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und die Einrichtung ferner umfasst: Mittel zum Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Mittel zum Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Mittel zum Erhalten rekonstruierter Erfassungsdaten basierend auf einer Ausgabe von dem trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten; Mittel zum Bestimmen eines Unterschieds zwischen den eingegebenen Erfassungsdaten und den rekonstruierten Erfassungsdaten Mittel zum Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn der bestimmte Unterschied über einem Schwellenwert liegt.
Einrichtung nach Anspruch 11, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und die Einrichtung ferner umfasst: Mittel zum Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Mittel zum Eingeben der Erfassungsdaten der zu erkennenden Komponente in das trainierte neuronale Netzwerk; Mittel zum Clustern der Erfassungsdaten basierend auf Merkmalskarten, die durch das trainierte neuronale Netzwerk in Bezug auf die eingegebenen Erfassungsdaten erzeugt werden; Mittel zum Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn die Erfassungsdaten außerhalb eines normalen Clusters geclustert werden.
Einrichtung zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist, die Einrichtung umfassend: einen Speicher und mindestens einen Prozessor, der mit dem Speicher gekoppelt und konfiguriert ist zum: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (ϑ) relevant ist; Optimieren von Netzwerkparametern (ϑ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; und Wiederholen des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und des Optimierens von Netzwerkparametern (ϑ) auf unterschiedlichen Ministapeln der Trainingsdaten, bis eine Konvergenzbedingung erfüllt ist.
Einrichtung nach Anspruch 15, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und der Prozessor ferner konfiguriert ist zum: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Erhalten eines Dichtewerts basierend auf einer Ausgabe von dem trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn der Dichtewert unter einem Schwellenwert liegt.
Einrichtung nach Anspruch 15, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und der Prozessor ferner konfiguriert ist zum: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten einer zu erkennenden Komponente in das trainierte neuronale Netzwerk; Erhalten rekonstruierter Erfassungsdaten basierend auf einer Ausgabe von dem trainierten neuronalen Netzwerk in Bezug auf die eingegebenen Erfassungsdaten; Bestimmen eines Unterschieds zwischen den eingegebenen Erfassungsdaten und den rekonstruierten Erfassungsdaten; Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn der bestimmte Unterschied über einem Schwellenwert liegt.
Einrichtung nach Anspruch 15, wobei die Trainingsdaten Erfassungsdatenproben einer Vielzahl von Komponentenproben umfassen und der Prozessor ferner konfiguriert ist zum: Erhalten von Erfassungsdaten einer zu erkennenden Komponente; Eingeben der Erfassungsdaten der zu erkennenden Komponente in das trainierte neuronale Netzwerk; Clustern der Erfassungsdaten basierend auf Merkmalskarten, die durch das trainierte neuronale Netzwerk in Bezug auf die eingegebenen Erfassungsdaten erzeugt werden; Identifizieren der zu erkennenden Komponente als eine anormale Komponente, wenn die Erfassungsdaten außerhalb eines normalen Clusters geclustert werden.
Computerlesbares Medium, das Computercode speichert, zum Trainieren eines neuronalen Netzwerks basierend auf einem energiebasierten Modell mit einem Stapel von Trainingsdaten, wobei das energiebasierte Modell durch einen Satz von Netzwerkparametern (ϑ), eine sichtbare Variable und eine latente Variable definiert ist, wobei der Computercode, wenn er durch einen Prozessor ausgeführt wird, den Prozessor veranlasst zum: Erhalten einer A-posteriori-Variationswahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable durch Optimieren eines Satzes von Parametern (φ) der A-posteriori-Variationswahrscheinlichkeitsverteilung auf einem Ministapel von Trainingsdaten, die aus dem Stapel von Trainingsdaten abgetastet wurden, wobei die A-posteriori-Variationswahrscheinlichkeitsverteilung bereitgestellt wird, um eine wahre A-posteriori-Wahrscheinlichkeitsverteilung der latenten Variable aufgrund der sichtbaren Variable näherungsweise zu bestimmen, wobei die wahre A-posteriori-Wahrscheinlichkeitsverteilung für die Netzwerkparameter (ϑ) relevant ist; Optimieren von Netzwerkparametern (ϑ) basierend auf einem Score Matching-Ziel einer Randwahrscheinlichkeitsverteilung auf dem Ministapel von Trainingsdaten, wobei die Randwahrscheinlichkeitsverteilung basierend auf der A-posteriori-Variationswahrscheinlichkeitsverteilung und einer nicht normalisierten gemeinsamen Wahrscheinlichkeitsverteilung der sichtbaren Variable und der latenten Variable erhalten wird; und Wiederholen des Erhaltens einer A-posteriori-Variationswahrscheinlichkeitsverteilung und des Optimierens von Netzwerkparametern (ϑ) auf unterschiedlichen Ministapeln der Trainingsdaten, bis die Konvergenzbedingung erfüllt ist.