DE102023205594A1 - Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten - Google Patents

Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten Download PDF

Info

Publication number
DE102023205594A1
DE102023205594A1 DE102023205594.5A DE102023205594A DE102023205594A1 DE 102023205594 A1 DE102023205594 A1 DE 102023205594A1 DE 102023205594 A DE102023205594 A DE 102023205594A DE 102023205594 A1 DE102023205594 A1 DE 102023205594A1
Authority
DE
Germany
Prior art keywords
measurement data
machine learning
learning model
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102023205594.5A
Other languages
English (en)
Inventor
Joao Semedo
Ivan BATALOV
Jeffrey Keating Thompson
Wan-Yi Lin
Filipe Cabrita Condessa
Devin Willmott
Jeremy Zieg Kolter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of DE102023205594A1 publication Critical patent/DE102023205594A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32339Object oriented modeling, design, analysis, implementation, simulation language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten. Messdaten bezüglich einer physikalischen Eigenschaft mehrerer hergestellter Teile werden empfangen, so wie sie durch mehrere Sensoren an verschiedenen Herstellungsstationen gemessen werden. Ein Zeitreihendynamik-Maschinenlernmodell codiert die Messdaten in einen latenten Raum, der mehrere Knoten aufweist. Jeder Knoten ist den Messdaten eines der hergestellten Teile und an einer der Herstellungsstationen zugeordnet. Es kann ein Batch der Messdaten aufgebaut werden, wobei der Batch einen ersten Knoten und eine erste Vielzahl von über erste Kanten unmittelbar mit dem ersten Knoten verbundenen Knoten, zeitlich früher gemessen als der erste Knoten, umfasst. Ein Vorhersage-Maschinenlernmodell kann Messungen eines ersten der hergestellten Teile auf der Basis des latenten Raums des Batch von Knoten vorhersagen.

Description

  • Technisches Gebiet
  • Die vorliegende Offenbarung betrifft Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit Herstellungsdaten. Bei Ausführungsformen umfassen die Herstellungsdaten
  • Hintergrund
  • Das beaufsichtigte Maschinenlernen hat in vielen Bereichen Erfolg gezeigt, wie etwa Bildklassifikation, automatische Spracherkennung, visuelle Fragenbeantwortung und Text-zu-Text-Übersetzungen. Das Trainieren eines beaufsichtigten Modells für jede neue Aufgabe erfordert jedoch eine große Menge gekennzeichneter Beispiele, wodurch die Anwendbarkeit solcher Modell begrenzt wird. Dennoch könnten einige Aufgaben oder Datentypen für menschliche Annotation schwierig oder sehr kostspielig sein, zum Beispiel Zeitreihenanomalien und Textzusammenfassung. Umgekehrt ist es, wenn es eine große Menge ungekennzeichneter Daten aus einer Domäne gibt, möglich, Korrelationen und Repräsentation der Daten zu lernen, ohne die Verwendung sehr aussagekräftiger Modelle zu erfordern.
  • In einer Herstellungsumgebung können an jeder Station der Herstellungsanlage Messungen des hergestellten Teils genommen werden. Ein oder mehrere Sensoren können verwendet werden, um die physikalische Eigenschaft, Dimensionen, Stärke, Rauheit oder andere gewünschte Eigenschaft des hergestellten Teils zu messen.
  • Kurzfassung
  • Bei einer Ausführungsform umfasst ein computerimplementiertes Verfahren zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten die folgenden Schritte: Empfangen von Messdaten bezüglich einer physikalischen Eigenschaft mehrerer hergestellter Teile, gemessen durch mehrere Sensoren an verschiedenen Herstellungsstationen; Codieren der Messdaten über ein Zeitreihendynamik-Maschinenlernmodell in einen latenten Raum, der mehrere Knoten aufweist, wobei jeder Knoten den Messdaten eines der hergestellten Teile, gemessen an einer der Herstellungsstationen, zugeordnet ist; Bestimmen einer vorhergesagten Messung eines ersten der hergestellten Teile an einer ersten der Herstellungsstationen über ein Vorhersage-Maschinenlernmodell, auf der Basis des latenten Raums mindestens einiger der Messdaten, die nicht die dem an der ersten Herstellungsstation hergestellten ersten Herstellungsteil entsprechenden Messdaten umfassen; Vergleichen der Vorhersagemessung des ersten hergestellten Teils über das Maschinenlernmodell mit den Messdaten des ersten hergestellten Teils an der ersten Herstellungsstation; Aktualisieren von Parametern des Maschinenlernmodells bis zur Konvergenz, auf der Basis einer Differenz zwischen den Vorhersagemessungen und den tatsächlichen Messdaten; und Ausgeben eines trainierten Maschinenlernmodells mit den aktualisierten Parametern auf der Basis der Konvergenz.
  • Bei einer anderen Ausführungsform wird ein System zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten bereitgestellt. Das System umfasst mehrere Sensoren, die sich an mehreren Herstellungsstationen befinden, wobei jeder Sensor ausgelegt ist zum Produzieren von Messdaten, die eine physikalische Eigenschaft mehrerer hergestellter Teile angeben, die eine jeweilige der Herstellungsstationen durchlaufen. Das System umfasst außerdem mindestens einen Prozessor, der zu Folgendem programmiert ist: Ausführen eines Zeitreihendynamik-Maschinenlernmodells zur Codierung der Messdaten in einen latenten Raum, der mehrere Knoten aufweist, wobei jeder Knoten den Messdaten eines der hergestellten Teile, gemessen an einer der Herstellungsstationen, zugeordnet ist; Ausführen eines Vorhersage-Maschinenlernmodells zur Bestimmung einer vorhergesagten Messung eines ersten der hergestellten Teile an einer ersten der Herstellungsstationen über ein Vorhersage-Maschinenlernmodell, auf der Basis des latenten Raums mindestens einiger der Messdaten, die nicht die dem an der ersten Herstellungsstation hergestellten ersten Herstellungsteil entsprechenden Messdaten umfassen; Vergleichen der Vorhersagemessung des ersten hergestellten Teils über das Maschinenlernmodell mit den Messdaten des ersten hergestellten Teils an der ersten Herstellungsstation; Aktualisieren von Parametern des Maschinenlernmodells bis zur Konvergenz, auf der Basis einer Differenz zwischen den Vorhersagemessungen und den tatsächlichen Messdaten; und Ausgeben eines trainierten Maschinenlernmodells mit den aktualisierten Parametern auf der Basis der Konvergenz.
  • Bei noch einer anderen Ausführungsform umfasst ein computerimplementiertes Verfahren zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten die folgenden Schritte: Empfangen von Messdaten bezüglich einer physikalischen Eigenschaft mehrerer hergestellter Teile, gemessen durch mehrere Sensoren an verschiedenen Herstellungsstationen; Codieren der Messdaten über ein Zeitreihendynamik-Maschinenlernmodell in einen latenten Raum, der mehrere Knoten aufweist, wobei jeder Knoten den Messdaten eines der hergestellten Teile, gemessen an einer der Herstellungsstationen, zugeordnet ist; Batching der Messdaten zum Aufbau eines Batch, der eine erste Vielzahl von Knoten, die unmittelbar über erste Kanten unmittelbar mit einem ersten Knoten verbunden sind und zeitlich früher als der erste Knoten gemessen werden, und eine zweite Vielzahl von Knoten, wobei jeder der zweiten Vielzahl von Knoten über zweite Kanten unmittelbar mit einem jeweiligen der ersten Vielzahl von Knoten verbunden ist und zeitlich früher als dieser gemessen wird, umfasst; und Bestimmen einer vorhergesagten Messung eines ersten der hergestellten Teile an einer ersten der Herstellungsstationen über ein Vorhersage-Maschinenlernmodell auf der Basis des latenten Raums des Batch von Knoten.
  • Kurze Beschreibung der Zeichnungen
    • 1 zeigt ein System zum Trainieren eines neuronalen Netzes gemäß einer Ausführungsform.
    • 2 zeigt eine schematische Darstellung eines zeitgeordneten gerichteten Graphmodells mit Knoten, die Messungen oder Aufzeichnungen bezeichnen, die einem bestimmten Teil an einer bestimmten Station zugeordnet sind, gemäß einer Ausführungsform.
    • 3 zeigt eine schematische Darstellung eines graphischen Maschinenlernmodells zur Vorhersage von Messungen eines bestimmten Teils an einer bestimmten Station auf der Basis tatsächlicher Teilemessdaten und einer Latenter-Raum-Repräsentation eines bestimmten Teils und einer bestimmten Station gemäß einer Ausführungsform.
    • 4 zeigt eine schematische Darstellung einer Datenverarbeitungsplattform, die zur Implementierung der hier offenbarten Modelle, zum Beispiel des graphischen Maschinenlernmodells von 3, benutzt werden kann.
  • Ausführliche Beschreibung
  • Es werden hier Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht unbedingt maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert sein, um Einzelheiten bestimmter Komponenten zu zeigen. Hier offenbarte spezifische Struktur- und Funktionsdetails sind deshalb nicht als Beschränkung aufzufassen, sondern lediglich als repräsentative Grundlage, um es Fachleuten zu lehren, die Ausführungsformen verschiedenartig einzusetzen. Für Durchschnittsfachleute ist erkennbar, dass verschiedene mit Bezug auf eine beliebige der Figuren dargestellte und beschriebene Merkmale mit in einer oder mehreren anderen Figuren dargestellten Merkmalen kombiniert werden können, um Ausführungsformen zu produzieren, die nicht ausdrücklich dargestellt oder beschrieben werden. Die Kombinationen von dargestellten Merkmalen stellen repräsentative Ausführungsformen für typische Anwendungen bereit. Für bestimmte Anwendungen oder Implementierungen könnten jedoch verschiedene Kombinationen und Modifikationen der Merkmale im Einklang mit den Lehren der vorliegenden Offenbarung erwünscht sein.
  • Das beaufsichtigte Maschinenlernen hat in vielen Bereichen Erfolg gezeigt, wie etwa Bildklassifikation, automatische Spracherkennung, visuelle Fragenbeantwortung und Text-zu-Text-Übersetzungen. Das Trainieren eines beaufsichtigten Modells für jede neue Aufgabe erfordert jedoch eine große Menge gekennzeichneter Beispiele, wodurch die Anwendbarkeit solcher Modelle begrenzt wird. Dennoch könnten einige Aufgaben oder Datentypen für menschliche Annotation schwierig oder sehr kostspielig sein, zum Beispiel Zeitreihenanomalien und Textzusammenfassung. Umgekehrt ist es, wenn es eine große Menge ungekennzeichneter Daten aus einer Domäne gibt, möglich, Korrelationen und Repräsentation der Daten zu lernen, ohne die Verwendung sehr aussagekräftiger Modelle zu erfordern.
  • Solche erlernten Korrelationen und Repräsentationen können direkt verwendet werden oder können für Downstream-Aufgaben (zum Beispiel eine Menge von Aufgaben, die für einen Endbenutzer relevant sind, für die das Modell nicht direkt trainiert wird) fein abgestimmt werden. Dieser Ansatz kann das Training des Modells von Ende zu Ende aus zufälliger Initialisierung deutlich übertreffen. Ein solcher Leistungsgewinn ist besonders für Sequenzmodelle signifikant, wie etwa NLP (Verarbeitung natürlicher Sprache), und für Modelle mit größerer Kapazität. Es sind mehrere vortrainierte Modelle für Wahrnehmungsdaten (z. B. natürliche Sprachen und Bilder) verfügbar, es gibt aber kein solches Modell für über mehrdimensionale Sequenzen modellierte multimodale strukturelle Herstellungsdaten.
  • Gemäß verschiedenen hier beschriebenen Ausführungsformen stellt die vorliegende Offenbarung Systeme und Verfahren zum Lernen von Repräsentationsmerkmalen von Herstellungsdaten durch Trainieren eines unbeaufsichtigten autoregressiven graphischen Modells bereit. Multimodale strukturierte Daten (darunter, aber ohne Beschränkung darauf, tabellenförmige, Zeitreihen- und Aggregatstatistiken) werden an einem gerichteten Mehrfachtyp-Graphen modelliert. Sequenzmodelle können von einer einzigen Dimension (textliche Sequenzen) in mehrere Dimensionen (gerichtete Graphen) erweitert werden. Ecken (Knoten) des gerichteten Graphen repräsentieren Aufzeichnungen, die dem Durchlauf einer physischen Komponente durch eine Herstellungsstation zugeordnet sind (z. B. Aufzeichnungen, die durch Laserätzung einer Komponente zugeordnet werden, optische Untersuchungsergebnisse einer Komponente, Spannungs-Dehnungs-Kurve einer Komponente usw.). Zwei Knoten werden durch eine gerichtete Kante verbunden, wenn sie (1) einer bestimmten Komponente, die aufeinanderfolgende Stationen besucht, zugeordneten Aufzeichnungen oder (2) aufeinanderfolgenden Komponenten, die dieselbe Station durchlaufen, zugeordneten Aufzeichnungen entsprechen. Diese Zwei-Kanten-Konstruktionsmechanismen sind die Grundlage für die Konstruktion dieses dem Herstellungsprozess zugeordneten zweidimensionalen bidirektionalen Graphen.
  • Die offenbarten Systeme und Verfahren stützen sich auf Maschinenlernmodelle, wie etwa neuronale Netze (z. B. DNN (tiefe neuronale Netze), GNN (graphische neuronale Netze), DCN (tiefe Faltungsnetze), CNN (Faltungs-Neuronalnetze) usw.) und dergleichen. 1 zeigt ein System 100 zum Trainieren eines neuronalen Netzes, z. B. eines graphischen neuronalen Netzes. Die hier dargestellten und beschriebenen neuronalen Netze sind lediglich Beispiele für die Arten von Maschinenlernnetzen oder neuronalen Netzen, die verwendet werden können. Das System 100 kann eine Eingangsschnittstelle zum Zugreifen auf Trainingsdaten 102 für das neuronale Netz umfassen. Wie zum Beispiel in 1 dargestellt ist, kann die Eingangsschnittstelle durch eine Datenspeicherungsschnittstelle 104 dargestellt werden, die auf die Trainingsdaten 102 aus einer Datenspeicherung 106 zugreifen kann. Die Datenspeicherungsschnittstelle 104 kann zum Beispiel eine Speicherschnittstelle oder eine persistente Speicherungsschnittstelle sein, z. B. eine Festplatte oder eine SSD-Schnittstelle, aber auch eine Schnittstelle eines persönlichen, lokalen oder großflächigen Netzwerks, wie etwa eine Bluetooth-, Zigbee- oder WiFi-Schnittstelle oder eine Ethernet- oder faseroptische Schnittstelle. Die Datenspeicherung 106 kann eine interne Datenspeicherung des Systems 100 sein, wie etwa eine Festplatte oder ein SSD, kann aber auch eine externe Datenspeicherung, z. B. eine netzwerkzugängliche Datenspeicherung, sein.
  • Bei einigen Ausführungsformen kann die Datenspeicherung 106 ferner eine Datenrepräsentation 108 einer untrainierten Version des neuronalen Netzes umfassen, worauf das System 100 aus der Datenspeicherung 106 zugreifen kann. Es versteht sich jedoch, dass auf die Trainingsdaten 102 und die Datenrepräsentation 108 des untrainierten neuronalen Netzes auch jeweils aus einer anderen Datenspeicherung zugegriffen werden kann, z. B. über ein anderes Subsystem der Datenspeicherungsschnittstelle 104. Jedes Subsystem kann von einer Art wie oben für die Datenspeicherungsschnittstelle 104 beschrieben sein. Bei anderen Ausführungsformen kann die Datenrepräsentation 108 des untrainierten neuronalen Netzes durch das System 100 intern auf der Basis von Entwurfsparametern für das neuronale Netz erzeugt werden und kann deshalb nicht ausdrücklich in der Datenspeicherung 106 gespeichert sein. Das System 100 kann ferner ein Prozessorsubsystem 110 umfassen, dass dafür ausgelegt sein kann, während des Betriebs des Systems 100 eine iterative Funktion als Ersatz für einen Stapel von Schichten des zu trainierenden neuronalen Netzes bereitzustellen. Jeweilige Schichten des Stapels von Schichten, die ersetzt werden, können hier untereinander geteilte Gewichte aufweisen und können als Eingabe die Ausgabe einer vorherigen Schicht empfangen, oder für eine erste Schicht des Stapels in Schichten eine anfängliche Aktivierung und einen Teil der Eingabe des Stapels von Schichten. Das Prozessorsubsystem 110 kann ferner dafür ausgelegt sein, das neuronale Netz iterativ unter Verwendung der Trainingsdaten 102 zu trainieren. Eine Iteration des Trainings durch das Prozessorsubsystem 110 kann hier einen Vorwärtsausbreitungsteil und einen Rückwärtsausbreitungsteil umfassen. Das Prozessorsubsystem 110 kann dafür ausgelegt sein, den Vorwärtsausbreitungsteil auszuführen durch Bestimmen eines Gleichgewichtspunkts der iterativen Funktion, an dem die iterative Funktion auf einen fixen Punkt konvergiert, neben anderen Operationen, die den Vorwärtsausbreitungsteil definieren, der ausgeführt werden kann, wobei Bestimmen des Gleichgewichtspunkts Verwendung eines numerischen Wurzelfindungsalgorithmus zum Finden einer Wurzellösung für die iterative Funktion minus ihrer Eingabe umfasst, und durch Bereitstellen des Gleichgewichtspunkts als Ersatz für eine Ausgabe des Stapels von Schichten in dem neuronalen Netz.
  • Das System 100 kann ferner eine Ausgangsschnittstelle zum Ausgeben einer Datenrepräsentation 112 des trainierten neuronalen Netzes umfassen. Diese Daten können auch als Trainiertes-Modell-Daten 112 bezeichnet werden. Zum Beispiel kann, wie auch in 1 dargestellt ist, die Ausgangsschnittstelle durch die Datenspeicherungsschnittstelle 104 dargestellt werden, wobei diese Schnittstelle bei diesen Ausführungsformen eine Eingabe-/Ausgabe-(EA-)Schnittstelle ist, über die die Trainiertes-Modell-Daten 112 in der Datenspeicherung 106 gespeichert werden können. Zum Beispiel kann die Datenrepräsentation 108, die das „untrainierte“ neuronale Netz definiert, während des Trainings oder nach dem Training mindestens teilweise durch die Datenrepräsentation 112 des trainierten neuronalen Netzes ersetzt werden, indem die Parameter des neuronalen Netzes, wie etwa Gewichte, Hyperparameter und andere Arten von Parametern neuronaler Netze angepasst werden können, um das Training an den Trainingsdaten 102 widerzuspiegeln. Dies ist auch in 1 durch die Bezugszahlen 108, 112 dargestellt, die sich auf dieselbe Datenaufzeichnung in der Datenspeicherung 106 beziehen. Bei anderen Ausführungsformen kann die Datenrepräsentation 112 getrennt von der Datenrepräsentation 108, die das untrainierte neuronale Netz definiert, gespeichert werden. Bei einigen Ausführungsformen kann die Ausgangsschnittstelle von der Datenspeicherungsschnittstelle 104 getrennt sein, kann aber im Allgemeinen von einer Art wie oben für die Datenspeicherungsschnittstelle 104 beschrieben sein.
  • Die Struktur des Systems 100 ist ein Beispiel für ein System, das zum Trainieren der hier beschriebenen neuronalen Netze benutzt werden kann. Zusätzliche Struktur zum Betrieb und Training der Maschinenlernmodelle ist in der später beschriebenen 4 gezeigt.
  • In Bezug auf Herstellungsprozesse kann ein Endprodukt mehrere Arbeitsstationen durchlaufen, bevor das Teil vollständig fertig oder hergestellt ist. Zum Beispiel kann, bevor ein Endprodukt produziert wird, es mit anderen Subkomponenten zusammengebaut, eingefärbt, lasergeätzt, belastungsgeprüft werden oder andere Herstellungsaufgaben. Nachdem jede Station ihre Aufgaben abschließt, können Messungen des Teils genommen werden, um Messdaten zu produzieren. Dadurch wird sichergestellt, dass das Teil ausreichend funktionsfähig, ausreichend verbunden, ausreichend bemessen ist usw. Zu Messdaten kann gehören, bei welcher Art von Station die Messung genommen wird, welche Art von Teil gemessen wird und was die Messung ist. Die Messung kann ein Binärwert, ein Belastungswert, ein Zeitreihenwert (z. B. eine Messung der Reaktion auf Druck), eine Gleitgenauigkeitszahl, eine Zahlenkette, eine ganze Zahl, Boolesche, Aggregation von Statistiken oder dergleichen sein, wodurch ein physikalischer Zustand oder eine physikalische Eigenschaft des Teils repräsentiert wird. Diese Messdaten können multimodal sein (z. B. können sie mehrere Arten von Messungen umfassen, wie etwa die oben als Beispiel aufgelisteten). Diese multimodalen Messdaten können in ein hier beschriebenes neuronales Netz eingegeben werden. Abhängig von den an der Station genommenen Messungen kann das System bestimmen, ob das Teil ausreichend ist oder stattdessen entsorgt oder weggeworfen werden sollte.
  • Diese in ein Graph-Neuronalnetz eingegebenen multimodalen Messdaten können verschiedene Vorteile ergeben und können enorm viele Informationen ergeben, die bei der Herstellungsvorlaufzeit und der Logistik helfen können. Zum Beispiel kann die Ausgabe des neuronalen Netzes Vorhersagen ergeben, ob die Teile für Produktion oder Montage in ein anderes System ausreichend sein werden, Vorhersagen, ob Stationen offline sein werden müssen, Vorhersage der Ausbeutezeit sowie Vorhersagen dahingehend, ob ein Ausfall entlang der Herstellungslinie aufgetreten sein kann, warum der Ausfall aufgetreten ist und dergleichen. In einem anderen Beispiel kann die Ausgabe des neuronalen Netzes vorhergesagte Messungen an irgendeiner Station entlang der Herstellungslinie ergeben, anhand dieser Informationen kann man eine Station (oder eine Prozedur in dieser Station), die der Messung der Komponente, die hergestellt wird, gewidmet ist, entfernen. Dies kann beim Messen Zeit und Geld sparen.
  • Außerdem können prädiktive Messungen des hergestellten Teils entlang der Herstellungslinie dem Ausmustern einer Komponente zugeordnete Kosten verringern. Wenn eine Messung einer Komponente innerhalb der Herstellungslinie (z. B. an oder zwischen jeder Herstellungsstation) geschätzt werden kann, kann dies zu einer genaueren Bestimmung führen, wann ein Ausfall oder Fehlschritt bei der Herstellung stattfindet. Dies kann früheres Ausmustern einer Komponente in dem Herstellungsprozess bedeuten, bevor dies kostspieliger wird. Abhängig davon, wann eine Komponente tatsächlich entlang des Herstellungsprozesses gemessen wird, erlaubt außerdem die Vorhersage der Messung einer Komponente, bevor die Komponente tatsächlich gemessen wird, Ausmustern der Komponente früher im Herstellungsprozess.
  • Gemäß dem hier beschriebenen System, können die Modelle mit einer latenten Repräsentation der hergestellten Teile und der Station, an der jedes Teil gemessen wird, versehen werden. 2 zeigt ein Gitter oder eine graphische Darstellung 200 dieser Daten. Jedes Mal, wenn ein bestimmtes Teil eine Station erreicht, aktualisiert das System die latente Repräsentation. Der schwarze Kreis bezeichnet hier multimodale Messungen oder Aufzeichnungen, die eine Station durchlaufenden Teilen zugeordnet sind. Jeder schwarze Kreis wird außerdem mit einem Zeitstempel versehen, wodurch die Zeit angegeben wird, zu der jedes Teil, bestimmte Teil an dieser bestimmten Station gemessen wird. Im dargestellten Szenario erfolgen die folgenden Messungen: Teil1 wird an Station2 um 9:00 gemessen und wird an Station3 um 9:05 gemessen; Teil 2 wird an Station2 um 9:10 gemessen und wird an Station4 um 9:30 gemessen; Teil3 wird an Station1 um 9:00 gemessen und wird an Station3 um 9:15 gemessen; Teil4 wird an Station2 um 9:30 und wird and Station4 um 9:40 gemessen; Teil5 wird an Station1 um 9:05 gemessen und wird an Station3 um 9:20 gemessen. Bevor jedes Teil gemessen wird, befindet es sich in seinem initialisierten Zustand, und arbeitet dann mit dem latenten Zustand von Station2, um die oben erläuterten multimodalen Messungen zu produzieren. Diese dargestellte graphische Repräsentation dieser Daten kann nur ein Teil der insgesamten genommenen Messungen sein; es können mehr oder weniger als fünf Teile gemessen werden und mehr oder weniger als vier Stationen für Messungen vorgesehen werden. Die Pfeile in dem Graphen zeigen den Zeitverlauf für jedes Teil (von oben nach unten) und für jedes Station (von links nach rechts). Der schwarze Kreis am Schnittpunkt von Teil5 und Station4 kann das autoregressive Problem bezeichnen, auf dem diese Offenbarung basiert - in der Lage zu sein, die Messungen oder Aufzeichnungen, die den Station4 durchlaufenden Teil 5 zugeordnet sind, wenn die vergangenen Repräsentationen gegeben sind.
  • Die hier beschriebenen Maschinenlernsysteme können diese Daten - repräsentiert in graphischer Form in 2 - zur Schätzung von Messungen eines beliebigen bestimmten Teils an einer beliebigen bestimmten Station nehmen. Gemäß Ausführungsformen kann unbeaufsichtigte Verteilungsschätzung aus einer Menge von Beispielen (x1, x2, ...,xn) durchgeführt werden, die jeweils aus Sequenzen variabler Länge multimodaler struktureller Messungen zusammengesetzt sind, die an einer entsprechenden Station ((m1, s1), ..., (mk, sk)) auftreten, wobei m die Messung und s die Station ist. Eine beispielhafte Sequenz x repräsentiert die Herstellungsstationen, die ein Produkt oder Teil in Zeitreihenfolge durchläuft. Vom Standpunkt der Sequenzmodellierung aus gesehen, kann die Verbundwahrscheinlichkeit von Messungen an Stationen folgendermaßen faktorisiert werden: P ( x ) = i = 1 k p ( x i | x < i ) = i = 1 k p ( ( m k , s k ) | ( m 1 , s 1 ) , , ( m i 1 , s i 1 ) )
    Figure DE102023205594A1_0001
  • Das Lernen solcher Wahrscheinlichkeitsverteilung erlaubt leichte Abfragen an oder Stichproben aus Modellen mit Subsequenzen P(x>=i|x<i).
  • Die hier offenbarten Modelle erlauben Betrachtung der Daten als eine Sequenz von der Sicht der Station aus. Zum Beispiel können wieder mit Bezug auf 2 Daten von Station2 modelliert werden, weil Daten sequenziell um 9:00 (von Teil1), 9:10 (von Teil2) und 9:30 (von Teil4) erfasst werden. Hierdurch kann man die von einer bestimmten Station genommenen Messungen modellieren, und die Variable ist das bestimmte Teil, das die Station durchläuft. Dies kann in einer Umgebung, in der nicht jedes Teil jede Station durchläuft und nicht jede Station jedes Teil misst (wie etwa bei dem in 2 gezeigten Beispiel) wichtig sein. Die modellierte Wahrscheinlichkeitsverteilung P(x) ist deshalb von allen Teilen und entsprechenden Messungen abhängig, die in der Menge x enthalten sind, vor dem tatsächlichen Auftreten von x. Anders ausgedrückt, verwendet das Modell, um eine Messung an einer bestimmten Station eines bestimmten Teils zu schätzen, als Eingabe die vergangenen zeitlichen Messungen, die von den Teilen und Stationen genommen wurden, bevor die tatsächliche Messung an der bestimmten Station des bestimmten Teils durchgeführt wird. Wenn man 2 als Beispiel nimmt, hängt die Wahrscheinlichkeit der Sequenz von Teil5 von den Messungen von Teils an Station1; Teil1 und Teil3 an Station 3;Teil2 und Teil4 an Station4; und Teil1, Teil2 und Teil4 an Station2 ab. Man nehme Teil1 an Station2 als Beispiel. Die Sequenz von Teil5 ist von diesem Knoten abhängig, und zwar weil Teil5 an Station3 von dem latenten Zustand von Station3 am Zeitstempel 9:20 abhängig ist, wodurch die Subsequenz von Teilen codiert wird, die Station3 durchlaufen, bevor Teil5 an Station3 ankommt. Aber Teil1 an Station3 ist von dem latenten Zustand von Teil1 am Zeitstempel 9:05 abhängig, wodurch die Sequenz von Teil1, bevor es Station3 erreicht, codiert wird (und daher davon abhängt), was bedeutet, dass der latente Zustand von Teil1 um 9:05 von Teil1 an Station2 abhängig ist.
  • Um Speicher- und Rechenverbrauch zur Trainingszeit zu verringern und um die Schlussfolgerungszeit zu verkürzen, können die hier offenbarten Ausführungsformen latenten Raum verwenden, um die Subsequenz der Sequenz x<i eines Teils p zu dem latenten Zustand hp i = Codierer(x<i) zu codieren. Dies wird nachfolgend weiter mit Bezug auf Batch-Verarbeitung beschrieben. Bei einer Ausführungsform wird ein autoregressiver Codierer benutzt, d. h. hp i = hp i-1 + Codierer(xi). Ähnlich kann das System die Stationssubsequenz bis zu dem j-ten Teil zu dem latenten Zustand hs j codieren. Unter der Annahme, dass das Teil p das i-te Teil ist, das durch Station si gemessen wird, kann die folgende Gleichung gelten: P ( x ) = i = 1 k p ( x i | h i p , h i p s i )
    Figure DE102023205594A1_0002
  • 3 zeigt ein Maschinenlernmodell 300, das gemäß den hier gegebenen Beschreibungen zur Optimierung von hier beschriebenen auf Zeit basierenden sequenziellen Herstellungsdaten trainiert wird. Das Maschinenlernmodell 300 kann gemäß einer Ausführungsform ein unbeaufsichtigtes autoregressives graphisches Modell sein. Das Maschinenlernmodell 300 modelliert multimodale strukturierte Daten, die tabellenförmige, Zeitreihen- und Aggregatstatistiken umfassen, auf einem gerichteten Graphen mehrerer Typen. Messungen oder Verteilung der Messungen, die an einem Teil an einer Station durchgeführt werden (auch als Messdaten bezeichnet) werden als Ziele zum Trainieren des Modells verwendet, und die codierten Untersequenzen (d. h., latenter Raum) dieses Teils und dieser Station werden als Eingabe verwendet. Diese Untersequenzen oder Datenmenge D können eine multimodale Herstellungs-Sequenzdatenmenge ohne Annotationen sein. Jede Teilsequenz in D enthält die Informationen bezüglich des Typs des Teils, eine Kennung des Teils, die Sequenz von Stationen, die dieses Teil durchläuft, und die Messungen oder Aufzeichnungen an jeder Station. Die genommenen Messungen können ein Binärwert in Bezug auf Größe oder Belastbarkeit des Teils oder ein Zeitreihenwert sein, wie etwa eine Messung der Reaktion des Teils auf Druck). Andere Beispiele für genommene Messungen wären seine Reibungseigenschaften, Gewichtverteilung, Dichte, Anwesenheit von Brüchen oder Defekten und andere Messungen, die typischerweise in einer Herstellungsanlage enthalten sind, um sicherzustellen, dass ein hergestelltes Teil für weiteren Zusammenbau oder Produktion geeignet ist.
  • Diese Messdaten werden in das graphische Modell fθ eingegeben. Das Modell umfasst gemäß einer Ausführungsform drei Untermodell oder drei getrennte Maschinenlernmodelle: ein Einbettungsmodell, ein Dynamikmodell und ein Vorhersagemodell. Jedes dieser Maschinenlernmodelle kann neuronale Netze oder Unternetze in Form eines GNN, CNN oder dergleichen sein.
  • Da Ausführungsformen dieses Systems einen autoregressiven Codierer für Teile- und Stationszustandsinformationen verwendet, wird für beide Zustände eine Initialisierung abgeleitet, wenn keine Messungen beobachtet wurden. Dies erhält Attribute des Teils oder Attribute der Herstellungsstation zur Erzeugung eines anfänglichen Zustands des Teils oder der Station. Ein Beispiel wäre eine bestimmte Größendimension eines bestimmten Teils, bevor es einer Aktion an einer bestimmten Station unterzogen wird.
  • Das Einbettungsmodell kann als Einbettungsnetzwerk oder BθB bezeichnet werden, wobei 8 die Batch-Größe ist (der Batching-Prozess wird später beschrieben). Dieses Modell ist ausgelegt zum Einbetten einer Menge von Messdaten (z. B. von variierendem Typ wie oben beschrieben, wie etwa Gleitkommazahl, Zeichenkette, ganze Zahl, Boolesch, Zeitreihenmessungen, Aggregation von Statistiken usw.) in ein Gleitarray oder einen Vektor, das bzw. den das Dynamikmodell konsumieren kann. Abhängig vom Typ der Messdaten kann das Einbettungsmodell verschiedene Architekturen aufweisen. Wenn zum Beispiel die Messdaten alle Fließkommazahlen oder ganze Zahlen sind, kann 8 einfach ein Mehrschicht-Perzeptron sein. In anderen Beispielen kann, wenn die Messdaten Zeitreihendaten umfassen, ein 1-dimensionales Faltungsnetz angewandt werden, um die Merkmale zu extrahieren.
  • Das Dynamikmodell kann als Dynamiknetz oder DθD bezeichnet werden, wobei D wieder eine Teil-/Stations-Untersequenz-Datenmenge sein, die in den latenten Raum codiert wird. Jedes Zeitreihenmodell mit latentem Zustand kann für dieses Modell verwendet werden, wie etwa ein rekurrentes neuronales Netz. Jede Teilsequenz in dem Dynamikmodell enthält die Informationen bezüglich des Typs von Teil, eine Kennung des Teils, die Sequenz von Stationen, die diese Teil durchläuft. Die Eingabe in das Dynamikmodell können die aktuellen eingebetteten Messungen xi der obigen Gleichung (2) und der aktuelle Zustand des Teils und der Station, d. h. h i p , h i p s i
    Figure DE102023205594A1_0003
    der obigen Gleichung (2), sein. Das Dynamikmodell umfasst den aktualisierten Teil- und Stationszustand, d. h. h i + 1 p , h i p + 1 s i .
    Figure DE102023205594A1_0004
  • Das Vorhersagemodell kann als Vorhersagenetz oder PθP bezeichnet werden. Das Vorhersagemodell nimmt als Eingabe den latenten Zustand h i p , h i p s i
    Figure DE102023205594A1_0005
    des Teils und der Station und sagt (1) Messungen des Teils p and der Station si (xi) oder (2) quantilisierte Messung, wenn die Messung fließ-wertig ist, voraus. Das Vorhersagen quantilisierter Messungen erlaubt es dem gelernten Modell, Wahrscheinlichkeiten jedes Quantils der Messungsverteilung vorherzusagen, und erlaubt Sampling aus dem Modell.
  • Die Ausgabe des Gesamtmodells fθ ist eine vorhergesagte Messung, wie etwa eine Vorhersage eines der Knoten in 2. Das Modell fθ kann bis Konvergenz weiter operieren, wobei ein trainiertes Maschinenlernmodell produziert wird, das eine Messung eines Teils auf der Basis vorheriger zeitlicher Messungen und der Latenter-Raum-Repräsentation des hergestellten Teils und der Station vorhersagen kann.
  • In dem Dynamikmodell gehen der Zustand des hergestellten Teils und der Stationszustand eine Knotens in das Dynamikmodell ein, um eine Messung zu produzieren, und auch die Zustände selbst zu aktualisieren. Das Dynamikmodell ist dafür ausgelegt, den in 2 gezeigten Graphen zum Beispiel von Teil1 bis Teil5 und von Station1 bis Station4 zu modulieren. Dies geschieht mit Untersequenzmodellierung, einschließlich Modellierung durch Nehmen des latenten Raums des hergestellten Teils und der Station. Wenn man 2 als Beispiel nimmt, werden also Messdaten, die um 9:00 für Teil1, Station2 erfasst werden, zur Bestimmung einer vorhergesagten Messung des bei Teil1, Station3 um 9:05 gezeigten Knotens verwendet. Insbesondere wird der latente Zustand (entweder in seinem initialisierten Zustand, wenn er noch nicht verwendet wurde, oder in seinem aktualisierten Zustand nach einer vorherigen Messung) von Station3 verwendet, um die Messung von Teil1, die um 9:05 stattfinden würde, vorherzusagen. Dies produziert eine vorhergesagte Messung für Teil1 an Station3. Und nach dem Produzieren jeder vorhergesagten Messung kann das Modell aktualisiert und trainiert werden. Da die Messdaten die realen Messungen umfassen und das Modell eine vorhergesagte Messung produziert, kann das graphische Modell eine Differenz zwischen den realen Messdaten und der vorhergesagten Messung ableiten. Diese Differenz zwischen den tatsächlichen Messdaten und der vorhergesagten Messung kann verwendet werden, um Parameter des graphischen Modells zu aktualisieren, um die Differenz gemäß oben beschriebenen Trainingsverfahren zu minimieren. Der Prozess kann sich dann wiederholen, mit fortgesetzten Schritten zum Ableiten vorhergesagter Messungen, Vergleichen der vorhergesagten Messungen mit den von einem Sensor genommenen tatsächlichen Messdaten und verwenden der Differenz zwischen den tatsächlichen und geschätzten Messungen zur Aktualisierung der Parameter des Modells. Dieser Prozess kann sich wiederholen, bis das Modell ein vorbestimmtes Leistungsniveau (z. B. ∼100% Übereinstimmung zwischen den vorhergesagten Messungen und den tatsächlichen Messdaten) oder Konvergenz (z. B. Auftreten einer festgesetzten Anzahl von Iterationen oder das die Differenz ausreichend klein ist (z. B. ändert sich die Änderung der ungefähren Wahrscheinlichkeit über Iterationen um mehr als eine Schwelle) oder andere Konvergenzbedingungen) erreicht.
  • Einige Herstellungsanlagen können eine große Anzahl von Stationen aufweisen oder es können viele verschiedene Arten von Teilen gemessen werden. Dies könnte zu einer enormen Menge Daten führen. Um die hier beschriebenen neuronalen Netze mit einer solchen großen Menge Daten zu trainieren, können die neuronalen Netze mit Samples von Daten trainiert werden. Die zeitliche Verarbeitung aller Knoten kann ein enormes Unterfangen sein - z. B. Erhalten von Messdaten um 9:00, dann Trainieren des Modells, dann Vorhersagen einer Messung um 9:05, dann Vergleichen dieser mit den tatsächlichen Messdaten um 9:05, dann Vergleichen der Differenz, dann Aktualisieren des Modells und Wiederholen dieses Prozesses für alle Knoten. Es kann vorzuziehen sein, das Maschinenlernmodell mit mindestens einigen der Daten (Knoten) zur selben Zeit auszuführen.
  • Aber das Trainieren des Systems erfordert das Durchführen einer geschätzten Messung unabhängig von den tatsächlichen Messdaten, und die geschätzte Messung wird durch die vorherigen Messungen und Schätzungen, die das Modell aktualisieren, beeinflusst. Wenn man sich als Beispiel auf 2 bezieht, kann also das System nicht dafür ausgelegt sein, trainiert zu werden, indem Messungen für den Knoten an Teil1, Station2 und Teil2, Station2 zur selben Zeit vorhergesagt werden - die vorhergesagte Messung an Teil2, Station2 hängt von der früheren Modellausführung und tatsächlichen Datenmessung des Knotens an Teil1, Station2 ab. Anders ausgedrückt, ist der 9:00-Knoten an Teil1, Station2 dem 9:10-Knoten an Teil2, Station2 übergeordnet. Das Modell verarbeitet deshalb die Messungen von Teil1, Station2 und Aktualisiert dann den latenten Zustand von Station2 und kann erst dann Teil2 an Station2 verarbeiten. Es kann deshalb gesagt werden, dass, da das Maschinenlernmodell Daten an jedem Knoten, während es ausgeführt wird, aktualisiert, Knoten, die sich zeitlich früher befinden, die aktualisiert werden, während das Maschinenlernmodell verarbeitet, sich auf spätere Knoten auswirken, die geschätzt werden, so dass nicht alle Datenpunkte in dem Graphen zur selben Zeit ausgeführt werden können.
  • Deshalb kann das System einige Knoten holen, die nicht voneinander abhängen, um Batch-Verarbeitung durchzuführen. Zum Beispiel sind der Knoten an Teil1, Station2 und der Knoten an Teil3, Station1, nicht voneinander abhängig; die Messungen an jedem Knoten beeinflussen nicht die Ausführung des Modells an dem anderen Knoten. (Tatsächlich werden diese beiden Knoten identisch mit 9:00 zeitgestempelt, obwohl dies kein Anforderung für Batch-Verarbeitung ist, veranschaulicht aber weiter, dass die zwei Knoten nicht voneinander abhängig sind.) Dasselbe kann für die Knoten an Teil1, Station3 und an Teil2, Station2 gesagt werden. Die Verwendung von Batch-Verarbeitung kann dabei helfen Prozessorleistungsausgabe, Speicherbegrenzungen und Kosten zu verringern.
  • In einem als Standard-Batching bezeichneten Prozess kann ein Abhängigkeitsgraph aufgebaut werden, wobei jede Messung mit einer vorherigen Messung verbunden wird. Der Graph kann auf der Basis von Übergeordneten und Abhängigkeiten von Knoten aufgebaut werden. Wenn zum Beispiel ein gewählter Knoten an Teil2, Station2 kann der Graph zeitlich rückwärtsschauend von dieser Station und diesem Teil aufgebaut werden, um zu sehen, welche übergeordneten Knoten es gibt (z. B. welche Knoten, wenn sie durch das Modell zum Aktualisieren und Trainieren ausgeführt würden, die Ausführung des Modells an dem gewählten Knoten beeinflussen würden). Die unmittelbaren Übergeordneten des gewählten Knotens können bestimmt werden, indem man linear nach oben (zeitlich rückwärts) entlang der vertikalen Kante von dem gewählten Knoten fährt, bis ein anderer Knoten erreicht wird, und indem man linear nach links (zeitlich rückwärts) entlang der horizontalen Kante von dem gewählten Knoten fährt, bis ein anderer Knoten erreicht wird. Dann kann sich der Prozess wiederholen, die unmittelbaren Übergeordneten dieser Knoten finden und so weiter, um den Graphen aufzubauen. Während des Durchquerens kann das Batching-Modell jedem Knoten oder jeder Ecke v eine Chunk-Nummer cv zuweisen, wobei v = max(Chunk - Nummer aller Übergeordneten von v) + 1 ist, wenn die Anzahl der Ecken in cv kleiner als die Batch-Größe 8 ist; andernfalls wird v die Chunk-Nummer cv+1 zugewiesen. Dann ist ein Batch eine Menge aufeinanderfolgender Chunks. Dies stellt sicher, dass alle Messungen oder Aufzeichnungen erst verarbeitet werden, nachdem alle direkten Abhängigkeiten erreicht sind (z. B. sowohl die Sequenz von Komponenten, die eine Station besuchen, zugeordneten Messungen als auch die Sequenz von Messungen zugeordneter Stationen, die durch ein Teil besucht werden, werden beachtet).
  • Bei einer anderen Ausführungsform des Batching kann Voll-Teilsequenz-Batching benutzt werden. Während Standard-Batching sicherstellt, dass alle Abhängigkeiten einer Menge von Messungen im Voraus codiert werden, werden einige Teilsequenzen aufgrund von Speicherbeschränkungen und des Umfangs der Datensammlung (z. B. werden in kurzer Zeit zu viele Teile produziert) nicht voll in einem Batch geladen. Wenn eine Teilsequenz nicht voll in einem Batch geladen wird, kann das Dynamikmodell DθD nur für die Untersequenzen optimiert werden, die geladen werden. Der latente Zustand der Station kann sich dagegen mit einer langsameren Dynamik als der latente Zustand des Teils ändern, d. h., kleine Änderungen des Stationszustands während der gesamten Produktionszeitspanne eines Teils. Für jedes Teil in einem Standard-Batch, das in dem Batch enthalten ist (aber nicht seine volle Teilsequenz) kann deshalb das System einen anderen Batch hinzufügen, indem volle Teilsequenzen solcher Teile enthalten sind. Beispielsweise unter Bezugnahme auf 4 kann das Batch so konstruiert werden, dass es alle Knoten oder Ecken umfasst, die nach oben gehen, bis zum ersten Mal, dass diese bestimmte Teil gemessen wird, so dass die gesamte Sequenz von Knoten für ein bestimmtes Teil in dem Batching-Prozess enthalten ist.
  • Das Training des in 3 gezeigten Maschinenlernmodells kann deshalb mit Batching folgendermaßen durchgeführt werden. Für alle Daten-Samples in D kann das System jeder Messungsmenge (z. B. einem bestimmten Teil an einer bestimmten Station) eine Batch-Nummer oder Chunk-Nummer zuweisen. Für das k-te Batch kann das System alle Messungsmenge mit Chunk-Nummern im Bereich (k-1)*B bis k*B in den Speicher laden. Wenn das System Voll-Sequenz-Batching verwendet, kann das System ein Batch mit vollen Sequenzen nach den B Chunks anhängen. Das System kann entweder die Messungen (Messdaten) oder quantilisierte Messungen als Ziel verwenden und jeden Chunk parallel durch das graphische Maschinenlernmodell fθ laufen lassen. Dann kann das System, nachdem alle B Chunks einen Vorwärtsdurchlauf durch fθ durchgeführt haben, θ mit dem Gradienten von fθ aktualisieren und latente Zustände von Teil und Station aktualisieren, wenn die Teile nicht das Ende ihrer Sequenzen erreicht haben. Dies wird durch die gesamte Datenmenge hindurch bis zur Konvergenz oder bis zu einer vorbestimmten Anzahl von Epochen wiederholt.
  • Die Neuronalnetzalgorithmen und/oder -methodologien einer oder mehrerer hier beschriebener Ausführungsformen werden unter Verwendung einer Datenverarbeitungsplattform, wie etwa der Datenverarbeitungsplattform 400 von 4, implementiert. Die Datenverarbeitungsplattform 400 kann Speicher 402, einen Prozessor 404 und nichtflüchtige Speicher 406 umfassen. Der Der Prozessor 520 kann eine oder mehrere Vorrichtungen aufweisen, die aus Hochleistungsrechen-(HPC) Systemen ausgewählt wurden, einschließlich Hochleistungskernen, Mikroprozessoren, Mikrocontrollern, digitalen Signalprozessoren, Mikrocomputern, zentralen Verarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbaren Logikvorrichtungen, Zustandsmaschinen, Logikschaltkreisen, analogen Schaltkreisen, digitalen Schaltkreisen oder beliebigen anderen Vorrichtungen, die Signale (analog oder digital) basierend auf computerausführbaren Anweisungen manipulieren, die sich im Speicher 522 befinden. Der Speicher 522 kann eine einzelne Speichervorrichtung oder eine Reihe von Speichervorrichtungen aufweisen, die Direktzugriffsspeicher (RAM), flüchtigen Speicher, nichtflüchtigen Speicher, statischen Direktzugriffsspeicher (SRAM), dynamischen Direktzugriffsspeicher (DRAM), Flash-Speicher, Cache-Speicher oder jede andere Vorrichtung, die Informationen speichern kann, aufweisen, aber nicht darauf beschränkt sind. Die nichtflüchtige Speicherung 406 kann eine oder mehrere persistente Datenspeicherungsvorrichtungen umfassen, wie etwa eine Festplatte, ein optisches Laufwerk, ein Bandlaufwerk, eine nichtflüchtige Halbleitervorrichtung, Cloud-Speicherung oder eine beliebige andere Vorrichtung mit der Fähigkeit zum persistenten Speichern von Informationen.
  • Der Prozessor 404 kann dafür ausgelegt sein, computerausführbare Anweisungen in den Speicher 402 einzulesen und auszuführen, die in dem Einbettungsmodell 408 der nichtflüchtigen Speicherung 406 residieren und Einbettungsalgorithmen und/oder -methodologien einer oder mehrerer hier offenbarter Ausführungsformen realisieren. Ferner kann der Prozessor 404 dafür ausgelegt sein, computerausführbare Anweisungen in den Speicher 402 einzulesen und auszuführen, die in dem Dynamikmodell 410 der nichtflüchtigen Speicherung 406 residieren und hier beschriebene Dynamikalgorithmen und/oder -methodologien realisieren. Ferner kann der Prozessor 404 dafür ausgelegt sein, computerausführbare Anweisungen in den Speicher 402 einzulesen und auszuführen, die in dem Vorhersagemodell 412 der nichtflüchtigen Speicherung 406 residieren und hier beschriebene Vorhersagealgorithmen und/oder -methodologien realisieren. Die Modelle 408-412 können Betriebssysteme und Anwendungen umfassen. Die Modelle 408-412 können aus Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung vielfältiger Programmiersprachen und/oder -technologien erstellt werden, darunter ohne Beschränkung und entweder alleine oder in Kombination Java, C, C++, C #, Objective C, Fortran, Pascal, Java Script, Python, Perl und PL/SQL.
  • Bei Ausführung durch den Prozessor 404 können die computer-ausführbaren Anweisungen der Modelle 408-412 bewirken, dass die Datenverarbeitungsplattform 400 einen oder mehrere der hier offenbarten Neuronalnetzalgorithmen und/oder eine oder mehrere der hier offenbarten Neuronalnetzmethodologien implementiert. Die nichtflüchtige Speicherung 406 kann auch Messdaten 414 und Daten 416 umfassen, die eine Identifikation des Teils und der Station an jedem Knoten wie hier beschrieben repräsentieren. Die Messdaten 414 können Daten umfassen, die von einem Sensor erfasst oder genommen werden, der sich an einer bestimmten Station in dem Herstellungsprozess befindet. Der Sensor kann ein Bildsensor, ein Lasermesssensor oder eine beliebige andere Art von Sensor sein, die dafür ausgelegt ist, Daten zu ergeben, die eine physikalische Eigenschaft, einen Zustand, oder Charakteristik des gemessenen Teils repräsentieren.
  • Computerlesbare Programmanweisungen, die auf einem computerlesbaren Medium gespeichert sind, können verwendet werden, um einen Computer, andere Typen von programmierbaren Datenverarbeitungsvorrichtungen, oder andere Vorrichtungen anzuweisen, auf eine bestimmte Weise zu funktionieren, so dass die auf dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel erzeugen, der Anweisungen aufweist, die die in den Ablaufdiagrammen oder Graphen angegebenen Funktionen, Handlungen und/oder Operationen implementieren. In bestimmten alternativen Ausführungsformen können die in den Ablaufdiagrammen und Graphen angegebenen Funktionen, Aktionen und/oder Operationen neu geordnet, seriell verarbeitet und/oder gleichzeitig verarbeitet werden, in Übereinstimmung mit einer oder mehreren Ausführungsformen. Darüber hinaus kann jedes der Ablaufdiagramme und/oder Graphen mehr oder weniger Knoten oder Blöcke als diejenigen aufweisen, die dargestellt sind, in Übereinstimmung mit einer oder mehreren Ausführungsformen.
  • Obwohl vorstehend Ausführungsbeispiele beschrieben wurden, ist es nicht beabsichtigt, dass diese Ausführungsformen alle möglichen Formen beschreiben, die von den Ansprüchen umfasst sind. Die in der Beschreibung verwendeten Ausdrücke sind beschreibende und nicht beschränkende Ausdrücke, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Erfindungsgedanken und Umfang der Offenbarung abzuweichen. Wie vorstehend beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die möglicherweise nicht explizit beschrieben oder dargestellt sind. Obwohl verschiedene Ausführungsformen derart beschrieben worden sein könnten, dass sie in Bezug auf eine oder mehrere gewünschte Charakteristiken Vorteile bieten oder gegenüber anderen Ausführungsformen oder Implementierungen des Stands der Technik bevorzugt sind, erkennt ein Durchschnittsfachmann, dass ein oder mehrere Merkmale oder Charakteristiken beeinträchtigt werden können, um gewünschte Eigenschaften des Gesamtsystems zu erzielen, die von der konkreten Anwendung und Implementierung abhängen. Diese Eigenschaften können Kosten, Beanspruchbarkeit, Dauerhaftigkeit, Lebenszykluskosten, Marktfähigkeit, Erscheinung, Verpackung, Größe, Wartungsfreundlichkeit, Gewicht, Herstellbarkeit, Einfachheit des Zusammenbaus usw., umfassen, sie sind jedoch nicht darauf beschränkt. Soweit Ausführungsformen als weniger wünschenswert als andere Ausführungsformen oder Implementierungen des Stands der Technik in Bezug auf eine oder mehrere Charakteristiken beschrieben sind, liegen diese Ausführungsformen von daher nicht außerhalb des Umfangs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims (20)

  1. Computerimplementiertes Verfahren zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten, wobei das Verfahren Folgendes umfasst: Empfangen von Messdaten bezüglich einer physikalischen Eigenschaft mehrerer hergestellter Teile, gemessen durch mehrere Sensoren an verschiedenen Herstellungsstationen; Codieren der Messdaten über ein Zeitreihendynamik-Maschinenlernmodell in einen latenten Raum, der mehrere Knoten aufweist, wobei jeder Knoten den Messdaten eines der hergestellten Teile, gemessen an einer der Herstellungsstationen, zugeordnet ist; Bestimmen einer vorhergesagten Messung eines ersten der hergestellten Teile an einer ersten der Herstellungsstationen über ein Vorhersage-Maschinenlernmodell, auf der Basis des latenten Raums mindestens einiger der Messdaten, die nicht die dem an der ersten Herstellungsstation hergestellten ersten Herstellungsteil entsprechenden Messdaten umfassen; Vergleichen der Vorhersagemessung des ersten hergestellten Teils über das Maschinenlernmodell mit den Messdaten des ersten hergestellten Teils an der ersten Herstellungsstation; Aktualisieren von Parametern des Maschinenlernmodells bis zur Konvergenz, auf der Basis einer Differenz zwischen den Vorhersagemessungen und den tatsächlichen Messdaten; und Ausgeben eines trainierten Maschinenlernmodells mit den aktualisierten Parametern auf der Basis der Konvergenz.
  2. Computerimplementiertes Verfahren nach Anspruch 1, ferner umfassend: Batching der Messdaten zur Verarbeitung durch das Vorhersage-Maschinenlernmodell, wobei das Batching Aufbau eines Batch von Knoten umfasst, die unmittelbar über eine Kante mit einem ersten Knoten und vor dem ersten Knoten zeitgestempelt sind.
  3. Computerimplementiertes Verfahren nach Anspruch 2, wobei der Schritt des Vorhersagens an dem Batch von Knoten ausgeführt wird.
  4. Computerimplementiertes Verfahren nach Anspruch 2, wobei das Batching ferner Auswählen zusätzlicher Knoten für den Batch umfasst, wobei die zusätzlichen Knoten alle dem ersten hergestellten Teil zugeordnete Knoten, die vor dem ersten Knoten zeitgestempelt sind, umfassen.
  5. Computerimplementiertes Verfahren nach Anspruch 4, wobei die zusätzlichen Knoten nicht alle der ersten Herstellungsstation zugeordnete Knoten, die vor dem ersten Knoten zeitgestempelt sind, umfassen.
  6. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Messdaten multimodale Messdaten sind und die vorhergesagte Messung eine multimodale vorhergesagte Messung ist.
  7. Computerimplementiertes Verfahren nach Anspruch 1, ferner umfassend: Benutzen eines eingebetteten neuronalen Netzes zum Einbetten der Messdaten in ein Array, das für Ausführung durch das Zeitreihendynamik-Maschinenlernmodell ausgelegt ist.
  8. System zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten, wobei das System Folgendes umfasst: mehrere Sensoren, die sich an mehreren Herstellungsstationen befinden, wobei jeder Sensor ausgelegt ist zum Produzieren von Messdaten, die eine physikalische Eigenschaft mehrerer hergestellter Teile angeben, die eine jeweilige der Herstellungsstationen durchlaufen, mindestens einen Prozessor, programmiert zum Ausführen eines Zeitreihendynamik-Maschinenlernmodells zur Codierung der Messdaten in einen latenten Raum, der mehrere Knoten aufweist, wobei jeder Knoten den Messdaten eines der hergestellten Teile, gemessen an einer der Herstellungsstationen, zugeordnet ist; Ausführen eines Vorhersage-Maschinenlernmodells zur Bestimmung einer vorhergesagten Messung eines ersten der hergestellten Teile an einer ersten der Herstellungsstationen über ein Vorhersage-Maschinenlernmodell, auf der Basis des latenten Raums mindestens einiger der Messdaten, die nicht die dem an der ersten Herstellungsstation hergestellten ersten Herstellungsteil entsprechenden Messdaten umfassen; Vergleichen der Vorhersagemessung des ersten hergestellten Teils über das Maschinenlernmodell mit den Messdaten des ersten hergestellten Teils an der ersten Herstellungsstation; Aktualisieren von Parametern des Maschinenlernmodells bis zur Konvergenz, auf der Basis einer Differenz zwischen den Vorhersagemessungen und den tatsächlichen Messdaten; und Ausgeben eines trainierten Maschinenlernmodells mit den aktualisierten Parametern auf der Basis der Konvergenz.
  9. System nach Anspruch 8, wobei der mindestens eine Prozessor ferner programmiert ist zum Aufbauen eines Batch der Messdaten zur Verarbeitung durch das Vorhersage-Maschinenlernmodell, wobei das Batching Aufbau eines Batch von Knoten umfasst, die unmittelbar über eine Kante mit einem ersten Knoten und vor dem ersten Knoten zeitgestempelt sind.
  10. System nach Anspruch 9, wobei der mindestens eine Prozessor ferner programmiert ist zum Ausführen des vorhersagenden Maschinenlernmodells mit dem Batch von Knoten.
  11. System nach Anspruch 9, wobei das Aufbauen des Batch ferner Auswählen zusätzlicher Knoten für den Batch umfasst, wobei die zusätzlichen Knoten alle dem ersten hergestellten Teil zugeordnete Knoten, die vor dem ersten Knoten zeitgestempelt sind, umfassen.
  12. System nach Anspruch 11, wobei die zusätzlichen Knoten nicht alle der ersten Herstellungsstation zugeordnete Knoten, die vor dem ersten Knoten zeitgestempelt sind, umfassen.
  13. System nach Anspruch 8, wobei die Messdaten multimodale Messdaten sind und die vorhergesagte Messung eine multimodale vorhergesagte Messung ist.
  14. System nach Anspruch 8, wobei der mindestens eine Prozessor ferner programmiert ist zum Ausführen eines Einbettungs-Neuronalnetzes zur Einbettung der Messdaten in ein Array, das für Ausführung durch das Zeitreihendynamik-Maschinenlernmodell ausgelegt ist.
  15. Computerimplementiertes Verfahren zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten, wobei das Verfahren Folgendes umfasst: Empfangen von Messdaten bezüglich einer physikalischen Eigenschaft mehrerer hergestellter Teile, gemessen durch mehrere Sensoren an verschiedenen Herstellungsstationen; Codieren der Messdaten über ein Zeitreihendynamik-Maschinenlernmodell in einen latenten Raum, der mehrere Knoten aufweist, wobei jeder Knoten den Messdaten eines der hergestellten Teile, gemessen an einer der Herstellungsstationen, zugeordnet ist; Batching der Messdaten zum Aufbau eines Batch, der eine erste Vielzahl von Knoten, die unmittelbar über erste Kanten unmittelbar mit einem ersten Knoten verbunden sind und zeitlich früher als der erste Knoten gemessen werden, und eine zweite Vielzahl von Knoten, wobei jeder der zweiten Vielzahl von Knoten über zweite Kanten unmittelbar mit einem jeweiligen der ersten Vielzahl von Knoten verbunden ist und zeitlich früher als dieser gemessen wird, umfasst; und Bestimmen einer vorhergesagten Messung eines ersten der hergestellten Teile an einer ersten der Herstellungsstationen über ein Vorhersage-Maschinenlernmodell auf der Basis des latenten Raums des Batch von Knoten.
  16. Computerimplementiertes Verfahren nach Anspruch 15, ferner umfassend: Vergleichen der Vorhersagemessung des ersten hergestellten Teils über das Maschinenlernmodell mit den Messdaten des ersten hergestellten Teils an der ersten Herstellungsstation; Aktualisieren von Parametern des Maschinenlernmodells bis zur Konvergenz, auf der Basis einer Differenz zwischen den Vorhersagemessungen und den tatsächlichen Messdaten; und Ausgeben eines trainierten Maschinenlernmodells mit den aktualisierten Parametern auf der Basis der Konvergenz.
  17. Computerimplementiertes Verfahren nach Anspruch 16, wobei das Batching ferner Auswählen zusätzlicher Knoten für den Batch umfasst, wobei die zusätzlichen Knoten alle dem ersten hergestellten Teil zugeordnete Knoten, die vor dem ersten Knoten zeitgestempelt sind, umfassen.
  18. Computerimplementiertes Verfahren nach Anspruch 17, wobei die zusätzlichen Knoten nicht alle der ersten Herstellungsstation zugeordnete Knoten, die vor dem ersten Knoten zeitgestempelt sind, umfassen.
  19. Computerimplementiertes Verfahren nach Anspruch 16, wobei die Messdaten multimodale Messdaten sind und die vorhergesagte Messung eine multimodale vorhergesagte Messung ist.
  20. Computerimplementiertes Verfahren nach Anspruch 15, ferner umfassend: Benutzen eines eingebetteten neuronalen Netzes zum Einbetten der Messdaten in ein Array, das für Ausführung durch das Zeitreihendynamik-Maschinenlernmodell ausgelegt ist.
DE102023205594.5A 2022-06-16 2023-06-15 Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten Pending DE102023205594A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/842,041 US20230409916A1 (en) 2022-06-16 2022-06-16 Methods and systems for training a machine learning model with measurement data captured during manufacturing process
US17/842,041 2022-06-16

Publications (1)

Publication Number Publication Date
DE102023205594A1 true DE102023205594A1 (de) 2023-12-21

Family

ID=88974721

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102023205594.5A Pending DE102023205594A1 (de) 2022-06-16 2023-06-15 Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten

Country Status (3)

Country Link
US (1) US20230409916A1 (de)
CN (1) CN117250914A (de)
DE (1) DE102023205594A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220413036A1 (en) * 2021-06-28 2022-12-29 Sandisk Technologies Llc Virtual quality control interpolation and process feedback in the production of memory devices
US12009269B2 (en) 2022-04-21 2024-06-11 Sandisk Technologies Llc Virtual metrology for feature profile prediction in the production of memory devices

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220413036A1 (en) * 2021-06-28 2022-12-29 Sandisk Technologies Llc Virtual quality control interpolation and process feedback in the production of memory devices
US12009269B2 (en) 2022-04-21 2024-06-11 Sandisk Technologies Llc Virtual metrology for feature profile prediction in the production of memory devices

Also Published As

Publication number Publication date
US20230409916A1 (en) 2023-12-21
CN117250914A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
US20200167659A1 (en) Device and method for training neural network
DE112022000106T5 (de) Verfahren zur Getriebefehlerdiagnose und Signalerfassung, eine Vorrichtung und ein elektronisches Gerät
CN109471698B (zh) 云环境下虚拟机异常行为检测系统和方法
DE102019115320A1 (de) Analysevorrichtung unter Verwendung eines erlernten Modells und Verfahren dafür
DE102023205594A1 (de) Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten
DE112021002866T5 (de) Modelltreueüberwachung und -neuerstellung zur entscheidungsunterstützung eines fertigungsverfahrens
EP3639199A1 (de) Verfahren zum bewerten eines zustands eines dreidimensionalen prüfobjekts und entsprechendes bewertungssystem
Nasser et al. A hybrid of convolutional neural network and long short-term memory network approach to predictive maintenance
CN115905848A (zh) 基于多模型融合的化工过程故障诊断方法及系统
DE112021003761T5 (de) Prädiktive modelle mit zerlegbaren hierarchischen ebenen, die konfiguriert werden, um interpretierbare resultate zu erzeugen
DE102023103798A1 (de) Automatische fehlervorhersage in rechenzentren
DE102023209512A1 (de) Verfahren und Systeme zum Durchführen einer Grundursachenanalyse mit einem trainierten maschinellen Lernmodell
DE102019214546B4 (de) Computerimplementiertes Verfahren und Vorrichtung zur Optimierung einer Architektur eines künstlichen neuronalen Netzwerks
DE102020132591A1 (de) Auswählen von rechenkernvarianten unter verwendung neuronaler netzwerke
DE102020123155A1 (de) Quantisierungsverfahren eines künstlichen neuronalen Netzwerks und Operationsverfahren unter Verwendung eines künstlichen neuronalen Netzwerks
DE102021119992B3 (de) Datengetriebenes Verfahren zum Regeln einer Fertigungsmaschine, Prozessor und zweiter Rechner, Computerprogramm
CN115454988B (zh) 基于随机森林网络的卫星电源系统缺失数据补全方法
DE102022209542B4 (de) Sensormesswertanomaliedetektion
Skordilis et al. A Generative Reinforcement Learning Framework for Predictive Analytics
Falissard et al. Learning a binary search with a recurrent neural network. A novel approach to ordinal regression analysis
DE102023104235A1 (de) Brauchbarkeitsbestimmung mit Selbstaufmerksamkeit zur Prozessoptimierung
DE102006042975A1 (de) Verfahren zum Betrieb eines Kommunikationsnetzes
CN118041814A (zh) 一种基于图强化学习的内容安全风险监测方法及装置
DE102020210308A1 (de) Datenbasiertes Schätzen eines Betriebsverhaltens eines MR-Gerätes
CN117271173A (zh) 一种大规模存储器可靠性分析方法、装置、存储介质及设备

Legal Events

Date Code Title Description
R012 Request for examination validly filed