DE102023209512A1

DE102023209512A1 - Verfahren und Systeme zum Durchführen einer Grundursachenanalyse mit einem trainierten maschinellen Lernmodell

Info

Publication number: DE102023209512A1
Application number: DE102023209512.2A
Authority: DE
Inventors: Joao Semedo; Ivan BATALOV; Bahar Azari; Wan-Yi Lin; Filipe Cabrita Condessa; Devin Willmott; Prasanth Lade
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-09-29
Filing date: 2023-09-28
Publication date: 2024-04-04
Also published as: JP2024050510A; CN117785522A; US20240126247A1

Abstract

Verfahren und Systeme zur Verwendung eines vortrainierten maschinellen Lernmodells zum Durchführen einer Grundursachenanalyse bei einem Fertigungsprozess. Ein vortrainiertes maschinelles Lernmodell ist bereitgestellt, das trainiert ist, Messungen von nicht fehlerhaften Teilen vorherzusagen. Das vortrainierte Modell wird an Trainingsmessdaten bezüglich physischer Charakteristiken von gefertigten Teilen trainiert, wie durch eine Mehrzahl von Sensoren an einer Mehrzahl von Fertigungsstationen gemessen. Mit dem trainierten Modell werden dann Messdaten von den Sensoren bezüglich des gefertigten Teils und der Stationen empfangen. Dieser neue Satz von Messdaten wird durch das vortrainierte Modell rückpropagiert, um eine Größe absoluter Gradienten der neuen Messdaten zu bestimmen. Die Grundursache wird dann basierend auf dieser Größe absoluter Gradienten identifiziert. In anderen Ausführungsformen wird die Grundursache basierend auf Verlusten identifiziert, die zwischen einem Satz vorhergesagter Messdaten eines Teils unter Verwendung des Modells und tatsächlichen Messdaten bestimmt werden.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft Verfahren und Systeme zum Durchführen einer Grundursachenanalyse mit einem trainierten maschinellen Lernmodell.
Hintergrund
Überwachtes maschinelles Lernen hat in vielen Bereichen Erfolge gezeigt, wie etwa Bildklassifizierung, automatische Spracherkennung, visuelle Beantwortung von Fragen und Text-zu-Text-Übersetzungen. Das Trainieren eines überwachten Modells für jede neue Aufgabe erfordert jedoch einen großen Satz an gelabelten Beispielen, was die Anwendbarkeit solcher Modelle beschränkt. Nichtsdestotrotz könnten einige Aufgaben oder Datentypen für die menschliche Annotation schwierig oder sehr teuer sein, zum Beispiel Zeitreihenanomalien und Textzusammenfassung. Umgekehrt, falls es eine große Menge an ungelabelten Daten von einer Domäne gibt, ist es möglich, Korrelationen und Repräsentationen der Daten zu lernen, ohne die Verwendung von ausdrucksstarken Modellen zu erfordern.
Grundursachenanalyse ist der Prozess der Entdeckung der Grundursachen von Problemen, um geeignete Lösungen zu identifizieren. Grundursachenanalyse kann mit einer Sammlung von Prinzipien, Techniken und Methoden durchgeführt werden, die alle genutzt werden können, um die Grundursachen eines Ereignisses oder einer Tendenz zu identifizieren. Es soll eine Fertigungsumgebung in Betracht gezogen werden, in der zum Beispiel ein gefertigtes Teil mehrere (z. B. dutzende) Schritte von Anfang bis Ende erfordert, bis das Teil letztendlich gefertigt ist. Messungen des Teils bevor es sich in seinem endgültigen Zustand befindet - und bei jedem Schritt entlang des Fertigungsprozesses - können bei der Bestimmung der Grundursache eines Defekts oder eines anderen Problems mit dem Teil helfen.
Kurzdarstellung
In einer Ausführungsform ist ein computer-implementiertes Verfahren zur Nutzung eines vortrainierten maschinellen Lernmodells zum Durchführen einer Grundursachenanalyse bei einem Fertigungsprozess bereitgestellt. Das Verfahren beinhaltet das Bereitstellen eines vortrainierten maschinellen Lernmodells, das trainiert ist, Messungen von nicht fehlerhaften Teilen vorherzusagen, wobei das vortrainierte maschinelle Lernmodell basierend auf einem ersten Satz von Messdaten bezüglich physischer Charakteristiken einer ersten Mehrzahl gefertigter Teile trainiert wird, wie durch eine Mehrzahl von Sensoren an einer Mehrzahl von Fertigungsstationen gemessen. Das Verfahren beinhaltet auch das Empfangen, von der Mehrzahl von Sensoren an der Mehrzahl von Fertigungsstationen, eines zweiten Satzes von Messdaten bezüglich physischer Charakteristiken einer zweiten Mehrzahl von gefertigten Teilen und einer Identifikation der Mehrzahl von Fertigungsstationen. Das Verfahren beinhaltet außerdem das Rückpropagieren des zweiten Satzes von Messdaten über das vortrainierte maschinelle Lernmodell, um eine Größe absoluter Gradienten des zweiten Satzes von Messdaten zu bestimmen. Das Verfahren beinhaltet auch das Identifizieren einer Grundursache innerhalb des Fertigungsprozesses basierend auf der Größe absoluter Gradienten.
In einer anderen Ausführungsform ist ein computer-implementiertes Verfahren zur Nutzung eines vortrainierten maschinellen Lernmodells zum Durchführen einer Grundursachenanalyse bei einem Fertigungsprozess bereitgestellt. Das Verfahren beinhaltet das Bereitstellen eines vortrainierten maschinellen Lernmodells, das trainiert ist, Messungen von nicht fehlerhaften Teilen vorherzusagen, wobei das vortrainierte maschinelle Lernmodell basierend auf einem ersten Satz von Messdaten bezüglich physischer Charakteristiken einer ersten Mehrzahl gefertigter Teile trainiert wird, wie durch eine Mehrzahl von Sensoren an einer Mehrzahl von Fertigungsstationen gemessen. Das Verfahren beinhaltet außerdem das Nutzen des vortrainierten maschinellen Lernmodells, um einen Satz vorhergesagter Messdaten für jede Fertigungsstation zu erzeugen. Das Verfahren beinhaltet auch das Empfangen, von der Mehrzahl von Sensoren an der Mehrzahl von Fertigungsstationen, eines zweiten Satzes von Messdaten bezüglich physischer Charakteristiken einer zweiten Mehrzahl von gefertigten Teilen und einer Identifikation der Mehrzahl von Fertigungsstationen. Das Verfahren beinhaltet auch das Bestimmen von Verlusten zwischen dem Satz vorhergesagter Messdaten und dem zweiten Satz von Messdaten für jede der Mehrzahl von Fertigungsstationen und das Identifizieren einer Grundursache innerhalb des Fertigungsprozesses basierend auf den Verlusten.
In noch einer anderen Ausführungsform ist ein computer-implementiertes Verfahren zur Nutzung eines vortrainierten maschinellen Lernmodells zum Durchführen einer Grundursachenanalyse bereitgestellt, um einen Teiletyp zu bestimmen, der einen Fehler innerhalb eines Fertigungsumfelds verursacht. Das Verfahren beinhaltet das Bereitstellen eines vortrainierten maschinellen Lernmodells, das trainiert ist, Messungen von nicht fehlerhaften Teilen vorherzusagen, wobei das vortrainierte maschinelle Lernmodell basierend auf einem ersten Satz von Messdaten bezüglich physischer Charakteristiken einer ersten Mehrzahl gefertigter Teile trainiert wird, wie durch eine Mehrzahl von Sensoren an einer Mehrzahl von Fertigungsstationen gemessen. Das Verfahren beinhaltet das Trainieren eines Binärklassifizierungsmodells unter Verwendung von Ausgaben des vortrainierten maschinellen Lernmodells, um Vorhersagen darüber auszugeben, ob mindestens ein Teiletyp einer Mehrzahl von Teiletypen fehlerhaft sein wird. Das Verfahren beinhaltet ferner das Bestimmen einer Größe absoluter Gradienten des Binärklassifizierungsmodells und das Identifizieren mindestens eines der Mehrzahl von Teiletypen als eine Grundursache innerhalb des Fertigungsumfeldes basierend auf der Größe absoluter Gradienten.
Kurze Beschreibung der Zeichnungen

1 zeigt ein System zum Trainieren eines neuronalen Netzwerks gemäß einer Ausführungsform.
2 zeigt eine schematische Darstellung eines zeitlich geordneten, gerichteten Graphenmodells mit Knoten, die Messungen oder Aufzeichnungen bezeichnen, die mit einem bestimmten Teil an einer bestimmten Station assoziiert sind, gemäß einer Ausführungsform.
3 zeigt ein Diagramm eines graphenbasierten maschinellen Lernmodells zum Vorhersagen von Messungen eines bestimmten Teils an einer bestimmten Station basierend auf tatsächlichen Messdaten des Teils und einer Repräsentation des latenten Raums eines bestimmten Teils und einer bestimmten Station, gemäß einer Ausführungsform.
4 zeigt ein schematisches Diagramm einer Rechenplattform, die genutzt werden kann, um die hierin offenbarten Modelle zu implementieren, zum Beispiel das graphenbasierte maschinelle Lernmodell von 3.

Ausführliche Beschreibung
Hierin sind Ausführungsformen der vorliegenden Offenbarung beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind und andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; manche Merkmale könnten übertrieben oder minimiert sein, um Einzelheiten von bestimmten Komponenten zu zeigen. Daher sollen spezifische, hierin offenbarte strukturelle und funktionelle Einzelheiten nicht als beschränkend interpretiert werden, sondern lediglich als eine repräsentative Basis zum Lehren eines Fachmanns auf dem Gebiet, die Ausführungsformen verschiedenartig einzusetzen. Wie Durchschnittsfachleute auf dem Gebiet verstehen werden, können verschiedene Merkmale, die mit Bezugnahme auf irgendeine der Figuren veranschaulicht und beschrieben sind, mit Merkmalen kombiniert werden, die in einer oder mehreren anderen Figuren veranschaulicht sind, um Ausführungsformen zu erzeugen, die nicht ausdrücklich veranschaulicht oder beschrieben sind. Die Kombinationen von veranschaulichten Merkmalen liefern repräsentative Ausführungsformen für typische Anwendungen. Verschiedene Kombinationen und Modifikationen der Merkmale, die mit den Lehren dieser Offenbarung konsistent sind, könnten jedoch für bestimmte Anwendungen oder Implementierungen gewünscht sein.
Grundursachenanalyse ist der Prozess der Entdeckung der Grundursachen von Problemen, um geeignete Lösungen zu identifizieren. Im Kontext von Fertigungsprozessen zielt die Grundursachenanalyse darauf ab, zugrundeliegende Grundursachen, die mit Fertigungsausfällen assoziiert sind (z. B. bei unterschiedlichen Schweregraden), zu identifizieren, was ermöglicht, sie zu verhindern oder zu mindern, bevor sie einen erheblichen kumulativen Schaden und Verluste verursachen. Da moderne Fertigungsprozesse jedoch zunehmend komplex sind, ist diese Aufgabe nicht trivial. Beispielsweise kann es, bevor sich ein gefertigtes Teil in seinem endgültigen Zustand befindet, mehrere (z. B. dutzende) Fertigungsstufen durchlaufen, wie etwa Schneiden, Ätzen, Biegen, Montieren, Kleben, um nur einige zu nennen. Falls ein Defekt oder ein Problem im gefertigten Teil auftritt, muss ein Teil des Fertigungsprozesses (oder sogar der gesamte Prozess) ohne ein klares Verständnis der Grundursache des Problems möglicherweise abgeschaltet werden, bis die Ursache des Problems herausgefunden wird. Dies kann ein äußerst kostspieliges Unterfangen sein.
Grundursachenanalyse wurde in der Vergangenheit in verschiedenen Formen versucht. In einem Beispiel (Kombination von Wissensmodellierung und maschinellem Lernen zur Alarmgrundursachenanalyse) werden bayessche Netzwerke verwendet, um die Grundursachenanalyse mit verschiedenen Netzwerken durchzuführen, wie etwa das Angewiesensein auf die Erzeugung von kausalen Netzwerken basierend auf Expertenwissen und das Verwenden von maschinellem Lernen zur Struktursuche, die exponentiell mit der Größe des Systems skaliert. Diese Ansätze sind hinsichtlich der Komplexität der kausalen Beziehung beschränkt, die sie modellieren können. Ferner ist der Ansatz basierend auf Expertenwissen arbeitsintensiv und nicht auf andere Systeme generalisierbar.
In einem anderen Beispiel (Grundursachenanalyse von Netzwerkausfällen unter Verwendung von maschinellem Lernen und Zusammenfassungstechniken) werden Random-Forest-basierte Modelle verwendet, die nicht auf Expertenwissen angewiesen sind. Während dieser Ansatz in der Lage ist, komplexe Beziehungen innerhalb der Daten zu erlernen, ist er auf kategorische ereignisbasierte Daten - bei denen jeder Datenpunkt durch einen Ereigniscode und Ortscode charakterisiert ist - beschränkt und kann nicht auf hochdimensionale, multimodale, kontinuierliche Datentypen abgeändert werden.
In einem anderen Beispiel (alarmbasierte Grundursachenanalyse in Industrieprozessen unter Verwendung von Deep Learning) wird ein von der natürlichen Sprache inspirierter Ansatz verwendet, um komplexe Alarmdaten in Fertigungsprozessen zu modellieren. Jeder Alarmcode ist als ein numerischer Vektor eingebettet, ähnlich zu Worteinbettungen in NLP-Modellen. Dann wird ein Bi-LSTM-CNN-Modell mit Selbstaufmerksamkeit an Untersequenzen von eingebetteten Alarmen trainiert, um den Typ von Fehlerszenario für jede Sequenz vorherzusagen. Während dieses System anspruchsvolle Modelle verwendet, die in der Lage sind, komplexe Repräsentationen zu lernen, während die Vorteile des Deep Learning für die Verarbeitung natürlicher Sprache ausgenutzt werden, ist es weiterhin hinsichtlich der Datentypen beschränkt, die das Modell nutzen kann. Insbesondere arbeitet das Modell mit Sequenzen von Alarmcodes (die in ihrer Art kategorisch sind) und kann nicht einfach angepasst werden, um mit anderen Datentypen zu arbeiten.
Daher sind gemäß verschiedenen hierin offenbarten Ausführungsformen Verfahren und Systeme zum Durchführen einer Grundursachenanalyse mit einem trainierten maschinellen Lernmodell bereitgestellt. Das Modell kann durch das Empfangen von Messdaten bezüglich physischer Charakteristiken von gefertigten Teilen trainiert werden, wie durch eine Mehrzahl von Sensoren an verschiedenen Fertigungsstationen gemessen. Ein maschinelles Zeitreihendynamik-Lernmodell kann die Messdaten in einen latenten Raum mit einer Mehrzahl von Knoten codieren, wobei jeder Knoten mit den Messdaten von einem der gefertigten Teile und an einer der Fertigungsstationen assoziiert ist. Ein Batch der Messdaten kann erstellt werden, wobei das Batch einen ersten Knoten und eine erste Mehrzahl von Knoten, die über erste Kanten unmittelbar mit dem ersten Knoten verbunden sind und zeitlich früher als der erste Knoten gemessen werden, beinhalten. Ein maschinelles Vorhersage-Lernmodell kann Messungen eines ersten der gefertigten Teile basierend auf dem latenten Raum des Batchs von Knoten vorhersagen. Um das Modell zu trainieren, können die vorhergesagten Messungen mit den tatsächlichen Messungen verglichen werden. Dies ist in der US-Patentanmeldung mit Serien-Nr. 17/842,041 und dem Titel „METHODS AND SYSTEMS FOR TRAINING A MACHINE LEARNING MODEL WITH MEASUREMENT DATA CAPTURED DURING MANUFACTURING PROCESS“ offenbart, die hiermit in ihrer Gesamtheit aufgenommen wird. Dann kann, wie hierin offenbart, ein solches trainiertes Modell genutzt werden, um eine Grundursachenanalyse von entweder den Messdaten bezüglich der physischen Charakteristiken des Teils, den Messdaten bezüglich einer Identifikation einer Station, bei der die Grundursache wahrscheinlich aufgetreten ist, und/oder einer Identifikation eines Teiletyps, bei dem die Grundursache vermutlich aufgetreten ist, durchzuführen. Beispielsweise können ein oder mehrere Prozessoren, sobald das Modell trainiert ist, von einer Mehrzahl von Sensoren an der Mehrzahl von Fertigungsstationen, einen zweiten Satz von Messdaten bezüglich physischer Charakteristiken einer zweiten Mehrzahl von gefertigten Teilen und eine Identifikation der Mehrzahl von Fertigungsstationen empfangen. Dann können der eine oder die mehreren Prozessoren den zweiten Satz von Messdaten durch das vortrainierte maschinelle Lernmodell rückpropagieren, um eine Größe absoluter Gradienten des zweiten Satzes von Messdaten zu bestimmen und die Grundursache basierend auf dieser Größe absoluter Gradienten zu identifizieren. Andere Verfahren der Verwendung des vortrainierten Modells sind weiter unten beschrieben.
Die offenbarten Systeme und Verfahren sind auf maschinelle Lernmodelle angewiesen, wie etwa neuronale Netzwerke (z. B. tiefe neuronale Netzwerke (DNN), graphenbasierte neuronale Netzwerke (GNN), tiefe faltende Netzwerke (DCN), faltende neuronale Netzwerke (CNN) usw.) und dergleichen. 1 zeigt ein System 100 zum Trainieren eines neuronalen Netzwerks, z. B. eines graphenbasierten neuronalen Netzwerks. Die hierin veranschaulichten und beschriebenen neuronalen Netzwerke sind lediglich Beispiele der Arten von maschinellen Lernnetzwerken oder neuronalen Netzwerken, die verwendet werden können. Das System 100 kann eine Eingangsschnittstelle zum Zugreifen auf Trainingsdaten 102 für das neuronale Netzwerk umfassen. Beispielsweise, wie in 1 veranschaulicht, kann die Eingangsschnittstelle aus einer Datenspeicherungsschnittstelle 104 bestehen, die auf die Trainingsdaten 102 aus einer Datenspeicherung 106 zugreifen kann. Beispielsweise kann die Datenspeicherungsschnittstelle 104 eine Speicherschnittstelle oder eine persistente Speicherungsschnittstelle sein, z. B. eine Festplatte oder eine SSD-Schnittstelle, aber auch eine Schnittstelle eines persönlichen, lokalen oder weitflächigen Netzwerks, wie etwa eine Bluetooth-, Zigbee- oder WiFi-Schnittstelle oder eine Ethernet- oder Faseroptik-Schnittstelle. Die Datenspeicherung 106 kann eine interne Datenspeicherung des Systems 100 sein, wie etwa eine Festplatte oder SSD, aber auch eine externe Datenspeicherung, z. B. eine netzwerkzugängliche Datenspeicherung.
In einigen Ausführungsformen kann die Datenspeicherung 106 ferner eine Datenrepräsentation 108 einer untrainierten Version des neuronalen Netzwerks umfassen, auf die das System 100 von der Datenspeicherung 106 zugreifen kann. Es versteht sich jedoch, dass auf die Trainingsdaten 102 und die Datenrepräsentation 108 des untrainierten neuronalen Netzwerks auch von einer anderen Datenspeicherung zugegriffen werden kann, z. B. über ein anderes Untersystem der Datenspeicherungsschnittstelle 104. Jedes Untersystem kann einen Typ aufweisen, wie oben für die Datenspeicherungsschnittstelle 104 beschrieben. In anderen Ausführungsformen kann die Datenrepräsentation 108 des untrainierten neuronalen Netzwerks intern durch das System 100 auf Basis von Designparametern für das neuronale Netzwerk erzeugt werden, und ist daher möglicherweise nicht explizit in der Datenspeicherung 106 gespeichert. Das System 100 kann ferner ein Prozessoruntersystem 110 umfassen, das dazu ausgelegt sein kann, während des Betriebs des Systems 100 eine iterative Funktion als einen Ersatz für einen Stapel von Schichten des zu trainierenden neuronalen Netzwerks bereitzustellen. Hier können jeweilige Schichten des Stapels von Schichten, die ersetzt werden, gegenseitig geteilte Gewichtungen aufweisen und können als Eingabe die Ausgabe einer vorherigen Schicht oder, für eine erste Schicht des Stapels von Schichten, eine anfängliche Aktivierung, und einen Teil der Eingabe des Stapels von Schichten empfangen. Das Prozessoruntersystem 110 kann ferner dazu ausgelegt sein, das neuronale Netzwerk unter Verwendung der Trainingsdaten 102 iterativ zu trainieren. Hier kann eine Iteration des Trainings durch das Prozessoruntersystem 110 einen Vorwärtspropagationsteil und einen Rückwärtspropagationsteil umfassen. Das Prozessoruntersystem 110 kann dazu ausgelegt sein, den Vorwärtspropagationsteil durchzuführen durch, unter anderen Operationen, die den Vorwärtspropagationsteil definieren, der durchgeführt werden kann, Bestimmen eines Gleichgewichtspunktes der iterativen Funktion, an dem die iterative Funktion zu einem festen Punkt konvergiert, wobei das Bestimmen des Gleichgewichtspunktes Verwenden eines numerischen Wurzelfindungsalgorithmus umfasst, um eine Wurzellösung für die iterative Funktion minus ihrer Eingabe zu finden, und durch Bereitstellen des Gleichgewichtspunktes als einen Ersatz für eine Ausgabe des Stapels von Schichten in dem neuronalen Netzwerk.
Das System 100 kann ferner eine Ausgangsschnittstelle zum Ausgeben einer Datenrepräsentation 112 des trainierten neuronalen Netzwerks umfassen. Diese Daten können auch als trainierte Modelldaten 112 bezeichnet werden. Beispielsweise, wie auch in 1 veranschaulicht, kann die Ausgangsschnittstelle aus der Datenspeicherungsschnittstelle 104 bestehen, wobei die Schnittstelle in diesen Ausführungsformen eine Eingabe/Ausgabe(,EA')-Schnittstelle ist, über die die trainierten Modelldaten 112 in der Datenspeicherung 106 gespeichert werden können. Beispielsweise kann die Datenrepräsentation 108, die das ,untrainierte' neuronale Netzwerk definiert, während oder nach dem Training zumindest teilweise durch die Datenrepräsentation 112 des trainierten neuronalen Netzwerks ersetzt werden, in dem Sinne, dass die Parameter des neuronalen Netzwerks, wie etwa Gewichtungen, Hyperparameter und andere Arten von Parametern neuronaler Netzwerke, angepasst werden können, um das Training an den Trainingsdaten 102 widerzuspiegeln. Dies ist auch in 1 durch die Bezugsziffern 108, 112 veranschaulicht, die sich auf den gleichen Datensatz in der Datenspeicherung 106 beziehen. In anderen Ausführungsformen kann die Datenrepräsentation 112 separat von der Datenrepräsentation 108, die das untrainierte' neuronale Netzwerk definiert, gespeichert sein. In einigen Ausführungsformen kann die Ausgangsschnittstelle separat von der Datenspeicherungsschnittstelle 104 sein, aber kann im Allgemeinen einen Typ aufweisen, wie oben für die Datenspeicherungsschnittstelle 104 beschrieben.
Die Struktur des Systems 100 ist ein Beispiel für ein System, das genutzt werden kann, um die hierin beschriebenen neuronalen Netzwerke zu trainieren. Eine zusätzliche Struktur zum Betreiben und Trainieren der maschinellen Lernmodelle ist in der später beschriebenen 4 gezeigt.
Bezüglich der Fertigungsprozesse kann ein endgültiges Produkt mehrere Arbeitsstationen durchlaufen, bevor das Teil vollständig fertig oder gefertigt ist. Bevor ein endgültiges Produkt produziert wird, muss es beispielsweise zunächst möglicherweise mit anderen Teilkomponenten zusammengebaut, lackiert, lasergeätzt, auf Festigkeit geprüft oder andere Fertigungsaufgaben an diesem durchgeführt werden. Nachdem jede Station ihre Aufgaben abschließt, können Messungen des Teils vorgenommen werden, um Messdaten zu erzeugen. Dies gewährleistet, dass das Teil ausreichend funktionsfähig, ausreichend verbunden, ausreichend bemessen usw. ist. Messdaten können einschließen, welcher Typ von Station die Messung vornimmt, welcher Typ von Teil gemessen wird und was die Messung ist. Die Messung kann ein Binärwert, ein Festigkeitswert, ein Zeitreihenwert (z. B. eine Messung der Reaktion auf Druck), eine Gleitkommazahl, eine Zahlenfolge, eine Ganzzahl, ein boolescher Wert, eine Aggregation von Statistiken oder dergleichen sein, die einen physischen Zustand oder eine physische Charakteristik des Teils repräsentieren. Diese Messdaten können multimodal sein (können z. B. mehrere Messarten entschließen, wie etwa jene, die oben als ein Beispiel aufgeführt sind). Diese multimodalen Messdaten können in ein hierin beschriebenes neuronales Netzwerk eingegeben werden. In Abhängigkeit von den Messungen, die an der Station vorgenommen werden, kann das System bestimmen, ob das Teil ausreichend ist, oder stattdessen weggeworfen oder ausgesondert werden sollte.
Diese multimodalen Messdaten, die in ein graphenbasiertes neuronales Netzwerk eingegeben werden, können verschiedene Vorteile ergeben und können eine Fülle an Informationen liefern, die die Fertigungsdurchlaufzeit und Logistik verbessern können. Beispielsweise kann die Ausgabe des neuronalen Netzwerks Vorhersagen darüber, ob die Teile für die Produktion oder Montage in ein anderes System ausreichend sein werden, Vorhersagen darüber, ob Stationen offline sein müssen, Vorhersagen über die Ertragszeit sowie Vorhersagen darüber, wo ein Fehler entlang der Fertigungslinie möglicherweise aufgetreten ist, warum der Fehler aufgetreten ist, und dergleichen ergeben. In einem anderen Beispiel kann die Ausgabe des neuronalen Netzwerks vorhergesagte Messungen an einer beliebigen Station entlang der Fertigungslinie ergeben; anhand dieser Informationen kann eine Station (oder eine Prozedur innerhalb dieser Station) entfernt werden, die der Messung der gefertigten Komponente gewidmet ist. Dies kann Zeit und Geld bei der Messung sparen.
Außerdem können prädiktive Messungen des gefertigten Teils entlang der Fertigungslinie Kosten reduzieren, die mit dem Wegwerfen einer Komponente assoziiert sind. Falls eine Messung einer Komponente innerhalb der Fertigungslinie (z. B. bei oder zwischen jeder Fertigungsstation) geschätzt werden kann, kann dies zu einer präziseren Bestimmung darüber führen, wann ein Ausfall oder ein Fehlschritt bei der Fertigung erfolgt. Dies kann bedeuten, dass eine Komponente früher im Fertigungsprozess weggeworfen wird, bevor es zu teuer wird, dies durchzuführen. In Abhängigkeit davon, wann eine Komponente tatsächlich entlang des Fertigungsprozesses gemessen wird, ermöglicht das Vorhersagen der Messung einer Komponente, bevor die Komponente tatsächlich gemessen wird, außerdem, dass die Komponente früher im Fertigungsprozess weggeworfen wird.
Die hierin beschriebenen maschinellen Lernmodelle können daher mit einer latenten Repräsentation der gefertigten Teile und der Station, an der jedes Teil gemessen wird, versehen werden. 2 zeigt ein Gitter oder eine grafische Repräsentation 200 dieser Daten. Jedes Mal, wenn ein bestimmtes Teil zu einer Station gelangt, aktualisiert das System die latente Repräsentation. Hier bezeichnet jeder schwarze Kreis multimodale Messungen oder Aufzeichnungen, die mit Teilen assoziiert sind, die durch eine Station laufen. Jeder schwarze Kreis ist auch mit einem Zeitstempel versehen, der eine Zeit angibt, zu der jedes bestimmte Teil an dieser bestimmten Station gemessen wird. In dem veranschaulichten Szenario erfolgen die folgenden Messungen: Teil1 wird an Station2 um 9:00 Uhr gemessen und wird an Station3 um 9:05 Uhr gemessen; Teil2 wird an Station2 um 9:10 Uhr gemessen und wird an Station4 um 9:30 Uhr gemessen; Teil3 wird an Station1 um 9:00 Uhr gemessen und wird an Station3 um 9:15 Uhr gemessen; Teil4 wird an Station2 um 9:30 Uhr gemessen und wird an Station4 um 9:40 Uhr gemessen; Teil5 wird an Station1 um 9:05 Uhr gemessen und wird an Station3 um 9:20 Uhr gemessen. Bevor jedes Teil gemessen wird, befindet es sich in seinem initialisierten Zustand, und arbeitet dann mit dem latenten Zustand der Station2, und die oben erläuterten multimodalen Messungen zu erzeugen. Diese veranschaulichte grafische Repräsentation dieser Daten nur ein Abschnitt der vorgenommenen Gesamtmessungen sein; mehr oder weniger als fünf Teile können gemessen werden, und mehr oder weniger als vier Stationen können für Messungen bereitgestellt sein. Die Pfeile im Graphen zeigen den Zeitverlauf für jedes Teil (von oben nach unten) und für jede Station (von links nach rechts). Der schwarze Kreis am Schnittpunkt von Teil5 und Station4 kann das autoregressive Problem bezeichnen, auf dem diese Offenbarung basiert - in der Lage zu sein, die Messungen oder Aufzeichnungen, die mit Teil5 assoziiert sind, das durch Station4 läuft, angesichts der vergangenen Repräsentationen vorherzusagen.
Die maschinellen Lernsysteme können diese Daten - die in grafischer Form in 2 repräsentiert sind - nehmen, um Messungen eines beliebigen bestimmten Teils an einer beliebigen bestimmten Station zu schätzen. Gemäß Ausführungsformen an eine unüberwachte Verteilungsschätzung von einem Satz von Beispielen (x₁, x₂, ..., x_n) durchgeführt werden, die jeweils aus Sequenzen mit variabler Länge von multimodalen strukturellen Messungen bestehen, die an einer entsprechenden Station ((m₁, s₁), ..., (m_k,s_k)) erfolgen, wobei m die Messung ist und s die Station ist. Eine beispielhafte Sequenz x repräsentiert die Fertigungsstationen, die ein Produkt oder Teil in zeitlicher Reihenfolge durchläuft. Von der Perspektive der Sequenzmodellierung aus kann die gemeinsame Wahrscheinlichkeit von Messungen an Stationen wie folgt faktorisiert werden: $P (x) = ∐_{i = 1}^{k} p (x_{i} | x_{< i}) = ∐_{i = 1}^{k} p ((m_{k}, s_{k}) | (m_{1}, s_{1}), \dots, (m_{i - 1}, s_{i - 1}))$
Das Lernen einer solchen Wahrscheinlichkeitsverteilung ermöglicht einfache Abfragen oder das Sampling von Modellen mit Untersequenzen: P(x_>=i|x_<i).
Die hierin offenbarten Modelle ermöglichen, dass die Daten von der Sicht der Station aus als eine Sequenz angesehen werden. Beispielsweise erneut mit Bezug auf 2 können Daten von Station2 modelliert werden, da Daten sequenziell um 9:00 Uhr (von Teil1), 9:10 Uhr (von Teil2) und 9:30 Uhr (von Teil4) erfasst werden. Dadurch können die Messungen modelliert werden, die von einer bestimmten Station genommen werden, und die Variable ist das bestimmte Teil, das durch die Station läuft. Dies kann in einer Umgebung wichtig sein, in der nicht jedes Teil durch jede Station läuft, und nicht jede Station jedes Teil misst (wie in dem in 2 veranschaulichten Beispiel). Daher hängt die modellierte Wahrscheinlichkeitsverteilung P(x) von allen Teilen und entsprechenden Messungen an Stationen, die in dem Satz x eingeschlossen sind, vor dem tatsächlichen Auftreten von x ab. Mit anderen Worten verwendet das Modell, um eine Messung an einer bestimmten Station eines bestimmten Teils zu schätzen, als Eingabe die vergangenen zeitlichen Messungen, die für die Teile und Stationen vorgenommen werden, bevor die tatsächliche Messung an der bestimmten Station des bestimmten Teils durchgeführt wird. Mit 2 als ein Beispiel hängt die Wahrscheinlichkeit der Sequenz von Teil5 von den Messungen von Teils an Station1; Teil1 und Teils an Station3; Teil2 und Teil4 an Station4; und Teil1, Teil2 und Teil4 an Station2 ab. Es soll Teil1 an Station2 als ein Beispiel genommen werden. Die Sequenz von Teil5 hängt von diesem Knoten ab, da Teil5 an Station3 von dem latenten Zustand der Station3 bei Zeitstempel 9:20 abhängt, was die Untersequenz von Teilen codiert, die durch Station3 laufen, bevor Teil5 an Station3 ankommt. Aber Teil1 an Station3 hängt vom latenten Zustand von Teil1 bei Zeitstempel 9:05 ab, was die Untersequenz von Teil1 codiert (und daher davon abhängt), bevor es Station3 erreicht, was bedeutet, dass der latente Zustand von Teil1 bei 9:05 Uhr von Teil1 an Station2 abhängt.
Um den Speicher- und Berechnungsverbrauch bei der Trainingszeit zu reduzieren, und um die Inferenzzeit zu verkürzen, können die hierin offenbarten Ausführungsformen latenten Raum verwenden, um die Untersequenz einer Sequenz x_<i eines Teils p in einen latenten Zustand h^p _i = Codierer(x_<i) zu codieren. Dies wird unten ferner mit Bezug auf Batch-Verarbeitung beschrieben. In einer Ausführungsform wird ein autoregressiver Codierer genutzt, d. h. h^p _i = h^p _i-1 + Codierer(x_i). Gleichermaßen kann das System die Untersequenz der Station bis zu dem j-ten Teil in den latenten Zustand h^s _j codieren. Unter der Annahme, dass Teil p das i-te Teil ist, das durch Station s_i gemessen wird, kann die folgende Gleichung gelten: $P (x) = ∐_{i = 1}^{k} p (x_{i} | h_{i}^{p} {, h}_{i_{p}}^{s_{i}})$
3 veranschaulicht ein maschinelles Lernmodell 300, das gemäß den hierin bereitgestellten Beschreibungen zum Optimieren von hierin beschriebenen zeitbasierten sequenziellen Fertigungsdaten trainiert ist. Das maschinelle Lernmodell 300 kann ein unüberwachtes autoregressives graphenbasiertes Modell ist sein, gemäß einer Ausführungsform. Das maschinelle Lernmodell 300 modelliert multimodale strukturierte Daten, einschließlich tabellarischer, Zeitreihen- und aggregierter Statistiken über einen gerichteten Graphen mit mehreren Typen. Messungen oder eine Verteilung der Messungen, die an einem Teil an einer Station durchgeführt werden (auch als Messdaten bezeichnet) werden als Ziele zum Trainieren des Modells verwendet, und die codierten Untersequenzen (d. h. latenter Raum) dieses Teils und dieser Station werden als Eingabe verwendet. Diese Untersequenzen oder dieser Datensatz D kann ein multimodaler Sequenzdatensatz für die Fertigung ohne Annotationen sein. Jede Teilesequenz in D enthält die Informationen bezüglich des Typs des Teils, eine Kennung des Teils, die Sequenz von Stationen, die dieses Teil durchläuft, und die Messungen oder Aufzeichnungen an jeder Station. Die vorgenommenen Messungen können ein Binärwert bezüglich der Größe oder Festigkeit des Teils oder ein Zeitreihenwert wie etwa eine Messung der Reaktion des Teils auf Druck sein. Andere Beispiele für vorgenommene Messungen beinhalten seine Reibungseigenschaften, Gewichtsverteilung, Dichte, Vorhandensein von Rissen oder Defekten und andere Messungen, die typischerweise in einer Fertigungsanlagen eingeschlossen sind, um sicherzustellen, dass ein gefertigtes Teil für die weitere Montage oder Produktion geeignet ist.
Diese Messdaten werden in das graphenbasierte Modell f_θ eingegeben. Das Modell beinhaltet drei Teilmodelle, oder drei separate maschinelle Lernmodelle, gemäß einer Ausführungsform: ein Einbettungsmodell, ein Dynamikmodell und ein Vorhersagemodell. Bei jedem dieser maschinellen Lernmodelle kann es sich um neuronale Netzwerke oder Teilnetzwerke in Form eines GNN, CNN oder dergleichen handeln.
Da Ausführungsformen dieses Systems einen autoregressiven Codierer für Teile- und Stationszustandsinformationen verwendet, wird eine Initialisierung für beide Zustände abgeleitet, wenn keine Messungen beobachtet wurden. Dies empfängt Attribute des Teils oder Attribute der Fertigungsstation, um einen Anfangszustand des Teils oder der Station zu erzeugen. Ein Beispiel würde eine gewisse Größenabmessung eines bestimmten Teils sein, bevor es einer Aktion an einer bestimmten Station unterzogen wird.
Das Einbettungsmodell kann als ein Einbettungsnetzwerk oder B_θB bezeichnet werden, wobei B die Batch-Größe ist (der Batching-Prozess wird weiter unten beschrieben). Dieses Modell ist dazu ausgelegt, einen Satz von Messdaten (z. B. mit variierendem Typ, oben beschrieben, wie etwa Gleitkommazahl, Zeichenfolge, Ganzzahl, boolescher Wert, Zeitreihenmessungen, Aggregation von Statistiken usw.) in ein Float-Array oder -Vektor einzubetten, das/den das Dynamikmodell verbrauchen kann. In Abhängigkeit von dem Typ der Messdaten kann das Einbettungsmodell unterschiedliche Architekturen aufweisen. Falls beispielsweise die Messdaten alle Gleitkommazahlen oder Ganzzahlen sind, kann B einfach ein mehrschichtiges Perzeptron sein. In einem anderen Beispiel, falls die Messdaten Zeitreihendaten einschließen, kann ein 1 -dimensionales Faltungsnetzwerk angewendet werden, um die Merkmale zu extrahieren.
Das Dynamikmodell kann als ein Dynamiknetzwerk oder D_θD bezeichnet werden, wobei D erneut einen Datensatz einer Untersequenz eines Teils/einer Station sein kann, der in den latenten Raum codiert wird. Ein beliebiges Zeitreihenmodell mit latentem Zustand kann für dieses Modell verwendet werden, wie etwa ein rekurrentes neuronales Netzwerk. Jede Teilesequenz im Dynamikmodell enthält die Informationen bezüglich des Typs des Teils, eine Kennung des Teils, die Sequenz von Stationen, die dieses Teil durchläuft. Die Eingabe in das Dynamikmodell kann die aktuellen eingebetteten Messungen (x_i) von Gleichung (2) oben und der aktuelle Zustand des Teils und der Station, d. h. $h_{i}^{p}, h_{i_{p}}^{s_{i}},$
von Gleichung (2) oben sein. Das Dynamikmodell schließt den aktualisierten Teile- und Stationszustand ein, d. h. $h_{i + 1}^{p}, h_{i_{p + 1}}^{s_{i}} .$
Das Vorhersagemodell kann als ein vorhergesagtes Netzwerk oder P_θP bezeichnet werden. Das Vorhersagemodell nimmt als Eingabe den latenten Zustand $h_{i}^{p}, h_{i_{p}}^{s_{i}}$
des Teils und der Station und sagt (1) Messungen des Teils p an Station s_i(x_i) oder (2) eine Quantil-Messung vorher, falls die Messung ein Float-Wert ist. Das Vorhersagen von Quantil-Messungen ermöglicht dem gelernten Modell, Likelihoods jedes Quantils der Messverteilung vorherzusagen, und ermöglicht ein Sampling vom Modell.
Die Ausgabe des Gesamtmodells f_θ ist eine vorhergesagte Messung, wie etwa eine Vorhersage von einem der Knoten in 2. Das Modell f_θ mit dem Betrieb bis zur Konvergenz fortfahren, wodurch ein trainiertes maschinelles Lernmodell erzeugt wird, das eine Messung eines Teils basierend auf den vorherigen zeitlichen Messungen und der Repräsentation des latenten Raums des gefertigten Teils und der Station vorhersagen kann.
Im Dynamikmodell werden der Zustand des gefertigten Teils und der Stationszustand eines Knotens in das Dynamikmodell eingegeben, um eine Messung zu erzeugen, sowie die Zustände selbst zu aktualisieren. Das Dynamikmodell ist dazu ausgelegt, den in 2 gezeigten Graphen zu modellieren, zum Beispiel von Teil1 bis Teil5 und von Station1 bis Station4. Dies wird mit einer Untersequenzmodellierung durchgeführt, einschließlich einer Modellierung, bei der der latente Raum des gefertigten Teils und der Station genommen wird. Mit Bezug auf 2 als ein Beispiel werden somit die Messdaten, die um 9:00 Uhr für Teil1, Station2 erfasst werden, verwendet, um eine vorhergesagte Messung des Knotens zu bestimmen, der bei Teil1, Station3 um 9:05 Uhr gezeigt ist. Insbesondere wird der latente Zustand (entweder in seinem initialisierten Zustand, falls nicht zuvor verwendet, oder in seinem aktualisierten Zustand nach einer vorherigen Messung) von Station3 verwendet, um die Messung von Teil1 vorherzusagen, die um 9:05 Uhr erfolgen würde. Dies erzeugt eine vorhergesagte Messung für Teil1 an Station3. Und nach dem Erzeugen jeder vorhergesagten Messung kann das Modell aktualisiert und trainiert werden. Da die Messdaten die realen Messungen einschließen und das Modell eine vorhergesagte Messung erzeugt, kann das graphenbasierte Modell eine Differenz zwischen den realen Messdaten und der vorhergesagten Messung ableiten. Diese Differenz zwischen den tatsächlichen Messdaten und der vorhergesagten Messung kann verwendet werden, um die Parameter des graphenbasierten Modells zu aktualisieren, um die Differenz gemäß oben beschriebenen Trainingsverfahren zu minimieren. Der Prozess kann dann mit weiteren Schritten wiederholt werden, um vorhergesagte Messungen abzuleiten, die vorhergesagten Messungen mit den tatsächlichen Messdaten, die von einem Sensor genommen werden, zu vergleichen und die Differenz zwischen den tatsächlichen und geschätzten Messungen zu verwenden, um die Parameter des Modells zu aktualisieren. Dieser Prozess kann wiederholt werden, bis das Modell ein vorbestimmtes Leistungsniveau (z. B. ~ 100 % Übereinstimmung zwischen den vorhergesagten Messungen und den tatsächlichen Messdaten) oder Konvergenz erreicht (z. B. eine festgelegte Anzahl von Iterationen erfolgt, oder dass die Differenz ausreichend klein ist (z. B. die Änderung in der ungefähren Wahrscheinlichkeit über Iterationen ändert sich um weniger als eine Schwelle), oder andere Konvergenzbedingungen).
Einige Fertigungsanlagen können eine große Anzahl von Stationen oder viele unterschiedliche Typen von gemessenen Teilen aufweisen. Dies könnte zu einer übermäßigen Menge an Daten führen. Um die hierin beschriebenen neuronalen Netzwerke mit einer solchen großen Menge an Daten zu trainieren, können die neuronalen Netzwerke mit Samples von Daten trainiert werden. Das zeitliche Verarbeiten aller Knoten kann ein enormes Unterfangen sein - z. B. das Erhalten von Messdaten um 9:00 Uhr, dann das Trainieren des Modells, dann das Vorhersagen einer Messung bei 9:05 Uhr, dann das Vergleichen von dieser mit den tatsächlichen Messdaten um 9:05 Uhr, dann das Vergleichen der Differenz, dann das Aktualisieren des Modells und das Wiederholen dieses Prozesses für alle Knoten. Es kann bevorzugt sein, das maschinelle Lernmodell mit zumindest einigen der Daten (Knoten) zur gleichen Zeit auszuführen.
Aber das Trainieren des Systems erfordert, dass eine geschätzte Messung unabhängig von den tatsächlichen Messdaten vorgenommen wird, und die geschätzte Messung wird durch die vorherigen Messungen und Schätzungen, die das Modell aktualisieren, beeinflusst. Mit Bezug auf 2 als ein Beispiel ist das System somit möglicherweise nicht dazu ausgelegt, durch das Vorhersagen von Messungen für den Knoten bei Teil1, Station2 und Teil2, Station2 zur gleichen Zeit trainiert zu werden - die vorhergesagte Messung bei Teil2, Station2 hängt von der früheren Modellausführung und der tatsächlichen Datenmessung des Knotens bei Teil1, Station2 ab. Mit anderen Worten ist der 9:00-Knoten bei Teil1, Station2 dem 9:10-Knoten bei Teil2, Station2 übergeordnet. Das Modell verarbeitet daher die Messungen von Teil1, Station2, aktualisiert dann den latenten Zustand von Station2, und kann nur dann Teil2 an Station2 verarbeiten. Es kann daher gesagt werden, dass, da das maschinelle Lernmodell Daten an jedem Knoten aktualisiert, während es ausgeführt wird, Knoten, die zeitlich früher liegen, aktualisiert werden, während das maschinelle Lernmodell den Effekt der späteren Knoten verarbeitet, die geschätzt werden, sodass alle Datenpunkte im Graphen nicht zur gleichen Zeit ausgeführt werden können.
Daher kann das System einige Knoten nehmen, die nicht voneinander abhängen, um die Batch-Verarbeitung durchzuführen. Beispielsweise hängen der Knoten bei Teil1, Station2 und der Knoten bei Teil3, Station1 nicht voneinander ab; die Messungen an jedem Knoten werden nicht die Ausführung des Modells an dem anderen Knoten beeinträchtigen. (Tatsächlich weisen diese beiden Knoten einen identischen Zeitstempel um 9:00 Uhr auf, obwohl dies kein Erfordernis für die Batch-Verarbeitung ist, aber veranschaulicht ferner, dass die beiden Knoten nicht voneinander abhängen.) Das gleiche kann für die Knoten bei Teil1, Station3 und bei Teil2, Station2 gesagt werden. Die Verwendung von Batch-Verarbeitung kann dabei helfen, Prozessorleistung, Speicherbeschränkungen und Kosten zu reduzieren.
In einem Prozess, der als ein Standard-Batching bezeichnet wird, kann ein Abhängigkeitsgraph erstellt werden, bei dem jede Messung mit einer vorherigen Messung verbunden ist. Der Graph kann basierend auf übergeordneten Knoten und Abhängigkeiten von Knoten erstellt werden. Falls beispielsweise ein Knoten bei Teil2, Station2 gewählt wird, kann der Graph so erstellt werden, dass er zurück in der Zeit von dieser Station und diesem Teil blickt, um zu sehen, welche übergeordneten Knoten es gibt (z. B. welche Knoten, falls sie durch das Modell zur Aktualisierung und zum Training ausgeführt werden, die Ausführung des Modells an dem gewählten Knoten beeinflussen würden). Die unmittelbaren übergeordneten Knoten für den gewählten Knoten können bestimmt werden, indem linear nach oben (zeitlich rückwärts) entlang der vertikalen Kante vom gewählten Knoten gegangen wird, bis ein anderer Knoten erreicht wird, und indem linear nach links (zeitlich rückwärts) entlang der horizontalen Kante vom gewählten Knoten gegangen wird, bis ein anderer Knoten erreicht wird. Dann kann der Prozess wiederholt werden, und die unmittelbaren übergeordneten Knoten dieser Knoten gefunden werden, und so weiter, um den Graphen zu erstellen. Während des Durchlaufs kann das Batching-Modell eine Chunk-Nummer c_v jedem Knoten oder Vertex v zuweisen, wobei v = max(Chunk - Anzahl aller übergeordneter Knoten von v) + 1, falls die Anzahl von Vertices in c_v kleiner als die Batch-Größe B ist; ansonsten eine Chunk-Nummer c_v + 1 zu v zuweisen. Dann wird ein Batch ein Satz von aufeinanderfolgenden Chunks sein. Dies gewährleistet, dass alle Messungen oder Aufzeichnungen nur verarbeitet werden, nachdem alle direkten Abhängigkeiten erfüllt sind (z. B. sowohl Sequenz von Messungen, die mit Komponenten assoziiert sind, die eine Station besuchen, als auch Sequenz von Messungen, die mit Stationen assoziiert sind, die von einem Teil besucht werden, werden respektiert).
In einer anderen Ausführungsform des Batching kann ein volles Teilesequenz-Batching genutzt werden. Während Standard-Batching gewährleistet, dass alle Abhängigkeiten eines Satzes von Messungen vorher codiert werden, werden einige Teilesequenzen aufgrund von Speicherbeschränkungen und dem Umfang der Datensammlung (z. B. zu viele Teile, die in einem kurzen Zeitrahmen produziert werden) nicht vollständig in ein Batch geladen. Wenn eine Teilesequenz nicht vollständig in ein Batch geladen wird, kann das Dynamikmodell D_θD nur auf die Untersequenzen optimiert werden, die geladen werden. Andererseits kann sich der latente Zustand der Station mit einer langsameren Dynamik als der latente Zustand des Teils ändern, d. h. kleine Änderungen am Stationszustand während der gesamten Produktionszeitspanne eines Teils. Daher kann für jedes Teil in einem Standard-Batch, das im Batch eingeschlossen ist (aber nicht seine volle Teilesequenz), das System ein anderes Batch hinzufügen, in dem volle Teilesequenzen solcher Teile eingeschlossen sind. Mit Bezug auf 4 kann das Batch beispielsweise so konstruiert werden, dass es alle Knoten oder Vertices einschließt, die nach oben gehen, bis zu dem ersten Mal, dass dieses bestimmte Teil gemessen wird, sodass die gesamte Sequenz von Knoten für ein bestimmtes Teil im Batching-Prozess eingeschlossen ist.
Daher kann das Training des in 3 gezeigten maschinellen Lernmodells mit Batching wie folgt durchgeführt werden. Für alle Daten-Samples in D kann das System eine Batch-Nummer oder Chunk-Nummer zu jedem Messungssatz (z. B. ein bestimmtes Teil an einer bestimmten Station) zuweisen. Für das k-te Batch kann das System alle Messungssätze mit Chunk-Nummern im Bereich von (k-1)*B bis k*B in den Speicher laden. Falls das System Vollsequenz-Batching verwendet, kann das System ein Batch mit Vollsequenzen nach den B Chunks anhängen. Das System kann entweder die Messungen (Messdaten) oder Quantil-Messungen als ein Ziel verwenden und jedes Chunk parallel durch das graphenbasierte maschinelle Lernmodell f_θ laufen lassen. Dann kann das System, nachdem alle B Chunks einen Vorwärtsdurchlauf durch f_θ durchgeführt haben, θ mit dem Gradienten von f_θ aktualisieren und die latenten Zustände des Teils und der Station aktualisieren, falls die Teile nicht das Ende ihrer Sequenzen erreicht haben. Dies wird durch den gesamten Datensatz bis zur Konvergenz oder eine vorbestimmte Anzahl von Epochen wiederholt.
Die Algorithmen und/oder Methoden des neuronalen Netzwerks von einer oder mehreren hierin beschriebenen Ausführungsformen werden unter Verwendung einer Rechenplattform implementiert, wie etwa der in 4 veranschaulichten Rechenplattform 400. Die Rechenplattform 400 kann einen Speicher 402, einen Prozessor 404 und eine nichtflüchtige Speicherung 406 beinhalten. Der Prozessor 404 kann eine oder mehrere Vorrichtungen beinhalten, die aus Hochleistungsrechensystemen (HPC-Systemen) ausgewählt werden, einschließlich Hochleistungskernen, Mikroprozessoren, Mikrocontrollern, Digitalsignalprozessoren, Mikrocomputern, Zentralverarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbaren Logikvorrichtungen, Zustandsmaschinen, Logikschaltungen, Analogschaltungen, Digitalschaltungen oder beliebigen anderen Vorrichtungen, die Signale (analog oder digital) basierend auf computer-ausführbaren Anweisungen manipulieren, die sich im Speicher 402 befinden. Der Speicher 402 kann eine einzelne Speichervorrichtung oder eine Anzahl von Speichervorrichtungen beinhalten, einschließlich unter anderem Direktzugriffsspeicher (RAM), flüchtigem Speicher, nichtflüchtigem Speicher, statischem Direktzugriffsspeicher (SRAM), dynamischem Direktzugriffsspeicher (DRAM), Flash-Speicher, Cache-Speicher oder einer beliebigen anderen Vorrichtung, die in der Lage ist, Informationen zu speichern. Die nichtflüchtige Speicherung 406 kann eine oder mehrere persistente Datenspeicherungsvorrichtungen beinhalten, wie etwa eine Festplatte, ein optisches Laufwerk, ein Bandlaufwerk, eine nichtflüchtige Solid-State-Vorrichtung, Cloud-Speicherung oder eine beliebige andere Vorrichtung, die in der Lage ist, Informationen persistent zu speichern.
Der Prozessor 404 kann dazu ausgelegt sein, in den Speicher 402 zu lesen und computer-ausführbare Anweisungen auszuführen, die sich im Einbettungsmodell 408 der nichtflüchtigen Speicherung 406 befinden und Einbettungsalgorithmen und/oder -methoden einer oder mehrerer hierin offenbarter Ausführungsformen verkörpern. Der Prozessor 404 kann ferner dazu ausgelegt sein, in Speicher 402 zu lesen und computer-ausführbare Anweisungen auszuführen, die sich im Dynamikmodell 410 der nichtflüchtigen Speicherung 406 befinden und hierin beschriebene Dynamikalgorithmen und/oder -methoden verkörpern. Der Prozessor 404 kann ferner dazu ausgelegt sein, in Speicher 402 zu lesen und computer-ausführbare Anweisungen auszuführen, die sich im Vorhersagemodell 412 der nichtflüchtigen Speicherung 406 befinden und hierin beschriebene Vorhersagealgorithmen und/oder -methoden verkörpern. Die Modelle 408-412 können Betriebssysteme und Anwendungen beinhalten. Die Modelle 408-412 können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -technologien erzeugt werden, einschließlich unter anderem, und entweder alleine oder in Kombination, Java, C, C++, C#, Objective C, Fortran, Pascal, Java Script, Python, Perl und PL/SQL.
Nach der Ausführung durch den Prozessor 404 können die computer-ausführbaren Anweisungen der Modelle 408-412 bewirken, dass die Rechenplattform 400 eine(n) oder mehrere der hierin offenbarten Algorithmen und/oder Methoden eines neuronalen Netzwerks implementiert. Die nichtflüchtige Speicherung 406 kann auch Messdaten 414 und Daten 416 einschließen, die eine Identifikation des Teils und der Station an jedem Knoten repräsentieren, wie hierin beschrieben. Die Messdaten 414 können Daten einschließen, die von einem Sensor erfasst oder genommen werden, der sich an einer bestimmten Station im Fertigungsprozess befindet. Der Sensor kann ein Bildsensor, ein Laser-Verlagerungs-/Messungssensor, ein Kontaktsensor oder ein beliebiger anderer Typ von Sensor sein, der dazu ausgelegt ist, Daten zu liefern, die eine physische Qualität, einen Zustand oder eine Charakteristik des gemessenen Teils repräsentieren.
Computer-lesbare Programmanweisungen, die in einem computer-lesbaren Medium gespeichert sind, können verwendet werden, um einen Computer, andere Arten von programmierbarer Datenverarbeitungseinrichtung oder andere Vorrichtungen anzuweisen, auf eine bestimmte Art und Weise zu funktionieren, sodass die in dem computer-lesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel erzeugen, der Anweisungen beinhaltet, die die Funktionen, Handlungen und/oder Operationen implementieren, die in den Flussdiagrammen oder Diagrammen spezifiziert sind. In gewissen alternativen Ausführungsformen können die Funktionen, Handlungen und/oder Operationen, die in den Flussdiagrammen und Diagrammen spezifiziert sind, in Übereinstimmung mit einer oder mehreren Ausführungsformen umgeordnet, seriell verarbeitet und/oder gleichzeitig verarbeitet werden. Darüber hinaus können beliebige der Flussdiagramme und/oder Diagramme mehr oder weniger Knoten oder Blöcke als jene beinhalten, die in Übereinstimmung mit einer oder mehreren Ausführungsformen veranschaulicht sind.
Wie oben erläutert, sind gemäß verschiedenen hierin offenbarten Ausführungsformen Verfahren und Systeme zum Durchführen einer Grundursachenanalyse mit einem trainierten maschinellen Lernmodell bereitgestellt. Insbesondere ist das trainierte maschinelle Lernmodell, das oben mit Bezug auf 1-4 beschrieben ist, dazu ausgelegt, vorhergesagte Messdaten zu bestimmen, wie etwa eine vorhergesagte Messung eines Teils an einer Arbeitsstation. Da das trainierte Modell eine Messung vorhersagen kann, kann das hierin beschriebene System tatsächliche Messungen mit den vorhergesagten Messungen bei der Bestimmung der Grundursache vergleichen. Das Modell hat schon die Repräsentation normaler Daten gelernt, und somit kann das Vergleichen von diesen mit tatsächlichen Daten - und das Evaluieren der Differenz - zu einer Identifikation der Grundursache eines Problems gemäß den Lehren hierin führen.
Diese Offenbarung schlägt die Nutzung der hierin beschriebenen vortrainierten Modelle für die Grundursachenanalyse vor. Solche Modelle f_θ : R^{[d1,d2...,dk-1]×S×T} → R^d nehmen eine Untersequenz von Messungen eines Teils [x₁, x₂, ..., x_k-1] mit dem Stationszustand [S₁, S₂ ,..., S_k-1] und dem Typ T_x dieses Teils, um Messungen oder die Likelihood von Messungen des Teils an der Station S_k vorherzusagen. Hier ist x_i = {x_i ¹, x_i ² ,..., x_i ^j_i} eine Multimodalitätsmessung an der Station Si. Es kann angenommen werden, dass das Modell ausreichend über einen Trainingssatz trainiert wird (z. B. nahe einem lokalen Verlustminimum), der hauptsächlich nicht fehlerhafte Teile und Stationen enthält, wodurch das Modell daher lernt, Messungen von normalen (nicht fehlerhaften) Teilen vorherzusagen. Es kann auch angenommen werden, dass die Verlustfunktion L für das Trainingf gegeben ist.
Mehrere Verfahren zum Identifizieren einer Grundursache innerhalb eines Fertigungsprozesses sind bereitgestellt. Angesichts eines fehlerhaften Teils P (oder einer Population von Teilen), das an seiner k-ten Station S_k als fehlerhaft identifiziert wird, schlägt diese Offenbarung vor, Gradienten und Verluste des vortrainierten Modells f_θ zu nutzen, um Grundursachen zu identifizieren. In einer ersten Ausführungsform wird Rückpropagation verwendet, um einen Gradienten zu bestimmen. Eine Sequenz von neuen, realen Messdaten für jede Station bis zu der k-ten Station (d. h. der Station, an der der Fehler als auftretend bestimmt oder geschätzt wird) wird durch das trainierte Modell, wie etwa die oben beschriebenen Modelle, rückpropagiert. Beispielsweise repräsentieren die Größen von absoluten Gradientenwerten des Modells f_θ über einen Satz von Variablen, wie empfindlich die Funktion gegenüber dem Satz von Variablen ist. Hier verursachen Änderungen der Variablen mit größeren absoluten Gradientenwerten wahrscheinlicher, dass sich Änderungen der vorhergesagten (normalen) Messungen ändern. Die Grundursache R_xk wird dann identifiziert als: $R_{x k} = argmax (| \frac{\partial ƒ_{θ} ([x_{1}, \dots x_{k - 1}, S_{1}, \dots, S_{k - 1}], T_{x})}{\partial x_{1}, x_{2}, \dots, x_{k - 1}, S_{1}, \dots, S_{k - 1}} |)$
Der Gradient kann angeben, welcher der Datenpunkte (entweder x und/oder s) der größte Einflussfaktor auf das Modell ist. Es sollte angemerkt werden, dass die durch Gleichung (1) oben identifizierten Grundursachen entweder Messungen oder Stationsidentifikationen sind, da der Variablensatz, über den es Gradienten nimmt, die Messungen (x₁, x₂, ..., x_k-1) und Stationen (S₁, ... S_k-1) sind.
In einer anderen Ausführungsform wird ein Gradient nicht mittels Rückpropagation des trainierten Modells, wie oben, genommen. Stattdessen wird ein Vergleich zwischen den vorhergesagten Messungen und den tatsächlichen Messungen für jede Station vorgenommen und eine Verlustfunktion genutzt. In dieser Ausführungsform können vorhergesagte Messungen bei jedem Schritt der Fertigungsanlage mit einer tatsächlichen Messung bei diesem Schritt verglichen werden. Ein Verlustfunktionsvergleich L kann identifizieren, an welchem Punkt die vorhergesagten Messungen und tatsächlichen Messungen am meisten voneinander abweichen. Dies kann dabei helfen, die Grundursache als entweder die Messung oder die Station, an der Teile gemessen werden, zu identifizieren. Da das Modell f_θ trainiert ist, die Messungen von nicht fehlerhaften Teilen vorherzusagen, können die Messung oder Messungen an Stationen vor (vorgelagert) der k-ten Station, an der das Teil als fehlerhaft identifiziert wird ([x₁, x₂, ..., x_k-1], (S₁, ... S_k-1)) als jene Messungen identifiziert werden, die am meisten von nicht fehlerhaften Teilen abweichen, indem Verluste zwischen den vorhergesagten Messungen und den realen Messungen berechnet werden. Mit anderen Worten wird eine Grundursache $R_{xk} = x_{i *}^{i_{j}^{*}}$
für Messdaten eines Teils bestimmt, wobei $i *, i_{j}^{*} = arg max_{0 \leq i < k, j_{i}} (L (ƒ_{θ} ([{x_{1}^{1}, x_{1}^{2}, \dots, x_{1}^{j_{1}}}, \dots, {x_{i}^{1}, \dots, x_{i}^{j_{i}}}], (s_{1}, \dots, s_{i}), T_{x}), x_{i + 1}))$
Formel (4) ist ein Beispiel für ein Verfahren zum Infizieren der Grundursache basierend auf Messdaten durch das Vergleichen von tatsächlichen Messungen der Messdaten mit vorhergesagten Messdaten.
Und eine Grundursache R_xk = S_i* bezüglich der Stationsidentifikation wird bestimmt, wobei $i * = arg max_{0 \leq i < k,} (L (f_{θ} ([x_{1}, \dots, x_{i}], (s_{1}, \dots, s_{i}), T_{x}), x_{i + 1}))$
Formel (5) ist ein Beispiel für ein Verfahren zum Identifizieren der Grundursache basierend auf Stationsidentifikation (z. B. welche Station die Grundursache des fehlerhaften Teils ist) durch das Vergleichen von tatsächlichen Messdaten mit vorhergesagten Daten auf einer Pro-Station-Basis.
In einigen Ausführungsformen kann die Fertigungsanlage mehrere unterschiedliche Typen von Teilen bearbeiten. Beispielsweise kann eine gefertigte Zündkerze eine Dichtung, einen Metallkörper, einen Draht, einen Isolator und eine Elektrode einschließen, die alle zusammengebaut werden, um eine vollständig zusammengebaute Zündkerze zu erzeugen. Die Lehren hierin können auf einen derartigen Fertigungsprozess angewendet werden, um den Teiletyp zu identifizieren, der die Grundursache irgendeines Fehlers oder Problems ist. Gemäß einer Ausführungsform wird ein Gradient einer Sequenz von Messdaten an mehreren Teiletypen bestimmt. Dann kann der Teiletyp mit dem höchsten Gradienten den Teiletyp angeben, der die Grundursache ist.
Beispielsweise angesichts eines Satzes von fehlerhaften Teilen $P_{f e h l r h a f t}$
und entsprechender Messungsuntersequenzen, $P_{f e h l e r h a f t} = {P^{(i)}, [x_{1}^{(i)}, \dots, x_{k_{i}}^{(1)}], T_{p^{(i)}}}^{n}_{i = 1},$

kann ein Klassifizierungsmodell (z. B. Binärklassifizierungskopf) c, parametrisiert mit einem Parametersatz ϕ, c_φ: ℝ^d → {0,1}, unter Verwendung von Ausgaben des vortrainierten Modells f_θ trainiert werden, um vorherzusagen, ob ein Teil fehlerhaft sein wird oder nicht. Hier bezieht sich der Ausgabesatz {0,1} auf das Teil, das als fehlerhaft (1) oder nicht (0) vorhergesagt wird, und die Eingabedimension d ist die Ausgabedimension von f_θ. Der Binärklassifizierungskopf kann unter Verwendung entweder zumindest einiger des Trainingssatzes von f_θ trainiert werden, der hauptsächlich aus nicht fehlerhaften Teilen besteht, kombiniert mit dem Satz $P_{f e h l e r h a f t}$
fehlerhafter Teile. Unter der Annahme, dass g_φ∪θ = c_φ (f_θ ([x₁, ..., x_k], (s₁, ... s_k), T_x)) der Ende-zu-Ende-Klassifizierer ist, der die Teilesequenz {[x₁, ..., x_k], (s₁... s_k), T_x} empfängt und zunächst Merkmale mit f_θ extrahiert, und dann ein solches Merkmal verwendet, um mit c_φ vorherzusagen, ob das Teil fehlerhaft ist. Der Teiletyp, der die Grundursache ist, kann als der Teiletyp mit der höchsten Summe von Gradienten über alle Teile in $P_{f e h l e r h a f t}$
identifiziert werden, wie in Formel (6) unten gezeigt: $R_{P} = T_{P *}, wobei P * = \underset{T \in T_{p^{(i)},1 \leq i \leq n}}{argmax} \sum_{i = 1}^{n} ([x^{(i)}_{1}, \dots, x^{(i)}_{k}], (s^{(i)}_{1}, \dots s^{(i)}_{k}), T_{x}) / \partial T$
Angesichts des Gradienten von g_φ∪θ wird der Teiletyp, der die höchste Summe von Gradienten aufweist, als die Grundursache identifiziert. Es sollte hier angemerkt werden, das im Gegensatz zu obigen Ausführungsformen weder der Gradient von f_θ noch der Gradient der Station s bei dieser Bestimmung notwendig ist. Darüber hinaus kann dieses Verfahren zum Bestimmen der Grundursache basierend auf einem Teiletyp bei verschiedenen Einstellungen und Modellen angewendet werden, und muss nicht auf das oben beschriebene Modell f_θ angewiesen sein.
Obwohl beispielhafte Ausführungsformen vorstehend beschrieben sind, wird nicht beabsichtigt, dass diese Ausführungsformen alle möglichen Formen beschreiben, die durch die Ansprüche umspannt werden. Die in der Spezifikation verwendeten Wörter sind Wörter der Beschreibung anstatt Beschränkung, und es versteht sich, dass verschiedene Änderungen vorgenommen werden können, ohne vom Gedanken und Schutzumfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die möglicherweise nicht ausdrücklich beschrieben oder veranschaulicht sind. Obwohl verschiedene Ausführungsformen so beschrieben sein könnten, dass sie Vorteile bereitstellen oder gegenüber anderen Ausführungsformen oder Implementierungen des Stands der Technik bezüglich einer oder mehrerer gewünschter Charakteristiken bevorzugt werden, erkennen Durchschnittsfachleute auf dem Gebiet, dass ein oder mehrere Merkmale oder eine oder mehrere Charakteristiken kompromittiert werden können, um gewünschte Gesamtsystemattribute zu erreichen, die von der spezifischen Anwendung und Implementierung abhängen. Diese Attribute können unter anderem Kosten, Stärke, Dauerhaftigkeit, Lebenszykluskosten, Marktfähigkeit, Erscheinungsbild, Verpackung, Größe, Gebrauchsfähigkeit, Gewicht, Herstellbarkeit, Montagefreundlichkeit usw. beinhalten. Demnach, in dem Ausmaß, dass jegliche Ausführungsformen als weniger wünschenswert als andere Ausführungsformen oder Implementierungen des Stands der Technik bezüglich einer oder mehrerer Charakteristiken beschrieben sind, liegen diese Ausführungsformen nicht außerhalb des Schutzumfangs der Offenbarung und können für bestimmte Anwendungen wünschenswert sein.

Claims

Computer-implementiertes Verfahren zur Nutzung eines vortrainierten maschinellen Lernmodells zum Durchführen einer Grundursachenanalyse bei einem Fertigungsprozess, wobei das Verfahren umfasst: Bereitstellen eines vortrainierten maschinellen Lernmodells, das trainiert ist, Messungen von nicht fehlerhaften Teilen vorherzusagen, wobei das vortrainierte maschinelle Lernmodell basierend auf einem ersten Satz von Messdaten bezüglich physischer Charakteristiken einer ersten Mehrzahl gefertigter Teile trainiert wird, wie durch eine Mehrzahl von Sensoren an einer Mehrzahl von Fertigungsstationen gemessen; Empfangen, von der Mehrzahl von Sensoren an der Mehrzahl von Fertigungsstationen, eines zweiten Satzes von Messdaten bezüglich physischer Charakteristiken einer zweiten Mehrzahl von gefertigten Teilen und einer Identifikation der Mehrzahl von Fertigungsstationen; Rückpropagieren des zweiten Satzes von Messdaten über das vortrainierte maschinelle Lernmodell, um eine Größe absoluter Gradienten des zweiten Satzes von Messdaten zu bestimmen; und Identifizieren einer Grundursache innerhalb des Fertigungsprozesses basierend auf der Größe absoluter Gradienten.
Verfahren nach Anspruch 1, ferner umfassend: Trainieren eines Binärklassifizierungsmodells unter Verwendung von Ausgaben des vortrainierten maschinellen Lernmodells, um Vorhersagen darüber auszugeben, ob mindestens ein Teiletyp einer Mehrzahl von Teiletypen fehlerhaft sein wird; Bestimmen einer Größe absoluter Gradienten des Binärklassifizierungsmodells; und Identifizieren mindestens eines der Mehrzahl von Teiletypen als eine Grundursache innerhalb des Fertigungsumfelds basierend auf der Größe absoluter Gradienten.
Verfahren nach Anspruch 1, wobei die Grundursache identifiziert wird als $R_{x k} = argmax (| \frac{\partial ƒ_{θ} ([x_{1}, \dots x_{k - 1}, S_{1,} \dots, S_{k - 1}], T_{x})}{\partial x_{1}, x_{2}, \dots, x_{k - 1}, S_{1}, \dots, S_{k - 1}} |)$
wobei f_θ das vortrainierte maschinelle Lernmodell ist, x ein Abschnitt des zweiten Satzes von Messdaten bezüglich physischer Charakteristiken der zweiten Mehrzahl von gefertigten Teilen ist, S die Identifikation der Mehrzahl von Fertigungsstationen ist und keine der Mehrzahl von Fertigungsstationen ist, an der ein Fehler identifiziert wird.
Verfahren nach Anspruch 3, wobei das vortrainierte Modell trainiert wird durch: über ein maschinelles Zeitreihendynamik-Lernmodell, Codieren des ersten Satzes von Messdaten in einen latenten Raum mit einer Mehrzahl von Knoten, wobei jeder Knoten mit dem ersten Satz von Messdaten von einem der nicht fehlerhaften Teile assoziiert ist, wie an einer der Fertigungsstationen gemessen.
Verfahren nach Anspruch 4, wobei das vortrainierte Modell ferner trainiert wird durch: über ein maschinelles Vorhersage-Lernmodell, Bestimmen einer vorhergesagten Messung eines ersten der nicht fehlerhaften Teile an einer ersten der Mehrzahl von Fertigungsstationen basierend auf dem latenten Raum von zumindest einigen des ersten Satzes von Messdaten, nicht einschließlich der Messdaten entsprechend dem ersten gefertigten Teil an der ersten Fertigungsstation.
Verfahren nach Anspruch 5, wobei das vortrainierte Modell ferner trainiert wird durch: über das maschinelle Vorhersage-Lernmodell, Vergleichen der vorhergesagten Messung des ersten gefertigten Teils mit den Messdaten des ersten gefertigten Teils an der ersten Fertigungsstation; und basierend auf einer Differenz zwischen den vorhergesagten Messungen und den tatsächlichen Messdaten, Aktualisieren von Parametern des maschinellen Lernmodells bis zur Konvergenz.
Verfahren nach Anspruch 1, wobei die Mehrzahl von Sensoren Bildsensoren oder Lasermessungssensoren einschließt.
Computer-implementiertes Verfahren zur Nutzung eines vortrainierten maschinellen Lernmodells zum Durchführen einer Grundursachenanalyse bei einem Fertigungsprozess, wobei das Verfahren umfasst: Bereitstellen eines vortrainierten maschinellen Lernmodells, das trainiert ist, Messungen von nicht fehlerhaften Teilen vorherzusagen, wobei das vortrainierte maschinelle Lernmodell basierend auf einem ersten Satz von Messdaten bezüglich physischer Charakteristiken einer ersten Mehrzahl gefertigter Teile trainiert wird, wie durch eine Mehrzahl von Sensoren an einer Mehrzahl von Fertigungsstationen gemessen; Nutzen des vortrainierten maschinellen Lernmodells, um einen Satz vorhergesagter Messdaten für jede Fertigungsstation zu erzeugen; Empfangen, von der Mehrzahl von Sensoren an der Mehrzahl von Fertigungsstationen, eines zweiten Satzes von Messdaten bezüglich physischer Charakteristiken einer zweiten Mehrzahl von gefertigten Teilen und einer Identifikation der Mehrzahl von Fertigungsstationen; Bestimmen von Verlusten zwischen dem Satz vorhergesagter Messdaten und dem zweiten Satz von Messdaten für jede der Mehrzahl von Fertigungsstationen; und Identifizieren einer Grundursache innerhalb des Fertigungsprozesses basierend auf den Verlusten.
Verfahren nach Anspruch 8, wobei die Grundursache einen Abschnitt der zweiten Messdaten bezüglich physischer Charakteristiken der zweiten Mehrzahl von gefertigten Teilen beinhaltet, und wobei die Grundursache durch $R_{x k} = x_{i^{*}}^{i_{j}^{*}}$

repräsentiert wird; wobei i*, $i_{j}^{*} = a r g \underset{0 \leq i < k, j_{i}}{m a x} (L (ƒ_{θ} ([{x_{1}^{1}, x_{1}^{2}, \dots, x_{1}^{j_{1}}}, \dots, {x_{i}^{1}, \dots, x_{i}^{j_{i}}}], (s_{1}, \dots, s_{i}), T_{x}), x_{i + 1}));$

wobei f_θ das vortrainierte maschinelle Lernmodell ist, x ein Abschnitt des zweiten Satzes von Messdaten bezüglich physischer Charakteristiken der zweiten Mehrzahl von gefertigten Teilen ist, S die Identifikation der Mehrzahl von Fertigungsstationen ist, Tein Typ der zweiten Mehrzahl von gefertigten Teilen ist und k eine der Mehrzahl von Fertigungsstationen ist, an der ein Fehler identifiziert wird.
Verfahren nach Anspruch 8, ferner umfassend: wobei das vortrainierte Modell trainiert wird durch: über ein maschinelles Zeitreihendynamik-Lernmodell, Codieren des ersten Satzes von Messdaten in einen latenten Raum mit einer Mehrzahl von Knoten, wobei jeder Knoten mit dem ersten Satz von Messdaten von einem der nicht fehlerhaften Teile assoziiert ist, wie an einer der Fertigungsstationen gemessen.
Verfahren nach Anspruch 10, wobei das vortrainierte Modell ferner trainiert wird durch: über ein maschinelles Vorhersage-Lernmodell, Bestimmen einer vorhergesagten Messung eines ersten der nicht fehlerhaften Teile an einer ersten der Mehrzahl von Fertigungsstationen basierend auf dem latenten Raum von zumindest einigen des ersten Satzes von Messdaten, nicht einschließlich der Messdaten entsprechend dem ersten gefertigten Teil an der ersten Fertigungsstation.
Verfahren nach Anspruch 11, wobei das vortrainierte Modell ferner trainiert wird durch: über das maschinelle Vorhersage-Lernmodell, Vergleichen der vorhergesagten Messung des ersten gefertigten Teils mit den Messdaten des ersten gefertigten Teils an der ersten Fertigungsstation; und basierend auf einer Differenz zwischen den vorhergesagten Messungen und den tatsächlichen Messdaten, Aktualisieren von Parametern des maschinellen Lernmodells bis zur Konvergenz.
Verfahren nach Anspruch 8, wobei die Mehrzahl von Sensoren Bildsensoren oder Lasermessungssensoren einschließt.
Computer-implementiertes Verfahren zur Nutzung eines vortrainierten maschinellen Lernmodells zum Durchführen einer Grundursachenanalyse, um einen Teiletyp zu bestimmen, der einen Fehler innerhalb eines Fertigungsumfelds verursacht, wobei das Verfahren umfasst: Bereitstellen eines vortrainierten maschinellen Lernmodells, das trainiert ist, Messungen von nicht fehlerhaften Teilen vorherzusagen, wobei das vortrainierte maschinelle Lernmodell basierend auf einem ersten Satz von Messdaten bezüglich physischer Charakteristiken einer ersten Mehrzahl gefertigter Teile trainiert wird, wie durch eine Mehrzahl von Sensoren an einer Mehrzahl von Fertigungsstationen gemessen; Trainieren eines Binärklassifizierungsmodells unter Verwendung von Ausgaben des vortrainierten maschinellen Lernmodells, um Vorhersagen darüber auszugeben, ob mindestens ein Teiletyp einer Mehrzahl von Teiletypen fehlerhaft sein wird; Bestimmen einer Größe absoluter Gradienten des Binärklassifizierungsmodells; und Identifizieren mindestens eines der Mehrzahl von Teiletypen als eine Grundursache innerhalb des Fertigungsumfelds basierend auf der Größe absoluter Gradienten.
Verfahren nach Anspruch 14, ferner umfassend: Empfangen, von der Mehrzahl von Sensoren an der Mehrzahl von Fertigungsstationen, eines zweiten Satzes von Messdaten bezüglich physischer Charakteristiken einer zweiten Mehrzahl von gefertigten Teilen und einer Identifikation der Mehrzahl von Fertigungsstationen; Rückpropagieren des zweiten Satzes von Messdaten über das vortrainierte maschinelle Lernmodell, um eine Größe absoluter Gradienten des zweiten Satzes von Messdaten zu bestimmen; und Identifizieren einer Grundursache innerhalb des Fertigungsprozesses basierend auf der Größe absoluter Gradienten.
Verfahren nach Anspruch 14, wobei die Grundursache durch R_P = T_P* repräsentiert wird, wobei Tein Typ des Teils P ist, und wobei $P * = \underset{T \in T_{p^{(i)}},1 \leq i < n}{a r g m a x} \sum_{i = 1}^{n} \frac{\partial g_{φ \cup θ} ([x^{(i)}_{1}, \dots, x^{(i)}_{k}], (s^{(i)}_{1}, \dots, s^{(i)}_{k}), T_{x})}{\partial T}$
wobei x ein Abschnitt der Messdaten bezüglich physischer Charakteristiken der Mehrzahl von gefertigten Teilen ist, S die Identifikation der Mehrzahl von Fertigungsstationen ist und keine der Mehrzahl von Fertigungsstationen ist, an der ein Fehler identifiziert wird.
Verfahren nach Anspruch 14, wobei das vortrainierte Modell trainiert wird durch: über ein maschinelles Zeitreihendynamik-Lernmodell, Codieren des ersten Satzes von Messdaten in einen latenten Raum mit einer Mehrzahl von Knoten, wobei jeder Knoten mit dem ersten Satz von Messdaten von einem der nicht fehlerhaften Teile assoziiert ist, wie an einer der Fertigungsstationen gemessen.
Verfahren nach Anspruch 17, wobei das vortrainierte Modell ferner trainiert wird durch: über ein maschinelles Vorhersage-Lernmodell, Bestimmen einer vorhergesagten Messung eines ersten der nicht fehlerhaften Teile an einer ersten der Mehrzahl von Fertigungsstationen basierend auf dem latenten Raum von zumindest einigen des ersten Satzes von Messdaten, nicht einschließlich der Messdaten entsprechend dem ersten gefertigten Teil an der ersten Fertigungsstation.
Verfahren nach Anspruch 18, wobei das vortrainierte Modell ferner trainiert wird durch: über das maschinelle Vorhersage-Lernmodell, Vergleichen der vorhergesagten Messung des ersten gefertigten Teils mit den Messdaten des ersten gefertigten Teils an der ersten Fertigungsstation; und basierend auf einer Differenz zwischen den vorhergesagten Messungen und den tatsächlichen Messdaten, Aktualisieren von Parametern des maschinellen Lernmodells bis zur Konvergenz.
Verfahren nach Anspruch 14, wobei die Mehrzahl von Sensoren Bildsensoren oder Lasermessungssensoren einschließt.