DE102022200739A1

DE102022200739A1 - Verfahren zum Auswählen von ungelabelten Bildern aus einem teilweise gelabelten Trainingsdatensatzes zum Labeln sowie ein Anlernen eines maschinellen Lernsystems mit den gelabelten Bildern für eine Halbleiterwaferdefekterkennung

Info

Publication number: DE102022200739A1
Application number: DE102022200739.5A
Authority: DE
Inventors: Anke Giliard; Vitaliy Kondrashov; Alexander Eckert; Tim Meyer; Rolf Michael Koehler
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-07-27

Abstract

Verfahren zum Auswählen von ungelabelten Bildern aus einem teilweise gelabelten Trainingsdatensatzes zum Labeln umfassend folgende Schritte: Aufteilen des teilweise gelabelten Trainingsdatensatzes in einen ersten Datensatz mit gelabelten Bildern und in einen zweiten Datensatz mit ungelabelten Bildern. Daraufhin folgt ein Anlernen (S24) einer Mehrzahl von maschinellen Lernsystemen auf dem ersten Datensatz . Dann folgt ein Verarbeiten (S25) des zweiten Datensatzes mit der Mehrzahl der maschinellen Lernsystemen (7), wobei die maschinellen Lernsysteme (7) jeweils einen Vektor ausgeben, dessen Einträge eine Kategorisierung des jeweiligen verarbeiteten ungelabelten Bildes charakterisieren. Dann folgt ein Auswählen zum Labeln derjenigen ungelabelten Bilder des zweiten Datensatzes, deren ermittelten Vektoren durch die Mehrzahl der maschinellen Lernsystemen (7) größer als ein vorgegebener Schwellwert voneinander abweichen oder die Einträge eines kombinierten Vektors kleiner des vorgebbaren Schwellwerts ist.

Description

Die Erfindung betrifft ein Verfahren, Computerprogramm und eine Vorrichtung zum Auswählen von ungelabelten Bildern aus einem teilweise gelabelten Trainingsdatensatzes zum Labeln sowie einem anschließenden Verwenden der neu gelabelten Bildern zum Erstellen eines Trainingsdatensatzes geeignet zum Anlernen eines maschinellen Lernsystems für eine Defekterkennung sowie ein Anlernen mit diesem Trainingsdatensatz.
Stand der Technik
Als Vorbereitung zum Trainieren eines Deep-Learning Klassifizierungsalgorithmus für einen Datensatzes aus Bildern, muss üblicherweise von Domänen-Experten ein Satz von Kategorien angelegt werden und jedes Bild im Datensatz muss einer dieser Kategorien zugeordnet werden. Für die Performance des trainierten Klassifizierungsalgorithmus ist es einerseits kritisch, dass jeder Kategorie eine ausreichende Anzahl von Bildern zugewiesen wird (z.B. in der Größenordnung 300 bis 5000 Bilder), anderseits muss dieser Prozess gründlich und fehlerfrei durchgeführt werden. Daraus ergibt sich, dass der Prozess zum Erstellen eines Datensatzes sehr zeitintensiv und damit teuer im Sinne von Personalkosten und insbesondere sensibel gegenüber Fehlern ist.
Daneben ist es für die Anwendung für eine optische Erkennung von Defekten auf Wafern in der Halbleiterproduktion wichtig, dass sehr viele dieser Datensätze erstellt werden können. Auch kommt es regelmäßig vor, dass ein bereits fertiggestellter Datensatz überarbeitet werden muss, um z.B. auf neue Fehlerbilder, Änderungen im Produktionsprozess oder Änderungen an der Messanlage reagieren zu können. Für den letzten Punkt ist ebenfalls die Zeit, die zum Fertigstellen eines kategorisierten Datensatzes benötig wird, kritisch. Dies bestimmt wie schnell auf Veränderungen in der Fertigung reagiert werden kann und sorgt dafür, dass der Zeitraum, in dem durch eine Veränderung kein ausreichend wirkungsvoller Klassifizierungsalgorithmus in der Fertigung zur Verfügung steht, minimal ist.
Vorteile der Erfindung
Die gegenwärtige Erfindung hat die Vorteile, dass der Prozess der Kategorisierung von Bildern beschleunigt wird und damit schnell und auch mit weniger Fehler in der Kategorisierung einen Datensatz zu erstellen und ferner aktiv beim Erstellen des Datensatzes die gewählten Kategorien auf ihre Eignung hin zu überprüfen und auch Fehler zu korrigieren. Ferner hat die Erfindung den Vorteil einer Vorauswahl zum Labeln ungelabelter Bilder, wodurch effektiv nur ungelabelte Bilder gelabelt werden, aus welchen maschinelle Lernsysteme weitere Zusammenhänge lernen können.
Weitere Aspekte der Erfindung sind Gegenstand der nebengeordneten Ansprüche. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
Offenbarung der Erfindung
In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum Auswählen von ungelabelten Bildern aus einem teilweise gelabelten Trainingsdatensatzes für ein anschließendes Labeln dieser Bilder. Unter einem Labeln kann im Allgemeinen eine Kategorisierung verstanden werden, bei welcher einem Bild eine Kategorie oder Klasse zugeordnet wird, die insbesondere einen Inhalt oder ein Objekt in dem Bild charakterisiert. Vorzugweise erfolgt das Labeln derart, dass die Label eine Klassifikation der Bilder charakterisieren. Unter einem teilweise gelabelten Trainingsdatensatz kann verstanden werden, dass eine Mehrzahl der Bilder des Trainingsdatensatzes keine Labels zugeordnet sind (d.h. nicht kategorisiert sind), wobei den restlichen Bilder Label zugeordnet (d.h. kategorisiert) sind.
Das Verfahren kann mit einem Aufteilen des teilweise gelabelten Trainingsdatensatzes in einen ersten Datensatz mit gelabelten Bildern und in einen zweiten Datensatz mit ungelabelten Bildern beginnen.
Daraufhin folgt ein erstes Anlernen einer Mehrzahl von maschinellen Lernsystemen auf dem ersten Datensatz. Die Mehrzahl der maschinellen Lernsysteme kann auch als Ensemble bezeichnet werden. Unter einem Anlernen kann verstanden werden, dass mittels bekannten Trainingsmethoden (z.B. Gradientenabstiegsverfahren) Parameter des maschinellen Lernsystems derart eingestellt werden, dass das maschinelle Lernsystem die zugeordneten Kategorien ausgibt. Vorzugsweise ist das maschinelle Lernsystem eingerichtet, abhängig von den Bildern deren Kategorisierung zu ermitteln. In anderen Worten, eine Architektur des maschinellen Lernsystems ist derart vorgegeben, dass die Bilder am Eingang aufgenommen werden und ein Ausgang des maschinellen Lernsystems eine Kategorisierung ausgibt, z.B. in Form eines Vektors oder in Form einer semantischen Segmentierung.
Daraufhin folgt ein Verarbeiten des zweiten Datensatzes mit der Mehrzahl der maschinellen Lernsystemen, wobei die maschinellen Lernsysteme jeweils einen Vektor ausgeben, dessen Einträge eine Kategorisierung des jeweiligen verarbeiteten, ungelabelten Bildes charakterisieren. In anderen Worten, der Vektor ist ein Klassifikationsvektor, dessen Einträge vorzugsweise charakterisieren, mit welcher Wahrscheinlichkeit das Bild einer Kategorie oder Klasse zugehört.
Daraufhin folgt ein Auswählen zum Labeln derjenigen ungelabelten Bildern des zweiten Datensatzes, deren ermittelte Vektoren durch die Mehrzahl der maschinellen Lernsystemen voneinander größer als ein vorgegebener Schwellwert abweichen oder die Einträge eines kombinierten Vektors, der abhängig von den ermittelten Vektoren der Mehrzahl der maschinellen Lernsystemen zu dem jeweiligen Bild ermittelt wurde, kleiner sind als der vorgebbare Schwellwert. In anderen Worten, es werden die Bilder ausgewählt, bei welchen die maschinellen Lernsystem eine hohe Unsicherheit hinsichtlich einer Klassifikation/Kategorisierung der ungelabelten Bildern ausgeben. Wenn die Vektoren als (euklidische) Koordinaten angesehen werden, können z.B. Abweichungen durch L2 Distanz (Summe der quadratischen Abweichungen oder Wurzel aus der Summe, etc.) oder L1 Distanz (Summe der absoluten Abweichungen) oder eine anderweitige Lp Norm berechnet werden. Wenn der Vektor als Wahrscheinlichkeitsvektor angesehen wird, wäre eine Distanzberechnung durch z.B. eine Kullback-Leibler Divergenz denkbar. Andere statistische Distanzen sind alternativ denkbar.
Der kombinierte Vektor kann beispielsweise durch eine Mittelung über eine Mehrzahl der Klassifikationsvektoren der maschinellen Lernsysteme für das jeweilige Bild ermittelt werden. Die Mittelung kann als arithmetischer oder gewichteter Mittelwert berechnet werden. Andere Mittelwertberechnungen sind ebenso denkbar. Der kombinierte Vektor kann auch mittels anderen bekannten Methoden für Ensemble berechnet werden, z.B. per sog. majority voting.
Dieses Verfahren erzielt dabei folgende Verbesserungen: Ein schnellerer Labelingprozess durch eine Fokussierung auf die Bilder, bei denen Klassifikationsschwierigkeiten auftreten. Das spart Zeit beim manuellen Labeln, da weniger Bilder gelabelt werden müssen und verbessert auch die Performance des Ensemble, da mehr relevante Label verwendet werden, die die Leistung des Klassifikationsalgorithmus verbessern.
Es wird vorgeschlagen, dass der Schwellwert abhängig von einem mittleren Wert der ermittelten Vektoren für den ersten Datensatz und abhängig von einer Standardabweichung des mittleren Wertes ermittelt wird. Vorzugsweise entspricht der Schwellwert dem Mittelwert der Vektoren plus die Standardabweichung der Vektoren. Denkbar ist auch, dass der Mittelwert um einen vorgebbaren Prozentsatz (z.B. 5% oder 10%) reduziert wird. Ferner sind folgende Alternativen denkbar:

(1) Der Schwellenwert könnte auch unter Berücksichtigung der Standardabweichung und des Mittelwerts der Vektoren vom 2ten Datensatz ermittelt werden. Z.B. wenn als Schwellenwert (nur unter Berücksichtigung des ersten Datensatzes) ein Wert von 0.6 rauskommt, im 2ten Datensatz bei alle gemittelten Vektoren der Maximalwert aber > 0.6 ist (d.h. kein Bild würde als unsicher gelten) oder alle gemittelten Maximal Werte < 0.6 (d.h. alle Bilder würden als unsicher gelten), könnte es Sinn machen, den Schwellenwert mit Information aus dem 2ten Datensatz anzupassen, bspw. indem der Schwellwert um einen vorgebbaren Prozentsatz (z.B. 5% oder 10%) entsprechend erhöht oder reduziert wird.
(2) verschiedene Schwellenwerte pro Klasse/ Label wären möglich. z.B. Label 1 hat Schwellenwert von 0.7, Label 2 dagegen von 0.6, Label 3 von 0.65 etc.
(3a) Statt einer normalen Mittelwert- bzw. Standardabweichungs-berechnung könnte diese auch gewichtet über die maschinellen Lernsysteme erfolgen, z.B. indem gewissen Lernsystemen mehr Gewichtung gegeben wird (z.B. bei 3 Lernsystem, statt 1/3, 1/3, 1/3, könnte es ½, ¼, ¼ sein).
(3b) Oder auch indem gewissen maschinellen Lernsystemen mehr Gewicht bei einzelnen Labeln gegeben wird, d.h. es würde einzelnen Lernsystemen zugetraut werden, dass diese gewisse Klassen korrekter vorhersagen. (z.B. statt bei 10 Klassen und 3 Lernsystemen die Vektoren v1, v2, v3 wie folgt zu gewichten: 1/3 v1 + 1/3 v2 + 1/3 v3, wäre es denkbar: $\begin{array}{l} 1 / 3 [0.9 0.1 0 \dots 0] v 1 + \\ 1 / 3 v 2 + \\ 1 / 3 [0 0 0.8 0.2 0..0] v 3 \end{array}$
d.h. Lernsystem 1 würde dahingehend gewichtet werden, dass diesem zugetraut wird, dass es die erste Klasse/Label verlässlich bestimmt und bspw. wird dem zweiten Lernsystem zugetraut alle Label korrekt zu bestimmen und Lernsystem 3 mit einer geringen Gewichtung (20%) das 4 te Label verlässlich vorhersagt.

Weiterhin wird vorgeschlagen, dass die ausgebenden Vektoren der maschinellen Lernsysteme normierte sind und der Schwellwert einen Wert zwischen 0.6 und 0.8 aufweist. Besonders bevorzugt beträgt der Schwellwert 0.7, welcher sich als robust erwiesen hat, auch über unterschiedliche Datensätze hinweg.
Weiterhin wird vorgeschlagen, dass beim ersten Anlernen die Mehrzahl von maschinellen Lernsystemen mit unterschiedlicher Initialisierung angelernt werden, wobei für die unterschiedlichen Initialisierungen die maschinellen Lernsysteme eine gleiche oder im wesentlichen gleiche Architektur aufweisen. Die Initialisierungen können dabei entweder randomisiert sein oder die Gewichte aus vortrainierten Netzen erfolgen. Unter einer Initialisierungen kann eine anfängliche Parametrisierung verstanden werden. Vorzugweise werden beim ersten Anlernen unterschiedliche Trainingsalgorithmen verwendet und/oder die maschinellen Lernsysteme auf unterschiedlichen Untermengen des ersten Datensatzes angelernt. Eine Architektur beschreibt einen Aufbau des maschinellen Lernsystems.
Weiterhin wird vorgeschlagen, dass die maschinellen Lernsysteme neuronale Netze sind, wobei diese zueinander unterschiedliche Architekturen aufweisen. Vorzugweise wird der Klassifikationsvektor mittels einer Softmax-Schicht berechnet. Vorteilhaft ist, wenn sich die Architekturen der Neuronalen Netze möglichst unterscheiden (d.h. dass nicht alle neuronalen Netze dieselbe Architektur aufweisen). Dies erhöht die Zuverlässigkeit des Ensembles.
In einem zweiten Aspekt der Erfindung wird eine Mehrzahl der ausgewählten Bilder gemäß dem ersten Aspekt der Erfindung gelabelt und die Mehrzahl der maschinellen Lernsysteme werden mit zumindest den ausgewählten, gelabelten Bildern oder allen gelabelten Bildern nachangelernt. Dieses zweite Anlernen der maschinellen Lernsysteme mit Trainingsdaten umfassend die neu gelabelten Bildern hat zu deutlichen Performancezugewinne (bspw. bessere Klassifikationsgenauigkeit) geführt.
Bevorzugt wird für alle Aspekte der Erfindung die Mehrzahl der maschinellen Lernsysteme zur Defekterkennung für insbesondere von Halbleiterwafer, angelernt und hierfür verwendet. Das Anlernen erfolgt dann vorzugsweise für eine Defekterkennung von Wafern, wobei dann die maschinellen Lernsysteme jeweils ein Bildklassifikator sein können, welche für eine optische Bildererkennung eingerichtet sind und eine Mehrzahl von Defekten bzw. Anomalien klassifizieren können. Es sei angemerkt, dass die maschinellen Lernsystem untereinander gleiche und/oder unterschiedliche Defekte bzw. Anomalien erkennen können. Denkbar ist aber auch, dass das maschinelle Lernsystem ein Objektdetektor ist und/oder eine semantische Segmentierung ausführt, um die Defekte zu erkennen, insbesondere hervorzuheben, und abhängig hiervon eine Kategorisierung auszugeben. Die Klassifizierung kann als eine Kategorisierung in unterschiedliche Kategorien von Defekten gegeben sein.
Es sei angemerkt, dass für alle Aspekte der Erfindung unter dem Begriff des Bildes grundsätzlich jede in einem zwei- oder mehrdimensionalen Raster angeordnete Verteilung von Informationen aufgefasst werden kann. Diese Informationen können beispielsweise Intensitätswerte von Bildpixeln sein, die mit einer beliebigen Abbildungsmodalität, wie etwa mit einer optischen Kamera, o.ä. aufgenommen wurden. Vorzugsweise sind die Bilder Ausschnitte von Aufnahmen von Wafer, insbesondere Waferoberflächen oder Waferquerschnitte oder Röntgenaufnahmen von Wafern.
Ferner sei angemerkt, dass die Kategorien wie folgt gegeben sein können: Die Kategorein charakterisieren, ob die Bilder Defekte zeigen und/oder können unterschiedliche Defekte charakterisieren. Zusätzlich oder alternativ können die Kategorien jeweils eine Qualitätsbeurteilung der Bilder charakterisieren. Beispielsweise können die Kategorien unterschiedliche Größen und/oder Formen der Defekte charakterisieren. Kategorien können unterschiedliche Arten von Defekten sein, bspw. Verätzungen, Reaktionen der Waferoberfläche mit gewissen Materialien, Fremdpartikel (z.B. Staub), Fremdstoffe (z.B. Öl, Fett), Schweißdefekte, mechanische Defekte (Kratzer).
Ferner sei angemerkt, dass ein Ensemble von maschinellen Lernsystemen verwendet wird, wobei die Kategorisierung abhängig von den Ausgaben der maschinellen Lernsysteme ermittelt wird. Bevorzugt werden als Ensemble drei maschinelle Lernsysteme verwendet. Denn es hat sich überraschenderweise herausgestellt, dass für die Defekterkennung drei maschinelle Lernsysteme zu einer zuverlässigen Performance erzeugen und eine ausreichende Robustheit aufweisen.
In einem weiteren Aspekt der Erfindung wird vorgeschlagen, dass abhängig von den Ausgaben der angelernten maschinellen Lernsysteme der vorhergehenden Aspekte der Erfindung ermittelt wird, ob eine Wartung an einer der Produktionsmaschinen ausgeführt werden muss. Dies hat den Vorteil, dass hiermit eine hohe Produktionsqualität aufrechterhalten werden kann. Tritt beispielsweise mit einer Wiederholungsrate höher als ein vorgebbarer Schwellwert ein gleicher Defekt (=gleiche Kategorie) auf, kann abhängig von der Art des Defektes ermittelt werden, welche Art von Wartung der Produktionsmaschine oder Reinraums sinnvoll wäre. Denkbar ist auch, dass der Wartungsbedarf vorhergesagt wird oder entschieden wird, welcher Chip auf den Wafer als Schlecht-Teil aussortiert wird. Denkbar ist auch, dass abhängig von den Ausgaben eine Entscheidung getroffen wird, ob ein Defekt so schwerwiegend ist, dass der Chip, der vom Defekt betroffen ist, in einem späteren Prozessschritt verworfen werden muss.
Beispielsweise kann abhängig von der ermittelten Kategorisierung, insbesondere von einer Häufigkeit oder Wiederholungsrate gleicher ermittelter Kategorien, durch das maschinelle Lernsystem bei seiner Inferenz eine Steuergröße ermittelt werden .
Die Steuergröße kann zum Steuern einer Wartungsmaßnahme oder zum Anzeigen einer empfohlenen Wartungsmaßnahme verwendet werden.
In weiteren Aspekten betrifft die Erfindung eine Vorrichtung sowie ein Computerprogramm, die jeweils eingerichtet sind, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

1 schematisch ein Labeling von Bildern für eine Halbleiterfabrik;
2 schematisch ein Flussdiagramm eines Ausführungsbeispiel zum verbesserten Labeln der Bilder; und
3 schematisch eine Trainingsvorrichtung.

Beschreibung der Ausführungsbeispiele
1 zeigt schematisch ein Vorgehen zum Labeln von Bildern aus einer Halbleiterfabrik sowie ein Anlernen eines maschinellen Lernsystems und dessen Verwendung für die Halbleiterfabrik.
Zuerst werden Bilder 1 aus der Halbleiterfabrik bereitgestellt. Diese Bilder können Aufnahmen von Wafern sein, die bspw. mit einer Kamera und/oder einem Mikroskop oder einem Rastertunnelmikroskop aufgenommen wurden.
Daraufhin werden diese Bilder 1 durch einen Experten (z.B. Defect Engineer) begutachtet und einer Vielzahl von Kategorien zugeordnet. Die Kategorien können vom Experten definiert werden. In 1 sind beispielhaft Bilder aus einer Kategorie „große Partikel“ 3, „kleine Partikel“ 4 und „Flocken“ 5 abgebildet. Die Zuordnung einer Kategorie zu einem der Bilder soll im Folgenden als Labeln bezeichnet werden, wobei die Kategorien sog. Label sind.
Anschließend werden diese Bilder mit zugeordneten Labeln zum Anlernen 6 eines maschinellen Lernsystems 7 verwendet.
Nachdem das maschinelle Lernsystem 7 mit den eben gelabelten Bildern 1 angelernt wurde, kann es in der Halbleiterfabrik eingesetzt werden. Hierbei wird ein aktuelles Bild 8 eines frisch prozessierten Wafers bereitgestellt, welches mittels dem angelernten maschinellen Lernsystem 7 klassifiziert wird. In 1 hat das maschinelle Lernsystem 7 dem Bild 8 die Kategorie „großes Partikel“ zugeordnet.
Vorzugsweise werden die Bilder des frisch prozessierten Wafers vorsortiert, um vorab Bilder auszusortieren, die mit hoher Wahrscheinlichkeit keinen Defekt aufweisen. Dies kann bspw. durch Vergleichen der Bilder mit Referenzbildern durchgeführt werden. D.h. bevorzugt sind die Bilder 8, die dem maschinellen Lernsystem bereitgestellt werden, diejenigen Bilder, die eine Anomalie hinsichtlich der Referenzbildern aufweisen und somit höchstwahrscheinlich einen Defekt zeigen. Die gleiche Vorsortierung kann auch für die Bilder 1, die vom Experten gelabelt werden, durchgeführt werden.
Abhängig von der Kategorisierung durch das maschinelle Lernsystem 7 kann entschieden werden, ob der Wafer in Ordnung ist, oder verworfen werden soll. Zusätzlich können auch abhängig von der Kategorisierung durch das maschinelle Lernsystem 7 weitere Schritte 9 eingeleitet werden, um z.B. eine Wartung der Produktionsmaschine des Wafers zu starten. Dies hat den Vorteil, dass anschließend die Produktion mit höherem Wirkungsgrad vorliegen kann.
Besondere Herausforderungen des Vorgehens nach 1 sind, dass beim Betreiben der Halbleiterfabrik sehr viele Bilder 8 pro Stunde aufgenommen werden und auch klassifiziert werden müssen und demnach das Vorgehen stark skalierbar sein muss. Eine weitere Herausforderung liegt darin, dass es eine große Vielzahl an potenziellen Kategorien existiert und es herausfordernd ist, die Defekte aufgrund ihrer unterschiedlichen Erscheinungen durch ein maschinelles Lernsystem zu kategorisieren. Erschwerend kann hier dazukommen, dass sich die Defekte verändern können. Ferner ist eine besondere Herausforderung, die hohe Menge von Bildern in möglichst geringer Zeit zu bearbeiten, da während der Herstellung hierfür nur wenige Minuten zur Verfügung stehen.
Um diesen Herausforderungen gerecht zu werden, werden im Folgenden eine Methode zur Verbesserung des Vorgehens nach 1 vorgeschlagen.
Die Methode ist das Trainieren eines Bildklassifizierungsalgorithmus mit n (n>=2) maschinellen Lernsystemen, die im Folgenden als Modelle insbesondere als auf Neuronalen Netzwerken basierende Modelle, bezeichnet werden. Bei dieser Mehrzahl von maschinellen Lernsystemen wird das Zusammenführen der Ergebnisse über ein sogenanntes „Ensemble Voting“ realisiert. Dabei wird der Ergebnisvektor der n trainierten Modelle kombiniert, z.B. gemittelt. Durch die n unterschiedlichen Modelle, die im Idealfall bei schwierigen oder unbekannten Bildern verschiedene Ergebnisse vorhersagen, ist erstens die Klassifizierungsaussage des Ensemble Votings vertrauenswürdiger und zweitens können damit unbekannte Bilder entdeckt werden. Unbekannte Bilder sind solche, wo sich die Aussagen der n Modelle zu sehr unterscheiden. Die gewählten Netzwerke der Modelle können dabei auf in der Literatur etablierten Architekturen basieren. Alternativ zum Wählen von n>=2 verschiedenen Modellen ist es möglich, nur n>=1 Modelle zu wählen, die aber alle (n>=1) oder teilweise (n>=2) auch mit der Information von Unbekannten Daten trainiert werden. Dabei kann im Vorfeld eine extra Kategorie „Unbekannt“ vom Anwender gelabelt werden, die z.B. aus Bildern besteht, die in keine der anderen Kategorien passen.
2 zeigt eine Ausführungsform eines Verfahrens 20 zum Erstellen eines Trainingsdatensatzes mit Unterstützung der maschinellen Lernsysteme 7.
Das Verfahren 20 beginnt mit einem Bereitstellen (S21) einer Mehrzahl von Bildern 1. Die Mehrzahl von Bilder können, wie zu 1 erläutert, in einer Halbleiterfabrik erfasst worden sein.
Daraufhin folgt ein Definieren S22 einer Mehrzahl von Kategorien für die bereitgestellten Bilder 1. Wie zu 1 erläutert, kann ein Experte oder Anwender des Verfahrens die Kategorien definieren.
Daraufhin folgt ein erstes Kategorisieren S23 einer ersten Menge der bereitgestellten Bilder 1, indem die Bilder der ersten Menge jeweils einer der Kategorien zugewiesen werden. Die Zuweisung kann durch den Experten oder Anwender des Verfahrens erfolgen.
Daraufhin folgt ein erstes Anlernen S24 der maschinellen Lernsysteme 7 mit der ersten Menge der kategorisierten Bildern.
Daraufhin folgt ein Verarbeiten S25 einer zweiten Menge der Bilder mit dem maschinellen Lernsystem 7, wobei die zweite Menge nicht-kategorisierte Bilder der bereitgestellten Bilder 1 enthält, wobei beim Verarbeiten die maschinellen Lernsysteme (7) jeweils einen Vektor ausgeben, dessen Einträge eine Kategorisierung des jeweiligen verarbeiteten ungelabelten Bildes charakterisieren. Abhängig von den Vektoren zu einem verarbeiteten ungelabelten Bild werden die diejenigen ungelabelten Bilder ausgewählt, bei welchen sich die maschinellen Lernsysteme unsicher bzw. unschlüssig über deren Kategorisierung sind. Liegt z.B. eine große Abweichung zwischen den Vektoren für das gleiche Bild vor, kann dieses Bild zum Labeln ausgewählt werden.
Daraufhin folgt ein zweites Kategorisieren S26 der eben ausgewählten Bilder.
Optional kann ein zweites Anlernen S27 des maschinellen Lernsystems anhand aller kategorisierten Bilder aus dem ersten und zweiten Kategorisieren erfolgen.
Vorzugsweise werden die Schritte S25 bis S26 oder bis S27 mehrmals hintereinander ausgeführt.
3 zeigt schematisch eine Datenpipeline 500, die einen Bereitsteller 51 umfasst, der die Bilder aus der ersten und/oder zweiten Menge der Bilder aus den Schritten S23 und S26 bereitstellt. Eingangsbilder werden dem Ensemble von maschinellen Lernsystemen 52 zugeführt, dass hieraus die Kategorisierungen ermitteln. Kategorisierungen und Eingangsbilder werden einem Beurteiler 53 zugeführt, der hieraus aktualisierte Hyper-/Parameter ermittelt, die dem Parameterspeicher P übermittelt werden und dort die gegenwärtigen Parameter ersetzen. Der Beurteiler 53 ist bspw. eingerichtet, die Schritte des Anlernens S24 und S26 des Verfahren nach 1 auszuführen.
Die vom Trainingsvorrichtung 500 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 54 hinterlegt sein und von einem Prozessor 55 ausgeführt werden.
Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.

Claims

Computerimplementiertes Verfahren zum Auswählen von ungelabelten Bildern aus einem teilweise gelabelten Trainingsdatensatzes zum Labeln, umfassend folgende Schritte: Aufteilen des teilweise gelabelten Trainingsdatensatzes in einen ersten Datensatz mit gelabelten Bildern und in einen zweiten Datensatz mit ungelabelten Bildern; Erstes Anlernen (S24) einer Mehrzahl von maschinellen Lernsystemen auf dem ersten Datensatz; Verarbeiten (S25) des zweiten Datensatzes mit der Mehrzahl der maschinellen Lernsystemen (7), wobei die maschinellen Lernsysteme (7) jeweils einen Vektor ausgeben, dessen Einträge eine Kategorisierung des jeweiligen verarbeiteten, ungelabelten Bildes charakterisieren; Auswählen zum Labeln derjenigen ungelabelten Bilder des zweiten Datensatzes, deren ermittelte Vektoren durch die Mehrzahl der maschinellen Lernsystemen (7) größer als ein vorgegebener erster Schwellwert voneinander abweichen oder die Einträge eines kombinierten Vektors aus den ermittelten Vektoren des jeweiligen Bildes kleiner ein vorgegebener zweiter Schwellwert ist.
Verfahren nach Anspruch 1, wobei der Schwellwert abhängig von einem mittleren Wert der ermittelten Vektoren für den ersten Datensatz und abhängig von einer Standardabweichung der ermittelten Vektoren für den ersten Datensatz ermittelt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die ausgebenden Vektoren normiert sind und der Schwellwert einen Wert zwischen 0.6 und 0.8 aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei beim ersten Anlernen (S24) die Mehrzahl von maschinellen Lernsystemen mit unterschiedlicher Initialisierung und/oder unterschiedlichen Trainingsalgorithmen und/oder die maschinellen Lernsysteme auf unterschiedlichen Untermengen des ersten Datensatz es angelernt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei beim ersten Anlernen (S24) die Mehrzahl von maschinellen Lernsystem mit unterschiedlichen Architekturen angelernt werden.
Verfahren nach Anspruch 5, wobei die maschinellen Lernsysteme (7) neuronale Netze sind, wobei diese unterschiedliche Architekturen aufweisen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Mehrzahl der ausgewählten Bilder gelabelt wurden und die Mehrzahl der maschinellen Lernsysteme mit zumindest den ausgewählten, gelabelten Bildern nachangelernt werden.
Vorrichtung, welche eingerichtet ist, das Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 9 gespeichert ist.