DE102022212154A1

DE102022212154A1 - Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen

Info

Publication number: DE102022212154A1
Application number: DE102022212154.6A
Authority: DE
Inventors: Anna Khoreva; Massimo Bini
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2024-05-16
Also published as: CN118052722A; KR20240071337A; JP2024072279A; US20240161234A1

Abstract

Computerimplementiertes Verfahren zum Trainieren eines maschinell lernenden Systems, wobei das maschinell lernende System zur Erzeugung von Bildern in mindestens zwei Stufen trainiert wird.

Description

Stand der Technik
Bildsynthese ist der Prozess der künstlichen Erzeugung von Bildern, die einen spezifischen gewünschten Inhalt enthalten. Sie ist analog zur Umkehrung des Klassifizierungsproblems: Erzeugen eines Bildes, das die visuellen Inhalte enthält, die mit einem spezifischen Label verknüpft sind. Generative Adversarial Networks (GANs) sind eine Architektur, die trainiert werden kann, um synthetische Bilder zu erzeugen.
Beispielsweise nutzen vektorquantisierte, VQ, Modelle Transformerarchitekturen auf effektive Weise, indem sie diese auf einer Bildeinbettungsebene anstatt auf einer Pixelebene verwenden.
Das VQ-Modell VQGAN war eines der ersten VQ-Modelle, das hochauflösende Bilder erzeugen konnte, siehe beispielsweise Patrick Esser, Robin Rombach, und Björn Ommer, „Taming transformers for high-resolution image synthesis“, in CVPR, 2021.
Insbesondere wird während des Trainings in einer ersten Stufe ein Codebuch von Token-Einbettungen erlernt, das in einer zweiten Stufe als Wörterbuch für den Transformer dient. Auf diese Weise können zur Inferenzzeit neue Bilder synthetisiert werden, indem eine Folge von Token-Einbettungen aus dem Codebuch abgetastet und in Bilder dekodiert werden. In VQGAN wurde dies anfänglich autoregressiv durchgeführt, wodurch die Erzeugung langsam wurde und Verzerrungen auf unerwünschte Weise eingeführt wurden. Jedoch zeigte neuerdings MaskGIT eine bessere und schnellere Lösung über einen bidirektionalen Maskierungsansatz, siehe beispielsweise Chang, H., Zhang, H., Jiang, L., Liu, C., Freeman, W.T.: „MaskGIT: Masked generative image Transformer", arXiv-Vorabdruck arXiv:2202.04200, 2022. In diesem Zusammenhang erfolgt die bedingte Erzeugung durch Anhängen von Konditionierungs-Tokens an die Bild-Tokens, wodurch der Transformer die bedingten Datenverteilungen lernt. Siehe beispielsweise in DALL-E, Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen und Ilya Sutskever, „Zero-shot text-to-image generation". In Marina Meila und Tong Zhang, Herausgeber, ICML, 2021, konnte man eine Art Kontrollierbarkeit durch Textkonditionierung erkennen; dabei ist dies ist jedoch nicht immer einfach und auf Objektebene kontrollierbar.
In einem Versuch, objektzentrische Repräsentationen zu erhalten, haben Locatello et al., Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy und Thomas Kipf, „Object-centric learning with slot attention", 2020, das Konzept von Schlitzen (Engl.: „Slots“) eingeführt: Arten von Speicherzellen, auf die sich das Modell durch Schlitz-Aufmerksamkeit konzentrieren kann und die sich schließlich über mehrere Aufmerksamkeitsrunden an ein Objekt binden. In diesem Zusammenhang kombiniert Slot2Seq, Gautam Singh, Fei Deng, Sungjin Ahn, „Illiterate DALL-E Learns to Compose“, 2021, DALL-E mit Schlitz-Aufmerksamkeit, um neue Bilder auf kompositorische Weise zu synthetisieren, durch Konditionierung auf Konzepte, die während des Trainings über die Schlitze gelernt wurden. Eine solche Konditionierung ist jedoch nicht leicht kontrollierbar, da Schlitz-Konzepte manuell abgeleitet werden und das Modell die DALL-E-Fähigkeiten drastisch behindert, indem es seine Textkonditionierungsstruktur entfernt.
Die vorliegende Erfindung verbessert Ansätze, die im Stand der Technik bekannt sind.
Offenbarung der Erfindung
Ein Ausführungsbeispiel betrifft ein computerimplementiertes Verfahren zum Trainieren eines maschinell lernenden Systems, wobei das maschinell lernende System zur Erzeugung von Bildern in mindestens zwei Stufen trainiert wird, wobei in einer ersten Stufe basierend auf mindestens einem Eingabebild mindestens ein Codebuch gelernt wird durch Tokenisieren des mindestens einen Eingabebildes und Rekonstruieren von Bildern durch eine Autokodierungsarchitektur, und in einer zweiten Stufe ein Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf dem mindestens einen Codebuch durch Rekonstruieren maskierter Tokens der rekonstruierten Bilder zu erzeugen, wobei das Erzeugen des Codewörterbuchs („Eng!.: codebook dictionary“) in der ersten Stufe Erzeugen eines Codebuch-Vokabulars durch Mischen von Bildmerkmalen des Eingabebildes unter unterschiedlichen Skalen der Bildmerkmale umfasst, wobei die Bildmerkmale über die Autokodierungsarchitektur kodiert und dekodiert werden, und wobei der Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf Konditionierung mit gelabelten Schlitzen (Engl.: „labeled-slot conditioning“) zu erzeugen.
In der ersten Stufe wird ein Codewörterbuch erlernt, indem ein Eingabebild tokenisiert wird, d. h. das Eingabebild in einen endlichen Satz von Token kodiert wird, und Bilder durch eine Autokodierungsarchitektur rekonstruiert werden. In der Praxis wird das Eingabebild in einen niedrigerdimensionalen Raum kodiert und dann quantisiert, d. h. jeder Einbettungsvektor wird durch den nächsten Vektor aus einem Codewörterbuch ersetzt. Dann werden Bilder über einen Dekodierer rekonstruiert. Zum Trainieren der Autokodierungsarchitektur und des Codebuchs kann beispielsweise ein Wahrnehmungsverlust und/oder ein Rekonstruktionsverlust und/oder ein GAN-Verlust verwendet werden, wobei ein Diskriminator versucht, zwischen realen und rekonstruierten Bildern zu unterscheiden.
In der zweiten Stufe wird ein Transformer-Dekodierer darauf trainiert, die maskierten Tokens der eingebetteten Bilder zu rekonstruieren. Gemäß einem Beispiel wird ein bidirektionaler Transformer darauf trainiert, einen zufällig ausgewählten Prozentsatz von zufällig maskierten Token zu rekonstruieren. Auf diese Weise ist der Transformer während der Inferenz in der Lage, durch Abtasten bei jedem Schritt einer bestimmten Anzahl von Tokens, beispielsweise durch Verfolgen eines spezifischen Zeitplans, neue eingebettete Bilder zu erzeugen, die dann in neue Bilder dekodiert werden. Ein solcher bidirektionaler Transformer ist beispielsweise aus MaskGIT bekannt.
Gemäß der vorliegenden Offenbarung wird eine Verbesserung der ersten Stufe und eine Verbesserung der zweiten Stufe vorgeschlagen.
In dem vorgeschlagenen Modell wird zum Erzeugen des Codewörterbuchs in der ersten Stufe ein skalenübergreifendes Mischen zwischen unterschiedlichen Skalen von Bildmerkmalen, die kodiert und zurück dekodiert werden, vorgeschlagen.
Für die zweite Stufe wird eine Schlitz-basierte bedingte bzw. konditionierte Erzeugung vorgeschlagen. Dadurch wird ein neuer Weg eingeführt, Multiklassen-Konditionierung für generative VQ-Modelle einzusetzen. Die vorgeschlagene Konditionierung auf Objektebene ermöglicht eine einfachere kompositorische Erzeugung. Die Einbeziehung von Klassenlabels erleichtert die Bindung erfasster Konzepte an bestimmte Klassen, wodurch es einfacher wird, Bilder aus der Grundeinheit von Objekten zusammenzusetzen. In der Praxis ermöglicht diese neue Struktur eine objektsteuerbare kompositorische Bilderzeugung, wobei neue Objekte hinzugefügt und vorhandene entfernt oder durch Objekte unterschiedlicher Klassen ersetzt werden können. Die Konditionierung mit gelabelten Schlitzen ist auch vorteilhaft, da sie für Menschen lesbar und kontrollierbar ist, während das vorgeschlagene Modell in Bezug auf letzteres extrem einfacher und direkter ist, und auf einer Architektur aufbaut, die mit dem aktuellen Stand der Technik für die Bildsynthese vergleichbar ist. Dies impliziert auch eine einfachere Annotationsaufgabe während der Datenerfassung, da Annotatoren nur auswählen müssen, ob einige Objekte aus einer Liste vordefinierter Objekte vorhanden sind oder nicht.
Das vorgeschlagene Verfahren ist eine Modifizierung der oben erwähnten MaskGIT-Architektur. Das Mischen über Skalen hinweg wird erheblich erleichtert, wodurch die Fähigkeit des Modells, ein reichhaltigeres Vokabular wiederverwendbarer Konzepte zu erzeugen, verbessert wird. Dies ist wichtig für die Kompositionalität, da das Erfassen gemeinsamer Konzepte höherer Qualität unter Daten, die hier durch Codebuchvektoren dargestellt werden, bedeutet, besser verallgemeinern zu können. Die Kombination von Konzepten auf unsichtbare Weise würde weniger Verzerrungen aus den Trainingsdaten mit sich bringen. Die MaskGIT-Architektur selbst besteht im Wesentlichen in einer Verbesserung gegenüber der zweiten Stufe von VQGAN.
Gemäß einer Ausführungsform umfasst das Eingabebild Bildmerkmale auf niedriger Ebene und Bildmerkmale auf hoher Ebene, und skalenübergreifendes Mischen umfasst ein Aggregieren von Bildmerkmalen auf hoher Ebene und Bildmerkmalen auf niedriger Ebene über mindestens ein Queraufmerksamkeits-Modul unter Bildmerkmalen auf niedriger Ebene und Bildmerkmalen auf hoher Ebene. In der Praxis erfolgt dies beispielsweise durch Hinzufügen von Queraufmerksamkeits-Modulen zu Bildmerkmalen in unterschiedlichen Skalen, d. h. Aggregieren von Merkmalen auf hoher Ebene und niedriger Ebene.
Gemäß einer Ausführungsform umfasst das skalenübergreifende Mischen mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer ersten Ebene der Autokodierungsarchitektur und mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer zweiten Ebene der Autokodierungsarchitektur, und Aktualisieren der ersten Ebene der Autokodierungsarchitektur mit Verlusten, die von der zweiten Ebene der Autokodierungsarchitektur kommen, und/oder Aktualisieren der zweiten Ebene der Autokodierungsarchitektur mit Verlusten, die von der ersten Ebene der Autokodierungsarchitektur kommen.
Gemäß einer Ausführungsform wird in der ersten Stufe mindestens eine der folgenden Codebuchkonfigurationen erzeugt: a) mindestens zwei separate skalenbezogene Codebuchwörterbücher; oder b) ein Codebuch auf niedriger Ebene und ein Codebuch auf hoher Ebene, wobei das Codebuch auf niedriger Ebene von dem Codebuch auf hoher Ebene abhängig ist, oder c) ein einzelnes skalengemischtes Codebuch.
Gemäß der Konfiguration a), nämlich mindestens zwei getrennte skalenbezogene Codebuchwörterbücher, können Bilder erzeugt werden, die beide Codebuchwörterbücher betreffen. Gemäß der Konfiguration c) lässt ein einzelnes skalengemischtes Codebuch dem Modell mehr Freiheit. Diese skalenübergreifenden Codebücher fördern Interaktionen zwischen unterschiedlichen Merkmalen bei unterschiedlichen Skalen, was zu reichhaltigeren Codebuchvektoren führt. Dies ist wichtig, da ein besseres Codebuch im erhöhten Maße zu wiederverwendbaren Konzepten geneigt ist, die zu weniger aus dem Datensatz herrührenden Verzerrungen und besseren Kompositionsfähigkeiten führen.
Gemäß einer Ausführungsform umfasst das Konditionieren mit gelabelten Schlitzen Bereitstellen einer Mehrzahl von Klassenlabels, wobei jedes Klassenlabel einer Klasse eines Objekts eines Bildes entspricht, für Schlitze eines Schlitz-Aufmerksamkeits-Moduls des Transformer-Dekodierers. Insbesondere sind die Anzahl der Klassenlabels und die Anzahl der Schlitze pro Bild gleich der Anzahl der Objekte des Bildes, plus eines für den Hintergrund.
Gemäß einer Ausführungsform umfasst das Verfahren Initialisieren der Schlitze des Schlitz-Aufmerksamkeits-Moduls auf eine klassenabhängige Weise und Bereitstellen eines Verlustterms, der erzwingt, dass ein jeweiliger Schlitz einer spezifischen Klasse zugeordnet wird. Um eine solche Schlitz-Konditionierung durchzusetzen, wird ein Klassifikator über den Bild-Token-Einbettungen verwendet, und eine solche Vorhersage wird mit Schlitz-Klassenlabels verglichen. Ein Klassifikator ordnet jeden Bildeinbettungsvektor einer Klasse zu, und dann wird jede Schlitz-Aufmerksamkeitskarte als gewichtete Durchschnittsausdrücke verwendet, um die entsprechende Schlitz-Klasse zu erhalten, während ein Verlustterm erzwingt, dass es sich um die korrekte Klasse handelt.
Gemäß einer Ausführungsform kann, wenn in Stufe 1 mindestens zwei hierarchische Codebuchwörterbücher erhalten werden, die sich auf unterschiedliche Skalen beziehen, das Schlitz-Aufmerksamkeits-Modul gemäß einer der folgenden Weisen modifiziert werde: (i) Mischen der mindestens zwei Codebuchwörterbücher durch Verketten von Vektoren der mindestens zwei Codebuchwörterbücher, (ii) Verschachteln der Queraufmerksamkeiten vor der mindestens einen wiederkehrenden Gatter-Einheit, GRU, des Transformer-Dekodierers, (iii) Verketten von mindestens zwei getrennten Schlitz-Aufmerksamkeits-Modulen.
Weitere Ausführungsformen der vorliegenden Offenbarung betreffen ein maschinell lernendes System, das gemäß einem Verfahren gemäß den Ausführungsformen trainiert wurde.
Weitere Ausführungsformen der vorliegenden Offenbarung betreffen die Verwendung eines trainierten maschinellen Lernens, wobei das maschinell lernende System nach einem Verfahren gemäß den Ausführungsformen auf mindestens eines des Folgenden trainiert wird: a) Erzeugen gelabelter Objekte, und/oder b) Zusammensetzen von Bilddaten für erweiterte und/oder synthetische Daten, und/oder c) Erzeugen von Bilddaten für synthetische Daten in ungesehenen Kompositionen. Das trainierte Modell stellt eine kostengünstige und effiziente Lösung zum Erzeugen von neuen Daten auch in ungesehenen Kompositionen bereit, die auf dem freien Markt teuer oder extrem schwer zu bekommen sein können. Darüber hinaus macht die Flexibilität des Modells es äußerst vielseitig für die Erzeugung eines vielfältigen und reichhaltigen Satzes synthetischer Daten.
Weitere Ausführungsformen betreffen ein Verfahren, das ein maschinelles Lernen verwendet, wobei das maschinell lernende System zum Erzeugen mindestens eines Trainingsdatensatzes und/oder mindestens eines Testdatensatzes dient. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz umfasst markierte Objektdaten und/oder markierte Bilddaten. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz dient zum Trainieren und/oder zum Testen eines maschinell lernenden Systems. Die erzeugten gelabelten Objektdaten und/oder die erzeugten gelabelten Bilddaten werden zur Bildanalyse verwendet. Vorteilhafterweise ermöglicht die Verwendung der erzeugten gelabelten Objektdaten und/oder erzeugten gelabelten Bilddaten für die Bildanalyse die Verwendung erweiterter und/oder synthetischer Daten und/oder Bilddaten der synthetischen Daten in ungesehenen Kompositionen in der Bildanalyse.
Weitere Ausführungsbeispiele ergeben sich aus der folgenden Beschreibung und den Zeichnungen. In den Zeichnungen:

1 stellt schematisch eine Autocodierungsstruktur einer ersten Stufe gemäß einer Ausführungsform der vorliegenden Offenbarung dar;
2 stellt schematisch eine Autocodierungsstruktur einer ersten Stufe gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung dar;
3 stellt schematisch eine Autocodierungsstruktur einer ersten Stufe gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung dar;
4 stellt schematisch eine Transformer-Dekodierer-Struktur einer zweiten Stufe gemäß einer Ausführungsform der Offenbarung dar;
5 stellt schematisch ein Schlitz-Aufmerksamkeits-Modul einer zweiten Stufe gemäß einer Ausführungsform der Offenbarung dar,
6a) - 6c) stellen schematisch unterschiedliche Modifizierungen des Schlitz-Aufmerksamkeits-Moduls dar.

1 stellt eine erste Stufe eines Verfahrens zum Trainieren eines maschinell lernenden Systems gemäß einem ersten Beispiel dar. In der ersten Stufe wird ein Codewörterbuch gelernt, indem ein Eingabebild IM_eingabe tokenisiert wird, d. h. das Eingabebild IM_eingabe in einen endlichen Satz von Tokens kodiert wird, und Bilder durch eine Autokodierungsarchitektur rekonstruiert werden.
Gemäß dem Beispiel umfasst die Autocodierungsstruktur zwei Kodierstufen E1, E2 und zwei Dekodierstufen D1, D2. In der ersten Stufe wird ein Codewörterbuch gelernt durch Tokenisierung, d. h. Codieren in einen endlichen Satz von Tokens, und Rekonstruieren von Bildern IM_rec durch eine Autokodierungsarchitektur.
In der Praxis wird ein Eingabebild IM_eingabe in einen niedrigerdimensionalen Raum kodiert. Gemäß einem Beispiel umfasst das Eingabebild IM_eingabe eine Anfangsdimension von z. B. 256x256x3, und ist in einen dimensionalen Raum von z. B. 16x16x'embed_dim' kodiert.
Gemäß dem Beispiel wird das Eingabebild IM_eingabe über die Kodierstufe E1 in sogenannte Zwischenbildmerkmalseinbettungen emb_im kodiert. Aus den Zwischenbildmerkmalseinbettungen können Merkmale x auf niedriger Ebene abgeleitet werden.
Gemäß dem Beispiel wird das Bild ferner über die Kodierstufe E2 in finale Bildmerkmalseinbettungen emb_fin kodiert. Aus dem finalen Bildmerkmal, das emb_fin einbettet, können Merkmale y auf hoher Ebene abgeleitet werden.
Gemäß dem Beispiel werden über ein Queraufmerksamkeits-Modul Bildmerkmale auf hoher Ebene und Bildmerkmale auf niedriger Ebene für ein skalenübergreifendes Mischen zwischen Bildmerkmalen auf niedriger Ebene und Bildmerkmalen auf hoher Ebene aggregiert. Die Einbettungen mit gemischten Merkmalen emb_mx werden durch y' dargestellt. In den Figuren stehen die Buchstaben k, v und q für Schlüssel, Werte bzw. Abfrage des Aufmerksamkeitsmechanismus.
Die gemischten Merkmalseinbettungen emb_mx werden dann quantisiert, d. h. jeder Einbettungsvektor wird durch den nächsten Vektor aus einem Codewörterbuch ersetzt. Dann wird die quantisierte Version von y', emb_mx_q, über die erste Dekodierstufe D1 und eine zweite Dekodierstufe D2 dekodiert, um eine Rekonstruktion IM_rec des Eingabebildes IM_eingabe zu erhalten.
Entsprechend dem Beispiel wird auf der Dekodierseite ein weiteres Queraufmerksamkeits-Modul hinzugefügt.
Die 2 und 3 stellen eine erste Stufe eines Verfahrens zum Trainieren eines maschinell lernenden Systems gemäß einem zweiten und einem dritten Beispiel dar. Gemäß den Beispielen wird eine Mehrzahl von Tokenisierungs- und Rekonstruktionsprozessen bei unterschiedlichen Skalen der Architektur erstellt, und unterschiedliche Teile der Architektur werden mit Verlusten aktualisiert, die von unterschiedlichen Skalen herrühren.
Gemäß dem in 2 dargestellten Beispiel werden sowohl eine quantisierte Version der Zwischenbildmerkmalseinbettungen emb_im_q als auch eine quantisierte Version der finalen Bildmerkmalseinbettungen emb_fin_q verwendet, um die zweite Dekodierstufe D2 zu aktualisieren.
Gemäß dem in 3 dargestellten Beispiel wird zunächst eine quantisierte Version der finalen Bildmerkmalseinbettungen emb_fin_q verwendet, um die zweite Dekodierstufe D2 und die Zwischenbildmerkmalseinbettungen zu aktualisieren, um emb_im_up abzuleiten. Dann wird eine quantisierte Version der aktualisierten Zwischenbildmerkmalseinbettungen emb_im_up_q verwendet, um die erste Dekodierstufe D1 zu aktualisieren.
Diese in den Beispielen gemäß 1 bis 3 abgeleiteten Tokens können in der ersten Stufe beispielsweise zu einer der folgenden Codebuchkonfigurationen führen: a) mindestens zwei getrennte skalenbezogene Codebuchwörterbücher; oder b) ein Codebuch auf niedriger Ebene und ein Codebuch auf hoher Ebene, wobei das Codebuch auf niedriger Ebene von dem Codebuch auf hoher Ebene abhängig ist, oder c) ein einzelnes skalengemischtes Codebuch.
Wenn mindestens zwei getrennte skalenbezogene Codebuchwörterbücher erzeugt werden, können Bilder erzeugt werden, die sich auf beide beziehen.
Diese skalenübergreifenden Codebücher fördern Interaktionen zwischen unterschiedlichen Merkmalen bei unterschiedlichen Skalen, was zu reichhaltigeren Codebuchvektoren führt. Dies ist wichtig, da ein besseres Codebuch im erhöhten Maße zu wiederverwendbaren Konzepten geneigt ist, die zu weniger aus dem Datensatz herrührenden Verzerrungen und besseren Kompositionsfähigkeiten führen.
4 stellt eine zweite Stufe eines Verfahrens zum Trainieren eines maschinell lernenden Systems gemäß einem Beispiel dar. In der zweiten Stufe wird ein Transformer-Dekodierer TR darauf trainiert, neue Bilder unter Berücksichtigung des Codewörterbuchs oder der in Stufe 1 erzeugten Codebuchwörterbücher zu erzeugen. Auf diese Weise können zur Inferenzzeit neue Bilder synthetisiert werden, indem eine Folge von Token-Einbettungen aus dem Codebuch abgetastet werden, und diese in Bilder dekodiert werden.
Gemäß der vorliegenden Erfindung wird der Transformer-Dekodierer TR trainiert, um Bilder basierend auf der Konditionierung mit gelabelten Schlitzen zu erzeugen.
Schlitze wurden von Locatello et al., Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy und Thomas Kipf, „Object-centric learning with slot attention", 2020, eingeführt. Schlitze sind im Grunde Repräsentationen, die von dem Modell als Speicherzellen verwendet werden. Zur Einführung und Aktualisierung dieser Repräsentationen kann ein Schlitz-Aufmerksamkeits-Modul verwendet werden.
Nach einer Aufmerksamkeitsrunde werden die Repräsentationen letztlich in Aufmerksamkeitsausdrücken an unterschiedliche Objekte der Bildszene gebunden.
Die Konditionierung mit gelabelten Schlitzen umfasst Bereitstellen einer Mehrzahl von Klassenlabels, wobei jedes Klassenlabel einer Klasse eines Objekts eines Bildes entspricht, für Schlitze eines Schlitz-Aufmerksamkeits-Moduls des Transformer-Dekodierers. Insbesondere sind die Anzahl der Klassenlabels und die Anzahl der Schlitze pro Bild gleich der Anzahl der Objekte des Bildes, plus eines für den Hintergrund.
Gemäß einer Ausführungsform umfasst das Verfahren Initialisieren der Schlitze S_L des Schlitz-Aufmerksamkeits-Moduls auf eine klassenabhängige Weise und Bereitstellen eines Verlustterms, der erzwingt, dass ein jeweiliger Schlitz einer spezifischen Klasse zugeordnet wird. Um eine solche Schlitz-Konditionierung durchzusetzen, kann ein Klassifikator über den Bild-Token-Einbettungen verwendet werden, und eine solche Vorhersage wird mit Schlitz-Klassenlabels verglichen. Ein Klassifikator ordnet jeden Bildeinbettungsvektor einer Klasse zu, und dann wird jede Schlitz-Aufmerksamkeitskarte als gewichtete Durchschnittsausdrücke verwendet, um die entsprechende Schlitz-Klasse zu erhalten, während ein Verlustterm erzwingt, dass es sich um die korrekte Klasse handelt.
Das Schlitz-Aufmerksamkeits-Modul ist in 5 dargestellt.
Wenn mehrere hierarchische Codebücher, die sich auf mehrere Skalen beziehen, von Stufe 1 erhalten werden, werden unterschiedliche Modifizierungen des Schlitz-Aufmerksamkeits-Moduls bereitgestellt, siehe 6 a) bis c).
6a) bezieht sich auf ein Mischen der Informationen durch Verketten der Codebuchvektoren. 6b) bezieht sich auf ein Verschachteln der Queraufmerksamkeiten vor den GRUs. 6 c) bezieht sich auf ein Verketten von zwei getrennten Schlitz-Aufmerksamkeits-Modulen.
Die aktualisierten Schlitze S_L_up, die über ein Schlitz-Aufmerksamkeits-Modul gemäß 5 oder 6 a) bis 6 c) aktualisiert wurden, führen schließlich zu der Konditionierung des Transformer-Dekodierers in der Aufgabe, die maskierten Token vorherzusagen. Zur Inferenzzeit werden dann die während des Trainings erlernten gelabelten Schlitz-Darstellungen für die Konditionierung des Transformer-Dekodierers verwendet, wodurch eine beliebige Anzahl gelabelter Objekte erzeugt und Bilder mit extrem hoher Steuerbarkeit zusammengesetzt werden können.
Weitere Ausführungsformen der vorliegenden Offenbarung betreffen ein maschinell lernendes System, das gemäß dem gemäß den Figuren beschriebenen Verfahren trainiert wurde.
Weitere Ausführungsformen der vorliegenden Offenbarung betreffen die Verwendung eines trainierten maschinellen Lernens, wobei das maschinell lernende System auf ein Verfahren gemäß den Ausführungsformen auf mindestens eines des Folgenden trainiert wird: a) Erzeugen gelabelter Objekte, und/oder b) Zusammensetzen von Bilddaten für erweiterte und/oder synthetische Daten, und/oder c) Erzeugen von Bilddaten für synthetische Daten in ungesehenen Kompositionen.
In Bezug auf die Komposition macht die Konditionierungseinstellung für gelabelte Schlitze die Kontrolle über die erzeugten Bilder unkompliziert: Bilder können mit einem spezifischen Satz von Objekten synthetisiert werden. Ferner können Objekte leicht hinzugefügt und/oder entfernt und/oder in den synthetisierten Bildern ersetzt werden, indem einfach die Konditionierung geändert wird. Darüber hinaus verbessert die Tatsache, dass das Modell besser wiederverwendbare Konzeptdarstellungen erhält, die in diesen Codebuch-Vokabularen gesammelt werden, die Kompositionsfähigkeiten drastisch.
Gemäß einer Ausführungsform wird das Modell mit mindestens zwei getrennten Datensätzen mit unterschiedlichen Klassen trainiert, um neue Stichproben zu erzeugen, die mindestens zwei kombinieren, d. h. auf ungesehene Kompositionen verallgemeinern. Beispielsweise kann ein Modell auf einen Datensatz A trainiert werden, der sich auf Straßenszenen mit Autos und Fahrrädern eines spezifischen Landes A bezieht, und auf einen Datensatz B, der sich auf Straßenszenen mit nur Autos, ohne Fahrräder, eines weiteren spezifischen Landes B bezieht. Ein gemäß des beschriebenen Verfahrens trainierten Modells wird neue Bilder von Straßenszenen von Land B mit Fahrrädern erzeugen können, indem es auf die Klassen „Land B Straße“ und „Fahrrad“ konditioniert wird, auch wenn die beiden Labels in dem Datensatz nie zusammen erschienen sind.
Weitere Ausführungsformen betreffen ein Verfahren, das maschinelles Lernen verwendet, wobei das maschinell lernende System zur Erzeugung mindestens eines Trainingsdatensatzes und/oder mindestens eines Testdatensatzes dient. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz umfasst gelabelte Objektdaten und/oder gelabelte Bilddaten. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz dient zum Trainieren und/oder zum Testen eines maschinell lernenden Systems. Die erzeugten gelabelten Objektdaten und/oder die erzeugten gelabelten Bilddaten werden zur Bildanalyse verwendet.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Chang, H., Zhang, H., Jiang, L., Liu, C., Freeman, W.T.: „MaskGIT: Masked generative image Transformer“, arXiv-Vorabdruck arXiv:2202.04200, 2022 [0004]
DALL-E, Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen und Ilya Sutskever, „Zero-shot text-to-image generation“. In Marina Meila und Tong Zhang, Herausgeber, ICML, 2021 [0004]
Locatello et al., Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy und Thomas Kipf, „Object-centric learning with slot attention“, 2020 [0005, 0041]

Claims

Computerimplementiertes Verfahren zum Trainieren eines maschinell lernenden Systems, wobei das maschinell lernende System zur Erzeugung von Bildern in mindestens zwei Stufen trainiert wird, wobei in einer ersten Stufe basierend auf mindestens einem Eingabebild (IM_eingabe) mindestens ein Codebuch erlernt wird durch Tokenisieren des mindestens einen Eingabebildes (IM_eingabe) und Rekonstruieren von Bildern (IM_rec) durch eine Autokodierungsarchitektur, und in einer zweiten Stufe ein Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf dem mindestens einen Codebuch zu erzeugen durch Rekonstruieren maskierter Tokens der rekonstruierten Bilder (IM_rec), wobei das Erzeugen des Codewörterbuchs in der ersten Stufe Erzeugen eines Codebuch-Vokabulars durch Mischen von Bildmerkmalen des Eingabebilds (IM_eingabe) unter unterschiedlichen Skalen der Bildmerkmale umfasst, wobei die Bildmerkmale über die Autokodierungsarchitektur kodiert und dekodiert werden, und wobei der Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf Konditionierung mit gelabelten Schlitzen zu erzeugen.
Verfahren nach Anspruch 1, wobei das Eingabebild (IM_eingabe) Bildmerkmale auf niedriger Ebene und Bildmerkmale auf hoher Ebene umfasst, und das skalenübergreifende Mischen Aggregieren, über mindestens ein Queraufmerksamkeits-Modul, von Bildmerkmalen auf hoher Ebene und Bildmerkmalen auf niedriger Ebene unter Bildmerkmalen auf niedriger Ebene und Bildmerkmalen auf hoher Ebene umfasst.
Verfahren nach Anspruch 1 oder 2, wobei das skalenübergreifende Mischen mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer ersten Ebene der Autokodierungsarchitektur und mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer zweiten Ebene der Autokodierungsarchitektur, und Aktualisieren der ersten Ebene der Autokodierungsarchitektur mit Verlusten, die von der zweiten Ebene der Autokodierungsarchitektur kommen, und/oder Aktualisieren der zweiten Ebene der Autokodierungsarchitektur mit Verlusten, die von der ersten Ebene der Autokodierungsarchitektur kommen, umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, wobei in der ersten Stufe mindestens eine der folgenden Codebuchkonfigurationen erzeugt wird: a) mindestens zwei getrennte skalenbezogene Codebuchwörterbücher; oder b) ein Codebuch auf niedriger Ebene und ein Codebuch auf hoher Ebene, wobei das Codebuch auf niedriger Ebene von dem Codebuch auf hoher Ebene abhängig ist; oder c) ein einzelnes skalengemischtes Codebuch.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Konditionierung auf gelabelte Schlitze Bereitstellen einer Mehrzahl von Klassenlabels, wobei jedes Klassenlabel einer Klasse eines Objekts eines Bildes entspricht, für Schlitze eines Schlitz-Aufmerksamkeits-Moduls des Transformer-Dekodierers umfasst.
Verfahren nach Anspruch 5, umfassend Initialisieren der Schlitze des Schlitz-Aufmerksamkeits-Moduls auf eine klassenabhängige Weise, und Bereitstellen eines Verlustterms, der erzwingt, dass ein jeweiliger Schlitz einer spezifischen Klasse zugeordnet wird.
Verfahren nach Anspruch 4 und 5 oder 6, wobei, wenn in Stufe 1 mindestens zwei hierarchische Codebuchwörterbücher erhalten werden, die sich auf unterschiedliche Skalen beziehen, das Schlitz-Aufmerksamkeits-Modul gemäß einer der folgenden Weisen modifiziert werden kann: (i) Mischen der mindestens zwei Codebuchwörterbücher durch Verketten von Vektoren der mindestens zwei Codebuchwörterbücher, (ii) Verschachteln der Kreuzaufmerksamkeiten vor der mindestens einen wiederkehrenden Gatter-Einheit, GRU, des Transformer-Dekodierers, (iii) Verketten von mindestens zwei getrennten Schlitz-Aufmerksamkeits-Modulen.
Verfahren nach einem der Ansprüche 1 bis 7, wobei das maschinell lernende System mit mindestens zwei unterschiedlichen Datensätzen trainiert wird.
Maschinell lernendes System, trainiert nach einem Verfahren nach einem der Ansprüche 1 bis 8.
Verwendung von maschinellem Lernen nach Anspruch 9, wobei das maschinell lernende System auf ein Verfahren nach einem der Ansprüche 1 bis 8 für mindestens eines des Folgenden trainiert wird: a) Erzeugen gelabelter Objekte, und/oder b) Zusammensetzen von Bilddaten für erweiterte und/oder synthetische Daten, und/oder c) Erzeugen von Bilddaten für synthetische Daten in ungesehenen Kompositionen.
Verwendung von maschinellem Lernen nach Anspruch 10, wobei ein maschinelles Lernen nach Anspruch 9 nach einem der Ansprüche 1 bis 8 trainiert wird zum Erzeugen mindestens eines Trainingsdatensatzes und/oder mindestens eines Testdatensatzes, wobei der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz gelabelte Objektdaten und/oder gelabelte Bilddaten umfasst, wobei der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz zum Trainieren und/oder zum Testen eines maschinell lernenden Systems verwendet wird.