DE102022212154A1 - Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen - Google Patents

Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen Download PDF

Info

Publication number
DE102022212154A1
DE102022212154A1 DE102022212154.6A DE102022212154A DE102022212154A1 DE 102022212154 A1 DE102022212154 A1 DE 102022212154A1 DE 102022212154 A DE102022212154 A DE 102022212154A DE 102022212154 A1 DE102022212154 A1 DE 102022212154A1
Authority
DE
Germany
Prior art keywords
level
codebook
machine learning
image
auto
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022212154.6A
Other languages
English (en)
Inventor
Anna Khoreva
Massimo Bini
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022212154.6A priority Critical patent/DE102022212154A1/de
Priority to US18/501,253 priority patent/US20240161234A1/en
Priority to JP2023193767A priority patent/JP2024072279A/ja
Priority to CN202311519844.2A priority patent/CN118052722A/zh
Priority to KR1020230158057A priority patent/KR20240071337A/ko
Publication of DE102022212154A1 publication Critical patent/DE102022212154A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

Computerimplementiertes Verfahren zum Trainieren eines maschinell lernenden Systems, wobei das maschinell lernende System zur Erzeugung von Bildern in mindestens zwei Stufen trainiert wird.

Description

  • Stand der Technik
  • Bildsynthese ist der Prozess der künstlichen Erzeugung von Bildern, die einen spezifischen gewünschten Inhalt enthalten. Sie ist analog zur Umkehrung des Klassifizierungsproblems: Erzeugen eines Bildes, das die visuellen Inhalte enthält, die mit einem spezifischen Label verknüpft sind. Generative Adversarial Networks (GANs) sind eine Architektur, die trainiert werden kann, um synthetische Bilder zu erzeugen.
  • Beispielsweise nutzen vektorquantisierte, VQ, Modelle Transformerarchitekturen auf effektive Weise, indem sie diese auf einer Bildeinbettungsebene anstatt auf einer Pixelebene verwenden.
  • Das VQ-Modell VQGAN war eines der ersten VQ-Modelle, das hochauflösende Bilder erzeugen konnte, siehe beispielsweise Patrick Esser, Robin Rombach, und Björn Ommer, „Taming transformers for high-resolution image synthesis“, in CVPR, 2021.
  • Insbesondere wird während des Trainings in einer ersten Stufe ein Codebuch von Token-Einbettungen erlernt, das in einer zweiten Stufe als Wörterbuch für den Transformer dient. Auf diese Weise können zur Inferenzzeit neue Bilder synthetisiert werden, indem eine Folge von Token-Einbettungen aus dem Codebuch abgetastet und in Bilder dekodiert werden. In VQGAN wurde dies anfänglich autoregressiv durchgeführt, wodurch die Erzeugung langsam wurde und Verzerrungen auf unerwünschte Weise eingeführt wurden. Jedoch zeigte neuerdings MaskGIT eine bessere und schnellere Lösung über einen bidirektionalen Maskierungsansatz, siehe beispielsweise Chang, H., Zhang, H., Jiang, L., Liu, C., Freeman, W.T.: „MaskGIT: Masked generative image Transformer", arXiv-Vorabdruck arXiv:2202.04200, 2022. In diesem Zusammenhang erfolgt die bedingte Erzeugung durch Anhängen von Konditionierungs-Tokens an die Bild-Tokens, wodurch der Transformer die bedingten Datenverteilungen lernt. Siehe beispielsweise in DALL-E, Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen und Ilya Sutskever, „Zero-shot text-to-image generation". In Marina Meila und Tong Zhang, Herausgeber, ICML, 2021, konnte man eine Art Kontrollierbarkeit durch Textkonditionierung erkennen; dabei ist dies ist jedoch nicht immer einfach und auf Objektebene kontrollierbar.
  • In einem Versuch, objektzentrische Repräsentationen zu erhalten, haben Locatello et al., Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy und Thomas Kipf, „Object-centric learning with slot attention", 2020, das Konzept von Schlitzen (Engl.: „Slots“) eingeführt: Arten von Speicherzellen, auf die sich das Modell durch Schlitz-Aufmerksamkeit konzentrieren kann und die sich schließlich über mehrere Aufmerksamkeitsrunden an ein Objekt binden. In diesem Zusammenhang kombiniert Slot2Seq, Gautam Singh, Fei Deng, Sungjin Ahn, „Illiterate DALL-E Learns to Compose“, 2021, DALL-E mit Schlitz-Aufmerksamkeit, um neue Bilder auf kompositorische Weise zu synthetisieren, durch Konditionierung auf Konzepte, die während des Trainings über die Schlitze gelernt wurden. Eine solche Konditionierung ist jedoch nicht leicht kontrollierbar, da Schlitz-Konzepte manuell abgeleitet werden und das Modell die DALL-E-Fähigkeiten drastisch behindert, indem es seine Textkonditionierungsstruktur entfernt.
  • Die vorliegende Erfindung verbessert Ansätze, die im Stand der Technik bekannt sind.
  • Offenbarung der Erfindung
  • Ein Ausführungsbeispiel betrifft ein computerimplementiertes Verfahren zum Trainieren eines maschinell lernenden Systems, wobei das maschinell lernende System zur Erzeugung von Bildern in mindestens zwei Stufen trainiert wird, wobei in einer ersten Stufe basierend auf mindestens einem Eingabebild mindestens ein Codebuch gelernt wird durch Tokenisieren des mindestens einen Eingabebildes und Rekonstruieren von Bildern durch eine Autokodierungsarchitektur, und in einer zweiten Stufe ein Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf dem mindestens einen Codebuch durch Rekonstruieren maskierter Tokens der rekonstruierten Bilder zu erzeugen, wobei das Erzeugen des Codewörterbuchs („Eng!.: codebook dictionary“) in der ersten Stufe Erzeugen eines Codebuch-Vokabulars durch Mischen von Bildmerkmalen des Eingabebildes unter unterschiedlichen Skalen der Bildmerkmale umfasst, wobei die Bildmerkmale über die Autokodierungsarchitektur kodiert und dekodiert werden, und wobei der Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf Konditionierung mit gelabelten Schlitzen (Engl.: „labeled-slot conditioning“) zu erzeugen.
  • In der ersten Stufe wird ein Codewörterbuch erlernt, indem ein Eingabebild tokenisiert wird, d. h. das Eingabebild in einen endlichen Satz von Token kodiert wird, und Bilder durch eine Autokodierungsarchitektur rekonstruiert werden. In der Praxis wird das Eingabebild in einen niedrigerdimensionalen Raum kodiert und dann quantisiert, d. h. jeder Einbettungsvektor wird durch den nächsten Vektor aus einem Codewörterbuch ersetzt. Dann werden Bilder über einen Dekodierer rekonstruiert. Zum Trainieren der Autokodierungsarchitektur und des Codebuchs kann beispielsweise ein Wahrnehmungsverlust und/oder ein Rekonstruktionsverlust und/oder ein GAN-Verlust verwendet werden, wobei ein Diskriminator versucht, zwischen realen und rekonstruierten Bildern zu unterscheiden.
  • In der zweiten Stufe wird ein Transformer-Dekodierer darauf trainiert, die maskierten Tokens der eingebetteten Bilder zu rekonstruieren. Gemäß einem Beispiel wird ein bidirektionaler Transformer darauf trainiert, einen zufällig ausgewählten Prozentsatz von zufällig maskierten Token zu rekonstruieren. Auf diese Weise ist der Transformer während der Inferenz in der Lage, durch Abtasten bei jedem Schritt einer bestimmten Anzahl von Tokens, beispielsweise durch Verfolgen eines spezifischen Zeitplans, neue eingebettete Bilder zu erzeugen, die dann in neue Bilder dekodiert werden. Ein solcher bidirektionaler Transformer ist beispielsweise aus MaskGIT bekannt.
  • Gemäß der vorliegenden Offenbarung wird eine Verbesserung der ersten Stufe und eine Verbesserung der zweiten Stufe vorgeschlagen.
  • In dem vorgeschlagenen Modell wird zum Erzeugen des Codewörterbuchs in der ersten Stufe ein skalenübergreifendes Mischen zwischen unterschiedlichen Skalen von Bildmerkmalen, die kodiert und zurück dekodiert werden, vorgeschlagen.
  • Für die zweite Stufe wird eine Schlitz-basierte bedingte bzw. konditionierte Erzeugung vorgeschlagen. Dadurch wird ein neuer Weg eingeführt, Multiklassen-Konditionierung für generative VQ-Modelle einzusetzen. Die vorgeschlagene Konditionierung auf Objektebene ermöglicht eine einfachere kompositorische Erzeugung. Die Einbeziehung von Klassenlabels erleichtert die Bindung erfasster Konzepte an bestimmte Klassen, wodurch es einfacher wird, Bilder aus der Grundeinheit von Objekten zusammenzusetzen. In der Praxis ermöglicht diese neue Struktur eine objektsteuerbare kompositorische Bilderzeugung, wobei neue Objekte hinzugefügt und vorhandene entfernt oder durch Objekte unterschiedlicher Klassen ersetzt werden können. Die Konditionierung mit gelabelten Schlitzen ist auch vorteilhaft, da sie für Menschen lesbar und kontrollierbar ist, während das vorgeschlagene Modell in Bezug auf letzteres extrem einfacher und direkter ist, und auf einer Architektur aufbaut, die mit dem aktuellen Stand der Technik für die Bildsynthese vergleichbar ist. Dies impliziert auch eine einfachere Annotationsaufgabe während der Datenerfassung, da Annotatoren nur auswählen müssen, ob einige Objekte aus einer Liste vordefinierter Objekte vorhanden sind oder nicht.
  • Das vorgeschlagene Verfahren ist eine Modifizierung der oben erwähnten MaskGIT-Architektur. Das Mischen über Skalen hinweg wird erheblich erleichtert, wodurch die Fähigkeit des Modells, ein reichhaltigeres Vokabular wiederverwendbarer Konzepte zu erzeugen, verbessert wird. Dies ist wichtig für die Kompositionalität, da das Erfassen gemeinsamer Konzepte höherer Qualität unter Daten, die hier durch Codebuchvektoren dargestellt werden, bedeutet, besser verallgemeinern zu können. Die Kombination von Konzepten auf unsichtbare Weise würde weniger Verzerrungen aus den Trainingsdaten mit sich bringen. Die MaskGIT-Architektur selbst besteht im Wesentlichen in einer Verbesserung gegenüber der zweiten Stufe von VQGAN.
  • Gemäß einer Ausführungsform umfasst das Eingabebild Bildmerkmale auf niedriger Ebene und Bildmerkmale auf hoher Ebene, und skalenübergreifendes Mischen umfasst ein Aggregieren von Bildmerkmalen auf hoher Ebene und Bildmerkmalen auf niedriger Ebene über mindestens ein Queraufmerksamkeits-Modul unter Bildmerkmalen auf niedriger Ebene und Bildmerkmalen auf hoher Ebene. In der Praxis erfolgt dies beispielsweise durch Hinzufügen von Queraufmerksamkeits-Modulen zu Bildmerkmalen in unterschiedlichen Skalen, d. h. Aggregieren von Merkmalen auf hoher Ebene und niedriger Ebene.
  • Gemäß einer Ausführungsform umfasst das skalenübergreifende Mischen mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer ersten Ebene der Autokodierungsarchitektur und mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer zweiten Ebene der Autokodierungsarchitektur, und Aktualisieren der ersten Ebene der Autokodierungsarchitektur mit Verlusten, die von der zweiten Ebene der Autokodierungsarchitektur kommen, und/oder Aktualisieren der zweiten Ebene der Autokodierungsarchitektur mit Verlusten, die von der ersten Ebene der Autokodierungsarchitektur kommen.
  • Gemäß einer Ausführungsform wird in der ersten Stufe mindestens eine der folgenden Codebuchkonfigurationen erzeugt: a) mindestens zwei separate skalenbezogene Codebuchwörterbücher; oder b) ein Codebuch auf niedriger Ebene und ein Codebuch auf hoher Ebene, wobei das Codebuch auf niedriger Ebene von dem Codebuch auf hoher Ebene abhängig ist, oder c) ein einzelnes skalengemischtes Codebuch.
  • Gemäß der Konfiguration a), nämlich mindestens zwei getrennte skalenbezogene Codebuchwörterbücher, können Bilder erzeugt werden, die beide Codebuchwörterbücher betreffen. Gemäß der Konfiguration c) lässt ein einzelnes skalengemischtes Codebuch dem Modell mehr Freiheit. Diese skalenübergreifenden Codebücher fördern Interaktionen zwischen unterschiedlichen Merkmalen bei unterschiedlichen Skalen, was zu reichhaltigeren Codebuchvektoren führt. Dies ist wichtig, da ein besseres Codebuch im erhöhten Maße zu wiederverwendbaren Konzepten geneigt ist, die zu weniger aus dem Datensatz herrührenden Verzerrungen und besseren Kompositionsfähigkeiten führen.
  • Gemäß einer Ausführungsform umfasst das Konditionieren mit gelabelten Schlitzen Bereitstellen einer Mehrzahl von Klassenlabels, wobei jedes Klassenlabel einer Klasse eines Objekts eines Bildes entspricht, für Schlitze eines Schlitz-Aufmerksamkeits-Moduls des Transformer-Dekodierers. Insbesondere sind die Anzahl der Klassenlabels und die Anzahl der Schlitze pro Bild gleich der Anzahl der Objekte des Bildes, plus eines für den Hintergrund.
  • Gemäß einer Ausführungsform umfasst das Verfahren Initialisieren der Schlitze des Schlitz-Aufmerksamkeits-Moduls auf eine klassenabhängige Weise und Bereitstellen eines Verlustterms, der erzwingt, dass ein jeweiliger Schlitz einer spezifischen Klasse zugeordnet wird. Um eine solche Schlitz-Konditionierung durchzusetzen, wird ein Klassifikator über den Bild-Token-Einbettungen verwendet, und eine solche Vorhersage wird mit Schlitz-Klassenlabels verglichen. Ein Klassifikator ordnet jeden Bildeinbettungsvektor einer Klasse zu, und dann wird jede Schlitz-Aufmerksamkeitskarte als gewichtete Durchschnittsausdrücke verwendet, um die entsprechende Schlitz-Klasse zu erhalten, während ein Verlustterm erzwingt, dass es sich um die korrekte Klasse handelt.
  • Gemäß einer Ausführungsform kann, wenn in Stufe 1 mindestens zwei hierarchische Codebuchwörterbücher erhalten werden, die sich auf unterschiedliche Skalen beziehen, das Schlitz-Aufmerksamkeits-Modul gemäß einer der folgenden Weisen modifiziert werde: (i) Mischen der mindestens zwei Codebuchwörterbücher durch Verketten von Vektoren der mindestens zwei Codebuchwörterbücher, (ii) Verschachteln der Queraufmerksamkeiten vor der mindestens einen wiederkehrenden Gatter-Einheit, GRU, des Transformer-Dekodierers, (iii) Verketten von mindestens zwei getrennten Schlitz-Aufmerksamkeits-Modulen.
  • Weitere Ausführungsformen der vorliegenden Offenbarung betreffen ein maschinell lernendes System, das gemäß einem Verfahren gemäß den Ausführungsformen trainiert wurde.
  • Weitere Ausführungsformen der vorliegenden Offenbarung betreffen die Verwendung eines trainierten maschinellen Lernens, wobei das maschinell lernende System nach einem Verfahren gemäß den Ausführungsformen auf mindestens eines des Folgenden trainiert wird: a) Erzeugen gelabelter Objekte, und/oder b) Zusammensetzen von Bilddaten für erweiterte und/oder synthetische Daten, und/oder c) Erzeugen von Bilddaten für synthetische Daten in ungesehenen Kompositionen. Das trainierte Modell stellt eine kostengünstige und effiziente Lösung zum Erzeugen von neuen Daten auch in ungesehenen Kompositionen bereit, die auf dem freien Markt teuer oder extrem schwer zu bekommen sein können. Darüber hinaus macht die Flexibilität des Modells es äußerst vielseitig für die Erzeugung eines vielfältigen und reichhaltigen Satzes synthetischer Daten.
  • Weitere Ausführungsformen betreffen ein Verfahren, das ein maschinelles Lernen verwendet, wobei das maschinell lernende System zum Erzeugen mindestens eines Trainingsdatensatzes und/oder mindestens eines Testdatensatzes dient. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz umfasst markierte Objektdaten und/oder markierte Bilddaten. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz dient zum Trainieren und/oder zum Testen eines maschinell lernenden Systems. Die erzeugten gelabelten Objektdaten und/oder die erzeugten gelabelten Bilddaten werden zur Bildanalyse verwendet. Vorteilhafterweise ermöglicht die Verwendung der erzeugten gelabelten Objektdaten und/oder erzeugten gelabelten Bilddaten für die Bildanalyse die Verwendung erweiterter und/oder synthetischer Daten und/oder Bilddaten der synthetischen Daten in ungesehenen Kompositionen in der Bildanalyse.
  • Weitere Ausführungsbeispiele ergeben sich aus der folgenden Beschreibung und den Zeichnungen. In den Zeichnungen:
    • 1 stellt schematisch eine Autocodierungsstruktur einer ersten Stufe gemäß einer Ausführungsform der vorliegenden Offenbarung dar;
    • 2 stellt schematisch eine Autocodierungsstruktur einer ersten Stufe gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung dar;
    • 3 stellt schematisch eine Autocodierungsstruktur einer ersten Stufe gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung dar;
    • 4 stellt schematisch eine Transformer-Dekodierer-Struktur einer zweiten Stufe gemäß einer Ausführungsform der Offenbarung dar;
    • 5 stellt schematisch ein Schlitz-Aufmerksamkeits-Modul einer zweiten Stufe gemäß einer Ausführungsform der Offenbarung dar,
    • 6a) - 6c) stellen schematisch unterschiedliche Modifizierungen des Schlitz-Aufmerksamkeits-Moduls dar.
  • 1 stellt eine erste Stufe eines Verfahrens zum Trainieren eines maschinell lernenden Systems gemäß einem ersten Beispiel dar. In der ersten Stufe wird ein Codewörterbuch gelernt, indem ein Eingabebild IM_eingabe tokenisiert wird, d. h. das Eingabebild IM_eingabe in einen endlichen Satz von Tokens kodiert wird, und Bilder durch eine Autokodierungsarchitektur rekonstruiert werden.
  • Gemäß dem Beispiel umfasst die Autocodierungsstruktur zwei Kodierstufen E1, E2 und zwei Dekodierstufen D1, D2. In der ersten Stufe wird ein Codewörterbuch gelernt durch Tokenisierung, d. h. Codieren in einen endlichen Satz von Tokens, und Rekonstruieren von Bildern IM_rec durch eine Autokodierungsarchitektur.
  • In der Praxis wird ein Eingabebild IM_eingabe in einen niedrigerdimensionalen Raum kodiert. Gemäß einem Beispiel umfasst das Eingabebild IM_eingabe eine Anfangsdimension von z. B. 256x256x3, und ist in einen dimensionalen Raum von z. B. 16x16x'embed_dim' kodiert.
  • Gemäß dem Beispiel wird das Eingabebild IM_eingabe über die Kodierstufe E1 in sogenannte Zwischenbildmerkmalseinbettungen emb_im kodiert. Aus den Zwischenbildmerkmalseinbettungen können Merkmale x auf niedriger Ebene abgeleitet werden.
  • Gemäß dem Beispiel wird das Bild ferner über die Kodierstufe E2 in finale Bildmerkmalseinbettungen emb_fin kodiert. Aus dem finalen Bildmerkmal, das emb_fin einbettet, können Merkmale y auf hoher Ebene abgeleitet werden.
  • Gemäß dem Beispiel werden über ein Queraufmerksamkeits-Modul Bildmerkmale auf hoher Ebene und Bildmerkmale auf niedriger Ebene für ein skalenübergreifendes Mischen zwischen Bildmerkmalen auf niedriger Ebene und Bildmerkmalen auf hoher Ebene aggregiert. Die Einbettungen mit gemischten Merkmalen emb_mx werden durch y' dargestellt. In den Figuren stehen die Buchstaben k, v und q für Schlüssel, Werte bzw. Abfrage des Aufmerksamkeitsmechanismus.
  • Die gemischten Merkmalseinbettungen emb_mx werden dann quantisiert, d. h. jeder Einbettungsvektor wird durch den nächsten Vektor aus einem Codewörterbuch ersetzt. Dann wird die quantisierte Version von y', emb_mx_q, über die erste Dekodierstufe D1 und eine zweite Dekodierstufe D2 dekodiert, um eine Rekonstruktion IM_rec des Eingabebildes IM_eingabe zu erhalten.
  • Entsprechend dem Beispiel wird auf der Dekodierseite ein weiteres Queraufmerksamkeits-Modul hinzugefügt.
  • Die 2 und 3 stellen eine erste Stufe eines Verfahrens zum Trainieren eines maschinell lernenden Systems gemäß einem zweiten und einem dritten Beispiel dar. Gemäß den Beispielen wird eine Mehrzahl von Tokenisierungs- und Rekonstruktionsprozessen bei unterschiedlichen Skalen der Architektur erstellt, und unterschiedliche Teile der Architektur werden mit Verlusten aktualisiert, die von unterschiedlichen Skalen herrühren.
  • Gemäß dem in 2 dargestellten Beispiel werden sowohl eine quantisierte Version der Zwischenbildmerkmalseinbettungen emb_im_q als auch eine quantisierte Version der finalen Bildmerkmalseinbettungen emb_fin_q verwendet, um die zweite Dekodierstufe D2 zu aktualisieren.
  • Gemäß dem in 3 dargestellten Beispiel wird zunächst eine quantisierte Version der finalen Bildmerkmalseinbettungen emb_fin_q verwendet, um die zweite Dekodierstufe D2 und die Zwischenbildmerkmalseinbettungen zu aktualisieren, um emb_im_up abzuleiten. Dann wird eine quantisierte Version der aktualisierten Zwischenbildmerkmalseinbettungen emb_im_up_q verwendet, um die erste Dekodierstufe D1 zu aktualisieren.
  • Diese in den Beispielen gemäß 1 bis 3 abgeleiteten Tokens können in der ersten Stufe beispielsweise zu einer der folgenden Codebuchkonfigurationen führen: a) mindestens zwei getrennte skalenbezogene Codebuchwörterbücher; oder b) ein Codebuch auf niedriger Ebene und ein Codebuch auf hoher Ebene, wobei das Codebuch auf niedriger Ebene von dem Codebuch auf hoher Ebene abhängig ist, oder c) ein einzelnes skalengemischtes Codebuch.
  • Wenn mindestens zwei getrennte skalenbezogene Codebuchwörterbücher erzeugt werden, können Bilder erzeugt werden, die sich auf beide beziehen.
  • Diese skalenübergreifenden Codebücher fördern Interaktionen zwischen unterschiedlichen Merkmalen bei unterschiedlichen Skalen, was zu reichhaltigeren Codebuchvektoren führt. Dies ist wichtig, da ein besseres Codebuch im erhöhten Maße zu wiederverwendbaren Konzepten geneigt ist, die zu weniger aus dem Datensatz herrührenden Verzerrungen und besseren Kompositionsfähigkeiten führen.
  • 4 stellt eine zweite Stufe eines Verfahrens zum Trainieren eines maschinell lernenden Systems gemäß einem Beispiel dar. In der zweiten Stufe wird ein Transformer-Dekodierer TR darauf trainiert, neue Bilder unter Berücksichtigung des Codewörterbuchs oder der in Stufe 1 erzeugten Codebuchwörterbücher zu erzeugen. Auf diese Weise können zur Inferenzzeit neue Bilder synthetisiert werden, indem eine Folge von Token-Einbettungen aus dem Codebuch abgetastet werden, und diese in Bilder dekodiert werden.
  • Gemäß der vorliegenden Erfindung wird der Transformer-Dekodierer TR trainiert, um Bilder basierend auf der Konditionierung mit gelabelten Schlitzen zu erzeugen.
  • Schlitze wurden von Locatello et al., Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy und Thomas Kipf, „Object-centric learning with slot attention", 2020, eingeführt. Schlitze sind im Grunde Repräsentationen, die von dem Modell als Speicherzellen verwendet werden. Zur Einführung und Aktualisierung dieser Repräsentationen kann ein Schlitz-Aufmerksamkeits-Modul verwendet werden.
  • Nach einer Aufmerksamkeitsrunde werden die Repräsentationen letztlich in Aufmerksamkeitsausdrücken an unterschiedliche Objekte der Bildszene gebunden.
  • Die Konditionierung mit gelabelten Schlitzen umfasst Bereitstellen einer Mehrzahl von Klassenlabels, wobei jedes Klassenlabel einer Klasse eines Objekts eines Bildes entspricht, für Schlitze eines Schlitz-Aufmerksamkeits-Moduls des Transformer-Dekodierers. Insbesondere sind die Anzahl der Klassenlabels und die Anzahl der Schlitze pro Bild gleich der Anzahl der Objekte des Bildes, plus eines für den Hintergrund.
  • Gemäß einer Ausführungsform umfasst das Verfahren Initialisieren der Schlitze S_L des Schlitz-Aufmerksamkeits-Moduls auf eine klassenabhängige Weise und Bereitstellen eines Verlustterms, der erzwingt, dass ein jeweiliger Schlitz einer spezifischen Klasse zugeordnet wird. Um eine solche Schlitz-Konditionierung durchzusetzen, kann ein Klassifikator über den Bild-Token-Einbettungen verwendet werden, und eine solche Vorhersage wird mit Schlitz-Klassenlabels verglichen. Ein Klassifikator ordnet jeden Bildeinbettungsvektor einer Klasse zu, und dann wird jede Schlitz-Aufmerksamkeitskarte als gewichtete Durchschnittsausdrücke verwendet, um die entsprechende Schlitz-Klasse zu erhalten, während ein Verlustterm erzwingt, dass es sich um die korrekte Klasse handelt.
  • Das Schlitz-Aufmerksamkeits-Modul ist in 5 dargestellt.
  • Wenn mehrere hierarchische Codebücher, die sich auf mehrere Skalen beziehen, von Stufe 1 erhalten werden, werden unterschiedliche Modifizierungen des Schlitz-Aufmerksamkeits-Moduls bereitgestellt, siehe 6 a) bis c).
  • 6a) bezieht sich auf ein Mischen der Informationen durch Verketten der Codebuchvektoren. 6b) bezieht sich auf ein Verschachteln der Queraufmerksamkeiten vor den GRUs. 6 c) bezieht sich auf ein Verketten von zwei getrennten Schlitz-Aufmerksamkeits-Modulen.
  • Die aktualisierten Schlitze S_L_up, die über ein Schlitz-Aufmerksamkeits-Modul gemäß 5 oder 6 a) bis 6 c) aktualisiert wurden, führen schließlich zu der Konditionierung des Transformer-Dekodierers in der Aufgabe, die maskierten Token vorherzusagen. Zur Inferenzzeit werden dann die während des Trainings erlernten gelabelten Schlitz-Darstellungen für die Konditionierung des Transformer-Dekodierers verwendet, wodurch eine beliebige Anzahl gelabelter Objekte erzeugt und Bilder mit extrem hoher Steuerbarkeit zusammengesetzt werden können.
  • Weitere Ausführungsformen der vorliegenden Offenbarung betreffen ein maschinell lernendes System, das gemäß dem gemäß den Figuren beschriebenen Verfahren trainiert wurde.
  • Weitere Ausführungsformen der vorliegenden Offenbarung betreffen die Verwendung eines trainierten maschinellen Lernens, wobei das maschinell lernende System auf ein Verfahren gemäß den Ausführungsformen auf mindestens eines des Folgenden trainiert wird: a) Erzeugen gelabelter Objekte, und/oder b) Zusammensetzen von Bilddaten für erweiterte und/oder synthetische Daten, und/oder c) Erzeugen von Bilddaten für synthetische Daten in ungesehenen Kompositionen.
  • In Bezug auf die Komposition macht die Konditionierungseinstellung für gelabelte Schlitze die Kontrolle über die erzeugten Bilder unkompliziert: Bilder können mit einem spezifischen Satz von Objekten synthetisiert werden. Ferner können Objekte leicht hinzugefügt und/oder entfernt und/oder in den synthetisierten Bildern ersetzt werden, indem einfach die Konditionierung geändert wird. Darüber hinaus verbessert die Tatsache, dass das Modell besser wiederverwendbare Konzeptdarstellungen erhält, die in diesen Codebuch-Vokabularen gesammelt werden, die Kompositionsfähigkeiten drastisch.
  • Gemäß einer Ausführungsform wird das Modell mit mindestens zwei getrennten Datensätzen mit unterschiedlichen Klassen trainiert, um neue Stichproben zu erzeugen, die mindestens zwei kombinieren, d. h. auf ungesehene Kompositionen verallgemeinern. Beispielsweise kann ein Modell auf einen Datensatz A trainiert werden, der sich auf Straßenszenen mit Autos und Fahrrädern eines spezifischen Landes A bezieht, und auf einen Datensatz B, der sich auf Straßenszenen mit nur Autos, ohne Fahrräder, eines weiteren spezifischen Landes B bezieht. Ein gemäß des beschriebenen Verfahrens trainierten Modells wird neue Bilder von Straßenszenen von Land B mit Fahrrädern erzeugen können, indem es auf die Klassen „Land B Straße“ und „Fahrrad“ konditioniert wird, auch wenn die beiden Labels in dem Datensatz nie zusammen erschienen sind.
  • Weitere Ausführungsformen betreffen ein Verfahren, das maschinelles Lernen verwendet, wobei das maschinell lernende System zur Erzeugung mindestens eines Trainingsdatensatzes und/oder mindestens eines Testdatensatzes dient. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz umfasst gelabelte Objektdaten und/oder gelabelte Bilddaten. Der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz dient zum Trainieren und/oder zum Testen eines maschinell lernenden Systems. Die erzeugten gelabelten Objektdaten und/oder die erzeugten gelabelten Bilddaten werden zur Bildanalyse verwendet.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Chang, H., Zhang, H., Jiang, L., Liu, C., Freeman, W.T.: „MaskGIT: Masked generative image Transformer“, arXiv-Vorabdruck arXiv:2202.04200, 2022 [0004]
    • DALL-E, Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen und Ilya Sutskever, „Zero-shot text-to-image generation“. In Marina Meila und Tong Zhang, Herausgeber, ICML, 2021 [0004]
    • Locatello et al., Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy und Thomas Kipf, „Object-centric learning with slot attention“, 2020 [0005, 0041]

Claims (11)

  1. Computerimplementiertes Verfahren zum Trainieren eines maschinell lernenden Systems, wobei das maschinell lernende System zur Erzeugung von Bildern in mindestens zwei Stufen trainiert wird, wobei in einer ersten Stufe basierend auf mindestens einem Eingabebild (IM_eingabe) mindestens ein Codebuch erlernt wird durch Tokenisieren des mindestens einen Eingabebildes (IM_eingabe) und Rekonstruieren von Bildern (IM_rec) durch eine Autokodierungsarchitektur, und in einer zweiten Stufe ein Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf dem mindestens einen Codebuch zu erzeugen durch Rekonstruieren maskierter Tokens der rekonstruierten Bilder (IM_rec), wobei das Erzeugen des Codewörterbuchs in der ersten Stufe Erzeugen eines Codebuch-Vokabulars durch Mischen von Bildmerkmalen des Eingabebilds (IM_eingabe) unter unterschiedlichen Skalen der Bildmerkmale umfasst, wobei die Bildmerkmale über die Autokodierungsarchitektur kodiert und dekodiert werden, und wobei der Transformer-Dekodierer darauf trainiert wird, Bilder basierend auf Konditionierung mit gelabelten Schlitzen zu erzeugen.
  2. Verfahren nach Anspruch 1, wobei das Eingabebild (IM_eingabe) Bildmerkmale auf niedriger Ebene und Bildmerkmale auf hoher Ebene umfasst, und das skalenübergreifende Mischen Aggregieren, über mindestens ein Queraufmerksamkeits-Modul, von Bildmerkmalen auf hoher Ebene und Bildmerkmalen auf niedriger Ebene unter Bildmerkmalen auf niedriger Ebene und Bildmerkmalen auf hoher Ebene umfasst.
  3. Verfahren nach Anspruch 1 oder 2, wobei das skalenübergreifende Mischen mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer ersten Ebene der Autokodierungsarchitektur und mindestens einen Tokenisierungs- und Rekonstruktionsprozess auf einer zweiten Ebene der Autokodierungsarchitektur, und Aktualisieren der ersten Ebene der Autokodierungsarchitektur mit Verlusten, die von der zweiten Ebene der Autokodierungsarchitektur kommen, und/oder Aktualisieren der zweiten Ebene der Autokodierungsarchitektur mit Verlusten, die von der ersten Ebene der Autokodierungsarchitektur kommen, umfasst.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei in der ersten Stufe mindestens eine der folgenden Codebuchkonfigurationen erzeugt wird: a) mindestens zwei getrennte skalenbezogene Codebuchwörterbücher; oder b) ein Codebuch auf niedriger Ebene und ein Codebuch auf hoher Ebene, wobei das Codebuch auf niedriger Ebene von dem Codebuch auf hoher Ebene abhängig ist; oder c) ein einzelnes skalengemischtes Codebuch.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Konditionierung auf gelabelte Schlitze Bereitstellen einer Mehrzahl von Klassenlabels, wobei jedes Klassenlabel einer Klasse eines Objekts eines Bildes entspricht, für Schlitze eines Schlitz-Aufmerksamkeits-Moduls des Transformer-Dekodierers umfasst.
  6. Verfahren nach Anspruch 5, umfassend Initialisieren der Schlitze des Schlitz-Aufmerksamkeits-Moduls auf eine klassenabhängige Weise, und Bereitstellen eines Verlustterms, der erzwingt, dass ein jeweiliger Schlitz einer spezifischen Klasse zugeordnet wird.
  7. Verfahren nach Anspruch 4 und 5 oder 6, wobei, wenn in Stufe 1 mindestens zwei hierarchische Codebuchwörterbücher erhalten werden, die sich auf unterschiedliche Skalen beziehen, das Schlitz-Aufmerksamkeits-Modul gemäß einer der folgenden Weisen modifiziert werden kann: (i) Mischen der mindestens zwei Codebuchwörterbücher durch Verketten von Vektoren der mindestens zwei Codebuchwörterbücher, (ii) Verschachteln der Kreuzaufmerksamkeiten vor der mindestens einen wiederkehrenden Gatter-Einheit, GRU, des Transformer-Dekodierers, (iii) Verketten von mindestens zwei getrennten Schlitz-Aufmerksamkeits-Modulen.
  8. Verfahren nach einem der Ansprüche 1 bis 7, wobei das maschinell lernende System mit mindestens zwei unterschiedlichen Datensätzen trainiert wird.
  9. Maschinell lernendes System, trainiert nach einem Verfahren nach einem der Ansprüche 1 bis 8.
  10. Verwendung von maschinellem Lernen nach Anspruch 9, wobei das maschinell lernende System auf ein Verfahren nach einem der Ansprüche 1 bis 8 für mindestens eines des Folgenden trainiert wird: a) Erzeugen gelabelter Objekte, und/oder b) Zusammensetzen von Bilddaten für erweiterte und/oder synthetische Daten, und/oder c) Erzeugen von Bilddaten für synthetische Daten in ungesehenen Kompositionen.
  11. Verwendung von maschinellem Lernen nach Anspruch 10, wobei ein maschinelles Lernen nach Anspruch 9 nach einem der Ansprüche 1 bis 8 trainiert wird zum Erzeugen mindestens eines Trainingsdatensatzes und/oder mindestens eines Testdatensatzes, wobei der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz gelabelte Objektdaten und/oder gelabelte Bilddaten umfasst, wobei der mindestens eine Trainingsdatensatz oder der mindestens eine Testdatensatz zum Trainieren und/oder zum Testen eines maschinell lernenden Systems verwendet wird.
DE102022212154.6A 2022-11-15 2022-11-15 Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen Pending DE102022212154A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE102022212154.6A DE102022212154A1 (de) 2022-11-15 2022-11-15 Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen
US18/501,253 US20240161234A1 (en) 2022-11-15 2023-11-03 Training of a machine learning system for object-level image synthesis with labeled-slot conditioning
JP2023193767A JP2024072279A (ja) 2022-11-15 2023-11-14 ラベル付きスロット条件付けを伴うオブジェクトレベルの画像合成のための機械学習システムのトレーニング
CN202311519844.2A CN118052722A (zh) 2022-11-15 2023-11-15 用标记槽条件化训练用于对象级图像合成的机器学习系统
KR1020230158057A KR20240071337A (ko) 2022-11-15 2023-11-15 라벨링된-슬롯 조건부화를 이용한 객체-수준 이미지 합성을 위한 머신 학습 시스템의 훈련

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022212154.6A DE102022212154A1 (de) 2022-11-15 2022-11-15 Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen

Publications (1)

Publication Number Publication Date
DE102022212154A1 true DE102022212154A1 (de) 2024-05-16

Family

ID=91023819

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022212154.6A Pending DE102022212154A1 (de) 2022-11-15 2022-11-15 Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen

Country Status (5)

Country Link
US (1) US20240161234A1 (de)
JP (1) JP2024072279A (de)
KR (1) KR20240071337A (de)
CN (1) CN118052722A (de)
DE (1) DE102022212154A1 (de)

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Chang, H., Zhang, H., Jiang, L., Liu, C., Freeman, W.T.: „MaskGIT: Masked generative image Transformer", arXiv-Vorabdruck arXiv:2202.04200, 2022
CHANG, Huiwen [u.a.]: MaskGIT: Masked generative image transformer. Version 1; arXiv:2202.04200v1. 08-02-2022. S. 1-23. URL: https://arxiv.org/pdf/2202.04200 [abgerufen am 2023-01-16]
DALL-E, Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen und Ilya Sutskever, „Zero-shot text-to-image generation". In Marina Meila und Tong Zhang, Herausgeber, ICML, 2021
ESSER, Patrick ; ROMBACH, Robin ; OMMER, Björn: Taming transformers for high-resolution image synthesis. In: IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) - 20-25 June 2021 - Nashville, TN, USA, S. 12868-12878. - ISBN 978-1-6654-4509-2 (e). DOI:10.1109/CVPR46437.2021.01268. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9578911 [abgerufen am 2023-01-16]
Locatello et al., Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy und Thomas Kipf, „Object-centric learning with slot attention", 2020
LOCATELLO, Francesco [u.a.]: Object-centric learning with slot attention. In: 34th Conference on Neural Information Processing Systems (NeurIPS 2020) - 6.-12. December 2020 - Vancouver, Canada, S. 1-14. URL: https://dl.acm.org/doi/pdf/10.5555/3495724.3496691 [abgerufen am2023-01-16]

Also Published As

Publication number Publication date
CN118052722A (zh) 2024-05-17
KR20240071337A (ko) 2024-05-22
JP2024072279A (ja) 2024-05-27
US20240161234A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
DE2653288A1 (de) Verfahren und anordnung zur entfernung von vorgebbarer hintergrundinformation aus einem bild
DE69810597T2 (de) Verfahren zur codierung der reihenfolgeinformation für mehrschichten-vertices
EP3948688A1 (de) Training für künstliche neuronale netzwerke mit besserer ausnutzung der lern-datensätze
DE202017007512U1 (de) Bewegungsschätzung durch maschinelles Lernen
DE202017007520U1 (de) Bewegungskompensation durch maschinelles Lernen
DE102021004561A1 (de) Text verfeinerndes Netzwerk
DE112021005070T5 (de) Multi-hop-transformer für räumlich-zeitliches denken und lokalisierung
DE102022212154A1 (de) Trainieren eines maschinell lernenden Systems zur Bildsynthese auf Objektebene mit Konditionierung mit gelabelten Schlitzen
DE102021203587A1 (de) Verfahren und Vorrichtung zum Trainieren eines Stilencoders eines neuronalen Netzwerks und Verfahren zum Erzeugen einer einen Fahrstil eines Fahrers abbildenden Fahrstilrepräsentation
DE102022000238A1 (de) Verfahren zum Trainieren und Testen eines Algorithmus zur Prädiktion von Agenten in einer Fahrzeugumgebung
DE102021200643B3 (de) Verfahren zur Umfelderkennung für teilautonome oder autonome Fahrfunktionen eines Kraftfahrzeugs mittels eines neuronalen Netzes
DE69424230T2 (de) Verfahren und Vorrichtung zum Suchen nach einem Prädiktionsblock in prädiktive Bildkompression
DE60010491T2 (de) Verfahren und vorrichtung zum erzeugen von halbtongerasterten farbauszügen für eine bildausgabevorrichtung
DE102021214464B3 (de) Bewertung von Generatoren zur Erzeugung realistischer Bilder
DE102022105413A1 (de) Verfahren zum Erkennen eines Straßenschilds in einer Umgebung eines Kraftfahrzeugs mittels eines Assistenzsystems, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
DE102022202999A1 (de) Erzeugung von Testdatensätzen für die Prüfung, inwieweit ein trainierter Klassifikator zur Generalisierung fähig ist
DE102023200766A1 (de) Computerimplementiertes Verfahren zum Erzeugen von Labeln für einen Datensatz und Verwendung eines derart erzeugten gelabelten Datensatzes
DE102020215698A1 (de) Synthetische Erzeugung von Bildern mit gegebenem semantischen Inhalt
DE202022106133U1 (de) Ein auf generativen adversarischen Netzen basierendes System zur Synthese von Text und Bild
DE102021207151A1 (de) Bewertung von Generatoren zur Erzeugung realistischer Bilder
DE102021208726A1 (de) Training eines Generators für synthetische Messdaten mit augmentierten Trainingsdaten
DE102023202597A1 (de) Computerimplementiertes Verfahren und System zum Trainieren eines Lehrernetzwerks eines teilüberwachten Lernalgorithmus
DE102023100839A1 (de) Computer-implementiertes, iteratives Verfahren zum Adaptieren eines maschinellen Lernmodells, Datenverarbeitungseinrichtung, Computerprogramm und computerlesbares Speichermedium
DE102023201852A1 (de) Vortraining eines Encoders für die Kodierung dreidimensionaler Szenen in semantische Szenengraphen
DE102021207468A1 (de) Verfahren zur Kodierung einer Abfolge von Videobildern

Legal Events

Date Code Title Description
R163 Identified publications notified