DE112020005609T5

DE112020005609T5 - Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten

Info

Publication number: DE112020005609T5
Application number: DE112020005609.0T
Authority: DE
Inventors: Yi-Hsuan Tsai; Samuel Schulter; Manmohan Chandraker; Sujoy Paul
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-11-14
Filing date: 2020-11-12
Publication date: 2022-09-15
Also published as: WO2021097055A1; JP2022547150A; US20210150281A1

Abstract

Es werden Systeme und Verfahren zum Anpassung der semantischen Segmentierung über Domains geschaffen. Das Verfahren enthält das Eingeben (720) eines Quellbildes in ein Segmentierungsnetz und das Eingeben (710) eines Zielbildes in das Segmentierungsnetz. Das Verfahren enthält ferner das Identifizieren (760) von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung und das Unterscheiden (780) zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild. Das Verfahren enthält ferner das Trainieren (730) des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild und das Ausgeben eines semantisch segmentierten Zielbildes.

Description

INFORMATIONEN ÜBER VERWANDTE ANMELDUNG
Diese Anmeldung beansprucht die Priorität der nicht vorläufigen US-Patentanmeldung, Nr. 17/094.139 , eingereicht am 10. November 2020, und der vorläufigen Anmeldung, Nr. 62/935.341 , eingereicht am 14. November 2019, die hier durch Bezugnahme vollständig mit aufgenommen sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf auf neuronalen Faltungsnetzen basierende Herangehensweisen für die semantische Segmentierung und insbesondere auf ein Modell der semantischen Segmentierung, das vorher ungesehene Domains verallgemeinern kann.
Beschreibung des Standes der Technik
Die semantische Segmentierung bezieht sich auf den Prozess des Zuweisens oder Verknüpfens jedes Pixels in einem Bild mit einem semantischen oder Klassenetikett. Diese Etiketten können eine Person, ein Tier, einen Personenkraftwagen, einen Baum, eine Straße, eine Lampe, einen Briefkasten usw. identifizieren. Die semantische Segmentierung kann als Bildklassifizierung auf einer Pixelebene betrachtet werden. Die Instanzensegmentierung kann die separaten Instanzen mehrerer des gleichen Objekts, das in einem Bild erscheint, etikettieren, z. B. um die Anzahl der Objekte zu zählen. Die semantische Segmentierung und die Instanzensegmentierung können es den Modellen ermöglichen, den Kontext einer Umgebung zu verstehen. Der Mangel an Segmentierungsetiketten ist eines der Haupthindernisse für die semantische Segmentierung in der freien Natur (z. B. Bildern der echten Welt).
Die Modelle lernen normalerweise durch das Sammeln von Daten aus derselben Domain, z. B. Bilder aus einer Stadt, einem Bauernhof, Bergen usw., und wenden diese erlernten Modelle dann auf eine weitere Domain (z. B. eine andere Stadt, einen anderen Bauernhof, andere Berge usw.) an. Die Leistung kann jedoch aufgrund einer Domainlücke, wie z. B. unterschiedlicher Straßentypen, unterschiedlicher architektonischer Stile von Gebäuden, unterschiedlicher Arten von Tieren oder unterschiedlicher Arten des Gebirgsgeländes, zwischen dem Trainingssatz und der Domain, auf die das Modell angewendet wird, signifikant verringert sein.
ZUSAMMENFASSUNG
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Anpassen der semantischen Segmentierung über Domains geschaffen. Das Verfahren enthält das Eingeben eines Quellbildes in ein Segmentierungsnetz und das Eingeben eines Zielbildes in das Segmentierungsnetz. Das Verfahren enthält ferner das Identifizieren von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung und das Unterscheiden zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild. Das Verfahren enthält ferner das Trainieren des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild und das Ausgeben eines semantisch segmentierten Zielbildes.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verarbeitungssystem zum Anpassen der semantischen Segmentierung über Domains bereitgestellt. Das Verarbeitungssystem enthält eine oder mehrere Prozessorvorrichtungen, einen Speicher in Verbindung mit wenigstens einer der einen oder der mehreren Prozessorvorrichtungen und einen Anzeigeschirm, wobei das Verarbeitungssystem ein Segmentierungsnetz, das konfiguriert ist, ein Quellbild und ein Zielbild zu empfangen, eine Einrichtung zur kategorienweisen Zusammenfassung, die konfiguriert ist, kategorienweise Merkmale für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung zu identifizieren, einen Diskriminator, der konfiguriert ist, zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild zu unterscheiden, enthält, wobei das Segmentierungsnetz mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild trainiert wird; wobei das Segmentierungsnetz basierend auf einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild trainiert wird und ein semantisch segmentiertes Zielbild auf dem Anzeigeschirm ausgibt.
Gemäß einem nochmals weiteren Aspekt der vorliegenden Erfindung wird ein nicht transitorisches computerlesbares Speichermedium geschaffen, das ein computerlesbares Programm zum Erzeugen eines Straßenanordnungsmodells umfasst, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, den Computer veranlasst, die Schritte des Eingebens eines Quellbildes in ein Segmentierungsnetz, des Eingebens eines Zielbildes in das Segmentierungsnetz, des Identifizierens von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung, des Unterscheidens zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild, des Trainierens des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild und des Ausgebens eines semantisch segmentierten Zielbildes auszuführen.
Diese und andere Merkmale und Vorteile werden aus der folgenden ausführlichen Beschreibung veranschaulichender Ausführungsformen offensichtlich, die in Verbindung mit den beigefügten Zeichnungen gelesen werden soll.
Figurenliste
Die Offenbarung stellt in der folgenden Beschreibung bevorzugter Ausführungsformen bezüglich der folgenden Figuren Einzelheiten bereit; es zeigen:

1 eine graphische Darstellung, die ein Quellbild veranschaulicht, das eine Stadtszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
2 eine graphische Darstellung, die ein Quellbild veranschaulicht, das eine Bauernhofszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
3 eine graphische Darstellung, die ein Zielbild veranschaulicht, das eine Stadtszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
4 eine graphische Darstellung, die ein Zielbild veranschaulicht, das eine Bauernhofszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
5 einen Ablaufplan, der ein System/Verfahren zum Anwenden schwacher Etiketten, die verwendet werden können, um die Domainanpassung zu verbessern, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
6 einen Blockschaltplan/Ablaufplan, der ein System/Verfahren auf hoher Ebene, um das aus einer Domain gelernte Wissen zu anderen neuen Domains zu übertragen, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
7 einen Blockschaltplan/Ablaufplan, der ein System/Verfahren des Weiterleitens sowohl der Ziel- als auch der Quellbilder durch ein Segmentierungsnetz G, um ihre Merkmale zu erhalten und einen Mechanismus zu formulieren, um die Merkmale jeder einzelnen Kategorie zwischen den Quell- und Zieldomains abzugleichen, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
8 ein beispielhaftes Verarbeitungssystem, auf das die vorliegenden Verfahren und Systeme angewendet werden können, gemäß einer Ausführungsform der vorliegenden Erfindung;
9 ein beispielhaftes Verarbeitungssystem 900, das konfiguriert ist, ein oder mehrere neuronale Netze zum Anpassen der semantischen Segmentierung über Domains zu implementieren, gemäß einer Ausführungsform der vorliegenden Erfindung; und
10 einen Blockschaltplan, der ein beispielhaftes neuronales Netz gemäß einer weiteren Ausführungsform der vorliegenden Erfindung veranschaulicht.

AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Gemäß den Ausführungsformen der vorliegenden Erfindung werden Systeme und Verfahren zum Übertragen des aus einer Domain (z. B. einer Quelldomain) gelernten Wissens zu anderen neuen Domains (z. B. Zieldomains) ohne die Notwendigkeit des erneuten Sammelns von kommentierten Daten, was ein arbeitsintensiver und teurer Prozess ist, geschaffen. In verschiedenen Ausführungsformen kann ein kategorienweiser Merkmalsabgleich ausgeführt werden, bei dem nur die Kategorien, die im Bild vorhanden sind, für den Abgleich verwendet werden. Es können Diskrepanzen zwischen den Bildern der Trainingssätze und den Bildern der Testphase vorhanden sein. Die Domainanpassung zielt darauf ab, diese Diskrepanzen zu beheben und die Modelle in Richtung einer besseren Verallgemeinerung für das Testen abzustimmen.
Die Domainanpassung für die semantische Segmentierung ist nützlich, weil das manuelle Etikettieren großer Datensätze mit Etiketten auf Pixelebene teuer und zeitaufwändig ist, insbesondere wenn sie von Experten ausgeführt wird. Das manuelle Kommentieren großer Datensätze mit dichten Etiketten auf Pixelebene kann aufgrund der einbezogenen großen Menge menschlicher Anstrengung teuer sein. Auf neuronalen Faltungsnetzen basierende Herangehensweisen zur semantischen Segmentierung können sich auf die Überwachung mit einer Grundwahrheit(en) auf Pixelebene stützen, können aber nicht gut auf vorher ungesehene Bilddomains verallgemeinern. Eine Grundwahrheit kann nur für ein Quelldomainbild(er), nicht für ein Zieldomainbild(er) verfügbar sein, weil der Etikettierungsprozess mühsam und arbeitsintensiv ist. Die Domainanpassung kann verwendet werden, um synthetische und echte Datensätze abzugleichen; jedoch kann die visuelle (z. B. Aussehen, Maßstab usw.) Domainlücke zwischen synthetischen und echten Daten es für das Netz schwierig machen, übertragbares Wissen zu erlernen, das auf eine Zieldomain angewendet werden soll.
Die nicht überwachte Domainanpassung (UDA) bezieht Situationen ein, in denen keine Etiketten von der Zieldomain verfügbar sind. Die Verfahren für die nicht überwachte Domainanpassung (UDA) können durch Domainabgleich und erneutes Pseudoetiketten-Training entwickelt werden. Die pixelweisen Pseudoetiketten können über Strategien, wie z. B. Vertrauenspunktzahlen oder selbstgesteuertes Lernen, erzeugt werden. Die pixelweisen Pseudoetiketten in jeder Kategorie können als die Führung verwendet werden, um kategorienweise Merkmale abzugleichen. Eine zusätzliche Klassifizierungsaufgabe unter Verwendung einer Form von kategorischen schwachen Etiketten auf der Bildebene des Zielbildes kann eingeführt werden, um die Wirkungen verrauschter pixelweiser Pseudoetiketten zu verringern, wobei die schwachen Etiketten nicht jedes Pixel eines Bildes als zu einer speziellen Klasse oder Kategorie gehörend identifizieren, sondern die Existenz einer Klasse oder Kategorie eines Objekts im Bild spezifizieren. Dieser Entwurf kann durch zuerst das Spezifizieren, welche Kategorien im Bild vorhanden sind, den verrauschten Abgleichprozess verringern, der Kategorien berücksichtigen kann, die im Zielbild nicht vorhanden sind.
Verschiedene Ausführungsformen verwenden keine Regulierungen durch die Techniken des Domainabgleichs, die einen Abgleich auf Merkmalsebene, im Ausgaberaum und auf Fleckenebene enthalten können.
In verschiedenen Ausführungsformen werden keine selbstlernenden Schemata, wie z. B. pixelweise Pseudoetikettierungsverfahren verwendet, um die Leistung in der Zieldomain zu verbessern.
Unter ausführlicher Bezugnahme auf die Figuren, in denen gleiche Bezugszeichen die gleichen oder ähnliche Elemente repräsentieren, und anfangs auf 1 ist eine graphische Darstellung, die ein Quellbild, das eine Stadtszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt.
In verschiedenen Ausführungsformen kann ein Quellbild 100 einer Szene, z. B. einer Stadt, zahlreiche Objekte und Merkmale enthalten. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Personenkraftwagen 110, Lastkraftwagen 120, Bussen und Krankenwagen, können sich auf den Straßen befinden. Auf gegenüberliegenden Seiten der Straßen können sich Gebäude verschiedener Typen und Größen einschließlich, aber nicht eingeschränkt auf, Wohnhäusern 130, Schulen 140 und Krankenhäusern 150 befinden. Das Quellbild $X_{s}^{i}$
könnte an einem bewölkten Tag aufgenommen worden sein, wenn keine Sonne sichtbar ist. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes von der gleichen Szene unterscheidet, die an einem sonnigen Tag aufgenommen worden ist.
Wenn ein Quellbild einer semantischen Segmentierung unterzogen wird, weist in verschiedenen Ausführungsformen jedes Pixel des Bildes ein semantisches Etikett auf, das angewendet wird, um die Klasse oder die Kategorie des Merkmals, zu dem das Pixel gehört, anzugeben.
2 ist eine graphische Darstellung, die ein Quellbild, das eine Bauernhofszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung;
In verschiedenen Ausführungsformen kann ein Quellbild 200 einer Bauernhofszene zahlreiche Objekte und Merkmale enthalten, die sich von der Stadtszene in 1 unterscheiden. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Traktoren 240, Personenkraftwagen und Lastkraftwagen, können sich auf einem Bauernhof befinden. Auf dem Bauernhof können sich Gebäude verschiedener Typen und Größen, einschließlich, aber nicht eingeschränkt auf, Scheunen 210, Silos 220 und eines Bauernhauses, befinden. Das Quellbild $X_{s}^{i}$
könnte an einem sonnigen Tag aufgenommen worden sein, wenn die Sonne 280 scheint. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes von der gleichen Szene unterscheidet, die bei Nacht oder an einem regnerischen oder verschneiten Tag aufgenommen worden ist.
Ein Bauernhof kann außerdem verschiedene Arten von Nutztieren 230, z. B. Hähne, Kühe, Schweine, Schafe, Hühner und Enten, enthalten. Außerdem kann ein Bauernhof Pflanzen 250 aufweisen, die Gemüsepflanzen verschiedener Sorten (z. B. Weizen, Mais, Tomaten, grüne Bohnen, Sojabohnen usw.) sein können. Es können Laubbäume 260, immergrüne Bäume 270 und/oder Obstbäume vorhanden sein.
3 ist eine graphische Darstellung, die ein Zielbild, das eine Stadtszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung;
In verschiedenen Ausführungsformen kann ein Zielbild 300 einer Stadtszene z. B. zahlreiche Objekte und Merkmale enthalten, die sich vom Quellbild 100 einer anderen Stadtszene, z. B. in 1, unterscheiden. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Personenkraftwagen 110, Lastkraftwagen, Bussen, Motorrädern 370 und Krankenwagen, können sich auf den Straßen befinden, wobei aber die tatsächlichen Fahrzeuge, die im Zielbild vorhanden sind, sich von denen im Quellbild 100 unterscheiden können. Auf gegenüberliegenden Seiten der Straßen können sich Gebäude unterschiedlicher Typen und Größen einschließlich, aber nicht eingeschränkt auf, Einfamilienhäusern 310, Zweifamilienhäusern 320, Mehrfamilienhäusern 130, Schulen 140 und Krankenhäusern befinden. Das Zielbild $X_{t}^{i}$
könnte an einem regnerischen Tag aufgenommen worden sein, wenn keine Sonne sichtbar ist. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes 300 von der gleichen Szene unterscheidet, die an einem sonnigen Tag aufgenommen worden ist.
Die Stadtszenen aus verschiedenen Städten können außerdem unterschiedliche architektonische Stile aufweisen (z. B. Zwiebeltürme in Russland, umgedrehte Dachecken in Ostasien), die Fahrzeuge können sich auf verschiedenen Straßenseiten befinden, die Verkehrsschilder können verschiedene Orientierungen und/oder Symbole aufweisen und die Menschen können verschieden gekleidet sein.
4 ist eine graphische Darstellung, die ein Zielbild, das eine Bauernhofszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung;
In verschiedenen Ausführungsformen kann ein Zielbild 400 einer Bauernhofszene zahlreiche Objekte und Merkmale enthalten, die sich von der in 2 dargestellten Bauernhofszene 200 unterscheiden. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Traktoren 240, Personenkraftwagen und Lastkraftwagen, können sich auf dem Bauernhof befinden, wobei aber verschiedene Typen von Traktoren, Personenkraftwagen und Lastkraftwagen in der Szene vorhanden sein können. Auf dem Bauernhof können sich Gebäude verschiedener Typen und Größen einschließlich, aber nicht eingeschränkt auf, eines Bauernhauses 410, Silos 220, eines Bauernhofstands 420 und einer Scheune befinden. Das Zielbild $X_{t}^{i}$
könnte in der Abenddämmerung aufgenommen worden sein. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes von der gleiche Szene unterscheidet, die mittags an einem sonnigen Tag oder frühmorgens an einem regnerischen Tag aufgenommen worden ist.
Ein Bauernhof kann außerdem verschiedene Arten von Nutztieren 230, z. B. Hähne, Kühe, Schweine, Schafe, Hühner und Enten, enthalten. Ein Bauernhof kann außerdem Feldfrüchte/Pflanzen 250 aufweisen, die Gemüsepflanzen verschiedener Sorten (z. B. Mais, Tomaten, grüne Bohnen, Sojabohnen usw.) sein können. Es können Laubbäume 260, immergrüne Bäume und/oder Obstbäume 430 vorhanden sein, die einen Obstgarten bilden.
Die Variation(en) im Aussehen einer Szene kann (können) eine Domainlücke erzeugen, die das Szenenverständnis verringern kann. Sogar innerhalb derselben Stadt können das Wetter und die Tageszeit zahlreiche Unterschiede erzeugen. Es ist ein Herangehensweise, synthetische Daten wirksam einzusetzen, bei denen Kommentare zu viel geringeren Kosten erhalten werden können. Wissenstransfermodule ermöglichen es, ein besseres Szenenverständnis in der echten Welt auszuführen.
In einer oder mehreren Ausführungsformen können schwache Etiketten verwendet werden, um die Domainanpassung zu verbessern, wobei schwache Etiketten die Kosten und den Aufwand einer starken Klassifizierung jedes Pixels in einem Bild verringern oder vermeiden können. Das vorgeschlagene Domainanpassungsverfahren kann ein selbstlernendes Schema über das Vorhersagen schwacher Etiketten jedes Zielbildes/-daten verwenden, wobei dieser Prozess als Erzeugung schwacher Pseudoetiketten bezeichnet wird. In Anbetracht eines Bildes einer Straßenszene in der Zieldomain kann z. B. vorhergesagt werden, welche Kategorien in diesem Bild vorhanden sind, z. B. Straße, Personenkraftwagen, Lastkraftwagen und Fußgänger, ohne deren genaue Stellen im Bild zu kennen. Zweitens können diese vorhergesagten Kategorien verwendet werden, um das Modell zu regulieren und selbst zu lehren, wobei das Modell Aufgabenvorhersagen für jene Kategorien unterdrücken kann, die in den Bildern nicht vorhanden sind, und umgekehrt. Der Domainabgleichprozess kann durch die Verwendung der vorhergesagten schwachen Etiketten verbessert werden. Ein kategorienweiser Merkmalsabgleich kann über Domains ausgeführt werden, bei der nur die Kategorien, die im Bild vorhanden sind, für den Abgleich verwendet werden. Dieser Entwurf kann den verrauschten Abgleichprozess verringern, der Kategorien berücksichtigt kann, die im Zielbild nicht vorhanden sind.
5 ist ein Blockschaltplan/Ablaufplan, der ein System/Verfahren auf hoher Ebene zum Übertragen von aus einer Domain erlerntem Wissen zu anderen neuen Domains gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
In einer Trainingsphase 510 können im Block 520 synthetische Daten/Bilder erzeugt werden. Im Block 530 können den synthetischen Daten/Bildern schwache Etiketten zugewiesen werden, wobei die schwachen Etiketten identifizieren, welche Kategorien in dem (den) synthetischen Bild (Bildern)/Daten vorkommen. Im Block 540 kann ein Lernmodul, das ein neuronales Netz enthalten kann, lernen, welche Kategorien in dem (den) synthetischen Bild (Bildern)/Daten vorkommen, um ein Szenenverständnis 550 zu entwickeln.
In einer Testphase 560 können im Block 570 ein echtes Bild (echte Bilder)/Daten mit angehängten schwachen Etiketten in ein Wissenstransfermodul 580 eingeführt werden, das ein neuronales Netz enthalten kann, das in der Trainingsphase 510 trainiert worden ist, um ein Szenenverständnis 590 der echten Bilder/Daten 570 zu entwickeln.
6 ist eine graphische Darstellung, die ein gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
Im Block 600 ist eine Hauptaufgabe gezeigt, bei der ein neuronales Netz (NN) angewendet wird, um Modelle unter Verwendung synthetischer Daten für eine erste Domain zum Trainieren und Anwenden der erlernten Modelle auf eine weitere andere Domain aus der echten Welt durch das Vorhersagen schwacher Etiketten aller Zieldaten zu erlernen.
Im Block 601 können die Eingangsbilder von zwei Domains (z. B. Quelle, Ziel) kommen, die unterschiedlich sein können, wobei die Quellbilder als (I_src) bezeichnet werden können und die Zielbilder als (I_tar) bezeichnet werden können (d. h., I_scr = Eingangsbild aus der Quelldomain; I_tar = Eingangsbild aus der Zieldomain), die außerdem als X_s bzw. X_t bezeichnet werden können. Diese Eingaben werden in ein neuronales Netz, z. B. ein neuronales Faltungsnetz (CNN), eingespeist, das die Segmentierungsausgabe der Aufgabe, d. h., die Etiketten pro Pixel für die Kategorie, zu der dieses Pixel gehört, vorhersagt, wobei für beide Domains O_src und O_tar (O_scr = Ausgangsbild aus der Quelldomain und O_tar = Ausgangsbild aus der Zieldomain) (d. h., O_src und O_tar stehen für die Ausgaben). Weil die Aufgabe eine Aufgabe der pixelweisen Etikettierung sein kann, können die Ausgaben als H x W-Bilder (Höhe x Breite) betrachtet werden, wobei jedes Pixel im Bild einen Farbwert aufweist, der der identifizierenden Kategoriennummer entspricht. In diesem Fall ist die Ausgabe eine semantische Segmentierung, d. h., das Zuweisen einer semantischen Kategorie wie Straße, Personenkraftwagen, Person usw. zu jedem Pixel in dem Bild (den Bildern). Die Ausgabe des neuronalen Segmentierungsnetzes kann als ein Bild mit Farbwerten interpretiert werden, die gleich der diesem Pixel zugewiesenen Kategoriennummer sind. Die semantischen Segmentierungen können als strukturierte Ausgaben betrachtet werden, die räumliche Ähnlichkeiten zwischen den Quell- und Zieldomains enthalten. Im Ausgaberaum kann gegnerisches Lernen angewendet werden. Es kann ein gegnerisches Mehrebenen-Netz errichtet werden, um eine effektive Anpassung der Ausgaberaumdomain auf verschiedenen Merkmalsebenen auszuführen.
Im Block 602 werden den Bildern aus der Quelldomain außerdem Grundwahrheitsetiketten (GT_src) gegeben, die in einer überwachten Standardverlustfunktion (Aufgabenverlust) verwendet werden, um das neuronale Netz aus Block 601 zu trainieren. Grundwahrheit bedeutet eine von Menschen kommentierte Segmentierung, die für das Training verwendet wird. Eine Grundwahrheit kann nur für eine Quelldomain und nicht für eine Zieldomain verfügbar sein, in der eine vom Menschen kommentierte Segmentierung zur Verwendung beim Training eines neuronalen Netzes verfügbar ist.
Im Block 700 kann, um das NN im Block 601 zu trainieren und außerdem Bilder aus der Zieldomain (I tar) zu bearbeiten, eine gegnerische Verlustfunktion (oder Regulierung) angewendet werden, um es zu unterstützen, dass die Verteilungen von sowohl O_src als auch O_tar ähnlich sind, wobei es erforderlich sein kann, dass die Verteilungen von O_src und O_tar durch den gegnerischen Verlust ähnliche Statistiken aufweisen. Es wird angegeben, dass für die Zieldomain keine Grundwahrheitsdaten verfügbar sind. Diese Verlustfunktion weist ein internes NN auf, das versucht, zwischen den beiden Domains (z. B. Bildern) zu unterscheiden, was dann für den Verteilungsabgleich verwendet werden kann.
Im Block 803 kann die Domainanpassung durch das Berücksichtigen schwacher Etiketten implementiert werden, wobei die schwachen Etiketten von Menschen kommentiert sind. In verschiedenen Ausführungsformen kann ein Anwender (z. B. ein Experte) die in einem Bild vorhandenen Kategorien identifizieren und an dem Bild (z. B. dem Zielbild) ein entsprechendes schwaches Etikett anbringen.
Um das Modul im Block 601 mit kategorienweisen Informationen zu verbessern, kann im Block 801 der Block 801 verwendet werden, um schwache Etiketten für das Zielbild (die Zielbilder) (d. h., W_tar), d. h., Etiketten auf Bildebene, z. B. ob ein Fußgänger (Fußgänger) in dem Bild vorhanden ist (sind) oder ob sich die Bildszene in einer Stadt oder auf einem Bauernhof befindet, zu erzeugen. Es wird angegeben, dass bei der nicht überwachten Festlegung im Block 601 schwache Pseudoetiketten direkt aus O_tar erzeugt werden können, während das System/Verfahren es den Anwendern außerdem ermöglicht, durch manuelle Kommentierung schwache Grundwahrheitsetiketten bereitzustellen. Sobald die schwachen Etiketten erzeugt worden sind, kann ein Verlust schwacher Etiketten verwendet werden, um die Kategorien zu unterdrücken, die im Zielbild nicht vorhanden sind, während die Vorhersagen für die im Zielbild vorhandenen Kategorien verbessert werden.
Im Block 802 kann mit den im Block 801 bereitgestellten schwachen Etiketten (W_tar) und den Gesamtverteilungen (O_src und O_tar) aus dem Block 601 der Block 700 durch das Hinzufügen eines kategorienweisen gegnerischen Verlusts verbessert werden, um die kategorienweisen Merkmalsverteilungen über die Quell- und Zieldomains spezifisch abzugleichen. Fall z. B. das Eingangsbild das Etikett „Personenkraftwagen“, aber keine Kategorie „Fahrrad“ enthält, wird die Verteilung für den Personenkraftwagen, aber nicht für das Fahrrad abgeglichen. Dies unterscheidet sich von früheren Verfahren, die den Block 700 verwenden und die Verteilungen abgleichen können, ohne die kategorienweisen Informationen zu berücksichtigen. Um die kategorienweise gegnerische Verlustfunktion zu verwirklichen, kann für jede Kategorie ein internes NN verwendet werden, das zu unterscheiden versucht, ob die Verteilung dieser Kategorie von der Quelldomain oder der Zieldomain kommt. Deshalb kann ein kategorienweiser Abgleich über das Berechnen des gegnerischen Verlusts für jede Kategorie entsprechend ausgeführt werden.
Um das Problem der Domainlücke zu lösen, werden Verfahren zur nicht überwachten Domainanpassung (UDA) durch Domainabgleich und erneutes Training der Pseudoetiketten entwickelt. Um die Wirkung verrauschter pixelweiser Pseudoetiketten zu verringern, kann eine zusätzliche Klassifizierungsaufgabe unter Verwendung einer Form von kategorischen schwachen Etiketten auf der Bildebene des Zielbildes verwendet werden. In verschiedenen Ausführungsformen kann das Modell gleichzeitig ein erneutes Training der Pseudoetiketten und einen Merkmalsabgleich ausführen. Ein Klassifizierungsziel kann vorhersagen, ob eine Kategorie im Zielbild vorhanden ist, wobei das Modell eine pixelweise Aufmerksamkeitskarte erzeugen kann, die die Wahrscheinlichkeitskarte für eine bestimmte Kategorie angibt. Die Aufmerksamkeitskarte kann für die Führung verwendet werden, um die kategorienweisen Merkmale für eine Abgleichprozedur zusammenzufassen. Die Kommentare auf der Bildebene identifizieren Kategorien, die in einem Bild vorhanden sind, ohne den Ort (die Orte) zu identifizieren.
In einer oder mehreren Ausführungsformen kann eine Quelldomain mit pixelweisen Grundwahrheitsetiketten verwendet werden, wohingegen in der Zieldomain schwache Pseudoetiketten oder schwache Grundwahrheitsetiketten verwendet werden können.
In der Quelldomain kann es Bilder und pixelweise Etiketten geben, die als $I_{s} = {X_{s}^{i}, Y_{s}^{i}}_{i = 1}^{N_{s}}$
bezeichnet werden, wobei $X_{s}^{i}$
ein Quelldomainbild repräsentiert und $Y_{s}^{i}$
die Grundwahrheitskommentare für die Quellbilder sind, während „i“ ein Index ist, der die Quellbilder und die Kommentare unterscheidet. Ein Zieldatensatz kann hingegen Bilder und nur Etiketten auf Bildebene als $I_{t} = {X_{t}^{i}, Y_{t}^{i}}_{i = 1}^{N_{t}}$
enthalten, wobei $X_{t}^{i}$
ein Zieldomainbild repräsentiert und $Y_{t}^{i}$
die Etiketten auf der Bildebene sind, die als schwache Etiketten bezeichnet werden, während „i“ ein Index ist, der die Zielbilder und schwachen Etiketten unterscheidet. Es wird angegeben, dass X_s, X_t ∈ ℝ^H×W×3, $Y_{s} \in B^{H \times W \times C}$
pixelweise 1-aus-n-Vektoren sind, $y_{t} \in B^{C}$
ein Mehrereaus-1-Vektor ist, der die im Bild verfügbaren Kategorien repräsentiert, und C die Anzahl der Kategorien ist, die sowohl für den Quell- als auch für den Zieldatensatz gleich ist. ℝ ist ein Raum der reellen Zahlen. H ist die Höhe und W ist die Breite eines Bildes, die in Pixeln sein können. Der Wert 3 ist ein gebräuchlicher Wert für die Anzahl der Kanäle.
ist ein Raum der booleschen Zahlen (z. B. 0 oder 1). Ein „1-aus-n-Vektor“ ist ein Vektor, bei dem eine einzige Koordinate einen Wert 1 aufweist und der Rest der Koordinaten des Vektors einen Wert 0 aufweist. Derartige Etiketten auf Bildebene y_t sind schwache Etiketten, die mit oder ohne einen menschlichen Experten, d. h., der WDA- oder UDA-Festlegung, erfasst werden können. Ein Segmentierungsmodell G, das an dem Quelldatensatz I_s erlernt/trainiert worden ist, kann an den Zieldatensatz I_t angepasst werden.
In verschiedenen Ausführungsformen werden sowohl die Ziel- als auch die Quellbilder durch das Segmentierungsnetz G geleitet, wobei ihre Merkmale F_s; F_t, ∈ ℝ^H'×W'×2048 erhalten werden, wobei 2048 eine Parameterwahl für die Anzahl der Kanäle ist, F_s; F_t die Quellmerkmale bzw. die Zielmerkmale und die Segmentierungsvorhersagen A_s; A_t ∈ ℝ^H'×W'×C und die aufwärtsabgetasteten pixelweisen Vorhersagen O_s, O_t ∈ ℝ^H'×W'×C repräsentieren. Als eine Basislinie können die pixelweisen Kommentare der Quelle verwendet werden, um G zu erlernen/trainieren, während der Ausgaberaum O_s und O_t unter Verwendung eines gegnerischen Verlusts und eines Diskriminators abgeglichen wird.
In verschiedenen Ausführungsformen kann der Domainanpassungsalgorithmus zwei Module enthalten: ein Segmentierungsnetz G und den Diskriminator D_i wobei i die Ebene eines Diskriminators im gegnerischen Mehrebenen-Lernen angibt. Zwei Sätze von Bildern, X_s, X_t ∈ ℝ^H×W×3 aus den Quell- und Zieldomains werden als {I_s} bzw. {I_T} bezeichnet. In verschiedenen Ausführungsformen können die Quellbilder X_s (mit Kommentaren) zur Optimierung von G zu dem Segmentierungsnetz weitergeleitet werden. Dann kann die Segmentierungs-Softmax-Ausgabe P_t für die Zielbilder X_t (ohne Kommentare) vorhergesagt werden. Wenn die Segmentierungsvorhersagen P der Quell- und Zielbilder (d. h. P_s und P_t) nah beieinander gemacht werden, können diese beiden Vorhersagen als die Eingabe in den Diskriminator D_i verwendet werden, um zu unterscheiden, ob die Eingabe von der Quell- oder der Zieldomain ist. Mit einem gegnerischen Verlust L_adv für die Zielvorhersage kann das Netz die Gradienten von D_i zu G ausbreiten, was G anregen würde, ähnliche Segmentierungsverteilungen in der Zieldomain zu der Quellvorhersage zu erzeugen.
In verschiedenen Ausführungsformen kann die Anpassungsaufgabe zwei Verlustfunktionen aus beiden Modulen enthalten:
$L (I_{s}, I_{t}) = L_{s e g} (I_{s}) + λ_{a d v} L_{a d v} (I_{t}),$
wobei L_seg der Kreuzentropieverlust unter Verwendung von Grundwahrheitskommentaren in der Quelldomain ist und L_adv der gegnerische Verlust ist, der die vorhergesagten Segmentierungen der Zielbilder an die Verteilung der Quellvorhersagen anpasst. λ_adv ist das Gewicht, das verwendet wird, um die beiden Verluste auszugleichen. Obwohl sich die Segmentierungsausgaben in einem niedrigdimensionalen Raum befinden, enthalten sie reichhaltige Informationen, z. B. die Anordnung und den Kontext der Szene.
In Anbetracht der Segmentierungs-Softmax-Ausgabe P = G(I) ∈ ℝ^H'×W'×C , wobei C die Anzahl der Kategorien ist, werden die Segmentierungsvorhersagen P zu einen vollständigen Faltungs-Diskriminator D unter Verwendung eines Kreuzentropieverlusts L_d für die beiden Klassen (z. B. Quelle und Ziel) weitergeleitet. Der Verlust kann als:
$L_{d} (P) = - \sum_{h, w} (1 - z) log (D {(P)}^{(h, w,0)}) + z log (D {(P)}^{(h, w,1)}),$
geschrieben werden wobei z = 0 ist, falls die Probe aus der Zieldomain gezogen wird, und z = 1 für die Probe aus der Quelldomain ist. Wobei L_d der Kreuzentropieverlust für den Diskriminator D für die beiden Klassen ist. P sind die Vorwärtssegmentierungsvorhersagen, während h und w die Höhe und Breite des Bildes sind.
In verschiedenen Ausführungsformen kann der Segmentierungsverlust in als der Kreuzentropieverlust für die Bilder aus der Quelldomain definiert sein:
$L_{s e g} (I_{s}) = - \sum_{h, w} \sum_{c \in C} Y_{s}^{(h, w, c)} log (P_{s}^{(h, w, c)}),$
wobei Y_s die Grundwahrheit der Kommentare für die Quellbilder ist und P_s = G(I_s) die Segmentierungsausgabe ist. L_seg(I_s) ist die Verlustfunktion für das Segmentierungsnetz G, die auf einen Satz von Quellbildern I_s angewendet ist. „h“ ist die Höhe des Bildes. „w“ ist die Breite des Bildes. „c“ ist die Kategorie des Bildes. Zweitens werden die Bilder in der Zieldomain zu G weitergeleitet, wobei die Vorhersage P_t = G(I_t) erhalten wird. I_t ist ein Satz von Zielbildern. Um die Verteilung von P_t näher bei P_s herzustellen, wird ein gegnerischer Verlust L_adv verwendet als:
$L_{a d v} (I_{t}) = - \sum_{h, w} log (D {(P_{t})}^{(h, w,1)}) .$
Dieser Verlust ist entworfen, um durch das Maximieren der Wahrscheinlichkeit, dass die Zielvorhersage als die Quellvorhersage betrachtet wird, das Segmentierungsnetz G zu trainieren und den Diskriminator D zu täuschen. Obwohl das Ausführen des gegnerischen Lernens im Ausgaberaum die Vorhersagen direkt anpasst, können die Merkmale auf tiefer Ebene nicht gut angepasst werden, da sie sich weit von der Ausgabe entfernt befinden.
In verschiedenen Ausführungsformen kann ein zusätzliches gegnerisches Modul im Merkmalsraum auf tiefer Ebene verwendet werden, um die Anpassung zu verbessern. Das Trainingsziel für das Segmentierungsnetz kann als:
$L (I_{s}, I_{t}) = \sum_{i} λ_{s e g}^{i} L_{s e g}^{i} (I_{s}) + \sum_{i} λ_{a d v}^{i} L_{a d v}^{i} (I_{t}),$
erweitert werden, wobei i die Ebene angibt, die zum Vorhersagen des Segmentierungsergebnisses verwendet wird.
(I_s,I_t) ist die kombinierte Verlustfunktion, die aus $L_{s e g}^{i} (I_{s})$
und $L_{a d v}^{i} (I_{t})$
und ihren jeweiligen Gewichtsfaktoren zusammensetzt ist. Es wird angegeben, dass die Segmentierungsausgabe dennoch in jedem Merkmalsraum vorhergesagt wird, bevor sie durch die einzelnen Diskriminatoren für das gegnerische Lernen geleitet wird. Folglich bleiben $L_{s e g}^{i} (I_{s})$
und $L_{a d v}^{i} (I_{t})$
in der gleichen Form wie die vorherigen Gleichungen. Das Gewicht $λ_{s e g}^{i}$
ist der Gewichtsfaktor, der auf die Verlustfunktion $L_{s e g}^{i}$
für das Segmentierungsnetz G angewendet wird. Das Gewicht $λ_{a d v}^{i}$
ist der Gewichtsfaktor, der auf die gegnerische Verlustfunktion $L_{a d v}^{i}$
angewendet wird.
Das folgende Minimum-Maximum-Kriterium:
$max_{D} min_{G} L (I_{s}, I_{t})$
kann mit einem Ziel optimiert werden, den Segmentierungsverlust in G für die Quellbilder zu minimieren, während die Wahrscheinlichkeit maximiert wird, dass die Zielvorhersagen als die Quellvorhersagen betrachtet werden.
Für den Diskriminator kann die Architektur alle vollständigen Faltungsschichten verwenden, um die räumlichen Informationen beizubehalten. Das Netz kann 5 Faltungsschichten mit einem Kern von 4 x 4 und einem Schritt von 2 enthalten, wobei die Kanalanzahl jeweils {64, 128, 256, 512, 1} ist. Mit Ausnahme der letzten Schicht kann jeder Faltungsschicht eine durch 0,2 parametrisierte undichte ReLU folgen (ReLU ist die gleichgerichtete lineare Aktivierungsfunktion). Zu der letzten Faltungsschicht kann eine Aufwärtsabtastschicht zum erneuten Skalieren der Ausgabe auf die Größe der Eingabe hinzugefügt werden. Die Stapelnormierungsschichten können nicht verwendet werden, da der Diskriminator unter Verwendung einer kleinen Stapelgröße gemeinsam mit dem Segmentierungsnetz trainiert werden kann.
Zusätzlich zum Vorhandensein von pixelweisen Etiketten an den Quelldaten kann es außerdem schwache Etiketten auf der Bildebene an den Zieldaten geben. Diese schwachen Etiketten können verwendet werden, um G auf zwei verschiedene Arten zu erlernen. Erstens wird ein Modul einbezogen, das lernt, die Kategorien vorherzusagen, die in einem Zielbild vorhanden sind. Zweitens wird, motiviert durch den Domainabgleich, ein Mechanismus formuliert, um die Merkmale jeder einzelnen Kategorie zwischen den Quell- und Zieldomains abzugleichen. Zu diesem Zweck können kategorienspezifische Domain-Diskriminatoren D^c durch die schwachen Etiketten geführt werden, um zu bestimmen, welche Kategorien abgeglichen werden sollten. In den folgenden Abschnitten werden diese beiden Module unter Verwendung der schwachen Etiketten auf Bildebene ausführlich dargestellt.
In verschiedenen Ausführungsformen spezifiziert der Abgleich des Ausgaberaums O_s, Ot, wobei sich der Ausgaberaum auf die Vorhersage für jedes Pixel bezieht, ob dieses Pixel zur Kategorie k gehört, wobei k - 1, ...., C ist. Hier ist C die Gesamtzahl der Kategorien. Dies berücksichtigt nicht, welche Kategorien in einem Bild vorhanden sind, sondern nur ihre Gesamtstruktur. Im Ergebnis können diese Objekte, die normalerweise teilweise identifiziert werden oder die die vollständige Form nicht beibehalten, bei der Segmentierungsvorhersage weniger signifikant werden, was die Schwierigkeit während des Abgleichs erhöht, da derartige Teilobjekte in den Quelldaten nicht erscheinen. Eine zusätzliche Aufgabe wird über schwache Etiketten durch das Erzwingen von Beschränkungen an die Kategorien, die in den Bildern erscheinen, eingeführt. Die schwachen Etiketten y_t werden verwendet, um die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen, und lernen, die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen.
In verschiedenen Ausführungsformen werden die schwachen Etiketten y_t verwendet, um die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen, und lernen die schwachen Etiketten y_t, die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen. Die Zielbilder X_t können durch G geleitet werden, um die Vorhersagen A_t der vorhandenen/fehlenden Kategorien zu erhalten, wobei dann eine globale Zusammenfassungsschicht angewendet wird, um einen einzigen Vektor der Vorhersagen für jede Kategorie zu erhalten:
$p_{t}^{c} = σ_{s} [log \frac{1}{H' W'} \sum_{h', w'} e x p A_{t}^{(h', w', c)}],$
wobei σ_s die Sigmoid-Funktion ist, so dass die Vorhersagen p_t der Kategorie C für das Ziel die Wahrscheinlichkeit repräsentieren, dass eine spezielle Kategorie in einem Zielbild erscheint. Unter Verwendung von p_t und den schwachen Etiketten y_t kann der kategorienweise binäre Kreuzentropieverlust berechnet werden:
$L_{c} (X_{t}; G) = \sum_{c = 1}^{C} - y_{t}^{c} l o g (p_{t}^{c}) - (1 - y_{t}^{c}) l o g (1 - p_{t}^{c}) .$
Diese Verlustfunktion L_c unterstützt es, die Kategorien zu identifizieren, die in einem speziellen Bild fehlen/vorhanden sind, und zwingt das Segmentierungsnetz G, jenen Objekten/Entitäten Beachtung zu schenken, die teilweise identifiziert sind. Die kategorienweisen Merkmale können für jedes Bild über eine Aufmerksamkeitskarte, d. h., eine Segmentierungsvorhersage erhalten werden, die durch das schwach überwachte Modul geführt wird, wobei dann diese Merkmale zwischen den Quell- und Zieldomains abgeglichen werden können.
In einer oder mehreren Ausführungsformen können für die Domainanpassung schwache Kommentare auf Bildebene verwendet werden, die entweder geschätzt werden, d. h., schwache Pseudoetiketten (nicht überwachte Domainanpassung, UDA), oder von einem menschlichen Experten erfasst werden (überwachte schwache Domainanpassung, WDA). In einer oder mehreren Ausführungsformen kann außerdem ein Abgleichverfahren zum Abgleichen der kategorienweisen Merkmale zwischen den Quell- und Zieldomains verwendet werden. Das Modell kann ein erneutes Pseudoetiketten-Training und einen Merkmalsabgleich gleichzeitig ausführen.
Es ist eine praktische Anwendung, synthetische Daten wirksam einzusetzen, bei denen die Kommentare zu viel geringeren Kosten erhalten werden können. Die Szenenverständnismodelle, die aus den synthetischen Daten erlernt werden, könnten jedoch nicht auf die Bilder der echten Welt verallgemeinert werden. Deshalb ermöglichen es die Wissenstransfermodule, ein besseres Szenenverständnis in der echten Welt auszuführen, was eine entscheidende Komponente zum Fördern autonomer Systeme oder fortschrittlicher Fahrerassistenzsysteme (ADAS) ist, die unterschiedliche Aufgaben, wie z. B. semantische Segmentierung, Objekterkennung oder Tiefenschätzung, enthalten.
In verschiedenen Ausführungsformen kann das System sowohl schwache Pseudoetiketten in einer nicht überwachten Weise vorhersagen als auch den Anwendern ermöglichen, schwache Grundwahrheitsetiketten für die Zielbilder bereitzustellen, was im Vergleich zum Kommentieren pixelweiser Etiketten, wie z. B. der semantischen Segmentierung, den minimalen Aufwand für die Kommentierung erfordert. Die semantische Segmentierung kann außerdem unter der Komplexität hochdimensionaler Merkmale leiden, die verschiedene visuelle Hinweise einschließlich des Aussehens, der Form und des Kontexts codieren müssen. Eine Grundwahrheit kann anstatt ausführlicher Informationen, wo sich ein Objekt in einem Bild befindet, spezifizieren, ob ein Objekt im Bild vorhanden ist.
In verschiedenen Ausführungsformen kann ein Klassifikationsziel formuliert werden, das vorhersagt, ob eine Kategorie in dem Zielbild vorhanden ist. Das Modell kann eine pixelweise Aufmerksamkeitskarte erzeugen, die die Wahrscheinlichkeitskarte für eine bestimmte Kategorie angibt. Dann kann diese Aufmerksamkeitskarte als die Führung verwendet werden, um die kategorienweisen Merkmale für die ferner vorgeschlagene Abgleichprozedur zusammenzufassen. Die Herangehensweise ist nicht auf die herkömmliche nicht überwachte Festlegung eingeschränkt (d. h., keine Grundwahrheitskommentare in der Zieldomain), sondern außerdem auf die überwachte schwache Domainanpassung (WDA) anwendbar, bei der die Grundwahrheiten auf Bildebene in den Zielbildern verfügbar sind.
7 ist ein Blockschaltplan/Ablaufplan, der ein System/Verfahren des Leitens sowohl der Ziel- als auch der Quellbilder durch ein Segmentierungsnetz G, um ihre Merkmale zu erhalten und einen Mechanismus zu formulieren, um die Merkmale jeder einzelnen Kategorie zwischen den Quell- und Zieldomains abzugleichen, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
7 stellt einen Überblick über ein vorgeschlagenes Verfahren dar. Zuerst können sowohl das Zielbild (die Zielbilder) 710 als auch das Quellbild (die Quellbilder) 720 durch ein Segmentierungsnetz G geleitet werden 730, um ihre Merkmale F_s; F_t, ∈ ℝ^H'×W'×2048, wobei 2048 eine Parameterwahl für die Anzahl der Kanäle ist, und Segmentierungsvorhersagen A_s; A_t ∈ ℝ^H'×W'×C und die aufwärtsabgetasteten pixelweisen Vorhersagen O_s, O_t ∈ ℝ^H'×W'×C 740 zu erhalten. Als eine Basislinie können die quellpixelweisen Kommentare verwendet werden, um G zu erlernen, während die Ausgaberäume O_s und O_t unter Verwendung eines gegnerischen Verlusts und eines Diskriminators, der alle vollständigen Faltungsschichten verwendet, um die räumlichen Informationen beizubehalten, abgeglichen werden. Das Segmentierungsnetz G kann 5 Faltungsschichten mit einem Kern von 4 x 4 und einem Schritt von 2 aufweisen, wobei die Kanalanzahl jeweils {64, 128, 256, 512, 1} ist. Mit Ausnahme der letzten Schicht folgt jeder Faltungsschicht eine durch 0,2 parametrisierte undichte ReLU.
In verschiedenen Ausführungsformen wird der Schritt der letzten beiden Faltungsschichten von 2 auf 1 eingestellt, was die Auflösung der ausgegebenen Merkmalskarten zum effektiv 1 = 8-fachen der Größe des Eingangsbildes macht. Um das aufnahmefähige Feld zu vergrößern, werden in den Schichten conv4 und conv5 geweitete Faltungsschichten mit einem Schritt von 2 bzw. 4 verwendet. Nach der letzten Schicht kann eine räumliche Pyramidenzusammenfassung mit Zwischenräumen (ASPP) als der endgültige Klassifikator verwendet werden. Ein Diskriminator mit der gleichen Architektur wird für das gegnerische Lernen hinzugefügt.
Basierend auf dieser Architektur kann das Segmentierungsmodell eine durchschnittliche Überschneidung-über-Vereinigung (loU) von 65,1 % erreichen, wenn es an dem Stadtlandschaften-Trainingssatz trainiert und an dem Stadtlandschaften-Validierungssatz getestet wird.
Eine Aufwärtsabtastschicht 740 kann zur letzten Faltungsschicht zum erneuten Skalieren der Ausgabe auf die Größe der Eingabe hinzugefügt sein. Die Aufwärtsabtastung kann die Quelletiketten 750 schaffen.
In verschiedenen Ausführungsformen kann die Ausgabevorhersage als eine aufmerksamkeits- und kategorienweise Zusammenfassung 760 verwendet werden, um kategorienweise Zusammenfassungsmerkmale 770 zu erzeugen.
In verschiedenen Ausführungsformen können die Zielbilder X_t durch G geleitet werden, um die Vorhersagen A_t zu erhalten und dann eine globale Zusammenfassungsschicht anzuwenden, um einen einzigen Vektor von Vorhersagen für jede Kategorie zu erhalten:
$p_{t}^{c} = σ_{s} [log \frac{1}{H' W'} \sum_{h', w'} e x p A_{t}^{(h', w', c)}],$
wobei σ_s eine Sigmoid-Funktion ist, so dass p_t die Wahrscheinlichkeit repräsentiert, dass eine spezielle Kategorie in einem Bild erscheint. A_t ist eine Merkmalskarte für die Segmentierungsvorhersagen mit C Kanälen und den räumlichen Abmessungen H' × W'. Um sie in einen Klassifikator einzuspeisen, muss sie in einen Vektor mit den Dimensionen 1 × 1 × C umgesetzt werden. Dies wird durch eine Durchschnittsbildungsoperation erreicht. Unter Verwendung von p_t und der schwachen Etiketten y_t kann der kategorienweise binäre Kreuzentropieverlust (oder Bildklassifikationsverlust) berechnet werden:
$L_{c} (X_{t}; G) = \sum_{c = 1}^{C} - y_{t}^{c} l o g (p_{t}^{c}) - (1 - y_{t}^{c}) l o g (1 - p_{t}^{c}) .$
Diese Verlustfunktion L_c unterstützt das Identifizieren der Kategorien, die in einem speziellen Bild fehlen/vorhanden sind, und zwingt das Segmentierungsnetz G, jenen Objekten/jenem Stoff, die teilweise identifiziert sind, Aufmerksamkeit zu schenken. Dies ist ein binärer Kreuzentropieverlust, der den obigen Vektor p_t nimmt und bestimmt, wie gut er mit den Grundwahrheitsetiketten y_t übereinstimmt.
In Anbetracht des Merkmals F in der letzten Schicht und der Segmentierungsvorhersage A werden die kategorienweisen Merkmale unter Verwendung der Vorhersage als eine Aufmerksamkeit über den Merkmalen erhalten. Spezifisch wird das kategorienspezifische Merkmal F_t als ein 2048-dimensionaler Vektor für die c-te Kategorie erhalten:
$F^{c} = \frac{1}{H' W'} \sum_{h', w'} σ {[A]}^{(h', w', c)} F^{(h', w')},$
wobei [A]^(h',,w',c) ein Skalar ist, F^(h',w') ein 2048-dimensionaler Vektor für das kategorienweise Merkmal ist und σ die Softmax-Operation über den räumlichen Dimensionen (h', w') ist. Es wird angegeben, dass die tiefgestellten Indizes s, t für die Quelle und das Ziel weggelassen worden sind, da sie die gleiche Operation verwenden, um die kategorienweisen Merkmale für beide Domains zu erhalten. Als Nächstes wird der Mechanismus dargestellt, um diese Merkmale über Domains abzugleichen. Es wird angegeben, dass F^c (kleines c), um das zusammengefasste Merkmal für die c-te Kategorie zu bezeichnen, und F_t (großes C), um den Satz der zusammengefassten Merkmale für alle Kategorien zu bezeichnen, verwendet werden.
In verschiedenen Ausführungsformen kann der Diskriminator (können die Diskriminatoren) 780 mit dem Segmentierungsnetz unter Verwendung einer kleinen Stapelgröße gemeinsam trainiert werden. Um das Segmentierungsnetz G so zu erlernen, dass die quell- und zielkategorienweisen Merkmale abgeglichen werden, kann ein gegnerischer Verlust verwendet werden, während die kategorienspezifische Diskriminatoren 780 $D^{C} = {D^{c}}_{c = 1}^{C}$
verwendet werden. Die schwachen Etiketten können verwendet werden, um diese Merkmale zwischen der Quell- und der Zieldomain unter Verwendung der kategorienweisen Diskriminatoren D^c über den Abgleichverlust $L_{a d v}^{C}$
abzugleichen und die Diskriminatoren unter Verwendung des Domainklassifizierungsverlustes $L_{d}^{C}$
zu erlernen.
In verschiedenen Ausführungsformen können C kategorienspezifische Diskriminatoren trainiert werden, um zwischen kategorienweisen Merkmalen, die aus den Quell- und Zielbildern gezogen werden, zu unterscheiden. Die Verlustfunktion, um die Diskriminatoren zu trainieren, ist wie folgt:
$L_{d}^{C} (F_{s}^{C}, F_{t}^{C}, G, D^{C}) = \sum_{c = 1}^{C} - y_{s}^{c} log D^{C} (F_{s}^{c}) - y_{t}^{c} log (1 - D^{c} (F_{t}^{c})) .$
Es wird angegeben, dass während des Trainings der Diskriminatoren nur der Verlust für jene Kategorien berechnet wird, die in dem speziellen Bild über y_s und y_t vorhanden sind. Dann kann der gegnerische Verlust für die Zielbilder wie folgt ausgedrückt werden:
$L_{a d v}^{C} (F_{t}^{C}, G, D^{C}) = \sum_{c = 1}^{C} - y_{t}^{c} log D^{C} (F_{t}^{c}) .$
Die zusammengefassten Merkmale für die Zieldomainbilder werden durch $F_{t}^{C}$
und/oder $F_{t}^{c}$
repräsentiert. Ähnlich können die schwachen Zieletiketten y_t verwendet werden, um nur jene Kategorien abzugleichen, die im Zielbild vorhanden sind. Durch das Minimieren von $L_{a d v}^{C}$
versucht das Segmentierungsnetz, den Diskriminator durch das Maximieren der Wahrscheinlichkeit des kategorienweisen Zielmerkmals, das als die Quellverteilung betrachtet wird, zu täuschen.
In verschiedenen Ausführungsformen berücksichtigt der Abgleich des Ausgaberaums O_s, O_t nicht, welche Kategorien in einem Bild vorhanden sind, sondern nur deren Gesamtstruktur. Für jene Objekte, die normalerweise teilweise identifiziert werden oder die die vollständige Form nicht beibehalten, können sie im Ergebnis bei der Segmentierungsvorhersage weniger signifikant werden, was die Schwierigkeit während des Abgleichs erhöht, da derartige Teilobjekte in den Quelldaten nicht erscheinen. In diesem Aufsatz wird durch das Erzwingen der Beschränkungen an die Kategorien, die in den Bildern erscheinen, eine Hilfsaufgabe über schwache Etiketten eingeführt.
In verschiedenen Ausführungsformen kann ein Satz von C verschiedenen Diskriminatoren für jede der c Kategorien erlernt werden. Die Quell- und Zielbilder können verwendet werden, um die Diskriminatoren zu trainieren, die lernen, zwischen den kategorienweisen Merkmalen zu unterscheiden, die aus den Quell- oder Zielbildern gezogen werden. Das Ziel wird als: $min_{D^{C}} L_{d}^{C} (F_{s}^{C}, F_{t}^{C})$
geschrieben. Es wird angegeben, dass jeder Diskriminator mit zusammengefassten Merkmalen trainiert werden kann, die für diese Kategorie spezifisch sind.
In verschiedenen Ausführungsformen wird das Segmentierungsnetz mit dem pixelweisen Kreuzentropieverlust L_s an den Quellbildern, dem schwachen Bildklassifikationsverlust L_c und dem gegnerischen Verlust $L_{a d v}^{C}$
an den Zielbildern trainiert. Durch das Kombinieren des Ziels des Segmentierungsnetzes und der Diskriminatoren kann ein Minimum-Maximum-Problem formuliert werden:
$min_{G} max_{D^{c}} L_{s} + λ_{c} L_{c} (X_{t}) + λ_{d} L_{a d v}^{C} (F_{t}^{C})$
Es wird der Standard-Trainingsprozedur eines generativen gegnerischen Netzes (GAN) gefolgt, um G und D^c abwechselnd zu aktualisieren. Es wird angegeben, dass die Berechnung von $L_{a d v}^{C}$
die kategorienweisen Diskriminatoren D^c beinhaltet. Deshalb wird D^c festgelegt und werden die Gradienten nur für das Segmentierungsnetz G zurück ausgebreitet.
Es kann ein Mechanismus verwendet werden, um schwachen Etiketten auf der Bildebene der Zielbilder zu verwenden, um das Segmentierungsmodell zwischen den Quell- und Zieldomains anzupassen. Die schwachen Etiketten können jedoch auf verschiedenen Weisen erfasst werden.
In verschiedenen Ausführungsformen können die schwachen Etiketten erfasst werden, indem sie an den verfügbaren Daten, d. h., den Quellbildern/Etiketten und den Zielbildern, direkt geschätzt werden, was die Festlegung der nicht überwachten Domainanpassung (UDA) ist.
$y_{t}^{c} = {\begin{matrix} 1, i f p_{t}^{c} > T \\ 0, s o n s t \end{matrix},$
wobei $p_{t}^{c}$
die in (1) berechnete Wahrscheinlichkeit für die c-Kategorie ist und T ein Schwellenwert ist, der in den Experimenten auf 0,2 gesetzt werden kann, wenn es nicht anders angegeben ist. In der Praxis können die schwachen Etiketten während des Trainings des Rahmens online berechnet werden, so dass kein zusätzlicher Trainingsschritt einbezogen ist. Spezifisch wird ein Zielbild weitergeleitet, werden die schwachen Etiketten erhalten und werden dann die Verlustfunktionen berechnet. Da die auf diese Weise erhaltenen schwachen Etiketten keine menschliche Überwachung erfordern, ist die Anpassung unter Verwendung derartiger Etiketten nicht überwacht.
In dieser Form können die schwachen Etiketten durch das Abfragen eines menschlichen Orakels erhalten werden, um eine Liste der im Zielbild vorkommenden Kategorien zu liefern. Da die Überwachung von einem Orakel an den Zielbildern verwendet wird, kann dies als schwach überwachte Domainanpassung (WDA) bezeichnet werden. Es ist erwähnenswert, dass die WDA-Festlegung praktisch nützlich sein könnte, da das Sammeln derartiger menschlicher Orakel von schwachen Etiketten viel einfacher als die pixelweisen Kommentare ist. Die hier beschriebenen Ausführungsformen können vollständig aus Hardware bestehen, vollständig aus Software bestehen oder sowohl Hardware- als auch Software-Elemente enthalten. In einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, Mikrocode usw. enthält, aber nicht darauf eingeschränkt ist.
Für das Segmentierungsnetz G kann DeepLab-V2 mit der ResNet-101-Architektur, die dem UDA-Rahmen folgt, verwendet werden. Die Merkmale F_s; F_t können vor der Schicht der räumlichen Pyramidenzusammenfassung mit Zwischenräumen (ASPP) extrahiert werden. Für die kategorienweisen Diskriminatoren
$D^{C} = {D^{c}}_{c = 1}^{C},$
können C separate Netze verwendet werden, die jeweils drei vollständig verbundene Schichten mit der Knotenanzahl {2048; 2048; 1} und die ReLU-Aktivierung enthalten können.
In verschiedenen Ausführungsformen können die anfänglichen Lernraten für das Segmentierungsnetz und die Diskriminatoren auf 2,5 × 10^-4 und 1 _X 10^-4 mit einem polynomialen Zerfall mit der Potenz 0,9 gesetzt sein. λ^c kann für schwache Orakel-Etiketten als 0,2 gewählt werden und für schwache Pseudoetiketten ein kleineres λ^c = 0,01 verwenden, um seiner ungenauen Vorhersage Rechnung zu tragen, wobei λ_adv = 0,001 gesetzt werden kann. Die Anpassung unter Verwendung schwacher Etiketten gleicht die Merkmale nicht nur zwischen den ursprünglichen Quell- und Zielbildern, sondern außerdem zwischen den übersetzten Quellbildern und Zielbildern ab.
In verschiedenen Ausführungsformen können diese angepassten Bilder zu dem Quelldatensatz hinzugefügt werden, da sich ihre pixelweisen Kommentare nach der Anpassung nicht ändern. Auf diese Weise gleicht die Anpassung unter Verwendung schwacher Etiketten die Merkmale nicht nur zwischen den ursprünglichen Quell- und Zielbildern, sondern außerdem zwischen den übersetzten Quell- und Zielbildern ab.
8 ist ein beispielhaftes Verarbeitungssystem 800, auf das die vorliegenden Verfahren und Systeme angewendet werden können, gemäß einer Ausführungsform der vorliegenden Erfindung.
Das Verarbeitungssystem 800 kann wenigstens einen Prozessor (CPU) 804 enthalten und kann einen Graphikprozessor (GPU) 805 aufweisen, der Vektorberechnungen/-manipulationen ausführen kann, die über einen Systembus 602 betriebstechnisch an andere Komponenten gekoppelt sind. Ein Cache 806, ein Festwertspeicher (ROM) 808, ein Schreib-Lese-Speicher (RAM) 810, ein Eingabe-/Ausgabeadapter (E/A-Adapter) 820, ein Soundadapter 830, ein Netzadapter 840, ein Anwenderschnittstellenadapter 850 und ein Anzeigeadapter 860 können betriebstechnisch an den Systembus 802 gekoppelt sein.
Eine erste Speichervorrichtung 822 und eine zweite Speichervorrichtung 824 sind durch den E/A-Adapter 820 betriebstechnisch an den Systembus 802 gekoppelt. Die Speichervorrichtungen 822 und 824 können irgendeine einer Plattenspeichervorrichtung (z. B. eine magnetische oder optische Plattenspeichervorrichtung), einer Festkörpervorrichtung, einer Magnetspeichervorrichtung usw. sein. Die Speichervorrichtungen 822 und 824 können der gleiche Typ von Speichervorrichtung oder unterschiedliche Typen von Speichervorrichtungen sein.
Ein Lautsprecher 832 ist durch den Soundadapter 830 betriebstechnisch an den Systembus 802 gekoppelt. Ein Sender/Empfänger 842 ist durch den Netzadapter 840 betriebstechnisch an den Systembus 802 gekoppelt. Eine Anzeigevorrichtung 862 ist durch den Anzeigeadapter 860 betriebstechnisch an den Systembus 802 gekoppelt.
Eine erste Anwendereingabevorrichtung 852, eine zweite Anwendereingabevorrichtung 854 und eine dritte Anwendereingabevorrichtung 856 sind durch einen Anwenderschnittstellenadapter 850 betriebstechnisch an den Systembus 802 gekoppelt. Die Anwendereingabevorrichtungen 852, 854 und 856 können irgendeine einer Tastatur, einer Maus, eines Tastfeldes, einer Bildaufnahmevorrichtung, einer Bewegungsabtastvorrichtung, eines Mikrophons, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorhergehenden Vorrichtungen enthält, usw. sein. Selbstverständlich können andere Typen von Eingabevorrichtungen verwendet werden, während der Erfindungsgedanke der vorliegenden Prinzipien aufrechterhalten wird. Die Anwendereingabevorrichtungen 852, 854 und 856 können der gleiche Typ von Anwendereingabevorrichtung oder verschiedene Typen von Anwendereingabevorrichtungen sein. Die Anwendereingabevorrichtungen 852, 854 und 856 können verwendet werden, um Informationen in das und aus dem System 800 einzugeben bzw. auszugeben.
In verschiedenen Ausführungsformen kann das Verarbeitungssystem 800 außerdem sowohl andere (nicht gezeigte) Elemente enthalten, wie sie durch einen Fachmann auf dem Gebiet ohne weiteres in Betracht gezogen werden können, als auch bestimmte Elemente weglassen. In dem Verarbeitungssystem 800 können z. B. abhängig von der speziellen Implementierung desselben verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen enthalten sein, wie es durch einen Durchschnittsfachmann auf dem Gebiet ohne weiteres erkannt wird. Es können z. B. verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Überdies können zusätzliche Prozessoren, Controller, Speicher usw. in verschiedenen Konfigurationen verwendet werden, wie durch einen Durchschnittfachmann auf dem Gebiet ohne weiteres erkannt wird. Diese und andere Variationen des Verarbeitungssystems 800 können durch einen Durchschnittfachmann auf dem Gebiet in Anbetracht der hier bereitgestellten Lehren der vorliegenden Prinzipien ohne weiteres in Betracht gezogen werden.
Überdies soll erkannt werden, dass das System 800 ein System zum Implementieren der jeweiligen Ausführungsformen der vorliegenden Verfahren/Systeme ist. Ein Teil oder alles des Verarbeitungssystems 800 kann in einem oder mehreren der Elemente nach den 1-7 implementiert sein. Ferner soll erkannt werden, dass das Verarbeitungssystem 800 wenigstens einen Teil der hier beschriebenen Verfahren, z. B. wenigstens einen Teil des Verfahrens nach den 1-7, ausführen kann.
9 zeigt ein beispielhaftes Verarbeitungssystem 900, das konfiguriert ist, ein oder mehrere neuronale Netze zum Anpassen der semantischen Segmentierung über Domains zu implementieren, gemäß einer Ausführungsform der vorliegenden Erfindung.
In einer oder mehreren Ausführungsformen kann das Verarbeitungssystem 900 ein Computersystem 800 sein, das konfiguriert ist, ein computerimplementiertes Verfahren zum Anpassen der semantischen Segmentierung über Domains auszuführen.
In einer oder mehreren Ausführungsformen kann das Verarbeitungssystem 900 ein Computersystem 800 mit Speicherkomponenten 950 sein, die den Schreib-Lese-Speicher (RAM) 810 des Computersystems, die Festplatten 822 und/oder einen Cloud-Speicher enthalten, aber nicht darauf eingeschränkt sind, um ein computerimplementiertes Verfahren unter Verwendung schwacher Etiketten zu speichern und zu implementieren, um die semantische Segmentierung über Domains zu verbessern. Die Speicherkomponenten 950 können außerdem eine Datenbank zum Organisieren des Speichers verwenden.
In verschiedenen Ausführungsformen können die Speicherkomponenten 950 ein Segmentierungsnetz 910 enthalten, das konfiguriert sein kann, ein neuronales Netz zu implementieren, das konfiguriert ist, ein Quellbild und ein Zielbild zu modellieren. Das Segmentierungsnetz 910 kann außerdem konfiguriert sein, als Eingabe digitale Bilder aus verschiedenen Domains zu empfangen und vorherzusagen, welche Kategorien in diesem Bild vorhanden sind. In Anbetracht eines Straßen- oder Stadtbilds in der Zieldomain kann z. B. vorhergesagt werden, welche Kategorien in diesem Bild vorhanden sind, z. B. Straße, Personenkraftwagen, Lastkraftwagen und Fußgänger, ohne ihre genauen Stellen im Bild zu kennen. Das Segmentierungsnetz 910 kann außerdem konfiguriert sein, schwache Pseudoetiketten in einer nicht überwachten Weise vorherzusagen. Die Anwender können für die Zielbilder schwache Grundwahrheitsetiketten bereitstellen.
In verschiedenen Ausführungsformen können die Speicherkomponenten 950 eine Einrichtung 920 zur kategorienweisen Merkmalszusammenfassung enthalten, die konfiguriert ist, Segmentierungsvorhersage-Zusammenfassungsmerkmale bereitzustellen. Eine Aufmerksamkeitskarte kann für die Führung verwendet werden, um kategorienweise Merkmale für die ferner vorgeschlagene Abgleichprozedur zusammenzufassen. Die Einrichtung 920 zur kategorienweisen Merkmalszusammenfassung ist so konfiguriert, dass sie eine globale Zusammenfassungsschicht aufweist, um einen einzigen Vektor der Vorhersagen für jede Kategorie zu erhalten.
In verschiedenen Ausführungsformen können die Speicherkomponenten 950 einen Diskriminator(en) 930 enthalten, der (die) konfiguriert ist (sind), zwischen kategorienweisen Merkmalen zu unterscheiden, die aus den Quell- und Zielbildern gezogen werden. Der Diskriminator 930 kann (die Diskriminatoren 930 können) an Quell- und Zielbildern trainiert werden und mit den schwachen Etiketten verwendet werden, um die Merkmale zwischen den Quell- und Zielbildern abzugleichen. Es kann eine gegnerischen Verlustfunktion verwendet werden, um kategorienweise Diskriminatoren zu trainieren, um zwischen kategorienweisen Merkmalen zu unterscheiden, die aus den Quell- und Zielbildern gezogen werden. Jeder von einem oder mehreren Diskriminatoren kann mit zusammengefassten Merkmalen trainiert werden, die für eine Kategorie spezifisch sind.
In verschiedenen Ausführungsformen können die Speicherkomponenten 950 einen Domainabgleicheinrichtung 940 enthalten, die konfiguriert ist, die schwachen Etiketten zu verwenden, um diese Merkmale zwischen den Quell- und Zieldomains unter Verwendung der kategorienweisen Diskriminatoren unter Verwendung des Abgleichverlustes abzugleichen und die Diskriminatoren unter Verwendung des Domainklassifikationsverlustes zu trainieren. Die Domainabgleicheinrichtung 940 kann außerdem konfiguriert sein, einen kategorienweise Merkmalsabgleich über Domains auszuführen, wobei nur die Kategorien, die im Bild vorhanden sind, für den Abgleich verwendet werden.
10 ist ein Blockschaltplan, der ein beispielhaftes neuronales Netz 1000 gemäß einer weiteren Ausführungsform der vorliegenden Erfindung veranschaulichend darstellt.
Ein neuronales Netz 1000 kann mehrere Neuronen/Knoten 1001 enthalten, wobei die Knoten 1008 unter Verwendung einer oder mehrerer von mehreren Verbindungen 1008 kommunizieren können. Das neuronale Netz 1000 kann mehrere Schichten enthalten, die z. B. eine oder mehrere Eingabeschichten 1002, eine oder mehrere verborgene Schichten 1004 und eine oder mehrere Ausgabeschichten 1006 enthalten. In einer Ausführungsform können die Knoten 1001 in jeder Schicht verwendet werden, um irgendeine Funktion (z. B. ein Eingabeprogramm, Eingabedaten usw.) auf irgendeine vorhergehende Schicht anzuwenden, um eine Ausgabe zu erzeugen, wobei die verborgene Schicht 1004 verwendet werden kann, um die Eingaben von der Eingabeschicht (oder irgendeiner anderen Schicht) in eine Ausgabe für Knoten 1001 auf verschiedenen Ebenen zu transformieren.
Die Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium zugegriffen werden kann, das Programmcode zur Verwendung durch einen bzw. ein oder in Verbindung mit einem Computer oder irgendeinem Anweisungsausführungssystem bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch das oder in Verbindung mit dem Anweisungsausführungssystem, dem Gerät oder der Vorrichtung speichert, überträgt, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder -gerät oder-vorrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium, wie z. B. einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine abnehmbare Computerdiskette, einen Schreib-Lese-Speicher (RAM), einen Festwertspeicher (ROM), eine starre Magnetplatte und eine optische Platte usw. enthalten.
Jedes Computerprogramm kann in einem maschinenlesbaren Speichermedium oder einer maschinenlesbaren Vorrichtung (z. B. Programmspeicher oder Magnetplatte) greifbar gespeichert sein, das bzw. die durch einen programmierbaren Universal- oder Spezialcomputer zum Konfigurieren und Steuern des Betriebs eines Computers gelesen werden kann, wenn das Speichermedium oder die Speichervorrichtung durch den Computer gelesen wird, um die hier beschriebenen Prozeduren auszuführen. Das erfindungsgemäße System kann außerdem als in einem computerlesbaren Speichermedium verkörpert betrachtet werden, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium einen Computer veranlasst, in einer spezifischen und vorgegebenen Weise zu arbeiten, um die hier beschriebenen Funktionen auszuführen.
Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor enthalten, der durch einen Systembus direkt oder indirekt an Speicherelemente gekoppelt ist. Die Speicherelemente können einen lokalen Speicher, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cache-Speicher, die die vorübergehende Speicherung von wenigstens etwas Programmcode bereitstellen, um die Anzahl zu verringern, wie oft der Code aus dem Massenspeicher während der Ausführung wiedergewonnen wird, enthalten. Mit dem System können Eingabe-/Ausgabe- oder E/A-Vorrichtungen (einschließlich, aber nicht eingeschränkt auf Tastaturen, Anzeigen, Zeigevorrichtungen usw.) entweder direkt oder durch dazwischenliegende E/A-Controller gekoppelt sein.
Außerdem können Netzadapter an das System gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem durch dazwischenliegende private oder öffentliche Netze an andere Datenverarbeitungssysteme oder entfernte Druckern oder Speichervorrichtungen gekoppelt wird. Modems, Kabelmodems und Ethernet-Karten sind nur einige der derzeit verfügbaren Typen von Netzadaptern.
Der Begriff „Hardware-Prozessor-Teilsystem“ oder „Hardware-Prozessor“, wie er hier verwendet wird, kann sich auf einen Prozessor, einen Speicher, Software oder Kombinationen daraus beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben auszuführen. In nützlichen Ausführungsformen kann das Hardware-Prozessor-Teilsystem ein oder mehrere Datenverarbeitungselemente (z. B. Logikschaltungen, Verarbeitungsschaltungen, Anweisungsausführungsvorrichtungen usw.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente können in einer Zentraleinheit, einer Graphikverarbeitungseinheit und/oder einem separaten prozessor- oder rechenelementbasierten Controller (z. B. Logikgattern usw.) enthalten sein. Das Hardware-Prozessor-Teilsystem kann einen oder mehrere bordinterne Speicher (z. B. Caches, dedizierte Speicheranordnungen, Festwertspeicher usw.) enthalten. In einigen Ausführungsformen kann das Hardware-Prozessor-Teilsystem einen oder mehrere Speicher enthalten, die sich auf der oder außerhalb der Platine befinden können oder die für die Verwendung durch das Hardware-Prozessor-Teilsystem dediziert sein können (z. B. ROM, RAM, ein Basiseingabe-/-ausgabesystem (BIOS), usw.).
In einigen Ausführungsformen kann das Hardware-Prozessor-Teilsystem ein oder mehrere Software-Elemente enthalten und ausführen. Das eine oder die mehreren Software-Elemente können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder spezifischen Code enthalten, um ein spezifiziertes Ergebnis zu erreichen.
In anderen Ausführungsformen kann das Hardware-Prozessor-Teilsystem eine dedizierte spezialisierte Schaltungsanordnung enthalten, die eine oder mehrere elektronische Verarbeitungsfunktionen ausführt, um ein spezifiziertes Ergebnis zu erreichen. Eine derartige Schaltungsanordnung kann eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), eine oder mehrere feldprogrammierbare Gatteranordnungen (FPGAs) und/oder eine oder mehrere programmierbare Logikanordnungen (PLAs) enthalten.
Diese und andere Variationen eines Hardware-Prozessor-Teilsystems werden außerdem in Übereinstimmung mit den Ausführungsformen der vorliegenden Erfindung in Betracht gezogen.
Die Bezugnahme in der Patentschrift sowohl auf „eine einzige Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung als auch auf andere Variationen davon bedeutet, dass ein spezielles Merkmal, eine spezielle Struktur, eine spezielle Eigenschaft usw., die im Zusammenhang mit der Ausführungsform beschrieben werden, in wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Folglich beziehen sich die Auftritte sowohl des Ausdrucks „in einer einzigen Ausführungsform“ oder „in einer Ausführungsform“ als auch irgendwelcher anderen Variationen, die an verschiedenen Stellen überall in der Patentschrift erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es soll jedoch erkannt werden, dass die Merkmale einer oder mehrerer Ausführungsformen in Anbetracht der hier bereitgestellten Lehren der vorliegenden Erfindung kombiniert werden können.
Es soll erkannt werden, dass die Verwendung von irgendeinem des Folgenden „/“, „und/oder“ und „wenigstens eines von“, z. B. in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, vorgesehen ist, die Auswahl nur der ersten aufgeführten Option (A) oder die Auswahl nur der zweiten aufgeführten Option (B) oder die Auswahl beider Optionen (A und B) zu umfassen. Als ein weiteres Beispiel ist in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ eine derartige Formulierung vorgesehen, dass sie die Auswahl nur der ersten aufgeführten Option (A) oder die Auswahl nur der zweiten aufgeführten Option (B) oder die Auswahl nur der dritten aufgeführten Option (C) oder die Auswahl nur der ersten und der zweiten aufgeführten Option (A und B) oder nur die Auswahl der ersten und der dritten aufgeführten Option (A und C) oder die Auswahl nur der zweiten und der dritten aufgeführten Option (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfasst. Dies kann für so viele Elemente erweitert werden, wie aufgeführt sind.
Das Vorhergehende soll so verstanden werden, dass es in jeder Hinsicht veranschaulichend und beispielhaft, aber nicht einschränkend ist, wobei der Schutzumfang der hier offenbarten Erfindung nicht durch die ausführliche Beschreibung, sondern stattdessen durch die Patentansprüche bestimmt ist, wie sie gemäß der vollen Breite, die durch die Patentgesetze erlaubt ist, interpretiert werden. Es soll erkannt werden, dass die hier gezeigten und beschriebenen Ausführungsformen die vorliegende Erfindung lediglich veranschaulichen und dass die Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Die Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Nachdem folglich die Aspekte der Erfindung mit der durch die Patentgesetze geforderten Ausführlichkeit und Spezifizität beschrieben worden sind, ist das, was beansprucht und durch die Patenturkunde geschützt werden soll, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 17/094139 [0001]
US 62/935341 [0001]

Claims

Verfahren zum Anpassen der semantischen Segmentierung über Domains, das umfasst: Eingeben (720) eines Quellbildes in ein Segmentierungsnetz; Eingeben (710) eines Zielbildes in das Segmentierungsnetz; Identifizieren (760) von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung einer kategorienweisen Zusammenfassung; Unterscheiden (780) zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild; Trainieren (730) des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild; und Ausgeben eines semantisch segmentierten Zielbildes.
Verfahren nach Anspruch 1, wobei eine GAN-Trainingsprozedur verwendet wird, um das Segmentierungsnetz zu aktualisieren.
Verfahren nach Anspruch 1, wobei der für die Zielbilder berechnete gegnerische Verlust durch $L_{a d v}^{C} (F_{t}^{C}, G, D^{C}) = \sum_{c = 1}^{C} - y_{t}^{c} log D^{C} (F_{t}^{c})$
gegeben ist, wobei $L_{a d v}^{C}$
ein kategorienspezifischer gegnerischer Verlust ist, $F_{t}^{C}$
die zusammengefassten Merkmale für die Zieldomainbilder repräsentiert, G das Segmentierungsnetz ist, D^c ein kategorienspezifischer Domain-Diskriminator ist, c ein Index für die Kategorien C ist und $y_{t}^{c}$
die kategorienweisen schwachen Zieletiketten repräsentiert.
Verfahren nach Anspruch 1, das ferner das Verwenden von schwachen Zieletiketten y_t umfasst, um die Kategorien in dem Zielbild abzugleichen.
Verfahren nach Anspruch 4, das ferner das Verwenden von kategorienspezifischen Domain-Diskriminatoren umfasst, die durch die schwachen Zieletiketten geführt sind, um zu bestimmen, welche Kategorien abgeglichen werden sollten.
Verfahren nach Anspruch 5, das ferner das Erhalten schwacher Etiketten durch das Abfragen eines menschlichen Orakels umfasst, um eine Liste von Kategorien bereitzustellen, die in dem Zielbild vorkommen.
Verfahren nach Anspruch 6, das ferner das Erhalten schwacher Etiketten durch eine nicht überwachte Domainanpassung umfasst.
Verarbeitungssystem (900) zum Anpassen der semantischen Segmentierung über Domains, das umfasst: eine oder mehrere Prozessorvorrichtungen (804, 805); einen Speicher (950), der mit wenigstens einer der einen oder der mehreren Prozessorvorrichtungen (804, 805) in Verbindung steht; und einen Anzeigeschirm (862); wobei das Verarbeitungssystem (900) enthält: ein Segmentierungsnetz (910), das konfiguriert ist, ein Quellbild zu empfangen und ein Zielbild zu empfangen; eine Einrichtung (920) zur kategorienweisen Zusammenfassung, die konfiguriert ist, kategorienweise Merkmale für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung zu identifizieren; einen Diskriminator (930), der konfiguriert ist, zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild zu unterscheiden; wobei das Segmentierungsnetz (910) basierend auf einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild trainiert wird und ein semantisch segmentiertes Zielbild auf dem Anzeigeschirm (862) ausgibt.
Verarbeitungssystem nach Anspruch 8, wobei eine GAN-Trainingsprozedur verwendet wird, um das Segmentierungsnetz zu aktualisieren.
Verarbeitungssystem nach Anspruch 8, wobei der für die Zielbilder berechnete gegnerische Verlust durch $L_{a d v}^{C} (F_{t}^{C}, G, D^{C}) = \sum_{c = 1}^{C} - y_{t}^{c} log D^{C} (F_{t}^{c})$
gegeben ist, wobei $L_{a d v}^{C}$
ein kategorienspezifischer gegnerischer Verlust ist, $F_{t}^{C}$
die zusammengefassten Merkmale für die Zieldomainbilder repräsentiert, G das Segmentierungsnetz ist, D^c ein kategorienspezifischer Domain-Diskriminator ist, c ein Index für die Kategorien C ist und $y_{t}^{c}$
die kategorienweisen schwachen Zieletiketten repräsentiert.
Verarbeitungssystem nach Anspruch 8, das ferner eine Domainabgleicheinrichtung umfasst, die konfiguriert ist, schwache Zieletiketten y_t zu verwenden, um die Kategorien im Zielbild abzugleichen.
Verarbeitungssystem nach Anspruch 11, das ferner das Verwenden von kategorienspezifischen Domain-Diskriminatoren umfasst, die durch die schwachen Zieletiketten geführt sind, um zu bestimmen, welche Kategorien abgeglichen werden sollten.
Verarbeitungssystem nach Anspruch 12, das ferner das Erhalten schwacher Etiketten durch das Abfragen eines menschlichen Orakels umfasst, um eine Liste von Kategorien bereitzustellen, die in dem Zielbild vorkommen.
Nicht transitorisches computerlesbares Speichermedium, das ein computerlesbares Programm zum Erzeugen eines Straßenanordnungsmodells umfasst, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, den Computer veranlasst, die Schritte auszuführen: Eingeben (720) eines Quellbildes in ein Segmentierungsnetz; Eingeben (710) eines Zielbildes in das Segmentierungsnetz; Identifizieren (760) von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung; Unterscheiden (780) zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild; Trainieren (730) des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild; und Ausgeben eines semantisch segmentierten Zielbildes.
Computerlesbares Programm nach Anspruch 14, wobei eine GAN-Trainingsprozedur verwendet wird, um das Segmentierungsnetz zu aktualisieren.
Computerlesbares Programm nach Anspruch 14, wobei der für die Zielbilder berechnete gegnerische Verlust durch $L_{a d v}^{C} (F_{t}^{C}, G, D^{C}) = \sum_{c = 1}^{C} - y_{t}^{c} log D^{C} (F_{t}^{c})$
gegeben ist, wobei $L_{a d v}^{C}$
ein kategorienspezifischer gegnerischer Verlust ist, $F_{t}^{C}$
die zusammengefassten Merkmale für die Zieldomainbilder repräsentiert, G das Segmentierungsnetz ist, D^C ein kategorienspezifischer Domain-Diskriminator ist, c ein Index für die Kategorien C ist und $y_{t}^{c}$
die kategorienweisen schwachen Zieletiketten repräsentiert.
Computerlesbares Programm nach Anspruch 14, das ferner das Verwenden von schwachen Zieletiketten y_t umfasst, um die Kategorien in dem Zielbild abzugleichen.
Computerlesbares Programm nach Anspruch 17, das ferner das Verwenden von kategorienspezifischen Domain-Diskriminatoren umfasst, die durch die schwachen Zieletiketten geführt sind, um zu bestimmen, welche Kategorien abgeglichen werden sollten.
Computerlesbares Programm nach Anspruch 18, das ferner das Erhalten schwacher Etiketten durch das Abfragen eines menschlichen Orakels umfasst, um eine Liste von Kategorien bereitzustellen, die in dem Zielbild vorkommen.
Computerlesbares Programm nach Anspruch 19, das ferner das Erhalten schwacher Etiketten durch eine nicht überwachte Domainanpassung umfasst.