DE112020005609T5 - Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten - Google Patents

Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten Download PDF

Info

Publication number
DE112020005609T5
DE112020005609T5 DE112020005609.0T DE112020005609T DE112020005609T5 DE 112020005609 T5 DE112020005609 T5 DE 112020005609T5 DE 112020005609 T DE112020005609 T DE 112020005609T DE 112020005609 T5 DE112020005609 T5 DE 112020005609T5
Authority
DE
Germany
Prior art keywords
image
target
category
segmentation
weak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112020005609.0T
Other languages
English (en)
Inventor
Yi-Hsuan Tsai
Samuel Schulter
Manmohan Chandraker
Sujoy Paul
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112020005609T5 publication Critical patent/DE112020005609T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

Es werden Systeme und Verfahren zum Anpassung der semantischen Segmentierung über Domains geschaffen. Das Verfahren enthält das Eingeben (720) eines Quellbildes in ein Segmentierungsnetz und das Eingeben (710) eines Zielbildes in das Segmentierungsnetz. Das Verfahren enthält ferner das Identifizieren (760) von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung und das Unterscheiden (780) zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild. Das Verfahren enthält ferner das Trainieren (730) des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild und das Ausgeben eines semantisch segmentierten Zielbildes.

Description

  • INFORMATIONEN ÜBER VERWANDTE ANMELDUNG
  • Diese Anmeldung beansprucht die Priorität der nicht vorläufigen US-Patentanmeldung, Nr. 17/094.139 , eingereicht am 10. November 2020, und der vorläufigen Anmeldung, Nr. 62/935.341 , eingereicht am 14. November 2019, die hier durch Bezugnahme vollständig mit aufgenommen sind.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf auf neuronalen Faltungsnetzen basierende Herangehensweisen für die semantische Segmentierung und insbesondere auf ein Modell der semantischen Segmentierung, das vorher ungesehene Domains verallgemeinern kann.
  • Beschreibung des Standes der Technik
  • Die semantische Segmentierung bezieht sich auf den Prozess des Zuweisens oder Verknüpfens jedes Pixels in einem Bild mit einem semantischen oder Klassenetikett. Diese Etiketten können eine Person, ein Tier, einen Personenkraftwagen, einen Baum, eine Straße, eine Lampe, einen Briefkasten usw. identifizieren. Die semantische Segmentierung kann als Bildklassifizierung auf einer Pixelebene betrachtet werden. Die Instanzensegmentierung kann die separaten Instanzen mehrerer des gleichen Objekts, das in einem Bild erscheint, etikettieren, z. B. um die Anzahl der Objekte zu zählen. Die semantische Segmentierung und die Instanzensegmentierung können es den Modellen ermöglichen, den Kontext einer Umgebung zu verstehen. Der Mangel an Segmentierungsetiketten ist eines der Haupthindernisse für die semantische Segmentierung in der freien Natur (z. B. Bildern der echten Welt).
  • Die Modelle lernen normalerweise durch das Sammeln von Daten aus derselben Domain, z. B. Bilder aus einer Stadt, einem Bauernhof, Bergen usw., und wenden diese erlernten Modelle dann auf eine weitere Domain (z. B. eine andere Stadt, einen anderen Bauernhof, andere Berge usw.) an. Die Leistung kann jedoch aufgrund einer Domainlücke, wie z. B. unterschiedlicher Straßentypen, unterschiedlicher architektonischer Stile von Gebäuden, unterschiedlicher Arten von Tieren oder unterschiedlicher Arten des Gebirgsgeländes, zwischen dem Trainingssatz und der Domain, auf die das Modell angewendet wird, signifikant verringert sein.
  • ZUSAMMENFASSUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Anpassen der semantischen Segmentierung über Domains geschaffen. Das Verfahren enthält das Eingeben eines Quellbildes in ein Segmentierungsnetz und das Eingeben eines Zielbildes in das Segmentierungsnetz. Das Verfahren enthält ferner das Identifizieren von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung und das Unterscheiden zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild. Das Verfahren enthält ferner das Trainieren des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild und das Ausgeben eines semantisch segmentierten Zielbildes.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verarbeitungssystem zum Anpassen der semantischen Segmentierung über Domains bereitgestellt. Das Verarbeitungssystem enthält eine oder mehrere Prozessorvorrichtungen, einen Speicher in Verbindung mit wenigstens einer der einen oder der mehreren Prozessorvorrichtungen und einen Anzeigeschirm, wobei das Verarbeitungssystem ein Segmentierungsnetz, das konfiguriert ist, ein Quellbild und ein Zielbild zu empfangen, eine Einrichtung zur kategorienweisen Zusammenfassung, die konfiguriert ist, kategorienweise Merkmale für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung zu identifizieren, einen Diskriminator, der konfiguriert ist, zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild zu unterscheiden, enthält, wobei das Segmentierungsnetz mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild trainiert wird; wobei das Segmentierungsnetz basierend auf einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild trainiert wird und ein semantisch segmentiertes Zielbild auf dem Anzeigeschirm ausgibt.
  • Gemäß einem nochmals weiteren Aspekt der vorliegenden Erfindung wird ein nicht transitorisches computerlesbares Speichermedium geschaffen, das ein computerlesbares Programm zum Erzeugen eines Straßenanordnungsmodells umfasst, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, den Computer veranlasst, die Schritte des Eingebens eines Quellbildes in ein Segmentierungsnetz, des Eingebens eines Zielbildes in das Segmentierungsnetz, des Identifizierens von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung, des Unterscheidens zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild, des Trainierens des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild und des Ausgebens eines semantisch segmentierten Zielbildes auszuführen.
  • Diese und andere Merkmale und Vorteile werden aus der folgenden ausführlichen Beschreibung veranschaulichender Ausführungsformen offensichtlich, die in Verbindung mit den beigefügten Zeichnungen gelesen werden soll.
  • Figurenliste
  • Die Offenbarung stellt in der folgenden Beschreibung bevorzugter Ausführungsformen bezüglich der folgenden Figuren Einzelheiten bereit; es zeigen:
    • 1 eine graphische Darstellung, die ein Quellbild veranschaulicht, das eine Stadtszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
    • 2 eine graphische Darstellung, die ein Quellbild veranschaulicht, das eine Bauernhofszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
    • 3 eine graphische Darstellung, die ein Zielbild veranschaulicht, das eine Stadtszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
    • 4 eine graphische Darstellung, die ein Zielbild veranschaulicht, das eine Bauernhofszene darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung;
    • 5 einen Ablaufplan, der ein System/Verfahren zum Anwenden schwacher Etiketten, die verwendet werden können, um die Domainanpassung zu verbessern, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
    • 6 einen Blockschaltplan/Ablaufplan, der ein System/Verfahren auf hoher Ebene, um das aus einer Domain gelernte Wissen zu anderen neuen Domains zu übertragen, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
    • 7 einen Blockschaltplan/Ablaufplan, der ein System/Verfahren des Weiterleitens sowohl der Ziel- als auch der Quellbilder durch ein Segmentierungsnetz G, um ihre Merkmale zu erhalten und einen Mechanismus zu formulieren, um die Merkmale jeder einzelnen Kategorie zwischen den Quell- und Zieldomains abzugleichen, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
    • 8 ein beispielhaftes Verarbeitungssystem, auf das die vorliegenden Verfahren und Systeme angewendet werden können, gemäß einer Ausführungsform der vorliegenden Erfindung;
    • 9 ein beispielhaftes Verarbeitungssystem 900, das konfiguriert ist, ein oder mehrere neuronale Netze zum Anpassen der semantischen Segmentierung über Domains zu implementieren, gemäß einer Ausführungsform der vorliegenden Erfindung; und
    • 10 einen Blockschaltplan, der ein beispielhaftes neuronales Netz gemäß einer weiteren Ausführungsform der vorliegenden Erfindung veranschaulicht.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Gemäß den Ausführungsformen der vorliegenden Erfindung werden Systeme und Verfahren zum Übertragen des aus einer Domain (z. B. einer Quelldomain) gelernten Wissens zu anderen neuen Domains (z. B. Zieldomains) ohne die Notwendigkeit des erneuten Sammelns von kommentierten Daten, was ein arbeitsintensiver und teurer Prozess ist, geschaffen. In verschiedenen Ausführungsformen kann ein kategorienweiser Merkmalsabgleich ausgeführt werden, bei dem nur die Kategorien, die im Bild vorhanden sind, für den Abgleich verwendet werden. Es können Diskrepanzen zwischen den Bildern der Trainingssätze und den Bildern der Testphase vorhanden sein. Die Domainanpassung zielt darauf ab, diese Diskrepanzen zu beheben und die Modelle in Richtung einer besseren Verallgemeinerung für das Testen abzustimmen.
  • Die Domainanpassung für die semantische Segmentierung ist nützlich, weil das manuelle Etikettieren großer Datensätze mit Etiketten auf Pixelebene teuer und zeitaufwändig ist, insbesondere wenn sie von Experten ausgeführt wird. Das manuelle Kommentieren großer Datensätze mit dichten Etiketten auf Pixelebene kann aufgrund der einbezogenen großen Menge menschlicher Anstrengung teuer sein. Auf neuronalen Faltungsnetzen basierende Herangehensweisen zur semantischen Segmentierung können sich auf die Überwachung mit einer Grundwahrheit(en) auf Pixelebene stützen, können aber nicht gut auf vorher ungesehene Bilddomains verallgemeinern. Eine Grundwahrheit kann nur für ein Quelldomainbild(er), nicht für ein Zieldomainbild(er) verfügbar sein, weil der Etikettierungsprozess mühsam und arbeitsintensiv ist. Die Domainanpassung kann verwendet werden, um synthetische und echte Datensätze abzugleichen; jedoch kann die visuelle (z. B. Aussehen, Maßstab usw.) Domainlücke zwischen synthetischen und echten Daten es für das Netz schwierig machen, übertragbares Wissen zu erlernen, das auf eine Zieldomain angewendet werden soll.
  • Die nicht überwachte Domainanpassung (UDA) bezieht Situationen ein, in denen keine Etiketten von der Zieldomain verfügbar sind. Die Verfahren für die nicht überwachte Domainanpassung (UDA) können durch Domainabgleich und erneutes Pseudoetiketten-Training entwickelt werden. Die pixelweisen Pseudoetiketten können über Strategien, wie z. B. Vertrauenspunktzahlen oder selbstgesteuertes Lernen, erzeugt werden. Die pixelweisen Pseudoetiketten in jeder Kategorie können als die Führung verwendet werden, um kategorienweise Merkmale abzugleichen. Eine zusätzliche Klassifizierungsaufgabe unter Verwendung einer Form von kategorischen schwachen Etiketten auf der Bildebene des Zielbildes kann eingeführt werden, um die Wirkungen verrauschter pixelweiser Pseudoetiketten zu verringern, wobei die schwachen Etiketten nicht jedes Pixel eines Bildes als zu einer speziellen Klasse oder Kategorie gehörend identifizieren, sondern die Existenz einer Klasse oder Kategorie eines Objekts im Bild spezifizieren. Dieser Entwurf kann durch zuerst das Spezifizieren, welche Kategorien im Bild vorhanden sind, den verrauschten Abgleichprozess verringern, der Kategorien berücksichtigen kann, die im Zielbild nicht vorhanden sind.
  • Verschiedene Ausführungsformen verwenden keine Regulierungen durch die Techniken des Domainabgleichs, die einen Abgleich auf Merkmalsebene, im Ausgaberaum und auf Fleckenebene enthalten können.
  • In verschiedenen Ausführungsformen werden keine selbstlernenden Schemata, wie z. B. pixelweise Pseudoetikettierungsverfahren verwendet, um die Leistung in der Zieldomain zu verbessern.
  • Unter ausführlicher Bezugnahme auf die Figuren, in denen gleiche Bezugszeichen die gleichen oder ähnliche Elemente repräsentieren, und anfangs auf 1 ist eine graphische Darstellung, die ein Quellbild, das eine Stadtszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt.
  • In verschiedenen Ausführungsformen kann ein Quellbild 100 einer Szene, z. B. einer Stadt, zahlreiche Objekte und Merkmale enthalten. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Personenkraftwagen 110, Lastkraftwagen 120, Bussen und Krankenwagen, können sich auf den Straßen befinden. Auf gegenüberliegenden Seiten der Straßen können sich Gebäude verschiedener Typen und Größen einschließlich, aber nicht eingeschränkt auf, Wohnhäusern 130, Schulen 140 und Krankenhäusern 150 befinden. Das Quellbild X s i
    Figure DE112020005609T5_0001
    könnte an einem bewölkten Tag aufgenommen worden sein, wenn keine Sonne sichtbar ist. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes von der gleichen Szene unterscheidet, die an einem sonnigen Tag aufgenommen worden ist.
  • Wenn ein Quellbild einer semantischen Segmentierung unterzogen wird, weist in verschiedenen Ausführungsformen jedes Pixel des Bildes ein semantisches Etikett auf, das angewendet wird, um die Klasse oder die Kategorie des Merkmals, zu dem das Pixel gehört, anzugeben.
  • 2 ist eine graphische Darstellung, die ein Quellbild, das eine Bauernhofszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung;
  • In verschiedenen Ausführungsformen kann ein Quellbild 200 einer Bauernhofszene zahlreiche Objekte und Merkmale enthalten, die sich von der Stadtszene in 1 unterscheiden. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Traktoren 240, Personenkraftwagen und Lastkraftwagen, können sich auf einem Bauernhof befinden. Auf dem Bauernhof können sich Gebäude verschiedener Typen und Größen, einschließlich, aber nicht eingeschränkt auf, Scheunen 210, Silos 220 und eines Bauernhauses, befinden. Das Quellbild X s i
    Figure DE112020005609T5_0002
    könnte an einem sonnigen Tag aufgenommen worden sein, wenn die Sonne 280 scheint. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes von der gleichen Szene unterscheidet, die bei Nacht oder an einem regnerischen oder verschneiten Tag aufgenommen worden ist.
  • Ein Bauernhof kann außerdem verschiedene Arten von Nutztieren 230, z. B. Hähne, Kühe, Schweine, Schafe, Hühner und Enten, enthalten. Außerdem kann ein Bauernhof Pflanzen 250 aufweisen, die Gemüsepflanzen verschiedener Sorten (z. B. Weizen, Mais, Tomaten, grüne Bohnen, Sojabohnen usw.) sein können. Es können Laubbäume 260, immergrüne Bäume 270 und/oder Obstbäume vorhanden sein.
  • 3 ist eine graphische Darstellung, die ein Zielbild, das eine Stadtszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung;
  • In verschiedenen Ausführungsformen kann ein Zielbild 300 einer Stadtszene z. B. zahlreiche Objekte und Merkmale enthalten, die sich vom Quellbild 100 einer anderen Stadtszene, z. B. in 1, unterscheiden. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Personenkraftwagen 110, Lastkraftwagen, Bussen, Motorrädern 370 und Krankenwagen, können sich auf den Straßen befinden, wobei aber die tatsächlichen Fahrzeuge, die im Zielbild vorhanden sind, sich von denen im Quellbild 100 unterscheiden können. Auf gegenüberliegenden Seiten der Straßen können sich Gebäude unterschiedlicher Typen und Größen einschließlich, aber nicht eingeschränkt auf, Einfamilienhäusern 310, Zweifamilienhäusern 320, Mehrfamilienhäusern 130, Schulen 140 und Krankenhäusern befinden. Das Zielbild X t i
    Figure DE112020005609T5_0003
    könnte an einem regnerischen Tag aufgenommen worden sein, wenn keine Sonne sichtbar ist. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes 300 von der gleichen Szene unterscheidet, die an einem sonnigen Tag aufgenommen worden ist.
  • Die Stadtszenen aus verschiedenen Städten können außerdem unterschiedliche architektonische Stile aufweisen (z. B. Zwiebeltürme in Russland, umgedrehte Dachecken in Ostasien), die Fahrzeuge können sich auf verschiedenen Straßenseiten befinden, die Verkehrsschilder können verschiedene Orientierungen und/oder Symbole aufweisen und die Menschen können verschieden gekleidet sein.
  • 4 ist eine graphische Darstellung, die ein Zielbild, das eine Bauernhofszene darstellt, veranschaulicht, gemäß einer Ausführungsform der vorliegenden Erfindung;
  • In verschiedenen Ausführungsformen kann ein Zielbild 400 einer Bauernhofszene zahlreiche Objekte und Merkmale enthalten, die sich von der in 2 dargestellten Bauernhofszene 200 unterscheiden. Verschiedene Fahrzeuge, einschließlich, aber nicht eingeschränkt auf, Traktoren 240, Personenkraftwagen und Lastkraftwagen, können sich auf dem Bauernhof befinden, wobei aber verschiedene Typen von Traktoren, Personenkraftwagen und Lastkraftwagen in der Szene vorhanden sein können. Auf dem Bauernhof können sich Gebäude verschiedener Typen und Größen einschließlich, aber nicht eingeschränkt auf, eines Bauernhauses 410, Silos 220, eines Bauernhofstands 420 und einer Scheune befinden. Das Zielbild X t i
    Figure DE112020005609T5_0004
    könnte in der Abenddämmerung aufgenommen worden sein. Dies kann verursachen, dass sich das Aussehen der Objekte/Merkmale des Bildes von der gleiche Szene unterscheidet, die mittags an einem sonnigen Tag oder frühmorgens an einem regnerischen Tag aufgenommen worden ist.
  • Ein Bauernhof kann außerdem verschiedene Arten von Nutztieren 230, z. B. Hähne, Kühe, Schweine, Schafe, Hühner und Enten, enthalten. Ein Bauernhof kann außerdem Feldfrüchte/Pflanzen 250 aufweisen, die Gemüsepflanzen verschiedener Sorten (z. B. Mais, Tomaten, grüne Bohnen, Sojabohnen usw.) sein können. Es können Laubbäume 260, immergrüne Bäume und/oder Obstbäume 430 vorhanden sein, die einen Obstgarten bilden.
  • Die Variation(en) im Aussehen einer Szene kann (können) eine Domainlücke erzeugen, die das Szenenverständnis verringern kann. Sogar innerhalb derselben Stadt können das Wetter und die Tageszeit zahlreiche Unterschiede erzeugen. Es ist ein Herangehensweise, synthetische Daten wirksam einzusetzen, bei denen Kommentare zu viel geringeren Kosten erhalten werden können. Wissenstransfermodule ermöglichen es, ein besseres Szenenverständnis in der echten Welt auszuführen.
  • In einer oder mehreren Ausführungsformen können schwache Etiketten verwendet werden, um die Domainanpassung zu verbessern, wobei schwache Etiketten die Kosten und den Aufwand einer starken Klassifizierung jedes Pixels in einem Bild verringern oder vermeiden können. Das vorgeschlagene Domainanpassungsverfahren kann ein selbstlernendes Schema über das Vorhersagen schwacher Etiketten jedes Zielbildes/-daten verwenden, wobei dieser Prozess als Erzeugung schwacher Pseudoetiketten bezeichnet wird. In Anbetracht eines Bildes einer Straßenszene in der Zieldomain kann z. B. vorhergesagt werden, welche Kategorien in diesem Bild vorhanden sind, z. B. Straße, Personenkraftwagen, Lastkraftwagen und Fußgänger, ohne deren genaue Stellen im Bild zu kennen. Zweitens können diese vorhergesagten Kategorien verwendet werden, um das Modell zu regulieren und selbst zu lehren, wobei das Modell Aufgabenvorhersagen für jene Kategorien unterdrücken kann, die in den Bildern nicht vorhanden sind, und umgekehrt. Der Domainabgleichprozess kann durch die Verwendung der vorhergesagten schwachen Etiketten verbessert werden. Ein kategorienweiser Merkmalsabgleich kann über Domains ausgeführt werden, bei der nur die Kategorien, die im Bild vorhanden sind, für den Abgleich verwendet werden. Dieser Entwurf kann den verrauschten Abgleichprozess verringern, der Kategorien berücksichtigt kann, die im Zielbild nicht vorhanden sind.
  • 5 ist ein Blockschaltplan/Ablaufplan, der ein System/Verfahren auf hoher Ebene zum Übertragen von aus einer Domain erlerntem Wissen zu anderen neuen Domains gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
  • In einer Trainingsphase 510 können im Block 520 synthetische Daten/Bilder erzeugt werden. Im Block 530 können den synthetischen Daten/Bildern schwache Etiketten zugewiesen werden, wobei die schwachen Etiketten identifizieren, welche Kategorien in dem (den) synthetischen Bild (Bildern)/Daten vorkommen. Im Block 540 kann ein Lernmodul, das ein neuronales Netz enthalten kann, lernen, welche Kategorien in dem (den) synthetischen Bild (Bildern)/Daten vorkommen, um ein Szenenverständnis 550 zu entwickeln.
  • In einer Testphase 560 können im Block 570 ein echtes Bild (echte Bilder)/Daten mit angehängten schwachen Etiketten in ein Wissenstransfermodul 580 eingeführt werden, das ein neuronales Netz enthalten kann, das in der Trainingsphase 510 trainiert worden ist, um ein Szenenverständnis 590 der echten Bilder/Daten 570 zu entwickeln.
  • 6 ist eine graphische Darstellung, die ein gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
  • Im Block 600 ist eine Hauptaufgabe gezeigt, bei der ein neuronales Netz (NN) angewendet wird, um Modelle unter Verwendung synthetischer Daten für eine erste Domain zum Trainieren und Anwenden der erlernten Modelle auf eine weitere andere Domain aus der echten Welt durch das Vorhersagen schwacher Etiketten aller Zieldaten zu erlernen.
  • Im Block 601 können die Eingangsbilder von zwei Domains (z. B. Quelle, Ziel) kommen, die unterschiedlich sein können, wobei die Quellbilder als (I_src) bezeichnet werden können und die Zielbilder als (I_tar) bezeichnet werden können (d. h., I_scr = Eingangsbild aus der Quelldomain; I_tar = Eingangsbild aus der Zieldomain), die außerdem als Xs bzw. Xt bezeichnet werden können. Diese Eingaben werden in ein neuronales Netz, z. B. ein neuronales Faltungsnetz (CNN), eingespeist, das die Segmentierungsausgabe der Aufgabe, d. h., die Etiketten pro Pixel für die Kategorie, zu der dieses Pixel gehört, vorhersagt, wobei für beide Domains O_src und O_tar (O_scr = Ausgangsbild aus der Quelldomain und O_tar = Ausgangsbild aus der Zieldomain) (d. h., O_src und O_tar stehen für die Ausgaben). Weil die Aufgabe eine Aufgabe der pixelweisen Etikettierung sein kann, können die Ausgaben als H x W-Bilder (Höhe x Breite) betrachtet werden, wobei jedes Pixel im Bild einen Farbwert aufweist, der der identifizierenden Kategoriennummer entspricht. In diesem Fall ist die Ausgabe eine semantische Segmentierung, d. h., das Zuweisen einer semantischen Kategorie wie Straße, Personenkraftwagen, Person usw. zu jedem Pixel in dem Bild (den Bildern). Die Ausgabe des neuronalen Segmentierungsnetzes kann als ein Bild mit Farbwerten interpretiert werden, die gleich der diesem Pixel zugewiesenen Kategoriennummer sind. Die semantischen Segmentierungen können als strukturierte Ausgaben betrachtet werden, die räumliche Ähnlichkeiten zwischen den Quell- und Zieldomains enthalten. Im Ausgaberaum kann gegnerisches Lernen angewendet werden. Es kann ein gegnerisches Mehrebenen-Netz errichtet werden, um eine effektive Anpassung der Ausgaberaumdomain auf verschiedenen Merkmalsebenen auszuführen.
  • Im Block 602 werden den Bildern aus der Quelldomain außerdem Grundwahrheitsetiketten (GT_src) gegeben, die in einer überwachten Standardverlustfunktion (Aufgabenverlust) verwendet werden, um das neuronale Netz aus Block 601 zu trainieren. Grundwahrheit bedeutet eine von Menschen kommentierte Segmentierung, die für das Training verwendet wird. Eine Grundwahrheit kann nur für eine Quelldomain und nicht für eine Zieldomain verfügbar sein, in der eine vom Menschen kommentierte Segmentierung zur Verwendung beim Training eines neuronalen Netzes verfügbar ist.
  • Im Block 700 kann, um das NN im Block 601 zu trainieren und außerdem Bilder aus der Zieldomain (I tar) zu bearbeiten, eine gegnerische Verlustfunktion (oder Regulierung) angewendet werden, um es zu unterstützen, dass die Verteilungen von sowohl O_src als auch O_tar ähnlich sind, wobei es erforderlich sein kann, dass die Verteilungen von O_src und O_tar durch den gegnerischen Verlust ähnliche Statistiken aufweisen. Es wird angegeben, dass für die Zieldomain keine Grundwahrheitsdaten verfügbar sind. Diese Verlustfunktion weist ein internes NN auf, das versucht, zwischen den beiden Domains (z. B. Bildern) zu unterscheiden, was dann für den Verteilungsabgleich verwendet werden kann.
  • Im Block 803 kann die Domainanpassung durch das Berücksichtigen schwacher Etiketten implementiert werden, wobei die schwachen Etiketten von Menschen kommentiert sind. In verschiedenen Ausführungsformen kann ein Anwender (z. B. ein Experte) die in einem Bild vorhandenen Kategorien identifizieren und an dem Bild (z. B. dem Zielbild) ein entsprechendes schwaches Etikett anbringen.
  • Um das Modul im Block 601 mit kategorienweisen Informationen zu verbessern, kann im Block 801 der Block 801 verwendet werden, um schwache Etiketten für das Zielbild (die Zielbilder) (d. h., W_tar), d. h., Etiketten auf Bildebene, z. B. ob ein Fußgänger (Fußgänger) in dem Bild vorhanden ist (sind) oder ob sich die Bildszene in einer Stadt oder auf einem Bauernhof befindet, zu erzeugen. Es wird angegeben, dass bei der nicht überwachten Festlegung im Block 601 schwache Pseudoetiketten direkt aus O_tar erzeugt werden können, während das System/Verfahren es den Anwendern außerdem ermöglicht, durch manuelle Kommentierung schwache Grundwahrheitsetiketten bereitzustellen. Sobald die schwachen Etiketten erzeugt worden sind, kann ein Verlust schwacher Etiketten verwendet werden, um die Kategorien zu unterdrücken, die im Zielbild nicht vorhanden sind, während die Vorhersagen für die im Zielbild vorhandenen Kategorien verbessert werden.
  • Im Block 802 kann mit den im Block 801 bereitgestellten schwachen Etiketten (W_tar) und den Gesamtverteilungen (O_src und O_tar) aus dem Block 601 der Block 700 durch das Hinzufügen eines kategorienweisen gegnerischen Verlusts verbessert werden, um die kategorienweisen Merkmalsverteilungen über die Quell- und Zieldomains spezifisch abzugleichen. Fall z. B. das Eingangsbild das Etikett „Personenkraftwagen“, aber keine Kategorie „Fahrrad“ enthält, wird die Verteilung für den Personenkraftwagen, aber nicht für das Fahrrad abgeglichen. Dies unterscheidet sich von früheren Verfahren, die den Block 700 verwenden und die Verteilungen abgleichen können, ohne die kategorienweisen Informationen zu berücksichtigen. Um die kategorienweise gegnerische Verlustfunktion zu verwirklichen, kann für jede Kategorie ein internes NN verwendet werden, das zu unterscheiden versucht, ob die Verteilung dieser Kategorie von der Quelldomain oder der Zieldomain kommt. Deshalb kann ein kategorienweiser Abgleich über das Berechnen des gegnerischen Verlusts für jede Kategorie entsprechend ausgeführt werden.
  • Um das Problem der Domainlücke zu lösen, werden Verfahren zur nicht überwachten Domainanpassung (UDA) durch Domainabgleich und erneutes Training der Pseudoetiketten entwickelt. Um die Wirkung verrauschter pixelweiser Pseudoetiketten zu verringern, kann eine zusätzliche Klassifizierungsaufgabe unter Verwendung einer Form von kategorischen schwachen Etiketten auf der Bildebene des Zielbildes verwendet werden. In verschiedenen Ausführungsformen kann das Modell gleichzeitig ein erneutes Training der Pseudoetiketten und einen Merkmalsabgleich ausführen. Ein Klassifizierungsziel kann vorhersagen, ob eine Kategorie im Zielbild vorhanden ist, wobei das Modell eine pixelweise Aufmerksamkeitskarte erzeugen kann, die die Wahrscheinlichkeitskarte für eine bestimmte Kategorie angibt. Die Aufmerksamkeitskarte kann für die Führung verwendet werden, um die kategorienweisen Merkmale für eine Abgleichprozedur zusammenzufassen. Die Kommentare auf der Bildebene identifizieren Kategorien, die in einem Bild vorhanden sind, ohne den Ort (die Orte) zu identifizieren.
  • In einer oder mehreren Ausführungsformen kann eine Quelldomain mit pixelweisen Grundwahrheitsetiketten verwendet werden, wohingegen in der Zieldomain schwache Pseudoetiketten oder schwache Grundwahrheitsetiketten verwendet werden können.
  • In der Quelldomain kann es Bilder und pixelweise Etiketten geben, die als I s = { X s i , Y s i } i = 1 N s
    Figure DE112020005609T5_0005
    bezeichnet werden, wobei X s i
    Figure DE112020005609T5_0006
    ein Quelldomainbild repräsentiert und Y s i
    Figure DE112020005609T5_0007
    die Grundwahrheitskommentare für die Quellbilder sind, während „i“ ein Index ist, der die Quellbilder und die Kommentare unterscheidet. Ein Zieldatensatz kann hingegen Bilder und nur Etiketten auf Bildebene als I t = { X t i , Y t i } i = 1 N t
    Figure DE112020005609T5_0008
    enthalten, wobei X t i
    Figure DE112020005609T5_0009
    ein Zieldomainbild repräsentiert und Y t i
    Figure DE112020005609T5_0010
    die Etiketten auf der Bildebene sind, die als schwache Etiketten bezeichnet werden, während „i“ ein Index ist, der die Zielbilder und schwachen Etiketten unterscheidet. Es wird angegeben, dass Xs, Xt ∈ ℝH×W×3, Y s B H × W × C
    Figure DE112020005609T5_0011
    pixelweise 1-aus-n-Vektoren sind, y t B C
    Figure DE112020005609T5_0012
    ein Mehrereaus-1-Vektor ist, der die im Bild verfügbaren Kategorien repräsentiert, und C die Anzahl der Kategorien ist, die sowohl für den Quell- als auch für den Zieldatensatz gleich ist. ℝ ist ein Raum der reellen Zahlen. H ist die Höhe und W ist die Breite eines Bildes, die in Pixeln sein können. Der Wert 3 ist ein gebräuchlicher Wert für die Anzahl der Kanäle.
    Figure DE112020005609T5_0013
    ist ein Raum der booleschen Zahlen (z. B. 0 oder 1). Ein „1-aus-n-Vektor“ ist ein Vektor, bei dem eine einzige Koordinate einen Wert 1 aufweist und der Rest der Koordinaten des Vektors einen Wert 0 aufweist. Derartige Etiketten auf Bildebene yt sind schwache Etiketten, die mit oder ohne einen menschlichen Experten, d. h., der WDA- oder UDA-Festlegung, erfasst werden können. Ein Segmentierungsmodell G, das an dem Quelldatensatz Is erlernt/trainiert worden ist, kann an den Zieldatensatz It angepasst werden.
  • In verschiedenen Ausführungsformen werden sowohl die Ziel- als auch die Quellbilder durch das Segmentierungsnetz G geleitet, wobei ihre Merkmale Fs; Ft, ∈ ℝH'×W'×2048 erhalten werden, wobei 2048 eine Parameterwahl für die Anzahl der Kanäle ist, Fs; Ft die Quellmerkmale bzw. die Zielmerkmale und die Segmentierungsvorhersagen As; At ∈ ℝH'×W'×C und die aufwärtsabgetasteten pixelweisen Vorhersagen Os, Ot ∈ ℝH'×W'×C repräsentieren. Als eine Basislinie können die pixelweisen Kommentare der Quelle verwendet werden, um G zu erlernen/trainieren, während der Ausgaberaum Os und Ot unter Verwendung eines gegnerischen Verlusts und eines Diskriminators abgeglichen wird.
  • In verschiedenen Ausführungsformen kann der Domainanpassungsalgorithmus zwei Module enthalten: ein Segmentierungsnetz G und den Diskriminator Di wobei i die Ebene eines Diskriminators im gegnerischen Mehrebenen-Lernen angibt. Zwei Sätze von Bildern, Xs, Xt ∈ ℝH×W×3 aus den Quell- und Zieldomains werden als {Is} bzw. {IT} bezeichnet. In verschiedenen Ausführungsformen können die Quellbilder Xs (mit Kommentaren) zur Optimierung von G zu dem Segmentierungsnetz weitergeleitet werden. Dann kann die Segmentierungs-Softmax-Ausgabe Pt für die Zielbilder Xt (ohne Kommentare) vorhergesagt werden. Wenn die Segmentierungsvorhersagen P der Quell- und Zielbilder (d. h. Ps und Pt) nah beieinander gemacht werden, können diese beiden Vorhersagen als die Eingabe in den Diskriminator Di verwendet werden, um zu unterscheiden, ob die Eingabe von der Quell- oder der Zieldomain ist. Mit einem gegnerischen Verlust Ladv für die Zielvorhersage kann das Netz die Gradienten von Di zu G ausbreiten, was G anregen würde, ähnliche Segmentierungsverteilungen in der Zieldomain zu der Quellvorhersage zu erzeugen.
  • In verschiedenen Ausführungsformen kann die Anpassungsaufgabe zwei Verlustfunktionen aus beiden Modulen enthalten:
    L ( I s , I t ) = L s e g ( I s ) + λ a d v L a d v ( I t ) ,
    Figure DE112020005609T5_0014
    wobei Lseg der Kreuzentropieverlust unter Verwendung von Grundwahrheitskommentaren in der Quelldomain ist und Ladv der gegnerische Verlust ist, der die vorhergesagten Segmentierungen der Zielbilder an die Verteilung der Quellvorhersagen anpasst. λadv ist das Gewicht, das verwendet wird, um die beiden Verluste auszugleichen. Obwohl sich die Segmentierungsausgaben in einem niedrigdimensionalen Raum befinden, enthalten sie reichhaltige Informationen, z. B. die Anordnung und den Kontext der Szene.
  • In Anbetracht der Segmentierungs-Softmax-Ausgabe P = G(I) ∈ ℝH'×W'×C , wobei C die Anzahl der Kategorien ist, werden die Segmentierungsvorhersagen P zu einen vollständigen Faltungs-Diskriminator D unter Verwendung eines Kreuzentropieverlusts Ld für die beiden Klassen (z. B. Quelle und Ziel) weitergeleitet. Der Verlust kann als:
    L d ( P ) = h , w ( 1 z ) log ( D ( P ) ( h , w ,0 ) ) + z log ( D ( P ) ( h , w ,1 ) ) ,
    Figure DE112020005609T5_0015
    geschrieben werden wobei z = 0 ist, falls die Probe aus der Zieldomain gezogen wird, und z = 1 für die Probe aus der Quelldomain ist. Wobei Ld der Kreuzentropieverlust für den Diskriminator D für die beiden Klassen ist. P sind die Vorwärtssegmentierungsvorhersagen, während h und w die Höhe und Breite des Bildes sind.
  • In verschiedenen Ausführungsformen kann der Segmentierungsverlust in als der Kreuzentropieverlust für die Bilder aus der Quelldomain definiert sein:
    L s e g ( I s ) = h , w c C Y s ( h , w , c ) log ( P s ( h , w , c ) ) ,
    Figure DE112020005609T5_0016
    wobei Ys die Grundwahrheit der Kommentare für die Quellbilder ist und Ps = G(Is) die Segmentierungsausgabe ist. Lseg(Is) ist die Verlustfunktion für das Segmentierungsnetz G, die auf einen Satz von Quellbildern Is angewendet ist. „h“ ist die Höhe des Bildes. „w“ ist die Breite des Bildes. „c“ ist die Kategorie des Bildes. Zweitens werden die Bilder in der Zieldomain zu G weitergeleitet, wobei die Vorhersage Pt = G(It) erhalten wird. It ist ein Satz von Zielbildern. Um die Verteilung von Pt näher bei Ps herzustellen, wird ein gegnerischer Verlust Ladv verwendet als:
    L a d v ( I t ) = h , w log ( D ( P t ) ( h , w ,1 ) ) .
    Figure DE112020005609T5_0017
  • Dieser Verlust ist entworfen, um durch das Maximieren der Wahrscheinlichkeit, dass die Zielvorhersage als die Quellvorhersage betrachtet wird, das Segmentierungsnetz G zu trainieren und den Diskriminator D zu täuschen. Obwohl das Ausführen des gegnerischen Lernens im Ausgaberaum die Vorhersagen direkt anpasst, können die Merkmale auf tiefer Ebene nicht gut angepasst werden, da sie sich weit von der Ausgabe entfernt befinden.
  • In verschiedenen Ausführungsformen kann ein zusätzliches gegnerisches Modul im Merkmalsraum auf tiefer Ebene verwendet werden, um die Anpassung zu verbessern. Das Trainingsziel für das Segmentierungsnetz kann als:
    L ( I s , I t ) = i λ s e g i L s e g i ( I s ) + i λ a d v i L a d v i ( I t ) ,
    Figure DE112020005609T5_0018
    erweitert werden, wobei i die Ebene angibt, die zum Vorhersagen des Segmentierungsergebnisses verwendet wird.
    Figure DE112020005609T5_0019
    (Is,It) ist die kombinierte Verlustfunktion, die aus L s e g i ( I s )
    Figure DE112020005609T5_0020
    und L a d v i ( I t )
    Figure DE112020005609T5_0021
    und ihren jeweiligen Gewichtsfaktoren zusammensetzt ist. Es wird angegeben, dass die Segmentierungsausgabe dennoch in jedem Merkmalsraum vorhergesagt wird, bevor sie durch die einzelnen Diskriminatoren für das gegnerische Lernen geleitet wird. Folglich bleiben L s e g i ( I s )
    Figure DE112020005609T5_0022
    und L a d v i ( I t )
    Figure DE112020005609T5_0023
    in der gleichen Form wie die vorherigen Gleichungen. Das Gewicht λ s e g i
    Figure DE112020005609T5_0024
    ist der Gewichtsfaktor, der auf die Verlustfunktion L s e g i
    Figure DE112020005609T5_0025
    für das Segmentierungsnetz G angewendet wird. Das Gewicht λ a d v i
    Figure DE112020005609T5_0026
    ist der Gewichtsfaktor, der auf die gegnerische Verlustfunktion L a d v i
    Figure DE112020005609T5_0027
    angewendet wird.
  • Das folgende Minimum-Maximum-Kriterium:
    max D min G L ( I s , I t )
    Figure DE112020005609T5_0028
    kann mit einem Ziel optimiert werden, den Segmentierungsverlust in G für die Quellbilder zu minimieren, während die Wahrscheinlichkeit maximiert wird, dass die Zielvorhersagen als die Quellvorhersagen betrachtet werden.
  • Für den Diskriminator kann die Architektur alle vollständigen Faltungsschichten verwenden, um die räumlichen Informationen beizubehalten. Das Netz kann 5 Faltungsschichten mit einem Kern von 4 x 4 und einem Schritt von 2 enthalten, wobei die Kanalanzahl jeweils {64, 128, 256, 512, 1} ist. Mit Ausnahme der letzten Schicht kann jeder Faltungsschicht eine durch 0,2 parametrisierte undichte ReLU folgen (ReLU ist die gleichgerichtete lineare Aktivierungsfunktion). Zu der letzten Faltungsschicht kann eine Aufwärtsabtastschicht zum erneuten Skalieren der Ausgabe auf die Größe der Eingabe hinzugefügt werden. Die Stapelnormierungsschichten können nicht verwendet werden, da der Diskriminator unter Verwendung einer kleinen Stapelgröße gemeinsam mit dem Segmentierungsnetz trainiert werden kann.
  • Zusätzlich zum Vorhandensein von pixelweisen Etiketten an den Quelldaten kann es außerdem schwache Etiketten auf der Bildebene an den Zieldaten geben. Diese schwachen Etiketten können verwendet werden, um G auf zwei verschiedene Arten zu erlernen. Erstens wird ein Modul einbezogen, das lernt, die Kategorien vorherzusagen, die in einem Zielbild vorhanden sind. Zweitens wird, motiviert durch den Domainabgleich, ein Mechanismus formuliert, um die Merkmale jeder einzelnen Kategorie zwischen den Quell- und Zieldomains abzugleichen. Zu diesem Zweck können kategorienspezifische Domain-Diskriminatoren Dc durch die schwachen Etiketten geführt werden, um zu bestimmen, welche Kategorien abgeglichen werden sollten. In den folgenden Abschnitten werden diese beiden Module unter Verwendung der schwachen Etiketten auf Bildebene ausführlich dargestellt.
  • In verschiedenen Ausführungsformen spezifiziert der Abgleich des Ausgaberaums Os, Ot, wobei sich der Ausgaberaum auf die Vorhersage für jedes Pixel bezieht, ob dieses Pixel zur Kategorie k gehört, wobei k - 1, ...., C ist. Hier ist C die Gesamtzahl der Kategorien. Dies berücksichtigt nicht, welche Kategorien in einem Bild vorhanden sind, sondern nur ihre Gesamtstruktur. Im Ergebnis können diese Objekte, die normalerweise teilweise identifiziert werden oder die die vollständige Form nicht beibehalten, bei der Segmentierungsvorhersage weniger signifikant werden, was die Schwierigkeit während des Abgleichs erhöht, da derartige Teilobjekte in den Quelldaten nicht erscheinen. Eine zusätzliche Aufgabe wird über schwache Etiketten durch das Erzwingen von Beschränkungen an die Kategorien, die in den Bildern erscheinen, eingeführt. Die schwachen Etiketten yt werden verwendet, um die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen, und lernen, die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen.
  • In verschiedenen Ausführungsformen werden die schwachen Etiketten yt verwendet, um die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen, und lernen die schwachen Etiketten yt, die in den Zielbildern vorhandenen/fehlenden Kategorien vorherzusagen. Die Zielbilder Xt können durch G geleitet werden, um die Vorhersagen At der vorhandenen/fehlenden Kategorien zu erhalten, wobei dann eine globale Zusammenfassungsschicht angewendet wird, um einen einzigen Vektor der Vorhersagen für jede Kategorie zu erhalten:
    p t c = σ s [ log 1 H ' W ' h ' , w ' e x p A t ( h ' , w ' , c ) ] ,
    Figure DE112020005609T5_0029
    wobei σs die Sigmoid-Funktion ist, so dass die Vorhersagen pt der Kategorie C für das Ziel die Wahrscheinlichkeit repräsentieren, dass eine spezielle Kategorie in einem Zielbild erscheint. Unter Verwendung von pt und den schwachen Etiketten yt kann der kategorienweise binäre Kreuzentropieverlust berechnet werden:
    L c ( X t ; G ) = c = 1 C y t c l o g ( p t c ) ( 1 y t c ) l o g ( 1 p t c ) .
    Figure DE112020005609T5_0030
  • Diese Verlustfunktion Lc unterstützt es, die Kategorien zu identifizieren, die in einem speziellen Bild fehlen/vorhanden sind, und zwingt das Segmentierungsnetz G, jenen Objekten/Entitäten Beachtung zu schenken, die teilweise identifiziert sind. Die kategorienweisen Merkmale können für jedes Bild über eine Aufmerksamkeitskarte, d. h., eine Segmentierungsvorhersage erhalten werden, die durch das schwach überwachte Modul geführt wird, wobei dann diese Merkmale zwischen den Quell- und Zieldomains abgeglichen werden können.
  • In einer oder mehreren Ausführungsformen können für die Domainanpassung schwache Kommentare auf Bildebene verwendet werden, die entweder geschätzt werden, d. h., schwache Pseudoetiketten (nicht überwachte Domainanpassung, UDA), oder von einem menschlichen Experten erfasst werden (überwachte schwache Domainanpassung, WDA). In einer oder mehreren Ausführungsformen kann außerdem ein Abgleichverfahren zum Abgleichen der kategorienweisen Merkmale zwischen den Quell- und Zieldomains verwendet werden. Das Modell kann ein erneutes Pseudoetiketten-Training und einen Merkmalsabgleich gleichzeitig ausführen.
  • Es ist eine praktische Anwendung, synthetische Daten wirksam einzusetzen, bei denen die Kommentare zu viel geringeren Kosten erhalten werden können. Die Szenenverständnismodelle, die aus den synthetischen Daten erlernt werden, könnten jedoch nicht auf die Bilder der echten Welt verallgemeinert werden. Deshalb ermöglichen es die Wissenstransfermodule, ein besseres Szenenverständnis in der echten Welt auszuführen, was eine entscheidende Komponente zum Fördern autonomer Systeme oder fortschrittlicher Fahrerassistenzsysteme (ADAS) ist, die unterschiedliche Aufgaben, wie z. B. semantische Segmentierung, Objekterkennung oder Tiefenschätzung, enthalten.
  • In verschiedenen Ausführungsformen kann das System sowohl schwache Pseudoetiketten in einer nicht überwachten Weise vorhersagen als auch den Anwendern ermöglichen, schwache Grundwahrheitsetiketten für die Zielbilder bereitzustellen, was im Vergleich zum Kommentieren pixelweiser Etiketten, wie z. B. der semantischen Segmentierung, den minimalen Aufwand für die Kommentierung erfordert. Die semantische Segmentierung kann außerdem unter der Komplexität hochdimensionaler Merkmale leiden, die verschiedene visuelle Hinweise einschließlich des Aussehens, der Form und des Kontexts codieren müssen. Eine Grundwahrheit kann anstatt ausführlicher Informationen, wo sich ein Objekt in einem Bild befindet, spezifizieren, ob ein Objekt im Bild vorhanden ist.
  • In verschiedenen Ausführungsformen kann ein Klassifikationsziel formuliert werden, das vorhersagt, ob eine Kategorie in dem Zielbild vorhanden ist. Das Modell kann eine pixelweise Aufmerksamkeitskarte erzeugen, die die Wahrscheinlichkeitskarte für eine bestimmte Kategorie angibt. Dann kann diese Aufmerksamkeitskarte als die Führung verwendet werden, um die kategorienweisen Merkmale für die ferner vorgeschlagene Abgleichprozedur zusammenzufassen. Die Herangehensweise ist nicht auf die herkömmliche nicht überwachte Festlegung eingeschränkt (d. h., keine Grundwahrheitskommentare in der Zieldomain), sondern außerdem auf die überwachte schwache Domainanpassung (WDA) anwendbar, bei der die Grundwahrheiten auf Bildebene in den Zielbildern verfügbar sind.
  • 7 ist ein Blockschaltplan/Ablaufplan, der ein System/Verfahren des Leitens sowohl der Ziel- als auch der Quellbilder durch ein Segmentierungsnetz G, um ihre Merkmale zu erhalten und einen Mechanismus zu formulieren, um die Merkmale jeder einzelnen Kategorie zwischen den Quell- und Zieldomains abzugleichen, gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
  • 7 stellt einen Überblick über ein vorgeschlagenes Verfahren dar. Zuerst können sowohl das Zielbild (die Zielbilder) 710 als auch das Quellbild (die Quellbilder) 720 durch ein Segmentierungsnetz G geleitet werden 730, um ihre Merkmale Fs; Ft, ∈ ℝH'×W'×2048, wobei 2048 eine Parameterwahl für die Anzahl der Kanäle ist, und Segmentierungsvorhersagen As; At ∈ ℝH'×W'×C und die aufwärtsabgetasteten pixelweisen Vorhersagen Os, Ot ∈ ℝH'×W'×C 740 zu erhalten. Als eine Basislinie können die quellpixelweisen Kommentare verwendet werden, um G zu erlernen, während die Ausgaberäume Os und Ot unter Verwendung eines gegnerischen Verlusts und eines Diskriminators, der alle vollständigen Faltungsschichten verwendet, um die räumlichen Informationen beizubehalten, abgeglichen werden. Das Segmentierungsnetz G kann 5 Faltungsschichten mit einem Kern von 4 x 4 und einem Schritt von 2 aufweisen, wobei die Kanalanzahl jeweils {64, 128, 256, 512, 1} ist. Mit Ausnahme der letzten Schicht folgt jeder Faltungsschicht eine durch 0,2 parametrisierte undichte ReLU.
  • In verschiedenen Ausführungsformen wird der Schritt der letzten beiden Faltungsschichten von 2 auf 1 eingestellt, was die Auflösung der ausgegebenen Merkmalskarten zum effektiv 1 = 8-fachen der Größe des Eingangsbildes macht. Um das aufnahmefähige Feld zu vergrößern, werden in den Schichten conv4 und conv5 geweitete Faltungsschichten mit einem Schritt von 2 bzw. 4 verwendet. Nach der letzten Schicht kann eine räumliche Pyramidenzusammenfassung mit Zwischenräumen (ASPP) als der endgültige Klassifikator verwendet werden. Ein Diskriminator mit der gleichen Architektur wird für das gegnerische Lernen hinzugefügt.
  • Basierend auf dieser Architektur kann das Segmentierungsmodell eine durchschnittliche Überschneidung-über-Vereinigung (loU) von 65,1 % erreichen, wenn es an dem Stadtlandschaften-Trainingssatz trainiert und an dem Stadtlandschaften-Validierungssatz getestet wird.
  • Eine Aufwärtsabtastschicht 740 kann zur letzten Faltungsschicht zum erneuten Skalieren der Ausgabe auf die Größe der Eingabe hinzugefügt sein. Die Aufwärtsabtastung kann die Quelletiketten 750 schaffen.
  • In verschiedenen Ausführungsformen kann die Ausgabevorhersage als eine aufmerksamkeits- und kategorienweise Zusammenfassung 760 verwendet werden, um kategorienweise Zusammenfassungsmerkmale 770 zu erzeugen.
  • In verschiedenen Ausführungsformen können die Zielbilder Xt durch G geleitet werden, um die Vorhersagen At zu erhalten und dann eine globale Zusammenfassungsschicht anzuwenden, um einen einzigen Vektor von Vorhersagen für jede Kategorie zu erhalten:
    p t c = σ s [ log 1 H ' W ' h ' , w ' e x p A t ( h ' , w ' , c ) ] ,
    Figure DE112020005609T5_0031
    wobei σs eine Sigmoid-Funktion ist, so dass pt die Wahrscheinlichkeit repräsentiert, dass eine spezielle Kategorie in einem Bild erscheint. At ist eine Merkmalskarte für die Segmentierungsvorhersagen mit C Kanälen und den räumlichen Abmessungen H' × W'. Um sie in einen Klassifikator einzuspeisen, muss sie in einen Vektor mit den Dimensionen 1 × 1 × C umgesetzt werden. Dies wird durch eine Durchschnittsbildungsoperation erreicht. Unter Verwendung von pt und der schwachen Etiketten yt kann der kategorienweise binäre Kreuzentropieverlust (oder Bildklassifikationsverlust) berechnet werden:
    L c ( X t ; G ) = c = 1 C y t c l o g ( p t c ) ( 1 y t c ) l o g ( 1 p t c ) .
    Figure DE112020005609T5_0032
  • Diese Verlustfunktion Lc unterstützt das Identifizieren der Kategorien, die in einem speziellen Bild fehlen/vorhanden sind, und zwingt das Segmentierungsnetz G, jenen Objekten/jenem Stoff, die teilweise identifiziert sind, Aufmerksamkeit zu schenken. Dies ist ein binärer Kreuzentropieverlust, der den obigen Vektor pt nimmt und bestimmt, wie gut er mit den Grundwahrheitsetiketten yt übereinstimmt.
  • In Anbetracht des Merkmals F in der letzten Schicht und der Segmentierungsvorhersage A werden die kategorienweisen Merkmale unter Verwendung der Vorhersage als eine Aufmerksamkeit über den Merkmalen erhalten. Spezifisch wird das kategorienspezifische Merkmal Ft als ein 2048-dimensionaler Vektor für die c-te Kategorie erhalten:
    F c = 1 H ' W ' h ' , w ' σ [ A ] ( h ' , w ' , c ) F ( h ' , w ' ) ,
    Figure DE112020005609T5_0033
    wobei [A](h',,w',c) ein Skalar ist, F(h',w') ein 2048-dimensionaler Vektor für das kategorienweise Merkmal ist und σ die Softmax-Operation über den räumlichen Dimensionen (h', w') ist. Es wird angegeben, dass die tiefgestellten Indizes s, t für die Quelle und das Ziel weggelassen worden sind, da sie die gleiche Operation verwenden, um die kategorienweisen Merkmale für beide Domains zu erhalten. Als Nächstes wird der Mechanismus dargestellt, um diese Merkmale über Domains abzugleichen. Es wird angegeben, dass Fc (kleines c), um das zusammengefasste Merkmal für die c-te Kategorie zu bezeichnen, und Ft (großes C), um den Satz der zusammengefassten Merkmale für alle Kategorien zu bezeichnen, verwendet werden.
  • In verschiedenen Ausführungsformen kann der Diskriminator (können die Diskriminatoren) 780 mit dem Segmentierungsnetz unter Verwendung einer kleinen Stapelgröße gemeinsam trainiert werden. Um das Segmentierungsnetz G so zu erlernen, dass die quell- und zielkategorienweisen Merkmale abgeglichen werden, kann ein gegnerischer Verlust verwendet werden, während die kategorienspezifische Diskriminatoren 780 D C = { D c } c = 1 C
    Figure DE112020005609T5_0034
    verwendet werden. Die schwachen Etiketten können verwendet werden, um diese Merkmale zwischen der Quell- und der Zieldomain unter Verwendung der kategorienweisen Diskriminatoren Dc über den Abgleichverlust L a d v C
    Figure DE112020005609T5_0035
    abzugleichen und die Diskriminatoren unter Verwendung des Domainklassifizierungsverlustes L d C
    Figure DE112020005609T5_0036
    zu erlernen.
  • In verschiedenen Ausführungsformen können C kategorienspezifische Diskriminatoren trainiert werden, um zwischen kategorienweisen Merkmalen, die aus den Quell- und Zielbildern gezogen werden, zu unterscheiden. Die Verlustfunktion, um die Diskriminatoren zu trainieren, ist wie folgt:
    L d C ( F s C , F t C , G , D C ) = c = 1 C y s c log D C ( F s c ) y t c log ( 1 D c ( F t c ) ) .
    Figure DE112020005609T5_0037
  • Es wird angegeben, dass während des Trainings der Diskriminatoren nur der Verlust für jene Kategorien berechnet wird, die in dem speziellen Bild über ys und yt vorhanden sind. Dann kann der gegnerische Verlust für die Zielbilder wie folgt ausgedrückt werden:
  • L a d v C ( F t C , G , D C ) = c = 1 C y t c log D C ( F t c ) .
    Figure DE112020005609T5_0038
  • Die zusammengefassten Merkmale für die Zieldomainbilder werden durch F t C
    Figure DE112020005609T5_0039
    und/oder F t c
    Figure DE112020005609T5_0040
    repräsentiert. Ähnlich können die schwachen Zieletiketten yt verwendet werden, um nur jene Kategorien abzugleichen, die im Zielbild vorhanden sind. Durch das Minimieren von L a d v C
    Figure DE112020005609T5_0041
    versucht das Segmentierungsnetz, den Diskriminator durch das Maximieren der Wahrscheinlichkeit des kategorienweisen Zielmerkmals, das als die Quellverteilung betrachtet wird, zu täuschen.
  • In verschiedenen Ausführungsformen berücksichtigt der Abgleich des Ausgaberaums Os, Ot nicht, welche Kategorien in einem Bild vorhanden sind, sondern nur deren Gesamtstruktur. Für jene Objekte, die normalerweise teilweise identifiziert werden oder die die vollständige Form nicht beibehalten, können sie im Ergebnis bei der Segmentierungsvorhersage weniger signifikant werden, was die Schwierigkeit während des Abgleichs erhöht, da derartige Teilobjekte in den Quelldaten nicht erscheinen. In diesem Aufsatz wird durch das Erzwingen der Beschränkungen an die Kategorien, die in den Bildern erscheinen, eine Hilfsaufgabe über schwache Etiketten eingeführt.
  • In verschiedenen Ausführungsformen kann ein Satz von C verschiedenen Diskriminatoren für jede der c Kategorien erlernt werden. Die Quell- und Zielbilder können verwendet werden, um die Diskriminatoren zu trainieren, die lernen, zwischen den kategorienweisen Merkmalen zu unterscheiden, die aus den Quell- oder Zielbildern gezogen werden. Das Ziel wird als: min D C L d C ( F s C , F t C )
    Figure DE112020005609T5_0042
    geschrieben. Es wird angegeben, dass jeder Diskriminator mit zusammengefassten Merkmalen trainiert werden kann, die für diese Kategorie spezifisch sind.
  • In verschiedenen Ausführungsformen wird das Segmentierungsnetz mit dem pixelweisen Kreuzentropieverlust Ls an den Quellbildern, dem schwachen Bildklassifikationsverlust Lc und dem gegnerischen Verlust L a d v C
    Figure DE112020005609T5_0043
    an den Zielbildern trainiert. Durch das Kombinieren des Ziels des Segmentierungsnetzes und der Diskriminatoren kann ein Minimum-Maximum-Problem formuliert werden:
    min G max D c L s + λ c L c ( X t ) + λ d L a d v C ( F t C )
    Figure DE112020005609T5_0044
  • Es wird der Standard-Trainingsprozedur eines generativen gegnerischen Netzes (GAN) gefolgt, um G und Dc abwechselnd zu aktualisieren. Es wird angegeben, dass die Berechnung von L a d v C
    Figure DE112020005609T5_0045
    die kategorienweisen Diskriminatoren Dc beinhaltet. Deshalb wird Dc festgelegt und werden die Gradienten nur für das Segmentierungsnetz G zurück ausgebreitet.
  • Es kann ein Mechanismus verwendet werden, um schwachen Etiketten auf der Bildebene der Zielbilder zu verwenden, um das Segmentierungsmodell zwischen den Quell- und Zieldomains anzupassen. Die schwachen Etiketten können jedoch auf verschiedenen Weisen erfasst werden.
  • In verschiedenen Ausführungsformen können die schwachen Etiketten erfasst werden, indem sie an den verfügbaren Daten, d. h., den Quellbildern/Etiketten und den Zielbildern, direkt geschätzt werden, was die Festlegung der nicht überwachten Domainanpassung (UDA) ist.
    y t c = { 1, i f p t c > T 0, s o n s t ,
    Figure DE112020005609T5_0046
    wobei p t c
    Figure DE112020005609T5_0047
    die in (1) berechnete Wahrscheinlichkeit für die c-Kategorie ist und T ein Schwellenwert ist, der in den Experimenten auf 0,2 gesetzt werden kann, wenn es nicht anders angegeben ist. In der Praxis können die schwachen Etiketten während des Trainings des Rahmens online berechnet werden, so dass kein zusätzlicher Trainingsschritt einbezogen ist. Spezifisch wird ein Zielbild weitergeleitet, werden die schwachen Etiketten erhalten und werden dann die Verlustfunktionen berechnet. Da die auf diese Weise erhaltenen schwachen Etiketten keine menschliche Überwachung erfordern, ist die Anpassung unter Verwendung derartiger Etiketten nicht überwacht.
  • In dieser Form können die schwachen Etiketten durch das Abfragen eines menschlichen Orakels erhalten werden, um eine Liste der im Zielbild vorkommenden Kategorien zu liefern. Da die Überwachung von einem Orakel an den Zielbildern verwendet wird, kann dies als schwach überwachte Domainanpassung (WDA) bezeichnet werden. Es ist erwähnenswert, dass die WDA-Festlegung praktisch nützlich sein könnte, da das Sammeln derartiger menschlicher Orakel von schwachen Etiketten viel einfacher als die pixelweisen Kommentare ist. Die hier beschriebenen Ausführungsformen können vollständig aus Hardware bestehen, vollständig aus Software bestehen oder sowohl Hardware- als auch Software-Elemente enthalten. In einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, Mikrocode usw. enthält, aber nicht darauf eingeschränkt ist.
  • Für das Segmentierungsnetz G kann DeepLab-V2 mit der ResNet-101-Architektur, die dem UDA-Rahmen folgt, verwendet werden. Die Merkmale Fs; Ft können vor der Schicht der räumlichen Pyramidenzusammenfassung mit Zwischenräumen (ASPP) extrahiert werden. Für die kategorienweisen Diskriminatoren
    D C = { D c } c = 1 C ,
    Figure DE112020005609T5_0048
    können C separate Netze verwendet werden, die jeweils drei vollständig verbundene Schichten mit der Knotenanzahl {2048; 2048; 1} und die ReLU-Aktivierung enthalten können.
  • In verschiedenen Ausführungsformen können die anfänglichen Lernraten für das Segmentierungsnetz und die Diskriminatoren auf 2,5 × 10-4 und 1 X 10-4 mit einem polynomialen Zerfall mit der Potenz 0,9 gesetzt sein. λc kann für schwache Orakel-Etiketten als 0,2 gewählt werden und für schwache Pseudoetiketten ein kleineres λc = 0,01 verwenden, um seiner ungenauen Vorhersage Rechnung zu tragen, wobei λadv = 0,001 gesetzt werden kann. Die Anpassung unter Verwendung schwacher Etiketten gleicht die Merkmale nicht nur zwischen den ursprünglichen Quell- und Zielbildern, sondern außerdem zwischen den übersetzten Quellbildern und Zielbildern ab.
  • In verschiedenen Ausführungsformen können diese angepassten Bilder zu dem Quelldatensatz hinzugefügt werden, da sich ihre pixelweisen Kommentare nach der Anpassung nicht ändern. Auf diese Weise gleicht die Anpassung unter Verwendung schwacher Etiketten die Merkmale nicht nur zwischen den ursprünglichen Quell- und Zielbildern, sondern außerdem zwischen den übersetzten Quell- und Zielbildern ab.
  • 8 ist ein beispielhaftes Verarbeitungssystem 800, auf das die vorliegenden Verfahren und Systeme angewendet werden können, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Das Verarbeitungssystem 800 kann wenigstens einen Prozessor (CPU) 804 enthalten und kann einen Graphikprozessor (GPU) 805 aufweisen, der Vektorberechnungen/-manipulationen ausführen kann, die über einen Systembus 602 betriebstechnisch an andere Komponenten gekoppelt sind. Ein Cache 806, ein Festwertspeicher (ROM) 808, ein Schreib-Lese-Speicher (RAM) 810, ein Eingabe-/Ausgabeadapter (E/A-Adapter) 820, ein Soundadapter 830, ein Netzadapter 840, ein Anwenderschnittstellenadapter 850 und ein Anzeigeadapter 860 können betriebstechnisch an den Systembus 802 gekoppelt sein.
  • Eine erste Speichervorrichtung 822 und eine zweite Speichervorrichtung 824 sind durch den E/A-Adapter 820 betriebstechnisch an den Systembus 802 gekoppelt. Die Speichervorrichtungen 822 und 824 können irgendeine einer Plattenspeichervorrichtung (z. B. eine magnetische oder optische Plattenspeichervorrichtung), einer Festkörpervorrichtung, einer Magnetspeichervorrichtung usw. sein. Die Speichervorrichtungen 822 und 824 können der gleiche Typ von Speichervorrichtung oder unterschiedliche Typen von Speichervorrichtungen sein.
  • Ein Lautsprecher 832 ist durch den Soundadapter 830 betriebstechnisch an den Systembus 802 gekoppelt. Ein Sender/Empfänger 842 ist durch den Netzadapter 840 betriebstechnisch an den Systembus 802 gekoppelt. Eine Anzeigevorrichtung 862 ist durch den Anzeigeadapter 860 betriebstechnisch an den Systembus 802 gekoppelt.
  • Eine erste Anwendereingabevorrichtung 852, eine zweite Anwendereingabevorrichtung 854 und eine dritte Anwendereingabevorrichtung 856 sind durch einen Anwenderschnittstellenadapter 850 betriebstechnisch an den Systembus 802 gekoppelt. Die Anwendereingabevorrichtungen 852, 854 und 856 können irgendeine einer Tastatur, einer Maus, eines Tastfeldes, einer Bildaufnahmevorrichtung, einer Bewegungsabtastvorrichtung, eines Mikrophons, einer Vorrichtung, die die Funktionalität von wenigstens zwei der vorhergehenden Vorrichtungen enthält, usw. sein. Selbstverständlich können andere Typen von Eingabevorrichtungen verwendet werden, während der Erfindungsgedanke der vorliegenden Prinzipien aufrechterhalten wird. Die Anwendereingabevorrichtungen 852, 854 und 856 können der gleiche Typ von Anwendereingabevorrichtung oder verschiedene Typen von Anwendereingabevorrichtungen sein. Die Anwendereingabevorrichtungen 852, 854 und 856 können verwendet werden, um Informationen in das und aus dem System 800 einzugeben bzw. auszugeben.
  • In verschiedenen Ausführungsformen kann das Verarbeitungssystem 800 außerdem sowohl andere (nicht gezeigte) Elemente enthalten, wie sie durch einen Fachmann auf dem Gebiet ohne weiteres in Betracht gezogen werden können, als auch bestimmte Elemente weglassen. In dem Verarbeitungssystem 800 können z. B. abhängig von der speziellen Implementierung desselben verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen enthalten sein, wie es durch einen Durchschnittsfachmann auf dem Gebiet ohne weiteres erkannt wird. Es können z. B. verschiedene Typen von drahtlosen und/oder verdrahteten Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Überdies können zusätzliche Prozessoren, Controller, Speicher usw. in verschiedenen Konfigurationen verwendet werden, wie durch einen Durchschnittfachmann auf dem Gebiet ohne weiteres erkannt wird. Diese und andere Variationen des Verarbeitungssystems 800 können durch einen Durchschnittfachmann auf dem Gebiet in Anbetracht der hier bereitgestellten Lehren der vorliegenden Prinzipien ohne weiteres in Betracht gezogen werden.
  • Überdies soll erkannt werden, dass das System 800 ein System zum Implementieren der jeweiligen Ausführungsformen der vorliegenden Verfahren/Systeme ist. Ein Teil oder alles des Verarbeitungssystems 800 kann in einem oder mehreren der Elemente nach den 1-7 implementiert sein. Ferner soll erkannt werden, dass das Verarbeitungssystem 800 wenigstens einen Teil der hier beschriebenen Verfahren, z. B. wenigstens einen Teil des Verfahrens nach den 1-7, ausführen kann.
  • 9 zeigt ein beispielhaftes Verarbeitungssystem 900, das konfiguriert ist, ein oder mehrere neuronale Netze zum Anpassen der semantischen Segmentierung über Domains zu implementieren, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • In einer oder mehreren Ausführungsformen kann das Verarbeitungssystem 900 ein Computersystem 800 sein, das konfiguriert ist, ein computerimplementiertes Verfahren zum Anpassen der semantischen Segmentierung über Domains auszuführen.
  • In einer oder mehreren Ausführungsformen kann das Verarbeitungssystem 900 ein Computersystem 800 mit Speicherkomponenten 950 sein, die den Schreib-Lese-Speicher (RAM) 810 des Computersystems, die Festplatten 822 und/oder einen Cloud-Speicher enthalten, aber nicht darauf eingeschränkt sind, um ein computerimplementiertes Verfahren unter Verwendung schwacher Etiketten zu speichern und zu implementieren, um die semantische Segmentierung über Domains zu verbessern. Die Speicherkomponenten 950 können außerdem eine Datenbank zum Organisieren des Speichers verwenden.
  • In verschiedenen Ausführungsformen können die Speicherkomponenten 950 ein Segmentierungsnetz 910 enthalten, das konfiguriert sein kann, ein neuronales Netz zu implementieren, das konfiguriert ist, ein Quellbild und ein Zielbild zu modellieren. Das Segmentierungsnetz 910 kann außerdem konfiguriert sein, als Eingabe digitale Bilder aus verschiedenen Domains zu empfangen und vorherzusagen, welche Kategorien in diesem Bild vorhanden sind. In Anbetracht eines Straßen- oder Stadtbilds in der Zieldomain kann z. B. vorhergesagt werden, welche Kategorien in diesem Bild vorhanden sind, z. B. Straße, Personenkraftwagen, Lastkraftwagen und Fußgänger, ohne ihre genauen Stellen im Bild zu kennen. Das Segmentierungsnetz 910 kann außerdem konfiguriert sein, schwache Pseudoetiketten in einer nicht überwachten Weise vorherzusagen. Die Anwender können für die Zielbilder schwache Grundwahrheitsetiketten bereitstellen.
  • In verschiedenen Ausführungsformen können die Speicherkomponenten 950 eine Einrichtung 920 zur kategorienweisen Merkmalszusammenfassung enthalten, die konfiguriert ist, Segmentierungsvorhersage-Zusammenfassungsmerkmale bereitzustellen. Eine Aufmerksamkeitskarte kann für die Führung verwendet werden, um kategorienweise Merkmale für die ferner vorgeschlagene Abgleichprozedur zusammenzufassen. Die Einrichtung 920 zur kategorienweisen Merkmalszusammenfassung ist so konfiguriert, dass sie eine globale Zusammenfassungsschicht aufweist, um einen einzigen Vektor der Vorhersagen für jede Kategorie zu erhalten.
  • In verschiedenen Ausführungsformen können die Speicherkomponenten 950 einen Diskriminator(en) 930 enthalten, der (die) konfiguriert ist (sind), zwischen kategorienweisen Merkmalen zu unterscheiden, die aus den Quell- und Zielbildern gezogen werden. Der Diskriminator 930 kann (die Diskriminatoren 930 können) an Quell- und Zielbildern trainiert werden und mit den schwachen Etiketten verwendet werden, um die Merkmale zwischen den Quell- und Zielbildern abzugleichen. Es kann eine gegnerischen Verlustfunktion verwendet werden, um kategorienweise Diskriminatoren zu trainieren, um zwischen kategorienweisen Merkmalen zu unterscheiden, die aus den Quell- und Zielbildern gezogen werden. Jeder von einem oder mehreren Diskriminatoren kann mit zusammengefassten Merkmalen trainiert werden, die für eine Kategorie spezifisch sind.
  • In verschiedenen Ausführungsformen können die Speicherkomponenten 950 einen Domainabgleicheinrichtung 940 enthalten, die konfiguriert ist, die schwachen Etiketten zu verwenden, um diese Merkmale zwischen den Quell- und Zieldomains unter Verwendung der kategorienweisen Diskriminatoren unter Verwendung des Abgleichverlustes abzugleichen und die Diskriminatoren unter Verwendung des Domainklassifikationsverlustes zu trainieren. Die Domainabgleicheinrichtung 940 kann außerdem konfiguriert sein, einen kategorienweise Merkmalsabgleich über Domains auszuführen, wobei nur die Kategorien, die im Bild vorhanden sind, für den Abgleich verwendet werden.
  • 10 ist ein Blockschaltplan, der ein beispielhaftes neuronales Netz 1000 gemäß einer weiteren Ausführungsform der vorliegenden Erfindung veranschaulichend darstellt.
  • Ein neuronales Netz 1000 kann mehrere Neuronen/Knoten 1001 enthalten, wobei die Knoten 1008 unter Verwendung einer oder mehrerer von mehreren Verbindungen 1008 kommunizieren können. Das neuronale Netz 1000 kann mehrere Schichten enthalten, die z. B. eine oder mehrere Eingabeschichten 1002, eine oder mehrere verborgene Schichten 1004 und eine oder mehrere Ausgabeschichten 1006 enthalten. In einer Ausführungsform können die Knoten 1001 in jeder Schicht verwendet werden, um irgendeine Funktion (z. B. ein Eingabeprogramm, Eingabedaten usw.) auf irgendeine vorhergehende Schicht anzuwenden, um eine Ausgabe zu erzeugen, wobei die verborgene Schicht 1004 verwendet werden kann, um die Eingaben von der Eingabeschicht (oder irgendeiner anderen Schicht) in eine Ausgabe für Knoten 1001 auf verschiedenen Ebenen zu transformieren.
  • Die Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium zugegriffen werden kann, das Programmcode zur Verwendung durch einen bzw. ein oder in Verbindung mit einem Computer oder irgendeinem Anweisungsausführungssystem bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch das oder in Verbindung mit dem Anweisungsausführungssystem, dem Gerät oder der Vorrichtung speichert, überträgt, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder -gerät oder-vorrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium, wie z. B. einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine abnehmbare Computerdiskette, einen Schreib-Lese-Speicher (RAM), einen Festwertspeicher (ROM), eine starre Magnetplatte und eine optische Platte usw. enthalten.
  • Jedes Computerprogramm kann in einem maschinenlesbaren Speichermedium oder einer maschinenlesbaren Vorrichtung (z. B. Programmspeicher oder Magnetplatte) greifbar gespeichert sein, das bzw. die durch einen programmierbaren Universal- oder Spezialcomputer zum Konfigurieren und Steuern des Betriebs eines Computers gelesen werden kann, wenn das Speichermedium oder die Speichervorrichtung durch den Computer gelesen wird, um die hier beschriebenen Prozeduren auszuführen. Das erfindungsgemäße System kann außerdem als in einem computerlesbaren Speichermedium verkörpert betrachtet werden, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium einen Computer veranlasst, in einer spezifischen und vorgegebenen Weise zu arbeiten, um die hier beschriebenen Funktionen auszuführen.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor enthalten, der durch einen Systembus direkt oder indirekt an Speicherelemente gekoppelt ist. Die Speicherelemente können einen lokalen Speicher, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cache-Speicher, die die vorübergehende Speicherung von wenigstens etwas Programmcode bereitstellen, um die Anzahl zu verringern, wie oft der Code aus dem Massenspeicher während der Ausführung wiedergewonnen wird, enthalten. Mit dem System können Eingabe-/Ausgabe- oder E/A-Vorrichtungen (einschließlich, aber nicht eingeschränkt auf Tastaturen, Anzeigen, Zeigevorrichtungen usw.) entweder direkt oder durch dazwischenliegende E/A-Controller gekoppelt sein.
  • Außerdem können Netzadapter an das System gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem durch dazwischenliegende private oder öffentliche Netze an andere Datenverarbeitungssysteme oder entfernte Druckern oder Speichervorrichtungen gekoppelt wird. Modems, Kabelmodems und Ethernet-Karten sind nur einige der derzeit verfügbaren Typen von Netzadaptern.
  • Der Begriff „Hardware-Prozessor-Teilsystem“ oder „Hardware-Prozessor“, wie er hier verwendet wird, kann sich auf einen Prozessor, einen Speicher, Software oder Kombinationen daraus beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben auszuführen. In nützlichen Ausführungsformen kann das Hardware-Prozessor-Teilsystem ein oder mehrere Datenverarbeitungselemente (z. B. Logikschaltungen, Verarbeitungsschaltungen, Anweisungsausführungsvorrichtungen usw.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente können in einer Zentraleinheit, einer Graphikverarbeitungseinheit und/oder einem separaten prozessor- oder rechenelementbasierten Controller (z. B. Logikgattern usw.) enthalten sein. Das Hardware-Prozessor-Teilsystem kann einen oder mehrere bordinterne Speicher (z. B. Caches, dedizierte Speicheranordnungen, Festwertspeicher usw.) enthalten. In einigen Ausführungsformen kann das Hardware-Prozessor-Teilsystem einen oder mehrere Speicher enthalten, die sich auf der oder außerhalb der Platine befinden können oder die für die Verwendung durch das Hardware-Prozessor-Teilsystem dediziert sein können (z. B. ROM, RAM, ein Basiseingabe-/-ausgabesystem (BIOS), usw.).
  • In einigen Ausführungsformen kann das Hardware-Prozessor-Teilsystem ein oder mehrere Software-Elemente enthalten und ausführen. Das eine oder die mehreren Software-Elemente können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder spezifischen Code enthalten, um ein spezifiziertes Ergebnis zu erreichen.
  • In anderen Ausführungsformen kann das Hardware-Prozessor-Teilsystem eine dedizierte spezialisierte Schaltungsanordnung enthalten, die eine oder mehrere elektronische Verarbeitungsfunktionen ausführt, um ein spezifiziertes Ergebnis zu erreichen. Eine derartige Schaltungsanordnung kann eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), eine oder mehrere feldprogrammierbare Gatteranordnungen (FPGAs) und/oder eine oder mehrere programmierbare Logikanordnungen (PLAs) enthalten.
  • Diese und andere Variationen eines Hardware-Prozessor-Teilsystems werden außerdem in Übereinstimmung mit den Ausführungsformen der vorliegenden Erfindung in Betracht gezogen.
  • Die Bezugnahme in der Patentschrift sowohl auf „eine einzige Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung als auch auf andere Variationen davon bedeutet, dass ein spezielles Merkmal, eine spezielle Struktur, eine spezielle Eigenschaft usw., die im Zusammenhang mit der Ausführungsform beschrieben werden, in wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Folglich beziehen sich die Auftritte sowohl des Ausdrucks „in einer einzigen Ausführungsform“ oder „in einer Ausführungsform“ als auch irgendwelcher anderen Variationen, die an verschiedenen Stellen überall in der Patentschrift erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es soll jedoch erkannt werden, dass die Merkmale einer oder mehrerer Ausführungsformen in Anbetracht der hier bereitgestellten Lehren der vorliegenden Erfindung kombiniert werden können.
  • Es soll erkannt werden, dass die Verwendung von irgendeinem des Folgenden „/“, „und/oder“ und „wenigstens eines von“, z. B. in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, vorgesehen ist, die Auswahl nur der ersten aufgeführten Option (A) oder die Auswahl nur der zweiten aufgeführten Option (B) oder die Auswahl beider Optionen (A und B) zu umfassen. Als ein weiteres Beispiel ist in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ eine derartige Formulierung vorgesehen, dass sie die Auswahl nur der ersten aufgeführten Option (A) oder die Auswahl nur der zweiten aufgeführten Option (B) oder die Auswahl nur der dritten aufgeführten Option (C) oder die Auswahl nur der ersten und der zweiten aufgeführten Option (A und B) oder nur die Auswahl der ersten und der dritten aufgeführten Option (A und C) oder die Auswahl nur der zweiten und der dritten aufgeführten Option (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfasst. Dies kann für so viele Elemente erweitert werden, wie aufgeführt sind.
  • Das Vorhergehende soll so verstanden werden, dass es in jeder Hinsicht veranschaulichend und beispielhaft, aber nicht einschränkend ist, wobei der Schutzumfang der hier offenbarten Erfindung nicht durch die ausführliche Beschreibung, sondern stattdessen durch die Patentansprüche bestimmt ist, wie sie gemäß der vollen Breite, die durch die Patentgesetze erlaubt ist, interpretiert werden. Es soll erkannt werden, dass die hier gezeigten und beschriebenen Ausführungsformen die vorliegende Erfindung lediglich veranschaulichen und dass die Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Die Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Nachdem folglich die Aspekte der Erfindung mit der durch die Patentgesetze geforderten Ausführlichkeit und Spezifizität beschrieben worden sind, ist das, was beansprucht und durch die Patenturkunde geschützt werden soll, in den beigefügten Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 17/094139 [0001]
    • US 62/935341 [0001]

Claims (20)

  1. Verfahren zum Anpassen der semantischen Segmentierung über Domains, das umfasst: Eingeben (720) eines Quellbildes in ein Segmentierungsnetz; Eingeben (710) eines Zielbildes in das Segmentierungsnetz; Identifizieren (760) von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung einer kategorienweisen Zusammenfassung; Unterscheiden (780) zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild; Trainieren (730) des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild; und Ausgeben eines semantisch segmentierten Zielbildes.
  2. Verfahren nach Anspruch 1, wobei eine GAN-Trainingsprozedur verwendet wird, um das Segmentierungsnetz zu aktualisieren.
  3. Verfahren nach Anspruch 1, wobei der für die Zielbilder berechnete gegnerische Verlust durch L a d v C ( F t C , G , D C ) = c = 1 C y t c log D C ( F t c )
    Figure DE112020005609T5_0049
    gegeben ist, wobei L a d v C
    Figure DE112020005609T5_0050
    ein kategorienspezifischer gegnerischer Verlust ist, F t C
    Figure DE112020005609T5_0051
    die zusammengefassten Merkmale für die Zieldomainbilder repräsentiert, G das Segmentierungsnetz ist, Dc ein kategorienspezifischer Domain-Diskriminator ist, c ein Index für die Kategorien C ist und y t c
    Figure DE112020005609T5_0052
    die kategorienweisen schwachen Zieletiketten repräsentiert.
  4. Verfahren nach Anspruch 1, das ferner das Verwenden von schwachen Zieletiketten yt umfasst, um die Kategorien in dem Zielbild abzugleichen.
  5. Verfahren nach Anspruch 4, das ferner das Verwenden von kategorienspezifischen Domain-Diskriminatoren umfasst, die durch die schwachen Zieletiketten geführt sind, um zu bestimmen, welche Kategorien abgeglichen werden sollten.
  6. Verfahren nach Anspruch 5, das ferner das Erhalten schwacher Etiketten durch das Abfragen eines menschlichen Orakels umfasst, um eine Liste von Kategorien bereitzustellen, die in dem Zielbild vorkommen.
  7. Verfahren nach Anspruch 6, das ferner das Erhalten schwacher Etiketten durch eine nicht überwachte Domainanpassung umfasst.
  8. Verarbeitungssystem (900) zum Anpassen der semantischen Segmentierung über Domains, das umfasst: eine oder mehrere Prozessorvorrichtungen (804, 805); einen Speicher (950), der mit wenigstens einer der einen oder der mehreren Prozessorvorrichtungen (804, 805) in Verbindung steht; und einen Anzeigeschirm (862); wobei das Verarbeitungssystem (900) enthält: ein Segmentierungsnetz (910), das konfiguriert ist, ein Quellbild zu empfangen und ein Zielbild zu empfangen; eine Einrichtung (920) zur kategorienweisen Zusammenfassung, die konfiguriert ist, kategorienweise Merkmale für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung zu identifizieren; einen Diskriminator (930), der konfiguriert ist, zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild zu unterscheiden; wobei das Segmentierungsnetz (910) basierend auf einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild trainiert wird und ein semantisch segmentiertes Zielbild auf dem Anzeigeschirm (862) ausgibt.
  9. Verarbeitungssystem nach Anspruch 8, wobei eine GAN-Trainingsprozedur verwendet wird, um das Segmentierungsnetz zu aktualisieren.
  10. Verarbeitungssystem nach Anspruch 8, wobei der für die Zielbilder berechnete gegnerische Verlust durch L a d v C ( F t C , G , D C ) = c = 1 C y t c log D C ( F t c )
    Figure DE112020005609T5_0053
    gegeben ist, wobei L a d v C
    Figure DE112020005609T5_0054
    ein kategorienspezifischer gegnerischer Verlust ist, F t C
    Figure DE112020005609T5_0055
    die zusammengefassten Merkmale für die Zieldomainbilder repräsentiert, G das Segmentierungsnetz ist, Dc ein kategorienspezifischer Domain-Diskriminator ist, c ein Index für die Kategorien C ist und y t c
    Figure DE112020005609T5_0056
    die kategorienweisen schwachen Zieletiketten repräsentiert.
  11. Verarbeitungssystem nach Anspruch 8, das ferner eine Domainabgleicheinrichtung umfasst, die konfiguriert ist, schwache Zieletiketten yt zu verwenden, um die Kategorien im Zielbild abzugleichen.
  12. Verarbeitungssystem nach Anspruch 11, das ferner das Verwenden von kategorienspezifischen Domain-Diskriminatoren umfasst, die durch die schwachen Zieletiketten geführt sind, um zu bestimmen, welche Kategorien abgeglichen werden sollten.
  13. Verarbeitungssystem nach Anspruch 12, das ferner das Erhalten schwacher Etiketten durch das Abfragen eines menschlichen Orakels umfasst, um eine Liste von Kategorien bereitzustellen, die in dem Zielbild vorkommen.
  14. Nicht transitorisches computerlesbares Speichermedium, das ein computerlesbares Programm zum Erzeugen eines Straßenanordnungsmodells umfasst, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, den Computer veranlasst, die Schritte auszuführen: Eingeben (720) eines Quellbildes in ein Segmentierungsnetz; Eingeben (710) eines Zielbildes in das Segmentierungsnetz; Identifizieren (760) von kategorienweisen Merkmalen für das Quellbild und das Zielbild unter Verwendung der kategorienweisen Zusammenfassung; Unterscheiden (780) zwischen den kategorienweisen Merkmalen für das Quellbild und das Zielbild; Trainieren (730) des Segmentierungsnetzes mit einem pixelweisen Kreuzentropieverlust an dem Quellbild und einem schwachen Bildklassifikationsverlust und einem gegnerischen Verlust an dem Zielbild; und Ausgeben eines semantisch segmentierten Zielbildes.
  15. Computerlesbares Programm nach Anspruch 14, wobei eine GAN-Trainingsprozedur verwendet wird, um das Segmentierungsnetz zu aktualisieren.
  16. Computerlesbares Programm nach Anspruch 14, wobei der für die Zielbilder berechnete gegnerische Verlust durch L a d v C ( F t C , G , D C ) = c = 1 C y t c log D C ( F t c )
    Figure DE112020005609T5_0057
    gegeben ist, wobei L a d v C
    Figure DE112020005609T5_0058
    ein kategorienspezifischer gegnerischer Verlust ist, F t C
    Figure DE112020005609T5_0059
    die zusammengefassten Merkmale für die Zieldomainbilder repräsentiert, G das Segmentierungsnetz ist, DC ein kategorienspezifischer Domain-Diskriminator ist, c ein Index für die Kategorien C ist und y t c
    Figure DE112020005609T5_0060
    die kategorienweisen schwachen Zieletiketten repräsentiert.
  17. Computerlesbares Programm nach Anspruch 14, das ferner das Verwenden von schwachen Zieletiketten yt umfasst, um die Kategorien in dem Zielbild abzugleichen.
  18. Computerlesbares Programm nach Anspruch 17, das ferner das Verwenden von kategorienspezifischen Domain-Diskriminatoren umfasst, die durch die schwachen Zieletiketten geführt sind, um zu bestimmen, welche Kategorien abgeglichen werden sollten.
  19. Computerlesbares Programm nach Anspruch 18, das ferner das Erhalten schwacher Etiketten durch das Abfragen eines menschlichen Orakels umfasst, um eine Liste von Kategorien bereitzustellen, die in dem Zielbild vorkommen.
  20. Computerlesbares Programm nach Anspruch 19, das ferner das Erhalten schwacher Etiketten durch eine nicht überwachte Domainanpassung umfasst.
DE112020005609.0T 2019-11-14 2020-11-12 Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten Withdrawn DE112020005609T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962935341P 2019-11-14 2019-11-14
US62/935,341 2019-11-14
US17/094,139 US20210150281A1 (en) 2019-11-14 2020-11-10 Domain adaptation for semantic segmentation via exploiting weak labels
US17/094,139 2020-11-10
PCT/US2020/060178 WO2021097055A1 (en) 2019-11-14 2020-11-12 Domain adaptation for semantic segmentation via exploiting weak labels

Publications (1)

Publication Number Publication Date
DE112020005609T5 true DE112020005609T5 (de) 2022-09-15

Family

ID=75908767

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020005609.0T Withdrawn DE112020005609T5 (de) 2019-11-14 2020-11-12 Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten

Country Status (4)

Country Link
US (1) US20210150281A1 (de)
JP (1) JP2022547150A (de)
DE (1) DE112020005609T5 (de)
WO (1) WO2021097055A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022204263A1 (de) 2022-04-29 2023-11-02 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11602132B2 (en) * 2020-10-06 2023-03-14 Sixgill, LLC System and method of counting livestock
US20220300711A1 (en) * 2021-03-18 2022-09-22 Augmented Intelligence Technologies, Inc. System and method for natural language processing for document sequences
CN113240655B (zh) * 2021-05-21 2023-04-07 深圳大学 一种自动检测眼底图像类型的方法、存储介质及装置
CN113191984B (zh) * 2021-05-24 2023-04-18 清华大学深圳国际研究生院 基于深度学习的运动模糊图像联合复原与分类方法和系统
CN113313722B (zh) * 2021-06-10 2023-09-12 浙江传媒学院 一种牙根图像交互标注方法
CN113326848B (zh) * 2021-06-17 2023-04-18 中山大学 半监督领域自适应方法、系统、设备及存储介质
CN113486748B (zh) * 2021-06-28 2022-06-24 同济大学 一种自动驾驶路面摩擦系数预测方法、电子设备及介质
CN113516194B (zh) * 2021-07-20 2023-08-08 海南长光卫星信息技术有限公司 高光谱遥感影像半监督分类方法、装置、设备及存储介质
CN113658165B (zh) * 2021-08-25 2023-06-20 平安科技(深圳)有限公司 杯盘比确定方法、装置、设备及存储介质
CN113705666B (zh) * 2021-08-26 2023-10-27 平安科技(深圳)有限公司 分割网络训练方法、使用方法、装置、设备及存储介质
CN113554013B (zh) * 2021-09-22 2022-03-29 华南理工大学 跨场景识别模型训练方法、跨场景道路识别方法以及装置
CN114022762B (zh) * 2021-10-26 2022-12-09 湖北智感空间信息技术有限责任公司 对农作物种植区域面积进行提取的无监督域自适应方法
CN114373106A (zh) * 2021-12-28 2022-04-19 华南理工大学 基于上下文解耦和数据增强的弱监督语义分割方法及装置
US20230245450A1 (en) * 2022-02-03 2023-08-03 Robert Bosch Gmbh Learning semantic segmentation models in the absence of a portion of class labels
CN114549554A (zh) * 2022-02-22 2022-05-27 山东融瓴科技集团有限公司 基于风格不变性的空气污染源分割方法
CN114693967B (zh) * 2022-03-20 2023-10-31 电子科技大学 基于二分类张量增强的多分类语义分割方法
CN114445413B (zh) * 2022-04-07 2022-09-06 宁波康达凯能医疗科技有限公司 一种基于域自适应的帧间图像语义分割方法与系统
CN114708434A (zh) * 2022-04-18 2022-07-05 浙江大学 基于迭代域内适应和自训练的跨域遥感图像语义分割方法
WO2023201681A1 (zh) * 2022-04-22 2023-10-26 北京航空航天大学杭州创新研究院 面向粗标签的语义分割模型的训练方法和装置
CN114820655B (zh) * 2022-04-26 2024-04-19 中国地质大学(武汉) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN114821207B (zh) * 2022-06-30 2022-11-04 浙江凤凰云睿科技有限公司 一种图像分类方法、装置、存储介质及终端
CN114998602B (zh) * 2022-08-08 2022-12-30 中国科学技术大学 基于低置信度样本对比损失的域适应学习方法及系统
CN115482221A (zh) * 2022-09-22 2022-12-16 深圳先进技术研究院 一种病理图像的端到端弱监督语义分割标注方法
CN116188830B (zh) * 2022-11-01 2023-09-29 青岛柯锐思德电子科技有限公司 基于多层级特征对齐的高光谱图像跨域分类方法
CN115546490A (zh) * 2022-11-23 2022-12-30 南京理工大学 一种基于显著性引导的弱监督语义分割方法
CN116152497B (zh) * 2023-02-24 2024-02-27 智慧眼科技股份有限公司 一种语义分割模型优化方法及系统
CN116152575B (zh) * 2023-04-18 2023-07-21 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质
CN116977747B (zh) * 2023-08-28 2024-01-23 中国地质大学(北京) 基于多路多尺度特征孪生网络的小样本高光谱分类方法
CN117253097B (zh) * 2023-11-20 2024-02-23 中国科学技术大学 半监督域适应图像分类方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
US20210287128A1 (en) * 2019-08-08 2021-09-16 Lg Electronics Inc. Artificial intelligence server

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022204263A1 (de) 2022-04-29 2023-11-02 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes

Also Published As

Publication number Publication date
WO2021097055A1 (en) 2021-05-20
JP2022547150A (ja) 2022-11-10
US20210150281A1 (en) 2021-05-20

Similar Documents

Publication Publication Date Title
DE112020005609T5 (de) Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten
DE112016005059B4 (de) Unterkategorienbewusste faltende neuronale Netzwerke zur Objekterfassung
CN107145889B (zh) 基于具有RoI池化的双CNN网络的目标识别方法
DE112017001311T5 (de) System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
CN107644235A (zh) 基于半监督学习的图像自动标注方法
DE102017127592A1 (de) Verfahren zum Klassifizieren von Bildszenen in einem Fahrunterstützungssystem
CN104134068B (zh) 基于稀疏编码的监控车辆特征表示及分类方法
DE112020005594T5 (de) Parametrische darstellung komplexer strassenszenen von oben
CN108734719A (zh) 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法
DE102014216794A1 (de) Robuste und recheneffiziente videobasierte Objektverfolgung in kontrollierten Bewegungsumgebungen
DE112020005663T5 (de) Objekterkennung mit training aus mehreren datensätzen
DE112022002652T5 (de) Automatische erzeugung einer vektorkarte für die fahrzeugnavigation
CN113033321A (zh) 目标行人属性识别模型的训练方法及行人属性识别方法
CN114005085A (zh) 一种视频中密集人群分布检测与计数方法
CN110889360A (zh) 一种基于切换卷积网络的人群计数方法及系统
Bargoti et al. Image classification with orchard metadata
DE102021203021A1 (de) Semantisch konsistente erweiterte trainingsdaten zur ampelerkennung
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN114743126A (zh) 一种基于图注意力机制网络的车道线标志分割方法
DE102021213118A1 (de) Verfahren und ein system für black-box-universalangriffe mit geringer abfrage
DE102020215200A1 (de) System und verfahren eines verfahrens für robustes aktives lernen unter verwendung von verrauschten labels und domänenadaption
CN117237900A (zh) 一种基于ssc-yolov5的自动驾驶目标检测算法
DE102020211849A1 (de) Trainieren eines maschinellen lernmodells unter verwendung eines batch-basierten aktiven lernansatzes
DE102023102316A1 (de) System und verfahren zur robusten erzeugung von pseudo-labels für die halb-überwachte objekterkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee