DE102023203379A1

DE102023203379A1 - System und verfahren zur iterativen verfeinerung und kuratierung von bildern auf basis von visuellen vorlagen

Info

Publication number: DE102023203379A1
Application number: DE102023203379.8A
Authority: DE
Inventors: Sonam SINGH; Amit Arvind Kale
Original assignee: Robert Bosch GmbH; Robert Bosch Engineering and Business Solutions Pvt Ltd
Current assignee: Robert Bosch GmbH; Bosch Global Software Technologies Pvt Ltd
Priority date: 2022-04-29
Filing date: 2023-04-13
Publication date: 2023-11-02
Also published as: US20230351734A1; CN116977974A

Abstract

Verfahren (200) und System (100) zum Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, werden beschrieben. Ein Satz von visuellen Bildvorlagen (102), die ein Eingabeobjekt darstellen, wird für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) (302) bereitgestellt. Ein Merkmalsextraktionsmodul (1047) ist dafür ausgelegt, einen Satz von Merkmalsvektoren (208), der einen Satz von visuellen Bildvorlagen (102) darstellt, und eine Bilderliste (216), die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert sind, zu extrahieren. Ein Patchgenerierungsmodul (106) ist dafür ausgelegt, Bildpatches, welche das Eingabeobjekt darstellen, anhand eines Satzes von relevanten Nachbarbildern (210) zu generieren, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen (102) erzielt wird. Das Patchgenerierungsmodul (106) ist ferner dafür ausgelegt, ein neues Netzmodell in einer selbstüberwachten Weise, mit Bildpatchgenerierung durch das Patchgenerierungsmodul (106), iterativ zu trainieren.

Description

Gebiet der Erfindung
Der vorliegende Erfindungsgegenstand betrifft allgemein das iterative Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, und insbesondere ein System, das Bilder auf Basis von vordefinierten visuellen Vorlagen iterativ verfeinern und kuratieren kann.
Hintergrund der Erfindung
Verschiedene Bildabruftechniken beinhalten eine computerbasierte Objekterkennung. Die computerbasierte Objekterkennung integriert eine Bildverarbeitung, um Instanzen von Objekten in Bildern zu identifizieren, und nimmt Kommentierungen der Objekte zur Objekterkennung und -verfolgung vor. Die Bildverarbeitung kann auch implementiert sein, um Position, Ausrichtung und Verhalten eines Objektes in einem Bild im Hinblick auf andere, in dem Bild vorhandene Objekte zu interpretieren.
Große Datenmengen werden für Anwendungen in Domänen wie Autonomes Fahren (Autonomous Driving, AD), CCTV-Überwachung etc. gesammelt. Um Lernmodelle zu diesen Daten für spezifische Anwendungsfälle zu trainieren, z. B. Verkehrsschilder oder Straßenmarkierungen, müssen Bilder (für das überwachte Lernen) kuratiert und beschriftet werden. Der übliche Prozess zum Kuratieren dieser Daten erfolgt manuell, was kosten- und zeitintensiv ist. Die Fähigkeit, Daten für solche Anwendungsfälle in automatisierter Weise zu kuratieren, kann für menschliche Kuratoren eine große Unterstützung darstellen. Das Problem wird zu einer Herausforderung, da diese Objekte von Interesse in unbeschrifteten verschiedenartigen Szenen auftreten, z. B. einer Fahrszene, die von einer fahrzeugmontierten Kamera erfasst wird. Diese Szenen enthalten verschiedene Objekte aus unterschiedlichen Klassen, z. B. Gebäude, Fahrzeuge, Fußgänger etc., was die Kuratierung erschwert.
Ein Stand der Technik, US20190370384 (Ensemble-based Data Curation Pipeline for efficient Label Propagation, Ensemble-basierte Datenkuratierungspipeline für eine effiziente Beschriftungsverbreitung), offenbart ein Verfahren und eine Architektur, die es ermöglichen, beschriftete Daten durch Verwendung von Beschriftungsverbreitung, Clustering und Erstellung dedizierter Klassifikatoren für jeden Datensatz zu initialisieren und kuratieren. Diese dedizierten Klassifikatoren werden neu trainiert, wenn der Datensatz anwächst, und stellen sicher, dass jeder Datensatz frei von Ausreißern und Rauschen ist.
Ein anderer Stand der Technik, US10810252B2 (Automated Image Curation for Machine Learning Deployments, Automatisierte Bildkuratierung für Maschinenlernanwendungen), offenbart Techniken zur Datenkuratierung und Bildauswertung. Ein erstes Bild wird erfasst, und eine erste Angabe eines ersten Objekts wird empfangen. Eine erste Kennung des ersten Objekts wird dann basierend auf der ersten Angabe identifiziert. Ferner wird, basierend auf der ersten Angabe, bestimmt, dass das erste Bild das erste Objekt darstellt. Das erste Bild ist mit der ersten Kennung beschriftet, und ein Maschinenlernmodell (ML-Modell) eines ML-System wird basierend auf dem beschrifteten ersten Bild trainiert.
Stand der Technik US9817847B2 (NEURAL NETWORK IMAGE CURATION CONTROL, BILDKURATIERUNGSSTEUERUNG IN NEURONALEN NETZEN): In diesem Werk werden Bildkuratierungstechniken für neuronale Netze beschrieben. In einer oder mehrere Implementierungen wird die Kuratierung von Bildern gesteuert, die ein Archiv (Repository) von Bildern darstellen. Mehrere Bilder des Archivs werden durch eine oder mehrere Rechenvorrichtungen kuratiert, um repräsentative Bilder des Archivs auszuwählen. Die Kuratierung beinhaltet das gemeinsame Berechnen einer Bewertung, basierend auf Bild- und Gesichtsästhetik, für jedes der mehreren Bilder per Verarbeitung durch ein neuronales Netz, Einstufung der mehreren Bilder basierend auf den jeweiligen Bewertungen und Auswahl eines oder mehrerer der mehreren Bilder als eines der repräsentativen Bilder des Archivs basierend auf der Einstufung und einer Bestimmung, dass die ein oder mehreren Bilder visuell keinen Bildern ähneln, die bereits als eines der repräsentativen Bilder des Archivs ausgewählt worden sind.
Kurze Beschreibung der beigefügten Zeichnungen
Die ausführliche Beschreibung wird unter Bezugnahme auf die beigefügten Zeichnungen bereitgestellt, wobei gilt:

1 veranschaulicht eine Systemumgebung für das iterative Kuratieren von Bildern, die spezifische Objekte beinhalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes;
2 veranschaulicht ein Flussdiagramm eines Verfahrens zum iterativen Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes.

Ausführliche Beschreibung der Ausführungsformen
1 veranschaulicht eine Systemumgebung für das iterative Kuratieren von Bildern, die spezifische Objekte beinhalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes. Der vorliegende Erfindungsgegenstand beschreibt verschiedene Ansätze für das Verfeinern und Kuratieren von Bildern basierend auf vordefinierten visuellen Vorlagen. Der Kern der vorliegenden Erfindung besteht darin, ein System zu beschreiben, das Bilder basierend auf vordefinierten visuellen Vorlagen iterativ verfeinern und kuratieren kann. Diese Vorlagen stellen die Objekte oder Szenen dar, die weitergehend kuratiert werden müssen, beispielsweise Verkehrsschilder oder Straßenmarkierungen.
Die Systemumgebung kann ein Rechensystem 100 und eine neuronale Netzarchitektur beinhalten. Das Rechensystem 100 kann kommunikativ an die neuronale Netzarchitektur gekoppelt sein. In einem Beispiel kann das Rechensystem 100 direkt oder entfernt an die neuronale Netzarchitektur gekoppelt sein. Beispiele für das Rechensystem 100 können, ohne jedoch hierauf beschränkt zu sein, einen Laptop, einen Notebook-Computer, einen Desktop-Computer und so weiter beinhalten.
Das Rechensystem 100 kann einen Speicher 110 beinhalten. Der Speicher 110 kann ein beliebiges nicht-transitorisches computerlesbares Medium beinhalten, was beispielsweise flüchtigen Speicher, wie etwa statischen Direktzugriffsspeicher (Static Random Access Memory, SRAM) und dynamischen Direktzugriffsspeicher (Dynamic Random Access Memory, DRAM), und/oder nichtflüchtigen Speicher, wie etwa Festwertspeicher (Read-Only Memory, ROM), löschbaren programmierbaren ROM, Flash-Speicher, Festplatten, optische Platten und Magnetbänder einschließt.
Bei der neuronalen Netzarchitektur kann es sich um eine tiefe neuronale Netzarchitektur (Deep Neural Network architecture, DNN-Architektur) handeln. Die DNN-Architektur kann ein vortrainiertes DNN 302 (nachstehend als „DNN 302“ bezeichnet) und eine DNN-basierte Merkmalsdatenbank 304 beinhalten. Das DNN 302 kann ein Maschinenlernmodell darstellen, das einen Satz von Eingabeschichten, einen Satz von versteckten Schichten und einen Satz von Ausgabeschichten beinhaltet. Bei dem DNN 302 kann es sich um ein vortrainiertes DNN handeln, das ein bereits bestehendes Modell, welches auf einen großen Datensatz von Bildern trainiert ist, zur Merkmalsextraktion verwendet. Ferner kann die DNN-basierte Merkmalsdatenbank 304 Daten beinhalten, die sich auf das DNN 302 beziehen, wie etwa Lerntechniken, Tiefenerkennungsmuster und so weiter. Beispielsweise kann die DNN-basierte Merkmalsdatenbank 304 mehrere Merkmalsvektoren speichern, die vorab aus mehreren Bildern extrahiert wurden.
Das DNN 302 kann auch eine DNN-basierte Merkmalsdatenbank beinhalten, die in Kommunikationsverbindung mit einer Bilderbibliothek steht. Jedes Bild aus der Bilderbibliothek kann eine oder mehrere Instanzen des Objekts mit einer breiten Erscheinungsvarianz beinhalten. Die Erscheinungsvarianten können unterschiedliche Ausrichtungen, Beleuchtungsbedingungen, Bildmaßstäbe, Bildqualitäten und so weiter beinhalten. Das Bild kann das Objekt beinhalten, das zusammen mit anderen Objekten anderer Klassen gesucht und lokalisiert werden muss. In einem Beispiel kann die DNN-basierte Merkmalsdatenbank 304 mehrere vorab abgerufene Merkmalsvektoren beinhalten, die mit den in der Bilderbibliothek enthaltenen Bildern verknüpft sind.
In einer Ausführungsform der vorliegenden Erfindung kann die DNN-basierte Merkmalsdatenbank 304 eine Liste von Bildern beinhalten, die Objekte von Interesse enthalten. Diese Bilder werden aus Straßen-/Verkehrsszenenbildern gewonnen, indem ein vortrainiertes tiefes neuronales Netz verwendet wird, das für die Aufgabe einer semantischen Segmentierung trainiert ist.
In einem Beispiel kann das Rechensystem 100 auch einen Prozessor 112, der an den Speicher 110 gekoppelt ist, ein Merkmalsextraktionsmodul 104, ein Patchgenerierungsmodul 106, ein Ähnlichkeitssuchmodul 116 und ein Verfeinerungsmodul 108 beinhalten. Alle Komponenten des Rechensystems werden nachstehend ausführlich beschrieben.
Der Prozessor 112 kann Bildprozessoren, Mikroprozessoren, Mikrocomputer, Mikrosteuerungen, digitale Signalprozessoren, zentrale Verarbeitungseinheiten, Zustandsmaschinen, Logikschaltungen und/oder beliebige andere Vorrichtungen beinhalten, die Signale und Daten basierend auf computerlesbaren Anweisungen bearbeiten. Ferner können Funktionen der verschiedenen Elemente, die in den Figuren gezeigt werden, einschließlich beliebiger Funktionsblöcke, die als „Prozessor(en)“ beschriftet sind, mit dedizierter Hardware sowie mit Hardware, die in der Lage ist, computerlesbare Anweisungen auszuführen, bereitgestellt sein.
Ferner kann das Rechensystem 100 eine (oder mehrere) Schnittstelle(n) 114 beinhalten. Die Schnittstelle(n) 114 kann/können verschiedene Schnittstellen beinhalten, beispielsweise eine (oder mehrere) Schnittstelle(n) für Benutzer. Die Schnittstelle(n) 114 kann/können Datenausgabevorrichtungen beinhalten. In einem Beispiel kann/können die Schnittstelle(n) 114 eine interaktive Plattform zum Empfangen von benutzerseitigen Eingaben bereitstellen. Beispielsweise kann der Benutzer eine Rückmeldung für eine erste Instanz des Objektbeschriftens bereitstellen, um zu verifizieren, ob die potenziellen Bildpatches der visuellen Vorlage für das Objekt ähneln, die als Eingabe für das Rechensystem 100 über die Schnittstelle(n) 114 bereitgestellt wird.
Der vorliegende Erfindungsgegenstand beinhaltet das Bereitstellen, durch einen Prozessor 112 eines Rechensystems 100, eines Satzes von visuellen Bildvorlagen 102, die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) 302 darstellen. In einer Ausführungsform besteht der von Satz visuellen Bildvorlagen 102 aus unterschiedlichen Objekten, um die Palette von Formen und Inhalten zum Darstellen von Objekttypen einer breiten Objektebene zu diversifizieren. In einem Beispiel kann der Benutzer die eingegebenen visuellen Bildvorlagen 102 als Abfrage auf das Rechensystem 100 hochladen. Ferner werden die visuellen Bildvorlagen des Objekts (nachstehend Eingabe 102) für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) 302 bereitgestellt. In einem Beispiel sind dies die visuellen Bildvorlagen 102 des Objekts, wobei Objekt ein Verkehrsschild, Fahrzeug(e), Fußgänger, Straßenschild(er) und dergleichen beinhalten kann.
Ferner ist das Merkmalsextraktionsmodul 104 dafür ausgelegt, einen Satz von Merkmalsvektoren 208, der einen Satz von visuellen Bildvorlagen 102 darstellt, und eine Bilderliste 216, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert sind, zu extrahieren. Der Merkmalssatz kann einen Satz von Eigenschaften darstellen, wie etwa eine Form, Farbprofile, ein Texturmuster oder eine Kombination davon, die mit den visuellen Bildvorlagen 102 verknüpft sind. In einem Beispiel kann das DNN 302 einen Merkmalsvektor 208 anhand des Merkmalssatzes generieren. Bei dem Merkmalsvektor 208 kann es sich um eine Darstellung des Objekts in visuellen Bildvorlagen 102 handeln.
Das Ähnlichkeitssuchmodul 116 ist dafür ausgelegt, den Merkmalsvektor 208 mit mehreren Merkmalsvektoren 212 entsprechend einer Bilderliste 216 zu vergleichen, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert ist, um Nachbarbilder abzurufen. In einer Ausführungsform kann das Ähnlichkeitssuchmodul 116 eine Abstandsfunktion, Cosinus oder euklidischer Abstand, verwenden, um die Ähnlichkeitsbewertung zwischen der visuellen Vorlage 102 und in der DNN-Datenbank 304 vorliegenden Bildern zu berechnen. Ferner kann, basierend auf dem Vergleich, der Prozessor 112 einen Satz von relevanten Nachbarbildern 210 erhalten, die ein Suchobjekt in den eingegebenen visuellen Bildvorlagen 102 darstellen. Der Satz relevanter Nachbarbilder 210 wird unter Verwendung einer Abstandsfunktion, Cosinus oder euklidischer Abstand, abgerufen, um die Ähnlichkeitsbewertung zwischen der visuelle Vorlagen 102 und den in der DNN-Datenbank 304 vorliegenden Bildern zu berechnen.
In einer Ausführungsform ist das Ähnlichkeitssuchmodul 116 ferner dafür ausgelegt, eine Ähnlichkeitsbewertung des Merkmalsvektors 208 mit jeden der mehreren Merkmalsvektoren zu berechnen, die in der DNN-basierten Merkmalsdatenbank 304 gespeichert sind, indem der Merkmalsvektor 208 mit jedem der mehreren Merkmalsvektoren verglichen wird.
Das Patchgenerierungsmodul 106 ist dafür ausgelegt, Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder 210 zu generieren, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen 102 erzielt wird. Das Patchgenerierungsmodul 106 ist ferner dafür ausgelegt, ein neues Netzmodell in einer selbstüberwachten Weise zu trainieren, mit Bildpatchgenerierung durch das Patchgenerierungsmodul 106. Das neue Netzmodell wird mit den Bildpatches ohne etwaige Beschriftungen bereitgestellt. In einer Ausführungsform ersetzt ein neues Netzmodell das vortrainierte tiefe neuronale Netz (Deep Neural Network, DNN) 302, das zuvor in der Bildpatchgenerierungsstufe verwendet wurde, und die Schleife wird fortgesetzt.
Bei Betrieb der vorliegenden Erfindung wird das Rechensystem 100 durch Objekte von Interesse gefüllt, die durch visuelle Vorlagen 102 dargestellt werden. Diese visuellen Vorlagen werden verwendet, um die Schleife der Bildkuratierung zu starten. Anfänglich wird ein vortrainiertes Modell, das auf umfassend klassifizierte offene Daten trainiert und in gängigen Open-Source-Frameworks verfügbar ist, zur Merkmalsextraktion verwendet. In einer beispielhaften Ausführungsform können die Beispiele für ein solches Open-Source-Framework Py-Torch und dergleichen beinhalten. Bei Verwendung dieses Modells werden Merkmale für die visuellen Vorlagen und die Bilder aus der Datenbank extrahiert. „Nearest Neighbor“-ähnliche Bilder werden für jede der visuellen Vorlagen aus der Datenbank abgerufen. Ferner generiert das Patchgenerierungsmodul 106 potenzielle Patchbilder anhand dieser Nachbarbilder, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den Vorlagen erzielt wird. Da diese Nachbarn auf Merkmalen aus den vortrainierten Modellen basieren, die auf einen anderen Datensatz trainiert wurden, wird es viele Bildpatches geben, die irrelevant sind, d. h. der eingegebenen visuellen Vorlagen unähnlich sind. Das Verfeinerungsmodul 108 ist dafür ausgelegt, aus den mehreren Bildpatches, die von dem Patchgenerierungsmodul 106 generiert werden, die falschen Positive herauszufiltern.
In einer Ausführungsform können die Filterungstechniken auf diese Bildpatches angewendet werden, um die irrelevanten Patches zu entfernen. Auf diese gefilterten Bildpatches kann ein neues Netz in einer selbstüberwachten Weise, d. h. ohne etwaige Beschriftungen, trainiert werden. Dieses neu trainierte Modell wird erneut zur Bildpatchgenerierung verwendet, und die iterative Verfeinerung der Bildpatches erfolgt bei jedem neuen Modell in einer Schleife. In einer Ausführungsform der vorliegenden Erfindung können zwei Arten von Filterungstechniken verwendet werden. Eine ist die automatische Verfeinerung basierend auf dem Begrenzen der nächsten Nachbarn innerhalb eines gewählten euklidischen Abstands. Bei einer zweiten Filterungstechnik kann ein Benutzer als Beschrifter für eine erste Instanz des Objektbeschriftens fungieren, um zu verifizieren, ob die potenziellen Bildpatches der visuellen Vorlage für das Objekt ähneln.
Für jedes Bild in der Datenbank 304 werden die entsprechenden Merkmalsvektoren unter Verwendung eines tiefen neuronalen Netzes berechnet. Dieses Netz ist auf eine große Anzahl von unterschiedlichen Bildern vortrainiert. In einer Ausführungsform der vorliegenden Erfindung setzt das Rechensystem 100 einen selbstüberwachten Vortrainingsmechanismus (Self-Supervised Pre-training mechanism, SSL) ein, um eine robuste Darstellung von Bildern gegenüber Variationen hinsichtlich Auflösung, Pose und externen Faktoren wie Beleuchtung zu erlernen.
Des Weiteren wird das selbstüberwachte Modell für solche Daten feinabgestimmt und kann, basierend auf dem Begrenzen der nächsten Nachbarn innerhalb eines gewählten euklidischen Abstands, eine bessere Qualität der Bildpatches für den Zielanwendungsfall erzeugen. Eine zweite Verfeinerungsstufe kann in Fällen hinzugefügt werden, in denen die Bildpatches hinsichtlich ihres Abstands wieder neu eingestuft werden und dann nur Bildpatches innerhalb eines spezifizierten Abstands berücksichtigt werden. Beispielsweise die früheren Grenzwerte auf Vollbild-/Szenenebene, die letzteren Grenzwerte hingegen auf Bildpatch-/Patchebene.
2 veranschaulicht ein Flussdiagramm eines Verfahrens 200 zum Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes. Das Verfahren 200 kann durch das Rechensystem 100 mit dem Speicher 110, dem Prozessor 112 und der/den Schnittstelle(n) 114 von 1 implementiert sein. Ferner kann das Rechensystem 100, wie in 1 beschrieben, kommunikativ mit der neuronalen Netzarchitektur gekoppelt sein. Die neuronale Netzarchitektur kann ein DNN 302 und eine DNN-basierte Merkmalsdatenbank 304 beinhalten. Auch wenn das Verfahren 200 im Kontext des Systems beschrieben wird, das dem Rechensystem 100 von 1 ähnelt, können auch andere geeignete Vorrichtungen oder Systeme zur Ausführung des Verfahrens 200 verwendet werden.
Bei Block 201 beinhaltet das Verfahren 200 das Bereitstellen, durch den Prozessor 112, eines Satzes von visuellen Bildvorlagen 102, die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) 302 darstellen. In einem Beispiel sind dies die visuellen Bildvorlagen 102 des Objekts, wobei das Objekt ein Verkehrsschild, Fahrzeug(e), Fußgänger, Straßenschilder) und dergleichen beinhalten kann.
Bei Block 202 beinhaltet das Verfahren 200 das Extrahieren, aus dem vortrainierten DNN 302, eines Satzes von Merkmalsvektoren 208, der einen Satz von visuellen Bildvorlagen 102 darstellt, und einer Bilderliste 216, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert sind, durch ein Merkmalsextraktionsmodul 104. Bei Block 203 beinhaltet das Verfahren 200 das Abrufen, aus dem vortrainierten DNN 302, mehrerer relevanter Nachbarbilder 210, die jede der visuellen Bildvorlagen 102 darstellen, durch ein Ähnlichkeitssuchmodul 116. In diesem Schritt 203 des Verfahrens 200 wird der in Schritt 202 erhaltene Merkmalsvektor 208 mit mehreren Merkmalsvektoren 212 entsprechend einer Bilderliste 216 verglichen, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert ist. Basierend auf dem Vergleich des Merkmalsvektors 208 mit mehreren Merkmalsvektoren 212 werden die Nachbarbilder 210 abgerufen, welche ein Suchobjekt in dem eingegebenen Bildpatch 102 darstellen.
Bei Block 204 beinhaltet das Verfahren 200 das Generieren von Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder 210, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen 102 erzielt wird, durch ein Patchgenerierungsmodul 106. Bei Block 205 beinhaltet das Verfahren 200 das Trainieren eines neuen Netzmodells in einer selbstüberwachten Weise, mit Bildpatchgenerierung durch das Patchgenerierungsmodul 106.
Obwohl Aspekte der vorliegenden Offenbarung in einer Sprache beschrieben wurden, die spezifisch für strukturelle Merkmale und/oder Verfahren ist, versteht es sich, dass die beigefügten Ansprüche nicht auf die hier beschriebenen spezifischen Merkmale oder Verfahren beschränkt sind. Vielmehr werden die spezifischen Merkmale und Verfahren als Beispiele der vorliegenden Offenbarung offenbart.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 20190370384 [0004]
US 9817847 B2 [0006]

Claims

Rechensystem (100), umfassend: einen Speicher (110); und einen Prozessor (112), der an den Speicher (110) gekoppelt ist, zum: Bereitstellen eines Satzes von visuellen Bildvorlagen (102), die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) (302) darstellen; ein Merkmalsextraktionsmodul (104), das dafür ausgelegt ist, einen Satz von Merkmalsvektoren (208), der einen Satz von visuellen Bildvorlagen (102) darstellt, und eine Bilderliste (216), die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert sind, zu extrahieren, wobei der extrahierte Satz von Merkmalsvektoren (208) ferner zum Abrufen mehrerer relevanter Nachbarbilder (210) verwendet wird, die jede der visuellen Bildvorlagen (102) darstellen; ein Patchgenerierungsmodul (106), das dafür ausgelegt ist, Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder (210) zu generieren, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen (102) erzielt wird; dadurch gekennzeichnet, dass das Patchgenerierungsmodul (106) ferner dafür ausgelegt ist, ein neues Netzmodell in einer selbstüberwachten Weise zu trainieren, mit Bildpatchgenerierung durch das Patchgenerierungsmodul (106).
Rechensystem (100) nach Anspruch 1, wobei das neue Netzmodell mit den Bildpatches ohne etwaige Beschriftungen bereitgestellt wird.
Rechensystem (100) nach Anspruch 1, wobei das neue Netzmodell das vortrainierte tiefe neuronale Netz (Deep Neural Network, DNN) (302) ersetzt, das zuvor in der Zuschnittgenerierungsstufe in einer iterativen Schleife der Bildkuratierung verwendet wurde.
Rechensystem (100) nach Anspruch 1, ferner umfassend ein Verfeinerungsmodul (108), das dafür ausgelegt ist, aus den mehreren Bildpatches, die von dem Patchgenerierungsmodul (106) generiert werden, die falschen Positive herauszufiltern.
Rechensystem (100) nach Anspruch 1, wobei der Satz von visuellen Bildvorlagen (102) aus unterschiedlichen Objekten besteht, um die Palette von Formen und Inhalten zum Darstellen von Objekttypen einer breiten Objektebene zu diversifizieren.
Rechensystem (100) nach Anspruch 1, ferner umfassend ein Ähnlichkeitssuchmodul (116), das dafür ausgelegt ist, den Merkmalsvektor (208) mit mehreren Merkmalsvektoren (212) entsprechend einer Bilderliste (216) zu vergleichen, die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert ist, um Nachbarbilder abzurufen.
Rechensystem (100) nach Anspruch 6, wobei das Ähnlichkeitssuchmodul (116) ferner dafür ausgelegt ist, eine Ähnlichkeitsbewertung des Merkmalsvektors (208) mit jedem der mehreren Merkmalsvektoren zu berechnen, die in der DNN-basierten Merkmalsdatenbank (304) gespeichert sind, indem der Merkmalsvektor (208) mit jedem der mehreren Merkmalsvektoren verglichen wird.
Verfahren (200) zum Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, wobei das Verfahren (200) umfasst: Bereitstellen (201), durch einen Prozessor (112) eines Rechensystems (100), eines Satzes von visuellen Bildvorlagen (102), die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) (302) darstellen; Extrahieren (202), aus dem vortrainierten DNN (302), eines Satzes von Merkmalsvektoren (208), der einen Satz von visuellen Bildvorlagen (102) darstellt, und einer Bilderliste (216), die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert sind, durch ein Merkmalsextraktionsmodul (104); Abrufen (203), aus dem vortrainierten DNN (302), mehrerer relevanter Nachbarbilder (210), die jede der visuellen Bildvorlagen (102) darstellen, durch ein Ähnlichkeitssuchmodul (116); Generieren (204) von Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder (210), wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen (102) erzielt wird, durch ein Patchgenerierungsmodul (106); und Trainieren (205) eines neuen Netzmodells in einer selbstüberwachten Weise, mit Bildpatchgenerierung durch das Patchgenerierungsmodul (106).