DE102023203379A1 - System und verfahren zur iterativen verfeinerung und kuratierung von bildern auf basis von visuellen vorlagen - Google Patents

System und verfahren zur iterativen verfeinerung und kuratierung von bildern auf basis von visuellen vorlagen Download PDF

Info

Publication number
DE102023203379A1
DE102023203379A1 DE102023203379.8A DE102023203379A DE102023203379A1 DE 102023203379 A1 DE102023203379 A1 DE 102023203379A1 DE 102023203379 A DE102023203379 A DE 102023203379A DE 102023203379 A1 DE102023203379 A1 DE 102023203379A1
Authority
DE
Germany
Prior art keywords
image
dnn
templates
representing
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102023203379.8A
Other languages
English (en)
Inventor
Sonam SINGH
Amit Arvind Kale
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Bosch Global Software Technologies Pvt Ltd
Original Assignee
Robert Bosch GmbH
Robert Bosch Engineering and Business Solutions Pvt Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH, Robert Bosch Engineering and Business Solutions Pvt Ltd filed Critical Robert Bosch GmbH
Publication of DE102023203379A1 publication Critical patent/DE102023203379A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren (200) und System (100) zum Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, werden beschrieben. Ein Satz von visuellen Bildvorlagen (102), die ein Eingabeobjekt darstellen, wird für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) (302) bereitgestellt. Ein Merkmalsextraktionsmodul (1047) ist dafür ausgelegt, einen Satz von Merkmalsvektoren (208), der einen Satz von visuellen Bildvorlagen (102) darstellt, und eine Bilderliste (216), die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert sind, zu extrahieren. Ein Patchgenerierungsmodul (106) ist dafür ausgelegt, Bildpatches, welche das Eingabeobjekt darstellen, anhand eines Satzes von relevanten Nachbarbildern (210) zu generieren, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen (102) erzielt wird. Das Patchgenerierungsmodul (106) ist ferner dafür ausgelegt, ein neues Netzmodell in einer selbstüberwachten Weise, mit Bildpatchgenerierung durch das Patchgenerierungsmodul (106), iterativ zu trainieren.

Description

  • Gebiet der Erfindung
  • Der vorliegende Erfindungsgegenstand betrifft allgemein das iterative Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, und insbesondere ein System, das Bilder auf Basis von vordefinierten visuellen Vorlagen iterativ verfeinern und kuratieren kann.
  • Hintergrund der Erfindung
  • Verschiedene Bildabruftechniken beinhalten eine computerbasierte Objekterkennung. Die computerbasierte Objekterkennung integriert eine Bildverarbeitung, um Instanzen von Objekten in Bildern zu identifizieren, und nimmt Kommentierungen der Objekte zur Objekterkennung und -verfolgung vor. Die Bildverarbeitung kann auch implementiert sein, um Position, Ausrichtung und Verhalten eines Objektes in einem Bild im Hinblick auf andere, in dem Bild vorhandene Objekte zu interpretieren.
  • Große Datenmengen werden für Anwendungen in Domänen wie Autonomes Fahren (Autonomous Driving, AD), CCTV-Überwachung etc. gesammelt. Um Lernmodelle zu diesen Daten für spezifische Anwendungsfälle zu trainieren, z. B. Verkehrsschilder oder Straßenmarkierungen, müssen Bilder (für das überwachte Lernen) kuratiert und beschriftet werden. Der übliche Prozess zum Kuratieren dieser Daten erfolgt manuell, was kosten- und zeitintensiv ist. Die Fähigkeit, Daten für solche Anwendungsfälle in automatisierter Weise zu kuratieren, kann für menschliche Kuratoren eine große Unterstützung darstellen. Das Problem wird zu einer Herausforderung, da diese Objekte von Interesse in unbeschrifteten verschiedenartigen Szenen auftreten, z. B. einer Fahrszene, die von einer fahrzeugmontierten Kamera erfasst wird. Diese Szenen enthalten verschiedene Objekte aus unterschiedlichen Klassen, z. B. Gebäude, Fahrzeuge, Fußgänger etc., was die Kuratierung erschwert.
  • Ein Stand der Technik, US20190370384 (Ensemble-based Data Curation Pipeline for efficient Label Propagation, Ensemble-basierte Datenkuratierungspipeline für eine effiziente Beschriftungsverbreitung), offenbart ein Verfahren und eine Architektur, die es ermöglichen, beschriftete Daten durch Verwendung von Beschriftungsverbreitung, Clustering und Erstellung dedizierter Klassifikatoren für jeden Datensatz zu initialisieren und kuratieren. Diese dedizierten Klassifikatoren werden neu trainiert, wenn der Datensatz anwächst, und stellen sicher, dass jeder Datensatz frei von Ausreißern und Rauschen ist.
  • Ein anderer Stand der Technik, US10810252B2 (Automated Image Curation for Machine Learning Deployments, Automatisierte Bildkuratierung für Maschinenlernanwendungen), offenbart Techniken zur Datenkuratierung und Bildauswertung. Ein erstes Bild wird erfasst, und eine erste Angabe eines ersten Objekts wird empfangen. Eine erste Kennung des ersten Objekts wird dann basierend auf der ersten Angabe identifiziert. Ferner wird, basierend auf der ersten Angabe, bestimmt, dass das erste Bild das erste Objekt darstellt. Das erste Bild ist mit der ersten Kennung beschriftet, und ein Maschinenlernmodell (ML-Modell) eines ML-System wird basierend auf dem beschrifteten ersten Bild trainiert.
  • Stand der Technik US9817847B2 (NEURAL NETWORK IMAGE CURATION CONTROL, BILDKURATIERUNGSSTEUERUNG IN NEURONALEN NETZEN): In diesem Werk werden Bildkuratierungstechniken für neuronale Netze beschrieben. In einer oder mehrere Implementierungen wird die Kuratierung von Bildern gesteuert, die ein Archiv (Repository) von Bildern darstellen. Mehrere Bilder des Archivs werden durch eine oder mehrere Rechenvorrichtungen kuratiert, um repräsentative Bilder des Archivs auszuwählen. Die Kuratierung beinhaltet das gemeinsame Berechnen einer Bewertung, basierend auf Bild- und Gesichtsästhetik, für jedes der mehreren Bilder per Verarbeitung durch ein neuronales Netz, Einstufung der mehreren Bilder basierend auf den jeweiligen Bewertungen und Auswahl eines oder mehrerer der mehreren Bilder als eines der repräsentativen Bilder des Archivs basierend auf der Einstufung und einer Bestimmung, dass die ein oder mehreren Bilder visuell keinen Bildern ähneln, die bereits als eines der repräsentativen Bilder des Archivs ausgewählt worden sind.
  • Kurze Beschreibung der beigefügten Zeichnungen
  • Die ausführliche Beschreibung wird unter Bezugnahme auf die beigefügten Zeichnungen bereitgestellt, wobei gilt:
    • 1 veranschaulicht eine Systemumgebung für das iterative Kuratieren von Bildern, die spezifische Objekte beinhalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes;
    • 2 veranschaulicht ein Flussdiagramm eines Verfahrens zum iterativen Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes.
  • Ausführliche Beschreibung der Ausführungsformen
  • 1 veranschaulicht eine Systemumgebung für das iterative Kuratieren von Bildern, die spezifische Objekte beinhalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes. Der vorliegende Erfindungsgegenstand beschreibt verschiedene Ansätze für das Verfeinern und Kuratieren von Bildern basierend auf vordefinierten visuellen Vorlagen. Der Kern der vorliegenden Erfindung besteht darin, ein System zu beschreiben, das Bilder basierend auf vordefinierten visuellen Vorlagen iterativ verfeinern und kuratieren kann. Diese Vorlagen stellen die Objekte oder Szenen dar, die weitergehend kuratiert werden müssen, beispielsweise Verkehrsschilder oder Straßenmarkierungen.
  • Die Systemumgebung kann ein Rechensystem 100 und eine neuronale Netzarchitektur beinhalten. Das Rechensystem 100 kann kommunikativ an die neuronale Netzarchitektur gekoppelt sein. In einem Beispiel kann das Rechensystem 100 direkt oder entfernt an die neuronale Netzarchitektur gekoppelt sein. Beispiele für das Rechensystem 100 können, ohne jedoch hierauf beschränkt zu sein, einen Laptop, einen Notebook-Computer, einen Desktop-Computer und so weiter beinhalten.
  • Das Rechensystem 100 kann einen Speicher 110 beinhalten. Der Speicher 110 kann ein beliebiges nicht-transitorisches computerlesbares Medium beinhalten, was beispielsweise flüchtigen Speicher, wie etwa statischen Direktzugriffsspeicher (Static Random Access Memory, SRAM) und dynamischen Direktzugriffsspeicher (Dynamic Random Access Memory, DRAM), und/oder nichtflüchtigen Speicher, wie etwa Festwertspeicher (Read-Only Memory, ROM), löschbaren programmierbaren ROM, Flash-Speicher, Festplatten, optische Platten und Magnetbänder einschließt.
  • Bei der neuronalen Netzarchitektur kann es sich um eine tiefe neuronale Netzarchitektur (Deep Neural Network architecture, DNN-Architektur) handeln. Die DNN-Architektur kann ein vortrainiertes DNN 302 (nachstehend als „DNN 302“ bezeichnet) und eine DNN-basierte Merkmalsdatenbank 304 beinhalten. Das DNN 302 kann ein Maschinenlernmodell darstellen, das einen Satz von Eingabeschichten, einen Satz von versteckten Schichten und einen Satz von Ausgabeschichten beinhaltet. Bei dem DNN 302 kann es sich um ein vortrainiertes DNN handeln, das ein bereits bestehendes Modell, welches auf einen großen Datensatz von Bildern trainiert ist, zur Merkmalsextraktion verwendet. Ferner kann die DNN-basierte Merkmalsdatenbank 304 Daten beinhalten, die sich auf das DNN 302 beziehen, wie etwa Lerntechniken, Tiefenerkennungsmuster und so weiter. Beispielsweise kann die DNN-basierte Merkmalsdatenbank 304 mehrere Merkmalsvektoren speichern, die vorab aus mehreren Bildern extrahiert wurden.
  • Das DNN 302 kann auch eine DNN-basierte Merkmalsdatenbank beinhalten, die in Kommunikationsverbindung mit einer Bilderbibliothek steht. Jedes Bild aus der Bilderbibliothek kann eine oder mehrere Instanzen des Objekts mit einer breiten Erscheinungsvarianz beinhalten. Die Erscheinungsvarianten können unterschiedliche Ausrichtungen, Beleuchtungsbedingungen, Bildmaßstäbe, Bildqualitäten und so weiter beinhalten. Das Bild kann das Objekt beinhalten, das zusammen mit anderen Objekten anderer Klassen gesucht und lokalisiert werden muss. In einem Beispiel kann die DNN-basierte Merkmalsdatenbank 304 mehrere vorab abgerufene Merkmalsvektoren beinhalten, die mit den in der Bilderbibliothek enthaltenen Bildern verknüpft sind.
  • In einer Ausführungsform der vorliegenden Erfindung kann die DNN-basierte Merkmalsdatenbank 304 eine Liste von Bildern beinhalten, die Objekte von Interesse enthalten. Diese Bilder werden aus Straßen-/Verkehrsszenenbildern gewonnen, indem ein vortrainiertes tiefes neuronales Netz verwendet wird, das für die Aufgabe einer semantischen Segmentierung trainiert ist.
  • In einem Beispiel kann das Rechensystem 100 auch einen Prozessor 112, der an den Speicher 110 gekoppelt ist, ein Merkmalsextraktionsmodul 104, ein Patchgenerierungsmodul 106, ein Ähnlichkeitssuchmodul 116 und ein Verfeinerungsmodul 108 beinhalten. Alle Komponenten des Rechensystems werden nachstehend ausführlich beschrieben.
  • Der Prozessor 112 kann Bildprozessoren, Mikroprozessoren, Mikrocomputer, Mikrosteuerungen, digitale Signalprozessoren, zentrale Verarbeitungseinheiten, Zustandsmaschinen, Logikschaltungen und/oder beliebige andere Vorrichtungen beinhalten, die Signale und Daten basierend auf computerlesbaren Anweisungen bearbeiten. Ferner können Funktionen der verschiedenen Elemente, die in den Figuren gezeigt werden, einschließlich beliebiger Funktionsblöcke, die als „Prozessor(en)“ beschriftet sind, mit dedizierter Hardware sowie mit Hardware, die in der Lage ist, computerlesbare Anweisungen auszuführen, bereitgestellt sein.
  • Ferner kann das Rechensystem 100 eine (oder mehrere) Schnittstelle(n) 114 beinhalten. Die Schnittstelle(n) 114 kann/können verschiedene Schnittstellen beinhalten, beispielsweise eine (oder mehrere) Schnittstelle(n) für Benutzer. Die Schnittstelle(n) 114 kann/können Datenausgabevorrichtungen beinhalten. In einem Beispiel kann/können die Schnittstelle(n) 114 eine interaktive Plattform zum Empfangen von benutzerseitigen Eingaben bereitstellen. Beispielsweise kann der Benutzer eine Rückmeldung für eine erste Instanz des Objektbeschriftens bereitstellen, um zu verifizieren, ob die potenziellen Bildpatches der visuellen Vorlage für das Objekt ähneln, die als Eingabe für das Rechensystem 100 über die Schnittstelle(n) 114 bereitgestellt wird.
  • Der vorliegende Erfindungsgegenstand beinhaltet das Bereitstellen, durch einen Prozessor 112 eines Rechensystems 100, eines Satzes von visuellen Bildvorlagen 102, die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) 302 darstellen. In einer Ausführungsform besteht der von Satz visuellen Bildvorlagen 102 aus unterschiedlichen Objekten, um die Palette von Formen und Inhalten zum Darstellen von Objekttypen einer breiten Objektebene zu diversifizieren. In einem Beispiel kann der Benutzer die eingegebenen visuellen Bildvorlagen 102 als Abfrage auf das Rechensystem 100 hochladen. Ferner werden die visuellen Bildvorlagen des Objekts (nachstehend Eingabe 102) für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) 302 bereitgestellt. In einem Beispiel sind dies die visuellen Bildvorlagen 102 des Objekts, wobei Objekt ein Verkehrsschild, Fahrzeug(e), Fußgänger, Straßenschild(er) und dergleichen beinhalten kann.
  • Ferner ist das Merkmalsextraktionsmodul 104 dafür ausgelegt, einen Satz von Merkmalsvektoren 208, der einen Satz von visuellen Bildvorlagen 102 darstellt, und eine Bilderliste 216, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert sind, zu extrahieren. Der Merkmalssatz kann einen Satz von Eigenschaften darstellen, wie etwa eine Form, Farbprofile, ein Texturmuster oder eine Kombination davon, die mit den visuellen Bildvorlagen 102 verknüpft sind. In einem Beispiel kann das DNN 302 einen Merkmalsvektor 208 anhand des Merkmalssatzes generieren. Bei dem Merkmalsvektor 208 kann es sich um eine Darstellung des Objekts in visuellen Bildvorlagen 102 handeln.
  • Das Ähnlichkeitssuchmodul 116 ist dafür ausgelegt, den Merkmalsvektor 208 mit mehreren Merkmalsvektoren 212 entsprechend einer Bilderliste 216 zu vergleichen, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert ist, um Nachbarbilder abzurufen. In einer Ausführungsform kann das Ähnlichkeitssuchmodul 116 eine Abstandsfunktion, Cosinus oder euklidischer Abstand, verwenden, um die Ähnlichkeitsbewertung zwischen der visuellen Vorlage 102 und in der DNN-Datenbank 304 vorliegenden Bildern zu berechnen. Ferner kann, basierend auf dem Vergleich, der Prozessor 112 einen Satz von relevanten Nachbarbildern 210 erhalten, die ein Suchobjekt in den eingegebenen visuellen Bildvorlagen 102 darstellen. Der Satz relevanter Nachbarbilder 210 wird unter Verwendung einer Abstandsfunktion, Cosinus oder euklidischer Abstand, abgerufen, um die Ähnlichkeitsbewertung zwischen der visuelle Vorlagen 102 und den in der DNN-Datenbank 304 vorliegenden Bildern zu berechnen.
  • In einer Ausführungsform ist das Ähnlichkeitssuchmodul 116 ferner dafür ausgelegt, eine Ähnlichkeitsbewertung des Merkmalsvektors 208 mit jeden der mehreren Merkmalsvektoren zu berechnen, die in der DNN-basierten Merkmalsdatenbank 304 gespeichert sind, indem der Merkmalsvektor 208 mit jedem der mehreren Merkmalsvektoren verglichen wird.
  • Das Patchgenerierungsmodul 106 ist dafür ausgelegt, Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder 210 zu generieren, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen 102 erzielt wird. Das Patchgenerierungsmodul 106 ist ferner dafür ausgelegt, ein neues Netzmodell in einer selbstüberwachten Weise zu trainieren, mit Bildpatchgenerierung durch das Patchgenerierungsmodul 106. Das neue Netzmodell wird mit den Bildpatches ohne etwaige Beschriftungen bereitgestellt. In einer Ausführungsform ersetzt ein neues Netzmodell das vortrainierte tiefe neuronale Netz (Deep Neural Network, DNN) 302, das zuvor in der Bildpatchgenerierungsstufe verwendet wurde, und die Schleife wird fortgesetzt.
  • Bei Betrieb der vorliegenden Erfindung wird das Rechensystem 100 durch Objekte von Interesse gefüllt, die durch visuelle Vorlagen 102 dargestellt werden. Diese visuellen Vorlagen werden verwendet, um die Schleife der Bildkuratierung zu starten. Anfänglich wird ein vortrainiertes Modell, das auf umfassend klassifizierte offene Daten trainiert und in gängigen Open-Source-Frameworks verfügbar ist, zur Merkmalsextraktion verwendet. In einer beispielhaften Ausführungsform können die Beispiele für ein solches Open-Source-Framework Py-Torch und dergleichen beinhalten. Bei Verwendung dieses Modells werden Merkmale für die visuellen Vorlagen und die Bilder aus der Datenbank extrahiert. „Nearest Neighbor“-ähnliche Bilder werden für jede der visuellen Vorlagen aus der Datenbank abgerufen. Ferner generiert das Patchgenerierungsmodul 106 potenzielle Patchbilder anhand dieser Nachbarbilder, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den Vorlagen erzielt wird. Da diese Nachbarn auf Merkmalen aus den vortrainierten Modellen basieren, die auf einen anderen Datensatz trainiert wurden, wird es viele Bildpatches geben, die irrelevant sind, d. h. der eingegebenen visuellen Vorlagen unähnlich sind. Das Verfeinerungsmodul 108 ist dafür ausgelegt, aus den mehreren Bildpatches, die von dem Patchgenerierungsmodul 106 generiert werden, die falschen Positive herauszufiltern.
  • In einer Ausführungsform können die Filterungstechniken auf diese Bildpatches angewendet werden, um die irrelevanten Patches zu entfernen. Auf diese gefilterten Bildpatches kann ein neues Netz in einer selbstüberwachten Weise, d. h. ohne etwaige Beschriftungen, trainiert werden. Dieses neu trainierte Modell wird erneut zur Bildpatchgenerierung verwendet, und die iterative Verfeinerung der Bildpatches erfolgt bei jedem neuen Modell in einer Schleife. In einer Ausführungsform der vorliegenden Erfindung können zwei Arten von Filterungstechniken verwendet werden. Eine ist die automatische Verfeinerung basierend auf dem Begrenzen der nächsten Nachbarn innerhalb eines gewählten euklidischen Abstands. Bei einer zweiten Filterungstechnik kann ein Benutzer als Beschrifter für eine erste Instanz des Objektbeschriftens fungieren, um zu verifizieren, ob die potenziellen Bildpatches der visuellen Vorlage für das Objekt ähneln.
  • Für jedes Bild in der Datenbank 304 werden die entsprechenden Merkmalsvektoren unter Verwendung eines tiefen neuronalen Netzes berechnet. Dieses Netz ist auf eine große Anzahl von unterschiedlichen Bildern vortrainiert. In einer Ausführungsform der vorliegenden Erfindung setzt das Rechensystem 100 einen selbstüberwachten Vortrainingsmechanismus (Self-Supervised Pre-training mechanism, SSL) ein, um eine robuste Darstellung von Bildern gegenüber Variationen hinsichtlich Auflösung, Pose und externen Faktoren wie Beleuchtung zu erlernen.
  • Des Weiteren wird das selbstüberwachte Modell für solche Daten feinabgestimmt und kann, basierend auf dem Begrenzen der nächsten Nachbarn innerhalb eines gewählten euklidischen Abstands, eine bessere Qualität der Bildpatches für den Zielanwendungsfall erzeugen. Eine zweite Verfeinerungsstufe kann in Fällen hinzugefügt werden, in denen die Bildpatches hinsichtlich ihres Abstands wieder neu eingestuft werden und dann nur Bildpatches innerhalb eines spezifizierten Abstands berücksichtigt werden. Beispielsweise die früheren Grenzwerte auf Vollbild-/Szenenebene, die letzteren Grenzwerte hingegen auf Bildpatch-/Patchebene.
  • 2 veranschaulicht ein Flussdiagramm eines Verfahrens 200 zum Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, gemäß einer beispielhaften Implementierung des vorliegenden Erfindungsgegenstandes. Das Verfahren 200 kann durch das Rechensystem 100 mit dem Speicher 110, dem Prozessor 112 und der/den Schnittstelle(n) 114 von 1 implementiert sein. Ferner kann das Rechensystem 100, wie in 1 beschrieben, kommunikativ mit der neuronalen Netzarchitektur gekoppelt sein. Die neuronale Netzarchitektur kann ein DNN 302 und eine DNN-basierte Merkmalsdatenbank 304 beinhalten. Auch wenn das Verfahren 200 im Kontext des Systems beschrieben wird, das dem Rechensystem 100 von 1 ähnelt, können auch andere geeignete Vorrichtungen oder Systeme zur Ausführung des Verfahrens 200 verwendet werden.
  • Bei Block 201 beinhaltet das Verfahren 200 das Bereitstellen, durch den Prozessor 112, eines Satzes von visuellen Bildvorlagen 102, die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) 302 darstellen. In einem Beispiel sind dies die visuellen Bildvorlagen 102 des Objekts, wobei das Objekt ein Verkehrsschild, Fahrzeug(e), Fußgänger, Straßenschilder) und dergleichen beinhalten kann.
  • Bei Block 202 beinhaltet das Verfahren 200 das Extrahieren, aus dem vortrainierten DNN 302, eines Satzes von Merkmalsvektoren 208, der einen Satz von visuellen Bildvorlagen 102 darstellt, und einer Bilderliste 216, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert sind, durch ein Merkmalsextraktionsmodul 104. Bei Block 203 beinhaltet das Verfahren 200 das Abrufen, aus dem vortrainierten DNN 302, mehrerer relevanter Nachbarbilder 210, die jede der visuellen Bildvorlagen 102 darstellen, durch ein Ähnlichkeitssuchmodul 116. In diesem Schritt 203 des Verfahrens 200 wird der in Schritt 202 erhaltene Merkmalsvektor 208 mit mehreren Merkmalsvektoren 212 entsprechend einer Bilderliste 216 verglichen, die in einer DNN-basierten Merkmalsdatenbank 304 gespeichert ist. Basierend auf dem Vergleich des Merkmalsvektors 208 mit mehreren Merkmalsvektoren 212 werden die Nachbarbilder 210 abgerufen, welche ein Suchobjekt in dem eingegebenen Bildpatch 102 darstellen.
  • Bei Block 204 beinhaltet das Verfahren 200 das Generieren von Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder 210, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen 102 erzielt wird, durch ein Patchgenerierungsmodul 106. Bei Block 205 beinhaltet das Verfahren 200 das Trainieren eines neuen Netzmodells in einer selbstüberwachten Weise, mit Bildpatchgenerierung durch das Patchgenerierungsmodul 106.
  • Obwohl Aspekte der vorliegenden Offenbarung in einer Sprache beschrieben wurden, die spezifisch für strukturelle Merkmale und/oder Verfahren ist, versteht es sich, dass die beigefügten Ansprüche nicht auf die hier beschriebenen spezifischen Merkmale oder Verfahren beschränkt sind. Vielmehr werden die spezifischen Merkmale und Verfahren als Beispiele der vorliegenden Offenbarung offenbart.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 20190370384 [0004]
    • US 9817847 B2 [0006]

Claims (8)

  1. Rechensystem (100), umfassend: einen Speicher (110); und einen Prozessor (112), der an den Speicher (110) gekoppelt ist, zum: Bereitstellen eines Satzes von visuellen Bildvorlagen (102), die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) (302) darstellen; ein Merkmalsextraktionsmodul (104), das dafür ausgelegt ist, einen Satz von Merkmalsvektoren (208), der einen Satz von visuellen Bildvorlagen (102) darstellt, und eine Bilderliste (216), die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert sind, zu extrahieren, wobei der extrahierte Satz von Merkmalsvektoren (208) ferner zum Abrufen mehrerer relevanter Nachbarbilder (210) verwendet wird, die jede der visuellen Bildvorlagen (102) darstellen; ein Patchgenerierungsmodul (106), das dafür ausgelegt ist, Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder (210) zu generieren, wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen (102) erzielt wird; dadurch gekennzeichnet, dass das Patchgenerierungsmodul (106) ferner dafür ausgelegt ist, ein neues Netzmodell in einer selbstüberwachten Weise zu trainieren, mit Bildpatchgenerierung durch das Patchgenerierungsmodul (106).
  2. Rechensystem (100) nach Anspruch 1, wobei das neue Netzmodell mit den Bildpatches ohne etwaige Beschriftungen bereitgestellt wird.
  3. Rechensystem (100) nach Anspruch 1, wobei das neue Netzmodell das vortrainierte tiefe neuronale Netz (Deep Neural Network, DNN) (302) ersetzt, das zuvor in der Zuschnittgenerierungsstufe in einer iterativen Schleife der Bildkuratierung verwendet wurde.
  4. Rechensystem (100) nach Anspruch 1, ferner umfassend ein Verfeinerungsmodul (108), das dafür ausgelegt ist, aus den mehreren Bildpatches, die von dem Patchgenerierungsmodul (106) generiert werden, die falschen Positive herauszufiltern.
  5. Rechensystem (100) nach Anspruch 1, wobei der Satz von visuellen Bildvorlagen (102) aus unterschiedlichen Objekten besteht, um die Palette von Formen und Inhalten zum Darstellen von Objekttypen einer breiten Objektebene zu diversifizieren.
  6. Rechensystem (100) nach Anspruch 1, ferner umfassend ein Ähnlichkeitssuchmodul (116), das dafür ausgelegt ist, den Merkmalsvektor (208) mit mehreren Merkmalsvektoren (212) entsprechend einer Bilderliste (216) zu vergleichen, die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert ist, um Nachbarbilder abzurufen.
  7. Rechensystem (100) nach Anspruch 6, wobei das Ähnlichkeitssuchmodul (116) ferner dafür ausgelegt ist, eine Ähnlichkeitsbewertung des Merkmalsvektors (208) mit jedem der mehreren Merkmalsvektoren zu berechnen, die in der DNN-basierten Merkmalsdatenbank (304) gespeichert sind, indem der Merkmalsvektor (208) mit jedem der mehreren Merkmalsvektoren verglichen wird.
  8. Verfahren (200) zum Kuratieren von Bildern, die spezifische Objekte enthalten, welche durch visuelle Vorlagen spezifiziert sind, wobei das Verfahren (200) umfasst: Bereitstellen (201), durch einen Prozessor (112) eines Rechensystems (100), eines Satzes von visuellen Bildvorlagen (102), die ein Eingabeobjekt für ein vortrainiertes tiefes neuronales Netz (Deep Neural Network, DNN) (302) darstellen; Extrahieren (202), aus dem vortrainierten DNN (302), eines Satzes von Merkmalsvektoren (208), der einen Satz von visuellen Bildvorlagen (102) darstellt, und einer Bilderliste (216), die in einer DNN-basierten Merkmalsdatenbank (304) gespeichert sind, durch ein Merkmalsextraktionsmodul (104); Abrufen (203), aus dem vortrainierten DNN (302), mehrerer relevanter Nachbarbilder (210), die jede der visuellen Bildvorlagen (102) darstellen, durch ein Ähnlichkeitssuchmodul (116); Generieren (204) von Bildpatches, welche das Eingabeobjekt darstellen, anhand der mehreren relevanten Nachbarbilder (210), wodurch wahrscheinliche Regionen bereitgestellt werden, in denen eine Übereinstimmung mit den visuellen Bildvorlagen (102) erzielt wird, durch ein Patchgenerierungsmodul (106); und Trainieren (205) eines neuen Netzmodells in einer selbstüberwachten Weise, mit Bildpatchgenerierung durch das Patchgenerierungsmodul (106).
DE102023203379.8A 2022-04-29 2023-04-13 System und verfahren zur iterativen verfeinerung und kuratierung von bildern auf basis von visuellen vorlagen Pending DE102023203379A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN202241025111 2022-04-29
IN202241025111 2022-04-29

Publications (1)

Publication Number Publication Date
DE102023203379A1 true DE102023203379A1 (de) 2023-11-02

Family

ID=88306573

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102023203379.8A Pending DE102023203379A1 (de) 2022-04-29 2023-04-13 System und verfahren zur iterativen verfeinerung und kuratierung von bildern auf basis von visuellen vorlagen

Country Status (3)

Country Link
US (1) US20230351734A1 (de)
CN (1) CN116977974A (de)
DE (1) DE102023203379A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9817847B2 (en) 2014-12-17 2017-11-14 Adobe Systems Incorporated Neural network image curation control
US20190370384A1 (en) 2018-06-01 2019-12-05 Ntt Innovation Institute, Inc. Ensemble-based data curation pipeline for efficient label propagation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9817847B2 (en) 2014-12-17 2017-11-14 Adobe Systems Incorporated Neural network image curation control
US20190370384A1 (en) 2018-06-01 2019-12-05 Ntt Innovation Institute, Inc. Ensemble-based data curation pipeline for efficient label propagation

Also Published As

Publication number Publication date
US20230351734A1 (en) 2023-11-02
CN116977974A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
DE112016005059B4 (de) Unterkategorienbewusste faltende neuronale Netzwerke zur Objekterfassung
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE112020005609T5 (de) Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten
DE102019000675A1 (de) Nutzen eines modells auf der basis eines tiefen neuronalen netzwerks zum identifizieren von visuell ähnlichen digitalen bildern auf der basis von nutzer-ausgewählten visuellen eigenschaften
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102016010868A1 (de) Suchen unter Verwendung von in Bildern gefundenen spezifischen Attributen
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102016005407A1 (de) Gemeinsames Tiefenschätzen und semantisches Bezeichnen eines einzelnen Bildes
DE202019006007U1 (de) Techniken zum Erzeugen von Designs, die stilistische Präferenzen berücksichtigen
DE102016010744A1 (de) Modifizieren von zumindest einem Attribut von einem Bild mit zumindest einem Attribut, das von einem anderen Bild extrahiert wurde
DE112020000584T5 (de) Verfahren für unüberwachte bild-zu-bild-übersetzung mit wenigen aufnahmen
DE102018119682A1 (de) Bildverarbeitungsvorrichtung, bildverarbeitungsverfahren und nicht-vorübergehendes computerlesbares speichermedium
DE102019102866A1 (de) Identifizierung eines Herstellungsteils unter Verwendung von Computervision und Maschinenlernen
WO2020064253A1 (en) Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium
US11062455B2 (en) Data filtering of image stacks and video streams
DE102022202014A1 (de) Funktionstest für bewegliche Objekte in sicherheitskritischen Anwendungen mit räumlichem Darstellungslernen und kontradiktorischer Erzeugung
WO2013152929A1 (de) Lernverfahren zur automatisierten erkennung von verkehrszeichen, verfahren zur bestimmung eines aktualisierten parametersatzes für eine klassifikation von einem verkehrszeichen und verkehrszeichenerkennungssystem
DE112020005732T5 (de) Erzeugen von trainingsdaten zur objekterkennung
DE102019209560A1 (de) Vorrichtung und Verfahren zum Trainieren eines neuronalen Netzwerks
DE112021006604T5 (de) Dynamisches in-rangordnung-bringen von facetten
DE202017007534U1 (de) Multiskalige 3D-Textursynthese
DE102023104829A1 (de) Objektklasseninpainting - bzw. manipulieren in Digitalbildern unter Einsatz von klassenspezifischen Inpainting-Neuronalen- Netzwerken
DE102022110889A1 (de) Halbüberwachtes training grober labels bei bildsegmentierung
DE112021005925T5 (de) Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung
DE102018113621A1 (de) Verfahren zum Trainieren eines konvolutionellen neuronalen Netzwerks zum Verarbeiten von Bilddaten zur Anwendung in einem Fahrunterstützungssystem