DE102022102541A1

DE102022102541A1 - Konfidenzgestütztes upsampling von kategoriekarten

Info

Publication number: DE102022102541A1
Application number: DE102022102541.1A
Authority: DE
Inventors: Rama Mythili Vadali; Maiyuran Wijay; Oleg Sergeyevich Khoruzhiy
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-02-03
Filing date: 2022-02-03
Publication date: 2022-08-04
Also published as: CN114862752A; US20220245407A1; TW202303518A; KR20220112211A

Abstract

Ein System und Verfahren zum konfidenzgestützten Upsampling von Kategoriekarten. Bei einigen Ausführungsformen enthält das Verfahren: Bestimmen einer Kategorie eines ersten Pixels eines Bildes, wobei das erste Pixel eine Mehrzahl an benachbarten Pixeln aufweist und jedes der benachbarten Pixel eine Kategorie aufweist; und Verarbeiten des Bildes basierend auf der bestimmten Kategorie. Das Bestimmen kann enthalten: Berechnen einer konfidenzgewichteten Metrik für jedes der benachbarten Pixel, wobei die konfidenzgewichtete Metrik auf einem maximalen Konfidenzwert unter allen benachbarten Pixel basiert; und Bestimmen der Kategorie des ersten Pixels basierend auf der konfidenzgewichteten Metrik von jedem der benachbarten Pixel und basierend auf der Kategorie von einem der benachbarten Pixel.

Description

GEBIET
Ein oder mehrere Aspekte von Ausführungsformen gemäß der vorliegenden Offenbarung beziehen sich auf die Erzeugung von Kategoriekarten (engl. categorical map) und insbesondere auf die Erzeugung von upgesampelten Kategoriekarten.
HINTERGRUND
In Systemen und Verfahren zur Verarbeitung von Bildern und zur Erstellung von Kategoriekarten kann ein Upsampling (bzw. eine Abtastratenerhöhung) rechenaufwändig sein, mit einer Komplexität von O(N*C) (d.h. der Ordnung N*C), wobei N die Anzahl der Pixel ist und C die Kardinalität der Kategoriedaten. Darüber hinaus kann das verwandte Verfahren des Nächste-Nachbarn-Upsampling (engl. nearest neighborh upsampling) zwar eine geringe Komplexität aufweisen, aber auch von geringerer Qualität sein, so kann es beispielsweise an den Rändern bzw. Kanten von Zackenartefakten betroffen sein.
Daher besteht ein Bedarf an einem verbesserten System und Verfahren für das Upsampling von Kategoriekarten.
KURZFASSUNG
Gemäß einer Ausführungsform der vorliegenden Offenbarung ist ein Verfahren bereitgestellt, das Folgendes enthält: Bestimmen einer Kategorie eines ersten Pixels eines Bildes, wobei das erste Pixel eine Mehrzahl an benachbarten Pixeln aufweist, wobei jedes der benachbarten Pixel eine Kategorie aufweist; und Verarbeiten des Bildes basierend auf der bestimmten Kategorie, wobei das Bestimmen Folgendes enthält: Berechnen einer konfidenzgewichteten Metrik (bzw. vertrauensgewichtete Metrik) für jedes der benachbarten Pixel, wobei die konfidenzgewichtete Metrik auf einem maximalen Konfidenzwert (bzw. Vertrauenswert) unter allen benachbarten Pixeln basiert; und Bestimmen der Kategorie des ersten Pixels basierend auf der konfidenzgewichteten Metrik von jedem der benachbarten Pixel und basierend auf der Kategorie von einem der benachbarten Pixel.
Bei einigen Ausführungsformen basiert die konfidenzgewichtete Metrik ferner auf einer räumlichen Filterfunktion.
Bei einigen Ausführungsformen weist die räumliche Filterfunktion für ein erstes benachbartes Pixel einen größeren Wert auf als für ein zweites benachbartes Pixel, wobei das erste Pixel näher an dem ersten benachbarten Pixel ist als an dem zweiten benachbarten Pixel.
Bei einigen Ausführungsformen ist die räumliche Filterfunktion innerhalb von 30 % von (x2 - x) (y2 - y) / ((x2 - x1) (y2 - y1)), wobei x1 und y1 die Koordinaten des ersten benachbarten Pixels sind, x2 und y2 die Koordinaten des zweiten benachbarten Pixels sind und x und y die Koordinaten des ersten Pixels sind.
Bei einigen Ausführungsformen ist die räumliche Filterfunktion für jedes der benachbarten Pixel innerhalb von 30 % einer Gaußfunktion der Koordinatendifferenzen zwischen dem ersten Pixel und dem benachbarten Pixel.
Bei einigen Ausführungsformen basiert die konfidenzgewichtete Metrik ferner auf einer Bereichsfilterfunktion (engl. range filter function).
Bei einigen Ausführungsformen weist die Bereichsfilterfunktion für ein erstes benachbartes Pixel einen größeren Wert auf als für ein zweites benachbartes Pixel, wobei das erste Pixel in seiner Intensität näher an dem ersten benachbarten Pixel ist als am zweiten benachbarten Pixel.
Bei einigen Ausführungsformen basiert die konfidenzgewichtete Metrik außerdem auf einer räumlichen Filterfunktion.
Bei einigen Ausführungsformen enthält das Bestimmen der Kategorie des ersten Pixels ein Bestimmen der Kategorie des ersten Pixels als die Kategorie des Pixels von den benachbarten Pixeln, das die größte konfidenzgewichtete Metrik aufweist.
Bei einigen Ausführungsformen enthält das Bestimmen der Kategorie des ersten Pixels ein Bestimmen der Kategorie des ersten Pixels als die Kategorie, für die die Summe der konfidenzgewichteten Metriken über alle benachbarten Pixel in der Kategorie am größten ist.
Gemäß einer Ausführungsform der vorliegenden Offenbarung wird ein System bereitgestellt, das eine Verarbeitungsschaltung enthält, wobei die Verarbeitungsschaltung dazu konfiguriert ist: eine Kategorie eines ersten Pixels eines Bildes zu bestimmen, wobei das erste Pixel eine Mehrzahl an benachbarten Pixeln aufweist, wobei jedes der benachbarten Pixel eine Kategorie aufweist; und das Bild basierend auf der bestimmten Kategorie zu verarbeiten, wobei das Bestimmen Folgendes enthält: Berechnen einer konfidenzgewichteten Metrik für jedes der benachbarten Pixel, wobei die konfidenzgewichtete Metrik auf einem maximalen Konfidenzwert für jedes der benachbarten Pixel basiert; und Bestimmen der Kategorie des ersten Pixels basierend auf der konfidenzgewichteten Metrik von jedem der benachbarten Pixel und basierend auf der Kategorie von einem der benachbarten Pixel.
Bei einigen Ausführungsformen basiert die konfidenzgewichtete Metrik außerdem auf einer räumlichen Filterfunktion.
Bei einigen Ausführungsformen weist die räumliche Filterfunktion für ein erstes benachbartes Pixel einen größeren Wert auf als für ein zweites benachbartes Pixel, wobei das erste Pixel näher an dem ersten benachbarten Pixel ist als an dem zweiten benachbarten Pixel.
Bei einigen Ausführungsformen ist die räumliche Filterfunktion innerhalb von 30 % von (x2 - x) (y2 - y) / ((x2 - x1) (y2 - y1)), x1 und y1 sind die Koordinaten des ersten benachbarten Pixels, x2 und y2 sind die Koordinaten des zweiten benachbarten Pixels und x und y sind die Koordinaten des ersten Pixels.
Bei einigen Ausführungsformen ist die räumliche Filterfunktion für jedes der benachbarten Pixel innerhalb von 30 % einer Gaußfunktion der Koordinatendifferenzen zwischen dem ersten Pixel und dem benachbarten Pixel.
Bei einigen Ausführungsformen basiert die konfidenzgewichtete Metrik außerdem auf einer Bereichsfilterfunktion.
Bei einigen Ausführungsformen weist die Bereichsfilterfunktion für ein erstes benachbartes Pixel einen größeren Wert auf als für ein zweites benachbartes Pixel, wobei das erste Pixel in seiner Intensität näher an dem ersten benachbarten Pixel ist als an dem zweiten benachbarten Pixel.
Bei einigen Ausführungsformen basiert die konfidenzgewichtete Metrik außerdem auf einer räumlichen Filterfunktion.
Bei einigen Ausführungsformen enthält das Bestimmen der Kategorie des ersten Pixels ein Bestimmen der Kategorie des ersten Pixels als die Kategorie des Pixels von den benachbarten Pixeln, das die größte konfidenzgewichtete Metrik aufweist.
Gemäß einer Ausführungsform der vorliegenden Offenbarung wird ein System bereitgestellt, das Mittel zur Verarbeitung enthält, wobei die Mittel zur Verarbeitung dazu konfiguriert sind: eine Kategorie eines ersten Pixels eines Bildes zu bestimmen, wobei das erste Pixel eine Mehrzahl an benachbarten Pixeln aufweist, wobei jedes der benachbarten Pixel eine Kategorie aufweist; und das Bild basierend auf der bestimmten Kategorie zu verarbeiten, wobei das Bestimmen enthält: Berechnen einer konfidenzgewichteten Metrik für jedes der benachbarten Pixel, wobei die konfidenzgewichtete Metrik auf einem maximalen Konfidenzwert für jedes der benachbarten Pixel basiert; und Bestimmen der Kategorie des ersten Pixels basierend auf der konfidenzgewichteten Metrik von jedem der benachbarten Pixel und basierend auf der Kategorie von einem der benachbarten Pixel.
Figurenliste
Diese und andere Merkmale und Vorteile der vorliegenden Offenbarung werden unter Bezugnahme auf die Beschreibung, die Ansprüche und die beigefügten Zeichnungen erkannt und verstanden, wobei:

1A ein Blockschema eines Systems zur Analyse von Bildern ist;
1B ein Blockschema eines Systems zur Analyse von Bildern ist;
2 ein Blockschema ist, das Eingänge und den Ausgang einer Upsampling-Schaltung gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
3 ein Schema eines upgesampelten Pixels und vier benachbarter Pixel ist, gemäß einer Ausführungsform der vorliegenden Offenbarung;
4 ein Blockschema eines Systems zur Analyse von Bildern gemäß einer Ausführungsform der vorliegenden Offenbarung ist;
5A ein Blockschema einer Pipeline zur Analyse von Bildern ist;
5B ein Blockschema einer Pipeline zur Analyse von Bildern ist;
5C ein Blockschema einer Pipeline zur Analyse von Bildern gemäß einer Ausführungsform der vorliegenden Offenbarung ist;
6 ein verarbeitetes Bild gemäß einer Ausführungsform der vorliegenden Offenbarung ist;
7A ein vergrößerter Ausschnitt eines verarbeiteten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung ist;
7B ein vergrößerter Ausschnitt eines verarbeiteten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung ist;
7C ein vergrößerter Ausschnitt eines verarbeiteten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung ist; und
8 ein Flussdiagramm eines Verfahrens gemäß einer Ausführungsform der vorliegenden Offenbarung ist.

DETAILIERTE BESCHREIBUNG
Die nachfolgende detaillierte Beschreibung in Verbindung mit den beigefügten Zeichnungen ist als Beschreibung beispielhafter Ausführungsformen eines Systems und Verfahrens zum Upsamplen von Kategoriekarten gedacht, die in Übereinstimmung mit der vorliegenden Offenbarung bereitgestellt sind, und soll nicht die einzigen Ausgestaltungen darstellen, in denen die vorliegende Offenbarung verwirklicht oder verwendet werden kann. In der Beschreibung werden die Merkmale der vorliegenden Offenbarung in Verbindung mit den gezeigten Ausführungsformen dargelegt. Es versteht sich jedoch von selbst, dass gleiche oder äquivalente Funktionen und Strukturen durch andere Ausführungsformen erreicht werden können, die ebenfalls vom Umfang der Offenbarung umfasst sein sollen. Wie an anderer Stelle in diesem Dokument angegeben ist, sollen gleiche Bezugszeichen auf gleiche Elemente oder Merkmale hinweisen.
In den Gebieten Computer-Vision und Bildverarbeitung ist eine 2D-Interpolation von einem niedrig aufgelösten Bild oder einer Karte auf eine hohe Auflösung, d.h. ein Upsampling, ein üblicher Vorgang. Mit dem Aufkommen von Deep-Learning-Anwendungen in der Computer-Vision sind neuronale Netze, die Kategoriedaten auf Pixelebene vorhersagen, wichtig geworden. Ein solches neuronales Netz kann ein Bild empfangen und eine Kategoriekarte erstellen. Beispielsweise kann die Kategoriekarte für ein Bild einer Pflanze vor einem Hintergrund (wie z.B. in den 6 und 7A - 7C, die weiter unten diskutiert werden) eine Karte sein, in der jedem Pixel eine Kategorie zugewiesen ist, z.B. eine Null, wenn das Pixel als Teil des Hintergrunds klassifiziert ist, und eine Eins, wenn das Pixel Teil der Pflanze ist. In einem Bild mit einer Katze, einem Hund und einer Pflanze vor einem Hintergrund kann jedes Pixel der Kategoriekarte in eine der vier entsprechenden Kategorien klassifiziert sein. In einem neuronalen Netz, das eine solche Kategoriekarte erzeugt, kann eine Zwischenmerkmalskarte des neuronalen Netzes ein Konfidenzvolumen enthalten, das vier Kanäle enthält, darunter einen ersten Kanal des Konfidenzvolumens, der für jedes Pixel die Wahrscheinlichkeit angibt, dass das Pixel zur Katze gehört, und einen zweiten Kanal des Konfidenzvolumens, der für jedes Pixel die Wahrscheinlichkeit angibt, dass das Pixel Teil des Hundes ist, einen dritten Kanal des Konfidenzvolumens, der für jedes Pixel die Wahrscheinlichkeit angibt, dass das Pixel Teil der Pflanze ist, und einen vierten Kanal des Konfidenzvolumens, der für jedes Pixel die Wahrscheinlichkeit angibt, dass das Pixel Teil des Hintergrunds ist.
In einem neuronalen Netz nach verwandter Technik können die neuronalen Netze für die Mehrzahl der Schichten des neuronalen Netzes mit einer geringeren Auflösung als der Eingangsauflösung arbeiten. Um am Ausgang des neuronalen Netzes eine Kategoriekarte mit der Eingangsauflösung zu erhalten (d.h. eine Ausgangskarte, die die gleiche Auflösung wie das Eingangsbild aufweist), kann in der letzten Schicht ein bilineares Upsampling verwendet werden. Ein solches neuronales Netz ist in 1A gezeigt. Es enthält eine Schaltung zur Merkmalsextraktion und Kodierung 105 (innerhalb derer die Größe der Merkmalskarte erheblich reduziert wird, wie die Verjüngung dieser Schaltung zeigt), einen Dekoder 110 (innerhalb dem die Größe der Merkmalskarte etwas erhöht wird), eine bilinearen Upsampling-Schaltung 115 (innerhalb derer die Größe der Merkmalskarte weiter erhöht wird) und eine argmax-Schaltung 120, die die Kategoriekarte erzeugt. Das Ergebnis der bilinearen Upsampling-Schaltung 115 kann ein Konfidenzvolumen sein, das aus C Kanälen besteht, wobei C die Anzahl der Kategorien ist und jeder Kanal des Konfidenzvolumens eine Karte mit der gleichen Auflösung (H x B) wie das Eingangsbild enthält. Die argmax-Schaltung kann dann jedem Pixel der Ausgangsmerkmalskarte die Kategorie zuweisen, für die die Konfidenz (d.h. die Konfidenz für das Pixel in dem Kanal, der der Kategorie entspricht) am größten ist.
Bei der Ausführungsform von 1A erfordert das Upsampling des Logitsvolumens umfangreiche Berechnungen mit einer Zeitkomplexität von O(N* C), wobei N die Anzahl der Pixel und C die Kardinalität der Kategoriedaten (d.h. die Anzahl der Kategorien oder Kanäle) ist. Dieser Rechenaufwand kann diesen Ansatz für einige Echtzeitanwendungen ungeeignet machen.
Im Gegensatz dazu kann eine Erstellung der 2-D-Kategoriekarte mit der niedrigeren Auflösung und ein anschließendes Upsampling nur der Kategoriekarte eine Komplexität von nur O(N) aufweisen. Ein Mangel an effektiven und schnellen Upsampling-Verfahren für Kategoriedaten kann jedoch ein Hindernis für eine solche Optimierung darstellen. Kategoriewerte folgen unter Umständen keiner Ordnung oder Beziehung zueinander. Daher sind Interpolationsverfahren wie etwa die bilineare Interpolation oder die polynomiale Interpolation möglicherweise nicht direkt anwendbar. Stattdessen kann für das Upsampling der Kategoriedaten eine Nächste-Nachbarn-Interpolation verwendet werden, wie in 1B gezeigt. In der Ausführungsform von 1B ist der Ausgang (bzw. Output) des Dekoders 110 der Eingang einer argmax-Schaltung 120, die C niedrig aufgelösten (H/s x W/s) Kanäle des Konfidenzvolumens empfängt und aus ihnen eine einzelne niedrig aufgelöste (H/s x W/s) Kategoriekarte erzeugt. Diese niedrig aufgelöste Kategoriekarte kann dann z.B. mit einer Nächste-Nachbarn-Upsampling-Schaltung 125 zu einer Kategoriekarte mit voller Auflösung (H x W) upgesampelt werden.
Beim Nächste-Nachbarn-Upsampling kann es jedoch aufgrund mangelnder Pixelunterstützung an den Rändern bzw. Kanten, die den Grenzen von Bereichen entsprechen, die verschiedenen Kategorien entsprechen, zu Aliasing kommen. Dieses Aliasing kann sich in Form von unerwünschten Stufenformen und Zackenartefakten an den Rändern bzw. Kanten manifestieren (wie unten im Zusammenhang mit 7B erläutert).
Bei einigen Ausführungsformen werden diese Probleme durch die Verwendung einer Upsampling-Funktion gemildert, die aus rechentechnischer Sicht nicht übermäßig aufwändig ist. Die Upsampling-Funktion bestimmt die hoch auflösende Kategoriekarte (die auch als Zielkategoriekarte T bezeichnet werden kann) unter Verwendung eines auf einer konfidenzgewichteten Metrik basierenden Verfahrens. Für jedes Zielpixel wird eine entsprechende Pixel-Nachbarschaft in der niedrigaufgelösten Kategoriekarte (die als Ursprungskategoriekarte 5 bezeichnet werden kann) definiert. Die konfidenzgewichtete Metrik kann für jeden benachbarten Ursprungspixel berechnet werden. Der Zielpixelwert kann dann gleichgesetzt werden mit (i) dem Kategoriewert des benachbarten Ursprungspixels, der die höchste konfidenzgewichtete Metrik aufweist, oder (ii) der Kategorie, für die die Summe der konfidenzgewichteten Metrik über alle benachbarten Pixel in dieser Kategorie am größten ist.
Das Verfahren ist in 2 bildlich dargestellt. Die Eingänge in die Kategorie-Upsampling-Schaltung 205 (bei der es sich um eine Verarbeitungsschaltung handeln kann oder die eine solche enthalten kann (auf die weiter unten näher eingegangen wird)) können eine niedrig aufgelöste Kategoriekarte 210, eine niedrig aufgelöste Konfidenzkarte 215 und ein hoch aufgelöstes Führungsbild bzw. Leitbild (engl. guide image) 220 (das als Graustufenbild dargestellt ist, aber auch ein Farbbild sein kann) enthalten; der Ausgang von der Kategorie-Upsampling-Schaltung 205 kann eine hoch aufgelöste Kategoriekarte 225 sein. Wie weiter unten näher erläutert, kann das neuronale Netz einen niedrig aufgelösten Kanal des Konfidenzvolumens pro Kanal erzeugen; die Konfidenzkarte 215 kann in jedem Pixel das Maximum, über die Kanäle, der entsprechenden Pixel der Kanäle des Konfidenzvolumens enthalten.
3 zeigt die Positionen eines Pixels p der hoch aufgelösten Zielkategoriekarte und vier seiner benachbarten Pixel q₁₁, q₁₂, q₂₁, und q₂₂ in der niedrig aufgelösten Kategoriekarte 210 und in der niedrig aufgelöste Konfidenzkarte 215. Es wird nur einer der Zielpixel gezeigt; würden alle Zielpixel gezeigt, dann würde bei einigen Ausführungsformen eine große Anzahl von Zielpixeln zwischen den vier benachbarten Pixeln q₁₁, q₁₂, q₂₁, und q₂₂ vorhanden sein. Bei einigen Ausführungsformen können mehr als vier benachbarte Pixel (z.B. 9 oder mehr Pixel, die in einem Quadrat oder in einer quasi-kreisförmigen Nachbarschaft, die einige Pixel in der Nähe der Ecken eines Quadrats weglassen kann, angeordnet sein können) verwendet werden.
Bei einigen Ausführungsformen wird die konfidenzgewichtete Metrik als Funktion (i) einer Konfidenzkarte, (ii) eines Maßes der geometrischen Nähe zu den nächsten Nachbarn und (iii) der Photometrie (d.h. der Intensität oder Farbe) eines hoch aufgelösten Führungsbildes berechnet. Die Kategorie jedes Pixels der hoch aufgelösten Zielkategoriekarte kann dann basierend auf den konfidenzgewichteten Metriken der benachbarten Pixel des Pixels bestimmt werden (wie weiter unten im Detail erläutert). 4 ist ein Blockschema einer solchen Ausführungsform. Bei der Ausführungsform von 4 wird der Ausgang des Dekoders 110 einer argmax-Schaltung 405 zugeführt, die eine Kategoriekarte erzeugt (wobei jedes Element der Kategoriekarte das argmax über die Kanäle der Kanäle des Konfidenzvolumens am Eingang der argmax-Schaltung 405 ist), und eine max-Schaltung 407, die die Konfidenzkarte erzeugt (wobei jedes Element der Konfidenzkarte das Maximum über die Kanäle der Kanäle des Konfidenzvolumens am Eingang der max-Schaltung 407 ist), jeweils mit niedriger Auflösung. Eine konfidenzunterstützte Upsampling-Schaltung erzeugt dann die hoch aufgelöste Zielkategoriekarte, indem sie (wie in 2 gezeigt) die niedrig aufgelöste Kategoriekarte 210, die niedrig aufgelöste Konfidenzkarte 215 und das hoch aufgelöste Führungsbild 220 verwendet. Die Verwendung der konfidenzgewichteten Metrik ist wenig komplex und eignet sich daher im Allgemeinen gut für Echtzeitanalysen, und sie kann die Stufen- oder Zackenartefakte abschwächen, die beim Nächste-Nachbarn-Upsampling auftreten können.
Bei einigen Ausführungsformen ist die konfidenzgewichtete Metrik definiert als $w_{p} (q) = C_{q} ƒ (q, p) g (I_{q_{↑}}, I_{p_{↑}}), \forall q \in Ω_{p},$
wobei:
Ω_p die Nachbarschaft des Zielpixels (p_t) in S bezeichnet,
C_q der Konfidenzwert (aus der Konfidenzkarte 215) bei q ist,
I das hoch aufgelöste Führungsbild ist,
ƒ(.) die räumliche Filterfunktion ist, und
g(.) die am Bildwert an p_t zentrierte Bereichsfilterfunktion ist.
Für q ∈ Ω_p, bezeichnet q↑ die entsprechende hoch aufgelöste Koordinate in T.
Der räumliche Filter ƒ(.) kann eine beliebige geeignete Funktion sein, die die Nähe von q zu p berücksichtigt, z.B. jede Funktion, die im Allgemeinen benachbarte Pixel, die sich in der Nähe des Zielpixels befinden, stärker gewichtet als benachbarte Pixel, die weiter vom Zielpixel entfernt sind. Der räumliche Filter kann zum Beispiel eine Funktion sein, die mit abnehmendem Abstand monoton zunimmt. Bei einigen Ausführungsformen verwendet der räumliche Filter bilineare Gewichtungen, wobei die Gewichtung des Pixels q₁₁ wie folgt berechnet wird: $f = (x 2 - x) (y 2 - y) / ((x 2 - x 1) (y 2 - y 1)),$
wobei x1 und y1 die Koordinaten des Pixels q₁₁ sind, x2 und y2 die Koordinaten des Pixels q₂₂ sind, und x und y die Koordinaten des Pixels p sind. Bei anderen Ausführungsformen ist der räumliche Filter eine in p zentrierte Gaußfunktion; das Gewicht des Pixels q₁₁ kann beispielsweise gleich oder proportional zu exp(-((x - x1)² + (y - y1)²)/w²) sein, wobei w die Breite der Gaußfunktion ist. Bei einigen Ausführungsformen ist der Raumfilter ungefähr gleich einer solchen Funktion, z.B. innerhalb von 30 % einer solchen Funktion.
Der Bereichsfilter g(.) kann die photometrische Nähe (Intensität oder Farbe) zwischen den Pixeln q_↑ und dem Pixel p_↑ in dem hoch aufgelösten Führungsbild messen. Die Auswahl eines Bereichsfilters kann anwendungsabhängig sein. Der Bereichsfilter kann jede geeignete Funktion sein, die die Ähnlichkeit der Pixelwerte an q und p im Führungsbild berücksichtigt, z.B. jede Funktion, die im Allgemeinen benachbarte Pixel, die ähnliche Werte (z.B. Intensitäten oder Farben) wie die des Zielpixels aufweisen, stärker gewichtet als benachbarte Pixel, die Werte aufweisen, die sich stärker von denen des Zielpixels unterscheiden. Beispielsweise kann die Bereichsfilterfunktion für ein erstes benachbartes Pixel einen größeren Wert aufweisen als für ein zweites benachbartes Pixel, wenn das Zielpixel in seiner Intensität näher an dem ersten benachbarten Pixel ist als an dem zweiten benachbarten Pixel. Wenn ein erstes Pixel „in der Intensität näher“ an einem Zielpixel ist als ein zweites Pixel, bedeutet dies hier, dass der Unterschied zwischen der Intensität des ersten Pixels und der Intensität des Zielpixels geringer ist als der Unterschied zwischen der Intensität des zweiten Pixels und der Intensität des Zielpixels. Bei einigen Ausführungsformen ist der Bereichsfilter eine über I_p↑ zentrierter Gaußfunktion, z. B, für das Pixel q₁₁ kann er gleich oder proportional zu exp(((I_p↑ - I_q)²/w²) sein, wobei I_p↑ die Intensität des Pixels im Führungsbild an denselben Koordinaten wie das Zielpixel p_↑ ist, I_p↑ die Intensität des Pixels im Führungsbild an derselben Position wie das benachbarte Pixel q₁₁ ist und w die Breite der Gaußfunktion ist. Bei anderen Ausführungsformen kann der Bereichsfilter eine Funktion (z.B. eine Gaußfunktion) der Vektordifferenz zwischen den Farbkomponenten der entsprechenden Pixel des Führungsbildes (z.B. der Differenz zwischen den Rot-Grün-Blau-Vektoren (RGB) oder der Differenz zwischen den Luminanz- und Chrominanzkomponenten (YUV)) sein. Bei einigen Ausführungsformen ist der Bereichsfilter ungefähr gleich einer solchen Funktion, er ist z.B. innerhalb von 30 % einer solchen Funktion. Wie hierin verwendet, ist eine „Bereichsfilterfunktion“ eine Funktion, die ein Maß für das Ausmaß berechnet, in dem die Anzeigewerte (z.B. die Intensität oder Aspekte der angezeigten Farbe) für zwei Pixel gleich sind.
Bei einigen Ausführungsformen sind nicht alle der drei Faktoren C_q, ƒ(q,p), und g(I_q↑, I_p↑) in dem zur Berechnung der konfidenzgewichteten Metrik verwendeten Ausdruck enthalten. So kann beispielsweise die räumliche Filterfunktion f(.) auf 1 gesetzt sein, um die räumliche Komponente zu ignorieren, oder die Bereichsfilterfunktion g(.) kann auf 1 gesetzt sein, um die photometrische Komponente zu ignorieren (oder beide können auf 1 gesetzt sein).
Sobald die konfidenzgewichtete Metrik für jedes der benachbarten Pixel berechnet wurde, kann die Kategorie des Zielpixels basierend auf der konfidenzgewichteten Metrik jedes der benachbarten Pixel und basierend auf der Kategorie eines (oder mehrerer) der benachbarten Pixel bestimmt werden. Der interpolierte Wert bei p_↑ kann beispielsweise (i) gleich dem Kategoriewert des benachbarten Pixels in Ω_p gesetzt werden, das die höchste konfidenzgewichtete Metrik w_p aufweist, wenn eine argmax-Operation verwendet wird, oder (ii) basierend auf einer Methode gesetzt werden, die als gewichtetes Histogramm über die Kategoriewerte oder als „Modusfilter“ bezeichnet werden kann.
Wird eine argmax-Operation verwendet, dann kann der Kategoriewert bei p_↑, d.h. T_p↑, wie folgt zugewiesen werden: $T_{p_{↑}} = S_{q_{o p t}},$
wobei q_opt = argmax_q∈Ωp (w_p(q)).
Diese Operation setzt die Kategorie des Zielpixels gleich der Kategorie des benachbarten Pixels, das die höchste konfidenzgewichtete Metrik aufweist.
Wenn ein Modusfilter verwendet wird, kann ein Modus über ein gewichtetes Histogramm berechnet werden: $T_{p_{↑}} = a r g m a x_{l \in L} h (l),$
wobei $h (l) = \sum_{q \in Ω_{p}} δ (S_{q} = l) * w_{p} (q),$
$δ (S_{q} = l) = {\begin{array}{l} 1 i f S_{q} = l \\ 0, a n s o n s t e n \end{array},$
L den Satz der möglichen Kategoriewerte bezeichnet, und
h(l) das für l ∈ L in der Nachbarschaft Ω_p berechnete gewichtete Histogramm ist.
Diese Operation setzt die Kategorie des Zielpixels gleich der Kategorie, für die die Summe der konfidenzgewichteten Metrik über alle benachbarten Pixel in der Kategorie am größten ist. Der Modusfilter ist eine Variante des statistischen Modus; wenn die konfidenzgewichtete Metrik für alle benachbarten Pixel gleich ist, dann ist die vom Modusfilter zurückgegebene Kategorie der statistische Modus des Satzes von Kategorien der benachbarten Pixel.
5A - 5C zeigen Pipelines nach verwandter Technik für drei Verarbeitungsmethoden. Die in diesen Figuren angegebenen Bildabmessungen sind nur Beispiele und können abhängig von den Anwendungsanforderungen unterschiedlich sein. Bei der Ausführungsform von 5A, die eine Pipeline für das bilineare Upsampling von Logits zeigt (entsprechend 1A), wird das Eingangsbild 505 von einer bilinearen Größenänderungsschaltung 510 verarbeitet, um ein Bild mit geänderter Größe 515 zu erzeugen, das von einem neuronalen Netz 520 verarbeitet wird, das einen ersten Logits-Array 525 erzeugt. Eine randbewusste bzw. kantenbewusste Upsampling-Schaltung 530 nimmt dann ein Upsampling des ersten Logits-Arrays 525 vor, wobei das Eingangsbild 505 als Führungsbild verwendet wird, um einen zweiten Logits-Array 535 zu bilden. Eine bilineare Upsampling-Schaltung 540 erzeugt dann aus dem zweiten Logits-Array 535 ein drittes Logits-Array 545, und aus diesem dritten Logits-Array 545 erzeugt eine argmax-Schaltung 550 eine hoch aufgelöste Kategoriekarte 555 (oder im Falle der Segmentierung eine Segmentierungskarte), und eine max-Schaltung 560 erzeugt eine hoch aufgelöste Konfidenzkarte 565.
Bei der Ausführungsform von 5B, die eine Pipeline für das Nächste-Nachbarn-Upsampling einer Segmentierungskarte zeigt (entsprechend 1B), wird das zweite Logits-Array 535 auf die gleiche Weise erzeugt wie in 5A. Eine argmax-Schaltung 550 erzeugt dann aus dem zweiten Logits-Array 535 eine niedrig aufgelöste Segmentierungskarte 552, die durch eine Nächste-Nachbarn-Upsampling-Schaltung 554 in eine hoch aufgelöste Kategoriekarte 555 umgewandelt wird, und eine max-Schaltung 560 erzeugt aus dem zweiten Logits-Array 535 eine niedrig aufgelöste Konfidenzkarte 562 (die mit der Konfidenzkarte 215 aus 2 identisch sein kann), die durch eine bilineare Größenänderungsschaltung 564 in der Größe verändert wird, um eine hoch aufgelöste Konfidenzkarte 565 zu bilden.
Bei der Ausführungsform von 5C, die eine Pipeline für das Nächste-Nachbarn-Upsampling von Kategoriekarten mithilfe einer Konfidenzgewichtung zeigt (entsprechend 4), werden die niedrig aufgelöste Segmentierungskarte 552 und die niedrig aufgelöste Konfidenzkarte 562 auf die gleiche Weise wie in 5B erzeugt. Eine konfidenzgestützte Upsampling-Schaltung 570 führt dann ein Upsampling der niedrig aufgelöste Segmentierungskarte 552 basierend auf der niedrig aufgelöste Konfidenzkarte 562 durch, wobei das Eingangsbild 505 als Führungsbild verwendet wird, um die hoch aufgelöste Kategoriekarte 555 zu bilden. Die konfidenzgestützte Upsampling-Schaltung 570 kann eines oder mehrere der hierin beschriebenen Verfahren durchführen, einschließlich einem Berechnen einer konfidenzgewichteten Metrik für jedes aus der Mehrzahl an benachbarten Pixeln eines Zielpixels und einem Zuweisen einer Kategorie für das Zielpixel, z.B. unter Verwendung eines argmax-Verfahrens oder eines Modusfilterverfahrens.
6 ist eine Grauwertversion eines Farbbildes, das durch die Ausführungsform der 4 und 5C verarbeitet wurde, mit grau überlagerten Formen, die Bereiche zeigen, die der Segmentierungsalgorithmus als der im Bild gezeigten Pflanze entsprechend identifiziert hat. 7A - 7C sind vergrößerte Ansichten eines Bildausschnitts (des Ausschnitts im gestrichelten Rechteck in 6), die die Ergebnisse der Verarbeitung des Bildes mit den drei jeweiligen Segmentierungsalgorithmen von (i) 1A und 5A, (ii) 1B und 5B, (iii) 4 und 5C zeigen. Stufen- und Zackenartefakte sind in 7B besonders deutlich.
8 ist ein Flussdiagramm eines Verfahrens einiger Ausführungsformen. Das Verfahren enthält bei 805 ein Bestimmen einer Kategorie eines ersten Pixels eines Bildes, wobei das erste Pixel eine Mehrzahl an benachbarten Pixeln aufweist und jedes der benachbarten Pixel eine Kategorie aufweist; und bei 810 ein Verarbeiten des Bildes basierend auf der bestimmten Kategorie. Das Bild kann das hoch aufgelöste Eingangsbild 505 sein (das auch als Führungsbild verwendet werden kann), und das Erzeugen der hoch aufgelösten Segmentierungskarte 555 kann dem Bestimmen einer Kategorie für jedes Pixel des hoch aufgelösten Eingangsbildes 505 entsprechen. Die Verarbeitung des Bildes 505 bei 810 kann z.B. ein unterschiedliches Verarbeiten verschiedener Teile des Bildes (die verschiedenen Kategorien entsprechen) enthalten, z.B. ein Weichzeichnen eines Bereichs von Pixeln, die als Hintergrund kategorisiert sind, oder ein Aufhellen eines Bereichs, der einer Kategorie entspricht, und ein Abdunkeln eines Bereichs, der einer anderen Kategorie entspricht. Wie hierin verwendet, bedeutet „Verarbeitung des Bildes“ eine direkte Verarbeitung des Bildes oder eine Verarbeitung eines Produkts anderer Verarbeitungsschritte, die basierend auf dem Bild durchgeführt wurden. So kann eine Verarbeitung des Bildes etwa eine Verwendung der hoch aufgelösten Segmentierungskarte 555 in anderen Verarbeitungsschritten enthalten (oder daraus bestehen) (z.B. in einem Algorithmus für die Machine-Vision-basierte Navigation eines Fahrzeugs, Klassifizieren der Objekte im Sichtfeld einer Kamera in verschiedene Kategorien (z.B. andere Fahrzeuge, Gebäude, Straßenschilder oder Fußgänger)).
Wie hierin verwendet, bedeutet „ein Teil“ von etwas „zumindest ein Teil“ der Sache, und als solcher kann er weniger als die ganze Sache oder die ganze Sache bedeuten. „Ein Teil“ einer Sache enthält etwa die gesamte Sache als Sonderfall, d.h. die gesamte Sache ist ein Beispiel für einen Teil der Sache. Wenn eine zweite Größe „innerhalb Y“ einer ersten Größe X liegt, bedeutet dies, dass die zweite Größe mindestens X-Y und höchstens X+Y beträgt. Wenn eine zweite Größe „innerhalb Y%“ einer ersten Größe liegt, bedeutet dies, dass die zweite Größe mindestens das (1-Y/100)-fache der ersten Größe und die zweite Größe höchstens das (1+Y/100)-fache der ersten Größe beträgt. Wie hierin verwendet, sollte der Begriff „oder“ als „und/oder“ interpretiert werden, wie etwa „A oder B“ als eines von „A“ oder „B“ oder „A und B“.
Die Begriffe „Verarbeitungsschaltung“ und „Mittel zur Verarbeitung“ werden hier verwendet, um eine beliebige Kombination aus Hardware, Firmware und Software zu bezeichnen, die zur Verarbeitung von Daten oder digitalen Signalen eingesetzt wird. Die Hardware der Verarbeitungsschaltung kann beispielsweise anwendungsspezifische integrierte Schaltungen (ASICs), allgemeine oder spezielle zentrale Verarbeitungseinheiten (CPUs), digitale Signalprozessoren (DSPs), Grafikverarbeitungseinheiten (GPUs) und programmierbare logische Vorrichtungen wie etwa Field Programmable Gate Arrays (FPGAs) enthalten. In einer Verarbeitungsschaltung, wie sie hier verwendet wird, wird jede Funktion entweder durch Hardware ausgeführt, die dazu konfiguriert, d.h. fest verdrahtet ist, diese Funktion auszuführen, oder durch allgemeinere Hardware, wie etwa eine CPU, die dazu konfiguriert ist, in einem nichttransitorischen Speichermedium gespeicherte Anweisungen auszuführen. Ein Verarbeitungsschaltung kann auf einer einzelnen Platine (PCB) hergestellt sein oder über mehrere miteinander verbundene PCBs verteilt sein. Eine Verarbeitungsschaltung kann weitere Verarbeitungsschaltungen enthalten; so kann eine Verarbeitungschaltung beispielsweise zwei Verarbeitungsschaltungen, einen FPGA und eine CPU, enthalten, die auf einer PCB miteinander verbunden sind.
Wie hier verwendet, bezieht sich der Begriff „Array“ auf eine geordnete Menge von Zahlen, unabhängig davon, wie sie gespeichert sind (z.B. an aufeinanderfolgenden Speicherplätzen oder in einer verknüpften Liste). Wenn ein Verfahren (z.B. eine Anpassung) oder eine erste Größe (z.B. eine erste Variable) als basierend auf' einer zweiten Größe (z.B. einer zweiten Variable) bezeichnet wird, bedeutet dies, dass die zweite Größe ein Eingang für das Verfahren ist oder die erste Größe beeinflusst, z. B, die zweite Größe kann ein Eingang (z.B. der einzige Eingang oder einer von mehreren Eingängen) für eine Funktion sein, die die erste Größe berechnet, oder die erste Größe kann gleich der zweiten Größe sein, oder die erste Größe kann dieselbe sein wie die zweite Größe (z.B. an derselben Stelle oder an denselben Stellen im Speicher gespeichert sein wie diese). Wie hier verwendet, bedeutet „basierend auf” zumindest teilweise basierend auf', d.h. eine erste Größe, die als basierend auf einer zweiten Größe beschrieben wird, kann auch auf einer dritten Größe basieren.
Es versteht sich, dass, obwohl die Begriffe „erster“, „zweiter“, „dritter“ usw. hier verwendet werden können, um verschiedene Elemente, Komponenten, Bereiche, Schichten und/oder Abschnitte zu beschreiben, diese Elemente, Komponenten, Bereiche, Schichten und/oder Abschnitte nicht durch diese Begriffe eingeschränkt werden sollen. Diese Begriffe werden nur verwendet, um ein Element, eine Komponente, einen Bereich, eine Schicht oder einen Abschnitt von einem anderen Element, einer anderen Komponente, einem anderen Bereich, einer anderen Schicht oder einem anderen Abschnitt zu unterscheiden. So könnte ein erstes Element, eine erste Komponente, ein erster Bereich, eine erste Schicht oder ein erster Abschnitt, von dem hier die Rede ist, als zweites Element, eine zweite Komponente, ein zweiter Bereich, eine zweite Schicht oder ein zweiter Abschnitt bezeichnet werden, ohne dass dies vom Umfang des erfinderischen Konzepts abweicht.
Die hier verwendete Terminologie dient nur der Beschreibung bestimmter Ausführungsformen und ist nicht als Einschränkung des erfinderischen Konzepts zu verstehen. Wie hier verwendet, werden die Begriffe „im Wesentlichen“, „ungefähr“ und ähnliche Begriffe als Begriffe der Approximation und nicht als Begriffe des Grades verwendet und sollen die inhärenten Abweichungen in gemessenen oder berechneten Werten berücksichtigen, die von denjenigen mit gewöhnlichen Fachkenntnissen auf dem Gebiet angenommen werden.
Wie hierin verwendet, sollen die Singularformen „ein“ und „eine“ auch die Pluralformen enthalten, es sei denn, aus dem Kontext geht eindeutig etwas anderes hervor. Es versteht sich weiter, dass die Begriffe „umfasst“ bzw. „enthält“ und/oder „aufweisend“, wenn sie in dieser Beschreibung verwendet werden, das Vorhandensein bestimmter Merkmale, ganzer Zahlen, Schritte, Operationen, Elemente und/oder Komponenten spezifizieren, aber nicht das Vorhandensein oder die Hinzufügung eines oder mehrerer anderer Merkmale, ganzer Zahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen davon ausschließen. Wie hierin verwendet, enthält der Begriff „und/- oder“ alle Kombinationen von einem oder mehreren der zugehörigen aufgeführten Punkte. Ausdrücke wie etwa „mindestens eines von“, wenn sie einer Liste von Elementen vorangestellt werden, verändern die gesamte Liste von Elementen und nicht die einzelnen Elemente der Liste. Ferner bezieht sich die Verwendung von „kann“ bei der Beschreibung von Ausführungsformen des erfindungsgemäßen Konzepts auf „eine oder mehrere Ausführungsformen der vorliegenden Offenbarung“. Auch der Begriff „beispielhaft“ soll auf ein Beispiel oder eine Illustration hinweisen. Wie hierin verwendet, können die Begriffe „verwenden“, „verwendent“ und „verwendet“ als Synonyme für die Begriffe „nutzen“, „nutzend“ bzw. „genutzt“ angesehen werden.
Jeder hier aufgeführte Zahlenbereich soll alle Unterbereiche der gleichen numerischen Genauigkeit enthalten, die innerhalb des aufgeführten Bereichs liegen. Beispielsweise soll ein Bereich von 1,0 bis 10,0" oder „zwischen 1,0 und 10,0“ alle Unterbereiche zwischen (und einschließlich) dem angegebenen Minimalwert von 1,0 und dem angegebenen Maximalwert von 10,0 aufweisen, d.h. einen Minimalwert, der gleich oder größer als 1,0 ist, und einen Maximalwert, der gleich oder kleiner als 10,0 ist, wie z.B. 2,4 bis 7,6. In ähnlicher Weise soll ein Bereich, der als „innerhalb von 35 % von 10“ beschrieben wird, alle Unterbereiche zwischen (und einschließlich) dem angegebenen Minimalwert von 6,5 (d.h. (1 - 35/100) mal 10) und dem angegebenen Maximalwert von 13,5 (d.h. (1 + 35/100) mal 10) enthalten, d.h. einen Minimalwert gleich oder größer als 6,5 und einen Maximalwert gleich oder kleiner als 13,5 aufweisen, wie etwa 7,4 bis 10,6. Jede hier aufgeführte maximale numerische Begrenzung soll alle niedrigeren numerischen Begrenzungen enthalten, die darunterfallen, und jede in dieser Spezifikation aufgeführte minimale numerische Begrenzung soll alle höheren numerischen Begrenzungen enthalten, die darin enthalten sind.
Obwohl beispielhafte Ausführungsformen eines Systems und Verfahrens zum Upsampling von Kategoriekarten hier speziell beschrieben und gezeigt wurden, sind viele Abwandlungen und Variationen davon für den Fachmann offensichtlich. Dementsprechend können ein System und ein Verfahren zum Upsampling von Kategoriekarten, die nach den Grundsätzen dieser Offenbarung erstellt wurden, auch anders als in der hierin beschriebenen Form umgesetzt werden. Die Erfindung ist somit durch die folgenden Ansprüchen definiert.

Claims

Verfahren, aufweisend: „ Bestimmen (805) einer Kategorie eines ersten Pixels eines Bildes, wobei das erste Pixel eine Mehrzahl an benachbarten Pixeln aufweist, wobei jedes der benachbarten Pixel eine Kategorie aufweist; und Verarbeiten (810) des Bildes basierend auf der bestimmten Kategorie, wobei das Bestimmen (805) aufweist: Berechnen einer konfidenzgewichteten Metrik für jedes der benachbarten Pixel, wobei die konfidenzgewichtete Metrik auf einem maximalen Konfidenzwert unter allen benachbarten Pixeln basiert; und Bestimmen der Kategorie des ersten Pixels basierend auf der konfidenzgewichteten Metrik von allen benachbarten Pixeln und basierend auf der Kategorie von einem der benachbarten Pixel.
Verfahren nach Anspruch 1, wobei die konfidenzgewichtete Metrik ferner auf einer räumlichen Filterfunktion basiert.
Verfahren nach Anspruch 2, wobei die räumliche Filterfunktion für ein erstes benachbartes Pixel einen größeren Wert aufweist als für ein zweites benachbartes Pixel, wobei das erste Pixel näher an dem ersten benachbarten Pixel ist als an dem zweiten benachbarten Pixel.
Verfahren nach Anspruch 3, wobei: die räumliche Filterfunktion innerhalb von 30% von $(x 2 - x) (y 2 - y) / ((x 2 - x 1) (y 2 - y 1))$
ist, x1 und y1 die Koordinaten des ersten benachbarten Pixels sind, x2 und y2 die Koordinaten des zweiten benachbarten Pixels sind, und x und y die Koordinaten des ersten Pixels sind.
Verfahren nach Anspruch 4, wobei die räumliche Filterfunktion für jedes der benachbarten Pixel innerhalb von 30 % einer Gaußfunktion der Koordinatendifferenzen zwischen dem ersten Pixel und dem benachbarten Pixel ist.
Verfahren nach einem beliebigen der Ansprüche 1 bis 5, wobei die konfidenzgewichtete Metrik ferner auf einer Bereichsfilterfunktion basiert.
Verfahren nach Anspruch 6, wobei die Bereichsfilterfunktion für ein erstes benachbartes Pixel einen größeren Wert aufweist als für ein zweites benachbartes Pixel, wobei das erste Pixel in einer Intensität näher an dem ersten benachbarten Pixel ist als an dem zweiten benachbarten Pixel.
Verfahren nach einem beliebigen der Ansprüche 1 bis 7, wobei das Bestimmen (805) der Kategorie des ersten Pixels aufweist: Bestimmen der Kategorie des ersten Pixels als die Kategorie des Pixels von den benachbarten Pixeln, das die größte konfidenzgewichtete Metrik aufweist.
Verfahren nach einem beliebigen der Ansprüche 1 bis 7, wobei das Bestimmen (805) der Kategorie des ersten Pixels aufweist: ein Bestimmen der Kategorie des ersten Pixels als die Kategorie, für die die Summe der konfidenzgewichteten Metriken über alle benachbarten Pixel in der Kategorie am größten ist.
System, das eine Verarbeitungsschaltung (205) aufweist, wobei die Verarbeitungsschaltung (205) dazu konfiguriert ist, das Verfahren nach einem der Ansprüche 1 bis 9 durchzuführen.