DE112017000669T5

DE112017000669T5 - Semantische Segmentierung auf der Grundlage einer globalen Optimierung

Info

Publication number: DE112017000669T5
Application number: DE112017000669.4T
Authority: DE
Inventors: Paul Vernaza
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2016-02-04
Filing date: 2017-01-18
Publication date: 2018-11-29
Also published as: US10290106B2; JP2019508805A; US20170228873A1; US20170228617A1; WO2017136137A1; JP6678246B2; US10235758B2

Abstract

Verfahren und Systeme für die Datensegmentierung enthalten das Bestimmen von Anfangssegmentierungsbewertungen für jede Einheit eines Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierung zugewiesen wird. Für jede Einheit des Einheitsdatensatzes werden durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen bestimmt. Der Eingangsdatensatz wird in Übereinstimmung mit den Endsegmentierungsbewertungen segmentiert.

Description

INFORMATIONEN ÜBER VERWANDTE ANMELDUNG
Diese Anmeldung beansprucht die Priorität der US-Anmeldung, lfd. Nr. 62/291.076 , eingereicht am 4. Februar 2016, die hier durch Bezugnahme vollständig mit aufgenommen ist.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf die Bildsegmentierung und insbesondere auf eine geänderte Segmentierung durch ein neuronales Netz, die einen Reaktions-Diffusions-Prozess verwendet, der einem Variationsprinzip genügt (als „Variations-Reaktions-Diffusion“ bezeichnet).
Beschreibung des verwandten Gebiets
Die semantische Segmentierung soll ankommende Daten, z. B. in Form eines Grafikbildes, nehmen und die Daten in logische Segmente teilen. Im Fall der Verarbeitung eines Bildes kann die segmentierte Ausgabe Pixel, die z. B. Menschen, Straßen, Bäume oder andere typische Bildmerkmale repräsentieren, miteinander gruppieren.
Obwohl verschiedene Segmentierungstechniken verwendet werden, ist die vorhandene semantische Segmentierung entweder rechentechnisch kurzsichtig (wobei sie z. B. immer nur einen kleinen Teil des Bildes berücksichtigt) oder rechentechnisch ineffizient.
ZUSAMMENFASSUNG
Ein Verfahren für die Datensegmentierung enthält das Bestimmen von Anfangssegmentierungsbewertungen für jede Einheit eines Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierung zugewiesen wird. Für jede Einheit des Einheitsdatensatzes werden durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen bestimmt. Der Eingangsdatensatz wird in Übereinstimmung mit den Endsegmentierungsbewertungen segmentiert.
Ein System für die Datensegmentierung enthält ein neuronales Netz, das dafür konfiguriert ist, für jede Einheit eines Einheitsdatensatzes Anfangssegmentierungsbewertungen zu bestimmen, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird. Ein Segmentierungsmodul ist dafür konfiguriert, für jede Einheit des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen zu bestimmen und den Eingangsdatensatz in Übereinstimmung mit den Endsegmentierungsbewertungen zu segmentieren.
Figurenliste
Die Offenbarung bietet in der folgenden Beschreibung bevorzugter Ausführungsformen mit Bezug auf die folgenden Figuren Einzelheiten; es zeigen

1 einen Blockschaltplan/Ablaufplan eines Verfahrens/Systems für die Datensegmentierung in Übereinstimmung mit den vorliegenden Prinzipien;
2 einen Blockschaltplan/Ablaufplan eines Verfahrens für die Datensegmentierung in Übereinstimmung mit den vorliegenden Prinzipien;
3 einen Blockschaltplan/Ablaufplan eines Verfahrens für das Training eines Modells und eines neuronalen Netzes in Übereinstimmung mit den vorliegenden Prinzipien;
4 einen Blockschaltplan eines Überwachungssystems in Übereinstimmung mit den vorliegenden Prinzipien; und
5 einen Blockschaltplan eines Verarbeitungssystems in Übereinstimmung mit den vorliegenden Prinzipien.

AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Ausführungsformen der vorliegenden Erfindung schaffen eine Bildsegmentierung, die ein Convolutional Neural Network (CNN) verwendet, um Bildmerkmale zu identifizieren, und die ferner die Variations-Reaktions-Diffusion (VRD) verwendet, um die Glattheit in der Segmentierungsausgabe sicherzustellen. Die VRD wird während des CNN-Trainings verwendet sowie dazu, Rückwärtspropagationsableitungen zu erzeugen, die zum Einstellen von Gewichten in dem CNN verwendet werden können. Die hier beschriebenen VRD-Prozesse stellen in der Zeit N log N in der Anzahl von Pixeln genaue Folgerungs- und Verlustableitungen bereit.
Die Folgerung in der VRD kann gemäß der Dynamik eines Reaktions-Diffusions-Prozesses als sich entwickelnde Evidenz (oder Klassenbewertungen) interpretiert werden. Evidenz für eine semantische Klasse kann als ein unäres Potential modelliert werden, das sich über Diffusion über das Bild fortpflanzt und mit der Evidenz anderer semantischer Klassen reagiert. Jeder dieser Prozesse kann lokal Evidenz für jede Klasse erzeugen oder unterdrücken. Dadurch, dass das Modell auf die Klasse von Prozessen beschränkt wird, die Lösungen für konvexe Variationsprobleme erzeugt, kann ein stabiles Gleichgewicht sichergestellt werden.
Nun ausführlich anhand der Figuren, in denen gleiche Bezugszeichen dieselben oder ähnliche Elemente repräsentieren und anfangs anhand von 1, ist veranschaulichend eine semantische Segmentierungsprozedur in Übereinstimmung mit einer Ausführungsform der vorliegenden Prinzipien dargestellt. Es wird ein Eingangsbild 102 bereitgestellt, das aus einer zweidimensionalen Anordnung von Pixeln gebildet ist. Selbstverständlich sind die vorliegenden Prinzipien nicht auf grafische Informationen beschränkt und können sie stattdessen auf irgendeine Art von Informationen, die segmentierbare Merkmale aufweisen, angewendet werden. Das Eingangsbild 102 wird durch das CNN 104 verwendet, um einen Satz von Merkmalsausgaben zu erzeugen. Jedes Pixel in dem Eingangsbild 102 kann einer einzelnen Eingabe des CNN entsprechen, wobei die Anzahl der Ausgaben pro Pixel des CNN 104 einer Anzahl verschiedener Segmentierungsfelder entspricht, die für die Bildeingabe 102 ausgewählt werden.
Für jedes Pixel des Eingangsbildes 102 erzeugt das CNN 104 einen Ausgangsvektor, der entlang jedes eines Satzes verschiedener Segmentierungsfelder Zahlenwerte für das Pixel enthält. Es ist festzustellen, dass die Segmentierungsfelder nicht notwendig intuitiven Merkmalen der Bildeingabe 102 entsprechen, sondern stattdessen das Ergebnis des Trainingsprozesses des CNN sind, wobei sie automatisch erzeugte Merkmale repräsentieren, die eine sinnvolle Segmentierung des Bildes bereitstellen.
Die Ausgangsvektoren werden durch ein VRD-Modul 106 verwendet, um ein Glattheitskriterium in dem Bild sicherzustellen. In einem Beispiel kann sich die Glattheit auf eine Tendenz für Pixel in einem bestimmten Segment einer Bildeingabe 102 beziehen, sich aneinander angrenzend oder wenigstens nahe beieinander zu befinden. Während des Trainings stellt das VRD-Modul 106 außerdem auf der Grundlage eines Fehlersignals Fehlerinformationen zurück für das CNN 104 bereit. Sowohl das VRD-Modul 106 als auch das CNN 104 stellen als Reaktion auf das Fehlersignal interne Parameter ein, um den künftigen Betrieb zu verbessern. Die VRD 106 gibt für jedes Pixel einen Satz von Vektoren aus, die Segmentierungsbewertungen repräsentieren, wobei eine beste Bewertung für jedes Pixel das diesem Pixel zugeordnete Segment repräsentiert.
Wie oben angemerkt wurde, kann die Bildeingabe als I ⊂ ℝ² repräsentiert werden, wobei eine rechteckige Teilmenge von ℝ² den Bereich des Bildes repräsentiert. Die VRD kann als eine Funktion definiert werden, die einen räumlich veränderlichen Satz von N_i Eingangsmerkmalen, der als eine Funktion sⁱ: I → ℝ^Ni präsentiert ist, auf einen Satz von N_o Ausgangsbewertungen s^o: I → ℝ^N
o abbildet. N_o wird als die Anzahl semantischer Klassen interpretiert, wobei $s_{k}^{o} (x)$
eine der k-ten Klasse eines Pixels x ∈ I zugeordnete Bewertung ist. Eine Vorhersage wird über $arg max_{k} s_{k}^{o} (x)$
erzeugt.
Ein Satz von Ausgangsvektoren von dem CNN 104 ist hier als sⁱ bezeichnet (wobei er die Eingabe in die VRD 106 bildet) und ein Satz von Ausgangsvektoren von der VRD 106 ist hier als s^o bezeichnet. Die zwei Vektoren können zu einem Vektor s = (s^oT s^iT)^T, der die Verkettung von sⁱ und s⁰ zu einer einzelnen Funktion I → ℝ^N
i+N
o bezeichnet, kombiniert werden. Das VRD-Modul 106 erzeugt durch Lösen eines Optimierungsproblems unter Verwendung von sⁱ als eine Eingabe s^o. Zur Bezeichnungseinfachheit ist die Abhängigkeit von s von dem spezifischen Pixel x in dem Bild I weggelassen. Das Optimierungsproblem kann ausgedrückt werden als: $arg min_{s^{o}} \int_{I} s^{T} Q s + \sum_{d = 1}^{2} \frac{\partial s^{T}}{\partial x_{d}} B \frac{\partial d}{\partial x_{d}} d x,$
wobei d die Dimensionen des Bildes repräsentiert. Die Parameter B und Q repräsentieren positiv definite Parametermatrizen, die unabhängig von x sind. Das Ergebnis ist ein unendlich dimensionales konvexes quadratisches Optimierungsproblem in s^o. Das Optimierungsproblem kann diskretisiert werden, wobei die Ableitungen durch eine Finite-Differenz-Näherung ersetzt werden: $\frac{\partial s}{\partial x_{k}} \approx v^{- 1} (s (x') - s (x)),$
wenn x' eine kleine Entfernung ε von x entlang der x_k-Achse entfernt ist. Intuitiv kann der Term s^TQs als ein unäres Potential interpretiert werden, das an jedem Punkt sⁱ und s^o in Beziehung setzt, wobei $\frac{\partial s^{T}}{\partial x_{k}} B \frac{\partial s}{\partial x_{k}}$
ein binäres Potential repräsentiert, das räumliche Änderungen in dem Bewertungsvektor zu verhindern sucht.
Um die Lösung zu dem obigen Optimierungsproblem auszudrücken, kann die Variationsrechnung verwendet werden, um seine Lösung als die des folgenden linearen Systems partieller Differentialgleichungen auszudrücken: $B^{o} Δ s^{o} - Q^{o} s^{o} = Q^{i} s^{i} - B^{i} Δ s^{i},$
wobei Δ den Vektor-Laplace Operator $({(Δ f)}_{i} : = \sum_{j} \partial^{2} f_{i} / \partial x_{j}^{2})$
repräsentiert und wobei B und Q in der Weise, dass s^TQs = s^oTQ^os^o + 2s^oTQⁱsⁱ + f(sⁱ) ist, in Untermatrizen B^o, Q^o, Bⁱ, Qⁱ unterteilt worden sind, und gleichfalls für B. Dieses System kann genau analog zu der Lösung eines endlich dimensionalen quadratischen über eine lineare Änderung von Variablen und Rücksubstitution effizient gelöst werden. Genauer wird die Schur-Zerlegung verwendet, um (B^o)^-1Q^o = VUV^T zu schreiben, wobei V orthonormal ist und U eine obere Dreiecksmatrix ist. Es wird eine Änderung von Variablen z = V^Ts^o ausgeführt und ein neuer Parameter als s^p := Qⁱsⁱ - BⁱΔsⁱ definiert. Unter Verwendung der Rücksubstitution wird eine Lösung für z ermittelt, wobei zunächst die folgende skalare partielle Differentialgleichung für z_N
o gelöst wird, z_N
o festgesetzt wird, nach Z_N
o-1 aufgelöst wird und rückwärts zu z₁ fortgeschritten wird: $Δ z_{k} - U_{k k} z_{k} = {(V^{T} {(B^{o})}^{- 1} s^{p})}_{k} + \sum_{j = k + 1}^{N_{o}} U_{k j} z_{j},$
wobei k eine bestimmte semantische Klasse repräsentiert.
Nach dem Auflösen nach z werden über s^o = Vz die Ausgangsbewertungen erhalten. Die obigen skalaren partiellen Differentialgleichungen können diskretisiert werden und entweder über eine schnelle Fourier-Transformation oder durch das Multigrid-Verfahren, dessen Komplexität in der Anzahl von Pixeln nur als N log N skaliert, gelöst werden.
Unter der Annahme einer Einheitsentfernung zwischen angrenzenden Pixeln liefert die Diskretisierung das folgende endliche lineare Gleichungssystem ∀x ∈ I ∩ ℤ², wobei f die rechte Seite der obigen Gleichung bezeichnet: $f (x) = - (U_{k k} + 4) z_{k} (x) + \sum_{{| | δ | |}_{1} = 1, δ \in ℤ^{2}} z_{k} (x + δ) .$
Unter der Annahme von Null-Grenzbedingungen kann dieses System durch eine diskrete Sinustransformation gelöst werden. Da der obige Ausdruck als eine Faltung von z_k mit einem Filter F geschrieben werden kann, kann z_k als die inverse diskrete Sinustransformation der diskreten Sinustransformation von f, dividiert durch die diskrete Sinustransformation von F, berechnet werden.
Wenn eine Lösung für z ermittelt worden ist, kann die Matrix V invertiert werden, um die Ausgabe hinsichtlich s^o, das die Ausgabe des VRD-Moduls 106 bildet, auszudrücken. Diese Ausgabe, die für jedes Pixel x in dem Bild I einen Satz von Werten bereitstellt, die jeder der k Segmentierungsklassen entsprechen, wird verwendet, um die Ausgangssegmentierungsklasse in Übereinstimmung mit der besten Bewertung in s^o zu bestimmen.
Nun in 2 ist ein Segmentierungsverfahren gezeigt. Der Block 202 verarbeitet unter Verwendung des CNN 104 einen Eingangsdatensatz (z. B. ein Bild) und erzeugt die Merkmalsbewertungen sⁱ. Im Block 204 empfängt das VRD-Modul 106 VRD-Eingangsparameter (z. B. wie oben beschriebene Matrizen B und Q, die mit der Schur-Zerlegung verarbeitet werden, um die Matrizen V und U zu bilden).
Der Block 206 transformiert den CNN-Ausgangsvektor sⁱ, um über eine lineare Transformation einen Zwischensatz von Bewertungen s^p zu bilden. Daraufhin verwendet der Block 206 die VRD-Parameter und s^p, um die oben beschriebenen partiellen Differentialgleichungen fürz zu lösen. Wie oben beschrieben wurde, wird die Variationsrechnung verwendet, um das Optimierungsproblem auf einen solchen Satz von Gleichungen zu reduzieren. Die Schur-Zerlegung stellt eine Änderung von Variablen bereit, die das Gleichungssystem auf eine obere Dreiecksform reduziert, die als eine Sequenz skalarwertiger partieller Differentialgleichungen gelöst werden kann (wobei z. B. von B^o und Q^o auf V und U geändert wird). Der Block 206 löst das Gleichungssystem für z^k in abnehmender Ordnung von k = N bis k = 1. Wenn z^k auf diese Weise vollständig gelöst worden ist, ermittelt der Block 208 auf der Grundlage von z Ausgangsklassenbewertungen s^o, wobei er die lineare Änderung in Variablen umkehrt, um die Segmentzuweisung für jedes Pixel in dem Bild bereitzustellen.
Nun anhand von 3 ist ein Verfahren zum Modelllernen und CNN-Training gezeigt. Während des Lernens wird durch Vergleichen einer erwarteten Segmentierungsausgabe mit s^o ein Eingangsfehlersignal erzeugt, wobei die Differenz zwischen den zwei das Fehlersignal repräsentiert. Das Fehlersignal ist als eine differenzierbare Verlustfunktion L(s^o) definiert. Das gradientenbasierte Lernen berechnet die Ableitungen von L in Bezug auf die Parametermatrizen B, Q und potentiell die Eingaben sⁱ, was ermöglicht, dass das Modell in der Rückpropagation verwendet wird. Die Rückpropagationsableitung ist $\frac{d L}{d s^{p}} : I \to ℝ^{N_{o}}$
und kann durch Lösen desselben Systems partieller Differentialgleichungen wie in dem oben beschriebenen Folgerungsprozess gelöst werden, wobei s^p durch $\frac{d L}{d s^{o}}$
ersetzt wird. Genauer wird die folgende Gleichung für $\frac{d L}{d s^{o}}$
gelöst: $B^{o} Δ \frac{d L}{d s^{p}} - Q^{o} \frac{d L}{d s^{p}} = \frac{d L}{d s^{o}} .$
Der Block 302 empfängt ein Fehlersignal von den Trainingsdaten und der Block 304 empfängt VRD-Eingangsparameter (z. B. dieselben Parameter, wie sie in dem obigen Block 204 verwendet werden). Der Block 306 löst die partiellen Differentialgleichungen für z . Der Block 308 verwendet die Variablenänderungsbeziehung $\frac{d L}{d s^{p}} = V z,$
um die Ausgangsrückpropagationsableitung zu erzeugen, und der Block 310 bestimmt VRD-Parameter-Ableitungen. Die Parameterableitungen können wie folgt als einfache Funktionen der Rückpropagationsableitung ausgedrückt werden: $\frac{d L}{d B^{o}} = - \int_{I} \frac{d L}{d s^{p}} Δ s^{o T} d x$
$\frac{d L}{d Q^{o}} = \int_{I} \frac{d L}{d s^{p}} Δ s^{o T} d x .$
Daraufhin stellt der Block 312 die Parameter für das VRD-Modul 106 und für das CNN 104 in Übereinstimmung mit dem Fehlersignal ein, wobei die jeweiligen Ableitungen einen Grad der Parameteränderung bereitstellen, die für ein gegebenes Fehlersignal notwendig ist.
Hier beschriebene Ausführungsformen können vollständig Hardware sein, vollständig Software sein oder sowohl Hardware- als auch Softwareelemente enthalten. In einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, was Firmware, residente Software, Mikrocode usw. enthält, darauf aber nicht beschränkt ist.
Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem durch Computer nutzbaren oder computerlesbaren Medium zugegriffen werden kann, das Programmcode zur Verwendung durch einen oder in Verbindung mit einem Computer oder irgendein anderes Anweisungsausführungssystem bereitstellt. Ein durch Computer nutzbares oder computerlesbares Medium kann irgendeine Einrichtung enthalten, die das Programm zur Verwendung durch oder in Verbindung mit einem Anweisungsausführungssystem, einer Anweisungsausführungseinrichtung oder einer Anweisungsausführungsvorrichtung speichert, übermittelt, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches System, ein Infrarot- oder Halbleitersystem (oder eine magnetische, optische, elektronische, elektromagnetische Einrichtung oder Vorrichtung, eine Infrarot- oder Halbleitereinrichtung oder Infrarot- oder Halbleitervorrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium wie etwa einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine Computerwechseldiskette, einen Schreib-Lese-Speicher (RAM), einen Nur-Lese-Speicher (ROM), eine magnetische Festplatte und eine optische Platte usw. enthalten.
Jedes Computerprogramm kann in maschinenlesbaren Ablagespeichermedien oder in einer maschinenlesbaren Ablagespeichervorrichtung (z. B. einem Programmspeicher oder einer Magnetplatte) konkret gespeichert sein, der bzw. die durch einen programmierbaren Universal- oder Spezialcomputer lesbar ist, um den Betrieb eines Computers zu konfigurieren und zu steuern, um die hier beschriebenen Prozeduren auszuführen, wenn die Ablagespeichermedien oder die Ablagespeichervorrichtung durch den Computer gelesen wird. Außerdem kann das erfindungsgemäße System als in einem computerlesbaren Ablagespeichermedium verkörpert betrachtet werden, das mit einem Computerprogramm konfiguriert ist, wobei das Ablagespeichermedium so konfiguriert ist, dass es veranlasst, dass ein Computer auf spezifische oder vorgegebene Weise zum Ausführen der hier beschriebenen Funktionen arbeitet.
Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor enthalten, der über einen Systembus mit Speicherelementen direkt oder indirekt gekoppelt ist. Die Speicherelemente können einen lokalen Speicher, der während der tatsächlichen Ausführung des Programmcodes genutzt wird, einen Massenablagespeicher und Cache-Speicher, die eine vorübergehende Speicherung von wenigstens etwas Programmcode bereitstellen, um die Anzahl zu verringern, in der Code während der Ausführung von dem Massenablagespeicher ausgelesen wird, enthalten. Mit dem System können entweder direkt oder über E/A-Zwischencontroller Eingabe/Ausgabe- oder E/A-Vorrichtungen (einschließlich Tastaturen, Anzeigen, Zeigevorrichtungen usw., darauf aber nicht beschränkt) gekoppelt sein.
Außerdem können mit dem System Netzadapter gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem über private oder öffentliche Zwischennetze mit anderen Datenverarbeitungssystemen oder fernen Druckern oder Ablagespeichervorrichtungen gekoppelt wird. Modems, Kabelmodem und Ethernetkarten sind nur einige der aktuell verfügbaren Typen von Netzadaptern.
Nun in 4 ist ein beispielhaftes Überwachungssystem 400 gezeigt, das ein konkretes Beispiel für die Bildsegmentierung bereitstellt. Insbesondere enthält das Überwachungssystem 400 einen Hardwareprozessor 402 und einen Speicher 404. Ferner enthält das Überwachungssystem 400 eine oder mehrere Kameras 412 und/oder andere Sensoren, die zum Erheben von Informationen in einer Umgebung verwendet werden können. Ferner enthält das Überwachungssystem 400 ein oder mehrere Funktionsmodule, die in einer Ausführungsform als Software implementiert sein können, die im Speicher 404 gespeichert ist und durch den Hardwareprozessor 402 ausgeführt wird. In einer alternativen Ausführungsform können die Funktionsmodule als eine oder mehrere diskrete Hardwarekomponenten, z. B. als anwendungsspezifische integrierte Chips oder freiprogrammierbare logische Anordnungen, implementiert sein.
Ein CNN 406 nimmt als Eingabe ein Bild I, das durch die Kamera 412 erfasst und im Speicher 404 gespeichert werden kann oder das durch irgendeine andere Quelle bereitgestellt werden kann. Das CNN 406 weist für jedes Pixel in dem Bild Bewertungen zu, die einem Satz verschiedener Segmentierungsklassen entsprechen, die durch das CNN 406 gelernt werden. Ein VRD-Modul 408 erzwingt an den durch das CNN ausgegebenen Bewertungen ein Glattheitskriterium, wobei es für jedes Pixel des Bildes aktualisierte Bewertungen bereitstellt. Daraufhin bestimmt ein Segmentierungsmodul 410, welche Pixel zu jeder Segmentierungsklasse gehören, wobei jedes Pixel in Übereinstimmung mit der besten Bewertung (z. B. in Abhängigkeit davon, wie die Bewertungen berechnet werden, der höchsten oder niedrigsten Bewertung) aus den aktualisierten Bewertungen dieser Pixel einer Klasse zugewiesen wird.
Falls das Segmentierungsmodul 410 das Vorhandensein z. B. einer bestimmten Klasse oder eines Musters von Klassen innerhalb des Eingangsbildes in dem Bild angibt, kann ein Warnmodul 414 dafür konfiguriert sein, eine Überwachungswarnung an einen Betreiber bereitzustellen und optional eine automatisierte Aktion wie etwa z. B. das Verriegeln von Türen oder das Erhöhen eines physikalischen Sicherheitsniveaus von Werksgeländen initiieren. Alternativ kann das Warnmodul 414 bei einer Änderung der Segmentierungsbewertungen über einen vorgegebenen Schwellenwert hinaus auslösen. Es kann irgendeine geeignete Bedingung implementiert werden, um z. B. eine Bewegung oder die Anwesenheit einer bestimmten Art eines Segmentierungsmusters innerhalb einer Videoeinspeisung zu erfassen. Eine Bedingung kann z. B. dadurch ausgelöst werden, dass eine Bewertung für eine gegebene Segmentierungsklasse einen Schwellenwert übersteigt oder falls eine Änderung der Segmentierungsbewertungen für eine oder mehrere der Segmentierungsklassen einen Schwellenwert übersteigt.
In 5 ist nun ein beispielhaftes Verarbeitungssystem 500 gezeigt, das das Netzmanagementsystem 400 darstellen kann. Das Verarbeitungssystem 500 enthält wenigstens einen Prozessor (eine CPU) 504, der über ein Bussystem 502 mit anderen Komponenten funktional gekoppelt ist. Mit dem Bussystem 502 sind ein Cache 506, ein Nur-Lese-Speicher (ROM) 508, ein Schreib-Lese-Speicher (RAM) 510, ein Eingabe/Ausgabe-Adapter (E/A-Adapter) 520, ein Tonadapter 530, ein Netzadapter 540, ein Nutzerschnittstellenadapter 550 und ein Anzeigeadapter 560 funktional gekoppelt.
Mit dem Bussystem 502 sind durch den E/A-Adapter 520 eine erste Ablagespeichervorrichtung 522 und eine zweite Ablagespeichervorrichtung 524 funktional gekoppelt. Die Ablagespeichervorrichtungen 522 und 524 können eine Plattenablagespeichervorrichtung (z. B. eine magnetische oder optische Plattenablagespeichervorrichtung) und/oder eine magnetische Festkörpervorrichtung usw. sein. Die Ablagespeichervorrichtungen 522 und 524 können vom selben Ablagespeichervorrichtungstyp oder von verschiedenen Ablagespeichervorrichtungstypen sein.
Mit dem Systembus 502 ist durch den Tonadapter 530 ein Lautsprecher 532 funktional gekoppelt. Mit dem Systembus 502 ist durch den Netzadapter 540 ein Transceiver 542 funktional gekoppelt. Mit dem Systembus 502 ist durch den Anzeigeadapter 560 eine Anzeigevorrichtung 562 funktional gekoppelt.
Mit dem Systembus 502 sind durch den Nutzerschnittstellenadapter 550 eine erste Nutzereingabevorrichtung 552, eine zweite Nutzereingabevorrichtung 554 und eine dritte Nutzereingabevorrichtung 556 funktional gekoppelt. Die Nutzereingabevorrichtungen 552, 554 und 556 können eine Tastatur oder eine Maus oder ein Tastenfeld oder eine Bilderfassungsvorrichtung oder eine Bewegungserfassungsvorrichtung oder ein Mikrofon oder eine Vorrichtung, die die Funktionalität wenigstens zweier der vorhergehenden Vorrichtungen enthält, usw. sein. Natürlich können andere Typen von Eingabevorrichtungen ebenfalls verwendet werden, während der Erfindungsgedanke der vorliegenden Prinzipien aufrechterhalten wird. Die Nutzereingabevorrichtungen 552, 554 und 556 können derselbe Nutzereingabevorrichtungstyp oder verschiedene Nutzereingabevorrichtungstypen sein. Die Nutzereingabevorrichtungen 552, 554 und 556 werden zum Eingeben und Ausgeben von Informationen in das und aus dem System 500 verwendet.
Wie der Fachmann auf dem Gebiet leicht versteht, kann das Verarbeitungssystem 500 natürlich außerdem andere Elemente (nicht gezeigt) enthalten und können bestimmte Elemente ebenfalls weggelassen sein. Wie der Durchschnittsfachmann auf dem Gebiet leicht versteht, können z. B. in Abhängigkeit von der bestimmten Implementierung desselben verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in dem Verarbeitungssystem 500 enthalten sein. Zum Beispiel können verschiedene Typen drahtloser und/oder verdrahteter Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Wie der Durchschnittsfachmann auf dem Gebiet leicht würdigen wird, können darüber hinaus außerdem zusätzliche Prozessoren, Controller, Speicher usw. in verschiedenen Konfigurationen genutzt werden. Durch den Durchschnittsfachmann auf dem Gebiet werden unter Verwendung der hier gegebenen Lehren der vorliegenden Prinzipien diese und andere Varianten des Verarbeitungssystems 500 leicht betrachtet.
Selbstverständlich soll das Vorstehende in jeder Hinsicht veranschaulichend und beispielhaft, aber nicht einschränkend sein und soll der Schutzumfang der hier offenbarten Erfindung nicht aus der ausführlichen Beschreibung, sondern stattdessen aus den in Übereinstimmung mit der vollen durch die Patentgesetze zulässigen Breite interpretierten Ansprüchen bestimmt werden. Selbstverständlich sind die hier gezeigten und beschriebenen Ausführungsformen nur veranschaulichend für die Prinzipien der vorliegenden Erfindung und kann der Fachmann auf dem Gebiet verschiedene Änderungen implementieren, ohne von dem Schutzumfang und von dem Erfindungsgedanken der Erfindung abzuweichen. Der Fachmann auf dem Gebiet könnte verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und von dem Erfindungsgedanken der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den Einzelheiten und mit der Ausführlichkeit, wie von den Patentgesetzen gefordert ist, beschrieben worden sind, ist in den angefügten Ansprüchen dargestellt, was durch die Patentschrift beansprucht wird und wofür durch sie Schutz begehrt wird.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/291076 [0001]

Claims

Verfahren für die Datensegmentierung, das umfasst: Bestimmen von Anfangssegmentierungsbewertungen für jede Einheit eines Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; Bestimmen von Endsegmentierungsbewertungen für jede Einheit des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums; und Segmentieren des Eingangsdatensatzes in Übereinstimmung mit den Endsegmentierungsbewertungen.
Verfahren nach Anspruch 1, wobei das Bestimmen der Endsegmentierungsbewertungen das Anwenden einer Variations-Reaktions-Diffusion (VRD) umfasst.
Verfahren nach Anspruch 2, wobei das Anwenden der VRD das Lösen eines Optimierungsproblems auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen umfasst.
Verfahren nach Anspruch 3, wobei das Lösen des Optimierungsproblems das Lösen eines Systems partieller Differentialgleichungen umfasst.
Verfahren nach Anspruch 4, wobei das Anwenden der VRD das Umwandeln des Optimierungsproblems in das System partieller Differentialgleichungen unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen umfasst.
Verfahren nach Anspruch 4, wobei das System partieller Differentialgleichungen ausgedrückt wird als: $Δ z_{k} - U_{k k} z_{k} = {(V^{T} {(B^{o})}^{- 1} s^{p})}_{k} + \sum_{j = k + 1}^{N_{o}} U_{k j} z_{j},$
wobei s^p als der Ausdruck Qⁱsⁱ - B^LΔsⁱ definiert ist, Qⁱ, Q^o, Bⁱ und B⁰ Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, sⁱ die Anfangssegmentierungsbewertungen für eine Dateneinheit sind, jedes z_k eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, N_o eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
Verfahren nach Anspruch 3, wobei das Optimierungsproblem ausgedrückt wird als: $arg min_{s^{o}} \int_{I} s^{T} Q s + \sum_{k = 1}^{2} \frac{\partial s^{T}}{\partial x_{k}} B \frac{\partial s}{\partial x_{k}} d x,$
wobei s^o ein Vektor der Endsegmentierungsbewertungen für eine Dateneinheit ist, x eine Dateneinheit im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der s^o und einen Vektor der Anfangssegmentierungsbewertungen für die Dateneinheit kombiniert.
Verfahren nach Anspruch 3, das ferner Rückpropagationsinformationen zum Trainieren des neuronalen Netzes unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals umfasst.
Verfahren nach Anspruch 8, wobei die Rückpropagationsinformationen das Bestimmen von Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen umfassen.
Verfahren nach Anspruch 1, wobei der Eingangsdatensatz ein Bild ist und wobei jede Einheit des Eingangsdatensatzes ein Pixel in dem Bild ist.
System für die Datensegmentierung, wobei das System umfasst: ein neuronales Netz, das dafür konfiguriert ist, für jede Einheit eines Eingangsdatensatzes Anfangssegmentierungsbewertungen zu bestimmen, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; und ein Segmentierungsmodul, das dafür konfiguriert ist, für jede Einheit des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen zu bestimmen und den Eingangsdatensatz in Übereinstimmung mit den Endsegmentierungsbewertungen zu segmentieren.
System nach Anspruch 11, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, eine Variations-Reaktions-Diffusion (VRD) anzuwenden, um die Endsegmentierungsbewertungen zu bestimmen.
System nach Anspruch 12, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein VRD-Optimierungsproblem auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen zu lösen.
System nach Anspruch 13, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein System partieller Differentialgleichungen zu lösen, um das Optimierungsproblem zu lösen.
System nach Anspruch 14, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, das Optimierungsproblem unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen in das System partieller Differentialgleichungen umzuwandeln.
System nach Anspruch 14, wobei das System partieller Differentialgleichungen ausgedrückt wird als: $Δ z_{k} - U_{k k} z_{k} = {(V^{T} {(B^{o})}^{- 1} s^{p})}_{k} + \sum_{j = k + 1}^{N_{o}} U_{k j} z_{j},$
wobei s^p als der Ausdruck Qⁱsⁱ - BⁱΔsⁱ definiert ist, Qⁱ, Q^o, Bⁱ und B⁰ Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, sⁱ die Anfangssegmentierungsbewertungen für eine Dateneinheit sind, jedes z_k eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, N_o eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
System nach Anspruch 13, wobei das Optimierungsproblem ausgedrückt wird als: $arg min_{s^{o}} \int_{I} s^{T} Q s + \sum_{k = 1}^{2} \frac{\partial s^{T}}{\partial x_{k}} B \frac{\partial s}{\partial x_{k}} d x,$
wobei s^o ein Vektor der Endsegmentierungsbewertungen für eine Dateneinheit ist, x eine Dateneinheit im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der s^o und einen Vektor der Anfangssegmentierungsbewertungen für die Dateneinheit kombiniert.
System nach Anspruch 13, wobei das neuronale Netz ferner dafür konfiguriert ist, Informationen rückzupropagieren, um das neuronale Netz unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals zu trainieren.
System nach Anspruch 18, wobei das neuronale Netz ferner dafür konfiguriert ist, Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen zu bestimmen.
System nach Anspruch 11, wobei der Eingangsdatensatz ein Bild ist und wobei jede Einheit des Eingangsdatensatzes ein Pixel in dem Bild ist.
Verfahren zum Überwachen einer Videoeinspeisung, wobei das Verfahren umfasst: Erfassen von Eingangsdaten, die einen überwachten Bereich repräsentieren, unter Verwendung einer oder mehrerer Kameras, um einen Eingangsdatensatz zu erzeugen, der einzelne Bilder umfasst; Bestimmen von Anfangssegmentierungsbewertungen für jedes Bild des Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jedem Bild für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; Bestimmen von Endsegmentierungsbewertungen für jedes Bild des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums; Segmentieren des Eingangsdatensatzes in Übereinstimmung mit den Endsegmentierungsbewertungen; Bestimmen, ob eine Warnbedingung erfüllt ist, auf der Grundlage des segmentierten Eingangsdatensatzes; und Erzeugen einer Warnung, falls die Warnbedingung erfüllt ist.
Verfahren nach Anspruch 21, wobei das Bestimmen der Endsegmentierungsbewertungen das Anwenden einer Variations-Reaktions-Diffusion (VRD) umfasst.
Verfahren nach Anspruch 22, wobei das Anwenden der VRD das Lösen eines Optimierungsproblems auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen umfasst.
Verfahren nach Anspruch 23, wobei das Lösen des Optimierungsproblems das Lösen eines Systems partieller Differentialgleichungen umfasst.
Verfahren nach Anspruch 24, wobei das Anwenden der VRD das Umwandeln des Optimierungsproblems in das System partieller Differentialgleichungen unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen umfasst.
Verfahren nach Anspruch 24, wobei das System partieller Differentialgleichungen ausgedrückt wird als: $Δ z_{k} - U_{k k} z_{k} = {(V^{T} {(B^{o})}^{- 1} s^{p})}_{k} + \sum_{j = k + 1}^{N_{o}} U_{k j} z_{j},$
wobei s^p als der Ausdruck Qⁱsⁱ - BⁱΔsⁱ definiert ist, Qⁱ, Q^o, Bⁱ und B⁰ Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, sⁱ die Anfangssegmentierungsbewertungen für ein Bild sind, jedes z_k eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, N_o eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
Verfahren nach Anspruch 23, wobei das Optimierungsproblem ausgedrückt wird als: $arg min_{s^{o}} \int_{I} s^{T} Q s + \sum_{k = 1}^{2} \frac{\partial s^{T}}{\partial x_{k}} B \frac{\partial s}{\partial x_{k}} d x,$
wobei s^o ein Vektor der Endsegmentierungsbewertungen für ein Bild ist, x ein Bild im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der s^o und einen Vektor der Anfangssegmentierungsbewertungen für das Bild kombiniert.
Verfahren nach Anspruch 23, das ferner Rückpropagationsinformationen zum Trainieren des neuronalen Netzes unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals umfasst.
Verfahren nach Anspruch 28, wobei die Rückpropagationsinformationen das Bestimmen von Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen umfassen.
Verfahren nach Anspruch 21, wobei die Warnbedingung eine Bedingung umfasst, die aus dem Satz ausgewählt wird, dass eine Endsegmentierungsbewertung für eine vorgegebene der mehreren Segmentierungsklassen einen Schwellenwert übersteigt und dass eine Änderung der Endsegmentierungsbewertungen einen Schwellenwert übersteigt.
System für die Datensegmentierung, wobei das System umfasst: eine oder mehrere Kameras, die dafür konfiguriert sind, einen Eingangsdatensatz zu erzeugen, der einzelne Bilder umfasst; ein neuronales Netz, das dafür konfiguriert ist, für jedes Bild eines Eingangsdatensatzes Anfangssegmentierungsbewertungen zu bestimmen, wobei jedem Bild für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; ein Segmentierungsmodul, das dafür konfiguriert ist, für jedes Bild des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen zu bestimmen und den Eingangsdatensatz in Übereinstimmung mit den Endsegmentierungsbewertungen zu segmentieren; und ein Warnmodul, das dafür konfiguriert ist, auf der Grundlage des segmentierten Eingangsdatensatzes zu bestimmen, ob eine Warnbedingung erfüllt ist, und eine Warnung zu erzeugen, falls die Warnbedingung erfüllt ist.
System nach Anspruch 31, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, eine Variations-Reaktions-Diffusion (VRD) anzuwenden, um die Endsegmentierungsbewertungen zu bestimmen.
System nach Anspruch 32, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein VRD-Optimierungsproblem auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen zu lösen.
System nach Anspruch 33, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein System partieller Differentialgleichungen zu lösen, um das Optimierungsproblem zu lösen.
System nach Anspruch 34, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, das Optimierungsproblem unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen in das System partieller Differentialgleichungen umzuwandeln.
System nach Anspruch 34, wobei das System partieller Differentialgleichungen ausgedrückt wird als: $Δ z_{k} - U_{k k} z_{k} = {(V^{T} {(B^{o})}^{- 1} s^{p})}_{k} + \sum_{j = k + 1}^{N_{o}} U_{k j} z_{j},$
wobei s^p als der Ausdruck Qⁱsⁱ - BⁱΔsⁱ definiert ist, Qⁱ, Q^o, Bⁱ und B⁰ Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, sⁱ die Anfangssegmentierungsbewertungen für eine Dateneinheit sind, jedes z_k eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, N_o eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
Verfahren nach Anspruch 33, wobei das Optimierungsproblem ausgedrückt wird als: $arg min_{s^{o}} \int_{I} s^{T} Q s + \sum_{k = 1}^{2} \frac{\partial s^{T}}{\partial x_{k}} B \frac{\partial s}{\partial x_{k}} d x,$
wobei s^o ein Vektor der Endsegmentierungsbewertungen für eine Dateneinheit ist, x eine Dateneinheit im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der s^o und einen Vektor der Anfangssegmentierungsbewertungen für die Dateneinheit kombiniert.
System nach Anspruch 33, wobei das neuronale Netz ferner dafür konfiguriert ist, Informationen rückzupropagieren, um das neuronale Netz unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals zu trainieren.
System nach Anspruch 38, wobei das neuronale Netz ferner dafür konfiguriert ist, Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen zu bestimmen.
System nach Anspruch 31, wobei die Warnbedingung eine Bedingung umfasst, die aus dem Satz ausgewählt wird, dass eine Endsegmentierungsbewertung für eine vorgegebene der mehreren Segmentierungsklassen einen Schwellenwert übersteigt und dass eine Änderung der Endsegmentierungsbewertungen einen Schwellenwert übersteigt.