DE112017000669T5 - Semantische Segmentierung auf der Grundlage einer globalen Optimierung - Google Patents

Semantische Segmentierung auf der Grundlage einer globalen Optimierung Download PDF

Info

Publication number
DE112017000669T5
DE112017000669T5 DE112017000669.4T DE112017000669T DE112017000669T5 DE 112017000669 T5 DE112017000669 T5 DE 112017000669T5 DE 112017000669 T DE112017000669 T DE 112017000669T DE 112017000669 T5 DE112017000669 T5 DE 112017000669T5
Authority
DE
Germany
Prior art keywords
segmentation
scores
data set
input data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112017000669.4T
Other languages
English (en)
Inventor
Paul Vernaza
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112017000669T5 publication Critical patent/DE112017000669T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren und Systeme für die Datensegmentierung enthalten das Bestimmen von Anfangssegmentierungsbewertungen für jede Einheit eines Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierung zugewiesen wird. Für jede Einheit des Einheitsdatensatzes werden durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen bestimmt. Der Eingangsdatensatz wird in Übereinstimmung mit den Endsegmentierungsbewertungen segmentiert.

Description

  • INFORMATIONEN ÜBER VERWANDTE ANMELDUNG
  • Diese Anmeldung beansprucht die Priorität der US-Anmeldung, lfd. Nr. 62/291.076 , eingereicht am 4. Februar 2016, die hier durch Bezugnahme vollständig mit aufgenommen ist.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf die Bildsegmentierung und insbesondere auf eine geänderte Segmentierung durch ein neuronales Netz, die einen Reaktions-Diffusions-Prozess verwendet, der einem Variationsprinzip genügt (als „Variations-Reaktions-Diffusion“ bezeichnet).
  • Beschreibung des verwandten Gebiets
  • Die semantische Segmentierung soll ankommende Daten, z. B. in Form eines Grafikbildes, nehmen und die Daten in logische Segmente teilen. Im Fall der Verarbeitung eines Bildes kann die segmentierte Ausgabe Pixel, die z. B. Menschen, Straßen, Bäume oder andere typische Bildmerkmale repräsentieren, miteinander gruppieren.
  • Obwohl verschiedene Segmentierungstechniken verwendet werden, ist die vorhandene semantische Segmentierung entweder rechentechnisch kurzsichtig (wobei sie z. B. immer nur einen kleinen Teil des Bildes berücksichtigt) oder rechentechnisch ineffizient.
  • ZUSAMMENFASSUNG
  • Ein Verfahren für die Datensegmentierung enthält das Bestimmen von Anfangssegmentierungsbewertungen für jede Einheit eines Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierung zugewiesen wird. Für jede Einheit des Einheitsdatensatzes werden durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen bestimmt. Der Eingangsdatensatz wird in Übereinstimmung mit den Endsegmentierungsbewertungen segmentiert.
  • Ein System für die Datensegmentierung enthält ein neuronales Netz, das dafür konfiguriert ist, für jede Einheit eines Einheitsdatensatzes Anfangssegmentierungsbewertungen zu bestimmen, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird. Ein Segmentierungsmodul ist dafür konfiguriert, für jede Einheit des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen zu bestimmen und den Eingangsdatensatz in Übereinstimmung mit den Endsegmentierungsbewertungen zu segmentieren.
  • Figurenliste
  • Die Offenbarung bietet in der folgenden Beschreibung bevorzugter Ausführungsformen mit Bezug auf die folgenden Figuren Einzelheiten; es zeigen
    • 1 einen Blockschaltplan/Ablaufplan eines Verfahrens/Systems für die Datensegmentierung in Übereinstimmung mit den vorliegenden Prinzipien;
    • 2 einen Blockschaltplan/Ablaufplan eines Verfahrens für die Datensegmentierung in Übereinstimmung mit den vorliegenden Prinzipien;
    • 3 einen Blockschaltplan/Ablaufplan eines Verfahrens für das Training eines Modells und eines neuronalen Netzes in Übereinstimmung mit den vorliegenden Prinzipien;
    • 4 einen Blockschaltplan eines Überwachungssystems in Übereinstimmung mit den vorliegenden Prinzipien; und
    • 5 einen Blockschaltplan eines Verarbeitungssystems in Übereinstimmung mit den vorliegenden Prinzipien.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Ausführungsformen der vorliegenden Erfindung schaffen eine Bildsegmentierung, die ein Convolutional Neural Network (CNN) verwendet, um Bildmerkmale zu identifizieren, und die ferner die Variations-Reaktions-Diffusion (VRD) verwendet, um die Glattheit in der Segmentierungsausgabe sicherzustellen. Die VRD wird während des CNN-Trainings verwendet sowie dazu, Rückwärtspropagationsableitungen zu erzeugen, die zum Einstellen von Gewichten in dem CNN verwendet werden können. Die hier beschriebenen VRD-Prozesse stellen in der Zeit N log N in der Anzahl von Pixeln genaue Folgerungs- und Verlustableitungen bereit.
  • Die Folgerung in der VRD kann gemäß der Dynamik eines Reaktions-Diffusions-Prozesses als sich entwickelnde Evidenz (oder Klassenbewertungen) interpretiert werden. Evidenz für eine semantische Klasse kann als ein unäres Potential modelliert werden, das sich über Diffusion über das Bild fortpflanzt und mit der Evidenz anderer semantischer Klassen reagiert. Jeder dieser Prozesse kann lokal Evidenz für jede Klasse erzeugen oder unterdrücken. Dadurch, dass das Modell auf die Klasse von Prozessen beschränkt wird, die Lösungen für konvexe Variationsprobleme erzeugt, kann ein stabiles Gleichgewicht sichergestellt werden.
  • Nun ausführlich anhand der Figuren, in denen gleiche Bezugszeichen dieselben oder ähnliche Elemente repräsentieren und anfangs anhand von 1, ist veranschaulichend eine semantische Segmentierungsprozedur in Übereinstimmung mit einer Ausführungsform der vorliegenden Prinzipien dargestellt. Es wird ein Eingangsbild 102 bereitgestellt, das aus einer zweidimensionalen Anordnung von Pixeln gebildet ist. Selbstverständlich sind die vorliegenden Prinzipien nicht auf grafische Informationen beschränkt und können sie stattdessen auf irgendeine Art von Informationen, die segmentierbare Merkmale aufweisen, angewendet werden. Das Eingangsbild 102 wird durch das CNN 104 verwendet, um einen Satz von Merkmalsausgaben zu erzeugen. Jedes Pixel in dem Eingangsbild 102 kann einer einzelnen Eingabe des CNN entsprechen, wobei die Anzahl der Ausgaben pro Pixel des CNN 104 einer Anzahl verschiedener Segmentierungsfelder entspricht, die für die Bildeingabe 102 ausgewählt werden.
  • Für jedes Pixel des Eingangsbildes 102 erzeugt das CNN 104 einen Ausgangsvektor, der entlang jedes eines Satzes verschiedener Segmentierungsfelder Zahlenwerte für das Pixel enthält. Es ist festzustellen, dass die Segmentierungsfelder nicht notwendig intuitiven Merkmalen der Bildeingabe 102 entsprechen, sondern stattdessen das Ergebnis des Trainingsprozesses des CNN sind, wobei sie automatisch erzeugte Merkmale repräsentieren, die eine sinnvolle Segmentierung des Bildes bereitstellen.
  • Die Ausgangsvektoren werden durch ein VRD-Modul 106 verwendet, um ein Glattheitskriterium in dem Bild sicherzustellen. In einem Beispiel kann sich die Glattheit auf eine Tendenz für Pixel in einem bestimmten Segment einer Bildeingabe 102 beziehen, sich aneinander angrenzend oder wenigstens nahe beieinander zu befinden. Während des Trainings stellt das VRD-Modul 106 außerdem auf der Grundlage eines Fehlersignals Fehlerinformationen zurück für das CNN 104 bereit. Sowohl das VRD-Modul 106 als auch das CNN 104 stellen als Reaktion auf das Fehlersignal interne Parameter ein, um den künftigen Betrieb zu verbessern. Die VRD 106 gibt für jedes Pixel einen Satz von Vektoren aus, die Segmentierungsbewertungen repräsentieren, wobei eine beste Bewertung für jedes Pixel das diesem Pixel zugeordnete Segment repräsentiert.
  • Wie oben angemerkt wurde, kann die Bildeingabe als I ⊂ ℝ2 repräsentiert werden, wobei eine rechteckige Teilmenge von ℝ2 den Bereich des Bildes repräsentiert. Die VRD kann als eine Funktion definiert werden, die einen räumlich veränderlichen Satz von Ni Eingangsmerkmalen, der als eine Funktion si: I → ℝNi präsentiert ist, auf einen Satz von No Ausgangsbewertungen so: I → ℝN o abbildet. No wird als die Anzahl semantischer Klassen interpretiert, wobei s k o ( x )
    Figure DE112017000669T5_0001
    eine der k-ten Klasse eines Pixels x ∈ I zugeordnete Bewertung ist. Eine Vorhersage wird über arg max k s k o ( x )
    Figure DE112017000669T5_0002
    erzeugt.
  • Ein Satz von Ausgangsvektoren von dem CNN 104 ist hier als si bezeichnet (wobei er die Eingabe in die VRD 106 bildet) und ein Satz von Ausgangsvektoren von der VRD 106 ist hier als so bezeichnet. Die zwei Vektoren können zu einem Vektor s = (soT siT)T, der die Verkettung von si und s0 zu einer einzelnen Funktion I → ℝN i+N o bezeichnet, kombiniert werden. Das VRD-Modul 106 erzeugt durch Lösen eines Optimierungsproblems unter Verwendung von si als eine Eingabe so. Zur Bezeichnungseinfachheit ist die Abhängigkeit von s von dem spezifischen Pixel x in dem Bild I weggelassen. Das Optimierungsproblem kann ausgedrückt werden als: arg min s o I s T Q s + d = 1 2 s T x d B d x d d x ,
    Figure DE112017000669T5_0003
    wobei d die Dimensionen des Bildes repräsentiert. Die Parameter B und Q repräsentieren positiv definite Parametermatrizen, die unabhängig von x sind. Das Ergebnis ist ein unendlich dimensionales konvexes quadratisches Optimierungsproblem in so. Das Optimierungsproblem kann diskretisiert werden, wobei die Ableitungen durch eine Finite-Differenz-Näherung ersetzt werden: s x k v 1 ( s ( x ' ) s ( x ) ) ,
    Figure DE112017000669T5_0004
    wenn x' eine kleine Entfernung ε von x entlang der xk-Achse entfernt ist. Intuitiv kann der Term sTQs als ein unäres Potential interpretiert werden, das an jedem Punkt si und so in Beziehung setzt, wobei s T x k B s x k
    Figure DE112017000669T5_0005
    ein binäres Potential repräsentiert, das räumliche Änderungen in dem Bewertungsvektor zu verhindern sucht.
  • Um die Lösung zu dem obigen Optimierungsproblem auszudrücken, kann die Variationsrechnung verwendet werden, um seine Lösung als die des folgenden linearen Systems partieller Differentialgleichungen auszudrücken: B o Δ s o Q o s o = Q i s i B i Δ s i ,
    Figure DE112017000669T5_0006
    wobei Δ den Vektor-Laplace Operator ( ( Δ f ) i : = j 2 f i / x j 2 )
    Figure DE112017000669T5_0007
    repräsentiert und wobei B und Q in der Weise, dass sTQs = soTQoso + 2soTQisi + f(si) ist, in Untermatrizen Bo, Qo, Bi, Qi unterteilt worden sind, und gleichfalls für B. Dieses System kann genau analog zu der Lösung eines endlich dimensionalen quadratischen über eine lineare Änderung von Variablen und Rücksubstitution effizient gelöst werden. Genauer wird die Schur-Zerlegung verwendet, um (Bo)-1Qo = VUVT zu schreiben, wobei V orthonormal ist und U eine obere Dreiecksmatrix ist. Es wird eine Änderung von Variablen z = VTso ausgeführt und ein neuer Parameter als sp := Qisi - BiΔsi definiert. Unter Verwendung der Rücksubstitution wird eine Lösung für z ermittelt, wobei zunächst die folgende skalare partielle Differentialgleichung für zN o gelöst wird, zN o festgesetzt wird, nach ZN o-1 aufgelöst wird und rückwärts zu z1 fortgeschritten wird: Δ z k U k k z k = ( V T ( B o ) 1 s p ) k + j = k + 1 N o U k j z j ,
    Figure DE112017000669T5_0008
    wobei k eine bestimmte semantische Klasse repräsentiert.
  • Nach dem Auflösen nach z werden über so = Vz die Ausgangsbewertungen erhalten. Die obigen skalaren partiellen Differentialgleichungen können diskretisiert werden und entweder über eine schnelle Fourier-Transformation oder durch das Multigrid-Verfahren, dessen Komplexität in der Anzahl von Pixeln nur als N log N skaliert, gelöst werden.
  • Unter der Annahme einer Einheitsentfernung zwischen angrenzenden Pixeln liefert die Diskretisierung das folgende endliche lineare Gleichungssystem ∀x ∈ I ∩ ℤ2, wobei f die rechte Seite der obigen Gleichung bezeichnet: f ( x ) = ( U k k + 4 ) z k ( x ) + | | δ | | 1 = 1, δ 2 z k ( x + δ ) .
    Figure DE112017000669T5_0009
    Unter der Annahme von Null-Grenzbedingungen kann dieses System durch eine diskrete Sinustransformation gelöst werden. Da der obige Ausdruck als eine Faltung von zk mit einem Filter F geschrieben werden kann, kann zk als die inverse diskrete Sinustransformation der diskreten Sinustransformation von f, dividiert durch die diskrete Sinustransformation von F, berechnet werden.
  • Wenn eine Lösung für z ermittelt worden ist, kann die Matrix V invertiert werden, um die Ausgabe hinsichtlich so, das die Ausgabe des VRD-Moduls 106 bildet, auszudrücken. Diese Ausgabe, die für jedes Pixel x in dem Bild I einen Satz von Werten bereitstellt, die jeder der k Segmentierungsklassen entsprechen, wird verwendet, um die Ausgangssegmentierungsklasse in Übereinstimmung mit der besten Bewertung in so zu bestimmen.
  • Nun in 2 ist ein Segmentierungsverfahren gezeigt. Der Block 202 verarbeitet unter Verwendung des CNN 104 einen Eingangsdatensatz (z. B. ein Bild) und erzeugt die Merkmalsbewertungen si. Im Block 204 empfängt das VRD-Modul 106 VRD-Eingangsparameter (z. B. wie oben beschriebene Matrizen B und Q, die mit der Schur-Zerlegung verarbeitet werden, um die Matrizen V und U zu bilden).
  • Der Block 206 transformiert den CNN-Ausgangsvektor si, um über eine lineare Transformation einen Zwischensatz von Bewertungen sp zu bilden. Daraufhin verwendet der Block 206 die VRD-Parameter und sp, um die oben beschriebenen partiellen Differentialgleichungen fürz zu lösen. Wie oben beschrieben wurde, wird die Variationsrechnung verwendet, um das Optimierungsproblem auf einen solchen Satz von Gleichungen zu reduzieren. Die Schur-Zerlegung stellt eine Änderung von Variablen bereit, die das Gleichungssystem auf eine obere Dreiecksform reduziert, die als eine Sequenz skalarwertiger partieller Differentialgleichungen gelöst werden kann (wobei z. B. von Bo und Qo auf V und U geändert wird). Der Block 206 löst das Gleichungssystem für zk in abnehmender Ordnung von k = N bis k = 1. Wenn zk auf diese Weise vollständig gelöst worden ist, ermittelt der Block 208 auf der Grundlage von z Ausgangsklassenbewertungen so, wobei er die lineare Änderung in Variablen umkehrt, um die Segmentzuweisung für jedes Pixel in dem Bild bereitzustellen.
  • Nun anhand von 3 ist ein Verfahren zum Modelllernen und CNN-Training gezeigt. Während des Lernens wird durch Vergleichen einer erwarteten Segmentierungsausgabe mit so ein Eingangsfehlersignal erzeugt, wobei die Differenz zwischen den zwei das Fehlersignal repräsentiert. Das Fehlersignal ist als eine differenzierbare Verlustfunktion L(so) definiert. Das gradientenbasierte Lernen berechnet die Ableitungen von L in Bezug auf die Parametermatrizen B, Q und potentiell die Eingaben si, was ermöglicht, dass das Modell in der Rückpropagation verwendet wird. Die Rückpropagationsableitung ist d L d s p : I N o
    Figure DE112017000669T5_0010
    und kann durch Lösen desselben Systems partieller Differentialgleichungen wie in dem oben beschriebenen Folgerungsprozess gelöst werden, wobei sp durch d L d s o
    Figure DE112017000669T5_0011
    ersetzt wird. Genauer wird die folgende Gleichung für d L d s o
    Figure DE112017000669T5_0012
    gelöst: B o Δ d L d s p Q o d L d s p = d L d s o .
    Figure DE112017000669T5_0013
  • Der Block 302 empfängt ein Fehlersignal von den Trainingsdaten und der Block 304 empfängt VRD-Eingangsparameter (z. B. dieselben Parameter, wie sie in dem obigen Block 204 verwendet werden). Der Block 306 löst die partiellen Differentialgleichungen für z . Der Block 308 verwendet die Variablenänderungsbeziehung d L d s p = V z ,
    Figure DE112017000669T5_0014
    um die Ausgangsrückpropagationsableitung zu erzeugen, und der Block 310 bestimmt VRD-Parameter-Ableitungen. Die Parameterableitungen können wie folgt als einfache Funktionen der Rückpropagationsableitung ausgedrückt werden: d L d B o = I d L d s p Δ s o T d x
    Figure DE112017000669T5_0015
    d L d Q o = I d L d s p Δ s o T d x .
    Figure DE112017000669T5_0016
  • Daraufhin stellt der Block 312 die Parameter für das VRD-Modul 106 und für das CNN 104 in Übereinstimmung mit dem Fehlersignal ein, wobei die jeweiligen Ableitungen einen Grad der Parameteränderung bereitstellen, die für ein gegebenes Fehlersignal notwendig ist.
  • Hier beschriebene Ausführungsformen können vollständig Hardware sein, vollständig Software sein oder sowohl Hardware- als auch Softwareelemente enthalten. In einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, was Firmware, residente Software, Mikrocode usw. enthält, darauf aber nicht beschränkt ist.
  • Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem durch Computer nutzbaren oder computerlesbaren Medium zugegriffen werden kann, das Programmcode zur Verwendung durch einen oder in Verbindung mit einem Computer oder irgendein anderes Anweisungsausführungssystem bereitstellt. Ein durch Computer nutzbares oder computerlesbares Medium kann irgendeine Einrichtung enthalten, die das Programm zur Verwendung durch oder in Verbindung mit einem Anweisungsausführungssystem, einer Anweisungsausführungseinrichtung oder einer Anweisungsausführungsvorrichtung speichert, übermittelt, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches System, ein Infrarot- oder Halbleitersystem (oder eine magnetische, optische, elektronische, elektromagnetische Einrichtung oder Vorrichtung, eine Infrarot- oder Halbleitereinrichtung oder Infrarot- oder Halbleitervorrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium wie etwa einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine Computerwechseldiskette, einen Schreib-Lese-Speicher (RAM), einen Nur-Lese-Speicher (ROM), eine magnetische Festplatte und eine optische Platte usw. enthalten.
  • Jedes Computerprogramm kann in maschinenlesbaren Ablagespeichermedien oder in einer maschinenlesbaren Ablagespeichervorrichtung (z. B. einem Programmspeicher oder einer Magnetplatte) konkret gespeichert sein, der bzw. die durch einen programmierbaren Universal- oder Spezialcomputer lesbar ist, um den Betrieb eines Computers zu konfigurieren und zu steuern, um die hier beschriebenen Prozeduren auszuführen, wenn die Ablagespeichermedien oder die Ablagespeichervorrichtung durch den Computer gelesen wird. Außerdem kann das erfindungsgemäße System als in einem computerlesbaren Ablagespeichermedium verkörpert betrachtet werden, das mit einem Computerprogramm konfiguriert ist, wobei das Ablagespeichermedium so konfiguriert ist, dass es veranlasst, dass ein Computer auf spezifische oder vorgegebene Weise zum Ausführen der hier beschriebenen Funktionen arbeitet.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor enthalten, der über einen Systembus mit Speicherelementen direkt oder indirekt gekoppelt ist. Die Speicherelemente können einen lokalen Speicher, der während der tatsächlichen Ausführung des Programmcodes genutzt wird, einen Massenablagespeicher und Cache-Speicher, die eine vorübergehende Speicherung von wenigstens etwas Programmcode bereitstellen, um die Anzahl zu verringern, in der Code während der Ausführung von dem Massenablagespeicher ausgelesen wird, enthalten. Mit dem System können entweder direkt oder über E/A-Zwischencontroller Eingabe/Ausgabe- oder E/A-Vorrichtungen (einschließlich Tastaturen, Anzeigen, Zeigevorrichtungen usw., darauf aber nicht beschränkt) gekoppelt sein.
  • Außerdem können mit dem System Netzadapter gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem über private oder öffentliche Zwischennetze mit anderen Datenverarbeitungssystemen oder fernen Druckern oder Ablagespeichervorrichtungen gekoppelt wird. Modems, Kabelmodem und Ethernetkarten sind nur einige der aktuell verfügbaren Typen von Netzadaptern.
  • Nun in 4 ist ein beispielhaftes Überwachungssystem 400 gezeigt, das ein konkretes Beispiel für die Bildsegmentierung bereitstellt. Insbesondere enthält das Überwachungssystem 400 einen Hardwareprozessor 402 und einen Speicher 404. Ferner enthält das Überwachungssystem 400 eine oder mehrere Kameras 412 und/oder andere Sensoren, die zum Erheben von Informationen in einer Umgebung verwendet werden können. Ferner enthält das Überwachungssystem 400 ein oder mehrere Funktionsmodule, die in einer Ausführungsform als Software implementiert sein können, die im Speicher 404 gespeichert ist und durch den Hardwareprozessor 402 ausgeführt wird. In einer alternativen Ausführungsform können die Funktionsmodule als eine oder mehrere diskrete Hardwarekomponenten, z. B. als anwendungsspezifische integrierte Chips oder freiprogrammierbare logische Anordnungen, implementiert sein.
  • Ein CNN 406 nimmt als Eingabe ein Bild I, das durch die Kamera 412 erfasst und im Speicher 404 gespeichert werden kann oder das durch irgendeine andere Quelle bereitgestellt werden kann. Das CNN 406 weist für jedes Pixel in dem Bild Bewertungen zu, die einem Satz verschiedener Segmentierungsklassen entsprechen, die durch das CNN 406 gelernt werden. Ein VRD-Modul 408 erzwingt an den durch das CNN ausgegebenen Bewertungen ein Glattheitskriterium, wobei es für jedes Pixel des Bildes aktualisierte Bewertungen bereitstellt. Daraufhin bestimmt ein Segmentierungsmodul 410, welche Pixel zu jeder Segmentierungsklasse gehören, wobei jedes Pixel in Übereinstimmung mit der besten Bewertung (z. B. in Abhängigkeit davon, wie die Bewertungen berechnet werden, der höchsten oder niedrigsten Bewertung) aus den aktualisierten Bewertungen dieser Pixel einer Klasse zugewiesen wird.
  • Falls das Segmentierungsmodul 410 das Vorhandensein z. B. einer bestimmten Klasse oder eines Musters von Klassen innerhalb des Eingangsbildes in dem Bild angibt, kann ein Warnmodul 414 dafür konfiguriert sein, eine Überwachungswarnung an einen Betreiber bereitzustellen und optional eine automatisierte Aktion wie etwa z. B. das Verriegeln von Türen oder das Erhöhen eines physikalischen Sicherheitsniveaus von Werksgeländen initiieren. Alternativ kann das Warnmodul 414 bei einer Änderung der Segmentierungsbewertungen über einen vorgegebenen Schwellenwert hinaus auslösen. Es kann irgendeine geeignete Bedingung implementiert werden, um z. B. eine Bewegung oder die Anwesenheit einer bestimmten Art eines Segmentierungsmusters innerhalb einer Videoeinspeisung zu erfassen. Eine Bedingung kann z. B. dadurch ausgelöst werden, dass eine Bewertung für eine gegebene Segmentierungsklasse einen Schwellenwert übersteigt oder falls eine Änderung der Segmentierungsbewertungen für eine oder mehrere der Segmentierungsklassen einen Schwellenwert übersteigt.
  • In 5 ist nun ein beispielhaftes Verarbeitungssystem 500 gezeigt, das das Netzmanagementsystem 400 darstellen kann. Das Verarbeitungssystem 500 enthält wenigstens einen Prozessor (eine CPU) 504, der über ein Bussystem 502 mit anderen Komponenten funktional gekoppelt ist. Mit dem Bussystem 502 sind ein Cache 506, ein Nur-Lese-Speicher (ROM) 508, ein Schreib-Lese-Speicher (RAM) 510, ein Eingabe/Ausgabe-Adapter (E/A-Adapter) 520, ein Tonadapter 530, ein Netzadapter 540, ein Nutzerschnittstellenadapter 550 und ein Anzeigeadapter 560 funktional gekoppelt.
  • Mit dem Bussystem 502 sind durch den E/A-Adapter 520 eine erste Ablagespeichervorrichtung 522 und eine zweite Ablagespeichervorrichtung 524 funktional gekoppelt. Die Ablagespeichervorrichtungen 522 und 524 können eine Plattenablagespeichervorrichtung (z. B. eine magnetische oder optische Plattenablagespeichervorrichtung) und/oder eine magnetische Festkörpervorrichtung usw. sein. Die Ablagespeichervorrichtungen 522 und 524 können vom selben Ablagespeichervorrichtungstyp oder von verschiedenen Ablagespeichervorrichtungstypen sein.
  • Mit dem Systembus 502 ist durch den Tonadapter 530 ein Lautsprecher 532 funktional gekoppelt. Mit dem Systembus 502 ist durch den Netzadapter 540 ein Transceiver 542 funktional gekoppelt. Mit dem Systembus 502 ist durch den Anzeigeadapter 560 eine Anzeigevorrichtung 562 funktional gekoppelt.
  • Mit dem Systembus 502 sind durch den Nutzerschnittstellenadapter 550 eine erste Nutzereingabevorrichtung 552, eine zweite Nutzereingabevorrichtung 554 und eine dritte Nutzereingabevorrichtung 556 funktional gekoppelt. Die Nutzereingabevorrichtungen 552, 554 und 556 können eine Tastatur oder eine Maus oder ein Tastenfeld oder eine Bilderfassungsvorrichtung oder eine Bewegungserfassungsvorrichtung oder ein Mikrofon oder eine Vorrichtung, die die Funktionalität wenigstens zweier der vorhergehenden Vorrichtungen enthält, usw. sein. Natürlich können andere Typen von Eingabevorrichtungen ebenfalls verwendet werden, während der Erfindungsgedanke der vorliegenden Prinzipien aufrechterhalten wird. Die Nutzereingabevorrichtungen 552, 554 und 556 können derselbe Nutzereingabevorrichtungstyp oder verschiedene Nutzereingabevorrichtungstypen sein. Die Nutzereingabevorrichtungen 552, 554 und 556 werden zum Eingeben und Ausgeben von Informationen in das und aus dem System 500 verwendet.
  • Wie der Fachmann auf dem Gebiet leicht versteht, kann das Verarbeitungssystem 500 natürlich außerdem andere Elemente (nicht gezeigt) enthalten und können bestimmte Elemente ebenfalls weggelassen sein. Wie der Durchschnittsfachmann auf dem Gebiet leicht versteht, können z. B. in Abhängigkeit von der bestimmten Implementierung desselben verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in dem Verarbeitungssystem 500 enthalten sein. Zum Beispiel können verschiedene Typen drahtloser und/oder verdrahteter Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Wie der Durchschnittsfachmann auf dem Gebiet leicht würdigen wird, können darüber hinaus außerdem zusätzliche Prozessoren, Controller, Speicher usw. in verschiedenen Konfigurationen genutzt werden. Durch den Durchschnittsfachmann auf dem Gebiet werden unter Verwendung der hier gegebenen Lehren der vorliegenden Prinzipien diese und andere Varianten des Verarbeitungssystems 500 leicht betrachtet.
  • Selbstverständlich soll das Vorstehende in jeder Hinsicht veranschaulichend und beispielhaft, aber nicht einschränkend sein und soll der Schutzumfang der hier offenbarten Erfindung nicht aus der ausführlichen Beschreibung, sondern stattdessen aus den in Übereinstimmung mit der vollen durch die Patentgesetze zulässigen Breite interpretierten Ansprüchen bestimmt werden. Selbstverständlich sind die hier gezeigten und beschriebenen Ausführungsformen nur veranschaulichend für die Prinzipien der vorliegenden Erfindung und kann der Fachmann auf dem Gebiet verschiedene Änderungen implementieren, ohne von dem Schutzumfang und von dem Erfindungsgedanken der Erfindung abzuweichen. Der Fachmann auf dem Gebiet könnte verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und von dem Erfindungsgedanken der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den Einzelheiten und mit der Ausführlichkeit, wie von den Patentgesetzen gefordert ist, beschrieben worden sind, ist in den angefügten Ansprüchen dargestellt, was durch die Patentschrift beansprucht wird und wofür durch sie Schutz begehrt wird.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62/291076 [0001]

Claims (40)

  1. Verfahren für die Datensegmentierung, das umfasst: Bestimmen von Anfangssegmentierungsbewertungen für jede Einheit eines Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; Bestimmen von Endsegmentierungsbewertungen für jede Einheit des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums; und Segmentieren des Eingangsdatensatzes in Übereinstimmung mit den Endsegmentierungsbewertungen.
  2. Verfahren nach Anspruch 1, wobei das Bestimmen der Endsegmentierungsbewertungen das Anwenden einer Variations-Reaktions-Diffusion (VRD) umfasst.
  3. Verfahren nach Anspruch 2, wobei das Anwenden der VRD das Lösen eines Optimierungsproblems auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen umfasst.
  4. Verfahren nach Anspruch 3, wobei das Lösen des Optimierungsproblems das Lösen eines Systems partieller Differentialgleichungen umfasst.
  5. Verfahren nach Anspruch 4, wobei das Anwenden der VRD das Umwandeln des Optimierungsproblems in das System partieller Differentialgleichungen unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen umfasst.
  6. Verfahren nach Anspruch 4, wobei das System partieller Differentialgleichungen ausgedrückt wird als: Δ z k U k k z k = ( V T ( B o ) 1 s p ) k + j = k + 1 N o U k j z j ,
    Figure DE112017000669T5_0017
    wobei sp als der Ausdruck Qisi - BLΔsi definiert ist, Qi, Qo, Bi und B0 Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, si die Anfangssegmentierungsbewertungen für eine Dateneinheit sind, jedes zk eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, No eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
  7. Verfahren nach Anspruch 3, wobei das Optimierungsproblem ausgedrückt wird als: arg min s o I s T Q s + k = 1 2 s T x k B s x k d x ,
    Figure DE112017000669T5_0018
    wobei so ein Vektor der Endsegmentierungsbewertungen für eine Dateneinheit ist, x eine Dateneinheit im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der so und einen Vektor der Anfangssegmentierungsbewertungen für die Dateneinheit kombiniert.
  8. Verfahren nach Anspruch 3, das ferner Rückpropagationsinformationen zum Trainieren des neuronalen Netzes unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals umfasst.
  9. Verfahren nach Anspruch 8, wobei die Rückpropagationsinformationen das Bestimmen von Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen umfassen.
  10. Verfahren nach Anspruch 1, wobei der Eingangsdatensatz ein Bild ist und wobei jede Einheit des Eingangsdatensatzes ein Pixel in dem Bild ist.
  11. System für die Datensegmentierung, wobei das System umfasst: ein neuronales Netz, das dafür konfiguriert ist, für jede Einheit eines Eingangsdatensatzes Anfangssegmentierungsbewertungen zu bestimmen, wobei jeder Einheit für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; und ein Segmentierungsmodul, das dafür konfiguriert ist, für jede Einheit des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen zu bestimmen und den Eingangsdatensatz in Übereinstimmung mit den Endsegmentierungsbewertungen zu segmentieren.
  12. System nach Anspruch 11, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, eine Variations-Reaktions-Diffusion (VRD) anzuwenden, um die Endsegmentierungsbewertungen zu bestimmen.
  13. System nach Anspruch 12, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein VRD-Optimierungsproblem auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen zu lösen.
  14. System nach Anspruch 13, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein System partieller Differentialgleichungen zu lösen, um das Optimierungsproblem zu lösen.
  15. System nach Anspruch 14, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, das Optimierungsproblem unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen in das System partieller Differentialgleichungen umzuwandeln.
  16. System nach Anspruch 14, wobei das System partieller Differentialgleichungen ausgedrückt wird als: Δ z k U k k z k = ( V T ( B o ) 1 s p ) k + j = k + 1 N o U k j z j ,
    Figure DE112017000669T5_0019
    wobei sp als der Ausdruck Qisi - BiΔsi definiert ist, Qi, Qo, Bi und B0 Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, si die Anfangssegmentierungsbewertungen für eine Dateneinheit sind, jedes zk eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, No eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
  17. System nach Anspruch 13, wobei das Optimierungsproblem ausgedrückt wird als: arg min s o I s T Q s + k = 1 2 s T x k B s x k d x ,
    Figure DE112017000669T5_0020
    wobei so ein Vektor der Endsegmentierungsbewertungen für eine Dateneinheit ist, x eine Dateneinheit im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der so und einen Vektor der Anfangssegmentierungsbewertungen für die Dateneinheit kombiniert.
  18. System nach Anspruch 13, wobei das neuronale Netz ferner dafür konfiguriert ist, Informationen rückzupropagieren, um das neuronale Netz unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals zu trainieren.
  19. System nach Anspruch 18, wobei das neuronale Netz ferner dafür konfiguriert ist, Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen zu bestimmen.
  20. System nach Anspruch 11, wobei der Eingangsdatensatz ein Bild ist und wobei jede Einheit des Eingangsdatensatzes ein Pixel in dem Bild ist.
  21. Verfahren zum Überwachen einer Videoeinspeisung, wobei das Verfahren umfasst: Erfassen von Eingangsdaten, die einen überwachten Bereich repräsentieren, unter Verwendung einer oder mehrerer Kameras, um einen Eingangsdatensatz zu erzeugen, der einzelne Bilder umfasst; Bestimmen von Anfangssegmentierungsbewertungen für jedes Bild des Eingangsdatensatzes unter Verwendung eines neuronalen Netzes, wobei jedem Bild für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; Bestimmen von Endsegmentierungsbewertungen für jedes Bild des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums; Segmentieren des Eingangsdatensatzes in Übereinstimmung mit den Endsegmentierungsbewertungen; Bestimmen, ob eine Warnbedingung erfüllt ist, auf der Grundlage des segmentierten Eingangsdatensatzes; und Erzeugen einer Warnung, falls die Warnbedingung erfüllt ist.
  22. Verfahren nach Anspruch 21, wobei das Bestimmen der Endsegmentierungsbewertungen das Anwenden einer Variations-Reaktions-Diffusion (VRD) umfasst.
  23. Verfahren nach Anspruch 22, wobei das Anwenden der VRD das Lösen eines Optimierungsproblems auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen umfasst.
  24. Verfahren nach Anspruch 23, wobei das Lösen des Optimierungsproblems das Lösen eines Systems partieller Differentialgleichungen umfasst.
  25. Verfahren nach Anspruch 24, wobei das Anwenden der VRD das Umwandeln des Optimierungsproblems in das System partieller Differentialgleichungen unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen umfasst.
  26. Verfahren nach Anspruch 24, wobei das System partieller Differentialgleichungen ausgedrückt wird als: Δ z k U k k z k = ( V T ( B o ) 1 s p ) k + j = k + 1 N o U k j z j ,
    Figure DE112017000669T5_0021
    wobei sp als der Ausdruck Qisi - BiΔsi definiert ist, Qi, Qo, Bi und B0 Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, si die Anfangssegmentierungsbewertungen für ein Bild sind, jedes zk eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, No eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
  27. Verfahren nach Anspruch 23, wobei das Optimierungsproblem ausgedrückt wird als: arg min s o I s T Q s + k = 1 2 s T x k B s x k d x ,
    Figure DE112017000669T5_0022
    wobei so ein Vektor der Endsegmentierungsbewertungen für ein Bild ist, x ein Bild im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der so und einen Vektor der Anfangssegmentierungsbewertungen für das Bild kombiniert.
  28. Verfahren nach Anspruch 23, das ferner Rückpropagationsinformationen zum Trainieren des neuronalen Netzes unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals umfasst.
  29. Verfahren nach Anspruch 28, wobei die Rückpropagationsinformationen das Bestimmen von Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen umfassen.
  30. Verfahren nach Anspruch 21, wobei die Warnbedingung eine Bedingung umfasst, die aus dem Satz ausgewählt wird, dass eine Endsegmentierungsbewertung für eine vorgegebene der mehreren Segmentierungsklassen einen Schwellenwert übersteigt und dass eine Änderung der Endsegmentierungsbewertungen einen Schwellenwert übersteigt.
  31. System für die Datensegmentierung, wobei das System umfasst: eine oder mehrere Kameras, die dafür konfiguriert sind, einen Eingangsdatensatz zu erzeugen, der einzelne Bilder umfasst; ein neuronales Netz, das dafür konfiguriert ist, für jedes Bild eines Eingangsdatensatzes Anfangssegmentierungsbewertungen zu bestimmen, wobei jedem Bild für jede von mehreren Segmentierungsklassen eine Anfangssegmentierungsbewertung zugewiesen wird; ein Segmentierungsmodul, das dafür konfiguriert ist, für jedes Bild des Eingangsdatensatzes durch Auferlegen eines Glattheitskriteriums Endsegmentierungsbewertungen zu bestimmen und den Eingangsdatensatz in Übereinstimmung mit den Endsegmentierungsbewertungen zu segmentieren; und ein Warnmodul, das dafür konfiguriert ist, auf der Grundlage des segmentierten Eingangsdatensatzes zu bestimmen, ob eine Warnbedingung erfüllt ist, und eine Warnung zu erzeugen, falls die Warnbedingung erfüllt ist.
  32. System nach Anspruch 31, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, eine Variations-Reaktions-Diffusion (VRD) anzuwenden, um die Endsegmentierungsbewertungen zu bestimmen.
  33. System nach Anspruch 32, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein VRD-Optimierungsproblem auf der Grundlage der Anfangssegmentierungsbewertungen und positiv definiter Parametermatrizen zu lösen.
  34. System nach Anspruch 33, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, ein System partieller Differentialgleichungen zu lösen, um das Optimierungsproblem zu lösen.
  35. System nach Anspruch 34, wobei das Segmentierungsmodul ferner dafür konfiguriert ist, das Optimierungsproblem unter Verwendung der Schur-Zerlegung an den positiv definiten Parametermatrizen in das System partieller Differentialgleichungen umzuwandeln.
  36. System nach Anspruch 34, wobei das System partieller Differentialgleichungen ausgedrückt wird als: Δ z k U k k z k = ( V T ( B o ) 1 s p ) k + j = k + 1 N o U k j z j ,
    Figure DE112017000669T5_0023
    wobei sp als der Ausdruck Qisi - BiΔsi definiert ist, Qi, Qo, Bi und B0 Untermatrizen der positiv definiten Parametermatrizen sind, Δ der Vektor-Laplace-Operator ist, si die Anfangssegmentierungsbewertungen für eine Dateneinheit sind, jedes zk eine transformierte Bewertung über eine k-te Segmentierungsklasse repräsentiert, No eine Anzahl von Segmentierungsklassen ist und V und U transformierte Versionen der positiv definiten Parametermatrizen nach der Schur-Zerlegung sind.
  37. Verfahren nach Anspruch 33, wobei das Optimierungsproblem ausgedrückt wird als: arg min s o I s T Q s + k = 1 2 s T x k B s x k d x ,
    Figure DE112017000669T5_0024
    wobei so ein Vektor der Endsegmentierungsbewertungen für eine Dateneinheit ist, x eine Dateneinheit im Datensatz I ist, d eine Dimension des Datensatzes I ist und s ein Vektor ist, der so und einen Vektor der Anfangssegmentierungsbewertungen für die Dateneinheit kombiniert.
  38. System nach Anspruch 33, wobei das neuronale Netz ferner dafür konfiguriert ist, Informationen rückzupropagieren, um das neuronale Netz unter Verwendung der Endsegmentierungsbewertungen und eines Fehlersignals zu trainieren.
  39. System nach Anspruch 38, wobei das neuronale Netz ferner dafür konfiguriert ist, Ableitungen des Fehlersignals in Bezug auf die positiv definiten Parametermatrizen zu bestimmen.
  40. System nach Anspruch 31, wobei die Warnbedingung eine Bedingung umfasst, die aus dem Satz ausgewählt wird, dass eine Endsegmentierungsbewertung für eine vorgegebene der mehreren Segmentierungsklassen einen Schwellenwert übersteigt und dass eine Änderung der Endsegmentierungsbewertungen einen Schwellenwert übersteigt.
DE112017000669.4T 2016-02-04 2017-01-18 Semantische Segmentierung auf der Grundlage einer globalen Optimierung Pending DE112017000669T5 (de)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662291076P 2016-02-04 2016-02-04
US62/291,076 2016-02-04
US15/402,680 2017-01-10
US15/402,652 2017-01-10
US15/402,652 US10235758B2 (en) 2016-02-04 2017-01-10 Semantic segmentation based on global optimization
US15/402,680 US10290106B2 (en) 2016-02-04 2017-01-10 Video monitoring using semantic segmentation based on global optimization
PCT/US2017/013846 WO2017136137A1 (en) 2016-02-04 2017-01-18 Semantic segmentation based on global optimization

Publications (1)

Publication Number Publication Date
DE112017000669T5 true DE112017000669T5 (de) 2018-11-29

Family

ID=59497782

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017000669.4T Pending DE112017000669T5 (de) 2016-02-04 2017-01-18 Semantische Segmentierung auf der Grundlage einer globalen Optimierung

Country Status (4)

Country Link
US (2) US10235758B2 (de)
JP (1) JP6678246B2 (de)
DE (1) DE112017000669T5 (de)
WO (1) WO2017136137A1 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018106783A1 (en) * 2016-12-06 2018-06-14 Siemens Energy, Inc. Weakly supervised anomaly detection and segmentation in images
US10275820B2 (en) 2017-01-31 2019-04-30 Walmart Apollo, Llc Systems and methods for utilizing a convolutional neural network architecture for visual product recommendations
CN107610129B (zh) * 2017-08-14 2020-04-03 四川大学 一种基于cnn的多模态鼻咽部肿瘤联合分割方法
CN107705334B (zh) * 2017-08-25 2020-08-25 北京图森智途科技有限公司 一种摄像机异常检测方法及装置
CN107564032A (zh) * 2017-09-01 2018-01-09 深圳市唯特视科技有限公司 一种基于外观网络的视频跟踪对象分割方法
CN107590813A (zh) * 2017-10-27 2018-01-16 深圳市唯特视科技有限公司 一种基于深层交互式测地距离的图像分割方法
CN108319972B (zh) * 2018-01-18 2021-11-02 南京师范大学 一种针对图像语义分割的端到端差异网络学习方法
CN109166141A (zh) * 2018-08-10 2019-01-08 Oppo广东移动通信有限公司 危险提醒方法、装置、存储介质及移动终端
CN109460744B (zh) * 2018-11-26 2021-08-27 南京邮电大学 一种基于深度学习的视频监控系统
CN110705756B (zh) * 2019-09-07 2023-05-12 创新奇智(重庆)科技有限公司 一种基于输入凸神经网络的电力能耗优化控制方法
CN111932529B (zh) * 2020-09-10 2020-12-29 腾讯科技(深圳)有限公司 一种图像分类分割方法、装置及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282728A (ja) * 2000-03-30 2001-10-12 Canon Inc Wwwサーバにおけるクライアントデータ処理装置および方法並びに記憶媒体
US7308132B2 (en) * 2003-07-18 2007-12-11 Siemens Medical Solutions Usa, Inc. Method for robust scale-space analysis of 3D local structures in medical images
US20060159325A1 (en) * 2005-01-18 2006-07-20 Trestle Corporation System and method for review in studies including toxicity and risk assessment studies
CA2595248A1 (en) * 2005-01-18 2006-07-27 Trestle Corporation System and method for creating variable quality images of a slide
US20080072182A1 (en) * 2006-09-19 2008-03-20 The Regents Of The University Of California Structured and parameterized model order reduction
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
US8938413B2 (en) * 2012-09-12 2015-01-20 Numerica Corp. Method and system for predicting a location of an object in a multi-dimensional space
JP6214180B2 (ja) * 2013-03-22 2017-10-18 株式会社メガチップス 人物検出装置
WO2015054666A1 (en) * 2013-10-10 2015-04-16 Board Of Regents, The University Of Texas System Systems and methods for quantitative analysis of histopathology images using multi-classifier ensemble schemes
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
US10366342B2 (en) * 2014-03-10 2019-07-30 Fair Isaac Corporation Generation of a boosted ensemble of segmented scorecard models
US20170109584A1 (en) * 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking

Also Published As

Publication number Publication date
US10290106B2 (en) 2019-05-14
JP2019508805A (ja) 2019-03-28
US20170228873A1 (en) 2017-08-10
US20170228617A1 (en) 2017-08-10
WO2017136137A1 (en) 2017-08-10
JP6678246B2 (ja) 2020-04-08
US10235758B2 (en) 2019-03-19

Similar Documents

Publication Publication Date Title
DE112017000669T5 (de) Semantische Segmentierung auf der Grundlage einer globalen Optimierung
DE102019000171A1 (de) Digitalumgebung zur Verortung semantischer Klassen
DE102019005423A1 (de) Raum-Zeit-Speicher- bzw. Ablagenetzwerk zum Lokalisieren eines Zielobjektes in Videocontent
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102017220898A1 (de) Verfahren und Vorrichtung zur Klassifizierung einer während der Sicherheitskontrolle zu kontrollierenden Person
DE112016004534T5 (de) Nicht überwachtes Abgleichen in feinkörnigen Datensätzen zur Einzelansicht-Objektrekonstruktion
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
DE102019102866A1 (de) Identifizierung eines Herstellungsteils unter Verwendung von Computervision und Maschinenlernen
DE112011104487T5 (de) Verfahren und System zur prädiktiven Modellierung
DE112019000739T5 (de) Zeitreihengewinnung zum analysieren und korrigieren eines systemstatus
DE112021000392T5 (de) Leistungsfähiges kommentieren der grundwahrheit
DE112017006891T5 (de) Bewegungslerneinrichtung, fertigkeitendiskriminationseinrichtung und fertigkeitendiskriminationssystem
DE102019122402A1 (de) Das klassifizieren von zeitreihenbilddaten
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
DE112017008149T5 (de) VORRICHTUNG FÜR EINE VON EINEM FAHRZEUG AUSGEHENDE KOMMUNIKATION, VERFAHREN ZUM KOMMUNIZIEREN VON EINEM FAHRZEUG NACH AUßEN INFORMATIONSVERARBEITUNGSVORRICHTUNG UND PROGRAMM FÜR EINE VON EINEM FAHRZEUG AUSGEHENDE KOMMUNIKATION
DE102021207269A1 (de) Verfahren und system zum erlernen von perturbationsmengen beim maschinenlernen
DE112020003343T5 (de) System und verfahren mit einem robusten tiefen generativen modell
DE102018206108A1 (de) Generieren von Validierungsdaten mit generativen kontradiktorischen Netzwerken
DE112016003235T5 (de) Ausgangseffizienzoptimierung in Produktionssystemen
DE112021005569T5 (de) Kontradiktorisches, halbüberwachtes one-shot-lernen
DE102021200347A1 (de) Erzeugen einer datenstruktur zum spezifizieren visueller datensätze
DE112020005732T5 (de) Erzeugen von trainingsdaten zur objekterkennung
DE102021128523A1 (de) Hierarchische bildzerlegung zur defekterkennung
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102021200345A1 (de) Überprüfung von computervisionsmodellen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication