DE102011113154A1 - Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern - Google Patents

Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern Download PDF

Info

Publication number
DE102011113154A1
DE102011113154A1 DE102011113154A DE102011113154A DE102011113154A1 DE 102011113154 A1 DE102011113154 A1 DE 102011113154A1 DE 102011113154 A DE102011113154 A DE 102011113154A DE 102011113154 A DE102011113154 A DE 102011113154A DE 102011113154 A1 DE102011113154 A1 DE 102011113154A1
Authority
DE
Germany
Prior art keywords
image
feature
training
images
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102011113154A
Other languages
English (en)
Other versions
DE102011113154B4 (de
Inventor
Klaus Schertler
Jörg Liebelt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Airbus Defence and Space GmbH
Original Assignee
EADS Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EADS Deutschland GmbH filed Critical EADS Deutschland GmbH
Priority to DE102011113154.3A priority Critical patent/DE102011113154B4/de
Priority to US14/344,390 priority patent/US9361543B2/en
Priority to EP12769887.6A priority patent/EP2756458A1/de
Priority to PCT/DE2012/100238 priority patent/WO2013037357A1/de
Publication of DE102011113154A1 publication Critical patent/DE102011113154A1/de
Application granted granted Critical
Publication of DE102011113154B4 publication Critical patent/DE102011113154B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Ein maschinelles Lernverfahren zum maschinellen Erlernen der Erscheinungsformen von Objekten in Bildern in Form von Objektmerkmalen (28) anhand von Trainingsbildern (20) zur Verwendung der erlernten Objektmerkmale (28) in einem Bildverarbeitungssystem, umfasst die Bestimmung eines Merkmalsbeitrages (30) eines Trainingsbildes (20) zu Objektmerkmalen (28) durch gewichtete Summation von Trainingsbild-Merkmalen mittels auf dem Merkmalsbild (24) angewendeter linearer Filteroperationen unter Verwendung eines mindestens aus einem Annotationsbild (22) und einem Klassifikationsbild (26) gewonnenem Gewichtsbild (32). Dies ermöglicht schnellere Lernprozesse sowie das Erlernen einer größeren Varianz von Erscheinungsformen von Objekten und Hintergründen, wodurch die Robustheit des Systems in seiner Anwendung auf untrainierte Bilder erhöht wird.

Description

  • Die Erfindung betrifft ein maschinelles Lernverfahren zum maschinellen Erlernen der Erscheinungsformen von Objekten in Bildern in Form von Objektmerkmalen anhand von Trainingsbildern zur Verwendung der erlernten Objektmerkmale in einem Bildverarbeitungssystem, sowie eine Vorrichtung zur Durchführung des Verfahrens.
  • Ein solches Bildverarbeitungssystem kann dabei durch ein Objekterkennungssystem, Objektverfolgungssystem oder ein Bildregistrierungssystem gegeben sein.
  • Die Aufgabe von Objekterkennungssystemen ist das Lokalisieren und Klassifizieren von Objekten (z. B. Fahrzeugen oder Personen) in digitalen Bildern. Diese kommen beispielsweise in Kraftfahrzeugen zum Einsatz, wo die Umgebung und insbesondere der Bereich vor dem Kraftfahrzeug auf Objekte wie andere Fahrzeuge oder Passanten zu untersuchen ist, oder den Bereich der Robotik, wo von einem frei bewegbaren Roboter die Umgebung nach bestimmten Objekten abzusuchen ist.
  • Die Aufgabe von Objektverfolgungssystemen ist das Wiederauffinden eines Objektes (z. B. eines Fahrzeuges oder einer Person) in einem Bild einer Bildsequenz, unter der Voraussetzung, dass dessen Lage, Ausdehnung und Erscheinungsform in einem oder mehreren vorherigen Bildern der Bildsequenz bekannt ist.
  • Die Aufgabe von Bildregistrierungssystemen ist die Bestimmung von Bildtransformationen (z. B. Translationen) zwischen zwei Bildern, welche es ermöglichen, durch Anwendung der Transformation die Bilder in Deckung zu bringen. Beispielsweise bringen Methoden zur Panoramabilderzeugung die überlappenden Bereiche zweier Bilder in Deckung um ein Gesamtbild zu erzeugen (sog. Stitching). Aus den relativen Lagen der Bildinhalte in beiden Bildern lassen sich die notwendigen Transformationsinformationen bestimmen.
  • Die Methodik des überwachten maschinellen Lernens eines Objekterkennungssystems benutzt eine vorzugsweise große Anzahl von annotierten Trainingsbildern, welche sowohl die Bildinhalte der zu erlernenden Objekte als auch deren Bild-Hintergründe enthalten bzw. repräsentieren. Ein Bildbereich um eine Bildposition, an der sich im Trainingsbild ein zu erlernendes Objekt befindet, wird als positives Trainingsbeispiel bezeichnet, es ist positiv annotiert. Bildbereiche im Trainingsbild, an denen sich keine zu erlernenden Objekte befinden (im Bild-Hintergrund), werden als negative Trainingsbeispiele bezeichnet (negative Annotation).
  • Während des Trainings des Objekterkennungssystems werden positive und negative Trainingsbeispiele aus den Trainingsbildern herangezogen, um daraus Objektmerkmale zu erlernen, welche eine möglichst eindeutige Trennung von Objekt und Hintergrund ermöglichen. Die so erlernten Objektmerkmale werden im Objekterkennungssystem dazu verwendet, um in beliebigen (im Training ungesehenen Bildern) das Auffinden des erlernten Objektes zu ermöglichen.
  • Ein Grundproblem dabei ist die notwendige Verarbeitung einer vorzugsweise großen Anzahl von positiven und negativen Trainingsbeispielen, welche zur Erfassung der möglicherweise vielfältigen Erscheinungsformen von Hintergründen und Objekt von Nöten ist. Beispielsweise sei ein Trainingsbild der Größe 1000×1000 Pixel angenommen, in dem sich ein Objekt der Größe 100×100 Pixel befindet. Während in diesem Falle genau ein positives Trainingsbeispiel gegeben ist, sind im Trainingsbild (1000 – 100 + 1) × (1000 – 100 + 1) – 1 = 811800 nutzbare negative Trainingsbeispiele der Größe 100×100 Pixel enthalten, welche sich in der Bildebene überlappen.
  • Eine wünschenswerte Verarbeitung einer grollen Anzahl von Trainingsbeispielen ist daher sowohl aus funktioneller Sicht (Training einer größeren Varianz von Erscheinungsformen) sowie einer operationellen Sicht (zeitlicher und verarbeitungstechnischer Aufwand) von großem Interesse.
  • In Bildverfolgungssystemen sind die annotierten Trainingsbilder durch die Bilder einer Bildsequenz gegeben, in denen die Lage, Ausdehnung und Erscheinungsform des zu verfolgenden Objektes schon aus vorherigen Bildern der Bildsequenz bekannt bzw. annotiert sind. Eine initiale Annotation kann beispielsweise durch einen Benutzer (Markierung des zu verfolgenden Objektes), durch ein Objekterkennungssystem oder durch die Detektion von bewegten Objekten erfolgen. Während in einem Objektverfolgungssystem positive Annotationen (positive Trainingsbeispiele) nur aus den vorherigen Bildern der Bildsequenz – und somit nur in geringer Anzahl – verfügbar sind, profitiert ein solches System umso mehr von dem schnellen Erlernen vieler negativer Annotationen (Objekthintergründe, negative Trainingsbeispiele). Dies ist insbesondere von großem Informationsgehalt, da diese sich von Bild zu Bild wenig unterscheiden. Im Vergleich dazu muss ein Objekterkennungssystem oftmals gegen negative Annotationen (Objekthintergründe) trainiert werden, welche nicht zwingend den im operationellen Einsatz auftretenden Objekthintergründen identisch sind.
  • Zur Registrierung von zwei Bildern in einem Bildregistrierungssystem wird eines der beiden Bilder als Trainingsbild, das andere als Testbild interpretiert. Die Bestimmung der positiven Annotationen im Trainingsbild muss spezifisch für die Registrierungsaufgabe und die damit zu bestimmende Transformationsinformation in Anzahl und Lage festgelegt werden. Beispielsweise könnten zur Panoramabilderzeugung eine oder mehrerer positive Annotationen an festen Positionen im zu erwartenden Überlappungsbereich beider Bilder gewählt werden (z. B. am rechten Bildrand). Der Rest des Bildes gilt als negativ annotiert. Alternativ können positive Annotationen durch manuelle oder automatische Bestimmung von markanten Bildbereichen erzeugt werden, d. h. durch Bestimmung von Bildbereichen welche für deren Wiederauffinden im Testbild besonders geeignet sind (z. B. stark strukturierte Bildbereiche). Sollen mehr als zwei Bilder (z. B. eine Bildsequenz) zueinander registriert werden, können positive und negative Annotationen in geeigneter Form in mehr als einem Bild der Sequenz gewählt werden (im Sinne mehrere Trainingsbilder).
  • Während im Gegensatz zu Objekterkennungssystemen und Objektverfolgungssystemen im Falle von Bildregistrierungssystemen das Wiederauffinden von allgemeinen Bildinhalten (nicht zwingend von Objekten) in verschiedenen Bildern angestrebt ist, wird im Folgenden zum Zwecke einer vereinfachten Formulierung von Objekten gesprochen. Unter Objekten sind demnach Bildinhalte zu verstehen, welche in Bildern aufgefunden werden sollen ohne mit anderen Bildinhalten verwechselt zu werden.
  • Stand der Technik ist eine explizite Erzeugung einer großen Anzahl von positiven und negativen Trainingsbeispielen in Form von Merkmalsdatenvektoren mit deren expliziten Verarbeitung in einem maschinellen Lernansatz (z. B. Support-Vector-Maschine oder Neuronales Netzwerk).
  • Die herkömmlichen Verfahren lösen diese Aufgabe in diskretisierter Form. Einzelne Trainingsbeispiele werden dabei an den durch die Annotationsbilder bestimmten Bereichen diskret extrahiert und in einzelne Merkmalsdatenvektoren überführt. Da durch Überlappung in der Bildebene ein große Anzahl derartiger Trainingsdatenvektoren aus einem einzelnen Merkmalsbild gewonnen werden können, wird in diesem Schritt zur Reduzierung des Berechnungsaufwandes typischerweise lediglich eine kleine Untermenge ausgewählt. Die dadurch erzielbare Allgemeingültigkeit der aus einem Trainingsbild in einem einzigen Verarbeitungsschritt gewinnbaren Objektmerkmalsbeiträge ist folglich begrenzt.
  • Hiervon ausgehend liegt der Erfindung die Aufgabe zugrunde, die schnelle Verarbeitung einer großen Anzahl von positiven und negativen Trainingsbeispielen (Annotationen), im Training eines Bildverarbeitungssystems bereitzustellen.
  • Die Lösung dieser Aufgabe ergibt sich aus den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche. Erfindungsgemäß wird die Aufgabe durch ein maschinelles Lernverfahren mit folgenden Schritten gelöst:
    • – Bereitstellen von Trainingsbildern und zugehörigen Annotationsbildern, wobei mindestens ein Trainingsbild die Darstellung eines zu erlernenden Objektes enthält und die zugehörigen Annotationsbilder an Positionen von Objekten im Trainingsbild positive Annotationswerte (Annotationen) aufweisen;
    • – Erstellen mindestens eines Merkmalsbildes aus einem Trainingsbild, wobei ein Merkmal an einer Bildposition im Merkmalsbild aus der Umgebung der entsprechenden Bildposition im Trainingsbild extrahiert ist;
    • – Erzeugen eines Klassifikationsbildes aus dem Merkmalsbild und Objektmerkmalen, das Informationen über den Ähnlichkeitsgrad zwischen den Objektmerkmalen und dem Merkmalsbild in der Form von Klassifikationsantworten enthält;
    • – Bestimmen eines Merkmalsbeitrages des Trainingsbildes zu den Objektmerkmalen durch gewichtete Summation von Trainingsbild-Merkmalen mittels linearer Filteroperationen mindestens aus den Annotationsbildern, dem Merkmalsbild und dem Klassifikationsbild. Lineare Filteroperationen sind Standardoperationen aus dem Bereich der Bild- und Signalverarbeitung (siehe z. B. Lehrbuch R. C. Gonzales, R. E. Woods, Digital Image Processing, Third Edition, Pearson Prentice Hall).
  • Die Erfindung ermöglicht in funktioneller Hinsicht das Training einer größeren Varianz von Erscheinungsformen von Objekten und Hintergründen, wodurch die Robustheit des Systems in seiner Anwendung auf untrainierte Bilder erhöht wird. In operationeller Hinsicht ermöglicht die Erfindung die Durchführung schnellerer Trainingsdurchläufe. Dies ermöglicht
    • – eine schnellere Anpassung von Objekterkennungssystemen an veränderte Bedingungen bezüglich zu erkennender Objekte oder zu erwartender Hintergrundstrukturen – bis hin zu dedizierten Trainingsdurchläufen im operationellen Betrieb des Objekterkennungssystems.
    • – die Durchführbarkeit einer höheren Anzahl von Trainings- und Evaluierungsdurchläufen zur sukzessiven Optimierung des Objekterkennungssystems (z. B. Trainingsdurchläufe unter Parametervariationen).
    • – die Durchführung von schnellen Trainingsdurchläufen für die lernbasierte Objektverfolgung oder Bildregistrierung in Echtzeit auf Bilddatenströmen (Videodatenströmen).
  • Alternativ zu einer schnelleren Durchführung von Trainingsdurchläufen ermöglicht die Erfindung deren Ausführung auf Hardwarearchitekturen mit geringeren Verarbeitungsgeschwindigkeiten (z. B. auf mobilen Hardwarearchitekturen).
  • Die Erfindung wird nachfolgend anhand eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert. Diese zeigen:
  • 1: eine schematische Übersichtsdarstellung der erfindungsgemäßen Lerneinheit;
  • 2: eine schematische Darstellung der Arbeitsweise der Klassifikationseinheit;
  • 3: eine schematische Darstellung der Arbeitsweise der Fusionseinheit;
  • 4: eine beispielhafte Darstellung des Filtervorgangs in der Fusionseinheit.
  • In 1 ist die erfindungsgemäße Lerneinheit 10 schematisch dargestellt. Diese umfasst zumindest eine Trainingsbildeinheit 12, eine Merkmalsextraktionseinheit 14, eine Klassifikationseinheit 16 sowie eine Merkmalsfusionseinheit 18. Eine weitere optionale Untereinheit, die Initialisierungseinheit, dient ausschließlich zum Initialisieren von Objektmerkmalen und ist daher in 1 nicht abgebildet.
  • Aufgabe der Lerneinheit 10 ist es, die Erscheinungsform von Objekten und Hintergründen in Trainingsbildern 20 in effizienter Art und Weise zu erfassen. Die Erfassung erfolgt durch die Bestimmung der Objektmerkmalsbeiträge eines jeden Trainingsbildes 20. Eine Ausführung der Lerneinheit 10 auf mehreren Trainingsbildern 20 ermöglicht es, die gesuchten Objektmerkmale aus den Objektmerkmalsbeiträgen der einzelnen Trainingsbilder 20 zu kombinieren. Eine Ausführungsform der Kombination der Objektmerkmalsbeiträge ist durch deren Mittelung gegeben.
  • Die Aufgabe der nicht dargestellten Initialisierungseinheit ist die Bereitstellung einer initialen Schätzung von Objektmerkmalen. Eine Ausführungsform der Initialisierungseinheit ist durch eine zufällige oder gleichförmige Initialisierung der Objektmerkmale gegeben. Eine alternative Ausführungsform benutzt die Trainingsbildeinheit und die Merkmalsextraktionseinheit zur Gewinnung einer initialen Schätzung von Objektmerkmalen aufgrund der in den Trainingsbildern abgebildeten Objekte.
  • Die Aufgabe der Trainingsbildeinheit 12 ist die Bereitstellung von Trainingsbildern 20 und Annotationsbildern 22. Bei den Trainingsbildern 20 kann es sich um reale Sensorbilder, per Computergrafik erzeugte synthetische Bilder oder Mischformen aus beiden handeln. Neben dem eigentlichen Trainingsbild 20 stellt die Trainingsbildeinheit 12 ein Annotationsbild 22 zur Verfügung. Dem Annotationsbild 22 kann entnommen werden, an welchen Bildpositionen im Trainingsbild 20 sich zu erlernenden Objekte befinden (positive Annotationen). Bildpositionen im Trainingsbild 20, an denen sich keine zu erlernenden Objekte befinden (z. B. im Bild-Hintergrund) sind negativ annotiert. Die das zu erlernende Objekt umfassenden Bildausschnitte im Trainingsbild 20 werden als positive Trainingsbeispiele bezeichnet. Bildausschnitte im Trainingsbild-Hintergrund der gleichen Größe wie die zu erlernenden Objekte werden als negative Trainingsbeispiele bezeichnet. In 1 ist symbolisch ein Trainingsbild 20 mit zugehörigem Annotationsbild 22 gezeigt. Aus Gründen der einfacheren Darstellbarkeit ist die Bildebene in ein einfacheres 3 × 3 Raster eingeteilt.
  • Eine vorteilhafte Ausführungsform der Trainingsbildeinheit 12 für ein Objekterkennungssystem ist durch ein Computergrafiksystem gegeben, in dem die zu trainierenden Objekte unter Verwendung von 3D-Modellen bei bekannter Bildposition synthetisch unter beliebigen Darstellungsbedingungen (z. B. Beleuchtung) vor beliebigem Hintergrund in beliebiger Anzahl erzeugt werden können.
  • Die Aufgabe der Merkmalsextraktionseinheit 14 ist die Umwandlung eines Trainingsbildes 20 in ein oder mehrere Merkmalsbilder 24. Eine einfache Ausführungsform der Merkmalsextraktionseinheit 14 ist die Erzeugung eines Kantenbildes durch Kantenbildoperationen. Mehrere Merkmalsbilder 24 können beispielsweise durch die Anwendung einer Filterbank mit Richtungsfiltern gewonnen werden. 1 zeigt symbolisch das Ergebnis einer Kantenbildoperation als Merkmalsbild 24.
  • Die Aufgabe der Klassifikationseinheit 16 ist die Umwandlung eines Merkmalsbildes 24 in ein Klassifikationsbild 26. Die als Klassifikationsantwort bezeichneten Einträge des Klassifikationsbildes 26 sind ein Maß für die Ähnlichkeit zwischen Objektmerkmalen und dem Merkmalsbild 24 in der lokalen Umgebung der entsprechenden Bildposition. Größere Klassifikationsantworten deuten auf eine größere Ähnlichkeit hin.
  • Die der Klassifikationseinheit 16 zugeführtes Objektmerkmale 28 stammen entweder aus der nicht gezeigten Initialisierungseinheit oder aus Objektmerkmalen, welche durch Kombination (z. B. Mittelung) von zuvor bestimmten Objektmerkmalsbeiträgen von Trainingsbildern 20 stammen. Eine bevorzugte Ausführungsform der Klassifikationseinheit 16 zur Berechnung des Ähnlichkeitsmaßes ist durch eine in 2 gezeigte Bildkorrelation zwischen Objektmerkmalen und Merkmalsbild gegeben. Wurden in der Merkmalsextraktionseinheit 14 mehr als ein Merkmalsbild 24 pro Trainingsbild 20 erzeugt, so ist die Klassifikationseinheit 16 auf jedes Merkmalsbild 24 anzuwenden.
  • Die Aufgabe der Merkmalsfusionseinheit 18 ist es, auf möglichst effiziente Art und Weise eine möglicherweise große Anzahl von unterschiedlich gewichteten Bereichen des Merkmalsbildes 24 durch Addition zu fusionieren und damit den gesuchten Merkmalsbeitrag 30 eines Trainingsbildes 20 zu den Objektmerkmalen zu bestimmen. Zur Bestimmung der Gewichte verwendet die Merkmalsfusionseinheit 18 das Annotationsbild 22 und das Klassifikationsbild 26.
  • Die Funktionsweise der Merkmalsfusionseinheit 18 ist symbolisch in 3 dargestellt und in zwei Schritte unterteilbar.
  • An Bildpositionen, an denen laut Annotationsbild 22 ein Objekt abgebildet ist, sollte bei optimal gewählten Objektmerkmalen eine hohe Klassifikationsantwort auftreten. Ist dies nicht der Fall, deutet dies darauf hin, dass im Merkmalsbild 24 neue Objektmerkmalsstrukturen vorhanden sind, welche noch nicht im ausreichenden Maße in den benutzen Objektmerkmalen repräsentiert sind, z. B. durch eine bisher nicht erlernte Formgebung des Objektes im Trainingsbild. Der entsprechende Bereich des Merkmalsbildes 24 muss daher mit einer positiven Gewichtung in die Bestimmung der Objektmerkmalsbeiträge des Trainingsbildes 20 eingehen. Vorteilhaft wird die positive Gewichtung an einer Bildposition umso größer gewählt, je kleiner die Klassifikationsantwort an entsprechender Bildposition ausgefallen ist.
  • An Bildpositionen, an denen laut Annotationsbild 22 kein Objekt abgebildet ist, sollte bei optimal gewählten Objektmerkmalen eine niedrige Klassifikationsantwort auftreten. Ist dies nicht der Fall, deutet dies darauf hin, dass im Merkmalsbild 24 Hintergrundmerkmalsstrukturen vorhanden sind, welche eine zu große Ähnlichkeit mit den benutzten Objektmerkmalen besitzen. Der entsprechende Bereich des Merkmalsbildes 24 muss daher mit einer negativen Gewichtung in die Bestimmung der Objektmerkmalsbeiträge des Trainingsbildes 20 eingehen. Vorteilhaft wird die negative Gewichtung an einer Bildposition umso stärker negativ gewählt, je größer die Klassifikationsantwort an entsprechender Bildposition ausgefallen ist.
  • An Bildpositionen, an denen laut Annotationsbild 22 ein Objekt abgebildet ist und die Klassifikationsantwort ausreichend groß ausfällt – z. B. über einer Schwelle liegt – kann dieser Bildposition ein Gewicht von Null zugeordnet werden. An Bildpositionen, an denen laut Annotationsbild 22 kein Objekt abgebildet ist und die Klassifikationsantwort ausreichend klein ausfällt – z. B. unter einer Schwelle liegt – kann dieser Bildposition ein Gewicht von Null zugeordnet werden.
  • Entsprechend dem oben beschriebenen Verfahren wird jeder Bildposition in der Merkmalsfusionseinheit 18 ein Gewicht zugeordnet und die Ergebnisse einem Gewichtsbild 32 zugeordnet.
  • Die Aufgabe des in 3 unten dargestellten zweiten Schrittes ist die gewichtete Summation von Merkmalsbereichen entsprechend der im ersten Schritt bestimmten Gewichte. Schritt 2 macht sich dabei vorteilhaft die Eigenschaft von linearen Filteroperationen zu Nutze, bei denen die Gewichte einer Filtermaske bestimmen, in welcher Gewichtung welche Anteile eines Signals summiert werden sollen. Es sei an dieser Stelle darauf hingewiesen, dass die hier beschriebenen linearen Filteroperationen in ihrem funktionellen Ziel nicht mit Filteroperationen zu verwechseln sind, wie sie beispielsweise in der Objekterkennung zur Messung von Ähnlichkeiten oder zur Merkmalsextraktion verwendet werden.
  • Die Ausführung der Fusion sei exemplarisch anhand von 4 illustriert, das ein Merkmalsbild 24 mit einigen von Null unterschiedlichen Einträgen (Nullen sind in der Abbildung nicht dargestellt) zeigt. Dabei besteht die Aufgabe darin, die grau markierten Bildbereiche mit vorgegebenen Gewichten zu summieren. Die Bildpositionen der zu summierenden Bildbereiche sind mit ihren zu verwendenden Gewichten im Gewichtsbild 32 eingetragen. Diese Aufgabe wird nun durch Filterung des Merkmalsbildes 24 (M) durch das Gewichtsbild 32 (G) ausgeführt (G*M). Hier bedeutet * die Operation der Filterung. Im Ergebnisbild 34 (G*M) werden die außerhalb des zentralen Bildbereiches liegenden Einträge ignoriert, was durch einen Strich dargestellt ist. Wie zu erkennen ist, befindet sich im Ergebnisbild 34 die Summe der gewichteten Bildbereiche aus dem Merkmalsbild 24.
  • Die Aufgabe des in 3 unten dargestellten zweiten Schrittes der Merkmalsfusion kann demnach dadurch erreicht werden, dass das in dem in 3 oben dargestellten ersten Schrittes gewonnene Gewichtsbild 32 als Filtermaske interpretiert wird, um durch eine lineare Filterung des Merkmalsbildes 24 mit dem Gewichtsbild 32 die gewünschte gewichtete Summation von Merkmalsbereichen zu erzielen. Die Filterung des Merkmalsbildes 24 mit dem Gewichtsbild 32 kann vorteilhaft nach Transformation beider Bilder mittels schneller Fourier-Transformationen im Frequenzraum durch einfache elementweise Multiplikation ausgeführt werden. Die bekannte Methodik der Durchführung von Filteroperationen im Frequenzraum durch Ausnutzung des sog. Faltungstheorems (convolution theorem) ist beispielsweise im Lehrbuch von R. C. Gonzales und R. E. Woods (Digital Image Processing, Third Edition, Pearson Prentice Hall) beschrieben. Mit dieser Methodik müssen die Bereiche des Merkmalsbildes 24 im Gegensatz zum Stand der Technik nicht explizit in der Form von Merkmalsdatenvektoren erzeugt werden sondern werden innerhalb der Filteroperation implizit erzeugt, gewichtet und aufsummiert.
  • In den 1 und 3 sind die Merkmalsbeiträge von positiven und negativen Gewichten ausschließlich zur nachvollziehbareren Darstellung getrennt gezeigt. Die Merkmalsfusionseinheit erzeugt die Summe beider Beiträge.
  • Werden in der Merkmalsextraktionseinheit 14 mehr als ein Merkmalsbild 24 und in der Klassifikationseinheit 16 mehr als ein Klassifikationsbild 26 erzeugt, werden in der Merkmalsfusionseinheit 18 eine entsprechende Anzahl von Merkmalsbeiträgen erzeugt.
  • Bezugszeichenliste
  • 10
    Lerneinheit
    12
    Trainingsbildeinheit
    14
    Merkmalsextraktionseinheit
    16
    Klassifikationseinheit
    18
    Merkmalsfusionseinheit
    20
    Trainingsbild
    22
    Annotationsbild
    24
    Merkmalsbild
    26
    Klassifikationsbild
    28
    Objektmerkmal
    30
    Merkmalsbeitrag
    32
    Gewichtsbild
    34
    Ergebnisbild
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • R. C. Gonzales, R. E. Woods, Digital Image Processing, Third Edition, Pearson Prentice Hall [0016]
    • R. C. Gonzales und R. E. Woods (Digital Image Processing, Third Edition, Pearson Prentice Hall) [0040]

Claims (15)

  1. Maschinelles Lernverfahren zum maschinellen Erlernen der Erscheinungsformen von Objekten in Bildern in Form von Objektmerkmalen (28) anhand von Trainingsbildern (20) zur Verwendung der erlernten Objektmerkmale in einem Bildverarbeitungssystem, umfassend folgende Schritte: – Bereitstellen von Trainingsbildern (20) und zugehörigen Annotationsbildern (22), wobei mindestens ein Trainingsbild (20) die Darstellung eines zu erlernenden Objektes enthält und die zugehörigen Annotationsbilder (22) an Positionen von Objekten im Trainingsbild (20) positive Annotationswerte (Annotationen) aufweisen sowie negative Annotationswerte an Bildpositionen annehmen, an denen kein zu erlernendes Objekt dargestellt ist; – Erstellen mindestens eines Merkmalsbildes (24) aus einem Trainingsbild (20), wobei ein Merkmal an einer Bildposition im Merkmalsbild (24) aus der Umgebung der entsprechenden Bildposition im Trainingsbild (20) extrahiert ist; – Erzeugen eines Klassifikationsbildes (26) aus dem Merkmalsbild (24) und Objektmerkmalen, an dessen Bildpositionen Informationen (Klassifikationsantworten) über den Ähnlichkeitsgrad zwischen den Objektmerkmalen und dem Merkmalsbild (24) enthalten sind; – Bestimmen eines Merkmalsbeitrages (30) des Trainingsbildes (20) zu den Objektmerkmalen durch gewichtete Summation von im Merkmalsbild (24) enthaltenen Trainingsbild-Merkmalen mittels linearer Filteroperationen mindestens aus dem Annotationsbild (22), dem mindestens einem Merkmalsbild (24) und dem mindestens einem Klassifikationsbild (26).
  2. Maschinelles Lernverfahren nach Anspruch 1, dadurch gekennzeichnet, dass aus dem Annotationsbild (22) und dem Klassifikationsbild (26) ein Gewichtsbild (32) erzeugt wird, das als Filtermaske für die lineare Filteroperation des Merkmalsbildes (24) verwendet wird.
  3. Maschinelles Lernverfahren nach Anspruch 2, dadurch gekennzeichnet, dass im Gewichtsbild (32) positive Gewichtungswerte an Bildpositionen erzeugt werden, an denen positive Annotationen vorhanden sind, jedoch das Klassifikationsbild (26) dort eine zu geringe Klassifikationsantwort aufweist und negative Gewichtungswerte an Bildpositionen erzeugt werden, an denen negative Annotationen vorhanden sind, aber das Klassifikationsbild (26) dort eine zu große Klassifikationsantwort aufweist.
  4. Maschinelles Lernverfahren nach Anspruch 3, dadurch gekennzeichnet, dass positive Gewichte des Gewichtsbildes (32) an einer Bildposition umso größer bestimmt werden, je kleiner die Klassifikationsantwort an entsprechender Bildposition im Klassifikationsbild (26) ist und um so stärker negativ bestimmt werden, je größer die Klassifikationsantwort ist.
  5. Maschinelles Lernverfahren nach Anspruch 1, dadurch gekennzeichnet, dass die linearen Filteroperationen zur Bestimmung eines Merkmalsbeitrages (30) unter Ausnutzung von Fourier-Transformationen im Frequenzraum erfolgen.
  6. Maschinelles Lernverfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass dieses einen Initialisierungsschritt aufweist, in dem initiale Objektmerkmale automatisiert geschätzt werden.
  7. Maschinelles Lernverfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Bereitstellung von Trainingsbildern (20) und zugehörigen Annotationsbildern (22) durch sensorbasierte Bildgewinnung und manuelle oder automatische Annotation erfolgt.
  8. Maschinelles Lernverfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Bereitstellung von Trainingsbildern (20) und zugehörigen Annotationsbildern (22) aufgrund synthetischer Bilderzeugung erfolgt.
  9. Maschinelles Lernverfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass aus einem Trainingsbild (20) mittels unterschiedlicher Arten von Merkmalsextraktionen mehrere Merkmalsbilder (24) erzeugt werden.
  10. Maschinelles Lernverfahren nach Anspruch 9, dadurch gekennzeichnet, dass eine der Anzahl der erzeugten Merkmalsbilder (24) entsprechende Anzahl an Objektmerkmalen und Klassifikationsbildern (26) sowie Trainingsbild-Merkmalsbeiträgen bestimmt werden.
  11. Maschinelles Lernverfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass dieses in einem Objekterkennungsverfahren verwendet wird.
  12. Maschinelles Lernverfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass dieses in einem Objektverfolgungssystem verwendet wird.
  13. Maschinelles Lernverfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass dieses bei einem Bildregistrierungsverfahren verwendet wird.
  14. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 10, mit – einer Trainingsbildeinheit (12), die Trainingsbilder (20) und zugehörige Annotationsbilder (22) bereitstellt; – einer Merkmalextraktionseinheit (14), die mindestens ein Merkmalsbild (24) aus einem Trainingsbild (20) erstellt; – einer Klassifikationseinheit (16), die ein Klassifikationsbild (26) aus dem Merkmalsbild (24) und Objektmerkmalen (28) erstellt; – einer Merkmalsfusionseinheit (18), um Bereiche des Merkmalsbildes (24) zur Bestimmung eines Trainingsbild-Merkmalsbeitrages (30) eines Trainingsbildes (20) zu den Objektmerkmalen (28) mittels linearer Filteroperationen gewichtet zu fusionieren.
  15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, dass diese eine Initialisierungseinheit umfasst, um eine initiale Bestimmung von Objektmerkmalen durchzuführen.
DE102011113154.3A 2011-09-14 2011-09-14 Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern Expired - Fee Related DE102011113154B4 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102011113154.3A DE102011113154B4 (de) 2011-09-14 2011-09-14 Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
US14/344,390 US9361543B2 (en) 2011-09-14 2012-08-13 Automatic learning method for the automatic learning of forms of appearance of objects in images
EP12769887.6A EP2756458A1 (de) 2011-09-14 2012-08-13 Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern
PCT/DE2012/100238 WO2013037357A1 (de) 2011-09-14 2012-08-13 Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102011113154.3A DE102011113154B4 (de) 2011-09-14 2011-09-14 Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern

Publications (2)

Publication Number Publication Date
DE102011113154A1 true DE102011113154A1 (de) 2013-03-14
DE102011113154B4 DE102011113154B4 (de) 2015-12-03

Family

ID=47010116

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102011113154.3A Expired - Fee Related DE102011113154B4 (de) 2011-09-14 2011-09-14 Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern

Country Status (4)

Country Link
US (1) US9361543B2 (de)
EP (1) EP2756458A1 (de)
DE (1) DE102011113154B4 (de)
WO (1) WO2013037357A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098741B1 (en) * 2013-03-15 2015-08-04 Google Inc. Discriminitive learning for object detection
CN103914841B (zh) * 2014-04-03 2018-03-09 深圳大学 基于超像素和深度学习的阴道细菌分割与分类系统
CN107169571A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种特征筛选方法及装置
US10163003B2 (en) * 2016-12-28 2018-12-25 Adobe Systems Incorporated Recognizing combinations of body shape, pose, and clothing in three-dimensional input images
KR102481885B1 (ko) * 2017-09-08 2022-12-28 삼성전자주식회사 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
JP7167668B2 (ja) * 2018-11-30 2022-11-09 コニカミノルタ株式会社 学習方法、学習装置、プログラムおよび記録媒体
CN109740658B (zh) * 2018-12-28 2023-04-18 陕西师范大学 一种基于带权图的半监督图像分类方法
CN110929622B (zh) * 2019-11-15 2024-01-05 腾讯科技(深圳)有限公司 视频分类方法、模型训练方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421415B2 (en) * 2004-09-07 2008-09-02 Siemens Corporate Research, Inc. Methods and systems for 3D object detection using learning
US7890512B2 (en) * 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning
US8175376B2 (en) * 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
US8588519B2 (en) * 2010-09-22 2013-11-19 Siemens Aktiengesellschaft Method and system for training a landmark detector using multiple instance learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
R. C. Gonzales und R. E. Woods (Digital Image Processing, Third Edition, Pearson Prentice Hall)
R. C. Gonzales, R. E. Woods, Digital Image Processing, Third Edition, Pearson Prentice Hall

Also Published As

Publication number Publication date
WO2013037357A1 (de) 2013-03-21
EP2756458A1 (de) 2014-07-23
US9361543B2 (en) 2016-06-07
US20140328537A1 (en) 2014-11-06
DE102011113154B4 (de) 2015-12-03

Similar Documents

Publication Publication Date Title
DE102011113154B4 (de) Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
CN106874889A (zh) 基于卷积神经网络的多特征融合sar目标鉴别方法
EP2920741B1 (de) Verfahren und vorrichtung zur bildgestützten landebahnlokalisierung
DE102007041893A1 (de) Verfahren zur Detektion und/oder Verfolgung von bewegten Objekten in einer Überwachungsszene mit Störern, Vorrichtung sowie Computerprogramm
EP2028605A1 (de) Detektionsverfahren für symmetrische Muster
EP3630522B1 (de) Externe darstellung von bildaufnahmen eines fahrzeuginnenraums in einer vr-brille
DE102021128523A1 (de) Hierarchische bildzerlegung zur defekterkennung
DE102018205561A1 (de) Vorrichtung zur Klassifizierung von Signalen
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
EP3511904B1 (de) Verfahren zum bestimmen einer pose eines objekts in einer umgebung des objekts mittels multi-task-lernens, sowie steuerungsvorrichtung
EP3158543B1 (de) Verfahren zum detektieren eines blickwinkelabhängigen merkmals eines dokumentes
DE102016011378A1 (de) Verfahren zur Selbstlokalisierung eines Fahrzeugs
DE102008036219A1 (de) Verfahren zur Erkennung von Objekten im Umfeld eines Fahrzeugs
DE102018100315A1 (de) Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk
DE102019204602B4 (de) Verfahren und Vorrichtung zur Maskierung von in einem Bild enthaltenen Objekten
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102008057979B4 (de) Lerneinheit für ein Objekterkennungssystem und Objekterkennungssytem
DE102013224382A1 (de) Beschleunigte Objekterkennung in einem Bild
DE102017104957A1 (de) Verfahren zum Bestimmen einer Bewegung von zueinander korrespondierenden Bildpunkten in einer Bildsequenz aus einem Umgebungsbereich eines Kraftfahrzeugs, Auswerteeinrichtung, Fahrerassistenzsystem sowie Kraftfahrzeug
DE102020208080A1 (de) Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße
DE102020126954A1 (de) System und Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung
EP0693200B1 (de) Verfahren zur klassifizierung von objekten
WO2019072451A1 (de) Verfahren zum verarbeiten von bildern
DE102013226797B4 (de) Kreissegment- und Formdetektion

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R082 Change of representative

Representative=s name: ROESLER RASCH & PARTNER PATENT- UND RECHTSANWA, DE

R081 Change of applicant/patentee

Owner name: AIRBUS DEFENCE AND SPACE GMBH, DE

Free format text: FORMER OWNER: EADS DEUTSCHLAND GMBH, 85521 OTTOBRUNN, DE

Effective date: 20140814

R082 Change of representative

Representative=s name: ROESLER RASCH & PARTNER PATENT- UND RECHTSANWA, DE

Effective date: 20140814

Representative=s name: ROESLER - RASCH - VAN DER HEIDE & PARTNER PATE, DE

Effective date: 20140814

Representative=s name: ISARPATENT - PATENTANWAELTE- UND RECHTSANWAELT, DE

Effective date: 20140814

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R082 Change of representative

Representative=s name: ISARPATENT - PATENT- UND RECHTSANWAELTE BEHNIS, DE

Representative=s name: ISARPATENT - PATENTANWAELTE- UND RECHTSANWAELT, DE

R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee