Maschinelles Lernverfahrers zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
Die Erfindung betrifft ein maschinelies Lernverfahren zum maschinellen Erfernen der Erscheinungsformen von Objekten in Bildern in Form von Objektmerkmalen anhand von Trainingsbiidern zur Verwendung der erlernten Objektmerkmale in einem Bildverarbeitungssystem, sowie eine Vorrichtung zur Durchführung des Verfahrens.
Ein solches Bildverarbeitungssystem kann dabei durch ein Objekterkennungssystem, Objektverfolgungssystem oder ein Bildregtstrierungssystem gegeben sein.
Die Aufgabe von Objekterkennungssystemen ist das Lokalisieren und Klassifizieren von Objekten (z.B. Fahrzeugen oder Personen) in digitalen Bildern. Diese kommen beispielsweise in Kraftfahrzeugen zum Einsatz, wo die Umgebung und insbesondere der Bereich vor dem Kraftfahrzeug auf Objekte wie andere Fahrzeuge oder Passanten zu untersuchen ist, oder den Bereich der Robotik, wo von einem frei bewegbaren Roboter die Umgebung nach bestimmten Objekten abzusuchen ist.
Die Aufgabe von Objektverfolgungssystemen ist das Wiederauffinden eines Objektes (z.B. eines Fahrzeuges oder einer Person) in einem Bild einer Biidsequenz, unter der Voraussetzung, dass dessen Lage, Ausdehnung und Erscheinungsform in einem oder mehreren vorherigen Bildern der Bildsequenz bekannt ist.
Die Aufgabe von Büdregistrierungssystemen ist die Bestimmung von Biidtransformationen (z.B. Translationen) zwischen zwei Bildern, weiche es ermöglichen, durch Anwendung der Transformation die Bilder in Deckung zu bringen. Beispielsweise bringen Methoden zur Panoramabilderzeugung die überlappenden Bereiche zweier Bilder in Deckung um ein Gesamtbild zu erzeugen (sog. Stitching). Aus den relativen Lagen der Bildinhalte in beiden Bildern lassen sich die notwendigen Transformationsinformationen bestimmen.
Die Methodik des überwachten maschinellen Lernens eines Objekterkennungssystems benutzt eine vorzugsweise große Anzahl von annotierten Trainingsbiidern, welche sowohl die Bildinhalte der zu erlernenden Objekte als auch deren Bild-Hintergründe enthaften bzw. repräsentieren. Ein Bildbereich um eine Bildposition, an der sich im Trainingsbild ein zu erlernendes Objekt befindet, wird als positives Traintngsbeispiei bezeichnet, es ist po-
sittv annotiert. Bildbereiche im Trainingsbild, an denen sich keine zu erlernenden Objekte befinden (im Bild-Hintergrund), werden als negative Trainingsbeispiele bezeichnet (negative Annotation).
Während des Trainings des Objekterkennungssystems werden positive und negative Trainingsbeispieie aus den Trainingsbildern herangezogen, um daraus Objektmerkmale zu erlernen, weiche eine möglichst eindeutige Trennung von Objekt und Hintergrund ermöglichen. Die so erlernten Objektmerkmale werden im Objekterkennungssystem dazu verwendet, um in beliebigen {im Training ungesehenen Bildern) das Auffinden des erlernten Objektes zu ermöglichen.
Ein Grundproblem dabei ist die notwendige Verarbeitung einer vorzugsweise großen Anzahl von positiven und negativen Trainingsbeispieien, welche zur Erfassung der möglicherweise vielfältigen Erscheinungsformen von Hintergründen und Objekt von Nöten ist. Beispielsweise sei ein Trainingsbild der Größe 1000x1000 Pixel angenommen, in dem sich ein Objekt der Größe 100x100 Pixel befindet- Während in diesem Falle genau ein positives Trainingsbeispiel gegeben ist, sind im Trainingsbitd (1000-100+1) x (1000- 100+1 ) - 1 - 81 800 nutzbare negative Trainingsbeispiele der Größe 100x100 Pixel enthalten, weiche sich in der Bildebene überlappen.
Eine wünschenswerte Verarbeitung einer großen Anzahl von Trainingsbeispieien ist daher sowohl aus funktioneller Sicht (Training einer größeren Varianz von Erscheinungsformen) sowie einer Operationellen Sicht (zeitlicher und verarbeitungstechnischer Aufwand) von großem Interesse. in Bildverfolgungssystemen sind die annotierten Trainingsbilder durch die Bilder einer Bildsequenz gegeben, in denen die Lage, Ausdehnung und Erscheinungsform des zu verfolgenden Objektes schon aus vorherigen Bildern der Bildsequenz bekannt bzw. annotiert sind. Eine initiale Annotation kann beispielsweise durch einen Benutzer (Markierung des zu verfolgenden Objektes), durch ein Objekterkennungssystem oder durch die Detek- tion von bewegten Objekten erfolgen. Während in einem Objektverfolgungssystem positive Annotationen (positive Trainingsbeispiele) nur aus den vorherigen Bildern der Bildsequenz - und somit nur in geringer Anzahl - verfügbar sind, profitiert ein solches System umso mehr von dem schnellen Erlernen vieler negativer Annotationen (Objekthintergründe, negative Trainingsbeispieie). Oies ist insbesondere von großem Informationsgehalt, da diese sich von Bild zu Bild wenig unterscheiden. Im Vergleich dazu muss ein Objekterkennungssystem oftmals gegen negative Annotationen (Objekthintergründe) trainiert
werden, welche nicht zwingend den im operationeilen Einsatz auftretenden Objekthintergründen identisch sind.
Zur Registrierung von zwei Bildern in einem Bildregistrierungssystem wird eines der beiden Bilder ais Trainingsbiid, das andere als Testbiid interpretiert. Die Bestimmung der positiven Annotationen im Trainingsbild muss spezifisch für die Registrierung saufgabe und die damit zu bestimmende Transformationsinformation in Anzahl und Lage festgelegt werden. Beispielsweise könnten zur Panoramabilderzeugung eine oder mehrerer positive Annotationen an festen Positionen im zu erwartenden Überlappungsbereich beider Bilder gewählt werden (z.B. am rechten Bildrand). Der Rest des Bildes gilt als negativ annotiert. Alternativ können positive Annotationen durch manuelle oder automatische Bestimmung von markanten Bäldbereichen erzeugt werden, d.h. durch Bestimmung von Bildbereichen welche für deren Wiederauffinden im Testbild besonders geeignet sind (z.B. stark strukturierte Bildbereiche). Sollen mehr als zwei Bilder (z.B. eine Bildsequenz} zueinander registriert werden, können positive und negative Annotationen in geeigneter Form in mehr als einem Bild der Sequenz gewählt werden (im Sinne mehrere Trainingsbilder),
Während im Gegensatz zu Objekterkennungssystemen und Objektverfolgungssystemen im Falle von Biidregistrierungssystemen das Wsederaufflnden von allgemeinen Bildinhalten (nicht zwingend von Objekten) in verschiedenen Bildern angestrebt ist, wird im Folgenden zum Zwecke einer vereinfachten Formulierung von Objekten gesprochen. Unter Objekten sind demnach Bildinhalte zu verstehen, welche in Bildern aufgefunden werden sollen ohne mit anderen Bildinhalten verwechselt zu werden.
Stand der Technik ist eine explizite Erzeugung einer großen Anzahl von positiven und negativen Tratningsbeispieien in Form von Merkmalsdatenvektoren mit deren expliziten Verarbeitung in einem maschinellen Lernansatz (z.B. Support- Vector-Maschine oder Neuronales Netzwerk),
Die herkömmlichen Verfahren lösen diese Aufgabe in diskretisierter Form. Einzelne Trainingsbeispiele werden dabei an den durch die Annotationsbilder bestimmten Bereichen diskret extrahiert und in einzelne erkmalsdatenvektoren überführt. Da durch Überlappung in der Bildebene ein große Anzahl derartiger Trainingsdatenvektoren aus einem einzelnen Merkmalsbild gewonnen werden können, wird in diesem Schritt zur Reduzierung des Berechnungsaufwandes typischerweise lediglich eine kleine Untermenge ausgewählt. Die dadurch erzielbare Aügemeingültigkeit der aus einem Trainingsbild in einem einzigen Verarbeitungsschritt gewinnbaren Objektmerkmalsbeiträge ist folglich begrenzt.
Hiervon ausgehend liegt der Erfindung die Aufgabe zugrunde, die schnelle Verarbeitung einer großen Anzahl von positiven und negativen TrainingsbeispieSen (Annotationen), im Training eines Bildverarbeitungssystems bereitzustellen.
Die Lösung dieser Aufgabe ergibt sich aus den Merkmalen der unabhängigen Ansprüche, Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche. Erfindungsgemäß wird die Aufgabe durch ein maschinelles Lernverfahren mit folgenden Schritten gelöst:
- Bereitstellen von Trainingsbildern und zugehörigen Annotationsbildern, wobei mindestens ein Trainingsbild die Darstellung eines zu erlernenden Objektes enthält und die zugehörigen Annotationsbilder an Positionen von Objekten im Trainingsbild positive Annota- tionswerte (Annotationen) aufweisen;
- Erstellen mindestens eines Merkmalsbildes aus einem Trainingsbild, wobei ein Merkmal an einer Bildposition im Merkmalsbild aus der Umgebung der entsprechenden Bildposition im Trainingsbild extrahiert ist;
- Erzeugen eines Klassifikationsbildes aus dem Merkmalsbild und Objektmerkmalen, das Informationen über den Ähnlichkeitsgrad zwischen den Objektmerkmalen und dem Merkmalsbifd in der Form von Klassifikationsantworten enthält;
- Bestimmen eines Merkmalsbeitrages des Trainingsbildes zu den Objektmerkmaien durch gewichtete Summation von Trainingsbild-Merkmalen mittels linearer Fiiteroperatio- nen mindestens aus den Annotattonsbildern, dem Merkmalsbild und dem Klassifikationsbild. Lineare Filteroperationen sind Standardoperationen aus dem Bereich der Bild- und Signalverarbeitung (siehe z.B. Lehrbuch R.C. Gonzales, R.E. Woods, Digital Image Processing, Third Edition, Pearson Prentice Hall).
Die Erfindung ermöglicht in funktioneller Hinsicht das Training einer größeren Varianz von Erscheinungsformen von Objekten und Hintergründen, wodurch die Robustheit des Systems in seiner Anwendung auf untrainierte Bilder erhöht wird. In operationeller Hinsicht ermöglicht die Erfindung die Durchführung schnellerer Trainingsdurchläufe. Dies ermöglicht
- eine schnellere Anpassung von Objekterkennungssystemen an veränderte Bedingun-
gen bezüglich zu erkennender Objekte oder zu erwartender Hintergrundstrukturen - bis hin zu dedizierten Trainingsdurchläufen im operationeiien Betrieb des Objekterkennungssystems.
- die Durchführbarkeit einer höheren Anzahl von Trainings- und Evatuierungsdurchläufen zur sukzessiven Optimierung des Objekterkennungssystems (z.B. Trainingsdurchläufe unter Parametervariationen).
- die Durchführung von schneiten Trainingsdurchläufen für die fernbasierte Objektverfolgung oder Bild reg istrierung in Echtzeit auf Bilddatenströmen (Videodatenströmen).
Alternativ zu einer schnelleren Durchführung von Trainingsdurchläufen ermöglicht die Erfindung deren Ausführung auf Hardwarearchitekturen mit geringeren Verarbeitungsgeschwindigkeiten (z.B. auf mobiien Hardwarearchitekturen).
Die Erfändung wird nachfolgend anhand eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert. Diese zeigen:
Figur 1 ; eine schematische Übersichtsdarstellung der erfindungsgemäßen Lerneinheit;
Figur 2; eine schematische Darstellung der Arbeitsweise der Klassifikationseinheit; Figur 3. eine schematische Darstellung der Arbeitsweise der Fusionseinheit;
Figur 4: eine beispielhafte Darstellung des Fiitervorgangs in der Fusionseinheit.
In Figur 1 ist die erfindungsgemäße Lerneinheit 10 schematisch dargestellt. Diese um- fasst zumindest eine Trainingsbildeinheit 12, eine Merkmalsextraktionseinhett 14, eine Kiassifikationseinheit 16 sowie eine Merkmalsfusionseinheit 18. Eine weitere optionale Untereinheit, die Initialisierungseinheit, dient ausschließlich zum Initialisieren von Objektmerkmalen und ist daher in Figur 1 nicht abgebildet.
Aufgabe der Lerneinheit 10 ist es, die Erscheinungsform von Objekten und Hintergründen in Trainingsbildern 20 in effizienter Art und Weise zu erfassen. Die Erfassung erfolgt durch die Bestimmung der Objektmerkmalsbeiträge eines jeden Trainingsbildes 20. Eine Ausführung der Lerneinheit 10 auf mehreren Trainingsbildern 20 ermöglicht es, die gesuchten Objektmerkmale aus den Objektmerkmalsbeiträgen der einzelnen Trainingsbilder 20 zu kombinieren. Eine Ausführungsform der Kombination der Objekimerkmalsbeiträge ist durch deren Mittelung gegeben.
Die Aufgabe der nicht dargestellten initialisierungseinheit ist die Bereitstellung einer initialen Schätzung von Objektmerkmalen. Eine Ausführungsform der Initialisierungseinheit ist durch eine zufällige oder gleichförmige Initialisierung der Objekt nerkmate gegeben. Eine alternative Ausführungsform benutzt die Trainingsbildeinheit und die erkmalsextrakti- onseinheäi zur Gewinnung einer inttiaien Schätzung von Objektmerkmalen aufgrund der in den Trainingsbildern abgebildeten Objekte.
Die Aufgabe der Trainingsbildeinheit 12 ist die Bereitstellung von Trainingsbildern 20 und Annotationsbildern 22. Bei den Trainingsbildern 20 kann es sich um reale Sensorbüder, per Computergrafik erzeugte synthetische Bilder oder Mischformen aus beiden handeln. Neben dem eigentlichen Trainingsbild 20 stellt die Trainingsbildeinheit 12 ein Annotati- onsbiid 22 zur Verfügung. Dem Annotationsbild 22 kann entnommen werden, an welchen Bildpositionen im Trainingsbiid 20 sich zu erlernenden Objekte befinden (positive Annotationen}. Bildpositionen im Trainingsbiid 20, an denen sich keine zu erlernenden Objekte befinden (z.B. im Bild-Hintergrund) sind negativ annotiert. Die das zu erlernende Objekt umfassenden Büdausschnitte im Trainingsbild 20 werden als positive Trainingsbeispiele bezeichnet. Bildausschnitte im Trainingsbild-Hintergrund der gleichen Größe wie die zu erlernenden Objekte werden als negative Trainingsbeispiele bezeichnet In Figur 1 ist symbolisch ein Trainingsbiid 20 mit zugehörigem Annotationsbild 22 gezeigt. Aus Gründen der einfacheren Darstellbarkeit ist die Bildebene in ein einfacheres 3x3 Raster eingeteilt.
Eine vorteilhafte Ausführungsform der Trainingsbildeinheit 12 für ein Objekterkennungssystem ist durch ein Computergrafiksystem gegeben, in dem die zu trainierenden Objekte unter Verwendung von 3D-Model!en bei bekannter Büdposiiion synthetisch unter beliebigen Darstellungsbedingungen (z.B. Beieuchtung) vor beliebigem Hintergrund in beliebiger Anzahl erzeugt werden können.
Die Aufgabe der Merkmalsextraktionseinheit 14 ist die Umwandlung eines Trainingsbildes 20 in ein oder mehrere erkmaisbiider 24. Eine einfache Ausführungsform der Merkmalsextraktionseinheit 14 ist die Erzeugung eines Kantenbildes durch Kantenbiidoperati- onen. Mehrere Merkmalsbilder 24 können beispielsweise durch die Anwendung einer Filterbank mit Richtungsfiitern gewonnen werden. Figur 1 zeigt symbolisch das Ergebnis einer Kantenbiidoperation als Merkmalsbild 24.
Die Aufgabe der Klassifikationseinheit 16 ist die Umwandlung eines Merkmalsbildes 24 in
ein Klassifikationsbiid 26. Die als Klassifikationsantwort bezeichneten Einträge des Klassifikationsbildes 26 sind ein Maß für die Ähnlichkeit zwischen Objektmerkmaien und dem Merkmaisbild 24 in der lokaien Umgebung der entsprechenden Bildposition. Größere Klassifikationsantworten deuten auf eine größere Ähnlichkeit hin.
Die der Klassifikationseinheit 16 zugefuhrten Objekfmerkmale 28 stammen entweder aus der nicht gezeigten Initialisierungseinheit oder aus Objektmerkmalen, weiche durch Kombination (z.B. Mittelung) von zuvor bestimmten Objektmerkmalsbeiträgen von Trainings- bildern 20 stammen. Eine bevorzugte Ausführungsform der Klassifikationseinheit 16 zur Berechnung des Ähnlichkeitsmaßes ist durch eine in Figur 2 gezeigte Bildkorrelation zwischen Objektmerkmalen und Merkmalsbild gegeben. Wurden in der Merkmaisextrakti- onseinheit 14 mehr als ein Merkmalsbild 24 pro Trainingsbild 20 erzeugt, so ist die Klassifikationseinheit 16 auf jedes Merkmalsbiid 24 anzuwenden.
Die Aufgabe der Merkmalsfusionseinheit 18 ist es, auf möglichst effiziente Art und Weise eine möglicherweise große Anzahl von unterschiedlich gewichteten Bereichen des Merk- malsbildes 24 durch Addition zu fusionieren und damit den gesuchten Merkmaisbeitrag 30 eines Trainingsbiides 20 zu den Objektmerkmalen zu bestimmen. Zur Bestimmung der Gewichte verwendet die Merkmalsfusionseinheit 18 das Annotationsbild 22 und das Klassifikationsbild 26.
Die Funktionsweise der Merkmalsfusionseinheit 18 ist symbolisch in Figur 3 dargestellt und in zwei Schritte unterteübar.
An Bildposttionen, an denen laut Annotationsbiid 22 ein Objekt abgebildet ist, sollte bei optimal gewählten Objektmerkmalen eine hohe Kiassifikationsantwort auftreten. Ist dies nicht der Fall, deutet dies darauf hin, dass im Merkmalsbiid 24 neue Objektmerkmaisstrukturen vorhanden sind, welche noch nicht im ausreichenden Maße in den benutzen Objektmerk malen repräsentiert sind, z.B. durch eine bisher nicht erlernte Formgebung des Objektes im Trainingsbild. Der entsprechende Bereich des Merkmalsbildes 24 muss daher mit einer positiven Gewichtung in die Bestimmung der Öbjektmerkmalsbeiträge des Trainingsbildes 20 eingehen. Vorteilhaft wird die positive Gewichtung an einer Bildposition umso größer gewählt, je kleiner die Kiassifikationsantwort an entsprechender Bildposiiion ausgefallen ist.
An Büdpositionen, an denen laut Annotationsbild 22 kein Objekt abgebildet ist, sollte bei optimal gewählten Objektmerkmalen eine niedrige Klassifikaiionsantwort auftreten. Ist
dies nicht der Fall,, deutet dies darauf hin, dass im Merkmalsbiid 24 Hintergrundmerk- malsstrukturen vorhanden sind, welche eine zu große Ähnlichkeit mit den benutzten Objektmerkmaien besitzen. Der entsprechende Bereich des Merkma!sbildes 24 muss daher mit einer negativen Gewichtung in die Bestimmung der Objektmerkmaisbeiträge des Trainingsbildes 20 eingehen, Vorteilhaft wird die negative Gewichtung an einer Bildposition umso stärker negativ gewählt, je größer die Klassifikationsantwort an entsprechender Bild position ausgefallen ist.
An Bildpositionen, an denen laut Annotationsbiid 22 ein Objekt abgebildet ist und die Klassifikationsantwort ausreichend groß ausfällt - z.B. über einer Schwelle liegt - kann dieser Bildposition ein Gewicht von Nuil zugeordnet werden. An Bild Positionen, an denen laut Annotationsbild 22 kein Objekt abgebildet ist und die Klassifikationsantwort ausreichend klein ausfällt - z.B. unter einer Schwelle liegt - kann dieser Bildposition ein Gewicht von Null zugeordnet werden.
Entsprechend dem oben beschriebenen Verfahren wird jeder Bildposition in der Merk- malsfusionseinheit 18 ein Gewicht zugeordnet und die Ergebnisse einem Gewichtsbild 32 zugeordnet.
Die Aufgabe des in Figur 3 unten dargestellten zweiten Schrittes ist die gewichtete Sum- mation von Merkmalsbereichen entsprechend der im ersten Schritt bestimmten Gewichte. Schritt 2 macht sich dabei vorteilhaft die Eigenschaft von linearen Filteroperationen zu Nutze, bei denen die Gewichte einer Filtermaske bestimmen, in welcher Gewichtung welche Anteile eines Signals summiert werden sollen. Es sei an dieser Stelle darauf hingewiesen, dass die hier beschriebenen linearen Fiiteroperationen in ihrem funktionellen Ziel nicht mit Filteroperationen zu verwechseln sind, wie sie beispielsweise in der Objekterkennung zur Messung von Ähnlichkeiten oder zur Merkmalsextraktion verwendet werden.
Die Ausführung der Fusion sei exemplarisch anhand von Figur 4 illustriert, das ein Merkmaisbiid 24 mit einigen von Null unterschiedlichen Einträgen (Nullen sind in der Abbildung nicht dargesteiit) zeigt. Dabei besteht die Aufgabe darin, die grau markierten Bildbereiche mit vorgegebenen Gewichten zu summieren. Die Bildpositionen der zu summierenden Biidbereiche sind mit ihren zu verwendenden Gewichten im Gewichtsbild 32 eingetragen. Diese Aufgabe wird nun durch Filterung des Merkmalsbiides 24 (M) durch das Gewichtsbild 32 (G) ausgeführt (G* ), Hier bedeutet * die Operation der Filterung, im Ergebnisbild 34 (G*M) werden die außerhalb des zentralen Bildbereiches liegenden Einträge ignoriert, was durch einen Strich dargestellt ist. Wie zu erkennen ist, befindet sich im Ergebnisbild
34 die Summe der gewichteten Bildbereiche aus dem Merkmaisbild 24.
Die Aufgabe des in Figur 3 unten dargestellten zweiten Schrittes der Merkmalsfusion kann demnach dadurch erreicht werden, dass das in dem in Figur 3 oben dargestellten ersten Schrittes gewonnene Gewichtsbild 32 als Filiermaske interpretiert wird, um durch eine lineare Filterung des erkmalsbÜdes 24 mit dem Gewichtsbild 32 die gewünschte gewichtete Summation von Merkmalsbereichen zu erzielen. Die Filterung des Merkmalsbildes 24 mit dem Gewichtsbiid 32 kann vorteilhaft nach Transformation beider Biider mittels schneller Fourier-Transformationen im Frequenzraum durch einfache elementweise Multiplikation ausgeführt werden. Die bekannte Methodik der Durchführung von Filteroperationen im Frequenzraum durch Ausnutzung des sog. Faltungstheorems (convolution theorem) ist beispielsweise im Lehrbuch von R.C. Gonzales und R.E. Woods (Digital Image Processing, Third Edition, Pearson Prentice Hall) beschrieben. Mit dieser Methodik müssen die Bereiche des Merkmalsbildes 24 im Gegensatz zum Stand der Technik nicht explizit in der Form von Merkmalsdatenvektoren erzeugt werden sondern werden innerhalb der Filteroperation implizit erzeugt, gewichtet und aufsummiert.
In den Figuren 1 und 3 sind die Merkmalsbeiträge von positiven und negativen Gewichten ausschließlich zur nachvollziehbareren Darstellung getrennt gezeigt. Die Merkmaisfusi- onseinheit erzeugt die Summe beider Beiträge.
Werden in der Merkmalsextraktionseinheit 14 mehr als ein Merkmalsbild 24 und in der
Klassifikationseinheit 16 mehr ais ein Klassifikationsbild 26 erzeugt, werden in der Merkmalsfusionseinheit 18 eine entsprechende Anzahl von Merkmalsbeiträgen erzeugt.
Bezugszeichenitste
10 Lerneinheit
12 Traintngsbiideinheit
14 Merkmalsextraktionseinheit
16 Klassifikationseinhett
18 Merkmalsfusionseinheit
20 Tratningsbüd
22 Annotationsbild
24 Merkmalsbild
26 Klassifikattonsbild
28 Objektmerkrnai
30 Merkmaisbeitrag
32 Gewichtsbiid
34 Ergebnisbild