DE102008018835A1

DE102008018835A1 - Verfahren zum Erfassen von Objekten unter Verwendung von flexiblen Randanordnungen

Info

Publication number: DE102008018835A1
Application number: DE102008018835A
Authority: DE
Inventors: Yan Li; Yakup Genc; Yanghai Tsin
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Corporate Research Inc
Priority date: 2007-04-23
Filing date: 2008-04-15
Publication date: 2008-12-11
Also published as: US20080260261A1; US8320679B2; GB2448801A; GB0806191D0

Abstract

Ein Verfahren wobei Bilder unterschiedlicher Typen von Objekten innerhalb einer Klasse in Bereichsstapel unterteilt werden. Für jeden der Stapel: (a) wendet das Verfahren eine Formvorlage an, um Fragmente zu extrahieren, die eine vorbestimmte Größe und eine aus einer Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um extrahierte Formvorlagen zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine häufigste davon, die lediglich eine erste Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweist; (c) zeichnet das Verfahren die Anzahl der Bilder auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren die Schritte (b) und (c) mit aufeinanderfolgend ansteigenden Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen Grenzwert fällt; und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage die der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Die extrahierten Master-Formvorlagen für die Stapel werden zu einer Karte bzw. Map kombiniert, die anschließend mit Hintergrundbildern verglichen wird, um extrahierte Formvorlagen zu entfernen, die mit einem Segment in dem Hintergrund übereinstimmen.

Description

Querverweis auf verwandte Anmeldungen
Diese Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung mit der Nummer 06/913,303, eingereicht am 23. April 2007, deren gesamter Gegenstand hierin unter Bezugnahme mit einbezogen ist.
Technisches Gebiet
Diese Erfindung betrifft im Allgemeinen ein Verfahren zum Erkennen von Objekten und insbesondere Verfahren zum Erkennen von Objekten diverser oder unterschiedlicher Formen, die zu einer allgemeinen Klasse von derartigen Objekten innerhalb eines ungeordneten, natürlichen Hintergrunds gehören.
Hintergrund und Zusammenfassung
Wie im Stand der Technik bekannt ist, hat das Erkennen von diversen Objekten in ungeordneten, natürlichen Szenen auf schnelle und exakte Weise viele Anwendungen in der realen Welt, wie z. B. Roboter-Navigation, Interaktion zwischen Mensch und Computer, Bilderkennung und automatisierte Beobachtung. Eine Herausforderung ist es, große Abweichungen in Form und Erscheinung der Objekte innerhalb einer Objektkategorie sowie die Abweichungen zu berücksichtigen, die sich aus Veränderungen des Blickpunkts, der Beleuchtung und der Bildgebungsvorrichtung ergeben.
Viele Verfahren, die verwendet werden, um Objekte zu erkennen, haben sich auf Textur-basierte Orte von Interesse (Points of interest) konzentriert, siehe z. B. [K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir und L. Van Gool, "A comparison of affine region detectors", IJCV, 65(1–2), 2005]. Diese Merkmale basieren typischerweise auf einer quantitativen Messung von Filterantworten und sind in aussagefähigen Bereichen, wie z. B. Ecken, Klecksen bzw. Klumpen und T-Verbindungen angeordnet. Sie wurden als die atomare Eingabe bei dem visuellen Prozess sowohl des Teile-basierten Modells, siehe z. B. [R. Fergus, P. Perona und C. Zisserman, "Object class recognition by unsupervised scale-invariant learning", in CVPR, 2003] als auch dem Bag-of-Features-Verfahren verwendet, siehe: [G. Csurka, C. Dance, L. Fan, J. Willamowksi und C. Bray, "Visual categorization with bags of keypoints", in ECCV Work-shop an Statistical Learning in Computer Vision, 2004]; [L. Fei-Fei und P. Perona, "A Bayesian hierarchical model for learning natural scene categories", in CVPR, 2005]; [K Graumau und T. Darrell, "Efficient image matching with distributions of local invariant featuers", in CVPR, 2005]; und [S. Lazebnik, C. Schmid und J. Ponce, "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories" in CVPR, 2006].
Obwohl Orte von Interesse bei dem Wide-Baseline-Matching und der Einzelobjekterkennung (single object recognition) sehr wirksam sind, siehe [H. Bay, T. Tuytelaars und L. Van Gool, "SURF: Speeded up robust features", in ECCV, Mai 2006]; V. Lepetit, P. Lagger und P. Fua, "Randomized trees for realtime keypoint recognition", in CVPR, 2005]; und [D. G. Lowe, "Distinctive image features from scale-invariant keypoints", IJCV, 60(2): 91–110, 2004], scheinen sie für die kategorische Objekterkennung weniger optimal zu sein. Der Hauptgrund ist, dass Orte von Interesse dazu bestimmt sind, bestimmte Bildstrukturen zu erfassen, wohingegen eine ideale Merkmalsdarstellung sich der Form anpassen sollte, die der Objektkategorie gemein ist, und unterschiedliche Komplexitätsebenen aufweisen sollte.
In neuerer Zeit gab es eine eindrucksvolle Arbeit über die Verwendung von Kontur-Informationen, um diese Einschränkungen zu adressieren. Shotton et al. [J. Shotton, A. Blake und R. Cipolla, "Contour-based learning for object detection", in ICCV, 2005] untersuchen ein Objekterkennungssystem, das nur Konturfragmente ausnutzt. Opelt et al. [A. Opelt, A. Pinz und A. Zisserman, "A boundary-fragmentmodel for object detections", in ECCV, 2006] schlagen das Boundary-Fragment-Modell (BFM) vor. Beide Arbeiten verwenden Adaboost zur Merkmalsauswahl. Ferrari et al. [V. Ferrari, T. Tuytelaars und L. Van Gool, "object detection by contour segment networks", in ECCV, 2006] stellen eine Familie von Maßstabinvarianten Formmerkmalen vor, die durch Ketten von verbundenen und annähernd geraden Kontursegmenten gebildet werden. Diese Verfahren konzentrieren sich auf die Objektform und demonstrierten eine vielversprechende Eigenschaft der Behandlung von Erscheinungsabweichungen. In der Tat werden Kontur-basierte Merkmale ausgiebig verwendet und können auf die Modell-basierte Erkennungsarbeit in den frühen Jahren zurück datiert werden, [E. Grimson, "From Images To Surfaces: A Computational Study of the Human Early Vision System", MIT Press, Cambridge, MA, 1981].
Andere verwandte Techniken, die im Stand der Technik bekannt sind, umfassen: Gradienten-Histogramm-basierte Merkmale, wie z. B. SIFT [D.G. Lowe, "Distictive image features from scaleinvariant keypoints", IJCV, 60(2): 91–110, 2004]; Formen-Kontext [S. Belongie, J. Malik und J. Puzicha, "Shape matching and object recognition using shape contexts", PAMI, 24(4): 509–522, 2002]; und HOG [N. Dalal und B. Triggs, "Histograms of oriented gradients for human detection", in CVPR, 2005].
Eine Arbeit, die mit der vorliegenden Erfindung sehr verwandt ist, ist das Local-Tag-Arrangement (LTA), das von Amit vorgestellt wurde [Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997] im Zusammenhang der Gesichterkennung. In ihrem Rahmenwerk werden lokale Merkmale durch räumliche Anordnungen von Grenz- bzw. Randfragmenten in einem rechtwinkeligen Bereich dargestellt.
Gemäß der vorliegenden Erfindung wird ein Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten bereitgestellt, umfassend: Auswählen einer Untermenge von häufigen Formvorlagen aus einem Formvorlagenvorrat, der eine Vielzahl von Formvorlagen mit unterschiedlichen Komplexitätsgraden aufweist; Formulieren eines Merkmalsauswahl-Algorithmus, um eine von einer vorausgewählten Formvorlage in dem Formvorlagenvorrat am meisten unterschiedliche Formvorlage zu bestimmen.
In einer Ausführungsform ist der Komplexitätsgrad steuerbar; und das Erzeugen des Hauptabbilds aus dem formulierten Merkmalsauswahl-Algorithmus.
In einer Ausführungsform weisen die Formvorlagen Segmentbereiche auf, wobei jeder dieser Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, und wobei der Komplexitätsgrad durch die Anzahl der Fragmente in den Formvorlagen verändert wird.
In einer Ausführungsform wird ein Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten bereitgestellt. Das Verfahren umfasst: (A) Definieren einer Formvorlage, die Segmentbereiche aufweist, wobei jeder dieser Bereiche geeignet ist, darin Merkmale aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen; (B) Ermitteln von Bildern von unterschiedlichen Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei die Bilder auf eine gemeinsame Größe skaliert sind und in Bildbereiche unterteilt sind, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei ein solcher gemeinsamer Bereich einen Bereichsstapel bereitstellt; (C) für jeden der Bereichsstapel: (a) Anwenden der Formvorlage auf jedes der Bilder in solch einem Bereichsstapel, um aus jedem der Bilder Merkmale zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die nur eine erste vorbestimmte Anzahl von Merkmalen mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) Aufzeichnen der Anzahl von Bildern in dem Bereichsstapel, der die bestimmte, am häufigsten extrahierte Formvorlage aufweist; (d) Wiederholen von (b) und (c) mit aufeinanderfolgend steigender vorbestimmter Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; (e) Auswählen der einen der häufigsten Formvorlagen, die die größte aufgezeichnete Anzahl von Merkmalen aufweist, als eine extrahierte Master-Vorlage für den einen der Bereichsstapel; (D) Kombinieren der extrahierten Master-Formvorlagen für jeden Bereichsstapel zu einem Abbild bzw. einer Karte für die Klasse von Objekten; und (E) Vergleichen der Karte mit jedem einer Vielzahl von Hintergrundbildern, um aus dem extrahierten Hauptabbild bzw. Master Map extrahierte Formvorlagen zu entfernen, die mit Segmenteigenschaften des Hintergrunds darin übereinstimmen, um das Hauptabbild bzw. die Master Map für die Klasse von Objekten zu erzeugen.
In einer Ausführungsform sind die Merkmale Randfragmente des Objektes.
In einer Ausführungsform wird ein Verfahren zum Erzeugen einer Master Map für eine generische Klasse von Objekten bereitgestellt. Das Verfahren unterteilt Bilder unterschiedli cher Typen von Objekten innerhalb einer Klasse in Bereichsstapel. Für jeden der Stapel: (a) wendet das Verfahren eine Formvorlage an, um Fragmente zu extrahieren, die eine vorbestimmte Größe und eine einer Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um extrahierte Formvorlagen zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine häufigste davon, die lediglich eine erste Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweist; (c) zeichnet das Verfahren die Anzahl von Bildern auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren (b) und (c) mit aufeinanderfolgend ansteigender Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen Grenzwert fällt; und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage die eine der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Die extrahierten Master-Formvorlagen für die Stapel werden zu einem Abbild bzw. einer Karte kombiniert, das bzw. die anschließend mit Hintergrundbildern verglichen wird, um extrahierte Formvorlagen zu entfernen, die mit dem Segment in dem Hintergrund übereinstimmen.
In einer Ausführungsform wird ein Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine generische Klasse von Objekten bereitgestellt. Das Verfahren definiert eine Formvorlage mit Segmentbereichen, wobei jeder der Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen. Das Verfahren ermittelt Bilder von unterschiedlichen Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei derartige Bilder auf eine gemeinsame Größe skaliert werden und in Bildbereiche unterteilt werden, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei der gemeinsame Bereich einen Bereichsstapel bildet. Für jeden der Bereichsstapel: (a) wendet das Verfahren die Formvorlage auf jedes der Bilder in dem Bereichssta pel an, um aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) zeichnet das Verfahren die Anzahl der Bilder in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren (b) und (c) mit aufeinanderfolgend ansteigender vorbestimmter Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Das Verfahren kombiniert die extrahierten Master-Formvorlagen für jeden der Bereichsstapel zu einem Abbild bzw. einer Karte für die Klasse von Objekten und vergleicht anschließend das Abbild bzw. die Karte mit einer Vielzahl von Hintergrundbildern, um aus dem extrahierten Hauptabbild bzw. Master Map die extrahierten Formvorlagen darin zu entfernen, die mit den Segmenteigenschaften des Hintergrunds übereinstimmen, um die Master Map für die Klasse von Objekten zu erzeugen.
Die vorliegende Erfindung unterscheidet sich von LTA in einer Anzahl von Aspekten. Erstens erfasst die vorliegende Erfindung Linienstrukturen mit einer langen Ausdehnung (z. B. Grenzen bzw. Ränder) anstatt isolierter Rand-Pixel. Zweitens lernt die vorliegende Erfindung Merkmal-Formvorlagen mit variablen Komplexitäten anstatt einer festen Konfiguration. Diese Eigenschaft ist entscheidend, da es wünschenswert ist, dass das Merkmal die Objektform annimmt und Über-/Unter-Repräsentation vermeidet. Schließlich ist das Erkennungsmodell in LTA rein generativ. Es stellt deutbare und wiederhol bare Merkmale dar, die Modell-Unterscheidbarkeit bzw. -Diskriminativität wird ignoriert. Bei der vorliegenden Erfindung verwendet das Verfahren eine Hybridform des generativen und diskriminativen Modells zur Merkmalsauswahl. Die erlernten Merkmale behalten sowohl Deutbarkeit als auch Diskriminativität bei.
In einer Ausführungsform verwendet das Verfahren ein Rand-Fragment-basiertes Merkmal zur Objekterfassung, wobei der Begriff Erfassung sich sowohl auf die Bildkategorisierung als auch die Objektlokalisierung bezieht. Das Objekt wird durch eine Ansammlung von Formvorlagen dargestellt. Jede Formvorlage wird durch eine Gruppe von lokalen Rand-Fragmenten definiert. Im Gegensatz zu den herkömmlichen Ort-von-Interesse-Merkmalen, können Rand-Fragmente stabil auf der Objektgrenze trotz großer Formdeformierungen stabil erfasst werden, und können in großem Maße invariant auf Beleuchtungsveränderungen und Objektfarben in Übereinstimmung gebracht werden. Noch attraktiver ist, dass die Randerfassung und -verfolgung sehr wirksam sind. Durch das Durchsuchen der lokalen und globalen Randkonfiguration kann das Verfahren die Objektsuche drastisch auf eine geringe Anzahl von Bereichen-von-Interesse (Regions of Interest; ROI) mit minimalem Rechenaufwand und Fehlerfassungen reduzieren. Noch genauere Klassifizierer können des Weiteren eingeführt werden, um jede vorläufige Erfassung zu verifizieren.
Die Formvorlage wird auch als Flexible Edge Arrangement Template (FEAT) bezeichnet, da sie eine große Flexibilität durch Variieren der Ausdehnung und Orientierung der individuellen Randfragmente, sowie der Anzahl von Randfragmenten und ihrer räumlichen Verteilung innerhalb der Formvorlage bietet. Die Fülle dieses Formvorlagenvorrats macht jedoch auch die Merkmalsauswahl zu einer großen Herausforderung. Die Aufgabe ist es, eine minimale Untermenge von Formvorlagen auszuwählen, die die Objektform am besten erfassen, und gleichzeitig noch von anderen Nicht-Objekten unterscheidbar sind. Wie oben erwähnt, beginnt das Verfahren mit einer Untermenge von Formvorlagen. Die Untermengen werden unabhängig auf einigen räumlichen Behältern ausgewählt. In einer zweiten Stufe berücksichtigt das Verfahren die gemeinsamen Merkmalsstatistiken und verwendet eine Diskriminanz-Analyse (DA), um den optimalen Merkmalssatz zu bestimmen.
Die Formvorlage nimmt keinen a priori semantischen oder geometrischen Inhalt an, und kann konzeptionell auf ein beliebiges Objekt mit unterscheidungsfähigen Formen angewendet werden.
Ein signifikanter Unterschied zwischen dem erfindungsgemäßen Verfahren und den bisher verwendeten Techniken ist, dass die letzteren alle Merkmalsdeskriptoren sind, wohingegen FEAT mehr wie ein Merkmalsdetektor ist. Das Verfahren verwendet einen Gierige-Suche-Algorithmus (greedy search), um objektspezifische FEATs während des Trainings zu konstruieren. Bei der Erkennung lokalisiert der Prozess diese Merkmale zielbewusst, anstatt sich auf irgendwelche generischen Detektoren wie z. B. Difference Of Gaussian (DOG) oder Harris-Corner zu verlassen. Das Merkmal kann mit den gängigen lokalen Deskriptoren zur weiteren Diskriminierung kombiniert werden.
Andere Merkmale, Aufgaben und Vorteile der Erfindung werden anhand der Beschreibung und der Figuren und aus den Ansprüchen deutlich.
Beschreibung der Figuren
1 ist ein Flussdiagramm eines Verfahrens zur Erkennung von Objekten von ungleichen oder unterschiedlichen Formen, die zu einer allgemeinen Klasse von derartigen Objekten innerhalb eines ungeordneten, natürlichen Hintergrundes gehören, gemäß einer Ausführungsform der Erfindung;
1A ist ein Flussdiagramm eines Verfahrens zum Erfassen von Trainingsbildern unter Verwendung von 3D-Modell-Rendering, das in dem Verfahren aus 1 gemäß einer Ausführungsform der Erfindung verwendet wird;
1B ist ein Flussdiagramm eines Verfahrens zum Erfassen von Trainingsbildern unter Verwendung einer Bilderdatenbank gemäß einer weiteren Ausführungsform der Erfindung;
1C ist ein Flussdiagramm eines Verfahrens Merkmal-Auswahl (Pruning bzw. Ausschneiden) unter Verwendung des Least Absolute Shrinkage and Selection Operators (LASSO), das in dem Verfahren aus 1 gemäß einer Ausführungsform der Erfindung verwendet wird;
1D ist ein Flussdiagramm eines erfindungsgemäßen Verfahrens zum Erkennen von Objekten von ungleichen oder unterschiedlichen Formen, die zu einer generischen Klasse von solchen Objekten innerhalb eines ungeordneten, natürlichen Hintergrunds gehören;
2A zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird;
2B zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird und verwendet wird, um Randsegmente für einen Bereich eines Objektes innerhalb der Klasse von Objekten zu extrahieren;.
2C zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird, und die verwendet wird, um Randsegmente für einen unterschiedlichen Bereich oder unterschiedliche Art des Objektes innerhalb der Klasse von Objekten zu extrahieren;
2D zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird, und die verwendet wird, um Randsegmente für noch einen unterschiedlichen Bereich oder eine unterschiedliche Art des Objektes innerhalb der Klasse von Objekten zu extrahieren;
3 zeigt einen Stapel von Bildern von unterschiedlichem Typ des Objektes innerhalb der Klasse von Objekten, und der in dem Verfahren aus 1 verwendet wird;
4 zeigt eine Vielzahl von unterschiedlichen Typen des Objektes innerhalb der Klasse von Objekten, und die in dem Verfahren aus 1 verwendet wird, wobei darauf die Formvorlage aus 2 angewendet wird;
4A–4D zeigen die Wirkung des Anwendens der Formvorlage aus 2 auf die Vielzahl von unterschiedlichen Typen des Objektes aus 4, und die verwendet wird, um eine Master-Fragmentformvorlage für einen Bereichsstapel des Stapels von Bildern aus 3 zu ermitteln;
5 zeigt eine Karte des Objektes, nachdem die Master-Fragmente für sämtliche Bildstapel des Objektes, die gemäß der Erfindung erzeugt wurden, kombiniert wurden;
6 zeigt eine Karte des Objektes, nachdem bei der Karte aus 5 die Effekte der nicht-diskriminativen Fragmente erfindungsgemäß davon entfernt wurden, nachdem Abschnitte Merkmalen weggeschnitten wurden/nach der Merkmalsauswahl durch Einbeziehen von negativen Proben, die durch die Hintergrundbilder bereitgestellt wurden; und
7 ist ein Flussdiagramm des Verfahrens der Objekterfassung in einem Bild unter Verwendung eines Abstimmungsmodells gemäß der Erfindung, das in dem Verfahren aus 1 verwendet wird.
Gleiche Bezugszeichen in den verschiedenen Figuren geben gleiche Elemente an.
Ausführliche Beschreibung
Bezieht man sich nun auf das Flussdiagramm in 1, umfasst das Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten das Definieren einer Formvorlage 10 (2A), die Segmentbereiche 12 aufweist, wobei jeder der Bereiche 12 geeignet ist, darin Fragmente aufzuweisen, hier Ränder bzw. Grenzen eines Objektes in einem Bild, hier einem Bild eines Automobils, wobei die Fragmente eine vorbestimmte Größe aufweisen, hier fünf bis zehn Pixel in Länge, und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen, hier horizontal, vertikal, +45 Grad und +135 Grad Orientierungen, Schritt 100.
Damit wird in diesem Beispiel eine Stern-ähnliche Formvorlage ausgewählt. Die Formvorlage hat einen zentralen Ursprungssegmentbereich 12₀ und eine Vielzahl von kuchenförmigen Keilsegmentbereichen 12, die sich radial von dem Ursprung nach außen erstrecken. Hier sind acht keilförmige Segmentbereiche 12 regelmäßig beabstandet umfänglich um den zentralen Ursprung angeordnet.
Der Grundbestandteil in dieser Darstellung ist der so genannte ε-Rand, der als ein gerades Randfragment definiert ist, dessen Ausmaß mindestens ε Pixel beträgt. Eine einfache Konstruktion von ε-Rändern beginnt mit der Randerkennung, z. B. Canny mit Hysterese [siehe z. B. J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986].
Hier, in dem oben bezeichneten Auto-Beispiel, ist das Merkmal oder die Signatur mit einem mittigen ε-Rand, in 2B mit 14C bezeichnet, und k disjunkten ε-Enden, in 2B mit 14 bezeichnet, konstruiert, wobei hier in diesem Beispiel k = 4 disjunkte ε-Ränder, die darauf beschränkt sind, in den umgebenden Log-Polar-Behältern zu liegen, eine sternartige Konfi guration bilden. Es wird angemerkt, dass ε die Länge der Ränder in Pixeleinheiten ist. Hier beträgt ε z. B. fünf bis zehn Pixel in Länge. Die Formvorlage 10 (2A) wird auf das Bild angewendet, um Randfragmente 14 in einem Bereich des Bildes zu extrahieren, wobei die Fragmente eine vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Ausrichtungen aufweisen, wie in 2B dargestellt. Insbesondere werden die ε-Ränder verfolgt und in vier Orientierungen bezeichnet, nämlich horizontal (ε_H), vertikal (ε_v) und mit zwei Diagonalen (d. h. eine Diagonale bei +45 Grad (ε_D+45) und eine Diagonale bei +135 Grad (ε_D+135)) gekennzeichnet. Um die Intensitätsvariation zu bearbeiten, schließt das Verfahren in dieser Darstellung die Randpolarität aus. Mit dieser Konstruktion kann ein Pixel in mehreren ε-Rändern enthalten sein, wodurch alle verfügbaren Einzelheiten bewahrt werden. Offensichtlich sind alle Randpixel 1-Rand, d. h. ε = 1. So wie ε zunimmt, wird eine geringere Anzahl von Randfragmenten beibehalten, und ihre Diskriminativität erhöht sich.
Individuelle Randfragmente, wie sie durch die ε-Ränder dargestellt sind, tragen sehr wenige Informationen zur Unterscheidung zwischen unterschiedlichen Formenklassen mit sich. Ihre räumliche Interaktion in einer lokalen Umgebung kann jedoch informativer sein. Durch diese Beobachtung motiviert, verwendet das Verfahren eine Merkmals- oder Signatur-Formvorlage, die aus ε-Rändern besteht. Dieses Merkmal, d. h. FEAT., hat, wie oben erwähnt, einen mittigen ε-Rand und k disjunkte ε-Ränder, die darauf beschränkt sind, in den umgebenden Log-Polar-Behältern zu liegen, wobei sie eine sternartige Konfiguration bilden. 2A veranschaulicht die Konfiguration von FEAT, die in dem Log-Polar-Koordinatensystem definiert ist. Der radiale Bereich ist durch α und β begrenzt, wobei der Winkelbereich in acht Behälter aufgeteilt ist.
2C zeigt die Wirkung des Anwendens der Formvorlage aus 2A auf entweder einen anderen Bereich desselben Autos oder auf ein Bild eines unterschiedlichen Autotyps, um Randfragmente 14 daraus zu extrahieren. Man bemerke, dass die räumlichen Orientierungen der Randfragmente 14 unterschiedlich zu denen in 2B sind. 2D zeigt die Wirkung des Anwendens der Formvorlage aus 2A auf entweder einen anderen Bereich desselben Autos oder auf ein Bild eines anderen Autotyps. Man bemerke, dass die räumlichen Orientierungen der Randfragmente unterschiedlich zu denen in 2B sind, und dass die Anzahl der umgebenden Randfragmente größer ist als die Anzahl in den 2B und 2C.
Es gibt mehrere Vorteile bei der Verwendung dieses Merkmals. Erstens ist die Randerfassung vom Rechenaufwand her leistungsfähig verglichen mit anderen ausgefeilten Orte-von-Interesse-Detektoren. Zweitens weisen die Ränder eine starke Invarianz auf fotometrische Transformationen auf, und die sternförmige Konfiguration codiert Abweichungen in der lokalen Geometrie explizit. Schließlich kann die Formvorlagenkomplexität durch das Variieren von ε und k gesteuert werden. D. h., die Komplexität der Formvorlage 10 kann durch Verändern der Anzahl von Rändern bzw. Grenzen k, und/oder durch Variieren der Länge des Randes, d. h. der Anzahl der Pixel in den Rändern, ε, variiert werden. Hier in diesem Beispiel wird die Anzahl von Rändern k variiert, um dadurch die Komplexität der Formvorlage 10 zu variieren. Wie später beobachtet werden wird, erlaubt uns dies, Merkmale zu konstruieren,. die in hohem Maße auf dem Objekt detektierbar sind. Es versteht sich, dass andere Merkmale als Ränder, wie z. B. Ecken verwendet werden können. Deshalb ist in einem solchen Fall der Grad der Komplexität eine Funktion der Anzahl von verwendeten Ecken.
Nimmt man wieder auf 1 Bezug, ermittelt das Verfahren Bilder von unterschiedlichen Typen von Objekten innerhalb der generischen Klasse von solchen Objekten, Schritt 200. Die ge nerische Klasse von Objekten können Menschen sein, wobei in dem Fall Bilder von Menschen verschiedener Größen und Formen erhalten werden. Hier in dem Beispiel ist die generische Klasse von Bildern Autos und es werden Bilder von Stufenheck-Limousinen, Coupes, von verschiedenen Modellen ermittelt, die durch unterschiedliche Hersteller fabriziert wurden.
Insbesondere kann der Schritt 200 des Ermittelns von Bildern von unterschiedlichen Typen von Objekten innerhalb der generischen Klasse von solchen Objekten z. B. das Verfahren sein, das durch die Flussdiagramme in 1A dargestellt ist oder durch das in 1B dargestellte Flussdiagramm.
Bezieht man sich auf 1A, zeigt das Flussdiagramm die Schritte des Sammelns von Trainingsbildern unter Verwendung von 3D-Modell-Rendering. Das Verfahren umfasst: Sammeln von vielen 3D-Graphik-Modellen für das Objekt von Interesse (z. B. Autos); Ausrichten der Modelle (z. B. alle Autos sind nach Osten gerichtet, geparkt an dem Ort (0,0,0)); Kennzeichnen einer Vielzahl von Markierungspunkten auf diesen Modellen (z. B. Mitte des fahrerseitigen Vorderrades, Ecke auf Stoßstange, usw.); Definieren des (virtuellen Graphik-)Kameraortes und Blickwinkels und deren Veränderungsbereich; Verwenden eines Computer-Graphik-Rechners, um mehrere Bilder für jedes 3D-Modell zu rendern bzw. zu zeichnen. Jedes Bild wird unter Verwendung eines Kameraortes und eines Blickwinkels aus dem oben definierten Bereich gerendert; und Verwenden einer Prokrustes-Analyse, um die Projektionen der Markierungspunkte auszurichten (Skalieren und Strecken). Nach dem Ausrichten sollte Markierung in dem Referenzrahmen an im Wesentlichen derselben Position sein.
Bezieht man sich auf 1B zeigt das Flussdiagramm die Schritte des Sammelns von Trainingsbildern durch Sammeln von Trainingsbildern unter Verwendung einer Bilddatenbank. Das Verfahren umfasst: sammle viele 2D-Bilder aus einer Bilddatenbank, z. B. Google-Bilder, typisch für eine Objektklasse aus einem typischen Blickwinkel; kennzeichne eine Vielzahl von Markierungspunkten auf diesen Bildern (z. B. Mitte des fahrerseitigen Vorderrades, Ecke auf Stoßstange, usw.); verwende die Prokrustes-Analyse, um die Markierungspunkte auszurichten (skalieren und strecken). Nach dem Ausrichten sollte jede Markierung in dem Referenzrahmen im Wesentlichen an derselben Position sein.
Als Nächstes (Schritt 300) werden die ermittelten Bilder aus den 1A oder 1B (Schritt 200) oder beiden auf eine gemeinsame Größe skaliert und in ein Array von Bildbereichen unterteilt bzw. partitioniert. Jeder der Bildbereiche weist darin einen gemeinsamen Bereich der ermittelten Bilder auf, wobei der gemeinsame Bereich einen Bereichsstapel bildet. Man betrachte einen Satz von N Bildern, (3) einer bestimmten Objektklasse, hier Autos. Die Aufgabe ist, einen Satz von wenigen Formvorlagen zu lernen, die am besten die Objektform beschreiben. Um dies zu erreichen, müssen wir drei Fragen beantworten:
Erstens, an welchen Orten sollten wir diese Formvorlagen definieren?
Zweitens, was ist die Konfiguration jeder Formvorlage?
Schließlich, was ist die minimale Anzahl von Formvorlagen, die für die Erkennung ausreichend sind?
Für jeden der Bereichsstapel (Schritt 300): (a) wendet das Verfahren die Formvorlage auf jedes der Bilder in solch einem Bereichsstapel an, um aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte Größe und eine aus der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung auf weisen; (c) zeichnet das Verfahren die Anzahl von Bildern in dem Bereichsstapel auf, die die bestimmte am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren (b) und (c) mit einer aufeinanderfolgend anwachsenden vorbestimmten Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt (Schritte 400 und 500); und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die eine der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist (Schritt 600).
Hier ist die Objektform auf einem W×H-Referenzraster G definiert, wie in 3 dargestellt. Man berücksichtige den Satz von N Unterbereichen an einem bestimmten Rasterort, nachdem jedes Bild auf das Raster verzerrt wurde. Dieser Satz von N Unterbereichen über die Bilder hinweg wird als ein Bereichsstapel bezeichnet. Dieser Bereichsstapel kann als eine Probe von einer Formzufallsvariable angesehen werden, die einen bestimmten Ort auf der Objektkontur charakterisiert. Das Verfahren identifiziert das FEAT als die häufigste Formvorlage in dem Bereichsstapel, d. h.
wobei N_i(t) die Anzahl der Häufigkeiten der Formvorlage t in dem i-ten Unterbereich ist. Der Terminus t ^_i wird als das charakteristische FEAT des Bereichs bezeichnet; es bedeutet sowohl den Ort (Mitte des Unterbereichs) und die Konfiguration der Formvorlage. Das Verfahren sucht nach dem charakteristischen FEAT in jedem Bereichsstapel. Die finale Objektform kann durch T ^ = {t ^₁,t ^₂, ..., t ^_K}, dargestellt werden, wobei K die Rastergröße ist. Es ist anzumerken, dass Instanzen von t ^_i an verschiedenen Orten in den Unterbereichen, die sie enthalten, erscheinen könnten. Mehrere Instanzen von t ^_i könnten in demselben Unterbereich auftreten. Hier beschränkt das Verfahren, dass der mittlere Rand ε₀ innerhalb des Unterbereichs liegt, die benachbarten Ränder können jedoch beliebig "fließen", solange sie sich in den vorbestimmten radialen Behältern befinden.
Zwei Parameter müssen während des FEAT-Lernens berücksichtigt werden. Einer ist die Formvorlagenkomplexität, die durch k definiert ist, die Anzahl der benachbarten ε-Ränder. Triviale Formvorlagen wie z. B. eine 2-Rand-Anordnung sind zu primitiv, um die Objektform zu erfassen, wohingegen überkomplexe Formvorlagen zu spezifisch sind. Deshalb verwendet das Verfahren lediglich Suchformvorlagen in einem vordefinierten Bereich [k_min, k_max] ([Y. Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997; J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986]. Der zweite Parameter ist die Häufigkeit des charakteristischen FEAT. Hier ignoriert das Verfahren die charakteristischen FEATs, deren Häufigkeit unter einem Grenzwert δ liegt, da es wahrscheinlicher ist, dass sie Zufallsrauschen darstellen.
Betrachten wir nun die Größe des Formvorlagenraumes. Da das Verfahren 4 Randorientierungen und 8 Winkelbehälter verwendet, ist die Anzahl von distinkten k-Stern-Formvorlagen
Im schlechtesten Falle ist die Anzahl der Formvorlagen, die das Verfahren in einem Bereichsstapel untersuchen muss
Aufgrund der großen Anzahl von ε-Rändern, die möglicherweise in einem Unterbereich detektiert werden, wäre eine naive Suche über diesen Formvorlagenraum unerschwinglich teuer. Das Verfahren wählt einen Näherungsansatz, um die Formvorlage in einer stufenartigen Weise zu durchsuchen:
Algorithmus 1: Stufenweise Vorwärts-Suche für das FEAT

Parameter: Häufigkeitsgrenzwert δ, Komplexitätsgrenzwert k_max.
Initialisierung. Setze t = ε₀ε₁, die häufigste zwei-Rand-Anordnung. Zeichne alle Instanzen auf, bei denen t für jedes Bild aufgetreten ist. Setze k = 2. Bezeichne mit Δ(t) die Häufigkeit der Formvorlage t.
While Δ(t) > δ und k < k_max do 1. Suche über alle möglichen Additionen von einem Rand ε_k, der mit = ε₀ verbunden werden kann und in einem disjunkten Winkelbehälter von ε₁, K, ε_k-1, angeordnet ist 2. Finde die häufigste Addition _k _. Setze t∪ = ε ^_k. 3. Zeichne alle Instanzen von t auf. Setze k = k +1.
end while

Wie in Algorithmus 1 oben erläutert, konstruiert das Verfahren die Formvorlagen stufenweise, bis die Anzahl ihrer Vorkommnisse unter einem Grenzwert liegt oder die maximale Komplexität erreicht ist. Es ist anzumerken, dass die Konstruktion von einem beliebigen zusätzlichen Rand auf allen Instanzen basiert, die den vorherigen Test bestanden haben.
Bezieht man sich damit auf 4A und berücksichtigt man z. B. den Bereichsstapel 18 für fünfzehn unterschiedliche Autotypen, wendet das Verfahren die Formvorlage auf jedes der Bilder in solch einem Bereichsstapel an, um aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen. Das Verfahren bestimmt anschließend aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten aufweisen, hier lediglich zwei Fragmente (k = 2) mit gemeinsamen räumlichen Orientierungen. Hier in diesem Bespiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4A als Formvorlage 10a dargestellt. Der Prozess zeichnet die Anzahl der Bilder in dem Bereichsstapel auf, die die bestimmte am häufigsten extrahierte Formvorlage aufweisen, hier weisen sämtliche fünfzehn Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf.
Das Verfahren wiederholt dies mit aufeinanderfolgend zunehmender vorbestimmter Anzahl von Fragmenten, d. h. Komplexität, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; und (e) wählt als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die eine der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Damit wird die Anzahl, wie in 4B dargestellt, von zwei Fragmenten, k = 2, auf drei Fragmente, k = 3, mit einer gemeinsamen räumlichen Orientierung erhöht. Hier in diesem Beispiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4B als Formvorlage 10b dargestellt. Das Verfahren zeichnet die Anzahl von Bildern in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen, hier weisen nur vierzehn Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf. Damit wird, wie in 4C dargestellt, die Anzahl von drei Fragmenten auf vier Fragmente, k = 4, mit einer gemeinsamen räumlichen Orientierung erhöht. Hier in diesem Beispiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4C als Formvorlage 10c dargestellt. Das Verfahren zeichnet die Anzahl von Bildern in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen, hier weisen nur dreizehn Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf. Wie in 4D dargestellt, wird die Anzahl von vier Fragmenten auf acht Fragmente, k = 8, mit gemeinsamer räumlicher Orientierung erhöht. Hier in diesem Beispiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4D als Formvorlage 10d dargestellt. Das Verfahren zeichnet die Anzahl der Bilder in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen, hier weisen nur elf Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf.
Das Verfahren kombiniert anschließend die für jeden der Bereichsstapel erzeugten Fragmente, um eine Karte bzw. ein Abbild für die Klasse von Objekten bereitzustellen, wie in 5 dargestellt, Schritt 700.
Als nächstes sammelt das Verfahren einen großen Satz (d. h. eine Vielzahl) von "Hintergrund"-Naturbildern, z. B. aus einer Bilderdatenbank oder aus dem Internet, und verwendet sie als Negativproben, Schritt 750, wie nachfolgend in Verbindung mit 1C beschrieben werden wird.
Als nächstes vergleicht das Verfahren die Karte mit der gesammelten Vielzahl von Hintergrundbildern, um extrahierte Formvorlagen in den Karten zu entfernen, die mit Segmenteigenschaften des Hintergrunds übereinstimmen, um die Master-Karte bzw. Master Map für die Klasse von Objekten zu erzeugen (6), Schritt 800.
Nimmt man Bezug auf 1C, zeigt das Flussdiagramm die Schritte der Merkmalauswahl bzw. Feature Selection (Pruning) unter Verwendung von LASSO. Die Schritte umfassen:

(A) Wiederverwenden des originalen Satzes von Trainingsbildern in 1A oder 18 oder sowohl 1A als auch 1B, die Objektinstanzen (Autos) aus einem bestimmten Blickwinkel enthalten und die auf ein Referenzraster ausgerichtet wurden. Markieren jedes solchen Bildes als eine positive Probe. Sammeln einer großen Anzahl von Hintergrundbildern aus natürlichen Szenen, die keine Objektinstanzen enthalten. Markieren jedes derartigen Bildes als negative Probe;
(B) Für jedes Bild in dem kombinierten (positiv und negativ) Datensatz, Bilden eines Indikatorvektors x der Länge K, wobei K die Anzahl der extrahierten Formvorlagen aus Schritt 700 ist. Jedes Element in dem Vektor x entspricht der vorbestimmten Formvorlage in der Formvorlagen-Karte (Master Map). Falls die erlernte Formvorlage (aus Schritt 700) in einem vorbestimmten Ort detektiert wird, wird das entsprechende Element in x mit +1 gekennzeichnet, sonst –1. Ordne die Klassenbezeichnung y = 1 zu, falls das Bild eine positive Probe ist, (Objektinstanzen enthaltend) oder y = –1, falls das Bild eine negative Probe ist (keine Objektinstanzen oder "Hintergrund" enthaltend);
(C) Führe zwei Dinge gleichzeitig unter der Verwendung von LASSO durch: 1) passe ein Regressionsmodell (Gleichung (5)) an, das die Klassenbezeichnung y unter Verwendung des Indikatorvektors x vorhersagt; ein besonderer Fall (lineare Regression) ist in unserem Dokument erläutert, aber andere Regressionsmodelle, wie z. B. logistische Regression, können ebenfalls verwendet werden. 2) Merkmalauswahl (Feature Selection): schneide Merkmale aus, die sowohl dem Vordergrund als auch dem Hintergrund gemeinsam sind; und
(D) Aktualisieren der Formvorlagen-Karte (Master Map) durch Entfernen der ausgeschnittenen Merkmale.

Um es anders darzustellen, die erlernten charakteristischen FEATs (Schritte 300–600) berücksichtigen lediglich die Merk malsexistenz in den positiven Proben und sind rein datengetrieben. Bei einer Erkennungsaufgabe jedoch sollten ebenfalls die negativen Proben zur besten Klassifikation berücksichtigt werden. Hier verwendet das Verfahren die Diskriminanz-Analyse, um eine Untermenge von T ^ auszuwählen, sodass die ausgewählten Merkmale sowohl eine Wiederholbarkeit als auch eine Unterscheidbarkeit (discriminativity) erreichen. Speziell verwendet das Verfahren den Least Absolute Shrinkage and Selection Operator (LASSO)-Algorithmus zur Merkmalsauswahl. LASSO wurde zuerst von Tibshirani eingeführt [R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996], um eine Schrumpfung und eine Variablenauswahl für lineare Regressionen zu erreichen. Unlängst wurde es für das maschinelle Lernen zur Merkmalsauswahl angepasst und hat eine ausgezeichnete Verallgemeinerungsleistung in der Gegenwart von vielen irrelevanten Merkmalen gezeigt [J. Shotton, A. Blake und R. Cipolla, "Feature selection, L1 vs. L2 regularization, and rotational invariance", in ICML, 2004], [J. Goodman, "Exponential priors for maximum entropy models", in ACL, 2004].
Man betrachte eine beaufsichtigte Lernaufgabe, wobei P Trainingsproben {(X⁽ⁱ⁾, y⁽ⁱ⁾), i = 1, K, P} erhalten werden. Hier ist y⁽ⁱ⁾ die Klassenbezeichnung und definiert als
Betrachtet man das lineare Regressionsmodell: bei gegebenen K Indikatorvariablen kann die Objektklasse vorhergesagt werden durch: y ^ = β ^0 + β ^1x1 + K + β ^KxK (5)Lässt man β ^ = {β ^₀,β ^₁, K, β ^_K}, ist die LASSO-Schätzung β ^ definiert durch
Das LASSO minimiert die Restquadratsumme in Abhängigkeit von der Summe des absoluten Wertes der Koeffizienten, die niedriger als eine Konstante sind. Hier ist s ≥ 0 ein Tuning-Parameter. Er steuert den Betrag der Schrumpfung, der auf die Schätzungen angewendet wird. Eine geometrische Interpretation von LASSO ist in 7 dargestellt. Die Ellipsen sind die Fehlerkonturen. Die schraffierten Bereiche sind die Randbedingungen. β ^ ist die Lösung der kleinsten Quadrate. So wie das Verfahren s vermindert, schrumpft LASSO die Lösungen auf 0 hin, und einige Koeffizienten können genau gleich 0 werden (wo die Fehlerkontur die Ecke des Randbedingungsbereiches berührt). Diese Eigenschaft ist wünschenswert, da die überlebenden Koeffizienten eine einfache und sparsame Merkmalsuntermenge zur Vorhersage erzeugen. Überraschenderweise, wie durch Tibshirani gezeigt [R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996], weist LASSO konsistent niedrigere Vorhersagefehler auf als die Methode der kleinsten Quadrate und ist mit anderen Modellen, wie z. B. Ridge-Regression und Untermengen-Auswahl wettbewerbsfähig [T. Hastie, R. Tibshirani und J. Friedman, "The Elements of Statistical Learning", Springer-Verlag, 2001]. Darüber hinaus produziert LASSO interpretierbare Modelle und weist eine starke Stabilität auf.
Die Berechnung für die Lösung der Gleichung 6 ist ein quadratisches Programmierproblem mit linearen Ungleichheitsrandbedingungen. Es ist sehr ineffizient, wenn die Anzahl der Merkmale groß ist. Unlängst haben Efron et al. [B. Efron, T. Hastie, I. Johnstone und R. Tibshirani, "Least angle regression", The Annals of Statistics, 32(2): 407–499, 2004] in ihrer Durchbrucharbeit gezeigt, dass dieses Problem effizient durch den Least Angle Regression Algorithmus (LARS) gelöst werden kann. Das Verfahren berechnet den Indikatorvektor X⁽ⁱ⁾ für 270 positive und 300 negative Trainingsbilder. Das Verfahren verwendet LARS, um Merkmale aus den erlernten charakteristischen FEATs auszuwählen.
Die erlernte FEAT-Karte besteht aus einem Satz von charakteristischen FEATs, von denen jedes mit einem Rasterort verbunden ist. Obwohl die diskriminative Stärke eines individuellen FEAT gering ist, gibt die räumliche Verteilung der FEATs eine starke Angabe darüber, ob das Objekt vorhanden ist oder nicht.
Jedes individuelle FEAT kann als ein Merkmalsdetektor angesehen werden. Das Verfahren speichert die FEATs in einer Baumdatenstruktur. Die Merkmalsdetektion kann wirksam durch die Tiefe-zuerst-Suche (depth-first-search) durchgeführt werden. Bei einem gegebenen Eingabebild detektiert das Verfahren zuerst alle Instanzen der erlernten FEATs. Die Instanzen des Objektes können unter Verwendung der Hough-Transformation lokalisiert werden. Um bestimmte Beträge der Formenveränderung zu berücksichtigen, verformt das Verfahren das Referenzraster in dem Bereich von Maßstab [0,8; 1,2], Rotation [–7°, +7°] und Verschiebung um ±5 Pixel. Das Votum von einer spezifischen FEAT wird in einen kreisrunden Bereich um den Objektmittelpunkt herum eingezeichnet. Die Größe des Bereiches kann durch den Verformungsbetrag bestimmt werden.
Da das Modell mit nach links gerichteten Autos trainiert wird, lässt man den Detektor über jedes Bild zweimal laufen, das zweite Mal über das horizontal gedrehte Bild. Autos unterschiedlicher Größen können durch Anwenden des Detektors in mehreren Maßstäben erfasst werden.
Insbesondere, bezieht man sich auf 7, ein Flussdiagramm des Verfahrens der Objekterkennung in einem Bild unter Verwendung eines Votierschemas (Schritt 900, 1). Das Verfahren führt zuerst eine Randerkennung in dem Fenster durch. Als nächstes detektiert das Verfahren alle FEAT-Merkmale, die in dem erlernten Modell erscheinen (Formvorlagen-Karte). Als nächstes erzeugt das Verfahren eine Stimmenzählverteilung bzw. -karte derselben Größe des Bildes. Das Verfahren setzt alle Voten bzw. Stimmen auf 0. Als Nächstes beginnt das Verfahren mit dem ersten detektierten FEAT. Als Nächstes votiert das Verfahren für die Mitte des Objektes. In der Orientierung aus 3 z. B. wird ein FEAT, das lediglich auf der vorderen Stoßstange erscheint, für die Automittelposition wie folgt stimmen: die Automitte befindet sich zur Rechten dieses FEAT mit einem Abstand einer halben Autolänge. Das Verfahren bestimmt, ob alle erlernten FEAT-Merkmale ausgeschöpft sind. Falls nicht, geht das Verfahren zu dem nächsten FEAT-Merkmal; ansonsten schaut das Verfahren auf die Stimmzählverteilung bzw. -karte; berücksichtigt lediglich lokale Stimmenmaxima; und wenn an einem lokalen Maximum die Stimme einen bestimmten Grenzwert überschreitet, wird die Erkennung eines Autos berichtet.
Eine Anzahl von Ausführungsformen der Erfindung wurde beschrieben. Nichtsdestotrotz versteht es sich, dass verschiedene Veränderungen durchgeführt werden können, ohne von dem Geist und dem Umfang der Erfindung abzuweichen. Obwohl LASSO verwendet wurde, versteht es sich z. B., dass andere Merkmalsauswahlverfahren verwendet werden könnten, z. B. Boosting. Damit wird unter Bezugnahme auf 1D ein Flussdiagramm für den allgemeineren Fall dargestellt, wo etwas anderes als Ränder verwendet werden, wie z. B. Ecken. Hier wird eine Strich-(') Bezeichnung für die Schritte 100–900 aus 1A verwendet; damit sind die äquivalenten Prozessschritte entsprechend in 1D mit den Schritten 100'–900' bezeichnet. Des Weiteren können andere Formvorlagen mit variierender Komplexität verwendet werden. Demgemäß liegen andere Ausführungsformen innerhalb des Umfangs der nachfolgenden Ansprüche.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir und L. Van Gool, "A comparison of affine region detectors", IJCV, 65(1–2), 2005 [0004]
- R. Fergus, P. Perona und C. Zisserman, "Object class recognition by unsupervised scale-invariant learning", in CVPR, 2003 [0004]
- G. Csurka, C. Dance, L. Fan, J. Willamowksi und C. Bray, "Visual categorization with bags of keypoints", in ECCV Work-shop an Statistical Learning in Computer Vision, 2004 [0004]
- L. Fei-Fei und P. Perona, "A Bayesian hierarchical model for learning natural scene categories", in CVPR, 2005 [0004]
- K Graumau und T. Darrell, "Efficient image matching with distributions of local invariant featuers", in CVPR, 2005 [0004]
- S. Lazebnik, C. Schmid und J. Ponce, "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories" in CVPR, 2006 [0004]
- H. Bay, T. Tuytelaars und L. Van Gool, "SURF: Speeded up robust features", in ECCV, Mai 2006 [0005]
- V. Lepetit, P. Lagger und P. Fua, "Randomized trees for realtime keypoint recognition", in CVPR, 2005 [0005]
- D. G. Lowe, "Distinctive image features from scale-invariant keypoints", IJCV, 60(2): 91–110, 2004 [0005]
- J. Shotton, A. Blake und R. Cipolla, "Contour-based learning for object detection", in ICCV, 2005 [0006]
- A. Opelt, A. Pinz und A. Zisserman, "A boundary-fragmentmodel for object detections", in ECCV, 2006 [0006]
- V. Ferrari, T. Tuytelaars und L. Van Gool, "object detection by contour segment networks", in ECCV, 2006 [0006]
- E. Grimson, "From Images To Surfaces: A Computational Study of the Human Early Vision System", MIT Press, Cambridge, MA, 1981 [0006]
- D.G. Lowe, "Distictive image features from scaleinvariant keypoints", IJCV, 60(2): 91–110, 2004 [0007]
- S. Belongie, J. Malik und J. Puzicha, "Shape matching and object recognition using shape contexts", PAMI, 24(4): 509–522, 2002 [0007]
- N. Dalal und B. Triggs, "Histograms of oriented gradients for human detection", in CVPR, 2005 [0007]
- Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997 [0008]
- J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986 [0040]
- Y. Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997; J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986 [0052]
- R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996 [0062]
- J. Shotton, A. Blake und R. Cipolla, "Feature selection, L1 vs. L2 regularization, and rotational invariance", in ICML, 2004 [0062]
- J. Goodman, "Exponential priors for maximum entropy models", in ACL, 2004 [0062]
- R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996 [0065]
- T. Hastie, R. Tibshirani und J. Friedman, "The Elements of Statistical Learning", Springer-Verlag, 2001 [0065]
- B. Efron, T. Hastie, I. Johnstone und R. Tibshirani, "Least angle regression", The Annals of Statistics, 32(2): 407–499, 2004 [0066]

Claims

Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: Auswählen einer Untermenge von häufigen Formvorlagen aus einem Formvorlagenvorrat, der eine Vielzahl von Formvorlagen mit unterschiedlichen Komplexitätsgraden aufweist; und Formulieren eines Merkmalssuchalgorithmus, um eine sich am meisten unterscheidende Formvorlage aus einer vorausgewählten der Formvorlagen in dem Formvorlagenvorrat zu bestimmen; und Erzeugen der Master Map aus dem formulierten Merkmalsauswahlalgorithmus.
Verfahren nach Anspruch 1, wobei der Komplexitätsgrad steuerbar ist.
Verfahren nach Anspruch 1, wobei die Formvorlagen Segmentbereiche aufweisen, wobei jeder der Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, und wobei der Komplexitätsgrad durch die Anzahl von Fragmenten in den Formvorlagen variiert wird.
Verfahren zum Erzeugen einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: (A) Definieren einer Formvorlage mit Segmentbereichen, wobei jeder der Bereiche geeignet ist, darin Merkmale aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen; (B) Ermitteln von Bildern unterschiedlicher Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei solche Bilder auf eine gemeinsame Größe skaliert sind und in Bildbereiche unterteilt sind, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei der gemeinsame Bereich einen Bereichsstapel bildet; (C) für jeden der Bereichsstapel: (a) Anwenden der Formvorlage auf jedes der Bilder in dem Bereichsstapel, um aus jedem der Bilder Merkmale zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel extrahierte Formvorlagen zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Merkmalen mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) Aufzeichnen der Anzahl von Bildern in dem Bereichsstapel, der die bestimmte am häufigsten extrahierte Formvorlage aufweist; (d) Wiederholen der Schritte (b) und (c) mit einer aufeinanderfolgend ansteigenden vorbestimmten Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; (e) Auswählen als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die der häufigsten Formvorlagen, die die größte aufgezeichnete Anzahl von Merkmalen aufweist; (D) Kombinieren der extrahierten Master-Formvorlagen für jeden der Bereichsstapel zu einer Karte bzw. Map für die Klasse von Objekten; und (E) Vergleichen der Karte bzw. Map mit jedem einer Vielzahl von Hintergrundbildern, um aus der extrahierten Master Map die extrahierten Formvorlagen zu entfernen, die darin mit den Segmenteigenschaften des Hintergrunds übereinstimmen, um die Master Map für die Klasse von Objekten zu erzeugen.
Verfahren nach Anspruch 4, wobei die Merkmale Randfragmente des Objektes sind.
Verfahren zum Erzeugen einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: (A) Unterteilen bzw. Partitionieren von Bildern unterschiedlicher Typen von Objekten innerhalb einer Klasse in Bereichsstapel; und (B) für jeden der Stapel: (a) Anwenden einer Formvorlage, um ein Merkmal zu extrahieren, das eine vorbestimmte Größe und eine einer Vielzahl von unterschiedlichen räumlichen Orientierungen aufweist, um extrahierte Formvorlagen zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine häufigste davon, die lediglich eine erste Anzahl von Merkmalen mit einer gemeinsamen räumlichen Orientierung aufweist; (c) Aufzeichnen der Anzahl von Bildern, die die bestimmte am häufigsten extrahierte Formvorlage aufweisen; (d) Wiederholen der Schritte (b) und (c) mit aufeinanderfolgend ansteigender Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen Grenzwert fällt; und (e) Auswählen als eine extrahierte Master-Formvorlage diejenige der häufigsten Formvorlagen, die die größte aufgezeichnete Anzahl von Merkmalen aufweist. (C) Kombinieren der extrahierten Master-Formvorlagen für den Stapel zu einer Karte bzw. Map; und (E) Vergleichen der Karte bzw. Map mit Hintergrundbildern, um extrahierte Formvorlagen, die mit einem Segment in dem Hintergrund übereinstimmen, zu entfernen.
Verfahren nach Anspruch 6, wobei die Merkmale Randfragmente des Objektes sind.
Verfahren zum Erzeugen einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: (A) Definieren einer Formvorlage mit Segmentbereichen, wobei jeder der Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen; (B) Ermitteln von Bildern von unterschiedlichen Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei die Bilder auf eine gemeinsame Größe skaliert werden und in Bildbereiche unterteilt werden, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei der gemeinsame Bereich einen Bereichsstapel bildet; (C) Für jeden der Bereichsstapel: (a) Anwenden der Formvorlage auf jedes der Bilder in dem Bereichsstapel, um aus jedem der Bilderfragmente zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) Aufzeichnen der Anzahl von Bildern in dem Bereichsstapel, der die bestimmte, am häufigsten extrahierte Formvorlage aufweist; (d) Wiederholen der Schritte (b) und (c) mit aufeinanderfolgend ansteigenden vorbestimmten Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; (e) Auswählen als eine extrahierte Master-Vorlage für einen der Bereichsstapel, die eine der häufigsten Formvorlagen, die die größte aufge zeichnete Anzahl von Merkmalen aufweist; (D) Kombinieren der extrahierten Master-Formvorlagen für jeden der Bereichsstapel zu einer Karte bzw. Map für die Klasse von Objekten; und (E) Vergleichen der Karte bzw. Map mit jedem einer Vielzahl von Hintergrundbildern, um aus der extrahierten Master Map extrahierte Formvorlagen zu entfernen, die darin mit Segmenteigenschaften des Hin tergrunds übereinstimmen, um die Master Map für die Klasse von Objekten zu erzeugen.
Verfahren nach Anspruch 8, wobei die Merkmale Randfragmente des Objektes sind.