-
Querverweis auf verwandte
Anmeldungen
-
Diese
Anmeldung beansprucht die Priorität der vorläufigen
US-Anmeldung mit der Nummer 06/913,303, eingereicht am 23. April
2007, deren gesamter Gegenstand hierin unter Bezugnahme mit einbezogen
ist.
-
Technisches Gebiet
-
Diese
Erfindung betrifft im Allgemeinen ein Verfahren zum Erkennen von
Objekten und insbesondere Verfahren zum Erkennen von Objekten diverser
oder unterschiedlicher Formen, die zu einer allgemeinen Klasse von
derartigen Objekten innerhalb eines ungeordneten, natürlichen
Hintergrunds gehören.
-
Hintergrund und Zusammenfassung
-
Wie
im Stand der Technik bekannt ist, hat das Erkennen von diversen
Objekten in ungeordneten, natürlichen Szenen auf schnelle
und exakte Weise viele Anwendungen in der realen Welt, wie z. B.
Roboter-Navigation, Interaktion zwischen Mensch und Computer, Bilderkennung
und automatisierte Beobachtung. Eine Herausforderung ist es, große
Abweichungen in Form und Erscheinung der Objekte innerhalb einer
Objektkategorie sowie die Abweichungen zu berücksichtigen,
die sich aus Veränderungen des Blickpunkts, der Beleuchtung
und der Bildgebungsvorrichtung ergeben.
-
Viele
Verfahren, die verwendet werden, um Objekte zu erkennen, haben sich
auf Textur-basierte Orte von Interesse (Points of interest) konzentriert,
siehe z. B. [
K. Mikolajczyk, T. Tuytelaars, C. Schmid, A.
Zisserman, J. Matas, F. Schaffalitzky, T. Kadir und L. Van Gool,
"A comparison of affine region detectors", IJCV, 65(1–2),
2005]. Diese Merkmale basieren typischerweise auf einer
quantitativen Messung von Filterantworten und sind in aussagefähigen
Bereichen, wie z. B. Ecken, Klecksen bzw. Klumpen und T-Verbindungen
angeordnet. Sie wurden als die atomare Eingabe bei dem visuellen
Prozess sowohl des Teile-basierten Modells, siehe z. B. [
R.
Fergus, P. Perona und C. Zisserman, "Object class recognition by
unsupervised scale-invariant learning", in CVPR, 2003]
als auch dem Bag-of-Features-Verfahren verwendet, siehe: [
G.
Csurka, C. Dance, L. Fan, J. Willamowksi und C. Bray, "Visual categorization
with bags of keypoints", in ECCV Work-shop an Statistical Learning
in Computer Vision, 2004]; [
L. Fei-Fei und P. Perona,
"A Bayesian hierarchical model for learning natural scene categories",
in CVPR, 2005]; [
K Graumau und T. Darrell, "Efficient
image matching with distributions of local invariant featuers",
in CVPR, 2005]; und [
S. Lazebnik, C. Schmid und
J. Ponce, "Beyond bags of features: Spatial pyramid matching for
recognizing natural scene categories" in CVPR, 2006].
-
Obwohl
Orte von Interesse bei dem Wide-Baseline-Matching und der Einzelobjekterkennung
(single object recognition) sehr wirksam sind, siehe [
H.
Bay, T. Tuytelaars und L. Van Gool, "SURF: Speeded up robust features",
in ECCV, Mai 2006];
V. Lepetit, P. Lagger und P.
Fua, "Randomized trees for realtime keypoint recognition", in CVPR,
2005]; und [
D. G. Lowe, "Distinctive image features
from scale-invariant keypoints", IJCV, 60(2): 91–110, 2004],
scheinen sie für die kategorische Objekterkennung weniger
optimal zu sein. Der Hauptgrund ist, dass Orte von Interesse dazu
bestimmt sind, bestimmte Bildstrukturen zu erfassen, wohingegen
eine ideale Merkmalsdarstellung sich der Form anpassen sollte, die
der Objektkategorie gemein ist, und unterschiedliche Komplexitätsebenen
aufweisen sollte.
-
In
neuerer Zeit gab es eine eindrucksvolle Arbeit über die
Verwendung von Kontur-Informationen, um diese Einschränkungen
zu adressieren. Shotton et al. [
J. Shotton, A. Blake und
R. Cipolla, "Contour-based learning for object detection", in ICCV,
2005] untersuchen ein Objekterkennungssystem, das nur Konturfragmente
ausnutzt. Opelt et al. [
A. Opelt, A. Pinz und A. Zisserman,
"A boundary-fragmentmodel for object detections", in ECCV, 2006]
schlagen das Boundary-Fragment-Modell (BFM) vor. Beide Arbeiten
verwenden Adaboost zur Merkmalsauswahl. Ferrari et al. [
V.
Ferrari, T. Tuytelaars und L. Van Gool, "object detection by contour
segment networks", in ECCV, 2006] stellen eine Familie
von Maßstabinvarianten Formmerkmalen vor, die durch Ketten
von verbundenen und annähernd geraden Kontursegmenten gebildet
werden. Diese Verfahren konzentrieren sich auf die Objektform und
demonstrierten eine vielversprechende Eigenschaft der Behandlung von
Erscheinungsabweichungen. In der Tat werden Kontur-basierte Merkmale
ausgiebig verwendet und können auf die Modell-basierte
Erkennungsarbeit in den frühen Jahren zurück datiert
werden, [
E. Grimson, "From Images To Surfaces: A Computational
Study of the Human Early Vision System", MIT Press, Cambridge, MA, 1981].
-
Andere
verwandte Techniken, die im Stand der Technik bekannt sind, umfassen:
Gradienten-Histogramm-basierte Merkmale, wie z. B. SIFT [
D.G.
Lowe, "Distictive image features from scaleinvariant keypoints",
IJCV, 60(2): 91–110, 2004]; Formen-Kontext [
S.
Belongie, J. Malik und J. Puzicha, "Shape matching and object recognition
using shape contexts", PAMI, 24(4): 509–522, 2002];
und HOG [
N. Dalal und B. Triggs, "Histograms of oriented
gradients for human detection", in CVPR, 2005].
-
Eine
Arbeit, die mit der vorliegenden Erfindung sehr verwandt ist, ist
das Local-Tag-Arrangement (LTA), das von Amit vorgestellt wurde
[Amit, D. Geman und B. Jedynak, "Efficient focusing and
face detection", Technical Report 459, Department of Statistics,
University of Chicago, 1997] im Zusammenhang der Gesichterkennung.
In ihrem Rahmenwerk werden lokale Merkmale durch räumliche
Anordnungen von Grenz- bzw. Randfragmenten in einem rechtwinkeligen
Bereich dargestellt.
-
Gemäß der
vorliegenden Erfindung wird ein Verfahren zum Erzeugen eines Hauptabbilds
bzw. einer Master Map für eine allgemeine Klasse von Objekten
bereitgestellt, umfassend: Auswählen einer Untermenge von
häufigen Formvorlagen aus einem Formvorlagenvorrat, der
eine Vielzahl von Formvorlagen mit unterschiedlichen Komplexitätsgraden
aufweist; Formulieren eines Merkmalsauswahl-Algorithmus, um eine
von einer vorausgewählten Formvorlage in dem Formvorlagenvorrat
am meisten unterschiedliche Formvorlage zu bestimmen.
-
In
einer Ausführungsform ist der Komplexitätsgrad
steuerbar; und das Erzeugen des Hauptabbilds aus dem formulierten
Merkmalsauswahl-Algorithmus.
-
In
einer Ausführungsform weisen die Formvorlagen Segmentbereiche
auf, wobei jeder dieser Bereiche geeignet ist, darin Fragmente aufzuweisen,
die eine vorbestimmte Größe und eine einer vorbestimmten
Vielzahl von unterschiedlichen räumlichen Orientierungen
aufweisen, und wobei der Komplexitätsgrad durch die Anzahl
der Fragmente in den Formvorlagen verändert wird.
-
In
einer Ausführungsform wird ein Verfahren zum Erzeugen eines
Hauptabbilds bzw. einer Master Map für eine allgemeine
Klasse von Objekten bereitgestellt. Das Verfahren umfasst: (A) Definieren
einer Formvorlage, die Segmentbereiche aufweist, wobei jeder dieser
Bereiche geeignet ist, darin Merkmale aufzuweisen, die eine vorbestimmte
Größe und eine einer vorbestimmten Vielzahl von
unterschiedlichen räumlichen Orientierungen aufweisen;
(B) Ermitteln von Bildern von unterschiedlichen Typen von Objekten
innerhalb der allgemeinen Klasse von Objekten; wobei die Bilder
auf eine gemeinsame Größe skaliert sind und in
Bildbereiche unterteilt sind, wobei jeder der Bildbereiche einen
gemeinsamen Bereich der ermittelten Bilder aufweist, wobei ein solcher
gemeinsamer Bereich einen Bereichsstapel bereitstellt; (C) für
jeden der Bereichsstapel: (a) Anwenden der Formvorlage auf jedes
der Bilder in solch einem Bereichsstapel, um aus jedem der Bilder
Merkmale zu extrahieren, die die vorbestimmte Größe
und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen
Orientierungen aufweisen, um für jedes der Bilder in dem
Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) Bestimmen
aus den extrahierten Formvorlagen eine am häufigsten extrahierte
Formvorlage aus den extrahierten Formvorlagen, die nur eine erste
vorbestimmte Anzahl von Merkmalen mit einer gemeinsamen räumlichen
Orientierung aufweisen; (c) Aufzeichnen der Anzahl von Bildern in
dem Bereichsstapel, der die bestimmte, am häufigsten extrahierte
Formvorlage aufweist; (d) Wiederholen von (b) und (c) mit aufeinanderfolgend
steigender vorbestimmter Anzahl von Merkmalen, bis die Anzahl der
aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt;
(e) Auswählen der einen der häufigsten Formvorlagen,
die die größte aufgezeichnete Anzahl von Merkmalen
aufweist, als eine extrahierte Master-Vorlage für den einen
der Bereichsstapel; (D) Kombinieren der extrahierten Master-Formvorlagen
für jeden Bereichsstapel zu einem Abbild bzw. einer Karte
für die Klasse von Objekten; und (E) Vergleichen der Karte
mit jedem einer Vielzahl von Hintergrundbildern, um aus dem extrahierten
Hauptabbild bzw. Master Map extrahierte Formvorlagen zu entfernen,
die mit Segmenteigenschaften des Hintergrunds darin übereinstimmen,
um das Hauptabbild bzw. die Master Map für die Klasse von
Objekten zu erzeugen.
-
In
einer Ausführungsform sind die Merkmale Randfragmente des
Objektes.
-
In
einer Ausführungsform wird ein Verfahren zum Erzeugen einer
Master Map für eine generische Klasse von Objekten bereitgestellt.
Das Verfahren unterteilt Bilder unterschiedli cher Typen von Objekten
innerhalb einer Klasse in Bereichsstapel. Für jeden der
Stapel: (a) wendet das Verfahren eine Formvorlage an, um Fragmente
zu extrahieren, die eine vorbestimmte Größe und
eine einer Vielzahl von unterschiedlichen räumlichen Orientierungen
aufweisen, um extrahierte Formvorlagen zu erzeugen; (b) bestimmt
das Verfahren aus den extrahierten Formvorlagen eine häufigste
davon, die lediglich eine erste Anzahl von Fragmenten mit einer gemeinsamen
räumlichen Orientierung aufweist; (c) zeichnet das Verfahren
die Anzahl von Bildern auf, die die bestimmte, am häufigsten
extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren
(b) und (c) mit aufeinanderfolgend ansteigender Anzahl von Fragmenten,
bis die Anzahl der aufgezeichneten Bilder unter einen Grenzwert
fällt; und (e) wählt das Verfahren als eine extrahierte
Master-Formvorlage die eine der häufigsten Formvorlagen
aus, die die größte aufgezeichnete Anzahl von
Fragmenten aufweist. Die extrahierten Master-Formvorlagen für
die Stapel werden zu einem Abbild bzw. einer Karte kombiniert, das
bzw. die anschließend mit Hintergrundbildern verglichen
wird, um extrahierte Formvorlagen zu entfernen, die mit dem Segment in
dem Hintergrund übereinstimmen.
-
In
einer Ausführungsform wird ein Verfahren zum Erzeugen eines
Hauptabbilds bzw. einer Master Map für eine generische
Klasse von Objekten bereitgestellt. Das Verfahren definiert eine
Formvorlage mit Segmentbereichen, wobei jeder der Bereiche geeignet
ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und
eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen
Orientierungen aufweisen. Das Verfahren ermittelt Bilder von unterschiedlichen
Typen von Objekten innerhalb der allgemeinen Klasse von Objekten;
wobei derartige Bilder auf eine gemeinsame Größe
skaliert werden und in Bildbereiche unterteilt werden, wobei jeder
der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder
aufweist, wobei der gemeinsame Bereich einen Bereichsstapel bildet.
Für jeden der Bereichsstapel: (a) wendet das Verfahren
die Formvorlage auf jedes der Bilder in dem Bereichssta pel an, um
aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte
Größe und eine der vorbestimmten Vielzahl von
unterschiedlichen räumlichen Orientierungen aufweisen,
um für jedes der Bilder in dem Bereichsstapel eine extrahierte
Formvorlage zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten
Formvorlagen eine am häufigsten extrahierte Formvorlage
aus den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte
Anzahl von Fragmenten mit einer gemeinsamen räumlichen
Orientierung aufweisen; (c) zeichnet das Verfahren die Anzahl der
Bilder in dem Bereichsstapel auf, die die bestimmte, am häufigsten
extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren
(b) und (c) mit aufeinanderfolgend ansteigender vorbestimmter Anzahl
von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter
einen vorbestimmten Grenzwert fällt; und (e) wählt
das Verfahren als eine extrahierte Master-Formvorlage für
einen der Bereichsstapel die der häufigsten Formvorlagen
aus, die die größte aufgezeichnete Anzahl von
Fragmenten aufweist. Das Verfahren kombiniert die extrahierten Master-Formvorlagen
für jeden der Bereichsstapel zu einem Abbild bzw. einer
Karte für die Klasse von Objekten und vergleicht anschließend
das Abbild bzw. die Karte mit einer Vielzahl von Hintergrundbildern,
um aus dem extrahierten Hauptabbild bzw. Master Map die extrahierten
Formvorlagen darin zu entfernen, die mit den Segmenteigenschaften
des Hintergrunds übereinstimmen, um die Master Map für
die Klasse von Objekten zu erzeugen.
-
Die
vorliegende Erfindung unterscheidet sich von LTA in einer Anzahl
von Aspekten. Erstens erfasst die vorliegende Erfindung Linienstrukturen
mit einer langen Ausdehnung (z. B. Grenzen bzw. Ränder)
anstatt isolierter Rand-Pixel. Zweitens lernt die vorliegende Erfindung
Merkmal-Formvorlagen mit variablen Komplexitäten anstatt
einer festen Konfiguration. Diese Eigenschaft ist entscheidend,
da es wünschenswert ist, dass das Merkmal die Objektform
annimmt und Über-/Unter-Repräsentation vermeidet.
Schließlich ist das Erkennungsmodell in LTA rein generativ.
Es stellt deutbare und wiederhol bare Merkmale dar, die Modell-Unterscheidbarkeit
bzw. -Diskriminativität wird ignoriert. Bei der vorliegenden
Erfindung verwendet das Verfahren eine Hybridform des generativen
und diskriminativen Modells zur Merkmalsauswahl. Die erlernten Merkmale behalten
sowohl Deutbarkeit als auch Diskriminativität bei.
-
In
einer Ausführungsform verwendet das Verfahren ein Rand-Fragment-basiertes
Merkmal zur Objekterfassung, wobei der Begriff Erfassung sich sowohl
auf die Bildkategorisierung als auch die Objektlokalisierung bezieht.
Das Objekt wird durch eine Ansammlung von Formvorlagen dargestellt.
Jede Formvorlage wird durch eine Gruppe von lokalen Rand-Fragmenten
definiert. Im Gegensatz zu den herkömmlichen Ort-von-Interesse-Merkmalen,
können Rand-Fragmente stabil auf der Objektgrenze trotz
großer Formdeformierungen stabil erfasst werden, und können
in großem Maße invariant auf Beleuchtungsveränderungen
und Objektfarben in Übereinstimmung gebracht werden. Noch
attraktiver ist, dass die Randerfassung und -verfolgung sehr wirksam
sind. Durch das Durchsuchen der lokalen und globalen Randkonfiguration
kann das Verfahren die Objektsuche drastisch auf eine geringe Anzahl
von Bereichen-von-Interesse (Regions of Interest; ROI) mit minimalem
Rechenaufwand und Fehlerfassungen reduzieren. Noch genauere Klassifizierer
können des Weiteren eingeführt werden, um jede
vorläufige Erfassung zu verifizieren.
-
Die
Formvorlage wird auch als Flexible Edge Arrangement Template (FEAT)
bezeichnet, da sie eine große Flexibilität durch
Variieren der Ausdehnung und Orientierung der individuellen Randfragmente,
sowie der Anzahl von Randfragmenten und ihrer räumlichen
Verteilung innerhalb der Formvorlage bietet. Die Fülle dieses
Formvorlagenvorrats macht jedoch auch die Merkmalsauswahl zu einer
großen Herausforderung. Die Aufgabe ist es, eine minimale
Untermenge von Formvorlagen auszuwählen, die die Objektform
am besten erfassen, und gleichzeitig noch von anderen Nicht-Objekten
unterscheidbar sind. Wie oben erwähnt, beginnt das Verfahren
mit einer Untermenge von Formvorlagen. Die Untermengen werden unabhängig
auf einigen räumlichen Behältern ausgewählt.
In einer zweiten Stufe berücksichtigt das Verfahren die
gemeinsamen Merkmalsstatistiken und verwendet eine Diskriminanz-Analyse
(DA), um den optimalen Merkmalssatz zu bestimmen.
-
Die
Formvorlage nimmt keinen a priori semantischen oder geometrischen
Inhalt an, und kann konzeptionell auf ein beliebiges Objekt mit
unterscheidungsfähigen Formen angewendet werden.
-
Ein
signifikanter Unterschied zwischen dem erfindungsgemäßen
Verfahren und den bisher verwendeten Techniken ist, dass die letzteren
alle Merkmalsdeskriptoren sind, wohingegen FEAT mehr wie ein Merkmalsdetektor
ist. Das Verfahren verwendet einen Gierige-Suche-Algorithmus (greedy
search), um objektspezifische FEATs während des Trainings
zu konstruieren. Bei der Erkennung lokalisiert der Prozess diese
Merkmale zielbewusst, anstatt sich auf irgendwelche generischen
Detektoren wie z. B. Difference Of Gaussian (DOG) oder Harris-Corner
zu verlassen. Das Merkmal kann mit den gängigen lokalen
Deskriptoren zur weiteren Diskriminierung kombiniert werden.
-
Andere
Merkmale, Aufgaben und Vorteile der Erfindung werden anhand der
Beschreibung und der Figuren und aus den Ansprüchen deutlich.
-
Beschreibung der Figuren
-
1 ist
ein Flussdiagramm eines Verfahrens zur Erkennung von Objekten von
ungleichen oder unterschiedlichen Formen, die zu einer allgemeinen
Klasse von derartigen Objekten innerhalb eines ungeordneten, natürlichen
Hintergrundes gehören, gemäß einer Ausführungsform
der Erfindung;
-
1A ist
ein Flussdiagramm eines Verfahrens zum Erfassen von Trainingsbildern
unter Verwendung von 3D-Modell-Rendering, das in dem Verfahren aus 1 gemäß einer
Ausführungsform der Erfindung verwendet wird;
-
1B ist
ein Flussdiagramm eines Verfahrens zum Erfassen von Trainingsbildern
unter Verwendung einer Bilderdatenbank gemäß einer
weiteren Ausführungsform der Erfindung;
-
1C ist
ein Flussdiagramm eines Verfahrens Merkmal-Auswahl (Pruning bzw.
Ausschneiden) unter Verwendung des Least Absolute Shrinkage and
Selection Operators (LASSO), das in dem Verfahren aus 1 gemäß einer
Ausführungsform der Erfindung verwendet wird;
-
1D ist
ein Flussdiagramm eines erfindungsgemäßen Verfahrens
zum Erkennen von Objekten von ungleichen oder unterschiedlichen
Formen, die zu einer generischen Klasse von solchen Objekten innerhalb eines
ungeordneten, natürlichen Hintergrunds gehören;
-
2A zeigt
eine erfindungsgemäße Formvorlage, die in dem
Verfahren aus 1 verwendet wird;
-
2B zeigt
eine erfindungsgemäße Formvorlage, die in dem
Verfahren aus 1 verwendet wird und verwendet
wird, um Randsegmente für einen Bereich eines Objektes
innerhalb der Klasse von Objekten zu extrahieren;.
-
2C zeigt
eine erfindungsgemäße Formvorlage, die in dem
Verfahren aus 1 verwendet wird, und die verwendet
wird, um Randsegmente für einen unterschiedlichen Bereich
oder unterschiedliche Art des Objektes innerhalb der Klasse von
Objekten zu extrahieren;
-
2D zeigt
eine erfindungsgemäße Formvorlage, die in dem
Verfahren aus 1 verwendet wird, und die verwendet
wird, um Randsegmente für noch einen unterschiedlichen
Bereich oder eine unterschiedliche Art des Objektes innerhalb der
Klasse von Objekten zu extrahieren;
-
3 zeigt
einen Stapel von Bildern von unterschiedlichem Typ des Objektes
innerhalb der Klasse von Objekten, und der in dem Verfahren aus 1 verwendet
wird;
-
4 zeigt
eine Vielzahl von unterschiedlichen Typen des Objektes innerhalb
der Klasse von Objekten, und die in dem Verfahren aus 1 verwendet
wird, wobei darauf die Formvorlage aus 2 angewendet wird;
-
4A–4D zeigen
die Wirkung des Anwendens der Formvorlage aus 2 auf
die Vielzahl von unterschiedlichen Typen des Objektes aus 4,
und die verwendet wird, um eine Master-Fragmentformvorlage für
einen Bereichsstapel des Stapels von Bildern aus 3 zu
ermitteln;
-
5 zeigt
eine Karte des Objektes, nachdem die Master-Fragmente für
sämtliche Bildstapel des Objektes, die gemäß der
Erfindung erzeugt wurden, kombiniert wurden;
-
6 zeigt
eine Karte des Objektes, nachdem bei der Karte aus 5 die
Effekte der nicht-diskriminativen Fragmente erfindungsgemäß davon
entfernt wurden, nachdem Abschnitte Merkmalen weggeschnitten wurden/nach
der Merkmalsauswahl durch Einbeziehen von negativen Proben, die
durch die Hintergrundbilder bereitgestellt wurden; und
-
7 ist
ein Flussdiagramm des Verfahrens der Objekterfassung in einem Bild
unter Verwendung eines Abstimmungsmodells gemäß der
Erfindung, das in dem Verfahren aus 1 verwendet
wird.
-
Gleiche
Bezugszeichen in den verschiedenen Figuren geben gleiche Elemente
an.
-
Ausführliche Beschreibung
-
Bezieht
man sich nun auf das Flussdiagramm in 1, umfasst
das Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master
Map für eine allgemeine Klasse von Objekten das Definieren
einer Formvorlage 10 (2A), die
Segmentbereiche 12 aufweist, wobei jeder der Bereiche 12 geeignet
ist, darin Fragmente aufzuweisen, hier Ränder bzw. Grenzen
eines Objektes in einem Bild, hier einem Bild eines Automobils,
wobei die Fragmente eine vorbestimmte Größe aufweisen,
hier fünf bis zehn Pixel in Länge, und eine einer
vorbestimmten Vielzahl von unterschiedlichen räumlichen
Orientierungen, hier horizontal, vertikal, +45 Grad und +135 Grad
Orientierungen, Schritt 100.
-
Damit
wird in diesem Beispiel eine Stern-ähnliche Formvorlage
ausgewählt. Die Formvorlage hat einen zentralen Ursprungssegmentbereich 120 und eine Vielzahl von kuchenförmigen
Keilsegmentbereichen 12, die sich radial von dem Ursprung
nach außen erstrecken. Hier sind acht keilförmige
Segmentbereiche 12 regelmäßig beabstandet
umfänglich um den zentralen Ursprung angeordnet.
-
Der
Grundbestandteil in dieser Darstellung ist der so genannte ε-Rand,
der als ein gerades Randfragment definiert ist, dessen Ausmaß mindestens ε Pixel
beträgt. Eine einfache Konstruktion von ε-Rändern
beginnt mit der Randerkennung, z. B. Canny mit Hysterese [siehe
z. B.
J. Canny, "A computational approach to edge detection",
PAMI, 8(6): 679–698, 1986].
-
Hier,
in dem oben bezeichneten Auto-Beispiel, ist das Merkmal oder die
Signatur mit einem mittigen ε-Rand, in 2B mit 14C bezeichnet,
und k disjunkten ε-Enden, in 2B mit 14 bezeichnet,
konstruiert, wobei hier in diesem Beispiel k = 4 disjunkte ε-Ränder,
die darauf beschränkt sind, in den umgebenden Log-Polar-Behältern
zu liegen, eine sternartige Konfi guration bilden. Es wird angemerkt,
dass ε die Länge der Ränder in Pixeleinheiten
ist. Hier beträgt ε z. B. fünf bis zehn
Pixel in Länge. Die Formvorlage 10 (2A)
wird auf das Bild angewendet, um Randfragmente 14 in einem
Bereich des Bildes zu extrahieren, wobei die Fragmente eine vorbestimmte
Größe und eine der vorbestimmten Vielzahl von
unterschiedlichen räumlichen Ausrichtungen aufweisen, wie
in 2B dargestellt. Insbesondere werden die ε-Ränder
verfolgt und in vier Orientierungen bezeichnet, nämlich
horizontal (εH), vertikal (εv) und mit zwei Diagonalen (d. h. eine Diagonale
bei +45 Grad (εD+45) und eine Diagonale
bei +135 Grad (εD+135)) gekennzeichnet.
Um die Intensitätsvariation zu bearbeiten, schließt
das Verfahren in dieser Darstellung die Randpolarität aus.
Mit dieser Konstruktion kann ein Pixel in mehreren ε-Rändern
enthalten sein, wodurch alle verfügbaren Einzelheiten bewahrt
werden. Offensichtlich sind alle Randpixel 1-Rand, d. h. ε =
1. So wie ε zunimmt, wird eine geringere Anzahl von Randfragmenten beibehalten,
und ihre Diskriminativität erhöht sich.
-
Individuelle
Randfragmente, wie sie durch die ε-Ränder dargestellt
sind, tragen sehr wenige Informationen zur Unterscheidung zwischen
unterschiedlichen Formenklassen mit sich. Ihre räumliche
Interaktion in einer lokalen Umgebung kann jedoch informativer sein.
Durch diese Beobachtung motiviert, verwendet das Verfahren eine
Merkmals- oder Signatur-Formvorlage, die aus ε-Rändern
besteht. Dieses Merkmal, d. h. FEAT., hat, wie oben erwähnt,
einen mittigen ε-Rand und k disjunkte ε-Ränder,
die darauf beschränkt sind, in den umgebenden Log-Polar-Behältern
zu liegen, wobei sie eine sternartige Konfiguration bilden. 2A veranschaulicht
die Konfiguration von FEAT, die in dem Log-Polar-Koordinatensystem
definiert ist. Der radiale Bereich ist durch α und β begrenzt,
wobei der Winkelbereich in acht Behälter aufgeteilt ist.
-
2C zeigt
die Wirkung des Anwendens der Formvorlage aus 2A auf
entweder einen anderen Bereich desselben Autos oder auf ein Bild
eines unterschiedlichen Autotyps, um Randfragmente 14 daraus
zu extrahieren. Man bemerke, dass die räumlichen Orientierungen
der Randfragmente 14 unterschiedlich zu denen in 2B sind. 2D zeigt
die Wirkung des Anwendens der Formvorlage aus 2A auf
entweder einen anderen Bereich desselben Autos oder auf ein Bild
eines anderen Autotyps. Man bemerke, dass die räumlichen
Orientierungen der Randfragmente unterschiedlich zu denen in 2B sind,
und dass die Anzahl der umgebenden Randfragmente größer
ist als die Anzahl in den 2B und 2C.
-
Es
gibt mehrere Vorteile bei der Verwendung dieses Merkmals. Erstens
ist die Randerfassung vom Rechenaufwand her leistungsfähig
verglichen mit anderen ausgefeilten Orte-von-Interesse-Detektoren.
Zweitens weisen die Ränder eine starke Invarianz auf fotometrische
Transformationen auf, und die sternförmige Konfiguration
codiert Abweichungen in der lokalen Geometrie explizit. Schließlich
kann die Formvorlagenkomplexität durch das Variieren von ε und
k gesteuert werden. D. h., die Komplexität der Formvorlage 10 kann
durch Verändern der Anzahl von Rändern bzw. Grenzen
k, und/oder durch Variieren der Länge des Randes, d. h.
der Anzahl der Pixel in den Rändern, ε, variiert
werden. Hier in diesem Beispiel wird die Anzahl von Rändern
k variiert, um dadurch die Komplexität der Formvorlage 10 zu
variieren. Wie später beobachtet werden wird, erlaubt uns
dies, Merkmale zu konstruieren,. die in hohem Maße auf
dem Objekt detektierbar sind. Es versteht sich, dass andere Merkmale
als Ränder, wie z. B. Ecken verwendet werden können.
Deshalb ist in einem solchen Fall der Grad der Komplexität
eine Funktion der Anzahl von verwendeten Ecken.
-
Nimmt
man wieder auf 1 Bezug, ermittelt das Verfahren
Bilder von unterschiedlichen Typen von Objekten innerhalb der generischen
Klasse von solchen Objekten, Schritt 200. Die ge nerische
Klasse von Objekten können Menschen sein, wobei in dem
Fall Bilder von Menschen verschiedener Größen
und Formen erhalten werden. Hier in dem Beispiel ist die generische
Klasse von Bildern Autos und es werden Bilder von Stufenheck-Limousinen,
Coupes, von verschiedenen Modellen ermittelt, die durch unterschiedliche
Hersteller fabriziert wurden.
-
Insbesondere
kann der Schritt 200 des Ermittelns von Bildern von unterschiedlichen
Typen von Objekten innerhalb der generischen Klasse von solchen
Objekten z. B. das Verfahren sein, das durch die Flussdiagramme
in 1A dargestellt ist oder durch das in 1B dargestellte
Flussdiagramm.
-
Bezieht
man sich auf 1A, zeigt das Flussdiagramm
die Schritte des Sammelns von Trainingsbildern unter Verwendung
von 3D-Modell-Rendering. Das Verfahren umfasst: Sammeln von vielen
3D-Graphik-Modellen für das Objekt von Interesse (z. B.
Autos); Ausrichten der Modelle (z. B. alle Autos sind nach Osten
gerichtet, geparkt an dem Ort (0,0,0)); Kennzeichnen einer Vielzahl
von Markierungspunkten auf diesen Modellen (z. B. Mitte des fahrerseitigen
Vorderrades, Ecke auf Stoßstange, usw.); Definieren des
(virtuellen Graphik-)Kameraortes und Blickwinkels und deren Veränderungsbereich;
Verwenden eines Computer-Graphik-Rechners, um mehrere Bilder für
jedes 3D-Modell zu rendern bzw. zu zeichnen. Jedes Bild wird unter
Verwendung eines Kameraortes und eines Blickwinkels aus dem oben
definierten Bereich gerendert; und Verwenden einer Prokrustes-Analyse,
um die Projektionen der Markierungspunkte auszurichten (Skalieren
und Strecken). Nach dem Ausrichten sollte Markierung in dem Referenzrahmen
an im Wesentlichen derselben Position sein.
-
Bezieht
man sich auf 1B zeigt das Flussdiagramm die
Schritte des Sammelns von Trainingsbildern durch Sammeln von Trainingsbildern
unter Verwendung einer Bilddatenbank. Das Verfahren umfasst: sammle
viele 2D-Bilder aus einer Bilddatenbank, z. B. Google-Bilder, typisch
für eine Objektklasse aus einem typischen Blickwinkel;
kennzeichne eine Vielzahl von Markierungspunkten auf diesen Bildern
(z. B. Mitte des fahrerseitigen Vorderrades, Ecke auf Stoßstange,
usw.); verwende die Prokrustes-Analyse, um die Markierungspunkte
auszurichten (skalieren und strecken). Nach dem Ausrichten sollte
jede Markierung in dem Referenzrahmen im Wesentlichen an derselben
Position sein.
-
Als
Nächstes (Schritt 300) werden die ermittelten
Bilder aus den 1A oder 1B (Schritt 200) oder
beiden auf eine gemeinsame Größe skaliert und
in ein Array von Bildbereichen unterteilt bzw. partitioniert. Jeder
der Bildbereiche weist darin einen gemeinsamen Bereich der ermittelten
Bilder auf, wobei der gemeinsame Bereich einen Bereichsstapel bildet.
Man betrachte einen Satz von N Bildern, (3) einer
bestimmten Objektklasse, hier Autos. Die Aufgabe ist, einen Satz
von wenigen Formvorlagen zu lernen, die am besten die Objektform
beschreiben. Um dies zu erreichen, müssen wir drei Fragen
beantworten:
Erstens, an welchen Orten sollten wir diese Formvorlagen
definieren?
Zweitens, was ist die Konfiguration jeder Formvorlage?
Schließlich,
was ist die minimale Anzahl von Formvorlagen, die für die
Erkennung ausreichend sind?
-
Für
jeden der Bereichsstapel (Schritt 300): (a) wendet das
Verfahren die Formvorlage auf jedes der Bilder in solch einem Bereichsstapel
an, um aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte
Größe und eine aus der vorbestimmten Vielzahl
von unterschiedlichen räumlichen Orientierungen aufweisen,
um für jedes der Bilder in dem Bereichsstapel eine extrahierte
Formvorlage zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten
Formvorlagen eine am häufigsten extrahierte Formvorlage
unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte
Anzahl von Fragmenten mit einer gemeinsamen räumlichen
Orientierung auf weisen; (c) zeichnet das Verfahren die Anzahl von
Bildern in dem Bereichsstapel auf, die die bestimmte am häufigsten
extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren
(b) und (c) mit einer aufeinanderfolgend anwachsenden vorbestimmten
Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder
unter einen vorbestimmten Grenzwert fällt (Schritte 400 und 500);
und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage
für einen der Bereichsstapel die eine der häufigsten
Formvorlagen aus, die die größte aufgezeichnete
Anzahl von Fragmenten aufweist (Schritt 600).
-
Hier
ist die Objektform auf einem W×H-Referenzraster G definiert,
wie in
3 dargestellt. Man berücksichtige den
Satz von N Unterbereichen an einem bestimmten Rasterort, nachdem
jedes Bild auf das Raster verzerrt wurde. Dieser Satz von N Unterbereichen über
die Bilder hinweg wird als ein Bereichsstapel bezeichnet. Dieser
Bereichsstapel kann als eine Probe von einer Formzufallsvariable
angesehen werden, die einen bestimmten Ort auf der Objektkontur
charakterisiert. Das Verfahren identifiziert das FEAT als die häufigste Formvorlage
in dem Bereichsstapel, d. h.
wobei N
i(t)
die Anzahl der Häufigkeiten der Formvorlage t in dem i-ten
Unterbereich ist. Der Terminus t ^
i wird als
das charakteristische FEAT des Bereichs bezeichnet; es bedeutet
sowohl den Ort (Mitte des Unterbereichs) und die Konfiguration der
Formvorlage. Das Verfahren sucht nach dem charakteristischen FEAT
in jedem Bereichsstapel. Die finale Objektform kann durch T ^ = {t ^
1,t ^
2, ..., t ^
K}, dargestellt werden, wobei K die Rastergröße ist.
Es ist anzumerken, dass Instanzen von t ^
i an
verschiedenen Orten in den Unterbereichen, die sie enthalten, erscheinen
könnten. Mehrere Instanzen von t ^
i könnten
in demselben Unterbereich auftreten. Hier beschränkt das
Verfahren, dass der mittlere Rand ε
0 innerhalb
des Unterbereichs liegt, die benachbarten Ränder können jedoch
beliebig "fließen", solange sie sich in den vorbestimmten
radialen Behältern befinden.
-
Zwei
Parameter müssen während des FEAT-Lernens berücksichtigt
werden. Einer ist die Formvorlagenkomplexität, die durch
k definiert ist, die Anzahl der benachbarten ε-Ränder.
Triviale Formvorlagen wie z. B. eine 2-Rand-Anordnung sind zu primitiv,
um die Objektform zu erfassen, wohingegen überkomplexe
Formvorlagen zu spezifisch sind. Deshalb verwendet das Verfahren
lediglich Suchformvorlagen in einem vordefinierten Bereich [k
min, k
max] ([
Y.
Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection",
Technical Report 459, Department of Statistics, University of Chicago,
1997; J. Canny, "A computational approach to edge detection", PAMI,
8(6): 679–698, 1986]. Der zweite Parameter ist
die Häufigkeit des charakteristischen FEAT. Hier ignoriert
das Verfahren die charakteristischen FEATs, deren Häufigkeit
unter einem Grenzwert δ liegt, da es wahrscheinlicher ist,
dass sie Zufallsrauschen darstellen.
-
Betrachten
wir nun die Größe des Formvorlagenraumes. Da das
Verfahren
4 Randorientierungen und 8 Winkelbehälter
verwendet, ist die Anzahl von distinkten k-Stern-Formvorlagen
Im schlechtesten Falle ist
die Anzahl der Formvorlagen, die das Verfahren in einem Bereichsstapel
untersuchen muss
-
-
Aufgrund
der großen Anzahl von ε-Rändern, die
möglicherweise in einem Unterbereich detektiert werden,
wäre eine naive Suche über diesen Formvorlagenraum
unerschwinglich teuer. Das Verfahren wählt einen Näherungsansatz,
um die Formvorlage in einer stufenartigen Weise zu durchsuchen:
-
Algorithmus 1: Stufenweise Vorwärts-Suche
für das FEAT
-
- Parameter:
Häufigkeitsgrenzwert δ,
Komplexitätsgrenzwert kmax.
- Initialisierung.
Setze t = ε0ε1, die häufigste zwei-Rand-Anordnung.
Zeichne alle Instanzen auf, bei denen t für jedes Bild
aufgetreten ist. Setze k = 2. Bezeichne mit Δ(t) die Häufigkeit
der Formvorlage t.
- While Δ(t) > δ und
k < kmax do
1.
Suche über alle möglichen Additionen von einem
Rand εk, der mit = ε0 verbunden werden kann und in einem disjunkten
Winkelbehälter von ε1,
K, εk-1, angeordnet ist
2.
Finde die häufigste Addition k . Setze t∪ = ε ^k.
3.
Zeichne alle Instanzen von t auf. Setze k = k +1.
- end while
-
Wie
in Algorithmus 1 oben erläutert, konstruiert das
Verfahren die Formvorlagen stufenweise, bis die Anzahl ihrer Vorkommnisse
unter einem Grenzwert liegt oder die maximale Komplexität
erreicht ist. Es ist anzumerken, dass die Konstruktion von einem
beliebigen zusätzlichen Rand auf allen Instanzen basiert,
die den vorherigen Test bestanden haben.
-
Bezieht
man sich damit auf 4A und berücksichtigt
man z. B. den Bereichsstapel 18 für fünfzehn unterschiedliche
Autotypen, wendet das Verfahren die Formvorlage auf jedes der Bilder
in solch einem Bereichsstapel an, um aus jedem der Bilder Fragmente
zu extrahieren, die die vorbestimmte Größe und
eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen
Orientierungen aufweisen, um für jedes der Bilder in dem
Bereichsstapel eine extrahierte Formvorlage zu erzeugen. Das Verfahren
bestimmt anschließend aus den extrahierten Formvorlagen
eine am häufigsten extrahierte Formvorlage aus den extrahierten
Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten
aufweisen, hier lediglich zwei Fragmente (k = 2) mit gemeinsamen
räumlichen Orientierungen. Hier in diesem Bespiel ist die
am häufigsten extrahierte Formvorlage unter den extrahierten
Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten
mit einer gemeinsamen räumlichen Orientierung aufweisen,
in 4A als Formvorlage 10a dargestellt. Der
Prozess zeichnet die Anzahl der Bilder in dem Bereichsstapel auf,
die die bestimmte am häufigsten extrahierte Formvorlage
aufweisen, hier weisen sämtliche fünfzehn Bilder
die Formvorlage 10a in dem Bereichsstapel 18 auf.
-
Das
Verfahren wiederholt dies mit aufeinanderfolgend zunehmender vorbestimmter
Anzahl von Fragmenten, d. h. Komplexität, bis die Anzahl
der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt;
und (e) wählt als eine extrahierte Master-Formvorlage für
einen der Bereichsstapel die eine der häufigsten Formvorlagen
aus, die die größte aufgezeichnete Anzahl von
Fragmenten aufweist. Damit wird die Anzahl, wie in 4B dargestellt,
von zwei Fragmenten, k = 2, auf drei Fragmente, k = 3, mit einer
gemeinsamen räumlichen Orientierung erhöht. Hier
in diesem Beispiel ist die am häufigsten extrahierte Formvorlage
unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte
Anzahl von Fragmenten mit einer gemeinsamen räumlichen
Orientierung aufweisen, in 4B als
Formvorlage 10b dargestellt. Das Verfahren zeichnet die Anzahl
von Bildern in dem Bereichsstapel auf, die die bestimmte, am häufigsten
extrahierte Formvorlage aufweisen, hier weisen nur vierzehn Bilder
die Formvorlage 10a in dem Bereichsstapel 18 auf.
Damit wird, wie in 4C dargestellt, die Anzahl von
drei Fragmenten auf vier Fragmente, k = 4, mit einer gemeinsamen
räumlichen Orientierung erhöht. Hier in diesem
Beispiel ist die am häufigsten extrahierte Formvorlage
unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte
Anzahl von Fragmenten mit einer gemeinsamen räumlichen
Orientierung aufweisen, in 4C als
Formvorlage 10c dargestellt. Das Verfahren zeichnet die
Anzahl von Bildern in dem Bereichsstapel auf, die die bestimmte,
am häufigsten extrahierte Formvorlage aufweisen, hier weisen
nur dreizehn Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf.
Wie in 4D dargestellt, wird die Anzahl
von vier Fragmenten auf acht Fragmente, k = 8, mit gemeinsamer räumlicher
Orientierung erhöht. Hier in diesem Beispiel ist die am
häufigsten extrahierte Formvorlage unter den extrahierten
Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten
mit einer gemeinsamen räumlichen Orientierung aufweisen,
in 4D als Formvorlage 10d dargestellt. Das
Verfahren zeichnet die Anzahl der Bilder in dem Bereichsstapel auf,
die die bestimmte, am häufigsten extrahierte Formvorlage
aufweisen, hier weisen nur elf Bilder die Formvorlage 10a in
dem Bereichsstapel 18 auf.
-
Das
Verfahren kombiniert anschließend die für jeden
der Bereichsstapel erzeugten Fragmente, um eine Karte bzw. ein Abbild
für die Klasse von Objekten bereitzustellen, wie in 5 dargestellt,
Schritt 700.
-
Als
nächstes sammelt das Verfahren einen großen Satz
(d. h. eine Vielzahl) von "Hintergrund"-Naturbildern, z. B. aus
einer Bilderdatenbank oder aus dem Internet, und verwendet sie als
Negativproben, Schritt 750, wie nachfolgend in Verbindung
mit 1C beschrieben werden wird.
-
Als
nächstes vergleicht das Verfahren die Karte mit der gesammelten
Vielzahl von Hintergrundbildern, um extrahierte Formvorlagen in
den Karten zu entfernen, die mit Segmenteigenschaften des Hintergrunds übereinstimmen,
um die Master-Karte bzw. Master Map für die Klasse von
Objekten zu erzeugen (6), Schritt 800.
-
Nimmt
man Bezug auf 1C, zeigt das Flussdiagramm
die Schritte der Merkmalauswahl bzw. Feature Selection (Pruning)
unter Verwendung von LASSO. Die Schritte umfassen:
- (A) Wiederverwenden des originalen Satzes von Trainingsbildern
in 1A oder 18 oder
sowohl 1A als auch 1B,
die Objektinstanzen (Autos) aus einem bestimmten Blickwinkel enthalten
und die auf ein Referenzraster ausgerichtet wurden. Markieren jedes
solchen Bildes als eine positive Probe. Sammeln einer großen
Anzahl von Hintergrundbildern aus natürlichen Szenen, die
keine Objektinstanzen enthalten. Markieren jedes derartigen Bildes
als negative Probe;
- (B) Für jedes Bild in dem kombinierten (positiv und
negativ) Datensatz, Bilden eines Indikatorvektors x der Länge
K, wobei K die Anzahl der extrahierten Formvorlagen aus Schritt 700 ist.
Jedes Element in dem Vektor x entspricht der vorbestimmten Formvorlage
in der Formvorlagen-Karte (Master Map). Falls die erlernte Formvorlage
(aus Schritt 700) in einem vorbestimmten Ort detektiert
wird, wird das entsprechende Element in x mit +1 gekennzeichnet,
sonst –1. Ordne die Klassenbezeichnung y = 1 zu, falls
das Bild eine positive Probe ist, (Objektinstanzen enthaltend) oder
y = –1, falls das Bild eine negative Probe ist (keine Objektinstanzen
oder "Hintergrund" enthaltend);
- (C) Führe zwei Dinge gleichzeitig unter der Verwendung
von LASSO durch: 1) passe ein Regressionsmodell (Gleichung (5))
an, das die Klassenbezeichnung y unter Verwendung des Indikatorvektors
x vorhersagt; ein besonderer Fall (lineare Regression) ist in unserem
Dokument erläutert, aber andere Regressionsmodelle, wie
z. B. logistische Regression, können ebenfalls verwendet
werden. 2) Merkmalauswahl (Feature Selection): schneide Merkmale
aus, die sowohl dem Vordergrund als auch dem Hintergrund gemeinsam sind;
und
- (D) Aktualisieren der Formvorlagen-Karte (Master Map) durch
Entfernen der ausgeschnittenen Merkmale.
-
Um
es anders darzustellen, die erlernten charakteristischen FEATs (Schritte
300–
600)
berücksichtigen lediglich die Merk malsexistenz in den positiven
Proben und sind rein datengetrieben. Bei einer Erkennungsaufgabe
jedoch sollten ebenfalls die negativen Proben zur besten Klassifikation
berücksichtigt werden. Hier verwendet das Verfahren die
Diskriminanz-Analyse, um eine Untermenge von T ^ auszuwählen,
sodass die ausgewählten Merkmale sowohl eine Wiederholbarkeit
als auch eine Unterscheidbarkeit (discriminativity) erreichen. Speziell
verwendet das Verfahren den Least Absolute Shrinkage and Selection
Operator (LASSO)-Algorithmus zur Merkmalsauswahl. LASSO wurde zuerst
von Tibshirani eingeführt [
R. Tibshirani, "Regression shrinkage
and selection via the lasso", Journal of the Royal Statistical Society,
58(1): 267–288, 1996], um eine Schrumpfung und
eine Variablenauswahl für lineare Regressionen zu erreichen.
Unlängst wurde es für das maschinelle Lernen zur
Merkmalsauswahl angepasst und hat eine ausgezeichnete Verallgemeinerungsleistung
in der Gegenwart von vielen irrelevanten Merkmalen gezeigt [
J.
Shotton, A. Blake und R. Cipolla, "Feature selection, L1 vs. L2
regularization, and rotational invariance", in ICML, 2004],
[
J. Goodman, "Exponential priors for maximum entropy models",
in ACL, 2004].
-
Man
betrachte eine beaufsichtigte Lernaufgabe, wobei P Trainingsproben
{(X(i), y(i)), i
= 1, K, P} erhalten werden. Hier ist y(i) die
Klassenbezeichnung und definiert als
-
-
Betrachtet
man das lineare Regressionsmodell: bei gegebenen K Indikatorvariablen
kann die Objektklasse vorhergesagt werden durch:
y ^ = β ^0 + β ^1x1 + K + β ^KxK (5)Lässt
man β ^ = {β ^
0,β ^
1, K, β ^
K}, ist die LASSO-Schätzung β ^ definiert
durch
-
Das
LASSO minimiert die Restquadratsumme in Abhängigkeit von
der Summe des absoluten Wertes der Koeffizienten, die niedriger
als eine Konstante sind. Hier ist s ≥ 0 ein Tuning-Parameter.
Er steuert den Betrag der Schrumpfung, der auf die Schätzungen
angewendet wird. Eine geometrische Interpretation von LASSO ist
in
7 dargestellt. Die Ellipsen sind die Fehlerkonturen.
Die schraffierten Bereiche sind die Randbedingungen. β ^ ist die Lösung
der kleinsten Quadrate. So wie das Verfahren s vermindert, schrumpft
LASSO die Lösungen auf 0 hin, und einige Koeffizienten
können genau gleich 0 werden (wo die Fehlerkontur die Ecke
des Randbedingungsbereiches berührt). Diese Eigenschaft
ist wünschenswert, da die überlebenden Koeffizienten eine
einfache und sparsame Merkmalsuntermenge zur Vorhersage erzeugen. Überraschenderweise,
wie durch Tibshirani gezeigt [
R. Tibshirani, "Regression
shrinkage and selection via the lasso", Journal of the Royal Statistical
Society, 58(1): 267–288, 1996], weist LASSO konsistent
niedrigere Vorhersagefehler auf als die Methode der kleinsten Quadrate
und ist mit anderen Modellen, wie z. B. Ridge-Regression und Untermengen-Auswahl
wettbewerbsfähig [
T. Hastie, R. Tibshirani und
J. Friedman, "The Elements of Statistical Learning", Springer-Verlag,
2001]. Darüber hinaus produziert LASSO interpretierbare
Modelle und weist eine starke Stabilität auf.
-
Die
Berechnung für die Lösung der Gleichung 6 ist
ein quadratisches Programmierproblem mit linearen Ungleichheitsrandbedingungen.
Es ist sehr ineffizient, wenn die Anzahl der Merkmale groß ist.
Unlängst haben Efron et al. [
B. Efron, T. Hastie,
I. Johnstone und R. Tibshirani, "Least angle regression", The Annals
of Statistics, 32(2): 407–499, 2004] in ihrer
Durchbrucharbeit gezeigt, dass dieses Problem effizient durch den Least
Angle Regression Algorithmus (LARS) gelöst werden kann.
Das Verfahren berechnet den Indikatorvektor X
(i) für
270 positive und 300 negative Trainingsbilder. Das Verfahren verwendet
LARS, um Merkmale aus den erlernten charakteristischen FEATs auszuwählen.
-
Die
erlernte FEAT-Karte besteht aus einem Satz von charakteristischen
FEATs, von denen jedes mit einem Rasterort verbunden ist. Obwohl
die diskriminative Stärke eines individuellen FEAT gering
ist, gibt die räumliche Verteilung der FEATs eine starke
Angabe darüber, ob das Objekt vorhanden ist oder nicht.
-
Jedes
individuelle FEAT kann als ein Merkmalsdetektor angesehen werden.
Das Verfahren speichert die FEATs in einer Baumdatenstruktur. Die
Merkmalsdetektion kann wirksam durch die Tiefe-zuerst-Suche (depth-first-search)
durchgeführt werden. Bei einem gegebenen Eingabebild detektiert
das Verfahren zuerst alle Instanzen der erlernten FEATs. Die Instanzen
des Objektes können unter Verwendung der Hough-Transformation
lokalisiert werden. Um bestimmte Beträge der Formenveränderung
zu berücksichtigen, verformt das Verfahren das Referenzraster
in dem Bereich von Maßstab [0,8; 1,2], Rotation [–7°,
+7°] und Verschiebung um ±5 Pixel. Das Votum von
einer spezifischen FEAT wird in einen kreisrunden Bereich um den
Objektmittelpunkt herum eingezeichnet. Die Größe
des Bereiches kann durch den Verformungsbetrag bestimmt werden.
-
Da
das Modell mit nach links gerichteten Autos trainiert wird, lässt
man den Detektor über jedes Bild zweimal laufen, das zweite
Mal über das horizontal gedrehte Bild. Autos unterschiedlicher
Größen können durch Anwenden des Detektors
in mehreren Maßstäben erfasst werden.
-
Insbesondere,
bezieht man sich auf 7, ein Flussdiagramm des Verfahrens
der Objekterkennung in einem Bild unter Verwendung eines Votierschemas
(Schritt 900, 1). Das Verfahren führt
zuerst eine Randerkennung in dem Fenster durch. Als nächstes
detektiert das Verfahren alle FEAT-Merkmale, die in dem erlernten
Modell erscheinen (Formvorlagen-Karte). Als nächstes erzeugt
das Verfahren eine Stimmenzählverteilung bzw. -karte derselben
Größe des Bildes. Das Verfahren setzt alle Voten
bzw. Stimmen auf 0. Als Nächstes beginnt das Verfahren
mit dem ersten detektierten FEAT. Als Nächstes votiert
das Verfahren für die Mitte des Objektes. In der Orientierung
aus 3 z. B. wird ein FEAT, das lediglich auf der vorderen
Stoßstange erscheint, für die Automittelposition
wie folgt stimmen: die Automitte befindet sich zur Rechten dieses
FEAT mit einem Abstand einer halben Autolänge. Das Verfahren
bestimmt, ob alle erlernten FEAT-Merkmale ausgeschöpft
sind. Falls nicht, geht das Verfahren zu dem nächsten FEAT-Merkmal;
ansonsten schaut das Verfahren auf die Stimmzählverteilung
bzw. -karte; berücksichtigt lediglich lokale Stimmenmaxima;
und wenn an einem lokalen Maximum die Stimme einen bestimmten Grenzwert überschreitet,
wird die Erkennung eines Autos berichtet.
-
Eine
Anzahl von Ausführungsformen der Erfindung wurde beschrieben.
Nichtsdestotrotz versteht es sich, dass verschiedene Veränderungen
durchgeführt werden können, ohne von dem Geist
und dem Umfang der Erfindung abzuweichen. Obwohl LASSO verwendet
wurde, versteht es sich z. B., dass andere Merkmalsauswahlverfahren
verwendet werden könnten, z. B. Boosting. Damit wird unter
Bezugnahme auf 1D ein Flussdiagramm für
den allgemeineren Fall dargestellt, wo etwas anderes als Ränder
verwendet werden, wie z. B. Ecken. Hier wird eine Strich-(') Bezeichnung
für die Schritte 100–900 aus 1A verwendet;
damit sind die äquivalenten Prozessschritte entsprechend
in 1D mit den Schritten 100'–900' bezeichnet.
Des Weiteren können andere Formvorlagen mit variierender
Komplexität verwendet werden. Demgemäß liegen
andere Ausführungsformen innerhalb des Umfangs der nachfolgenden
Ansprüche.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- - K. Mikolajczyk,
T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky,
T. Kadir und L. Van Gool, "A comparison of affine region detectors",
IJCV, 65(1–2), 2005 [0004]
- - R. Fergus, P. Perona und C. Zisserman, "Object class recognition
by unsupervised scale-invariant learning", in CVPR, 2003 [0004]
- - G. Csurka, C. Dance, L. Fan, J. Willamowksi und C. Bray, "Visual
categorization with bags of keypoints", in ECCV Work-shop an Statistical
Learning in Computer Vision, 2004 [0004]
- - L. Fei-Fei und P. Perona, "A Bayesian hierarchical model for
learning natural scene categories", in CVPR, 2005 [0004]
- - K Graumau und T. Darrell, "Efficient image matching with distributions
of local invariant featuers", in CVPR, 2005 [0004]
- - S. Lazebnik, C. Schmid und J. Ponce, "Beyond bags of features:
Spatial pyramid matching for recognizing natural scene categories"
in CVPR, 2006 [0004]
- - H. Bay, T. Tuytelaars und L. Van Gool, "SURF: Speeded up robust
features", in ECCV, Mai 2006 [0005]
- - V. Lepetit, P. Lagger und P. Fua, "Randomized trees for realtime
keypoint recognition", in CVPR, 2005 [0005]
- - D. G. Lowe, "Distinctive image features from scale-invariant
keypoints", IJCV, 60(2): 91–110, 2004 [0005]
- - J. Shotton, A. Blake und R. Cipolla, "Contour-based learning
for object detection", in ICCV, 2005 [0006]
- - A. Opelt, A. Pinz und A. Zisserman, "A boundary-fragmentmodel
for object detections", in ECCV, 2006 [0006]
- - V. Ferrari, T. Tuytelaars und L. Van Gool, "object detection
by contour segment networks", in ECCV, 2006 [0006]
- - E. Grimson, "From Images To Surfaces: A Computational Study
of the Human Early Vision System", MIT Press, Cambridge, MA, 1981 [0006]
- - D.G. Lowe, "Distictive image features from scaleinvariant
keypoints", IJCV, 60(2): 91–110, 2004 [0007]
- - S. Belongie, J. Malik und J. Puzicha, "Shape matching and
object recognition using shape contexts", PAMI, 24(4): 509–522,
2002 [0007]
- - N. Dalal und B. Triggs, "Histograms of oriented gradients
for human detection", in CVPR, 2005 [0007]
- - Amit, D. Geman und B. Jedynak, "Efficient focusing and face
detection", Technical Report 459, Department of Statistics, University
of Chicago, 1997 [0008]
- - J. Canny, "A computational approach to edge detection", PAMI,
8(6): 679–698, 1986 [0040]
- - Y. Amit, D. Geman und B. Jedynak, "Efficient focusing and
face detection", Technical Report 459, Department of Statistics,
University of Chicago, 1997; J. Canny, "A computational approach
to edge detection", PAMI, 8(6): 679–698, 1986 [0052]
- - R. Tibshirani, "Regression shrinkage and selection via the
lasso", Journal of the Royal Statistical Society, 58(1): 267–288,
1996 [0062]
- - J. Shotton, A. Blake und R. Cipolla, "Feature selection, L1
vs. L2 regularization, and rotational invariance", in ICML, 2004 [0062]
- - J. Goodman, "Exponential priors for maximum entropy models",
in ACL, 2004 [0062]
- - R. Tibshirani, "Regression shrinkage and selection via the
lasso", Journal of the Royal Statistical Society, 58(1): 267–288,
1996 [0065]
- - T. Hastie, R. Tibshirani und J. Friedman, "The Elements of
Statistical Learning", Springer-Verlag, 2001 [0065]
- - B. Efron, T. Hastie, I. Johnstone und R. Tibshirani, "Least
angle regression", The Annals of Statistics, 32(2): 407–499,
2004 [0066]