DE102008018835A1 - Verfahren zum Erfassen von Objekten unter Verwendung von flexiblen Randanordnungen - Google Patents

Verfahren zum Erfassen von Objekten unter Verwendung von flexiblen Randanordnungen Download PDF

Info

Publication number
DE102008018835A1
DE102008018835A1 DE102008018835A DE102008018835A DE102008018835A1 DE 102008018835 A1 DE102008018835 A1 DE 102008018835A1 DE 102008018835 A DE102008018835 A DE 102008018835A DE 102008018835 A DE102008018835 A DE 102008018835A DE 102008018835 A1 DE102008018835 A1 DE 102008018835A1
Authority
DE
Germany
Prior art keywords
extracted
images
template
templates
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102008018835A
Other languages
English (en)
Inventor
Yan Li
Yakup Genc
Yanghai Tsin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corporate Research Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of DE102008018835A1 publication Critical patent/DE102008018835A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Abstract

Ein Verfahren wobei Bilder unterschiedlicher Typen von Objekten innerhalb einer Klasse in Bereichsstapel unterteilt werden. Für jeden der Stapel: (a) wendet das Verfahren eine Formvorlage an, um Fragmente zu extrahieren, die eine vorbestimmte Größe und eine aus einer Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um extrahierte Formvorlagen zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine häufigste davon, die lediglich eine erste Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweist; (c) zeichnet das Verfahren die Anzahl der Bilder auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren die Schritte (b) und (c) mit aufeinanderfolgend ansteigenden Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen Grenzwert fällt; und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage die der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Die extrahierten Master-Formvorlagen für die Stapel werden zu einer Karte bzw. Map kombiniert, die anschließend mit Hintergrundbildern verglichen wird, um extrahierte Formvorlagen zu entfernen, die mit einem Segment in dem Hintergrund übereinstimmen.

Description

  • Querverweis auf verwandte Anmeldungen
  • Diese Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung mit der Nummer 06/913,303, eingereicht am 23. April 2007, deren gesamter Gegenstand hierin unter Bezugnahme mit einbezogen ist.
  • Technisches Gebiet
  • Diese Erfindung betrifft im Allgemeinen ein Verfahren zum Erkennen von Objekten und insbesondere Verfahren zum Erkennen von Objekten diverser oder unterschiedlicher Formen, die zu einer allgemeinen Klasse von derartigen Objekten innerhalb eines ungeordneten, natürlichen Hintergrunds gehören.
  • Hintergrund und Zusammenfassung
  • Wie im Stand der Technik bekannt ist, hat das Erkennen von diversen Objekten in ungeordneten, natürlichen Szenen auf schnelle und exakte Weise viele Anwendungen in der realen Welt, wie z. B. Roboter-Navigation, Interaktion zwischen Mensch und Computer, Bilderkennung und automatisierte Beobachtung. Eine Herausforderung ist es, große Abweichungen in Form und Erscheinung der Objekte innerhalb einer Objektkategorie sowie die Abweichungen zu berücksichtigen, die sich aus Veränderungen des Blickpunkts, der Beleuchtung und der Bildgebungsvorrichtung ergeben.
  • Viele Verfahren, die verwendet werden, um Objekte zu erkennen, haben sich auf Textur-basierte Orte von Interesse (Points of interest) konzentriert, siehe z. B. [K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir und L. Van Gool, "A comparison of affine region detectors", IJCV, 65(1–2), 2005]. Diese Merkmale basieren typischerweise auf einer quantitativen Messung von Filterantworten und sind in aussagefähigen Bereichen, wie z. B. Ecken, Klecksen bzw. Klumpen und T-Verbindungen angeordnet. Sie wurden als die atomare Eingabe bei dem visuellen Prozess sowohl des Teile-basierten Modells, siehe z. B. [R. Fergus, P. Perona und C. Zisserman, "Object class recognition by unsupervised scale-invariant learning", in CVPR, 2003] als auch dem Bag-of-Features-Verfahren verwendet, siehe: [G. Csurka, C. Dance, L. Fan, J. Willamowksi und C. Bray, "Visual categorization with bags of keypoints", in ECCV Work-shop an Statistical Learning in Computer Vision, 2004]; [L. Fei-Fei und P. Perona, "A Bayesian hierarchical model for learning natural scene categories", in CVPR, 2005]; [K Graumau und T. Darrell, "Efficient image matching with distributions of local invariant featuers", in CVPR, 2005]; und [S. Lazebnik, C. Schmid und J. Ponce, "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories" in CVPR, 2006].
  • Obwohl Orte von Interesse bei dem Wide-Baseline-Matching und der Einzelobjekterkennung (single object recognition) sehr wirksam sind, siehe [H. Bay, T. Tuytelaars und L. Van Gool, "SURF: Speeded up robust features", in ECCV, Mai 2006]; V. Lepetit, P. Lagger und P. Fua, "Randomized trees for realtime keypoint recognition", in CVPR, 2005]; und [D. G. Lowe, "Distinctive image features from scale-invariant keypoints", IJCV, 60(2): 91–110, 2004], scheinen sie für die kategorische Objekterkennung weniger optimal zu sein. Der Hauptgrund ist, dass Orte von Interesse dazu bestimmt sind, bestimmte Bildstrukturen zu erfassen, wohingegen eine ideale Merkmalsdarstellung sich der Form anpassen sollte, die der Objektkategorie gemein ist, und unterschiedliche Komplexitätsebenen aufweisen sollte.
  • In neuerer Zeit gab es eine eindrucksvolle Arbeit über die Verwendung von Kontur-Informationen, um diese Einschränkungen zu adressieren. Shotton et al. [J. Shotton, A. Blake und R. Cipolla, "Contour-based learning for object detection", in ICCV, 2005] untersuchen ein Objekterkennungssystem, das nur Konturfragmente ausnutzt. Opelt et al. [A. Opelt, A. Pinz und A. Zisserman, "A boundary-fragmentmodel for object detections", in ECCV, 2006] schlagen das Boundary-Fragment-Modell (BFM) vor. Beide Arbeiten verwenden Adaboost zur Merkmalsauswahl. Ferrari et al. [V. Ferrari, T. Tuytelaars und L. Van Gool, "object detection by contour segment networks", in ECCV, 2006] stellen eine Familie von Maßstabinvarianten Formmerkmalen vor, die durch Ketten von verbundenen und annähernd geraden Kontursegmenten gebildet werden. Diese Verfahren konzentrieren sich auf die Objektform und demonstrierten eine vielversprechende Eigenschaft der Behandlung von Erscheinungsabweichungen. In der Tat werden Kontur-basierte Merkmale ausgiebig verwendet und können auf die Modell-basierte Erkennungsarbeit in den frühen Jahren zurück datiert werden, [E. Grimson, "From Images To Surfaces: A Computational Study of the Human Early Vision System", MIT Press, Cambridge, MA, 1981].
  • Andere verwandte Techniken, die im Stand der Technik bekannt sind, umfassen: Gradienten-Histogramm-basierte Merkmale, wie z. B. SIFT [D.G. Lowe, "Distictive image features from scaleinvariant keypoints", IJCV, 60(2): 91–110, 2004]; Formen-Kontext [S. Belongie, J. Malik und J. Puzicha, "Shape matching and object recognition using shape contexts", PAMI, 24(4): 509–522, 2002]; und HOG [N. Dalal und B. Triggs, "Histograms of oriented gradients for human detection", in CVPR, 2005].
  • Eine Arbeit, die mit der vorliegenden Erfindung sehr verwandt ist, ist das Local-Tag-Arrangement (LTA), das von Amit vorgestellt wurde [Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997] im Zusammenhang der Gesichterkennung. In ihrem Rahmenwerk werden lokale Merkmale durch räumliche Anordnungen von Grenz- bzw. Randfragmenten in einem rechtwinkeligen Bereich dargestellt.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten bereitgestellt, umfassend: Auswählen einer Untermenge von häufigen Formvorlagen aus einem Formvorlagenvorrat, der eine Vielzahl von Formvorlagen mit unterschiedlichen Komplexitätsgraden aufweist; Formulieren eines Merkmalsauswahl-Algorithmus, um eine von einer vorausgewählten Formvorlage in dem Formvorlagenvorrat am meisten unterschiedliche Formvorlage zu bestimmen.
  • In einer Ausführungsform ist der Komplexitätsgrad steuerbar; und das Erzeugen des Hauptabbilds aus dem formulierten Merkmalsauswahl-Algorithmus.
  • In einer Ausführungsform weisen die Formvorlagen Segmentbereiche auf, wobei jeder dieser Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, und wobei der Komplexitätsgrad durch die Anzahl der Fragmente in den Formvorlagen verändert wird.
  • In einer Ausführungsform wird ein Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten bereitgestellt. Das Verfahren umfasst: (A) Definieren einer Formvorlage, die Segmentbereiche aufweist, wobei jeder dieser Bereiche geeignet ist, darin Merkmale aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen; (B) Ermitteln von Bildern von unterschiedlichen Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei die Bilder auf eine gemeinsame Größe skaliert sind und in Bildbereiche unterteilt sind, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei ein solcher gemeinsamer Bereich einen Bereichsstapel bereitstellt; (C) für jeden der Bereichsstapel: (a) Anwenden der Formvorlage auf jedes der Bilder in solch einem Bereichsstapel, um aus jedem der Bilder Merkmale zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die nur eine erste vorbestimmte Anzahl von Merkmalen mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) Aufzeichnen der Anzahl von Bildern in dem Bereichsstapel, der die bestimmte, am häufigsten extrahierte Formvorlage aufweist; (d) Wiederholen von (b) und (c) mit aufeinanderfolgend steigender vorbestimmter Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; (e) Auswählen der einen der häufigsten Formvorlagen, die die größte aufgezeichnete Anzahl von Merkmalen aufweist, als eine extrahierte Master-Vorlage für den einen der Bereichsstapel; (D) Kombinieren der extrahierten Master-Formvorlagen für jeden Bereichsstapel zu einem Abbild bzw. einer Karte für die Klasse von Objekten; und (E) Vergleichen der Karte mit jedem einer Vielzahl von Hintergrundbildern, um aus dem extrahierten Hauptabbild bzw. Master Map extrahierte Formvorlagen zu entfernen, die mit Segmenteigenschaften des Hintergrunds darin übereinstimmen, um das Hauptabbild bzw. die Master Map für die Klasse von Objekten zu erzeugen.
  • In einer Ausführungsform sind die Merkmale Randfragmente des Objektes.
  • In einer Ausführungsform wird ein Verfahren zum Erzeugen einer Master Map für eine generische Klasse von Objekten bereitgestellt. Das Verfahren unterteilt Bilder unterschiedli cher Typen von Objekten innerhalb einer Klasse in Bereichsstapel. Für jeden der Stapel: (a) wendet das Verfahren eine Formvorlage an, um Fragmente zu extrahieren, die eine vorbestimmte Größe und eine einer Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um extrahierte Formvorlagen zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine häufigste davon, die lediglich eine erste Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweist; (c) zeichnet das Verfahren die Anzahl von Bildern auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren (b) und (c) mit aufeinanderfolgend ansteigender Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen Grenzwert fällt; und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage die eine der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Die extrahierten Master-Formvorlagen für die Stapel werden zu einem Abbild bzw. einer Karte kombiniert, das bzw. die anschließend mit Hintergrundbildern verglichen wird, um extrahierte Formvorlagen zu entfernen, die mit dem Segment in dem Hintergrund übereinstimmen.
  • In einer Ausführungsform wird ein Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine generische Klasse von Objekten bereitgestellt. Das Verfahren definiert eine Formvorlage mit Segmentbereichen, wobei jeder der Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen. Das Verfahren ermittelt Bilder von unterschiedlichen Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei derartige Bilder auf eine gemeinsame Größe skaliert werden und in Bildbereiche unterteilt werden, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei der gemeinsame Bereich einen Bereichsstapel bildet. Für jeden der Bereichsstapel: (a) wendet das Verfahren die Formvorlage auf jedes der Bilder in dem Bereichssta pel an, um aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) zeichnet das Verfahren die Anzahl der Bilder in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren (b) und (c) mit aufeinanderfolgend ansteigender vorbestimmter Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Das Verfahren kombiniert die extrahierten Master-Formvorlagen für jeden der Bereichsstapel zu einem Abbild bzw. einer Karte für die Klasse von Objekten und vergleicht anschließend das Abbild bzw. die Karte mit einer Vielzahl von Hintergrundbildern, um aus dem extrahierten Hauptabbild bzw. Master Map die extrahierten Formvorlagen darin zu entfernen, die mit den Segmenteigenschaften des Hintergrunds übereinstimmen, um die Master Map für die Klasse von Objekten zu erzeugen.
  • Die vorliegende Erfindung unterscheidet sich von LTA in einer Anzahl von Aspekten. Erstens erfasst die vorliegende Erfindung Linienstrukturen mit einer langen Ausdehnung (z. B. Grenzen bzw. Ränder) anstatt isolierter Rand-Pixel. Zweitens lernt die vorliegende Erfindung Merkmal-Formvorlagen mit variablen Komplexitäten anstatt einer festen Konfiguration. Diese Eigenschaft ist entscheidend, da es wünschenswert ist, dass das Merkmal die Objektform annimmt und Über-/Unter-Repräsentation vermeidet. Schließlich ist das Erkennungsmodell in LTA rein generativ. Es stellt deutbare und wiederhol bare Merkmale dar, die Modell-Unterscheidbarkeit bzw. -Diskriminativität wird ignoriert. Bei der vorliegenden Erfindung verwendet das Verfahren eine Hybridform des generativen und diskriminativen Modells zur Merkmalsauswahl. Die erlernten Merkmale behalten sowohl Deutbarkeit als auch Diskriminativität bei.
  • In einer Ausführungsform verwendet das Verfahren ein Rand-Fragment-basiertes Merkmal zur Objekterfassung, wobei der Begriff Erfassung sich sowohl auf die Bildkategorisierung als auch die Objektlokalisierung bezieht. Das Objekt wird durch eine Ansammlung von Formvorlagen dargestellt. Jede Formvorlage wird durch eine Gruppe von lokalen Rand-Fragmenten definiert. Im Gegensatz zu den herkömmlichen Ort-von-Interesse-Merkmalen, können Rand-Fragmente stabil auf der Objektgrenze trotz großer Formdeformierungen stabil erfasst werden, und können in großem Maße invariant auf Beleuchtungsveränderungen und Objektfarben in Übereinstimmung gebracht werden. Noch attraktiver ist, dass die Randerfassung und -verfolgung sehr wirksam sind. Durch das Durchsuchen der lokalen und globalen Randkonfiguration kann das Verfahren die Objektsuche drastisch auf eine geringe Anzahl von Bereichen-von-Interesse (Regions of Interest; ROI) mit minimalem Rechenaufwand und Fehlerfassungen reduzieren. Noch genauere Klassifizierer können des Weiteren eingeführt werden, um jede vorläufige Erfassung zu verifizieren.
  • Die Formvorlage wird auch als Flexible Edge Arrangement Template (FEAT) bezeichnet, da sie eine große Flexibilität durch Variieren der Ausdehnung und Orientierung der individuellen Randfragmente, sowie der Anzahl von Randfragmenten und ihrer räumlichen Verteilung innerhalb der Formvorlage bietet. Die Fülle dieses Formvorlagenvorrats macht jedoch auch die Merkmalsauswahl zu einer großen Herausforderung. Die Aufgabe ist es, eine minimale Untermenge von Formvorlagen auszuwählen, die die Objektform am besten erfassen, und gleichzeitig noch von anderen Nicht-Objekten unterscheidbar sind. Wie oben erwähnt, beginnt das Verfahren mit einer Untermenge von Formvorlagen. Die Untermengen werden unabhängig auf einigen räumlichen Behältern ausgewählt. In einer zweiten Stufe berücksichtigt das Verfahren die gemeinsamen Merkmalsstatistiken und verwendet eine Diskriminanz-Analyse (DA), um den optimalen Merkmalssatz zu bestimmen.
  • Die Formvorlage nimmt keinen a priori semantischen oder geometrischen Inhalt an, und kann konzeptionell auf ein beliebiges Objekt mit unterscheidungsfähigen Formen angewendet werden.
  • Ein signifikanter Unterschied zwischen dem erfindungsgemäßen Verfahren und den bisher verwendeten Techniken ist, dass die letzteren alle Merkmalsdeskriptoren sind, wohingegen FEAT mehr wie ein Merkmalsdetektor ist. Das Verfahren verwendet einen Gierige-Suche-Algorithmus (greedy search), um objektspezifische FEATs während des Trainings zu konstruieren. Bei der Erkennung lokalisiert der Prozess diese Merkmale zielbewusst, anstatt sich auf irgendwelche generischen Detektoren wie z. B. Difference Of Gaussian (DOG) oder Harris-Corner zu verlassen. Das Merkmal kann mit den gängigen lokalen Deskriptoren zur weiteren Diskriminierung kombiniert werden.
  • Andere Merkmale, Aufgaben und Vorteile der Erfindung werden anhand der Beschreibung und der Figuren und aus den Ansprüchen deutlich.
  • Beschreibung der Figuren
  • 1 ist ein Flussdiagramm eines Verfahrens zur Erkennung von Objekten von ungleichen oder unterschiedlichen Formen, die zu einer allgemeinen Klasse von derartigen Objekten innerhalb eines ungeordneten, natürlichen Hintergrundes gehören, gemäß einer Ausführungsform der Erfindung;
  • 1A ist ein Flussdiagramm eines Verfahrens zum Erfassen von Trainingsbildern unter Verwendung von 3D-Modell-Rendering, das in dem Verfahren aus 1 gemäß einer Ausführungsform der Erfindung verwendet wird;
  • 1B ist ein Flussdiagramm eines Verfahrens zum Erfassen von Trainingsbildern unter Verwendung einer Bilderdatenbank gemäß einer weiteren Ausführungsform der Erfindung;
  • 1C ist ein Flussdiagramm eines Verfahrens Merkmal-Auswahl (Pruning bzw. Ausschneiden) unter Verwendung des Least Absolute Shrinkage and Selection Operators (LASSO), das in dem Verfahren aus 1 gemäß einer Ausführungsform der Erfindung verwendet wird;
  • 1D ist ein Flussdiagramm eines erfindungsgemäßen Verfahrens zum Erkennen von Objekten von ungleichen oder unterschiedlichen Formen, die zu einer generischen Klasse von solchen Objekten innerhalb eines ungeordneten, natürlichen Hintergrunds gehören;
  • 2A zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird;
  • 2B zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird und verwendet wird, um Randsegmente für einen Bereich eines Objektes innerhalb der Klasse von Objekten zu extrahieren;.
  • 2C zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird, und die verwendet wird, um Randsegmente für einen unterschiedlichen Bereich oder unterschiedliche Art des Objektes innerhalb der Klasse von Objekten zu extrahieren;
  • 2D zeigt eine erfindungsgemäße Formvorlage, die in dem Verfahren aus 1 verwendet wird, und die verwendet wird, um Randsegmente für noch einen unterschiedlichen Bereich oder eine unterschiedliche Art des Objektes innerhalb der Klasse von Objekten zu extrahieren;
  • 3 zeigt einen Stapel von Bildern von unterschiedlichem Typ des Objektes innerhalb der Klasse von Objekten, und der in dem Verfahren aus 1 verwendet wird;
  • 4 zeigt eine Vielzahl von unterschiedlichen Typen des Objektes innerhalb der Klasse von Objekten, und die in dem Verfahren aus 1 verwendet wird, wobei darauf die Formvorlage aus 2 angewendet wird;
  • 4A4D zeigen die Wirkung des Anwendens der Formvorlage aus 2 auf die Vielzahl von unterschiedlichen Typen des Objektes aus 4, und die verwendet wird, um eine Master-Fragmentformvorlage für einen Bereichsstapel des Stapels von Bildern aus 3 zu ermitteln;
  • 5 zeigt eine Karte des Objektes, nachdem die Master-Fragmente für sämtliche Bildstapel des Objektes, die gemäß der Erfindung erzeugt wurden, kombiniert wurden;
  • 6 zeigt eine Karte des Objektes, nachdem bei der Karte aus 5 die Effekte der nicht-diskriminativen Fragmente erfindungsgemäß davon entfernt wurden, nachdem Abschnitte Merkmalen weggeschnitten wurden/nach der Merkmalsauswahl durch Einbeziehen von negativen Proben, die durch die Hintergrundbilder bereitgestellt wurden; und
  • 7 ist ein Flussdiagramm des Verfahrens der Objekterfassung in einem Bild unter Verwendung eines Abstimmungsmodells gemäß der Erfindung, das in dem Verfahren aus 1 verwendet wird.
  • Gleiche Bezugszeichen in den verschiedenen Figuren geben gleiche Elemente an.
  • Ausführliche Beschreibung
  • Bezieht man sich nun auf das Flussdiagramm in 1, umfasst das Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten das Definieren einer Formvorlage 10 (2A), die Segmentbereiche 12 aufweist, wobei jeder der Bereiche 12 geeignet ist, darin Fragmente aufzuweisen, hier Ränder bzw. Grenzen eines Objektes in einem Bild, hier einem Bild eines Automobils, wobei die Fragmente eine vorbestimmte Größe aufweisen, hier fünf bis zehn Pixel in Länge, und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen, hier horizontal, vertikal, +45 Grad und +135 Grad Orientierungen, Schritt 100.
  • Damit wird in diesem Beispiel eine Stern-ähnliche Formvorlage ausgewählt. Die Formvorlage hat einen zentralen Ursprungssegmentbereich 120 und eine Vielzahl von kuchenförmigen Keilsegmentbereichen 12, die sich radial von dem Ursprung nach außen erstrecken. Hier sind acht keilförmige Segmentbereiche 12 regelmäßig beabstandet umfänglich um den zentralen Ursprung angeordnet.
  • Der Grundbestandteil in dieser Darstellung ist der so genannte ε-Rand, der als ein gerades Randfragment definiert ist, dessen Ausmaß mindestens ε Pixel beträgt. Eine einfache Konstruktion von ε-Rändern beginnt mit der Randerkennung, z. B. Canny mit Hysterese [siehe z. B. J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986].
  • Hier, in dem oben bezeichneten Auto-Beispiel, ist das Merkmal oder die Signatur mit einem mittigen ε-Rand, in 2B mit 14C bezeichnet, und k disjunkten ε-Enden, in 2B mit 14 bezeichnet, konstruiert, wobei hier in diesem Beispiel k = 4 disjunkte ε-Ränder, die darauf beschränkt sind, in den umgebenden Log-Polar-Behältern zu liegen, eine sternartige Konfi guration bilden. Es wird angemerkt, dass ε die Länge der Ränder in Pixeleinheiten ist. Hier beträgt ε z. B. fünf bis zehn Pixel in Länge. Die Formvorlage 10 (2A) wird auf das Bild angewendet, um Randfragmente 14 in einem Bereich des Bildes zu extrahieren, wobei die Fragmente eine vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Ausrichtungen aufweisen, wie in 2B dargestellt. Insbesondere werden die ε-Ränder verfolgt und in vier Orientierungen bezeichnet, nämlich horizontal (εH), vertikal (εv) und mit zwei Diagonalen (d. h. eine Diagonale bei +45 Grad (εD+45) und eine Diagonale bei +135 Grad (εD+135)) gekennzeichnet. Um die Intensitätsvariation zu bearbeiten, schließt das Verfahren in dieser Darstellung die Randpolarität aus. Mit dieser Konstruktion kann ein Pixel in mehreren ε-Rändern enthalten sein, wodurch alle verfügbaren Einzelheiten bewahrt werden. Offensichtlich sind alle Randpixel 1-Rand, d. h. ε = 1. So wie ε zunimmt, wird eine geringere Anzahl von Randfragmenten beibehalten, und ihre Diskriminativität erhöht sich.
  • Individuelle Randfragmente, wie sie durch die ε-Ränder dargestellt sind, tragen sehr wenige Informationen zur Unterscheidung zwischen unterschiedlichen Formenklassen mit sich. Ihre räumliche Interaktion in einer lokalen Umgebung kann jedoch informativer sein. Durch diese Beobachtung motiviert, verwendet das Verfahren eine Merkmals- oder Signatur-Formvorlage, die aus ε-Rändern besteht. Dieses Merkmal, d. h. FEAT., hat, wie oben erwähnt, einen mittigen ε-Rand und k disjunkte ε-Ränder, die darauf beschränkt sind, in den umgebenden Log-Polar-Behältern zu liegen, wobei sie eine sternartige Konfiguration bilden. 2A veranschaulicht die Konfiguration von FEAT, die in dem Log-Polar-Koordinatensystem definiert ist. Der radiale Bereich ist durch α und β begrenzt, wobei der Winkelbereich in acht Behälter aufgeteilt ist.
  • 2C zeigt die Wirkung des Anwendens der Formvorlage aus 2A auf entweder einen anderen Bereich desselben Autos oder auf ein Bild eines unterschiedlichen Autotyps, um Randfragmente 14 daraus zu extrahieren. Man bemerke, dass die räumlichen Orientierungen der Randfragmente 14 unterschiedlich zu denen in 2B sind. 2D zeigt die Wirkung des Anwendens der Formvorlage aus 2A auf entweder einen anderen Bereich desselben Autos oder auf ein Bild eines anderen Autotyps. Man bemerke, dass die räumlichen Orientierungen der Randfragmente unterschiedlich zu denen in 2B sind, und dass die Anzahl der umgebenden Randfragmente größer ist als die Anzahl in den 2B und 2C.
  • Es gibt mehrere Vorteile bei der Verwendung dieses Merkmals. Erstens ist die Randerfassung vom Rechenaufwand her leistungsfähig verglichen mit anderen ausgefeilten Orte-von-Interesse-Detektoren. Zweitens weisen die Ränder eine starke Invarianz auf fotometrische Transformationen auf, und die sternförmige Konfiguration codiert Abweichungen in der lokalen Geometrie explizit. Schließlich kann die Formvorlagenkomplexität durch das Variieren von ε und k gesteuert werden. D. h., die Komplexität der Formvorlage 10 kann durch Verändern der Anzahl von Rändern bzw. Grenzen k, und/oder durch Variieren der Länge des Randes, d. h. der Anzahl der Pixel in den Rändern, ε, variiert werden. Hier in diesem Beispiel wird die Anzahl von Rändern k variiert, um dadurch die Komplexität der Formvorlage 10 zu variieren. Wie später beobachtet werden wird, erlaubt uns dies, Merkmale zu konstruieren,. die in hohem Maße auf dem Objekt detektierbar sind. Es versteht sich, dass andere Merkmale als Ränder, wie z. B. Ecken verwendet werden können. Deshalb ist in einem solchen Fall der Grad der Komplexität eine Funktion der Anzahl von verwendeten Ecken.
  • Nimmt man wieder auf 1 Bezug, ermittelt das Verfahren Bilder von unterschiedlichen Typen von Objekten innerhalb der generischen Klasse von solchen Objekten, Schritt 200. Die ge nerische Klasse von Objekten können Menschen sein, wobei in dem Fall Bilder von Menschen verschiedener Größen und Formen erhalten werden. Hier in dem Beispiel ist die generische Klasse von Bildern Autos und es werden Bilder von Stufenheck-Limousinen, Coupes, von verschiedenen Modellen ermittelt, die durch unterschiedliche Hersteller fabriziert wurden.
  • Insbesondere kann der Schritt 200 des Ermittelns von Bildern von unterschiedlichen Typen von Objekten innerhalb der generischen Klasse von solchen Objekten z. B. das Verfahren sein, das durch die Flussdiagramme in 1A dargestellt ist oder durch das in 1B dargestellte Flussdiagramm.
  • Bezieht man sich auf 1A, zeigt das Flussdiagramm die Schritte des Sammelns von Trainingsbildern unter Verwendung von 3D-Modell-Rendering. Das Verfahren umfasst: Sammeln von vielen 3D-Graphik-Modellen für das Objekt von Interesse (z. B. Autos); Ausrichten der Modelle (z. B. alle Autos sind nach Osten gerichtet, geparkt an dem Ort (0,0,0)); Kennzeichnen einer Vielzahl von Markierungspunkten auf diesen Modellen (z. B. Mitte des fahrerseitigen Vorderrades, Ecke auf Stoßstange, usw.); Definieren des (virtuellen Graphik-)Kameraortes und Blickwinkels und deren Veränderungsbereich; Verwenden eines Computer-Graphik-Rechners, um mehrere Bilder für jedes 3D-Modell zu rendern bzw. zu zeichnen. Jedes Bild wird unter Verwendung eines Kameraortes und eines Blickwinkels aus dem oben definierten Bereich gerendert; und Verwenden einer Prokrustes-Analyse, um die Projektionen der Markierungspunkte auszurichten (Skalieren und Strecken). Nach dem Ausrichten sollte Markierung in dem Referenzrahmen an im Wesentlichen derselben Position sein.
  • Bezieht man sich auf 1B zeigt das Flussdiagramm die Schritte des Sammelns von Trainingsbildern durch Sammeln von Trainingsbildern unter Verwendung einer Bilddatenbank. Das Verfahren umfasst: sammle viele 2D-Bilder aus einer Bilddatenbank, z. B. Google-Bilder, typisch für eine Objektklasse aus einem typischen Blickwinkel; kennzeichne eine Vielzahl von Markierungspunkten auf diesen Bildern (z. B. Mitte des fahrerseitigen Vorderrades, Ecke auf Stoßstange, usw.); verwende die Prokrustes-Analyse, um die Markierungspunkte auszurichten (skalieren und strecken). Nach dem Ausrichten sollte jede Markierung in dem Referenzrahmen im Wesentlichen an derselben Position sein.
  • Als Nächstes (Schritt 300) werden die ermittelten Bilder aus den 1A oder 1B (Schritt 200) oder beiden auf eine gemeinsame Größe skaliert und in ein Array von Bildbereichen unterteilt bzw. partitioniert. Jeder der Bildbereiche weist darin einen gemeinsamen Bereich der ermittelten Bilder auf, wobei der gemeinsame Bereich einen Bereichsstapel bildet. Man betrachte einen Satz von N Bildern, (3) einer bestimmten Objektklasse, hier Autos. Die Aufgabe ist, einen Satz von wenigen Formvorlagen zu lernen, die am besten die Objektform beschreiben. Um dies zu erreichen, müssen wir drei Fragen beantworten:
    Erstens, an welchen Orten sollten wir diese Formvorlagen definieren?
    Zweitens, was ist die Konfiguration jeder Formvorlage?
    Schließlich, was ist die minimale Anzahl von Formvorlagen, die für die Erkennung ausreichend sind?
  • Für jeden der Bereichsstapel (Schritt 300): (a) wendet das Verfahren die Formvorlage auf jedes der Bilder in solch einem Bereichsstapel an, um aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte Größe und eine aus der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) bestimmt das Verfahren aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung auf weisen; (c) zeichnet das Verfahren die Anzahl von Bildern in dem Bereichsstapel auf, die die bestimmte am häufigsten extrahierte Formvorlage aufweisen; (d) wiederholt das Verfahren (b) und (c) mit einer aufeinanderfolgend anwachsenden vorbestimmten Anzahl von Fragmenten, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt (Schritte 400 und 500); und (e) wählt das Verfahren als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die eine der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist (Schritt 600).
  • Hier ist die Objektform auf einem W×H-Referenzraster G definiert, wie in 3 dargestellt. Man berücksichtige den Satz von N Unterbereichen an einem bestimmten Rasterort, nachdem jedes Bild auf das Raster verzerrt wurde. Dieser Satz von N Unterbereichen über die Bilder hinweg wird als ein Bereichsstapel bezeichnet. Dieser Bereichsstapel kann als eine Probe von einer Formzufallsvariable angesehen werden, die einen bestimmten Ort auf der Objektkontur charakterisiert. Das Verfahren identifiziert das FEAT als die häufigste Formvorlage in dem Bereichsstapel, d. h.
    Figure 00170001
    wobei Ni(t) die Anzahl der Häufigkeiten der Formvorlage t in dem i-ten Unterbereich ist. Der Terminus t ^i wird als das charakteristische FEAT des Bereichs bezeichnet; es bedeutet sowohl den Ort (Mitte des Unterbereichs) und die Konfiguration der Formvorlage. Das Verfahren sucht nach dem charakteristischen FEAT in jedem Bereichsstapel. Die finale Objektform kann durch T ^ = {t ^1,t ^2, ..., t ^K}, dargestellt werden, wobei K die Rastergröße ist. Es ist anzumerken, dass Instanzen von t ^i an verschiedenen Orten in den Unterbereichen, die sie enthalten, erscheinen könnten. Mehrere Instanzen von t ^i könnten in demselben Unterbereich auftreten. Hier beschränkt das Verfahren, dass der mittlere Rand ε0 innerhalb des Unterbereichs liegt, die benachbarten Ränder können jedoch beliebig "fließen", solange sie sich in den vorbestimmten radialen Behältern befinden.
  • Zwei Parameter müssen während des FEAT-Lernens berücksichtigt werden. Einer ist die Formvorlagenkomplexität, die durch k definiert ist, die Anzahl der benachbarten ε-Ränder. Triviale Formvorlagen wie z. B. eine 2-Rand-Anordnung sind zu primitiv, um die Objektform zu erfassen, wohingegen überkomplexe Formvorlagen zu spezifisch sind. Deshalb verwendet das Verfahren lediglich Suchformvorlagen in einem vordefinierten Bereich [kmin, kmax] ([Y. Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997; J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986]. Der zweite Parameter ist die Häufigkeit des charakteristischen FEAT. Hier ignoriert das Verfahren die charakteristischen FEATs, deren Häufigkeit unter einem Grenzwert δ liegt, da es wahrscheinlicher ist, dass sie Zufallsrauschen darstellen.
  • Betrachten wir nun die Größe des Formvorlagenraumes. Da das Verfahren 4 Randorientierungen und 8 Winkelbehälter verwendet, ist die Anzahl von distinkten k-Stern-Formvorlagen
    Figure 00180001
    Im schlechtesten Falle ist die Anzahl der Formvorlagen, die das Verfahren in einem Bereichsstapel untersuchen muss
  • Figure 00180002
  • Aufgrund der großen Anzahl von ε-Rändern, die möglicherweise in einem Unterbereich detektiert werden, wäre eine naive Suche über diesen Formvorlagenraum unerschwinglich teuer. Das Verfahren wählt einen Näherungsansatz, um die Formvorlage in einer stufenartigen Weise zu durchsuchen:
  • Algorithmus 1: Stufenweise Vorwärts-Suche für das FEAT
    • Parameter: Häufigkeitsgrenzwert δ, Komplexitätsgrenzwert kmax.
    • Initialisierung. Setze t = ε0ε1, die häufigste zwei-Rand-Anordnung. Zeichne alle Instanzen auf, bei denen t für jedes Bild aufgetreten ist. Setze k = 2. Bezeichne mit Δ(t) die Häufigkeit der Formvorlage t.
    • While Δ(t) > δ und k < kmax do 1. Suche über alle möglichen Additionen von einem Rand εk, der mit = ε0 verbunden werden kann und in einem disjunkten Winkelbehälter von ε1, K, εk-1, angeordnet ist 2. Finde die häufigste Addition k . Setze t∪ = ε ^k. 3. Zeichne alle Instanzen von t auf. Setze k = k +1.
    • end while
  • Wie in Algorithmus 1 oben erläutert, konstruiert das Verfahren die Formvorlagen stufenweise, bis die Anzahl ihrer Vorkommnisse unter einem Grenzwert liegt oder die maximale Komplexität erreicht ist. Es ist anzumerken, dass die Konstruktion von einem beliebigen zusätzlichen Rand auf allen Instanzen basiert, die den vorherigen Test bestanden haben.
  • Bezieht man sich damit auf 4A und berücksichtigt man z. B. den Bereichsstapel 18 für fünfzehn unterschiedliche Autotypen, wendet das Verfahren die Formvorlage auf jedes der Bilder in solch einem Bereichsstapel an, um aus jedem der Bilder Fragmente zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen. Das Verfahren bestimmt anschließend aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten aufweisen, hier lediglich zwei Fragmente (k = 2) mit gemeinsamen räumlichen Orientierungen. Hier in diesem Bespiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4A als Formvorlage 10a dargestellt. Der Prozess zeichnet die Anzahl der Bilder in dem Bereichsstapel auf, die die bestimmte am häufigsten extrahierte Formvorlage aufweisen, hier weisen sämtliche fünfzehn Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf.
  • Das Verfahren wiederholt dies mit aufeinanderfolgend zunehmender vorbestimmter Anzahl von Fragmenten, d. h. Komplexität, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; und (e) wählt als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die eine der häufigsten Formvorlagen aus, die die größte aufgezeichnete Anzahl von Fragmenten aufweist. Damit wird die Anzahl, wie in 4B dargestellt, von zwei Fragmenten, k = 2, auf drei Fragmente, k = 3, mit einer gemeinsamen räumlichen Orientierung erhöht. Hier in diesem Beispiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4B als Formvorlage 10b dargestellt. Das Verfahren zeichnet die Anzahl von Bildern in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen, hier weisen nur vierzehn Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf. Damit wird, wie in 4C dargestellt, die Anzahl von drei Fragmenten auf vier Fragmente, k = 4, mit einer gemeinsamen räumlichen Orientierung erhöht. Hier in diesem Beispiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4C als Formvorlage 10c dargestellt. Das Verfahren zeichnet die Anzahl von Bildern in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen, hier weisen nur dreizehn Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf. Wie in 4D dargestellt, wird die Anzahl von vier Fragmenten auf acht Fragmente, k = 8, mit gemeinsamer räumlicher Orientierung erhöht. Hier in diesem Beispiel ist die am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen, in 4D als Formvorlage 10d dargestellt. Das Verfahren zeichnet die Anzahl der Bilder in dem Bereichsstapel auf, die die bestimmte, am häufigsten extrahierte Formvorlage aufweisen, hier weisen nur elf Bilder die Formvorlage 10a in dem Bereichsstapel 18 auf.
  • Das Verfahren kombiniert anschließend die für jeden der Bereichsstapel erzeugten Fragmente, um eine Karte bzw. ein Abbild für die Klasse von Objekten bereitzustellen, wie in 5 dargestellt, Schritt 700.
  • Als nächstes sammelt das Verfahren einen großen Satz (d. h. eine Vielzahl) von "Hintergrund"-Naturbildern, z. B. aus einer Bilderdatenbank oder aus dem Internet, und verwendet sie als Negativproben, Schritt 750, wie nachfolgend in Verbindung mit 1C beschrieben werden wird.
  • Als nächstes vergleicht das Verfahren die Karte mit der gesammelten Vielzahl von Hintergrundbildern, um extrahierte Formvorlagen in den Karten zu entfernen, die mit Segmenteigenschaften des Hintergrunds übereinstimmen, um die Master-Karte bzw. Master Map für die Klasse von Objekten zu erzeugen (6), Schritt 800.
  • Nimmt man Bezug auf 1C, zeigt das Flussdiagramm die Schritte der Merkmalauswahl bzw. Feature Selection (Pruning) unter Verwendung von LASSO. Die Schritte umfassen:
    • (A) Wiederverwenden des originalen Satzes von Trainingsbildern in 1A oder 18 oder sowohl 1A als auch 1B, die Objektinstanzen (Autos) aus einem bestimmten Blickwinkel enthalten und die auf ein Referenzraster ausgerichtet wurden. Markieren jedes solchen Bildes als eine positive Probe. Sammeln einer großen Anzahl von Hintergrundbildern aus natürlichen Szenen, die keine Objektinstanzen enthalten. Markieren jedes derartigen Bildes als negative Probe;
    • (B) Für jedes Bild in dem kombinierten (positiv und negativ) Datensatz, Bilden eines Indikatorvektors x der Länge K, wobei K die Anzahl der extrahierten Formvorlagen aus Schritt 700 ist. Jedes Element in dem Vektor x entspricht der vorbestimmten Formvorlage in der Formvorlagen-Karte (Master Map). Falls die erlernte Formvorlage (aus Schritt 700) in einem vorbestimmten Ort detektiert wird, wird das entsprechende Element in x mit +1 gekennzeichnet, sonst –1. Ordne die Klassenbezeichnung y = 1 zu, falls das Bild eine positive Probe ist, (Objektinstanzen enthaltend) oder y = –1, falls das Bild eine negative Probe ist (keine Objektinstanzen oder "Hintergrund" enthaltend);
    • (C) Führe zwei Dinge gleichzeitig unter der Verwendung von LASSO durch: 1) passe ein Regressionsmodell (Gleichung (5)) an, das die Klassenbezeichnung y unter Verwendung des Indikatorvektors x vorhersagt; ein besonderer Fall (lineare Regression) ist in unserem Dokument erläutert, aber andere Regressionsmodelle, wie z. B. logistische Regression, können ebenfalls verwendet werden. 2) Merkmalauswahl (Feature Selection): schneide Merkmale aus, die sowohl dem Vordergrund als auch dem Hintergrund gemeinsam sind; und
    • (D) Aktualisieren der Formvorlagen-Karte (Master Map) durch Entfernen der ausgeschnittenen Merkmale.
  • Um es anders darzustellen, die erlernten charakteristischen FEATs (Schritte 300600) berücksichtigen lediglich die Merk malsexistenz in den positiven Proben und sind rein datengetrieben. Bei einer Erkennungsaufgabe jedoch sollten ebenfalls die negativen Proben zur besten Klassifikation berücksichtigt werden. Hier verwendet das Verfahren die Diskriminanz-Analyse, um eine Untermenge von T ^ auszuwählen, sodass die ausgewählten Merkmale sowohl eine Wiederholbarkeit als auch eine Unterscheidbarkeit (discriminativity) erreichen. Speziell verwendet das Verfahren den Least Absolute Shrinkage and Selection Operator (LASSO)-Algorithmus zur Merkmalsauswahl. LASSO wurde zuerst von Tibshirani eingeführt [R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996], um eine Schrumpfung und eine Variablenauswahl für lineare Regressionen zu erreichen. Unlängst wurde es für das maschinelle Lernen zur Merkmalsauswahl angepasst und hat eine ausgezeichnete Verallgemeinerungsleistung in der Gegenwart von vielen irrelevanten Merkmalen gezeigt [J. Shotton, A. Blake und R. Cipolla, "Feature selection, L1 vs. L2 regularization, and rotational invariance", in ICML, 2004], [J. Goodman, "Exponential priors for maximum entropy models", in ACL, 2004].
  • Man betrachte eine beaufsichtigte Lernaufgabe, wobei P Trainingsproben {(X(i), y(i)), i = 1, K, P} erhalten werden. Hier ist y(i) die Klassenbezeichnung und definiert als
  • Figure 00230001
  • Betrachtet man das lineare Regressionsmodell: bei gegebenen K Indikatorvariablen kann die Objektklasse vorhergesagt werden durch: y ^ = β ^0 + β ^1x1 + K + β ^KxK (5)Lässt man β ^ = {β ^0,β ^1, K, β ^K}, ist die LASSO-Schätzung β ^ definiert durch
    Figure 00240001
  • Das LASSO minimiert die Restquadratsumme in Abhängigkeit von der Summe des absoluten Wertes der Koeffizienten, die niedriger als eine Konstante sind. Hier ist s ≥ 0 ein Tuning-Parameter. Er steuert den Betrag der Schrumpfung, der auf die Schätzungen angewendet wird. Eine geometrische Interpretation von LASSO ist in 7 dargestellt. Die Ellipsen sind die Fehlerkonturen. Die schraffierten Bereiche sind die Randbedingungen. β ^ ist die Lösung der kleinsten Quadrate. So wie das Verfahren s vermindert, schrumpft LASSO die Lösungen auf 0 hin, und einige Koeffizienten können genau gleich 0 werden (wo die Fehlerkontur die Ecke des Randbedingungsbereiches berührt). Diese Eigenschaft ist wünschenswert, da die überlebenden Koeffizienten eine einfache und sparsame Merkmalsuntermenge zur Vorhersage erzeugen. Überraschenderweise, wie durch Tibshirani gezeigt [R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996], weist LASSO konsistent niedrigere Vorhersagefehler auf als die Methode der kleinsten Quadrate und ist mit anderen Modellen, wie z. B. Ridge-Regression und Untermengen-Auswahl wettbewerbsfähig [T. Hastie, R. Tibshirani und J. Friedman, "The Elements of Statistical Learning", Springer-Verlag, 2001]. Darüber hinaus produziert LASSO interpretierbare Modelle und weist eine starke Stabilität auf.
  • Die Berechnung für die Lösung der Gleichung 6 ist ein quadratisches Programmierproblem mit linearen Ungleichheitsrandbedingungen. Es ist sehr ineffizient, wenn die Anzahl der Merkmale groß ist. Unlängst haben Efron et al. [B. Efron, T. Hastie, I. Johnstone und R. Tibshirani, "Least angle regression", The Annals of Statistics, 32(2): 407–499, 2004] in ihrer Durchbrucharbeit gezeigt, dass dieses Problem effizient durch den Least Angle Regression Algorithmus (LARS) gelöst werden kann. Das Verfahren berechnet den Indikatorvektor X(i) für 270 positive und 300 negative Trainingsbilder. Das Verfahren verwendet LARS, um Merkmale aus den erlernten charakteristischen FEATs auszuwählen.
  • Die erlernte FEAT-Karte besteht aus einem Satz von charakteristischen FEATs, von denen jedes mit einem Rasterort verbunden ist. Obwohl die diskriminative Stärke eines individuellen FEAT gering ist, gibt die räumliche Verteilung der FEATs eine starke Angabe darüber, ob das Objekt vorhanden ist oder nicht.
  • Jedes individuelle FEAT kann als ein Merkmalsdetektor angesehen werden. Das Verfahren speichert die FEATs in einer Baumdatenstruktur. Die Merkmalsdetektion kann wirksam durch die Tiefe-zuerst-Suche (depth-first-search) durchgeführt werden. Bei einem gegebenen Eingabebild detektiert das Verfahren zuerst alle Instanzen der erlernten FEATs. Die Instanzen des Objektes können unter Verwendung der Hough-Transformation lokalisiert werden. Um bestimmte Beträge der Formenveränderung zu berücksichtigen, verformt das Verfahren das Referenzraster in dem Bereich von Maßstab [0,8; 1,2], Rotation [–7°, +7°] und Verschiebung um ±5 Pixel. Das Votum von einer spezifischen FEAT wird in einen kreisrunden Bereich um den Objektmittelpunkt herum eingezeichnet. Die Größe des Bereiches kann durch den Verformungsbetrag bestimmt werden.
  • Da das Modell mit nach links gerichteten Autos trainiert wird, lässt man den Detektor über jedes Bild zweimal laufen, das zweite Mal über das horizontal gedrehte Bild. Autos unterschiedlicher Größen können durch Anwenden des Detektors in mehreren Maßstäben erfasst werden.
  • Insbesondere, bezieht man sich auf 7, ein Flussdiagramm des Verfahrens der Objekterkennung in einem Bild unter Verwendung eines Votierschemas (Schritt 900, 1). Das Verfahren führt zuerst eine Randerkennung in dem Fenster durch. Als nächstes detektiert das Verfahren alle FEAT-Merkmale, die in dem erlernten Modell erscheinen (Formvorlagen-Karte). Als nächstes erzeugt das Verfahren eine Stimmenzählverteilung bzw. -karte derselben Größe des Bildes. Das Verfahren setzt alle Voten bzw. Stimmen auf 0. Als Nächstes beginnt das Verfahren mit dem ersten detektierten FEAT. Als Nächstes votiert das Verfahren für die Mitte des Objektes. In der Orientierung aus 3 z. B. wird ein FEAT, das lediglich auf der vorderen Stoßstange erscheint, für die Automittelposition wie folgt stimmen: die Automitte befindet sich zur Rechten dieses FEAT mit einem Abstand einer halben Autolänge. Das Verfahren bestimmt, ob alle erlernten FEAT-Merkmale ausgeschöpft sind. Falls nicht, geht das Verfahren zu dem nächsten FEAT-Merkmal; ansonsten schaut das Verfahren auf die Stimmzählverteilung bzw. -karte; berücksichtigt lediglich lokale Stimmenmaxima; und wenn an einem lokalen Maximum die Stimme einen bestimmten Grenzwert überschreitet, wird die Erkennung eines Autos berichtet.
  • Eine Anzahl von Ausführungsformen der Erfindung wurde beschrieben. Nichtsdestotrotz versteht es sich, dass verschiedene Veränderungen durchgeführt werden können, ohne von dem Geist und dem Umfang der Erfindung abzuweichen. Obwohl LASSO verwendet wurde, versteht es sich z. B., dass andere Merkmalsauswahlverfahren verwendet werden könnten, z. B. Boosting. Damit wird unter Bezugnahme auf 1D ein Flussdiagramm für den allgemeineren Fall dargestellt, wo etwas anderes als Ränder verwendet werden, wie z. B. Ecken. Hier wird eine Strich-(') Bezeichnung für die Schritte 100900 aus 1A verwendet; damit sind die äquivalenten Prozessschritte entsprechend in 1D mit den Schritten 100'900' bezeichnet. Des Weiteren können andere Formvorlagen mit variierender Komplexität verwendet werden. Demgemäß liegen andere Ausführungsformen innerhalb des Umfangs der nachfolgenden Ansprüche.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • - K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir und L. Van Gool, "A comparison of affine region detectors", IJCV, 65(1–2), 2005 [0004]
    • - R. Fergus, P. Perona und C. Zisserman, "Object class recognition by unsupervised scale-invariant learning", in CVPR, 2003 [0004]
    • - G. Csurka, C. Dance, L. Fan, J. Willamowksi und C. Bray, "Visual categorization with bags of keypoints", in ECCV Work-shop an Statistical Learning in Computer Vision, 2004 [0004]
    • - L. Fei-Fei und P. Perona, "A Bayesian hierarchical model for learning natural scene categories", in CVPR, 2005 [0004]
    • - K Graumau und T. Darrell, "Efficient image matching with distributions of local invariant featuers", in CVPR, 2005 [0004]
    • - S. Lazebnik, C. Schmid und J. Ponce, "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories" in CVPR, 2006 [0004]
    • - H. Bay, T. Tuytelaars und L. Van Gool, "SURF: Speeded up robust features", in ECCV, Mai 2006 [0005]
    • - V. Lepetit, P. Lagger und P. Fua, "Randomized trees for realtime keypoint recognition", in CVPR, 2005 [0005]
    • - D. G. Lowe, "Distinctive image features from scale-invariant keypoints", IJCV, 60(2): 91–110, 2004 [0005]
    • - J. Shotton, A. Blake und R. Cipolla, "Contour-based learning for object detection", in ICCV, 2005 [0006]
    • - A. Opelt, A. Pinz und A. Zisserman, "A boundary-fragmentmodel for object detections", in ECCV, 2006 [0006]
    • - V. Ferrari, T. Tuytelaars und L. Van Gool, "object detection by contour segment networks", in ECCV, 2006 [0006]
    • - E. Grimson, "From Images To Surfaces: A Computational Study of the Human Early Vision System", MIT Press, Cambridge, MA, 1981 [0006]
    • - D.G. Lowe, "Distictive image features from scaleinvariant keypoints", IJCV, 60(2): 91–110, 2004 [0007]
    • - S. Belongie, J. Malik und J. Puzicha, "Shape matching and object recognition using shape contexts", PAMI, 24(4): 509–522, 2002 [0007]
    • - N. Dalal und B. Triggs, "Histograms of oriented gradients for human detection", in CVPR, 2005 [0007]
    • - Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997 [0008]
    • - J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986 [0040]
    • - Y. Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997; J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679–698, 1986 [0052]
    • - R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996 [0062]
    • - J. Shotton, A. Blake und R. Cipolla, "Feature selection, L1 vs. L2 regularization, and rotational invariance", in ICML, 2004 [0062]
    • - J. Goodman, "Exponential priors for maximum entropy models", in ACL, 2004 [0062]
    • - R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267–288, 1996 [0065]
    • - T. Hastie, R. Tibshirani und J. Friedman, "The Elements of Statistical Learning", Springer-Verlag, 2001 [0065]
    • - B. Efron, T. Hastie, I. Johnstone und R. Tibshirani, "Least angle regression", The Annals of Statistics, 32(2): 407–499, 2004 [0066]

Claims (9)

  1. Verfahren zum Erzeugen eines Hauptabbilds bzw. einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: Auswählen einer Untermenge von häufigen Formvorlagen aus einem Formvorlagenvorrat, der eine Vielzahl von Formvorlagen mit unterschiedlichen Komplexitätsgraden aufweist; und Formulieren eines Merkmalssuchalgorithmus, um eine sich am meisten unterscheidende Formvorlage aus einer vorausgewählten der Formvorlagen in dem Formvorlagenvorrat zu bestimmen; und Erzeugen der Master Map aus dem formulierten Merkmalsauswahlalgorithmus.
  2. Verfahren nach Anspruch 1, wobei der Komplexitätsgrad steuerbar ist.
  3. Verfahren nach Anspruch 1, wobei die Formvorlagen Segmentbereiche aufweisen, wobei jeder der Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, und wobei der Komplexitätsgrad durch die Anzahl von Fragmenten in den Formvorlagen variiert wird.
  4. Verfahren zum Erzeugen einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: (A) Definieren einer Formvorlage mit Segmentbereichen, wobei jeder der Bereiche geeignet ist, darin Merkmale aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen; (B) Ermitteln von Bildern unterschiedlicher Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei solche Bilder auf eine gemeinsame Größe skaliert sind und in Bildbereiche unterteilt sind, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei der gemeinsame Bereich einen Bereichsstapel bildet; (C) für jeden der Bereichsstapel: (a) Anwenden der Formvorlage auf jedes der Bilder in dem Bereichsstapel, um aus jedem der Bilder Merkmale zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel extrahierte Formvorlagen zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage unter den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Merkmalen mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) Aufzeichnen der Anzahl von Bildern in dem Bereichsstapel, der die bestimmte am häufigsten extrahierte Formvorlage aufweist; (d) Wiederholen der Schritte (b) und (c) mit einer aufeinanderfolgend ansteigenden vorbestimmten Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; (e) Auswählen als eine extrahierte Master-Formvorlage für einen der Bereichsstapel die der häufigsten Formvorlagen, die die größte aufgezeichnete Anzahl von Merkmalen aufweist; (D) Kombinieren der extrahierten Master-Formvorlagen für jeden der Bereichsstapel zu einer Karte bzw. Map für die Klasse von Objekten; und (E) Vergleichen der Karte bzw. Map mit jedem einer Vielzahl von Hintergrundbildern, um aus der extrahierten Master Map die extrahierten Formvorlagen zu entfernen, die darin mit den Segmenteigenschaften des Hintergrunds übereinstimmen, um die Master Map für die Klasse von Objekten zu erzeugen.
  5. Verfahren nach Anspruch 4, wobei die Merkmale Randfragmente des Objektes sind.
  6. Verfahren zum Erzeugen einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: (A) Unterteilen bzw. Partitionieren von Bildern unterschiedlicher Typen von Objekten innerhalb einer Klasse in Bereichsstapel; und (B) für jeden der Stapel: (a) Anwenden einer Formvorlage, um ein Merkmal zu extrahieren, das eine vorbestimmte Größe und eine einer Vielzahl von unterschiedlichen räumlichen Orientierungen aufweist, um extrahierte Formvorlagen zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine häufigste davon, die lediglich eine erste Anzahl von Merkmalen mit einer gemeinsamen räumlichen Orientierung aufweist; (c) Aufzeichnen der Anzahl von Bildern, die die bestimmte am häufigsten extrahierte Formvorlage aufweisen; (d) Wiederholen der Schritte (b) und (c) mit aufeinanderfolgend ansteigender Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen Grenzwert fällt; und (e) Auswählen als eine extrahierte Master-Formvorlage diejenige der häufigsten Formvorlagen, die die größte aufgezeichnete Anzahl von Merkmalen aufweist. (C) Kombinieren der extrahierten Master-Formvorlagen für den Stapel zu einer Karte bzw. Map; und (E) Vergleichen der Karte bzw. Map mit Hintergrundbildern, um extrahierte Formvorlagen, die mit einem Segment in dem Hintergrund übereinstimmen, zu entfernen.
  7. Verfahren nach Anspruch 6, wobei die Merkmale Randfragmente des Objektes sind.
  8. Verfahren zum Erzeugen einer Master Map für eine allgemeine Klasse von Objekten, mit folgenden Schritten: (A) Definieren einer Formvorlage mit Segmentbereichen, wobei jeder der Bereiche geeignet ist, darin Fragmente aufzuweisen, die eine vorbestimmte Größe und eine einer vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen; (B) Ermitteln von Bildern von unterschiedlichen Typen von Objekten innerhalb der allgemeinen Klasse von Objekten; wobei die Bilder auf eine gemeinsame Größe skaliert werden und in Bildbereiche unterteilt werden, wobei jeder der Bildbereiche einen gemeinsamen Bereich der ermittelten Bilder aufweist, wobei der gemeinsame Bereich einen Bereichsstapel bildet; (C) Für jeden der Bereichsstapel: (a) Anwenden der Formvorlage auf jedes der Bilder in dem Bereichsstapel, um aus jedem der Bilderfragmente zu extrahieren, die die vorbestimmte Größe und eine der vorbestimmten Vielzahl von unterschiedlichen räumlichen Orientierungen aufweisen, um für jedes der Bilder in dem Bereichsstapel eine extrahierte Formvorlage zu erzeugen; (b) Bestimmen aus den extrahierten Formvorlagen eine am häufigsten extrahierte Formvorlage aus den extrahierten Formvorlagen, die lediglich eine erste vorbestimmte Anzahl von Fragmenten mit einer gemeinsamen räumlichen Orientierung aufweisen; (c) Aufzeichnen der Anzahl von Bildern in dem Bereichsstapel, der die bestimmte, am häufigsten extrahierte Formvorlage aufweist; (d) Wiederholen der Schritte (b) und (c) mit aufeinanderfolgend ansteigenden vorbestimmten Anzahl von Merkmalen, bis die Anzahl der aufgezeichneten Bilder unter einen vorbestimmten Grenzwert fällt; (e) Auswählen als eine extrahierte Master-Vorlage für einen der Bereichsstapel, die eine der häufigsten Formvorlagen, die die größte aufge zeichnete Anzahl von Merkmalen aufweist; (D) Kombinieren der extrahierten Master-Formvorlagen für jeden der Bereichsstapel zu einer Karte bzw. Map für die Klasse von Objekten; und (E) Vergleichen der Karte bzw. Map mit jedem einer Vielzahl von Hintergrundbildern, um aus der extrahierten Master Map extrahierte Formvorlagen zu entfernen, die darin mit Segmenteigenschaften des Hin tergrunds übereinstimmen, um die Master Map für die Klasse von Objekten zu erzeugen.
  9. Verfahren nach Anspruch 8, wobei die Merkmale Randfragmente des Objektes sind.
DE102008018835A 2007-04-23 2008-04-15 Verfahren zum Erfassen von Objekten unter Verwendung von flexiblen Randanordnungen Withdrawn DE102008018835A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US91330307P 2007-04-23 2007-04-23
US60/913,303 2007-04-23
US12/052,864 2008-03-21
US12/052,864 US8320679B2 (en) 2007-04-23 2008-03-21 Method for detecting objects using flexible edge arrangements

Publications (1)

Publication Number Publication Date
DE102008018835A1 true DE102008018835A1 (de) 2008-12-11

Family

ID=39433168

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102008018835A Withdrawn DE102008018835A1 (de) 2007-04-23 2008-04-15 Verfahren zum Erfassen von Objekten unter Verwendung von flexiblen Randanordnungen

Country Status (3)

Country Link
US (1) US8320679B2 (de)
DE (1) DE102008018835A1 (de)
GB (1) GB2448801A (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650402B2 (en) * 2007-08-17 2014-02-11 Wong Technologies L.L.C. General data hiding framework using parity for minimal switching
WO2009152509A1 (en) * 2008-06-13 2009-12-17 Lockheed Martin Corporation Method and system for crowd segmentation
JP2010092199A (ja) * 2008-10-07 2010-04-22 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US8386156B2 (en) 2010-08-02 2013-02-26 Siemens Industry, Inc. System and method for lane-specific vehicle detection and control
US9013325B2 (en) 2010-08-02 2015-04-21 Siemens Industry, Inc. System and method for traffic-control phase change warnings
JP5782037B2 (ja) * 2010-09-10 2015-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 排他的分類器による一般物体の画像認識装置及び方法
JP5616200B2 (ja) * 2010-11-18 2014-10-29 古野電気株式会社 レーダ装置、注目物標検出方法及び注目物標検出プログラム
TW201344592A (zh) * 2012-04-27 2013-11-01 Altek Autotronics Corp 影像校正系統及其影像校正方法
CN103530622B (zh) * 2013-11-07 2017-03-29 青岛海信网络科技股份有限公司 一种车辆车标识别方法
US9766628B1 (en) * 2014-04-04 2017-09-19 Waymo Llc Vision-based object detection using a polar grid
CN104298990B (zh) * 2014-09-15 2017-12-22 西安电子科技大学 一种基于骨架图的快速图形匹配与识别的方法
US9916772B1 (en) * 2015-01-29 2018-03-13 Schell Games Llc Atomic and molecular modeling system
CN104866854B (zh) * 2015-05-06 2017-12-01 苏州大学 基于同底三角形面积描述的目标识别和形状检索方法
US10148873B2 (en) * 2015-12-22 2018-12-04 Mitsubishi Electric Research Laboratories, Inc. Method and system for motion adaptive fusion of optical images and depth maps acquired by cameras and depth sensors
US11676264B2 (en) * 2019-07-26 2023-06-13 Kla Corporation System and method for determining defects using physics-based image perturbations
US10845943B1 (en) * 2020-02-14 2020-11-24 Carmax Business Services, Llc Systems and methods for generating a 360-degree viewing experience

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321772A (en) 1990-03-05 1994-06-14 Honeywell Inc. Digital image processor
JP2000163594A (ja) * 1998-11-30 2000-06-16 Canon Inc 画像パタ―ン検出方法及び装置
US6826316B2 (en) * 2001-01-24 2004-11-30 Eastman Kodak Company System and method for determining image similarity
JP3846851B2 (ja) * 2001-02-01 2006-11-15 松下電器産業株式会社 画像のマッチング処理方法及びその装置
JP3801870B2 (ja) * 2001-02-16 2006-07-26 株式会社モノリス 多変量空間処理装置
JP4157686B2 (ja) * 2001-05-15 2008-10-01 株式会社モノリス 画像符号化および復号のための方法および装置
US7199897B2 (en) * 2002-02-22 2007-04-03 Ricoh Company, Ltd. Image data processing apparatus for and image data processing method of pattern matching
US7580560B2 (en) * 2005-07-18 2009-08-25 Mitutoyo Corporation System and method for fast template matching by adaptive template decomposition
US7636478B2 (en) * 2006-07-31 2009-12-22 Mitutoyo Corporation Fast multiple template matching using a shared correlation map
US8229232B2 (en) * 2007-08-24 2012-07-24 CVISION Technologies, Inc. Computer vision-based methods for enhanced JBIG2 and generic bitonal compression

Non-Patent Citations (24)

* Cited by examiner, † Cited by third party
Title
A. Opelt, A. Pinz und A. Zisserman, "A boundary-fragmentmodel for object detections", in ECCV, 2006
Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997
B. Efron, T. Hastie, I. Johnstone und R. Tibshirani, "Least angle regression", The Annals of Statistics, 32(2): 407-499, 2004
D. G. Lowe, "Distinctive image features from scale-invariant keypoints", IJCV, 60(2): 91-110, 2004
D.G. Lowe, "Distictive image features from scaleinvariant keypoints", IJCV, 60(2): 91-110, 2004
E. Grimson, "From Images To Surfaces: A Computational Study of the Human Early Vision System", MIT Press, Cambridge, MA, 1981
G. Csurka, C. Dance, L. Fan, J. Willamowksi und C. Bray, "Visual categorization with bags of keypoints", in ECCV Work-shop an Statistical Learning in Computer Vision, 2004
H. Bay, T. Tuytelaars und L. Van Gool, "SURF: Speeded up robust features", in ECCV, Mai 2006
J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679-698, 1986
J. Goodman, "Exponential priors for maximum entropy models", in ACL, 2004
J. Shotton, A. Blake und R. Cipolla, "Contour-based learning for object detection", in ICCV, 2005
J. Shotton, A. Blake und R. Cipolla, "Feature selection, L1 vs. L2 regularization, and rotational invariance", in ICML, 2004
K Graumau und T. Darrell, "Efficient image matching with distributions of local invariant featuers", in CVPR, 2005
K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir und L. Van Gool, "A comparison of affine region detectors", IJCV, 65(1-2), 2005
L. Fei-Fei und P. Perona, "A Bayesian hierarchical model for learning natural scene categories", in CVPR, 2005
N. Dalal und B. Triggs, "Histograms of oriented gradients for human detection", in CVPR, 2005
R. Fergus, P. Perona und C. Zisserman, "Object class recognition by unsupervised scale-invariant learning", in CVPR, 2003
R. Tibshirani, "Regression shrinkage and selection via the lasso", Journal of the Royal Statistical Society, 58(1): 267-288, 1996
S. Belongie, J. Malik und J. Puzicha, "Shape matching and object recognition using shape contexts", PAMI, 24(4): 509-522, 2002
S. Lazebnik, C. Schmid und J. Ponce, "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories" in CVPR, 2006
T. Hastie, R. Tibshirani und J. Friedman, "The Elements of Statistical Learning", Springer-Verlag, 2001
V. Ferrari, T. Tuytelaars und L. Van Gool, "object detection by contour segment networks", in ECCV, 2006
V. Lepetit, P. Lagger und P. Fua, "Randomized trees for realtime keypoint recognition", in CVPR, 2005
Y. Amit, D. Geman und B. Jedynak, "Efficient focusing and face detection", Technical Report 459, Department of Statistics, University of Chicago, 1997; J. Canny, "A computational approach to edge detection", PAMI, 8(6): 679-698, 1986

Also Published As

Publication number Publication date
US20080260261A1 (en) 2008-10-23
US8320679B2 (en) 2012-11-27
GB2448801A (en) 2008-10-29
GB0806191D0 (en) 2008-05-14

Similar Documents

Publication Publication Date Title
DE102008018835A1 (de) Verfahren zum Erfassen von Objekten unter Verwendung von flexiblen Randanordnungen
Marcos et al. Learning rotation invariant convolutional filters for texture classification
DE112016005059B4 (de) Unterkategorienbewusste faltende neuronale Netzwerke zur Objekterfassung
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE112010002232B4 (de) Semantische Szenensegmentierung mittels Random multinominalem Logit (RML)
DE19705757A1 (de) Verfahren und Gerät für das Design eines hoch-zuverlässigen Mustererkennungs-Systems
DE102009027275A1 (de) Bildverarbeitungsverfahren für ein Fahrerassistenzsystem eines Kraftfahrzeugs zur Detektion und Klassifikation wenigstens eines Teils wenigstens eines vorgegebenen Bildelements
Cerutti et al. Reves participation-tree species classification using random forests and botanical features
DE102017220752A1 (de) Bildverarbeitungsvorrichtung, Bildbverarbeitungsverfahren und Bildverarbeitungsprogramm
DE102019214402A1 (de) Verfahren und vorrichtung zum verarbeiten von daten mittels eines neuronalen konvolutionsnetzwerks
DE69820578T2 (de) Verfahren und Mittel um Dokumente zu Vergleichen auf der Basis des räumlichen Layouts
DE102015207903A1 (de) Vorrichtung und Verfahren zum Erfassen eines Verkehrszeichens vom Balkentyp in einem Verkehrszeichen-Erkennungssystem
Gangeh et al. Dictionary learning in texture classification
CN105740877A (zh) 交通标志的识别方法、装置和车辆
CN101996315B (zh) 用于基于摄像机的对象分析的系统、方法
DE102019129029A1 (de) System und verfahren zur objektdetektion
Allahverdi et al. Sasanian coins classification using discrete cosine transform
Paczolay et al. Wlab of university of szeged at lifeclef 2014 plant identification task
DE102008057979B4 (de) Lerneinheit für ein Objekterkennungssystem und Objekterkennungssytem
CN106650754A (zh) 一种针对视觉映射的稀疏高斯过程回归方法
DE102016124123A1 (de) Verfahren zum Erzeugen eines Clusters von Bildbereichen zum Erfassen eines Zielobjekts in einem Bild, Computerprogrammprodukt, Kamerasystem und Kraftfahrzeug
DE102020129164A1 (de) Verfahren und vorrichtung zur unterscheidung von verschiedenen konfigurationszuständen eines objekts auf der grundlage einer bildlichen darstellung des objekts
WO2016131812A1 (de) Mobilgerät zum erfassen eines textbereiches auf einem identifikationsdokument
CN112862789A (zh) 基于机器学习的交互式图像分割方法

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee