-
HINTERGRUND DER VORLIEGENDEN ERFINDUNG
-
Bei vielen verschiedenen Anwendungen werden computerbasierte Objektdetektionssysteme und -verfahren verwendet, die eine hohe Genauigkeit erfordern, was nahezu in Echtzeit erreicht wird. Beispiele für solche Anwendungen umfassen Systeme für eine aktive Fahrzeugsicherheit, Systeme einer intelligenten Überwachung und Robotertechnik.
-
Auf dem Gebiet der Fahrzeugsicherheit ermöglicht beispielsweise eine genaue Hochgeschwindigkeitsidentifikation von Fußgängern oder Objekten auf dem Fahrpfad einem automatisierten Sicherheitssystem, notwendige Maßnahmen zu treffen, um eine Kollision zu vermeiden, oder ermöglicht sie dem automatisierten System, den Fahrer zu alarmieren, wobei dem Fahrer ermöglicht wird, notwendige Vorkehrungen zu treffen, um eine Kollision zu vermeiden.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
Der als Erfindung betrachtete Gegenstand ist im abschließenden Teil der Anmeldung speziell dargelegt und eindeutig beansprucht. Die Erfindung kann jedoch hinsichtlich ihrer Komponenten, Merkmale, Betriebsverfahren und Vorteile am besten durch Bezugnahme auf die folgende detaillierte Beschreibung und die begleitenden Zeichnungen verstanden werden, in denen:
-
1 ein schematisches Blockdiagramm eines Systems für eine Detektion eines komplexen Objekts unter Verwendung einer Kaskade von Klassifizierungseinrichtungen gemäß einer Ausführungsform der vorliegenden Erfindung ist;
-
2 ein Abfragebild mit einem zu identifizierenden komplexen Objekt ist;
-
3 ein beispielhaftes komplexes Objekt ist, dessen Teile für ein Lernen zur Verwendung durch Klassifizierungseinrichtungen einer Kaskade von Klassifizierungseinrichtungen markiert wurden.
-
4 eine graphische Darstellung von Merkmalen, von denen Unterscheidungsmerkmale zur Verwendung durch jede von drei Klassifizierungseinrichtungen einer Kaskade von Klassifizierungseinrichtungen abgeleitet werden, wenn Merkmale identifiziert werden, die einem Teil eines komplexen Objekts zugehörig sind, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
-
5 eine Kaskade von Klassifizierungseinrichtungen mit drei Klassifizierungseinrichtungen, wobei jede Klassifizierungseinrichtung ihren jeweiligen Satz von gelernten Unterscheidungsmerkmalen identifiziert, die für ein unterscheidendes Merkmal eines Teils charakteristisch sind, der dem in 2 gezeigten komplexen Objekt zugehörig ist, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
-
6 eine Verarbeitungsausgestaltung der Kaskade von Klassifizierungseinrichtungen von 5 für drei Objektteile von mehreren Orten, wobei jede nachfolgende Klassifizierungseinrichtung einen Pixel-Abschnitt unter der Bedingung verarbeitet, dass vorherige Klassifizierungseinrichtungen deren jeweilige Unterscheidungsmerkmale erfolgreich identifizierten, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
-
7 ein Flussdiagramm, das das Verfahren zum Identifizieren zusätzlicher Pixel-Abschnitte, die wahrscheinlich zusätzliche Teile eines komplexen Objekts enthalten, basierend auf gelernten Positionsbeziehungen in Bezug auf einen identifizierten Teil darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung ist.
-
8 ein Flussdiagramm, das das Verfahren zum Identifizieren zusätzlicher Pixel-Abschnitte, die wahrscheinlich zusätzliche Teile eines komplexen Objekts enthalten, basierend auf einer berechneten Wahrscheinlichkeit in Bezug auf einen identifizierten Teil darstellt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
-
9 das Abfragebild von 2, in dem mehrere Suchfenster, die Pixel-Abschnitte umschließen, an verschiedenen Orten vor einer erfolgreichen Identifikation eines Teils eines komplexen Objekts und an einem ersten bevorzugten Ort nach einer erfolgreichen Identifikation des Teils verteilt wurden, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
-
10 das Abfragebild von 9, in dem mehrere Suchfenster, die Pixel-Abschnitte umschließen, an verschiedenen Orten vor einer erfolgreichen Identifikation eines Teils und an einem zweiten bevorzugten Ort nach einer erfolgreichen Identifikation eines Teils verteilt wurden, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
-
11 das Abfragebild von 2, in dem ein Suchfenster einen Pixel-Abschnitt umschließt, der hinsichtlich zukünftiger Versuche zum Identifizieren von relevanten Merkmalen abgelehnt wurde, und ein Suchfenster bei der Suche von Teilen eines komplexen Objekts an einem bevorzugten Ort auf der Grundlage einer erfolgreichen Identifikation von zwei Objektteilen verteilt wurde, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
-
12 das Abfragebild von 2 mit einem teilweise verdeckten komplexen Objekt, in dem Suchfenster Pixel-Abschnitte, die wahrscheinlich einen anderen Objektteil enthalten, basierend auf einem zuvor identifizierten Teil umschließen, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
-
13 das Abfragebild von 2 mit einem komplexen Objekt mit reduziertem Maßstab, in dem Suchfenster Pixel-Abschnitte, die wahrscheinlich einen anderen Objektteil enthalten, basierend auf einem zuvor identifizierten Teil umschließen, gemäß einer Ausführungsform der vorliegenden Erfindung zeigt; und
-
14 ein nichtflüchtiges von einem Computer lesbares Medium mit daran gespeicherten Anweisungen zum Identifizieren eines komplexen Objekts unter Verwendung einer Kaskade von Klassifizierungseinrichtungen in einem Abfragebild gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
-
Es sei angemerkt, dass zur Vereinfachung und Verdeutlichung der Darstellung Elemente, die in den Figuren gezeigt sind, möglicherweise nicht maßstabsgetreu dargestellt sind, und Bezugszeichen in verschiedenen Figuren wiederholt werden können, um gleiche, entsprechende oder analoge Elemente anzugeben.
-
DETAILLIERTE BESCHREIBUNG DER VORLIEGENDEN ERFINDUNG
-
In der folgenden detaillierten Beschreibung sind zahlreiche Details ausgeführt, um ein gründliches Verständnis der Erfindung bereitzustellen. Fachleute werden jedoch verstehen, dass die vorliegende Erfindung ohne diese spezifischen Details ausgeführt werden kann. Ferner wurden weithin bekannte Verfahren, Prozeduren und Komponenten nicht ausführlich beschrieben, um die vorliegende Erfindung nicht undurchsichtig zu machen.
-
Es sei angemerkt, dass die folgenden Begriffe in dieser Anmeldung verwendet werden.
-
”Komplexes Objekt” bezieht sich auf ein Objekt, das in einem Bild vorhanden ist und mehrere Vorlagen zur Beschreibung oder Identifikation erfordert, da verschiedene Komplexitäten dem Objekt zugehörig sind. Diese Komplexitäten können Objektteile mit einer abweichenden anthropometrischen Beziehung zueinander, großen Größenabweichungen innerhalb einer bestimmten Klassifizierung, einer teilweisen Verdeckung und mehreren Ansichten umfassen. Typische Beispiele umfassen unter anderem Menschen, Tiere oder Fahrzeuge. Für die Zwecke dieser Anmeldung und ohne die Allgemeingültigkeit zu schmälern, wird als Beispiel eines komplexen Objekts eine Person hervorgehoben.
-
”Klassifizierungseinrichtung” bezieht sich auf eine Funktion (z. B. eine von einem Computer ausführbare Funktion), die ausgestaltet ist, um Bildobjektteile auf der Grundlage von Unterscheidungsmerkmalen, die für Teile charakteristisch sind, die komplexen Objekten zugehörig sind, zu identifizieren. Die Unterscheidungsmerkmale können typischerweise verarbeitet werden, um beispielsweise einen Ausgangswert zu erzeugen, der mit einem Schwellenwert verglichen wird, der analog von einem Modellbild abgeleitet wird, um eine ”Übereinstimmung” zu ermitteln. Solch eine Übereinstimmung kann beispielsweise auf Bildgebungsparametern wie Pixel-Intensitäten, geometrischen Grundformen und/oder anderen Bildparametern basieren.
-
”Kaskade von Klassifizierungseinrichtungen” bezieht sich auf mehrere aufeinanderfolgende Klassifizierungseinrichtungen.
-
”Pixel-Abschnitt” bezieht sich auf ein Gebiet von Pixeln.
-
”Unterscheidungsmerkmale” beziehen sich auf Parameter solcher Bild-Pixel wie beispielsweise Intensitätsgradienten, mittlere Intensitäten, Pixel-Farben, und repräsentieren ein Merkmal des Bildinhalts.
-
”Anthropometrische Beziehung” bezieht sich auf die relative Größe, Anordnung und Ausrichtung von Körperteilen bei Menschen.
-
”Kollaborative Suche” bezieht sich auf das Auswählen von Pixel-Abschnitten in einem Abfragebild auf der Grundlage einer vorherigen erfolgreichen Identifikation oder Klassifizierung von zumindest einem Teil eines komplexen Objekts.
-
Gemäß Ausführungsformen der vorliegenden Erfindung kann ein Verfahren für eine Detektion eines komplexen Objekts unter Verwendung einer Kaskade von Klassifizierungseinrichtungen das Identifizieren eines Pixel-Abschnitts in einem Abfragebild und das Verarbeiten dieses unter Verwendung einer Kaskade von Klassifizierungseinrichtungen bei einer suche von gelernten charakteristischen Merkmalen umfassen. Wie oben erwähnt kann die Kaskade von Klassifizierungseinrichtungen eine Folge von Klassifizierungseinrichtungen aufweisen, wobei jede Klassifizierungseinrichtung ausgestaltet sein kann, um ihren jeweiligen Satz charakteristischer Merkmale zu identifizieren. Jede nachfolgende Klassifizierungseinrichtung in der Kaskade sucht nach einer größeren Anzahl von charakteristischen Merkmalen für den gleichen Objektteil und ist ausgestaltet, um ihren jeweiligen Satz von Unterscheidungsmerkmalen nur zu identifizieren, nachdem eine zuvor eingesetzte Klassifizierungseinrichtung ihre jeweiligen charakteristischen Merkmale erfolgreich identifiziert hat. Wenn dies nicht erreicht wurde, verarbeitet keine Klassifizierungseinrichtung nachfolgender Stufen den Pixel-Abschnitt und wird dieser bestimmte Abschnitt abgelehnt und als Bereich markiert, indem die erforderlichen Unterscheidungsmerkmale nicht vorhanden sind. Dann kann ein anderer Pixel-Abschnitt aus dem Abfragebild auf einer zufälligen oder einer semizufälligen Basis ausgewählt werden. Bei anderen Ausführungsformen kann ein benachbarter Abschnitt oder ein beliebiger anderer Abschnitt als nächster Abschnitt zur Verarbeitung ausgewählt werden. Wenn vorherige Klassifizierungseinrichtungen ihre jeweiligen Sätze von charakteristischen Merkmalen identifizieren, verarbeiten nachfolgende Klassifizierungseinrichtungen den Pixel-Satz, bis ein Objektteil identifiziert wird. Nach einem Fund dient der Objektteilort zusammen mit gelernten räumlichen Beziehungen zwischen Objektteilen eines Modellobjektbilds als Grundlage für das Verteilen zusätzlicher Pixel-Abschnitte in dem Abfragebild, die wahrscheinlich zusätzliche Objektteile enthalten. Andere Ausführungsformen setzen eine Datenabbildung ein, wobei das Maximum eines Arguments einer Wahrscheinlichkeitsfunktion verwendet wird, um einen zusätzlichen Pixel-Satz mit der größten Wahrscheinlichkeit des Enthaltens eines Objektteils auszuwählen.
-
Die gesamten Recheneinsparungen, die durch die reduzierte Anzahl an Klassifizierungsoperationen für jeden Teil und die reduzierte Anzahl an Suchorten gemäß Ausführungsformen der vorliegenden Erfindung ermöglicht werden, ermöglichen eine sehr genaue Identifikation komplexer Objekte nahezu in Echtzeit. Dementsprechend finden das Verfahren und das System gemäß der vorliegenden Erfindung Anwendung bei einer großen Vielzahl von reellen Anwendungen, die eine genaue und schnelle Identifikation eines komplexen Objekts erfordern, wie Merkmale einer aktiven Fahrzeugsicherheit, Systeme einer intelligenten Überwachung und Robotertechnik.
-
Nun auf die Figuren Bezug nehmend ist 1 ein schematisches Diagramm eines Systems für eine Detektion eines komplexen Objekts unter Verwendung einer Kaskade von Klassifizierungseinrichtungen gemäß einer Ausführungsform der vorliegenden Erfindung. Das System 100 zur Detektion eines komplexen Objekts kann einen oder mehrere Computersichtsensoren 10 (z. B. Kameras, Videokamera, Digitalkamera oder andere Bilderfassungseinrichtungen) umfassen. Der Computersichtsensor 10 kann ein Bild erfassen, das ein oder mehrere Objekte und/oder Merkmale umfassen kann. Bilder können auch auf andere Weise in das System 100 eingegeben werden, beispielsweise als Downloads von anderen Computern, Datenbanken oder Systemen. Das Objektdetektionssystem 100 kann einen oder mehrere Prozessoren oder Controller 20, einen Speicher 30, einen nichtflüchtigen Langzeitspeicher 40, Eingabeeinrichtungen 50 und Ausgabeeinrichtungen 60 umfassen. Nicht einschränkende Beispiele für Eingabeeinrichtungen 50 können beispielsweise ein Touchscreen, eine kapazitive Eingabeeinrichtung, eine Tastatur, ein Mikrofon, eine Zeigereinrichtung, ein Knopf, ein Schalter oder eine andere Einrichtung sein. Nicht einschränkende Beispiele für Ausgabeeinrichtungen umfassen einen Anzeigebildschirm, eine Audioeinrichtung wie beispielsweise ein Lautsprecher oder Kopfhörer. Die Eingabeeinrichtungen 50 und die Ausgabeeinrichtungen 60 können zu einer einzelnen Einrichtung kombiniert sein.
-
Der Prozessor oder Controller 20 kann beispielsweise eine zentrale Verarbeitungseinheit (CPU), ein Chip oder eine beliebige geeignete Recheneinrichtung sein. Der Prozessor oder Controller 20 kann mehrere Prozessoren umfassen und kann Universalprozessoren und/oder zugeordnete Prozessoren, wie beispielsweise Graphikverarbeitungschips, umfassen. Der Prozessor 20 kann Code oder Anweisungen ausführen, die beispielsweise in dem Speicher 30 oder dem Langzeitspeicher 40 gespeichert sind, um Ausführungsformen der vorliegenden Erfindung auszuführen.
-
Der Speicher 30 kann einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen dynamischen RAM (DRAM), einen synchronen DRAM (SD-RAM), einen Double Data Rate-Speicherchip (DDR-Speicherchip), einen Flash-Speicher, einen flüchtigen Speicher, einen nichtflüchtigen Speicher, einen Cache-Speicher, einen Puffer, eine Kurzzeitspeichereinheit, eine Langzeitspeichereinheit oder andere geeignete Speichereinheiten oder Speicherungseinheiten darstellen. Der Speicher 30 kann mehrere Speichereinheiten darstellen oder umfassen.
-
Der nichtflüchtige Langzeitspeicher 40 kann beispielsweise eine Festplatte, eine Diskette, ein Compact Disk-Laufwerk (CD-Laufwerk), ein CD-Recordable-Laufwerk (CD-R-Laufwerk), eine Einrichtung eines universellen seriellen Busses (USB) oder eine andere geeignete entfernbare und/oder feste Speichereinheit darstellen oder diese umfassen und kann mehrere oder eine Kombination solcher Einheiten umfassen. Es sei angemerkt, dass Bilddaten, Code und andere relevante Datenstrukturen in den oben erwähnten Speicher- und/oder Speicherungseinrichtungen gespeichert sind.
-
2 ist ein Abfragebild 210, das ein komplexes Objekt 220 einer Person enthält, die durch identifizierende verschiedene Teile; einen Kopf 240, einen Rücken 250 und einen Fuß 260 zu klassifizieren ist. Es sei angemerkt, dass für den Zweck dieser Anmeldung als nicht einschränkendes Beispiel für ein komplexes Objekt eine Person verwendet wird.
-
3 zeigt ein Bild eines Modells 330 eines komplexen Objekts, aus dem Sätze von Unterscheidungsmerkmalen für jeden Teil und anthropometrische Beziehungen zwischen den Teilen extrahiert werden können. Das Modell 330 eines komplexen Objekts wird in Pixel-Abschnitte oder Bildbereiche, die Objektteile enthalten, aufgeteilt. Bei dem nicht einschränkenden Beispiel von 3 ist das komplexe Objekt eine Person 330, bei der drei unabhängige Teile identifiziert wurden; ein Kopf 340, ein Rücken 350 und ein Fuß 360. Es sei angemerkt, dass eine große Vielzahl von komplexen Objekten geeignete Modelle sind, die verwendet werden können, um Stufenklassifizierungseinrichtungen zu lehren. Solche Modelle umfassen lebende und leblose Objekte, Objekte mit einer großen Anzahl an Teilen, Objekte mit Teilen, deren geometrische Beziehung zueinander abweicht, Objekte, die teilweise verdeckt sind, wobei alle Objekte wie oben erwähnt aus verschiedenen Winkeln oder Distanzen gesehen werden.
-
4 zeigt drei graphische Darstellungen 405, 410 und 415 von Merkmalen, die von einer Frontansicht eines Bildbeispiels (nicht gezeigt) abgeleitet sind. Diese Merkmale werden beim Lernen bei aufeinanderfolgenden Klassifizierungseinrichtungen einer Kaskade gemäß Ausführungsformen der vorliegenden Erfindung verwendet. Ein Merkmalsauswahlalgorithmus kann auf ein Bildbeispiel angewandt werden, um die graphischen Darstellungen 405, 410 und 415 zu erhalten, die weiter verarbeitet werden können, um Unterscheidungsmerkmale zu identifizieren, die für Merkmale, die einem Beispiel zugehörig sind, am charakteristischsten sind. Beispielsweise kann der Merkmalsauswahlalgorithmus ideale Unterscheidungsmerkmale auf der Grundlage von nur zwei Pixel-Bereichen 406 und 407 zur Verwendung bei einer ersten Klassifizierungseinrichtung, ideale Unterscheidungsmerkmale auf der Grundlage von Pixel-Bereichen 411-413 zur Verwendung bei einer zweiten Klassifizierungseinrichtung und sieben zusätzlichen Pixel-Bereichen, die zusammen als 414 markiert sind, zur Verwendung bei einer dritten Klassifizierungseinrichtung erzeugen. Auf diese Weise kann jede Klassifizierungseinrichtung einer Kaskade mit drei Klassifizierungseinrichtungen Unterscheidungsmerkmale eines Objektteils, der dem komplexen Objekt zugehörig ist, mit zunehmender Genauigkeit und Deutlichkeit identifizieren.
-
Es sei angemerkt, dass es viele Pixel- oder Bildparameter gibt, die verwendet werden können, um das effektivste Merkmal identifizierende Unterscheidungsmerkmale zu extrahieren, und einige Beispiele umfassen Histogram of Gradients (HoGs), Integral Channel-Merkmale und Haar-Merkmale. Ferner sei angemerkt, dass in dem Beispiel von 4 frontale Gesichtsmerkmale aus einem Beispielbild identifiziert werden; gemäß der bestimmten Sicht des zu identifizierenden Objektteils können Merkmale jedoch von Seitenansichten der Beispielbilder extrahiert werden.
-
5 zeigt eine Kaskade mit drei Klassifizierungseinrichtungen, die ausgestaltet ist, um die gelernten Unterscheidungsmerkmale auf einer stufenweisen Basis zu verwenden, um einen Teil 240 eines komplexen Objekts zu identifizieren, gemäß Ausführungsformen der vorliegenden Erfindung.
-
Wie oben erwähnt durchsucht jede aufeinanderfolgende Klassifizierungseinrichtung den Objektteil 240, um ihren jeweiligen Satz von Unterscheidungsmerkmalen zu identifizieren. Bei dem vorliegenden nicht einschränkenden Beispiel überprüft eine Klassifizierungseinrichtung 505 der ersten Stufe den Kandidatenobjektteil 240 hinsichtlich aus der graphischen Darstellung 405 abgeleiteter Unterscheidungsmerkmale. Wenn sie nicht gefunden werden, wird der identifizierte Pixel-Abschnitt abgelehnt und verteilt das System 100 entweder zusätzliche Suchbereiche in dem Abfragebild 210 oder wendet es die Klassifizierungseinrichtung 505 der ersten Stufe auf zusätzliche Pixel-Abschnitte der Teile des komplexen Objekts in der Warteschlange an. Wenn die erste Klassifizierungseinrichtung 505 diesen ersten Satz von Unterscheidungsmerkmalen identifiziert, sucht eine zweite Klassifizierungseinrichtung 510 nach einem zweiten Satz von Unterscheidungsmerkmalen, die von der graphischen Darstellung 410 abgeleitet werden. Wenn die Klassifizierungseinrichtung 510 sie nicht identifiziert, wird dieses Pixel-Abschnittobjekt wie oben erwähnt ebenfalls abgelehnt. Wenn eine Übereinstimmung erreicht wird, wird eine dritte Klassifizierungseinrichtung 515 angewandt und versucht sie, die von der graphischen Darstellung 415 abgeleiteten Unterscheidungsmerkmale zu identifizieren. Wenn keine Übereinstimmung identifiziert wird, wird der durchsuchte Pixel-Abschnittteil abgelehnt, wohingegen, wenn eine Übereinstimmung identifiziert wird, der Objektteil 240 als durch die Kaskade von Klassifizierungseinrichtungen 520 identifiziert betrachtet wird. Es sei angemerkt, dass bei Ausführungsformen der vorliegenden Erfindung eine beliebige Kaskade von Klassifizierungseinrichtungen, die eine beliebige Anzahl von Klassifizierungseinrichtungen umfasst, die beliebige Anzahlen von Unterscheidungsmerkmalen einsetzen, in Betracht gezogen werden kann.
-
Es sei angemerkt, dass bei einer Ablehnung der Pixel-Abschnitt, bei dem herausgefunden wurde, dass er die Unterscheidungsmerkmale nicht umfasst, als nicht realisierbarer Bereich hinsichtlich dieses bestimmten Objektteils markiert wird, um unnötige Suchen in diesem Bereich hinsichtlich des Teils, für den eine Ablehnung stattfand, zu vermeiden. Es sei angemerkt, dass die vorliegende Erfindung Ausführungsformen umfasst, bei denen Pixel-Abschnitte in Bezug auf einen bestimmten Teil abgelehnt werden und durchaus nach zusätzlichen Objektteilen durchsucht werden können.
-
6 zeigt ein Beispiel einer Klassifizierungseinrichtungsverarbeitung von Pixel-Abschnitten an fünf verschiedenen Orten I–V verarbeitet, wobei fünf separate Kaskaden mit drei Klassifizierungseinrichtungen 1–3 eingesetzt werden, um drei Teile 1–3 eines komplexen Objekts zu identifizieren, gemäß Ausführungsformen der vorliegenden Erfindung. Wie es gezeigt ist, ermitteln die Klassifizierungseinrichtungen 1a, dass bei dem Inhalt von den Orten I und III die gewünschten Merkmale nicht vorhanden sind, und daher gibt es keine weitere Verarbeitung der verbleibenden Klassifizierungseinrichtungen 1b und 1c hinsichtlich des Inhalts von diesen Orten. Die Klassifizierungseinrichtungen 2b fahren mit dem Verarbeiten von Inhalt von den verbleibenden Orten II, IV und V fort. Klassifizierungseinrichtung 2b ermittelt, dass bei dem Inhalt von Ort V ebenfalls die gewünschten Merkmale nicht vorhanden sind, und somit fahren die Klassifizierungseinrichtungen 1c nur mit dem Verarbeiten des Inhalts von den Orten II und IV fort. Klassifizierungseinrichtung 1c ermittelt, dass bei dem Inhalt von Ort IV die gewünschten Merkmale ebenfalls nicht vorhanden sind, und die Klassifizierungseinrichtung 1, die den Inhalt von Ort II verarbeitet, identifiziert die gewünschten Merkmale, und somit wird Teil 1 als sich an Ort II befindend betrachtet.
-
Die Suche nach Teil 2 eines komplexen Objekts kann an mehreren (z. B. fünf) verschiedenen Orten fortgeführt werden, wobei jeweilige Pixel-Abschnitte von den Orten VI–X durch eine andere Kaskade mit drei Klassifizierungseinrichtungen 2a–2c verarbeitet werden. Der Inhalt von den Orten VII und VIII wird durch die Klassifizierungseinrichtung 2a abgelehnt, und somit fährt die Verarbeitung durch die Klassifizierungseinrichtungen 2b hinsichtlich Inhalt von den verbleibenden Orten VI, VIII und X fort. Die Klassifizierungseinrichtungen 2b lehnen den Inhalt von Ort VIII ab, und somit fährt die Verarbeitung durch die Klassifizierungseinrichtungen 2c hinsichtlich Inhalt, der von den Orten V1 und X abgeleitet wird, fort. Klassifizierungseinrichtung 2c lehnt den von Ort VI abgeleiteten Inhalt ab, während Klassifizierungseinrichtung 2a die relevanten Merkmale in dem von Ort X abgeleiteten Inhalt identifiziert. Da alle drei Klassifizierungseinrichtungen 2a–2c die relevanten Merkmale in dem von Ort X abgeleiteten Inhalt identifizierten, wird Teil 2 als identifiziert betrachtet.
-
Die Suche nach Teil 3 fährt mit fünf Kaskaden mit drei Klassifizierungseinrichtungen, jeweils 3a–3c, hinsichtlich von den Orten VI–X abgeleiteten Inhalts fort. Klassifizierungseinrichtung 3a lehnt den von Ort XIIII abgeleiteten Inhalt ab, so dass die Verarbeitung mit von den verbleibenden Orten XI–XIII und XV abgeleiteten Pixel-Abschnitten fortfährt. Klassifizierungseinrichtung 3b lehnt den von Ort XIII abgeleiteten Inhalt ab, und die Klassifizierungseinrichtungen 3c fahren mit dem Verarbeiten von von den verbleibenden Orten XI–XII und XV abgeleitetem Inhalt fort, und lehnen dann den von den Orten XII und XV abgeleiteten Inhalt ab. Die verbleibende Klassifizierungseinrichtung 3c identifiziert die relevanten Merkmale hinsichtlich des von Ort XI abgeleiteten Inhalts. Wieder wird Teil 3 als an Ort XI identifiziert betrachtet, da alle drei Klassifizierungseinrichtungen 3a–3c die relevanten Merkmale in dem von diesem Ort abgeleiteten Inhalt identifiziert haben.
-
7 ist ein Flussdiagramm, das das oben beschriebene Verfahren mit den zusätzlichen Schritten des Verteilens zusätzlicher Suchbereiche oder Pixel-Abschnitte für verbleibende Objektteile nach der Klassifizierung eines Objektteils zeigt.
-
Im speziellen kann in Schritt 710 gemäß einer Ausführungsform der vorliegenden Erfindung ein erster Pixel-Abschnitt aus dem Abfragebild 210, z. B. auf einer zufälligen Basis, gemäß Ausführungsformen der Erfindung ausgewählt werden.
-
In Schritt 715 können unter der Bedingung, dass alle vorherigen Klassifizierungseinrichtungen der Kaskade ihre jeweiligen Sätze charakteristischer Merkmale identifiziert haben, nachfolgende Klassifizierungseinrichtungen auf jeden Teil angewandt werden. In Schritt 720 wird, wenn alle jeweiligen Sätze charakteristischer Merkmale aller Klassifizierungseinrichtungen identifiziert wurden, ein Objektteil wie oben erwähnt als klassifiziert oder identifiziert betrachtet. Wenn jedoch nicht alle jeweiligen Sätze charakteristischer Merkmale identifiziert wurden, wird dieser Pixel-Abschnitt in Schritt 721 als ”Abgelehnt” markiert und wird in Schritt 710 ein neuer Pixel-Abschnitt auf einer zufälligen oder semizufälligen Basis aus dem Abfragebild 210 ausgewählt. Wieder verarbeiten wie in Schritt 715 gezeigt aufeinanderfolgende Klassifizierungseinrichtungen den neu ausgewählten Pixel-Abschnitt. Wenn alle Klassifizierungseinrichtungen deren jeweilige charakteristische Merkmale erfolgreich identifizierten, wurde ein Objektteil wie in Schritt 725 gezeigt klassifiziert und wird ein zusätzlicher Pixel-Abschnitt auf der Grundlage gelernter räumlicher Beziehungen zwischen dem zuvor identifizierten Objektteil (falls vorhanden) und dem zu identifizierenden Teil wie in Schritt 730 gezeigt aus dem Abfragebild ausgewählt. Nach dem Auswählen eines neuen Pixel-Abschnitts, der wahrscheinlich den zusätzlichen Objektteil enthält, wird der Prozess wiederholt, indem nachfolgende Klassifizierungseinrichtungen angewandt werden, die dem zusätzlichen Teil zugehörig sind, wie es in Schritt 715 gezeigt ist.
-
Das in 8 gezeigte Verfahren ist analog zu dem in 7 gezeigten Verfahren, mit einer alternativen Art und Weise des Auswählens zusätzlicher Pixel-Abschnitte, die wahrscheinlich zusätzliche Objektteile enthalten, wobei eine Wahrscheinlichkeitsabbildung eingesetzt wird, wie es in Schritt 830 gezeigt ist.
-
Im Speziellen wird ein Wahrscheinlichkeitswert, der zwischen Null und Eins liegt, jedem Pixel in Ansprechen auf Ausgangswerte jeder Klassifizierungseinrichtung, die einen bestimmten Pixel-Abschnitt verarbeitet, zugeordnet. Nach dem Identifizieren eines Objektteils wird die Wahrscheinlichkeitsabbildung dementsprechend aktualisiert und wird ein Pixel-Abschnitt ausgewählt, indem das Argument des Maximums (Argmax) einer Wahrscheinlichkeitsfunktion für den nächsten Objektteil berechnet wird, oder äquivalent: ArgmaxPn+1Prob(Pn+1|P'n+1, P1, ...., Pn) wobei:
- Pn
- die Wahrscheinlichkeitsabbildung des Detektierens von Teil n = 1...N ist;
- Pn+i
- die vorherige Wahrscheinlichkeitsabbildung ist.
-
Gebiete mit Wahrscheinlichkeitswerten, die kleiner als ein vordefinierter Wert sind, werden abgelehnt, in dem die Wahrscheinlichkeitswerte auf Null gesetzt werden.
-
9 und 10 sind Abfragebilder 210 von 2 mit überlagerten Suchfenstern, die Bereiche angeben, die nach einem Objektteil durchsucht werden. Bei verschiedenen Ausführungsformen kann ein System für eine Detektion eines komplexen Objekts unter Verwendung einer Kaskade von Klassifizierungseinrichtungen gemäß einer Ausführungsform der vorliegenden Erfindung ausgestaltet sein, um Suchfenster, die einen Bereich umschließen, der im Wesentlichen den Bereich des gelernten Objektteils entspricht, zu verteilen. Bei einem nicht einschränkenden Beispiel umschließen Suchfenster 970 und 975 Bereiche, die Bereichen entsprechen, die einen gelernten Kopf 340 bzw. einen gelernten Rücken 350 von 3 enthalten. Ferner können die Suchfenster 970 und 975 an mehreren Orten, wobei ein Abschnitt des neuen Suchbereichs einen Abschnitt des vorherigen durchsuchten Bereichs überschneidet, wie es gezeigt ist, oder bei einem Verfahren, das für entweder den ersten ausgewählten Pixel-Abschnitt oder zwei Ersatzabschnitte, die als die relevanten Unterscheidungsmerkmale nicht aufweisend abgelehnt wurden, vollständig zufällig ist, verteilt werden.
-
Wenn ein Objektteil identifiziert wurde, wird er als Grundlage für ein Verteilen zusätzlicher Suchbereiche, die den angeforderten Objektteil am wahrscheinlichsten enthalten, wie oben erwähnt, verwendet. Einige Ausführungsformen wenden eine gelernte anthropometrische Beziehung auf den identifizierten Teil an, um den darauffolgenden Suchbereich auf Pixel-Bereiche zu lenken, die den zusätzlichen Teil am wahrscheinlichsten enthalten, wie es oben erwähnt ist. Andere Ausführungsformen verwenden den Ort des identifizierten Teils als A-priori-Daten beim Ermitteln von ”maxarg” einer Wahrscheinlichkeitsfunktion für alle Teile wie oben erwähnt. Ein Fenster 980 gibt an, dass der Kopf 240 (2) ausfindig gemacht wurde, und daher werden Suchfenster 990 und 1090 (10) in Bereichen verteilt, die am wahrscheinlichsten den Rücken 250 enthalten, da diese Bereiche die anthropometrische Beziehung dieser Teile in dem Modellbild 330 von 3 darstellen. Da beide Seiten des Objekts 220 die gelernte [engl.: ”leaned”] anthropometrische Beziehung erfüllen, werden die Bereiche beider Suchfenster 990 und 1090 als geeignete zu durchsuchende Pixel-Abschnitte identifiziert.
-
Bei einigen Ausführungsformen der vorliegenden Erfindung können beim Einsetzen von Wahrscheinlichkeitsabbildungen beide Bereiche, die in den Fenstern 990 und 1090 umschlossen sind, als eine hohe Wahrscheinlichkeit des Enthaltens des Rückens 250 angesichts der aktualisierten Wahrscheinlichkeitsdaten aufweisend ermittelt werden. Es sei angemerkt, dass in dem Schutzumfang der vorliegenden Erfindung beliebige Mehrzahlen von Suchen umfasst sind.
-
11 zeigt eine Ausführungsform, bei der Pixel-Abschnitte auf der Grundlage einer erfolgreichen Identifikation oder Klassifizierung mehrerer Objektteile verteilt werden. Beispielsweise wurden sowohl der Kopf 240 als auch der Fuß 260 (3) in Suchfenstern 1110 bzw. 1120 identifiziert. Das Suchfenster 1190 wird auf der Grundlage gelernter anthropometrischer Beziehungen zwischen jedem dieser Teile aus dem Modellbild 330, das in 3 gezeigt ist, oder aktualisierter Wahrscheinlichkeitsdaten verteilt. Es sei angemerkt, dass Ausführungsformen, bei denen zusätzliche Suchbereiche auf der Grundlage einer beliebigen Anzahl an zuvor identifizierten Objektteilen verteilt werden, in dem Schutzumfang der vorliegenden Erfindung umfasst sind.
-
Bei einigen Ausführungsformen der vorliegenden Erfindung wird ferner die Recheneffizienz [engl.: ”computational is efficiency further”] optimiert, indem die Suchredundanz reduziert wird. Fenster 1100 ist ein Fenster, das einen abgelehnten Pixel-Abschnitt oder Bereich markiert, nachdem eine beliebige der Klassifizierungseinrichtungen einer Kaskade ermittelt hat, dass in dem Abschnitt keine Unterscheidungsmerkmale vorhanden sind.
-
12 und 13 zeigen Anwendungen der oben beschriebenen durch Kaskadenklassifizierungseinrichtungen unterstützten Suche nach einem komplexen Objekt, das teilweise verdeckt ist bzw. einen reduzierten Maßstab aufweist, gemäß Ausführungsformen der vorliegenden Erfindung. Im Speziellen wird der Kopf 240 in Fenster 1210 identifiziert und wird Fenster 1220 als möglicher Ort für den Fuß 260 auf der Grundlage von entweder einer gelernten anthropometrischen Beziehung zwischen dem Kopf 340 und dem Fuß 360 von 3 oder auf der Grundlage von Wahrscheinlichkeitsdaten angesichts des identifizierten Kopfs 240 wie oben erwähnt verteilt.
-
14 zeigt ein nicht einschränkendes von einem Computer lesbares Medium, das ausführbaren Code enthält, um ein Computersystem zu konfigurieren, um die oben beschriebene durch eine Kaskadenklassifizierungseinrichtung unterstützte Suche nach komplexen Objekten in einem Bild gemäß Ausführungsformen der vorliegenden Erfindung auszuführen.
-
Ausführungsformen der vorliegenden Erfindung identifizieren ein vollständiges Objekt durch Kombinieren von Objektteilen, die in verschiedenen Pixel-Abschnitten identifiziert wurden.
-
Es sei angemerkt, dass Suchbereiche auf der Grundlage einer beliebigen Anzahl von erfolgreich identifizierten Objektteilen gemäß der bestimmten Ausführungsform verteilt werden können. Ferner sei angemerkt, dass eine Suche mit kreisförmigen, dreieckigen und polygonalen Suchfenstern innerhalb des Schutzumfangs der vorliegenden Erfindung liegt.
-
Während hierin bestimmte Merkmale der Erfindung dargestellt und beschrieben wurden, werden nun viele Abwandlungen, Ersetzungen, Änderungen und Äquivalente für Fachleute ersichtlich werden. Daher ist zu verstehen, dass die beigefügten Ansprüche alle derartigen Abwandlungen und Änderungen, die in dem Gedanken der Erfindung liegen, abdecken sollen.