DE112009000480T5

DE112009000480T5 - Dynamische Objektklassifikation

Info

Publication number: DE112009000480T5
Application number: DE112009000480T
Authority: DE
Inventors: Mahesh Saptharishi; Dimitri A. Lisin; Aleksey Lipchin; Igor Reyzin
Original assignee: VideoIQ Inc
Current assignee: Motorola Solutions Inc
Priority date: 2008-03-03
Filing date: 2009-03-03
Publication date: 2011-04-07
Also published as: TW200945218A; US20190303667A1; US10699115B2; US20220027618A1; US11669979B2; KR101592889B1; GB2492247A8; GB201211438D0; KR20100126468A; GB201014669D0; GB2471036A; US10417493B2; US8934709B2; US20150278607A1; US20140176727A1; GB2492246A8; TWI534719B; US10339379B2; GB2492246B; US10127445B2

Abstract

Kamerasystem (100) mit:
einer Bilderfassungsvorrichtung (102) mit einem Blickfeld, die Bilddaten erzeugt, die ein Bild des Blickfeldes darstellen; und
einem Objektklassifikationsmodul (210), das mit der Bilderfassungsvorrichtung (102) verbunden ist, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um festzustellen, ob ein Objekt in einem Bild ein Mitglied einer Objektklasse ist oder nicht, wobei das Objektklassifikationsmodul (210) N Entscheidungsschritte (400) umfasst, die in einer Kaskadenkonfiguration konfiguriert sind, wobei mindestens einer der N Entscheidungsschritte (400) betriebsfähig ist, um (a) ein Objekt als Mitglied der Objektklasse anzunehmen, (b) ein Objekt als Mitglied der Objektklasse abzulehnen, und (c) einen nächsten Schritt (400) heranzuziehen, um festzustellen, ob ein Objekt ein Mitglied der Objektklasse ist oder nicht.

Description

Verwandte Anmeldungen
Diese Anmeldung beansprucht den Nutzen unter 35 U. S. C. § 119(e) der vorläufigen US-Anmeldung Nr. 61/033 349 mit dem Titel "Method of Dynamic Object and Event Classification", eingereicht am 3. März 2008, und der vorläufigen US-Anmeldung Nr. 61/033 284 mit dem Titel "Method and System for Tracking Objects Under Video Surveillance", eingereicht am 3. März 2008, die beide durch den Hinweis in ihren Gesamtheiten hierin aufgenommen werden.
Technisches Gebiet
Diese Offenbarung bezieht sich im Allgemeinen, aber nicht ausschließlich auf eine Videoüberwachung und insbesondere auf eine Objektklassifikation.
Hintergrundinformationen
Automatisierte Sicherheits- und Überwachungssysteme verwenden typischerweise Videokameras oder andere Bilderfassungsvorrichtungen oder Sensoren, um Bilddaten zu sammeln. In den einfachsten Systemen werden durch die Bilddaten dargestellte Bilder für eine zeitgleiche Rasterung durch Sicherheitspersonal angezeigt und/oder für eine spätere Bezugnahme nach einem Sicherheitsbruch aufgezeichnet. In diesen Systemen wird die Aufgabe der Detektion von interessierenden Objekten von einem menschlichen Beobachter durchgeführt. Ein signifikanter Vorteil tritt auf, wenn das System selbst die Objektdetektion und -klassifikation entweder teilweise oder vollständig durchführen kann.
In einem typischen Überwachungssystem kann man beispielsweise an der Detektion von Objekten wie z. B. Menschen, Fahrzeugen, Tieren, usw., die sich durch die Umgebung bewegen, interessiert sein. Verschiedene Objekte könnten verschiedene Bedrohungen oder Alarmniveaus darstellen. Ein Tier in der Szene kann beispielsweise normal sein, aber ein Mensch oder ein Fahrzeug in der Szene kann eine Ursache für einen Alarm sein und kann die unmittelbare Aufmerksamkeit eines Sicherheitsbediensteten erfordern. Existierende Systeme, die in der Lage sind, detektierte Objekte zu klassifizieren, verwenden gewöhnlich eine einfache Heuristik, um breite Kategorien von Objekten voneinander zu unterscheiden. Vorbestimmte Erwartungen für das Seitenverhältnis und die Höhe werden beispielsweise verwendet, um ein detektiertes Objekt als Menschen zu klassifizieren. Theoretisch sind heuristische Verfahren rechnerisch günstig und leicht zu implementieren, aber sie sind viel weniger robust als optimierte Parameterklassifikatoren, die unter Verwendung von bekannten Maschinenlernalgorithmen gebildet werden, wie z. B. Adaptive Boosting (AdaBoost). Bekannte Parameterklassifikatoren leiden jedoch unter einem oder mehreren von (1) dem Mangel an bezeichneten Daten zum Trainieren und (2) der Unfähigkeit, sich automatisch zu entwickeln.
Klassifikatoren des Standes der Technik erfordern typischerweise eine manuelle geometrische Kalibrierung und Abstimmung. Eine solche Kalibrierung und Abstimmung konzentrieren sich typischerweise auf eine Zwischenbenutzereingabe (z. B. Objekthöhen), die die Leistung des Systems direkt beeinflusst und typischerweise zeitaufwändige Arbeit durch geschultes Personal während der Installation erfordert. Überdies ist typischerweise eine Neuabstimmung und Kalibrierung erforderlich, wenn die Jahreszeiten wechseln oder wenn eine Kamera bewegt wird.
Kurzbeschreibung der Zeichnungen
1 ist ein bildhaftes Diagramm eines Kamerasystems gemäß einem Ausführungsbeispiel.
2 ist ein vereinfachtes Blockdiagramm von einer der Bilderfassungsvorrichtungen in dem in 1 gezeigten System.
3 ist ein Blockdiagramm des in 2 gezeigten Objektklassifikationsmoduls.
4 ist ein Blockdiagramm von einem der Klassifikatoren von 3.
5A ist ein Blockdiagramm, das einen der anfänglichen N-1 Schritte in dem in 4 gezeigten Klassifikator zeigt.
5B ist eine Darstellung von Annahme- und Ablehnungsschwellenwerten, die in dem in 5A gezeigten Schritt verwendet werden.
6 ist ein Ablaufplan, der ein Verfahren zur Verwendung eines Kamerasystems gemäß einem Ausführungsbeispiel darstellt.
7 ist ein Ablaufdiagramm, das ein Objektverfolgungsverfahren zeigt.
8 ist ein Ablaufplan eines Objektklassifikator-Trainingsverfahrens.
9 ist ein Ablaufplan eines weiteren Objektklassifikator-Trainingsverfahrens.
10 stellt einen Prozess zum Gewinnen einer Rückmeldung von einem Benutzer, der eine Benutzerschnittstelle bedient, dar.
11 ist ein Blockdiagramm eines spezialisierten Klassifikators.
12 ist ein Ablaufplan eines Spezialisierungstrainingsprozesses, einschließlich einer aktiven Überprüfung.
13 stellt einen passiven Überprüfungsprozess genauer dar.
14 ist ein Ablaufplan eines aktiven Überprüfungsprozesses.
15 zeigt einen Rückmeldungssammel- und Verallgemeinerungsprozess.
16 ist ein Blockdiagramm eines Kiassifikators mit einem hinzugefügten Schritt, um einen neuen Objekttyp zu erkennen.
17 ist ein Ablaufplan eines Kalibrierungsverfahrens, das eine Größenfunktion verwendet und aktualisiert.
18 ist ein Blockdiagramm des Videoanalysemoduls von 3 gemäß einem weiteren Ausführungsbeispiel.
Ausführliche Beschreibung von Ausführungsbeispielen
Mit Bezug auf die vorstehend aufgelisteten Zeichnungen beschreibt dieser Abschnitt spezielle Ausführungsbeispiele und ihre ausführliche Konstruktion und Operation. Die hierin beschriebenen Ausführungsbeispiele werden nur zur Erläuterung und nicht zur Begrenzung dargelegt. Der Fachmann auf dem Gebiet wird angesichts der Lehren hierin erkennen, dass ein Bereich von Äquivalenten zu den hierin beschriebenen Beispielausführungsbeispielen besteht. Vor allem sind andere Ausführungsbeispiele möglich, Veränderungen können an den hierin beschriebenen Ausführungsbeispielen vorgenommen werden und es können Äquivalente zu den Komponenten, Teilen oder Schritten bestehen, die die beschriebenen Ausführungsbeispiele bilden.
Der Deutlichkeit und Kürze halber werden bestimmte Aspekte von Komponenten oder Schritten von bestimmten Ausführungsbeispielen ohne übermäßiges Detail dargestellt, wenn ein solches Detail für den Fachmann auf dem Gebiet angesichts der Lehren hierin ersichtlich wäre und/oder wenn ein solches Detail ein Verständnis von relevanteren Aspekten der Ausführungsbeispiele verschleiern würde.
Überblick
Wie ein Fachmann auf dem Gebiet angesichts dieser Offenbarung erkennen wird, können bestimmte Ausführungsbeispiele bestimmte Vorteile gegenüber dem bekannten Stand der Technik erreichen, einschließlich vielleicht einiger oder aller der folgenden: (1) verbesserte Objektklassifikationsgenauigkeit; (2) Verwendung einer Benutzerrückmeldung zum Training und zur Anpassung eines Objektklassifikators, (3) Lernen von neuen Objektklassen in einem am Einsatzort aufgestellten Kamerasystems; (4) Online-Auswertung und -Einsatz von neuen Objektklassifikatoren; (5) Gewinnen einer Rückmeldung von einer Gemeinschaft von Kamerasystemen, um neue und/oder genauere allgemeine Objektklassifikatoren zu trainieren; (6) Kalibrieren eines am Einsatzort aufgestellten Kamerasystems während des Live-Betriebs; (7) Verringerung oder sogar Beseitigung des Bedarfs an einer manuellen Kalibrierung von Systemen am Einsatzort während der Installation und Abstimmung der Systeme danach aufgrund von Jahreszeitenwechseln oder einer Kamerabewegung; und (8) automatische Anpassung des Kamerasystems an sich ändernde Bedingungen. Diese und weitere Vorteile von verschiedenen Ausführungsbeispielen sind beim Lesen des Rests dieses Dokuments ersichtlich.
Gemäß einem Ausführungsbeispiel umfasst ein Kamerasystem eine Bilderfassungsvorrichtung und ein Objektklassifikationsmodul, das mit der Bilderfassungsvorrichtung verbunden ist. Die Bilderfassungsvorrichtung weist ein Blickfeld auf und erzeugt Bilddaten, die ein Bild des Blickfeldes darstellen. Das Objektklassifikationsmodul ist betriebsfähig, um festzustellen, ob ein Objekt in einem Bild ein Mitglied einer Objektklasse ist oder nicht. Das Objektklassifikationsmodul umfasst N Entscheidungsschritte, die in einer Kaskadenkonfiguration konfiguriert sind, wobei mindestens einer der N Entscheidungsschritte betriebsfähig ist, um (a) ein Objekt als Mitglied der Objektklasse anzunehmen, (b) ein Objekt als Mitglied der Objektklasse abzulehnen, und (c) einen nächsten Schritt heranzuziehen, um festzustellen, ob ein Objekt ein Mitglied der Objektklasse ist oder nicht.
Gemäß einem weiteren Ausführungsbeispiel klassifiziert ein Verfahren ein Objekt, das von einem Kamerasystem erfasst wird, das ein Objektklassifikationsmodul mit N Entscheidungsschritten umfasst, die in einer Kaskadenkonfiguration konfiguriert sind. Das Verfahren erfasst ein Bild eines Objekts, überträgt Bilddaten, die das Objekt darstellen, zu einem ersten der N Entscheidungsschritte. Das Verfahren identifiziert ein Merkmal des Objekts, das in den Bilddaten dargestellt ist, um festzustellen, ob das Objekt ein Mitglied einer Objektklasse ist, wobei ein Entscheidungsschrittwert vom Merkmal des Objekts abgeleitet wird. Das Verfahren trifft eine Entscheidung, um entweder das Objekt als Mitglied der Objektklasse anzunehmen, das Objekt als Mitglied der Objektklasse abzulehnen oder die Bilddaten zu einem zweiten der N Entscheidungsschritte zur weiteren Analyse weiterzuleiten. Die Entscheidung basiert auf einem Vergleich des Entscheidungsschrittwerts mit einem oder mehreren eines Annahmeschwellenwerts und eines Ablehnungsschwellenwerts. Der Annahmeschwellenwert ist ein höherer Wert als der Ablehnungsschwellenwert. Das Objekt wird als Mitglied der Objektklasse angenommen, wenn der Entscheidungsschrittwert über dem Annahmeschwellenwert liegt. Das Objekt wird als Mitglied der Objektklasse abgelehnt, wenn der Entscheidungsschrittwert unter dem Ablehnungsschwellenwert liegt. Die Bilddaten werden zum zweiten Entscheidungsschritt weitergeleitet, wenn der Entscheidungsschrittwert zwischen dem Annahme- und dem Ablehnungsschwellenwert liegt.
Gemäß einem weiteren Ausführungsbeispiel umfasst ein Kamerasystem eine Bilderfassungsvorrichtung und ein Objektklassifikationsmodul, das mit der Bilderfassungsvorrichtung verbunden ist. Die Bilderfassungsvorrichtung weist ein Blickfeld auf und erzeugt Bilddaten, die ein Bild des Blickfeldes darstellen. Das Objektklassifikationsmodul ist betriebsfähig, um festzustellen, ob ein Objekt im Bild ein Mitglied einer Objektklasse ist oder nicht. Das Objektklassifikationsmodul umfasst N Entscheidungsschritte, die in einer Kaskadenkonfiguration konfiguriert sind. Jeder der Entscheidungsschritte umfasst eine oder mehrere Stufen zum Abbilden von Objektmerkmalen auf Skalarwerte. Eine erste der Stufen umfasst eine erste Diskriminantenfunktion zum Bestimmen eines ersten Skalarwerts und eine zweite der Stufen umfasst eine zweite Diskriminantenfunktion zum Bestimmen eines zweiten Skalarwerts. Die erste und die zweite Diskriminantenfunktion sind von verschiedenen Typen.
Gemäß einem weiteren Ausführungsbeispiel klassifiziert ein Verfahren ein Objekt, das von einem Kamerasystem erfasst wird. Das Verfahren erzeugt Bilddaten, die ein Bild eines Objekts darstellen, das von dem Kamerasystem erfasst wird, und identifiziert ein erstes und ein zweites Merkmal des in den Bilddaten dargestellten Objekts. Das Verfahren bildet das erste und das zweite Merkmal des Objekts auf einen jeweiligen ersten und zweiten Skalarwert ab. Eine erste Diskriminantenfunktion wird verwendet, um den ersten Skalarwert zu erzeugen, und eine zweite Diskriminantenfunktion wird verwendet, um den zweiten Skalarwert zu erzeugen. Die erste und die zweite Diskriminantenfunktion werden während einer Trainingsoperation aus einer Gruppe ausgewählt, die aus mehreren verschiedenen Diskriminantenfunktionen besteht. Das Verfahren stellt auf der Basis eines Entscheidungsschrittwerts, der vom ersten und vom zweiten Skalarwert abgeleitet, wird, fest, ob das Objekt ein Mitglied einer Objektklasse ist.
Gemäß einem weiteren Ausführungsbeispiel umfasst ein Kamerasystem eine Bilderfassungsvorrichtung, ein Objektklassifikationsmodul, das mit der Bilderfassungsvorrichtung verbunden ist, und ein Kalibrierungsmodul, das mit dem Objektklassifikationsmodul verbunden ist. Die Bilderfassungsvorrichtung weist ein Blickfeld und eine Bildebene auf. Die Bilderfassungsvorrichtung erzeugt die Bilddaten, die ein Bild des Blickfeldes darstellen, das auf die Bildebene projiziert wird. Das Objektklassifikationsmodul ist betriebsfähig, um Objekte auf der Basis der Bilddaten zu detektieren und zu klassifizieren, die im Blickfeld erfasst werden. Das Objektklassifikationsmodul ist betriebsfähig, um Objekte als Mitglieder oder Nicht-Mitglieder einer Objektklasse zu klassifizieren. Das mit dem Objektklassifikationsmodul verbundene Kalibrierungsmodul dient zum Abschätzen von repräsentativen Größen von Mitgliedern der Objektklasse, wobei die repräsentativen Größen verschiedenen Bereichen der Bildebene entsprechen. Das Kalibrierungsmodul ist betriebsfähig, um die repräsentativen Größen in Reaktion auf Klassifikationen, die durch das Objektklassifikationsmodul während des Live-Betriebs durchgeführt werden, automatisch zu aktualisieren. Das Kalibrierungsmodul ist betriebsfähig, um Informationen, die die aktualisierten repräsentativen Größen darstellen, zum Objektklassifikationsmodul zu liefern, um seine Objektklassifikationsleistung zu verbessern.
Gemäß einem weiteren Ausführungsbeispiel kalibriert ein Verfahren automatisch ein am Einsatzort aufgestelltes Kamerasystem. Das Verfahren erfasst mehrere Bilder eines Blickfeldes des Kamerasystems. Die mehreren Bilder entsprechen einer Bildebene des Kamerasystems, auf die das Blickfeld projiziert wird. Das Verfahren detektiert ein erstes Objekt in den mehreren Bildern. Das erste Objekt wird an verschiedenen Stellen der Bildebene in den mehreren Bildern detektiert. Bilder des ersten Objekts weisen verschiedene Größen entsprechend den verschiedenen Stellen auf. Das Verfahren klassifiziert das erste Objekt als erstes Mitglied einer Objektklasse und berechnet einen Parameter einer Größenfunktion für die Bildebene auf der Basis der verschiedenen Größen des ersten Objekts. Die Größenfunktion wird verwendet, um repräsentative Größen der Objektklasse für die Bildebene abzuschätzen. Das Verfahren aktualisiert den Parameter der Größenfunktion in Reaktion auf die Detektion und Klassifikation eines zweiten Mitglieds der Objektklasse. Das zweite Mitglied wird während des Live-Betriebs des Kamerasystems detektiert und klassifiziert.
Gemäß einem weiteren Ausführungsbeispiel modifiziert ein Verfahren ein Objektklassifikationsmodul, das von einem Benutzer in einem am Einsatzort aufgestellten Kamerasystem verwendet wird. Das Verfahren erfasst mehrere Bilder in einem Blickfeld des Kamerasystems. Die mehreren Bilder enthalten Darstellungen von mehreren Objekten. Ein erster Satz der mehreren Objekte sind Mitglieder einer Objektklasse und ein zweiter Satz der mehreren Objekte sind keine Mitglieder der Objektklasse. Das Verfahren klassifiziert die mehreren Objekte als entweder Mitglieder oder Nicht-Mitglieder der Objektklasse, wobei das Objektklassifikationsmodul eine oder mehrere irrtümliche Klassifikationen erzeugt. Das Verfahren erzeugt Fehlermetadaten auf der Basis einer Bestätigung durch den Benutzer von mindestens einigen der einen oder mehreren irrtümlichen Klassifikationen. Das Verfahren modifiziert das Objektklassifikationsmodul auf der Basis der Fehlermetadaten, um eine Anzahl von irrtümlichen Klassifikationen zu verringern, wobei das Modifizieren während der Verwendung am Einsatzort des Kamerasystems durchgeführt wird.
Gemäß einem weiteren Ausführungsbeispiel umfasst ein Kamerasystem eine Bilderfassungsvorrichtung, ein Objektklassifikationsmodul, das mit der Bilderfassungsvorrichtung verbunden ist, eine Benutzerstation, die mit der Bilderfassungsvorrichtung verbunden ist, und ein Klassifikatorentwicklungsmodul. Die Bilderfassungsvorrichtung weist ein Blickfeld auf und erzeugt Bilddaten, die Bilder des Blickfeldes darstellen. Das Objektklassifikationsmodul ist betriebsfähig, um festzustellen, ob Objekte in den Bildern Mitglieder einer Objektklasse sind oder nicht, wobei das Objektklassifikationsmodul irrtümliche Klassifikationen erzeugt. Die Benutzerstation weist eine Anzeige zum Darstellen von Bildern des Blickfeldes für einen Benutzer auf. Die Benutzerstation ist betriebsfähig, um auf der Anzeige Darstellungen der irrtümlichen Klassifikationen darzustellen, die durch das Objektklassifikationsmodul erzeugt werden. Die Benutzerstation ist betriebsfähig, um Benutzerrückmeldungsinformationen in Reaktion auf eine Benutzerbestätigung der irrtümlichen Klassifikationen zu erzeugen. Die Benutzerrückmeldung erzeugt Fehlermetadaten. Das Klassifikatorentwicklungsmodul empfängt die Fehlermetadaten und ist betriebsfähig, um das Objektklassifikationsmodul unter Verwendung der Fehlermetadaten zu modifizieren, um die Anzahl von irrtümlichen Klassifikationen zu verringern. Das Klassifikatorentwicklungsmodul erzeugt dadurch einen spezialisierten Klassifikator.
Gemäß noch einem weiteren Ausführungsbeispiel konstruiert ein Verfahren ein neues Objektklassifikationsmodul für die Verwendung in einem am Einsatzort aufgestellten Kamerasystem. Das neue Objektklassifikationsmodul klassifiziert Objekte als Mitglieder oder Nicht-Mitglieder einer von einem Benutzer ausgewählten neuen Objektklasse. Das Verfahren erfasst mehrere Bilder eines Blickfeldes des Kamerasystems. Die mehreren Bilder enthalten Darstellungen von mehreren Objekten, wobei ein erster Satz der mehreren Objekte Mitglieder der neuen Objektklasse sind und ein zweiter Satz der mehreren Objekte keine Mitglieder der neuen Objektklasse sind. Das Verfahren verwendet ein eingesetztes Objektklassifikationsmodul, um die mehreren Objekte als Mitglieder einer eingesetzten Objektklasse zu klassifizieren. Das Verfahren stellt auf einer Anzeige Darstellungen der mehreren Objekte dar, die durch das eingesetzte Objektklassifikationsmodul klassifiziert werden. Ein Benutzer bezeichnet die mehreren Objekte als entweder Mitglieder oder Nicht-Mitglieder der neuen Objektklasse. Das Verfahren erzeugt Metadaten auf der Basis der Bezeichnungen und konstruiert die neue Objektklassifikation durch Modifizieren des eingesetzten Objektklassifikationsmoduls auf der Basis der Metadaten.
Zusätzliche Aspekte und Details der Konstruktion und Operation der vorangehenden Ausführungsbeispiele und weiterer Ausführungsbeispiele sind in den folgenden Unterabschnitten mit Bezug auf die zugehörigen Zeichnungen dargelegt.
Gesamtsystem
1 ist ein bildhaftes Diagramm eines Kamerasystems 100 gemäß einem Ausführungsbeispiel. Das Kamerasystem 100 umfasst Bilderfassungsvorrichtungen 102, eine Benutzerschnittstelle 104 und eine entfernte Speicher/Verarbeitungseinheit 106, die in einem Netzwerk 108 miteinander verbunden sind. Das Netzwerk 108 kann einen beliebigen Typ von verdrahtetem oder drahtlosem Netzwerk umfassen. Obwohl das Kamerasystem 100 von 1 mehrere Bilderfassungsvorrichtungen 102 umfasst, die in einem Netzwerk verbunden sind, kann das Kamerasystem 100 eine einzelne Bilderfassungsvorrichtung 102 umfassen. Die Bilderfassungsvorrichtungen 102 können ein internes Speichersystem 110 mit einem Festplattenlaufwerk (HD) 111 und einer Metadaten-Datenbank (DB) 112 umfassen. Die Bilderfassungsvorrichtungen 102 können beispielsweise ein Speichersystem umfassen, das in der im gemeinsamen Besitz stehenden US-Patentanmeldung Nrn. 12/105 971 und 12/105 893 mit dem Titel "Content Aware Storage of Video Data" bzw. "Extending the Operational Lifetime of a Hard-Disk Drive Used in Video Data Storage Applications" beschrieben ist, die beide durch den Hinweis in ihren Gesamtheiten hierin aufgenommen werden. Die Benutzerschnittstelle 104 umfasst eine Anzeige 114 und eine Eingabevorrichtung 116. Die Bilderfassungsvorrichtungen 102 erfassen Bilder von ihren jeweiligen Blickfeldern und erzeugen Bilddaten, die die Bilder darstellen. Es soll selbstverständlich sein, dass Bilder sich auf Standbilder oder Bewegungsvideobilder beziehen können. Die Bilddaten werden über das Netzwerk 108 zur Benutzerschnittstelle 104 übertragen und Bilder von einem oder mehreren der Blickfelder werden auf der Anzeige 114 dargestellt. Die Eingabevorrichtung 116 ist betriebsfähig, um einem Benutzer zu ermöglichen, Benutzerrückmeldungsinformationen für das Kamerasystem 100 bereitzustellen. Die Bilddaten können auch über das Netzwerk 108 zur entfernten Speicher/Verarbeitungseinheit 106 übertragen werden, wo das (die) Speichersystem(e) 110 oder Teile davon oder ähnliche Speichersysteme alternativ oder zusätzlich angeordnet sein können.
2 ist ein vereinfachtes Blockdiagramm von einer der Bilderfassungsvorrichtungen 102. Die Bilderfassungsvorrichtung 102 kann eine Videokamera mit hoher Auflösung wie z. B. eine Megapixel-Videokamera sein. Die Bilderfassungsvorrichtung 102 kann auch Daten von außerhalb des sichtbaren Spektrums (z. B. Wärmeenergie) erfassen. Zusätzlich zum Speichersystem 110 umfasst die Bilderfassungsvorrichtung 102 eine Bildverarbeitungseinheit, die ein Videoanalysemodul 200 zum Analysieren von Bildern, die durch die Bilderfassungsvorrichtung 102 erfasst werden, umfasst. Daten, die vom Videoanalysemodul 200 erzeugt werden, können von einer Regelmaschine (nicht dargestellt) verwendet werden, um festzustellen, ob eine oder mehrere vom Benutzer festgelegte Regeln verletzt wurden oder nicht. Die Regelmaschine kann beispielsweise einen Alarm auslösen, der auf der Anzeige 114 der Benutzerschnittstelle 104 dargestellt wird, wenn ein Mensch im Blickfeld von einer der Bilderfassungsvorrichtungen 102 detektiert wird. Die Bildverarbeitungseinheit muss nicht in einem Gehäuse 202 der Bilderfassungsvorrichtung 102 enthalten sein, wie in 2 dargestellt. Überdies kann die entfernte Speicher/Verarbeitungseinheit 106 auch eine Bildverarbeitungseinheit umfassen.
Das Videoanalysemodul 200 umfasst eine Anzahl von Modulen zum Durchführen von verschiedenen Aufgaben. Das Videoanalysemodul 200 umfasst beispielsweise ein Objektdetektionsmodul 204 zum Detektieren von Objekten, die im Blickfeld der Bilderfassungsvorrichtung 102 erscheinen. Die Eingabe in das Objektdetektionsmodul 204 sind Videodaten, vorzugsweise Live-Videodaten von einem Bildwandler (nicht dargestellt) oder einem Videopufferspeicher (nicht dargestellt). Das Objektdetektionsmodul 204 kann ein beliebiges bekanntes Objektdetektionsverfahren wie beispielsweise eine Bewegungsdetektion und Fleckdetektion verwenden. Das Objektdetektionsmodul 204 kann die Systeme umfassen und die Detektionsverfahren verwenden, die in der im gemeinsamen Besitz stehenden US-Patentanmeldung Nr. 10/884 486 mit dem Titel "Methods and Systems for Detecting Objekts of Interest in Spatio-Temporal Signals" beschrieben sind, deren gesamter Inhalt durch den Hinweis hierin aufgenommen wird.
Das Videoanalysemodul 200 umfasst auch ein Objektverfolgungsmodul 206, das mit dem Objektdetektionsmodul 204 verbunden ist. Wie hierin verwendet, bedeutet der Begriff ”verbunden” direkt oder indirekt über eine oder mehrere Vermittler logisch oder physikalisch verbunden. Das Objektverfolgungsmodul 206 ist betriebsfähig, um Fälle eines durch das Objektdetektionsmodul 204 detektierten Objekts zeitlich zuzuordnen. Das Objektverfolgungsmodul 206 kann die Systeme umfassen und die Verfahren verwenden, die in der im gemeinsamen Besitz stehenden US-Patentanmeldung Nr. _/_,_ (Anwaltsregisternr. 37686/7:2) mit dem Titel "Objekt Matching for Tracking, Indexing, and Search" beschrieben sind, deren gesamter Inhalt durch den Hinweis hierin aufgenommen wird. Das Objektverfolgungsmodul 206 erzeugt Metadaten entsprechend Objekten, die es verfolgt. Die Metadaten können Signaturen des Objekts entsprechen, die das Aussehen oder andere Merkmale des Objekts darstellen. Die Metadaten können zur Metadaten-Datenbank 112 zur Speicherung übertragen werden.
Das Videoanalysemodul 200 umfasst auch ein zeitliches Objektklassifikationsmodul 208, das mit dem Objektverfolgungsmodul 206 verbunden ist. Das zeitliche Objektklassifikationsmodul 208 ist betriebsfähig, um ein Objekt gemäß seinem Typ (z. B. Mensch, Fahrzeug, Tier) durch Betrachten des Aussehens des Objekts über die Zeit zu klassifizieren. Mit anderen Worten, das Objektverfolgungsmodul 206 verfolgt ein Objekt für mehrere Rahmen (d. h. mehrere Bilder) und das zeitliche Objektklassifikationsmodul 208 bestimmt den Typ des Objekts auf der Basis seines Aussehens in den mehreren Rahmen. Eine Ganganalyse der Art, in der eine Person geht, kann beispielsweise nützlich sein, um eine Person zu klassifizieren, oder die Analyse der Beine einer Person kann nützlich sein, um einen Fahrradfahrer zu klassifizieren. Das zeitliche Objektklassifikationsmodul 208 kann Informationen hinsichtlich der Bahn eines Objekts (z. B. ob die Bahn glatt oder chaotisch ist, ob sich das Objekt bewegt oder bewegungslos ist) und das Vertrauen von Klassifikationen, die durch ein Objektklassifikationsmodul 210 (nachstehend im Einzelnen beschrieben) durchgeführt werden, die über mehrere Rahmen gemittelt werden, kombinieren. Klassifikationsvertrauenswerte, die durch das Objektklassifikationsmodul 210 bestimmt werden, können beispielsweise auf der Basis der Gleichmäßigkeit der Bahn des Objekts eingestellt werden. Das zeitliche Objektklassifikationsmodul 208 kann ein Objekt einer unbekannten Klasse zuweisen, bis das Objekt durch das Objektklassifikationsmodul eine ausreichende Anzahl von Malen klassifiziert wird und eine vorbestimmte Anzahl von Statistiken erhoben wurde. Beim Klassifizieren eines Objekts kann das zeitliche Objektklassifikationsmodul 208 auch berücksichtigen, wie lange das Objekt im Blickfeld war. Das zeitliche Objektklassifikationsmodul kann eine Endbestimmung über die Klasse eines Objekts auf der Basis der vorstehend beschriebenen Informationen durchführen. Das zeitliche Objektklassifikationsmodul 208 kann auch eine Hysteresemethode zum Ändern der Klasse eines Objekts verwenden. Insbesondere kann ein Schwellenwert für den Übergang der Klassifikation eines Objekts von einer unbekannten in eine bestimmte Klasse festgelegt werden und dieser Schwellenwert kann größer sein als ein Schwellenwert für den entgegengesetzten Übergang (z. B. von einem Menschen zu unbekannt). Das zeitliche Objektklassifikationsmodul 208 kann Metadaten in Bezug auf die Klasse eines Objekts erzeugen und die Metadaten können in der Metadaten-Datenbank 112 gespeichert werden. Das zeitliche Objektklassifikationsmodul 208 kann die durch das Objektklassifikationsmodul 210 durchgeführten Klassifikationen zusammenfassen.
Objektklassifikation
Das Videoanalysemodul 200 umfasst auch das Objektklassifikationsmodul 210, das vorzugsweise mit dem Objektdetektionsmodul 204 direkt oder indirekt verbunden ist. Im Gegensatz zum zeitlichen Objektklassifikationsmodul 208 kann das Objektklassifikationsmodul 210 den Typ eines Objekts auf der Basis eines einzelnen Falls (d. h. eines einzelnen Bildes) des Objekts bestimmen. Die Eingabe in das Objektklassifikationsmodul 208 sind vorzugsweise vielmehr Objekte als Video- oder Bilddaten. Ein Vorteil der Eingabe von Objekten in das Objektklassifikationsmodul 208 besteht darin, dass nicht die ganze Szene für die Klassifikation analysiert werden muss, wodurch weniger Verarbeitungsleistung benötigt wird. Andere vorbereitende Module wie z. B. Module auf Heuristikbasis, um offensichtliche Klassifikationen zu erfassen, können auch enthalten sein, um die Komplexität des Objektklassifikationsmoduls 210 weiter zu vereinfachen.
Das Objektdetektions-, das Objektverfolgungs- und das zeitliche Objektklassifikationsmodul 204, 206 und 208 sind optionale, aber bevorzugte Komponenten des Videoanalysemoduls 200. In einer alternativen Anordnung ist das Objektklassifikationsmodul 210 nach dem Objektdetektionsmodul 210 und vor dem Objektverfolgungsmodul 206 angeordnet, so dass die Objektklassifikation vor der Objektverfolgung stattfindet. In einer anderen alternativen Anordnung stehen das Objektdetektions-, Objektverfolgungs-, zeitliche Klassifikations- und Klassifikationsmodul 204–210 miteinander in Beziehung, wie in der vorstehend angeführten US-Patentanmeldung Nr. 10/884 486 beschrieben.
Das Objektklassifikationsmodul 210 umfasst eine Anzahl von Objektklassifikatoren, wie im Blockdiagramm von 3 dargestellt. Das Objektklassifikationsmodul 210 kann beispielsweise einen Klassifikator 300 für einen vollständigen menschlichen Körper, der feststellt, ob ein Bild eines detektierten Objekts einem vollständigen menschlichen Körper entspricht, einen Klassifikator 302 für einen menschlichen Torso, der feststellt, ob ein Bild eines detektierten Objekts einem menschlichen Torso entspricht, und einen Fahrzeug-Klassifikator 304, der feststellt, ob ein Bild eines detektierten Objekts einem Fahrzeug entspricht, umfassen. Das Objektklassifikationsmodul 210 kann eine beliebige Anzahl von verschiedenen Klassifikatoren umfassen, und, wie nachstehend genauer beschrieben, kann ein Benutzer neue Klassen von Objekten für das Objektklassifikationsmodul 210 erzeugen, selbst wenn das Kamerasystem aufgestellt ist und funktioniert. Mit anderen Worten, das Objektklassifikationsmodul 210 ist am Einsatzort trainierbar.
Die Objektklassifikatoren sind betriebsfähig, um ein Objekt auf der Basis der Merkmale des Objekts (z. B. Aussehenseigenschaften) zu klassifizieren. Der Klassifikator 300 für den vollständigen menschlichen Körper empfängt beispielsweise Daten (d. h. ein Eingangsmuster X), die den Merkmalen eines Objekts entsprechen, und stellt fest, ob das Objekt einem vollständigen menschlichen Körper entspricht oder nicht. Nachdem das Objektklassifikationsmodul 210 ein Objekt klassifiziert, können Metadaten, die die Klasse des Objekts und die Merkmale des Objekts darstellen, in der Metadaten-Datenbank 112 gespeichert werden.
Merkmale, die vom Objektklassifikationsmodul 210 verwendet werden können, werden nun genauer beschrieben. Ein Trainingsalgorithmus, der nachstehend beschrieben wird, wählt eine Teilmenge von Merkmalen F ^ = {f_k1, f_k2, ..., f_km} aus einem Satz von Merkmalen F = {f₁, f₂, ..., f_n}. Das Eingangsmuster X besteht aus den Elementen von F. Die Elemente von F können als eine gewisse Transformation eines Bildbereichs R eines Objekts betrachtet werden. Folglich kann X die folgende Form annehmen:
Die Merkmale f₁, f₂, ..., f_m eines Objekts können einer Anzahl von Aussehenseigenschaften entsprechen, wie z. B., jedoch nicht begrenzt auf das Seitenverhältnis, die Farbe, Kantenorientierungen und normierte Sättigung.
Überdies können die Merkmale f ^₁, f ^₂, .., f ^_m Merkmalsvektoren (z. B. Histogramme, in denen die Histogrammintervallbereiche Vektorkomponenten entsprechen) der Aussehenseigenschaften darstellen und können von einem oder mehreren Objektklassifikatoren verwendet werden, um die Klasse des Objekts (d. h. Typ) zu bestimmen. Histogramme der Kantenorientierungen eines Objekts können beispielsweise für verschiedene Bereiche (z. B. Unterfenster) des Bildes des Objekts konstruiert werden. Mit anderen Worten, ein Bild eines Objekts kann in Unterfenster unterteilt werden und Kantenorientierungen können für jedes Pixel der Unterfenster berechnet werden. Die Kantenorientierung eines Pixels kann unter Verwendung eines steuerbaren Filters (z. B. unter Verwendung eines Gauß-Ableitungsfilters in mehreren Richtungen) abgeleitet werden. Die Verwendung eines steuerbaren Filters ermöglicht, dass dominante Richtungen den Pixeln eines Unterfensters zugewiesen werden, und ermöglicht; dass ein Histogramm der Richtungen für das Unterfenster konstruiert wird. Für ein gegebenes Pixel kann beispielsweise ein steuerbares Filter in mehreren Richtungen verwendet werden, um mehrere Antworten zu erzeugen, und die Richtung, die der maximalen Richtungsableitungsantwort entspricht, wird als Richtung des Pixels zugewiesen.
Das Klassifikationsproblem für einen der Objektklassifikatoren kann im Allgemeinen durch eine Klassifikatorfunktion Γ(X) definiert werden, in der ein durch das Eingangsmuster X dargestelltes Objekt als Mitglied der Objektklasse deklariert wird, wenn Γ(X) > 0, oder als Nicht-Mitglied der Objektklasse, wenn Γ(X) < 0. Im Allgemeinen wird die Klassifikatorfunktion Γ(X) mit einem Satz von Parametern parametrisiert und das Eingangsmuster X besteht aus den vorstehend beschriebenen Merkmalen. Ein spezieller Klassifikator Γ_c(X) wird für jede interessierende Objektklasse trainiert. Das Mehrklassen-Klassifikationsmodell, das durch das Objektklassifikationsmodul 210 von 3 dargestellt wird, kann mathematisch wie folgt definiert werden. Ω = {ω₁, ω₂, ..., ω_c} ω = ω_c : (Γ_c(X) > 0 und Γ_c(X) > Γ_u(X) ∀ u ∊ {1, 2, ..., C}, u ≠ c) (2) wobei ω eine Objektklasse darstellt und Ω den Satz aller Objektklassen darstellt.
Ein Beispiel einer Struktur des Objektklassifikationsmoduls 210 wird nun mit Bezug auf 4–6 genauer beschrieben. Der Deutlichkeit halber wird der Klassifikator 300 für den vollständigen menschlichen Körper im Einzelnen beschrieben. Die folgende Beschreibung ist jedoch gleichermaßen auf die anderen Objektklassifikatoren des Objektklassifikationsmoduls 210 anwendbar. Der Klassifikator 300 umfasst mehrere Schritte 400 (N Entscheidungsschritte), die in einer Kaskadenkonfiguration konfiguriert sind (d. h. Schritt 1, gefolgt von Schritt 2, gefolgt von Schritt 3, ..., gefolgt von Schritt N), wie in 4 gezeigt. Die N Schritte arbeiten zum Feststellen, ob das Aussehen eines Objekts der Objektklasse (d. h. vollständiger menschlicher Körper) entspricht oder nicht. Im Gegensatz zu einem bekannten Kaskadenklassifikationssystem, das in Paul Viola & Michael Jones, "Robust Real-Time Face Detection", International Journal of Computer Vision, S. 137–154 (2004), vorgeschlagen ist, in dem ein Objekt in den N-1 anfänglichen Schritten (d. h. allen bis auf den letzten Schritt) entweder abgelehnt oder weitergeleitet wird, ist jeder der anfänglichen N-1 Schritte des Klassifikators 300 betriebsfähig, um eine von drei Entscheidungen zu treffen: (1) Annehmen des Objekts als Mitglied der Objektklasse (d. h. positive Klasse), (2) Ablehnen des Objekts als Mitglied der Objektklasse (d. h. negative Klasse) und (3) Weiterleiten der Entscheidung zum nächsten Schritt. Das Eingangsmuster X eines Objekts wird beispielsweise zu Schritt 1 geliefert und Schritt 1 entscheidet, ob (1) das Objekt als vollständiger menschlicher Körper angenommen werden soll, (2) das Objekt als vollständiger menschlicher Körper abgelehnt werden soll, oder (3) das Eingangsmuster X zu Schritt 2 weitergeleitet werden soll, um die Bestimmung durchzuführen. Die Entscheidung zum Annehmen, Ablehnen oder Weiterleiten basiert auf einem durch den Schritt erzeugten Wert (d. h. einem Entscheidungsschrittwert). Der letzte oder N-te Schritt ist betriebsfähig, um entweder (1) das Objekt als vollständigen menschlichen Körper anzunehmen oder (2) das Objekt als vollständigen menschlichen Körper abzulehnen.
5A ist ein Blockdiagramm, das einen der anfänglichen N-1 Schritte 400 genauer zeigt. Jeder Schritt 400 umfasst eine oder mehrere Stufen 500. Für jede der Stufen 500 wird eines der Merkmale f ^₁, f ^₂, .., f ^_m vom Eingangsmuster X extrahiert (durch die Blöcke 502 dargestellt) und zu seiner entsprechenden Stufe 500 geliefert. Jede Stufe 500 weist daher ein entsprechendes Merkmal auf, das ihr zugeordnet ist. Die Stufen/Merkmals-Kombination kann durch einen Lernalgorithmus während eines Trainingsprozesses vorbestimmt werden, wie nachstehend beschrieben. Überdies kann ein zur ersten Stufe (Stufe 1) von 5 geliefertes Merkmal beispielsweise verschieden sein von oder dasselbe sein wie das zur zweiten Stufe (Stufe 2) gelieferte Merkmal.
Im Allgemeinen kann eine Stufe 500 durch eine Stufenfunktion g dargestellt werden, die folgendermaßen definiert ist: g : x → γ, wobei g ∊ G x ∊ X und γ ∊ [–1, 1] (3) wobei G einen allgemeinen Satz darstellt, aus dem die spezifische Stufenfunktion g gewählt ist, und x eine willkürliche Eingabe in die Stufe darstellt. Der Satz G kann eine reiche Schar von Funktionen sein, die einen Merkmalssatz auf einen Skalarwert abbilden, dessen Vorzeichen die Klasse eines Objekts angibt. Wie vorstehend beschrieben, empfängt jede Stufe 500 als Eingabe eines der Merkmale f ^₁, f ^₂, .., f ^_m. Der Satz G kann daher als G = F × T geschrieben werden, wobei F vorstehend definiert ist und T einen Satz von möglichen Transformationen (d. h. Abbildungen) darstellt, so dass für t ∊ T, t : f ^_i → γ. Folglich kann die Stufenfunktion g die folgende erweiterte Form annehmen: g_i(x) = t(f ^_k), f ^_k ∊ F (4)
Eine Stufe 500 stellt eine Diskriminantenfunktion dar, die einen Gewichtsvektor w - und eine Aktivierungsfunktion β umfasst. Wie vorstehend angegeben, können die Merkmale f ^₁, f ^₂, .., f ^_m Merkmalsvektoren darstellen. Die Stufenfunktion kann wie folgt umgeschrieben werden: g_i(x) = β_i(w -_i·f ^_k) (5) wobei w -_i·f ^_k das innere Produkt des Gewichtsvektors w - und des Merkmalsvektors f ^_k darstellt. Die Aktivierungsfunktion β_i kann irgendeine Funktion sein, wie z. B., jedoch nicht begrenzt auf eine S-förmige Funktion oder eine Funktion auf radialer Basis. Die Aktivierungsfunktion β_i wird verwendet, um das innere Produkt des Gewichtsvektors w - und des Merkmalsvektors f ^_k auf einen Wert zwischen null und eins abzubilden. Der Skalarwert γ kann durch Berechnen eines Differentials der Diskriminantenfunktion bestimmt werden. Im Gegensatz zu bekannten Kaskadenklassifikatoren, die dieselbe Diskriminantenfunktion für alle Stufen umfassen, können die Diskriminantenfunktionen für die Stufen des vorliegenden Ausführungsbeispiels voneinander verschieden sein. Überdies werden der Gewichtsvektor w -_i und die Aktivierungsfunktion β_i für jede Stufe 500 während des Trainings automatisch bestimmt, wie nachstehend beschrieben.
Jeder Schritt 400 ist eine lineare Kombination (durch den Skalierungs- und Summierblock 504 dargestellt) von einer oder mehreren der Stufen 500. Mit anderen Worten, die Skalarwerte γ der Stufen 500 werden skaliert und summiert, um den Entscheidungsschrittwert s(X) zu erzeugen. Im Allgemeinen kann diese Funktion mathematisch wie folgt dargestellt werden:
Da s(X) (d. h. der Entscheidungsschrittwert) eine konvexe Kombination von Stufen ist, weisen s(X) und g(x) denselben Bereich auf. Gewichtungskoeffizienten α werden durch einen Lernalgorithmus während des Trainings gewählt. Der Entscheidungsschrittwert wird mit einem oder beiden eines Annahmeschwellenwerts τ_a und eines Ablehnungsschwellenwerts τ_r verglichen (durch den Block 506 dargestellt), um festzustellen, ob das Objekt als vollständiger menschlicher Körper angenommen werden soll, das Objekt als vollständiger menschlicher Körper abgelehnt werden soll oder die Entscheidung zum nächsten Schritt 400 weitergeleitet werden soll. Der Vergleich kann folgendermaßen dargestellt werden: Annehmen, wenn τa < s(X) ≤ 1 Weiterleiten, wenn τ_r < s(X) ≤ τ_a Ablehnen, wenn –1 < s(X) ≤ τ_r (7)
5B stellt ein Beispiel des Annahme- und des Ablehnungsschwellenwerts im Intervall [–1, +1] dar. Der Annahmeschwellenwert τ_a und der Ablehnungsschwellenwert τ_r werden während des Trainings durch einen Lernalgorithmus auf der Basis von benutzerspezifischen falsch positiven und falsch negativen Raten gewählt. Jeder Schritt 400 kann Werte für τ_a und τ_r aufweisen, die verschieden sind von oder dieselben sind wie die anderen Schritte 400. Eine Entscheidung zum ”Annehmen” impliziert, dass der Klassifikator zuversichtlich ist, dass das Eingangsmuster X zur positiven Klasse gehört (z. B. ein vollständiger menschlicher Körper). Eine Entscheidung zum ”Weiterleiten” impliziert, dass der Klassifikator unsicher ist und die Entscheidung zum nächsten Schritt verschiebt. Eine Entscheidung zum ”Ablehnen” impliziert, dass der Klassifikator zuversichtlich ist, dass das Eingangsmuster X zur negativen Klasse gehört (z. B. kein vollständiger menschlicher Körper). In irgendeinem Schritt wird, wenn die Entscheidung nicht darin besteht, zum nächsten Schritt 400 ”weiterzuleiten”, die Annahme/Ablehnungs-Entscheidung an diesem Punkt getroffen und die Auswertung ist vollständig. Der Entscheidungsschrittwert kann einem Entscheidungsvertrauensniveau für den entsprechenden Schritt 400 entsprechen. Ein Entscheidungsschrittwert nahe eins kann beispielsweise darstellen, dass der entsprechende Schritt 400 zuversichtlicher ist, dass ein Objekt ein vollständiger menschlicher Körper ist, im Vergleich zu einem Entscheidungsschrittwert, der geringfügig über dem Annahmeschwellenwert τ_a liegt. Alternativ kann eine Erhöhung des Entscheidungsschrittwerts nicht notwendigerweise einem höheren Entscheidungsvertrauensniveau entsprechen (d. h. eine Wahrscheinlichkeit, dass die Entscheidung korrekt war). Das Vertrauensniveau, das jedem Entscheidungsschrittwert zugeordnet ist, kann während des Trainings empirisch abgeschätzt werden, wenn Objekte mit verschiedenen Entscheidungsschrittwerten korrekt und falsch klassifiziert werden. Die Vertrauensniveaus der Entscheidungsschrittwerte werden nachstehend genauer beschrieben. Wie vorstehend angegeben, wird die Endstufe (Stufe N) im Klassifikator dazu gezwungen, immer anzunehmen oder abzulehnen: Annehmen, wenn 0 < s(X) ≤ 1 Ablehnen, wenn –1 < s(X) ≤ 0 (8)
6 ist ein Ablaufplan, der ein Verfahren 600 zur Verwendung eines Kamerasystems gemäß einem Ausführungsbeispiel darstellt. Das Verfahren 600 wird mit Bezug auf das Kamerasystem 100 nur als Beispiel beschrieben; das Verfahren 600 ist mit einem beliebigen geeigneten Kamerasystem betriebsfähig. Zuerst wird ein Bild eines Objekts durch eine der Bilderfassungsvorrichtungen 102 erfasst (Schritt 602). Das Objekt wird durch das Objektdetektionsmodul 204 detektiert (Schritt 604). Das Eingangsmuster X wird zum ersten Schritt 400 beispielsweise des Klassifikators 300 für den vollständigen menschlichen Körper übertragen (Schritt 606). Alternativ können anstelle der Übertragung des Musters X zum ersten Schritt 400 die kombinierten Merkmale, die von den Stufen 500 des ersten Schritts 400 verwendet werden, ausgewählt werden und nur diese Merkmale können zum ersten Schritt 400 übertragen werden. Die Merkmale für die erste bis S-te Stufe 500 werden im Eingangsmuster X identifiziert und aus diesem ausgewählt (Schritt 608). Die gewählten Merkmale werden zu ihren jeweiligen Stufen 500 geliefert und die Stufen 500 bilden die gewählten Merkmale auf Skalarwerte ab (Schritt 610). Die Skalarwerte werden skaliert (d. h. gewichtet) und summiert, um einen Entscheidungsschrittwert s(X) zu erzeugen (Schritt 612). Der Entscheidungsschrittwert wird mit einem oder mehreren des Annahmeschwellenwerts τ_a und des Ablehnungsschwellenwerts τ_r verglichen (Schritt 614). Wenn der Entscheidungsschrittwert größer ist als der Annahmeschwellenwert τ_a, wird das Objekt als Mitglied der Objektklasse angenommen (z. B. als vollständiger menschlicher Körper angenommen) (Schritt 616). Wenn der Entscheidungsschrittwert geringer als oder gleich dem Ablehnungsschwellenwert τ_r ist, wird das Objekt als Mitglied der Objektklasse abgelehnt (z. B. als vollständiger menschlicher Körper abgelehnt) (Schritt 618). Wenn der Entscheidungsschrittwert größer ist als der Ablehnungsschwellenwert τ_r, aber geringer als oder gleich dem Annahmeschwellenwert τ_a ist, wird das Eingangsmuster X zum zweiten Schritt 400 weitergeleitet (oder als Alternative werden nur diejenigen Merkmalskombinationen, die vom zweiten Schritt 400 verwendet werden, zum zweiten Schritt 400 übertragen) (Schritt 620). Ein Objekt kann als Mitglied der Objektklasse in irgendeinem Schritt 400 innerhalb der Kaskade angenommen oder abgelehnt werden.
Das Eingangsmuster X kann gleichzeitig zu allen Klassifikatoren des Objektklassifikationsmoduls 210 geliefert werden, in dem jeder Klassifikator das Objekt als Mitglied seiner entsprechenden Klasse entweder annimmt oder ablehnt. Wenn mehr als ein Objektklassifikator das Objekt als Mitglied seiner Klasse annimmt, kann die Ausgabe der Objektklassifikator-Entscheidungsschrittwerte der Objektklassifikatoren, die das Objekt angenommen haben, verglichen werden. Beispielsweise können der Klassifikator 300 für den vollständigen menschlichen Körper und der Fahrzeug-Klassifikator 304 feststellen, dass ein Objekt ein vollständiger menschlicher Körper bzw. ein Fahrzeug ist. In diesem Fall können die Entscheidungsschrittwerte, die durch die Schritte erzeugt werden, die das Objekt angenommen haben, verglichen werden, und das Objekt kann der Klasse zugewiesen werden, die dem Klassifikator mit dem vertrauenswürdigsten (z. B. größten) Entscheidungsschrittwert entspricht. Wenn beispielsweise der Entscheidungsschrittwert des Klassifikators für den vollständigen Menschen einem Vertrauensniveau von 90% entspricht und der Entscheidungsschrittwert des Fahrzeug-Klassifikators einem Vertrauensniveau von 80% entspricht, wird das Objekt als vollständiger menschlicher Körper klassifiziert. Wenn keiner der Klassifikatoren eine positive Ausgabe deklariert (das Objekt nicht als Mitglied irgendeiner Klasse angenommen wird), dann kann das Objekt als unbekannt klassifiziert werden.
Eine Verfolgung, wie z. B. durch das Objektverfolgungsmodul 206 durchgeführt, kann berücksichtigt werden, wenn das Objektklassifikationsmodul 210 die Klasse eines Objekts bestimmt. 7 ist ein Ablaufdiagramm, das ein Objektverfolgungsverfahren 700 zeigt. Das Verfahren 700 wird nur als Beispiel mit Bezug auf das Objektverfolgungsmodul 206 beschrieben, das in Verbindung mit dem Objektklassifikationsmodul 210 verwendet wird. Das Verfahren 700 ist mit einem beliebigen geeigneten System betriebsfähig. Das Verfahren 700 ordnet ein Bild eines Objekts einem vorherigen Fall des Objekts zu (Block 702). Das Verfahren 700 ruft die Klasse und das Klassifikationsvertrauensniveau, die mit dem vorherigen Fall des Objekts in Beziehung stehen, auf. Das Objektklassifikationsmodul 210 stellt fest, ob das Objekt vorher mit hohem Vertrauen klassifiziert wurde (Block 704). Vertrauensniveaus, die als hohes Vertrauen betrachtet werden, können von einem Benutzer vorbestimmt werden (z. B. 70% Vertrauen oder darüber). Wenn das Objektklassifikationsmodul feststellt, dass das Objekt vorher nicht mit hohem Vertrauen klassifiziert wurde, dann werden mehrere Objektklassifikatoren ausgeführt (Block 705). Wenn das Verfahren 700 feststellt, dass das Objekt vorher mit hohem Vertrauen klassifiziert wurde, kann ein Teil des Klassifikators, der der vorher deklarierten Klasse des Objekts entspricht, ausgeführt werden (Block 706), anstatt mehrere Klassifikatoren auszuführen. Beispielsweise kann nur der erste Schritt 400 des Klassifikators, der der vorher deklarierten Klasse entspricht, ausgewertet werden. Die Ausgabe des ersten Schritts 400 kann geprüft werden, um festzustellen, ob sie mit der vorher deklarierten Klasse konsistent ist (Block 708). Wenn die Ausgabe des ersten Schritts 400 mit der vorher deklarierten Klasse konsistent ist, ist keine weitere Auswertung erforderlich; die Klasse des Objekts für das aktuelle Bild wird bestimmt und der Verlauf des Objekts wird aktualisiert und in der Metadaten-Datenbank 112 gespeichert (Block 710). Wenn andererseits die Entscheidung des ersten Schritts 400 darin besteht, das Objekt als Mitglied der Objektklasse abzulehnen, dann werden einer oder mehrere der anderen Objektklassifikatoren ausgeführt (Block 705). Wenn die Ausgabe des ersten Schritts 400 darin besteht, weiterzuleiten, können einer oder mehrere der anderen Schritte 400 ausgewertet werden, bis die Ausgabe mit der vorher deklarierten Klasse konsistent oder inkonsistent ist.
Training der Objektklassifikatoren
Ein Verfahren zum Trainieren der Objektklassifikatoren des Objektklassifikationsmoduls 210 wird nun beschrieben. Herkömmliche Klassifikationssysteme können mit dem Lernalgorithmus AdaBoost oder einer gewissen Variante von AdaBoost trainiert werden. Obwohl AdaBoost in einigen Anwendungen seinen Wert bewiesen hat, haben der Algorithmus und die Zielfunktion, die in diesem Lernprozess verwendet wird, gewisse Begrenzungen. Damit AdaBoost wirksam ist, können beispielsweise Mitglieder und Nicht-Mitglieder einer Objektklasse einander nicht signifikant im Merkmalsraum überlappen. Mit anderen Worten, die Merkmale der Objekte sollten einen Klassifikationsraum gut trennen. Da AdaBoost schwache Lerner verwendet, kann überdies eine große Sammlung von schwachen Lernern erforderlich sein, um einen vollständigen Klassifikator zu bilden, der in der Lage ist, eine gewünschte Genauigkeit zu erreichen.
Gemäß einem Ausführungsbeispiel wird eine alternative Zielfunktion und ein Lernalgorithmus, der Sequentielle Diskriminantenfehlerminimierung (SDEM) genannt wird, vorzugsweise verwendet, um die Objektklassifikatoren des Objektklassifikationsmoduls 210 zu trainieren. SDEM wurde in Saptharishi, "Sequential Discriminant Error Minimization: The Theory and its Application to Real-Time Video Object Recognition" (Carnegie Mellon University, 2005), vorgeschlagen, dessen gesamter Inhalt durch den Hinweis hierin aufgenommen wird. SDEM kann Merkmale behandeln, die einen Klassifikationsraum nicht notwendigerweise gut auftrennen. Im Gegensatz zu AdaBoost und anderen ähnlichen Unterstützungsverfahren kann SDEM schwache Lerner oder andere Diskriminantenfunktionen verwenden, die nicht notwendigerweise als schwach betrachtet werden. Folglich kann die Anzahl von Schritten 400 und Stufen 500 eines Objektklassifikators unter Verwendung von SDEM zum Training im Vergleich zu AdaBoost signifikant geringer sein. Für ein gegebenes Merkmal ist SDEM häufig in der Lage, den besten Klassifikator für den entsprechenden Merkmalsraum zu lernen. Die besten Merkmale von Objekten können automatisch für ein gegebenes Klassifikationsproblem ausgewählt werden.
Im Allgemeinen wird der SDEM-Algorithmus verwendet, um die Kombination von Stufen 500 für jeden Schritt 400 zu trainieren. Wie in Gleichung (4) definiert, umfasst eine Stufe 500 eine Stufenfunktion g_i(x), die gleich einer Transformation t eines Merkmals f ^_k ist. Die Trainingsaufgabe wählt die beste Transformation t zusammen mit dem besten Merkmal f ^_k, so dass, wenn eine spezielle Stufe 500 zu einem Schritt 400 hinzugefügt wird, die Leistung des Objektklassifikators maximiert wird. Mit anderen Worten, der SDEM-Algorithmus wählt die Transformation t und das Merkmal f ^_k für eine spezielle Stufe so aus, dass eine Zielfunktion maximiert wird. Der Satz F von Merkmalen kann endlich sein und der Satz T von Transformationen kann kontinuierlich und differenzierbar sein. Gemäß dem SDEM-Algorithmus wird für jede Wahl von f ^_k eine Suche in dem Satz T durchgeführt, um die Transformation t zu identifizieren, die an einem Trainingsdatensatz am besten arbeitet. Die Suche im Satz T kann unter Verwendung von uneingeschränkten Standard-Optimierungsverfahren durchgeführt werden, wie z. B., jedoch nicht begrenzt auf ein Quasi-Newton-Optimierungsverfahren. Sobald die beste Transformation t für jede Wahl von f ^_k identifiziert ist, kann das beste Merkmal gemäß einem abgeschätzten Verallgemeinerungsfehler ∊ ^(g) ausgewählt werden. Die Auswahl des besten Merkmals kann folgendermaßen geschrieben werden:
Eine der Eigenschaften des SDEM-Algorithmus besteht darin, dass, wenn eine Stufe 500 zu einem Schritt 400 hinzugefügt wird, das Hinzfügen der Stufe 500 die Leistung des Objektklassifikators an dem Trainingsdatensatz verbessert. Wenn eine neue Stufe nicht identifiziert werden kann, die die Leistung des Objektklassifikators verbessert, endet der SDEM-Algorithmus automatisch. Anstatt zu warten, bis der SDEM-Algorithmus automatisch endet, kann alternativ eine Anzahl von Stufen 500 eines Schritts 400 durch einen Systementwickler bestimmt werden. Mit anderen Worten, der SDEM-Algorithmus beendet das Training, wenn eine maximale Anzahl von Stufen 500, die vom Entwickler festgelegt werden, erreicht ist oder wenn keine Stufe 500 hinzugefügt werden kann, die die Leistung verbessert.
Der SDEM-Algorithmus wählt eine Reihe von Merkmalen/Transformationen derart aus, dass, wenn sie kombiniert werden, die Kombination eine einzelne der Merkmale/Transformationen übertrifft. Obwohl das Seitenverhältnis eines Objekts beispielsweise ein schlechtes Merkmal für die Verwendung zur Klassifikation allein sein könnte, kann, wenn es mit lokalen Gradienteninformationen kombiniert wird, das Seitenverhältnis die Klassifikationsgenauigkeit, die den lokalen Gradienteninformationen allein entspricht, verbessern. Eine Anzahl von einfachen Merkmalen und Transformationen kann kombiniert werden, um einen sehr genauen Objektklassifikator zu erzeugen. Tatsächlich erzeugt die Trainingsaufgabe Supermerkmale durch Kombinieren eines Satzes von Aussehensmerkmalen für ein Objekt.
Ein Trainingsverfahren 800 zum Aufbauen der Stufen 500 des ersten Schritts 400 wird nun mit Bezug auf den Ablaufplan von 8 genauer beschrieben. Die folgende Beschreibung ist auch auf die Stufen 500 der anderen Schritte 400 anwendbar. Der Trainingsdatensatz für einen Klassifikator umfasst Darstellungen von Mitgliedern und Nicht-Mitgliedern der speziellen Objektklasse. Um beispielsweise den Klassifikator 300 für den vollständigen menschlichen Körper zu trainieren, umfasst der Trainingsdatensatz Darstellungen von Bildern von vollständigen menschlichen Körpern und Bilder von anderen Objekten. Die Merkmale f ^₁, f ^₂, ..., f ^_m der Objekte können aus dem Trainingsdatensatz extrahiert werden. Die Objekte des Trainingsdatensatzes können von einem Benutzer als entweder Mitglied oder Nicht-Mitglied der speziellen Objektklasse manuell bezeichnet werden, was zu bezeichneten Objekten 802 führt. Die Merkmale f ^₁, f ^₂, ..., f ^_m jedes bezeichneten Objekts 802 werden identifiziert und extrahiert (Schritte 804a, 804b und 804c). Jedes Merkmal f ^₁, f ^₂, ..., f ^_m wird verwendet, um eine separate Stufe zu trainieren, und die Stufe, die den Wert der Zielfunktion maximiert, wird ausgewählt. Irgendeine Anzahl von Merkmalen kann verwendet werden. Von M (z. B. M = 60) Merkmalen kann beispielsweise eines ein Seitenverhältnis sein und die anderen M-1 Merkmale können die Vektoren der Größe B sein, die Kantenorientierungshistogrammen mit B Intervallbereichen für M-1 verschiedene Bereiche eines Bildes eines bezeichneten Objekts entsprechen.
Nachdem die Merkmale f ^₁, f ^₂, ..., f ^_m aus den bezeichneten Objekten 802 extrahiert sind, wird die beste Transformation t für jedes der Merkmale f ^₁, f ^₂, ..., f ^_m ausgewählt (Schritte 806a, 806b und 806c). Die Transformationen können auf der Basis von Standard-Optimierungsverfahren ausgewählt werden. Eine Transformation t kann als Entscheidungsgrenze betrachtet werden, die die bezeichneten Objekte im Merkmalsraum trennt. Folglich entspricht die beste Transformation t einer Entscheidungsgrenze, die die Mitglieder und Nicht-Mitglieder der Objektklasse am besten trennt. Im Zusammenhang mit der Diskriminantenfunktion, die aus dem Gewichtsvektor w -_i und der Aktivierungsfunktion β_i besteht, entspricht die Auswahl der besten Transformation t der Auswahl der Aktivierungsfunktion β_i und der Komponenten des Gewichtsvektors w -_i, die die Mitglieder und Nicht-Mitglieder der Objektklasse am besten trennen. Die Aktivierungsfunktion β_i kann aus einem Satz von mehreren Funktionstypen ausgewählt werden, wie z. B., jedoch nicht begrenzt auf eine S-förmige Funktion und eine Funktion auf radialer Basis (z. B. eine Gauß-Funktion). Im Gegensatz zu bekannten Kaskaden-Klassifikatoren kann somit eine erste Stufe einen anderen Typ von Diskriminantenfunktion im Vergleich zu einer zweiten Stufe umfassen.
Nachdem die Transformationen für die Merkmale f ^₁, f ^₂, ..., f ^_m ausgewählt sind, wird ein Wert einer Zielfunktion entsprechend jeder Merkmals/Transformations-Kombination berechnet (Schritte 808a, 808b und 808c). Die Zielfunktion kann zu einem Maß von Klassifikationsfehlern proportional sein oder sie kann eine nichtlineare, aber monoton veränderliche Funktion der Klassifikationsfehler sein. Die berechneten Werte der Zielfunktion können mit der Anzahl und/oder Schwere von Klassifikationsfehlern in Zusammenhang stehen, die von den verschiedenen Merkmals/Transformations-Kombinationen gemacht werden. Ein erster berechneter Wert kann beispielsweise mit der Anzahl von Klassifikationsfehlern in Zusammenhang stehen, der vom Merkmal f ^₁, und seiner entsprechenden Transformation gemacht wird. Die berechneten Werte der Zielfunktion werden verglichen und die Merkmals/Transformations-Kombination, die den maximalen berechneten Wert aufweist, wird für die erste Stufe 500 des ersten Schritts 400 ausgewählt (Schritt 810).
Nachdem das Merkmal und die Transformation für die erste Stufe 500 ausgewählt sind, werden die bezeichneten Objekte 802 mit verschiedenen Gewichten unter Berücksichtigung der von der ersten Stufe 500 getroffenen Entscheidungen gewichtet (Schritt 812). Die Objekte können als Funktion dessen gewichtet werden, wie nahe ihre entsprechenden Datenpunkte im Merkmalsraum an der durch die erste Stufe 500 dargestellten Entscheidungsgrenze liegen. Die Objekte, die Datenpunkten nahe der Entscheidungsgrenze im Merkmalsraum entsprechen, können beispielsweise mit höheren Gewichten im Vergleich zu Objekten mit Datenpunkten, die von der Entscheidungsgrenze weit weg liegen, gewichtet werden, so dass eine zweite Stufe 500 trainiert werden kann, indem man sich mehr auf diejenigen Objekte konzentriert, die die erste Stufe 500 etwas verwirrt haben. Der Abstand zwischen einem Datenpunkt eines Objekts und der Entscheidungsgrenze der ersten Stufe 500 kann mit dem für das Objekt berechneten Skalarwert γ in Beziehung stehen.
Das Trainingsverfahren 800 wird für die nächste Stufe wiederholt. Nachdem die bezeichneten Objekte gewichtet sind, wird die beste Transformation wieder für die Merkmale f ^₁, f ^₂, ..., f ^_m ausgewählt (Schritte 806a, 806b und 806c werden wiederholt). Die Merkmale f ^₁, f ^₂, ..., f ^_m werden jedoch nun gewichtet und die beste Transformation t für jedes der Merkmale f ^₁, f ^₂, ..., f ^_m wird unter Berücksichtigung der ersten Stufe 500 ausgewählt. Die beste Transformation t kann der Transformation entsprechen, die zur größten Erhöhung des Zielfunktionswerts führt. Die Werte der Zielfunktion werden wieder berechnet und verglichen, um die Funktion/Transformation für die zweite Stufe 500 zu bestimmen (Schritte 808a, 808b, 808c und 810 werden wiederholt). Um eine dritte Stufe 500 aufzubauen, werden die bezeichneten Objekte erneut gewichtet, wobei den Objekten, die für die erste und die zweite Stufe 500 etwas verwirrend waren, höhere Gewichte gegeben werden. Wieder werden die Schritte 806a, 806b und 806c wiederholt, aber die Merkmale f ^₁, f ^₂, ..., f ^_m werden erneut gewichtet und die beste Transformation t für jedes der Merkmale f ^₁, f ^₂, ..., f ^_m wird unter Berücksichtigung der ganzen ersten und zweiten Stufe 500 ausgewählt. Die Werte der Zielfunktion werden wieder berechnet und verglichen, um die Funktion/Transformation für die dritte Stufe 500 zu bestimmen (Schritte 808a, 808b, 808c und 810 werden wiederholt). Der Prozess des Auswählens des besten Merkmals/der besten Transformation und der Gewichtung der bezeichneten Objekte über jede Iteration des Trainings einer neuen Stufe kann sich als Gradientenanstieg im Funktionsraum oder als Prozess zum Erhöhen des Gesamtwerts der Zielfunktion vorgestellt werden.
Sobald der erste Schritt 400 trainiert ist, sind die Schwellenwerte τ_a und τ_r derart, dass gewünschte falsch positive und falsch negative Raten festgelegt werden können. Wenn die Stufen 500 für den ersten Schritt 400 konstruiert werden, werden überdies die Gewichtungskoeffizienten α auch ausgewählt. Wenn jede Stufe 500 zum ersten Schritt 400 hinzugefügt wird, werden beispielsweise die Gewichtungskoeffizienten α für die Stufen eingestellt, um die Werte für die Gewichtungskoeffizienten α zu finden, die der niedrigsten Gesamtfehlerrate für den ersten Schritt 400 entsprechen. Die Gewichtungskoeffizienten α können beispielsweise unter Verwendung einer Liniensuchoptimierungsstrategie ausgewählt werden.
Nachdem der erste Schritt 400 trainiert ist, können die Stufen 500 eines zweiten Schritts 400 trainiert werden. Die zum Trainieren des zweiten Schritts 400 verwendeten Trainingsdaten sind jedoch eine Teilmenge des zum Trainieren des ersten Schritts 400 verwendeten Trainingsdatensatzes. Die Teilmenge der Trainingsdaten entspricht den bezeichneten Objekten, die der erste Schritt 400 als Mitglied der Objektklasse weder annehmen noch ablehnen konnte. Mit anderen Worten, der zweite Schritt 400 wird mit den bezeichneten Objekten trainiert, die einen entsprechenden Entscheidungsschrittwert hatten, der größer war als der Ablehnungsschwellenwert τ_r, aber geringer als oder gleich dem Annahmeschwellenwert τ_a war. Dies ermöglicht, dass sich der zweite Schritt 400 nur auf diejenigen Objekte konzentriert, die der erste Schritt 400 verwirrend fand.
Aufgrund der stufenweisen Progression des Trainingsverfahrens 800 sollte es natürlich die beste Reihenfolge der Kriterien in den N Schritten des Klassifikators 300 bestimmen und zu den wenigsten Schritten führen, die erforderlich sind, um die Klassifikation durchzuführen. Folglich sollte die Klassifikation, die in einem aufgestellten, trainierten Einsatzortsystem durchgeführt wird, sowohl die Ausführungszeit, die erforderlich ist, um eine Klassifikation auszugeben, als auch die Verarbeitungsleistung, die erforderlich ist, um die Klassifikation zu erzeugen, minimieren.
Sobald ein Objektklassifikator mit den bezeichneten Objekten trainiert ist, kann der Objektklassifikator durch andere Trainingsschritte fortfahren, um die für die verschiedenen Stufen ausgewählten Merkmale/Transformationen zu verfeinern. Eine Methode hoher Ebene für das Trainieren eines Objektklassifikators ist im Ablaufplan von 9 gezeigt, der ein Trainingsverfahren 900 darstellt. Bilddaten 901 (z. B. rohe Videodaten) werden zu einem einfachen Basis- oder Keimsystem geliefert, das zu einer Basisdetektion, -verfolgung und -klassifikation von Objekten in der Lage ist. Das Basissystem detektiert, verfolgt und klassifiziert Objekte, die in den Bilddaten 901 dargestellt sind, und erzeugt Metadaten, die den Objekten entsprechen (Schritt 902). Das Basissystem wählt einen Satz von Objekten aus, die detektiert und verfolgt werden (Schritt 904). Die Auswahl der Objekte kann von der Menge an Zeit abhängen, die sich ein Objekt im Blickfeld einer Bilderfassungsvorrichtung 102 befand, oder kann davon abhängen, wie zuversichtlich das Basissystem bei seiner Klassifikation eines Objekts war. Andere Regeln können festgelegt werden, um vorzugeben, ob ein Objekt durch das Basissystem ausgewählt wird oder nicht.
Bilder der Objekte, die vom Basisklassifikator ausgewählt werden, werden einem Benutzer auf einer Anzeige präsentiert, so dass der Benutzer die Objekte als Mitglieder oder Nicht-Mitglieder der speziellen Objektklasse des trainierten Objektklassifikators manuell bezeichnen kann. Der Benutzer an der Benutzerschnittstelle 104 bezeichnet die Objekte manuell und die bezeichneten Objekte werden zum trainierten Objektklassifikator geliefert (Schritt 906). Die vom Benutzer manuell bezeichneten Objekte können den vorstehend beschriebenen bezeichneten Objekten entsprechen. Der Objektklassifikator wird mit den bezeichneten Objekten trainiert, wie z. B. gemäß dem Trainingsverfahren 800, wie vorstehend mit Bezug auf 8 beschrieben. Bilddaten 901 werden zum trainierten Objektklassifikator geliefert. Der trainierte Objektklassifikator klassifiziert die in den Bilddaten 901 dargestellten Objekte und erzeugt Metadaten, die die Klassen der Objekte darstellen (Schritt 910). Jedes vom trainierten Objektklassifikator klassifizierte Objekt weist ein Klassifikationsvertrauensniveau auf, das ihm zugeordnet ist. Das Klassifikationsvertrauensniveau entspricht dem Entscheidungsschrittwert des Schritts 400, der das Objekt als Mitglied oder Nicht-Mitglied der Objektklasse klassifiziert hat. Die durch den trainierten Objektklassifikator erzeugten Klassifikationsvertrauensniveaus werden analysiert, um Objekte zu identifizieren, die für den trainierten Objektklassifikator verwirrend waren (z. B. Objekte mit einem niedrigen Klassifikationsvertrauensniveau). Die Leistung des trainierten Objektklassifikators wird ausgewertet, um festzustellen, ob die Leistung des Objektklassifikators annehmbar ist (Schritt 912).
Um festzustellen, ob die Leistung des Objektklassifikators annehmbar ist, kann ein zerlegter Testsatz verwendet werden, wobei die Klasse der Objekte des zerlegten Testsatzes vor der Klassifikation durch den trainierten Objektklassifikator bekannt ist. Die Bilddaten 901, die zum trainierten Objektklassifikator geliefert werden, können dem zerlegten Testsatz entsprechen, und die durch den trainierten Objektklassifikator durchgeführten Klassifikationen können mit den tatsächlichen Klassen der Objekte verglichen werden. Aus diesem Vergleich kann die Leistung des trainierten. Objektklassifikators bestimmt werden. Wenn die Leistung nicht gleich der oder über irgendeinem vordefinierten Leistungsniveau liegt, werden die verwirrenden Objekte für den Benutzer für manuelle Bezeichnungen dargestellt (Schritt 904). Der Benutzer bezeichnet die Verwirrungsobjekte und die neuen bezeichneten Objekte werden verwendet, um den Objektklassifikator erneut zu trainieren (Schritte 906 und 800). Wenn der Objektklassifikator erneut trainiert wird, können die Merkmals/Transformations-Kombinationen für die verschiedenen Stufen 500 auf der Basis der neuen bezeichneten Objekte aktualisiert werden. Der erneut trainierte Objektklassifikator wird verwendet, um Objekte zu klassifizieren, die in den Bilddaten 901 dargestellt sind, und die Leistung des erneut trainierten Objektklassifikators wird ausgewertet (Schritte 910 und 912). Der Neutrainingsprozess kann fortfahren, bis die Leistung des trainierten Objektklassifikators annehmbar ist. Wenn die Leistung des trainierten Objektklassifikators annehmbar ist, kann er eingesetzt werden (Schritt 914). Der Trainingsprozess kann in die folgenden Schritte umgestaltet werden:

1. Manuelles Bezeichnen eines gewissen kleinen Bruchteils eines Datensatzes.
2. Trainieren eines Objektklassifikators unter Verwendung des Bruchteils des Datensatzes.
3. Verwenden eines neu trainierten Klassifikators, um den vollständigen Datensatz automatisch zu bezeichnen.
4. Auswählen eines Satzes von automatisch bezeichneten Datenpunkten, die für den Objektklassifikator verwirrend waren.
5. Manuelles Bezeichnen der verwirrenden Datenpunkte.
6. Wiederholen des Trainings mit allen neuen bezeichneten Datenpunkten.
7. Gehen zu Schritt 3.

Klassifikationsvertrauen
Der Entscheidungsschrittwert s(X) wird mit dem Vertrauen in die Klassifikation korreliert. Die Korrelation kann nicht linear sein, d. h. der Schritt 400 kann einen hohen positiven Wert erzeugen, aber das Objekt kann nicht ein Mitglied der Objektklasse sein. Durch den Trainingsprozess gilt typischerweise, je höher der Wert von s(X) ist, desto weniger wahrscheinlich hat Schritt 400 einen Fehler gemacht. Das Vertrauensniveau, das einem bestimmten Wert von s(X) zugeordnet ist, kann berechnet werden, indem zuerst eine Indikatorfunktion ε(Γ(X)) definiert wird, in der gilt:
Eine Vertrauensfunktion Ψ(Γ(X)) kann als Wahrscheinlichkeit, dass der Schritt 400 ein Objekt als zur positiven Klasse gehörend deklariert hat und dass es für eine Ausgabe von s(X) = v korrekt war, definiert werden. Folglich kann für ein kleines Quantisierungsintervall [v – Δ, v + Δ] die Vertrauensfunktion folgendermaßen ausgedrückt werden:
Es ist zu beachten, dass betrachtet werden kann, dass der Schritt 400 ein Objekt als zur positiven Klasse gehörend deklariert, wenn s(X) > 0, d. h. P_,Ω|Γ(ω = +Klasse | s(X) > 0) = 1. Für v > 0, kann folglich die Gleichung (11) ausgedrückt werden als:
Gleichung (12) stellt die wahre positive Rate dar, wenn v ∊ [Δ, 1 – Δ] und s(X) ∊ [v – Δ, v + Δ].
Ebenso kann das Vertrauen eines Schritts 400 beim Deklarieren, dass das Objekt zur negativen Klasse für v ≤ –Δ gehört, ausgedrückt werden als:
Gleichung (13) stellt die wahre negative Rate dar, wenn v ∊ [–1 + Δ, –Δ] und s(X) ∊ [v – Δ, v + Δ]. Wenn die Wahrscheinlichkeit (wie in Gleichungen (12) und (13) definiert), dass der Schritt 400 für irgendeinen beobachteten Ausgangswert s(X) = v korrekt ist, hoch ist, dann wird folglich Schritt 400 als in seiner Antwort vertrauenswürdig betrachtet. Für diese Selbstbewertung des Vertrauens wird ein Wahrscheinlichkeitsmaß p ^_ε|jΩΓ aus dem Trainingsdatensatz abgeschätzt und die Vertrauensfunktion Ψ(Γ(X)) wird gefolgert. Wenn die Vertrauensfunktion Ψ(Γ(X)) geringer ist als ein kritischer Vertrauensschwellenwert ψ_c für einen gegebenen Ausgangswert von s(X), dann wird Schritt 400 für diesen Ausgangswert als unsicher oder verwirrt betrachtet. Unsichere Klassifikationen werden zum nächsten Schritt 400 weitergeleitet. Somit kann die Vertrauensfunktion Ψ(Γ(X)) während des Trainings verwendet werden, um die Objekte, die für einen Objektklassifikator verwirrend sind, zu identifizierten. Wenn Diskriminantenfunktionen, die die Stufen 500 bilden, eine gute Näherung für die optimale Bayes-Entscheidungsgrenze sind, dann steht der Entscheidungsschrittwert s(X) monoton mit der Vertrauensfunktion Ψ(Γ(X)) in Beziehung. Für die anfänglichen Schritte 400 kann der Objektklassifikator sich nicht gut der Bayes-Entscheidungsgrenze nähern. Folglich können der Entscheidungsschrittwert s(X) für einen gegebenen Schritt 400 und die Vertrauensfunktion Ψ(Γ(X)) nicht immer monoton in Beziehung stehen.
Die Vertrauensfunktion Ψ(Γ(X)) kann verwendet werden, um den Annahmeschwellenwert τ_a und den Ablehnungsschwellenwert τ_r für die verschiedenen Schritte 400 zu bestimmen. Im Gegensatz zu anderen Kaskaden-Klassifikatorarchitekturen kann, wenn die Vertrauensfunktion Ψ(Γ(X)) für die positive Klasse mit dem Entscheidungsschrittwert s(X) monoton zunimmt, der Annahmeschwellenwert τ_a derart gewählt werden, dass wahre positive Einschränkungen erfüllt werden. Wenn die Vertrauensfunktion Ψ(Γ(X)) nicht mit dem Entscheidungsschrittwert s(X) monoton zunimmt, dann kann der Annahmeschwellenwert τ_a bei 1 gesättigt bleiben, d. h. keine Muster werden als positive Klasse im entsprechenden Schritt 400 angenommen. Ein Mangel an Monotonie deutet darauf hin, dass im positiven Bereich die Entscheidungsgrenze den optimalen Bayes-Klassifikator nicht ausreichend gut widerspiegelt. Ebenso wird der Ablehnungsschwellenwert τ_r gewählt, wenn das Vertrauen der negativen Klasse monoton mit dem Entscheidungsschrittwert s(X) in Beziehung steht. In der Praxis kann die negative Klasse weitaus dichter im Merkmalsraum besetzt sein als die positive Klasse. Obwohl eine monotone Beziehung für die positive Klasse in frühen Schritten nicht existieren kann, existiert sie folglich sehr wahrscheinlich für die negative Klasse in den frühen Schritten.
Laufzeitklassifikatorentwicklung
Bis zu diesem Punkt wurden das Klassifikatormodell, seine Klassifikationsoperation und sein aktives Offline-Lernen beschrieben. Als nächstes wird die Online-Entwicklung des Klassifikators beschrieben. Die Online-Laufzeitklassifikatorentwicklung ist ähnlich zum vorstehend beschriebenen und in 9 dargestellten aktiven Offline-Lernprozess. Die Laufzeitentwicklung umfasst die folgenden Schritte: (1) Gewinnen einer Benutzerrückmeldung; (2) Trainieren eines neuen zusätzlichen Schritts für den Klassifikator; (3) Überprüfen des Klassifikators über eine passive Beobachtung; (4) wenn der Klassifikator passiv überprüft ist, Anfordern einer Benutzerüberprüfung und Einsetzen des Klassifikators; und, falls möglich, (5) Hochladen des spezialisierten Klassifikators mit einer Leistungsstatistik und Ortsinformationen in einen zentralen Rückmeldungsserver, so dass ein allgemeinerer Klassifikator, der die Spezialisierung aufnimmt, erzeugt und trainiert werden kann.
10 stellt einen Prozess 1000 zum Gewinnen einer Rückmeldung von einem Benutzer, der die Benutzerschnittstelle 104 bedient, dar. In vielen Sicherheits- und Überwachungssystemen reagiert ein Benutzer wie z. B. ein Sicherheitsbediensteter auf Alarme und bestätigt diese. Wenn ein Alarm als falsch erachtet wird, kann er als Fehlalarm dokumentiert werden oder er kann ignoriert werden. Bei einem bevorzugten Ausführungsbeispiel eines Systems mit einer Laufzeitklassifikatorentwicklung informiert der Benutzer das System explizit, wenn der Alarm ein Fehlalarm ist. Folglich stellt das Verfahren 1000 den (die) Alarm(e) für den Benutzer dar (Schritt 1002). Der dem Benutzer präsentierte Alarm umfasst das Klassifikationsergebnis (d. h. die Klassifikation des Objekts, wie durch den Klassifikator bestimmt) und Videodaten, in denen dieses Objekt erscheint. Der Benutzer kann eine Bestätigung oder eine Ablehnung der Klassifikation eingeben. Das Verfahren 1000 nimmt diese Benutzerrückmeldung an (Schritt 1010) und stellt fest, ob der Klassifikator das Objekt falsch klassifiziert hat (Schritt 1012). Das Verfahren 1000 sammelt den Satz von Merkmalen, die für die Klassifikation verwendet werden, und speichert ihn als ”Fehlermetadaten” (Schritt 1014). Wenn die Anzahl von Fehlern einen vorgegebenen Wert übersteigt, kann das Verfahren 1000 eine ”Spezialisierungs”-Korrekturtrainingsprozedur einleiten.
Ein Fehler kann die Form eines falsch positiven Resultats annehmen, was bedeutet, dass der Klassifikator ein Objekt fälschlich als Teil einer positiven Klasse in einem vorherigen Schritt in der Kaskade angenommen hat (z. B. der Klassifikator einen Nicht-Menschen als Objekt des menschlichen Typs klassifiziert hat). Ein Fehler kann auch die Form eines falsch negativen Resultats annehmen, was bedeutet, dass der Klassifikator ein Objekt abgelehnt hat und geschlussfolgert hat, dass es sich um ein Nicht-Mitglied einer Objektklasse handelt, wenn das Objekt tatsächlich ein Mitglied dieser Klasse ist (z. B. der Klassifikator einen Menschen nicht als Objekt vom menschlichen Typ klassifiziert hat). Der Klassifikator kann beispielsweise einem Objekt, das er nicht mit ausreichendem Vertrauen klassifizieren kann, eine ”verdächtige” oder ”unbekannte” Klasse zuweisen. Wenn ein solches Objekt tatsächlich ein Mensch oder ein Fahrzeug oder dergleichen ist, kann der Benutzer diesen Fehler angeben.
Eine Spezialisierungstrainingsprozedur kann das Hinzufügen eines zusätzlichen Schritts am Ende der Kaskade von Schritten, die den Klassifikator bilden, und das Trainieren dieses neuen Schritts, um Fehlalarme von gültigen oder ”echten” Alarmen zu trennen, wie durch die Benutzerrückmeldung angegeben, zur Folge haben. Der zusätzliche Schritt, der zum Klassifikator hinzugefügt wird, kann als ”Spezialisierungsschritt” bezeichnet werden. In einer Hinsicht unterstützt der Spezialisierungsschritt den Klassifikator, damit er beim Klassifizieren von Objekten spezialisierter wird, die diesem speziellen Klassifikator in Anbetracht seines Orts, Kamera(s) usw. präsentiert werden.
Gemäß einem Ausführungsbeispiel nimmt die Spezialisierung eine von zwei Formen an: (1) Ortsspezialisierung und (2) Kameraspezialisierung. In diesem Ausführungsbeispiel werden diese Spezialisierungsschritte unter Verwendung von Fehlalarmfehlern trainiert. Wie in 11 dargestellt, hat somit der Klassifikator 300 eine fehlerhafte positive Klassifikation in irgendeinem Schritt 1 bis N in seiner Kaskade durchgeführt. Die falsch positiven Resultate werden vom Klassifikator 300 zu einem Ortsspezialisierungsschritt 1110 übertragen und dann, falls erforderlich, zu einem Kameraspezialisierungsschritt 1120, falls vorhanden.
Der Ortsspezialisierungsschritt 1110 ist ein allgemeiner Schritt, der trainiert wird, um Fehlalarme zu verringern, unter Verwendung von Merkmalen, die als Teil der Operation des allgemeinen Klassifikators 300 extrahiert werden. Die zum Trainieren des Ortsspezialisierungsschritts 1110 verwendeten Daten sind ortsspezifisch. Folglich kann ein ortsspezialisierter Klassifikator 1130 (d. h. ein Klassifikator, der so modifiziert oder verbessert ist, dass er den Ortsspezialisierungsschritt 1110 umfasst) an einem anderen Ort nicht mit erhöhter Genauigkeit funktionieren.
Der Kameraspezialisierungsschritt 1120 ist ein Schritt, der trainiert wird, um Fehlalarme nur für eine spezifische Kamera zu verringern. Wenn es dem ortsspezialisierten Klassifikator 1130 misslingt, die Anzahl von Fehlalarmen zu verringern, dann kann ein kameraspezialisierter Klassifikator 1140 trainiert werden.
12 ist ein Ablaufplan eines Spezialisierungstrainingsprozesses 1200 mit aktiver Überprüfung. Nachdem eine ausreichende Anzahl von Fehlern gesammelt wurde (Schritte 1202 und 1204), wird ein Ortsspezialisierungsschritt hinzugefügt und trainiert (Schritt 1206). Die Leistung des ortsspezialisierten Klassifikators wird über einen Überprüfungsprozess bewertet (Schritt 1208). Wenn seine Leistung annehmbar ist, d. h. wenn seine Fehlerrate ausreichend niedriger ist als jene des allgemeinen Klassifikators (Schritt 1210), dann geht das Verfahren zu Schritt 1218 weiter. Wenn jedoch die Fehlerrate nicht ausreichend verringert ist, dann wird ein Kameraspezialisierungsschritt für jede Kamera hinzugefügt, die eine Quelle der Fehler war (Schritt 1212). Die Leistung des kameraspezialisierten Klassifikators wird über einen Überprüfungsprozess bewertet (Schritt 1214). Wenn seine Leistung annehmbar ist (Schritt 1216), dann geht das Verfahren zu Schritt 1218 weiter. Wenn die Nettofehlerrate immer noch nicht ausreichend verringert ist, dann wird der Benutzerrückmeldungssammelschritt 1202 fortgesetzt. Wenn ein verbesserter Klassifikator konstruiert wird, dann werden irgendwelche vorher trainierten Spezialisierungen getestet (1218), um festzustellen, ob sie mit der neuen Spezialisierung konsistent sind. Wenn eine vorher trainierte Spezialisierung existiert, die konsistent ist, dann wird die vorher trainierte Spezialisierung ausgewählt (Schritt 1220) und zu einem passiven Überprüfungsschritt 1224 des Verfahrens 1200 gelenkt. Ansonsten wird die neu trainierte Spezialisierung ausgewählt (Schritt 1222) und in Schritt 1224 des Verfahrens 1200 passiv überprüft. Wenn die neue Spezialisierung überprüft ist und eingesetzt werden kann (Schritt 1226), wird sie zur Datenbank von Spezialisierungsschritten hinzugefügt (Schritt 1228) und tatsächlich eingesetzt (Schritt 1230). Der Speicherschritt 1228 ist vorteilhaft, da verschiedene Spezialisierungen für verschiedene Jahreszeiten des Jahres oder verschiedene Konfigurationen der überwachten Szene erforderlich sein können. Folglich ist es möglich, dass eine vorher eingesetzte Spezialisierung zu einem späteren Zeitpunkt wieder verwendet wird.
Zwei unterschiedliche Überprüfungsoperationen können ausgeführt werden, bevor ein Klassifikator eingesetzt wird. Erstens vergleicht die passive Überprüfung die vom Benutzer gebotene Rückmeldung, die die Alarme und die Entscheidungen des spezialisierten Klassifikators bestätigt. Wenn der spezialisierte Klassifikator mit dem Benutzer konsistenter ist als der eingesetzte Klassifikator, wird der spezialisierte Klassifikator als gültig betrachtet und kann dann einer aktiven Überprüfung unterzogen werden, die der zweite Typ von Überprüfung ist. Während der aktiven Überprüfung präsentiert das System dem Benutzer den spezialisierten Klassifikator aktiv, wobei es die Fehlalarme, die der spezialisierte Klassifikator abgelehnt hat, und/oder wahre positive Resultate, die vom spezialisierten Klassifikator abgelehnt wurden, zeigt. Der Benutzer wählt die Fehler aus, die annehmbar sind, und jene, die es nicht sind. Das System versucht dann, den Ablehnungsschwellenwert τ_r und/oder den Annahmeschwellenwert τ_a für den spezialisierten Klassifikator derart einzustellen, dass die Vorlieben des Benutzers am genauesten erfüllt werden. Wenn das Leistungsziel nicht erfüllt werden kann, dann wird der Klassifikator als ungültig deklariert und der Datensammelschritt fährt fort. Ansonsten wird der spezialisierte Klassifikator eingesetzt.
13 stellt einen passiven Überprüfungsprozess 1300 genauer dar. Der Prozess 1300 stellt (einen) Alarm(e) für eine Kamera 102 sowohl für einen Benutzer als auch einen spezialisierten Klassifikator dar (Schritte 1302 und 1312). Der Benutzer an der Benutzerschnittstelle 104 bestätigt entweder den (die) Alarm(e) oder lehnt ihn (sie) ab und diese Benutzerrückmeldung wird vom Prozess 1300 angenommen (Schritt 1310). Ebenso nimmt der spezialisierte Klassifikator entweder die einen Alarm auslösenden Objekte als Mitglieder der Klasse an, die den Fehlalarm ausgelöst haben, oder lehnt sie ab und diese Entscheidungsergebnisse werden vom Verfahren 1300 angenommen (Schritt 1340). Der Prozess 1300 vergleicht automatisch die Benutzerrückmeldung, die Alarme bestätigt, mit Entscheidungen, die vom spezialisierten Klassifikator getroffen werden (Schritt 1350). Wenn der spezialisierte Klassifikator mit dem Benutzer nicht konsistenter ist als der eingesetzte Klassifikator (Schritt 1360), dann wird er der fortgesetzten Verfeinerung unterzogen (Schritt 1370). Wenn der spezialisierte Klassifikator mit dem Benutzer konsistenter ist als der eingesetzte Klassifikator (Schritt 1360), wird der spezialisierte Klassifikator als gültig betrachtet und wird zu einer aktiven Überprüfungsoperation übergeben (Schritt 1380). Eine Erhöhung der Konsistenz bedeutet, dass die Spezialisierung die Mehrheit von Fehlalarmen ablehnen kann, während echte Alarme nicht abgelehnt werden. Nur konsistentere Spezialisierungen werden zum aktiven Überprüfungsschritt 1380 weitergeleitet und schließlich eingesetzt (Schritt 1390).
14 zeigt einen aktiven Überprüfungsprozess 1400, der einen Benutzer aktiv in Anspruch nimmt, um einen spezialisierten Klassifikator zu überprüfen. Der im aktiven Überprüfungsprozess verwendete Benutzer ist vorzugsweise ein Aufseher, Manager oder eine andere höherrangige Person, die in der Erfassung von Fehlern oder absichtlicher Sabotage an dem System erfahrener ist. Der Prozess 1400 unterteilt Inkonsistenzen von spezialisierten Klassifikatoren in falsch positive Resultate und falsch negative Resultate (Schritt 1410). Der Prozess 1400 stellt beide für den Benutzer dar (Schritte 1420 und 1430). Der Benutzer an der Benutzerschnittstelle 104 kategorisiert dann Fehler als annehmbar oder unannehmbar. Ein Kompromiss von Fehlalarm/falsch negativem Resultat wird automatisch durch entsprechendes Wählen von τ_r durchgeführt (Schritt 1440). Das Erhöhen von τ_r erhöht die Anzahl von falsch negativen Resultaten, während die Anzahl von falsch positiven Resultaten verringert wird. Das System versucht, τ_r so einzustellen, dass der spezialisierte Klassifikator die Vorlieben des Benutzers am genauesten erfüllt. Wenn die Leistung unannehmbar ist (Schritt 1450), wird der Klassifikator für ungültig erklärt und der Datensammelschritt fährt fort (Schritt 1460). Ansonsten wird der spezialisierte Klassifikator eingesetzt (Schritt 1470).
Durch Lernen und/oder Spezialisierung kann der Klassifikator sich an seine Umgebung und Änderungen daran automatisch anpassen. Ein Kamerasystem mit einem solchen Klassifikator kann wenig oder keine manuelle geometrische Kalibrierung oder Abstimmung am Einsatzort benötigen. Dies kann zu beträchtlichen Kosteneinsparungen durch Verringern oder Beseitigen des Bedarfs für Arbeit durch geschultes Personal zum Installieren des Systems oder zum Einstellen des Systems führen, wie z. B. wenn die Jahreszeiten wechseln oder eine Kamera bewegt wird. Ein Kamerasystem unter Verwendung eines Klassifikators, wie hierin beschrieben, kann häufig durch irgendjemanden installiert werden, der mit der Kamerainstallation vertraut ist.
Ein weiterer Vorteil eines genauen Klassifikators besteht darin, dass eine verbesserte Genauigkeit bei der Klassifikation von Objekten die Qualität der Rückmeldung verbessern kann, die zu einem Objektdetektionsmodul und seinen Komponenten geliefert wird, wie z. B. einer Vordergrund/Hintergrund-Trennvorrichtung, wie in der vorstehend angeführten US-Patentanmeldung Nr. 10/884 486 beschrieben, wodurch die Leistung des Gesamtsystems weiter verbessert wird.
Ein weiterer Vorteil kann auftreten, wenn eine Rückmeldung über genaue Klassifikatoren von verschiedenen Orten gesammelt wird. Insbesondere wenn eine Spezialisierung trainiert wird und der Ortsspezialisierungsschritt eine beträchtliche Leistungsverbesserung bietet, dann kann der spezialisierte Klassifikator in einen zentralen Rückmeldungsserver hochgeladen werden. 15 zeigt einen Rückmeldungssammel- und Verallgemeinerungsprozess 1500 im Einzelnen. Wenn es vom Benutzer/Ort zugelassen wird, werden Fehlermetadaten für Fehler, die mit Spezialisierung korrigiert werden, gesammelt (Schritt 1505), mit Leistungsstatistiken und Ortsinformationen gebündelt (Schritt 1510) und zu einem Rückmeldungsserver über ein Netzwerk 1520 übermittelt (Schritt 1515). Am Rückmeldungsserver werden die Metadaten und zugehörigen Daten in einer Rückmeldungsdatenbank 1525 gespeichert. Der Prozess 1500 bewertet die Leistung des spezialisierten Klassifikators unter Verwendung der Fehlermetadaten und Videodaten, die in einer Videodatenbank 1530 gespeichert sind, die sich am Rückmeldungsserver befindet oder für diesen zugänglich ist (Schritt 1535). In dieser Weise kann der spezialisierte Klassifikator verwendet werden, um automatisch eine große Sammlung von Trainingsdaten zu bezeichnen. Unbezeichnete Daten, für die der allgemeine Klassifikator nicht mit dem spezialisierten Klassifikator übereinstimmt, können dem Benutzer zum Bezeichnen an der zentralen Trainingseinrichtung (nicht dargestellt) präsentiert werden. Ein neuer allgemeiner Klassifikator wird dann so trainiert, dass er mit dem spezialisierten Klassifikator für diejenigen Muster konsistent ist, die er korrekt klassifiziert hat (Schritt 1540). Spezialisierungen, die von mehreren Orten gesammelt werden, können in einer ähnlichen Weise verwendet werden. Wenn ein neuer allgemeiner Klassifikator trainiert werden kann, der mit allen hochgeladenen spezialisierten Klassifikatoren konsistenter ist, wird der neue allgemeine Klassifikator zu allen Orten für einen möglichen Einsatz verteilt. insbesondere testet der Prozess 1500, ob der allgemeine Klassifikator besser ist als vorherige (Schritt 1545). Wenn ja, kann er als neuer allgemeiner Klassifikator für den Einsatz an Orten verteilt werden (Schritt 1550). Wenn nicht, dann wird der spezialisierte Klassifikator als Ortsschablone markiert. Wenn die Leistung eines spezialisierten Klassifikators als ortsspezifisch erachtet wird, werden seine Entscheidungen mit gespeicherten Ortsschablonen verglichen (Schritt 1555). Wenn eine Ortsschablone existiert, die mit dem spezialisierten Klassifikator konsistenter ist, dann kann die Ortsschablone hochgeladen werden (1565). Ansonsten kann der spezialisierte Klassifikator als neue Ortsschablone gespeichert werden (Schritt 1560).
Wahlweise kann der Prozess 1500 testen, ob die Ortsschablone eine jahreszeitliche Verbesserung ist (Schritt 1570), und wenn ja, die Spezialisierung als solche planen (Schritt 1575).
Eine zentrale Vereinigung und Verteilung einer Rückmeldung und von aktualisierten neuen oder aktualisierten Klassifikatoren oder Klassifikatorparametern ermöglicht die Integration einer Gemeinschaftsrückmeldung auf der Basis von Erkennungsfehlern. Daten für Kundenorte, die ähnliche Probleme erleben, können vereinigt werden und ein neuer Klassifikator kann dann trainiert und verteilt werden. Diese Rückmeldung auf breiter Basis ermöglicht eine breite Sammlung von Informationen, die in das Training eines neuen Klassifikators integriert werden sollen; beispielsweise können Informationen über Fehlalarme von verschiedenen Systemen geteilt werden. Im Allgemeinen umfassen Metadaten ausreichend Informationen, damit der Klassifikator lernt, ohne auf die ursprünglichen Videodaten zugreifen zu müssen. Wenn ein neuer Klassifikator intern an einem Kundenort aktualisiert wird, wird die neue Version des Klassifikators auch zu anderen Kunden übertragen. Der neue Klassifikator kann beispielsweise verwendet werden, um festzustellen, welche Kundenorte ähnliche Quellen für Fehlalarme haben. Wenn die Anzahl von eingesetzten Systemen zunimmt, können die Menge und die Qualität der gesammelten Rückmeldung auch zunehmen, wodurch die Erzeugung von genaueren allgemeinen Klassifikatoren auf der Basis dieser Rückmeldung ermöglicht wird.
Periodische Aktualisierungen können zu allen vernetzten Kameras geschoben werden, ganz wie ein Antivirus-System. Die Klassifikatorspezifikation kann als neue Objektdefinitionsdatei betrachtet werden. Jede neue Definitionsdatei kann beim Kunden unter Verwendung von passiven und aktiven Überprüfungsmechanismen überprüft werden. Wenn die neue Definitionsdatei überprüft ist, dann wird sie dem Benutzer für den Einsatz präsentiert.
Das Lernen von neuen allgemeinen Objektklassen folgt derselben Prozedur wie der vorher beschriebene aktive Lernprozess. Das ortsspezifische Lernen von neuen Objektklassen folgt demselben Prozess wie der Fehlalarm-Verringerungsprozess. In einem typischen Fall ist eine neue Klasse gewöhnlich ein spezifischer Typ einer allgemeineren Klasse. Ein Benutzer kann beispielsweise einen Lieferwagen von anderen Fahrzeugen unterscheiden wollen. Folglich ist die Klasse ”Lieferwagen” ein spezifischer Typ von Fahrzeug. Eine Spezialisierungsarchitektur, wie z. B. in 16 gezeigt, mit einem neuen Objektklassifikator 1610 kann dann vielmehr als separater Klassifikator als als Modifikation einer existierenden Klasse ausgeführt werden. Der Spezialisierungsprozess kann als Fehlalarm-Verringerungsprozess betrachtet werden, in dem Fahrzeuge, die keine Lieferwägen sind, Fehlalarme sind. Passive und aktive Überprüfungsoperationen werden vorzugsweise vollendet, bevor ein neuer Klassifikator für die neue Objektklasse eingesetzt wird.
Automatische Kalibrierung
Ein Kalibrierungsmodul kann im Videoanalysemodul 200 (2) enthalten sein, um repräsentative Größen von verschiedenen klassifizierten Objekten in Reaktion auf Klassifikationen, die vom Objektklassifikationsmodul 210 während des Live-Betriebs durchgeführt werden, automatisch zu aktualisieren. Dagegen kann das Kalibrierungsmodul Informationen, die aktualisierte repräsentative Größen darstellen, zum Objektklassifikationsmodul liefern, um seine Klassifikationsleistung zu verbessern.
17 ist ein Ablaufplan eines Verfahrens 1700, das eine Größenfunktion verwendet und aktualisiert, die eine Größe eines Objekts eines gegebenen Typs mit seinem Ort in einem Blickfeld in Beziehung bringt. Die Größenfunktion kann eine parametrisierte Funktion der Position sein, wie z. B. ein Polynom zweiter Ordnung in X- und Y-Koordinaten. Wenn klassifizierte Objekte 1702, die eine im Allgemeinen konstante Abmessung über alle Mitglieder der Klasse aufweisen (z. B. Höhe von erwachsenen Menschen), durch das Objektklassifikationsmodul zur Verfügung gestellt werden, stellt das Verfahren 1700 fest, ob sie als Mitglieder dieser Klasse mit hohem oder niedrigem Vertrauen klassifiziert werden (Schritt 1710), vorzugsweise durch Untersuchen der vorstehend beschriebenen Vertrauensabschätzung. Wenn das Vertrauen niedrig ist, dann wird die Größenfunktion auf das Objekt in seiner aktuellen Position angewendet (Schritt 1720) und der Wert, der durch die Größenfunktion zurückgegeben wird, wird mit der tatsächlichen Größe in dem Bild verglichen, um festzustellen, ob sie ausreichend eng übereinstimmen (Schritt 1725). Wenn ja, dann kann die Klassifikation des Objekts 1702 als Mitglied der Objektklasse als korrekt bestätigt werden (Schritt 1730). Wenn die tatsächliche und die durch die Größenfunktion berechnete Größe nicht ausreichend eng übereinstimmen, dann klassifiziert das Verfahren 1700 das Objekt als Nicht-Mitglied der Objektklasse (Schritt 1735). In beiden Fällen ist, sobald das Vertrauen des Klassifikators niedrig ist, die Größenfunktion unverändert, da es unvorsichtig wäre, zu versuchen, die Größenfunktion unter Verwendung von fraglichen Daten zu kalibrieren.
Wenn das Vertrauen der Klassifikation hoch ist, dann wird das Objekt ungeachtet seiner Größe als Mitglied der Klasse klassifiziert (Schritt 1730). In diesem Fall wird überdies die Größenfunktion unter Verwendung der tatsächlichen Größe des Objekts als zusätzlicher Datenpunkt für die erwartete Größe dieser Klasse des Objekts an dem Ort, an dem es im Bild erscheint, aktualisiert (Schritt 1740). Die Größenfunktion wird durch Modifizieren ihrer Parameter, wie z. B. durch einen rekursiven Algorithmus kleinster Quadrate oder einen ähnlichen Algorithmus, aktualisiert. Das nächste Mal, wenn ein Objekt mit niedrigem Vertrauen dargestellt wird, wird folglich die aktualisierte Größenfunktion angewendet, um die Klassifikation entweder zu bestätigen oder abzulehnen. In dieser Weise wird die Objektklassifikation automatisch während des Laufzeitbetriebs unter Verwendung von zuverlässigen Live-Daten kalibriert.
Die Größenfunktion kann eine beliebige parametrisierte Funktion sein, deren Parameter durch Anpassung bestimmt und eingestellt werden können. Eine Höhengrößenfunktion der folgenden Form kann beispielsweise verwendet werden: Höhe (x, y) = ax + by + c (14)
Andere Funktionen, wie z. B. Polynome höherer Ordnung, können verwendet werden, falls erwünscht. Die Parameter a, b, und c können auf der Basis einer Anpassung kleinster Fehlerquadrate oder anderer geeigneter Kriterien bestimmt werden, die vorzugsweise rekursiv durchgeführt wird, wobei eine Iteration jedes Mal stattfindet, wenn der Schritt 1740 durchgeführt wird.
Es ist auch möglich, eine optionale Größenfehlerfunktion zu verwenden, um den Größenabschätzungsfehler abzuschätzen. Die Größenfehlerfunktion ist ebenso eine parametrisierte Funktion der Koordinaten im Bildblickfeld, Fehler (x, y), und ist eine Abschätzung der Differenz zwischen der Größenfunktion und der tatsächlichen Größe. Die Größenfehlerfunktion selbst kann jedes Mal, wenn eine tatsächliche Größe eines Objekts gemessen wird, rekursiv aktualisiert werden. Wenn die Größenfehlerfunktion einen Wert zurückgibt, der zu hoch ist (d. h. über einem Schwellenwert), dann kann die Größenfunktion ungültig sein und sollte nicht verwendet werden, um zu helfen, Objekte, die durch das Objektklassifikationsmodul 210 mit niedrigem Vertrauen klassifiziert werden, zu klassifizieren. Folglich kann die Größenfehlerfunktion als Selbstprüfverfahren für die automatische Kalibrierung dienen, was eine fehlerhafte Kalibrierung verhindert. Wenn mehrere Male für Objekte mit hohem Vertrauen große Fehler bestehen, dann kann die Kalibrierung für ungültig erklärt werden, vielleicht aufgrund einer externen Änderung wie z. B. einer Bewegung der Kamera. Während Perioden, in denen die Kalibrierung ausgeschaltet ist, kann das Verfahren 1700 weiterhin die Größen- und Größenfehlerfunktionen aktualisieren (d. h. im Zweig des hohen Vertrauens auf der rechten Seite von 17), bis der Größenfehler annehmbar wird, zu welchem Zeitpunkt eine automatische Bestätigung/Ablehnung auf Größenbasis von Objekten mit niedrigem Vertrauen (d. h. im Zweig des niedrigen Vertrauens auf der linken Seite von 17) fortfahren kann.
Ein Objekthöhengitter kann wahlweise in der Bildebene konstruiert werden, in der für jede Gitterzelle die mittlere Höhe eines Objekts ohne Hilfe von manueller Kalibrierung abgeschätzt wird. Eine Polynomanpassung kann dann abgeschätzt werden, um den unteren Ort eines Objekts auf seinen oberen Ort abzubilden und umgekehrt. Über die Zeit können genaue Objektgrößenabschätzungen automatisch für verschiedene Teile der Szene erzeugt werden, mit oder ohne Integration einer aktiven Benutzerrückmeldung. In einem bevorzugten Ausführungsbeispiel ist ein manueller Kalibrierungsprozess nicht erforderlich, um genaue Objektgrößenabschätzungen zu erreichen. Wenn eine größere Genauigkeit entwickelt wird, steigt das Vertrauensniveau der gelernten Informationen an, so dass Objektgrößenabschätzungen verwendet werden können, um falsche Detektionen zu verringern. Unter Verwendung von Höheninformationen von überprüften und verfolgten Objekten zusammen mit Kameralinseninformationen kann dann ein vollständiger Satz von Kameraparametern abgeschätzt werden und wiederum verwendet werden, um eine Bodenebene und eine Koordinatenabbildung vom Bild in die reale Welt abzuschätzen. Mit ausreichendem Vertrauen können geometrische Informationen für die Verwendung beim Detektieren von Objekten, die über der Bodenebene liegen, beispielsweise auf oberen Ebenen einer Parkgarage, in der mehrere Stockwerke ähnliche Fahrzeuge enthalten, übertragbar sein.
18 ist ein Blockdiagramm des Videoanalysemoduls 200 gemäß einem weiteren Ausführungsbeispiel mit einem Kalibrierungsmodul 240, das einen automatischen Kalibrierungsprozess, wie z. B. das vorstehend beschriebene Verfahren 1700, durchführt. 18 stellt auch eine Anzahl von anderen optionalen Modulen dar, wie z. B. ein Geschwindigkeitsabschätzmodul 250, das in Verbindung mit dem Kalibrierungsmodul 240 verwendet werden kann, um Geschwindigkeiten von klassifizierten Objekten im Blickfeld unter Verwendung von Maßstabsinformationen abzuschätzen, die von den durch das Kalibrierungsmodul 240 erzeugten Größeninformationen abgeleitet sind.
18 stellt auch ein Klassifikatorentwicklungsmodul 260 dar, das ein Selbstlernen oder eine Entwicklung des Objektklassifikationsmoduls am Einsatzort oder bei der Verwendung durchführen kann, wie z. B. durch irgendeines der hierin beschriebenen Verfahren. 18 stellt auch ein oder mehrere steuerbare Filter 220 dar, die verwendet werden können, um Kantenorientierungswerte zu berechnen. Schließlich stellt 18 eine oder mehrere Histogramm-Datenstrukturen 230 dar, die verschiedene Histogramme darstellen, wie z. B. Kantenorientierungshistogramme oder Farbhistogramme, die als Objektmerkmale für die Zwecke der Objektklassifikation verwendet werden. Histogramm-Informationen können in einer Datenstruktur mit einer Anzahl von Intervallbereichen und Intervallbereichszahlen gespeichert werden, deren Werte Vorkommnisse einer Variable zwischen Intervallbereichsgrenzen darstellen. Anders als gezeigt können ein oder mehrere der Module und anderen Objekte, die in 18 dargestellt sind, vom Videoanalysemodul 200 separat sein und können sich anderswo in der Kamera 102 oder in einem anderen Teil des Kamerasystems 100 befinden.
Wie hierin verwendet, ist der Begriff ”Modul” eine Komponente, die ein oder mehrere Hardware-Schaltungen oder -vorrichtungen und/oder eine oder mehrere Softwareroutinen, Funktionen, ein Objekt oder dergleichen umfassen kann. Ein Modul kann vollständig Hardware, vollständig Software sein, Firmware umfassen oder eine gewisse Kombination der vorangehenden umfassen. Wie hierin verwendet, bezieht sich der Begriff ”System” auf eine materielle Sache.
Die Verfahren, Module und Systeme, die hierin dargestellt und beschrieben sind, können in einer Vielfalt von Formen sowohl aktiv als auch inaktiv existieren. Sie können beispielsweise teilweise oder vollständig als ein oder mehrere Softwareprogramme existieren, die aus Programmanweisungen in Quellencode, Objektcode, ausführbarem Code oder anderen Formaten bestehen. Irgendeines der obigen kann in komprimierter oder unkomprimierter Form auf einem computerlesbaren Medium, das Speichervorrichtungen umfasst, verkörpert sein. Beispielhafte computerlesbare Speichervorrichtungen umfassen einen RAM (Direktzugriffsspeicher) ROM (Festwertspeicher), EPROM (löschbarer, programmierbarer ROM), EEPROM (elektrisch löschbarer, programmierbarer ROM), Flash-Speicher eines herkömmlichen Computersystems und magnetische oder optische Platten oder Bänder.
Abschluss
Die vorstehend verwendeten Begriffe und Beschreibungen sind nur zur Erläuterung dargelegt und sind nicht als Begrenzungen gemeint. Der Klassifikator kann beispielsweise ein Teil sein von – und die Klassifikationsverfahren können durchgeführt werden an – einer entfernten Verarbeitungseinheit wie z. B. der entfernten Speicher/Verarbeitungseinheit 106 (1), einem Computer, der der Benutzerschnittstelle 104 zugeordnet ist, einem anderen Knoten im Kameranetzwerk 108 oder einem anderen Server, wie z. B. einem an einem zentralen Ort oder in einem anderen Netzwerk. Der Fachmann auf dem Gebiet wird erkennen, dass diese und viele andere Variationen, Verbesserungen und Modifikationen der hierin beschriebenen Konzepte möglich sind, ohne von den zugrunde liegenden Prinzipien der Erfindung abzuweichen. Der Schutzbereich der Erfindung sollte daher nur durch die folgenden Ansprüche und ihre Äquivalente bestimmt sein.
Zusammenfassung
Ein Kamerasystem (100) umfasst eine Bilderfassungsvorrichtung (102) und ein Objektklassifikationsmodul (210), das mit der Bilderfassungsvorrichtung (102) verbunden ist. Die Bilderfassungsvorrichtung (102) weist ein Blickfeld auf und erzeugt Bilddaten, die ein Bild des Blickfeldes darstellen. Das Objektklassifikationsmodul (210) ist betriebsfähig, um festzustellen, ob ein Objekt in einem Bild ein Mitglied einer Objektklasse ist oder nicht. Das Objektklassifikationsmodul (210) umfasst N Entscheidungsschritte (400), die in einer Kaskadenkonfiguration konfiguriert sind, wobei mindestens einer der N Entscheidungsschritte (400) betriebsfähig ist, um (a) ein Objekt als Mitglied der Objektklasse anzunehmen, (b) ein Objekt als Mitglied der Objektklasse abzulehnen, und (c) einen nächsten Schritt (400) heranzuziehen, um festzustellen, ob ein Objekt ein Mitglied der Objektklasse ist oder nicht.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

”Method of Dynamic Object and Event Classification”, eingereicht am 3. März 2008 [0001]
”Method and System for Tracking Objects Under Video Surveillance”, eingereicht am 3. März 2008 [0001]
”Content Aware Storage of Video Data” bzw. ”Extending the Operational Lifetime of a Hard-Disk Drive Used in Video Data Storage Applications” [0038]
”Methods and Systems for Detecting Objekts of Interest in Spatio-Temporal Signals” [0040]
”Objekt Matching for Tracking, Indexing, and Search” [0041]
Paul Viola & Michael Jones, ”Robust Real-Time Face Detection”, International Journal of Computer Vision, S. 137–154 (2004) [0051]
”Sequential Discriminant Error Minimization: The Theory and its Application to Real-Time Video Object Recognition” (Carnegie Mellon University, 2005) [0062]

Claims

Kamerasystem (100) mit: einer Bilderfassungsvorrichtung (102) mit einem Blickfeld, die Bilddaten erzeugt, die ein Bild des Blickfeldes darstellen; und einem Objektklassifikationsmodul (210), das mit der Bilderfassungsvorrichtung (102) verbunden ist, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um festzustellen, ob ein Objekt in einem Bild ein Mitglied einer Objektklasse ist oder nicht, wobei das Objektklassifikationsmodul (210) N Entscheidungsschritte (400) umfasst, die in einer Kaskadenkonfiguration konfiguriert sind, wobei mindestens einer der N Entscheidungsschritte (400) betriebsfähig ist, um (a) ein Objekt als Mitglied der Objektklasse anzunehmen, (b) ein Objekt als Mitglied der Objektklasse abzulehnen, und (c) einen nächsten Schritt (400) heranzuziehen, um festzustellen, ob ein Objekt ein Mitglied der Objektklasse ist oder nicht.
Kamerasystem (100) nach Anspruch 1, das ferner umfasst: ein Objektdetektionsmodul (204), das mit der Bilderfassungsvorrichtung (102) und dem Objektklassifikationsmodul (210) verbunden ist, wobei das Objektdetektionsmodul (204) die Bilddaten empfängt und betriebsfähig ist, um zu detektieren, ob ein Objekt sich im Blickfeld der Bilderfassungsvorrichtung (102) befindet oder nicht, wobei das Objektdetektionsmodul (204) ein detektiertes Objekt an das Objektklassifikationsmodul (210) übergibt.
Kamerasystem (100) nach Anspruch 1, wobei der mindestens eine der N Entscheidungsschritte (400) eine Stufe (500) zur Abbildung eines Objektmerkmals auf einen Skalarwert umfasst.
Kamerasystem (100) nach Anspruch 3, wobei die Stufe (500) eine Diskriminantenfunktion zum Bestimmen des Skalarwerts umfasst.
Kamerasystem (100) nach Anspruch 4, wobei der Skalarwert mit einem Klassifikationsvertrauen korreliert ist.
Kamerasystem (100) nach Anspruch 3, wobei das Objektmerkmal ein Seitenverhältnis eines Objekts ist.
Kamerasystem (100) nach Anspruch 3, wobei das Objektmerkmal ein Kantenorientierungshistogramm eines Objekts ist.
Kamerasystem (100) nach Anspruch 7, wobei das Kantenorientierungshistogramm unter Verwendung eines steuerbaren Filters erzeugt wird.
Kamerasystem (100) nach Anspruch 1, wobei mehrere Merkmale des Objekts identifiziert werden, wobei der mindestens eine der N Entscheidungsschritte (400) eine Stufe (500) zur Abbildung von mehreren Objektmerkmalen auf einen Skalarwert umfasst.
Kamerasystem (100) nach Anspruch 1, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um ein Objekt als Menschen oder Nicht-Menschen zu klassifizieren.
Kamerasystem (100) nach Anspruch 1, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um ein Objekt als Fahrzeug oder Nicht-Fahrzeug zu klassifizieren.
Verfahren (600) zum Klassifizieren eines Objekts, das von einem Kamerasystem (100) erfasst wird, wobei das Kamerasystem (100) ein Objektklassifikationsmodul (210) mit N Entscheidungsschritten (400) umfasst, die in einer Kaskadenkonfiguration konfiguriert sind, wobei das Verfahren umfasst: Erfassen (602) eines Bildes eines Objekts; Übertragen (606) von Bilddaten, die das Objekt darstellen, zu einem ersten der N Entscheidungsschritte (400); Identifizieren (608) eines Merkmals des Objekts, das in den Bilddaten dargestellt ist, um festzustellen, ob das Objekt ein Mitglied einer Objektklasse ist, wobei ein Entscheidungsschrittwert von dem Merkmal des Objekts abgeleitet wird; und Treffen einer Entscheidung, um entweder das Objekt als Mitglied der Objektklasse anzunehmen, das Objekt als Mitglied der Objektklasse abzulehnen, oder die Bilddaten zu einem zweiten der N Entscheidungsschritte (400) zur weiteren Analyse weiterzuleiten, wobei die Entscheidung auf einem Vergleich des Entscheidungsschrittwerts mit einem oder mehreren eines Annahmeschwellenwerts (τ_a) und eines Ablehnungsschwellenwerts (τ_r) basiert, wobei der Annahmeschwellenwert ein höherer Wert ist als der Ablehnungsschwellenwert (τ_r), wobei das Objekt als Mitglied der Objektklasse angenommen wird, wenn der Entscheidungsschrittwert über dem Annahmeschwellenwert (τ_a) liegt, das Objekt als Mitglied der Objektklasse abgelehnt wird, wenn der Entscheidungsschrittwert unter dem Ablehnungsschwellenwert (τ_r) liegt, und die Bilddaten zum zweiten Entscheidungsschritt (400) weitergeleitet werden, wenn der Entscheidungsschrittwert zwischen dem Annahme- und dem Ablehnungsschwellenwert liegt.
Verfahren (600) nach Anspruch 12, das ferner umfasst: Detektieren (604) des Objekts.
Verfahren (600) nach Anspruch 13, wobei das Objekt als Mitglied der Objektklasse abgelehnt wird, wenn der Entscheidungsschrittwert auf oder unterhalb des Ablehnungsschwellenwerts (τ_r) liegt.
Verfahren (600) nach Anspruch 13, wobei die Bilddaten als Mitglied der Objektklasse angenommen werden, wenn der Entscheidungsschrittwert auf oder über dem Annahmeschwellenwert (τ_a) liegt.
Verfahren (600) nach Anspruch 13, wobei mehrere Merkmale des Objekts identifiziert werden und der Entscheidungsschrittwert von den mehreren Merkmalen abgeleitet wird.
Kamerasystem (100) mit: einer Bilderfassungsvorrichtung (102) mit einem Blickfeld, die Bilddaten erzeugt, die ein Bild des Blickfeldes darstellen; und einem Objektklassifikationsmodul (210), das mit der Bilderfassungsvorrichtung (102) verbunden ist, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um festzustellen, ob ein Objekt in dem Bild ein Mitglied einer Objektklasse ist oder nicht, wobei das Objektklassifikationsmodul (210) N Entscheidungsschritte (400) umfasst, die in einer Kaskadenkonfiguration konfiguriert sind, wobei jeder der Entscheidungsschritte (400) eine oder mehrere Stufen (500) zur Abbildung von Objektmerkmalen auf Skalarwerte umfasst, wobei eine erste der Stufen (500) eine erste Diskriminantenfunktion zum Bestimmen eines ersten Skalarwerts umfasst, eine zweite der Stufen (500) eine zweite Diskriminantenfunktion zum Bestimmen eines zweiten Skalarwerts umfasst und die erste und die zweite Diskriminantenfunktion von verschiedenen Typen sind.
Kamerasystem (100) nach Anspruch 17, das ferner umfasst: ein Objektdetektionsmodul (204), das mit der Bilderfassungsvorrichtung (102) und dem Objektklassifikationsmodul (210) verbunden ist, wobei das Objektdetektionsmodul (204) die Bilddaten empfängt und betriebsfähig ist, um zu detektieren, ob sich ein Objekt im Blickfeld der Bilderfassungsvorrichtung (102) befindet oder nicht.
Kamerasystem (100) nach Anspruch 17, wobei die erste und die zweite Stufe (500) demselben Entscheidungsschritt (400) entsprechen.
Kamerasystem (100) nach Anspruch 19, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um einen ersten und einen zweiten Gewichtungskoeffizienten auf den ersten bzw. den zweiten Skalarwert anzuwenden, und das Objektklassifikationsmodul (210) betriebsfähig ist, um den gewichteten ersten und zweiten Skalarwert zu addieren, um einen Entscheidungsschrittwert zu erzeugen.
Kamerasystem (100) nach Anspruch 17, wobei die erste und die zweite Stufe (500) verschiedenen der N Entscheidungsschritte (400) entsprechen.
Kamerasystem (100) nach Anspruch 17, wobei die erste Stufe (500) betriebsfähig ist, um ein erstes Objektmerkmal auf den ersten Skalarwert abzubilden, und die zweite Stufe (500) betriebsfähig ist, um ein zweites Objektmerkmal auf den zweiten Skalarwert abzubilden.
Kamerasystem (100) nach Anspruch 22, wobei das erste Objektmerkmal einem Seitenverhältnis eines Objekts entspricht und das zweite Objektmerkmal einem Kantenorientierungshistogramm des Objekts entspricht.
Kamerasystem (100) nach Anspruch 23, wobei das Kantenorientierungshistogramm unter Verwendung eines steuerbaren Filters erzeugt wird.
Kamerasystem (100) nach Anspruch 17, wobei die erste Diskriminantenfunktion eine Funktion auf radialer Basis umfasst und die zweite Diskriminantenfunktion eine S-förmige Funktion umfasst.
Verfahren zum Klassifizieren eines Objekts, das von einem Kamerasystem (100) erfasst wird, wobei das Verfahren umfasst: Erzeugen (602) von Bilddaten, die ein Bild eines Objekts darstellen, das von dem Kamerasystem (100) erfasst wird; Identifizierten (608) eines ersten und eines zweiten Merkmals des Objekts, das in den Bilddaten dargestellt ist; Abbilden des ersten und des zweiten Merkmals des Objekts auf einen jeweiligen ersten und zweiten Skalarwert, wobei eine erste Diskriminantenfunktion verwendet wird, um den ersten Skalarwert zu erzeugen, eine zweite Diskriminantenfunktion verwendet wird, um den zweiten Skalarwert zu erzeugen, und die erste und die zweite Diskriminantenfunktion während einer Trainingsoperation aus einer Gruppe ausgewählt werden, die aus mehreren verschiedenen Diskriminantenfunktionen besteht; und Feststellen, ob das Objekt ein Mitglied einer Objektklasse ist, auf der Basis eines Entscheidungsschrittwerts, der vom ersten und vom zweiten Skalarwert abgeleitet ist.
Kamerasystem (100) mit: einer Bilderfassungsvorrichtung (102) mit einem Blickfeld und einer Bildebene, wobei die Bilderfassungsvorrichtung (102) Bilddaten erzeugt, die ein Bild des Blickfeldes darstellen, das auf die Bildebene projiziert wird; einem Objektklassifikationsmodul (210), das mit der Bilderfassungsvorrichtung (102) verbunden ist und betriebsfähig ist, um Objekte auf der Basis der Bilddaten zu detektieren und zu klassifizieren, die im Blickfeld erfasst werden, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um Objekte als Mitglieder oder Nicht-Mitglieder einer Objektklasse zu klassifizieren; und einem Kalibrierungsmodul, das mit dem Objektklassifikationsmodul (210) verbunden ist, zum Abschätzen von repräsentativen Größen von Mitgliedern der Objektklasse, wobei die repräsentativen Größen verschiedenen Bereichen der Bildebene entsprechen, wobei das Kalibrierungsmodul betriebsfähig ist, um automatisch die repräsentativen Größen in Reaktion auf Klassifikationen, die vom Objektklassifikationsmodul (210) während des Live-Betriebs durchgeführt werden, zu aktualisieren, und das Kalibrierungsmodul betriebsfähig ist, um Informationen, die die aktualisierten repräsentativen Größen darstellen, zum Objektklassifikationsmodul (210) zu liefern, um seine Objektklassifikationsleistung zu verbessern.
Kamerasystem (100) nach Anspruch 27, wobei, wenn das Objektklassifikationsmodul (210) ein Objekt als Mitglied einer Objektklasse klassifiziert, ein Vertrauensparameter dieser Klassifikation zugeordnet wird, und wobei das Kalibrierungsmodul die repräsentativen Größen nur dann aktualisiert, wenn der Vertrauensparameter auf ein hohes Vertrauen hindeutet, dass die Klassifikation korrekt ist.
Kamerasystem (100) nach Anspruch 27, das ferner umfasst: eine Benutzerstation (104) mit einer Anzeige (114) und einer Eingabevorrichtung (116) zum Vorsehen von Benutzerrückmeldungsinformationen in Reaktion auf Klassifikationen, die vom Objektklassifikationsmodul (210) durchgeführt werden, wobei das Kalibrierungsmodul betriebsfähig ist, um die Benutzerrückmeldungsinformationen zu verwenden, um die repräsentativen Größen zu aktualisieren.
Kamerasystem (100) nach Anspruch 27, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um Kalibrierungsinformationen vom Kalibrierungsmodul zu verwenden, um die Objektdetektions- und Objektklassifikationsgenauigkeit zu verbessern.
Kamerasystem (100) nach Anspruch 27, das ferner umfasst: ein Geschwindigkeitsabschätzungsmodul, das mit dem Kalibrierungsmodul verbunden ist und betriebsfähig ist, um Geschwindigkeiten von klassifizierten Objekten, die sich in verschiedenen Bereichen des Blickfeldes befinden, abzuschätzen.
Kamerasystem (100) nach Anspruch 27, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um Objekte zu detektieren und zu klassifizieren, ohne eine anfängliche manuelle Kalibrierung zu erfordern.
Kamerasystem (100) nach Anspruch 27, wobei das Objektklassifikationsmodul (210) ein Kantenorientierungshistogramm eines Objekts konstruiert.
Kamerasystem (100) nach Anspruch 33, wobei das Objektklassifikationsmodul (210) ein steuerbares Filter umfasst, das das Kantenorientierungshistogramm erzeugt.
Verfahren (1700) zum automatischen Kalibrieren eines am Einsatzort aufgestellten Kamerasystems (100), wobei das Verfahren umfasst: Erfassen von mehreren Bildern eines Blickfeldes des Kamerasystems (100), wobei die mehreren Bilder einer Bildebene des Kamerasystems (100), auf die das Blickfeld projiziert wird, entsprechen; Detektieren eines ersten Objekts in den mehreren Bildern, wobei das erste Objekt an verschiedenen Stellen der Bildebene in den mehreren Bildern detektiert wird, und Bilder des ersten Objekts verschiedene Größen aufweisen, die den verschiedenen Stellen entsprechen; Klassifizieren des ersten Objekts als erstes Mitglied einer Objektklasse; Berechnen eines Parameters einer Größenfunktion für die Bildebene auf der Basis der verschiedenen Größen des ersten Objekts, wobei die Größenfunktion verwendet wird, um repräsentative Größen der Objektklasse für die Bildebene abzuschätzen; und Aktualisieren (1740) des Parameters der Größenfunktion in Reaktion auf die Detektion und Klassifikation eines zweiten Mitglieds der Objektklasse, wobei das zweite Mitglied während des Live-Betriebs des Kamerasystems (100) detektiert und klassifiziert wird.
Verfahren (1700) nach Anspruch 35, wobei das erste Mitglied der Objektklasse und das zweite Mitglied der Objektkasse beide dem ersten Objekt entsprechen.
Verfahren (1700) nach Anspruch 35, wobei das zweite Mitglied der Objektklasse einem zweiten Objekt, das vom ersten Objekt verschieden ist, entspricht.
Verfahren (1700) nach Anspruch 35, wobei die Klassifikation des zweiten Mitglieds der Objektklasse einen Vertrauensparameter erzeugt, der ein Maß des Vertrauens darstellt, dass das zweite Objekt ein Mitglied der Objektklasse ist, und wobei der Aktualisierungsschritt nur dann durchgeführt wird, wenn der Vertrauensparameter ein hohes Vertrauen angibt, dass die Klassifikation korrekt ist.
Verfahren zum Modifizieren eines Objektklassifikationsmoduls (210), das von einem Benutzer in einem am Einsatzort aufgestellten Kamerasystem (100) verwendet wird, wobei das Verfahren umfasst: Erfassen von mehreren Bildern eines Blickfeldes des Kamerasystems (100), wobei die mehreren Bilder Darstellungen von mehreren Objekten umfassen, wobei ein erster Satz der mehreren Objekte Mitglieder einer Objektklasse sind und ein zweiter Satz der mehreren Objekte nicht Mitglieder der Objektklasse sind; Klassifizieren der mehreren Objekte als entweder Mitglieder oder Nicht-Mitglieder der Objektklasse, wobei das Objektklassifikationsmodul (210) ein oder mehrere irrtümliche Klassifikationen erzeugt; Erzeugen von Fehlermetadaten auf der Basis einer Bestätigung vom Benutzer von zumindest einigen der einen oder mehreren irrtümlichen Klassifikationen; und Modifizieren des Objektklassifikationsmoduls (210) auf der Basis der Fehlermetadaten, um eine Anzahl von irrtümlichen Klassifikationen zu verringern, wobei die Modifikation automatisch während der Verwendung des Kamerasystems (100) am Einsatzort durchgeführt wird.
Verfahren nach Anspruch 39, wobei das Objektklassifikationsmodul (210) anfänglich N Entscheidungsschritte (400) umfasst, die in einer Kaskadenkonfiguration konfiguriert sind, und wobei der Modifikationsschritt das Konstruieren eines zusätzlichen Schritts (1110, 1120) von den Fehlermetadaten umfasst, um ihn zu den N Entscheidungsschritten (400) des Objektklassifikationsmoduls (210) hinzuzufügen, wodurch sich ein Objektklassifikationsmodul (210) mit N + 1 Schritten (400) ergibt.
Verfahren nach Anspruch 39, wobei die irrtümlichen Klassifikationen Fehlalarme sind, die Fälle darstellen, in denen das Objektklassifikationsmodul (210) Objekte des zweiten Satzes als Mitglieder der Objektklasse klassifiziert.
Verfahren nach Anspruch 39, das ferner umfasst: Anzeigen von Darstellungen der irrtümlichen Klassifikationen auf einer Anzeige (114) für die Bestätigung durch den Benutzer.
Verfahren nach Anspruch 39, wobei das Objektklassifikationsmodul (210) vor der Durchführung des Modifikationsschritts einen eingesetzten Klassifikator darstellt und das Objektklassifikationsmodul (210) nach der Durchführung des Modifikationsschritts einen spezialisierten Klassifikator (1130, 1140) darstellt, wobei das Verfahren ferner das Überprüfen des spezialisierten Klassifikators (1130, 1140) umfasst.
Verfahren nach Anspruch 43, wobei der Überprüfungsschritt eine passive Überprüfung (1300) des spezialisierten Klassifikators umfasst, wobei die passive Überprüfung umfasst: Klassifizieren von Objekten mit dem spezialisierten Klassifikator (1130, 1140); Klassifizieren der Objekte mit dem eingesetzten Klassifikator, wobei der eingesetzte Klassifikator Fehlalarme und echte Alarme erzeugt; Darstellen (1302) der Fehlalarme und echten Alarme für einen Benutzer zur Bestätigung; Erzeugen (1310) von Rückmeldungsinformationen auf der Basis der Benutzerbestätigung der Fehlalarme und echten Alarme; und Vergleichen (1350) der Klassifikationen des spezialisierten Klassifikators (1130, 1140) mit den Rückmeldungsinformationen.
Verfahren nach Anspruch 43, wobei der Überprüfungsschritt eine aktive Überprüfung (1400) des spezialisierten Klassifikators (1130, 1140) umfasst, wobei die aktive Überprüfung umfasst: Klassifizieren der Objekte mit dem eingesetzten Klassifikator; Klassifizieren von Objekten mit dem spezialisierten Klassifikator (1130, 1140), wobei einige der Klassifikationen des spezialisierten Klassifikators mit den Klassifikationen des eingesetzten Klassifikators inkonsistent sind; und Präsentieren von Darstellungen der inkonsistenten Klassifikationen des spezialisierten Klassifikators (1130, 1140) für einen Benutzer zur Überprüfung.
Verfahren nach Anspruch 39, wobei das Kamerasystem (100) mehrere Bilderfassungsvorrichtungen (102) mit verschiedenen Blickfeldern umfasst, wobei das Blickfeld des Kamerasystems (100) den verschiedenen Blickfeldern der Bilderfassungsvorrichtungen (102) entspricht, und der Modifikationsschritt einen Ortsspezialisierungsschritt (1110, 1120) darstellt.
Verfahren nach Anspruch 46, wobei der Modifikationsschritt einen Kameraspezialisierungsschritt (11100, 1120) für eine der mehreren Bilderfassungsvorrichtungen (102) darstellt.
Verfahren nach Anspruch 39, wobei das Kamerasystem (100) mit einem zentralen Rückmeldungsserver über ein Netzwerk verbunden ist, wobei das Verfahren ferner umfasst: Übertragen der Fehlermetadaten zum zentralen Rückmeldungsserver, wo die Fehlermetadaten zum Trainieren anderer Objektklassifikatoren verwendet werden.
Verfahren nach Anspruch 48, wobei das Kamerasystem (100) an einem Ort aufgestellt wird, wobei das Verfahren ferner umfasst: Übertragen einer Leistungsstatistik des Objektklassifikationsmoduls (210) zum zentralen Rückmeldungsserver; und Übertragen von Informationen, die den Ort darstellen, an dem das Kamerasystem (100) aufgestellt ist, zum zentralen Rückmeldungsserver.
Kamerasystem (100) mit: einer Bilderfassungsvorrichtung (102) mit einem Blickfeld, die Bilddaten erzeugt, die Bilder des Blickfeldes darstellen; einem Objektklassifikationsmodul (210), das mit der Bilderfassungsvorrichtung (102) verbunden ist, wobei das Objektklassifikationsmodul (210) betriebsfähig ist, um festzustellen, ob Objekte in den Bildern Mitglieder einer Objektklasse sind oder nicht, wobei das Objektklassifikationsmodul (210) irrtümliche Klassifikationen erzeugt; einer Benutzerstation (104), die mit der Bilderfassungsvorrichtung (102) verbunden ist und eine Anzeige (114) zum Darstellen von Bildern des Blickfeldes für einen Benutzer aufweist, wobei die Benutzerstation (104) betriebsfähig ist, um Darstellungen der irrtümlichen Klassifikationen, die vom Objektklassifikationsmodul (210) erzeugt werden, auf der Anzeige (114) darzustellen, wobei die Benutzerstation (104) betriebsfähig ist, um Benutzerrückmeldungsinformationen in Reaktion auf eine Benutzerbestätigung der irrtümlichen Klassifikationen zu erzeugen, wobei die Benutzerrückmeldung Fehlermetadaten erzeugt; und einem Klassifikatorentwicklungsmodul, das die Fehlermetadaten empfängt und betriebsfähig ist, um das Objektklassifikationsmodul (210) unter Verwendung der Fehlermetadaten zu modifizieren, um die Anzahl von irrtümlichen Klassifikationen zu verringern, wobei das Klassifikatorentwicklungsmodul dadurch einen spezialisierten Klassifikator erzeugt.
Kamerasystem (100) nach Anspruch 50, das ferner umfasst: ein Objektdetektionsmodul (204), das mit der Bilderfassungsvorrichtung (102) und mit dem Objektkmassifikationsmodul (210) verbunden ist, wobei das Objektdetektionsmodul (204) die Bilddaten empfängt, wobei das Objektdetektionsmodul (204) betriebsfähig ist, um zu detektieren, ob sich Objekte im Blickfeld der Bilderfassungsvorrichtung (102) befinden oder nicht.
Kamerasystem (100) nach Anspruch 50, wobei das Objektklassifikationsmodul (210) N Entscheidungsschritte (400) umfasst, die in einer Kaskadenkonfiguration konfiguriert sind, und wobei der spezialisierte Klassifikator die N Entscheidungsschritte (400) und einen zusätzlichen Schritt (400) umfasst, der auf der Basis der Fehlermetadaten konstruiert ist, wodurch sich ein spezialisierter Klassifikator mit N + 1 Schritten (400) ergibt.
Kamerasystem (100) nach Anspruch 50, wobei die irrtümlichen Klassifikationen Fehlalarme umfassen, die Fälle darstellen, in denen das Objektklassifikationsmodul (210) Objekte fälschlich als Mitglieder der Objektklasse klassifiziert.
Kamerasystem (100) nach Anspruch 50, wobei das Klassifikatorentwicklungsmodul entfernt von der Bilderfassungsvorrichtung (102), vom Objektklassifikationsmodul (210) und von der Benutzerstation (104) angeordnet ist.
Kamerasystem (100) nach Anspruch 50, wobei die Bilderfassungsvorrichtung (102), das Objektklassifikationsmodul (210), die Benutzerstation (104) und das Klassifikatorentwicklungsmodul gemeinsam an einem gleichen Ort angeordnet sind.
Verfahren zum Konstruieren eines neuen Objektklassifikationsmoduls (210) zur Verwendung in einem am Einsatzort aufgestellten Kamerasystem (100), wobei das neue Objektklassifikationsmodul (210) zum Klassifizieren von Objekten als Mitglieder oder Nicht-Mitglieder einer neuen Objektklasse, die durch einen Benutzer ausgewählt wird, dient, wobei das Verfahren umfasst: Erfassen von mehreren Bildern eines Blickfeldes des Kamerasystems (100), wobei die mehreren Bilder Darstellungen von mehreren Objekten enthalten, wobei ein erster Satz der mehreren Objekte Mitglieder der neuen Objektklasse sind und ein zweiter Satz der mehreren Objekte nicht Mitglieder der neuen Objektklasse sind; Verwenden eines eingesetzten Objektklassifikationsmoduls (210), um die mehreren Objekte als Mitglieder einer eingesetzten Objektklasse zu klassifizieren; Präsentieren von Darstellungen der mehreren Objekte, die durch das eingesetzte Objektklassifikationsmodul (210) klassifiziert werden, auf einer Anzeige (114), wobei ein Benutzer die mehreren Objekte als entweder Mitglieder oder Nicht-Mitglieder der neuen Objektklasse bezeichnet; Erzeugen von Metadaten auf der Basis der Bezeichnungen; und Konstruieren des neuen Objektklassifikationsmoduls (210) durch Modifizieren des eingesetzten Objektklassifikationsmoduls (210) auf der Basis der Metadaten.
Verfahren nach Anspruch 56, das ferner umfasst: Überprüfen des neuen Objektklassifikationsmoduls (210).
Verfahren nach Anspruch 56, wobei die neue Objektklasse eine Unterklasse der eingesetzten Objektklasse ist.
Verfahren nach Anspruch 56, wobei die neue Objektklasse Objekte darstellt, deren Klassifikation unbekannt ist.
Verfahren nach Anspruch 56, wobei das eingesetzte Objektklassifikationsmodul (210) N Entscheidungsschritte (400) umfasst, die in einer Kaskadenkonfiguration konfiguriert sind, und wobei das neue Objektklassifikationsmodul (210) die N Entscheidungsschritte (400) des eingesetzten Objektklassifikationsmoduls (210) und einen zusätzlichen Schritt (400) umfasst, der durch die Metadaten trainiert wird, um Mitglieder der eingesetzten Objektklasse als entweder Mitglieder oder Nicht-Mitglieder der neuen Objektklasse zu klassifizieren, wodurch sich das neue Objektklassifikationsmodul (210) mit N + 1 Schritten (400) ergibt.