EP1854083A1

EP1854083A1 - Kamera zum verfolgen von objekten

Info

Publication number: EP1854083A1
Application number: EP06707263A
Authority: EP
Inventors: Sven Fleck
Original assignee: Eberhard Karls Universitaet Tuebingen
Current assignee: Eberhard Karls Universitaet Tuebingen
Priority date: 2005-02-24
Filing date: 2006-02-24
Publication date: 2007-11-14
Anticipated expiration: 2026-02-24
Also published as: ATE497230T1; DE502006008806D1; WO2006089776A1; EP1854083B1; DE102005009626A1

Description

Kamera zum Verfolgen von Objekten

Die Erfindung betrifft eine Kamera zum Verfolgen von Objekten mit einer Bildsensoreinheit zum Erzeugen von Bilddaten und einer Verarbeitungseinheit zum Verarbeiten der von der Bildsensoreinheit an die Verarbeitungseinheit übergebenen Bilddaten. Die Erfindung betrifft auch ein MuI- tikamerasystem mit wenigstens zwei Kameras sowie ein Verfahren zum Verarbeiten von Bilddaten in einer Kamera zum Verfolgen von Objekten.

Trackinganwendungen, die auf einem Netz von verteilten Kameras aufbauen, werden in heutiger Zeit immer gefragter, sowohl im Bereich Sicherheitstechnik zur Überwachung von Flughäfen, Bahnhöfen, Museen oder öffentlichen Plätzen, wie auch im Bereich der industriellen Bildverarbeitung bei Fertigungsstraßen und sichtgeführten Robotern. Traditionelle zentralisierte Ansätze weisen hier zahlreiche Nachteile auf. So übertragen heutige Systeme typischerweise den kompletten rohen Bildstrom des Kamerasensors über teure und entfemungsbeschränkte Verbindungen zu einem zentralen Rechner und müssen dort dann alle verarbeitet werden. Die Kameras werden somit typischerweise nur als einfache Sensoren angesehen und die Verarbeitung erfolgt erst nach aufwendiger Übertragung des rohen Videostromes. Dieses Konzept stößt bei Multikamerasystemen und Kameras mit hohen Auflösungen und/oder Frameraten schnell an Grenzen.

Der Erfindung liegt somit das Problem zugrunde, eine Objektverfolgung durch Kameras bereitzustellen, die in der Lage ist, mit mehreren Kameras und bandbreitenbeschränkten Netzwerken zu arbeiten.

Erfindungsgemäß ist hierzu eine Kamera zum Verfolgen von Objekten, mit einer Bildsensoreinheit zum Erzeugen von Bilddaten und einer Verarbeitungseinheit zum Verarbeiten der von der Bildsensoreinheit an die Verarbeitungseinheit übergebenen Bilddaten vorgesehen, bei der die Verarbθitungseinheit eine ROl-Auswahleinheit zum Auswählen von für die Objektverfolgung interessanten Bildbereichen und eine Tracking- Einheit autweist, um Trackingdaten von zu verfolgenden Objekten anhand der Bilddaten zu ermitteln.

Erfindungsgemäß erfolgt die Verarbeitung der Bilddaten somit bereits in der Kamera, so dass nicht der komplette, rohe Videostrom in voller Auflösung zu einer externen Verarbeitungseinheit übertragen werden muss. Stattdessen werden lediglich die sich ergebenden Trackingdaten übertragen. Darüber hinaus werden durch die Verwendung der Region of Interest (ROI)-Auswahleinheit die zu verarbeitenden Bilddaten bereits in ihrer Menge stark begrenzt, so dass die Verarbeitung der Daten in Echtzeit erfolgen kann, was bei Trackinganwendungen von großer Bedeutung ist. Da somit nur die resultierenden Daten von der Kamera übertragen werden müssen, wird die Verwendung von Standardnetzwerkverbindungen überhaupt erst möglich. Zur Berechnung der Trackingdaten ist darüber hinaus kein externer Rechner erforderlich, da dies bereits innerhalb der Kamera erledigt wird. Ein gegebenenfalls dennoch vorhandener zentraler Rechner kann dann für übergeordnete Aufgaben verwendet werden.

In Weiterbildung der Erfindung sind an einem Signalausgang der Kamera die Trackingdaten ausgebbar, wobei die Trackingdaten gegenüber der von der Bildsensoreinheit erzeugten Menge an Bilddaten eine wesentlich verringerte Datenmenge aufweisen, insbesondere etwa um den Faktor 1000 verringert.

Zu dieser erfindungsgemäßen erheblichen Verringerung der zu übertragenden Datenmenge trägt zum einen das Auswählen von für die Objektverfolgung interessanten Bildbereichen und zum anderen die Berechnung der Trackingdaten innerhalb der Kamera bei. Ein Kamerabild in VGA-Auflösung benötigt etwa ein Drittel der 100 Mbit/s Standard- Ethernetbandbreite, wobei dies ohne Heranziehung des sogenannten Bayer-Mosaics erreicht wird, ansonsten wird die dreifache Bandbreite benötigt. Gemäß der Erfindung wird hingegen eine Reduktion auf wenige hundert Kilobit pro Sekunde ermöglicht, da lediglich die Ergebnisse übertragen werden. Da der rohe Videostrom gemäß der Erfindung nicht mehr durch die Bandbreite der Verbindung nach außen beschränkt ist, können bei der erfindungsgemäßen Kamera Sensoren mit sehr hoher örtlicher und seitlicher Auflösung verwendet werden. Zwei Gründe sind hierfür verantwortlich: Zum Einen ist aufgrund der Nähe der Verarbeitungseinheit direkt am Sensor eine höhere Übertragungsgeschwindigkeit technisch viel einfacher realisierbar als außerhalb der Kamera, zum Anderen wird, wie bereits erwähnt wurde, durch die ROl-Auswahleinheit das aktuelle Kamerabild nur an ausgewählten und sich beispielsweise dynamisch ändernden Regionen ausgewertet. Hierzu sind Region-of- lnterest-(ROI)-fähige Kamerasensoren, wie etwa CMOS-Sensoren erforderlich.

In Weiterbildung der Erfindung sind die Trackingdaten in Form einer insbesondere approximierten Wahrscheinlichkeitsdichtefunktion bereitgestellt. Vorteilhafterweise ist die Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen approximiert.

Mittels einer insbesondere approximierten Wahrscheinlichkeitsdichtefunktion werden die für eine Trackinganwendung ausschließlich interessierenden Zieldaten, wie beispielsweise Position und Geschwindigkeit eines zu verfolgenden Objektes, berechnet und dann von der Kamera ausgegeben. Die Approximation der Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen, deren Position und Anzahl gegebenenfalls adaptiv veränderbar ist, wird eine deutliche Reduktion des durchzuführenden Rechenaufwands erreicht. Dennoch hat sich gezeigt, dass eine für Trackinganwendungen ausreichende Präzision erreicht werden kann. In Weiterbildung der Erfindung sind in der Verarbeitungseinheit Parallel- verarbeitungsmittel zum parallelen Verarbeiten der Stützstellen der Wahrscheinlichkeitsdichtefunktion und hiervon abhängender Daten vorgesehen.

Auf diese Weise kann eine sehr schnelle Verarbeitung auch zahlreicher Stützstellen erfolgen. Beispielsweise werden für hundert Stützstellen hundert identische Hardware-Schaltkreise vorgesehen. Dadurch macht es die Erfindung möglich, Tracking-Verfolgungen mit hoher Präzision in Echtzeit zu realisieren.

In Weiterbildung der Erfindung implementiert die Tracking-Einheit einen sogenannten Particle-Filter, bei dem eine Wahrscheinlichkeitsdichtefunktion (p(X_t|Z_t)) anhand eines Approximationsschrittes auf Basis von Stützstellen, eines Vσrhersageschrittes und eines Messungsschrittes angenähert wird. X_t bezeichnet den Zustand zur Zeit t und Zt alle Messungen bis einschließlich zur Zeit t. Im Approximationsschritt wird die Wahrscheinlichkeitsdichtefunktion abgetastet und so neue Stützstellen zur Approximation des Zustandvektors X_t bestimmt. Im Vorhersageschritt wird pro Stützstelle der neue Zustandsvektor X_t eines zu verfolgenden Objekts anhand alter Messungen Zu und eines alten Zustands- vektors X_M sowie unter Berücksichtigung eines hinterlegten Bewegungsmodells ermittelt und im Messungsschritt wird der neue Zustandsvektor Xt unter Berücksichtigung einer neuen Messung gewichtet. Im Approximationsschritt wird die aus allen neuen Zustandsvektoren resultierende Approximation der Wahrscheinlichkeitsdichtefunktion p(Xt|Z_t) durch Stützstellen neu approximiert.

Die Verwendung eines sogenannten Particle-Filters in der Tracking- Einheit erlaubt eine schnelle Verarbeitung auch großer Bilddatenmengen und dennoch wird eine hohe Präzision der Objektverfolgung erreicht. In Weiterbildung der Erfindung übergibt die Tracking-Einheit Trackingda- ten von zu verfolgenden Objekten, insbesondere ein Vorhersagever- gleichsobjekt, an die ROl-Auswahleinheit, um in Abhängigkeit der Tra- ckingdaten die für die Verarbeitung interessanten Bildbereiche auszuwählen.

Indem die interessanten Bildbereiche anhand von Trackingdaten ausgewählt werden, kann mit hoher Wahrscheinlichkeit sichergestellt werden, dass nur relevante Bildbereiche ausgewertet werden. Beispielsweise kann anhand der Trackingdaten auf ein Vergleichsobjekt des zu verfolgenden Objektes zurückgerechnet werden und auf Basis dieses Vergleichsobjektes wird dann entschieden, welche Bildbereiche aus dem aktuellen Kamerabild ausgewählt werden sollen. Bei einem zu verfolgenden Objekt, das sich mit konstanter Geschwindigkeit bewegt, würde das Vergleichsobjekt somit der Abbildung in der letzten Kameraaufnahme entsprechen, lediglich seine Position wäre demgegenüber verschoben.

In Weiterbildung der Erfindung wird das Vorhersagevergleichsobjekt mittels eines hinterlegten parametrischen Modells erzeugt, das adaptiv anpassbar ist.

Bei komplizierteren zu verfolgenden Objekten können dadurch beispielsweise Veränderungen des Objekts berücksichtigt werden, die nicht im Bewegungsmodell enthalten sind, beispielsweise Drehungen eines menschlichen Kopfes, die aus ein und derselben Richtung zu völlig anderen Ansichten des Kopfes führen. Wesentlich ist dabei, dass die adaptive Anpassung nur dann vorgenommen wird, wenn man sicher ist, dass man auch das zu verfolgende Objekt vor sich hat. Beispielsweise darf eine Anpassung des hinterlegten parametrischen Modells dann nicht erfolgen, wenn über das gesamte Kamerabild lediglich geringe Wahr- scheinlichkeitswerte ermittelt werden. Würde nämlich in diesem Fall der Ort mit der höchsten Wahrscheinlichkeit zur Aktualisierung des Bewe- gungsmodeüs verwendet werden, obwohl das zu verfolgende Objekt sich gar nicht mehr im Bildbereich befindet, würde das Bewegungsmo- dell so angepasst, dass ein nachfolgendes erneutes Auffinden des zu verfolgenden Objekts nicht mehr möglich wäre. Bei der adaptiven Anpassung des Bewegungsmodells muss somit darauf geachtet werden, dass Wahrscheinlichkeitswerte nicht nur relativ, sondern auch absolut bewertet werden, um letztlich zu erkennen, ob die Wahrscheinlichkeitsdichtefunktion p(Xt|Zt) unimodal ist.

In Weiterbildung der Erfindung werden in der Verarbeitungseinheit die Bilddaten des von der ROl-Auswahleinheit ausgewählten Bildbereichs in ein Farbhistogramm umgesetzt und die Tracking-Einheit ermittelt die Trackingdaten auf Basis des Farbhistogramms.

Die Verwendung eines Farbhistogramms hat Vorteile bezüglich der Robustheit der Verarbeitungsalgorithmen in Bezug auf Drehungen, teilweise Verdeckung und Verformung. Beispielsweise wird der HSV-Farbraum (Hue-Saturation-Value) verwendet, der Vorteile gegenüber rot, grün, blau bietet. Alternativ kann auch der RGB-Farbraum (Rot-Grün-Blau) oder der CMY-Farbraum (Cyan-Magenta-Yellow) eingesetzt werden.

In Weiterbildung der Erfindung steuert die ROl-Auswahleinheit die Bildsensoreinheit in Abhängigkeit der Trackingdaten so an, dass von der Bildsensoreinheit nur noch diejenigen Bilddaten zur Verarbeitungseinheit übertragen werden, die den von der ROl-Auswahleinheit ausgewählten interessanten Bildbereichen entsprechen.

Erfindungsgemäß kann somit die Bandbreite vom Sensor zur Verarbeitungshardware deutlich reduziert werden, indem nur die Kombination von Bildbereichen überhaupt zur Verarbeitung übertragen wird, die für den Trackingalgorithmus notwendig ist. Dies geschieht unabhängig von der physikalischen Auflösung des Sensors. Diese interessierenden Regionen werden dabei von Frame zu Frame dynamisch generiert und zum Sensor übertragen. Der Sensor muss natürlich einen solchen direkten Zugriff auf Bildbereiche ermöglichen, dies ist aber bei heutigen CMOS-Sensoren der Fall.

In Weiterbildung der Erfindung sind die Bildsensoreinheit und die Verarbeitungseinheit in einem gemeinsamen Gehäuse integriert.

Dadurch wird es möglich, die Bildsensoreinheit und die Verarbeitungseinheit räumlich nahe zueinander unterzubringen und darüber hinaus auch gegen Umwelteinflüsse zu schützen. Da die Anforderungen an eine externe Verbindung der Kameras in Bezug auf die Bandbreite sehr gering sind, bestehen dadurch nur wenig Einschränkungen bei der Positionierung der Kameras. Dies gilt insbesondere dann, wenn mehrere Kameras mittels eines drahtlosen Netzwerks miteinander in Kommunikation stehen.

In Weiterbildung der Erfindung weist die Verarbeitungseinheit eine Netzwerkeinheit auf.

Die erfindungsgemäße Kamera kann dadurch problemlos in ein Netzwerk, beispielsweise auch ein kabelloses Netzwerk, eingebunden werden. Dass dies überhaupt möglich ist, liegt an der bei der Erfindung sehr geringen Bandbreite, die für eine Übertragung der in der Kamera berechneten Ergebnisse nach außen erforderlich ist.

In Weiterbildung der Erfindung sind eine Steuereinheit und Einstellmittel vorgesehen, um in Abhängigkeit der Trackingdaten Einstellparameter der Kamera, insbesondere Ausrichtung, Bildausschnitt und Vergrößerung, zu verändern. Da die Kamera die Trackingdaten selbst berechnet, kann eine Steuereinheit in der Kamera dann auch das Nachführen der Kamera vornehmen. Ganz wesentlich ist, dass hierzu keine Signalübertragung nach außen erforderlich ist. Der Ausfall eines Netzwerks, an das die Kamera angeschlossen ist, ist von außen somit nicht feststellbar. Selbst wenn also überhaupt keine Verbindung mehr von der Kamera zu einer zentralen Auswertestation besteht, wird durch das noch erfolgende Nachführen der Kamera der Eindruck einer fortlaufenden Überwachung aufrechterhalten, die, sobald die Verbindung wieder besteht, nahtlos fortgeführt werden kann.

Das der Erfindung zugrundeliegende Problem wird auch durch ein Verfahren zum Verarbeiten von Bilddaten in einer Kamera zum Verfolgen von Objekten gelöst, bei dem folgende Schritte vorgesehen sind:

- Übertragen von Bilddaten von einer Bildsensoreinheit zu einer Verarbeitungseinheit der Kamera,

- Erzeugen von Trackingdaten zu verfolgender Objekte in der Verarbeitungseinheit unter Verwendung probabilistischer Verfahren und

- Auswählen von Bereichen der Bilddaten in Abhängigkeit der Trackingdaten, so dass nur Bilddaten ausgewählt werden, bei denen eine erhöhte Wahrscheinlichkeit dafür besteht, dass sie Informationen über zu verfolgende Objekte enthalten.

Mit dem erfindungsgemäßen Verfahren wird es möglich, lediglich noch die Ergebnisdaten einer Objektverfolgung von der Kamera aus nach außen zu übertragen, so dass bereits dadurch die nach außen erforderliche Übertragungsbandbreite wesentlich verringert ist. Darüber hinaus werden auch nur diejenigen Bilddaten für die Verarbeitung ausgewählt, die mit erhöhter Wahrscheinlichkeit Informationen über zu verfolgende Objekte enthalten, beispielsweise mittels einer Rückkopplung der Tra- ckingdaten auf eine Auswahleinheit. Dadurch wird die Möglichkeit geschaffen, eine Objektverfolgung mittels Kameras auch bei hoher örtlicher und zeitlicher Auflösung in Echtzeit zu realisieren.

In Weiterbildung der Erfindung enthält der Schritt des Auswählens von Bereichen der Bilddaten das Ansteuern der Bildsensoreinheit in einer Weise, dass nur noch Bilddaten von der Bildsensoreinheit zur Verarbeitungseinheit übertragen werden, bei denen eine erhöhte Wahrscheinlichkeit dafür besteht, dass sie Informationen über zu verfolgende Objekte enthalten.

Dadurch kann die Menge der von der Bildsensoreinheit zu übertragenden Bilddaten deutlich verringert werden.

In Weiterbildung der Erfindung enthält der Schritt des Erzeugens von Trackingdaten das Approximieren einer Wahrscheinlichkeitsdichtefunktion mittels mehrerer Stützstellen.

Auf diese Weise kann der Rechenaufwand zur Erzeugung der Trackingdaten wesentlich verringert werden. Darüber hinaus können Schaltkreise zur Verarbeitung der einzelnen Stützstellen in Hardware oder Software parallel ausgeführt werden, so dass auch eine sehr schnelle Erzeugung der Trackingdaten möglich ist.

In Weiterbildung der Erfindung enthält der Schritt des Erzeugens von Trackingdaten das Erzeugen von Bilddaten eines Vergleichsobjekts anhand einer Wahrscheinlichkeitsdichtefunktion der zu verfolgenden Objekte und wenigstens einen hinterlegten parametrischen Modells der zu verfolgenden Objekte.

Auf diese Weise können die errechneten Trackingergebnisse wieder in Bilddaten umgesetzt werden und diese Bilddaten eines Vergleichsob- jekts können dann mit dem aktuellen Kamerabild verglichen werden, um die Qualität der Trackingergebnisse zu bewerten und die gegebenenfalls anzupassen. Darüber hinaus können die Bilddaten des Vergleichsobjekts dazu verwendet werden, lediglich diejenigen Bilddaten mittels der Auswahleinheit auszuwählen, die im Wesentlichen dem Bildausschnitt des Vergleichsobjektes entsprechen.

Das der Erfindung zugrundeliegende Problem wird auch durch ein Multi- kamerasystem mit wenigstens zwei erfindungsgemäßen Kameras gelöst, bei dem jede Kamera eine Netzwerkeinheit aufweist und die wenigstens zwei Kameras über ein Netzwerk, insbesondere Ethernet oder WLAN, miteinander in Verbindung stehen.

Da die erfindungsgemäßen Kameras lediglich eine geringe Bandbreite zur Übertragung der Trackingergebnisse nach außen benötigen, können Multikamerasysteme mit den erfindungsgemäßen Kameras auf Basis von Standardnetzwerkanwendungen realisiert werden. Dies ist beispielsweise auch mit drahtlosen Netzwerkverbindungen möglich. Die Kommunikation über das Netzwerk kann dabei selbstverständlich bidirektional erfolgen. Die Kameras können nicht nur die Ergebnisdaten ausgeben, sondern über das Netzwerk beispielsweise auch Informationen über zu verfolgende Objekte oder Ansteuersignale zur Einstellung und Ausrichtung der Kameraoptik erhalten.

In Weiterbildung der Erfindung ist die Verarbeitungseinheit wenigstens einer der Kameras zum Verarbeiten von Trackingdaten einer anderen Kamera ausgelegt.

Auf diese Weise kann ein zu verfolgendes Objekt beispielsweise von einer Kamera zur nächsten übergeben werden. In Weiterbildung der Erfindung ist im Netzwerk eine zentrale Verarbeitungseinheit zum Auswerten der von den wenigstens zwei Kameras ü- bertragenen Trackingdaten vorgesehen.

Mit einer zentralen Verarbeitungseinheit können dann weitere, die Trackingdaten nutzende Auswertungen vorgenommen werden. Beispielsweise können typische Bewegungsabläufe zur Objekterkennung oder zum Erkennen von Notfallsituationen genutzt werden.

Weitere Merkmale und Vorteile der Erfindung ergeben sich aus den Ansprüchen im Zusammenhang mit der nachfolgenden Beschreibung bevorzugter Ausführungsformen der Erfindung im Zusammenhang mit den Zeichnungen. In den Zeichnungen zeigen:

Fig. 1 eine schematische Darstellung einer erfindungsgemäßen Kamera zur Objektverfolgung,

Fig. 2 eine schematische Darstellung eines erfindungsgemäßen MuI- tikamerasystems,

Fig. 3 ein Blockschaltbild einer bevorzugten Ausführungsform der erfindungsgemäßen Kamera,

Fig. 4 eine schematische Darstellung eines erfindungsgemäßen MuI- tikamerasystems in einer Anwendung bei der Strandüberwachung,

Fig. 5 eine schematische Darstellung einer weiteren Ausführungsform einer erfindungsgemäßen Kamera,

Fig. 6 eine schematische Darstellung eines erfindungsgemäßen MuI- ti-Kamera-Systems, Fig. 7 eine schematische Darstellung zur Verdeutlichung des erfindungsgemäßen Verfahrens,

Fig. 8 eine Darstellung unterschiedlicher Zeitskalen zur Verwendung bei dem erfindungsgemäßen Verfahren,

Fig. 9 mehrere Darstellungen zum konturbasierten Ermitteln einer Region-of-Interest bei dem erfindungsgemäßen Verfahren und

Fig. 10 Darstellungen einer Wahrscheinlichkeitsdichtefunktion eines verfolgten Objekts gemäß dem erfindungsgemäßen Verfahren.

Die Darstellung der Fig. 1 zeigt eine erfindungsgemäße Kamera zur Objektverfolgung 10, die in einem gemeinsamen Gehäuse eine Bildsensoreinheit 12 und eine Verarbeitungseinheit 14 aufweist. Die Bildsensoreinheit 12 ist beispielsweise als CMOS-Sensor ausgebildet und liefert Bilddaten an die Verarbeitungseinheit 14. In der Verarbeitungseinheit 14 werden Trackingdaten erzeugt, die ein zu verfolgendes Objekt wenigstens in Bezug auf Position und Geschwindigkeit und beispielsweise auch bezüglich Form, Farbe und dergleichen charakterisieren. Die Verarbeitungseinheit 14 weist hierzu eine sogenannte Tracking-Einheit auf, in der die Trackingdaten erzeugt werden. Weiterhin weist die Verarbeitungseinheit 14 eine Region of Interest (ROI)-Auswahleinheit auf, mit der die Bildsensoreinheit 12 so angesteuert werden kann, dass lediglich die Bildbereiche zur Verarbeitungseinheit 14 übertragen werden, die für die Objektverfolgung von Interesse sind. Dies sind beispielsweise sich dynamisch ändernde Bildbereiche, wobei die ROl-Auswahleinheit die Bildbereiche auch unter Berücksichtigung der Trackingdaten auswählt. Von der Bildsensoreinheit 12 zur Verarbeitungseinheit 14 werden somit nur diejenigen Bildbereiche übertragen, bei denen eine große Wahrschein- lichkeit dafür besteht, dass sie Informationen über das zu verfolgende Objekt liefern können.

Die Kombination eines ROl-Auswahlverfahrens und der Erzeugung der Trackingdaten innerhalb der Kamera 10 selbst ermöglicht es, dass die Ergebnisausgabe der Kamera 10, symbolisiert durch einen Doppelpfeil 16, lediglich eine sehr geringe Bandbreite benötigt und dass diese Ergebnisübertragung über ein Standardnetzwerk erfolgen kann. Darüber hinaus kann die Erzeugung der Trackingdaten innerhalb der Kamera 10 so schnell erfolgen, dass Echtzeitanwendungen realisierbar sind. Der Aufbau der Kamera 10 wird nachstehend noch detaillierter erläutert.

Fig. 2 zeigt ein Multikamerasystem mit mehreren erfindungsgemäßen Kameras 10a, 10b, 10c. Jeder der Kameras 10a, 10b und 10c ist identisch zur Kamera 10 der Fig. 1 aufgebaut. Die Kameras 10a, 10b, 10c stehen über ein Netzwerk 18 miteinander in Verbindung. Durch externes Triggern oder Synchronisieren über die Verbindung der Kameras kann sichergestellt werden, dass sie synchron arbeiten. Ein Datenaustausch mit dem Netzwerk 18 kann dabei bidirektional erfolgen, so dass Trackingdaten eines zu verfolgenden Objekts beispielsweise von der Kamera 10a an die Kamera 10b übergeben werden können, wenn das zu verfolgende Objekt den Erfassungsbereich der Kamera 10a verlässt. In gleicher Weise können die Trackingdaten von der Kamera 10a auch an die Kamera 10c übergeben werden und abhängig davon, in welchen Erfassungsbereich ein zu verfolgendes Objekt wechselt, kann dann die jeweils das zu verfolgende Objekt erkennende Kamera weiter Tracking- ergebnisse ausgeben.

In dem Blockschaltbild der Fig. 3 ist der Aufbau der Kamera 10 der Fig. 1 detaillierter dargestellt. Die Bildsensoreinheit 12 erzeugt Bilddaten und liefert diese an die Verarbeitungseinheit 14, wobei die Verarbeitungseinheit 14 in Fig. 3 lediglich mittels eines gestrichelten Umrisses angedeu- tet ist. Die Bilddaten von der Bildsensoreinheit 12 werden zunächst an eine ROl-Auswahleinheit 20 übergeben, die die Bilddaten aber zunächst lediglich durchschleift oder in einem Cache so zwischenspeichert, dass die doppelte oder mehrfache Übertragung von einander überlappenden Bildbereichen vermieden wird. Die Aufgabe der ROl-Auswahleinheit 20 liegt darin, die Bildsensoreinheit 12 so anzusteuern, dass lediglich die für die weitere Verarbeitung interessanten Bildbereiche weitergeleitet werden. Wie die ROI-Einheit 20 diese interessierenden Bildbereiche ermittelt, wird nachfolgend noch erläutert. Wenn die ROI-Einheit 20 keine Zwischenspeicherfunktion erfüllt, kann die Bildsensoreinheit 12 die Bilddaten auch unter Umgehung der ROI-Einheit 20 weitergeben.

Bei der Bezugsziffer 22 stehen somit Bilddaten von Bildbereichen zur Verfügung, bei denen eine große Wahrscheinlichkeit dafür besteht, dass sie Informationen über die zu verfolgenden Objekte enthalten.

Diese Bilddaten werden an einen Filter 24 übergeben, der optional vorhanden ist und der dann bei 26 die gefilterten Daten bereitstellt. Der Filter 24 kann beispielsweise die Bilddaten aus 22 in ein Farbhistogramm im HSV-Farbraum (Hue-Saturation Value) umsetzen. Alternativ kann der Filter 24 auch ein Farbhistogramm im RGB-Farbraum (Rot-Gün-Blau) umsetzen. Die Umsetzung in Farbhistogramme hat den Vorteil, dass die Robustheit der nachfolgenden Auswerteverfahren deutlich erhöht wird, beispielsweise gegenüber Drehungen und/oder Formänderungen eines zu verfolgenden Objektes.

Die gefilterten Bilddaten 26 werden dann einer Vergleichseinheit 28 zugeführt, in der eine Vergleichsmessung durchgeführt wird und die dem zu verfolgenden Objekt entsprechenden Bilddaten 26 mit in gleicher Weise aufbereiteten Daten eines Vergleichsobjekts verglichen werden. Die dadurch erhaltenen Gewichte aller Stützstellen müssen dann noch normiert werden. Die Vergleichseinheit 28 gibt dann eine approximierte Wahrscheinlichkeitsdichtefunktion 30 aus, die gleichzeitig die zentrale Ausgabe der Kamera 10 darstellt. Die mittels mehrerer Stützstellen effizient approximierte Wahrscheinlichkeitsdichtefunktion 30 stellt das Ergebnis der Tracking-Einheit dar und erfordert lediglich eine geringe Bandbreite zur Übertragung über ein Netzwerk. Die approximierte Wahrscheinlichkeitsdichtefunktion 30 kann dann über eine Netzwerk- E/A-Einheit 32 ausgegeben werden und weiteren Einheiten zugeführt werden, die auf Basis dieses Ergebnisses weitere Verarbeitungsschritte vornehmen.

Beispielsweise wird in einer Einheit 34 ein Maximum-Likelihood- Zustand, d.h. der Zustand, indem die Wahrscheinlichkeitsdichtefunktion maximal ist, berechnet. Bei der vorliegenden Approximation durch Stützstellen bedeutet dies, dass die Stützstelle mit dem höchsten Gewicht herangezogen wird. Weiterhin kann in der Einheit 34 ein Erwartungswert berechnet werden. Die Einheit 34 kann das Ergebnis ihrer Auswertung ebenfalls über die Netzwerk-E/A-Einheit 32 auf ein Netzwerk ausgeben. Eine Steuerungseinheit 36 verwendet die Wahrscheinlichkeitsdichtefunktion 30 für Steuerungsanwendungen. Hierzu erzeugt die Steuerungseinheit 36 Steuersignale für eine sogenannte Pan-Tilt- Einheit, auf der die Kamera 10 montiert ist. Mittels dieser Pan-Tilt- Einheit kann die Kamera 10 einem zu verfolgenden Objekt nachgeführt werden. Alternativ können die Steuersignale der Steuereinheit 36 auch an eine Robotersteuerung oder CNC-Maschinensteuerung ausgegeben werden.

Weitere Einheiten 38, die die Wahrscheinlichkeitsdichtefunktion 30 für weiterführende Verarbeitungen verwenden, erzeugen beispielsweise Kommandos zur Weiterreichung von Personen/Objekten in einen Multi- kamerasystem, wenn eine Person das Sichtfeld von einer Kamera zur nächsten durchläuft. Diesbezüglich ist zu bemerken, dass die Initialisierung eines Zielobjekts grundsätzlich durch Präsentieren vor der Kamera und Eintrainieren geschieht. Es ist aber auch möglich, und für Überwachungsanwendungen sinnvoll, die Initialisierung des Zielobjekts durch Triggern auf das erste Objekt zu bewirken, das sich bewegt. Als Bewegung wird dabei interpretiert, wenn eine Differenz zum vorherigen Kamerabild oder zu mehreren vorhergehenden Kamerabildern größer als ein vordefinierter Schwellwert ist. Die Einheiten 34, 36 und 38 können ihre jeweiligen Ergebnisse über die Netzwerk-E/A-Einheit auf ein Netzwerk oder, falls kein Netzwerk vorhanden ist, auf eine Signalleitung ausgeben.

Die Wahrscheinlichkeitsdichtefunktion 30 wird auch einer sogenannten Update-Einheit 40 zugeführt, in der ein Zeitindex der gerade berechneten Wahrscheinlichkeitsdichtefunktion um eins verringert wird, um die gerade berechnete Wahrscheinlichkeitsdichtefunktion nicht mehr als aktuellen Wert, sondern als jüngsten alten Wert einzustufen. Die Update- Einheit 40 ist damit die erste Station einer Rückkopplungsschleife innerhalb der Tracking-Einheit 21.

In dieser Rückkopplungsschleife wird zum einen eine Vorhersage getroffen, wie die Wahrscheinlichkeitsdichtefunktion voraussichtlich beim nächsten Zeitschritt aussieht und basierend auf dieser Vorhersage wird noch ein Vergleichsobjekt erzeugt, das dann, wie bereits beschrieben, in der Vergleichseinheit 28 mit dem aktuell erfassten Objekt verglichen wird. Darüber hinaus wird in dieser Rückkopplungsschleife auch eine Gewichtung der einzelnen Stützstellen vorgenommen und basierend auf dieser Gewichtung wird entschieden, ob eine Neuverteilung der Stützstellen für den nächsten Durchlauf der Schleife erforderlich ist.

Bei 42 liegt somit eine Wahrscheinlichkeitsdichtefunktion vor, die sich zunächst von der Wahrscheinlichkeitsdichtefunktion 30 nur durch ihren um eins verringerten Zeitindex unterscheidet. Bei 42 kann aber auch die bereits beschriebene Abtastung der approximierten Wahrscheinlich- keitsdichtefunktion anhand der Gewichtung der einzelnen Stützstellen vorgenommen werden.

Diese Wahrscheinlichkeitsdichtefunktion aus 42 wird zur Vorhersage mit einem Bewegungsmodell 44 verknüpft, das bei der dargestellten Ausführungsform ebenfalls in Form einer Wahrscheinlichkeitsdichtefunktion vorliegt. Im einfachsten Fall, d.h. bei Bewegung mit konstanter Geschwindigkeit in eine Richtung würde die Verknüpfung der Wahrscheinlichkeitsdichtefunktion aus 42 mit dem Bewegungsmodell aus 44 lediglich eine Koordinatenverschiebung verursachen. Die Verknüpfung des Bewegungsmodells aus 44 mit der Wahrscheinlichkeitsdichtefunktion aus 42 findet in einer Vorhersageeinheit 46 statt. Innerhalb der Vorhersageeinheit 46 wird eine Faltung des Bewegungsmodells mit der Wahrscheinlichkeitsdichtefunktion vorgenommen, wie in der unterhalb der Einheit 46 zu findenden Gleichung ausgeführt ist.

Im Approximationsschritt zwischen 42 und 46 wird anhand der Gewichtung der Stützstellen eine neue Stützstellenverteilung erzeugt, wobei Stützstellen mit hohem Gewicht bei der letzten Iteration eine der Gewichtung entsprechende Anzahl Nachfolger bekommen, die aber zunächst alle noch an derselben Position angeordnet sind. In der Vorhersage bei 46 wird die Position der neuen Stützstellen gestreut, nach Anwenden des Bewegungsmodells. Per neuer Stützstelle ist das Bewegungsmodel nur einmal anzuwenden, erst dann wird die Position gestreut. Stützstellen mit niedriger Gewichtung erhalten keinen Nachfolger.

Als Ergebnis der Vorhersage in der Einheit 46 wird bei 48 eine neue Wahrscheinlichkeitsdichtefunktion ausgegeben, die entsprechend eine vorhergesagte Position basierend auf dem bisher vorhandenen Wissen repräsentiert. „ _o

- 18 -

Um nun einen Vergleich dieser Vorhersage bei 48 mit den von der Bildsensoreinheit 12 erfassten Bilddaten durchführen zu können, wird die Vorhersage der Wahrscheinlichkeitsdichtefunktion aus 48 in einer Rendereinheit 50 mit einem parametrischen Modell aus 52 verknüpft. Der Renderschritt in der Rendereinheit 50 erzeugt die Bilddaten eines Vergleichsobjekts. Im einfachsten Fall eines sich linear mit konstanter Geschwindigkeit bewegten Objektes würden die Bilddaten des Vergleichsobjekts somit der um eine gewisse Strecke verschobenen Objekt entsprechen.

Das parametrische Modell aus 52 kann dabei abhängig von äußeren Umständen adaptiert werden. Dies ist beispielsweise dann von Bedeutung, wenn Objekte mit komplizierter Geometrie verfolgt werden sollen, deren Form sich eventuell sogar ändert, deren Projektion in Abhängigkeit einer Drehstellung sich verändert oder bei sich ändernder Beleuchtung. Bei der Adaption des parametrischen Modells in 52 ist aber darauf zu achten, dass eine Adaption lediglich dann vorgenommen wird, wenn mit großer Wahrscheinlichkeit feststeht, dass es auch das zu verfolgende Objekt ist, welches nun sein Aussehen geändert hat. Beispielsweise darf nicht bei jedem Schritt die Umgebung einer Stützstelle der Wahrscheinlichkeitsdichtefunktion mit der relativ gesehen höchsten Gewichtung zur Adaption herangezogen werden. Wenn sich nämlich das zu verfolgende Objekt gar nicht mehr im betrachteten Bildausschnitt befindet, würde eine dann durchgeführte Adaption dazu führen, dass das parametrische Modell in einer Weise geändert wird, dass ein Wiedererkennen des zu verfolgenden Objekts nicht möglich ist. Abhilfe kann aber beispielsweise dadurch geschaffen werden, dass die Umgebung einer Stützstelle mit der relativ höchsten Gewichtung zusätzlich auf ihre absolute Gewichtung geprüft wird und oberhalb einer definierten Gewichtung, wenn also mit großer Sicherheit davon ausgegangen werden kann, dass es sich um das zu verfolgende Objekt handelt, wird die Umgebung dieser Stützstelle zur Adaption herangezogen. AIs Modell kann eine Bildregion (ROI) des Zielobjektes dienen. Alternativ kann als Modell 52 auch eine sogenannte AAM-Umsetzung (Active Ap- pearance Model) erfolgen, wobei dieses nicht starre und optional textu- rierte Modell, insbesondere bei Formänderungen, von Vorteil ist. Auch ein dreidimensionales AAM ist möglich. Wie bereits ausgeführt wurde, kann der Filter 24 auch vollständig entfallen. Ebenso ist möglich, als Modell ein Konturbasiertes Verfahren zu verwenden, wo durch den Zustand die Form der Kontur festgelegt wird, etwa mit Splines.

Als Ergebnis des Renderschritts in 50 stehen bei 54 somit Bilddaten eines Vergleichsobjekts zur Verfügung. Diese Bilddaten des Vergleichsobjekts bei 54 sollen nun mit den bei 22 vorliegenden, aktuell aufgenommenen Bilddaten verglichen werden. Um eine Vergleichbarkeit der Bilddaten des Vergleichsobjekts mit den aktuell aufgenommenen Bilddaten zu gewährleisten, werden diese Bilddaten aus 54 der gleichen Filterung unterzogen wie die Bilddaten aus 22, so dass entsprechend eine zur Filtereinheit 24 identische Filtereinheit 56 vorgesehen ist und bei 58 dann die gefilterten Bilddaten des Vergleichsobjekts vorliegen. Wie bereits beschrieben wurde, wird dann in der Vergleichseinheit 28 ein Vergleich der Bilddaten des von der Bildsensoreinheit 12 aktuell aufgenommenen zu verfolgenden Objekts und die Bilddaten des Vergleichsobjekts auch aus 58 miteinander verglichen. Entsprechend der unterhalb der Vergleichseinheit 28 dargestellten Gleichung entspricht die Vergleichsmessung einer Gewichtung des neuen Zustandes Xt gemäß der neuen Messung Zt. Wie bereits ausgeführt wurde, ergibt sich als Ergebnis der Vergleichsmessung in der Vergleichseinheit 28 die Wahrscheinlichkeitsdichtefunktion 30.

Im speziellen Fall, wenn mit Farbhistogrammen gearbeitet wird, reicht es aus, die bereits gefilterte Repräsentation als Modell zu speichern, da hier das Ergebnis der Filterung immer gleich und nicht vom Zustand X_t abhängig ist. So kann direkt an 58 das Modell eingesetzt werden. Somit braucht es nicht für jede Stützstelle in jeder Iteration über die Schritte 52-50-54-56-58 berechnet werden. Die Schritte 52-50-54 dienen so nur noch der ROI-Bestimmung. Auf diese Weise kann der relativ teure Filterschritt 56 so eingespart werden. Eine Adaption des Modells in 58 ist dadurch möglich, dass die gefilterte Repräsentation der aktuellen Bilddaten der Stützstelle mit dem höchsten Gewicht in 26 gemischt werden mit der gefilterten Repräsentation des Modells in 58.

Darüber hinaus werden die Bilddaten des Vergleichsobjekts bei 54 auch der ROl-Auswahleinheit 20 zugeführt. Die ROI-Einheit 20 steuert dann die Bildsensoreinheit 12 so an, dass lediglich diejenigen Bildregionen (Region of Interest) angefordert werden, die den Bildregionen der Bilddaten des Vergleichsobjekts aus 54 entsprechen. Dadurch wird die Datenmenge, die von der Bildsensoreinheit 12 ausgegeben werden muss, wesentlich reduziert. Darüber hinaus implementiert die ROl- Auswahleinheit 20 ein Zwischenspeicherverfahren, um einen Überlapp von interessierenden Bildbereichen (ROIs) derselben Iteration einzusparen, so dass auch überlappende Bereiche verschiedener interessierender Bildbereiche lediglich einmal übertragen werden müssen.

In der ROI-Einheit 20 wird somit ausgehend von dem Vergleichsobjekt, das durch den Zustand X_t induziert ist, die Bildregion (ROI) bestimmt, die tatsächlich nur benötigt wird, um diesen Zustand, also diese Hypothese, die sich in dem Vergleichsobjekt manifestiert, zu bewerten. Dies wird technisch für jede Stützstelle oder sample X_t ^(l) durchgeführt.

Anhand der Darstellung der Fig. 3 ist zu erkennen, dass die erfindungsgemäße Kamera und das implementierte Verfahren in hohem Maße für eine Parallelverarbeitung geeignet ist. So müssen lediglich zur Bestimmung der Wahrscheinlichkeitsdichtefunktion 30, bzw. zur Bestimmung der Approximation der Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen, alle Stützstellen zusammengeführt und normiert werden. Die übrigen erläuterten Berechnungsschritte können für jede Stützstelle getrennt durchgeführt werden und sind beispielsweise auch in paralleler Hardware realisierbar. Die erfindungsgemäße Kamera und das erfindungsgemäße Verfahren sind dadurch für Echtzeitanwendungen in besonderem Maß geeignet.

Die Erfindung kann auch für Kameras mit mehr als einem Sensorelement angewendet werden. Beispielsweise ist eine Stereokamera möglich oder auch die Kombination aus einem gewöhnlichen Bildsensor und einem Wärmebildsensor. Eine solche Kombination ist vor allem für Überwachungsanwendungen von Interesse. Eine Fusion der Ergebnisse von den beiden unterschiedlichen Sensoren würde dann beispielsweise in Fig. 3 in der Einheit 38 durchgeführt.

Die Darstellung der Fig. 4 zeigt ein erfindungsgemäßes Multikamerasys- tem in schematischer Darstellung in einem möglichen Anwendungssze- nario. Heutzutage werden Badeabschnitte am Meer oder an einem See von Rettungsschwimmern überwacht, um verletzte oder erschöpfte Personen vor dem Ertrinken zu retten. Durch ein Multikamerasystem mit Kameras 60a, 60b, 60c, 6Od und 6Oe wird ein Badeabschnitt überwacht. Die Kameras 60a, 60b, 60c, 6Od und 6Oe sind mittels eines nicht dargestellten drahtlosen Netzwerks miteinander verbunden. Die Kameras sind an einem Pier 62 sowie an Rettungstürmen 64, 66 montiert. Mittels eines geeigneten Überwachungsalgorithmus, beispielsweise realisiert in der Einheit 38 der Fig. 3, soll überwacht werden, ob eine kritische Situation vorliegt, ob etwa ein Schwimmer 68 in Schwierigkeiten ist. Dies kann etwa dadurch geschehen, dass Bewegungsabläufe erfasst und abgeprüft werden sowie durch bilanzartige Überprüfung der Gesamtanzahl der Personen im Wasser. Bei Veränderungen der Gesamtanzahl der Personen im Wasser, die zeitlich länger anhalten, kann dann bei- spielsweise ein Alarm ausgelöst werden. Rettungsschwimmer und Rettungsfahrzeuge sollen dabei ebenfalls mit drahtlosen, netzwerkfähigen Geräten ausgestattet sein, beispielsweise PDAs (personal digital as- sistant) oder Laptops mit Netzwerkanschluss. Ganz wesentlich für diese Anwendung der Erfindung ist es dabei, dass die erfindungsgemäßen Kameras lediglich die Ergebnisdaten ausgeben und daher an ebenfalls im Netzwerk befindliche Anzeigegeräte, nur geringe Anforderung bezüglich der Rechenkapazität stellen. Daher ist es mit dem erfindungsgemäßen Multikamerasystem möglich, die Ergebnisse aller Kameras 60a, 60b, 60c, 6Od und 6Oe auf einem externen Gerät mit geringer Rechenleistung anzuzeigen, beispielsweise einem sogenannten PDA. Über dasselbe Netzwerk kann dann selbstverständlich auch eine Kommunikation zwischen den Rettungsschwimmern stattfinden. Neben Rettungsschwimmern könnte beispielsweise auch ein Surfer 70, dessen Surfbrett eine netzwerkfähige Anzeigeeinheit hat, über die Gefahrensituation informiert werden. Über das Netzwerk können die Kameras 60a, 60b, 60c, 6Od und 60θ selbstverständlich auch neu ausgerichtet, programmiert, konfiguriert und parametriert werden. Darüber hinaus können die Kameras 60a, 60b, 60c, 6Od und 6Oe auch mit einem nichtlokalen Netzwerk, beispielsweise dem Internet, verbunden sein.

Eine weitere mögliche Anwendung der erfindungsgemäßen Kameras liegt in einer sogenannten Indoor-Navigation mit einem Mobiltelefon. Die Kamera ist dabei Bestandteil eines modernen Mobiltelefons. Optional weist das Mobiltelefon weitere Sensoren, wie Inertial-, Trägheits-, und Lagesensoren auf. Das Mobiltelefon weist darüber hinaus eine Recheneinheit auf, in der ein Lokalisierungsalgorithmus realisiert ist. Betritt man beispielsweise einen Flughafen, so wird eine dreidimensionale Karte des Flughafens zusammen mit zusätzlichen symbolischen Aspekten, beispielsweise Terminalbezeichnungen, Restaurants und dergleichen, auf das Mobiltelefon übertragen. Der Zustand des Gesamtsystems X_t bezeichnet in dieser Ausführung die Position innerhalb des Gebäudes. Beim Herumlaufen mit dem entsprechend ausgerüsteten Mobiltelefon werden fortlaufend Bildsequenzen aufgenommen. Das probabilistische Trackingverfahren erlaubt dann, dass sich durch diese Messungen letztlich eine aktuelle Position herauskristallisiert, die dann, beispielsweise auf der 3D-Karte, ausgegeben werden kann.

In der schematischen Darstellung der Fig. 5 ist eine weitere Ausführungsform einer erfindungsgemäßen Kamera 71 dargestellt. Die Kamera

71 ist an und für sich identisch zu den bereits beschriebenen Ausführungsformen aufgebaut, im Erfassungsbereich einer Bildsensoreinheit

72 ist aber ein Panoramaspiegel 74 angeordnet. Dieser Panoramaspiegel 74 ist im Abstand von der Bildsensoreinheit 72 angeordnet und ermöglicht eine omnidirektionale Sicht für das Tracking, das heißt es kann in alle Richtungen gleichzeitig verfolgt werden. Die erfassten Bildregionen sind entsprechend zu verzerren („warping") unter Verwendung bekannter Kalibrierungstechniken.

Mit der erfindungsgemäßen Kamera und dem erfindungsgemäßen Verfahren ist es somit nun möglich, durch Tracking-Verfahren eine Person innerhalb einer Kameraansicht auch automatisch zu verfolgen und so statt des Live-Videostromes nur die Position der Person auszugeben. Durch die Verwendung der erfindungsgemäßen Kamera wird an eine Datenverbindung von der Kamera nach außen nur eine sehr geringe Bandbreitenanforderung gestellt und es ist dadurch problemlos möglich, innerhalb eines Netzwerks von Kameras Überwachungsaufgaben wahrzunehmen. Tatsächlich ist bei Verwendung der erfindungsgemäßen Kameras aufgrund der nur geringen Bandbreitenanforderung an das Netzwerk eine beliebige dezentrale Architektur und eine nahezu unbegrenzte Erweiterbarkeit des Netzwerks mit Kameras möglich.

In der Praxis der heutigen Überwachungstechnik ist es vielfach noch so, dass die Live-Videoströme einer Vielzahl von Kameras auf einer großen Anzahl von Monitoren angezeigt werden. Wenn dann eine Person verfolgt werden soll, etwa ein potentieller Dieb in einem Kaufhaus oder eine verdächtige Person am Flughafen, so muss der Beobachter einerseits die Verfolgung manuell durchführen, d.h., die Person auf dem jeweiligen Monitor nicht aus seinen Augen verlieren. Andererseits muss er nach Verlassen des Blickwinkels einer Kamera in die zugehörige nächstlie- gende Kamera weiterschalten und sich in den neuen Blickwinkel hineinversetzen. Wie bereits erwähnt wurde, ist es mit der Erfindung nunmehr möglich, eine Person automatisch zu verfolgen und im Folgenden soll die Darstellung oder Visualisierung der erhaltenen Informationen gemäß der Erfindung beschrieben werden.

Mit der Erfindung ist es möglich, die Information mehrerer erfindungsgemäßer sogenannter Smart-Kameras zu integrieren und diese dann in einem gemeinsamen Modell zu visualisieren, insbesondere einem dreidimensionalen Weltmodell. Dies ermöglicht es, dass der Pfad von Personen dann - entkoppelt von den jeweiligen Kameras, also über Kameraansichten hinweg - im 3D-Modell visualisiert werden kann. Dabei kann der Blickwinkel auf die Person frei gewählt werden, etwa mit der Person „mitfliegend". Der Blickwinkel ist also nicht mehr an die Blickwinkel der Kameras gebunden. Die erfindungsgemäße Verwendung dreidimensionaler Modelle zur Visualisierung von Überwachungsergebnissen ermöglicht dadurch eine gegenüber bekannten Visualisierungen weniger abstrakte Darstellungen und erleichtert dadurch den Überblick über die aktuellen Ereignisse. Mit der Erfindung wird es darüber hinaus möglich, die in einem gemeinsamen Koordinatensystem visualisierten Überwachungsergebnisse an beliebiger Stelle eines Netzwerks zur Verfügung zu stellen und damit ubiquitär verfügbar zu haben. Die Ausgabe kann auch in gemeinsamen, georeferenzierten Koordinatensystemen erfolgen und in ein dreidimensionales Weltmodell eingebettet sein. Einen Überblick über eine erfindungsgemäße Installation gibt die Fig. 6. Dargestellt ist mit dem Bezugszeichen 80 der Grundriss eines Gebäudegangs in dem insgesamt sechs erfindungsgemäße Smart-Kameras 82, 84, 86, 88, 90 und 92 positioniert sind. Alle Kameras 82 bis 92 sind mit einer Visualisierungseinheit 94 verbunden, die beispielsweise auch als tragbarer Visualisierungsclient im Netzwerk ausgebildet sein kann. In der Visualisierungseinheit 94 werden die Überwachungsergebnisse, beispielsweise die Ergebnisse eines Personen-Trackings, in ein dreidimensionales Modell eingebettet. Die Verbindungen der Kameras 82 bis 92 mit der Visualisierungseinheit 94 sind lediglich schematisch angedeutet, eingerichtet werden kann jede beliebige Art der Netzwerkverbindung in jeder beliebigen Konfiguration und Topologie, beispielsweise auch als Busverbindung, alternativ auch als drahtlose Netzwerkverbindungen. Zusätzlich sind in Fig. 6 noch Darstellungen des Blickwinkels der einzelnen Kameras 82 bis 92 in Form einer jeweiligen Momentaufnahme mit aufgenommen.

Die Darstellung der Fig. 7 verdeutlicht schematisch die Schritte, die bei der erfindungsgemäßen Visualisierung vorgenommen werden. Die Smart-Kameras 82 bis 92 geben jeweils eine Wahrscheinlichkeitsdichtefunktion aus, die durch Stützstellen approximiert ist. Diese Wahrscheinlichkeitsdichtefunktion kann in Raumkoordinaten ausgegeben werden. An dem in Fig. 7 dargestellten Beispiel wird die Wahrscheinlichkeitsdichtefunktion über zweidimensionale Koordinaten x, y ausgegeben. Die ausgegebene Wahrscheinlichkeitsdichtefunktion kann dann beispielsweise dreidimensional dargestellt werden, wobei eine Grundebene die Koordinateebene x, y darstellt und ausgehend von dieser Grundebene der Wert der Wahrscheinlichkeitsdichtefunktion nach oben aufgetragen wird. Diese dreidimensionale Darstellung ist in Fig. 7 mit dem Bezugszeichen 96 bezeichnet. Mit dem Bezugszeichen 98 ist in der Darstellung der Fig. 7 eine Draufsicht auf die Darstellung der Fig. 96 bezeichnet. Die Werte der Wahrscheinlichkeitsdichtefunktion können dann beispielsweise farbkodiert dargestellt werden.

Diese Wahrscheinlichkeitsdichtefunktionen können dann in einem SD- Modell 100 visualisiert werden, so dass dann in dem 3D-Modell Positionen, Pfade und Texturen von Personen erscheinen. Wie bereits ausgeführt wurde, ist der Blickwinkel auf dieses 3D-ModeII dabei beliebig und es kann, wie in Fig. 7 dargestellt ist, beispielsweise eine Vogelperspektive gewählt werden, es kann aber auch eine mit der verfolgten Person „mitfliegende" Perspektive gewählt werden.

Im Folgenden soll das erfindungsgemäße Verfahren einschließlich der Visualisierung noch einmal erläutert werden.

In einem ersten Schritt wird ein dreidimensionales Modell der Umgebung oder eines zu überwachenden Gebäudes aufgenommen oder eingelesen, beispielsweise in Form einer CAD-Datei (Computer-aided enginee- ring). Die Smart-Kameras sind oder werden an geeigneter Stelle im Gebäude angebracht und einem Netzwerk hinzugefügt. Die Smart- Kameras müssen dann relativ zu dem dreidimensionalen Modell kalibriert werden. Vorzugsweise ist das dreidimensionale Modell georeferen- ziert und nach der Kalibrierung sind damit auch die Ausgaben der Smart-Kameras georeferenziert.

Im eigentlichen Tracking-Betrieb läuft beispielsweise eine Person in das Blickfeld einer Smart-Kamera und wird durch die Smart-Kamera automatisch detektiert und als neues Zielobjekt aufgenommen und mit dem bereits beschriebenen Partikelfilterverfahren verfolgt. Dies ist für weitere Personen möglich, so dass ein Multi-Person-Tracking realisiert werden kann. Die Visualisierung des Trackings erfolgt dann im dreidimensionalen Modell, wobei verschiedene Anzeigemodi vorgesehen werden können. Beispielsweise mit einer einzelnen Person mitfliegend, aus Sicht einzelner Kameras oder auch durch graphische Visualisierung des bisherigen Pfades einer Person. Die Darstellung einer Person oder eines Objekts in dem dreidimensionalen Modell erfolgt mittels eines generischen dreidimensionalen Personenmodells. Optional kann die aktuelle Appearance der Person als Textur auf das dreidimensionale Personenmodell ge- mappt oder als Sprite, also als ein dem Visualisierungsmodell überlagertes Grafikobjekt dargestellt werden.

Wesentlich ist, dass die Ergebnisse der Visualisierung im gesamten Netzwerk und damit ubiquitär verfügbar sind. Beispielsweise in einer Leitwarte, auf einem PC, aber auch auf mobilen Endgeräten wie PDAs (Personal Digital Assistant) oder Smart Phones mit Funknetzwerkschnittstelle, die selbst entkoppelt von den Smart-Kameras betrieben werden (WLAN). Dabei kann jeder Benutzer seinen eigenen Anzeigemodus auswählen, unabhängig von den anderen Benutzern und den Smart-Kameras.

Gemäß einer speziellen Ausführung ist vorgesehen, dass sich ein Benutzer mit seinem netzwerkfähigen Visualisierungsclient, beispielsweise einem PDA/Smartphone, selbst im Sichtbereich einer oder mehrerer Smart-Kameras bewegt und dadurch gleichzeitig auch Eingabe des Trackings ist, mit anderen Worten durch die Smart-Kameras selbst verfolgt wird. Nach Visualisierung der Überwachungsergebnisse auf seinem PDA/Smartphone kann der Benutzer dadurch direkt seine eigene Position sehen und dadurch eine Selbstlokalisierung vornehmen. Auf diesem Effekt aufbauend kann ein Navigationssystem für solch einen Benutzer betrieben werden, das im Unterschied zu GPS (Global Positioning System) auch innerhalb eines Gebäudes hochpräzise funktioniert. Dadurch können beispielsweise Dienste angeboten werden, wie die Zielführung zu einem bestimmten Büro, auch über Stockwerke hinweg, oder in einem Flughafen-Terminal. Die Visualisierung auch auf dem mobilen Endgerät erleichtert dabei das Zurechtfinden für den Benutzer erheblich.

In einer weiteren speziellen Ausführung können beispielsweise Freunde oder Buddies im dreidimensionalen Modell visualisiert werden. Wenn sich der Benutzer selbst im Sichtbereich der Smart-Kameras befindet, ist dies besonders interessant, da er dann direkt auf seinem mobilen Endgerät sieht, wer in seiner Nähe ist, bzw. wo sich seine Freunde gerade befinden. Dies kann beispielsweise bei Kontaktdiensten für Singles eingesetzt werden, wo dann, wenn die Übereinstimmung gemeinsamer Vorlieben oder ähnliches festgestellt wurde, die Position des potentiellen Partners vom Netzwerk für den anderen Partner freigegeben werden kann, so dass beide sich gegenseitig auf ihren mobilen Endgeräten sehen können und durch eine Zielführungsfunktion gegebenenfalls auch zueinander geführt werden können. Dies ist beispielsweise in einer Diskothek oder einer Hotelanlage möglich, jedoch nicht entfernungsbeschränkt. Ganz speziell ist von Bedeutung, dass bei Verwendung geore- ferenzierter Visualisierungsmodelle sich zwei Personen auch in voneinander getrennten Kameranetzen aufhalten können und dennoch Informationen übereinander erhalten können, wenn die Kameranetze miteinander vernetzt sind.

In einer weiteren speziellen Ausführung können auch weitergehende Anfragen implementiert werden, beispielsweise „was ist passiert?". Eine Antwort könnte lauten, dass eine neue Person hinzugekommen ist, dass eine Person einen sicherheitskritischen Bereich im Flughafen betritt. Eine weitere Anfrage kann „wo?" lauten. Eine solche Anfrage kann durch die Angabe einer dreidimensionalen Position beantwortet werden und es können darauf aufbauende Systeme eingesetzt werden, die beispielsweise die Frage beantworten, wo sich ein verlassener Koffer in einem Flughafen befindet. Für die Visualisierung der Tracking-Ergebnisse von Bedeutung ist die Ausgabe der jeweiligen Tracking-Position nicht mehr in Koordinaten der Bildebene der jeweiligen Kamera, sondern unter Verwendung der Kalibrierung in einem globalen Koordinatensystem, beispielsweise in einem georeferenzierten globalen Weltkoordinatensystem (WKS). Die ermittelten Tracking-Positionen können dadurch auf der Erde lokalisiert werden.

Es ist dabei nicht unbedingt erforderlich, sogenannte Stereokameras zu verwenden, die einen bestimmten Blickwinkel räumlich erfassen und dadurch die dreidimensionale Position einer Person ausgeben können. Es kann alternativ auch eine durchschnittliche Personenhöhe angenommen werden und über die Höhe in Kamerapixeln kann auf die echte Höhe der Person unter Verwendung der Kamerakalibrierung rückgeschlossen werden. Auf diese Weise kann ein ungefährer Abstand zur Kamera berechnet werden. Wenn sich mehrere Kameras bezüglich ihres Sichtfelds überlappen, ist eine Abstandsmessung zu der oder den Kameras auch ohne die Annahme einer durchschnittlichen Personenhöhe möglich. Auf diese Weise kann die zweidimensionale Bildebene einer Smart-Kamera auf ein Weltkoordinatensystem erweitert werden.

Als dreidimensionales Modell für die Visualisierung der Trackingergeb- nisse kann beispielsweise eine internetbasierte weltumfassende Darstellung verwendet werden, in die sich georeferenzierte Inhalte einbetten lassen. Ein Beispiel hierfür ist die über das Internet zugängliche Visualisierung „Google Earth". In eine solche Darstellung können beispielsweise dreidimensionale Modelle von Gebäuden eingebettet werden und eine solche weltumfassende Darstellung lässt sich auch zur Visualisierung der Trackingergebnisse des dezentralen Smart-Kamera-Netzwerkes verwenden. Beispielsweise werden die Positionen von Personen in dieser Darstellung mittels grüner Punkte angegeben, wobei die Ausdehnung der Punkte eine Konfidenz angibt, wie sicher sich eine Person tat- - -

sächlich an der dargestellten Position befindet. Aber auch texturierte Modelle der jeweiligen Person können zur Visualisierung verwendet werden.

Eine Möglichkeit der Vereinfachung ergibt sich dadurch, dass bei fest montierter Kamera ein Hintergrundmodell erfasst wird, in dem die aufgenommene Szene ohne bewegte Objekte, beispielsweise ohne Personen, präsentiert wird. Die Smart-Kamera baut sich aus dieser Szene ein Hintergrundmodell auf, in dem beispielsweise über mehrere zeitlich aufeinanderfolgende Bilder ein laufender Durchschnitt (running average) gebildet wird, um das Rauschen herauszurechnen. Alternativ kann das Hintergrundmodell unter Heranziehung von Schwellenwerten bezüglich der zeitlichen Veränderung berechnet werden. Die Smart-Kamera hat auf diese Weise ein Hintergrundmodell zur Verfügung, so dass im Betrieb durch Differenzbildungsverfahren und optional zusätzlich durch bekannte Erosions- und Dilatationsverfahren eine Segmentierung realisiert werden kann. Diese Segmentierung beinhaltet gerade alle bewegten Objekte und kann für das Tracking-Verfahren als Region-of-Interest (ROI) verwendet werden. Nur in diesem segmentierten Bereichen kann sich eine zu verfolgende Person befinden. Dieser segmentierte Bereich, der potentiell unzusammenhängend ist, bildet einer Obermenge des eigentlichen Trackings, da sich auch mehrere Personen gleichzeitig im Bild befinden können. Auf diese Weise kann die in der Smart-Kamera erforderliche Rechenlesung verringert werden, da durch die Segmentierung nur die Bereiche weiterverarbeitet werden, in denen sich eine zu verfolgende Person überhaupt befinden kann.

Mittels des beschriebenen Segmentierungsverfahrens wird darüber hinaus eine automatische Initialisierung auf Bewegung ermöglicht. Dadurch kann bei der Verfolgung mehrerer Objekte oder mehrerer Personen eine Vereinfachung erzielt werden. Die Initialisierung reagiert auf Bewegung relativ zum Hintergrundmodell. Um nun neue Objekte besonders schnell verfolgen zu können, können zusätzliche Stützstellen bevorzugt an Positionen im Bildausschnitt platziert werden, an denen Personen das Blickfeld verlassen oder betreten können. Dies ist im übrigen nicht notwendigerweise der Bildrand. Wenn etwa die Kamera an einem Gang montiert ist, könnte der Eintrittsbereich auch eher in der Bildmitte liegen. Solche Positionen, an denen zusätzliche Stützstellen vorgesehen werden, können vorgegeben werden oder auch adaptiv eingerichtet werden, beispielsweise durch hinreichend langes Trainieren gelernt werden.

Wie bereits ausgeführt wurde, erfolgt die Visualisierung in einem dreidimensionalen und bevorzugt georeferenzierten Visualisierungsmodell. Die Smart-Kameras arbeiten dabei weiterhin in ihrer jeweiligen Bildebene und eine Umrechnung in Weltkoordinaten erfolgt dann unter Berücksichtigung einer Kamerakalibrierung. Wie bereits ausgeführt wurde, können auch mehrere Kameras zusammen verwendet werden, um mittels bekannter Stereo-Verfahren die Position einer Person oder eines Objekts im Raum zu bestimmen.

Bei der Objektverfolgung können gemäß der Erfindung zwei unterschiedliche Ansätze gewählt werden.

Zum einen kann ein sogenanntes dezentrales Tracking durchgeführt werden, indem in jeder Smart-Kamera eigene Partikelfilter laufen. Befindet sich im Blickfeld einer Smart-Kamera ein bewegliches Objekt, so läuft für dieses Objekt ein Partikelfilter. Bewegen sich im Blickfeld der Smart-Kamera zwei bewegliche Objekte, so werden entsprechend zwei Partikelfilter eingerichtet. Die Integration der Ergebnisse des Trackings in ein einheitliches dreidimensionales Modell erfolgt dann erst auf der Ebene der Tracking-Ergebnisse. Zunächst werden dazu die Tracking- Ergebnisse aller Kameras in das dreidimensionale Modell eingezeichnet. Technisch geschieht dies durch Übermittlung der Tracking-Ergebnisse ins Netzwerk, insbesondere zu der Visualisierungseinheit 94 und der dort dann folgenden Visualisierung. Im einfachsten Fall kann mit der Weiterreichung der Tracking-Ergebnisse zwischen den Smart-Kameras so vorgegangen werden, dass dann, wenn zwei Kameras sehr ähnliche Koordinaten im dreidimensionalen Modell liefern, diese beiden Ergebnisse dann zu einem beweglichen Objekt vereinheitlicht werden.

Alternativ kann ein sogenanntes zentrales Tracking durchgeführt werden. Logisch/algorithmisch gesehen wird hier nur ein einziges Partikelfilter pro beweglicher Person oder beweglichem Objekt über alle Smart- Kameras hinweg betrieben. Ein Zustand X besteht hierbei aus der Position der Person oder des Objektes direkt in Weltkoordinaten, dieser Zustand X wird von der Visualisierungseinheit 94 gehalten und jede Stützstelle über diesem Zustand X kann als Positionshypothese in Weltkoordinaten aufgefasst werden. Jede Smart-Kamera erhält dann diese Koordinaten von der Visualisierungseinheit 94, um die eigene Messung durchzuführen. Die gemeinsame Verarbeitung von Positionshypothese und Messergebnis erfolgt dadurch bereits auf der Messebene, entsprechend in der Smart-Kamera selbst. Die Visualisierungseinheit 94 hat in diesem Fall Aufgaben einer zentralen Verarbeitungseinheit.

Bei der Anwendung eines dezentralen Trackings werden bewegliche Objekte oder Personen, die sich im Überlappungsbereich des Sichtfeldes zweier Kameras befinden, dadurch von einer Kamera zur nächsten weitergegeben, dass beide Kameras eine ähnliche Position dieser Person oder dieses Objekts in Weltkoordinaten liefern. Ersichtlich wäre die Position ein und desselben beweglichen Objekts bei perfekter Kalibrierung der beiden Kameras exakt dieselbe Position. Die beiden Tracking- Ergebnisse der beiden Kameras können dadurch zu einer Person verknüpft werden. Eine zusätzliche Sicherheit kann dadurch erreicht werden, dass die jeweilige Appearance des Objekts oder der Person miteinander verglichen wird, um sicherzustellen, dass auch die richtige Person zugewiesen wird. Eine Weiterreichung kann auch auf einen Mo- ment verzögert werden, wo sich neben der weiterzureichenden Person nicht zufällig gerade auch noch eine weitere Person oder ein weiteres bewegliches Objekt befindet.

Im Falle des zentralen Trackings sind die Tracking-Ergebnisse ohnehin von den jeweiligen Smart-Kameras entkoppelt. Eine Person verlässt damit einfach die Bildebene einer ersten Kamera und kommt in die Bildebene einer zweiten Kamera hinein, die Weiterreichung wird somit implizit erledigt, da direkt in Weltkoordinaten gerechnet wird.

Die Kalibrierung der Kameras in globalen, insbesondere georeferenzier- ten Koordinaten kann mit Standardverfahren erfolgen, es kann aber auch ein sogenannter Analysis-by-Synthesis-Ansatz verwendet werden. Hierzu wird das dreidimensionale Visualisierungsmodell als Kalibrierobjekt verwendet und die Kameraparameter werden solange iterativ verändert, bis ausgewählte Punkte der Bildebene der Kamera mit den entsprechenden Punkten des dreidimensionalen Visualisierungsmodells übereinstimmen, bis also die reale Kamerasicht mit der Sicht auf das Visualisierungsmodell optimal übereinstimmt. Alternativ kann eine Smart-Kamera auch mit einem oder mehreren Winkelsensoren versehen werden, um dadurch Aufschluss über die jeweilige Blickrichtung der Kamera zu erhalten. Die Position der Kamera kann auch durch bekannte Vermessungstechniken relativ zur Umgebung bestimmt werden, da die Umgebung als 3D-Modell vorliegt ist damit auch die Position relativ zu diesem Modell bekannt.

Im Folgenden werden alternative Ausführungsformen der Erfindung beschrieben, die sich auf die Art und Weise beziehen, wie die Überwachungsergebnisse ermittelt werden.

In Bezug auf die angewendete Zeitskala wird das Tracking, also das Verfolgen eines beweglichen Objekts oder einer Person, nur auf einer Zeitskala ausgeführt, nämlich der Skala mit der Bildfrequenz des Bildsensors der Smart-Kamera. Um die Robustheit des Trackings zu erhöhen, ist es nun optional vorgesehen, das Tracking gleichzeitig in verschiedenen Zeitskalen λ auszuführen. Die Zeitskala λ soll hierbei die Dauer bis zum nächstmaligen Auswerten eines aktuellen Sensorbildes angeben, wobei dies in Einheiten von Frames des Sensors angegeben wird. Nach dem bisher beschriebenen Verfahren läuft der Partikelfilter zum Verfolgen eines beweglichen Objektes oder einer Person immer vollständig für jedes Sensorbild ab, so dass λ = 1. Dies bedeutet, dass sich Änderungen im aktuellen Sensorbild immer sofort auf den Partikelfilter und somit das Trackingergebnis auswirken.

Ein neues Sensorbild wirkt sich grundsätzlich aus auf das Gewicht einer Stützstelle relativ zu anderen Stützstellen und gegebenenfalls auf die Adaption, wenn adaptive Verfahren vorgesehen sind. Verhält sich also ein Objekt, und sei es nur vorübergehend, nicht so, wie dies im Bewegungsmodell angenommen wird, so wirkt sich dies bei einer Zeitskala von λ = 1 sofort aus, selbst wenn sich das Objekt im zeitlichen Durchschnitt immer noch in etwa gemäß dem Bewegungsmodell verhält.

Wenn beispielsweise eine Person kurzzeitig hinter einem Objekt läuft und so aus Sicht der Kamera verdeckt wird, werden Stützstellen, die die Person eigentlich im bisherigen Verlauf gut verfolgt haben, aufgrund einer schlechten Gewichtung im Messschritt sofort bestraft oder weniger stark gewichtet, da sie sich nicht direkt bewährt haben. Wenn die Person dann wieder hinter dem Objekt auftaucht und damit wieder sichtbar ist, müssen diese Stützstellen erst wieder bestärkt werden. Dies funktioniert nicht immer in der gewünschten robusten Weise, da aufgrund der im vorherigen Messschritt verringerten Gewichtungen der Stützstellen nicht so viele Stützstellen in der unmittelbaren Umgebung der wieder hinter dem Objekt aufgetauchten Person vorhanden sind. Wird darüber hinaus auch eine Adaption der Appearance vorgenommen, so besteht außer- dem die Gefahr, dass das die Person verdeckende Objekt mit als Ap- pearance der Person übernommen wird. Dies kann zwar mittels einer von der Konfidenz abhängigen Adaption verhindert werden, dennoch leidet unter diesen Effekten die Qualität des Überwachungsergebnisses.

Auf einer höheren Zeitskala mit λ > 1 geht eine solche Verdeckung jedoch unter, da sich eine solche höhere Zeitskala wie ein zeitlicher Tief- pass verhält.

Erfindungsgemäß ist es demnach vorgesehen, jedes zu verfolgende Objekt oder jede zu verfolgende Person auf verschiedenen Zeitskalen zu verfolgen, und zwar auf verschiedenen Zeitskalen gleichzeitig. Das zu verfolgende Objekt kann dadurch über die vollständige Wahrscheinlichkeitsdichtefunktion über der Zeit betrachtet werden. So wie der Zustand des zu verfolgenden Objekts durch Stützstellen abgedeckt wird, so kann auch die Zeitskala durch Stützstellen abgedeckt werden. Alternativ laufen, wie in der Darstellung der Fig. 8 gezeigt ist, mehrere Zeitskalen parallel, nämlich λ = 1 , 2, 4, 8, 16, ..., um den mit dem Kamerasensor erfassten Bildraum über alle Zeitskalen abzudecken.

Wenn dann bei Anwendung verschiedener Zeitskalen bei der Ausführung des Messschrittes beispielsweise die Appearance stark adaptiert würde, das Tracking-Verfahren also davon ausgehen würde, dass sich die Person vom Aussehen her extrem schnell in ein sie verdeckendes Hindernis „verwandelt" hat, so wird auf einer höheren Zeitskala, beispielsweise λ = 2, immer noch die ursprüngliche Appearance der Person beibehalten. Nach dem Wiedereintritt in den Sichtbereich des Kamerasensors würde diese beibehaltene Appearance der höheren Zeitskala dann bevorzugt, begünstigt beispielsweise noch durch eine Gewichtung zwischen Zeitskalen, die die Ergebnisse bei kleineren Werten von λ bevorzugt. Bei gleichzeitiger Anwendung mehrerer Zeitskalen und beispielsweise einem einfachen Vergleich der Appearance zum gleichen Zeitpunkt aber auf Basis unterschiedlicher Zeitskalen führt dies zu sehr robusten Ergebnissen bei der zeitweisen Verdeckung von zu verfolgenden Objekten durch Hindernisse. Die Grundlage für die Anwendung unterschiedlicher Zeitskalen ist dabei die Annahme, dass sich ein zu verfolgendes Objekt in etwa wie das Bewegungsmodell verhält und dabei seine Appearance verschieden schnell ändern kann oder analog dazu sich gemäß dem Appearance-Modell verhält und vom Bewegungsmodell abweicht, jedoch nicht beides gleichzeitig passiert. Beide alternativen Annahmen werden durch die Zeitskalen überwacht und verfolgt, die Richtige kristallisiert sich dann heraus. Die sogenannte Markov- Annahme besagt, dass der aktuelle Zustand nur durch die vorigen Zustände definiert wird. Die Verwendung verschiedener Zeitskalen benötigt auch für Zeitskalen mit λ > 1 nur den jeweils letzten Zustand und erfüllt daher die Markov-Annahme, auch wenn der letzte Zustand weiter in der Vergangenheit liegt als bei der Zeitskala mit λ = 1.

Technisch wird eine Zeitskala mit λ > 1 dadurch realisiert, dass in einer Iteration, in der kein neues Sensorbild verarbeitet werden soll, der re- chenzeitaufwändige Messschritt ausgelassen wird. Stattdessen wird das Objekt nur gemäß dem Bewegungsmodell und optional dem Appearance-Modell vorhergesagt. Da bei einer bestimmten Zeitskala bereits im Vorhinein bekannt ist, wann wieder eine Messung erfolgen soll, kann das Bewegungsmodell und das optionale Appearance-Modell aufgrund der deterministischen Natur alle Iterationen, die keine Messung enthalten, aus Effizienzgründen auch in einem Schritt auf einmal ausführen. In der Darstellung der Fig. 8 sind alle Iterationen, die keine Messung enthalten, dadurch zu erkennen, dass in den unterschiedlichen Zeitskalen der Fig. 8 an diesen Iterationen kein senkrechter Strich eingezeichnet ist. Der Rechenaufwand für die vorstehend beschriebene Erweiterung der Zeitskalen bzw. die Verwendungen mehrerer Zeitskalen ist bei Verwendung des vorstehend beschriebenen Schemas im Durchschnitt knapp doppelt so hoch wie ohne diese Erweiterung. In Bezug auf die bereits erläuterte Möglichkeit der Segmentierung des Hintergrundbildes in unbewegliche Bereiche und Bereiche, in denen potentiell bewegliche Objekte auftauchen können, kann die Verwendung mehrerer Zeitskalen auch als Kontrollinstanz für Verdeckungen von zu detektierenden Objekten benutzt werden. Die Verwendung mehrerer Zeitskalen kann jedoch auch bei beweglichen Kameras verwendet werden, wo die Segmentierung nicht direkt anwendbar ist. Wenn zudem eine verfolgte Person nicht von einem statischen Hindernis, sondern von einer weiteren Person verdeckt wird, dann kann die Verwendung mehrerer Zeitskalen auch bei vorhandenen Segmentierungsverfahren helfen, da diese ja lediglich bewegliche Objekte zum Hintergrund, aber nicht zwischen beweglichen Objekten oder Personen segmentieren.

Im Folgenden soll nun noch die erfindungsgemäße Möglichkeit erörtert werden, die Appearance eines zu verfolgenden Objekts oder einer zu verfolgenden Person, also dessen Aussehen und Erscheinung, adaptiv anzupassen. Beim Verfolgen einer Person wird mittels des bereits erörterten Partikelfilters nicht nur ein Zustand X verfolgt, sondern eine ganze Wahrscheinlichkeitsdichtefunktion über diesen Zustand X, approximiert durch Stützstellen. In analoger Weise kann für die Appearance eines zu verfolgenden Objekts vorgegangen werden. Normalerweise ist die Appearance des Zielobjektes im Partikelfilter nur für alle Stützstellen gemeinsam vorhanden und zusätzlich auch noch fest. Eine eingeschränkte Adaption kann mittels des sogenannten α-Blendings vorgenommen werden, aber auch hier ist nur genau eine Appearance des Zielobjekts zu jeder Zeit vorgesehen. Neben verschiedenen Hypothesen über den aktuellen Zustand X des Zielobjekts, sollen nun auch mehrere Appearances A des Zielobjektes gleichzeitig verfolgt werden. Darüber hinaus sollen diese beiden Aspekte über mehrere Zeitskalen λ verfolgt werden. Das Ziel ist demnach, die Appearance zu adaptieren und dabei mehrere Appearances gleichzeitig zu verfolgen. Dazu wird die Appearance als ein Teil des Zustandes definiert, gemäß X_neu". - (X, A), d.h. der neue Zustand hängt ab von dem bisherigen Zustand X und der Apperance A. Das bereits beschriebene Partikelfilterverfahren muss hierzu nicht verändert werden. Analog zum Bewegungsmodell existiert damit dann noch ein Appearance-Modell, das aus der alten Appearance eine neue vorhersagt.

Für dieses Appearance-Modell existieren mehrere Möglichkeiten zur Realisierung. Ziel ist eine besonders niederdimensionale Parametrie- rung, da die Komplexität, mit verursacht durch die Anzahl der Stützstellen, eines Partikelfilters exponentiell mit der Anzahl der Freiheitsgrade wächst und dieser dadurch sehr ineffizient wird. Eine niederdimensionale Parametrierung kann beispielsweise ein analytisches Appearance- Modell eingesetzt werden, bei dem ein analytisches Modell der ganzen Verteilung verwendet wird, anstatt die Appearances direkt mit eigenen Stützstellen abzutasten. Diesbezüglich sind zwei Möglichkeiten vorgesehen:

1. Verwendung eines parametrischen Modells, das mittels statistischen Methoden aus Trainingsdaten gelernt wird. Dies ist im Falle von LJ- berwachungsaufgaben allerdings nur dann möglich, wenn die zu verfolgenden Objekte oder Personen zuvor eintrainiert werden können.

2. Die Verwendung eines analytischen Modells, um eine stützstellenba- sierte Annäherung zu vermeiden. Hierzu kann beispielsweise ein sogenannter running average aus den letzten Appearances oder bevorzugt ein sogenanntes α-Blending aus der letzten Appearance und der aktuellen verwendet werden. Im Rahmen der Erfindung kann die Verfolgung von Personen und Objekten auch konturbasiert erfolgen. Die bisher beschriebenen Verfahren basieren vorrangig auf der Farberfassung von zu verfolgenden Objekten. Konturbasierte Verfolgungsverfahren können mit der Erfindung realisiert werden, die bereits beschriebene grundsätzliche Struktur des Verfahrens und der Aufbau der Smart-Kameras bleibt unberührt. Zur Implementierung eines konturbasierten Verfolgungsverfahrens beschreibt jede Stützstelle X nun eindeutig eine Kontur, beispielsweise die Kontrollpunkte eines Splines. Hierzu wird ein Spline in Bildkoordinaten erzeugt, der über das Sensorbild gelegt wird. Nun wird die Differenz dieser Konturschätzung zum aktuellen Sensorbild berechnet. Beispielsweise werden dazu, siehe Fig. 9, in insbesondere regelmäßigen Abständen entlang der Kontur Punkte betrachtet, an denen senkrecht zur Kontur der Abstand zur nächsten Kante im Sensorbild berechnet wird. Diese in Fig. 9 entlang der Kontur eingezeichneten senkrechten Linien haben eine definierbare Maximallänge, bis zu der nach einer Kante gesucht wird. Ist bis zu dieser Maximallänge keine Kante gefunden worden, so wird diese Maximallänge angenommen und so die Differenz nach oben beschränkt und der Suchbereich eingeschränkt. Die Summe oder die quadrierte Summe dieser Differenzen wird in die bisherige Gauss- Funktion eingesetzt und führt auf diese Weise zu einem eindimensionalen Differenzwert für diese Stützstelle.

Im Rahmen der Erfindung kann die Region-of-Interest (ROI) nur aus der Überlagerung dieser senkrechten Linien bestehen und nur diese Überlagerung der senkrechten Linien muss von der Smart-Kamera oder dem Sensor übertragen werden. Für alle Stützstellen zusammen ist also allein die Überlagerung all dieser senkrechten Linien von der Smart- Kamera anzufordern. Die Darstellung der Fig. 9 zeigt im oberen linken Bild die aus einer Stützstelle X entstehende Kontur und die entlang dieser Kontur beabstandeten Punkte. In Fig. 9 oben rechts sind dann an allen Punkten die angesprochenen senkrechten Linien eingezeichnet. In Fig. 9 unten links ist die Kontur zusammen mit den senkrechten Linien zu erkennen und in Fig. 9 unten rechts sind lediglich noch die senkrechten Linien dargestellt, die letztendlich als ROl vom Sensor anzufordern sind.

Statt einer Kontur kann auch ein Active Appearance Modell (AAM) verwendet werden, wie dies im Stand der Technik bekannt ist.

Die konturbasierten Verfahren können auch mit den histogrammbasierten verknüpft werden. Eine Stützstelle X besteht dann aus der Konkatenation beider Zustandsvariablen. Bei der Berechnung des Gewichts jeder Stützstelle im Messschritt werden in diesem Fall die Ergebnisse der Konturmessung und der bisherigen histogrammbasierten Messung ge- wichtet aufsummiert. Die Gewichtung kann dabei eingestellt werden.

Der Zustand X kann darüber hinaus neben der Position des Objektes auch dessen Geschwindigkeit nach Richtung und Betrag enthalten, gegebenenfalls auch die winkelmäßige Ausrichtung des Objekts. Im Falle einer konturbasierten Verfolgung enthält der Zustand dann die Kodierung der Kontur, wie beschrieben etwa die Kontrollpunkte eines Splines.

In der Darstellung der Fig. 10 ist beispielhaft die Visualisierung des Überwachungsergebnisses durch Visualisierung der Wahrscheinlichkeitsdichtefunktion einer Person über der Zeit t dargestellt. Eine solche Visualisierung wird mittels Methoden des Volumenrenderings erzeugt und zeichnet die Bahn einer verfolgten Person nach, wobei unterschiedliche Grau- oder Farbkodierungen die Aufenthaltswahrscheinlichkeiten entlang des Pfades darstellen.

Eine Anwendung der Erfindung kann beispielsweise in der Erkennung von verlassenen Koffern, beispielsweise in Bahnhöfen oder Flughäfen vorgenommen werden. Hierzu werden fest montierte Kameras und, wie bereits beschrieben, mehrfache Zeitskalen verwendet. Es sollen dabei Objekte erkannt werden, die auf einer Zeitskala hinzugekommen sind. Vergleichbar mit einem Bandpass werden dadurch Objekte ausgefiltert, die sich zu schnell ändern, beispielsweise herumlaufende Personen o- der Bildrauschen. Ebenso sollen zu tiefe Frequenzen ausgefiltert werden, also der Hintergrund bzw. hinreichend langsame Änderungen des Hintergrundes.

Die Erkennung von herrenlosen Koffern in einem Flughafen lässt sich in besonders vorteilhafter Weise mit der Überwachung von Personen verbinden, da es von besonderem Interesse ist, die Person, die den Koffer abgestellt hat, sowohl vor dem Abstellen aber auch danach zu verfolgen. Dazu kann das System alle im Sichtbereich der Kameras erkennbaren Personen verfolgen. Es ist dabei festzuhalten, dass diese Personen nicht alle unbedingt dem Benutzer angezeigt werden müssen. Wenn eine der verfolgten Personen beispielsweise einen Koffer abstellt, so kann das System dies sofort dem Benutzer darstellen, indem neben dem Koffer auch der Pfad der zugehörigen Person, die diesen Koffer potentiell abgestellt hat, verfolgt wird. Dargestellt wird dann sowohl der Pfad vor dem Abstellen wie auch nach dem Abstellen, da ja alle im Sichtbereich liegenden Personen vorsorglich verfolgt wurden. Dem Benutzer kann dadurch lediglich die wichtige Information angezeigt werden, ohne diesen mit für die Anwendung uninteressanten Informationen zu überfluten. Der Benutzer kann dadurch sofort die „was?"-Frage klären, nämlich ein verlassener Koffer, und die „wo?"-Frage im dreidimensionalen Visualisierungsmodell anschaulich verfolgen. Dem Sicherheitspersonal im Flughafen kann diese Visualisierung auf einem mobilen Visualisierungs- client eingebettet in ein dreidimensionales Modell eingeblendet werden und - da sie selbst auch vom System verfolgt und somit lokalisiert werden - eine Routenplanung zur Zielperson oder zum Koffer berechnet wird. Diese Routenplanung wird dabei kontinuierlich upgedatet, da die Bewegung der verfolgten Zielperson ja in Echtzeit einfließt. Weitere Aspekte und Merkmale der Erfindung ergeben sich aus der folgenden wissenschaftlichen Abhandlung, die darüber hinaus auch realisierte Beispiele beschreibt.

Intelligente Kamera zur Verfolgung von Objekten in Echtzeit

Sven Fleck

WSI/GRIS, Universität Tübingen Sand 14, 72076 Tübingen, Germany

Tel.: +(49) 7071 2970435, Fax: +(49) 7071 295466, email: fleck@gris.uni-tuebingen.de web: www.gris.uni-tuebingen.de

Überblick

Heutzutage finden Anwendungen zur Objektυerfolgung unter Verwendung von Netzwerken mit verteilten Sensoren immer größeren Anklang, sowohl im Bereich der Überwachungstechnik (Flughäfen, Bahnhöfe, Museen, öffentliche Einrichtungen) als auch im Bereich der industriellen Bildυerarbeitung (sichtgeführte Roboter ("Visual Serυoing") und Fabrikautomatisierung). Traditionelle, zentralisierte Ansätze bergen mehrere Nachteile wie limitierte Übertragungsbandbreiten, hohe Rechenzeitanforderungen und somit begrenzte örtliche Auflösungen und Bildwiederholraten der verwendeten Kameras.

In diesem Artikel wird eine netzwerkfähige intelligente Kamera ("Smart Camera") zur probabilistischen Verfolgung von Objekten präsentiert. Sie ist fähig, Objekte in Echtzeit zu verfolgen und demonstriert einen Ansatz, der sehr sparsam mit der Übertragungs-Bandbreite umgeht, da die Kamera nur die Ergebnisse der Verfolgung übertragen muß, welche auf einer höheren Abstraktions ebene liegen.

1. Einführung

In heutigen Bildverarbeitungssystemen versteht man unter Kameras typischerweise nur einfache Sensoren. Die Datenverarbeitung wird erst vollzogen, nachdem der komplette rohe Videostrom über eine teure und oftmals in der Distanz beschränkte Verbindung zu einer zentralen Verarbeitungseinheit (z.B. zu einem PC) übertragen ist. Aus Sicht des Autors erscheint es jedoch sinnvoller, die Verarbeitung auch physikalisch in der Kamera selbst durchzuführen: Was algorithmisch zur Kamera gehört soll auch physikalisch in der Kamera berechnet werden. Die Idee besteht also darin, die Information dort zu verarbeiten, wo sie auftritt - direkt am Sensor - und nur die Ergebnisse zu übertragen, die so auf einer höheren Abstraktionsebene liegen. Dies lehnt sich an dem zunehmenden Trend von in sich geschlossenen und netzwerkfähigen Kameras an.

Im Folgenden wird erstmalig ein Prototyp einer netzwerkfähigen intelligenten Kamera zur probabilistischen Objektverfolgung in Echtzeit vorgestellt. Objektverfolgung spielt eine zentrale Rolle für viele Anwendungen, insbesondere innerhalb der Robotik (sichtgeführte Roboter, RoboCup-Roboterfußball), Überwachungstechnik (Personenverfolgung) als auch bei der Mensch-Maschme-Schnittstelle, bei der Motion-Capture-Bewegungsverfolgung, im Bereich der Augmented Reality und für 3D-Fernsehen.

Partikel-Filter haben sich heutzutage als eine wichtige Art der Objektverfolgung etabliert [1, 2, 3]. Die verwendeten visuellen Modalitäten beinhalten Form [3], Farbe [4, 5, 6, 7] oder eine Kombination von Modalitäten [8, 9]. Das Partikel-Filter- Verfahren wird in Abschnitt 2 beschrieben. Hier wird ein Ansatz basierend auf Farbhistogrammen verwendet, der speziell auf die Anforderungen zur technischen Realisierung eingebettet in der Kamera angepasst wurde. Die Architektur der intelligenten Kamera wird in Abschnitt 3 beschrieben. Anschließend werden verschiedene Vorteile des vorgeschlagenen Ansatzes diskutiert. Experimentelle Ergebnisse dieses Ansatzes werden in Abschnitt 4 illustriert, anschließend folgt eine Zusammenfassung. 2. Partikel-Filter

Partikel-Filter können mit mehreren gleichzeitigen Hypothesen und mit nichtlinearen Systemen umgehen. In Anlehnung an die Notation von Isard und Blake [3] definiert Z_t alle Messungen {zι, ..., z_t} bis zum Zeitpunkt t, X_t beschreibt den. Zustandsvektor zur Zeit t der Dimension fc (Position, Geschwindigkeit etc. des Zielobjektes). Partikel-Filter basieren auf dem Theorem von Bayes, um zu jedem Zeitschritt die A-Posteriori Wahrscheinlichkeitsdichtefunktion (pdf) unter Verwendung aller vorhandener Information zu berechnen:

P(Xt]Zt) = (1) p{zt)

Diese Gleichung wird wie folgt rekursiv ausgewertet. Die Idee des Partikel-Filters ist es, die Wahrscheinlichkeits("Samp- Gewicht π, wobei bilden Schritte werden

Abbildung 1. Partikel-Filter Schleife

• Auswahlschritt Zuerst wird das kumulative Histogramm über den Gewichten aller Stützstellen berechnet. Anschließend wird, abhängig vom Gewicht einer jeden Stützstelle Tr^₁ , die Anzahl Nachkommen abhängig von seiner relativen Gewichtung im kumulativen Histogramm bestimmt.

Vorhersageschritt Im Vorhersageschritt wird der neue Zustand Xt berechnet:

Verschiedene Bewegungsmodelle zur Implementierung von p(X_t\Xt-ι) sind denkbar. Hier

• Messungsschritt Im Messungsschritt wird der neue Zustand X_t abhängig von der neuen Messung z_t (d.h. abhängig vom neuen Kamera-Sensorbild) gewichtet.

P(Xt]Zt) = P(Zt]Xt)P(Xt]Zt-!) (3)

Der Messungsschritt (3) ergänzt den Vorhersageschritt (2), zusammen implementieren sie das Bayes-Theorem (I)-

2.1 Partikel-Filter basierend auf Farbhistogrammen

Der Messungsschritt im Kontext von Farbverteilungen

Wie bereits erwähnt wird hier ein Partikel-Filter- Verfahren beschrieben, das auf Farbhistogrammen arbeitet. Dies ermöglicht eine rotationsinvariante Objektverfolgung und ermöglicht Robustheit gegenüber teilweisen Verdeckungen und Verformungen des Zielobjektes. Anstatt im Standard-RGB-Farbraum zu arbeiten, wird hier ein HSV- Farbmodell verwendet; Ein 2D-Hue-Saturation-Histogramm in Verbindung mit einem 1D-Value-Histogramm wurde entwickelt als Raum zur Repräsentation der Ansicht ("Appearance") des Zielobjektes. Dies bewirkt die folgenden Spezialisierungen des oben beschriebenen abstrakten Messungsschrittes. Von der Bildregion ("Region of Interest" — ROI) zum Histogramm

Jede Stützstelle S_j induziert eine Bildregion ("Region of Interest" - ROI) Pj¹ ' um seine örtliche Position im Bildraum herum. Die Größe der Bildregion (H_x, H_y) ist hierbei benutzerdefiniert. Um die Robustheit der Farbverteilungen im Fall von Verdeckungen, oder wenn Hintergrundpixel in der Bildregion enthalten sind, weiter zu erhöhen, wird eine Gewichtung abhängig von der örtlichen Distanz zum Zentrum der Bildregion verwendet. Hier wird folgende Gewichtungsfunktion eingesetzt:

, , . / 1 - r² T < 1 *M = \ 0 sonst wobei r die Distanz zum Zentrum der Bildregion bezeichnet. Wenn dieser Kernel verwendet wird, erhält man folgende Farbverteilung für die Stützstelle

HiStO_xU (b) = f ∑ k ß^W ~ ^ ) δ[I(w) - b]

mit Bin-Nummer &, Pixel-Position w innerhalb der Bildregion (ROI), Bandbreite a = W H% + H^ und Normalisie rung /, wobei X_f den Teil vom Zustand X\ bezeichnet, der die Position (x, y) im Bild beschreibt. Die 5-Funktion stellt sicher, daß jeder Summand dem zugehörigen Bin zugewiesen wird, welcher durch seine Bildintensität I definiert ist, wobei I einmal im iJ5-Raum, einmal im V-Raum zu verstehen ist. Die Repräsentation des Zielobjektes wird völlig analog berechnet, so daß nun ein Vergleich von diesem mit dem Histogramm jeder Stützstelle im Histogrammraum vorgenommen werden kann. Vom Histogramm zum neuen Gewicht π

Nun wird das Histogramm des Zielobjektes mit dem Histogramm jeder Stützstelle verglichen: Für diesen Zweck wird hier das Bhattacharyya-Ahnlichkeitsrriaß [4] verwendet, sowohl im HS- wie auch im ^-Histogramm einzeln.

wobei P_j und q die Histogramme der Stützstellen bzw. des Zielobjektes bezeichnen (jeweils im HS- und im V- Histogrammraum). Je mehr also die einer Stützstelle zugehörige Bildregion dem Zielobjekt ähnelt, desto größer wird p. Die beiden Ähnlichkeitswerte pjjg und Pv werden anschließend mittels Alpha-Blending gewichtet und so zu einem Ähnlichkeitswert vereinigt. Die Anzahl Bins ist variabel, ebenso der Gewichtungsfaktor des Alpha-Blendings. Die Experimente wurden mit 10 x 10 + 10 = 110 Bins und einer Gewichtung von 70 : 30 HS : V (d.h. zwischen PHS und pv) durchgeführt. Als letzter Schritt wird eine Gauß- Verteilung mit benutzerdefinierbarer Varianz σ angewendet, um das neue Gewicht für die Stützstelle sy zu erhalten'

Eine geringe Bhattacharyya-Distanz führt also zu einem hohen Gewicht so daß die zugehörige Stützstelle bei der nächsten Iteration eher bevoizugt wird

3. Smart Camera System

3.1 Hardware Beschreibung

Zur Demonstration des Prototypen wird hier eine mvBlueLYNX 420CX Kamera von Matrix Vision [10] wie in Abb. 2 gezeigt als Basis verwendet Die Kamera beinhaltet einen Sensor, einen FPGA, einen Prozessor und

Abbildung 2. Das Smart Camera System

eine Ethernet-Netzwerkschnittstelle. Genauer gesagt beinhaltet sie einen CCD-Sensor mit VGA-Auflösung (Progressive Scan) mit einem Bayer-Farb-Mosaik Ein Xilinx Spartan-IIE FPGA wird zur Low-Level- Verarbeitung benutzt. Außerdem ist ein 200 MHz Motorola PowerPC Prozessor mit MMU- und FPU-Einheit enthalten, auf dem Embedded Linux betrieben wird Er ist mit 32 MB SDRAM- und 36 MB FLASH-Speicher verbunden Des weiteren beinhaltet die Kamera eine 100 MBit/s Ethernet Schnittstelle, einerseits zur Aktualisierung im Feld ("Field Upgradability" ) , andererseits zur Übertragung der Ergebnisse der Objektverfolgung nach außen Zur direkten Verbindung mit Industriesteuerungen sind des weiteren mehrere Ein- /Ausgänge vorhanden. Außerdem sind ein analoger Video- Ausgang und zwei serielle Schnittstellen vorhanden, an denen Monitor und Maus zu Debugging- und Zielobjekt-Initialisierungszwecken angeschlossen werden können. Die Kamera ist nicht nur als Prototyp unter Laborbedingungen gedacht, sie wurde auch entwickelt, um rauhen Industrieumgebungen Rechnung zu tragen 3.2 Kameraver folgungs-Architektur

Abb. 3 zeigt die Architektur der Smart Camera.

Abbildung 3. Smart Camera Architektur

Ausgabe der Smart Camera

In jeder Iteration wird folgendes ausgegeben:

• Die Wahrscheinlichkeitsdichtefunktion (pdf) approximiert durch die Stützstellen-Menge S_t = {(Z_t ^W, τr_t ^W), i = 1..N}. Dies führt also zu (N * (k + I)) Werten.

• Der Erwartungs-Zustand (Mean-Estimate-State) E[St] = ∑)i=i ^7r _t -^_t ^und somit ein Wert.

• Der Maximum-Likelihood-Zustand in Kombination mit der Konfidenz π| , also zwei Werte.

Übertragung

Die Ausgabe der Smart Camera wird über Ethernet mittels Sockets übertragen. Auf der PC-Seite können diese Daten dann in Echtzeit visualisiert und auf Datenträger zur späteren Auswertung gespeichert werden.

3.3 Vorteile

Dieser Smart-Camera-Ansatz bietet vielfältige Vorteile:

• Geringe Bandbreitenanforderungen der Kamera. Die rohen Bilddaten werden direkt in der Kamera verarbeitet. Somit muß nur die approximierte Wahrscheinlichkeitsdichtefunktion (pdf) des Zustandes des Zielobjektes von der Kamera übertragen werden, was nur relativ wenige Parameter erfordert. Dies ermöglicht die Nutzung von Standardnetzwerken (z.B. Ethernet) mit praktisch unbegrenzter Reichweite. Hier summieren sich die gesamten zu übertragenden Daten auf (N * (k + 1) + 3) Werte pro Frame. Wenn etwa N = 100 Stützstellen verwendet werden und kein Geschwindigkeitsmodell verwendet wird (k = 2), sind 303 Werte pro Frame zu übertragen. Dies ist verhältnismäßig wenig im Vergleich dazu wenn alle Pixel des rohen Bildes übertragen werden würden: Beispielsweise werden zur rohen Übertragung in VGA-Auflösung selbst ohne Bayer-Mosaik-Farbumrechnung schon etwa 307000 Pixelwerte pro Frame benötigt. Selbst bei (moderaten) 15 Bildern/s ist hierfür eine Übertragungsrate von ca. 37 MBit/s erforderlich, was etwa 1/3 der Standard- Bandbreite von 100 MBit/s entspricht.

• Kein Berechnungen außerhalb der Kamera notwendig. Netzwerkfähige externe Geräte (PCs oder Maschinensteuerungen in der Automatisierungstechnik) müssen sich nicht mehr mit der Low-Level-Datenver- arbeitung beschäftigen, die logisch gesehen zur Kamera gehört. So können auf diesen stattdessen High-Level- Anwendungen realisiert werden, die auf den Ergebnissen (auch mehrerer) solcher Smart Gameras basieren. Auch sind mobile Geräte (PDAs/Handys) verwendbar, die z.B. über Funk-Netzwerkverbindung etwa im Falle einer Überwachungsanwendung die Ausgabe der Objektverfolgung aller Smart Cameras anzeigen können.

Außerdem ist es möglich, die Smart Camera direkt an eine Maschinensteuerung anzuschließen (selbst wenn diese nicht dedizierte Ressourcen für die Datenverarbeitung externer Daten besitzt), etwa an eine Robotersteuerung zur sichtgeführten Montage ("Visual Servoing"). Für diesen Zweck reicht es sogar aus, allein den Erwartungs-Zustand (Mean-Estimate-State) oder den Maximum-Likelihood- Zustand inklusive der Konfidenz an deren Eingänge zu übertragen um die Maschine unter Echtzeitbedingungen anzusteuern.

• Höhere Auflösung und Bildwiederholrate der Kamera. Da der rohe Videostrom bei dem vorgeschlagenen Ansatz nicht mehr durch die Bandbreite der Verbindung nach außen beschränkt ist, können Sensoren mit höherer örtlicher und zeitlicher Auflösung verwendet werden, da aufgrund der Nähe der Verarbeitungseinheit direkt am Sensor eine höhere Übertragungsgeschwindigkeit technisch viel einfacher realisierbar ist als außerhalb der Kamera. Die konventionelle Technik (Kamera + externer Rechner (PC)) hingegen birgt hier folgende Nachteile:

1. Wenn immer das komplette Bild in voller Auflösung auf den PC übertragen werden würde, um die gesamte Verarbeitung dort auszuführen, werden die Bandbreitenanforderungen heutiger Netzwerkverbindungen schnell überschritten. Dies gilt umso mehr bei Multi-Kamera-Systemen, da diese sich die Netzwerkbandbreite teilen müssen. Werden hingegen Standard-Kameraverbindungen verwendet werden, die ja höhere Bandbreiten bieten (etwa CameraLink), ist die Distanz zur Kamera auf wenige Meter limitiert (ganz abgesehen davon, daß aufgrund des zentralen Hosts gar kein dezentrales Netzwerk entsteht).

2. Wenn nur die aus Sicht des Partikel-Filter-Verfahrens interessanten (also durch die Stützstellen induzierten) Bildregionen (ROIs) übertragen würden, wird die Verbindung zwischen Kamera und PC zum Teil der Rückkopplungsschleife des Objektverfolgungsverfahrens. Nichtdeterministische Netzwerk-Effekte können dann bewirken, daß die Vorhersage des Objektverfolgungsverfahrens durch den Partikel-Filter, entsprechend den Zuständen der Stützstellen, d.h. ROIs, gar nicht mehr synchron mit der "echten Welt" läuft und so an falschen Stellen gemessen wird.

• Multi-Kamera-Systeme. Als Folge obiger Vorteile ermöglicht dieser Ansatz eine optimale Skalierung mit der Anzahl Kameras. Dies ist wichtig, damit Multi-Kamera-Systeme in einer dezentralen Infrastruktur zusammenarbeiten können, wie sie etwa bei der Überwachung von Flughäfen auftreten.

• In sich geschlossenes System mit kleinem Formfaktor. Durch Einbettung des Verfahrens in die Kamera entsteht ein in sich abgeschlossenes System mit sehr kompaktem Formfaktor. So kann auch eine Installation an Orten mit beschränkten Platzbedingungen erfolgen, oder etwa direkt an einer Roboterhand.

• Parametrierbarkeit. Die Implementierung erlaubt eine Parametrierbarkeit des Partikel-Filters in weiten Bereichen. Dies beinhaltet die Anzahl Stützstellen N, die Größe der Bildregion (ROI) [H_x, Hy), die Anzahl der Bins im Histogramm (in H, S, V), der Faktor für das Mischungsverhältnis HS + V (zwischen Hue- Saturation (pπs) und Value (py)), der Varianz- Vektor zur Diffusion im Bewegungsmodell, die Varianz zur Bhattacharyya-Gewichtung und die Kombination der Bewegungsmodelle.

• Vorteile des Partikel-Filter- Verfahrens. Ein auf einem Kaiman-Filter beruhendes Verfahren eingebettet in eine Smart Camera würde ähnliche Vorteile bieten wie die bisher genannten. Jedoch weist ein solches Verfahren mehrere Nachteile auf, da es nur unimodale Wahrscheinlichkeitsdichtefunktionen (pdfs) und lineare Modelle handhaben kann. Ein Partikel-Filter- Verfahren hingegen approximiert die von der Kamera auszugebende - potentiell beliebig geformte - Wahrscheinlichkeitsdichtefunktion (pdf) effizient durch Stützstellen, so daß nur eine moderat höhere Übertragungsbandbreite gegenüber einem Kaiman-Filter- Verfahren erforderlich ist. Dagegen ist der Robustheitsgewinn immens.

4. Ergebnisse

4.1 Experimentelle Ergebnisse

Im Folgenden werden einige Ergebnisse beschrieben. Diese bilden jedoch nur ein Ausschnitt von dem was auf der Projekt- Webseite [11] in höherer Qualität verfügbar ist. Im ersten Experiment wird die Kamera mit einem Würfel- Objekt initialisiert. Dazu wird sie durch Präsentieren des Objektes vor der Kamera trainiert, sie speichert die zugehörige Farbverteilung als Referenz des Zielobjektes ab. Die Verfolgungsleistung war sehr zufriedenstellend: Die Kamera kann das Zielobjekt bei einer Bildwiederholrate von 15 Bilder/s und einer Sensoraufiösung von 640x480 Punkten robust über die Zeit hinweg verfolgen. Um eine höhere Rechenzeiteffizienz zu erreichen, arbeitet das Verfahren direkt auf den rohen und somit durch das Bayer-Mosaik noch immer farbgefilterten Pixeln: Anstatt zuerst eine teure Bayer-Mosaik-Farbumrechnung vorzunehmen und dann letztlich doch nur das Histogramm darüber zu verwenden, welches keine örtliche Information enthält, wird hier jede Vier-Pixel-Bayer-Nachbarschaft als ein RGB- Pixel interpretiert. (Dabei werden die beiden Grünwerte gemittelt.) Dies führt zu einer QVGA-Auflösung als Eingabe für das Verfahren zur Objektverfolgung. Die gesamten Bandbreitenanforderungen der Kamera sind sehr moderat, es werden nur ca. 30 kB/s benötigt (bei der Verwendung von 100 Stützstellen). Im ersten Experiment wird ein Würfel verfolgt. Dieser wird zuerst vertikal, dann horizontal und anschließend auf einer Kreisbahn bewegt. Die von der Kamera ausgegebene approximierte Wahrscheinlichkeitsdichtefunktion (pdf) über der Zeit t ist in Abb. 4 illustriert, projiziert auf x- und y-Richtung.

Abbildung 4. Wahrscheinlichkeitsdichtefunktion pdf zur Iterationszeit t. Links: x- Komponente, Rechts: y-Komponente.

Ausgehend von dieser Abbildung beleuchtet Abb. 5 die Kreisbewegung innerhalb der Würfelsequenz im Detail. Dazu ist zu verschiedenen Zeitpunkten je ein Screenshot der aktuellen Positionen der Stützstellen in Verbindung mit ihren Gewichten gegeben. Hierbei ist zu erwähnen, daß die Tatsache, daß die Kamera hier statisch montiert ist, nicht ausgenutzt worden ist, die präsentierte Leistung wird also bereits erzielt ohne eine Hintergrundsegmentierung als Vorverarbeitung vorzunehmen.

Im zweiten Experiment wird das Verhalten der Smart Camera im Kontext von Überwachungsanwendungen untersucht: Die Smart Camera wird mit dem Gesicht einer Person als Zielobjekt trainiert. Es stellt sich heraus, daß auch das Gesicht erfolgreich in Echtzeit verfolgt werden kann. Abb. 6 zeigt einige Ergebnisse während des Betriebs.

Abbildung 5. Kreisbewegungssequenz von Experiment #1. Bild (Obere Zeile) und approximierte Wahrscheinlichkeitsdichtefunktion (pdf) (Untere Zeile) bei Iteration #100, 109, 113, 125, 129, 136, 141. Stützstellen sind in grün gezeigt, der Erwartungswert ist als gelber Stern markiert.

Abbildung 6. Experiment #2: Gesichtsverfolgungs-Sequenz. Bild (Obere Zeile) und approximierte Wahrscheinlichkeitsdichtefunktion (pdf) (Untere Zeile) bei Iteration #18, 35, 49, 58, 79.

5. Zusammenfassung

In diesem Artikel wurde eine Smart Camera zur Echtzeit-Objektverfolgung präsentiert. Durch die Verwendung von Partikel-Filtern auf HSV-Farbverteilungen bietet sie robuste Verfolgungsleistung, da sie mit mehreren Hypothesen gleichzeitig umgehen kann. Dennoch ist ihre Bandbreitenanforderung sehr gering, da

"weiteren ist geplant, die Ansicht ( "Appearance" ) des Zielobjektes während der Laufzeit automatisch zu adaptieren und nachzuführen, um die Robustheit der Objektverfolgung bei Beleuchtungsänderungen weiter zu erhöhen. Außerdem ist geplant, ein Multi-Kamera-System aufzubauen, um auch die Vorteile, die bei der Kommunikation zwischen Kameras auf dieser höheren Abstraktionsebene auftreten, zu demonstrieren (beispielsweise als Basis für eine Personenverfolgung in einer ϋberwachungsaπwendung).

Danksagung

Wir bedanken uns bei Matrix Vision für deren großzügige Unterstützung und die erfolgreiche Zusammenarbeit. Literatur

[1] N. D. F. Arnaud Doucet and N. Gordon, Sequential Monte Carlo Methods in Practice. Springer Verlag, 2001.

[2] "Special issue on: Sequential State estimation; From kalman filters to particle filters," Proceedings of the IBEE, vol. 92, no. 3, 2004.

[3] M. Isard and A. Blake, "Condensation - conditional density propagation for Visual tracking," 1998.

[4] D. Comaniciu, V. Ramesh, and P. Meer, "Kernel-based object tracking," IEEE Transaciions on Pattern Analysis and Machine Intelligence, vol. 25, no. 05, pp. 564-575, 2003.

[5] K. Okuma, A. Taleghani, N. de Freitas, J. J. Little, and D. G. Lowe, "A boosted particle filter: Multitarget detection and tracking," in EOCV 2004: 8th European Conference on Computer Vision, 2004.

[6] K. Nummiaro, E. Koller-Meier, and L. V. Gool, "A color based particle filter," 2002.

[7] P. Prez, C. Hue, J. Vermaak, and M. Gangnet, "Color-based probabilistic tracking," in European Conference on Computer Vision, ECCV'2002, LNCS 2350, Copenhaguen, Denmark, June 2002, pp. 661-675.

[8] P. Prez, J. Vermaak, and A. Blake, "Data fusion for Visual tracking with particles," Proceedings of IEEE, vol. 92, no. 3, pp. 495-513, 2004.

[9] M. Spengler and B. Schiele, "Towards robust multi-cue integration for Visual tracking," Lecture Notes in Computer Science, vol. 2095, p. 93ff., 2001.

[10] "Matrix vision," http://www.matrix-vision.com.

[11] "Project's Website," www.gris.uni-tuebingen.de/~sfleck/matrixtracking.

Claims

Patentansprüche

1. Kamera zum Verfolgen von Objekten, mit einer Bildsensoreinheit (12) zum Erzeugen von Bilddaten und einer Verarbeitungseinheit (14) zum Verarbeiten der von der Bildsensoreinheit (12) an die Verarbeitungseinheit (14) übergebenen Bilddaten, dadurch gekennzeichnet, dass die Verarbeitungseinheit (14) eine ROI- Auswahleinheit (20) zum Auswählen von für die Objektverfolgung interessanten Bildbereichen und eine Tracking-Einheit (21 ) aufweist, um Trackingdaten von zu verfolgenden Objekten anhand der Bilddaten zu ermitteln.

2. Kamera nach Anspruch 1 , dadurch gekennzeichnet, dass an einem Signalausgang der Kamera (10) die Trackingdaten ausgebbar sind, wobei die Trackingdaten gegenüber den von der Bildsensoreinheit (12) erzeugten Menge an Bilddaten eine wesentlich verringerte Datenmenge aufweisen, insbesondere etwa um den Faktor 1000 verringert.

3. Kamera nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Trackingdaten in Form einer insbesondere approximierten Wahrscheinlichkeitsdichtefunktion bereitgestellt sind.

4. Kamera nach Anspruch 3, dadurch gekennzeichnet, dass die Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen approximiert ist.

5. Kamera nach Anspruch 4, dadurch gekennzeichnet, dass in der Verarbeitungseinheit (14) Parallelverarbeitungsmittel zum parallelen Verarbeiten der Stützstellen der Wahrscheinlichkeitsdichtefunktion und hiervon abhängender Daten vorgesehen sind.

6. Kamera nach Anspruch 3, 4 oder 5, dadurch gekennzeichnet, dass die Tracking-Einheit (21) ein sogenanntes Particle-Filter implementiert, bei dem eine Wahrscheinlichkeitsdichtefunktion anhand eines Approximationsschrittes, eines Vorhersageschrittes und eines Messungsschrittes und angenähert wird.

7. Kamera nach Anspruch 6, dadurch gekennzeichnet, dass im Vorhersageschritt für jede Stützstelle (i) ein neuer Zustandsvektor (X_t') eines zu verfolgenden Objekts anhand alter Messungen (Zu) und eines alten Zustandsvektors sowie unter Berücksichtigung eines hinterlegten Bewegungsmodells ermittelt wird, im Messungsschritt der neue Zustandsvektor (X_t') unter Berücksichtigung einer neuen Messung (Z₁ ¹) gewichtet wird und im Approximationssschritt; die aus allen neuen Zustandsvektoren (Xt') resultierende Approximation der Wahrscheinlichkeitsdichtefunktion (p(X_t[Z_t)) durch Stützstellen approximiert wird.

8. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Tracking-Einheit (21) Tracking- daten von zu verfolgenden Objekten, insbesondere ein Vorhersagevergleichsobjekt, an die ROl-Auswahleinheit (20) übergibt, um in Abhängigkeit der Trackingdaten die für die Verarbeitung interessanten Bildbereiche auszuwählen.

9. Kamera nach Anspruch 8, dadurch gekennzeichnet, dass das Vorhersagevergleichsobjekt mittels eines parametrischen Modells erzeugt wird, dass adaptiv anpassbar ist.

10. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass in der Verarbeitungseinheit (14) die Bilddaten des von der ROl-Auswahleinheit (20) ausgewählten Bild- - 5 -

bereichs in ein Farbhistogramm umgesetzt werden und die Tra- cking-Einheit (21) die Trackingdaten auf Basis des Farbhistogramms ermittelt.

11. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die ROl-Auswahleinheit (20) die Bildsensoreinheit (12) in Abhängigkeit der Trackingdaten so ansteuert, dass von der Bildsensoreinheit (12) nur noch diejenigen Bilddaten zur Verarbeitungseinheit (14) übertragen werden, die den von der ROl-Auswahleinheit (20) ausgewählten interessanten Bildbereichen entsprechen.

12. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Bildsensoreinheit (12) und die Verarbeitungseinheit (14) in einem gemeinsamen Gehäuse integriert sind.

13. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Verarbeitungseinheit (14) eine Netzwerkeinheit (32) aufweist.

14. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass eine Steuereinheit (36) und Einstellmittel vorgesehen sind, um in Abhängigkeit der Trackingdaten Einstellparameter der Kamera (10), insbesondere Ausrichtung, Bildausschnitt und Vergrößerung, zu verändern.

15. Verfahren zum Verarbeiten von Bilddaten in einer Kamera (10) zum Verfolgen von Objekten, gekennzeichnet durch folgende Schritte:

- Übertragen von Bilddaten von einer Bildsensoreinheit (12) zu einer Verarbeitungseinheit (14) der Kamera (10), - Erzeugen von Trackingdaten zu verfolgender Objekte in der Verarbeitungseinheit (14) unter Verwendung probabilisti- scher Verfahren und

16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass der Schritt des Auswählens von Bereichen der Bilddaten das Ansteuern der Bildsensoreinheit (12) enthält, so dass nur noch Bilddaten von der Bildsensoreinheit (12) zur Verarbeitungseinheit (14) übertragen werden, bei denen eine erhöhte Wahrscheinlichkeit dafür besteht, dass sie Informationen über zu verfolgende Objekte enthalten.

17. Verfahren nach Anspruch 15 oder 16, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Trackingdaten das Approximieren einer Wahrscheinlichkeitsdichtefunktion mittels mehrerer Stützstellen enthält.

18. Verfahren nach wenigstens einem der Ansprüche 15 bis 17, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Trackingdaten das Erzeugen von Bilddaten eines Vergleichsobjekts anhand einer Wahrscheinlichkeitsdichtefunktion der zu verfolgenden Objekte und wenigstens eines parametrischen Modells der zu verfolgenden Objekte enthält.

19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Trackingdaten eine Ähnlichkeitsmessung zwischen den Bilddaten des Vergleichsobjekts und den von der Bildsensoreinheit (12) übertragenen Bilddaten enthält. - -

20. Verfahren nach Anspruch 18 oder 19, dadurch gekennzeichnet, dass beim Schritt des Auswählens von Bereichen der Bilddaten nur diejenigen Bilddaten von der Bildsensoreinheit (12) ausgewählt werden, die im wesentlichen dem Bildausschnitt des Vergleichsobjekts entsprechen.

21. Verfahren nach wenigstens einem der Ansprüche 15 bis 20, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Tra- ckingdaten das Erzeugen eines Farbhistogramms auf Basis der Bilddaten und dessen Auswertung enthält.

22. Verfahren nach wenigstens einem der vorstehenden Ansprüche 15 bis 21 , gekennzeichnet durch Darstellen der Trackingdaten, insbesondere einer Wahrscheinlichkeitsdichtefunktion eines verfolgten Objekts, in einem dreidimensionalen Umgebungsmodell.

23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, dass das dreidimensionale Umgebungsmodell in Weltkoordinaten, insbesondere georeferenziert, aufgebaut ist.

24. Multikamerasystem mit wenigstens zwei Kameras nach wenigstens einem der vorstehenden Ansprüche 1 bis 14, dadurch gekennzeichnet, dass jede Kamera (10a, 10b, 10c) eine Netzwerkeinheit (32) aufweist und die wenigstens zwei Kameras (10a, 10b, 10c) ü- ber ein Netzwerk (18), insbesondere Ethernet oder WLAN, miteinander in Verbindung stehen.

25. Multikamerasystem nach Anspruch 24, dadurch gekennzeichnet, dass die Verarbeitungseinheit (14) wenigstens einer der Kameras (10a, 10b, 10c) zum Verarbeiten von Trackingdaten einer anderen Kamera (10a, 10b, 10c) ausgelegt ist.

26. Multikamerasystem nach Anspruch 24 oder 25, dadurch gekennzeichnet, dass im Netzwerk eine zentrale Verarbeitungseinheit zum Auswerten der von den wenigstens zwei Kameras (10a, 10b, 10c) übertragenen Trackingdaten vorgesehen ist.

27. Multikamerasystem nach Anspruch 26, dadurch gekennzeichnet, dass im Netzwerk, insbesondere in der zentralen Verarbeitungseinheit, eine Visualisierungseinheit zum Darstellen der Trackingdaten in einem dreidimensionalen Umgebungsmodell vorgesehen ist.