EP1854083A1 - Object tracking camera - Google Patents

Object tracking camera

Info

Publication number
EP1854083A1
EP1854083A1 EP06707263A EP06707263A EP1854083A1 EP 1854083 A1 EP1854083 A1 EP 1854083A1 EP 06707263 A EP06707263 A EP 06707263A EP 06707263 A EP06707263 A EP 06707263A EP 1854083 A1 EP1854083 A1 EP 1854083A1
Authority
EP
European Patent Office
Prior art keywords
camera
tracking
unit
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP06707263A
Other languages
German (de)
French (fr)
Other versions
EP1854083B1 (en
Inventor
Sven Fleck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eberhard Karls Universitaet Tuebingen
Original Assignee
Eberhard Karls Universitaet Tuebingen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eberhard Karls Universitaet Tuebingen filed Critical Eberhard Karls Universitaet Tuebingen
Publication of EP1854083A1 publication Critical patent/EP1854083A1/en
Application granted granted Critical
Publication of EP1854083B1 publication Critical patent/EP1854083B1/en
Not-in-force legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/19606Discriminating between target movement or movement in an area of interest and other non-signicative movements, e.g. target movements induced by camera shake or movements of pets, falling leaves, rotating fan
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • G08B13/19608Tracking movement of a target, e.g. by detecting an object predefined as a target, using target direction and or velocity to predict its new position
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19654Details concerning communication with a camera
    • G08B13/19656Network used to communicate with a camera, e.g. WAN, LAN, Internet
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19663Surveillance related processing done local to the camera

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Automatic Focus Adjustment (AREA)

Abstract

The camera has an image sensor unit for producing image data, and a processing unit for processing the image data in the camera. The processing unit exhibits a region of interest (ROI)-sampling unit (20) for selecting image areas for tracking of object, and a tracking unit (21) with a particle filter (24). The units (20, 21) are provided to determine tracking data of objects to be tracked on the basis of the image data. Independent claims are also included for the following: (1) a method for processing of image data in a camera (2) a multi-camera system with two cameras.

Description

Kamera zum Verfolgen von Objekten Camera for tracking objects
Die Erfindung betrifft eine Kamera zum Verfolgen von Objekten mit einer Bildsensoreinheit zum Erzeugen von Bilddaten und einer Verarbeitungseinheit zum Verarbeiten der von der Bildsensoreinheit an die Verarbeitungseinheit übergebenen Bilddaten. Die Erfindung betrifft auch ein MuI- tikamerasystem mit wenigstens zwei Kameras sowie ein Verfahren zum Verarbeiten von Bilddaten in einer Kamera zum Verfolgen von Objekten.The invention relates to a camera for tracking objects with an image sensor unit for generating image data and to a processing unit for processing the image data transferred from the image sensor unit to the processing unit. The invention also relates to a multi-camera system having at least two cameras and to a method for processing image data in a camera for tracking objects.
Trackinganwendungen, die auf einem Netz von verteilten Kameras aufbauen, werden in heutiger Zeit immer gefragter, sowohl im Bereich Sicherheitstechnik zur Überwachung von Flughäfen, Bahnhöfen, Museen oder öffentlichen Plätzen, wie auch im Bereich der industriellen Bildverarbeitung bei Fertigungsstraßen und sichtgeführten Robotern. Traditionelle zentralisierte Ansätze weisen hier zahlreiche Nachteile auf. So übertragen heutige Systeme typischerweise den kompletten rohen Bildstrom des Kamerasensors über teure und entfemungsbeschränkte Verbindungen zu einem zentralen Rechner und müssen dort dann alle verarbeitet werden. Die Kameras werden somit typischerweise nur als einfache Sensoren angesehen und die Verarbeitung erfolgt erst nach aufwendiger Übertragung des rohen Videostromes. Dieses Konzept stößt bei Multikamerasystemen und Kameras mit hohen Auflösungen und/oder Frameraten schnell an Grenzen.Tracking applications based on a network of distributed cameras are becoming increasingly popular in the field of security technology for monitoring airports, train stations, museums or public places, as well as in the field of industrial image processing in production lines and vision-guided robots. Traditional centralized approaches have many disadvantages here. Today's systems typically transmit the complete raw image stream of the camera sensor via expensive and distance-limited connections to a central computer and then have to be processed there all. The cameras are thus typically regarded only as simple sensors and the processing takes place only after elaborate transmission of the raw video stream. This concept quickly reaches its limits in multi-camera systems and cameras with high resolutions and / or frame rates.
Der Erfindung liegt somit das Problem zugrunde, eine Objektverfolgung durch Kameras bereitzustellen, die in der Lage ist, mit mehreren Kameras und bandbreitenbeschränkten Netzwerken zu arbeiten.The invention is thus based on the problem to provide an object tracking by cameras, which is able to work with multiple cameras and bandwidth-limited networks.
Erfindungsgemäß ist hierzu eine Kamera zum Verfolgen von Objekten, mit einer Bildsensoreinheit zum Erzeugen von Bilddaten und einer Verarbeitungseinheit zum Verarbeiten der von der Bildsensoreinheit an die Verarbeitungseinheit übergebenen Bilddaten vorgesehen, bei der die Verarbθitungseinheit eine ROl-Auswahleinheit zum Auswählen von für die Objektverfolgung interessanten Bildbereichen und eine Tracking- Einheit autweist, um Trackingdaten von zu verfolgenden Objekten anhand der Bilddaten zu ermitteln.According to the invention, a camera for tracking objects, with an image sensor unit for generating image data and a processing unit for processing the image data transferred from the image sensor unit to the processing unit, is provided for this purpose An operation unit has an ROI selecting unit for selecting image areas of interest for object tracking and a tracking unit for detecting tracking data of objects to be tracked from the image data.
Erfindungsgemäß erfolgt die Verarbeitung der Bilddaten somit bereits in der Kamera, so dass nicht der komplette, rohe Videostrom in voller Auflösung zu einer externen Verarbeitungseinheit übertragen werden muss. Stattdessen werden lediglich die sich ergebenden Trackingdaten übertragen. Darüber hinaus werden durch die Verwendung der Region of Interest (ROI)-Auswahleinheit die zu verarbeitenden Bilddaten bereits in ihrer Menge stark begrenzt, so dass die Verarbeitung der Daten in Echtzeit erfolgen kann, was bei Trackinganwendungen von großer Bedeutung ist. Da somit nur die resultierenden Daten von der Kamera übertragen werden müssen, wird die Verwendung von Standardnetzwerkverbindungen überhaupt erst möglich. Zur Berechnung der Trackingdaten ist darüber hinaus kein externer Rechner erforderlich, da dies bereits innerhalb der Kamera erledigt wird. Ein gegebenenfalls dennoch vorhandener zentraler Rechner kann dann für übergeordnete Aufgaben verwendet werden.According to the invention, the processing of the image data thus already takes place in the camera, so that it is not necessary to transmit the complete, raw video stream in full resolution to an external processing unit. Instead, only the resulting tracking data is transmitted. In addition, by using the Region of Interest (ROI) selector, the image data to be processed is already severely limited in its amount, so that the processing of the data can be done in real time, which is of great importance in tracking applications. Since only the resulting data has to be transmitted by the camera, the use of standard network connections becomes possible in the first place. In addition, no external computer is required to calculate the tracking data, as this is already done inside the camera. An optionally existing central computer can then be used for higher-level tasks.
In Weiterbildung der Erfindung sind an einem Signalausgang der Kamera die Trackingdaten ausgebbar, wobei die Trackingdaten gegenüber der von der Bildsensoreinheit erzeugten Menge an Bilddaten eine wesentlich verringerte Datenmenge aufweisen, insbesondere etwa um den Faktor 1000 verringert.In a further development of the invention, the tracking data can be output at a signal output of the camera, the tracking data having a significantly reduced amount of data compared with the quantity of image data generated by the image sensor unit, in particular reduced by a factor of about 1000.
Zu dieser erfindungsgemäßen erheblichen Verringerung der zu übertragenden Datenmenge trägt zum einen das Auswählen von für die Objektverfolgung interessanten Bildbereichen und zum anderen die Berechnung der Trackingdaten innerhalb der Kamera bei. Ein Kamerabild in VGA-Auflösung benötigt etwa ein Drittel der 100 Mbit/s Standard- Ethernetbandbreite, wobei dies ohne Heranziehung des sogenannten Bayer-Mosaics erreicht wird, ansonsten wird die dreifache Bandbreite benötigt. Gemäß der Erfindung wird hingegen eine Reduktion auf wenige hundert Kilobit pro Sekunde ermöglicht, da lediglich die Ergebnisse übertragen werden. Da der rohe Videostrom gemäß der Erfindung nicht mehr durch die Bandbreite der Verbindung nach außen beschränkt ist, können bei der erfindungsgemäßen Kamera Sensoren mit sehr hoher örtlicher und seitlicher Auflösung verwendet werden. Zwei Gründe sind hierfür verantwortlich: Zum Einen ist aufgrund der Nähe der Verarbeitungseinheit direkt am Sensor eine höhere Übertragungsgeschwindigkeit technisch viel einfacher realisierbar als außerhalb der Kamera, zum Anderen wird, wie bereits erwähnt wurde, durch die ROl-Auswahleinheit das aktuelle Kamerabild nur an ausgewählten und sich beispielsweise dynamisch ändernden Regionen ausgewertet. Hierzu sind Region-of- lnterest-(ROI)-fähige Kamerasensoren, wie etwa CMOS-Sensoren erforderlich.On the one hand, the selection of image areas which are of interest for object tracking and, on the other hand, the calculation of the tracking data within the camera contributes to this considerable reduction of the amount of data to be transmitted according to the invention. A camera image in VGA resolution requires about a third of the 100 Mbps standard Ethernet bandwidth, this being achieved without using the so-called Bayer mosaic, otherwise the triple bandwidth is needed. By contrast, according to the invention, a reduction to a few hundred kilobits per second is made possible, since only the results are transmitted. Since the raw video stream according to the invention is no longer limited by the bandwidth of the connection to the outside, sensors with very high spatial and lateral resolution can be used in the camera according to the invention. Two reasons are responsible for this: On the one hand, because of the proximity of the processing unit directly at the sensor, a higher transmission speed is technically much easier to implement than outside the camera, on the other hand, as already mentioned, by the ROl selector unit, the current camera image only on selected and For example, evaluated dynamically changing regions. This requires region of interest (ROI) enabled camera sensors, such as CMOS sensors.
In Weiterbildung der Erfindung sind die Trackingdaten in Form einer insbesondere approximierten Wahrscheinlichkeitsdichtefunktion bereitgestellt. Vorteilhafterweise ist die Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen approximiert.In a further development of the invention, the tracking data are provided in the form of a particular approximated probability density function. Advantageously, the probability density function is approximated by a plurality of nodes.
Mittels einer insbesondere approximierten Wahrscheinlichkeitsdichtefunktion werden die für eine Trackinganwendung ausschließlich interessierenden Zieldaten, wie beispielsweise Position und Geschwindigkeit eines zu verfolgenden Objektes, berechnet und dann von der Kamera ausgegeben. Die Approximation der Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen, deren Position und Anzahl gegebenenfalls adaptiv veränderbar ist, wird eine deutliche Reduktion des durchzuführenden Rechenaufwands erreicht. Dennoch hat sich gezeigt, dass eine für Trackinganwendungen ausreichende Präzision erreicht werden kann. In Weiterbildung der Erfindung sind in der Verarbeitungseinheit Parallel- verarbeitungsmittel zum parallelen Verarbeiten der Stützstellen der Wahrscheinlichkeitsdichtefunktion und hiervon abhängender Daten vorgesehen.By means of a particular approximated probability density function, the target data exclusively of interest for a tracking application, such as position and speed of an object to be tracked, are calculated and then output by the camera. The approximation of the probability density function by a plurality of support points whose position and number may be adaptively changed, a significant reduction of the computational effort to be performed is achieved. Nevertheless, it has been shown that a precision sufficient for tracking applications can be achieved. In a development of the invention, parallel processing means are provided in the processing unit for the parallel processing of the interpolation points of the probability density function and data dependent thereon.
Auf diese Weise kann eine sehr schnelle Verarbeitung auch zahlreicher Stützstellen erfolgen. Beispielsweise werden für hundert Stützstellen hundert identische Hardware-Schaltkreise vorgesehen. Dadurch macht es die Erfindung möglich, Tracking-Verfolgungen mit hoher Präzision in Echtzeit zu realisieren.In this way, a very fast processing of many support points can be done. For example, a hundred support points are provided for a hundred identical hardware circuits. As a result, the invention makes it possible to realize tracking tracking with high precision in real time.
In Weiterbildung der Erfindung implementiert die Tracking-Einheit einen sogenannten Particle-Filter, bei dem eine Wahrscheinlichkeitsdichtefunktion (p(Xt|Zt)) anhand eines Approximationsschrittes auf Basis von Stützstellen, eines Vσrhersageschrittes und eines Messungsschrittes angenähert wird. Xt bezeichnet den Zustand zur Zeit t und Zt alle Messungen bis einschließlich zur Zeit t. Im Approximationsschritt wird die Wahrscheinlichkeitsdichtefunktion abgetastet und so neue Stützstellen zur Approximation des Zustandvektors Xt bestimmt. Im Vorhersageschritt wird pro Stützstelle der neue Zustandsvektor Xt eines zu verfolgenden Objekts anhand alter Messungen Zu und eines alten Zustands- vektors XM sowie unter Berücksichtigung eines hinterlegten Bewegungsmodells ermittelt und im Messungsschritt wird der neue Zustandsvektor Xt unter Berücksichtigung einer neuen Messung gewichtet. Im Approximationsschritt wird die aus allen neuen Zustandsvektoren resultierende Approximation der Wahrscheinlichkeitsdichtefunktion p(Xt|Zt) durch Stützstellen neu approximiert.In a development of the invention, the tracking unit implements a so-called particle filter, in which a probability density function (p (X t | Z t )) is approximated using an approximation step on the basis of reference points, a calibration step and a measurement step. X t denotes the state at time t and Zt all measurements up to and including time t. In the approximation step, the probability density function is sampled and thus new interpolation points for approximating the state vector X t are determined. In the prediction step, the new state vector X t of an object to be tracked is determined by means of old measurements Zu and an old state vector X M and taking into account a stored motion model, and in the measuring step the new state vector Xt is weighted taking into account a new measurement. In the approximation step, the approximation of the probability density function p (Xt | Z t ) resulting from all new state vectors is newly approximated by interpolation points.
Die Verwendung eines sogenannten Particle-Filters in der Tracking- Einheit erlaubt eine schnelle Verarbeitung auch großer Bilddatenmengen und dennoch wird eine hohe Präzision der Objektverfolgung erreicht. In Weiterbildung der Erfindung übergibt die Tracking-Einheit Trackingda- ten von zu verfolgenden Objekten, insbesondere ein Vorhersagever- gleichsobjekt, an die ROl-Auswahleinheit, um in Abhängigkeit der Tra- ckingdaten die für die Verarbeitung interessanten Bildbereiche auszuwählen.The use of a so-called particle filter in the tracking unit allows fast processing of even large amounts of image data and yet high precision object tracking is achieved. In a development of the invention, the tracking unit transmits tracking data of objects to be tracked, in particular a prediction comparison object, to the ROI selection unit in order to select the image areas of interest for the processing as a function of the tracking data.
Indem die interessanten Bildbereiche anhand von Trackingdaten ausgewählt werden, kann mit hoher Wahrscheinlichkeit sichergestellt werden, dass nur relevante Bildbereiche ausgewertet werden. Beispielsweise kann anhand der Trackingdaten auf ein Vergleichsobjekt des zu verfolgenden Objektes zurückgerechnet werden und auf Basis dieses Vergleichsobjektes wird dann entschieden, welche Bildbereiche aus dem aktuellen Kamerabild ausgewählt werden sollen. Bei einem zu verfolgenden Objekt, das sich mit konstanter Geschwindigkeit bewegt, würde das Vergleichsobjekt somit der Abbildung in der letzten Kameraaufnahme entsprechen, lediglich seine Position wäre demgegenüber verschoben.By selecting the image areas of interest on the basis of tracking data, it can be ensured with high probability that only relevant image areas are evaluated. For example, it is possible to use the tracking data to calculate back to a comparison object of the object to be tracked, and it is then decided on the basis of this comparison object which image areas from the current camera image should be selected. In the case of an object to be tracked, which moves at a constant speed, the comparison object would thus correspond to the image in the last camera shot, only its position would be shifted in contrast.
In Weiterbildung der Erfindung wird das Vorhersagevergleichsobjekt mittels eines hinterlegten parametrischen Modells erzeugt, das adaptiv anpassbar ist.In a development of the invention, the prediction comparison object is generated by means of a stored parametric model which is adaptively adaptable.
Bei komplizierteren zu verfolgenden Objekten können dadurch beispielsweise Veränderungen des Objekts berücksichtigt werden, die nicht im Bewegungsmodell enthalten sind, beispielsweise Drehungen eines menschlichen Kopfes, die aus ein und derselben Richtung zu völlig anderen Ansichten des Kopfes führen. Wesentlich ist dabei, dass die adaptive Anpassung nur dann vorgenommen wird, wenn man sicher ist, dass man auch das zu verfolgende Objekt vor sich hat. Beispielsweise darf eine Anpassung des hinterlegten parametrischen Modells dann nicht erfolgen, wenn über das gesamte Kamerabild lediglich geringe Wahr- scheinlichkeitswerte ermittelt werden. Würde nämlich in diesem Fall der Ort mit der höchsten Wahrscheinlichkeit zur Aktualisierung des Bewe- gungsmodeüs verwendet werden, obwohl das zu verfolgende Objekt sich gar nicht mehr im Bildbereich befindet, würde das Bewegungsmo- dell so angepasst, dass ein nachfolgendes erneutes Auffinden des zu verfolgenden Objekts nicht mehr möglich wäre. Bei der adaptiven Anpassung des Bewegungsmodells muss somit darauf geachtet werden, dass Wahrscheinlichkeitswerte nicht nur relativ, sondern auch absolut bewertet werden, um letztlich zu erkennen, ob die Wahrscheinlichkeitsdichtefunktion p(Xt|Zt) unimodal ist.In the case of more complicated objects to be tracked, for example, changes in the object that are not contained in the movement model can be taken into account, for example rotations of a human head that lead from the same direction to completely different views of the head. It is essential that the adaptive adaptation is made only if one is sure that one has the object to be followed in front of him. For example, an adaptation of the stored parametric model may not take place if only slight truths are found over the entire camera image. Probability values are determined. If in this case the location with the highest probability of updating the motion mode would be used even though the object to be tracked is no longer in the image area, the motion model would be adapted so that a subsequent retrieval of the object to be tracked no longer possible. In the adaptive adaptation of the motion model, care must therefore be taken that probability values are not only relatively, but also absolutely evaluated, in order ultimately to detect whether the probability density function p (Xt | Zt) is unimodal.
In Weiterbildung der Erfindung werden in der Verarbeitungseinheit die Bilddaten des von der ROl-Auswahleinheit ausgewählten Bildbereichs in ein Farbhistogramm umgesetzt und die Tracking-Einheit ermittelt die Trackingdaten auf Basis des Farbhistogramms.In a development of the invention, the image data of the image area selected by the ROI selection unit is converted into a color histogram in the processing unit and the tracking unit determines the tracking data on the basis of the color histogram.
Die Verwendung eines Farbhistogramms hat Vorteile bezüglich der Robustheit der Verarbeitungsalgorithmen in Bezug auf Drehungen, teilweise Verdeckung und Verformung. Beispielsweise wird der HSV-Farbraum (Hue-Saturation-Value) verwendet, der Vorteile gegenüber rot, grün, blau bietet. Alternativ kann auch der RGB-Farbraum (Rot-Grün-Blau) oder der CMY-Farbraum (Cyan-Magenta-Yellow) eingesetzt werden.The use of a color histogram has advantages in terms of robustness of the processing algorithms in terms of rotations, partial occlusion and deformation. For example, the HSV color space (hue saturation value) is used, which offers advantages over red, green, blue. Alternatively, the RGB color space (red-green-blue) or the CMY color space (cyan-magenta-yellow) can be used.
In Weiterbildung der Erfindung steuert die ROl-Auswahleinheit die Bildsensoreinheit in Abhängigkeit der Trackingdaten so an, dass von der Bildsensoreinheit nur noch diejenigen Bilddaten zur Verarbeitungseinheit übertragen werden, die den von der ROl-Auswahleinheit ausgewählten interessanten Bildbereichen entsprechen.In a development of the invention, the ROI selection unit controls the image sensor unit as a function of the tracking data in such a way that only those image data are transferred from the image sensor unit to the processing unit which correspond to the image areas selected by the ROI selection unit.
Erfindungsgemäß kann somit die Bandbreite vom Sensor zur Verarbeitungshardware deutlich reduziert werden, indem nur die Kombination von Bildbereichen überhaupt zur Verarbeitung übertragen wird, die für den Trackingalgorithmus notwendig ist. Dies geschieht unabhängig von der physikalischen Auflösung des Sensors. Diese interessierenden Regionen werden dabei von Frame zu Frame dynamisch generiert und zum Sensor übertragen. Der Sensor muss natürlich einen solchen direkten Zugriff auf Bildbereiche ermöglichen, dies ist aber bei heutigen CMOS-Sensoren der Fall.Thus, according to the invention, the bandwidth from the sensor to the processing hardware can be significantly reduced by transferring only the combination of image areas at all to the processing required for processing the tracking algorithm is necessary. This happens regardless of the physical resolution of the sensor. These regions of interest are generated dynamically from frame to frame and transmitted to the sensor. Of course, the sensor must allow such direct access to image areas, but this is the case with today's CMOS sensors.
In Weiterbildung der Erfindung sind die Bildsensoreinheit und die Verarbeitungseinheit in einem gemeinsamen Gehäuse integriert.In a development of the invention, the image sensor unit and the processing unit are integrated in a common housing.
Dadurch wird es möglich, die Bildsensoreinheit und die Verarbeitungseinheit räumlich nahe zueinander unterzubringen und darüber hinaus auch gegen Umwelteinflüsse zu schützen. Da die Anforderungen an eine externe Verbindung der Kameras in Bezug auf die Bandbreite sehr gering sind, bestehen dadurch nur wenig Einschränkungen bei der Positionierung der Kameras. Dies gilt insbesondere dann, wenn mehrere Kameras mittels eines drahtlosen Netzwerks miteinander in Kommunikation stehen.This makes it possible to accommodate the image sensor unit and the processing unit spatially close to each other and also protect against environmental influences. Since the requirements for an external connection of the cameras in relation to the bandwidth are very low, there are only few restrictions on the positioning of the cameras. This is especially true when multiple cameras are in communication with each other via a wireless network.
In Weiterbildung der Erfindung weist die Verarbeitungseinheit eine Netzwerkeinheit auf.In a development of the invention, the processing unit has a network unit.
Die erfindungsgemäße Kamera kann dadurch problemlos in ein Netzwerk, beispielsweise auch ein kabelloses Netzwerk, eingebunden werden. Dass dies überhaupt möglich ist, liegt an der bei der Erfindung sehr geringen Bandbreite, die für eine Übertragung der in der Kamera berechneten Ergebnisse nach außen erforderlich ist.The camera according to the invention can thereby be integrated into a network, for example a wireless network, without problems. That this is possible at all, is due to the very low bandwidth in the invention, which is required for a transmission of the results calculated in the camera to the outside.
In Weiterbildung der Erfindung sind eine Steuereinheit und Einstellmittel vorgesehen, um in Abhängigkeit der Trackingdaten Einstellparameter der Kamera, insbesondere Ausrichtung, Bildausschnitt und Vergrößerung, zu verändern. Da die Kamera die Trackingdaten selbst berechnet, kann eine Steuereinheit in der Kamera dann auch das Nachführen der Kamera vornehmen. Ganz wesentlich ist, dass hierzu keine Signalübertragung nach außen erforderlich ist. Der Ausfall eines Netzwerks, an das die Kamera angeschlossen ist, ist von außen somit nicht feststellbar. Selbst wenn also überhaupt keine Verbindung mehr von der Kamera zu einer zentralen Auswertestation besteht, wird durch das noch erfolgende Nachführen der Kamera der Eindruck einer fortlaufenden Überwachung aufrechterhalten, die, sobald die Verbindung wieder besteht, nahtlos fortgeführt werden kann.In a development of the invention, a control unit and setting means are provided in order to change setting parameters of the camera, in particular alignment, image detail and magnification, as a function of the tracking data. Since the camera calculates the tracking data itself, a control unit in the camera can then also carry out the tracking of the camera. It is essential that no signal transmission to the outside is required for this purpose. The failure of a network to which the camera is connected, is thus not detectable from the outside. Even if there is no longer any connection from the camera to a central evaluation station, the tracking of the camera still maintains the impression of continuous monitoring, which, as soon as the connection is established again, can continue seamlessly.
Das der Erfindung zugrundeliegende Problem wird auch durch ein Verfahren zum Verarbeiten von Bilddaten in einer Kamera zum Verfolgen von Objekten gelöst, bei dem folgende Schritte vorgesehen sind:The problem underlying the invention is also solved by a method for processing image data in a camera for tracking objects, in which the following steps are provided:
- Übertragen von Bilddaten von einer Bildsensoreinheit zu einer Verarbeitungseinheit der Kamera,Transferring image data from an image sensor unit to a processing unit of the camera,
- Erzeugen von Trackingdaten zu verfolgender Objekte in der Verarbeitungseinheit unter Verwendung probabilistischer Verfahren undGenerating tracking data on objects to be tracked in the processing unit using probabilistic methods and
- Auswählen von Bereichen der Bilddaten in Abhängigkeit der Trackingdaten, so dass nur Bilddaten ausgewählt werden, bei denen eine erhöhte Wahrscheinlichkeit dafür besteht, dass sie Informationen über zu verfolgende Objekte enthalten.Selecting regions of the image data in dependence on the tracking data, so that only image data are selected in which there is an increased probability that they contain information about objects to be tracked.
Mit dem erfindungsgemäßen Verfahren wird es möglich, lediglich noch die Ergebnisdaten einer Objektverfolgung von der Kamera aus nach außen zu übertragen, so dass bereits dadurch die nach außen erforderliche Übertragungsbandbreite wesentlich verringert ist. Darüber hinaus werden auch nur diejenigen Bilddaten für die Verarbeitung ausgewählt, die mit erhöhter Wahrscheinlichkeit Informationen über zu verfolgende Objekte enthalten, beispielsweise mittels einer Rückkopplung der Tra- ckingdaten auf eine Auswahleinheit. Dadurch wird die Möglichkeit geschaffen, eine Objektverfolgung mittels Kameras auch bei hoher örtlicher und zeitlicher Auflösung in Echtzeit zu realisieren.With the method according to the invention, it is possible to transmit only the result data of an object tracking from the camera to the outside, so that already by the externally required transmission bandwidth is substantially reduced. In addition, only those image data are selected for the processing which are more likely to contain information about objects to be tracked, for example by means of a feedback of the traceable data. cking data to a selection unit. This creates the opportunity to realize an object tracking by means of cameras even with high spatial and temporal resolution in real time.
In Weiterbildung der Erfindung enthält der Schritt des Auswählens von Bereichen der Bilddaten das Ansteuern der Bildsensoreinheit in einer Weise, dass nur noch Bilddaten von der Bildsensoreinheit zur Verarbeitungseinheit übertragen werden, bei denen eine erhöhte Wahrscheinlichkeit dafür besteht, dass sie Informationen über zu verfolgende Objekte enthalten.In a further development of the invention, the step of selecting regions of the image data includes driving the image sensor unit in such a way that only image data are transferred from the image sensor unit to the processing unit, where there is an increased probability that they contain information about objects to be tracked.
Dadurch kann die Menge der von der Bildsensoreinheit zu übertragenden Bilddaten deutlich verringert werden.Thereby, the amount of image data to be transmitted by the image sensor unit can be significantly reduced.
In Weiterbildung der Erfindung enthält der Schritt des Erzeugens von Trackingdaten das Approximieren einer Wahrscheinlichkeitsdichtefunktion mittels mehrerer Stützstellen.In a development of the invention, the step of generating tracking data comprises approximating a probability density function by means of a plurality of interpolation points.
Auf diese Weise kann der Rechenaufwand zur Erzeugung der Trackingdaten wesentlich verringert werden. Darüber hinaus können Schaltkreise zur Verarbeitung der einzelnen Stützstellen in Hardware oder Software parallel ausgeführt werden, so dass auch eine sehr schnelle Erzeugung der Trackingdaten möglich ist.In this way, the computational effort to generate the tracking data can be significantly reduced. In addition, circuits for processing the individual support points in hardware or software can be executed in parallel, so that a very fast generation of the tracking data is possible.
In Weiterbildung der Erfindung enthält der Schritt des Erzeugens von Trackingdaten das Erzeugen von Bilddaten eines Vergleichsobjekts anhand einer Wahrscheinlichkeitsdichtefunktion der zu verfolgenden Objekte und wenigstens einen hinterlegten parametrischen Modells der zu verfolgenden Objekte.In a development of the invention, the step of generating tracking data includes the generation of image data of a comparison object based on a probability density function of the objects to be tracked and at least one stored parametric model of the objects to be tracked.
Auf diese Weise können die errechneten Trackingergebnisse wieder in Bilddaten umgesetzt werden und diese Bilddaten eines Vergleichsob- jekts können dann mit dem aktuellen Kamerabild verglichen werden, um die Qualität der Trackingergebnisse zu bewerten und die gegebenenfalls anzupassen. Darüber hinaus können die Bilddaten des Vergleichsobjekts dazu verwendet werden, lediglich diejenigen Bilddaten mittels der Auswahleinheit auszuwählen, die im Wesentlichen dem Bildausschnitt des Vergleichsobjektes entsprechen.In this way, the calculated tracking results can be converted back into image data and these image data of a comparison object. jects can then be compared with the current camera image to assess the quality of the tracking results and adjust them if necessary. In addition, the image data of the comparison object can be used to select only those image data by means of the selection unit, which essentially correspond to the image detail of the comparison object.
Das der Erfindung zugrundeliegende Problem wird auch durch ein Multi- kamerasystem mit wenigstens zwei erfindungsgemäßen Kameras gelöst, bei dem jede Kamera eine Netzwerkeinheit aufweist und die wenigstens zwei Kameras über ein Netzwerk, insbesondere Ethernet oder WLAN, miteinander in Verbindung stehen.The problem underlying the invention is also solved by a multi-camera system having at least two cameras according to the invention, in which each camera has a network unit and the at least two cameras are connected to one another via a network, in particular Ethernet or WLAN.
Da die erfindungsgemäßen Kameras lediglich eine geringe Bandbreite zur Übertragung der Trackingergebnisse nach außen benötigen, können Multikamerasysteme mit den erfindungsgemäßen Kameras auf Basis von Standardnetzwerkanwendungen realisiert werden. Dies ist beispielsweise auch mit drahtlosen Netzwerkverbindungen möglich. Die Kommunikation über das Netzwerk kann dabei selbstverständlich bidirektional erfolgen. Die Kameras können nicht nur die Ergebnisdaten ausgeben, sondern über das Netzwerk beispielsweise auch Informationen über zu verfolgende Objekte oder Ansteuersignale zur Einstellung und Ausrichtung der Kameraoptik erhalten.Since the cameras according to the invention require only a small bandwidth for transmitting the tracking results to the outside, multi-camera systems with the cameras according to the invention can be realized on the basis of standard network applications. This is also possible with wireless network connections, for example. The communication over the network can of course be bidirectional. The cameras can not only output the result data, but also receive information about objects to be tracked or control signals for setting and aligning the camera optics via the network.
In Weiterbildung der Erfindung ist die Verarbeitungseinheit wenigstens einer der Kameras zum Verarbeiten von Trackingdaten einer anderen Kamera ausgelegt.In a development of the invention, the processing unit of at least one of the cameras is designed to process tracking data of another camera.
Auf diese Weise kann ein zu verfolgendes Objekt beispielsweise von einer Kamera zur nächsten übergeben werden. In Weiterbildung der Erfindung ist im Netzwerk eine zentrale Verarbeitungseinheit zum Auswerten der von den wenigstens zwei Kameras ü- bertragenen Trackingdaten vorgesehen.In this way, an object to be tracked can for example be transferred from one camera to the next. In a development of the invention, a central processing unit is provided in the network for evaluating the tracking data transmitted by the at least two cameras.
Mit einer zentralen Verarbeitungseinheit können dann weitere, die Trackingdaten nutzende Auswertungen vorgenommen werden. Beispielsweise können typische Bewegungsabläufe zur Objekterkennung oder zum Erkennen von Notfallsituationen genutzt werden.With a central processing unit then further, the tracking data using evaluations can be made. For example, typical motion sequences can be used for object recognition or to recognize emergency situations.
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus den Ansprüchen im Zusammenhang mit der nachfolgenden Beschreibung bevorzugter Ausführungsformen der Erfindung im Zusammenhang mit den Zeichnungen. In den Zeichnungen zeigen:Further features and advantages of the invention will become apparent from the claims in conjunction with the following description of preferred embodiments of the invention taken in conjunction with the drawings. In the drawings show:
Fig. 1 eine schematische Darstellung einer erfindungsgemäßen Kamera zur Objektverfolgung,1 is a schematic representation of a camera according to the invention for object tracking,
Fig. 2 eine schematische Darstellung eines erfindungsgemäßen MuI- tikamerasystems,FIG. 2 shows a schematic representation of a multi-camera system according to the invention, FIG.
Fig. 3 ein Blockschaltbild einer bevorzugten Ausführungsform der erfindungsgemäßen Kamera,3 shows a block diagram of a preferred embodiment of the camera according to the invention,
Fig. 4 eine schematische Darstellung eines erfindungsgemäßen MuI- tikamerasystems in einer Anwendung bei der Strandüberwachung,4 shows a schematic representation of a multi-camera system according to the invention in an application for beach monitoring,
Fig. 5 eine schematische Darstellung einer weiteren Ausführungsform einer erfindungsgemäßen Kamera,5 is a schematic representation of another embodiment of a camera according to the invention,
Fig. 6 eine schematische Darstellung eines erfindungsgemäßen MuI- ti-Kamera-Systems, Fig. 7 eine schematische Darstellung zur Verdeutlichung des erfindungsgemäßen Verfahrens,6 shows a schematic representation of a multi-camera system according to the invention, 7 is a schematic representation to illustrate the method according to the invention,
Fig. 8 eine Darstellung unterschiedlicher Zeitskalen zur Verwendung bei dem erfindungsgemäßen Verfahren,8 shows a representation of different time scales for use in the method according to the invention,
Fig. 9 mehrere Darstellungen zum konturbasierten Ermitteln einer Region-of-Interest bei dem erfindungsgemäßen Verfahren und9 shows several representations for the contour-based determination of a region-of-interest in the method according to the invention and
Fig. 10 Darstellungen einer Wahrscheinlichkeitsdichtefunktion eines verfolgten Objekts gemäß dem erfindungsgemäßen Verfahren.10 shows representations of a probability density function of a tracked object according to the method according to the invention.
Die Darstellung der Fig. 1 zeigt eine erfindungsgemäße Kamera zur Objektverfolgung 10, die in einem gemeinsamen Gehäuse eine Bildsensoreinheit 12 und eine Verarbeitungseinheit 14 aufweist. Die Bildsensoreinheit 12 ist beispielsweise als CMOS-Sensor ausgebildet und liefert Bilddaten an die Verarbeitungseinheit 14. In der Verarbeitungseinheit 14 werden Trackingdaten erzeugt, die ein zu verfolgendes Objekt wenigstens in Bezug auf Position und Geschwindigkeit und beispielsweise auch bezüglich Form, Farbe und dergleichen charakterisieren. Die Verarbeitungseinheit 14 weist hierzu eine sogenannte Tracking-Einheit auf, in der die Trackingdaten erzeugt werden. Weiterhin weist die Verarbeitungseinheit 14 eine Region of Interest (ROI)-Auswahleinheit auf, mit der die Bildsensoreinheit 12 so angesteuert werden kann, dass lediglich die Bildbereiche zur Verarbeitungseinheit 14 übertragen werden, die für die Objektverfolgung von Interesse sind. Dies sind beispielsweise sich dynamisch ändernde Bildbereiche, wobei die ROl-Auswahleinheit die Bildbereiche auch unter Berücksichtigung der Trackingdaten auswählt. Von der Bildsensoreinheit 12 zur Verarbeitungseinheit 14 werden somit nur diejenigen Bildbereiche übertragen, bei denen eine große Wahrschein- lichkeit dafür besteht, dass sie Informationen über das zu verfolgende Objekt liefern können.The illustration of FIG. 1 shows a camera according to the invention for object tracking 10, which has an image sensor unit 12 and a processing unit 14 in a common housing. The image sensor unit 12 is designed, for example, as a CMOS sensor and supplies image data to the processing unit 14. In the processing unit 14, tracking data are generated which characterize an object to be tracked, at least in terms of position and speed and also, for example, in terms of shape, color and the like. For this purpose, the processing unit 14 has a so-called tracking unit in which the tracking data are generated. Furthermore, the processing unit 14 has a region of interest (ROI) selection unit, with which the image sensor unit 12 can be controlled in such a way that only the image areas that are of interest for the object tracking are transferred to the processing unit 14. These are, for example, dynamically changing image areas, with the ROI selection unit also selecting the image areas taking into account the tracking data. From the image sensor unit 12 to the processing unit 14, only those image areas are transmitted in which a large probability is that they can provide information about the object to be tracked.
Die Kombination eines ROl-Auswahlverfahrens und der Erzeugung der Trackingdaten innerhalb der Kamera 10 selbst ermöglicht es, dass die Ergebnisausgabe der Kamera 10, symbolisiert durch einen Doppelpfeil 16, lediglich eine sehr geringe Bandbreite benötigt und dass diese Ergebnisübertragung über ein Standardnetzwerk erfolgen kann. Darüber hinaus kann die Erzeugung der Trackingdaten innerhalb der Kamera 10 so schnell erfolgen, dass Echtzeitanwendungen realisierbar sind. Der Aufbau der Kamera 10 wird nachstehend noch detaillierter erläutert.The combination of a ROI selection method and the generation of the tracking data within the camera 10 itself enables the result output of the camera 10, symbolized by a double arrow 16, to require only a very small bandwidth and that this result transmission can take place over a standard network. In addition, the generation of the tracking data within the camera 10 can be done so fast that real-time applications can be realized. The structure of the camera 10 will be explained in more detail below.
Fig. 2 zeigt ein Multikamerasystem mit mehreren erfindungsgemäßen Kameras 10a, 10b, 10c. Jeder der Kameras 10a, 10b und 10c ist identisch zur Kamera 10 der Fig. 1 aufgebaut. Die Kameras 10a, 10b, 10c stehen über ein Netzwerk 18 miteinander in Verbindung. Durch externes Triggern oder Synchronisieren über die Verbindung der Kameras kann sichergestellt werden, dass sie synchron arbeiten. Ein Datenaustausch mit dem Netzwerk 18 kann dabei bidirektional erfolgen, so dass Trackingdaten eines zu verfolgenden Objekts beispielsweise von der Kamera 10a an die Kamera 10b übergeben werden können, wenn das zu verfolgende Objekt den Erfassungsbereich der Kamera 10a verlässt. In gleicher Weise können die Trackingdaten von der Kamera 10a auch an die Kamera 10c übergeben werden und abhängig davon, in welchen Erfassungsbereich ein zu verfolgendes Objekt wechselt, kann dann die jeweils das zu verfolgende Objekt erkennende Kamera weiter Tracking- ergebnisse ausgeben.2 shows a multi-camera system with several cameras 10a, 10b, 10c according to the invention. Each of the cameras 10a, 10b and 10c is constructed identically to the camera 10 of FIG. The cameras 10a, 10b, 10c are connected to each other via a network 18. By externally triggering or synchronizing via the connection of the cameras can be ensured that they work synchronously. A data exchange with the network 18 can be bidirectional, so that tracking data of an object to be tracked can be passed from the camera 10a to the camera 10b, for example, when the object to be tracked leaves the detection area of the camera 10a. In the same way, the tracking data can also be transferred from the camera 10a to the camera 10c, and depending on which detection area an object to be tracked changes, the camera recognizing the object to be tracked can then output further tracking results.
In dem Blockschaltbild der Fig. 3 ist der Aufbau der Kamera 10 der Fig. 1 detaillierter dargestellt. Die Bildsensoreinheit 12 erzeugt Bilddaten und liefert diese an die Verarbeitungseinheit 14, wobei die Verarbeitungseinheit 14 in Fig. 3 lediglich mittels eines gestrichelten Umrisses angedeu- tet ist. Die Bilddaten von der Bildsensoreinheit 12 werden zunächst an eine ROl-Auswahleinheit 20 übergeben, die die Bilddaten aber zunächst lediglich durchschleift oder in einem Cache so zwischenspeichert, dass die doppelte oder mehrfache Übertragung von einander überlappenden Bildbereichen vermieden wird. Die Aufgabe der ROl-Auswahleinheit 20 liegt darin, die Bildsensoreinheit 12 so anzusteuern, dass lediglich die für die weitere Verarbeitung interessanten Bildbereiche weitergeleitet werden. Wie die ROI-Einheit 20 diese interessierenden Bildbereiche ermittelt, wird nachfolgend noch erläutert. Wenn die ROI-Einheit 20 keine Zwischenspeicherfunktion erfüllt, kann die Bildsensoreinheit 12 die Bilddaten auch unter Umgehung der ROI-Einheit 20 weitergeben.In the block diagram of Fig. 3, the structure of the camera 10 of Fig. 1 is shown in more detail. The image sensor unit 12 generates image data and supplies it to the processing unit 14, the processing unit 14 in FIG. 3 being indicated merely by means of a dashed outline. tet is. The image data from the image sensor unit 12 are first transferred to a ROl selection unit 20, which initially only looped through the image data or cached in a cache so that the double or multiple transmission of overlapping image areas is avoided. The task of the ROI selection unit 20 is to control the image sensor unit 12 so that only the image areas of interest for further processing are forwarded. How the ROI unit 20 determines these image areas of interest will be explained below. If the ROI unit 20 does not fulfill a buffering function, the image sensor unit 12 can also pass on the image data while bypassing the ROI unit 20.
Bei der Bezugsziffer 22 stehen somit Bilddaten von Bildbereichen zur Verfügung, bei denen eine große Wahrscheinlichkeit dafür besteht, dass sie Informationen über die zu verfolgenden Objekte enthalten.Reference numeral 22 thus provides image data of image areas in which there is a high probability that they contain information about the objects to be tracked.
Diese Bilddaten werden an einen Filter 24 übergeben, der optional vorhanden ist und der dann bei 26 die gefilterten Daten bereitstellt. Der Filter 24 kann beispielsweise die Bilddaten aus 22 in ein Farbhistogramm im HSV-Farbraum (Hue-Saturation Value) umsetzen. Alternativ kann der Filter 24 auch ein Farbhistogramm im RGB-Farbraum (Rot-Gün-Blau) umsetzen. Die Umsetzung in Farbhistogramme hat den Vorteil, dass die Robustheit der nachfolgenden Auswerteverfahren deutlich erhöht wird, beispielsweise gegenüber Drehungen und/oder Formänderungen eines zu verfolgenden Objektes.This image data is passed to a filter 24 which is optional and which then provides the filtered data at 26. The filter 24 can, for example, convert the image data from 22 into a color histogram in the HSV color space (Hue-Saturation Value). Alternatively, the filter 24 can also implement a color histogram in the RGB color space (red-green-blue). The implementation in color histograms has the advantage that the robustness of the subsequent evaluation is significantly increased, for example, against rotations and / or changes in shape of an object to be tracked.
Die gefilterten Bilddaten 26 werden dann einer Vergleichseinheit 28 zugeführt, in der eine Vergleichsmessung durchgeführt wird und die dem zu verfolgenden Objekt entsprechenden Bilddaten 26 mit in gleicher Weise aufbereiteten Daten eines Vergleichsobjekts verglichen werden. Die dadurch erhaltenen Gewichte aller Stützstellen müssen dann noch normiert werden. Die Vergleichseinheit 28 gibt dann eine approximierte Wahrscheinlichkeitsdichtefunktion 30 aus, die gleichzeitig die zentrale Ausgabe der Kamera 10 darstellt. Die mittels mehrerer Stützstellen effizient approximierte Wahrscheinlichkeitsdichtefunktion 30 stellt das Ergebnis der Tracking-Einheit dar und erfordert lediglich eine geringe Bandbreite zur Übertragung über ein Netzwerk. Die approximierte Wahrscheinlichkeitsdichtefunktion 30 kann dann über eine Netzwerk- E/A-Einheit 32 ausgegeben werden und weiteren Einheiten zugeführt werden, die auf Basis dieses Ergebnisses weitere Verarbeitungsschritte vornehmen.The filtered image data 26 are then fed to a comparison unit 28, in which a comparison measurement is performed and the image data 26 corresponding to the object to be tracked are compared with similarly prepared data of a comparison object. The resulting weights of all nodes must then be normalized. The comparison unit 28 then gives an approximate Probability density function 30, which simultaneously represents the central output of the camera 10. The probability density function 30, which is efficiently approximated by means of several nodes, represents the result of the tracking unit and only requires a small bandwidth for transmission over a network. The approximated probability density function 30 may then be output via a network I / O unit 32 and supplied to further units that perform further processing based on this result.
Beispielsweise wird in einer Einheit 34 ein Maximum-Likelihood- Zustand, d.h. der Zustand, indem die Wahrscheinlichkeitsdichtefunktion maximal ist, berechnet. Bei der vorliegenden Approximation durch Stützstellen bedeutet dies, dass die Stützstelle mit dem höchsten Gewicht herangezogen wird. Weiterhin kann in der Einheit 34 ein Erwartungswert berechnet werden. Die Einheit 34 kann das Ergebnis ihrer Auswertung ebenfalls über die Netzwerk-E/A-Einheit 32 auf ein Netzwerk ausgeben. Eine Steuerungseinheit 36 verwendet die Wahrscheinlichkeitsdichtefunktion 30 für Steuerungsanwendungen. Hierzu erzeugt die Steuerungseinheit 36 Steuersignale für eine sogenannte Pan-Tilt- Einheit, auf der die Kamera 10 montiert ist. Mittels dieser Pan-Tilt- Einheit kann die Kamera 10 einem zu verfolgenden Objekt nachgeführt werden. Alternativ können die Steuersignale der Steuereinheit 36 auch an eine Robotersteuerung oder CNC-Maschinensteuerung ausgegeben werden.For example, in a unit 34, a maximum likelihood condition, i. the state in which the probability density function is maximum is calculated. In the present approximation by support points, this means that the support point is used with the highest weight. Furthermore, an expected value can be calculated in the unit 34. The unit 34 may also output the result of its evaluation via the network I / O unit 32 to a network. A control unit 36 uses the probability density function 30 for control applications. For this purpose, the control unit 36 generates control signals for a so-called pan-tilt unit, on which the camera 10 is mounted. By means of this pan-tilt unit, the camera 10 can be tracked to an object to be tracked. Alternatively, the control signals of the control unit 36 may also be output to a robot controller or CNC machine controller.
Weitere Einheiten 38, die die Wahrscheinlichkeitsdichtefunktion 30 für weiterführende Verarbeitungen verwenden, erzeugen beispielsweise Kommandos zur Weiterreichung von Personen/Objekten in einen Multi- kamerasystem, wenn eine Person das Sichtfeld von einer Kamera zur nächsten durchläuft. Diesbezüglich ist zu bemerken, dass die Initialisierung eines Zielobjekts grundsätzlich durch Präsentieren vor der Kamera und Eintrainieren geschieht. Es ist aber auch möglich, und für Überwachungsanwendungen sinnvoll, die Initialisierung des Zielobjekts durch Triggern auf das erste Objekt zu bewirken, das sich bewegt. Als Bewegung wird dabei interpretiert, wenn eine Differenz zum vorherigen Kamerabild oder zu mehreren vorhergehenden Kamerabildern größer als ein vordefinierter Schwellwert ist. Die Einheiten 34, 36 und 38 können ihre jeweiligen Ergebnisse über die Netzwerk-E/A-Einheit auf ein Netzwerk oder, falls kein Netzwerk vorhanden ist, auf eine Signalleitung ausgeben.Further units 38, which use the probability density function 30 for further processing, generate, for example, commands for passing persons / objects into a multi-camera system when a person traverses the field of view from one camera to the next. In this regard, it should be noted that the initialization of a target object basically by presenting in front of the camera and training is done. However, it is also possible, and for surveillance applications, to make the initialization of the target object triggers on the first object that is moving. A movement is interpreted as meaning if a difference to the previous camera image or to several preceding camera images is greater than a predefined threshold value. The units 34, 36 and 38 may output their respective results via the network I / O unit to a network or, if there is no network, to a signal line.
Die Wahrscheinlichkeitsdichtefunktion 30 wird auch einer sogenannten Update-Einheit 40 zugeführt, in der ein Zeitindex der gerade berechneten Wahrscheinlichkeitsdichtefunktion um eins verringert wird, um die gerade berechnete Wahrscheinlichkeitsdichtefunktion nicht mehr als aktuellen Wert, sondern als jüngsten alten Wert einzustufen. Die Update- Einheit 40 ist damit die erste Station einer Rückkopplungsschleife innerhalb der Tracking-Einheit 21.The probability density function 30 is also supplied to a so-called update unit 40, in which a time index of the probability density function being calculated is reduced by one in order to classify the probability density function just calculated no longer as the current value but as the most recent old value. The update unit 40 is thus the first station of a feedback loop within the tracking unit 21.
In dieser Rückkopplungsschleife wird zum einen eine Vorhersage getroffen, wie die Wahrscheinlichkeitsdichtefunktion voraussichtlich beim nächsten Zeitschritt aussieht und basierend auf dieser Vorhersage wird noch ein Vergleichsobjekt erzeugt, das dann, wie bereits beschrieben, in der Vergleichseinheit 28 mit dem aktuell erfassten Objekt verglichen wird. Darüber hinaus wird in dieser Rückkopplungsschleife auch eine Gewichtung der einzelnen Stützstellen vorgenommen und basierend auf dieser Gewichtung wird entschieden, ob eine Neuverteilung der Stützstellen für den nächsten Durchlauf der Schleife erforderlich ist.In this feedback loop, on the one hand, a prediction is made as to how the probability density function is likely to appear at the next time step, and based on this prediction, a comparison object is again generated which, as already described, is then compared in the comparison unit 28 with the currently detected object. In addition, in this feedback loop, a weighting of the individual nodes is made and based on this weighting, it is decided whether a redistribution of the support points for the next pass of the loop is required.
Bei 42 liegt somit eine Wahrscheinlichkeitsdichtefunktion vor, die sich zunächst von der Wahrscheinlichkeitsdichtefunktion 30 nur durch ihren um eins verringerten Zeitindex unterscheidet. Bei 42 kann aber auch die bereits beschriebene Abtastung der approximierten Wahrscheinlich- keitsdichtefunktion anhand der Gewichtung der einzelnen Stützstellen vorgenommen werden.Thus, at 42, there is a probability density function that initially differs from the probability density function 30 only by its one-time reduced time index. At 42, however, the already described sampling of the approximated probabilities keitsdichtefunktion be made on the basis of the weighting of the individual support points.
Diese Wahrscheinlichkeitsdichtefunktion aus 42 wird zur Vorhersage mit einem Bewegungsmodell 44 verknüpft, das bei der dargestellten Ausführungsform ebenfalls in Form einer Wahrscheinlichkeitsdichtefunktion vorliegt. Im einfachsten Fall, d.h. bei Bewegung mit konstanter Geschwindigkeit in eine Richtung würde die Verknüpfung der Wahrscheinlichkeitsdichtefunktion aus 42 mit dem Bewegungsmodell aus 44 lediglich eine Koordinatenverschiebung verursachen. Die Verknüpfung des Bewegungsmodells aus 44 mit der Wahrscheinlichkeitsdichtefunktion aus 42 findet in einer Vorhersageeinheit 46 statt. Innerhalb der Vorhersageeinheit 46 wird eine Faltung des Bewegungsmodells mit der Wahrscheinlichkeitsdichtefunktion vorgenommen, wie in der unterhalb der Einheit 46 zu findenden Gleichung ausgeführt ist.This probability density function of FIG. 42 is linked for prediction to a motion model 44, which in the illustrated embodiment is also in the form of a probability density function. In the simplest case, i. when moving with constant velocity in one direction, linking the probability density function of 42 with the motion model of 44 would only cause a coordinate shift. The linking of the motion model of FIG. 44 with the probability density function of FIG. 42 takes place in a prediction unit 46. Within the prediction unit 46, a convolution of the motion model is performed with the probability density function, as set forth in the equation found below the unit 46.
Im Approximationsschritt zwischen 42 und 46 wird anhand der Gewichtung der Stützstellen eine neue Stützstellenverteilung erzeugt, wobei Stützstellen mit hohem Gewicht bei der letzten Iteration eine der Gewichtung entsprechende Anzahl Nachfolger bekommen, die aber zunächst alle noch an derselben Position angeordnet sind. In der Vorhersage bei 46 wird die Position der neuen Stützstellen gestreut, nach Anwenden des Bewegungsmodells. Per neuer Stützstelle ist das Bewegungsmodel nur einmal anzuwenden, erst dann wird die Position gestreut. Stützstellen mit niedriger Gewichtung erhalten keinen Nachfolger.In the approximation step between 42 and 46, a new interpolation point distribution is generated on the basis of the weighting of the interpolation points, with interpolation points of high weight receiving a number of successors corresponding to the weighting in the last iteration, but all of them are initially arranged at the same position. In the prediction at 46, the position of the new nodes is scattered after applying the motion model. The movement model is to be applied only once by a new support point, only then the position is scattered. Support points with low weighting receive no successor.
Als Ergebnis der Vorhersage in der Einheit 46 wird bei 48 eine neue Wahrscheinlichkeitsdichtefunktion ausgegeben, die entsprechend eine vorhergesagte Position basierend auf dem bisher vorhandenen Wissen repräsentiert. „ o As a result of the prediction in unit 46, a new probability density function is output at 48, which correspondingly represents a predicted position based on the knowledge previously available. " O
- 18 -- 18 -
Um nun einen Vergleich dieser Vorhersage bei 48 mit den von der Bildsensoreinheit 12 erfassten Bilddaten durchführen zu können, wird die Vorhersage der Wahrscheinlichkeitsdichtefunktion aus 48 in einer Rendereinheit 50 mit einem parametrischen Modell aus 52 verknüpft. Der Renderschritt in der Rendereinheit 50 erzeugt die Bilddaten eines Vergleichsobjekts. Im einfachsten Fall eines sich linear mit konstanter Geschwindigkeit bewegten Objektes würden die Bilddaten des Vergleichsobjekts somit der um eine gewisse Strecke verschobenen Objekt entsprechen.In order to be able to perform a comparison of this prediction at 48 with the image data acquired by the image sensor unit 12, the prediction of the probability density function from 48 in a rendering unit 50 is linked to a parametric model from 52. The rendering step in render unit 50 generates the image data of a comparison object. In the simplest case of an object moving linearly at a constant speed, the image data of the comparison object would thus correspond to the object displaced by a certain distance.
Das parametrische Modell aus 52 kann dabei abhängig von äußeren Umständen adaptiert werden. Dies ist beispielsweise dann von Bedeutung, wenn Objekte mit komplizierter Geometrie verfolgt werden sollen, deren Form sich eventuell sogar ändert, deren Projektion in Abhängigkeit einer Drehstellung sich verändert oder bei sich ändernder Beleuchtung. Bei der Adaption des parametrischen Modells in 52 ist aber darauf zu achten, dass eine Adaption lediglich dann vorgenommen wird, wenn mit großer Wahrscheinlichkeit feststeht, dass es auch das zu verfolgende Objekt ist, welches nun sein Aussehen geändert hat. Beispielsweise darf nicht bei jedem Schritt die Umgebung einer Stützstelle der Wahrscheinlichkeitsdichtefunktion mit der relativ gesehen höchsten Gewichtung zur Adaption herangezogen werden. Wenn sich nämlich das zu verfolgende Objekt gar nicht mehr im betrachteten Bildausschnitt befindet, würde eine dann durchgeführte Adaption dazu führen, dass das parametrische Modell in einer Weise geändert wird, dass ein Wiedererkennen des zu verfolgenden Objekts nicht möglich ist. Abhilfe kann aber beispielsweise dadurch geschaffen werden, dass die Umgebung einer Stützstelle mit der relativ höchsten Gewichtung zusätzlich auf ihre absolute Gewichtung geprüft wird und oberhalb einer definierten Gewichtung, wenn also mit großer Sicherheit davon ausgegangen werden kann, dass es sich um das zu verfolgende Objekt handelt, wird die Umgebung dieser Stützstelle zur Adaption herangezogen. AIs Modell kann eine Bildregion (ROI) des Zielobjektes dienen. Alternativ kann als Modell 52 auch eine sogenannte AAM-Umsetzung (Active Ap- pearance Model) erfolgen, wobei dieses nicht starre und optional textu- rierte Modell, insbesondere bei Formänderungen, von Vorteil ist. Auch ein dreidimensionales AAM ist möglich. Wie bereits ausgeführt wurde, kann der Filter 24 auch vollständig entfallen. Ebenso ist möglich, als Modell ein Konturbasiertes Verfahren zu verwenden, wo durch den Zustand die Form der Kontur festgelegt wird, etwa mit Splines.The parametric model from 52 can be adapted depending on external circumstances. This is of importance, for example, when objects with complex geometry are to be traced, whose shape may even change, whose projection changes as a function of a rotational position or with changing illumination. When adapting the parametric model in 52, however, it must be ensured that an adaptation is only carried out if it is very likely that it is also the object to be tracked, which has now changed its appearance. For example, the environment of a support point of the probability density function with the relatively highest weighting may not be used for adaptation at each step. If, in fact, the object to be tracked is no longer located in the viewed image section, an adaptation then carried out would result in the parametric model being changed in such a way that recognition of the object to be tracked is not possible. Remedy can, however, be created, for example, that the environment of a support point with the relatively highest weight is additionally tested for absolute weighting and above a defined weighting, so if it can be assumed with great certainty that it is the object to be tracked , the environment of this support point is used for adaptation. AIs model can serve an image region (ROI) of the target object. Alternatively, the model 52 can also be a so-called AAM implementation (Active Apperance Model), whereby this non-rigid and optionally textured model, in particular in the case of changes in shape, is advantageous. Also a three-dimensional AAM is possible. As already stated, the filter 24 can be completely eliminated. It is also possible to use a contour-based method as a model, where the state determines the shape of the contour, for example with splines.
Als Ergebnis des Renderschritts in 50 stehen bei 54 somit Bilddaten eines Vergleichsobjekts zur Verfügung. Diese Bilddaten des Vergleichsobjekts bei 54 sollen nun mit den bei 22 vorliegenden, aktuell aufgenommenen Bilddaten verglichen werden. Um eine Vergleichbarkeit der Bilddaten des Vergleichsobjekts mit den aktuell aufgenommenen Bilddaten zu gewährleisten, werden diese Bilddaten aus 54 der gleichen Filterung unterzogen wie die Bilddaten aus 22, so dass entsprechend eine zur Filtereinheit 24 identische Filtereinheit 56 vorgesehen ist und bei 58 dann die gefilterten Bilddaten des Vergleichsobjekts vorliegen. Wie bereits beschrieben wurde, wird dann in der Vergleichseinheit 28 ein Vergleich der Bilddaten des von der Bildsensoreinheit 12 aktuell aufgenommenen zu verfolgenden Objekts und die Bilddaten des Vergleichsobjekts auch aus 58 miteinander verglichen. Entsprechend der unterhalb der Vergleichseinheit 28 dargestellten Gleichung entspricht die Vergleichsmessung einer Gewichtung des neuen Zustandes Xt gemäß der neuen Messung Zt. Wie bereits ausgeführt wurde, ergibt sich als Ergebnis der Vergleichsmessung in der Vergleichseinheit 28 die Wahrscheinlichkeitsdichtefunktion 30.As a result of the rendering step in FIG. 50, image data of a comparison object is thus available at 54. These image data of the comparison object at 54 will now be compared with the currently recorded image data at 22. In order to ensure comparability of the image data of the comparison object with the currently recorded image data, these image data from 54 are subjected to the same filtering as the image data from FIG. 22, so that a filter unit 56 identical to the filter unit 24 is provided correspondingly and then the filtered image data of FIG Comparative object present. As has already been described, a comparison of the image data of the object to be tracked currently recorded by the image sensor unit 12 and the image data of the comparison object is then compared with one another in comparison unit 28. According to the equation shown below the comparison unit 28, the comparison measurement corresponds to a weighting of the new state Xt according to the new measurement Zt. As already stated, the probability density function 30 results as a result of the comparison measurement in the comparison unit 28.
Im speziellen Fall, wenn mit Farbhistogrammen gearbeitet wird, reicht es aus, die bereits gefilterte Repräsentation als Modell zu speichern, da hier das Ergebnis der Filterung immer gleich und nicht vom Zustand Xt abhängig ist. So kann direkt an 58 das Modell eingesetzt werden. Somit braucht es nicht für jede Stützstelle in jeder Iteration über die Schritte 52-50-54-56-58 berechnet werden. Die Schritte 52-50-54 dienen so nur noch der ROI-Bestimmung. Auf diese Weise kann der relativ teure Filterschritt 56 so eingespart werden. Eine Adaption des Modells in 58 ist dadurch möglich, dass die gefilterte Repräsentation der aktuellen Bilddaten der Stützstelle mit dem höchsten Gewicht in 26 gemischt werden mit der gefilterten Repräsentation des Modells in 58.In the special case, when working with color histograms, it is sufficient to save the already filtered representation as a model, since Here the result of the filtering is always the same and not dependent on the state X t . So can be used directly to 58 the model. Thus, it does not need to be calculated for each sample in each iteration through steps 52-50-54-56-58. The steps 52-50-54 serve only the ROI determination. In this way, the relatively expensive filtering step 56 can be saved. An adaptation of the model in Figure 58 is possible by blending the filtered representation of the current image data of the highest-weighted interpolation point in Figure 26 with the filtered representation of the model in Figure 58.
Darüber hinaus werden die Bilddaten des Vergleichsobjekts bei 54 auch der ROl-Auswahleinheit 20 zugeführt. Die ROI-Einheit 20 steuert dann die Bildsensoreinheit 12 so an, dass lediglich diejenigen Bildregionen (Region of Interest) angefordert werden, die den Bildregionen der Bilddaten des Vergleichsobjekts aus 54 entsprechen. Dadurch wird die Datenmenge, die von der Bildsensoreinheit 12 ausgegeben werden muss, wesentlich reduziert. Darüber hinaus implementiert die ROl- Auswahleinheit 20 ein Zwischenspeicherverfahren, um einen Überlapp von interessierenden Bildbereichen (ROIs) derselben Iteration einzusparen, so dass auch überlappende Bereiche verschiedener interessierender Bildbereiche lediglich einmal übertragen werden müssen.Moreover, the image data of the comparison object is also supplied to the ROI selection unit 20 at 54. The ROI unit 20 then controls the image sensor unit 12 to request only those regions of interest corresponding to the image regions of the image data of the comparison object of FIG. 54. As a result, the amount of data that must be output from the image sensor unit 12 is significantly reduced. In addition, the ROI selector 20 implements a caching method to save overlap of ROIs of the same iteration so that even overlapping areas of different image areas of interest need only be transferred once.
In der ROI-Einheit 20 wird somit ausgehend von dem Vergleichsobjekt, das durch den Zustand Xt induziert ist, die Bildregion (ROI) bestimmt, die tatsächlich nur benötigt wird, um diesen Zustand, also diese Hypothese, die sich in dem Vergleichsobjekt manifestiert, zu bewerten. Dies wird technisch für jede Stützstelle oder sample Xt (l) durchgeführt.In the ROI unit 20, starting from the comparison object induced by the state X t , the image region (ROI) is determined, which in fact is only needed to determine this state, that is, this hypothesis which manifests itself in the comparison object. to rate. This is done technically for each sample or sample X t (l) .
Anhand der Darstellung der Fig. 3 ist zu erkennen, dass die erfindungsgemäße Kamera und das implementierte Verfahren in hohem Maße für eine Parallelverarbeitung geeignet ist. So müssen lediglich zur Bestimmung der Wahrscheinlichkeitsdichtefunktion 30, bzw. zur Bestimmung der Approximation der Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen, alle Stützstellen zusammengeführt und normiert werden. Die übrigen erläuterten Berechnungsschritte können für jede Stützstelle getrennt durchgeführt werden und sind beispielsweise auch in paralleler Hardware realisierbar. Die erfindungsgemäße Kamera und das erfindungsgemäße Verfahren sind dadurch für Echtzeitanwendungen in besonderem Maß geeignet.It can be seen from the illustration of FIG. 3 that the camera according to the invention and the method implemented are highly suitable for parallel processing. So only have to determine the probability density function 30, or for determination the approximation of the probability density function by multiple nodes, all nodes are merged and normalized. The other explained calculation steps can be carried out separately for each support point and, for example, can also be implemented in parallel hardware. The camera according to the invention and the method according to the invention are therefore particularly suitable for real-time applications.
Die Erfindung kann auch für Kameras mit mehr als einem Sensorelement angewendet werden. Beispielsweise ist eine Stereokamera möglich oder auch die Kombination aus einem gewöhnlichen Bildsensor und einem Wärmebildsensor. Eine solche Kombination ist vor allem für Überwachungsanwendungen von Interesse. Eine Fusion der Ergebnisse von den beiden unterschiedlichen Sensoren würde dann beispielsweise in Fig. 3 in der Einheit 38 durchgeführt.The invention can also be applied to cameras with more than one sensor element. For example, a stereo camera is possible or even the combination of a conventional image sensor and a thermal image sensor. Such a combination is of particular interest for surveillance applications. Fusion of the results from the two different sensors would then be performed in unit 38 in, for example, FIG. 3.
Die Darstellung der Fig. 4 zeigt ein erfindungsgemäßes Multikamerasys- tem in schematischer Darstellung in einem möglichen Anwendungssze- nario. Heutzutage werden Badeabschnitte am Meer oder an einem See von Rettungsschwimmern überwacht, um verletzte oder erschöpfte Personen vor dem Ertrinken zu retten. Durch ein Multikamerasystem mit Kameras 60a, 60b, 60c, 6Od und 6Oe wird ein Badeabschnitt überwacht. Die Kameras 60a, 60b, 60c, 6Od und 6Oe sind mittels eines nicht dargestellten drahtlosen Netzwerks miteinander verbunden. Die Kameras sind an einem Pier 62 sowie an Rettungstürmen 64, 66 montiert. Mittels eines geeigneten Überwachungsalgorithmus, beispielsweise realisiert in der Einheit 38 der Fig. 3, soll überwacht werden, ob eine kritische Situation vorliegt, ob etwa ein Schwimmer 68 in Schwierigkeiten ist. Dies kann etwa dadurch geschehen, dass Bewegungsabläufe erfasst und abgeprüft werden sowie durch bilanzartige Überprüfung der Gesamtanzahl der Personen im Wasser. Bei Veränderungen der Gesamtanzahl der Personen im Wasser, die zeitlich länger anhalten, kann dann bei- spielsweise ein Alarm ausgelöst werden. Rettungsschwimmer und Rettungsfahrzeuge sollen dabei ebenfalls mit drahtlosen, netzwerkfähigen Geräten ausgestattet sein, beispielsweise PDAs (personal digital as- sistant) oder Laptops mit Netzwerkanschluss. Ganz wesentlich für diese Anwendung der Erfindung ist es dabei, dass die erfindungsgemäßen Kameras lediglich die Ergebnisdaten ausgeben und daher an ebenfalls im Netzwerk befindliche Anzeigegeräte, nur geringe Anforderung bezüglich der Rechenkapazität stellen. Daher ist es mit dem erfindungsgemäßen Multikamerasystem möglich, die Ergebnisse aller Kameras 60a, 60b, 60c, 6Od und 6Oe auf einem externen Gerät mit geringer Rechenleistung anzuzeigen, beispielsweise einem sogenannten PDA. Über dasselbe Netzwerk kann dann selbstverständlich auch eine Kommunikation zwischen den Rettungsschwimmern stattfinden. Neben Rettungsschwimmern könnte beispielsweise auch ein Surfer 70, dessen Surfbrett eine netzwerkfähige Anzeigeeinheit hat, über die Gefahrensituation informiert werden. Über das Netzwerk können die Kameras 60a, 60b, 60c, 6Od und 60θ selbstverständlich auch neu ausgerichtet, programmiert, konfiguriert und parametriert werden. Darüber hinaus können die Kameras 60a, 60b, 60c, 6Od und 6Oe auch mit einem nichtlokalen Netzwerk, beispielsweise dem Internet, verbunden sein.4 shows a multicamera system according to the invention in a schematic representation in a possible application scenario. Today, lifeguard swimming areas are monitored by the sea or by a lake to save injured or exhausted people from drowning. A bathing section is monitored by a multi-camera system with cameras 60a, 60b, 60c, 60d and 60e. The cameras 60a, 60b, 60c, 60d and 60e are interconnected by means of a wireless network, not shown. The cameras are mounted on a pier 62 and on rescue towers 64, 66. By means of a suitable monitoring algorithm, for example implemented in the unit 38 of FIG. 3, it is to be monitored whether there is a critical situation, for example if a float 68 is in trouble. This can be done, for example, by recording and checking movement sequences and by checking the total number of persons in the water in a balance-like manner. Changes in the total number of people in the water that last longer may then For example, an alarm will be triggered. Lifeguards and ambulances should also be equipped with wireless, network-enabled devices, such as PDAs (personal digital assistant) or laptops with network connection. It is very essential for this application of the invention that the cameras according to the invention only output the result data and therefore only make small demands on the computing capacity on display devices which are likewise located in the network. Therefore, with the multi-camera system according to the invention it is possible to display the results of all cameras 60a, 60b, 60c, 60d and 60e on an external device with low computing power, for example a so-called PDA. Of course, a communication between the lifeguards can take place via the same network. In addition to lifeguards, for example, a surfer 70 whose surfboard has a networkable display unit could be informed about the danger situation. Of course, the cameras 60a, 60b, 60c, 60d and 60θ can also be realigned, programmed, configured and parameterized via the network. In addition, the cameras 60a, 60b, 60c, 60d, and 60e may also be connected to a non-local network, such as the Internet.
Eine weitere mögliche Anwendung der erfindungsgemäßen Kameras liegt in einer sogenannten Indoor-Navigation mit einem Mobiltelefon. Die Kamera ist dabei Bestandteil eines modernen Mobiltelefons. Optional weist das Mobiltelefon weitere Sensoren, wie Inertial-, Trägheits-, und Lagesensoren auf. Das Mobiltelefon weist darüber hinaus eine Recheneinheit auf, in der ein Lokalisierungsalgorithmus realisiert ist. Betritt man beispielsweise einen Flughafen, so wird eine dreidimensionale Karte des Flughafens zusammen mit zusätzlichen symbolischen Aspekten, beispielsweise Terminalbezeichnungen, Restaurants und dergleichen, auf das Mobiltelefon übertragen. Der Zustand des Gesamtsystems Xt bezeichnet in dieser Ausführung die Position innerhalb des Gebäudes. Beim Herumlaufen mit dem entsprechend ausgerüsteten Mobiltelefon werden fortlaufend Bildsequenzen aufgenommen. Das probabilistische Trackingverfahren erlaubt dann, dass sich durch diese Messungen letztlich eine aktuelle Position herauskristallisiert, die dann, beispielsweise auf der 3D-Karte, ausgegeben werden kann.Another possible application of the cameras according to the invention is in a so-called indoor navigation with a mobile phone. The camera is part of a modern mobile phone. Optionally, the mobile phone has other sensors, such as inertial, inertial, and position sensors. The mobile phone also has a computing unit in which a localization algorithm is implemented. For example, entering an airport, a three-dimensional map of the airport is transmitted to the mobile phone along with additional symbolic aspects, such as terminal names, restaurants, and the like. The state of the overall system X t designates the position within the building in this embodiment. When walking around with the appropriately equipped mobile phone image sequences are continuously recorded. The probabilistic tracking method then allows these measurements ultimately to crystallize a current position that can then be output, for example on the 3D map.
In der schematischen Darstellung der Fig. 5 ist eine weitere Ausführungsform einer erfindungsgemäßen Kamera 71 dargestellt. Die KameraThe schematic representation of FIG. 5 shows a further embodiment of a camera 71 according to the invention. The camera
71 ist an und für sich identisch zu den bereits beschriebenen Ausführungsformen aufgebaut, im Erfassungsbereich einer Bildsensoreinheit71 is in and of itself identical to the embodiments already described, in the detection range of an image sensor unit
72 ist aber ein Panoramaspiegel 74 angeordnet. Dieser Panoramaspiegel 74 ist im Abstand von der Bildsensoreinheit 72 angeordnet und ermöglicht eine omnidirektionale Sicht für das Tracking, das heißt es kann in alle Richtungen gleichzeitig verfolgt werden. Die erfassten Bildregionen sind entsprechend zu verzerren („warping") unter Verwendung bekannter Kalibrierungstechniken.72 but a panorama mirror 74 is arranged. This panoramic mirror 74 is spaced from the image sensor unit 72 and allows an omnidirectional view for the tracking, that is, it can be tracked in all directions simultaneously. The captured image regions are to be warped accordingly using known calibration techniques.
Mit der erfindungsgemäßen Kamera und dem erfindungsgemäßen Verfahren ist es somit nun möglich, durch Tracking-Verfahren eine Person innerhalb einer Kameraansicht auch automatisch zu verfolgen und so statt des Live-Videostromes nur die Position der Person auszugeben. Durch die Verwendung der erfindungsgemäßen Kamera wird an eine Datenverbindung von der Kamera nach außen nur eine sehr geringe Bandbreitenanforderung gestellt und es ist dadurch problemlos möglich, innerhalb eines Netzwerks von Kameras Überwachungsaufgaben wahrzunehmen. Tatsächlich ist bei Verwendung der erfindungsgemäßen Kameras aufgrund der nur geringen Bandbreitenanforderung an das Netzwerk eine beliebige dezentrale Architektur und eine nahezu unbegrenzte Erweiterbarkeit des Netzwerks mit Kameras möglich.With the camera according to the invention and the method according to the invention, it is thus now possible to automatically track a person within a camera view by means of tracking methods and thus to output only the position of the person instead of the live video stream. By using the camera according to the invention, only a very low bandwidth requirement is imposed on a data connection from the camera to the outside and it is thereby possible without any problems to perform monitoring tasks within a network of cameras. In fact, when using the cameras according to the invention due to the low bandwidth requirement to the network any decentralized architecture and a virtually unlimited expandability of the network with cameras is possible.
In der Praxis der heutigen Überwachungstechnik ist es vielfach noch so, dass die Live-Videoströme einer Vielzahl von Kameras auf einer großen Anzahl von Monitoren angezeigt werden. Wenn dann eine Person verfolgt werden soll, etwa ein potentieller Dieb in einem Kaufhaus oder eine verdächtige Person am Flughafen, so muss der Beobachter einerseits die Verfolgung manuell durchführen, d.h., die Person auf dem jeweiligen Monitor nicht aus seinen Augen verlieren. Andererseits muss er nach Verlassen des Blickwinkels einer Kamera in die zugehörige nächstlie- gende Kamera weiterschalten und sich in den neuen Blickwinkel hineinversetzen. Wie bereits erwähnt wurde, ist es mit der Erfindung nunmehr möglich, eine Person automatisch zu verfolgen und im Folgenden soll die Darstellung oder Visualisierung der erhaltenen Informationen gemäß der Erfindung beschrieben werden.In practice, today's surveillance technology, it is often the case that the live video streams of a large number of cameras on a large Number of monitors are displayed. If a person is to be prosecuted, such as a potential thief in a department store or a suspected person at the airport, the observer on the one hand must perform the tracking manually, ie, not lose sight of the person on the monitor. On the other hand, after leaving the viewing angle of a camera, he has to switch further into the camera closest to him and adjust to the new angle of view. As already mentioned, it is now possible with the invention to follow a person automatically and in the following the representation or visualization of the obtained information according to the invention will be described.
Mit der Erfindung ist es möglich, die Information mehrerer erfindungsgemäßer sogenannter Smart-Kameras zu integrieren und diese dann in einem gemeinsamen Modell zu visualisieren, insbesondere einem dreidimensionalen Weltmodell. Dies ermöglicht es, dass der Pfad von Personen dann - entkoppelt von den jeweiligen Kameras, also über Kameraansichten hinweg - im 3D-Modell visualisiert werden kann. Dabei kann der Blickwinkel auf die Person frei gewählt werden, etwa mit der Person „mitfliegend". Der Blickwinkel ist also nicht mehr an die Blickwinkel der Kameras gebunden. Die erfindungsgemäße Verwendung dreidimensionaler Modelle zur Visualisierung von Überwachungsergebnissen ermöglicht dadurch eine gegenüber bekannten Visualisierungen weniger abstrakte Darstellungen und erleichtert dadurch den Überblick über die aktuellen Ereignisse. Mit der Erfindung wird es darüber hinaus möglich, die in einem gemeinsamen Koordinatensystem visualisierten Überwachungsergebnisse an beliebiger Stelle eines Netzwerks zur Verfügung zu stellen und damit ubiquitär verfügbar zu haben. Die Ausgabe kann auch in gemeinsamen, georeferenzierten Koordinatensystemen erfolgen und in ein dreidimensionales Weltmodell eingebettet sein. Einen Überblick über eine erfindungsgemäße Installation gibt die Fig. 6. Dargestellt ist mit dem Bezugszeichen 80 der Grundriss eines Gebäudegangs in dem insgesamt sechs erfindungsgemäße Smart-Kameras 82, 84, 86, 88, 90 und 92 positioniert sind. Alle Kameras 82 bis 92 sind mit einer Visualisierungseinheit 94 verbunden, die beispielsweise auch als tragbarer Visualisierungsclient im Netzwerk ausgebildet sein kann. In der Visualisierungseinheit 94 werden die Überwachungsergebnisse, beispielsweise die Ergebnisse eines Personen-Trackings, in ein dreidimensionales Modell eingebettet. Die Verbindungen der Kameras 82 bis 92 mit der Visualisierungseinheit 94 sind lediglich schematisch angedeutet, eingerichtet werden kann jede beliebige Art der Netzwerkverbindung in jeder beliebigen Konfiguration und Topologie, beispielsweise auch als Busverbindung, alternativ auch als drahtlose Netzwerkverbindungen. Zusätzlich sind in Fig. 6 noch Darstellungen des Blickwinkels der einzelnen Kameras 82 bis 92 in Form einer jeweiligen Momentaufnahme mit aufgenommen.With the invention it is possible to integrate the information of several inventive so-called smart cameras and then to visualize them in a common model, in particular a three-dimensional world model. This makes it possible for the path to be visualized in a 3D model - decoupled from the respective cameras, ie across camera views. In this case, the angle of view can be freely selected for the person, for example with the person "flying in." The use of three-dimensional models for visualizing monitoring results according to the invention therefore makes it possible to use less abstract representations than known visualizations In addition, the invention makes it possible to provide the monitoring results visualized in a common coordinate system at any location of a network and thus to have them available in ubiquitous form Coordinate systems and be embedded in a three-dimensional world model. FIG. 6 shows an overview of an installation according to the invention. The reference numeral 80 shows the outline of a building entrance in which a total of six smart cameras 82, 84, 86, 88, 90 and 92 according to the invention are positioned. All the cameras 82 to 92 are connected to a visualization unit 94, which may be designed, for example, as a portable visualization client in the network. In the visualization unit 94, the monitoring results, for example the results of a person tracking, are embedded in a three-dimensional model. The connections of the cameras 82 to 92 with the visualization unit 94 are only indicated schematically, can be set up any type of network connection in any configuration and topology, for example, as a bus connection, alternatively as wireless network connections. In addition, illustrations of the viewing angle of the individual cameras 82 to 92 in the form of a respective snapshot are also included in FIG. 6.
Die Darstellung der Fig. 7 verdeutlicht schematisch die Schritte, die bei der erfindungsgemäßen Visualisierung vorgenommen werden. Die Smart-Kameras 82 bis 92 geben jeweils eine Wahrscheinlichkeitsdichtefunktion aus, die durch Stützstellen approximiert ist. Diese Wahrscheinlichkeitsdichtefunktion kann in Raumkoordinaten ausgegeben werden. An dem in Fig. 7 dargestellten Beispiel wird die Wahrscheinlichkeitsdichtefunktion über zweidimensionale Koordinaten x, y ausgegeben. Die ausgegebene Wahrscheinlichkeitsdichtefunktion kann dann beispielsweise dreidimensional dargestellt werden, wobei eine Grundebene die Koordinateebene x, y darstellt und ausgehend von dieser Grundebene der Wert der Wahrscheinlichkeitsdichtefunktion nach oben aufgetragen wird. Diese dreidimensionale Darstellung ist in Fig. 7 mit dem Bezugszeichen 96 bezeichnet. Mit dem Bezugszeichen 98 ist in der Darstellung der Fig. 7 eine Draufsicht auf die Darstellung der Fig. 96 bezeichnet. Die Werte der Wahrscheinlichkeitsdichtefunktion können dann beispielsweise farbkodiert dargestellt werden.The representation of FIG. 7 schematically illustrates the steps that are carried out in the visualization according to the invention. The smart cameras 82 to 92 each output a probability density function approximated by interpolation points. This probability density function can be output in spatial coordinates. In the example shown in Fig. 7, the probability density function is output via two-dimensional coordinates x, y. The output probability density function can then be represented, for example, three-dimensionally, with a ground plane representing the coordinate plane x, y and the value of the probability density function being plotted upward from this ground plane. This three-dimensional representation is designated by reference numeral 96 in FIG. The reference numeral 98 in the illustration of FIG. 7 denotes a plan view of the illustration of FIG. 96. The Values of the probability density function can then be represented, for example, in color-coded form.
Diese Wahrscheinlichkeitsdichtefunktionen können dann in einem SD- Modell 100 visualisiert werden, so dass dann in dem 3D-Modell Positionen, Pfade und Texturen von Personen erscheinen. Wie bereits ausgeführt wurde, ist der Blickwinkel auf dieses 3D-ModeII dabei beliebig und es kann, wie in Fig. 7 dargestellt ist, beispielsweise eine Vogelperspektive gewählt werden, es kann aber auch eine mit der verfolgten Person „mitfliegende" Perspektive gewählt werden.These probability density functions can then be visualized in an SD model 100, such that positions, paths, and textures of individuals appear in the 3D model. As has already been explained, the viewing angle to this 3D mode II is arbitrary and, as shown in FIG. 7, it is possible, for example, to choose a bird's-eye view, but it is also possible to choose a perspective "flying along" with the tracked person.
Im Folgenden soll das erfindungsgemäße Verfahren einschließlich der Visualisierung noch einmal erläutert werden.The method according to the invention, including the visualization, will be explained again below.
In einem ersten Schritt wird ein dreidimensionales Modell der Umgebung oder eines zu überwachenden Gebäudes aufgenommen oder eingelesen, beispielsweise in Form einer CAD-Datei (Computer-aided enginee- ring). Die Smart-Kameras sind oder werden an geeigneter Stelle im Gebäude angebracht und einem Netzwerk hinzugefügt. Die Smart- Kameras müssen dann relativ zu dem dreidimensionalen Modell kalibriert werden. Vorzugsweise ist das dreidimensionale Modell georeferen- ziert und nach der Kalibrierung sind damit auch die Ausgaben der Smart-Kameras georeferenziert.In a first step, a three-dimensional model of the environment or of a building to be monitored is recorded or read in, for example in the form of a CAD file (computer-aided engineering). The smart cameras are or will be installed in a suitable location in the building and added to a network. The smart cameras must then be calibrated relative to the three-dimensional model. Preferably, the three-dimensional model is georeferenced and after calibration, the outputs of the smart cameras are georeferenced with it.
Im eigentlichen Tracking-Betrieb läuft beispielsweise eine Person in das Blickfeld einer Smart-Kamera und wird durch die Smart-Kamera automatisch detektiert und als neues Zielobjekt aufgenommen und mit dem bereits beschriebenen Partikelfilterverfahren verfolgt. Dies ist für weitere Personen möglich, so dass ein Multi-Person-Tracking realisiert werden kann. Die Visualisierung des Trackings erfolgt dann im dreidimensionalen Modell, wobei verschiedene Anzeigemodi vorgesehen werden können. Beispielsweise mit einer einzelnen Person mitfliegend, aus Sicht einzelner Kameras oder auch durch graphische Visualisierung des bisherigen Pfades einer Person. Die Darstellung einer Person oder eines Objekts in dem dreidimensionalen Modell erfolgt mittels eines generischen dreidimensionalen Personenmodells. Optional kann die aktuelle Appearance der Person als Textur auf das dreidimensionale Personenmodell ge- mappt oder als Sprite, also als ein dem Visualisierungsmodell überlagertes Grafikobjekt dargestellt werden.In the actual tracking operation, for example, a person runs into the field of view of a smart camera and is automatically detected by the smart camera and recorded as a new target object and tracked with the particulate filter method already described. This is possible for other people, so that a multi-person tracking can be realized. The visualization of the tracking then takes place in the three-dimensional model, wherein different display modes can be provided. For example, with a single person mitfliegend, from the perspective of individual cameras or by graphical visualization of the previous path of a person. The representation of a person or an object in the three-dimensional model takes place by means of a generic three-dimensional person model. Optionally, the person's current appearance can be mapped as a texture to the three-dimensional person model or represented as a sprite, ie as a graphic object superimposed on the visualization model.
Wesentlich ist, dass die Ergebnisse der Visualisierung im gesamten Netzwerk und damit ubiquitär verfügbar sind. Beispielsweise in einer Leitwarte, auf einem PC, aber auch auf mobilen Endgeräten wie PDAs (Personal Digital Assistant) oder Smart Phones mit Funknetzwerkschnittstelle, die selbst entkoppelt von den Smart-Kameras betrieben werden (WLAN). Dabei kann jeder Benutzer seinen eigenen Anzeigemodus auswählen, unabhängig von den anderen Benutzern und den Smart-Kameras.It is essential that the results of the visualization are available throughout the network and thus ubiquitously. For example, in a control room, on a PC, but also on mobile devices such as PDAs (Personal Digital Assistant) or smart phones with wireless network interface, which are even decoupled from the smart cameras operated (WLAN). Each user can select their own display mode, regardless of the other users and the smart cameras.
Gemäß einer speziellen Ausführung ist vorgesehen, dass sich ein Benutzer mit seinem netzwerkfähigen Visualisierungsclient, beispielsweise einem PDA/Smartphone, selbst im Sichtbereich einer oder mehrerer Smart-Kameras bewegt und dadurch gleichzeitig auch Eingabe des Trackings ist, mit anderen Worten durch die Smart-Kameras selbst verfolgt wird. Nach Visualisierung der Überwachungsergebnisse auf seinem PDA/Smartphone kann der Benutzer dadurch direkt seine eigene Position sehen und dadurch eine Selbstlokalisierung vornehmen. Auf diesem Effekt aufbauend kann ein Navigationssystem für solch einen Benutzer betrieben werden, das im Unterschied zu GPS (Global Positioning System) auch innerhalb eines Gebäudes hochpräzise funktioniert. Dadurch können beispielsweise Dienste angeboten werden, wie die Zielführung zu einem bestimmten Büro, auch über Stockwerke hinweg, oder in einem Flughafen-Terminal. Die Visualisierung auch auf dem mobilen Endgerät erleichtert dabei das Zurechtfinden für den Benutzer erheblich.According to a specific embodiment, it is provided that a user with his network-capable visualization client, for example a PDA / smartphone, himself moves in the field of vision of one or more smart cameras and thereby simultaneously also inputting the tracking, in other words by the smart cameras themselves is pursued. After visualizing the monitoring results on his PDA / Smartphone, the user can thus directly see his own position and thereby make a self-localization. Building on this effect, a navigation system can be operated for such a user, which, in contrast to GPS (Global Positioning System), also operates with high precision within a building. As a result, for example, services can be offered, such as route guidance to a specific office, even across floors, or in an airport terminal. Visualization on the mobile device also makes it easier for the user to find his way around.
In einer weiteren speziellen Ausführung können beispielsweise Freunde oder Buddies im dreidimensionalen Modell visualisiert werden. Wenn sich der Benutzer selbst im Sichtbereich der Smart-Kameras befindet, ist dies besonders interessant, da er dann direkt auf seinem mobilen Endgerät sieht, wer in seiner Nähe ist, bzw. wo sich seine Freunde gerade befinden. Dies kann beispielsweise bei Kontaktdiensten für Singles eingesetzt werden, wo dann, wenn die Übereinstimmung gemeinsamer Vorlieben oder ähnliches festgestellt wurde, die Position des potentiellen Partners vom Netzwerk für den anderen Partner freigegeben werden kann, so dass beide sich gegenseitig auf ihren mobilen Endgeräten sehen können und durch eine Zielführungsfunktion gegebenenfalls auch zueinander geführt werden können. Dies ist beispielsweise in einer Diskothek oder einer Hotelanlage möglich, jedoch nicht entfernungsbeschränkt. Ganz speziell ist von Bedeutung, dass bei Verwendung geore- ferenzierter Visualisierungsmodelle sich zwei Personen auch in voneinander getrennten Kameranetzen aufhalten können und dennoch Informationen übereinander erhalten können, wenn die Kameranetze miteinander vernetzt sind.In a further special embodiment, for example, friends or buddies can be visualized in the three-dimensional model. If the user himself is in the field of view of the smart cameras, this is particularly interesting, because he then sees directly on his mobile device, who is in his vicinity, or where his friends are currently. This can be used, for example, in singles contact services, where, if the coincidence of common preferences or the like has been established, the position of the potential partner can be released from the network for the other party so that both can see each other on their mobile terminals, and optionally also be guided to each other by a routing function. This is possible, for example, in a nightclub or a hotel complex, but not limited in range. In particular, it is important that when using geo-referenced visualization models, two persons can also be in separate camera networks and still be able to obtain information on one another when the camera networks are networked with one another.
In einer weiteren speziellen Ausführung können auch weitergehende Anfragen implementiert werden, beispielsweise „was ist passiert?". Eine Antwort könnte lauten, dass eine neue Person hinzugekommen ist, dass eine Person einen sicherheitskritischen Bereich im Flughafen betritt. Eine weitere Anfrage kann „wo?" lauten. Eine solche Anfrage kann durch die Angabe einer dreidimensionalen Position beantwortet werden und es können darauf aufbauende Systeme eingesetzt werden, die beispielsweise die Frage beantworten, wo sich ein verlassener Koffer in einem Flughafen befindet. Für die Visualisierung der Tracking-Ergebnisse von Bedeutung ist die Ausgabe der jeweiligen Tracking-Position nicht mehr in Koordinaten der Bildebene der jeweiligen Kamera, sondern unter Verwendung der Kalibrierung in einem globalen Koordinatensystem, beispielsweise in einem georeferenzierten globalen Weltkoordinatensystem (WKS). Die ermittelten Tracking-Positionen können dadurch auf der Erde lokalisiert werden.In another specific implementation, more advanced requests may be implemented, such as "what happened?" An answer could be that a new person has joined, that a person is entering a safety-critical area in the airport, another request may be "where?" ring. Such a request can be answered by specifying a three-dimensional position and systems based thereon can be used, for example, to answer the question of where an abandoned suitcase is located in an airport. For the visualization of the tracking results of importance, the output of the respective tracking position is no longer in coordinates of the image plane of the respective camera, but using the calibration in a global coordinate system, for example in a georeferenced global world coordinate system (WCS). The determined tracking positions can thereby be localized on the earth.
Es ist dabei nicht unbedingt erforderlich, sogenannte Stereokameras zu verwenden, die einen bestimmten Blickwinkel räumlich erfassen und dadurch die dreidimensionale Position einer Person ausgeben können. Es kann alternativ auch eine durchschnittliche Personenhöhe angenommen werden und über die Höhe in Kamerapixeln kann auf die echte Höhe der Person unter Verwendung der Kamerakalibrierung rückgeschlossen werden. Auf diese Weise kann ein ungefährer Abstand zur Kamera berechnet werden. Wenn sich mehrere Kameras bezüglich ihres Sichtfelds überlappen, ist eine Abstandsmessung zu der oder den Kameras auch ohne die Annahme einer durchschnittlichen Personenhöhe möglich. Auf diese Weise kann die zweidimensionale Bildebene einer Smart-Kamera auf ein Weltkoordinatensystem erweitert werden.It is not absolutely necessary to use so-called stereo cameras, which spatially capture a certain angle of view and thereby can output the three-dimensional position of a person. Alternatively, an average person height can be assumed, and the height in camera pixels can be used to infer the true height of the person using the camera calibration. In this way, an approximate distance to the camera can be calculated. If several cameras overlap with respect to their field of view, a distance measurement to the camera or cameras is possible even without the assumption of an average person height. In this way, the two-dimensional image plane of a smart camera can be extended to a world coordinate system.
Als dreidimensionales Modell für die Visualisierung der Trackingergeb- nisse kann beispielsweise eine internetbasierte weltumfassende Darstellung verwendet werden, in die sich georeferenzierte Inhalte einbetten lassen. Ein Beispiel hierfür ist die über das Internet zugängliche Visualisierung „Google Earth". In eine solche Darstellung können beispielsweise dreidimensionale Modelle von Gebäuden eingebettet werden und eine solche weltumfassende Darstellung lässt sich auch zur Visualisierung der Trackingergebnisse des dezentralen Smart-Kamera-Netzwerkes verwenden. Beispielsweise werden die Positionen von Personen in dieser Darstellung mittels grüner Punkte angegeben, wobei die Ausdehnung der Punkte eine Konfidenz angibt, wie sicher sich eine Person tat- - -As a three-dimensional model for the visualization of the tracking results, for example, an Internet-based world-wide representation can be used, in which georeferenced contents can be embedded. An example of this is the "Google Earth" visualization accessible via the Internet, in which, for example, three-dimensional models of buildings can be embedded, and such a world-wide representation can also be used to visualize the tracking results of the decentralized smart camera network the positions of people in this presentation are indicated by green dots, where the extent of the dots indicates a confidence of how confident a person is - -
sächlich an der dargestellten Position befindet. Aber auch texturierte Modelle der jeweiligen Person können zur Visualisierung verwendet werden.is located at the position shown. But also textured models of the respective person can be used for visualization.
Eine Möglichkeit der Vereinfachung ergibt sich dadurch, dass bei fest montierter Kamera ein Hintergrundmodell erfasst wird, in dem die aufgenommene Szene ohne bewegte Objekte, beispielsweise ohne Personen, präsentiert wird. Die Smart-Kamera baut sich aus dieser Szene ein Hintergrundmodell auf, in dem beispielsweise über mehrere zeitlich aufeinanderfolgende Bilder ein laufender Durchschnitt (running average) gebildet wird, um das Rauschen herauszurechnen. Alternativ kann das Hintergrundmodell unter Heranziehung von Schwellenwerten bezüglich der zeitlichen Veränderung berechnet werden. Die Smart-Kamera hat auf diese Weise ein Hintergrundmodell zur Verfügung, so dass im Betrieb durch Differenzbildungsverfahren und optional zusätzlich durch bekannte Erosions- und Dilatationsverfahren eine Segmentierung realisiert werden kann. Diese Segmentierung beinhaltet gerade alle bewegten Objekte und kann für das Tracking-Verfahren als Region-of-Interest (ROI) verwendet werden. Nur in diesem segmentierten Bereichen kann sich eine zu verfolgende Person befinden. Dieser segmentierte Bereich, der potentiell unzusammenhängend ist, bildet einer Obermenge des eigentlichen Trackings, da sich auch mehrere Personen gleichzeitig im Bild befinden können. Auf diese Weise kann die in der Smart-Kamera erforderliche Rechenlesung verringert werden, da durch die Segmentierung nur die Bereiche weiterverarbeitet werden, in denen sich eine zu verfolgende Person überhaupt befinden kann.One possibility of simplification arises from the fact that, when the camera is permanently mounted, a background model is detected, in which the recorded scene is presented without moving objects, for example without persons. The smart camera builds a background model from this scene in which, for example, a running average is formed over several temporally successive images in order to eliminate the noise. Alternatively, the background model may be calculated using thresholds of temporal change. In this way, the smart camera has a background model available, so that segmentation can be realized in operation by difference formation methods and optionally additionally by known erosion and dilation methods. This segmentation includes just all moving objects and can be used for the tracking process as a region-of-interest (ROI). Only in this segmented areas can be a person to be tracked. This segmented area, which is potentially incoherent, is a superset of the actual tracking, as several people can be in the picture at the same time. In this way, the required in the smart camera computational reading can be reduced because only those areas are further processed by the segmentation, in which a person to be tracked can be at all.
Mittels des beschriebenen Segmentierungsverfahrens wird darüber hinaus eine automatische Initialisierung auf Bewegung ermöglicht. Dadurch kann bei der Verfolgung mehrerer Objekte oder mehrerer Personen eine Vereinfachung erzielt werden. Die Initialisierung reagiert auf Bewegung relativ zum Hintergrundmodell. Um nun neue Objekte besonders schnell verfolgen zu können, können zusätzliche Stützstellen bevorzugt an Positionen im Bildausschnitt platziert werden, an denen Personen das Blickfeld verlassen oder betreten können. Dies ist im übrigen nicht notwendigerweise der Bildrand. Wenn etwa die Kamera an einem Gang montiert ist, könnte der Eintrittsbereich auch eher in der Bildmitte liegen. Solche Positionen, an denen zusätzliche Stützstellen vorgesehen werden, können vorgegeben werden oder auch adaptiv eingerichtet werden, beispielsweise durch hinreichend langes Trainieren gelernt werden.By means of the described segmentation method, an automatic initialization to movement is also made possible. This can simplify the tracking of multiple objects or multiple people. The initialization responds to motion relative to the background model. To make new objects very fast To track additional support points can preferably be placed at positions in the image, where people can leave the field of vision or enter. Incidentally, this is not necessarily the edge of the picture. For example, if the camera is mounted on a corridor, the entrance area could also be in the center of the image. Such positions, at which additional support points are provided, can be specified or also be set up adaptively, for example, by sufficiently long training to be learned.
Wie bereits ausgeführt wurde, erfolgt die Visualisierung in einem dreidimensionalen und bevorzugt georeferenzierten Visualisierungsmodell. Die Smart-Kameras arbeiten dabei weiterhin in ihrer jeweiligen Bildebene und eine Umrechnung in Weltkoordinaten erfolgt dann unter Berücksichtigung einer Kamerakalibrierung. Wie bereits ausgeführt wurde, können auch mehrere Kameras zusammen verwendet werden, um mittels bekannter Stereo-Verfahren die Position einer Person oder eines Objekts im Raum zu bestimmen.As already stated, the visualization takes place in a three-dimensional and preferably georeferenced visualization model. The smart cameras continue to work in their respective image plane and a conversion into world coordinates is then carried out taking into account a camera calibration. As already stated, several cameras can be used together to determine the position of a person or an object in the room by means of known stereo methods.
Bei der Objektverfolgung können gemäß der Erfindung zwei unterschiedliche Ansätze gewählt werden.In object tracking, two different approaches can be chosen according to the invention.
Zum einen kann ein sogenanntes dezentrales Tracking durchgeführt werden, indem in jeder Smart-Kamera eigene Partikelfilter laufen. Befindet sich im Blickfeld einer Smart-Kamera ein bewegliches Objekt, so läuft für dieses Objekt ein Partikelfilter. Bewegen sich im Blickfeld der Smart-Kamera zwei bewegliche Objekte, so werden entsprechend zwei Partikelfilter eingerichtet. Die Integration der Ergebnisse des Trackings in ein einheitliches dreidimensionales Modell erfolgt dann erst auf der Ebene der Tracking-Ergebnisse. Zunächst werden dazu die Tracking- Ergebnisse aller Kameras in das dreidimensionale Modell eingezeichnet. Technisch geschieht dies durch Übermittlung der Tracking-Ergebnisse ins Netzwerk, insbesondere zu der Visualisierungseinheit 94 und der dort dann folgenden Visualisierung. Im einfachsten Fall kann mit der Weiterreichung der Tracking-Ergebnisse zwischen den Smart-Kameras so vorgegangen werden, dass dann, wenn zwei Kameras sehr ähnliche Koordinaten im dreidimensionalen Modell liefern, diese beiden Ergebnisse dann zu einem beweglichen Objekt vereinheitlicht werden.On the one hand, a so-called decentralized tracking can be performed by running in each smart camera own particulate filter. If there is a moving object in the field of view of a smart camera, a particle filter runs for this object. If two moving objects move within the field of view of the smart camera, then two particle filters are set up accordingly. The integration of the results of the tracking into a uniform three-dimensional model then takes place only at the level of the tracking results. First, the tracking results of all cameras are drawn into the three-dimensional model. Technically, this is done by transmitting the tracking results in the network, in particular to the visualization unit 94 and the there then following visualization. In the simplest case, passing the tracking results between the smart cameras can be done so that if two cameras provide very similar coordinates in the three-dimensional model, then these two results will be unified into one moving object.
Alternativ kann ein sogenanntes zentrales Tracking durchgeführt werden. Logisch/algorithmisch gesehen wird hier nur ein einziges Partikelfilter pro beweglicher Person oder beweglichem Objekt über alle Smart- Kameras hinweg betrieben. Ein Zustand X besteht hierbei aus der Position der Person oder des Objektes direkt in Weltkoordinaten, dieser Zustand X wird von der Visualisierungseinheit 94 gehalten und jede Stützstelle über diesem Zustand X kann als Positionshypothese in Weltkoordinaten aufgefasst werden. Jede Smart-Kamera erhält dann diese Koordinaten von der Visualisierungseinheit 94, um die eigene Messung durchzuführen. Die gemeinsame Verarbeitung von Positionshypothese und Messergebnis erfolgt dadurch bereits auf der Messebene, entsprechend in der Smart-Kamera selbst. Die Visualisierungseinheit 94 hat in diesem Fall Aufgaben einer zentralen Verarbeitungseinheit.Alternatively, a so-called central tracking can be performed. Logically / algorithmically, only a single particle filter per moving person or moving object is operated across all smart cameras. A state X consists here of the position of the person or of the object directly in world coordinates, this state X is held by the visualization unit 94 and each support point above this state X can be understood as a position hypothesis in world coordinates. Each smart camera then receives these coordinates from the visualization unit 94 to perform its own measurement. The joint processing of position hypothesis and measurement result is thereby already carried out at the measurement level, correspondingly in the smart camera itself. In this case, the visualization unit 94 has tasks of a central processing unit.
Bei der Anwendung eines dezentralen Trackings werden bewegliche Objekte oder Personen, die sich im Überlappungsbereich des Sichtfeldes zweier Kameras befinden, dadurch von einer Kamera zur nächsten weitergegeben, dass beide Kameras eine ähnliche Position dieser Person oder dieses Objekts in Weltkoordinaten liefern. Ersichtlich wäre die Position ein und desselben beweglichen Objekts bei perfekter Kalibrierung der beiden Kameras exakt dieselbe Position. Die beiden Tracking- Ergebnisse der beiden Kameras können dadurch zu einer Person verknüpft werden. Eine zusätzliche Sicherheit kann dadurch erreicht werden, dass die jeweilige Appearance des Objekts oder der Person miteinander verglichen wird, um sicherzustellen, dass auch die richtige Person zugewiesen wird. Eine Weiterreichung kann auch auf einen Mo- ment verzögert werden, wo sich neben der weiterzureichenden Person nicht zufällig gerade auch noch eine weitere Person oder ein weiteres bewegliches Objekt befindet.When decentralized tracking is used, moving objects or persons located in the overlap area of the field of view of two cameras are passed from one camera to the next in that both cameras provide a similar position of that person or object in world coordinates. Obviously, the position of one and the same moving object would be exactly the same position with perfect calibration of the two cameras. The two tracking results of the two cameras can be linked to a person. Additional security can be achieved by comparing the particular appearance of the object or person with each other to ensure that the right person is assigned. A handover may also apply to a be delayed ment, where not just another person or another movable object is located by chance next to the person to be passed.
Im Falle des zentralen Trackings sind die Tracking-Ergebnisse ohnehin von den jeweiligen Smart-Kameras entkoppelt. Eine Person verlässt damit einfach die Bildebene einer ersten Kamera und kommt in die Bildebene einer zweiten Kamera hinein, die Weiterreichung wird somit implizit erledigt, da direkt in Weltkoordinaten gerechnet wird.In the case of central tracking, the tracking results are in any case decoupled from the respective smart cameras. A person thus simply leaves the image plane of a first camera and enters the image plane of a second camera, the handover is thus implicitly done, as is calculated directly in world coordinates.
Die Kalibrierung der Kameras in globalen, insbesondere georeferenzier- ten Koordinaten kann mit Standardverfahren erfolgen, es kann aber auch ein sogenannter Analysis-by-Synthesis-Ansatz verwendet werden. Hierzu wird das dreidimensionale Visualisierungsmodell als Kalibrierobjekt verwendet und die Kameraparameter werden solange iterativ verändert, bis ausgewählte Punkte der Bildebene der Kamera mit den entsprechenden Punkten des dreidimensionalen Visualisierungsmodells übereinstimmen, bis also die reale Kamerasicht mit der Sicht auf das Visualisierungsmodell optimal übereinstimmt. Alternativ kann eine Smart-Kamera auch mit einem oder mehreren Winkelsensoren versehen werden, um dadurch Aufschluss über die jeweilige Blickrichtung der Kamera zu erhalten. Die Position der Kamera kann auch durch bekannte Vermessungstechniken relativ zur Umgebung bestimmt werden, da die Umgebung als 3D-Modell vorliegt ist damit auch die Position relativ zu diesem Modell bekannt.The calibration of the cameras in global, in particular georeferenced, coordinates can be carried out using standard methods, but a so-called analysis-by-synthesis approach can also be used. For this purpose, the three-dimensional visualization model is used as the calibration object and the camera parameters are iteratively changed until selected points of the image plane of the camera coincide with the corresponding points of the three-dimensional visualization model, ie until the real camera view coincides optimally with the view of the visualization model. Alternatively, a smart camera can also be provided with one or more angle sensors in order to obtain information about the respective viewing direction of the camera. The position of the camera can also be determined by known surveying techniques relative to the environment, since the environment exists as a 3D model, so that the position relative to this model is known.
Im Folgenden werden alternative Ausführungsformen der Erfindung beschrieben, die sich auf die Art und Weise beziehen, wie die Überwachungsergebnisse ermittelt werden.In the following, alternative embodiments of the invention are described, which relate to the way in which the monitoring results are determined.
In Bezug auf die angewendete Zeitskala wird das Tracking, also das Verfolgen eines beweglichen Objekts oder einer Person, nur auf einer Zeitskala ausgeführt, nämlich der Skala mit der Bildfrequenz des Bildsensors der Smart-Kamera. Um die Robustheit des Trackings zu erhöhen, ist es nun optional vorgesehen, das Tracking gleichzeitig in verschiedenen Zeitskalen λ auszuführen. Die Zeitskala λ soll hierbei die Dauer bis zum nächstmaligen Auswerten eines aktuellen Sensorbildes angeben, wobei dies in Einheiten von Frames des Sensors angegeben wird. Nach dem bisher beschriebenen Verfahren läuft der Partikelfilter zum Verfolgen eines beweglichen Objektes oder einer Person immer vollständig für jedes Sensorbild ab, so dass λ = 1. Dies bedeutet, dass sich Änderungen im aktuellen Sensorbild immer sofort auf den Partikelfilter und somit das Trackingergebnis auswirken.With respect to the time scale used, the tracking, that is, the tracking of a moving object or a person, becomes only one Time scale executed, namely the scale with the frame rate of the image sensor of the smart camera. In order to increase the robustness of the tracking, it is now optionally provided to carry out the tracking simultaneously in different time scales λ. In this case, the time scale λ should indicate the duration until the next-time evaluation of a current sensor image, this being specified in units of frames of the sensor. According to the method described so far, the particle filter for tracking a moving object or a person always runs completely for each sensor image, so that λ = 1. This means that changes in the current sensor image always have an immediate effect on the particle filter and thus the tracking result.
Ein neues Sensorbild wirkt sich grundsätzlich aus auf das Gewicht einer Stützstelle relativ zu anderen Stützstellen und gegebenenfalls auf die Adaption, wenn adaptive Verfahren vorgesehen sind. Verhält sich also ein Objekt, und sei es nur vorübergehend, nicht so, wie dies im Bewegungsmodell angenommen wird, so wirkt sich dies bei einer Zeitskala von λ = 1 sofort aus, selbst wenn sich das Objekt im zeitlichen Durchschnitt immer noch in etwa gemäß dem Bewegungsmodell verhält.A new sensor image basically has an effect on the weight of a support point relative to other support points and, if appropriate, on the adaptation, if adaptive methods are provided. Thus, if an object, if only temporarily, does not behave as it is assumed in the motion model, then, given a time scale of λ = 1, it will immediately have an effect, even if the object is still approximately in time average Movement model behaves.
Wenn beispielsweise eine Person kurzzeitig hinter einem Objekt läuft und so aus Sicht der Kamera verdeckt wird, werden Stützstellen, die die Person eigentlich im bisherigen Verlauf gut verfolgt haben, aufgrund einer schlechten Gewichtung im Messschritt sofort bestraft oder weniger stark gewichtet, da sie sich nicht direkt bewährt haben. Wenn die Person dann wieder hinter dem Objekt auftaucht und damit wieder sichtbar ist, müssen diese Stützstellen erst wieder bestärkt werden. Dies funktioniert nicht immer in der gewünschten robusten Weise, da aufgrund der im vorherigen Messschritt verringerten Gewichtungen der Stützstellen nicht so viele Stützstellen in der unmittelbaren Umgebung der wieder hinter dem Objekt aufgetauchten Person vorhanden sind. Wird darüber hinaus auch eine Adaption der Appearance vorgenommen, so besteht außer- dem die Gefahr, dass das die Person verdeckende Objekt mit als Ap- pearance der Person übernommen wird. Dies kann zwar mittels einer von der Konfidenz abhängigen Adaption verhindert werden, dennoch leidet unter diesen Effekten die Qualität des Überwachungsergebnisses.For example, if a person is running behind an object for a short time and is thus covered from the camera's point of view, support points that have actually tracked the person so far are immediately penalized or less heavily weighted because they are badly weighted in the measurement step because they are not direct have proven to be successful. If the person then appears again behind the object and is thus visible again, these interpolation points must first be confirmed again. This does not always work in the desired robust manner because, due to the reduced weighting of the support points in the previous measurement step, there are not as many support points in the immediate vicinity of the person behind the object. If, in addition, an adaptation of the appearance is made, then there is also the danger that the person obscuring the object is taken over as an apearance of the person. Although this can be prevented by means of an adaptation dependent on the confidence, nevertheless the quality of the monitoring result suffers from these effects.
Auf einer höheren Zeitskala mit λ > 1 geht eine solche Verdeckung jedoch unter, da sich eine solche höhere Zeitskala wie ein zeitlicher Tief- pass verhält.On a higher time scale with λ> 1, however, such a masking disappears, since such a higher time scale behaves like a temporal lowpass.
Erfindungsgemäß ist es demnach vorgesehen, jedes zu verfolgende Objekt oder jede zu verfolgende Person auf verschiedenen Zeitskalen zu verfolgen, und zwar auf verschiedenen Zeitskalen gleichzeitig. Das zu verfolgende Objekt kann dadurch über die vollständige Wahrscheinlichkeitsdichtefunktion über der Zeit betrachtet werden. So wie der Zustand des zu verfolgenden Objekts durch Stützstellen abgedeckt wird, so kann auch die Zeitskala durch Stützstellen abgedeckt werden. Alternativ laufen, wie in der Darstellung der Fig. 8 gezeigt ist, mehrere Zeitskalen parallel, nämlich λ = 1 , 2, 4, 8, 16, ..., um den mit dem Kamerasensor erfassten Bildraum über alle Zeitskalen abzudecken.According to the invention, it is therefore provided to track each object to be tracked or each person to be tracked on different timescales, on different timescales at the same time. The object to be tracked can thus be viewed over the full probability density function over time. Just as the state of the object to be tracked is covered by interpolation points, the time scale can also be covered by interpolation points. Alternatively, as shown in the illustration of FIG. 8, a plurality of time scales run in parallel, namely λ = 1, 2, 4, 8, 16,..., In order to cover the image space acquired by the camera sensor over all timescales.
Wenn dann bei Anwendung verschiedener Zeitskalen bei der Ausführung des Messschrittes beispielsweise die Appearance stark adaptiert würde, das Tracking-Verfahren also davon ausgehen würde, dass sich die Person vom Aussehen her extrem schnell in ein sie verdeckendes Hindernis „verwandelt" hat, so wird auf einer höheren Zeitskala, beispielsweise λ = 2, immer noch die ursprüngliche Appearance der Person beibehalten. Nach dem Wiedereintritt in den Sichtbereich des Kamerasensors würde diese beibehaltene Appearance der höheren Zeitskala dann bevorzugt, begünstigt beispielsweise noch durch eine Gewichtung zwischen Zeitskalen, die die Ergebnisse bei kleineren Werten von λ bevorzugt. Bei gleichzeitiger Anwendung mehrerer Zeitskalen und beispielsweise einem einfachen Vergleich der Appearance zum gleichen Zeitpunkt aber auf Basis unterschiedlicher Zeitskalen führt dies zu sehr robusten Ergebnissen bei der zeitweisen Verdeckung von zu verfolgenden Objekten durch Hindernisse. Die Grundlage für die Anwendung unterschiedlicher Zeitskalen ist dabei die Annahme, dass sich ein zu verfolgendes Objekt in etwa wie das Bewegungsmodell verhält und dabei seine Appearance verschieden schnell ändern kann oder analog dazu sich gemäß dem Appearance-Modell verhält und vom Bewegungsmodell abweicht, jedoch nicht beides gleichzeitig passiert. Beide alternativen Annahmen werden durch die Zeitskalen überwacht und verfolgt, die Richtige kristallisiert sich dann heraus. Die sogenannte Markov- Annahme besagt, dass der aktuelle Zustand nur durch die vorigen Zustände definiert wird. Die Verwendung verschiedener Zeitskalen benötigt auch für Zeitskalen mit λ > 1 nur den jeweils letzten Zustand und erfüllt daher die Markov-Annahme, auch wenn der letzte Zustand weiter in der Vergangenheit liegt als bei der Zeitskala mit λ = 1.If, for example, the application of different timescales during the execution of the measurement step, the Appearance would be strongly adapted, the tracking method would therefore assume that the person has the appearance of extremely fast "turned" into an obstructing obstacle, so is on a higher time scale, for example, λ = 2, still retain the original appearance of the person.After re-entering the field of view of the camera sensor, this retained higher-temporal appeal would then be favored, for example, favored by a weighting between timescales, which results at smaller values with simultaneous use of multiple timescales and, for example, a simple comparison of the appearance to the same But on the basis of different time scales, this leads to very robust results in the temporary obscuring of objects to be tracked by obstacles. The basis for the application of different time scales is the assumption that an object to be tracked behaves in much the same way as the movement model and can change its appearance at different speeds or analogously behaves according to the appearance model and deviates from the movement model, but not both happens at the same time. Both alternative assumptions are monitored and tracked by the timescales, and then the right thing crystallizes out. The so-called Markov assumption states that the current state is defined only by the previous states. The use of different timescales also requires only the last state for time scales with λ> 1 and therefore satisfies the Markov assumption, even if the last state lies farther in the past than in the time scale with λ = 1.
Technisch wird eine Zeitskala mit λ > 1 dadurch realisiert, dass in einer Iteration, in der kein neues Sensorbild verarbeitet werden soll, der re- chenzeitaufwändige Messschritt ausgelassen wird. Stattdessen wird das Objekt nur gemäß dem Bewegungsmodell und optional dem Appearance-Modell vorhergesagt. Da bei einer bestimmten Zeitskala bereits im Vorhinein bekannt ist, wann wieder eine Messung erfolgen soll, kann das Bewegungsmodell und das optionale Appearance-Modell aufgrund der deterministischen Natur alle Iterationen, die keine Messung enthalten, aus Effizienzgründen auch in einem Schritt auf einmal ausführen. In der Darstellung der Fig. 8 sind alle Iterationen, die keine Messung enthalten, dadurch zu erkennen, dass in den unterschiedlichen Zeitskalen der Fig. 8 an diesen Iterationen kein senkrechter Strich eingezeichnet ist. Der Rechenaufwand für die vorstehend beschriebene Erweiterung der Zeitskalen bzw. die Verwendungen mehrerer Zeitskalen ist bei Verwendung des vorstehend beschriebenen Schemas im Durchschnitt knapp doppelt so hoch wie ohne diese Erweiterung. In Bezug auf die bereits erläuterte Möglichkeit der Segmentierung des Hintergrundbildes in unbewegliche Bereiche und Bereiche, in denen potentiell bewegliche Objekte auftauchen können, kann die Verwendung mehrerer Zeitskalen auch als Kontrollinstanz für Verdeckungen von zu detektierenden Objekten benutzt werden. Die Verwendung mehrerer Zeitskalen kann jedoch auch bei beweglichen Kameras verwendet werden, wo die Segmentierung nicht direkt anwendbar ist. Wenn zudem eine verfolgte Person nicht von einem statischen Hindernis, sondern von einer weiteren Person verdeckt wird, dann kann die Verwendung mehrerer Zeitskalen auch bei vorhandenen Segmentierungsverfahren helfen, da diese ja lediglich bewegliche Objekte zum Hintergrund, aber nicht zwischen beweglichen Objekten oder Personen segmentieren.Technically, a time scale with λ> 1 is realized in that in an iteration in which no new sensor image is to be processed, the time-consuming measuring step is omitted. Instead, the object is predicted only according to the motion model and optionally the appearance model. Since it is already known at a certain time scale in advance when a measurement is to take place, the motion model and the optional Appearance model due to the deterministic nature of all iterations that contain no measurement, for efficiency reasons in one step at a time run. In the illustration of FIG. 8, all iterations that contain no measurement can be recognized by the fact that in the different time scales of FIG. 8, no vertical line is drawn at these iterations. The computational effort for the above-described extension of the time scales or the uses of multiple time scales is almost twice as high when using the scheme described above than without this extension. With regard to the already explained possibility of segmentation of the background image into immovable areas and areas in which potentially movable objects can emerge, the use of multiple time scales can also be used as a control entity for occlusion of objects to be detected. However, the use of multiple timescales can also be used on moving cameras where segmentation is not directly applicable. In addition, if a tracked person is not covered by one static obstacle, but by another person, then the use of multiple time scales can also help with existing segmentation methods, since they only segment moving objects to the background, but not between moving objects or people.
Im Folgenden soll nun noch die erfindungsgemäße Möglichkeit erörtert werden, die Appearance eines zu verfolgenden Objekts oder einer zu verfolgenden Person, also dessen Aussehen und Erscheinung, adaptiv anzupassen. Beim Verfolgen einer Person wird mittels des bereits erörterten Partikelfilters nicht nur ein Zustand X verfolgt, sondern eine ganze Wahrscheinlichkeitsdichtefunktion über diesen Zustand X, approximiert durch Stützstellen. In analoger Weise kann für die Appearance eines zu verfolgenden Objekts vorgegangen werden. Normalerweise ist die Appearance des Zielobjektes im Partikelfilter nur für alle Stützstellen gemeinsam vorhanden und zusätzlich auch noch fest. Eine eingeschränkte Adaption kann mittels des sogenannten α-Blendings vorgenommen werden, aber auch hier ist nur genau eine Appearance des Zielobjekts zu jeder Zeit vorgesehen. Neben verschiedenen Hypothesen über den aktuellen Zustand X des Zielobjekts, sollen nun auch mehrere Appearances A des Zielobjektes gleichzeitig verfolgt werden. Darüber hinaus sollen diese beiden Aspekte über mehrere Zeitskalen λ verfolgt werden. Das Ziel ist demnach, die Appearance zu adaptieren und dabei mehrere Appearances gleichzeitig zu verfolgen. Dazu wird die Appearance als ein Teil des Zustandes definiert, gemäß Xneu". - (X, A), d.h. der neue Zustand hängt ab von dem bisherigen Zustand X und der Apperance A. Das bereits beschriebene Partikelfilterverfahren muss hierzu nicht verändert werden. Analog zum Bewegungsmodell existiert damit dann noch ein Appearance-Modell, das aus der alten Appearance eine neue vorhersagt.In the following, the possibility according to the invention of adapting the appearance of an object to be tracked or of a person to be tracked, that is to say its appearance and appearance, will now be discussed. In tracking a person, not only a state X is tracked by means of the particle filter already discussed, but a whole probability density function over that state X, approximated by interpolation points. In an analogous manner, it is possible to proceed for the appearance of an object to be tracked. Normally, the appearance of the target object in the particle filter is only common for all nodes and also fixed. A limited adaptation can be carried out by means of the so-called α-blending, but here too only exactly one Appearance of the target object is provided at all times. In addition to different hypotheses about the current state X of the target object, now also several Appearances A of the target object should be tracked simultaneously. In addition, these two aspects should be tracked over several time scales λ. The goal is therefore to adapt the Appearance while pursuing several Appearances simultaneously. For this purpose, the Appearance is defined as a part of the state, according to X ne u "- (X, A), ie the new state depends on the previous state X and the Apperance A. The already described particulate filter method does not need to be changed. Analogous to the movement model, there is an Appearance model that predicts a new one from the old Appearance.
Für dieses Appearance-Modell existieren mehrere Möglichkeiten zur Realisierung. Ziel ist eine besonders niederdimensionale Parametrie- rung, da die Komplexität, mit verursacht durch die Anzahl der Stützstellen, eines Partikelfilters exponentiell mit der Anzahl der Freiheitsgrade wächst und dieser dadurch sehr ineffizient wird. Eine niederdimensionale Parametrierung kann beispielsweise ein analytisches Appearance- Modell eingesetzt werden, bei dem ein analytisches Modell der ganzen Verteilung verwendet wird, anstatt die Appearances direkt mit eigenen Stützstellen abzutasten. Diesbezüglich sind zwei Möglichkeiten vorgesehen:There are several ways to implement this appearance model. The aim is a particularly low-dimensional parameterization, since the complexity, caused by the number of nodes, of a particle filter grows exponentially with the number of degrees of freedom, making it very inefficient. For example, a low dimensional parameterization can be an analytic appearance model that uses an analytical model of the whole distribution instead of sampling the appearances directly with its own landmarks. There are two options for this:
1. Verwendung eines parametrischen Modells, das mittels statistischen Methoden aus Trainingsdaten gelernt wird. Dies ist im Falle von LJ- berwachungsaufgaben allerdings nur dann möglich, wenn die zu verfolgenden Objekte oder Personen zuvor eintrainiert werden können.1. Use of a parametric model, which is learned by means of statistical methods from training data. In the case of LJ monitoring tasks, however, this is only possible if the objects or persons to be tracked can be trained in advance.
2. Die Verwendung eines analytischen Modells, um eine stützstellenba- sierte Annäherung zu vermeiden. Hierzu kann beispielsweise ein sogenannter running average aus den letzten Appearances oder bevorzugt ein sogenanntes α-Blending aus der letzten Appearance und der aktuellen verwendet werden. Im Rahmen der Erfindung kann die Verfolgung von Personen und Objekten auch konturbasiert erfolgen. Die bisher beschriebenen Verfahren basieren vorrangig auf der Farberfassung von zu verfolgenden Objekten. Konturbasierte Verfolgungsverfahren können mit der Erfindung realisiert werden, die bereits beschriebene grundsätzliche Struktur des Verfahrens und der Aufbau der Smart-Kameras bleibt unberührt. Zur Implementierung eines konturbasierten Verfolgungsverfahrens beschreibt jede Stützstelle X nun eindeutig eine Kontur, beispielsweise die Kontrollpunkte eines Splines. Hierzu wird ein Spline in Bildkoordinaten erzeugt, der über das Sensorbild gelegt wird. Nun wird die Differenz dieser Konturschätzung zum aktuellen Sensorbild berechnet. Beispielsweise werden dazu, siehe Fig. 9, in insbesondere regelmäßigen Abständen entlang der Kontur Punkte betrachtet, an denen senkrecht zur Kontur der Abstand zur nächsten Kante im Sensorbild berechnet wird. Diese in Fig. 9 entlang der Kontur eingezeichneten senkrechten Linien haben eine definierbare Maximallänge, bis zu der nach einer Kante gesucht wird. Ist bis zu dieser Maximallänge keine Kante gefunden worden, so wird diese Maximallänge angenommen und so die Differenz nach oben beschränkt und der Suchbereich eingeschränkt. Die Summe oder die quadrierte Summe dieser Differenzen wird in die bisherige Gauss- Funktion eingesetzt und führt auf diese Weise zu einem eindimensionalen Differenzwert für diese Stützstelle.2. The use of an analytical model to avoid a base-based approach. For this purpose, for example, a so-called running average from the last Appearances or preferably a so-called α-Blending from the last Appearance and the current can be used. In the context of the invention, the tracking of persons and objects can also be contour-based. The methods described so far are based primarily on the color registration of objects to be tracked. Contour-based tracking methods can be realized with the invention, the already described basic structure of the method and the structure of the smart cameras remains unaffected. To implement a contour-based tracking method, each node X now clearly describes a contour, for example the control points of a spline. For this purpose, a spline is generated in image coordinates, which is superimposed over the sensor image. Now the difference of this contour estimate to the current sensor image is calculated. For example, as shown in FIG. 9, in particular at regular intervals along the contour, points are considered at which the distance to the next edge in the sensor image is calculated perpendicular to the contour. These vertical lines drawn along the contour in FIG. 9 have a definable maximum length up to which an edge is sought. If no edge has been found up to this maximum length, this maximum length is assumed, thus limiting the difference upwards and limiting the search range. The sum or the squared sum of these differences is used in the previous Gaussian function and thus leads to a one-dimensional difference value for this interpolation point.
Im Rahmen der Erfindung kann die Region-of-Interest (ROI) nur aus der Überlagerung dieser senkrechten Linien bestehen und nur diese Überlagerung der senkrechten Linien muss von der Smart-Kamera oder dem Sensor übertragen werden. Für alle Stützstellen zusammen ist also allein die Überlagerung all dieser senkrechten Linien von der Smart- Kamera anzufordern. Die Darstellung der Fig. 9 zeigt im oberen linken Bild die aus einer Stützstelle X entstehende Kontur und die entlang dieser Kontur beabstandeten Punkte. In Fig. 9 oben rechts sind dann an allen Punkten die angesprochenen senkrechten Linien eingezeichnet. In Fig. 9 unten links ist die Kontur zusammen mit den senkrechten Linien zu erkennen und in Fig. 9 unten rechts sind lediglich noch die senkrechten Linien dargestellt, die letztendlich als ROl vom Sensor anzufordern sind.In the context of the invention, the region-of-interest (ROI) can only consist of the superposition of these vertical lines and only this superposition of the vertical lines must be transmitted by the smart camera or the sensor. For all support points together, therefore, the overlay of all these vertical lines from the smart camera alone is to be requested. The illustration of FIG. 9 shows in the upper left image the contour resulting from a support point X and the points spaced along this contour. In Fig. 9 top right then the addressed vertical lines are located at all points. In 9 bottom left, the contour can be seen together with the vertical lines and in Fig. 9, bottom right, only the vertical lines are shown, which are ultimately to be requested as ROl from the sensor.
Statt einer Kontur kann auch ein Active Appearance Modell (AAM) verwendet werden, wie dies im Stand der Technik bekannt ist.Instead of a contour, an Active Appearance Model (AAM) can also be used, as is known in the art.
Die konturbasierten Verfahren können auch mit den histogrammbasierten verknüpft werden. Eine Stützstelle X besteht dann aus der Konkatenation beider Zustandsvariablen. Bei der Berechnung des Gewichts jeder Stützstelle im Messschritt werden in diesem Fall die Ergebnisse der Konturmessung und der bisherigen histogrammbasierten Messung ge- wichtet aufsummiert. Die Gewichtung kann dabei eingestellt werden.The contour-based methods can also be linked to the histogram-based. A support point X then consists of the concatenation of both state variables. When calculating the weight of each interpolation point in the measuring step, in this case the results of the contour measurement and the previous histogram-based measurement are summed up in a weighted manner. The weighting can be adjusted.
Der Zustand X kann darüber hinaus neben der Position des Objektes auch dessen Geschwindigkeit nach Richtung und Betrag enthalten, gegebenenfalls auch die winkelmäßige Ausrichtung des Objekts. Im Falle einer konturbasierten Verfolgung enthält der Zustand dann die Kodierung der Kontur, wie beschrieben etwa die Kontrollpunkte eines Splines.In addition to the position of the object, the state X can also include its speed in terms of direction and magnitude, and possibly also the angular orientation of the object. In the case of a contour-based tracking, the state then contains the coding of the contour, as described, for example, the control points of a spline.
In der Darstellung der Fig. 10 ist beispielhaft die Visualisierung des Überwachungsergebnisses durch Visualisierung der Wahrscheinlichkeitsdichtefunktion einer Person über der Zeit t dargestellt. Eine solche Visualisierung wird mittels Methoden des Volumenrenderings erzeugt und zeichnet die Bahn einer verfolgten Person nach, wobei unterschiedliche Grau- oder Farbkodierungen die Aufenthaltswahrscheinlichkeiten entlang des Pfades darstellen.In the illustration of FIG. 10, the visualization of the monitoring result by visualization of the probability density function of a person over time t is shown by way of example. Such visualization is generated by volume rendering methods and traces the trajectory of a tracked person, with different gray or color codes representing the probabilities of residence along the path.
Eine Anwendung der Erfindung kann beispielsweise in der Erkennung von verlassenen Koffern, beispielsweise in Bahnhöfen oder Flughäfen vorgenommen werden. Hierzu werden fest montierte Kameras und, wie bereits beschrieben, mehrfache Zeitskalen verwendet. Es sollen dabei Objekte erkannt werden, die auf einer Zeitskala hinzugekommen sind. Vergleichbar mit einem Bandpass werden dadurch Objekte ausgefiltert, die sich zu schnell ändern, beispielsweise herumlaufende Personen o- der Bildrauschen. Ebenso sollen zu tiefe Frequenzen ausgefiltert werden, also der Hintergrund bzw. hinreichend langsame Änderungen des Hintergrundes.An application of the invention can be made, for example, in the detection of abandoned suitcases, for example in railway stations or airports. These are fixed cameras and, like already described, uses multiple timescales. It should thereby be recognized objects that have been added on a time scale. As with a bandpass, this filters out objects that change too fast, such as people walking around or picture noise. Similarly, too low frequencies are filtered out, so the background or sufficiently slow changes in the background.
Die Erkennung von herrenlosen Koffern in einem Flughafen lässt sich in besonders vorteilhafter Weise mit der Überwachung von Personen verbinden, da es von besonderem Interesse ist, die Person, die den Koffer abgestellt hat, sowohl vor dem Abstellen aber auch danach zu verfolgen. Dazu kann das System alle im Sichtbereich der Kameras erkennbaren Personen verfolgen. Es ist dabei festzuhalten, dass diese Personen nicht alle unbedingt dem Benutzer angezeigt werden müssen. Wenn eine der verfolgten Personen beispielsweise einen Koffer abstellt, so kann das System dies sofort dem Benutzer darstellen, indem neben dem Koffer auch der Pfad der zugehörigen Person, die diesen Koffer potentiell abgestellt hat, verfolgt wird. Dargestellt wird dann sowohl der Pfad vor dem Abstellen wie auch nach dem Abstellen, da ja alle im Sichtbereich liegenden Personen vorsorglich verfolgt wurden. Dem Benutzer kann dadurch lediglich die wichtige Information angezeigt werden, ohne diesen mit für die Anwendung uninteressanten Informationen zu überfluten. Der Benutzer kann dadurch sofort die „was?"-Frage klären, nämlich ein verlassener Koffer, und die „wo?"-Frage im dreidimensionalen Visualisierungsmodell anschaulich verfolgen. Dem Sicherheitspersonal im Flughafen kann diese Visualisierung auf einem mobilen Visualisierungs- client eingebettet in ein dreidimensionales Modell eingeblendet werden und - da sie selbst auch vom System verfolgt und somit lokalisiert werden - eine Routenplanung zur Zielperson oder zum Koffer berechnet wird. Diese Routenplanung wird dabei kontinuierlich upgedatet, da die Bewegung der verfolgten Zielperson ja in Echtzeit einfließt. Weitere Aspekte und Merkmale der Erfindung ergeben sich aus der folgenden wissenschaftlichen Abhandlung, die darüber hinaus auch realisierte Beispiele beschreibt. The detection of stray suitcases in an airport can be combined in a particularly advantageous manner with the monitoring of persons, since it is of particular interest to track the person who has parked the suitcase, both before parking but also afterwards. For this purpose, the system can track all recognizable persons in the field of view of the cameras. It should be noted that these persons do not necessarily have to be displayed to the user. For example, if one of the persecuted persons turns off a suitcase, the system can promptly present it to the user by following the suitcase and the path of the associated person who has potentially parked that suitcase. Then both the path before parking as well as after parking is shown, since all lying in the field of view persons were followed as a precaution. The user can thereby be shown only the important information without flooding it with information of no interest to the application. The user can thus immediately clarify the "what?" Question, namely an abandoned suitcase, and clearly follow the "where?" Question in the three-dimensional visualization model. The security staff at the airport can visualize this visualization embedded in a three-dimensional model on a mobile visualization client and, since they are also tracked by the system and thus localized, route planning to the target person or suitcase is calculated. This route planning is continuously updated, since the movement of the tracked target person so flows in real time. Further aspects and features of the invention will become apparent from the following scientific paper, which also describes also realized examples.
Intelligente Kamera zur Verfolgung von Objekten in EchtzeitIntelligent camera for tracking objects in real time
Sven FleckSven Fleck
WSI/GRIS, Universität Tübingen Sand 14, 72076 Tübingen, GermanyWSI / GRIS, University of Tübingen Sand 14, 72076 Tübingen, Germany
Tel.: +(49) 7071 2970435, Fax: +(49) 7071 295466, email: fleck@gris.uni-tuebingen.de web: www.gris.uni-tuebingen.dePhone: + (49) 7071 2970435, Fax: + (49) 7071 295466, email: fleck@gris.uni-tuebingen.de web: www.gris.uni-tuebingen.de
Überblickoverview
Heutzutage finden Anwendungen zur Objektυerfolgung unter Verwendung von Netzwerken mit verteilten Sensoren immer größeren Anklang, sowohl im Bereich der Überwachungstechnik (Flughäfen, Bahnhöfe, Museen, öffentliche Einrichtungen) als auch im Bereich der industriellen Bildυerarbeitung (sichtgeführte Roboter ("Visual Serυoing") und Fabrikautomatisierung). Traditionelle, zentralisierte Ansätze bergen mehrere Nachteile wie limitierte Übertragungsbandbreiten, hohe Rechenzeitanforderungen und somit begrenzte örtliche Auflösungen und Bildwiederholraten der verwendeten Kameras.Today, object tracking applications using distributed sensor networks are becoming increasingly popular, both in surveillance technology (airports, train stations, museums, public facilities) and in industrial image processing (visual control and factory automation). , Traditional, centralized approaches have several disadvantages such as limited transmission bandwidths, high computation time requirements and thus limited local resolutions and refresh rates of the cameras used.
In diesem Artikel wird eine netzwerkfähige intelligente Kamera ("Smart Camera") zur probabilistischen Verfolgung von Objekten präsentiert. Sie ist fähig, Objekte in Echtzeit zu verfolgen und demonstriert einen Ansatz, der sehr sparsam mit der Übertragungs-Bandbreite umgeht, da die Kamera nur die Ergebnisse der Verfolgung übertragen muß, welche auf einer höheren Abstraktions ebene liegen.This article presents a network-ready intelligent camera ("smart camera") for probabilistic tracking of objects. It is capable of tracking objects in real time and demonstrates an approach that is very sparing with transmission bandwidth, since the camera only has to transmit the results of the tracking, which are at a higher level of abstraction.
1. Einführung1. Introduction
In heutigen Bildverarbeitungssystemen versteht man unter Kameras typischerweise nur einfache Sensoren. Die Datenverarbeitung wird erst vollzogen, nachdem der komplette rohe Videostrom über eine teure und oftmals in der Distanz beschränkte Verbindung zu einer zentralen Verarbeitungseinheit (z.B. zu einem PC) übertragen ist. Aus Sicht des Autors erscheint es jedoch sinnvoller, die Verarbeitung auch physikalisch in der Kamera selbst durchzuführen: Was algorithmisch zur Kamera gehört soll auch physikalisch in der Kamera berechnet werden. Die Idee besteht also darin, die Information dort zu verarbeiten, wo sie auftritt - direkt am Sensor - und nur die Ergebnisse zu übertragen, die so auf einer höheren Abstraktionsebene liegen. Dies lehnt sich an dem zunehmenden Trend von in sich geschlossenen und netzwerkfähigen Kameras an.In today's image processing systems typically only simple sensors are understood to be cameras. Data processing is accomplished only after the complete raw video stream is transmitted over an expensive and often limited distance link to a central processing unit (e.g., a personal computer). From the author's point of view, however, it seems more sensible to carry out the processing physically in the camera itself: what belongs algorithmically to the camera should also be calculated physically in the camera. The idea, then, is to process the information where it occurs - directly at the sensor - and to transmit only the results that are at a higher level of abstraction. This is due to the increasing trend of self-contained and network-enabled cameras.
Im Folgenden wird erstmalig ein Prototyp einer netzwerkfähigen intelligenten Kamera zur probabilistischen Objektverfolgung in Echtzeit vorgestellt. Objektverfolgung spielt eine zentrale Rolle für viele Anwendungen, insbesondere innerhalb der Robotik (sichtgeführte Roboter, RoboCup-Roboterfußball), Überwachungstechnik (Personenverfolgung) als auch bei der Mensch-Maschme-Schnittstelle, bei der Motion-Capture-Bewegungsverfolgung, im Bereich der Augmented Reality und für 3D-Fernsehen.In the following, a prototype of a network-capable intelligent camera for probabilistic object tracking in real time will be presented for the first time. Object tracking plays a central role in many applications, in particular within robotics (Robotic robotic robots, RoboCup robot football), surveillance technology (person tracking) as well as in the human-machine interface, in motion-capture motion tracking, in the field of augmented reality and for 3D television.
Partikel-Filter haben sich heutzutage als eine wichtige Art der Objektverfolgung etabliert [1, 2, 3]. Die verwendeten visuellen Modalitäten beinhalten Form [3], Farbe [4, 5, 6, 7] oder eine Kombination von Modalitäten [8, 9]. Das Partikel-Filter- Verfahren wird in Abschnitt 2 beschrieben. Hier wird ein Ansatz basierend auf Farbhistogrammen verwendet, der speziell auf die Anforderungen zur technischen Realisierung eingebettet in der Kamera angepasst wurde. Die Architektur der intelligenten Kamera wird in Abschnitt 3 beschrieben. Anschließend werden verschiedene Vorteile des vorgeschlagenen Ansatzes diskutiert. Experimentelle Ergebnisse dieses Ansatzes werden in Abschnitt 4 illustriert, anschließend folgt eine Zusammenfassung. 2. Partikel-FilterParticle filters have become established as an important type of object tracking today [1, 2, 3]. The visual modalities used include form [3], color [4, 5, 6, 7], or a combination of modalities [8, 9]. The Particle Filtering procedure is described in Section 2. Here, an approach based on color histograms is used, which has been specially adapted to the requirements for technical implementation embedded in the camera. The architecture of the smart camera is described in Section 3. Subsequently, various advantages of the proposed approach will be discussed. Experimental results of this approach are illustrated in Section 4, followed by a summary. 2. Particle filter
Partikel-Filter können mit mehreren gleichzeitigen Hypothesen und mit nichtlinearen Systemen umgehen. In Anlehnung an die Notation von Isard und Blake [3] definiert Zt alle Messungen {zι, ..., zt} bis zum Zeitpunkt t, Xt beschreibt den. Zustandsvektor zur Zeit t der Dimension fc (Position, Geschwindigkeit etc. des Zielobjektes). Partikel-Filter basieren auf dem Theorem von Bayes, um zu jedem Zeitschritt die A-Posteriori Wahrscheinlichkeitsdichtefunktion (pdf) unter Verwendung aller vorhandener Information zu berechnen:Particle filters can handle multiple simultaneous hypotheses and nonlinear systems. Following the notation of Isard and Blake [3], Z t defines all measurements {zι, ..., z t } until the time t, X t describes the. State vector at time t of dimension fc (position, velocity etc. of the target object). Particle filters are based on Bayes' theorem to obtain the a posterior probability density function (pdf) at each time step. to calculate using all available information:
P(Xt]Zt) = (1) p{zt)P (Xt] Zt) = (1) p {zt)
Diese Gleichung wird wie folgt rekursiv ausgewertet. Die Idee des Partikel-Filters ist es, die Wahrscheinlichkeits("Samp- Gewicht π, wobei bilden Schritte werden This equation is recursively evaluated as follows. The idea of the particle filter is to increase the probability ("samp" weight π, where form steps become
Abbildung 1. Partikel-Filter SchleifeFigure 1. Particle filter loop
• Auswahlschritt Zuerst wird das kumulative Histogramm über den Gewichten aller Stützstellen berechnet. Anschließend wird, abhängig vom Gewicht einer jeden Stützstelle Tr^1 , die Anzahl Nachkommen abhängig von seiner relativen Gewichtung im kumulativen Histogramm bestimmt.• Selection step First the cumulative histogram is calculated over the weights of all nodes. Subsequently, depending on the weight of each support point Tr ^ 1 , the number of descendants is determined depending on its relative weighting in the cumulative histogram.
Vorhersageschritt Im Vorhersageschritt wird der neue Zustand Xt berechnet:Prediction Step In the prediction step, the new state Xt is calculated:
Verschiedene Bewegungsmodelle zur Implementierung von p(Xt\Xt-ι) sind denkbar. HierDifferent models of motion for the implementation of p (X t \ Xt-ι) are conceivable. Here
• Messungsschritt Im Messungsschritt wird der neue Zustand Xt abhängig von der neuen Messung zt (d.h. abhängig vom neuen Kamera-Sensorbild) gewichtet. • Measurement step In the measurement step, the new state X t is weighted as a function of the new measurement z t (ie depending on the new camera sensor image).
P(Xt]Zt) = P(Zt]Xt)P(Xt]Zt-!) (3)P (Xt] Zt) = P (Zt] Xt) P (Xt] Zt-!) (3)
Der Messungsschritt (3) ergänzt den Vorhersageschritt (2), zusammen implementieren sie das Bayes-Theorem (I)-The measuring step (3) supplements the prediction step (2), together they implement the Bayes theorem (I) -
2.1 Partikel-Filter basierend auf Farbhistogrammen2.1 Particle filter based on color histograms
Der Messungsschritt im Kontext von FarbverteilungenThe measurement step in the context of color distributions
Wie bereits erwähnt wird hier ein Partikel-Filter- Verfahren beschrieben, das auf Farbhistogrammen arbeitet. Dies ermöglicht eine rotationsinvariante Objektverfolgung und ermöglicht Robustheit gegenüber teilweisen Verdeckungen und Verformungen des Zielobjektes. Anstatt im Standard-RGB-Farbraum zu arbeiten, wird hier ein HSV- Farbmodell verwendet; Ein 2D-Hue-Saturation-Histogramm in Verbindung mit einem 1D-Value-Histogramm wurde entwickelt als Raum zur Repräsentation der Ansicht ("Appearance") des Zielobjektes. Dies bewirkt die folgenden Spezialisierungen des oben beschriebenen abstrakten Messungsschrittes. Von der Bildregion ("Region of Interest" — ROI) zum HistogrammAs already mentioned, a particle-filtering method is described here which works on color histograms. This enables rotationally invariant object tracking and enables robustness against partial occlusions and deformations of the target object. Instead of working in the standard RGB color space, an HSV color model is used here; A 2D Hue Saturation Histogram in conjunction with a 1D Value Histogram has been developed as a space to represent the Appearance of the target. This causes the following specializations of the above-described abstract measurement step. From the image region ("Region of Interest" - ROI) to the histogram
Jede Stützstelle Sj induziert eine Bildregion ("Region of Interest" - ROI) Pj1 ' um seine örtliche Position im Bildraum herum. Die Größe der Bildregion (Hx, Hy) ist hierbei benutzerdefiniert. Um die Robustheit der Farbverteilungen im Fall von Verdeckungen, oder wenn Hintergrundpixel in der Bildregion enthalten sind, weiter zu erhöhen, wird eine Gewichtung abhängig von der örtlichen Distanz zum Zentrum der Bildregion verwendet. Hier wird folgende Gewichtungsfunktion eingesetzt:Each node S j induces a region of interest (ROI) Pj 1 'around its local position in the image space. The size of the image region (H x , H y ) is user-defined. In order to further increase the robustness of the color distributions in the case of occlusions, or if background pixels are included in the image region, weighting is used depending on the local distance to the center of the image region. The following weighting function is used here:
, , . / 1 - r2 T < 1 *M = \ 0 sonst wobei r die Distanz zum Zentrum der Bildregion bezeichnet. Wenn dieser Kernel verwendet wird, erhält man folgende Farbverteilung für die Stützstelle,,, / 1 - r 2 T <1 * M = \ 0 otherwise where r denotes the distance to the center of the image region. If this kernel is used, you get the following Color distribution for the support point
HiStOxU (b) = f ∑ k ßW ~ ^ ) δ[I(w) - b]HiStO x U (b) = f Σk β W ~ ^) δ [I (w) - b]
mit Bin-Nummer &, Pixel-Position w innerhalb der Bildregion (ROI), Bandbreite a = W H% + H^ und Normalisie rung /, wobei Xf den Teil vom Zustand X\ bezeichnet, der die Position (x, y) im Bild beschreibt. Die 5-Funktion stellt sicher, daß jeder Summand dem zugehörigen Bin zugewiesen wird, welcher durch seine Bildintensität I definiert ist, wobei I einmal im iJ5-Raum, einmal im V-Raum zu verstehen ist. Die Repräsentation des Zielobjektes wird völlig analog berechnet, so daß nun ein Vergleich von diesem mit dem Histogramm jeder Stützstelle im Histogrammraum vorgenommen werden kann. Vom Histogramm zum neuen Gewicht πwith bin number &, pixel position w within the image region (ROI), bandwidth a = WH% + H ^ and normalization tion /, where X f denotes the part of the state X \ that describes the position (x, y) in the image. The 5-function ensures that each summand is assigned to the associated bin, which is defined by its image intensity I, where I is to be understood once in iJ5 space, once in v-space. The representation of the target object is calculated completely analogously, so that now a comparison of this with the histogram of each support point in Histogrammraum can be made. From the histogram to the new weight π
Nun wird das Histogramm des Zielobjektes mit dem Histogramm jeder Stützstelle verglichen: Für diesen Zweck wird hier das Bhattacharyya-Ahnlichkeitsrriaß [4] verwendet, sowohl im HS- wie auch im ^-Histogramm einzeln.Now, the histogram of the target object is compared with the histogram of each well: for this purpose, the Bhattacharyya similarity [4] is used here, both in the HS and in the ^ histogram singly.
wobei Pj und q die Histogramme der Stützstellen bzw. des Zielobjektes bezeichnen (jeweils im HS- und im V- Histogrammraum). Je mehr also die einer Stützstelle zugehörige Bildregion dem Zielobjekt ähnelt, desto größer wird p. Die beiden Ähnlichkeitswerte pjjg und Pv werden anschließend mittels Alpha-Blending gewichtet und so zu einem Ähnlichkeitswert vereinigt. Die Anzahl Bins ist variabel, ebenso der Gewichtungsfaktor des Alpha-Blendings. Die Experimente wurden mit 10 x 10 + 10 = 110 Bins und einer Gewichtung von 70 : 30 HS : V (d.h. zwischen PHS und pv) durchgeführt. Als letzter Schritt wird eine Gauß- Verteilung mit benutzerdefinierbarer Varianz σ angewendet, um das neue Gewicht für die Stützstelle sy zu erhalten' where P j and q denote the histograms of the landmarks or the target object respectively (in HS and V histogram space respectively). Thus, the more the image region associated with a well is similar to the target, the larger p. The two similarity values pjjg and Pv are then weighted by means of alpha blending and thus combined to a similarity value. The number of bins is variable, as is the weighting factor of alpha blending. The experiments were performed with 10 x 10 + 10 = 110 bins and a weight of 70:30 HS: V (ie between PHS and pv). As a last step, a Gaussian distribution with user-definable variance σ is applied in order to obtain the new weight for the support point sy '
Eine geringe Bhattacharyya-Distanz führt also zu einem hohen Gewicht so daß die zugehörige Stützstelle bei der nächsten Iteration eher bevoizugt wirdA small Bhattacharyya distance thus leads to a high weight so that the associated support point is more likely to be voiced at the next iteration
3. Smart Camera System3. Smart Camera System
3.1 Hardware Beschreibung3.1 Hardware description
Zur Demonstration des Prototypen wird hier eine mvBlueLYNX 420CX Kamera von Matrix Vision [10] wie in Abb. 2 gezeigt als Basis verwendet Die Kamera beinhaltet einen Sensor, einen FPGA, einen Prozessor undTo demonstrate the prototype, a mVBlueLYNX 420CX camera from Matrix Vision [10] is used as a base, as shown in Fig. 2. The camera contains a sensor, an FPGA, a processor and
Abbildung 2. Das Smart Camera SystemFigure 2. The Smart Camera System
eine Ethernet-Netzwerkschnittstelle. Genauer gesagt beinhaltet sie einen CCD-Sensor mit VGA-Auflösung (Progressive Scan) mit einem Bayer-Farb-Mosaik Ein Xilinx Spartan-IIE FPGA wird zur Low-Level- Verarbeitung benutzt. Außerdem ist ein 200 MHz Motorola PowerPC Prozessor mit MMU- und FPU-Einheit enthalten, auf dem Embedded Linux betrieben wird Er ist mit 32 MB SDRAM- und 36 MB FLASH-Speicher verbunden Des weiteren beinhaltet die Kamera eine 100 MBit/s Ethernet Schnittstelle, einerseits zur Aktualisierung im Feld ("Field Upgradability" ) , andererseits zur Übertragung der Ergebnisse der Objektverfolgung nach außen Zur direkten Verbindung mit Industriesteuerungen sind des weiteren mehrere Ein- /Ausgänge vorhanden. Außerdem sind ein analoger Video- Ausgang und zwei serielle Schnittstellen vorhanden, an denen Monitor und Maus zu Debugging- und Zielobjekt-Initialisierungszwecken angeschlossen werden können. Die Kamera ist nicht nur als Prototyp unter Laborbedingungen gedacht, sie wurde auch entwickelt, um rauhen Industrieumgebungen Rechnung zu tragen 3.2 Kameraver folgungs-Architekturan Ethernet network interface. More specifically, it incorporates a Bayer progressive color CCD (Progressive Scan CCD) with a Bayer color mosaic. A Xilinx Spartan II FPGA is used for low-level processing. It also includes a 200MHz Motorola PowerPC processor with MMU and FPU unit running embedded Linux. It is connected to 32MB SDRAM and 36MB FLASH memory. The camera also includes a 100Mbps Ethernet interface. on the one hand for updating in the field ("Field Upgradability"), on the other hand for transmitting the results of the object tracking to the outside For direct connection with industrial controls also several inputs / outputs are available. There is also an analog video output and two serial ports where the monitor and mouse can be connected for debugging and target initialization purposes. The camera is not only intended as a prototype under laboratory conditions, it was also developed to cope with harsh industrial environments 3.2 Camera Tracking Architecture
Abb. 3 zeigt die Architektur der Smart Camera.Fig. 3 shows the architecture of the smart camera.
Abbildung 3. Smart Camera ArchitekturFigure 3. Smart Camera Architecture
Ausgabe der Smart CameraOutput of the smart camera
In jeder Iteration wird folgendes ausgegeben:In each iteration, the following is output:
• Die Wahrscheinlichkeitsdichtefunktion (pdf) approximiert durch die Stützstellen-Menge St = {(Zt W, τrt W), i = 1..N}. Dies führt also zu (N * (k + I)) Werten.• The probability density function (pdf) approximated by the interpolation point set S t = {(Z t W , τr t W ), i = 1..N}. This leads to (N * (k + I)) values.
• Der Erwartungs-Zustand (Mean-Estimate-State) E[St] = ∑)i=i 7r t -^t und somit ein Wert.• The mean-state-state E [St] = Σ) i = i 7r t - ^ t and thus a value.
• Der Maximum-Likelihood-Zustand in Kombination mit der Konfidenz π| , also zwei Werte.• The maximum likelihood state in combination with the confidence π | So two values.
Übertragungtransmission
Die Ausgabe der Smart Camera wird über Ethernet mittels Sockets übertragen. Auf der PC-Seite können diese Daten dann in Echtzeit visualisiert und auf Datenträger zur späteren Auswertung gespeichert werden.The output of the smart camera is transmitted via Ethernet using sockets. On the PC side, this data can then be visualized in real time and stored on data carriers for later evaluation.
3.3 Vorteile3.3 advantages
Dieser Smart-Camera-Ansatz bietet vielfältige Vorteile:This smart camera approach offers many advantages:
• Geringe Bandbreitenanforderungen der Kamera. Die rohen Bilddaten werden direkt in der Kamera verarbeitet. Somit muß nur die approximierte Wahrscheinlichkeitsdichtefunktion (pdf) des Zustandes des Zielobjektes von der Kamera übertragen werden, was nur relativ wenige Parameter erfordert. Dies ermöglicht die Nutzung von Standardnetzwerken (z.B. Ethernet) mit praktisch unbegrenzter Reichweite. Hier summieren sich die gesamten zu übertragenden Daten auf (N * (k + 1) + 3) Werte pro Frame. Wenn etwa N = 100 Stützstellen verwendet werden und kein Geschwindigkeitsmodell verwendet wird (k = 2), sind 303 Werte pro Frame zu übertragen. Dies ist verhältnismäßig wenig im Vergleich dazu wenn alle Pixel des rohen Bildes übertragen werden würden: Beispielsweise werden zur rohen Übertragung in VGA-Auflösung selbst ohne Bayer-Mosaik-Farbumrechnung schon etwa 307000 Pixelwerte pro Frame benötigt. Selbst bei (moderaten) 15 Bildern/s ist hierfür eine Übertragungsrate von ca. 37 MBit/s erforderlich, was etwa 1/3 der Standard- Bandbreite von 100 MBit/s entspricht.• Low bandwidth requirements of the camera. The raw image data is processed directly in the camera. Thus, only the approximated probability density function (pdf) of the state of the target object has to be transmitted by the camera, which requires relatively few parameters. This allows the use of standard networks (eg Ethernet) with virtually unlimited range. Here, the total data to be transferred adds up to (N * (k + 1) + 3) values per frame. If about N = 100 nodes are used and no velocity model is used (k = 2), 303 values per frame are to be transmitted. This is relatively little compared to when all the pixels of the raw image For example, for raw transfer to VGA resolution, even without Bayer mosaic color conversion, about 307,000 pixel values per frame are already needed. Even at (moderate) 15 fps, this requires a transfer rate of about 37 Mbps, which is about 1/3 of the standard bandwidth of 100 Mbps.
• Kein Berechnungen außerhalb der Kamera notwendig. Netzwerkfähige externe Geräte (PCs oder Maschinensteuerungen in der Automatisierungstechnik) müssen sich nicht mehr mit der Low-Level-Datenver- arbeitung beschäftigen, die logisch gesehen zur Kamera gehört. So können auf diesen stattdessen High-Level- Anwendungen realisiert werden, die auf den Ergebnissen (auch mehrerer) solcher Smart Gameras basieren. Auch sind mobile Geräte (PDAs/Handys) verwendbar, die z.B. über Funk-Netzwerkverbindung etwa im Falle einer Überwachungsanwendung die Ausgabe der Objektverfolgung aller Smart Cameras anzeigen können.• No calculations outside the camera necessary. Network-capable external devices (PCs or machine control systems in automation technology) no longer have to deal with low-level data processing, which logically belongs to the camera. In this way, high-level applications based on the results (even more) of such smart cameras can be realized instead. Also, mobile devices (PDAs / cell phones) usable e.g. For example, in the case of a monitoring application, they can display the output of the object tracking of all smart cameras via wireless network connection.
Außerdem ist es möglich, die Smart Camera direkt an eine Maschinensteuerung anzuschließen (selbst wenn diese nicht dedizierte Ressourcen für die Datenverarbeitung externer Daten besitzt), etwa an eine Robotersteuerung zur sichtgeführten Montage ("Visual Servoing"). Für diesen Zweck reicht es sogar aus, allein den Erwartungs-Zustand (Mean-Estimate-State) oder den Maximum-Likelihood- Zustand inklusive der Konfidenz an deren Eingänge zu übertragen um die Maschine unter Echtzeitbedingungen anzusteuern.In addition, it is possible to connect the smart camera directly to a machine controller (even if it does not have dedicated resources for data processing external data), such as a "visual servoing" robot control. For this purpose, it is even sufficient to transmit only the mean-estimate-state or the maximum-likelihood state including the confidence at their inputs in order to control the machine under real-time conditions.
• Höhere Auflösung und Bildwiederholrate der Kamera. Da der rohe Videostrom bei dem vorgeschlagenen Ansatz nicht mehr durch die Bandbreite der Verbindung nach außen beschränkt ist, können Sensoren mit höherer örtlicher und zeitlicher Auflösung verwendet werden, da aufgrund der Nähe der Verarbeitungseinheit direkt am Sensor eine höhere Übertragungsgeschwindigkeit technisch viel einfacher realisierbar ist als außerhalb der Kamera. Die konventionelle Technik (Kamera + externer Rechner (PC)) hingegen birgt hier folgende Nachteile:• Higher resolution and refresh rate of the camera. Since the raw video stream in the proposed approach is no longer limited by the bandwidth of the connection to the outside, sensors with higher spatial and temporal resolution can be used, because due to the proximity of the processing unit directly to the sensor, a higher transmission speed is technically much easier to implement than outside the camera. The conventional technique (camera + external computer (PC)), however, has the following disadvantages:
1. Wenn immer das komplette Bild in voller Auflösung auf den PC übertragen werden würde, um die gesamte Verarbeitung dort auszuführen, werden die Bandbreitenanforderungen heutiger Netzwerkverbindungen schnell überschritten. Dies gilt umso mehr bei Multi-Kamera-Systemen, da diese sich die Netzwerkbandbreite teilen müssen. Werden hingegen Standard-Kameraverbindungen verwendet werden, die ja höhere Bandbreiten bieten (etwa CameraLink), ist die Distanz zur Kamera auf wenige Meter limitiert (ganz abgesehen davon, daß aufgrund des zentralen Hosts gar kein dezentrales Netzwerk entsteht).1. Whenever the entire image would be transferred to the PC in full resolution to do all the processing there, the bandwidth requirements of today's network connections are quickly exceeded. This is even more the case with multi-camera systems, as they have to share the network bandwidth. If, on the other hand, standard camera connections are used, which offer higher bandwidths (such as CameraLink), the distance to the camera is limited to a few meters (quite apart from the fact that there is no decentralized network due to the central host).
2. Wenn nur die aus Sicht des Partikel-Filter-Verfahrens interessanten (also durch die Stützstellen induzierten) Bildregionen (ROIs) übertragen würden, wird die Verbindung zwischen Kamera und PC zum Teil der Rückkopplungsschleife des Objektverfolgungsverfahrens. Nichtdeterministische Netzwerk-Effekte können dann bewirken, daß die Vorhersage des Objektverfolgungsverfahrens durch den Partikel-Filter, entsprechend den Zuständen der Stützstellen, d.h. ROIs, gar nicht mehr synchron mit der "echten Welt" läuft und so an falschen Stellen gemessen wird.2. If only the image regions (ROIs) that are interesting from the point of view of the particle-filtering process (ie, those induced by the interpolation points) were transmitted, the connection between camera and PC becomes part of the feedback loop of the object tracking process. Nondeterministic network effects may then cause the prediction of the object tracking process by the particle filter to be performed according to the states of the nodes, i. ROIs, no longer in sync with the "real world" is running and measured in the wrong places.
• Multi-Kamera-Systeme. Als Folge obiger Vorteile ermöglicht dieser Ansatz eine optimale Skalierung mit der Anzahl Kameras. Dies ist wichtig, damit Multi-Kamera-Systeme in einer dezentralen Infrastruktur zusammenarbeiten können, wie sie etwa bei der Überwachung von Flughäfen auftreten.• multi-camera systems. As a result of the above advantages, this approach allows for optimal scaling with the number of cameras. This is important for multi-camera systems to work together in a decentralized infrastructure, such as airport surveillance.
• In sich geschlossenes System mit kleinem Formfaktor. Durch Einbettung des Verfahrens in die Kamera entsteht ein in sich abgeschlossenes System mit sehr kompaktem Formfaktor. So kann auch eine Installation an Orten mit beschränkten Platzbedingungen erfolgen, oder etwa direkt an einer Roboterhand.• Self-contained system with small form factor. Embedding the process in the camera creates a self-contained system with a very compact form factor. Thus, an installation in places with limited space can be done, or about directly on a robot hand.
• Parametrierbarkeit. Die Implementierung erlaubt eine Parametrierbarkeit des Partikel-Filters in weiten Bereichen. Dies beinhaltet die Anzahl Stützstellen N, die Größe der Bildregion (ROI) [Hx, Hy), die Anzahl der Bins im Histogramm (in H, S, V), der Faktor für das Mischungsverhältnis HS + V (zwischen Hue- Saturation (pπs) und Value (py)), der Varianz- Vektor zur Diffusion im Bewegungsmodell, die Varianz zur Bhattacharyya-Gewichtung und die Kombination der Bewegungsmodelle.• Parameterizability. The implementation allows parameterization of the particle filter in a wide range. This includes the number of nodes N, the size of the image region (ROI) [H x , Hy), the number of bins in the histogram (in H, S, V), the factor for the mixing ratio HS + V (between hue saturation ( pπs) and Value (py)), the variance vector for diffusion in the motion model, the variance for the Bhattacharyya weighting and the combination of the motion models.
• Vorteile des Partikel-Filter- Verfahrens. Ein auf einem Kaiman-Filter beruhendes Verfahren eingebettet in eine Smart Camera würde ähnliche Vorteile bieten wie die bisher genannten. Jedoch weist ein solches Verfahren mehrere Nachteile auf, da es nur unimodale Wahrscheinlichkeitsdichtefunktionen (pdfs) und lineare Modelle handhaben kann. Ein Partikel-Filter- Verfahren hingegen approximiert die von der Kamera auszugebende - potentiell beliebig geformte - Wahrscheinlichkeitsdichtefunktion (pdf) effizient durch Stützstellen, so daß nur eine moderat höhere Übertragungsbandbreite gegenüber einem Kaiman-Filter- Verfahren erforderlich ist. Dagegen ist der Robustheitsgewinn immens.• Advantages of the Particle Filtering process. A method based on a Kalman filter embedded in a smart camera would offer similar advantages as the previously mentioned. However, such a method has several disadvantages, as it can handle only unimodal probability density functions (pdfs) and linear models. A particle-filter method on the other hand approximates the probability density function (potentially arbitrarily shaped) to be output by the camera (pdf) efficient by supporting points, so that only a moderately higher transmission bandwidth compared to a Kalman filter method is required. In contrast, the robustness gain is immense.
4. Ergebnisse4. Results
4.1 Experimentelle Ergebnisse4.1 Experimental results
Im Folgenden werden einige Ergebnisse beschrieben. Diese bilden jedoch nur ein Ausschnitt von dem was auf der Projekt- Webseite [11] in höherer Qualität verfügbar ist. Im ersten Experiment wird die Kamera mit einem Würfel- Objekt initialisiert. Dazu wird sie durch Präsentieren des Objektes vor der Kamera trainiert, sie speichert die zugehörige Farbverteilung als Referenz des Zielobjektes ab. Die Verfolgungsleistung war sehr zufriedenstellend: Die Kamera kann das Zielobjekt bei einer Bildwiederholrate von 15 Bilder/s und einer Sensoraufiösung von 640x480 Punkten robust über die Zeit hinweg verfolgen. Um eine höhere Rechenzeiteffizienz zu erreichen, arbeitet das Verfahren direkt auf den rohen und somit durch das Bayer-Mosaik noch immer farbgefilterten Pixeln: Anstatt zuerst eine teure Bayer-Mosaik-Farbumrechnung vorzunehmen und dann letztlich doch nur das Histogramm darüber zu verwenden, welches keine örtliche Information enthält, wird hier jede Vier-Pixel-Bayer-Nachbarschaft als ein RGB- Pixel interpretiert. (Dabei werden die beiden Grünwerte gemittelt.) Dies führt zu einer QVGA-Auflösung als Eingabe für das Verfahren zur Objektverfolgung. Die gesamten Bandbreitenanforderungen der Kamera sind sehr moderat, es werden nur ca. 30 kB/s benötigt (bei der Verwendung von 100 Stützstellen). Im ersten Experiment wird ein Würfel verfolgt. Dieser wird zuerst vertikal, dann horizontal und anschließend auf einer Kreisbahn bewegt. Die von der Kamera ausgegebene approximierte Wahrscheinlichkeitsdichtefunktion (pdf) über der Zeit t ist in Abb. 4 illustriert, projiziert auf x- und y-Richtung.Here are some results. However, these are only a part of what is available on the project website [11] in higher quality. In the first experiment, the camera is initialized with a cube object. For this she is trained by presenting the object in front of the camera, she saves the associated color distribution as a reference of the target object. The tracking performance was very satisfactory: the camera can track the target object robustly over time at a refresh rate of 15 fps and a sensor resolution of 640x480 pixels. To achieve greater computational time efficiency, the process works directly on the raw and thus still color-filtered pixels through the Bayer mosaic: Instead of first making an expensive Bayer mosaic color conversion and then ultimately only using the histogram over it, which is not local Contains information, each four pixel Bayer neighborhood is interpreted as an RGB pixel. (The two green values are averaged.) This results in a QVGA resolution as input to the object tracking method. The total bandwidth requirements of the camera are very moderate, only about 30 kB / s are needed (when using 100 nodes). In the first experiment, a cube is tracked. This is moved first vertically, then horizontally and then on a circular path. The approximated probability density function output by the camera (pdf) over time t is illustrated in Fig. 4, projected in the x and y directions.
Abbildung 4. Wahrscheinlichkeitsdichtefunktion pdf zur Iterationszeit t. Links: x- Komponente, Rechts: y-Komponente.Figure 4. Probability density function pdf at the iteration time t. Left: x component, Right: y component.
Ausgehend von dieser Abbildung beleuchtet Abb. 5 die Kreisbewegung innerhalb der Würfelsequenz im Detail. Dazu ist zu verschiedenen Zeitpunkten je ein Screenshot der aktuellen Positionen der Stützstellen in Verbindung mit ihren Gewichten gegeben. Hierbei ist zu erwähnen, daß die Tatsache, daß die Kamera hier statisch montiert ist, nicht ausgenutzt worden ist, die präsentierte Leistung wird also bereits erzielt ohne eine Hintergrundsegmentierung als Vorverarbeitung vorzunehmen.Starting from this figure, Fig. 5 illuminates the circular motion within the cube sequence in detail. For this purpose, a screenshot of the current positions of the interpolation points in conjunction with their weights is given at different times. It should be noted that the fact that the camera is mounted statically here, has not been exploited, so the performance presented is already achieved without a background segmentation as preprocessing.
Im zweiten Experiment wird das Verhalten der Smart Camera im Kontext von Überwachungsanwendungen untersucht: Die Smart Camera wird mit dem Gesicht einer Person als Zielobjekt trainiert. Es stellt sich heraus, daß auch das Gesicht erfolgreich in Echtzeit verfolgt werden kann. Abb. 6 zeigt einige Ergebnisse während des Betriebs.In the second experiment, the behavior of the smart camera is examined in the context of surveillance applications: The smart camera is trained with the face of a person as a target object. It turns out, that also the face can be successfully tracked in real time. Fig. 6 shows some results during operation.
Abbildung 5. Kreisbewegungssequenz von Experiment #1. Bild (Obere Zeile) und approximierte Wahrscheinlichkeitsdichtefunktion (pdf) (Untere Zeile) bei Iteration #100, 109, 113, 125, 129, 136, 141. Stützstellen sind in grün gezeigt, der Erwartungswert ist als gelber Stern markiert.Figure 5. Circular motion sequence of Experiment # 1. Image (upper line) and approximated probability density function (pdf) (lower line) at iteration # 100, 109, 113, 125, 129, 136, 141. Interpolation points are shown in green, the expected value is marked as a yellow star.
Abbildung 6. Experiment #2: Gesichtsverfolgungs-Sequenz. Bild (Obere Zeile) und approximierte Wahrscheinlichkeitsdichtefunktion (pdf) (Untere Zeile) bei Iteration #18, 35, 49, 58, 79.Figure 6. Experiment # 2: Face Tracking Sequence. Image (top line) and approximated probability density function (pdf) (lower line) at iteration # 18, 35, 49, 58, 79.
5. Zusammenfassung5. Summary
In diesem Artikel wurde eine Smart Camera zur Echtzeit-Objektverfolgung präsentiert. Durch die Verwendung von Partikel-Filtern auf HSV-Farbverteilungen bietet sie robuste Verfolgungsleistung, da sie mit mehreren Hypothesen gleichzeitig umgehen kann. Dennoch ist ihre Bandbreitenanforderung sehr gering, daThis article featured a smart camera for real-time object tracking. By using particle filters on HSV color distributions, it provides robust tracking performance because it can handle multiple hypotheses simultaneously. Nevertheless, their bandwidth requirement is very low, since
"weiteren ist geplant, die Ansicht ( "Appearance" ) des Zielobjektes während der Laufzeit automatisch zu adaptieren und nachzuführen, um die Robustheit der Objektverfolgung bei Beleuchtungsänderungen weiter zu erhöhen. Außerdem ist geplant, ein Multi-Kamera-System aufzubauen, um auch die Vorteile, die bei der Kommunikation zwischen Kameras auf dieser höheren Abstraktionsebene auftreten, zu demonstrieren (beispielsweise als Basis für eine Personenverfolgung in einer ϋberwachungsaπwendung). "Another plan is to automatically adapt and track the view (" Appearance ") of the target object at runtime, to further increase the robustness of object tracking in the event of lighting changes, as well as to build a multi-camera system to take advantage of it to demonstrate the communication that occurs between cameras at this higher level of abstraction (for example, as the basis for persecuting people in a surveillance application).
Danksagungthanksgiving
Wir bedanken uns bei Matrix Vision für deren großzügige Unterstützung und die erfolgreiche Zusammenarbeit. LiteraturWe would like to thank Matrix Vision for their generous support and successful cooperation. literature
[1] N. D. F. Arnaud Doucet and N. Gordon, Sequential Monte Carlo Methods in Practice. Springer Verlag, 2001.[1] N.D.F. Arnaud Doucet and N. Gordon, Sequential Monte Carlo Methods in Practice. Springer Verlag, 2001.
[2] "Special issue on: Sequential State estimation; From kalman filters to particle filters," Proceedings of the IBEE, vol. 92, no. 3, 2004.[2] "Special issue on: Sequential state estimation; From Kalman filters to particulate filters," Proceedings of the IBEE, vol. 92, no. 3, 2004.
[3] M. Isard and A. Blake, "Condensation - conditional density propagation for Visual tracking," 1998.[3] M. Isard and A. Blake, "Condensation - Conditional Density Propagation for Visual Tracking," 1998.
[4] D. Comaniciu, V. Ramesh, and P. Meer, "Kernel-based object tracking," IEEE Transaciions on Pattern Analysis and Machine Intelligence, vol. 25, no. 05, pp. 564-575, 2003.[4] D. Comaniciu, V. Ramesh, and P. Meer, "Kernel-based object tracking," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, no. 05, pp. 564-575, 2003.
[5] K. Okuma, A. Taleghani, N. de Freitas, J. J. Little, and D. G. Lowe, "A boosted particle filter: Multitarget detection and tracking," in EOCV 2004: 8th European Conference on Computer Vision, 2004.[5] K. Okuma, A. Taleghani, N. de Freitas, J.J. Little, and D.G. Lowe, "A boosted particle filter: multitarget detection and tracking," in EOCV 2004: 8th European Conference on Computer Vision, 2004.
[6] K. Nummiaro, E. Koller-Meier, and L. V. Gool, "A color based particle filter," 2002.[6] K. Nummiaro, E. Koller-Meier, and L.V. Gool, "A color based particle filter," 2002.
[7] P. Prez, C. Hue, J. Vermaak, and M. Gangnet, "Color-based probabilistic tracking," in European Conference on Computer Vision, ECCV'2002, LNCS 2350, Copenhaguen, Denmark, June 2002, pp. 661-675.[7] P. Prez, C. Hue, J. Vermaak, and M. Gangnet, "Color-based probabilistic tracking," in European Conference on Computer Vision, ECCV, 2002, LNCS 2350, Copenhaguen, Denmark, June 2002, pp , 661-675.
[8] P. Prez, J. Vermaak, and A. Blake, "Data fusion for Visual tracking with particles," Proceedings of IEEE, vol. 92, no. 3, pp. 495-513, 2004.[8] P. Prez, J. Vermaak, and A. Blake, "Data fusion for visual tracking with particles," Proceedings of IEEE, vol. 92, no. 3, pp. 495-513, 2004.
[9] M. Spengler and B. Schiele, "Towards robust multi-cue integration for Visual tracking," Lecture Notes in Computer Science, vol. 2095, p. 93ff., 2001.[9] M. Spengler and B. Schiele, "Towards Robust Multi-cue Integration for Visual Tracking," Lecture Notes in Computer Science, vol. 2095, p. 93ff., 2001.
[10] "Matrix vision," http://www.matrix-vision.com.[10] "Matrix vision," http://www.matrix-vision.com.
[11] "Project's Website," www.gris.uni-tuebingen.de/~sfleck/matrixtracking. [11] "Project's Website," www.gris.uni-tuebingen.de/~sfleck/matrixtracking.

Claims

Patentansprüche claims
1. Kamera zum Verfolgen von Objekten, mit einer Bildsensoreinheit (12) zum Erzeugen von Bilddaten und einer Verarbeitungseinheit (14) zum Verarbeiten der von der Bildsensoreinheit (12) an die Verarbeitungseinheit (14) übergebenen Bilddaten, dadurch gekennzeichnet, dass die Verarbeitungseinheit (14) eine ROI- Auswahleinheit (20) zum Auswählen von für die Objektverfolgung interessanten Bildbereichen und eine Tracking-Einheit (21 ) aufweist, um Trackingdaten von zu verfolgenden Objekten anhand der Bilddaten zu ermitteln.A camera for tracking objects, comprising an image sensor unit (12) for generating image data and a processing unit (14) for processing the image data transferred from the image sensor unit (12) to the processing unit (14), characterized in that the processing unit (14 ) has an ROI selection unit (20) for selecting image areas of interest for object tracking, and a tracking unit (21) for detecting tracking data of objects to be tracked from the image data.
2. Kamera nach Anspruch 1 , dadurch gekennzeichnet, dass an einem Signalausgang der Kamera (10) die Trackingdaten ausgebbar sind, wobei die Trackingdaten gegenüber den von der Bildsensoreinheit (12) erzeugten Menge an Bilddaten eine wesentlich verringerte Datenmenge aufweisen, insbesondere etwa um den Faktor 1000 verringert.2. Camera according to claim 1, characterized in that at a signal output of the camera (10), the tracking data can be output, wherein the tracking data compared to the image sensor unit (12) generated amount of image data has a significantly reduced amount of data, in particular about the factor 1000 decreased.
3. Kamera nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Trackingdaten in Form einer insbesondere approximierten Wahrscheinlichkeitsdichtefunktion bereitgestellt sind.3. Camera according to claim 1 or 2, characterized in that the tracking data are provided in the form of a particular approximated probability density function.
4. Kamera nach Anspruch 3, dadurch gekennzeichnet, dass die Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen approximiert ist.4. Camera according to claim 3, characterized in that the probability density function is approximated by a plurality of nodes.
5. Kamera nach Anspruch 4, dadurch gekennzeichnet, dass in der Verarbeitungseinheit (14) Parallelverarbeitungsmittel zum parallelen Verarbeiten der Stützstellen der Wahrscheinlichkeitsdichtefunktion und hiervon abhängender Daten vorgesehen sind. 5. A camera according to claim 4, characterized in that in the processing unit (14) parallel processing means for parallel processing of the nodes of the probability density function and data dependent thereon are provided.
6. Kamera nach Anspruch 3, 4 oder 5, dadurch gekennzeichnet, dass die Tracking-Einheit (21) ein sogenanntes Particle-Filter implementiert, bei dem eine Wahrscheinlichkeitsdichtefunktion anhand eines Approximationsschrittes, eines Vorhersageschrittes und eines Messungsschrittes und angenähert wird.6. A camera according to claim 3, 4 or 5, characterized in that the tracking unit (21) implements a so-called particle filter in which a probability density function is approximated by means of an approximation step, a prediction step and a measurement step.
7. Kamera nach Anspruch 6, dadurch gekennzeichnet, dass im Vorhersageschritt für jede Stützstelle (i) ein neuer Zustandsvektor (Xt') eines zu verfolgenden Objekts anhand alter Messungen (Zu) und eines alten Zustandsvektors sowie unter Berücksichtigung eines hinterlegten Bewegungsmodells ermittelt wird, im Messungsschritt der neue Zustandsvektor (Xt') unter Berücksichtigung einer neuen Messung (Z1 1) gewichtet wird und im Approximationssschritt; die aus allen neuen Zustandsvektoren (Xt') resultierende Approximation der Wahrscheinlichkeitsdichtefunktion (p(Xt[Zt)) durch Stützstellen approximiert wird.7. Camera according to claim 6, characterized in that in the prediction step for each support point (i) a new state vector (X t ') of an object to be tracked by means of old measurements (Zu) and an old state vector and taking into account a stored movement model is determined in the measuring step the new state vector (X t ') is weighted taking into account a new measurement (Z 1 1 ) and in the approximation step; the approximation of the probability density function (p (X t [Z t ) resulting from all new state vectors (Xt ')) is approximated by interpolation points.
8. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Tracking-Einheit (21) Tracking- daten von zu verfolgenden Objekten, insbesondere ein Vorhersagevergleichsobjekt, an die ROl-Auswahleinheit (20) übergibt, um in Abhängigkeit der Trackingdaten die für die Verarbeitung interessanten Bildbereiche auszuwählen.8. Camera according to at least one of the preceding claims, characterized in that the tracking unit (21) passes tracking data of objects to be tracked, in particular a prediction comparison object, to the ROI selection unit (20) in order, depending on the tracking data for to select the processing of interesting image areas.
9. Kamera nach Anspruch 8, dadurch gekennzeichnet, dass das Vorhersagevergleichsobjekt mittels eines parametrischen Modells erzeugt wird, dass adaptiv anpassbar ist.9. A camera according to claim 8, characterized in that the prediction comparison object is generated by means of a parametric model that is adaptively adaptable.
10. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass in der Verarbeitungseinheit (14) die Bilddaten des von der ROl-Auswahleinheit (20) ausgewählten Bild- - 5 -10. A camera according to at least one of the preceding claims, characterized in that in the processing unit (14) the image data of the image selected by the ROI selection unit (20) - 5 -
bereichs in ein Farbhistogramm umgesetzt werden und die Tra- cking-Einheit (21) die Trackingdaten auf Basis des Farbhistogramms ermittelt.area are converted into a color histogram and the tracking unit (21) determines the tracking data based on the color histogram.
11. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die ROl-Auswahleinheit (20) die Bildsensoreinheit (12) in Abhängigkeit der Trackingdaten so ansteuert, dass von der Bildsensoreinheit (12) nur noch diejenigen Bilddaten zur Verarbeitungseinheit (14) übertragen werden, die den von der ROl-Auswahleinheit (20) ausgewählten interessanten Bildbereichen entsprechen.11. The camera according to claim 1, characterized in that the ROI selection unit (20) controls the image sensor unit (12) in dependence on the tracking data such that only image data from the image sensor unit (12) are transmitted to the processing unit (14) which correspond to the image areas selected by the ROI selection unit (20).
12. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Bildsensoreinheit (12) und die Verarbeitungseinheit (14) in einem gemeinsamen Gehäuse integriert sind.12. Camera according to at least one of the preceding claims, characterized in that the image sensor unit (12) and the processing unit (14) are integrated in a common housing.
13. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Verarbeitungseinheit (14) eine Netzwerkeinheit (32) aufweist.13. Camera according to at least one of the preceding claims, characterized in that the processing unit (14) comprises a network unit (32).
14. Kamera nach wenigstens einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass eine Steuereinheit (36) und Einstellmittel vorgesehen sind, um in Abhängigkeit der Trackingdaten Einstellparameter der Kamera (10), insbesondere Ausrichtung, Bildausschnitt und Vergrößerung, zu verändern.14. Camera according to at least one of the preceding claims, characterized in that a control unit (36) and adjusting means are provided to change in dependence of the tracking data setting parameters of the camera (10), in particular alignment, image detail and magnification.
15. Verfahren zum Verarbeiten von Bilddaten in einer Kamera (10) zum Verfolgen von Objekten, gekennzeichnet durch folgende Schritte:15. A method for processing image data in a camera (10) for tracking objects, characterized by the following steps:
- Übertragen von Bilddaten von einer Bildsensoreinheit (12) zu einer Verarbeitungseinheit (14) der Kamera (10), - Erzeugen von Trackingdaten zu verfolgender Objekte in der Verarbeitungseinheit (14) unter Verwendung probabilisti- scher Verfahren undTransferring image data from an image sensor unit (12) to a processing unit (14) of the camera (10), Generating tracking data on objects to be tracked in the processing unit (14) using probabilistic methods and
- Auswählen von Bereichen der Bilddaten in Abhängigkeit der Trackingdaten, so dass nur Bilddaten ausgewählt werden, bei denen eine erhöhte Wahrscheinlichkeit dafür besteht, dass sie Informationen über zu verfolgende Objekte enthalten.Selecting regions of the image data in dependence on the tracking data, so that only image data are selected in which there is an increased probability that they contain information about objects to be tracked.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass der Schritt des Auswählens von Bereichen der Bilddaten das Ansteuern der Bildsensoreinheit (12) enthält, so dass nur noch Bilddaten von der Bildsensoreinheit (12) zur Verarbeitungseinheit (14) übertragen werden, bei denen eine erhöhte Wahrscheinlichkeit dafür besteht, dass sie Informationen über zu verfolgende Objekte enthalten.16. The method according to claim 15, characterized in that the step of selecting areas of the image data includes driving the image sensor unit (12), so that only image data from the image sensor unit (12) to the processing unit (14) are transmitted, in which increased likelihood that they contain information about objects to be tracked.
17. Verfahren nach Anspruch 15 oder 16, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Trackingdaten das Approximieren einer Wahrscheinlichkeitsdichtefunktion mittels mehrerer Stützstellen enthält.17. The method of claim 15 or 16, characterized in that the step of generating tracking data includes approximating a probability density function by means of a plurality of nodes.
18. Verfahren nach wenigstens einem der Ansprüche 15 bis 17, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Trackingdaten das Erzeugen von Bilddaten eines Vergleichsobjekts anhand einer Wahrscheinlichkeitsdichtefunktion der zu verfolgenden Objekte und wenigstens eines parametrischen Modells der zu verfolgenden Objekte enthält.18. The method according to claim 15, wherein the step of generating tracking data includes generating image data of a comparison object based on a probability density function of the objects to be tracked and at least one parametric model of the objects to be tracked.
19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Trackingdaten eine Ähnlichkeitsmessung zwischen den Bilddaten des Vergleichsobjekts und den von der Bildsensoreinheit (12) übertragenen Bilddaten enthält. - -The method according to claim 18, characterized in that the step of generating tracking data includes a similarity measurement between the image data of the comparison object and the image data transmitted from the image sensor unit (12). - -
20. Verfahren nach Anspruch 18 oder 19, dadurch gekennzeichnet, dass beim Schritt des Auswählens von Bereichen der Bilddaten nur diejenigen Bilddaten von der Bildsensoreinheit (12) ausgewählt werden, die im wesentlichen dem Bildausschnitt des Vergleichsobjekts entsprechen.20. The method according to claim 18 or 19, characterized in that in the step of selecting areas of the image data only those image data are selected by the image sensor unit (12), which substantially correspond to the image detail of the comparison object.
21. Verfahren nach wenigstens einem der Ansprüche 15 bis 20, dadurch gekennzeichnet, dass der Schritt des Erzeugens von Tra- ckingdaten das Erzeugen eines Farbhistogramms auf Basis der Bilddaten und dessen Auswertung enthält.21. The method according to claim 15, wherein the step of generating tracking data includes generating a color histogram based on the image data and evaluating the same.
22. Verfahren nach wenigstens einem der vorstehenden Ansprüche 15 bis 21 , gekennzeichnet durch Darstellen der Trackingdaten, insbesondere einer Wahrscheinlichkeitsdichtefunktion eines verfolgten Objekts, in einem dreidimensionalen Umgebungsmodell.22. The method according to at least one of the preceding claims 15 to 21, characterized by displaying the tracking data, in particular a probability density function of a tracked object, in a three-dimensional environment model.
23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, dass das dreidimensionale Umgebungsmodell in Weltkoordinaten, insbesondere georeferenziert, aufgebaut ist.23. The method according to claim 22, characterized in that the three-dimensional environment model in world coordinates, in particular georeferenced constructed.
24. Multikamerasystem mit wenigstens zwei Kameras nach wenigstens einem der vorstehenden Ansprüche 1 bis 14, dadurch gekennzeichnet, dass jede Kamera (10a, 10b, 10c) eine Netzwerkeinheit (32) aufweist und die wenigstens zwei Kameras (10a, 10b, 10c) ü- ber ein Netzwerk (18), insbesondere Ethernet oder WLAN, miteinander in Verbindung stehen.24. Multicamera system with at least two cameras according to at least one of the preceding claims 1 to 14, characterized in that each camera (10a, 10b, 10c) has a network unit (32) and the at least two cameras (10a, 10b, 10c) have Via a network (18), in particular Ethernet or WLAN, communicate with each other.
25. Multikamerasystem nach Anspruch 24, dadurch gekennzeichnet, dass die Verarbeitungseinheit (14) wenigstens einer der Kameras (10a, 10b, 10c) zum Verarbeiten von Trackingdaten einer anderen Kamera (10a, 10b, 10c) ausgelegt ist. 25. Multi-camera system according to claim 24, characterized in that the processing unit (14) of at least one of the cameras (10a, 10b, 10c) is designed to process tracking data of another camera (10a, 10b, 10c).
26. Multikamerasystem nach Anspruch 24 oder 25, dadurch gekennzeichnet, dass im Netzwerk eine zentrale Verarbeitungseinheit zum Auswerten der von den wenigstens zwei Kameras (10a, 10b, 10c) übertragenen Trackingdaten vorgesehen ist.26. Multi-camera system according to claim 24 or 25, characterized in that a central processing unit for evaluating the at least two cameras (10a, 10b, 10c) transmitted tracking data is provided in the network.
27. Multikamerasystem nach Anspruch 26, dadurch gekennzeichnet, dass im Netzwerk, insbesondere in der zentralen Verarbeitungseinheit, eine Visualisierungseinheit zum Darstellen der Trackingdaten in einem dreidimensionalen Umgebungsmodell vorgesehen ist. 27 multi-camera system according to claim 26, characterized in that in the network, in particular in the central processing unit, a visualization unit is provided for displaying the tracking data in a three-dimensional environment model.
EP06707263A 2005-02-24 2006-02-24 Object tracking camera Not-in-force EP1854083B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005009626A DE102005009626A1 (en) 2005-02-24 2005-02-24 Camera for tracking objects, has processing unit with region of interest-sampling unit, and tracking unit with particle filter, which are provided to determine tracking data of objects to be tracked on basis of image data
PCT/EP2006/001727 WO2006089776A1 (en) 2005-02-24 2006-02-24 Object tracking camera

Publications (2)

Publication Number Publication Date
EP1854083A1 true EP1854083A1 (en) 2007-11-14
EP1854083B1 EP1854083B1 (en) 2011-01-26

Family

ID=36589246

Family Applications (1)

Application Number Title Priority Date Filing Date
EP06707263A Not-in-force EP1854083B1 (en) 2005-02-24 2006-02-24 Object tracking camera

Country Status (4)

Country Link
EP (1) EP1854083B1 (en)
AT (1) ATE497230T1 (en)
DE (2) DE102005009626A1 (en)
WO (1) WO2006089776A1 (en)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006060612B4 (en) * 2006-12-21 2008-08-28 Eads Deutschland Gmbh Method for monitoring target objects and multispectral camera
DE102007033391A1 (en) * 2007-07-18 2009-01-22 Robert Bosch Gmbh Information device, method for information and / or navigation of a person and computer program
US8428310B2 (en) * 2008-02-28 2013-04-23 Adt Services Gmbh Pattern classification system and method for collective learning
DE102008038527A1 (en) 2008-08-20 2010-02-25 Eads Deutschland Gmbh Method for evaluating object elements in images of multispectral camera or synthetic aperture radar device, involves forming target object hypothesis
DE102009009533B4 (en) * 2009-02-18 2016-09-15 Leuze Electronic Gmbh & Co. Kg Image processing sensor
DE102010032496A1 (en) * 2010-07-28 2012-02-02 Ids Imaging Development Systems Gmbh Monitoring camera, particularly for industrial image processing or monitoring technology, has image sensor for generating digital image data on basis of image information detected by image sensor
DE102010046220A1 (en) * 2010-09-21 2012-03-22 Hella Kgaa Hueck & Co. Method for configuring a monitoring system and configurable monitoring system
DE102011010334B4 (en) 2011-02-04 2014-08-28 Eads Deutschland Gmbh Camera system and method for observing objects at a great distance, in particular for monitoring target objects at night, mist, dust or rain
DE102011106810B4 (en) * 2011-07-07 2016-08-11 Testo Ag Thermal imaging camera and method for image analysis and / or image processing of an IR image with a thermal imaging camera
DE102011082052B4 (en) * 2011-09-02 2015-05-28 Deere & Company Arrangement and method for the automatic overloading of crop material from a harvester onto a transport vehicle
DE102012002321B4 (en) 2012-02-06 2022-04-28 Airbus Defence and Space GmbH Method for recognizing a given pattern in an image data set
EP3136367B1 (en) 2015-08-31 2022-12-07 Continental Autonomous Mobility Germany GmbH Vehicle camera device and method for recording an area ahead of a motor vehicle
DE102016224573A1 (en) 2016-12-09 2018-06-14 Conti Temic Microelectronic Gmbh Radar system with dynamic object detection in a vehicle.
CN107135377A (en) * 2017-05-27 2017-09-05 深圳市景阳科技股份有限公司 Monitor automatic tracking method and device
WO2020243436A1 (en) * 2019-05-30 2020-12-03 Infinity Collar Llc A system for providing a dynamic portable virtual boundary
US11022972B2 (en) * 2019-07-31 2021-06-01 Bell Textron Inc. Navigation system with camera assist
CN112788227B (en) * 2019-11-07 2022-06-14 富泰华工业(深圳)有限公司 Target tracking shooting method, target tracking shooting device, computer device and storage medium
DE102019135211A1 (en) * 2019-12-19 2021-06-24 Sensific GmbH Method and device for tracking objects
DE102020109763A1 (en) 2020-04-08 2021-10-14 Valeo Schalter Und Sensoren Gmbh Computer-based system and method for object tracking
US11610080B2 (en) 2020-04-21 2023-03-21 Toyota Research Institute, Inc. Object detection improvement based on autonomously selected training samples
US11620966B2 (en) * 2020-08-26 2023-04-04 Htc Corporation Multimedia system, driving method thereof, and non-transitory computer-readable storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0878965A3 (en) * 1997-05-14 2000-01-12 Hitachi Denshi Kabushiki Kaisha Method for tracking entering object and apparatus for tracking and monitoring entering object
US6091771A (en) * 1997-08-01 2000-07-18 Wells Fargo Alarm Services, Inc. Workstation for video security system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2006089776A1 *

Also Published As

Publication number Publication date
ATE497230T1 (en) 2011-02-15
DE102005009626A1 (en) 2006-08-31
EP1854083B1 (en) 2011-01-26
DE502006008806D1 (en) 2011-03-10
WO2006089776A1 (en) 2006-08-31

Similar Documents

Publication Publication Date Title
EP1854083B1 (en) Object tracking camera
US20220343138A1 (en) Analysis of objects of interest in sensor data using deep neural networks
Liu et al. Intelligent video systems and analytics: A survey
EP2297701B1 (en) Video analysis
US8599266B2 (en) Digital processing of video images
EP1589484B1 (en) Method for detecting and/or tracking objects
DE69635980T2 (en) METHOD AND DEVICE FOR DETECTING OBJECT MOVEMENT IN A PICTURE
US20170161563A1 (en) Unusual Event Detection in Wide-Angle Video (Based on Moving Object Trajectories)
WO2006133474A1 (en) Method and image evaluation unit for scene analysis
DE102005008131A1 (en) Object e.g. road sign, detecting method for use with e.g. driver assistance system, involves determining position and movement of relevant pixels using filter and combining relevant pixels to objects under given terms and conditions
WO1992002894A1 (en) Process for analysing time sequences of digital images
Lim et al. Scalable image-based multi-camera visual surveillance system
DE112020001255T5 (en) DEEP NEURAL NETWORK WITH LOW POWER CONSUMPTION FOR SIMULTANEOUS OBJECT DETECTION AND SEMANTIC SEGMENTATION IN IMAGES ON A MOBILE COMPUTER DEVICE
Lalonde et al. A system to automatically track humans and vehicles with a PTZ camera
Kornprobst et al. Tracking segmented objects using tensor voting
CN105809108A (en) Pedestrian positioning method and system based on distributed vision
DE102005055879A1 (en) Air Traffic guide
Rabie et al. Mobile vision-based vehicle tracking and traffic control
EP2064684A1 (en) Method for operating at least one camera
DE10049366A1 (en) Security area monitoring method involves using two image detection units whose coverage areas overlap establishing monitored security area
Wu et al. Real-time running detection from a moving camera
Lookingbill et al. Learning activity-based ground models from a moving helicopter platform
DE112021004501T5 (en) MODELING THE VEHICLE ENVIRONMENT WITH A CAMERA
Chebi et al. Strategy of detecting abnormal behaviors by fuzzy logic
Cutler et al. Monitoring human and vehicle activities using airborne video

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20070918

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20071219

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REF Corresponds to:

Ref document number: 502006008806

Country of ref document: DE

Date of ref document: 20110310

Kind code of ref document: P

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502006008806

Country of ref document: DE

Effective date: 20110310

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20110126

LTIE Lt: invalidation of european patent or patent extension

Effective date: 20110126

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110507

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110526

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110526

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110427

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

BERE Be: lapsed

Owner name: UNIVERSITAT TUBINGEN

Effective date: 20110228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110426

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110228

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110228

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110228

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110228

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20110426

26N No opposition filed

Effective date: 20111027

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502006008806

Country of ref document: DE

Effective date: 20111027

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110426

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20120210

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110328

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502006008806

Country of ref document: DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 502006008806

Country of ref document: DE

Owner name: FLECK, SVEN, DR., DE

Free format text: FORMER OWNER: UNIVERSITAET TUEBINGEN, 72074 TUEBINGEN, DE

Effective date: 20120725

Ref country code: DE

Ref legal event code: R081

Ref document number: 502006008806

Country of ref document: DE

Owner name: FLECK, SVEN, DE

Free format text: FORMER OWNER: UNIVERSITAET TUEBINGEN, 72074 TUEBINGEN, DE

Effective date: 20120725

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 497230

Country of ref document: AT

Kind code of ref document: T

Effective date: 20110224

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110224

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110224

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110126

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20140709

Year of fee payment: 9

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 502006008806

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20151007