-
Die Erfindung betrifft ein Verfahren zur Auswertung einer Mehrzahl versetzter Bilder.
-
Nach dem Stand der Technik ist es bekannt, zeitlich versetzte Bilder auf in den Bildern enthaltende Objekte zu untersuchen. In zeitlich späteren Bildern gefundene Objekte werden dabei nach Plausibilitätskriterien, d. h. beispielsweise nach ihrer Form und ihrer aktuellen Position, als Objekte aus zeitlich früheren Bildern identifiziert. Zwar ist das Identifizieren von Objekten in zeitlich späteren Bildern als aus den zeitlich früheren Bildern bekannte Objekte durch derartige Verfahren nach dem Stand der Technik zuverlässig möglich, jedoch ergibt sich das Problem, dass häufig fehlerhaft zusätzliche Objekte erkannt werden.
-
Beispielsweise kann Sensorrauschen oder dergleichen als zusätzliches Objekt detektiert werden. Außerdem sollen in vielen Anwendungsfällen nur bestimmte Objekte detektiert werden. Beispielsweise sollen bei Überwachungsbildern die Bilder zumeist nur auf darauf zu erkennende Personen hin untersucht werden.
-
Des Weiteren besteht der Bedarf, weitere Informationen aus den Bildern zu extrahieren.
-
Aufgabe der Erfindung ist es, ein Verfahren zur Auswertung von einer Mehrzahl zeitlich versetzter Bilder zu schaffen, das ein Erfassen von Objekten gestattet und einem Nutzer zusätzliche Informationen bezüglich der detektierten Objekte zur Verfügung stellt, wobei ein zuverlässiges Bestimmen der zu berücksichtigenden Objekte gewährleistet wird.
-
Diese Aufgabe wird durch ein Verfahren nach Anspruch 1, eine Vorrichtung nach Anspruch 12 sowie ein Überwachungssystem nach Anspruch 13 gelöst. Vorteilhafte Weiterbildungen und Ausgestaltungen ergeben sich mit den Merkmalen der Unteransprüche.
-
Gemäß dem erfindungsgemäßen Verfahren wird zunächst eine Mehrzahl von Objekten in einem ersten Bild detektiert. Die Objekte werden jeweils mit einer Ersterfassungszeit und/oder einem Ersterfassungsort des jeweiligen Objekts als Tracks gespeichert. Insbesondere können die Tracks in einer Trackliste gespeichert werden. Ein Initiieren eines Parameters, der die seit der Ersterfassung vergangene Zeit (beispielsweise angegeben in der Anzahl der seit der Ersterfassung aufgenommenen Bilder) angibt, soll hierbei auch als ein Speichern einer Erfassungszeit gelten.
-
Nachfolgend wird jeweils eine Mehrzahl von Objekten in weiteren Bildern detektiert, wobei jeweils eine Position des Objekts bestimmt wird. Bei dem ersten und/oder bei den weiteren Bildern kann es sich auch um beliebig geformte Teilbereiche bzw. Ausschnitte von Bildern handeln. Die in den weiteren Bildern detektierten Objekte werden, sofern es sich um Objekte handelt, die bereits in einem Track gespeichert wurden, als das dem jeweiligen Track zugeordnete Objekt identifiziert. Der jeweilige Track wird dann durch die aktuelle Position des jeweiligen Objekts aktualisiert. Im jeweiligen Bild erstmalig detektierte Objekte werden jeweils mit zugeordnetem Track gespeichert.
-
Bei dem erfindungsgemäßen Verfahren wird für mindestens eines der Bilder eine Anzahl der gespeicherten Tracks bestimmt und vorzugsweise ausgegeben. Dies ist beispielsweise im Bereich der Ladenüberwachungen von besonderem Vorteil, da somit ein einfaches Erstellen von Statistiken zum Kundenaufkommen ermöglicht wird. Ein Zählen der zu berücksichtigenden Objekte hat jedoch auch in vielen anderen Bereichen Vorteile. So ist beispielsweise ein zuverlässiges und schnelles Bestimmen des Verkehrsaufkommens bei Verkehrsüberwachungskameras möglich. Ebenso ist das Verfahren bei der Überwachung von Gepäckstücken von Vorteil.
-
Ein Ausgeben der Tracks kann vorzugsweise kontinuierlich oder in Abhängigkeit von einer Mehrzahl von Bildern oder auf Befehl eines Nutzers erfolgen.
-
Vorzugsweise wird für die Objekte bzw. Tracks jeweils eine zurückgelegte Wegstreckenlänge, ein Abstand und/oder eine Zeitdifferenz von der Ersterfassungszeit als Erfassungsdauer des jeweiligen Objekts bestimmt. Als euklidischer Abstand können der tatsächliche räumliche Abstand (z. B. in 3D-Weltkoordinaten) und/oder der Abstand in den einzelnen Raumrichtungen (beispielsweise der Abstand in horizontaler x-Richtung und/oder vertikaler z-Richtung oder auch in allen drei Raumkoordinaten) bestimmt werden. In gleicher Weise können eine Gesamtwegstreckenlänge und/oder eine Wegstreckenlänge in einzelne Raumrichtungen bestimmt werden.
-
Die Wegstreckenlänge, der Abstand und/oder die Erfassungsdauer (diese Eigenschaften werden auch als Qualitäten bezeichnet) werden nachfolgend jeweils mit einem vorgegebenen Schwellenwert verglichen. Anschießend wird das jeweilige Objekt bzw. der jeweilige Track als zu berücksichtigendes Objekt bzw. Track oder als nicht zu berücksichtigendes Objekt bzw. Track klassiert. Ob das Objekt bzw. der Track als zu berücksichtigendes Objekt bzw. Track oder als nicht zu berücksichtigendes Objekt bzw. Track klassiert wird, hängt vom Ergebnis des Vergleichs der Wegstrecke, des Abstands und/oder der Erfassungsdauer mit den jeweiligen vorgegebenen Schwellenwerten ab.
-
In einer idealen Welt wäre der aktuelle Füllstand, d. h. die aktuelle Zahl der zu berücksichtigen Objekte gleich der Anzahl der gespeicherten Tracks in der Trackliste. Durch Sensorrauschen oder Störstellen (Objekte im Bild) existieren jedoch meist mehr Tracks als zu berücksichtigende Objekte. Durch den Vergleich und die nachfolgende Klassierung werden personentypische Kriterien, wie das Zurücklegen einer Wegstrecke und/oder der Verbleib für eine vorgegebene Mindestaufenthaltsdauer im Bildbereich zur Beurteilung, ob es sich um ein zu berücksichtigendes Objekt handelt oder nicht, herangezogen. Hierdurch können Fehlerkennungen nahezu vollständig ausgeschlossen werden.
-
Je nach Ausführungsform des Verfahrens kann es von Vorteil sein, wenn nur Objekte in einem bestimmten Teilbereich der Bilder als zu berücksichtigende Tracks klassiert werden bzw. wenn nur Tracks, denen ein im Teilbereich angeordnetes Objekt zugeordnet ist beim Bestimmen der Anzahl der gespeicherten Tracks berücksichtigt werden. Ebenso kann auf ein Speichern der Objekte mit Ersterfassungszeit und Ersterfassungsort, die nicht mindestens einmal in dem Teilbereich detektiert wurden, verzichtet werden. Dadurch, dass nur ein gewisser Teilbereich der Bilder herangezogen wird, kann die Auswertung auf einen für einen Nutzer relevanten Bereich eingeschränkt werden. Wird beispielsweise ein Verkaufsstand mittels einer Kamera überwacht, kann der den Verkaufsstand direkt umgebende Bereich als Teilbereich (auch als ROI, Region of Interest oder als Überwachungsbereich bezeichnet) definiert werden.
-
In einer weiteren Ausführungsform der Erfindung wird eine Austrittszeit des jeweiligen Objekts aus der Mehrzahl von Bildern und/oder dem Teilbereich bestimmt und gespeichert. Als Austrittszeit ist hierbei die Zeit definiert, zu der das jeweilige Objekt zum letzten Mal auf den Bildern bzw. in dem Teilbereich der Bilder detektiert wird.
-
Die Austrittszeit und Ersterfassungszeit oder eine hieraus berechnete Zeitdifferenz kann an einen Nutzer oder zur weiteren Datenverarbeitung an einen Computer ausgegeben werden. Dies ist insbesondere vorteilhaft, wenn Aufenthaltsdauern von Personen im Bildbereich bzw. im Teilbereich bestimmt werden sollen. Derartige Informationen sind zur Optimierung von Verkaufsständen, Kaufhäusern oder dergleichen von Interesse. Ein Bestimmen und Ausgeben der Austrittszeit bzw. der Zeitdifferenz zwischen Ersterfassungszeit und Austrittszeit kann auch an sich, d. h. ohne ein Bestimmen der Anzahl der gespeicherten Tracks als vorteilhaft angesehen werden.
-
Als Bilder können beispielsweise Bilder eines Bilderfassungssystems (hierbei kann es sich beispielsweise um eine einfache Kamera, eine Stereokamera, TOF-Kamera oder eine beliebige andere Kamera handeln. Sogar Radarerfassungssysteme oder Ultraschallerfassungssysteme können verwendet werden), vorzugsweise in Echtzeit, ausgewertet werden. Durch die Auswertung in Echtzeit, d. h. während des Aufzeichnens der Bilder, kann ein Nutzer Ergebnisse der Überwachungen jederzeit abrufen und entsprechend darauf reagieren. Ebenso kann hierdurch der korrekte Ablauf des Verfahrens von einem Nutzer jederzeit überprüft werden.
-
Um ein Optimieren des Verfahrens jederzeit zu ermöglichen, ist es vorgesehen, dass die vorgegebenen Schwellenwerte während des Detektierens des mindestens einen Objekts durch einen Nutzer oder automatisch (beispielsweise durch einen hierfür vorgesehenen Optimierungsalgorithmus) verändert werden. Stellt sich z. B. heraus, dass den Bildbereich durchquerende Personen den Bildbereich zu schnell verlassen, so dass sie als Objekt mit einem Alter unterhalb des entsprechenden Schwellenwertes festgestellt werden, kann der Schwellenwert entsprechend reduziert werden. Das Verändern durch den Nutzer kann beispielsweise über ein Webinterface erfolgen.
-
Um ein starkes Schwanken der Auswertungsergebnisse zu vermeiden, kann eine zeitlich gemittelte Anzahl der zu berücksichtigenden Objekte bzw. Tracks und/oder eine zeitlich gemittelte Zeitdifferenz zwischen Ersterfassungszeit und Austrittszeit bestimmt werden. In vielen Fällen sind derartige gemittelte Angaben deutlich aussagekräftiger als Aussagen bezüglich eines einzelnen Kamerabildes. Als Beispiel sei erneut auf die Überwachung von Läden hingewiesen, bei der ein Ladenbesitzer nicht an der zu genau einem Zeitpunkt vorliegenden Kundenzahl sondern an einer durchschnittlichen Kundenanzahl und einer durchschnittlichen Aufenthaltsdauer interessiert ist.
-
In einer weiteren Ausführungsform werden mehrere Objekte bzw. Tracks gespeichert, wobei nach Erreichen einer vorgegebenen Objektzahl bzw. Trackzahl und/oder nach Erreichen eines vorgegebenen Speicherbedarfs ein ältestes Objekt überschrieben wird. Hierdurch wird erreicht, dass dann wenn eine Limitierung der Anteile der gespeicherten Objekte durch den zur Verfügung stehenden Speicherplatz auftritt, ein Erfassen von neu auftretenden Objekten weiterhin möglich bleibt. Besonders bevorzugt können Objekte, die noch innerhalb des Bildbereichs und/oder Teilbereichs sind, separat von Objekten, die den Bildbereich und/oder Teilbereich bereits verlassen haben gespeichert sein. In derartigen Ausführungsformen werden nur Objekte überschrieben, die den Bildbereich und/oder Teilbereich bereits verlassen haben. Bevorzugt werden die Objekte bzw. Tracks, die den Bildbereich und/oder Teilbereich verlassen haben, in regelmäßigen Abständen und/oder auf Abfrage ausgegeben. Die ausgegebenen Objekte können dann aus dem vorherigen Speicherort gelöscht werden.
-
Ein besonders zuverlässiges Klassieren der Objekte ist möglich, wenn sowohl die Wegstreckenlänge als auch der Abstand und die Erfassungsdauer bestimmt und mit dem jeweiligen Schwellenwerten verglichen werden. Das Objekt wird dann unter Berücksichtigung aller dieser Kriterien klassiert. Besonders bevorzugt wird das Objekt nur dann als zu berücksichtigendes Objekt eingestuft, wenn sowohl die Wegstreckenlänge als auch der Abstand und die Erfassungsdauer über dem Schwellenwert liegen.
-
Des Weiteren hängt die Klassierung vorzugsweise von einer Historie des Objekts bzw. Tracks ab. Ein Track der einmal als zu berücksichtigender Track klassiert wurde wird dann unabhängig von der dann vorliegenden Position auch in den späteren Bildern als zu berücksichtigender Track klassiert.
-
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Figuren näher erläutert. Es zeigen:
-
1 eine schematische Darstellung zur Verdeutlichung einer ersten Ausführungsform des erfindungsgemäßen Verfahrens,
-
2 eine schematische Darstellung wie in 1 zu einem späteren Zeitpunkt des Verfahrens als in 1 dargestellt,
-
3 eine schematische Darstellung zur Verdeutlichung einer weiteren Ausführungsform des erfindungsgemäßen Verfahrens,
-
4 eine schematische Darstellung wie in 3 gezeigt, zu einem späteren Zeitpunkt des Verfahrens und
-
5 schematische Darstellungen wie in den 3 und 4 gezeigt zu einem noch späteren Zeitpunkt des Verfahrens.
-
Anhand von 1 soll eine erste Ausführungsform des erfindungsgemäßen Verfahrens, bei dem mehrere zeitlich versetzte durch eine Überwachungskamera aufgenommene Bilder ausgewertet werden, verdeutlicht werden. In 1 ist ein Region of Interest (ROI, auch Überwachungsbereich genannt) 1 eines Bildes einer Überwachungskamera dargestellt. In dem ROI ist ein Objekt 2 (hierbei kann es sich beispielsweise um eine Person oder ein Gepäckstück handeln) an mehreren Positionen 3, 4, 5, 6 abgebildet. Dass das Objekt 2 in 1 an mehreren Stellen dargestellt ist, dient lediglich zur Verdeutlichung. Tatsächlich ist das Objekt 2 in jedem einzelnen Bild der Überwachungskamera nur an einer Position angeordnet. Entsprechend befindet sich das Objekt 2 in zeitlicher versetzten Bildern der Überwachungskamera jeweils an einem der Orte 3, 4, 5, 6. Insgesamt legt das Objekt 2 zwischen der Position 3 und der Position 6 den durch die gestrichelten Pfeile angedeuteten Weg 7 zurück. Ein euklidischer Abstand der aktuellen Position 6 des Objekts 2 zur Startposition 3 wird durch den Pfeil 8 verdeutlicht. Die X- und Z-Komponente des Abstands wird durch die Teile 9 und 10 dargestellt.
-
Gemäß dem Ausführungsbeispiel des erfindungsgemäßen Verfahrens wird das Objekt 2 zunächst an einer Position 3 erfasst. Hierbei wird das Objekt 2 zusammen mit der Startposition und der Startzeit des Objekts als Track gespeichert. Das Speichern der Startzeit kann beispielsweise dadurch geschehen, dass dem Objekt ein Parameter „Objektalter” zugeordnet wird, das zum Startzeitpunkt auf null gesetzt und das bei jedem nachfolgenden Kamerabild bzw. jeden Frame, auf dem das Objekt 2 festgestellt wird, erhöht wird.
-
Nachfolgende Kamerabilder werden gemäß dem Verfahren jeweils ebenso auf Objekte untersucht. Dabei wird in jeweils einem der nachfolgenden Kamerabilder ein Objekt an den Positionen 4, 5 oder 6 nachgewiesen. Anhand von Plausibilitätskriterien, wie z. B. der Form des Objekts, wird das an der Position 4, 5 bzw. 6 festgestellte Objekt als das Objekt 2 identifiziert, das bereits zuvor an der Startposition 3 aufgefunden wurde. Nach dem Detektieren des Objekts in jedem der nachfolgenden Bilder wird jeweils ein Alter des Objekts 2, ein Abstand zur Startposition 3 des Objekts 2 sowie eine ausgehend von der Startposition 3 zurückgelegte Wegstrecke 7 bestimmt. In der 1 ist dies beispielhaft für die Position 6 abgebildet.
-
Die zurückgelegte Wegstrecke 7, der euklidische Abstand 8 (beispielsweise in 3D-Weltkoordinaten) und das Objektalter (diese Eigenschaften werden auch als „Qualitäten” des Objekts bezeichnet) werden jeweils mit einem Schwellenwert verglichen. Zusätzlich werden auch die X-Komponente 9 und die Z-Komponente 10 des Abstands sowie der Wegstrecke mit entsprechenden Schwellenwerten verglichen. Liegt die Wegstrecke, der Abstand und das Objektalter jeweils über dem Schwellenwert, wird das Objekt als zu berücksichtigendes Objekt klassiert. Anderenfalls ist nicht auszuschließen, dass das Objekt ein Erfassungsfehler ist. Deshalb wird das Objekt in diesen Fällen nicht berücksichtigt.
-
Auch wenn in 1 nur ein Objekt 2 abgebildet ist, können selbstverständlich mehrere verschiedene Objekte gleichzeitig in denselben Bildern detektiert und als Tracks gespeichert werden. Für jedes der Objekte wird dann bestimmt, ob es sich um ein zu berücksichtigendes Objekt oder um einen möglichen Detektionsfehler handelt. Die Anzahl der Objekte, die als zu berücksichtigende Objekte bzw. Tracks klassiert wurden, wird für jedes Bild berechnet und an einen Nutzer ausgegeben. Hierdurch kann beispielsweise ein Kundenaufkommen innerhalb des ROI 1 bestimmt werden.
-
Anhand von 2 soll verdeutlicht werden, dass ein Abstand in X-Richtung nicht immer identisch zur zurückgelegten Wegstrecke in die entsprechende Richtung sein muss. Bewegt sich das Objekt 2 ausgehend von der Position 6 bezüglich seiner X-Richtung wieder auf die Startposition 3 zu, so dass es zur Position 11 gelangt, beträgt ein Abstand der aktuellen Position 11 zur Startposition 3 in X-Richtung null. Ein in X-Richtung zurückgelegter Weg ist jedoch, ausgehend von der Position 6, weiter angestiegen, da die zwischen den einzelnen Bildern zurückgelegten Wege als Beträge aufaddiert werden.
-
In den 3 bis 5 ist ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens dargestellt, wobei im Rahmen dieses Ausführungsbeispiels eine Verweildauer der Objekte bestimmt wird, die als zu berücksichtigende Objekte klassiert wurden. In 3 ist hierbei die Situation dargestellt, dass zwei Objekte 12 und 13 im Bildbereich 14 einer Überwachungskamera (beispielsweise eine Stereokamera oder TOF-Kamera) angeordnet sind. Beide Objekte 12 und 13 sind jedoch außerhalb des Überwachungsbereichs ROI 1. Entsprechend wird eine Objektposition der beiden Objekte 12 und 13 nicht genauer bestimmt und es werden keinerlei Daten über die Objekte gespeichert. Ebenso wird noch kein Ersterfassungszeitpunkt zugeordnet.
-
In 4 ist dargestellt, dass sich das Objekt 12 von seiner ursprünglichen Position 15 außerhalb des ROIs 1 zu einer Position 16 innerhalb des ROIs bewegt. Sobald das Objekt 12 innerhalb des ROIs 1 nachgewiesen wird, wird eine Ersterfassungsposition, d. h. eine Position, bei der das Objekt zum ersten Mal innerhalb des ROIs 1 nachgewiesen wurde, gespeichert. Außerdem wird eine Ersterfassungszeit definiert. Bewegt sich das Objekt 12 nun innerhalb des ROIs wird das Objekt als zu berücksichtigendes Objekt oder als möglicher Sensorfehler klassiert, wie dies im Zusammenhang mit den 1 und 2 erläutert wurde. Das Objekt 13 bewegt sich zugleich von einer Position 17 zu einer Position 18, wobei beide Positionen außerhalb des ROIs 1 angeordnet sind. Entsprechend werden weiterhin keinerlei Daten über das Objekt 13 gespeichert.
-
Wie in 5 dargestellt, bewegen sich die Objekte 12 und 13 anschließend weiter. Das Objekt 13 verlässt den ROI 1 (auch als Überwachungsbereich bezeichnet) an einer Austrittsposition 19. Nach dem Verlassen des ROIs wird das Objekt zusammen mit seinem Ersterfassungsort und seinem Austrittsort sowie der Gesamtzeit, die es sich im ROI 1 aufgehalten hat, gespeichert. Beispielsweise können diese Daten an einen separaten Speicherort getrennt von den Informationen zu den aktuell im ROI befindlichen Objekten abgelegt werden. Im vorliegenden Beispiel werden die genannten Daten über die Objekte, die den ROI verlassen haben, in einem Ringpuffer 20 gespeichert. Ist der Ringpuffer 20 voll, wenn ein Objekt den ROI 1 verlässt und somit in dem Ringpuffer 20 gespeichert werden soll, wird ein Objekt im Ringpuffer 20, das schon am längsten gespeichert ist, überschrieben. Die Anzahl der überschriebenen Objekte wird ebenfalls gespeichert.
-
Das dargestellte Verfahren kann von einem Benutzer eines Überwachungskamerasystems beispielsweise über ein Webinterface gesteuert werden. Von dem Nutzer können während des Verfahrens jederzeit die Schwellenwerte für die Erfassungszeit, den Abstand oder die zurückgelegte Strecke, geändert werden. Ebenso kann der ROI 1 vom Nutzer jederzeit angepasst werden. Über das Webinterface können die im Ringpuffer gespeicherten Daten jederzeit abgerufen werden. Insbesondere ist ein automatisches Abrufen der im Ringpuffer gespeicherten Daten in vorgegebenen Zeitintervallen, die von einem Nutzer eingestellt werden können, möglich. Nach jeder Abfrage des Ringpuffers werden die ausgegebenen Daten aus dem Ringpuffer gelöscht, um zu vermeiden, dass dieselben Daten mehrfach berücksichtigt werden.
-
Jegliche ermittelten Daten können selbstverständlich auch statistisch aufgearbeitet werden. So kann beispielsweise eine zeitlich gemittelte Aufenthaltsdauer im ROI bestimmt werden. Ebenso kann eine gemittelte Anzahl der Objekte, die als zu berücksichtigende Objekte klassiert wurden, bestimmt werden.
-
Als besonders geeignet hat sich hierbei die Verwendung eines fließenden Mittelwertes Gn+1 = a·F + (1 – a)·Gn erwiesen. Gn+1 ist hierbei der gemittelte Wert zum Zeitpunkt des Bildes n + 1, a ist ein Parameter, der größer als 0 und kleiner als 1 ist, F ist der aktuelle Wert im Bild n + 1 und Gn ist der gemittelte Wert für das Bild. Auch wenn das Verfahren vorangehend hauptsächlich bezogen auf Überwachungskameras erläutert wurde, kann es prinzipiell auf beliebige zeitlich versetzte Bilder eines Bildbereichs angewendet werden.
-
Insgesamt kann das Verfahren auf verschiedensten Gebieten, beispielsweise der Kundenüberwachung zwecks Verkaufsoptimierung, der Überwachung einer Verkehrsdichte auf Straßen oder der Überwachung der Personendichte auf Großveranstaltungen zur Verbesserung der Sicherheit, verwendet werden.