EP2973211A1

EP2973211A1 - Videostromauswertung

Info

Publication number: EP2973211A1
Application number: EP14711189.2A
Authority: EP
Inventors: Erfindernennung liegt noch nicht vor Die
Original assignee: Vorbach Martin
Current assignee: Vorbach Martin
Priority date: 2013-03-11
Filing date: 2014-03-11
Publication date: 2016-01-20
Also published as: US20160019428A1; WO2014139997A1; JP2016515252A; US9659221B2; DE102013004073A1

Abstract

Die Erfindung betrifft ein Verfahren zur Erkennung von in Videoströmen erfassten Aktivitäten. Hierbei ist vorgesehen, dass für Framesequenzen in Feldern Daten zu Framedifferenzen akkumuliert werden, Gradienten und/oder Wertdifferenzab stände in den Akkumulatorfeldern bestimmt werden und aus den Gradienten auf Aktivität geschlossen wird.

Description

Videostromauswertung

Beschreibung

Die vorliegende Erfindung betrifft das oberbegrifflich Beanspruchte und bezieht sich somit auf die Auswertung von Videoströmen.

Videoströme werden heute oft erfasst, um bestimmte Bereiche zu überwachen. Dabei kann es sich z.B. um diebstahlgefährdete Bereiche handeln, wie bei Verkaufsflächen im Einzel- handel, oder um Außengebiete zu schützender Anlagen wie Lagerhallen, Flughäfen oder militärische Einrichtungen. Die Überwachung wird besser, wenn mehr und leistungsfähigere Kameras zur Verfügung stehen, so dass mit höherer Auflösung gearbeitet werden kann und erfassungsfreie Bereiche verkleinert oder vermieden werden können. Es ist jedoch nicht genügend, lediglich eine Kamera auf interessierende Bereiche zu richten; aufgrund der so erzeugten großen Datenmengen muss vielmehr auch die Möglichkeit geschaffen werden, in den Videoströmen relevante und irrrelevante Informationen zu unterscheiden, d.h. interessierende Aktivitäten zu identifizieren. In vielen Fällen, etwa bei der Perimeterüberwachung, interessiert vor allem, ob in einem

Bereich Bewegungen auftreten. In einem solchen Fall kann z.B. ein Alarm ausgelöst werden oder die Speicherung von Daten veranlasst werden. Es sei erwähnt, dass eine auf Bewegungserfassung veranlasste Datenspeicherung, Alarmauslösung usw. auch an das zusätzliche Auftreten bestimmter Signale anderer Sensoren, Detektoren oder allgemein Sig- nalgeber, wie Wärmemelder, Rauchmelder oder Daten zu Einzelhandelstransaktionen wie

"Kasse offen" oder "Preisschild von Ware XY eingescannt" gekoppelt werden kann. Dass dies auch mit der vorliegenden Erfindung Vorteile, auch erfindungswesentliche Vorteile, bieten kann, sei erwähnt. Objektbewegungen führen nun zu Bildveränderungen, die per se bestimmbar sind. Es ist dabei bekannt, im Bild umfangreiche Analysen durchzuführen, um "Hintergrund" zu erkennen, "Objekte" vor dem Hintergrund, z.B. durch Kantendetektion zu definieren und dann die Bewegung der entsprechenden Objekte über mehrere Frames hinweg zu verfolgen, was bei besonders anspruchsvollen Anwendungen überdies unter Aktualisierung von I lintergrundsänderungen geschieht. Während derartige Verfahren per se in der Lage sind, die Bewegungen von Objekten zu erkennen, sind sie aufwendig. Dies ist nachteilig, wenn die Erkennung direkt in der Kamera erfolgen soll, weil hier entsprechend viel Rechenleis- tung benötigt wird. Dies bedeutet einen erhöhten Hardwareaufwand und einen erhöhten Energieverbrauch. Auch dann, wenn die Erkennung nicht in der Kamera selbst, sondern etwa in einer Zentrale erfolgen soll, ist dies nachteilig, weil dort in der Regel sehr große Datenmengen auflaufen, deren Verarbeitung wiederum einen erheblichen Verarbeitungsaufwand erfordert.

Es ist daher wünschenswert, Bewegungen von Objekten gut detektieren zu können. Eine gute Detektion liegt unter anderem dann vor, wenn mit allenfalls wenig Fehlalarmen bei trotzdem geringem Datenverarbeitungsaufwand Bewegungen j ener Objekte erkannt werden, die von besonderem Interesse sind.

Die Aufgabe der vorliegenden Erfindung besteht darin, Neues für die gewerbliche Anwendung bereitzustellen.

Die Lösung dieser Aufgabe wird in unabhängiger Form beansprucht. Bevorzugte Ausfüh- rungsformen finden sich in den Unteransprüchen .

Ein erster Grundgedanke der Erfindung ist somit darin zu sehen, dass bei einem Verfahren zur Erkennung von in digitalen Videoströmen erfassten Aktivitäten für Framesequenzen in Feldern Daten zu Framedifferenzen akkumuliert werden, Gradienten in den

Akkumulatorfeldern bestimmt werden und aus den Gradienten auf Aktivität geschlossen wird. Es sei erwähnt, dass dieses Verfahren einleuchtenderweise automatisch, d.h. ohne menschlichen Eingriff auf einer Maschine, beispielsweise in einer Kamera, einem Compu- ter usw. ablaufen kann. Wenn also in der vorliegenden Beschreibung und den zugehörigen Ansprüchen davon die Rede ist, dass z.B. auf Aktivität geschlossen wird, oder z.B. Aktivitäten als„erfasst" betrachtet werden, so bedeutet dies, dass ein solcher Schluss über das Vorhandensein von Aktivität maschinell und automatisch ohne Eingriff der menschlichen Verstandestätigkeit erfolgt und daß einleuchtenderweise auch automatisch eine entsprechende Reaktion erfolgen und eingeleitet werden kann, beispielsweise das wiederum automatisierte Ausgeben eines Signals, das Setzen eines Flags, das Ausführen eines bestimmten Programmes usw.

Es sei weiter erwähnt, dass oftmals in der vorliegenden Anmeldung von bestimmten Beur- teilungen, Deutungen, Interpretationen usw. gesprochen wird, denen ein Videostrom unterworfen wird und es versteht sich aus dem vorstehenden, dass solche Interpretationen und Beurteilungen automatische Bewertungen durch eine Maschine wie z.B. eine Kamera, einen PC oder dergl. darstellen und nicht etwa einen Hinweis auf eine menschliche Tätigkeit geben, sofern nichts anderes unmittelbar und explizit ersichtlich ist.

Es ist damit erfindungsgemäß nicht mehr erforderlich, zunächst Objekte als solche durch aufwendige Bildanalyse wie Kantendetektion in jedem Frame zu identifizieren und dann von Frame zu Frame die dergestalt abgegrenzten Objekte zu verfolgen. Das neue Verfah- ren ist in digitalen Videoströmen vielmehr schnell und einfach und mit geringem Rechenaufwand durchzuführen und es ist zugleich besonders robust gegen Fehlalarme. Insbesondere ist das neue Verfahren der Erfindung wesentlich leistungsfähiger als eine reine Differenzbildung, die auch auf Zitter-Bewegungen von Blättern usw. anspricht und diese als Bewegung fehlinterpretiert.

Erwähnt sei im Übrigen, dass die Erfindung auch dort, wo es nicht explizit erwähnt wird, auf digitale Videoströme Bezug nimmt. Der Fachmann wird verstehen, dass diese typisch mit digitalen Kameras aufgenommen werden, dass aber auch digitalisierte Videoströme von Analogkameras verarbeitbar sind. Auch sei betont, dass die Framerate typisch und vor- teilhaft mindestens so hoch sein wird, dass die Videoströme von einem menschlichen Betrachter als ruckelfrei empfunden werden, dass dies aber nicht zwingend ist. Die Auswertung der vorliegenden Erfindung ist schnell und mit geringem Rechenaufwand durchführbar.

Typisch wird als Aktivität eine Bewegung von Objekten erfasst; auf eine solche Aktivität hin kann eine Speicherung hochauflösender Bilder oder Bildbereiche, etwa (nur) jener Bereiche, in denen eine Bewegung ermittelt wurde, und/oder eine Übertragung ganzer Bilder, Datenreduzierter, etwa komprimierter Bilder, eine Alarmauslösung usw. veranlasst werden. Es sei erwähnt, dass zur weiteren Reduzierung von durch Aktivitäten veranlassten Antworten des Systems wie Aktivitätsmeldungen und/oder Speicherungen und/oder Datenübertragungen verlangt werden kann, dass simultan oder mit geringem Zeitversatz andere Sensoren ebenfalls (bestimmte) Aktivitäten erfassen; so kann z.B. ein Sichtfeld mit zwei Kameras, gegebenenfalls auch aus zwei weit voneinander entfernten Stellen erfasst werden und es kann gefordert werden, dass mit beiden Kameras Aktivitäten erfasst werden. Dabei ist es zwar per se denkbar, dass die Bereiche, für welche Aktivitäten erfasst werden, für beide Kameras durch Kalibrationsprozesse usw. abgeglichen werden; zudem kann etwa gefordert werden, dass eine vergleichsweise enge Synchronisation der Videoströme erfolgt; beides ist jedoch zur Aufwandsreduzierung nicht unbedingt erforderlich. Vielmehr werden typi- sehe Zeiten der Signalübertragung ausreichen, ein Signal zwischen mehreren Kameras auszutauschen, wonach gerade eine Aktivität mit einer Kamera erfasst wurde; wenn die andere Kamera, die zumindest Teile des gleichen Bereichs überwacht, dann ebenfalls eine Aktivität erfasst, kann dies ausreichen, um eine Alarmauslösung, Datenspeicherung usw. zu rechtfertigen. Dies erleichtert die Installation, Auswertung usw. ungemein.

Dass im Übrigen auch andere Möglichkeiten bestehen, weitere Daten zur Aktivitätserkennung zusätzlich und/oder alternativ zu einer oder mehreren weiteren Kameras heranzuziehen, sei erwärmt. So können Rauchmelder, Temperatursensoren, Geräuschsensoren usw. simultan mit ausgewertet werden; auch kann, etwa bei Überwachung im Einzelhandel, eine bestimmte Tätigkeit, wie z.B. das Einscannen eines (bestimmten) Artikels mit einem Bar- codc-Leser, verwendet werden, um zusätzlich besonders relevante Aktivitäten zu bestimmen. Das Vorliegen einer solchen Tätigkeit kann der Kamera dadurch mitgeteilt werden, dass ein entsprechendes Informationssignal an die Kamera übertragen wird. Nur bei simultanem Eintreffen mehrerer Bedingungen braucht dann in einem entsprechenden System eine geeignete Systemantwort initiiert werden. Dies erlaubt beispielsweise eine Übertragung eines oder mehrerer Bilder eines über ein Kassen-Förderband bewegten Artikels an eine Datenauswcrteeinheit, die Zugriff auf eine Bilddatenbank von Artikeln hat, um eine Überprüfung dahingehend vorzunehmen, ob ein bestimmter gescannter Artikel mit der erwarteten Abbildung übereinstimmt. So können fehlerhafte Auszeichnungen oder Betrug durch Etikett-Manipulation erkannt werden. Gegebenenfalls lässt sich hier eine Kopplung auch an erkannte Gewichte von Artikeln vornehmen, so dass als zwei zusätzliche Bedingungen gefordert werden kann, dass ein Artikel gescannt wird und das erfasste Gewicht nicht zu dem Artikel gehört, bevor die zu den bewegten Bereichen gehörigen Bildteile übertragen und analysiert werden.

Es ist weiter vorteilhaft, wenn bei einem erfindungsgemäßen Verfahren die Bewegung von Objekten dann als Aktivität erfasst wird, wenn Hinweise auf Bewegung über eine bestimmte Minimalzahl an Frames hinweg erfasst werden und/oder wenn Hinweise auf Bewegung über nicht mehr als eine bestimmte Zahl an Frames hinweg gegeben sind.

Indem Framedifferenzen nur dann als Bewegung gedeutet werden, wenn in einer größeren Zahl von Frames nacheinander entsprechende Hinweise beobachtet werden, können Fehlalarme durch atypisch schnelle Objekte vermieden werden; so kann etwa ein Vogel nahe einer Kamera sehr schnell durch ein Bildfeld fliegen, während ein sich in größerer Entfernung zur Kamera bewegender Mensch das Bildfeld nur deutlich langsamer durchqueren wird. Auch kurze Veränderungen durch Blitze, umstürzende oder herabfallende Gegen- stände etc. führen nicht zu Fehlalarmen, wenn verlangt wird, dass sich eine Bewegung über eine Mindestzahl an Frames erstrecken soll, um eine Systemantwort wie einen Alarm oder dergl. auszulösen. Wenn hingegen Veränderungen sehr langsam erfolgen, wie dies etwa beim Wandern von Schatten der Fall ist, kann ebenfalls von einer Alarmauslösung abgesehen werden.

Um bei unterschiedlich schnellen Aktivitäten jene zu erkennen, die besonders relevant sind, ist es vorteilhaft, wenn bei einem erfindungsgemäßen Verfahren für eine Anzahl von 8 bis 128 Frames je Framesequenz Differenzen bestimmt werden, bevorzugt von etwa 32 bis 64 Frames. Diese Anzahl von Frames reicht einerseits, um Bewegungen im Regelfall sicher zu erkennen, d.h. auch dann, wenn Sensorrauschen aufgrund ungünstiger Lichtbedingungen, Kamerabewegungen aufgrund von Erschütterungen, Zittern von Blättern im Wind oder dergl. Bilder beeinträchtigen. Eine größere Zahl von Frames erhöht hier die Sicherheit gegen derartige Störungen. Zugleich ist die Anzahl der Frames je Sequenz noch nicht so groß, dass eine übermäßige Rechenlast zu bewältigen ist. Einleuchtender Weise wird mit steigender Zahl der Frames die Rechenlast höher. Wie viele Frames bei einer gegebenen Implementierung tatsächlich erfasst werden sollen, hängt dabei von einer Reihe Faktoren ab. So ist unter anderem die Entfernung und Größe des Bildfeldes zu berücksichtigen, denn wenn Bewegungen sehr nahe der Kamera erfolgen, wird auch eine vergleichsweise langsame Bewegung zu einer schnellen Änderung in Bildern führen, während bei Bewegungen in größerer Entfernung auch schnell bewegte Objekte über viele Frames hinweg beobachtet werden können- wünschenswert ist im Regelfall, dass Aktivitäten, jedenfalls von Menschen oder Fahrzeugen, dann zu einer Systemantwort wie Alarm führen, wenn, sie in Framesequenzdauern von 1,5 bis 4 Sekunden erfasst werden. Weiter kann die zur Verfügung stehende Rechenleistung berücksichtigt werden, die durch die Gesamtprozessorleistung, den zulässigen Energieverbrauch und/oder weitere Datenverarbeitungsaufgaben, die neben der Aktivitätserkennung abzuarbeiten sind, beschränkt sein kann; auch kann eine Rolle spielen, wie groß die Bereiche sind, in welchen Aktivitäten erfasst werden sollen. So ist es sinnvoll, eine Anpassung dieser Bereichsgrößen an die zu erfassenden Aktivitäten vorzunehmen. Wenn etwa an einer Supermarktkasse über ein Kassenband bewegte Waren mit einer Kamera erfasst werden soll, die neben dem Kas- senband noch weitere Bereiche beobachtet, etwa die Warteschlange vor der Kasse oder den Einpackbereich, so sind bei gleicher Auflösung Aktivitäten in wesentlich kleineren Bildausschnitten zu identifizieren, als wenn nur beobachtet werden soll, ob sich überhaupt eine Person der Kasse nähert. Zudem kann erhöhte Rechenlast auftreten, wenn unterschiedliche Akkumulatorfelder bedient werden sollen.

Es ist vorteilhaft, wenn bei einem erfindungsgemäßen V erfahren mehrere

Akkumulatorfelder vorgesehen sind. Die Verwendung mehrerer Akkumulatorfelder je Framesequenz kann z.B. geschehen, um unterschiedliche Bildanteile auszuwerten, etwa rote, gelbe und blaue Bildanteile; während der typische Fall des erfindungsgemäßen Aktivitätssensors implementiert wird, indem Grauwerte der Bilder ausgewertet werden, kann es vorteilhaft sein, stattdessen oder zusätzlich bestimmte oder alle Farben auszuwerten. So ist etwa dann, wenn bei Bahnanlagen durch Kamerabeobachtung Warnungen ausgegeben werden, wenn sich Bahnarbeiter über Gleise bewegen, eine auf die typische Signalfarbe Orange abgestimmte Erkennung vorteilhaft. Ähnliches gilt im Kassenbereich, wo etwa bestimmte Artikel (die durch Scannen des aufgedruckten Barcodes bekannt sind) erkannt werden sollen - hier kann z.B. in einer Datenbank eine bevorzugte Farbe angegeben werden, anhand derer ein Artikel optimal erkannt werden kann; diese Farbe kann dem Aktivitätssensor übermittelt werden und es kann dann eine Analyse zur Suche nach einer Bewegung eines solchen Artikels veranlasst werden; ein Alarm kann etwa ausgelöst werden, wenn zu dem gescannten Artikel keine Bewe- gung im Kasscnbandbereich erfasst wird.

Es ist weiter möglich, mehrere Akkumulatorfelder zu verwenden, um eine Anpassung an unterschiedliche Bewegungsgeschwindigkeiten zu erzielen. So kann bei weitwinkliger Beobachtung berücksichtigt werden, dass nähere und ferne Bereiche mit unterschiedlicher Auflösung beobachtet werden sollen bzw. in näheren und ferneren Bereichen unterschiedliche Framezahlen je Framesequenz bzw. nur nicht unmittelbar, sondern mit zeitlichem Abstand aufeinander folgende Frames zu berücksichtigen sind. Da in der Nähe der Kamera eine Bewegung zu größeren und schneller auffallenden Veränderungen fuhrt als eine gleich schnelle Bewegung, die sehr weit weg beobachtet wird, ist es z.B. möglich, für die Detektion kameranaher Bewegungen ein Akkumulatorfeld für Veränderungen zu verwenden, die von Frame zu Frame ablaufen, während für weiter entfernt ablaufende Bewegungen ein Akkumulatorfeld verwendet wird, das nur alle z.B. 4 oder 10 Frames ein Differenzbild bestimmt. Es kann zudem berücksichtigt werden, dass weiter entfernt ablaufende Bewegungen in der Regel auf weniger Pixeln erfasst werden; deswegen kann dann, damit solche Bewegungen noch gut erfasst werden, eine höhere Auflösung gewählt werden als für jenes Akkumulatorfeld, mit dem schnelle nahe Bewegungen erfasst werden. Soll eine Bewegung auch in sehr großen Entfernungen noch erkannt werden, so ist es daher sinnvoll, zumindest dafür Differenzen mit höchstmöglicher Auflösung zu akkumulieren. Aus dem vorstehenden ist ersichtlich, dass, sofern dies gewünscht ist, mit Akkumulatorstrategien gearbeitet werden, bei denen sich sowohl die Auflösung der Akkumulatorfelder wie auch die Rate berücksichtigter Frames unterscheiden. Falls erforderlich und/oder gewünscht, ist es zudem möglich, für sehr weit entfernt liegende Bereiche erst eine Mittelung mehrerer Frames und dann eine Differenzbildung der gemittelten (und bevorzugt hinsichtlich der in die Mittelwerte einfüessenden Frames auseinanderliegenden) Mittelwertframes erfolgen, um die Akkumulatorfelder zu bestimmen. Eine Mittelwertbildung kann helfen, nicht nur nachts das Rauschen zu verringern, sondern auch beispielsweise am Tag den Einfluss von Luftturbulenzen aufgrund sehr heißer Luft etc. deutlich zu verringern.

Dass auch noch für jede Auflösung und/oder jede Framerate jeweils unterschiedliche Akkumulatorstrategien verfolgt werden können, sei offenbart. Alternativ und/oder zusätzlich ist es möglich, mehrere Akkumulatorleider zu verwenden, um sowohl Bewegungen auf die Kamera zu als auch von dieser weg zu erkennen. Dies kann durch unterschiedliche Akkumulatorstrategien für die unterschiedlichen Felder geschehen. Es sei im Übrigen erwähnt, dass dort, wo vorliegend von unterschiedlichen

Akkumulatorfelder gesprochen wird, per se eine Implementierung möglich ist, die per se auf mehrere Felder verteilbare, akkumulierte Information auf geeignete Weise in nur ein Feld einschreibt. So wäre ein Datenformat denkbar, bei welchem in einem Zahlenfeld Vorkommastellen einen akkumulierten Grauwert angeben, während Nachkommastellen einen akkumulierten Farbwert angeben. Auch ist es möglich, eine Framesequenz mit jedem neu aufgenommenen Frame zu beginnen und dann dafür eine Akkumulation über die gewünschte Frameanzahl durchzuführen. Bei Berücksichtigung von 40 Frames je Sequenz liegen dann z.B. simultan 40 Akkumulatoren vor. Während ein solches Vorgehen möglich ist, könnten alternativ Datenformate und/oder Akkumulatorstrategien so gewählt werden, dass mit dem akkumulierten Wert, der in das Feld geschrieben wird, auch der Zeitpunkt registriert wird, zu welchem er eingetragen wurde, damit besonders alte und damit außerhalb einer aktuell zu betrachtenden Framesequenz liegende Framedi f ferenzen ignoriert und/oder gelöscht werden können und/oder erkannt und erforderlichenfalls bewertet werden kann, wie alt ein Akkumulatoreintrag ist. Als Alternative zur Verwendung von vielen Akkumulatoren, die für jede Framesequenz neu initialisiert werden müssen, kann auch ein Verfahren gewählt werden, bei welchem einer "frischen" Differenz ein hoher Wert im Ak- kumulatorfeld zugeordnet werden und dieser Wert mit dem Altern des Wertes allmählich verringert werden. So kann, wenn z.B. zwanzig Frames für die Detektion einer Bewegung berücksichtigt werden sollen, in das Feld nach anfänglicher Initialisierung auf den durchgehenden Wert Null an jedem Pixel des Akkumulatorfeldes, ein Wert "20" eingeschrieben werden, wenn die Akkumulatorstrategie festlegt, dass das Vorhandensein einer Bilddiffe- renz dort in das Akkumulatorfeld eingetragen werden soll. Bevor dann für den nächsten Frame für vorhandene Bilddifferenzen Werte in das Akkumulatorfeld eingetragen werden, wird jeder Wert im Akkumulatorfeld um eins reduziert, sofern der Wert noch größer als Null ist. Dann deuten im Akkumulatorfeld Werte von z.B. "20" auf gerade erst aufgetretene Bilddifferenzen, Werte von z.B. "19" darauf, dass im vorherigen Frame zum vorvorherigen Frame eine Differenz an diesem Pixel vorlag usw. Auf diese Weise codieren also die Werte im Akkumulatorfeld das Alter des Eintrags bzw. die Zeit, die seit einer bestimmten Bildänderung an diesem Pixel vergangen ist. Bezugnahmen auf 40 oder 20 Frames und Werte von 20 sind einleuchtender Weise nicht zwingend. So hat sich gezeigt, dass schon bei z.B. 5 oder 6 Frames in einer Sequenz eine gute B ewegungserkennung möglich ist. Auch brauchen die Einträge im Akkumulatorfeld nicht in 1 -er Schritten herabgezählt werden. Auch sind andere Schrittweiten als " 1 " o.w. möglich. Ein weiterer Vorteil ergibt sich, wenn weiter als bis Null heruntergezählt wird, d.h. die

Eintragung negativer Werte im Akkumulatorfeld zugelassen wird. In einem solchen Fall kann für Neueinträge ein an einem Pixel vorhandener negativer Wert behandelt werden, als ob dort ein Wert "Null" stünde; auch bei der Gradientenbildung kann ein negativer Wert wie der Wert "Null" behandelt werden. Interessant ist es jedoch, wenn der Bildhintergrund ermittelt werden soll. Hier spricht ein weit unterhalb Null liegender Wert dafür, dass sich an einer Stelle sehr lange nichts verändert hat; damit ist das entsprechende Pixel mit hoher Wahrscheinlichkeit ein Hintergrundpixel eines sehr stabilen Hintergrundwerte s . Dies hilft bei der Bestimmung des Hintergrundes. Zudem kann erforderlichenfalls auf Bewegungen in jenen Bereichen, in denen sonst keine Bewegung auftritt, anders reagiert werden. Es ist im Übrigen möglich, nur jeden x-ten Frame, z.B. jeden 10., 100. oder 4096. Frame, von einem negativen Zählwert weiter etwas abzuziehen. So reicht der typisch verfügbare Zahlen- räum für längere Zeiträume aus.

Es sei erwähnt, dass es besonders vorteilhaft sein kann, alle Frames einer Framesequenz, die aktuell auf Aktivitäten untersucht wird, zumindest solange zu speichern, bis festgestellt wurde, dass in diesen Frames keine interessierende Aktivität erfasst wurde. Dies erlaubt es, dann die Ausgangs-Frames dauerhaft für eine weitere Auswertung zu sichern, zu übertragen oder heranzuziehen, wenn eine relevante Aktivität erkannt wurde. Die technische einfache Realisierung einer solchen Pufferung ist beispielsweise mit Ringspeichern möglich. Erwähnt sei aber auch, dass es gegebenenfalls ausreichen kann, auf die Frames bezogene Daten, z.B. zu groben Blöcken reduzierte grobe Bilder zu bestimmen und die Ursprungs- Frames danach sofort zu verwerfen bzw. nur nach einer z.B. auch völlig aktivitätsunabhängigen Strategie zu speichern. Anstelle der Frames oder der reduzierten (z.B. grobblo- ckigen und/oder auf Grauwerte reduzierten) Frames können auch nur die entsprechenden Differenzwerte abgelegt werden. Derartige Differenzwerte werden typisch zum unmittelbar vorhergehenden Frame bestimmt, wenn nicht das Erfordernis, sehr langsame Bewegungen zu erkennen, etwas anderes diktiert.

Besonders vorteilhaft ist es, wenn bei einem erfindungsgemäßen Verfahren Daten zu Framedifferenzen nach unterschiedlichen Strategien akkumuliert werden. Dies erlaubt es, unterschiedliche Aktivitäten sicher zu erkennen, z.B. eine Bewegung auf die Kamera zu und eine Bewegung von der Kamera weg. Um diese Bewegungen zu erkennen, hat es sich als vorteilhaft erwiesen, wenn auf zwei unterschiedliche Strategien Daten akkumuliert werden. So kann in einem ersten Akkumulatorfeld an einer gegebenen Bild-Stelle ein Wert immer dann eingespeichert werden, wenn an dieser Stelle für die betrachtete Sequenz noch für alle vorhergehenden Differenzen der bisherige Wert Null war. Als Bildstelle wird hier ein Pixel verstanden bzw. ein aus mehreren Pixeln durch Mittelung oder dcrgl. bestimmter

Block - es wird also bei der Akkumulation Pixel für Pixel bzw. Block für Block untersucht, wie die Frames einer Sequenz differieren. Gerade bei Fällen, in welchen nur von Null verschiedene Differenz- Werte in einem Akkumulatorfeld eingetragen werden sollen, kann es vorteilhaft sein, wenn solche Differenz- werte nur dann eingetragen werden, wenn sie hinreichend stark von Null verschieden sind; dies verhindert eine Beeinträchtigung durch Rauschen etc. Allerdings sei darauf hingewiesen, dass bei Betrachtung von Blockdifferenzen anstelle von Pixeldifferenzen der Einfluss von Rauschen, Wackeln usw. ohnehin geringer ist und im Übrigen auch bei der

Gradientenbildung noch ein Schwellwertvcrhaltcn implementiert werden kann, um nur jene Gradienten zu berücksichtigen, wo die Gradienten selbst und/oder die

gradientenbildenden Werte ein bestimmtes Minimum überschreiten.

Die Differenzwerte können auf verschiedene Arten bestimmt werden. So kann etwa die Differenz zu einem Vorgängerframe bestimmt werden; in einem solchen Fall wird bei gleichbleibender Bewegung und homogener Beleuchtung für alle nacheinander folgenden Frames ein etwa gleicher Differenzwert entlang des Objekt weges an den Kanten erhalten werden, was ohne weiteres auswertbar ist.

Alternativ und/oder zusätzlich kann das Differenzbild zu einem Referenzbild bestimmt werden. Es kann also z.B. ein aktuell gerade aufgenommener Frame (der mit der zeitlichen Ordnungszahl i bezeichnet sei) verglichen werden mit dem Frame, der direkt davor aufgenommen wurde (d.h. dem Frame i-1), dann mit dem Frame i-2, dann mit dem Frame i- 3...usw, z.B. bis zum Frame i-40. Es ist möglich, die so bestimmten Differenzwerte unmittelbar in das Akkumulatorfeld einzuschreiben, sofern der jeweiligen Akkumulator- Einschreibestrategie entsprochen wird, oder einen Wert, der zugleich das Alter des Ver- gleichsframes kodiert. So könnte immer dann, wenn ein hinreichend großer Differenzwert auftritt, d.h. eine bestimmte Schwelle überschritten wird, anstelle eines den Differenzwert selbst anzeigenden Wertes ein das Alter des Vergleichsframes anzeigender Wert in das Akkumulatorfeld eingetragen werden; bei dem obigen Beispiel könnte etwa dann, wenn die Differenz zum Frame i-17 an einer bestimmten Stelle im Bild den Schwellwert über- schreitet, der Wert " 17" in das Akkumulatorfeld eingetragen werden. Ein Referenzbild für die Differenzenbildung kann auch beispielsweise durch langfristige Mittelung aus den Frames bestimmt werden; dies reduziert den Rauscheinfluss weiter. Es werden dann die Differenzen einer Sequenz von Frames zu einem solchen Hintergrundbild akkumuliert. Das Hmtergrundbild kann auf per se bekannte Weisen "adaptiert" oder verän- dert werden, um langfristigen Veränderungen im Hintergrund durch sich ändernden Sonnenstand, wegfahrende Autos usw. zu berücksichtigen.

Als weitere Akkumulatorstrategie kann, bevorzugt in einem anderen Akkumulatorfeld an einer Stelle, d.h. bei einem gegebenen Pixel oder Pixelblock, dann ein Wert eingespeichert werden, wen an dieser Stelle für die betrachtete Sequenz die aktuelle Differenz größer ist als die bereits an diesem Pixel bzw. diesem Pixelblock abgespeicherte Differenz. Man hat also einen Maximalwert- Akkumulator. Auch hier kann wiederum ein Alter des betrachteten Frames berücksichtigt werden. Es zeigt sich, dass mit derartigen Strategien Bewegungen sowohl auf die Kamera zu als auch von der Kamera weg sehr gut erfasst werden können, und zwar mit einem jeweils anderen Akkumulatorfeld. Zugleich ist der Aufwand für die Akkumulation gemäß der zwei unterschiedlichen Strategien minimal, weil nach Bestimmung der zwischen einem Paar Frames an einer bestimmten Stelle gegebenen Differenz lediglich jeweils ein Vergleich dieser Stelle mit einem im Akkumulatorfeld an der Stelle vorhandenen Eintrag erforderlich ist: einmal wird im beschriebenen bevorzugten Beispiel auf Gleichheit mit Null geprüft, im anderen Fall wird der größere Wert durch Vergleich bestimmt.

Es ist möglich und vorteilhaft, wenn bei einem erfindungsgemäßen V erfahren eine Bewe- gungsrichtung bestimmt wird, insbesondere durch Ermittlung im Akkumulatorfeld vorhandener Gradienten. Per se zeigt ein Gradient im Bewegungsfeld an, dass die akkumulierten Differenzen einem bestimmten Muster folgen, was gegen eine zufällige Variation spricht. Es kann die Gradientenbildung z.B. so erfolgen, dass eine Richtung stärkster Änderung ermittelt wird; alternativ können, was einfacher ist, bei einem erfindungsgemäßen Verfah- ren die Gradienten für jedes Akkumulatorfeld in zwei Richtungen, insbesondere entlang von Reihen des Akkumulatorfeldes und entlang von Spalten des Akkumulatorfeldes bestimmt werden. Eine Bewegung kann z.B. dann angenommen werden, wenn für einen größeren Bereich von Ausgangspixeln ein Gradient für jedes der Pixel in eine bestimmte Richtung vorliegt. Dies wird nämlich dann der Fall sein, wenn sich die Position eines größeren Objektes ge- ändert hat. Die Größe des Bereiches, ab welcher eine Systemantwort wie ein Alarm ausgelöst wird, wenn in diesem Bereich durchgängig oder überwiegend ein Gradient in eine bestimmte Richtung vorliegt, kann dabei, wie vorstehend erwähnt, abhängen von der Größe des beobachteten Bereiches, für welchen eine zu beobachtende Objektbewegung typisch erwartet wird.

Es ist demnach vorteilhaft, wenn bei einem erfindungsgemäßen Verfahren aus den Gradienten auf Aktivität geschlossen wird, wenn der Gradientenwert eine bestimmte Größe überschreitet und/oder wenn die Gradienten werte in einem hinreichend großen, insbesondere zusammenhängenden Bereich eine bestimmte Größe überschreiten.

Während per se das Vorhandensein eines Gradienten bzw. eines hinreichend großen Bereiches mit vergleichbaren Gradientenwerten im Akkumulatorfeld für eine Bewegung im Bild spricht, kann aus dem Gradienten selbst sogar auf die Bewegung selbst geschlossen werden. Ausgewertet werden kann u.a. die Größe des Bereiches und/oder die Größe des Gra- dienten selbst sowie die Richtung von Gradienten. So kann bei den als besonders bevorzugt beschriebenen Akkumulatorstrategien auch eine zumindest grobe Bewegungsrichtung ermittelt werden.

Es sei erwähnt, das unterschiedliche Akkumulatorstrategien für ein und dieselbe Bewe- gung zu unterschiedlichen Gradientenmustern fuhren; werden Gradientenmuster zur Bestimmung der Bewegung bzw. Bewegungsrichtung ausgewertet, ist es also sinnvoll, dabei die Akkumulatorstrategie mitzuberücksichtigen.

Wie vorstehend erwähnt, ist es möglich und aufgrund des geringen Aufwandes auch be- sonders vorteilhaft, wenn bei einem erfindungsgemäßen Verfahren Framedifferenzen anhand der Grauwerte bestimmt werden. Es werden also typisch zu einem gegebenen Frame die Grauwerte für jede Stelle des betrachteten Bildes herangezogen. Dies kann bei datenre- duzierten Verfahren, bei welchen die Bilder nicht in voller Auflösung zur Aktivitätsanalyse herangezogen werden, sondern Bilder und/oder Bildbereiche mit reduzierte Auflösung betrachtet werden, vorteilhaft dadurch geschehen, dass über die Pixel in einem Block gemit- telt wird. Wenn die so auflösungsreduziert erhaltenen Grauwertbilder in einem Pufferspei- eher abgelegt werden, kann die für jede Sequenz erforderliche Datenverarbeitung minimal gehalten werden.

Es ist, wie erwähnt, vorteilhaft, wenn bei einem erfindungsgemäßen Verfahren vor der Differenzenbildung aus mehreren Pixeln Blöcke gebildet werden und die Differenzen dieser Blöcke bestimmt werden, so dass die Akkumulatorfelder eine geringere Auflösung als der Videostrom besitzt. Als ausreichend auch für Graustufen hat sich etwa eine Reduzierung auf 320*240 Blöcke erwiesen. Dies ist nicht limitierend als für die zur Aktivitätenkennung erforderliche Auflösung. So wurde etwa schon mit 256* 192 Blöcken eine gute Aktivitäts- kennung veranlasst. Vorteilhaft ist regelmässig, wenn die von einer Kamera zur Verfügung gestellte Auflösung einfach auf die zur Differenzakkumulation verwendete

heruntergerechnet werden kann. Dies wird typisch der Fall sein, wenn mit schnellen Algorithmen skaliert werden kann, also z.B. ein Herunterrechnen mit geraden Zahlen möglich ist. Es sei auch erwähnt, dass typisch vor der Differenzbildung heruntcrskaliert wird, dass dies aber nicht zwingend ist. Vielmehr könnte auch eine Differenzbildung in einem hoch- auflösenden Bild erfolgen und dann ein Herunterskalieren des Differenzbildes. Erwähnt sei zudem, dass in vielen Fällen vorteilhaft Differenzen zur maximalen Auflösung betrachtet und akkumuliert werden, etwa bei großflächigen Überwachungsaufgaben mit weit auseinander gezogenen Kameraeinheiten. Es sei im Übrigen erwähnt, dass häufig Datenrcdukti onen in digitalen Videokameras ohnehin vorgenommen werden, etwa um mit einer hochauflösenden Kamera einen räumlich niedrig aufgelösten und damit mit geringer Datenlast in einem Netzwerk übertragbaren Videostrom bereitstellen zu können. Schutz wird auch beansprucht für Vorrichtung zur Ausführung des erfindungsgemäße Verfahrens mit einer Differenzbildungsstufe zur Bildung von Framedifferenzen charakterisierenden Daten, mindestens einem Akkumulatorfeld zur Speicherung von Framedifferenzen charakterisierenden Daten, einem Gradientenbildungsmittel zur Bildung von Gradienten im Akkumulatorfeld und einem Gradientenbewertungsmittel zur Entscheidung, ob ein gebildeter Gradient auf eine Aktivität deutet.

Bei einer solchen Vorrichtung kann es sich beispielsweise handeln um eine Digitalkamera mit einer geeigneten Soft- oder Firmware zur Durchführung des Datenverarbeitungsverfahrens. Dass derartige Kameras über LAN/WLAN/WAN/GSM/UMTS oder dergl. unter Verwendung von herkömmlichen Protokollen wie TCP/IP o.ä. Daten übertragen können, sei erwähnt.

Dass Schutz weiter fiir Software beansprucht wird, mit der das erfindungsgemäße Verfahren implementiert werden kann, sei ebenfalls erwähnt.

Die Erfindung wird im Folgenden nur beispielhaft anhand der Zeichnung beschrieben. In dieser ist dargestellt durch:

Fig. la Testframe aus einer Framesequenz, bei der sich eine Person von der

Kamera entfernt;

Fig. lb Differenzbild zu der Framesequenz;

Fig. l c nach Strategie 1 akkumulierte Differenzbilder ("Vorwärts");

Fig. Id nach Strategie 2 akkumulierte Differenzbilder

("Rückwärts");

Fig. le Ausschnitte der Differenzenbilder

Vorwärts /Rückwärts;

Fig. l f Konturbilder zu Fig. 1 a und b mit

Grauwertlinien;

Fig. lg Konturbilder zu Fig. le mit Grauwertlinien;

Fig. 2a Testframe aus einer Framesequenz, bei der eine Person die Szene von rechts betritt, sich nach links bewegt und dann entlang der Autos von der Kamera weg bewegt (in dieser Phase gezeigt);

Fig. 2b Differenzbild aus der Framesequenz von Fig. 2a

Fig. 2c nach Strategie 1 akkumulierte Differenzbilder

("Vorwärts"); Fig. 2d nach Strategie 2 akkumulierte Differenzbilder ("Rückwärts");

Fig. 2e Konturbilder zu Fig. 2c und 2d;

Fig. 3 a Bewegung einer Person quer zur Kamera

links Beispielframe aus der Testsequenz

rechts Differenzbild zu vorhergehendem

Frame;

Fig. 3b nach unterschiedlichen Strategien akkumulierte Differenzen;

Fig. 3c Konturbilder zu Fig. 3a und 3b, nämlich

oben zu Fig. 3a

unten zu Fig. 3b;

Fig. 4a Bewegung eines Autos auf Kamera zu

links Beispielframe aus der Testsequenz

rechts Differenzbild zu vorhergehendem

Frame;

Fig. 4b nach unterschiedlichen Strategien akkumulierte Differenzen;

Fig. 4c Konturbilder zu Fig. 4a und 4b, nämlich

oben zu Fig. 4a

unten zu Fig. 4b;

Vergrößerung der nach unterschiedlichen Strategien akkumulierten Differenzbilder von Fig. 4b in der zur besseren Druckbarkeit der Schutzrechtsschrift gewählten Konturdarstellung mit für eine Strategie auffälligeren und damit besser detektierbaren Gradientenlinien innerhalb des Bewegungsbereiches;

Fig. 6 Vergrößerung der mit unterschiedlichen Strategien akkumulierten

Differenzbilder von Fig. lg in der zur besseren Druckbarkeit der Schutzrechtsschrift gewählten Konturdarstellung mit für eine Strategie auffälligeren und damit besser detektierbaren Gradientenlinien innerhalb des Bewegungsbereiches; Fig. 7 Histogramme zu unterschiedlichen Bewegungen,

wobei aufgetragen ist

die Häufigkeit eines Pixel-Abstandes

zwischen

zwei

unterschiedlich alten Einträgen

im Akkumulatorfeld,

und zwar

oben

für ein Auto, das etwa entlang jener Strecke fährt, entlang derer in Fig. 3 ein Fussgänger gelaufen ist

und

unten für eine vergleichsweise langsame Bewegung eines

Fussgängers quer an der Kamera vorbei (vgl, die Situation von Fig. 3)

sowie

die Fig. l a',l b', lc'Jd'Je'^a'^b'^c'^d'^a'^b'^a' b' in nur zwecks besserer

Möglichjkeit einer Vervielfältigung in gerasterter Form dargestellt, das, was jeweils auf den Fig. 1 a, 1 b,

1 c, 1 d, 1 e,2a,2b,2c,2d,3 a,3b,4a,4b gezeigt ist, wobei die linke/rechte Seite der Bilder von Fig. 3a,4a in den Fig.

3a' ,4a' oben bzw. unten abgebildet sind.

Gemäß der Erfindung wird eine Vorrichtung zur Ausführung eines Verfahrens, bei welchem für Framesequenzen in Feldern Daten zu Framedifferenzen akkumuliert werden, Gradienten in den Akkumulatorfeldem bestimmt werden und aus den Gradienten auf Aktivität geschlossen wird, versehen mit einer Differenzbildungsstufe zur Bildung von Framedifferenzen charakterisierenden Daten, mindestens einem Akkumulatorfeld zur Speicherung von Framedifferenzen charakteri si erenden Daten, einem Gradientenbildungsmittel zur Bildung von Gradienten im Akkumulatorfeld und einem Gradientenbewertungsmittel zur Entscheidung, ob ein gebildeter Gradient auf eine Aktivität deutet. Bei dieser Vorrichtung kann es sich um eine per se herkömmliche digitale Videokamera handeln, d.h. eine Videokamera, die einen Videostrom als digitalen Datenstrom abgibt und eine digitale Bearbeitung der Videodaten erlaubt. Insbesondere wird diese Kamera eine Reihe einzelner digitaler Bilder so schnell aufnehmen, dass für den menschlichen Beobachter, der die Bildreihe während eines Zeitintervalls betrachtet, das genauso lang ist wie das Aufnahrnedauerintervall, der Hindruck entsteht, es läge eine flüssige oder nahezu flüssige Bewegung vor anstelle einzelner Bilder. Dies lässt sich mit Frameraten um ab 24 Frames/sec erreichen. Es sei aber erwähnt, dass die vorliegende Erfindung auch mit ande- ren Frameraten verwendbar ist, etwa, wenn die gegebene Framerate per se kleiner ist. Dies kann schon bei Beobachtung bei geringem Licht, etwa nachts der Fall sein; hier kann eine benötigte Belichtungszeit im Bereich um z.B. eine Sekunde je Frame erforderlich sein. Es sei erwähnt, dass gegebenenfalls ein und dieselbe Kamera an ein und demselben Ort unter Auswertung unterschiedlicher Framerates betrieben werden kann.

Weiter sei erwähnt, dass die Erfindung etwa auch dann vorteilhaft mit geringeren Frameraten arbeiten kann, wenn etwa sehr weit entfernte Bereiche überwacht werden, bei welchen sich - bei gleicher Aullösung - bewegte Objekte aufgrund des kleineren Darstellungsmaßtabes nur allmählicher über einen Bildbereich bewegen als dies bei nahen Objekten der Fall ist. Auch wäre möglich, eine auch deutlich niedrigere Framerate zu wählen, wenn etwa sehr langsame Prozesse beobachtet werden sollen.

Die herkömmliche digitale Videokamera der vorliegenden Erfindung wird eine interne Datenverarbeitungseinheit aufweisen, in welcher Bilddaten verarbeitet und gespeichert wer- den können; es werden vorhanden sein zumindest ein Prozessor, Daten- und Programmspeicher sowie mindestens eine Schnittstelle, über welche die Kamera mit einer Zentrale, einem Wachdienst, einer Datenbank, einem Hostrechner oder dergl, kommunizieren kann. Dies kann unter Verwendung per se geeigneter, bekannter oder noch aufkommender Kommunikations-Protokolle geschehen, ohne dass die Erfindung davon beeinträchtigt wird. Eine solche Datenverarbeitungseinheit wird mit Software oder Firmware programmierbar sein, um unterschiedliche Datenverarbeitungsaufgaben zu bewältigen; die Leistungsfähigkeit derselben wird so gewählt werden, dass die hier beschriebenen Verfahrensschritte ohne weiteres in Echtzeit abarbeitbar sind; da, wie für den Fachmann ersichtlich, die für die erfindungsgemäß erforderlichen und oder bevorzugten Verfahrensschritte benötigte Datenverarbeitungsleistung nur gering ist, stellt dies keine besonderen Anforderungen an die Rechenkapazität.

Auch wird ersichtlich sein, dass die erfindungsgemäß erforderlichen oder vorteilhaften Da- ten- und/oder Ringspeicher für Frames einer Sequenz, für auf Blöcke reduzierte Frames, für die Akkumulatorfelder für unterschiedliche Strategien, für die Grau- und/oder Farbwertbilder bzw. -blöcke zu Frames einer Sequenz usw. keinen erheblichen Hardwareaufwand nach sich ziehen, sondern dass vielmehr in bereits existierenden Kameras typisch bereits so große Speicher zur Verfügung stehen, dass oftmals die Erfindung auf solchen Ka- meras ohne weiteres ausgeführt werden kann. Dass im Übrigen das Verfahren nicht zwingend auf einer Kamera aufgeführt werden muss, sondern auch in einer Zentrale oder der gl. ausgeführt werden kann, gegebenenfalls auch auf gespeicherten Daten, sei erwähnt.

Aus dem vorstehenden wird auch ersichtlich sein, dass obwohl auf Akkumulatorfelder, Differenzbildungsstufen, Gradientenbewertungsmittel usw. Bezug genommen wird, es für die Implementierung dieser Elemente und Mittel ausreicht, eine herkömmliche Datenverarbeitungsstruktur, wie sie in digitalen Kameras gebräuchlich ist, zu verwenden. Insoweit also Schutz auch für eine Vorrichtung zur Ausführung des erfindungsgemäße Verfahrens beansprucht wird mit z.B. einer Differenzbildungsstufe zur Bildung von Framedifferenzen charakterisierenden Daten, mindestens einem Akkumulatorfeld zur Speicherung von Framedifferenzen charakterisierenden Daten, einem Gradientenbildungsmittel zur Bildung von Gradienten im Akkumulatorfeld und einem Gradientenbewertungsmittel zur Entscheidung, ob ein gebildeter Gradient auf eine Aktivität deutet, versteht sich, dass diese Vorrichtung als per se herkömmliche Videokamera gebildet sein kann, die aber durch geeigne- te Soft- oder Firmware zur Durchführung des Datenverarbeitungsverfahrens spezifisch umgestaltet ist, so dass mit der Datenverarbeitungseinheit die entsprechenden Elemente realisiert werden. Dass derartige Kameras über LAN/WLAN/WAN/GSM JMTS/Bluetooth/USB oder dergl. unter Verwendung von herkömmlichen Protokollen wie TCP/IP o.ä. Daten übertragen können, sei erwähnt; insoweit wird ein Austausch von zusätzlichen Signalen wie von Kas- sen im Einzelhandel, von Datenbanken, Rauchmeldern usw. über solche Protokolle erfolgen können.

Dies vorausgestellt, werden nun mit der Kamera erfasste Daten bearbeitet wie nachfolgend unter Bezugnahme auf die Figuren beispielhaft beschrieben.

Das Verfahren sei zunächst mit Bezug auf Fig. 1 erläutert.

In Fig. 1 a ist zunächst in Schwarz- Weiss, d.h. in Grauwertstufen, ein Testframe aus einer Framesequenz gezeigt, in weicher sich eine neben der rechten Reihe parkender Autos be- wegende Person von der Videokamera entfernt. Solche eine Szene ist typisch für eine Anwendung der Erfindung. Es sei darauf hingewiesen, dass die Videokameraaufnahme farbig erfolgen kann, d.h. Farbframedaten vorliegen können. In einem solchen Fall ist es bevorzugt, für eine einfache Implementierung nur die Grauwerte zu betrachten, so dass dann von einem Bild wie in Fig. 1 ausgegangen werden kann.

Die Bewegung der Person innerhalb des Bildbereiches führt nun zu Unterschieden zwischen den Frames der Sequenz. Dies ist in Fig. 1b dargestellt. Hell sind dort jene Bereiche eingezeichnet, in denen sich das Bild stark geändert hat; dargestellt sind hier die Differenzen zu einem vorhergehenden Frame, d.h.:

Es wird erst eine Differenz des Framepaares (i,i-l ) bestimmt.

Es wird dann die Differenz des Framepaares (i-l ,i-2) bestimmt.

Es wird dann die Differenz des Framepaares (i-2,i-3)

bestimmt usw. Was Fig. 1 b angeht, ist erkennbar, dass im oberen Bilddrittel, etwa mittig, ein heller Fleck vorliegt, der zu der sich bewegenden Person und deren Schatten gehört. Daneben ist vorne links im Bild ein heller Bereich zu erkennen, der zu dem Schatten des Baumes im Vorder- grund gehört. Im Hintergrund sind überdies helle Flächen zu erkennen, die mit weiteren Bäumen und/oder den Umrissen parkender Autos zu assoziieren sind.

Da antizipiert wird, dass reine He]l-/Dunkcl-Darstellungen sowie Fotografien bei der Wie- dergabe der Schutzrechtsschrift allenfalls schwer erkennbar sind, wird zu den Fig. 1 a und 1b zusätzlich eine Hilfsdarstellung gegeben, in der wichtige Konturen erkennbar sind, d.h. im wesentlichen nur Kanten zwischen helleren und dunkleren Bereichen bestimmt wurden. Es sei betont, dass eine solche Kantendetcktion und Darstellung von Kanten im Bild nicht für das Verfahren der Erfindung erforderlich ist, sondern nur zu dessen besserer Veran- schaulichung bei der Schutzrechtsanmeldung, also extra für diese Beschreibung vorgenommen wurde, um den erwarteten Unzulänglichkeiten der Veröffentlichung entgegenzuwirken. Dies gilt auch für alle weiteren Konturdarstellungen.

Dass auch bei schneller Framerate Schatten von Bäumen im Differenzbild erkennbar wer- den, kann ungeachtet der eigentlich langsamen Sonnenbewegung gerade bei Aufnahmen im Freien durch Windcinfluss oder dadurch der Fall sein, dass sich die Bewölkung am Himmel verändert und damit die Beleuchtungsverhältnisse. Die dadurch verursachten Effekte im Bild sollen von der Bildänderung durch die sich bewegende Person unterschieden werden.

Dazu werden nun die Differenzbilder akkumuliert. Bei der Akkumulation wird pixel weise für jedes Differenzbild geprüft, ob an der Stelle dieses Pixels im Akkumulatorfeld aufgrund des aktuellen Differenzwertes an der Pixelstelle des Differenzbildes eine Eintragung vorgenommen werden soll oder nicht.

Diese Prüfung kann unterschiedlichen Strategien folgen. Im vorliegenden Fall wird mit zwei Strategien simultan gearbeitet.

Für beide Strategien sei angenommen, dass zu Beginn einer jeden Sequenz das jeweilige Akkumulatorfeld auf Null gesetzt wird, d.h. jedes Pixel im Akkumulatorfeld hat den anfänglichen Wert Null. Dass diese Annahme rein didaktische Gründe hat, um die Erfindung besser erklären zu können, sei im Vorgriff auf weiter unten stehende Ausführungen erwähnt.

Für die erste Strategie wird in dieses Akkumulatorfeld an einem Pixel immer dann ein Wert eingeschrieben, wenn das aktuell betrachtete Differenzbild an dieser Stelle deutlich von Null verschieden ist (also die Differenz eine bestimmte Schwelle überschreitet - in Fig. 1b wäre sie demnach HELL). Dabei wird nach der ersten Strategie nicht geprüft, ob an dieser Stelle im Akkumulatorfeld aus einem vorherigen Differenzbild bereits ein Eintrag vorliegt. Es werden also evtl. alte Differenzen überschrieben.

Um im Akkumulatorfeld bei dieser Strategie neue und alte Einträge unterscheiden zu können, wird für jeden Eintrag numerisch codiert, zu welchem Differenzenbild er gehört. So kann der Differenz der Framepaare (i,i-l) der in das Akkumulatorfeld der Wert 1 eingetragen werden, für das Einschreiben einer Differenz des Framepaares (i-l ,i-2) der Wert 2, für eine Differenz des Framepaares (i-2,i-3) der Wert 3 usw. Auf diese Weise steht im Akkumulatorfeld ein Wert, aus dem sich erkennen lässt, wie alt ein bestimmter Eintrag ist.

Mit einem weiteren Akkumulatorfeld wird eine andere Strategie verfolgt. Wie aus den verschiedenen Beispielen ersichtlich sein wird, ist die simultane Verwendung mehrerer unter- schiedlicher Strategien von Vorteil bei vorab nicht bekannten Bewegungsmustern.

Auch die hier vorgeschlagene zweite Strategie sieht wiederum vor, dass an einem Pixel allenfalls dann ein Wert in das Akkumulatorfeld eingeschrieben werden darf, wenn das aktuell betrachtete Differenzbild an dieser Stelle deutlich von Null verschieden ist (also die Differenz eine bestimmte Schwelle überschreitet - in Fig. 1b wäre sie demnach HELL).

Zusätzlich wird aber nun gemäß der zweiten Strategie geprüft, ob an dieser Stelle bereits ein Eintrag im Akkumulatorfeld vorhanden ist. Nur dann, wenn der Wert im Akkumulatorfeld an der betrachteten Stelle noch Null ist, darf nach der zweiten Strategie ein Eintrag erfolgen. Eingetragen wird dabei wiederum ein Wert, der das Alter des Differenzpaares co- diert. Wiederum kann also für die Differenz der Framepaare (i,i-l) in das Akkumulatorfeld der Wert 1 eingetragen werden, für das Einschreiben einer Differenz des Framepaares (i- l ,i-2) der Wert 2 usw. Auf diese Weise steht auch im Akkumulatorfeld der zweiten Strategie ein Wert, aus dem sich erkennen lässt, wie alt ein bestimmter Eintrag ist.

Anders als bei der ersten Strategie werden alte Einträge aber nicht überschrieben. Dies führt zu einem unterschi edl ichen Akkumulationsmuster.

Eine gleichförmige Bewegung in eine Richtung hat nun zur Folge, dass sich von Bild zu Bild eine große Differenz an zwar jeweils unterschiedlicher, aber gleichwohl benachbarter Stelle ergibt; diese Differenz tritt zu unterschiedlichen Zeiten auf - dank des Eintrags der auf das Alter der Differenz bezogenen Werte in das Akkumulatorfeld kann dann durch

Bildung des Gradienten bestimmt werden, ob eine Bewegung über mehrere Frames hinweg erfolgte. Falls dies der Fall ist, wird in einem vergleichsweise großen Bereich - dessen Größe von der Objektgröße abhängt und der B e wegun gsdi stanz sowie der Objektentfernung - der Gradient im Akkumulatorfeld von Null verschieden sein.

Für die beiden Akkumulatorfelder ergeben sich dabei unterschiedliche Muster, wie in den Fig. I d und l e erkennbar. Wie ersichtlich sein wird, sind jeweils unterschiedliche Muster für das Erkennen unterschiedlicher Bewegungen von Vorteil. Im vorliegenden Fall sind nach Akkumulation in den Fig. 1 c und ld mehrere Flächen zu sehen, in denen über einen größeren Bereich erhebliche Differenzen aufgetreten sind. Wiederum sind diese, wie im beispielhaft diskutieren einzelnen Differenzbild, den Bäumen im Hintergrund, dem Schattenbereich des Vordergrundbaume s und den Konturen der parkenden Autos sowie der sich bewegenden Person zuzuordnen.

Allerdings besteht in den Akkumulatorbildern ein erheblicher Unterschied zwischen den Flächen, die mit der sich bewegenden Person assoziiert sind und den anderen Flächen um Bäume, Baumschatten und parkende Autos, und zwar dahingehend, dass nur bei der zur sich bewegenden Person gehörenden Fläche ein systematischer Gradient erkennbar ist, während die anderen nichtschwarzen Flächen, in denen also innerhalb der Sequenz ebenfalls Differenzen beobachtet wurden, kein systematisches Verhalten erkennen lassen. Um das Vorhandensein dieses bewegungsbezogenen und bewegungsindikativen Gradienten besser zu belegen, zeigt Fig. le Ausschnitte der Akkumulatorbilder im Bereich der Personenbewegung. Fig. lg zeigt dazu Konturbilder, wobei auch die unterschiedlich grauen Bereiche in Fig. lg durch Konturlinien getrennt sind - es sei aber noch einmal betont, dass diese Konturbilder nur der Veranschaulichung und Erläuterung dienen.

Es ist zu erkennen, dass in einem der beiden Akkumulatorbilder die Gradientenlinien klarer ausgebildet sind. Dieses Bild ist besser für die Bewegungsdetektion einer Bewegung von der Kamera weg geeignet.

Es sei im Übrigen erwähnt, dass es für Zwecke der Initialisierung. Inbetriebnahme, Definition interessierender Bereiche usw. sinnvoll sein kann, als Werte in die Akkumulatorfelder Farben einzutragen, dergestalt etwa, dass ältere Einträge blau, mittelalte grün, jüngere gelb und ganz junge orange bzw. noch jüngere rot dargestellt werden. Dann lassen sich für ei- nen Benutzer Bewegungen anhand des Farbmusters gut erkennen, was hilfreich für die Systemeinrichtung ist, die über eine graphische Benutzerschnittstelle oder dergl. erfolgen kann. Dabei können z.B. per se uninteressante Bildbereiche definiert werden und/oder für die erwarteten oder kritischen Bewegungen besonders geeignete Strategien aus einer Vielzahl möglicher Akkumulator bzw. Di fferenzbi ldungsstrategi en ausgewählt werden.

Die vorstehend beschriebenen beiden Strategien der Akkumulation sind nicht die einzigen möglichen Strategien. Sie sind aber einfach zu implementieren und gut geeignet, eine Vielzahl von Bewegungen zu erkennen. Dies sei erläutert wie folgt. In Fig. 2 ist eine Person gezeigt, die die Szene von rechts betritt, sich nach links bewegt und dann entlang der Autos von der Kamera weg bewegt. Anhand der wie zuvor bestimmten Differenzbilder und der damit wie nach den zuvor beschriebenen Strategien erhaltenen Akkumulatorbildern lässt sich durch Gradientenbildung in den akkumulierten Bewegungsbildern wieder eine Bewegung als solche erkennen und sogar aus der Form des Gradienten grob auf die Bewegungsrichtung schließen. Damit ist das Verfahren der Erfindung stabil gegen Richtungsänderung der Bewegung, d.h. auch dann anwendbar, wenn sich die Rich- tung der Bewegung während der Sequenz ändert. Fig. 2e zeigt zudem, dass für eine Bewegung quer zur Kamera beide Strategien etwa gleich gute Ergebnisse liefern.

Dies zeigt auch Fig. 3, in welcher eine Person sich quer zur Kamera bewegt, und zwar ver- gleichs weise nahe der Kamera, Auffällig ist, dass angesichts der schnellen Änderung zumindest im Personen-Körperbereich kein durchgängiger Bereich mehr vorhanden ist, wohl aber im Körperschattenbereich. Es sei erwähnt, dass sich eine Bewegung durch Bestimmung des Gradienten über größere Bereiche anstelle von engräumigen

Gradientenbildungen gleichwohl sehr sicher erkennen lässt. Dies kann etwa dadurch ge- schehen, dass Bereiche, in denen der akkumulierte Differenzwert Null ist, bei der Bestimmung des Gradienten ignoriert werden. In Bereichen, in denen der akkumulierter Differenzwert Null ist, hat nämlich keine Änderung stattgefunden. Bei sehr schnellen Bewegungen ist dies dann der Fall, wenn das Obj ekt, sich zwischen zwei aufeinanderfolgenden Frames um mehr als eine Objektlänge weiterbewegt hat.

Es sei erwähnt, dass gegebenenfalls nicht zwingend bei der Gradientenbildung gefordert werden muss, dass an einem Pixel exakt der Wert Null steht, damit dieser Wert ignoriert wird. Vielmehr ist es auch möglich, Einträge im Akkumulatorfeld zu ignorieren, wenn sie zu einer deutlich älteren Bewegung gehören als jene, die aktuell betrachtet wird.

Das Vorhandensein von Lücken im Akkumulatorfeld bzw. das Vorhandensein nur recht alter Einträge zwischen jüngeren Einträgen deutet somit auf sehr schnelle Bewegungen hin. Dies kann wiederum ausgenutzt werden, um ein zumindest grobes Maß für eine Bewegungsgeschwindigkeit zu erhalten. Dazu kann z.B. die Lückenweite von Null-Einträgen im Akkumulatorfeld bestimmt werden und daraus ein Maß für die Bewegungsgeschwindigkeit bestimmt werden, und zwar gegebenenfalls normiert auf die Entfernung zur Kamera etc. Eine noch bessere Möglichkeit der Geschwindigkeitsmessung wird unten diskutiert.

Fig. 4 zeigt, dass auch bei schnellerer Bewegung, hier der eines fahrenden Autos, durch Differenzbildbestimmung, nachfolgende Differenzbildakkumulation und

Gradientenbildung im Akkumulatorfeld bzw. -bild eine sichere Erkennung einer Bewegung möglich ist. Die deutliche Ausprägung der Gradientenlinien kann dabei aus der offenbarungshalber beigefügten Ansieht von Fig. 5 für eine der beiden

Akkumulatorstrategien erkannt werden.

Während vorstehend der erfindungsgemäße Aktivitätssensor, d.h. die erfindungsgemäße Aktivitätserkennung überwiegend mit Bezugnahme auf Bewegungen beschrieben wurde, ist dies nicht zwingend. So kann auch etwa ein Sensoransprechen, d.h. eine Systemantwort nur dann veranlasst werden, wenn gleichzeitig eine bestimmte Veränderung im Bild erfasst wird, etwa ein Laufen in Gegenrichtung zu einer Sollrichtung, eine Bewegung mehrerer Objekte aufeinander zu, oder wenn simultan ein weiteres Signal, auch aus einem anderen Sensor erhalten wird. In einem solchen Fall wird also nicht einfach jede Bewegung als Systemantwort induzierende Aktivität identifiziert.

Dass im Übrigen als Systemantwort nicht nur eine Alarmauslösung erfolgen muss, sei erwähnt. So kann eine Systemantwort bei geeigneten Systemen auch in der Einschaltung von (elektrischen) Verbrauchen wie Licht oder Steuerungen von Heizungen bestehen, es können Datenbankabfragen veranlasst werden, etwa nach Erkennung eines sich auf einen Schalter in einer Schalterhalle zu bewegenden Objektes als Kunden, um den Kunden zu erkennen usw. Hier ist z.B. vorteilhaft, dass eine biometrische Auswertung von Bilddaten nur für jene Bereiche erfolgen muss, die sich verändert haben, wo also Bewegung statt- fand. Dies verringert den Rechenaufwand. Auch könnte etwa in Parkhäusern folgend einer Bewegungserkennung ein Nummernschild ein- und ausfahrender Autos identifziert werden und auf die erkannte Nummer bezogene Signale könnten ausgegeben werden. Allgemein lässt sich also mit der Erfindung eine Transaktion überprüfen und/oder leichter durchführen, vor allem, wenn die Erfindung unter Heranziehung von auf mögliche Bildinhalte be- zogene Datenbanken eingesetzt wird.

Vorstehend wurde aus didaktischen Gründen angegeben, dass für jede Sequenz ein eigenes Akkumulatorfeld verwendet würde. Dies ist nicht notwendig. Vielmehr reicht es oftmals, für alle Sequenzen ein und dasselbe Akkumulatorfeld für ein und dieselbe Strategie zu verwenden. Dies ist sogar bevorzugt. Dabei kann z.B. das Akkumulatorfeld anfänglich initialisiert, z.B. auf Null gesetzt werden; wenn dann Daten in das Akkumulatorfeld eingeschrieben werden, können hohe Werte am jeweils zu beschreibenden Pixel eingetragen werden. Vor Betrachtung der Differenz für einen neuen Frame werden dann alle positiven Werte im Akkumulatorfeld um 1 reduziert; die Daten im Akkumulatorfeld werden also gealtert, so dass sich nach einer bestimmten Zahl neu betrachteter Frames an einer Pixelstelle, an welcher lange keine Änderungen aufgetreten sind, wieder der Wert Null befindet; damit sind per se für zwei Akkumulatorstrategien zwei Akkumulatorfelder ausreichend.

In einem solchen Fall deuten im Akkumulatorfeld Werte von "40" z.B. auf gerade erst aufgetretene Bilddifferenzen, Werte von "39" darauf, dass im vorherigen Frame zum vorvorherigen Frame eine Differenz an diesem Pixel vorlag usw. Auf diese Weise codieren also die Werte im Akkumulatorfeld das Alter des Eintrags bzw. die Zeit, die seit einer bestimmten Bildänderung an diesem Pixel vergangen ist.

Wenn dann die Gradienten gebildet werden, können Bereiche, die offensichtlich älteren Bewegungen zugeordnet werden müssen, für die Gradientenbildung ignoriert werden. Dies erleichtert auch die Auswertung in Fällen, wo bereichsweise oder zeitweise mit der Bewegung vieler Objekte gerechnet werden muss, etwa an Bahnsteigen usw.

Es ist zudem, wie erwähnt, möglich, die Geschwindigkeit aus den "Lücken" der akkumulierten Differenzen abzuschätzen. Vorteilhaft wird aber nicht das Akkumulatorfeld selbst betrachtet, sondern die Häufigkeit, mit der bestimmte Werte im Akkumulatorfeld voneinander einen bestimmten Abstand aufweisen. Es werden dazu bevorzugt entsprechende Akkumulatorfeld-Histogramme betrachtet, die solche Abstände unterschiedlicher Werte Im Akkumulatorfeld erfassen. Eine weit bessere Möglichkeit, als sich bei der Geschwindigkeitsbestimmung nur auf die

Lückenweite von Null-Einträgen zu verlassen, besteht darin, in das Akkumulatorfeld das Alter einzutragen, das ein Eintrag besitzt (also zu vermerken, wann an einem bestimmten Bildpixel eine Differenz zum Vorgängerbild aufgetreten ist) und dann die (Pixel-)Abstände unterschiedlich alter Einträge im Akkumulatorfeld zu untersuchen, bevorzugt mit statisti- sehen Methoden. Liegen viele Pixel Abstand zwischen Stellen, an denen sich das Alter eines Eintrags ändert, hat sich das Objekt in der Zeit zwischen den betrachteten Frames um einen großen Abstand bewegt. Es ist also schnell; dass hier z.B. die Abstände relevanter Bildbereiche zur Kamera usw. mitberücksichtigt werden können, um zu präziseren Aussagen zu gelangen, sei er- wähnt. Es kann eine Kalibrierung erfolgen, falls gewünscht, bzw. auf andere Art und Weise die Dreidimensionalität einer Szene berücksichtigt werden. Dies ist vor allem bei unbeweglich montierten Kameras, vor Ort vereinfacht möglich. Zudem kann eine parallele Analyse mit unterschiedlichen Bildraten und/oder Auflösungen und/oder

Farb/Grauwertkanälen erfolgen, um Artefakteinflüsse zu verringern.

Die Untersuchung der Pixel- Abstände unterschiedlich alter Einträge kann auf verschiedene Weisen geschehen. Besonders sinnvoll sind statistische Betrachtunge wie die Bestimmung der häufigsten Abstände unterschiedlich alter Einträge. Es kann dafür z.B. mit Histogrammen (Bestimmung der Häufigkeit von Werten) gearbeitet werden, die ein Akkumu- latorfeld Reihe für Reihe oder Spalte für Spalte bewerten. Dies kann mit unterschiedlichen Strategien geschehen.

Es können erste Histogramme für Reihen und zweite Histogramme für Spalten separat aufgestellt werden. Es können bei Bestimmung von I Iistogrammen in zwei Richtungen wie Spalten und Reihen Gesamtgeschwindigkeiten, z.B. entsprechend einer Vektoraddition, bestimmt werden. Es kann eine Histogrammbestimmung bildbereichsweise erfolgen, um Perspektiveneinflüsse für die Umrechnung von Pixelabständen in Entfernungen bzw. Pixelabstände pro Frameabstand in Geschwindi gkeiten zu berücksichtigen. Bereichsweise bestimmte Werte können nach perspektivischer Normierung gemeinsam ausgewertet wer- den. Es ist weiter möglich, Bilder nach grober Abschätzung einer I Iauptbewegungsrich- tung zu drehen und Histogramme aufzustellen, mit denen die Abstände entlang solcher Hauptbewegungsrichtungen erfasst werden.

Es ist möglich, im Histogramm nur zu erfassen, wie weit ein Pixel, das für den aktuellen Frame (z.B. Frame 40) das Auftreten einer Differenz zu dessen Vorgängerframe erfasst, von einem Pixel entfernt liegt, mit dem im Frame davor (also Frame 39) eine Differenz zu dessen Vorgänger (Frame 38) erfasst wurde. Es wird damit untersucht, wie weit sich Stelle - len, an denen sich im Bild Änderungen ergeben haben, zwischen zwei Frames voneinander entfernt haben. Werden im Histogramm wie beschrieben nur die Abstände zwischen dem aktuellen und dem unmittelbar vorhergehenden Frame (40->39) betrachtet, erhält man eine aktuelle, augenblickliche Geschwindigkeit. Es sei erwähnt, das solche Abstände in Rich- tung einer Spalte und/oder einer Reihe des Akkumulatorfeldes bestimmt werden können. Bei einem gleichförmig bewegten starren Körper, der mit hoher Auflösung kontrastreich zum Hintergrund aufgenommen wird, wird auf diese Weise an genau einer Stelle im Histogramm eine Spitze erhalten. Die Spitze kann beispielsweise dadurch verbreitert werden, dass das sich bewegende Objekt nicht starr ist, wie z.B. bei einem Fussgänger, der mit den Armen schlenkert, so dass sich diese zum Teil etwas schneller und zum Teil etwas langsamer als der restliche Körper bewegen. Im Histogramm kann dann also nach dem Maximum gesucht werden oder nach dem Schwerpunkt eines Peaks.

Andere Strategien sind aber sinnvoll. So kann berücksichtigt werden, dass nicht an jedem Pixel, an dem sich ein Objekt vor den Hintergrund bewegt, Differenzen im Bild feststellbar sind. Wenn etwa nur Grauwerte betrachtet werden und ein Pixelwert des Objektes zufällig den gleichen Grauwert wie der Hintergrund besitzt, vor den das Objekt sich schiebt, ist ein Unterschied nicht feststellbar. Eine Differenz ist in einer solchen Situation vielmehr erst dann feststellbar, wenn an diesem Pixel, z.B. durch mehr oder minder ausgedehnte Muster auf dem Objekt, eine Änderung erfolgt ist, was eine zusätzliche Weiterbewegung des Objektes erfordert. Zur Berücksichtigung einer solchen Situation darf nicht lediglich erfasst werden, wie weit der Abstand zwischen einem Wert 40 und einem Wert 39 im Akkumula- torfeld ist, weil in der beschriebenen Situation eine solche Differenz nicht auftreten würde.

Vielmehr müsste auch erfasst werden, wie groß der Abstand zu einem Eintrag mit dem Wert 38 ist, falls auf der Strecke bis zu diesem Wert 38 der Wert 39 nicht gefunden wird. Ähnlich könnte ein Abstand zwischen Einträgen mit dem Wert 40 und 37 dann berücksichtigt werden, wenn zwischen diesen Werten keines der Pixel den Wert 38 oder 39 hat. Mit dieser Strategie wird allerdings bereits etwas gemittelt, denn es werden nicht nur die Werte zur "augenblicklichen" Geschwindigkeit zwischen den Frames 39 und 40 bestimmt, sondern auch ältere Wertepaare und damit ältere Geschwindigkeiten erfasst. Auch wenn die Beleuchtung nicht gleichbleibend ist, etwa weil Wolken am Himmel ziehen, ist ein entsprechendes Vorgehen vorteilhaft. Hier könnten reale Differenzen verdeckt und scheinbare Differenzen vorgetäuscht werden.

Es ist weiter möglich, mit einem Histogramm durch Auswahl einer anderen

Histogrammstrategie eine noch weiter mittelnde Durchschnittsgeschwindigkeit zu bestimmen. So kann z.B. erfasst werden, wie weit sich eine Änderung binnen eines Frames bewegt, während zweier Frames, während dreier Frames usw. Dazu kann z.B. der Abstand der Werte 40->39, 40->38, 40->37 betrachtet werden (wobei berücksichtigt werden muss, dass z.B. der Abstand 40->38 während zweier Frames durchlaufen wurde). Der Abstand 40->38 wird in dieser Strategie, anders als für die vorher diskutierte Strategie, dabei selbst dann bestimmt, wenn auf der Strecke zwischen den Pixeln der Wert "39" gefunden wurde.

Bei gleichbleibender Geschwindigkeit ist die Entfernung 40->38 doppelt so groß wie die Entfernung zu 40->39, die Entfernung 40-37 ist dreimal so groß wie die Entfernung 40-39. Es ergeben sich ergo gleichmäßig beabstandete Maxima im Histogramm, aus deren Lage auf die Geschwindigkeit geschlossen werden kann. Alternativ kann in ein solches Histogramm zusätzlich auch eingetragen werden, wie die Abstände zu Framepaaren 39->38, 39->37, 39->36 usw. aussehen. Dies trägt ebenfalls zu einer Mittelung der Geschwindigkeit bei. Bei langsam bewegten Objekten, die oftmals auf den sukzessiven Frames einer Sequenz erfasst werden, ergeben sich so besonders ausgeprägte, gut erkennbare Maxima. Ein entsprechendes Histogramm ist - für einen aufgrund seiner vergleichsweise langsamen Bewegung während der Framesequenz häufiger erfassten - Fussgänger im unteren Teil von Fig. 7 dargestellt. Dieser bewegt sich entlang der gleichen Strecke wie in Fig. 3. Es sind mehrere klar erkennbare Maxima zu

identifizieren.

In Fig. 7 oben ist im Gegensatz dazu ein Histogramm zu einem Akkumulatorfeld gezeigt, das bei der Bewegung eines Autos entlang jener Strecke gewonnen wurde, die in Fig. 3 durch einen Fussgänger abgelaufen wurde. Genauer zeigt auch dieses Histogramm die Abstände, die Framepaaren i,i-l : i,i-2; i,i-3; i-l ,i-2; i-l ,i-3; i-l,i-4; i-2,i-3, usw. zuzuordnen sind und auch hier sind eine Reihe von Maxima zu erkennen, deren Auswertung, wie durch die Erklärung einsichtig, auf die Geschwindigkeit schliessen lässt. Durch die höhere Bewegungsgeschwindigkeit wurde das Auto aber in weniger Frames der ansonsten gleich langen Sequenz erfasst, so dass die Peaks weniger klar ausgeprägt dargestellt werden.

Nimmt man eine absolut gleichförmige, gut erfassbare Bewegung eines starren Körpers an, so legt dieser zwischen zwei Frames stets die gleiche Differenz zurück. Nach einigen der zuvor beschriebenen Strategien werden mehrere Maxima im I Iistogramm enthalten sein, die zwar im Idealfall eines zum Hintergrund kontrastreichen, gleichbleibend beleuchteten starren Körpers in gleichförmiger Bewegung den gleichen Abstand voneinander haben werden, die aber in der Praxis verbreitert und etwas verschoben sein können. Um bei Vorhandensein mehrerer Maxima die Daten einfach auszuwerten, kann z.B. eine

Fouriertransformation, z.B. als FFT, des Histogramms durchgeführt werden und das Ma- ximum der Fouriertransformierten zur Bestimmung der Geschwindigkeit herangezogen werden.

Weitere Möglichkeiten durch Histogramm-Betrachtungen wichtige Aussagen zu erhalten, ergeben sich etwa, wenn immer nur Paare 40->39, 39->38, 38->37 etc. betrachtet werden. Die zu diesen Paaren ermittelten Abstände werden dann gleichmäßig sein, wenn die Bilddifferenzen verursachende Bewegung gleichmäßig ist. Die zu den Paaren erhaltenen Abstände ändern sich dagegen stark, wenn sich die Geschwindigkeit der betrachteten Bewegung stark geändert hat. Es kann also z.B. ermittelt werden, wie weit die zugehörigen Maxima in entsprechenden Histogrammen auseinander liegen, wie sich die Maximal läge zeit- lieh entwickelt usw. Dies kann genutzt werden, um auf das Losrennen einer Person, das

Anfahren eines Autos usw. hinzuweisen, bzw. davor zu warnen. Dies kann besonders sinnvoll sein, wenn weitere Informationen ausgewertet werden, wie das Erfassen eines Auto- Anfahrens zu einem Zeitpunkt, an welchem eine Ampel ROT zeigt oder das Rennen in bestimmten, gesperrten Zonen, d.h. Erfassen von Bewegung in den diesen gesperrten Zonen zugeordneten Bildbereichen. Auch ist es möglich, eine Bewegungsrichtung abzuleiten, und zwar, indem nicht lediglich der Betrag des Ab Standes betrachtet wird, den die Werte ("39,40") eines Wertepaares (40- >39) aufweisen, sondern auch, z.B. durch ein Vorzeichen, erfasst wird, ob das Pixel mit dem Wert "39" links oder rechts (oder oben/unten oder vorne/hinten) des Pixels mit dem Wert "40" liegt. Wenn mit einer Hin- und Herbewegung ein atypisches, womöglich Gefahr indizierendes Verhalten verbunden wird, kann eine entsprechende Analyse davor warnen. Dazu kann etwa untersucht werden, ob das Histogramm-Maximum des Paares (40.39) an einem Abstand mit einem anderen Vorzeichen liegt, als jener Abstand des Paares (39,38) oder eines früheren Paares wie (14,13). Bei langsamen "pendelnden" Bewegungen könnte eine solche Vorzeichenumkehr begleitet sein von einer sich während der Hin- und

Herbewegung ändernden Geschwindigkeit und/oder von Ruhephasen mit Geschwindigkeiten von Null oder nahe Null. Dass sich dies aus den Akkumulatorfeldern bzw. zugeordneten Größen ablesen lässt, ist einsichtig. Dass eine exakte Geschwindigkeits-Bestimmung nicht zwingend ist, sei erwähnt. So kann es ausreichen, eine grobe Unterscheidung in z.B. drei Stufen: "sehr schnell", "übliche Fortbewegungsgeschwindigkeit" und "viel langsamer als gewöhnlich" vornehmen zu können und/oder aus der Geschwindigkeit Annahmen auf das bewegte Objekt ("Auto", Fahrrad", "Fussgänger") zu generieren. Gegebenenfalls lassen sich dazu auch andere Bildbezogene Daten auswerten, etwa die (perspektivisch korrigierte) Größe eines Bildflächenbereiches, sein Aspektverhältni s, die Bewegungsrichtung, topographische Besonderheiten wie Vorhandensein von Fusswegen, Radwegen, Straßen im relevanten Bildbereich usw.. Erforderlichenfalls kann etwa auch in einem beschränkten Bilderbereich eine Kantenanalyse zur Bestimmung des Objektes, welches sich bewegt hat, vorgenommen werden. Die Kanten- analyse braucht dabei nicht über das gesamte Ausgangs-Bild erstreckt werden, sondern kann sich auf jene beschränken, in denen eine gerichtete Bewegung, insbesondere eine Bewegung mit grob bestimmter Geschwindigkeit erfolgt ist. Dies verringert den Kantende- tektionsaufwand ganz erheblich. Es ist aus dem vorstehenden ersichtlich, dass die vorliegend offenbarte Betrachtung und Bewertung von geeignet akkumulierten Differenzfeldern und den Gradienten, Werten und/oder Wertänderungen darin hilfreich ist, den Bildauswertungsaufwand ganz erheblich zu reduzieren. Der Identifikation von Bereichen, die einer weiteren Analyse bedürfen, weil Gradienten in akkumulierten Differenzbildern auftreten und/oder geschwindigkeitsbezogene Daten dies zeigen, kommt somit nach hiesiger Auffassung eine für sich separat erfindungswesentliche und gegebenenfalls in Alleinstellung beanspruchbare Bedeutung zu, insbesondere für Zwecke der Bild- und Inhaltsanalyse. Auch können damit Bildbereiche für die Übertragung und/oder die Einspeicherung für Cberwachungssicherungszwecke bestimmt werden.

Es ist aus dem vorstehenden ersichtlich, dass die vorliegend offenbarte Betrachtung und Bewertung von geeignet akkumulierten Differenzfeldern und den Gradienten, Werten und/oder Wertänderungen, und/oder zugeordneten Histogrammen darin hilfreich ist, den Bildauswertungsaufwand ganz erheblich zu reduzieren.

Es sei im Übrigen erwähnt, dass vorstehend für die Zwecke der vorliegenden Beschreibung, insbesondere für die Bestimmung oder Abschätzung von Bewegungsgeschwindigkeiten von zeitlich äquidistanten Frames ausgegangen wurde. In Situationen, in welchen eine zeitliche Frame-Äquidistanz nicht gewährleistet werden kann, etwa weil aufgrund einer Auslastung der Kamera-Hardware die Neuaufnahme eines Frames etwas verzögert erfolgt, kann der tatsächliche Frameabstand berücksichtigt werden. Dazu können z.B. Zeitstempel verwendet werden. Auch dort, wo etwa mit wechselnden und dabei zum Teil erheblich verlängerten Belichtungszeiten pro Frame gearbeitet werden muss oder soll, z.B. bei Nachtaufnahmen, kann dies Vorteile bieten. Dazu können bevorzugt Zeitstempel verwendet werden, die es erlauben, den zeitlichen Abstand jedes Framepaares zu erfassen, so dass die Framepaar-Zeitabstände bestimmt und berücksichtigt werden können. Die Berücksichtigung der Framepaar-Zeitabstände kann auch dort sinnvoll sein, wenn z.B. ein nicht gleichmäßig aufgezeichneter Framestrom nachträglich analysiert werden soll. Die genaue Frameaufnahmezeitberücksichtigung ist immer dann sinnvoll, wenn erhebliche

Auswirkungen auf die Geschwindigkeitsbestimmung und/oder -abschätzung zu befürchten sind. Dass die Frameaufnahmezeitberücksichtigung besonders dann sinnvoll ist, wenn eine Kalibrierung der erfassten Szene erfolgt ist und hohe Genauigkeiten gewünscht werden, wird einsichtig sein.

Claims

Patentansprüche

1. Verfahren zur automatischen Erkennung von in Videoströmen erfassten Aktivitäten, dadurch gekennzeichnet, dass für Framesequenzen

in Feldern

Daten zu Framedifferenzen

automatisch akkumuliert werden,

Gradienten und/oder Wertdifferenzabstände

in den Akkumulatorfeldern

automatisch bestimmt werden und aus den Gradienten automatisch auf Aktivität geschlossen wird,

2. Verfahren nach dem vorhergehenden Anspruch,

dadurch gekennzeichnet, dass

als Aktivität die Bewegung von Objekten erfasst wird.

3. Verfahren nach einem der vorhergehenden Ansprüche,

dadurch gekennzeichnet, dass

die Bewegung von Objekten

da n

als Aktivität erfasst wird,

wenn die Bewegung

über eine bestimmte Minimalzahl an Frames hinweg erfasst wird

3 1 und/oder

wenn die Bewegung

über nicht mehr als eine bestimmte Zahl an Frames hinweg erfolgt.

Verfahren nach einem der vorhergehenden Ansprüch, dadurch gekennzeichnet, dass für eine Anzahl von 8 bis 128 Frames je Framesequenz Differenzen bestimmt werden,

bevorzugt etwa 32 bis 64 Frames,

und/oder Framesequenzdauern von 1 ,5 bis 4 Sekunden.

Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass

mehrere Akkumulatorfelder je Framesequenz vorgesehen sind.

Verfahren nach einem der vorhergehenden Ansprüche,

dadurch gekennzeichnet, dass die Akkumulatorfelder

Daten

zu Framedifferenzen

nach unterschiedlichen Strategien akkumulieren, wobei insbesondere

in einem ersten Akkumulatorfeld

an einer Stelle

dann

ein Wert eingespeichert wird,

wenn

an dieser Stelle

für die betrachtete Sequenz

noch für alle vorhergehenden Differenzen der bisherige Wert Null war

und/oder

in einem anderen Akkumulatorfeld

an einer Stelle

dann

ein Wert eingespeichert wird, an dieser Stelle

für die betrachtete Sequenz

die aktuelle Differenz

größer als die bisher abgespeicherte

Differenz war.

7. Verfahren nach einem der vorhergehenden Ansprüche,

dadurch gekennzeichnet, dass

eine Bewegungsrichtung bestimmt wird,

insbesondere aus dem Akkumulatorfeld, mit welchem aus dem Gradienten auf Aktivität geschlossen wird. 8. Verfahren nach einem der vorhergehenden Ansprüche,

dadurch gekennzeichnet, dass

Framedifferenzen anhand der Grauwerte bestimmt werden.

9. Verfahren nach einem der vorhergehenden Ansprüche,

dadurch gekennzeichnet, dass vor der Differenzenbildung

aus mehreren Pixeln

Blöcke gebildet werden und die Differenzen dieser Blöcke bestimmt werden, so dass die Akkumulatorfelder eine geringere Auflösung als der Videostrom besitzt.

10. Verfahren nach einem der vorhergehenden Ansprüche,

dadurch gekennzeichnet, dass

die Gradienten

für jedes Akkumulatorfeld

in zwei Richtungen,

insbesondere

entlang von Reihen des Akkumulatorfeldes

und

entlang von Spalten des Akkumulatorfeldes

bestimmt werden.

1 1. Verfahren nach einem der vorhergehenden Ansprüche,

dadurch gekennzeichnet, dass

aus den Gradienten auf Aktivität geschlossen wird,

wenn

der Gradientenwert eine bestimmte Größe überschreitet

und/oder

wenn

die Gradienten werte

in einem

hinreichend großen,

insbesondere zusammenhängenden

Bereich

eine bestimmte Größe überschreiten.

12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Geschwindigkeit und/oder Beschleunigung aus Einträgen im Akkumulatorfeld bestimmt wird, insbesondere unter Verwendung statistischer Mittel und/oder unter Rückgriff auf Fouriertransformationen von statistischen Daten, insbesondere von Histogrammen,

Vorrichtung zur Ausführung eines Verfahrens nach einem der vorhergehenden Ansprüche mit

einer Differenzbildungsstufe zur Bildung von Framedifferenzen charaktisierenden Daten, mindestens einem Akkumulatorfeld zur Speicherung von Framedifferenzen charakterisierenden Daten, einem Gradientenbildungsmittel zur Bildung von Gradienten im Akkumulatorfeld und einem Gradientenbewertungsmittel zur Entscheidung,

ob ein gebildeter Gradient auf eine Aktivität deutet.