-
HINTERGRUND DER ERFINDUNG
-
1. GEBIET DER ERFINDUNG
-
Die
vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung
zum Erfassen von Bewegung in einem Video.
-
2. STAND DER
TECHNIK
-
Es
gibt viele Situationen, in welchen ein Bewegungsdetektor verwendet
wird, um ein Ereignis auszulösen,
abhängig
davon, ob Bewegung erfasst wird oder nicht erfasst wird. Einige
Anwendungen umfassen das Einschalten von Beleuchtung, wenn irgendjemand
einen Raum betritt oder das Abschalten von Beleuchtung, wenn es
in einem Raum keine Bewegung gibt. Weitere Verwendungen umfassen
Sicherheit, Autodiebstahlschutz, Alarmeinrichtungen, automatische
Türen u.
a. Die derzeitigen Bewegungserfassungssysteme haben eine Anzahl
von Nachteilen, einschließlich
ihrer Kosten, der Komplexität,
einer schlechten Leistungsfähigkeit
und andere.
-
Im
Stand der Technik gibt es zwei Ansätze der Bewegungserfassung: „aktiv" und „passiv". Die aktive Technik
emittiert irgendeine Form von Energie (beispielsweise Schall oder
elektromagnetische Strahlung) und erfasst Bewegung auf der Basis
von zurückgeworfenen
Signalen. Diese Techniken erfordern tendenziell mehr Leistung, um
sich gegenüber der
Umgebung eine bessere Abgrenzung und um eine einfachere Erfassung
zu erfassen und Schutz zu ermöglichen.
Passive Techniken emittieren keine Signale, sondern beobachten passiv
die überwachte Umgebung
und reagieren auf eine beobachtete Bewegung. Videokameras werden
in einigen Techniken der passiven Bewegungserfassung verwendet.
-
Es
ist eine Anzahl von Techniken entwickelt worden, um innerhalb des
Gesichtfeldes einer Videokamera Bewegung zu erfassen. Diese Techniken umfassen
analoge und digitale Techniken. Analoge Techniken betrachten typischerweise
das analoge Videosignal, welches durch eine Kamera erzeugt wird, und
erfassen Bewegung durch Untersuchen von Veränderungen in dem Signal. Beispiele
einfacher analoger Techniken nach dem Stand der Technik umfassen
das Anordnen von Fotozellen auf einem Fernsehmonitor und das Erfassen
von Veränderungen der
Werte, indem eintaktige Zeitgeber verwendet werden, um feste Positionen
in einem Videosignal abzutasten und unter Verwendung verschiedener Schaltkreise,
um das Videosignal zu integrieren. Diese einfachen Techniken erzeugen
Signale, die mit Basiswerten verglichen werden können, um Veränderungen
in dem Videosignal zu erfassen, die vermutlich durch Bewegung verursacht
wurden. Andere analoge Techniken nach dem Stand der Technik filtern
oder integrieren das eingehende Videosignal und suchen nach starken
Veränderungen
in den Signaleigenschaften, um Bewegung zu erfassen.
-
Diese
analogen Ansätze
sind tendenziell preiswert, liefern jedoch schlechte Ergebnisse,
weil sie veraltete und vereinfachte Versionen des Videosignales
verwenden. Die Masse des Informationsgehaltes des Signales wird
verworfen bzw. nicht genutzt. Beim Arbeiten mit einem Signal mit
derart geringem Informationsgehalt ist das Beste, was man erzielen
kann, eine Vermutung, dass eine Bewegung in der Szene aufgetreten
ist, wenn das eingehende Signal sich in einer bestimmten Weise verändert.
-
All
diese analogen Techniken nach dem Stand der Technik sind tendenziell
ungenau hinsichtlich dessen, was sie messen. Dementsprechend haben
sie inhärente
Einschränkungen
hinsichtlich ihrer Empfindlichkeit auf tatsächliche Bewegung. Sie unterliegen
auch der Gefahr von Fehlauslösungen.
-
Digitale
Techniken sind tendenziell besser hinsichtlich der Reduzierung sowohl
von falsch positiven (Erfassen von Bewegung, wo keine ist) und falsch
negativen Bewegungserfassungsmeldungen (keine Erfassung von Bewegung,
wenn tatsächlich Bewegung
vorliegt). Digitale Ansätze
sind in der Lage, genau und wiederholbar einen numerischen Wert einem
physikalischen Bereich des Gesichtsfeldes der Videokamera zuzuordnen.
Diese Fähigkeit,
das von einem Raumbereich herkommende Licht exakt quantitativ zu
erfassen, macht es möglich,
genauer als es mit herkömmlichen
analogen Techniken geschehen kann, Bewegung festzustellen, wenn
Bewegung in der Szene auftritt.
-
Stand der
Technik bezüglich
digitaler Techniken
-
Digitale
Bewegungserfassungstechniken werden für zwei allgemeine Typen von
Anwendungen verwendet – Feststellen
von Bewegung zwischen Videoeinzelbildern, so dass eine Signalverarbeitung
angewendet werden kann, um mit Videoübergangsaufgaben umzugehen,
und Überwachungen
auf Videobasis für
Zwecke der physikalischen Sicherheit. Techniken, die für die Verarbeitung
von Videozwischensignalen entwickelt wurden, sind hinsichtlich des
Berechnungsaufwandes intensiver und daher teurer als Techniken,
die für
die Videosicherheitsüberwachung
entwickelt wurden. Außerdem sind
Verarbeitungstechniken für
Videoübergänge nicht
geeignet, kleine Beträge
an Bewegung zu erfassen und arbeiten daher nicht sehr gut bei Anwendungen
mit Sicherheitsvideos. Da diese beiden Anwendungsgebiete sehr unterschiedliche
Anforderungen haben, sind die digitalen Verarbeitungstechniken,
die für
diese entwickelt wurden, von verschiedener Art. Beispielsweise ist
im Falle einer Bewegungserfassung für den Zweck der Videoüberwachung
eines Bereiches die Fähigkeit,
eine Bewegung erfolgreich zu erfassen, eine Schlüsselaufgabe. Exakte Information,
welche speziellen Objekte in dem Gesichtsfeld sich bewegt haben
und um wie viel sie sich bewegt haben, ist von geringerer Bedeutung.
Für die
Verarbeitung von Videoübergängen bzw.
Zwischenbildern ist es jedoch wichtig zu wissen, welches Objekt
sich bewegt hat und um wie viel es sich bewegt hat. Ein Beispiel
einer Videobewegungserfassungstechnik, die für die Verarbeitung von Videoübergängen ausgelegt
ist, ist in dem US Patent Nr. 4,851,904 mit dem Erfinder Miyazaki
et al. offenbart worden.
-
Bildverständnistechniken
sind für
die Verwendung in der Verarbeitung von Videoübergängen bzw. der Verknüpfung (aufeinander
folgender) Videobilder entwickelt worden. Diese Bildverständnistechniken
segmentieren ein Videobild automatisch in Pixelbereiche, die Objekten
in dem Gesichtsfeld einer Kamera entsprechen. Die Bewegung dieser
Objekte kann dann erfasst und verfolgt werden. Diese Techniken sind
berechnungsintensiv und teuer. Sie können kaum in Realzeit durchgeführt werden.
Dementsprechend können
sie typischerweise nicht verwendet werden für Anwendungen bei der digitalen
Videosicherung bzw. Sicherheit.
-
Ein
Beispiel eines in der Berechnung intensiven Ansatzes zur Erfassung
von Bewegung nach dem Stand der Technik umfasst das Herausnehmen von
Pixelbereichen (typischerweise ein NxM-Rechteck) aus einem eingehenden
Videostrom und Korrelieren desselben mit entsprechenden Pixelbereichen in
einem Bezugsbild. Diesen Ansatz kann man sich als eine Näherung für den verallgemeinerten
Bildverständnisansatz
vorstellen, der oben beschrieben wurde. Das eingehende Bild wird
in Rechtecke aufgeteilt. Diese Rechtecke werden mit entsprechenden Rechtecken
eines Bezugsbildes bzw. Referenzbildes verglichen. Das auf diese
Weise Aufteilen eines Bildes in Rechtecke und das Vergleichen der
Rechtecke ist beträchtlich
einfacher als der Versuch, individuelle Objekte auf einem eingehenden
Bild zu identifizieren und den Versuch zu unternehmen, die Position
dieser Objekte bezüglich
der Position entsprechender Objekte in dem Referenzbild zu vergleichen.
Diese Technik wird als Teil des Standards der MPEG-Videokompression
verwendet und ist als „Bewegungskompensation" bekannt. Während dieser
Ansatz bei der Erfassung von Bewegung effektiv sein kann und weniger
kompliziert ist als irgendwelche anderen Bildverständnistechniken,
ist sie dennoch zeitaufwändig
und erfordert typischerweise die Verwendung großer und teurer maßgeschneiderter
integrierter Schaltkreise. Zusätzlich reagiert
sie tendenziell empfindlich auf die Qualität des eingehenden Bildes. Jegliches
Rauschen in dem eingehenden Videosignal macht es sehr schwierig,
entsprechende Bereiche in einem Referenzbild zu erfassen.
-
Andere
Digitale Techniken für
die Bewegungserfassung bei Anwendungen mit Sicherheitsvideos beruhen
auf der Erfassung von Kanten in Videobildern – das heißt abrupten Übergängen in
Farbe oder Helligkeit, die einen Bereich von einem anderen abgrenzen.
Die Kantenerfassung vereinfacht die Verarbeitung von Bildern, indem
sie nur die Erfassung und Speicherung von Übergängen erfordert, im Gegensatz
zur Verarbeitung und Speicherung von Werten für große Zahlen von Pixeln. Die Kantenerfassung
zieht Vorteil aus der Tatsache, dass es ein hohes Maß an Korrelation
zwischen Pixeln in einem Videobild gibt (d. h. große Bereiche
von Pixeln haben die Tendenz, ähnliche
Werte gemeinsam zu haben).
-
Einrichtungen,
welche Kantenerfassung verwenden, haben die Tendenz, sehr empfindlich
auf Fehlauslöseereignisse
zu sein, die durch eine Veränderung
der Beleuchtung verursacht werden. Eine stationäre Szene scheint sich womöglich zu
bewegen, wenn die Beleuchtung die Position von Schatten in einer
Szene im Verlauf eines Tages verändert.
Ein Beispiel eines Kantenerfassungssystems ist in dem US Patent
Nr. 4,894,716 offenbart, welches für Aschwanden et al. erteilt
wurde. Das von Aschwanden offenbarte System sucht nach Veränderungen
in der Position von Kanten zwischen den einzelnen Bildern. Dieses
System erfordert ein gewisses Maß an vertikaler Kohärenz, um
ein Auslösen
zu bewirken – das
heißt,
es muss ein gegebener Betrag an Phasenverschiebung einer Kante über mehrere
Zeilen hinweg vorliegen, damit Bewegung erfasst werden kann. Die
Bezugsdaten, die gespeichert sind, weisen einen Satz von Zählungen
auf, die anzeigen, wo die Kanten in den vertikalen Abtastlinien
des vorherigen Einzelbildes vorliegen.
-
Kanten
werden durch Tiefpassfilterung einer Abtastzeile des eingehenden
Videos eine Grenzwertbildung für
das Signal und dann Verwenden des gefilterten und mit Schwellenwert
versehenen Signals erfasst. um ein einzelnes Ereignis auszulösen. Dieses
einzelne Ereignis bzw. eine Signal wird seinerseits verwendet, um
einen Zähler
zu sperren bzw. anzusteuern, dessen Endwert die Position einer Kante in
der Abtastlinie ist.
-
Weil
diese Kantenerfassungstechnik ein einfaches Verfahren zur Bewegungsanalyse
bereitstellt, ist sie bezüglich
des Bereichs des Videosignals, über welchen
sie funktioniert, beschränkt
und sie verwendet nur das vorangehende Einzelbild als Bezugsbild. Im
Ergebnis werden sich ausreichend langsam bewegende Objekte nicht
erfasst. Außerdem
arbeitet dieser Ansatz in einer Umgebung, die an sich nicht gut
für Kantenerfassung
geeignet ist, nicht sehr gut, beispielsweise, wenn unzureichender
Kontrast vorliegt, um Kanten zu finden oder wenn ausreichend große Beträge an hochfrequenten
Komponenten in der Szene sind, welche zu viele Kanten erzeugen.
-
Ein
weiteres Schema der Bewegungserfassung, welches Kantenerfassung
verwendet, wird in dem US Patent 5,272,527 beschrieben, welches
für Watanabe
erteilt wurde. In dem von Watanabe beschriebenen System wird eine
klassische Signalverarbeitungstechnik angewendet, um Kanten aus
einem Eingangsbild zu extrahieren, es werden Rauschverminderungstechniken
angewendet und ein Mechanismus der Durchschnittsbildung wird verwendet,
um die eingehenden Daten entlang eines binären Grenzwertes zu trennen.
Die vorangehenden zwei binären
Bilder werden aufbewahrt und es wird eine Serie von logischen Operationen
mit diesen Bildern durchgeführt,
um eine Referenz zu erzeugen, gegenüber welcher das eingehende
binäre
Bild verglichen wird. Im Ergebnis werden die zwei vorangehenden
Einzelbilder verwendet, um eine Referenzmaske zu erzeugen (indem
ihre Vereinigung invertiert wird), und dann wird eine Populationszählung binärer Einsen
auf die maskierte Version des eingehenden Bildes angewendet. Das
Ergebnis ist eine Abschätzung
des Unterschiedes zwischen dem eingehenden Bild und den zwei vorangehenden
Bildern. Der Einsatz von Watanabe ist extrem komplex und kostenträchtig und
von zweifelhafter Effizienz.
-
Der
weitaus größte Teil
von Bewegungserfassungstechniken auf Videos arbeitet mit dem Prinzip
des Vergleichs eines eingehenden Videosignals mit einem gespeicherten
Bezugssignal. Einige Einrichtungen sind darauf beschränkt, nur
das vorangehende Einzelbild als Referenz zu verwenden. Während die
Verwendung nur des vorangehenden Bildes als Referenz den Vorteil
hat, daß es
wenig Speicher erfordert, wenig empfindlich auf Fehlauslösen von Ereignissen
aufgrund von langsamen Beleuchtungswechseln ist und sich für eine einfachere
Implementierung anbietet, so hat es auch den Nachteil, dass es nicht
in der Lage ist, Ereignisse mit einer langsamen Veränderungsgeschwindigkeit
zu erfassen.
-
Im
digitalen Bereich besteht ein übliches
Verfahren zum Erfassen von Bewegung darin, den Wert jedes Pixels
eines eingehenden Bildes von dem entsprechenden Pixel in dem Bezugseinzelbild
abzuziehen, die sich ergebende Differenz aufzusammeln bzw. zu integrieren,
um eine Bewegungsanzeige zu erzeugen, wenn das gesammelte bzw. integrierte
Differenzsignal irgendeinen vorbestimmten Betrag überschreitet.
Ein Problem dieses Ansatzes besteht darin, dass Veränderungen
auf dem gesamten Bildfeld einander auslöschen können und damit ein falsches
Auslösen
hervorrufen. Beispielsweise könnte ein
gegebenes Pixel um einen Betrag N heller sein als sein entsprechendes
Referenzpixel, während
ein weiteres Pixel um –N
dunkler sein könnte
als sein Referenzpixel. Unter solchen Umständen löschen die Veränderungen
sich aus und eine beträchtliche
Bewegung wird möglicherweise
nicht erfasst.
-
Zusätzlich liefert
die einfache Differenzbildung von Werten einander entsprechender
Pixel keine effiziente Bewegungserfassung. Weiterhin haben die Ausgänge von
Videokameras typischerweise ein dem Videosignal überlagertes Rauschen. Im Ergebnis
kann sich der für
ein Pixel in einer sich nicht verändernden Szene erfasste Wert
von Einzelbild zu Einzelbild einfach aufgrund von Rauschen um plus oder
minus einen gewissen Betrag verändern.
Die meisten existierenden Bewegungserfassungsverfahren kompensieren
dieses Rauschen nicht. Konsequenterweise trägt das Rauschen eines Videosignals zu
falsch positiven Reaktionen bei, was erfordert, dass die Bewegungsdetektoren
bis zu einem Punkt unempfindlich gemacht werden, bei dem zusätzliche falsch
negative Ergebnisse erzeugt worden.
-
Ein
Beispiels eines Bewegungserfassungssystems, welches unter einigen
dieser Probleme leidet, wird in dem US Patent Nr. 5,455,561 von
Braun offenbart. In dem von Braun offenbarten System wird ein hybrider
analog/digitaler Ansatz verwendet, bei welchem das eingehende Einzelbild
einer invertierten Version eines gespeicherten Bezugseinzelbildes hinzuaddiert
wird. Der sich ergebende Differenzwert wird mit einem Schwellenwert
versehen und die Bewegungsanzeige wird erzeugt, wenn der Schwellenwert
für eine
gegebene Anzahl von Taktzyklen einen gegebenen Wert überschreitet.
Das System von Braun verwendet periodisch neue Bezugseinzelbilder
zu vorbestimmten Zeitschritten bzw. Zeitintervallen, unabhängig von
dem aktuellen Niveau an Aktivität,
welches durch die Kamera beobachtet wird. In dem System von Braun
ist der Schwellenwert, der verwendet wird, eine Konstante (d. h.
er variiert nicht entsprechend den Eingangswerten), und die Anzahl unterschiedlicher
Pixel, welche betrachtet werden, um eine signifikante Bewegung zu
konstatieren, ist ebenfalls konstant.
-
Ein
weiterer Ansatz der Bewegungserfassung umfasst die digitale Dezimierung
(durch Teilabtastung und Tiefpassfilterung) von Videobildern, um einen
reduzierten Datensatz zu erhalten. Dieser reduzierte Datensatz wird
mit einem in ähnlicher
Weise reduzierten Bezugsbild verglichen. Da die Dezimierung eine
Tiefpassfilterung der Originaldaten umfasst, enthalten Pixel des
resultierenden reduzierten Bildes Beiträge von anderen Pixeln in dem
Originalbild, die während
der Teilabtastung nicht ausgewählt wurden.
Die Dezimierung kann die Anzahl von Pixeln reduzieren, die verglichen
werden müssen,
während sie
dennoch ermöglicht,
dass Bewegung innerhalb des Gesichtsfeldes erfasst wird. Ein Beispiel
eines Dezimierungsansatzes wird in der US-Patentanmeldung mit der
Seriennummer 08/655,562 beschrieben, die am 30. Mai 1996 eingereicht
wurde und dem Inhaber der vorliegenden Erfindung überschrieben wurde.
-
Einige
existierende Bewegungserfassungseinrichtungen ermöglichen
es, dass ein interessierender Bereich innerhalb des Gesichtsfeldes
der Kamera spezifiziert wird. Beispielsweise kann eine Grenze um
einen aktiven Bildbereich der Videokamera als von dem Bewegungserfassungsmechanismus ausgeschlossen
definiert werden. In ähnlicher
Weise können
ganze Bereiche innerhalb des Gesichtsfeldes der Kamera durch Masken
ausgeblendet werden, so dass eine Bewegung innerhalb (oder alternativ
außerhalb)
dieser Bereiche ignoriert wird. Das Verhalten dieser Maskierungsschemata
ist bisher im strengen Sinne binär
gewesen – das
heißt
ein Pixel war entweder in die Bewegungsberechnung einbezogen oder
nicht.
-
Das
US Patent Nr. 5,339,104, welches für Hong erteilt wurde, beschreibt
ein System, das einen Fenstermechanismus verwendet, um den interessierenden
Bereich auf ein Rechteck innerhalb des vollen Videoeinzelbildes
zu beschränken.
Das System von Hong digitalisiert und speichert ein Bezugseinzelbild und
vergleicht es mit dem eingehenden Video. Durch ein Tabellennachschlagen
in einem EPROM wird ein pixelweiser Vergleich durchgeführt. Die
(aus sechs Bit bestehenden) Pixeleingangswerte und die Referenzpixelwerte
werden verkettet und dem EPROM als eine Adresse präsentiert.
Der sich ergebende Ausgangswert des EPROM ist der Differenzwert.
Der Differenzwert wird mit Basis- und Grenzwerten verglichen, die
durch den steuernden Mikroprozessor bereitgestellt werden, und ein
binärer
Ausgangswert wird erzeugt, um anzuzeigen, ob der Unterschied innerhalb
des gegebenen Bereiches von Werten liegt. Eine Zählung der Anzahl von Unterschieden,
die in den gegebenen Bereich fallen, wird aufbewahrt und eine Bewegungsanzeige
wird erzeugt, wenn diese Zählung
bzw. Zahl einen gegebenen Wert überschreitet.
-
Die
US 5731832 offenbart ein
Verfahren und ein System zum Erfassen von Bewegung in einem Videosystem
durch Identifizieren von Unterschieden zwischen einem aktuellen
Einzelbild und einem Bezugseinzelbild. Ein unterschiedliches Profil
wird berechnet, welches die Differenzen zwischen dem aktuellen Einzelbild
und dem Bezugseinzelbild wiedergibt. Die Differenzdaten können in
mehrere Blöcke aufgeteilt
werden. Ein Bewegungserfassungssignal wird durch das System erzeugt,
wenn das Differenzprofil einen Grenzwert überschreitet.
-
Die
GB 2031686 offenbart ein
Bewegungserfassungssystem für
die Verwendung in einem Rauschunterdrückungssystem zur Erfassung
von Bewegung zwischen einer Mehrzahl von Bildpunkten aus einem Auswahlbereich
eines Bildes. Eine Steuerungsanordnung stellt fest, dass eine Bewegung
aufgetreten ist, wenn zumindest einige aus der Mehrzahl von Bildpunkten
sich bewegt haben, wie es durch den Detektor erfasst wird.
-
Die
US 5745190 offenbar eine
Vorrichtung und ein Verfahren zum Erfassen des Umschaltens einer
Szene in einem Bewegungsbild bzw. Film. Der Detektor erhält Differenzwerte
zwischen den vorherigen Pixelausgangswerten und den aktuellen Ausgangswerten,
und stellt fest bzw. bewertet, ob die Anzahl von Pixeln, die einen
Schwellenwert überschreiten,
ausreichend groß ist,
so dass ein Szeneumschalten bzw. Schnitt erfasst worden ist.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
vorliegende Erfindung weist ein Verfahren, eine Vorrichtung und
ein Computerprogrammprodukt zum Erfassen von Bewegung in einem Video auf,
in welchem Einzelbilder aus einem eingehenden Videostrom digitalisiert
werden, und zwar gemäß den Ansprüchen 1,
10 bzw. 11. Die Pixel jedes eingehenden, digitalisierten Einzelbildes
werden mit den entsprechenden Pixeln eines Bezugseinzelbildes verglichen
und Unterschiede zwischen eingehenden Pixeln und Bezugspixeln bzw.
Referenzpixeln werden festgestellt. Eine oder mehrere Ausführungsformen der
Erfindung verwenden sowohl einen Schwellenwert bzw. Grenzwert der
Pixeldifferenz (der das Ausmaß (in
absoluten Werten) definiert, um welches ein Pixel sich von seinem
entsprechenden Referenzpixel unterscheiden muss, um als unterschiedlich
betrachtet zu werden) und einen Grenzwert der Einzelbilddifferenz
(welcher die Anzahl der Pixel definiert, die für die Anzeige einer Bewegungserfassung
unterschiedlich sein müssen).
Wenn der Pixelunterschied für
ein Pixel den anwendbaren Grenzwert der Pixeldifferenz überschreitet,
wird das Pixel als „unterschiedlich" angesehen. Wenn
die Anzahl „unterschiedlicher" Pixel für ein Einzelbild
den gültigen
Grenzwert für
die Einzelbilddifferenz überschreitet,
so wird dies als Auftreten einer Bewegung betrachtet und es wird
ein Bewegungserfassungssignal ausgegeben. Ein einfacher Grenzwert-
bzw. Schwellenwertmechanismus kann verwendet werden. Beispielsweise
wird in einer Ausführungsform
erklärt,
dass eine Bewegung aufgetreten ist, wenn mehr als N der M Pixel
in dem eingehenden Einzelbild sich von dem Bezugsbild unterscheiden.
In einer oder mehreren anderen Ausführungsformen wird der anwendbare
Grenzwert der Einzelbilddifferenz in Abhängigkeit davon eingestellt,
welche aktuelle durchschnittliche Bewegung in den letzten Bildern
aufgetreten ist, wodurch eine Bewegung der „Umgebung" berücksichtigt
wird und Effekte einer Phasenverzögerung minimal gemacht werden.
-
In
einer oder mehreren Ausführungsformen können verschiedenen
Pixeln oder Gruppen von Pixeln unterschiedliche Grenzwerte der Pixeldifferenz zugeordnet
werden, was es möglich
macht, gewisse Bereiche des Gesichtsfeldes einer Kamera mehr oder
weniger empfindlich auf Bewegung zu machen. In einer oder mehreren
Ausführungsformen
der Erfindung wird ein neues Bezugseinzelbild ausgewählt, wenn
das erste Einzelbild, welches keine Bewegung zeigt, nach einem oder
mehreren Einzelbildern auftritt, welche Bewegung zeigten.
-
Die
vorliegende Erfindung stellt ein effizientes und zuverlässiges System
der Bewegungserfassung bereit.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein schematisches Diagramm einer Ausführungsform der Erfindung.
-
2 ist
ein schematisches Diagramm einer Ausführungsform der Erfindung.
-
3 ist
eine Veranschaulichung von Phasenverzögerung.
-
4 ist
ein Flussdiagramm, das einen Prozess zeigt, der in einer Ausführungsform
der Erfindung verwendet wird.
-
5 ist
ein schematisches Diagramm eines Computersystems, welches für die Implementierung der
Erfindung verwendet werden kann.
-
GENAUE BESCHREIBUNG
DER ERFINDUNG
-
Ein
Verfahren und eine Vorrichtung zum Erfassen von Bewegung in einem
Video werden hier beschrieben. In der folgenden Beschreibung werden zahlreiche
spezielle Einzelheiten dargestellt, um eine gründliche Beschreibung der Erfindung
bereitzustellen. Es ist jedoch für
Fachleute auf diesem Gebiet offensichtlich, dass die Erfindung ohne
diese spezifischen Details ausgeführt werden kann. In anderer Hinsicht
bzw. in anderen Fällen
sind wohlbekannte Merkmale und Eigenschaften nicht im Einzelnen
beschrieben worden, um die Erfindung nicht zu verschleiern.
-
Die
vorliegende Erfindung stellt ein effektives Mittel der zuverlässigen Erfassung
tatsächlicher
Bewegung in einem Videosignal mit einem einfachen und preiswerten
Schaltkreis bereit. Eine Ausführungsform
der Erfindung arbeitet mit Digitalisierung und Decodierung des Signals
einer Videokamera. Durch Verwendung einer digitalen Technik wird
jede Pixelposition in einem Bild genau und wiederholbar gemessen
und es wird jedem Pixel ein „Wert" zugewiesen. Beispielsweise
werden für
ein YUV-Farbschema jedem Pixel zwei Farbkomponentenwerte und ein
Lumineszenz-(„Luma")-Wert zugewiesen. Für andere
Farbschemata können
andere Werte verwendet werden. Der Begriff „Wert" wie er hier in Bezug auf ein Pixel
verwendet wird, bezieht sich auf irgendeinen oder auch auf mehrere
der Werte, die dem Pixel während
des Digitalisierungsvorgangs zugewiesen werden oder die von den
zugewiesenen Werten abgeleitet werden.
-
Während jedes
Pixel digitalisiert wird, wird es mit einem entsprechenden Pixel
in einem Referenzeinzelbild verglichen. Es wird eine Feststellung
getroffen, wie unterschiedlich diese beiden Pixel sind. Im Idealfall
sollte, wenn eine Szene sich nicht verändert, der Wert eines Pixels
an derselben Stelle innerhalb eines Videoeinzelbildes in aufeinander
folgenden Einzelbildern denselben Wert haben. In der Praxis unterliegen
die Sensoren in Videokameras jedoch einem Rauschen, so dass selbst
dann, wenn eine Szene sich nicht verändert, der Wert eines Pixels
an irgendeiner gegebenen Position in dem Videoeinzelbild sich von
Einzelbild zu Einzelbild etwas verändert.
-
Die
Erfindung zieht Vorteil aus der Beobachtung, dass das Ausmaß der Variation
in dem Pixelwert, welcher aufgrund von Rauschen von Einzelbild zu
Einzelbild auftritt, tendenziell relativ gut definiert und konsistent
ist (zumindest für
eine gegebene Videokamera) und verwendet einen Schwellenwertmechanismus,
um die Effekte des Rauschens zu beseitigen. In einer Ausführungsform
wird diese Schwellenwertbildung bewerkstelligt, indem man den absoluten
Wert der Differenz zwischen einem eingehenden Pixel und seinem Bezugspixel
hernimmt und diesen absoluten Wert mit einem gegebenen Grenzwert bzw.
Schwellenwert vergleicht. Wenn der absolute Wert der Differenz geringer
ist als der Grenzwert, wird die Varianz der Pixelwerte dem Rauschen
zugeordnet und das eingehende Pixel wird gegenüber dem Referenzpixel im Ergebnis
als unverändert
betrachtet.
-
Indem
der Absolutwert der Pixeldifferenz verwendet wird, berücksichtigt
die Erfindung nicht die Art und Weise, in welcher sich ein eingehendes
Pixel von seinem Referenzpixel unterscheidet (wenn beispielsweise
das eingehende Pixel heller oder dunkler ist als das Referenzpixel).
Stattdessen konzentriert sich sie auf die Größe der Differenz und nicht
auf die Richtung (das Vorzeichen) der Differenzen.
-
Eine
Ausführungsform
stellt fest, ob in einem Einzelbild eine Bewegung vorliegt, in dem
sie die Anzahl von Pixeln zählt,
die beträchtliche
Unterschiede zwischen dem eingehenden Einzelbild und dem Referenzeinzelbild
haben. Für
jedes eingehende Videoeinzelbild wird eine Anzahl von Pixeln, die
als signifikant unterschiedlich gegenüber ihren Referenzpixeln angesehen
wird, aufbewahrt bzw. gespeichert. Diese Differenzanzahl von Pixeln
pro Einzelbild wird verwendet, um zu bestimmen, ob zwischen dem
eingehenden Einzelbild und dem Referenzeinzelbild eine Bewegung
aufgetreten ist.
-
Im
Gegensatz zum Stand der Technik hat die vorliegende Erfindung die
Fähigkeit,
das aktuelle Niveau der Umgebungsbewegung zu erfassen und den Bewegungsdetektor
proportional zu dem Betrag an Bewegung zu desensibilisieren, der
aktuell beobachtet wird. Dies geschieht in einer Weise, die es erlaubt, dass
die durchschnittliche Bewegung über
ein zuletzt verstrichenes Zeitintervall berechnet wird, ohne dass man
eine längere
Historie der letzten Einzelbilder aufgesammelten Pixeldifferenz
an Zahlen aufbewahren muss, und über
diese Werte hinweg einen gleitenden Fensterdurchschnitt bilden muss.
Eine Technik, die als nachlaufende exponentielle Durchschnittsbildung
(trailing exponential averaging) bekannt ist, wird verwendet, um
die durchschnittliche Anzahl von Pixeln zu erzeugen, die sich von
Einzelbild zu Einzelbild verändern.
Die Anzahl unterschiedlicher Pixel des aktuellen Einzelbildes wird
zu der durchschnittlichen Anzahl unterschiedlicher Pixel addiert
und die sich ergebende Summe wird durch zwei dividiert (was in einfacher
Weise bewerkstelligt werden kann, indem beispielsweise in einem
Schieberegister fester Länge
der binäre
Wert der Summe um eine Stelle nach rechts geschoben wird). Das Ergebnis
ist ein Durchschnitt, in welchem vorherige Werte von Einzelbildern
nacheinander immer weniger zu dem aktuellen Durchschnitt beitragen.
Diese Technik bietet eine gute Näherung
für einen
gleitenden Fensterdurchschnitt mit wesentlich geringeren Kosten
und einer einfacheren Implementierung.
-
Durchschnittsberechnungen
sind effektiv Tiefpassfilter, die die Tendenz haben, an einem als Phasenverzögerung bekannten
Problem zu leiden: der berechnete Durchschnittswert hinkt hinter
dem aktuellen Wert hinterher. Ein möglicher Effekt dieser Phasenverzögerung ist
ein „Schatten" in der Reaktionszeit
(dargestellt in 3), der auftreten kann, wenn
es einen plötzlichen
Abfall der aktuellen Aktivität
gibt. Unter diesen Umständen
bleibt der berechnete Durchschnittswert der Zahl unterschiedlicher
Pixel für
eine gewisse Zeitdauer wesentlich höher als die aktuelle Anzahl
unterschiedlicher Pixel, was das System zu unempfindlich gegenüber Änderungen
in der Bewegung macht, die eine Anzahl unterschiedlicher Pixel unter
dem berechneten Durchschnitt erzeugen. Diese Phasenverzögerung könnte dazu
führen,
dass der Bewegungssensor eine beträchtliche Bewegung im Anschluss
an eine andauernde Periode stärkerer
Bewegung nicht mehr erfasst.
-
Die
vorliegende Erfindung befasst sich mit diesem potentiellen Problem,
indem sie in asymmetrischer Weise auf Veränderungen in dem Betrag der Bewegung
reagiert, welcher beobachtet wird. In einer Ausführungsform wird, wenn die durchschnittliche Differenzanzahl
für ein
Einzelbild beträchtlich
kleiner ist als der aktuelle Durchschnitt, der aktuelle Wert bei der
Berechnung des Durchschnittes stärker
gewichtet. Dies hat den Effekt, dass der Durchschnittswert schneller
auf den tatsächlichen
Wert herabgesetzt wird, wodurch der Empfindlichkeits-„Schatten" reduziert wird.
Die Erfindung ist demnach in der Lage, sich an eine Vielfalt unterschiedlicher
Bedingungen und Umstände
dynamisch anzupassen.
-
In
einem Erfassungssystem für
Videobewegung ist es wichtig, dass Veränderungen in der Beleuchtung
nicht mit Bewegung verwechselt werden. Die Fähigkeit des Systems, eine beträchtliche
Bewegung gegenüber
anderen Artefakten zu unterscheiden, hängt in hohem Maße von der
Strategie ab, die verwendet wird, um Bezugseinzelbilder auszuwählen. Ein üblicher
Ansatz besteht darin, immer das zuvor empfangene Einzelbild als
das Bezugsbild zu verwenden. Dies hat jedoch den Effekt, dass man
die Einrichtung unfähig
macht, sich sehr langsam bewegende Objekte zu erfassen.
-
In
einer oder mehreren Ausführungsformen der
Erfindung wird anstelle der Verwendung des vorherigen Einzelbildes
als Referenzbild ein neues Referenzbild periodisch ausgewählt auf
der Basis von spezifizierten Auswahlkriterien für das Referenzbild. Auf diese
Weise addieren sich die Bewegungseffekte sich langsam bewegender
Objekte, wenn die eingehenden Pixel allmählich von ihren Referenzpixeln
abweichen, was schließlich
bewirkt, dass ein Bewegungsereignis ausgelöst bzw. erfasst wird. In einer Ausführungsform
ist das Bezugseinzelbild, welches ausgewählt wird, das letzte Einzelbild
des Videos, das die letzte Bewegung gezeigt hat, welche erfasst wurde.
Andere Strategien für
das Auswählen
von Referenzbildern können
ebenfalls verwendet werden.
-
Eine
falsche Bewegungsinformation kann in ein Videosignal auch eingeführt werden
durch Phasenwechsel von Chrominanzinformation in standardmäßigen Videocodierformaten.
Dieser Phasenwechsel ist nützlich
im analogen Bereich, fügt
jedoch von Einzelbild zu Einzelbild eine künstliche Verschiebung in dem
Wert einer gegebenen Pixelposition ein. Eine oder mehrere Ausführungsformen
der Erfindung berücksichtigen
die Effekte des Phasenwechsels um sicherzustellen, dass er nicht
den falschen Anschein einer Bewegung erzeugt. In diesen Ausführungsformen
werden Vergleiche nur gegenüber
eingehenden Einzelbildern vorgenommen, die zur selben Phasengruppe
wie das Referenzfeld gehören.
-
In
einer oder mehreren Ausführungsformen der
Erfindung können
auf jede Pixelposition oder Gruppen von Pixelpositionen unterschiedliche Grenzwerte
angewendet werden. Dies hat den Effekt, dass es möglich ist,
jedes Pixel oder jede Gruppe von Pixeln mehr oder weniger empfindlich
auf Variationen zu machen. In einer Ausführungsform wird eine Bildbearbeitungsschnittstelle
verwendet, um die Bereiche zu spezifizieren, die auf Veränderungen
in den Pixelwerten mehr oder weniger empfindlich sein sollten. Entsprechende
Werte werden in ein Array aus Gewichtungen für Pixelgrenzwerte geladen.
Diese Gewichtungen definieren den Grad der Veränderung, der erforderlich ist,
bevor ein gegebenes Pixel als verändert angesehen wird. Durch
die Verwendung von Pixelgewichtungen kann das Bewegungserfassungssystem
so hergestellt werden, dass es gewissen Bereichen in dem Gesichtsfeld
der Videokamera weniger Aufmerksamkeit und anderen Bereichen mehr
Aufmerksamkeit widmet. Wenn es beispielsweise einen Bereich gibt,
der ein sich kontinuierlich bewegendes Objekt (z. B. eine Uhr oder
ein Ventilator) enthält,
so kann die Empfindlichkeit in diesem Bereich abgeschwächt werden.
In ähnlicher Weise
können
einige Bereiche (z. B. eine dauerhaft helle Tür oder ein Desktop) so definiert
werden, dass sie auf Veränderungen überempfindlich
sind.
-
In
einer oder mehreren Ausführungsformen sendet
das Bewegungserfassungssystem der Erfindung einen Binärwert aus,
der anzeigt, dass die Bewegung erfasst worden ist. Diese Bewegungserfassungsausgabe
kann verwendet werden, um einen Alarm ein- oder auszuschalten, einen
Videorekorder ein- oder auszuschalten, eine elektronische Nachricht
zu senden oder irgendeinen anderen Schalter, eine Einrichtung oder
Betätiger
ein- oder auszuschalten.
-
Die
Erfindung kann mit Farb- oder monochromen Kameras verwendet werden.
Mit einem Farbvideoeingang kann das Bewegungserfassungssystem der
Erfindung mit einem oder mehreren der Werte arbeiten, welche dem
Pixel zugeordnet sind, je nach dem verwendeten Farbschema. Beispielsweise kann
das Bewegungserfassungssystem mit dem vollen Farbwert jedes Pixels
arbeiten oder es kann nur mit dem Luminanzteil des Videosignals
arbeiten. Indem man nur mit dem Luminanzwert jedes Videopixels arbeitet,
können
die Kosten und die Komplexität eines
Systems, welches die Erfindung implementiert, im Vergleich zu einem
System, welches eine vollständige
Farbverarbeitung durchführt,
reduziert werden. Das Verarbeiten nur der Luminanzinformation ist
eine effektive Optimierung, da dies die Effektivität des Bewegungserfassungssystems
nicht vermindert.
-
1 ist
ein schematisches Diagramm einer Ausführungsform der Erfindung. Die
in 1 dargestellten Komponenten können in Hardware, Software und/oder
einer Kombination derselben implementiert sein.
-
In
der Ausführungsform
nach 1 stellt eine Videokamera 110 einen analogen
Videostrom bereit, welcher digitalisiert und durch einen Digitalisierer/Decoder 130 decodiert
wird. Zusätzlich
zum Digitalisieren eingehender Videoeinzelbilder (Frames) erzeugt
der Digitalisierer/Decoder 130 auch einen Satz von Synchronisationssignalen,
die Zeiten anzeigen, zu welchen Pixel, Reihen von Pixeln (d. h. Videoabtastzeilen)
und Felder von Pixeln (d. h. Videoeinzelbilder/Felder) für andere
Komponenten des System verfügbar
sind.
-
Die
digitalisierten Videodaten (welche aus Pixeln des aktuellen eingehenden
Videobildes bestehen) werden gleichzeitig an den Pixeldifferenzbildner 150 und
den Einzelbildspeicher 140 übermittelt. Der Pixeldifterenzbildner 150 subtrahiert
den Wert des aktuellen Pixels von dem des entsprechenden Pixels in
dem aktuellen Bezugseinzelbild 144 und sendet den Absolutwert
des Ergebnisses an die binäre Grenzwerteinheit 160.
Die binäre
Grenzwerteinheit 160 vergleicht den absoluten Wert der
Differenz zwischen dem eingehenden Pixel und dem Referenzpixel mit
einem Grenzwert und gibt einen binären Wert aus, welcher anzeigt,
ob die Differenz signifikant ist oder nicht. Dieser binäre Wert
wird an den Differenzzähler 165 übermittelt,
der die Anzahl der jeweiligen Pixel für jedes Einzelbild zählt, die
sich signifikant von den entsprechenden Pixeln in dem aktuellen
Bezugseinzelbild unterscheiden.
-
Wenn
das letzte Pixel eines eingehenden Videoeinzelbildes angekommen
ist, erzeugt der Digitalisierer/Decoder 130 ein Synchronisationssignal,
das den Zustand am Ende des Bildes (Einzelbildes bzw. Frames) anzeigt.
Nach dem Entfernen des Signals für
das Ende des Bildes analysiert der Bewegungsdetektor 180 das
aktuelle Bild, um festzustellen, ob eine Bewegung aufgetreten ist.
Der Bewegungsdetektor 180 sieht nach der Differenzanzahl
(aus dem Differenzzähler 165)
des eingehenden Bildes und dem aktuellen Bewegungsbasiswert (aus
der adaptiven Berechnungseinheit 90 der Bewegungsbasis) und
bestimmt, ob das letzte Bild (Frame) eine signifikante Bewegung
(bezüglich
des Referenzbildes) zeigt. Wenn der Wert der Differenzzahl um einen
Betrag oberhalb des aktuellen Bewegungsbasiswertes liegt, der größer als
ein gegebener Grenzwert ist, so wird durch den Bewegungsdetektor 180 ein
Bewegungsanzeigesignal erzeugt. Das Bewegungsanzeigesignal wird
erzeugt, bis für
ein nachfolgendes Bild keine Bewegung mehr erfasst wird.
-
Im
Anschluss an den Abschluss der Bewegungserfassungsfunktion eines
Videoeinzelbildes wird der Differenzzähler 165 auf Null
zurückgesetzt, die
adaptive Kommunikationseinheit 190 für die Basisbewegung aktualisiert
ihren Wert und ein neuer Referenzbildauswähler 170 zeigt an,
ob das aktuelle Referenzbild 144 durch das nächste Referenzbild 142 ersetzt
werden soll. In einer Ausführungsform wählt der
Auswähler 170 für das neue
Referenzbild ein neues Einzelbild aus, wann immer auf ein Bild,
für welches
eine Bewegung erfasst worden ist, ein Bild folgt, für welches
keine Bewegung erfasst wird. Das Einzelbild, für welches keine Bewegung erfasst
wurde, wird dann als das neue Bezugsbild ausgewählt.
-
Die
adaptive Berechnungseinheit 190 für die Basisbewegung behält eine
Aufzeichnung der Differenzanzahl für eine gewisse Zahl von Einzelbildern, welche
dem aktuellen Bild vorangingen, und bestimmt ein effektives Maß des durchschnittlichen
aktuellen Bewegungsbetrages in der Videosequenz. Der aktuelle durchschnittliche
Betrag des Bewegungswertes versieht den Bewegungsdetektor 180 mit
einem Maß dafür, wie viel
Aktivität
die aktuelle „Norm" darstellt. Denn
die Kenntnis des aktuellen durchschnittlichen Betrages der Bewegung
ermöglicht
es der Erfindung, sich verändernde
Langzeitbedingungen der Bewegung zu berücksichtigen – das heißt weniger
empfindlich auf Bewegung zu werden, wenn für eine gewisse Zeitdauer sehr
viel Bewegung vorhanden war und empfindlicher zu werden, wenn wenig
Bewegung vorhanden war.
-
Pixel
eines eingehenden Bildes werden in dem nächsten Bezugsbildabschnitt 142 des
Bildspeichers 140 gespeichert. Die Erzeugung der geeigneten
Pixeladresse, in welcher Pixel in dem Einzelbildspeicher 140 zu
speichern sind, erfolgt durch eine Erzeugungslogik 120 für die Pixeladresse,
welche Pixeladressen der Reihe nach mit dem Taktsignal eingehender
Pixel vergibt, welches durch den Digitalisierer 130 erzeugt
wird. Wenn der Auswähler 170 für ein neues
Referenzbild anzeigt, dass das nächste
und das aktuelle Referenzbild ausgetauscht werden sollten, so wird
das aktuelle Bild, welches in dem nächsten Referenzbild 142 gespeichert
wird, auf das aktuelle Referenzbild 140 übertragen.
Wenn der Auswähler 170 für das neue
Referenzbild nicht anzeigt, dass das nächste und das aktuelle Referenzbild
ausgetauscht werden sollten, so wird das nächste Referenzbild 142 durch
die Pixel des nächsten
eingehenden Bildes überschrieben.
-
2 veranschaulicht
eine Ausführungsform
der Erfindung, welche die Fähigkeit
umfasst, Wichtungen für
bestimmte Pixel und/oder Gruppen von Pixeln zuzuweisen. In der Ausführungsform
nach 1 vergleicht der Pixeldifterenzbildner 150 den Unterschied
zwischen eingehenden und Referenzpixeln mit einem konstanten Grenzwert.
In der Ausführungsform
nach 2 kann jeder Pixelposition ein anderer Grenzwert
zugewiesen werden. Jedes eingehende Pixel wird gegenüber seinem
entsprechenden Referenzpixel nur dann als unterschiedlich angesehen,
wenn der Unterschied zwischen dem Wert des eingehenden Pixels und
dem Wert des Referenzpixels den betreffenden Grenzwert für dieses
Pixel überschreitet.
In der Ausführungsform
nach 2 empfängt
die binäre
Grenzwerteinheit 160 demnach zwei Werte für jedes
Pixel – den
Absolutwert des Unterschiedes zwischen dem Wert des eingehenden
Pixels und dem Wert seines entsprechenden Referenzpixels und den
Grenzwert, der für
dieses Pixel anwendbar ist, von der Pixelgewichtungseinheit 200. Die
binäre
Grenzwerteinheit 160 gibt eine Differenzanzeige an den
Differenzzähler 165 nur
dann aus, wenn die durch die Pixeldifferenzbildungseinheit 150 bereitgestellte
Differenz den durch die Pixelwichtungseinheit 200 bereitgestellten
Grenzwert übersteigt.
-
4 ist
ein Blockdiagramm eines Prozesses, der in einer oder mehreren Ausführungsformen der
Erfindung verwendet wird. Wie in 4 dargestellt,
wird ein Videostrom bei Schritt 400 empfangen. Der Videostrom
kann beispielsweise von einer Videokamera empfangen werden. In Schritt 405 wird
das nächste
Einzelbild des Videostroms digitalisiert. In Schritt 410 wird
das nächste
Pixel des digitalisierten Videoeinzelbildes für einen Pixeldifferenzbildner
und für
einen Einzelbildspeicher bereitgestellt. In Schritt 415 wird
der Unterschied des Wertes des Pixels und des Wertes seines entsprechenden
Pixels in dem Referenzbild festgestellt. Gleichzeitig wird in Schritt 420 das
Pixel an einer geeigneten Stelle in einem Abschnitt für ein „nächstes Referenzbild" des Einzelbildspeichers
gespeichert.
-
Nachdem
die Pixeldifferenz in Schritt 415 bestimmt worden ist,
wird in Schritt 425 festgestellt, ob die Pixeldifferenz
signifikant ist. Die bezüglich
der Ausführungsformen
der 1 und 2 beschriebenen Methoden oder
andere geeignete Methoden können
verwendet werden, um festzustellen, ob die Pixeldifferenz signifikant
ist. Wenn festgestellt wird, dass die Pixeldifferenz signifikant
ist, wird ein Pixeldifferenzzähler,
der die Anzahl signifikant unterschiedlicher Pixel des aktuellen
Einzelbildes zählt,
in Schritt 430 um 1 heraufgesetzt und der Prozess geht weiter
zu Schritt 435. Wenn festgestellt wird, dass die Pixeldifferenz
nicht signifikant ist, geht hier der Prozess direkt zu Schritt 435 weiter.
-
In
Schritt 435 wird eine Feststellung getroffen, ob das aktuelle
Pixel das letzte Pixel des aktuellen Einzelbildes ist. Eine solche
Feststellung kann beispielsweise auf der Basis eines Signals für das Ende
des Einzelbildes vorgenommen werden, welches durch den Digitalisierer/Decodierer 130 der Ausführungsformen
nach den 1 und 2 erzeugt
wird. Wenn festgestellt wird, dass das aktuelle Pixel nicht das
letzte Pixel des aktuellen Einzelbildes ist, geht der Prozess zurück zu Schritt 410 und
das nächste
Pixel wird für
den Pixeldifferenzbildner und den Einzelbildspeicher bereitgestellt.
Wenn festgestellt wird, dass das aktuelle Pixel das letzte Pixel
ist, so geht der Prozess zu Schritt 440 weiter.
-
In
Schritt 440 wird die Differenzanzahl für das aktuelle Einzelbild,
welches durch den Pixeldifferenzzähler erzeugt wurde, mit den
Bewegungserfassungskriterien verglichen, welche durch das System verwendet
werden, um festzustellen, ob eine Bewegung aufgetreten ist. Jegliche
der zuvor beschriebenen Bewegungserfassungskriterien, ebenso wie auch
andere Kriterien, können
verwendet werden.
-
In
Schritt 445 wird eine Feststellung getroffen, ob eine Bewegung
gemäß den Bewegungserfassungskriterien
erfasst wurde. Wenn eine Bewegung erfasst wurde, so wird in Schritt 450 ein
Bewegungserfassungssignal ausgegeben und der Prozess geht weiter
zu Schritt 455. Wenn keine Bewegung erfasst worden ist,
geht der Prozess direkt weiter zu Schritt 455.
-
In
Schritt 455 wird eine Feststellung getroffen, ob ein neues
Referenzbild ausgewählt
werden soll. Beispielsweise kann das zuvor bereits beschriebene
Verfahren des Auswählens
eines neuen Referenzbildes beim Auftreten des ersten Bildes, für welches
keine Bewegung erfasst worden ist, nach einem Bild, für welches
Bewegung erfasst worden ist, verwendet werden. Wenn festgestellt
wird, dass ein neues Referenzbild ausgewählt werden soll, wird das aktuelle
Bild in dem Abschnitt des neuen Referenzbildes des Bildspeichers
als das neue Referenzbild ausgewählt
und die Verarbeitung geht weiter zu Schritt 465. Wenn festgestellt
wird, dass kein neues Referenzbild ausgewählt werden soll, geht der Prozess
direkt zu Schritt 465.
-
In
Schritt 465 wird der Basiswert der Bewegung auf Basis des
Betrages der von dem aktuellen Bild gezeigten Bewegung erneut berechnet.
In Schritt 470 wird der Pixeldifferenzzähler auf Null gesetzt und der
Prozess kehrt zurück
zu Schritt 405, wo das nächste Einzelbild des Videostroms
digitalisiert wird.
-
Alle
oder ein Teil eines oder mehrerer Ausführungsformen der Erfindung
können
als Computersoftware in Form von computerlesbarem Code implementiert
werden, der auf einem Vielzweckcomputer, wie zum Beispiel einem
Computer 500, ausgeführt werden
kann, welcher in 5 dargestellt ist, oder in Form
von Dateien einer Bytecodeklasse, die innerhalb einer JavaTM-Laufzeitumgebung, die auf einem solchen
Computer läuft,
ausführbar
sind. Eine Tastatur 510 und eine Maus 511 sind
mit einem bidirektionalen Systembus 518 verbunden. Die
Tastatur und die Maus dienen dem Einbringen von Benutzereingaben
in das Computersystem und für
die Kommunikation dieser Benutzereingabe an den Prozessor 513. Andere
geeignete Eingabeeinrichtungen können
zusätzlich
zu oder anstelle von der Maus 511 und der Tastatur 510 verwendet
werden. Die I/O (Eingabe/Ausgabe)-Einheit 519, die mit
dem bidirektionalen Systembus 518 verbunden ist, repräsentiert
derartige I/O-Elemente als einen Drucker, einen AN (Audio/Video)-I/O,
eine Videoeinfang- bzw. Aufnahmeeinrichtung und eine Digitalisiererplatine,
etc.
-
Der
Computer 500 umfasst einen Videospeicher 514,
einen Hauptspeicher 515 und einen Massenspeicher 512,
die allesamt mit dem bidirektionalen Systembus 518 verbunden
sind, ebenso wie die Tastatur 510, die Maus 511 und
der Prozessor 513. Der Massenspeicher 512 kann
sowohl fixierte als auch entfernbare Medien umfassen, wie z. B.
magnetische, optische oder magnetoptische Speichersysteme oder irgendeine
andere verfügbare
Massenspeichertechnologie. Der Bus 518 kann beispielsweise 32
Adressleitungen für
die Adressierung des Videospeichers 514 oder des Hauptspeichers 515 aufweisen.
Der Systembus 518 umfasst beispielsweise auch einen 32-Bit-Datenbus
zum Übertragen
von Daten zwischen den Komponenten, wie zum Beispiel dem Prozessor 513,
dem Hauptspeicher 515, dem Videospeicher 514 und
dem Massenspeicher 512. Alternativ können Multiplexdaten-/Adressleitungen anstelle
separater Daten und Adressleitungen verwendet werden.
-
In
einer Ausführungsform
der Erfindung ist der Prozessor 513 ein von Motorola hergestellter
Mikroprozessor, wie zum Beispiel der 680X0-Prozessor oder ein Mikroprozessor,
welcher von Intel hergestellt wird, wie zum Beispiel der 80X86-
oder der Pentiumprozessor oder ein SPARCTM-Mikroprozessor
von Sun MicrosystemsTM, Inc. Es kann jedoch
auch irgendein anderer geeigneter Mikroprozessor oder Mikrocomputer
verwendet werden. Der Hauptspeicher 515 besteht aus einem
dynamischen Speicher mit wahlfreiem Zugriff (DRAM). Der Videospeicher 514 ist
ein Videospeicher mit wahlfreiem Zugriff mit zwei Anschlüssen. Ein
Anschluss des Videospeichers 514 ist mit dem Videoverstärker 516 verbunden.
Der Videoverstärker 516 wird
verwendet, um die Kathodenstrahlröhre (CRT) des Rastermonitors 517 anzusteuern.
Der Videoverstärker 516 ist
im Stand der Technik wohlbekannt und kann durch irgendeine andere
geeignete Vorrichtung implementiert werden. Diese Schaltung wandelt
Pixeldaten, die in dem Videospeicher 514 gespeichert sind,
um, welche beispielsweise Pixeldaten enthalten können, die eine oder mehrere
Ausführungsformen
der Schieber und Datenfelder der Erfindung umfassen, und zwar in
ein Rastersignal, das für
die Verwendung durch den Monitor 517 geeignet ist. Der
Monitor 517 ist ein Monitortyp, der für die Anzeige grafischer Bilder
geeignet ist.
-
Der
Computer 500 kann auch eine Kommunikationsschnittstelle 520 aufweisen,
die mit dem Bus 518 verbunden ist. Die Kommunikationsschnittstelle 520 stellt
eine Zwei-Wege-Datenkommunikationsverbindung über eine
Netzwerkverbindung 521 mit einem lokalen Netzwert 522 her.
Wenn beispielsweise die Kommunikationsschnittstelle 520 eine
ISDN (integrated services digital network)-Karte oder ein Modem
ist, so stellt die Kommunikationsschnittstelle 520 eine
Datenkommunikationsverbindung mit dem entsprechenden Typ der Telefonleitung
bereit, die einen Teil der Netzwerkverbindung 521 aufweist.
Wenn die Kommunikationsschnittstelle 520 die Karte für ein Nahbereichsnetz
(local area network – LAN)
ist, so stellt die Kommunikationsschnittstelle 520 eine
Datenkommunikationsverbindung über
die Netzwerkverbindung 521 mit einem kompatiblen LAN bereit. Drahtlose
Verbindungen sind ebenfalls möglich.
In jeglicher derartiger Implementierung sendet die Kommunikationsschnittstelle 520 elektrische,
elektromagnetische oder optische Signale und empfängt diese, welche
digitale Datenströme
tragen, welche verschiedene Typen von Informationen repräsentieren.
-
Die
Netzwerkverbindung 521 stellt typischerweise eine Datenkommunikation über ein
oder mehrere Netzwerke für
andere Dateneinrichtungen bereit. Beispielsweise kann die Netzwerkverbindung 521 eine
Verbindung über
ein lokales Netzwerk 522 mit einem lokalen Servercomputer 523 oder
einer Datenausrüstung
bereitstellen, die durch einen Internetdienstleister (internet service
provider – ISP) 524 betrieben
wird. Der ISP 524 stellt seinerseits Datenkommunikationsdienste über das
weltweite Paketdatenkommunikationsnetzwerk bereit, welches nun üblicherweise
als das „Internet" 525 bezeichnet
wird. Das lokale Netzwerk 522 und das Internet 525 verwenden
beide elektrische, elektromagnetische oder optische Signale, welche
digitale Datenströme
tragen. Die Signale durch die verschiedenen Netzwerke und die Signale
auf der Netzwerkverbindung 521 und durch die Kommunikationsschnittstelle 520,
welche die digitalen Daten zu und von dem Computer tragen, sind
beispielhafte Formen von Trägerwellen,
welche die Information transportieren.
-
Der
Computer kann Nachrichten senden und Daten empfangen, einschließlich von
Programmcode, und zwar durch das (die) Netzwerk(e), die Netzwerkverbindung 521 und
die Kommunikationsschnittstelle 520. In dem Beispiel des
Internets könnte
ein entfernter Servercomputer 526 einen angeforderten Code
für ein
Anwendungsprogramm durch das Internet 525, den ISP 524,
das lokale Netzwerk 522 und die Kommunikationsschnittstelle 520 übermitteln.
Gemäß der Erfindung
ist eine solche heruntergeladene Anwendung eine Anwendung, welche das
hierin beschriebene Verfahren des Auswählens von Daten implementiert.
-
Der
empfangene Code kann durch einen Prozessor 513 so ausgeführt werden,
wie er empfangen wird, und/oder kann in dem Massenspeicher 512 oder
einem anderen nichtflüchtigen
Speicher für
eine spätere
Ausführung
gespeichert werden. Auf diese Weise kann der Computer 500 einen
Anwendungscode in Form einer Trägerwelle
erhalten.
-
Der
Anwendungscode kann in irgendeiner anderen Form eines Computerprogrammproduktes verkörpert sein.
Ein Computerprogrammprodukt weist ein Medium auf, welches so ausgestaltet
ist, dass es computerlesbaren Code speichert oder transportiert
oder in welchem ein computerlesbarer Code eingebettet sein kann.
Einige Beispiele von Computerprogrammprodukten sind CD-Rom-Platten, ROM-Karten,
Disketten, Magnetbänder,
Festplattenlaufwerke von Computern, Server auf einem Netzwerk und
Trägerwellen.
-
Die
oben beschriebenen Computersysteme dienen hier nur als Beispiel.
Eine Ausführungsform der
Erfindung kann in irgendeiner Art von Computersystem oder Programmier-
oder Verarbeitungsumgebung implementiert werden, einschließlich Geräten und
elektronischen Einrichtungen, welche eingebettete Prozessoren und
Steuerungen und LCD-Anzeigen verwenden.
-
Demnach
sind hier ein Verfahren und eine Vorrichtung für die Erfassung von Bewegung
in einem Video präsentiert
worden. Auch wenn die vorliegende Erfindung unter Bezug auf gewisse
beispielhafte Ausführungsformen
beschrieben wurde, ist es für
Fachleute offensichtlich, dass die vorliegende Erfindung nicht auf
diese speziellen Ausführungsformen
beschränkt
ist. Weiterhin können,
auch wenn der Betrieb für
gewisse Ausführungsformen
im Detail unter Verwendung gewisser detaillierter Prozessschritte
beschrieben worden ist, einige der Schritte fortgelassen werden
oder es können
andere ähnliche Schritte
austauschweise verwendet werden, ohne vom Schutzumfang der Erfindung
abzuweichen.
-
Andere
Ausführungsformen,
welche die erfinderischen Merkmale der vorliegenden Erfindung verkörpern, liegen
für Fachleute
auf der Hand. Die Erfindung wird durch die Ansprüche definiert.