DE69935144T2

DE69935144T2 - Verfahren und vorrichtung zur videobewegungsdetektion

Info

Publication number: DE69935144T2
Application number: DE69935144T
Authority: DE
Inventors: G. James Redwood City HANKO; Duane J. Menlo Park NORTHCUTT; A. Gerard San Jose WALL; Lawrence L. Mountain View BUTCHER
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1998-06-30
Filing date: 1999-06-30
Publication date: 2007-10-31
Anticipated expiration: 2019-07-01
Also published as: ATE354251T1; WO2000001140A1; EP1095506A1; EP1095506B1; AU5087299A; DE69935144D1; JP4422334B2; US6493041B1; JP2002519949A

Description

HINTERGRUND DER ERFINDUNG
1. GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Erfassen von Bewegung in einem Video.
2. STAND DER TECHNIK
Es gibt viele Situationen, in welchen ein Bewegungsdetektor verwendet wird, um ein Ereignis auszulösen, abhängig davon, ob Bewegung erfasst wird oder nicht erfasst wird. Einige Anwendungen umfassen das Einschalten von Beleuchtung, wenn irgendjemand einen Raum betritt oder das Abschalten von Beleuchtung, wenn es in einem Raum keine Bewegung gibt. Weitere Verwendungen umfassen Sicherheit, Autodiebstahlschutz, Alarmeinrichtungen, automatische Türen u. a. Die derzeitigen Bewegungserfassungssysteme haben eine Anzahl von Nachteilen, einschließlich ihrer Kosten, der Komplexität, einer schlechten Leistungsfähigkeit und andere.
Im Stand der Technik gibt es zwei Ansätze der Bewegungserfassung: „aktiv" und „passiv". Die aktive Technik emittiert irgendeine Form von Energie (beispielsweise Schall oder elektromagnetische Strahlung) und erfasst Bewegung auf der Basis von zurückgeworfenen Signalen. Diese Techniken erfordern tendenziell mehr Leistung, um sich gegenüber der Umgebung eine bessere Abgrenzung und um eine einfachere Erfassung zu erfassen und Schutz zu ermöglichen. Passive Techniken emittieren keine Signale, sondern beobachten passiv die überwachte Umgebung und reagieren auf eine beobachtete Bewegung. Videokameras werden in einigen Techniken der passiven Bewegungserfassung verwendet.
Es ist eine Anzahl von Techniken entwickelt worden, um innerhalb des Gesichtfeldes einer Videokamera Bewegung zu erfassen. Diese Techniken umfassen analoge und digitale Techniken. Analoge Techniken betrachten typischerweise das analoge Videosignal, welches durch eine Kamera erzeugt wird, und erfassen Bewegung durch Untersuchen von Veränderungen in dem Signal. Beispiele einfacher analoger Techniken nach dem Stand der Technik umfassen das Anordnen von Fotozellen auf einem Fernsehmonitor und das Erfassen von Veränderungen der Werte, indem eintaktige Zeitgeber verwendet werden, um feste Positionen in einem Videosignal abzutasten und unter Verwendung verschiedener Schaltkreise, um das Videosignal zu integrieren. Diese einfachen Techniken erzeugen Signale, die mit Basiswerten verglichen werden können, um Veränderungen in dem Videosignal zu erfassen, die vermutlich durch Bewegung verursacht wurden. Andere analoge Techniken nach dem Stand der Technik filtern oder integrieren das eingehende Videosignal und suchen nach starken Veränderungen in den Signaleigenschaften, um Bewegung zu erfassen.
Diese analogen Ansätze sind tendenziell preiswert, liefern jedoch schlechte Ergebnisse, weil sie veraltete und vereinfachte Versionen des Videosignales verwenden. Die Masse des Informationsgehaltes des Signales wird verworfen bzw. nicht genutzt. Beim Arbeiten mit einem Signal mit derart geringem Informationsgehalt ist das Beste, was man erzielen kann, eine Vermutung, dass eine Bewegung in der Szene aufgetreten ist, wenn das eingehende Signal sich in einer bestimmten Weise verändert.
All diese analogen Techniken nach dem Stand der Technik sind tendenziell ungenau hinsichtlich dessen, was sie messen. Dementsprechend haben sie inhärente Einschränkungen hinsichtlich ihrer Empfindlichkeit auf tatsächliche Bewegung. Sie unterliegen auch der Gefahr von Fehlauslösungen.
Digitale Techniken sind tendenziell besser hinsichtlich der Reduzierung sowohl von falsch positiven (Erfassen von Bewegung, wo keine ist) und falsch negativen Bewegungserfassungsmeldungen (keine Erfassung von Bewegung, wenn tatsächlich Bewegung vorliegt). Digitale Ansätze sind in der Lage, genau und wiederholbar einen numerischen Wert einem physikalischen Bereich des Gesichtsfeldes der Videokamera zuzuordnen. Diese Fähigkeit, das von einem Raumbereich herkommende Licht exakt quantitativ zu erfassen, macht es möglich, genauer als es mit herkömmlichen analogen Techniken geschehen kann, Bewegung festzustellen, wenn Bewegung in der Szene auftritt.
Stand der Technik bezüglich digitaler Techniken
Digitale Bewegungserfassungstechniken werden für zwei allgemeine Typen von Anwendungen verwendet – Feststellen von Bewegung zwischen Videoeinzelbildern, so dass eine Signalverarbeitung angewendet werden kann, um mit Videoübergangsaufgaben umzugehen, und Überwachungen auf Videobasis für Zwecke der physikalischen Sicherheit. Techniken, die für die Verarbeitung von Videozwischensignalen entwickelt wurden, sind hinsichtlich des Berechnungsaufwandes intensiver und daher teurer als Techniken, die für die Videosicherheitsüberwachung entwickelt wurden. Außerdem sind Verarbeitungstechniken für Videoübergänge nicht geeignet, kleine Beträge an Bewegung zu erfassen und arbeiten daher nicht sehr gut bei Anwendungen mit Sicherheitsvideos. Da diese beiden Anwendungsgebiete sehr unterschiedliche Anforderungen haben, sind die digitalen Verarbeitungstechniken, die für diese entwickelt wurden, von verschiedener Art. Beispielsweise ist im Falle einer Bewegungserfassung für den Zweck der Videoüberwachung eines Bereiches die Fähigkeit, eine Bewegung erfolgreich zu erfassen, eine Schlüsselaufgabe. Exakte Information, welche speziellen Objekte in dem Gesichtsfeld sich bewegt haben und um wie viel sie sich bewegt haben, ist von geringerer Bedeutung. Für die Verarbeitung von Videoübergängen bzw. Zwischenbildern ist es jedoch wichtig zu wissen, welches Objekt sich bewegt hat und um wie viel es sich bewegt hat. Ein Beispiel einer Videobewegungserfassungstechnik, die für die Verarbeitung von Videoübergängen ausgelegt ist, ist in dem US Patent Nr. 4,851,904 mit dem Erfinder Miyazaki et al. offenbart worden.
Bildverständnistechniken sind für die Verwendung in der Verarbeitung von Videoübergängen bzw. der Verknüpfung (aufeinander folgender) Videobilder entwickelt worden. Diese Bildverständnistechniken segmentieren ein Videobild automatisch in Pixelbereiche, die Objekten in dem Gesichtsfeld einer Kamera entsprechen. Die Bewegung dieser Objekte kann dann erfasst und verfolgt werden. Diese Techniken sind berechnungsintensiv und teuer. Sie können kaum in Realzeit durchgeführt werden. Dementsprechend können sie typischerweise nicht verwendet werden für Anwendungen bei der digitalen Videosicherung bzw. Sicherheit.
Ein Beispiel eines in der Berechnung intensiven Ansatzes zur Erfassung von Bewegung nach dem Stand der Technik umfasst das Herausnehmen von Pixelbereichen (typischerweise ein NxM-Rechteck) aus einem eingehenden Videostrom und Korrelieren desselben mit entsprechenden Pixelbereichen in einem Bezugsbild. Diesen Ansatz kann man sich als eine Näherung für den verallgemeinerten Bildverständnisansatz vorstellen, der oben beschrieben wurde. Das eingehende Bild wird in Rechtecke aufgeteilt. Diese Rechtecke werden mit entsprechenden Rechtecken eines Bezugsbildes bzw. Referenzbildes verglichen. Das auf diese Weise Aufteilen eines Bildes in Rechtecke und das Vergleichen der Rechtecke ist beträchtlich einfacher als der Versuch, individuelle Objekte auf einem eingehenden Bild zu identifizieren und den Versuch zu unternehmen, die Position dieser Objekte bezüglich der Position entsprechender Objekte in dem Referenzbild zu vergleichen. Diese Technik wird als Teil des Standards der MPEG-Videokompression verwendet und ist als „Bewegungskompensation" bekannt. Während dieser Ansatz bei der Erfassung von Bewegung effektiv sein kann und weniger kompliziert ist als irgendwelche anderen Bildverständnistechniken, ist sie dennoch zeitaufwändig und erfordert typischerweise die Verwendung großer und teurer maßgeschneiderter integrierter Schaltkreise. Zusätzlich reagiert sie tendenziell empfindlich auf die Qualität des eingehenden Bildes. Jegliches Rauschen in dem eingehenden Videosignal macht es sehr schwierig, entsprechende Bereiche in einem Referenzbild zu erfassen.
Andere Digitale Techniken für die Bewegungserfassung bei Anwendungen mit Sicherheitsvideos beruhen auf der Erfassung von Kanten in Videobildern – das heißt abrupten Übergängen in Farbe oder Helligkeit, die einen Bereich von einem anderen abgrenzen. Die Kantenerfassung vereinfacht die Verarbeitung von Bildern, indem sie nur die Erfassung und Speicherung von Übergängen erfordert, im Gegensatz zur Verarbeitung und Speicherung von Werten für große Zahlen von Pixeln. Die Kantenerfassung zieht Vorteil aus der Tatsache, dass es ein hohes Maß an Korrelation zwischen Pixeln in einem Videobild gibt (d. h. große Bereiche von Pixeln haben die Tendenz, ähnliche Werte gemeinsam zu haben).
Einrichtungen, welche Kantenerfassung verwenden, haben die Tendenz, sehr empfindlich auf Fehlauslöseereignisse zu sein, die durch eine Veränderung der Beleuchtung verursacht werden. Eine stationäre Szene scheint sich womöglich zu bewegen, wenn die Beleuchtung die Position von Schatten in einer Szene im Verlauf eines Tages verändert. Ein Beispiel eines Kantenerfassungssystems ist in dem US Patent Nr. 4,894,716 offenbart, welches für Aschwanden et al. erteilt wurde. Das von Aschwanden offenbarte System sucht nach Veränderungen in der Position von Kanten zwischen den einzelnen Bildern. Dieses System erfordert ein gewisses Maß an vertikaler Kohärenz, um ein Auslösen zu bewirken – das heißt, es muss ein gegebener Betrag an Phasenverschiebung einer Kante über mehrere Zeilen hinweg vorliegen, damit Bewegung erfasst werden kann. Die Bezugsdaten, die gespeichert sind, weisen einen Satz von Zählungen auf, die anzeigen, wo die Kanten in den vertikalen Abtastlinien des vorherigen Einzelbildes vorliegen.
Kanten werden durch Tiefpassfilterung einer Abtastzeile des eingehenden Videos eine Grenzwertbildung für das Signal und dann Verwenden des gefilterten und mit Schwellenwert versehenen Signals erfasst. um ein einzelnes Ereignis auszulösen. Dieses einzelne Ereignis bzw. eine Signal wird seinerseits verwendet, um einen Zähler zu sperren bzw. anzusteuern, dessen Endwert die Position einer Kante in der Abtastlinie ist.
Weil diese Kantenerfassungstechnik ein einfaches Verfahren zur Bewegungsanalyse bereitstellt, ist sie bezüglich des Bereichs des Videosignals, über welchen sie funktioniert, beschränkt und sie verwendet nur das vorangehende Einzelbild als Bezugsbild. Im Ergebnis werden sich ausreichend langsam bewegende Objekte nicht erfasst. Außerdem arbeitet dieser Ansatz in einer Umgebung, die an sich nicht gut für Kantenerfassung geeignet ist, nicht sehr gut, beispielsweise, wenn unzureichender Kontrast vorliegt, um Kanten zu finden oder wenn ausreichend große Beträge an hochfrequenten Komponenten in der Szene sind, welche zu viele Kanten erzeugen.
Ein weiteres Schema der Bewegungserfassung, welches Kantenerfassung verwendet, wird in dem US Patent 5,272,527 beschrieben, welches für Watanabe erteilt wurde. In dem von Watanabe beschriebenen System wird eine klassische Signalverarbeitungstechnik angewendet, um Kanten aus einem Eingangsbild zu extrahieren, es werden Rauschverminderungstechniken angewendet und ein Mechanismus der Durchschnittsbildung wird verwendet, um die eingehenden Daten entlang eines binären Grenzwertes zu trennen. Die vorangehenden zwei binären Bilder werden aufbewahrt und es wird eine Serie von logischen Operationen mit diesen Bildern durchgeführt, um eine Referenz zu erzeugen, gegenüber welcher das eingehende binäre Bild verglichen wird. Im Ergebnis werden die zwei vorangehenden Einzelbilder verwendet, um eine Referenzmaske zu erzeugen (indem ihre Vereinigung invertiert wird), und dann wird eine Populationszählung binärer Einsen auf die maskierte Version des eingehenden Bildes angewendet. Das Ergebnis ist eine Abschätzung des Unterschiedes zwischen dem eingehenden Bild und den zwei vorangehenden Bildern. Der Einsatz von Watanabe ist extrem komplex und kostenträchtig und von zweifelhafter Effizienz.
Der weitaus größte Teil von Bewegungserfassungstechniken auf Videos arbeitet mit dem Prinzip des Vergleichs eines eingehenden Videosignals mit einem gespeicherten Bezugssignal. Einige Einrichtungen sind darauf beschränkt, nur das vorangehende Einzelbild als Referenz zu verwenden. Während die Verwendung nur des vorangehenden Bildes als Referenz den Vorteil hat, daß es wenig Speicher erfordert, wenig empfindlich auf Fehlauslösen von Ereignissen aufgrund von langsamen Beleuchtungswechseln ist und sich für eine einfachere Implementierung anbietet, so hat es auch den Nachteil, dass es nicht in der Lage ist, Ereignisse mit einer langsamen Veränderungsgeschwindigkeit zu erfassen.
Im digitalen Bereich besteht ein übliches Verfahren zum Erfassen von Bewegung darin, den Wert jedes Pixels eines eingehenden Bildes von dem entsprechenden Pixel in dem Bezugseinzelbild abzuziehen, die sich ergebende Differenz aufzusammeln bzw. zu integrieren, um eine Bewegungsanzeige zu erzeugen, wenn das gesammelte bzw. integrierte Differenzsignal irgendeinen vorbestimmten Betrag überschreitet. Ein Problem dieses Ansatzes besteht darin, dass Veränderungen auf dem gesamten Bildfeld einander auslöschen können und damit ein falsches Auslösen hervorrufen. Beispielsweise könnte ein gegebenes Pixel um einen Betrag N heller sein als sein entsprechendes Referenzpixel, während ein weiteres Pixel um –N dunkler sein könnte als sein Referenzpixel. Unter solchen Umständen löschen die Veränderungen sich aus und eine beträchtliche Bewegung wird möglicherweise nicht erfasst.
Zusätzlich liefert die einfache Differenzbildung von Werten einander entsprechender Pixel keine effiziente Bewegungserfassung. Weiterhin haben die Ausgänge von Videokameras typischerweise ein dem Videosignal überlagertes Rauschen. Im Ergebnis kann sich der für ein Pixel in einer sich nicht verändernden Szene erfasste Wert von Einzelbild zu Einzelbild einfach aufgrund von Rauschen um plus oder minus einen gewissen Betrag verändern. Die meisten existierenden Bewegungserfassungsverfahren kompensieren dieses Rauschen nicht. Konsequenterweise trägt das Rauschen eines Videosignals zu falsch positiven Reaktionen bei, was erfordert, dass die Bewegungsdetektoren bis zu einem Punkt unempfindlich gemacht werden, bei dem zusätzliche falsch negative Ergebnisse erzeugt worden.
Ein Beispiels eines Bewegungserfassungssystems, welches unter einigen dieser Probleme leidet, wird in dem US Patent Nr. 5,455,561 von Braun offenbart. In dem von Braun offenbarten System wird ein hybrider analog/digitaler Ansatz verwendet, bei welchem das eingehende Einzelbild einer invertierten Version eines gespeicherten Bezugseinzelbildes hinzuaddiert wird. Der sich ergebende Differenzwert wird mit einem Schwellenwert versehen und die Bewegungsanzeige wird erzeugt, wenn der Schwellenwert für eine gegebene Anzahl von Taktzyklen einen gegebenen Wert überschreitet. Das System von Braun verwendet periodisch neue Bezugseinzelbilder zu vorbestimmten Zeitschritten bzw. Zeitintervallen, unabhängig von dem aktuellen Niveau an Aktivität, welches durch die Kamera beobachtet wird. In dem System von Braun ist der Schwellenwert, der verwendet wird, eine Konstante (d. h. er variiert nicht entsprechend den Eingangswerten), und die Anzahl unterschiedlicher Pixel, welche betrachtet werden, um eine signifikante Bewegung zu konstatieren, ist ebenfalls konstant.
Ein weiterer Ansatz der Bewegungserfassung umfasst die digitale Dezimierung (durch Teilabtastung und Tiefpassfilterung) von Videobildern, um einen reduzierten Datensatz zu erhalten. Dieser reduzierte Datensatz wird mit einem in ähnlicher Weise reduzierten Bezugsbild verglichen. Da die Dezimierung eine Tiefpassfilterung der Originaldaten umfasst, enthalten Pixel des resultierenden reduzierten Bildes Beiträge von anderen Pixeln in dem Originalbild, die während der Teilabtastung nicht ausgewählt wurden. Die Dezimierung kann die Anzahl von Pixeln reduzieren, die verglichen werden müssen, während sie dennoch ermöglicht, dass Bewegung innerhalb des Gesichtsfeldes erfasst wird. Ein Beispiel eines Dezimierungsansatzes wird in der US-Patentanmeldung mit der Seriennummer 08/655,562 beschrieben, die am 30. Mai 1996 eingereicht wurde und dem Inhaber der vorliegenden Erfindung überschrieben wurde.
Einige existierende Bewegungserfassungseinrichtungen ermöglichen es, dass ein interessierender Bereich innerhalb des Gesichtsfeldes der Kamera spezifiziert wird. Beispielsweise kann eine Grenze um einen aktiven Bildbereich der Videokamera als von dem Bewegungserfassungsmechanismus ausgeschlossen definiert werden. In ähnlicher Weise können ganze Bereiche innerhalb des Gesichtsfeldes der Kamera durch Masken ausgeblendet werden, so dass eine Bewegung innerhalb (oder alternativ außerhalb) dieser Bereiche ignoriert wird. Das Verhalten dieser Maskierungsschemata ist bisher im strengen Sinne binär gewesen – das heißt ein Pixel war entweder in die Bewegungsberechnung einbezogen oder nicht.
Das US Patent Nr. 5,339,104, welches für Hong erteilt wurde, beschreibt ein System, das einen Fenstermechanismus verwendet, um den interessierenden Bereich auf ein Rechteck innerhalb des vollen Videoeinzelbildes zu beschränken. Das System von Hong digitalisiert und speichert ein Bezugseinzelbild und vergleicht es mit dem eingehenden Video. Durch ein Tabellennachschlagen in einem EPROM wird ein pixelweiser Vergleich durchgeführt. Die (aus sechs Bit bestehenden) Pixeleingangswerte und die Referenzpixelwerte werden verkettet und dem EPROM als eine Adresse präsentiert. Der sich ergebende Ausgangswert des EPROM ist der Differenzwert. Der Differenzwert wird mit Basis- und Grenzwerten verglichen, die durch den steuernden Mikroprozessor bereitgestellt werden, und ein binärer Ausgangswert wird erzeugt, um anzuzeigen, ob der Unterschied innerhalb des gegebenen Bereiches von Werten liegt. Eine Zählung der Anzahl von Unterschieden, die in den gegebenen Bereich fallen, wird aufbewahrt und eine Bewegungsanzeige wird erzeugt, wenn diese Zählung bzw. Zahl einen gegebenen Wert überschreitet.
Die US 5731832 offenbart ein Verfahren und ein System zum Erfassen von Bewegung in einem Videosystem durch Identifizieren von Unterschieden zwischen einem aktuellen Einzelbild und einem Bezugseinzelbild. Ein unterschiedliches Profil wird berechnet, welches die Differenzen zwischen dem aktuellen Einzelbild und dem Bezugseinzelbild wiedergibt. Die Differenzdaten können in mehrere Blöcke aufgeteilt werden. Ein Bewegungserfassungssignal wird durch das System erzeugt, wenn das Differenzprofil einen Grenzwert überschreitet.
Die GB 2031686 offenbart ein Bewegungserfassungssystem für die Verwendung in einem Rauschunterdrückungssystem zur Erfassung von Bewegung zwischen einer Mehrzahl von Bildpunkten aus einem Auswahlbereich eines Bildes. Eine Steuerungsanordnung stellt fest, dass eine Bewegung aufgetreten ist, wenn zumindest einige aus der Mehrzahl von Bildpunkten sich bewegt haben, wie es durch den Detektor erfasst wird.
Die US 5745190 offenbar eine Vorrichtung und ein Verfahren zum Erfassen des Umschaltens einer Szene in einem Bewegungsbild bzw. Film. Der Detektor erhält Differenzwerte zwischen den vorherigen Pixelausgangswerten und den aktuellen Ausgangswerten, und stellt fest bzw. bewertet, ob die Anzahl von Pixeln, die einen Schwellenwert überschreiten, ausreichend groß ist, so dass ein Szeneumschalten bzw. Schnitt erfasst worden ist.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung weist ein Verfahren, eine Vorrichtung und ein Computerprogrammprodukt zum Erfassen von Bewegung in einem Video auf, in welchem Einzelbilder aus einem eingehenden Videostrom digitalisiert werden, und zwar gemäß den Ansprüchen 1, 10 bzw. 11. Die Pixel jedes eingehenden, digitalisierten Einzelbildes werden mit den entsprechenden Pixeln eines Bezugseinzelbildes verglichen und Unterschiede zwischen eingehenden Pixeln und Bezugspixeln bzw. Referenzpixeln werden festgestellt. Eine oder mehrere Ausführungsformen der Erfindung verwenden sowohl einen Schwellenwert bzw. Grenzwert der Pixeldifferenz (der das Ausmaß (in absoluten Werten) definiert, um welches ein Pixel sich von seinem entsprechenden Referenzpixel unterscheiden muss, um als unterschiedlich betrachtet zu werden) und einen Grenzwert der Einzelbilddifferenz (welcher die Anzahl der Pixel definiert, die für die Anzeige einer Bewegungserfassung unterschiedlich sein müssen). Wenn der Pixelunterschied für ein Pixel den anwendbaren Grenzwert der Pixeldifferenz überschreitet, wird das Pixel als „unterschiedlich" angesehen. Wenn die Anzahl „unterschiedlicher" Pixel für ein Einzelbild den gültigen Grenzwert für die Einzelbilddifferenz überschreitet, so wird dies als Auftreten einer Bewegung betrachtet und es wird ein Bewegungserfassungssignal ausgegeben. Ein einfacher Grenzwert- bzw. Schwellenwertmechanismus kann verwendet werden. Beispielsweise wird in einer Ausführungsform erklärt, dass eine Bewegung aufgetreten ist, wenn mehr als N der M Pixel in dem eingehenden Einzelbild sich von dem Bezugsbild unterscheiden. In einer oder mehreren anderen Ausführungsformen wird der anwendbare Grenzwert der Einzelbilddifferenz in Abhängigkeit davon eingestellt, welche aktuelle durchschnittliche Bewegung in den letzten Bildern aufgetreten ist, wodurch eine Bewegung der „Umgebung" berücksichtigt wird und Effekte einer Phasenverzögerung minimal gemacht werden.
In einer oder mehreren Ausführungsformen können verschiedenen Pixeln oder Gruppen von Pixeln unterschiedliche Grenzwerte der Pixeldifferenz zugeordnet werden, was es möglich macht, gewisse Bereiche des Gesichtsfeldes einer Kamera mehr oder weniger empfindlich auf Bewegung zu machen. In einer oder mehreren Ausführungsformen der Erfindung wird ein neues Bezugseinzelbild ausgewählt, wenn das erste Einzelbild, welches keine Bewegung zeigt, nach einem oder mehreren Einzelbildern auftritt, welche Bewegung zeigten.
Die vorliegende Erfindung stellt ein effizientes und zuverlässiges System der Bewegungserfassung bereit.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein schematisches Diagramm einer Ausführungsform der Erfindung.
2 ist ein schematisches Diagramm einer Ausführungsform der Erfindung.
3 ist eine Veranschaulichung von Phasenverzögerung.
4 ist ein Flussdiagramm, das einen Prozess zeigt, der in einer Ausführungsform der Erfindung verwendet wird.
5 ist ein schematisches Diagramm eines Computersystems, welches für die Implementierung der Erfindung verwendet werden kann.
GENAUE BESCHREIBUNG DER ERFINDUNG
Ein Verfahren und eine Vorrichtung zum Erfassen von Bewegung in einem Video werden hier beschrieben. In der folgenden Beschreibung werden zahlreiche spezielle Einzelheiten dargestellt, um eine gründliche Beschreibung der Erfindung bereitzustellen. Es ist jedoch für Fachleute auf diesem Gebiet offensichtlich, dass die Erfindung ohne diese spezifischen Details ausgeführt werden kann. In anderer Hinsicht bzw. in anderen Fällen sind wohlbekannte Merkmale und Eigenschaften nicht im Einzelnen beschrieben worden, um die Erfindung nicht zu verschleiern.
Die vorliegende Erfindung stellt ein effektives Mittel der zuverlässigen Erfassung tatsächlicher Bewegung in einem Videosignal mit einem einfachen und preiswerten Schaltkreis bereit. Eine Ausführungsform der Erfindung arbeitet mit Digitalisierung und Decodierung des Signals einer Videokamera. Durch Verwendung einer digitalen Technik wird jede Pixelposition in einem Bild genau und wiederholbar gemessen und es wird jedem Pixel ein „Wert" zugewiesen. Beispielsweise werden für ein YUV-Farbschema jedem Pixel zwei Farbkomponentenwerte und ein Lumineszenz-(„Luma")-Wert zugewiesen. Für andere Farbschemata können andere Werte verwendet werden. Der Begriff „Wert" wie er hier in Bezug auf ein Pixel verwendet wird, bezieht sich auf irgendeinen oder auch auf mehrere der Werte, die dem Pixel während des Digitalisierungsvorgangs zugewiesen werden oder die von den zugewiesenen Werten abgeleitet werden.
Während jedes Pixel digitalisiert wird, wird es mit einem entsprechenden Pixel in einem Referenzeinzelbild verglichen. Es wird eine Feststellung getroffen, wie unterschiedlich diese beiden Pixel sind. Im Idealfall sollte, wenn eine Szene sich nicht verändert, der Wert eines Pixels an derselben Stelle innerhalb eines Videoeinzelbildes in aufeinander folgenden Einzelbildern denselben Wert haben. In der Praxis unterliegen die Sensoren in Videokameras jedoch einem Rauschen, so dass selbst dann, wenn eine Szene sich nicht verändert, der Wert eines Pixels an irgendeiner gegebenen Position in dem Videoeinzelbild sich von Einzelbild zu Einzelbild etwas verändert.
Die Erfindung zieht Vorteil aus der Beobachtung, dass das Ausmaß der Variation in dem Pixelwert, welcher aufgrund von Rauschen von Einzelbild zu Einzelbild auftritt, tendenziell relativ gut definiert und konsistent ist (zumindest für eine gegebene Videokamera) und verwendet einen Schwellenwertmechanismus, um die Effekte des Rauschens zu beseitigen. In einer Ausführungsform wird diese Schwellenwertbildung bewerkstelligt, indem man den absoluten Wert der Differenz zwischen einem eingehenden Pixel und seinem Bezugspixel hernimmt und diesen absoluten Wert mit einem gegebenen Grenzwert bzw. Schwellenwert vergleicht. Wenn der absolute Wert der Differenz geringer ist als der Grenzwert, wird die Varianz der Pixelwerte dem Rauschen zugeordnet und das eingehende Pixel wird gegenüber dem Referenzpixel im Ergebnis als unverändert betrachtet.
Indem der Absolutwert der Pixeldifferenz verwendet wird, berücksichtigt die Erfindung nicht die Art und Weise, in welcher sich ein eingehendes Pixel von seinem Referenzpixel unterscheidet (wenn beispielsweise das eingehende Pixel heller oder dunkler ist als das Referenzpixel). Stattdessen konzentriert sich sie auf die Größe der Differenz und nicht auf die Richtung (das Vorzeichen) der Differenzen.
Eine Ausführungsform stellt fest, ob in einem Einzelbild eine Bewegung vorliegt, in dem sie die Anzahl von Pixeln zählt, die beträchtliche Unterschiede zwischen dem eingehenden Einzelbild und dem Referenzeinzelbild haben. Für jedes eingehende Videoeinzelbild wird eine Anzahl von Pixeln, die als signifikant unterschiedlich gegenüber ihren Referenzpixeln angesehen wird, aufbewahrt bzw. gespeichert. Diese Differenzanzahl von Pixeln pro Einzelbild wird verwendet, um zu bestimmen, ob zwischen dem eingehenden Einzelbild und dem Referenzeinzelbild eine Bewegung aufgetreten ist.
Im Gegensatz zum Stand der Technik hat die vorliegende Erfindung die Fähigkeit, das aktuelle Niveau der Umgebungsbewegung zu erfassen und den Bewegungsdetektor proportional zu dem Betrag an Bewegung zu desensibilisieren, der aktuell beobachtet wird. Dies geschieht in einer Weise, die es erlaubt, dass die durchschnittliche Bewegung über ein zuletzt verstrichenes Zeitintervall berechnet wird, ohne dass man eine längere Historie der letzten Einzelbilder aufgesammelten Pixeldifferenz an Zahlen aufbewahren muss, und über diese Werte hinweg einen gleitenden Fensterdurchschnitt bilden muss. Eine Technik, die als nachlaufende exponentielle Durchschnittsbildung (trailing exponential averaging) bekannt ist, wird verwendet, um die durchschnittliche Anzahl von Pixeln zu erzeugen, die sich von Einzelbild zu Einzelbild verändern. Die Anzahl unterschiedlicher Pixel des aktuellen Einzelbildes wird zu der durchschnittlichen Anzahl unterschiedlicher Pixel addiert und die sich ergebende Summe wird durch zwei dividiert (was in einfacher Weise bewerkstelligt werden kann, indem beispielsweise in einem Schieberegister fester Länge der binäre Wert der Summe um eine Stelle nach rechts geschoben wird). Das Ergebnis ist ein Durchschnitt, in welchem vorherige Werte von Einzelbildern nacheinander immer weniger zu dem aktuellen Durchschnitt beitragen. Diese Technik bietet eine gute Näherung für einen gleitenden Fensterdurchschnitt mit wesentlich geringeren Kosten und einer einfacheren Implementierung.
Durchschnittsberechnungen sind effektiv Tiefpassfilter, die die Tendenz haben, an einem als Phasenverzögerung bekannten Problem zu leiden: der berechnete Durchschnittswert hinkt hinter dem aktuellen Wert hinterher. Ein möglicher Effekt dieser Phasenverzögerung ist ein „Schatten" in der Reaktionszeit (dargestellt in 3), der auftreten kann, wenn es einen plötzlichen Abfall der aktuellen Aktivität gibt. Unter diesen Umständen bleibt der berechnete Durchschnittswert der Zahl unterschiedlicher Pixel für eine gewisse Zeitdauer wesentlich höher als die aktuelle Anzahl unterschiedlicher Pixel, was das System zu unempfindlich gegenüber Änderungen in der Bewegung macht, die eine Anzahl unterschiedlicher Pixel unter dem berechneten Durchschnitt erzeugen. Diese Phasenverzögerung könnte dazu führen, dass der Bewegungssensor eine beträchtliche Bewegung im Anschluss an eine andauernde Periode stärkerer Bewegung nicht mehr erfasst.
Die vorliegende Erfindung befasst sich mit diesem potentiellen Problem, indem sie in asymmetrischer Weise auf Veränderungen in dem Betrag der Bewegung reagiert, welcher beobachtet wird. In einer Ausführungsform wird, wenn die durchschnittliche Differenzanzahl für ein Einzelbild beträchtlich kleiner ist als der aktuelle Durchschnitt, der aktuelle Wert bei der Berechnung des Durchschnittes stärker gewichtet. Dies hat den Effekt, dass der Durchschnittswert schneller auf den tatsächlichen Wert herabgesetzt wird, wodurch der Empfindlichkeits-„Schatten" reduziert wird. Die Erfindung ist demnach in der Lage, sich an eine Vielfalt unterschiedlicher Bedingungen und Umstände dynamisch anzupassen.
In einem Erfassungssystem für Videobewegung ist es wichtig, dass Veränderungen in der Beleuchtung nicht mit Bewegung verwechselt werden. Die Fähigkeit des Systems, eine beträchtliche Bewegung gegenüber anderen Artefakten zu unterscheiden, hängt in hohem Maße von der Strategie ab, die verwendet wird, um Bezugseinzelbilder auszuwählen. Ein üblicher Ansatz besteht darin, immer das zuvor empfangene Einzelbild als das Bezugsbild zu verwenden. Dies hat jedoch den Effekt, dass man die Einrichtung unfähig macht, sich sehr langsam bewegende Objekte zu erfassen.
In einer oder mehreren Ausführungsformen der Erfindung wird anstelle der Verwendung des vorherigen Einzelbildes als Referenzbild ein neues Referenzbild periodisch ausgewählt auf der Basis von spezifizierten Auswahlkriterien für das Referenzbild. Auf diese Weise addieren sich die Bewegungseffekte sich langsam bewegender Objekte, wenn die eingehenden Pixel allmählich von ihren Referenzpixeln abweichen, was schließlich bewirkt, dass ein Bewegungsereignis ausgelöst bzw. erfasst wird. In einer Ausführungsform ist das Bezugseinzelbild, welches ausgewählt wird, das letzte Einzelbild des Videos, das die letzte Bewegung gezeigt hat, welche erfasst wurde. Andere Strategien für das Auswählen von Referenzbildern können ebenfalls verwendet werden.
Eine falsche Bewegungsinformation kann in ein Videosignal auch eingeführt werden durch Phasenwechsel von Chrominanzinformation in standardmäßigen Videocodierformaten. Dieser Phasenwechsel ist nützlich im analogen Bereich, fügt jedoch von Einzelbild zu Einzelbild eine künstliche Verschiebung in dem Wert einer gegebenen Pixelposition ein. Eine oder mehrere Ausführungsformen der Erfindung berücksichtigen die Effekte des Phasenwechsels um sicherzustellen, dass er nicht den falschen Anschein einer Bewegung erzeugt. In diesen Ausführungsformen werden Vergleiche nur gegenüber eingehenden Einzelbildern vorgenommen, die zur selben Phasengruppe wie das Referenzfeld gehören.
In einer oder mehreren Ausführungsformen der Erfindung können auf jede Pixelposition oder Gruppen von Pixelpositionen unterschiedliche Grenzwerte angewendet werden. Dies hat den Effekt, dass es möglich ist, jedes Pixel oder jede Gruppe von Pixeln mehr oder weniger empfindlich auf Variationen zu machen. In einer Ausführungsform wird eine Bildbearbeitungsschnittstelle verwendet, um die Bereiche zu spezifizieren, die auf Veränderungen in den Pixelwerten mehr oder weniger empfindlich sein sollten. Entsprechende Werte werden in ein Array aus Gewichtungen für Pixelgrenzwerte geladen. Diese Gewichtungen definieren den Grad der Veränderung, der erforderlich ist, bevor ein gegebenes Pixel als verändert angesehen wird. Durch die Verwendung von Pixelgewichtungen kann das Bewegungserfassungssystem so hergestellt werden, dass es gewissen Bereichen in dem Gesichtsfeld der Videokamera weniger Aufmerksamkeit und anderen Bereichen mehr Aufmerksamkeit widmet. Wenn es beispielsweise einen Bereich gibt, der ein sich kontinuierlich bewegendes Objekt (z. B. eine Uhr oder ein Ventilator) enthält, so kann die Empfindlichkeit in diesem Bereich abgeschwächt werden. In ähnlicher Weise können einige Bereiche (z. B. eine dauerhaft helle Tür oder ein Desktop) so definiert werden, dass sie auf Veränderungen überempfindlich sind.
In einer oder mehreren Ausführungsformen sendet das Bewegungserfassungssystem der Erfindung einen Binärwert aus, der anzeigt, dass die Bewegung erfasst worden ist. Diese Bewegungserfassungsausgabe kann verwendet werden, um einen Alarm ein- oder auszuschalten, einen Videorekorder ein- oder auszuschalten, eine elektronische Nachricht zu senden oder irgendeinen anderen Schalter, eine Einrichtung oder Betätiger ein- oder auszuschalten.
Die Erfindung kann mit Farb- oder monochromen Kameras verwendet werden. Mit einem Farbvideoeingang kann das Bewegungserfassungssystem der Erfindung mit einem oder mehreren der Werte arbeiten, welche dem Pixel zugeordnet sind, je nach dem verwendeten Farbschema. Beispielsweise kann das Bewegungserfassungssystem mit dem vollen Farbwert jedes Pixels arbeiten oder es kann nur mit dem Luminanzteil des Videosignals arbeiten. Indem man nur mit dem Luminanzwert jedes Videopixels arbeitet, können die Kosten und die Komplexität eines Systems, welches die Erfindung implementiert, im Vergleich zu einem System, welches eine vollständige Farbverarbeitung durchführt, reduziert werden. Das Verarbeiten nur der Luminanzinformation ist eine effektive Optimierung, da dies die Effektivität des Bewegungserfassungssystems nicht vermindert.
1 ist ein schematisches Diagramm einer Ausführungsform der Erfindung. Die in 1 dargestellten Komponenten können in Hardware, Software und/oder einer Kombination derselben implementiert sein.
In der Ausführungsform nach 1 stellt eine Videokamera 110 einen analogen Videostrom bereit, welcher digitalisiert und durch einen Digitalisierer/Decoder 130 decodiert wird. Zusätzlich zum Digitalisieren eingehender Videoeinzelbilder (Frames) erzeugt der Digitalisierer/Decoder 130 auch einen Satz von Synchronisationssignalen, die Zeiten anzeigen, zu welchen Pixel, Reihen von Pixeln (d. h. Videoabtastzeilen) und Felder von Pixeln (d. h. Videoeinzelbilder/Felder) für andere Komponenten des System verfügbar sind.
Die digitalisierten Videodaten (welche aus Pixeln des aktuellen eingehenden Videobildes bestehen) werden gleichzeitig an den Pixeldifferenzbildner 150 und den Einzelbildspeicher 140 übermittelt. Der Pixeldifterenzbildner 150 subtrahiert den Wert des aktuellen Pixels von dem des entsprechenden Pixels in dem aktuellen Bezugseinzelbild 144 und sendet den Absolutwert des Ergebnisses an die binäre Grenzwerteinheit 160. Die binäre Grenzwerteinheit 160 vergleicht den absoluten Wert der Differenz zwischen dem eingehenden Pixel und dem Referenzpixel mit einem Grenzwert und gibt einen binären Wert aus, welcher anzeigt, ob die Differenz signifikant ist oder nicht. Dieser binäre Wert wird an den Differenzzähler 165 übermittelt, der die Anzahl der jeweiligen Pixel für jedes Einzelbild zählt, die sich signifikant von den entsprechenden Pixeln in dem aktuellen Bezugseinzelbild unterscheiden.
Wenn das letzte Pixel eines eingehenden Videoeinzelbildes angekommen ist, erzeugt der Digitalisierer/Decoder 130 ein Synchronisationssignal, das den Zustand am Ende des Bildes (Einzelbildes bzw. Frames) anzeigt. Nach dem Entfernen des Signals für das Ende des Bildes analysiert der Bewegungsdetektor 180 das aktuelle Bild, um festzustellen, ob eine Bewegung aufgetreten ist. Der Bewegungsdetektor 180 sieht nach der Differenzanzahl (aus dem Differenzzähler 165) des eingehenden Bildes und dem aktuellen Bewegungsbasiswert (aus der adaptiven Berechnungseinheit 90 der Bewegungsbasis) und bestimmt, ob das letzte Bild (Frame) eine signifikante Bewegung (bezüglich des Referenzbildes) zeigt. Wenn der Wert der Differenzzahl um einen Betrag oberhalb des aktuellen Bewegungsbasiswertes liegt, der größer als ein gegebener Grenzwert ist, so wird durch den Bewegungsdetektor 180 ein Bewegungsanzeigesignal erzeugt. Das Bewegungsanzeigesignal wird erzeugt, bis für ein nachfolgendes Bild keine Bewegung mehr erfasst wird.
Im Anschluss an den Abschluss der Bewegungserfassungsfunktion eines Videoeinzelbildes wird der Differenzzähler 165 auf Null zurückgesetzt, die adaptive Kommunikationseinheit 190 für die Basisbewegung aktualisiert ihren Wert und ein neuer Referenzbildauswähler 170 zeigt an, ob das aktuelle Referenzbild 144 durch das nächste Referenzbild 142 ersetzt werden soll. In einer Ausführungsform wählt der Auswähler 170 für das neue Referenzbild ein neues Einzelbild aus, wann immer auf ein Bild, für welches eine Bewegung erfasst worden ist, ein Bild folgt, für welches keine Bewegung erfasst wird. Das Einzelbild, für welches keine Bewegung erfasst wurde, wird dann als das neue Bezugsbild ausgewählt.
Die adaptive Berechnungseinheit 190 für die Basisbewegung behält eine Aufzeichnung der Differenzanzahl für eine gewisse Zahl von Einzelbildern, welche dem aktuellen Bild vorangingen, und bestimmt ein effektives Maß des durchschnittlichen aktuellen Bewegungsbetrages in der Videosequenz. Der aktuelle durchschnittliche Betrag des Bewegungswertes versieht den Bewegungsdetektor 180 mit einem Maß dafür, wie viel Aktivität die aktuelle „Norm" darstellt. Denn die Kenntnis des aktuellen durchschnittlichen Betrages der Bewegung ermöglicht es der Erfindung, sich verändernde Langzeitbedingungen der Bewegung zu berücksichtigen – das heißt weniger empfindlich auf Bewegung zu werden, wenn für eine gewisse Zeitdauer sehr viel Bewegung vorhanden war und empfindlicher zu werden, wenn wenig Bewegung vorhanden war.
Pixel eines eingehenden Bildes werden in dem nächsten Bezugsbildabschnitt 142 des Bildspeichers 140 gespeichert. Die Erzeugung der geeigneten Pixeladresse, in welcher Pixel in dem Einzelbildspeicher 140 zu speichern sind, erfolgt durch eine Erzeugungslogik 120 für die Pixeladresse, welche Pixeladressen der Reihe nach mit dem Taktsignal eingehender Pixel vergibt, welches durch den Digitalisierer 130 erzeugt wird. Wenn der Auswähler 170 für ein neues Referenzbild anzeigt, dass das nächste und das aktuelle Referenzbild ausgetauscht werden sollten, so wird das aktuelle Bild, welches in dem nächsten Referenzbild 142 gespeichert wird, auf das aktuelle Referenzbild 140 übertragen. Wenn der Auswähler 170 für das neue Referenzbild nicht anzeigt, dass das nächste und das aktuelle Referenzbild ausgetauscht werden sollten, so wird das nächste Referenzbild 142 durch die Pixel des nächsten eingehenden Bildes überschrieben.
2 veranschaulicht eine Ausführungsform der Erfindung, welche die Fähigkeit umfasst, Wichtungen für bestimmte Pixel und/oder Gruppen von Pixeln zuzuweisen. In der Ausführungsform nach 1 vergleicht der Pixeldifterenzbildner 150 den Unterschied zwischen eingehenden und Referenzpixeln mit einem konstanten Grenzwert. In der Ausführungsform nach 2 kann jeder Pixelposition ein anderer Grenzwert zugewiesen werden. Jedes eingehende Pixel wird gegenüber seinem entsprechenden Referenzpixel nur dann als unterschiedlich angesehen, wenn der Unterschied zwischen dem Wert des eingehenden Pixels und dem Wert des Referenzpixels den betreffenden Grenzwert für dieses Pixel überschreitet. In der Ausführungsform nach 2 empfängt die binäre Grenzwerteinheit 160 demnach zwei Werte für jedes Pixel – den Absolutwert des Unterschiedes zwischen dem Wert des eingehenden Pixels und dem Wert seines entsprechenden Referenzpixels und den Grenzwert, der für dieses Pixel anwendbar ist, von der Pixelgewichtungseinheit 200. Die binäre Grenzwerteinheit 160 gibt eine Differenzanzeige an den Differenzzähler 165 nur dann aus, wenn die durch die Pixeldifferenzbildungseinheit 150 bereitgestellte Differenz den durch die Pixelwichtungseinheit 200 bereitgestellten Grenzwert übersteigt.
4 ist ein Blockdiagramm eines Prozesses, der in einer oder mehreren Ausführungsformen der Erfindung verwendet wird. Wie in 4 dargestellt, wird ein Videostrom bei Schritt 400 empfangen. Der Videostrom kann beispielsweise von einer Videokamera empfangen werden. In Schritt 405 wird das nächste Einzelbild des Videostroms digitalisiert. In Schritt 410 wird das nächste Pixel des digitalisierten Videoeinzelbildes für einen Pixeldifferenzbildner und für einen Einzelbildspeicher bereitgestellt. In Schritt 415 wird der Unterschied des Wertes des Pixels und des Wertes seines entsprechenden Pixels in dem Referenzbild festgestellt. Gleichzeitig wird in Schritt 420 das Pixel an einer geeigneten Stelle in einem Abschnitt für ein „nächstes Referenzbild" des Einzelbildspeichers gespeichert.
Nachdem die Pixeldifferenz in Schritt 415 bestimmt worden ist, wird in Schritt 425 festgestellt, ob die Pixeldifferenz signifikant ist. Die bezüglich der Ausführungsformen der 1 und 2 beschriebenen Methoden oder andere geeignete Methoden können verwendet werden, um festzustellen, ob die Pixeldifferenz signifikant ist. Wenn festgestellt wird, dass die Pixeldifferenz signifikant ist, wird ein Pixeldifferenzzähler, der die Anzahl signifikant unterschiedlicher Pixel des aktuellen Einzelbildes zählt, in Schritt 430 um 1 heraufgesetzt und der Prozess geht weiter zu Schritt 435. Wenn festgestellt wird, dass die Pixeldifferenz nicht signifikant ist, geht hier der Prozess direkt zu Schritt 435 weiter.
In Schritt 435 wird eine Feststellung getroffen, ob das aktuelle Pixel das letzte Pixel des aktuellen Einzelbildes ist. Eine solche Feststellung kann beispielsweise auf der Basis eines Signals für das Ende des Einzelbildes vorgenommen werden, welches durch den Digitalisierer/Decodierer 130 der Ausführungsformen nach den 1 und 2 erzeugt wird. Wenn festgestellt wird, dass das aktuelle Pixel nicht das letzte Pixel des aktuellen Einzelbildes ist, geht der Prozess zurück zu Schritt 410 und das nächste Pixel wird für den Pixeldifferenzbildner und den Einzelbildspeicher bereitgestellt. Wenn festgestellt wird, dass das aktuelle Pixel das letzte Pixel ist, so geht der Prozess zu Schritt 440 weiter.
In Schritt 440 wird die Differenzanzahl für das aktuelle Einzelbild, welches durch den Pixeldifferenzzähler erzeugt wurde, mit den Bewegungserfassungskriterien verglichen, welche durch das System verwendet werden, um festzustellen, ob eine Bewegung aufgetreten ist. Jegliche der zuvor beschriebenen Bewegungserfassungskriterien, ebenso wie auch andere Kriterien, können verwendet werden.
In Schritt 445 wird eine Feststellung getroffen, ob eine Bewegung gemäß den Bewegungserfassungskriterien erfasst wurde. Wenn eine Bewegung erfasst wurde, so wird in Schritt 450 ein Bewegungserfassungssignal ausgegeben und der Prozess geht weiter zu Schritt 455. Wenn keine Bewegung erfasst worden ist, geht der Prozess direkt weiter zu Schritt 455.
In Schritt 455 wird eine Feststellung getroffen, ob ein neues Referenzbild ausgewählt werden soll. Beispielsweise kann das zuvor bereits beschriebene Verfahren des Auswählens eines neuen Referenzbildes beim Auftreten des ersten Bildes, für welches keine Bewegung erfasst worden ist, nach einem Bild, für welches Bewegung erfasst worden ist, verwendet werden. Wenn festgestellt wird, dass ein neues Referenzbild ausgewählt werden soll, wird das aktuelle Bild in dem Abschnitt des neuen Referenzbildes des Bildspeichers als das neue Referenzbild ausgewählt und die Verarbeitung geht weiter zu Schritt 465. Wenn festgestellt wird, dass kein neues Referenzbild ausgewählt werden soll, geht der Prozess direkt zu Schritt 465.
In Schritt 465 wird der Basiswert der Bewegung auf Basis des Betrages der von dem aktuellen Bild gezeigten Bewegung erneut berechnet. In Schritt 470 wird der Pixeldifferenzzähler auf Null gesetzt und der Prozess kehrt zurück zu Schritt 405, wo das nächste Einzelbild des Videostroms digitalisiert wird.
Alle oder ein Teil eines oder mehrerer Ausführungsformen der Erfindung können als Computersoftware in Form von computerlesbarem Code implementiert werden, der auf einem Vielzweckcomputer, wie zum Beispiel einem Computer 500, ausgeführt werden kann, welcher in 5 dargestellt ist, oder in Form von Dateien einer Bytecodeklasse, die innerhalb einer Java^TM-Laufzeitumgebung, die auf einem solchen Computer läuft, ausführbar sind. Eine Tastatur 510 und eine Maus 511 sind mit einem bidirektionalen Systembus 518 verbunden. Die Tastatur und die Maus dienen dem Einbringen von Benutzereingaben in das Computersystem und für die Kommunikation dieser Benutzereingabe an den Prozessor 513. Andere geeignete Eingabeeinrichtungen können zusätzlich zu oder anstelle von der Maus 511 und der Tastatur 510 verwendet werden. Die I/O (Eingabe/Ausgabe)-Einheit 519, die mit dem bidirektionalen Systembus 518 verbunden ist, repräsentiert derartige I/O-Elemente als einen Drucker, einen AN (Audio/Video)-I/O, eine Videoeinfang- bzw. Aufnahmeeinrichtung und eine Digitalisiererplatine, etc.
Der Computer 500 umfasst einen Videospeicher 514, einen Hauptspeicher 515 und einen Massenspeicher 512, die allesamt mit dem bidirektionalen Systembus 518 verbunden sind, ebenso wie die Tastatur 510, die Maus 511 und der Prozessor 513. Der Massenspeicher 512 kann sowohl fixierte als auch entfernbare Medien umfassen, wie z. B. magnetische, optische oder magnetoptische Speichersysteme oder irgendeine andere verfügbare Massenspeichertechnologie. Der Bus 518 kann beispielsweise 32 Adressleitungen für die Adressierung des Videospeichers 514 oder des Hauptspeichers 515 aufweisen. Der Systembus 518 umfasst beispielsweise auch einen 32-Bit-Datenbus zum Übertragen von Daten zwischen den Komponenten, wie zum Beispiel dem Prozessor 513, dem Hauptspeicher 515, dem Videospeicher 514 und dem Massenspeicher 512. Alternativ können Multiplexdaten-/Adressleitungen anstelle separater Daten und Adressleitungen verwendet werden.
In einer Ausführungsform der Erfindung ist der Prozessor 513 ein von Motorola hergestellter Mikroprozessor, wie zum Beispiel der 680X0-Prozessor oder ein Mikroprozessor, welcher von Intel hergestellt wird, wie zum Beispiel der 80X86- oder der Pentiumprozessor oder ein SPARC^TM-Mikroprozessor von Sun Microsystems^TM, Inc. Es kann jedoch auch irgendein anderer geeigneter Mikroprozessor oder Mikrocomputer verwendet werden. Der Hauptspeicher 515 besteht aus einem dynamischen Speicher mit wahlfreiem Zugriff (DRAM). Der Videospeicher 514 ist ein Videospeicher mit wahlfreiem Zugriff mit zwei Anschlüssen. Ein Anschluss des Videospeichers 514 ist mit dem Videoverstärker 516 verbunden. Der Videoverstärker 516 wird verwendet, um die Kathodenstrahlröhre (CRT) des Rastermonitors 517 anzusteuern. Der Videoverstärker 516 ist im Stand der Technik wohlbekannt und kann durch irgendeine andere geeignete Vorrichtung implementiert werden. Diese Schaltung wandelt Pixeldaten, die in dem Videospeicher 514 gespeichert sind, um, welche beispielsweise Pixeldaten enthalten können, die eine oder mehrere Ausführungsformen der Schieber und Datenfelder der Erfindung umfassen, und zwar in ein Rastersignal, das für die Verwendung durch den Monitor 517 geeignet ist. Der Monitor 517 ist ein Monitortyp, der für die Anzeige grafischer Bilder geeignet ist.
Der Computer 500 kann auch eine Kommunikationsschnittstelle 520 aufweisen, die mit dem Bus 518 verbunden ist. Die Kommunikationsschnittstelle 520 stellt eine Zwei-Wege-Datenkommunikationsverbindung über eine Netzwerkverbindung 521 mit einem lokalen Netzwert 522 her. Wenn beispielsweise die Kommunikationsschnittstelle 520 eine ISDN (integrated services digital network)-Karte oder ein Modem ist, so stellt die Kommunikationsschnittstelle 520 eine Datenkommunikationsverbindung mit dem entsprechenden Typ der Telefonleitung bereit, die einen Teil der Netzwerkverbindung 521 aufweist. Wenn die Kommunikationsschnittstelle 520 die Karte für ein Nahbereichsnetz (local area network – LAN) ist, so stellt die Kommunikationsschnittstelle 520 eine Datenkommunikationsverbindung über die Netzwerkverbindung 521 mit einem kompatiblen LAN bereit. Drahtlose Verbindungen sind ebenfalls möglich. In jeglicher derartiger Implementierung sendet die Kommunikationsschnittstelle 520 elektrische, elektromagnetische oder optische Signale und empfängt diese, welche digitale Datenströme tragen, welche verschiedene Typen von Informationen repräsentieren.
Die Netzwerkverbindung 521 stellt typischerweise eine Datenkommunikation über ein oder mehrere Netzwerke für andere Dateneinrichtungen bereit. Beispielsweise kann die Netzwerkverbindung 521 eine Verbindung über ein lokales Netzwerk 522 mit einem lokalen Servercomputer 523 oder einer Datenausrüstung bereitstellen, die durch einen Internetdienstleister (internet service provider – ISP) 524 betrieben wird. Der ISP 524 stellt seinerseits Datenkommunikationsdienste über das weltweite Paketdatenkommunikationsnetzwerk bereit, welches nun üblicherweise als das „Internet" 525 bezeichnet wird. Das lokale Netzwerk 522 und das Internet 525 verwenden beide elektrische, elektromagnetische oder optische Signale, welche digitale Datenströme tragen. Die Signale durch die verschiedenen Netzwerke und die Signale auf der Netzwerkverbindung 521 und durch die Kommunikationsschnittstelle 520, welche die digitalen Daten zu und von dem Computer tragen, sind beispielhafte Formen von Trägerwellen, welche die Information transportieren.
Der Computer kann Nachrichten senden und Daten empfangen, einschließlich von Programmcode, und zwar durch das (die) Netzwerk(e), die Netzwerkverbindung 521 und die Kommunikationsschnittstelle 520. In dem Beispiel des Internets könnte ein entfernter Servercomputer 526 einen angeforderten Code für ein Anwendungsprogramm durch das Internet 525, den ISP 524, das lokale Netzwerk 522 und die Kommunikationsschnittstelle 520 übermitteln. Gemäß der Erfindung ist eine solche heruntergeladene Anwendung eine Anwendung, welche das hierin beschriebene Verfahren des Auswählens von Daten implementiert.
Der empfangene Code kann durch einen Prozessor 513 so ausgeführt werden, wie er empfangen wird, und/oder kann in dem Massenspeicher 512 oder einem anderen nichtflüchtigen Speicher für eine spätere Ausführung gespeichert werden. Auf diese Weise kann der Computer 500 einen Anwendungscode in Form einer Trägerwelle erhalten.
Der Anwendungscode kann in irgendeiner anderen Form eines Computerprogrammproduktes verkörpert sein. Ein Computerprogrammprodukt weist ein Medium auf, welches so ausgestaltet ist, dass es computerlesbaren Code speichert oder transportiert oder in welchem ein computerlesbarer Code eingebettet sein kann. Einige Beispiele von Computerprogrammprodukten sind CD-Rom-Platten, ROM-Karten, Disketten, Magnetbänder, Festplattenlaufwerke von Computern, Server auf einem Netzwerk und Trägerwellen.
Die oben beschriebenen Computersysteme dienen hier nur als Beispiel. Eine Ausführungsform der Erfindung kann in irgendeiner Art von Computersystem oder Programmier- oder Verarbeitungsumgebung implementiert werden, einschließlich Geräten und elektronischen Einrichtungen, welche eingebettete Prozessoren und Steuerungen und LCD-Anzeigen verwenden.
Demnach sind hier ein Verfahren und eine Vorrichtung für die Erfassung von Bewegung in einem Video präsentiert worden. Auch wenn die vorliegende Erfindung unter Bezug auf gewisse beispielhafte Ausführungsformen beschrieben wurde, ist es für Fachleute offensichtlich, dass die vorliegende Erfindung nicht auf diese speziellen Ausführungsformen beschränkt ist. Weiterhin können, auch wenn der Betrieb für gewisse Ausführungsformen im Detail unter Verwendung gewisser detaillierter Prozessschritte beschrieben worden ist, einige der Schritte fortgelassen werden oder es können andere ähnliche Schritte austauschweise verwendet werden, ohne vom Schutzumfang der Erfindung abzuweichen.
Andere Ausführungsformen, welche die erfinderischen Merkmale der vorliegenden Erfindung verkörpern, liegen für Fachleute auf der Hand. Die Erfindung wird durch die Ansprüche definiert.

Claims

Verfahren zum Erfassen von Bewegung in einem Video unter Verwendung eines Pixeldifferenzzählers, welches die Schritte aufweist: Digitalisieren (405) eines eingehenden Videosignals, um digitalisierte eingehende Videobilder (Frames) zu erzeugen, welche Pixel aufweisen, Verarbeiten jedes Pixels in einem ersten eingehenden Frame (Einzelbild) durch: Erhalten eines Differenzwertes (415) durch Vergleich eines Wertes des Pixels des ersten eingehenden Videoframes mit einem Wert eines entsprechenden Pixels eines Bezugsframes (142, 144), Vergleichen (425) des Differenzwertes mit einem Schwellwert für den Differenzwert für das Pixel und schrittweises Heraufsetzen des Pixeldifferenzzählers, wenn der Differenzwert den Schwellwert des Differenzwertes für das Pixel überschreitet, und Nachverarbeiten des letzten Pixels in dem ersten eingehenden Frame, welcher nach Erzeugen (445) einer Anzeige für die Bewegungserfassung abgelegt wurde, und zwar für den ersten ein gehenden Frame nur dann, wenn der Pixeldifferenzzähler einen ersten Schwellwert der Differenzzahl überschreitet, welcher für den ersten eingehenden Videoframe anwendbar ist.
Verfahren nach Anspruch 1, wobei der Schritt des Erhaltens eines Differenzwertes das Erhalten eines Differenzwertes aufweist, der eine nicht-negative Zahl ist.
Verfahren nach Anspruch 1 oder 2, welches weiterhin aufweist: Verarbeiten eines zweiten eingehenden Frames in derselben Weise wie bei dem ersten eingehenden Frame, und Auswählen (460) des zweiten eingehenden Videoframes als Referenzframe, wenn eine Bewegung auf dem ersten eingehenden Videoframe erfaßt wurde und wenn keine Bewegung auf dem zweiten eingehenden Videoframe erfaßt wurde.
Verfahren nach Anspruch 1 oder 2, welches weiterhin aufweist: Verarbeiten eines zweiten eingehenden Frames in derselben Weise wie bei dem ersten eingehenden Frame, und Ableiten eines zweiten Schwellwertes für die Differenzzählung, welcher auf den zweiten Frame anwendbar ist, wobei der Schritt des Ableitens weiterhin aufweist: Hinzufügen der beibehaltenen zweiten Zahl zu dem Schwellwert der ersten Differenzzahl, und Dividieren eines Wertes, der sich nach dem Schritt des Addierens ergibt, durch zwei.
Verfahren nach Anspruch 1 oder 2, welches weiterhin den Schritt aufweist, daß ein neuer Referenzframe ausgewählt wird, um den Referenzframe zu ersetzen, sobald auf einen früher eingehenden Videoframe, für welchen eine Bewegung erfaßt wurde, ein nachfolgender eingehender Videoframe folgt, für welchen keine Bewegung erfaßt wird.
Verfahren nach Anspruch 5, wobei der ausgewählte Referenzframe der nachfolgend eingehende Videoframe ist.
Verfahren nach einem der vorstehenden Ansprüche, wobei derselbe Schwellwert für den Differenzwert auf eine Mehrzahl benachbarter Pixel des ersten eingehenden Videoframes anwendbar ist.
Verfahren nach einem der Ansprüche 1 bis 6, wobei auf unterschiedliche Pixelpositionen oder Gruppen von Pixelpositionen unterschiedliche Schwellwerte des Differenzwertes angewendet werden, um dadurch zu erlauben, daß jedes Pixel oder jede Gruppe von Pixeln mehr oder weniger empfindlich auf Bewegung gemacht wird.
Verfahren nach einem der vorstehenden Ansprüche, wobei der erste Schwellwert der Differenzzahl durch Verfolgen einer exponentiellen Durchschnittbildung abgeleitet wird.
Vorrichtung, welche Einrichtungen aufweist, die dafür ausgelegt sind, alle Schritte des Verfahrens eines der vorstehenden Ansprüche auszuführen.
Computerprogrammprodukt, welches einen Programmcode aufweist, der für einen Computerprozessor lesbar ist und der dafür ausgelegt ist, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 9 auszuführen, wenn dieser durch einen Prozessor ausgeführt wird.