-
Die
vorliegende Erfindung bezieht sich auf die Umwandlung bewegter Videodaten
in eine repräsentative
Zusammenstellung statischer Einzelbilder, die ausgewählte wichtige
Informationen des bewegten Videosignals enthaften. Eine derartige
Zusammenstellung verbraucht nicht nur weniger Speicherplatz, sondern
kann auch einen praktischen Index für das bewegte Videosignal darstellen.
Genauer gesagt bezieht sich die vorliegende Erfindung auf die Echtzeitauswahl
statischer Schlüsselbilder
aus einem Teil des bewegten Videosignals, der eine globale Bewegung
enthält,
in dem die Datenverarbeitung nur auf bedeutsame interessante Stellen
des Videos beschränkt
wird.
-
Die
Umwandlung von bewegten Videodaten in statische beinhaltet die Repräsentation
des bewegten Mediums (Video, Animationen) durch eine Anzahl von
Standbilder, die ausgewählte
wichtige Informationen des statischen Mediums tragen. Z.B. in dem
Fall eines Videos, das aus einer reinen Schwenk- oder Zoomsequenz
besteht (d.h. globaler Bewegung), kann eine effiziente Repräsentation
das erste, mittlere und letzte Einzelbild des Schwenks oder Zooms
enthalten. Im Fall eines Werbevideos, das aus kurzen Abschnitten
mit den verschiedenen von einer Firma hergestellten Produkten besteht,
kann die effiziente Repräsentation
ein einziges Bild eines jeden der in dem Video gezeigten Produkte
enthalten. Obwohl es für
einen Techniker einfach wäre,
diese Bilder herauszufinden, wenn sich der Techniker das ganze Video
ansähe,
ist eine derartige editorielle Herausarbeitung sehr zeitaufwendig.
Demzufolge besteht ein beträchtlicher
Bedarf für
ein Verfahren und ein System, das die Information bewegter Medien
in Echtzeit analysieren kann zum Zwecke der Auswahl von Schlüsselbildern,
die hinreichend repräsentativ
sind für
das bewegte Medium.
-
Die
vorliegende Erfindung ist daher insbesondere auf ein verbessertes
Echtzeitauswahlverfahren für eine
Mehrzahl von Schlüsselbildern
aus Szenen mit globaler Bewegung innerhalb des bewegten Videos anwendbar.
-
Das
Hauptproblem in der Auswahl der Schlüsselbilder ist die Abschätzung der
globalen Bewegung zwischen den Einzelbildern. Techniken im Zeitbereich
zur Abschätzung
globaler Bewegung können
in drei Gruppen eingeteilt werden: Merkmalentsprechungsverfahren,
Verfahren basierend auf dem optischen Fluss und direkte Verfahren.
Merkmalsentsprechung erfordert, dass eine Zahl von Punktentsprechungen
zwischen zwei oder drei Einzelbildern a priori bekannt ist oder
geschätzt
wird. Die Bewegungsparameter werden aus diesen Entsprechungen berechnet.
Die anderen zwei Verfahren erfordern nicht die Bestimmung bestimmter
Merkmalspunkte, sondern verwenden stattdessen die Randbedingung
des optischen Flusses zwischen zwei korrespondierenden Ansichten.
Das Verfahren des optischen Flusses beinhaltet zwei Schritte: die
Schätzung
des optischen Flussfeldes und die Rekonstruktion der Bewegungsparameter
unter Verwendung des geschätzten optischen
Flusses. Auf der anderen Seite verwenden die direkten Verfahren
nur die raumzeitlichen Intensitätsgradienten
des Bildes, um die Bewegung zu schätzen. Viele Bewegungsschätzer aus
jeder dieser Kategorien sind in der Literatur vorgeschlagen worden;
dennoch haben alle diese Verfahren einige Nachteile und sind ausschließlich für Offline-Berechnungen
ausgelegt.
-
Die
Datenmenge, die zur Ermittlung der jeweiligen Werte in jedem Pixel
eines bewegten Videos erforderlich ist, macht jede der obigen Verfahren
aus dem Stand der Technik zur Berechnung von Echtzeitbewegungsschätzungen
für die
Auswahl repräsentativer
statischer Schlüsselbilder
eines bewegten Videos unpraktikabel. Demzufolge besteht auch ein
Bedarf für
ein Verfahren, das die erforderlichen Berechnungen reduzieren kann,
so dass sie in Echtzeit ausgeführt
werden können,
um damit die Nachteile einer verzögerten Offline-Berechnung zu
vermeiden.
-
Vikrant
Kobla, et al. beschreiben in dem Artikel „Archiving, indexing and retrieval
of video in the compressed domain" in den Verhandlungen der SPIE, 1996
eine Videoanalyse in der komprimierten Domäne zur Videoarchivierung. Zu
diesem Zweck werden Schlüsselbilder
aus den komprimierten Videodaten ausgewählt. Für große Kamerabewegungen, wie Schwenks,
können
mehr als ein Schlüsselbild
erforderlich sein. Die Art der Kamerabewegung, wie Zoom, Schwenk,
Kippen, wird auf Basis der MPEG-codierten Bewegungsvektoren bestimmt.
Jeder Bewegungs vektor wird mit einem vorbestimmten Einheitsvektor
aus 8 Richtungen verglichen. Die Zahl der Bewegungsvektoren, die
in jede dieser Einheitsrichtungen fallen, wird gezählt. Für ein Einzelbild wird
festgestellt, dass es eine Bewegung entlang einer bestimmten Richtung
hat, wenn die Mehrzahl der Bewegungsvektoren in dieser Richtung
ausgerichtet ist.
-
EP-A-0-690
413 bezieht sich auf eine automatische zeitliche Segmentierung von
Videosequenzen in einzelne Kameraeinstellungen, d.h. eine inhaltsbasierte
Schlüsselbildauswahl
einzelner Einstellungen. Um scharfe Bildinhaltsschnitte oder Bildinhaltsübergänge zu detektieren,
werden Pixeldifferenzen aller Pixel von aufeinanderfolgenden Einzelbildern
berechnet, wobei die Einzelbilder einen vordefinierten Abstand haben. Scharte
Schnitte und Bildinhaltsübergänge werden
basierend auf dem Differenzwert in einer Histogrammdarstellung ermittelt.
-
Die
vorliegende Erfindung betrachtet ein neues und verbessertes Verfahren
und System, dass die oben genannten und anderen Probleme überwindet,
um ein neues Verfahren zur Ermittlung einer globalen Bewegung in
einer bewegten Videosequenz zur Verfügung zu stellen, wobei die
zugrunde liegenden Berechnungen für die Erzeugung einer Mehrzahl
von statischen Schlüsselbildern,
die repräsentativ
sind für
den Teil der Videosequenz mit globaler Bewegung, in Echtzeit ausgeführt werden
können.
-
Dies
wird durch die Merkmale der angefügten unabhängigen Ansprüche 1 und
4 erreicht. Die bedeutsamen Teile umfassen vorzugsweise die Teile
oder Kanten eines Einzelbildes innerhalb der Videosequenz, die Bereiche
eines hohen Gradienten enthalten. Die interessanten Punkte, die
der Berechnung zugeführt
werden, werden weiter reduziert, indem das Einzelbild auf ein Verteilungsgitter
aufgeteilt wird und in jeder Gitterzelle nur ein interessanter Punkt
ausgewählt
wird. Indem lediglich die Unterschiede in den minimierten interessanten
Punkten berechnet werden, d.h. bei einer reduzierten Zahl von Pixeln,
kann daher die Berechnungszeit minimiert werden und für eine Echtzeitprozessierung
der bewegten Videosequenz in eine Menge statischer Einzelbilder
beschleunigt werden.
-
Ein
Vorteil, der durch die Verwendung der vorliegenden Erfindung erzielt
wird, ist die Fähigkeit,
gleichzeitig mit dem Empfang des Stroms der Videodaten Pixelwerte
der interessanten Punkte zu vergleichen, um die Schlüsselbilder
in Echtzeit auszuwählen.
-
Ein
anderer Vorteil, der durch die vorliegende Erfindung erzielt wird,
ist das Verfahren zur Auswahl interessanter Punkte aus all den zur
Verfügung
stehenden Pixeln eines Einzelbildes, um die Echtzeitberechnung zu
ermöglichen,
indem die interessanten Punkte auf Bereiche hoher ausgewählter Bedeutsamkeit,
wie solche mit einem hohen Gradienten, der Kantenabschnitte wie
einen schwarzweiß Übergang
anzeigt, beschränkt.
Die interessanten Punkte werden weiter beschränkt, indem das Einzelbild in
ein Gitter eingeteilt wird und für
jede Gitterzelle nur ein einzelner interessanter Punkt ausgewählt wird.
Durch eine Beurteilung von Änderungen
in den Werten der interessanten Punkte mit einem herkömmlichen
Verarbeitungsoperator zur Fehlerschätzung, können die über das ganze Einzelbild verteilten
Punkte überwacht
werden zum Zwecke der Erkennung der globalen Bewegung.
-
Die
Erfindung kann physikalische Formen annehmen in bestimmten Teilen
und Schritten und Anordnungen von Teilen und Schritten. Die bevorzugten
und alternativen Ausführungsformen
werden in der Beschreibung im Detail beschrieben und in den beigefügten Zeichnungen,
die einen Teil hiervon bilden, illustriert, wobei:
-
1 ein
Flussdiagramm des Verarbeitungsverfahrens der vorliegenden Erfindung
ist;
-
2 ein
stilisiertes statisches Einzelbild ist, das insbesondere ausgewählte interessante
Punkte illustriert; und
-
3 ein
Flussdiagramm des Verarbeitungsverfahrens des Schlüsselbildauswahlprozesses
ist.
-
Im
Folgenden wird auf die Zeichnungen Bezug genommen, die lediglich
zum Zweck der Illustration bevorzugter Ausführungsformen der Erfindung
gezeigt werden und nicht zum Zwecke der Beschränkung derselben. Die vorliegende Erfindung
richtet sich auf ein Verfahren und ein System zur Erzeugung einer
kleineren statischen Repräsentation,
d.h. eines zusammengestellten Dokuments, von einer bewegten Videosequenz. Eine
derartige Zusammenstellung hat beträchtliche Vorteile hinsichtlich
des Speicherverbrauchs, der Leichtigkeit und Bequemlichkeit in der
Handhabung und kann zugleich einen praktischen Index für die ursprüngliche bewegte
Videodatenbank zur Verfügung
stellen. Die vorliegende Erfindung bezieht sich insbesondere auf
die Erzeugung einer Zusammenstellung statischer Einzelbilder für einen
bestimmten Teil der bewegten Videosequenz, d.h. des Teils, der generell
globale Bewegung des Videobildes enthält, wie z.B. einen Panoramaschwenk,
Zoomen oder Mitführen
des Bildes. Wie oben erwähnt,
können
die Pixeldaten, die sich mit der globalen Bewegung über die
Zeit ändern,
eine derartig große
Datenmenge umfassen, dass der Versuch, Änderungen in all den Pixeldaten
zu überwachen,
unpraktikabel wird. Die Erfindung nutzt jedoch die Tatsache aus, dass
nicht alle derartigen Änderungen
erforderlich sind, um eine befriedigende statische Repräsentation
der gesamten globalen Bewegung zu erhalten, wenn nur relativ wenige,
ausgewählte
Schlüsselbilder
aus der gesamten bewegten Videosequenz herausgepflückt werden
müssen,
um eine adäquate
Repräsentation
der gesamten vorliegenden globalen Bewegung zu liefern.
-
Ein
weiterer wichtiger Aspekt, der im Verlauf der Beschreibung der Erfindung
beachtet werden sollte, ist, dass die Verarbeitung zur Ermittlung
ausgewählter
Schlüsselbilder
in Echtzeit erreicht wird, d.h. im Wesentlichen gleichzeitig zur
Erfassung der ursprünglichen
bewegten Videodaten selbst. Dies überwindet das notorische bisherige
Problem der Erfassung und Speicherung einer umfänglichen Menge von Videodaten
und der Offline-Verarbeitung der Daten über einen ausgedehnten Zeitraum
hinweg zur Ermittlung der Schlüsselbilder, wie
es in den Systemen des Standes der Technik getan wurde.
-
Insbesondere
unter Bezugnahme auf 1 wird ein Flussdiagramm des
Verarbeitungsverfahrens der vorliegenden Erfindung illustriert.
Im ersten Schritt umfasst das Verfahren den Empfang 10 des
bewegten Videos und das Aufbrechen des Videostroms in einzelne Segmente
durch Digitalisierung 12 des Videos in eine zeitliche Sequenz
statischer Einzelbilder, wobei jedes Einzelbild ein zweidimensionales Koordinatenfeld
einer Anzahl von digitalisierten Bildelementen oder Pixeln mit zugehörigen Pixelsignalpegeln
entsprechend eines Szeneninhalts enthält.
-
2 ist
eine stark vereinfachte Illustration eines digitalisierten statischen
Einzelbildes, das zwei Personen zeigt, das aber zur Vermittlung
der Prinzipien der vorliegenden Erfindung adäquat ist. Das Einzelbild aus 2 ist
aus einer Vielzahl von Pixeln mit jeweils einem digitalen Wert zusammengesetzt.
Die meisten Systeme des Standes der Technik zur Bewegungsschätzung erfordern
die Verarbeitung der Pixeldaten für das gesamte Bild. Die vorliegende
Erfindung hat das wichtige Merkmal der Reduktion der Berechnungszeit
durch die Ermittlung der Pixeldatendifferenzen für nur einen Teil des gesamten
Bildes, wobei die ausgewählten
Differenzen verwendet werden, die globale Bewegung zu schätzen, so
dass die Berechnung in Echtzeit getan werden kann. Ein Hauptpunkt
ist es, nicht nur auf die Teile des Bildes zu schauen, die einfach
zu beobachten sind, sondern auch höchstwahrscheinlich Indikatoren
für Bewegungen
sind, oder gar für
globale Bewegungen, wenn sie über
eine gewählte
Zeitspanne verfolgt werden. Demzufolge ist der dritte Schritt in
dem Verfahren aus 1 die Auswahl 14 der
geeigneten interessanten Punkte.
-
Die
Kanten der Personen in dem Bild aus 2 enthalten
Bereiche mit einem hohen Gradienten, die leicht mit einem herkömmlichen
Differenzoperator erkannt werden können, um die Pixelorte zu identifizieren, die
die interessanten Punkte enthalten. Beispielsweise umfassen all
die mit einem „x" markierten Bereiche 30, 32 und 34 auf
den Kantenlinien des Bildes einen Teil der Gesamtheit der interessanten
Punkte, die in dem Standbild aus 2 identifiziert
werden können.
Es ist wichtig, zu beachten, dass die interessanten Punkte eine
globale Bewegung über
die Zeit anzeigen sollen. Operatoren zur Bewegungsschätzung hängen typischerweise
von Bildableitungen ab, so dass die Stellen mit einem hohen Gradienten
als praktische Faktoren für
diese Art der Verarbeitungsberechnung ausgewählt werden. Die Punkte mit
hohem Gradienten erhält
man mit einem herkömmlichen
Differenzoperator (nicht gezeigt) und die Ergebnisse werden mit
einer Schwelle verglichen, um alle möglichen Kandidaten für letztlich
ausgewählte
interessante Punkte zu erhalten. Ein Postprozessor legt im Wesentlichen
ein Gitter 36 über
das gesamte Bild und reduziert die Zahl der Kandidaten auf einen
einzigen interessan ten Punkt innerhalb einer jeden Gitterzelle oder
jedes Quadrates, so dass nicht nur die Gesamtzahl der interessanten
Punkte reduziert wird, sondern auch eine gleichförmige Verteilung der interessanten
Punkte über
das Bild sichergestellt wird. Das Gitter wird über das gesamte Bild hinweg
angewendet, so dass die interessanten Punkte, die bei 30, 32 und 34 identifiziert
wurden, wahrscheinliche Kandidaten sind, die als interessante Punkte
ausgewählt
werden. Jede Zelle des Gitters ist vorzugsweise aus 8 × 8 Pixeln
zusammengesetzt, aber andere Gittergrößen sind möglich.
-
Wenn
man bedenkt, dass das Gesamtziel dieser Erfindung das Erkennen einer
globalen Bewegung des Bildes ist und nicht, ob lediglich ein Objekt
in dem Bild bewegt wird, so liefert die Begrenzung der interessanten
Punkte auf einen interessanten Punkt für jede Zelle des Gitters 36 eine
zufrieden stellende Verteilung der interessanten Punkte und vermeidet
eine starke Anhäufung
von interessanten Punkten.
-
Sobald
die interessanten Punkte ausgewählt
wurden, ist der nächste
wichtige Schritt in dem Verfahren (
1) das Erkennen
16,
ob die interessanten Punkte sich in ihrer Zusammensetzung über die
Zeit unterscheiden. Konkret wird ein Operator zur Bewegungsschätzung verwendet,
um eine Bewegung der interessanten Punkte über die Zeit, d.h. einen optischen
Fluss, nachzuvollziehen. In der tatsächlichen Berechnung wird die
globale Bewegung durch einen Operator zur Bewegungsschätzung erkannt,
der eine Bewegungstrajektorie nachvollzieht, indem er eine konstante
Intensität
entlang der Trajektorie schätzt
und, genauer, indem er den Fehler in der Schätzung der optischen Flussgleichung
bestimmt. Die unten angegebene Gleichung enthält einen herkömmlichen
Operator zur Bewegungsschätzung,
wobei angenommen wird, dass die globale Bewegung durch sechs affine
Parameter dargestellt werden kann. Unter der Annahme, dass die Pixeldatenintensität entlang
einer Bewegungstrajektorie konstant bleibt, ist der Fehler in der
optischen Flussgleichung definiert als:
wobei I
x,
I
y die Bildableitungen in x und y-Richtung
sind; I
t die Pixeldifferenz zwischen den
Einzelbildern zur Zeit t und t + 1 ist; S die Menge der Bildpunkte
ist, die in der Berechnung verwendet wird; a
0 und
a
3 die horizontale und vertikale Verschiebung
sind; a
1, a
2, a
4, a
5 Rotation und
gleichförmige
Skalierung darstellen. Die affinen Parameter a
0 bis
a
5 sind im Wesentlichen Koeffizienten einer
Transformation, die im Wesentlichen die Berechnung eines minimalen
Fehlers über
einen optischen Fluss bewirkt, der eine Nachverfolgung der Verschiebung, Skalierung
und Rotation der Pixeldaten der ausgewählten interessanten Punkte
zulässt.
Mit anderen Worten, durch die Berechnung von null Fehlerwerten für die affinen
Parameter zwischen Pixeldatendifferenzen zwischen zwei Bildern über die
Zeit kann die Bewegung zwischen den Bildern nachverfolgt werden
und zur Entscheidung, ob globale Bewegung vorliegt, verwendet werden,
wenn eine Schwelle angewendet wird. Unter der Berücksichtigung,
dass die Menge „S" alle möglichen
Pixelorte interessanter Punkte, die Gegenstand der Berechnung sein
könnten,
darstellt, und für
die gesamten Standbilddaten eine unpraktikabel große Menge
an Daten umfasst, führt
die Reduktion von Gleichung 1 auf Gleichung 2 bezüglich der
affinen Parameter und für
eine Menge von interessanten Punkten „B" zu einer wesentlichen Reduktion der
zur Lösung
der unten angegebenen Gleichung 2 erforderlichen Berechnungen und
liefert eine Schätzung
für die
affinen Parameter.
-
Der
Effekt der Reduktion von Gleichung 1 auf Gleichung 2 bedeutet, dass
lediglich die ausgewählten interessanten
Punkte mit Bereichen des hohen Gradienten Gegenstand der Berechnung
sind, und eliminiert all die Punkte, die keine interessanten Punkte
sind, von der gesamten Berechnung. Eine derartige Reduktion ermöglicht eine
Echtzeitberechnung der Bewegungsschätzung, das Erkennen der gewünschten
globalen Bewegung und schließlich
die Auswahl der Schlüsseleinzelbilder.
-
Schritt 18 (1)
umfasst den letzten Berechnungsschritt und umfasst die Anwendung
einer Schwelle auf die affinen Parameter, um sie mit bisherigen
Schätzungen über eine
ausgewählte
Zeitperiode zu vergleichen, um zu entscheiden, ob eine globale Bewegung
vorliegt oder nicht. Schwellenwerte werden empirisch bestimmt und
die Folge ist eine Reduktion des Rauschens. Ein Vergleich bestimmt,
ob die geschätzte
Bewegung einem Muster folgt oder nicht. Wenn ein Muster erkannt
wird, erfasst das System die Einzelbilder mit einer vorausgewählten Rate
von Einzelbildern pro Sekunde bis zum Ende der Bewegung. Eine derartige
Erfassung umfasst die Auswahl (20) von Schlüsseleinzelbildern
aus den Einzelbildern der globalen Bewegung. Eine akzeptable Erfassungsrate
ist vier Einzelbilder pro Sekunde bis zum Ende der globalen Bewegung.
-
Unter
besonderer Bezugnahme auf 3 wird ein
Flussdiagramm zur Beschreibung der Schritte zur Berechnung der Differenzen
der Bewegungsvektoren zwischen aufeinanderfolgenden Einzelbildern
zur Verfügung
gestellt. Im Schritt 40 wird der Berechnungsprozess initialisiert,
wobei „i" die Einzelbildzahl
darstellt und „n" die Zahl der Einzelbilder, über die
die globale Bewegung beurteilt wird, darstellt. Im Schritt 42 wird
die Bewegungsinformation mi zwischen aufeinanderfolgenden
Einzelbildern berechnet und im Schritt 43 der Schwellenfunktion
mit Thres0 unterworfen. Im Schritt 44 wird die Bewegungsinformation
für das
nächste
Einzelbild berechnet und im Schritt 45 der Schwellwertfunktion
mit Thres0 unterworfen. Die Schwellwertfunktion bestimmt, ob eine
hinreichende Bewegung zwischen den Einzelbildern vorliegt, so dass
diese Einzelbilder als einer globalen Bewegung unterliegend betrachtet
werden können.
Im Schritt 46 wird eine Differenzberechnung Ki durchgeführt, und
wenn die Differenz der Bewegungsvektoren kleiner ist als ein vorbestimmter
Schwellwert, Thres1 wie in Schritt 48 gezeigt, dann ist bekannt,
dass die Möglichkeit
besteht, dass eine globale Bewegung vorliegt. Da die Schwellwertberechnung
aber auch auf Rauschen zurückgeführt werden
kann, ist es erforderlich, einen weiteren Parameter zu behalten,
um zu erkennen, ob die Bewegung über
eine bestimme Zahl von Einzelbildern (Parameter n) anhält. Wenn
n über
einem bestimmten Schwellwert Thres2 liegt, der ebenfalls ein vorausgewählter Wert
ist, dann wird das System die Detektion eines globalen Bewegungsmusters
anzeigen. Demzufolge wird im Schritt 50 n erhöht und im
Schritt 52 ein Vergleich durchgeführt, um zu bestimmen, ob die Zahl
der Einzelbilder, die ausgewertet wurden, größer ist als der vorausgewählte Schwellenwert
Thres2. Wenn dies der Fall ist, wird eine globale Bewegung detektiert 54.
Alternativ wird, wenn Thres1 nicht erfüllt ist, n reinitialisiert 49,
und wenn die erforderliche Zahl von Einzelbildern noch nicht ausgewertet
wurde, so dass n kleiner ist als Thres2, so wird die Bewegungsinformation
zwischen dem nächsten
erhöhten
Einzelbild durchgeführt 56.
Alle Bereiche der Bewegungsinformation in der Videosequenz können dann
bis zum Ende 58 der Videosequenz erkannt werden. In einer
bevorzugten Ausführungsform
wurde Thres2 auf 7 gesetzt, wobei das Video 20 Bilder pro
Sekunde verarbeitete.
-
Eine
Kombination dieser erfinderischen Technik mit einem Szenenschneideprozessor
für die
gesamten Videodaten ermöglicht
es einem Techniker, mehr als ein einziges Einzelbild im Falle einer
globalen Bewegung und nur ein einzelnes Einzelbild, wenn keine Bewegung
oder lediglich lokale Bewegungen vorliegen, zu erfassen, um eine
angemessene Zusammenstellung ausgewählter Schlüsseleinzelbilder, die repräsentativ sind
für das
gesamte bewegte Video, zu liefern.
-
Die
vorliegende globale Bewegung und das Erkennungsverfahren können mit
einem Szenenschnitterkennungsalgorithmus, der auf einer zugehörigen Histogramm-
und Pixeldifferenz basiert, kombiniert werden. Ein derartiger Erkennungsalgorithmus
kann zunächst
das Histogramm und die Einzelbilddifferenzen analysieren, so dass,
falls sie beide über
einem bestimmten Schwellwert liegen, das Einzelbild als Schlüsseleinzelbild identifiziert
wird. Wenn sie unterhalb eines Schwellwerts liegen, wird die Bewegungsinformation
unter Verwendung des Gegenstands dieser Erfindung analysiert, so
dass, falls eine globale Bewegung erkannt wird, mehr als ein einziges
Einzelbild als Schlüsseleinzelbild
ausgewählt wird.
Die gesamte Kombination ermöglicht
es, das bewegte Video auf Szenenschnitte und ausgewählte Schlüsseleinzelbilder
globaler Bewegung herunterzudestillieren, so dass die Schlüsseleinzelbilder
Schwenks, Zooms und plötzliche
Szenenschnitte umfassen können.
-
Die
vorliegende Erfindung wurde unter Bezugnahme auf verschiedene Ausführungsformen
im Detail beschrieben. Es ist beabsichtigt, dass verschiedene Abänderungen
realisiert werden können,
ohne vom Geist der vorliegenden Erfindung abzuweichen. Obwohl die
vorliegende Erfindung im Zusammenhang mit dokumentenerzeugenden
Ausführungsformen
erwähnt
wurde, anstelle von Bildern, wie sie im Zusammenhang mit einem Drucksystem
beschrieben werden könnten,
ist die Erfindung beispielsweise auch anwendbar und leicht realisierbar
in einem Anzeigesystem. Darüber
hinaus kann die Erfindung leicht in einem ASIC, einer programmierbaren
Gatteranordnung, oder als Software realisiert werden, wodurch dieser
Prozess in einer Scanner-Vorrichtung, einem elektronischen Teilsystem,
Drucker- oder Anzeigevorrichtung
platziert werden kann. Zusätzlich
wurde erwogen, dass die vorliegende Erfindung in einem Verarbeitungssystem
realisiert werden kann, wobei ein Video in einem geeigneten Bereich
liegt, um interessante Punkte mit einem hohen Gradienten zu erkennen,
und als solches auf jedes Wiedergabesystem, welches nicht notwendigerweise
ein binäres
oder digitales Verarbeitungssystem ist, anwendbar ist.
-
Insbesondere
ist das Konzept der vorliegenden Erfindung leicht auf eine Farbumgebung
wie auch auf eine monochrome oder Schwarz/weiss-Umgebung anwendbar.