DE69932489T2

DE69932489T2 - Verfahren und System zur merkmalbasierten Echtzeitbewegungsanalyse zur Auswahl von Schlüsselbildern aus einer Videosequenz

Info

Publication number: DE69932489T2
Application number: DE69932489T
Authority: DE
Inventors: Atac sok Gozde Bozdagi; Robert Chicago Bryll
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1998-12-17
Filing date: 1999-12-14
Publication date: 2006-11-23
Anticipated expiration: 2019-12-15
Also published as: EP1011074A3; JP4666706B2; EP1011074B1; US6252975B1; JP2000182065A; EP1011074A2; DE69932489D1

Description

Die vorliegende Erfindung bezieht sich auf die Umwandlung bewegter Videodaten in eine repräsentative Zusammenstellung statischer Einzelbilder, die ausgewählte wichtige Informationen des bewegten Videosignals enthaften. Eine derartige Zusammenstellung verbraucht nicht nur weniger Speicherplatz, sondern kann auch einen praktischen Index für das bewegte Videosignal darstellen. Genauer gesagt bezieht sich die vorliegende Erfindung auf die Echtzeitauswahl statischer Schlüsselbilder aus einem Teil des bewegten Videosignals, der eine globale Bewegung enthält, in dem die Datenverarbeitung nur auf bedeutsame interessante Stellen des Videos beschränkt wird.
Die Umwandlung von bewegten Videodaten in statische beinhaltet die Repräsentation des bewegten Mediums (Video, Animationen) durch eine Anzahl von Standbilder, die ausgewählte wichtige Informationen des statischen Mediums tragen. Z.B. in dem Fall eines Videos, das aus einer reinen Schwenk- oder Zoomsequenz besteht (d.h. globaler Bewegung), kann eine effiziente Repräsentation das erste, mittlere und letzte Einzelbild des Schwenks oder Zooms enthalten. Im Fall eines Werbevideos, das aus kurzen Abschnitten mit den verschiedenen von einer Firma hergestellten Produkten besteht, kann die effiziente Repräsentation ein einziges Bild eines jeden der in dem Video gezeigten Produkte enthalten. Obwohl es für einen Techniker einfach wäre, diese Bilder herauszufinden, wenn sich der Techniker das ganze Video ansähe, ist eine derartige editorielle Herausarbeitung sehr zeitaufwendig. Demzufolge besteht ein beträchtlicher Bedarf für ein Verfahren und ein System, das die Information bewegter Medien in Echtzeit analysieren kann zum Zwecke der Auswahl von Schlüsselbildern, die hinreichend repräsentativ sind für das bewegte Medium.
Die vorliegende Erfindung ist daher insbesondere auf ein verbessertes Echtzeitauswahlverfahren für eine Mehrzahl von Schlüsselbildern aus Szenen mit globaler Bewegung innerhalb des bewegten Videos anwendbar.
Das Hauptproblem in der Auswahl der Schlüsselbilder ist die Abschätzung der globalen Bewegung zwischen den Einzelbildern. Techniken im Zeitbereich zur Abschätzung globaler Bewegung können in drei Gruppen eingeteilt werden: Merkmalentsprechungsverfahren, Verfahren basierend auf dem optischen Fluss und direkte Verfahren. Merkmalsentsprechung erfordert, dass eine Zahl von Punktentsprechungen zwischen zwei oder drei Einzelbildern a priori bekannt ist oder geschätzt wird. Die Bewegungsparameter werden aus diesen Entsprechungen berechnet. Die anderen zwei Verfahren erfordern nicht die Bestimmung bestimmter Merkmalspunkte, sondern verwenden stattdessen die Randbedingung des optischen Flusses zwischen zwei korrespondierenden Ansichten. Das Verfahren des optischen Flusses beinhaltet zwei Schritte: die Schätzung des optischen Flussfeldes und die Rekonstruktion der Bewegungsparameter unter Verwendung des geschätzten optischen Flusses. Auf der anderen Seite verwenden die direkten Verfahren nur die raumzeitlichen Intensitätsgradienten des Bildes, um die Bewegung zu schätzen. Viele Bewegungsschätzer aus jeder dieser Kategorien sind in der Literatur vorgeschlagen worden; dennoch haben alle diese Verfahren einige Nachteile und sind ausschließlich für Offline-Berechnungen ausgelegt.
Die Datenmenge, die zur Ermittlung der jeweiligen Werte in jedem Pixel eines bewegten Videos erforderlich ist, macht jede der obigen Verfahren aus dem Stand der Technik zur Berechnung von Echtzeitbewegungsschätzungen für die Auswahl repräsentativer statischer Schlüsselbilder eines bewegten Videos unpraktikabel. Demzufolge besteht auch ein Bedarf für ein Verfahren, das die erforderlichen Berechnungen reduzieren kann, so dass sie in Echtzeit ausgeführt werden können, um damit die Nachteile einer verzögerten Offline-Berechnung zu vermeiden.
Vikrant Kobla, et al. beschreiben in dem Artikel „Archiving, indexing and retrieval of video in the compressed domain" in den Verhandlungen der SPIE, 1996 eine Videoanalyse in der komprimierten Domäne zur Videoarchivierung. Zu diesem Zweck werden Schlüsselbilder aus den komprimierten Videodaten ausgewählt. Für große Kamerabewegungen, wie Schwenks, können mehr als ein Schlüsselbild erforderlich sein. Die Art der Kamerabewegung, wie Zoom, Schwenk, Kippen, wird auf Basis der MPEG-codierten Bewegungsvektoren bestimmt. Jeder Bewegungs vektor wird mit einem vorbestimmten Einheitsvektor aus 8 Richtungen verglichen. Die Zahl der Bewegungsvektoren, die in jede dieser Einheitsrichtungen fallen, wird gezählt. Für ein Einzelbild wird festgestellt, dass es eine Bewegung entlang einer bestimmten Richtung hat, wenn die Mehrzahl der Bewegungsvektoren in dieser Richtung ausgerichtet ist.
EP-A-0-690 413 bezieht sich auf eine automatische zeitliche Segmentierung von Videosequenzen in einzelne Kameraeinstellungen, d.h. eine inhaltsbasierte Schlüsselbildauswahl einzelner Einstellungen. Um scharfe Bildinhaltsschnitte oder Bildinhaltsübergänge zu detektieren, werden Pixeldifferenzen aller Pixel von aufeinanderfolgenden Einzelbildern berechnet, wobei die Einzelbilder einen vordefinierten Abstand haben. Scharte Schnitte und Bildinhaltsübergänge werden basierend auf dem Differenzwert in einer Histogrammdarstellung ermittelt.
Die vorliegende Erfindung betrachtet ein neues und verbessertes Verfahren und System, dass die oben genannten und anderen Probleme überwindet, um ein neues Verfahren zur Ermittlung einer globalen Bewegung in einer bewegten Videosequenz zur Verfügung zu stellen, wobei die zugrunde liegenden Berechnungen für die Erzeugung einer Mehrzahl von statischen Schlüsselbildern, die repräsentativ sind für den Teil der Videosequenz mit globaler Bewegung, in Echtzeit ausgeführt werden können.
Dies wird durch die Merkmale der angefügten unabhängigen Ansprüche 1 und 4 erreicht. Die bedeutsamen Teile umfassen vorzugsweise die Teile oder Kanten eines Einzelbildes innerhalb der Videosequenz, die Bereiche eines hohen Gradienten enthalten. Die interessanten Punkte, die der Berechnung zugeführt werden, werden weiter reduziert, indem das Einzelbild auf ein Verteilungsgitter aufgeteilt wird und in jeder Gitterzelle nur ein interessanter Punkt ausgewählt wird. Indem lediglich die Unterschiede in den minimierten interessanten Punkten berechnet werden, d.h. bei einer reduzierten Zahl von Pixeln, kann daher die Berechnungszeit minimiert werden und für eine Echtzeitprozessierung der bewegten Videosequenz in eine Menge statischer Einzelbilder beschleunigt werden.
Ein Vorteil, der durch die Verwendung der vorliegenden Erfindung erzielt wird, ist die Fähigkeit, gleichzeitig mit dem Empfang des Stroms der Videodaten Pixelwerte der interessanten Punkte zu vergleichen, um die Schlüsselbilder in Echtzeit auszuwählen.
Ein anderer Vorteil, der durch die vorliegende Erfindung erzielt wird, ist das Verfahren zur Auswahl interessanter Punkte aus all den zur Verfügung stehenden Pixeln eines Einzelbildes, um die Echtzeitberechnung zu ermöglichen, indem die interessanten Punkte auf Bereiche hoher ausgewählter Bedeutsamkeit, wie solche mit einem hohen Gradienten, der Kantenabschnitte wie einen schwarzweiß Übergang anzeigt, beschränkt. Die interessanten Punkte werden weiter beschränkt, indem das Einzelbild in ein Gitter eingeteilt wird und für jede Gitterzelle nur ein einzelner interessanter Punkt ausgewählt wird. Durch eine Beurteilung von Änderungen in den Werten der interessanten Punkte mit einem herkömmlichen Verarbeitungsoperator zur Fehlerschätzung, können die über das ganze Einzelbild verteilten Punkte überwacht werden zum Zwecke der Erkennung der globalen Bewegung.
Die Erfindung kann physikalische Formen annehmen in bestimmten Teilen und Schritten und Anordnungen von Teilen und Schritten. Die bevorzugten und alternativen Ausführungsformen werden in der Beschreibung im Detail beschrieben und in den beigefügten Zeichnungen, die einen Teil hiervon bilden, illustriert, wobei:
1 ein Flussdiagramm des Verarbeitungsverfahrens der vorliegenden Erfindung ist;
2 ein stilisiertes statisches Einzelbild ist, das insbesondere ausgewählte interessante Punkte illustriert; und
3 ein Flussdiagramm des Verarbeitungsverfahrens des Schlüsselbildauswahlprozesses ist.
Im Folgenden wird auf die Zeichnungen Bezug genommen, die lediglich zum Zweck der Illustration bevorzugter Ausführungsformen der Erfindung gezeigt werden und nicht zum Zwecke der Beschränkung derselben. Die vorliegende Erfindung richtet sich auf ein Verfahren und ein System zur Erzeugung einer kleineren statischen Repräsentation, d.h. eines zusammengestellten Dokuments, von einer bewegten Videosequenz. Eine derartige Zusammenstellung hat beträchtliche Vorteile hinsichtlich des Speicherverbrauchs, der Leichtigkeit und Bequemlichkeit in der Handhabung und kann zugleich einen praktischen Index für die ursprüngliche bewegte Videodatenbank zur Verfügung stellen. Die vorliegende Erfindung bezieht sich insbesondere auf die Erzeugung einer Zusammenstellung statischer Einzelbilder für einen bestimmten Teil der bewegten Videosequenz, d.h. des Teils, der generell globale Bewegung des Videobildes enthält, wie z.B. einen Panoramaschwenk, Zoomen oder Mitführen des Bildes. Wie oben erwähnt, können die Pixeldaten, die sich mit der globalen Bewegung über die Zeit ändern, eine derartig große Datenmenge umfassen, dass der Versuch, Änderungen in all den Pixeldaten zu überwachen, unpraktikabel wird. Die Erfindung nutzt jedoch die Tatsache aus, dass nicht alle derartigen Änderungen erforderlich sind, um eine befriedigende statische Repräsentation der gesamten globalen Bewegung zu erhalten, wenn nur relativ wenige, ausgewählte Schlüsselbilder aus der gesamten bewegten Videosequenz herausgepflückt werden müssen, um eine adäquate Repräsentation der gesamten vorliegenden globalen Bewegung zu liefern.
Ein weiterer wichtiger Aspekt, der im Verlauf der Beschreibung der Erfindung beachtet werden sollte, ist, dass die Verarbeitung zur Ermittlung ausgewählter Schlüsselbilder in Echtzeit erreicht wird, d.h. im Wesentlichen gleichzeitig zur Erfassung der ursprünglichen bewegten Videodaten selbst. Dies überwindet das notorische bisherige Problem der Erfassung und Speicherung einer umfänglichen Menge von Videodaten und der Offline-Verarbeitung der Daten über einen ausgedehnten Zeitraum hinweg zur Ermittlung der Schlüsselbilder, wie es in den Systemen des Standes der Technik getan wurde.
Insbesondere unter Bezugnahme auf 1 wird ein Flussdiagramm des Verarbeitungsverfahrens der vorliegenden Erfindung illustriert. Im ersten Schritt umfasst das Verfahren den Empfang 10 des bewegten Videos und das Aufbrechen des Videostroms in einzelne Segmente durch Digitalisierung 12 des Videos in eine zeitliche Sequenz statischer Einzelbilder, wobei jedes Einzelbild ein zweidimensionales Koordinatenfeld einer Anzahl von digitalisierten Bildelementen oder Pixeln mit zugehörigen Pixelsignalpegeln entsprechend eines Szeneninhalts enthält.
2 ist eine stark vereinfachte Illustration eines digitalisierten statischen Einzelbildes, das zwei Personen zeigt, das aber zur Vermittlung der Prinzipien der vorliegenden Erfindung adäquat ist. Das Einzelbild aus 2 ist aus einer Vielzahl von Pixeln mit jeweils einem digitalen Wert zusammengesetzt. Die meisten Systeme des Standes der Technik zur Bewegungsschätzung erfordern die Verarbeitung der Pixeldaten für das gesamte Bild. Die vorliegende Erfindung hat das wichtige Merkmal der Reduktion der Berechnungszeit durch die Ermittlung der Pixeldatendifferenzen für nur einen Teil des gesamten Bildes, wobei die ausgewählten Differenzen verwendet werden, die globale Bewegung zu schätzen, so dass die Berechnung in Echtzeit getan werden kann. Ein Hauptpunkt ist es, nicht nur auf die Teile des Bildes zu schauen, die einfach zu beobachten sind, sondern auch höchstwahrscheinlich Indikatoren für Bewegungen sind, oder gar für globale Bewegungen, wenn sie über eine gewählte Zeitspanne verfolgt werden. Demzufolge ist der dritte Schritt in dem Verfahren aus 1 die Auswahl 14 der geeigneten interessanten Punkte.
Die Kanten der Personen in dem Bild aus 2 enthalten Bereiche mit einem hohen Gradienten, die leicht mit einem herkömmlichen Differenzoperator erkannt werden können, um die Pixelorte zu identifizieren, die die interessanten Punkte enthalten. Beispielsweise umfassen all die mit einem „x" markierten Bereiche 30, 32 und 34 auf den Kantenlinien des Bildes einen Teil der Gesamtheit der interessanten Punkte, die in dem Standbild aus 2 identifiziert werden können. Es ist wichtig, zu beachten, dass die interessanten Punkte eine globale Bewegung über die Zeit anzeigen sollen. Operatoren zur Bewegungsschätzung hängen typischerweise von Bildableitungen ab, so dass die Stellen mit einem hohen Gradienten als praktische Faktoren für diese Art der Verarbeitungsberechnung ausgewählt werden. Die Punkte mit hohem Gradienten erhält man mit einem herkömmlichen Differenzoperator (nicht gezeigt) und die Ergebnisse werden mit einer Schwelle verglichen, um alle möglichen Kandidaten für letztlich ausgewählte interessante Punkte zu erhalten. Ein Postprozessor legt im Wesentlichen ein Gitter 36 über das gesamte Bild und reduziert die Zahl der Kandidaten auf einen einzigen interessan ten Punkt innerhalb einer jeden Gitterzelle oder jedes Quadrates, so dass nicht nur die Gesamtzahl der interessanten Punkte reduziert wird, sondern auch eine gleichförmige Verteilung der interessanten Punkte über das Bild sichergestellt wird. Das Gitter wird über das gesamte Bild hinweg angewendet, so dass die interessanten Punkte, die bei 30, 32 und 34 identifiziert wurden, wahrscheinliche Kandidaten sind, die als interessante Punkte ausgewählt werden. Jede Zelle des Gitters ist vorzugsweise aus 8 × 8 Pixeln zusammengesetzt, aber andere Gittergrößen sind möglich.
Wenn man bedenkt, dass das Gesamtziel dieser Erfindung das Erkennen einer globalen Bewegung des Bildes ist und nicht, ob lediglich ein Objekt in dem Bild bewegt wird, so liefert die Begrenzung der interessanten Punkte auf einen interessanten Punkt für jede Zelle des Gitters 36 eine zufrieden stellende Verteilung der interessanten Punkte und vermeidet eine starke Anhäufung von interessanten Punkten.
Sobald die interessanten Punkte ausgewählt wurden, ist der nächste wichtige Schritt in dem Verfahren (1) das Erkennen 16, ob die interessanten Punkte sich in ihrer Zusammensetzung über die Zeit unterscheiden. Konkret wird ein Operator zur Bewegungsschätzung verwendet, um eine Bewegung der interessanten Punkte über die Zeit, d.h. einen optischen Fluss, nachzuvollziehen. In der tatsächlichen Berechnung wird die globale Bewegung durch einen Operator zur Bewegungsschätzung erkannt, der eine Bewegungstrajektorie nachvollzieht, indem er eine konstante Intensität entlang der Trajektorie schätzt und, genauer, indem er den Fehler in der Schätzung der optischen Flussgleichung bestimmt. Die unten angegebene Gleichung enthält einen herkömmlichen Operator zur Bewegungsschätzung, wobei angenommen wird, dass die globale Bewegung durch sechs affine Parameter dargestellt werden kann. Unter der Annahme, dass die Pixeldatenintensität entlang einer Bewegungstrajektorie konstant bleibt, ist der Fehler in der optischen Flussgleichung definiert als:
wobei I_x, I_y die Bildableitungen in x und y-Richtung sind; I_t die Pixeldifferenz zwischen den Einzelbildern zur Zeit t und t + 1 ist; S die Menge der Bildpunkte ist, die in der Berechnung verwendet wird; a₀ und a₃ die horizontale und vertikale Verschiebung sind; a₁, a₂, a₄, a₅ Rotation und gleichförmige Skalierung darstellen. Die affinen Parameter a₀ bis a₅ sind im Wesentlichen Koeffizienten einer Transformation, die im Wesentlichen die Berechnung eines minimalen Fehlers über einen optischen Fluss bewirkt, der eine Nachverfolgung der Verschiebung, Skalierung und Rotation der Pixeldaten der ausgewählten interessanten Punkte zulässt. Mit anderen Worten, durch die Berechnung von null Fehlerwerten für die affinen Parameter zwischen Pixeldatendifferenzen zwischen zwei Bildern über die Zeit kann die Bewegung zwischen den Bildern nachverfolgt werden und zur Entscheidung, ob globale Bewegung vorliegt, verwendet werden, wenn eine Schwelle angewendet wird. Unter der Berücksichtigung, dass die Menge „S" alle möglichen Pixelorte interessanter Punkte, die Gegenstand der Berechnung sein könnten, darstellt, und für die gesamten Standbilddaten eine unpraktikabel große Menge an Daten umfasst, führt die Reduktion von Gleichung 1 auf Gleichung 2 bezüglich der affinen Parameter und für eine Menge von interessanten Punkten „B" zu einer wesentlichen Reduktion der zur Lösung der unten angegebenen Gleichung 2 erforderlichen Berechnungen und liefert eine Schätzung für die affinen Parameter.
Der Effekt der Reduktion von Gleichung 1 auf Gleichung 2 bedeutet, dass lediglich die ausgewählten interessanten Punkte mit Bereichen des hohen Gradienten Gegenstand der Berechnung sind, und eliminiert all die Punkte, die keine interessanten Punkte sind, von der gesamten Berechnung. Eine derartige Reduktion ermöglicht eine Echtzeitberechnung der Bewegungsschätzung, das Erkennen der gewünschten globalen Bewegung und schließlich die Auswahl der Schlüsseleinzelbilder.
Schritt 18 (1) umfasst den letzten Berechnungsschritt und umfasst die Anwendung einer Schwelle auf die affinen Parameter, um sie mit bisherigen Schätzungen über eine ausgewählte Zeitperiode zu vergleichen, um zu entscheiden, ob eine globale Bewegung vorliegt oder nicht. Schwellenwerte werden empirisch bestimmt und die Folge ist eine Reduktion des Rauschens. Ein Vergleich bestimmt, ob die geschätzte Bewegung einem Muster folgt oder nicht. Wenn ein Muster erkannt wird, erfasst das System die Einzelbilder mit einer vorausgewählten Rate von Einzelbildern pro Sekunde bis zum Ende der Bewegung. Eine derartige Erfassung umfasst die Auswahl (20) von Schlüsseleinzelbildern aus den Einzelbildern der globalen Bewegung. Eine akzeptable Erfassungsrate ist vier Einzelbilder pro Sekunde bis zum Ende der globalen Bewegung.
Unter besonderer Bezugnahme auf 3 wird ein Flussdiagramm zur Beschreibung der Schritte zur Berechnung der Differenzen der Bewegungsvektoren zwischen aufeinanderfolgenden Einzelbildern zur Verfügung gestellt. Im Schritt 40 wird der Berechnungsprozess initialisiert, wobei „i" die Einzelbildzahl darstellt und „n" die Zahl der Einzelbilder, über die die globale Bewegung beurteilt wird, darstellt. Im Schritt 42 wird die Bewegungsinformation m_i zwischen aufeinanderfolgenden Einzelbildern berechnet und im Schritt 43 der Schwellenfunktion mit Thres0 unterworfen. Im Schritt 44 wird die Bewegungsinformation für das nächste Einzelbild berechnet und im Schritt 45 der Schwellwertfunktion mit Thres0 unterworfen. Die Schwellwertfunktion bestimmt, ob eine hinreichende Bewegung zwischen den Einzelbildern vorliegt, so dass diese Einzelbilder als einer globalen Bewegung unterliegend betrachtet werden können. Im Schritt 46 wird eine Differenzberechnung K_i durchgeführt, und wenn die Differenz der Bewegungsvektoren kleiner ist als ein vorbestimmter Schwellwert, Thres1 wie in Schritt 48 gezeigt, dann ist bekannt, dass die Möglichkeit besteht, dass eine globale Bewegung vorliegt. Da die Schwellwertberechnung aber auch auf Rauschen zurückgeführt werden kann, ist es erforderlich, einen weiteren Parameter zu behalten, um zu erkennen, ob die Bewegung über eine bestimme Zahl von Einzelbildern (Parameter n) anhält. Wenn n über einem bestimmten Schwellwert Thres2 liegt, der ebenfalls ein vorausgewählter Wert ist, dann wird das System die Detektion eines globalen Bewegungsmusters anzeigen. Demzufolge wird im Schritt 50 n erhöht und im Schritt 52 ein Vergleich durchgeführt, um zu bestimmen, ob die Zahl der Einzelbilder, die ausgewertet wurden, größer ist als der vorausgewählte Schwellenwert Thres2. Wenn dies der Fall ist, wird eine globale Bewegung detektiert 54. Alternativ wird, wenn Thres1 nicht erfüllt ist, n reinitialisiert 49, und wenn die erforderliche Zahl von Einzelbildern noch nicht ausgewertet wurde, so dass n kleiner ist als Thres2, so wird die Bewegungsinformation zwischen dem nächsten erhöhten Einzelbild durchgeführt 56. Alle Bereiche der Bewegungsinformation in der Videosequenz können dann bis zum Ende 58 der Videosequenz erkannt werden. In einer bevorzugten Ausführungsform wurde Thres2 auf 7 gesetzt, wobei das Video 20 Bilder pro Sekunde verarbeitete.
Eine Kombination dieser erfinderischen Technik mit einem Szenenschneideprozessor für die gesamten Videodaten ermöglicht es einem Techniker, mehr als ein einziges Einzelbild im Falle einer globalen Bewegung und nur ein einzelnes Einzelbild, wenn keine Bewegung oder lediglich lokale Bewegungen vorliegen, zu erfassen, um eine angemessene Zusammenstellung ausgewählter Schlüsseleinzelbilder, die repräsentativ sind für das gesamte bewegte Video, zu liefern.
Die vorliegende globale Bewegung und das Erkennungsverfahren können mit einem Szenenschnitterkennungsalgorithmus, der auf einer zugehörigen Histogramm- und Pixeldifferenz basiert, kombiniert werden. Ein derartiger Erkennungsalgorithmus kann zunächst das Histogramm und die Einzelbilddifferenzen analysieren, so dass, falls sie beide über einem bestimmten Schwellwert liegen, das Einzelbild als Schlüsseleinzelbild identifiziert wird. Wenn sie unterhalb eines Schwellwerts liegen, wird die Bewegungsinformation unter Verwendung des Gegenstands dieser Erfindung analysiert, so dass, falls eine globale Bewegung erkannt wird, mehr als ein einziges Einzelbild als Schlüsseleinzelbild ausgewählt wird. Die gesamte Kombination ermöglicht es, das bewegte Video auf Szenenschnitte und ausgewählte Schlüsseleinzelbilder globaler Bewegung herunterzudestillieren, so dass die Schlüsseleinzelbilder Schwenks, Zooms und plötzliche Szenenschnitte umfassen können.
Die vorliegende Erfindung wurde unter Bezugnahme auf verschiedene Ausführungsformen im Detail beschrieben. Es ist beabsichtigt, dass verschiedene Abänderungen realisiert werden können, ohne vom Geist der vorliegenden Erfindung abzuweichen. Obwohl die vorliegende Erfindung im Zusammenhang mit dokumentenerzeugenden Ausführungsformen erwähnt wurde, anstelle von Bildern, wie sie im Zusammenhang mit einem Drucksystem beschrieben werden könnten, ist die Erfindung beispielsweise auch anwendbar und leicht realisierbar in einem Anzeigesystem. Darüber hinaus kann die Erfindung leicht in einem ASIC, einer programmierbaren Gatteranordnung, oder als Software realisiert werden, wodurch dieser Prozess in einer Scanner-Vorrichtung, einem elektronischen Teilsystem, Drucker- oder Anzeigevorrichtung platziert werden kann. Zusätzlich wurde erwogen, dass die vorliegende Erfindung in einem Verarbeitungssystem realisiert werden kann, wobei ein Video in einem geeigneten Bereich liegt, um interessante Punkte mit einem hohen Gradienten zu erkennen, und als solches auf jedes Wiedergabesystem, welches nicht notwendigerweise ein binäres oder digitales Verarbeitungssystem ist, anwendbar ist.
Insbesondere ist das Konzept der vorliegenden Erfindung leicht auf eine Farbumgebung wie auch auf eine monochrome oder Schwarz/weiss-Umgebung anwendbar.

Claims

Verfahren zur Auswahl von Schlüsselbildern aus einem Videosignal, wobei die Schlüsselbilder statische Bilder zur Repräsentierung des Videosignals enthalten, umfassend die folgenden Schritte: Segmentieren (12) des Videosignals in eine Mehrzahl statischer Einzelbilder, wobei jedes eine Mehrzahl von Pixeln umfasst, Bestimmen (16) von Unterschieden zwischen den statischen Einzelbildern, Auswählen (20) statischer Einzelbilder des Videosignals als Schlüsselbilder in Abhängigkeit von den bestimmten Unterschieden und Identifizieren (14) bestimmter Pixel aus den statischen Einzelbildern, wobei die bestimmten Pixel wichtige Merkmale des Bildes betreffen, dadurch gekennzeichnet, dass das Bestimmen (16) von Unterschieden globale Bewegung zwischen den Einzelbildern basierend auf den identifizierten bestimmten Pixeln in den statischen Einzelbildern bestimmt.
Verfahren nach Anspruch 1, wobei der Schritt zum Bestimmen (16) globaler Bewegung die folgenden Schritte umfasst: Bestimmen (42) eines ersten Bewegungsparameters (m_i), der die Bewegung zwischen zwei Einzelbildern repräsentiert, Bestimmen (44) eines zweiten Bewegungsparameters (m_i+1), der die Bewegung zwischen zwei auf die Einzelbilder des ersten Bewegungsparameters (m_i) folgenden Einzelbildern repräsentiert, Berechnen (46) einer Differenz (K_i) zwischen den bestimmten Bewegungsparametern (m_i, m_i+1) und Vergleichen (48) der berechneten Differenz (K_i) mit einem vorbestimmten Schwellwert (THRES1), wobei globale Bewegung detektiert wird, wenn die Differenz kleiner als der Schwellwert (THRES1) ist.
Verfahren nach Anspruch 2, wobei globale Bewegung detektiert wird, wenn die globale Bewegungsbestimmung in dem Vergleichsschritt (48) über eine bestimmte Zahl von Einzelbildern (52, 54) andauert.
System zur Auswahl von Schlüsselbildern aus einem Videosignal, wobei die Schlüsselbilder statische Bilder zur Repräsentierung des Videosignals enthalten, umfassend: eine Segmentierungseinrichtung zur Segmentierung des Videosignals in eine Mehrzahl von statischen Einzelbildern, die jeweils eine Mehrzahl von Pixeln umfassen, eine Unterschiedsbestimmungseinrichtung zur Bestimmung von Unterschieden zwischen den statischen Einzelbildern, ein Auswahleinrichtung zur Auswahl statischer Einzelbilder des Videosignals als Schlüsselbilder in Abhängigkeit von der bestimmten globalen Bewegung und eine Pixel-Identifiziereinrichtung zur Identifizierung bestimmter Pixel aus den statischen Einzelbildern, wobei die bestimmten Pixel wichtige Merkmale des Bildes betreffen, dadurch gekennzeichnet, dass die Unterschiedsbestimmungseinrichtung globale Bewegung zwischen den Einzelbildern basierend auf den identifizierten bestimmten Pixeln in den statischen Einzelbildern bestimmt.