DE69932489T2 - Verfahren und System zur merkmalbasierten Echtzeitbewegungsanalyse zur Auswahl von Schlüsselbildern aus einer Videosequenz - Google Patents

Verfahren und System zur merkmalbasierten Echtzeitbewegungsanalyse zur Auswahl von Schlüsselbildern aus einer Videosequenz Download PDF

Info

Publication number
DE69932489T2
DE69932489T2 DE69932489T DE69932489T DE69932489T2 DE 69932489 T2 DE69932489 T2 DE 69932489T2 DE 69932489 T DE69932489 T DE 69932489T DE 69932489 T DE69932489 T DE 69932489T DE 69932489 T2 DE69932489 T2 DE 69932489T2
Authority
DE
Germany
Prior art keywords
frames
motion
static
keyframes
video signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69932489T
Other languages
English (en)
Other versions
DE69932489D1 (de
Inventor
Atac sok Gozde Bozdagi
Robert Chicago Bryll
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Application granted granted Critical
Publication of DE69932489D1 publication Critical patent/DE69932489D1/de
Publication of DE69932489T2 publication Critical patent/DE69932489T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf die Umwandlung bewegter Videodaten in eine repräsentative Zusammenstellung statischer Einzelbilder, die ausgewählte wichtige Informationen des bewegten Videosignals enthaften. Eine derartige Zusammenstellung verbraucht nicht nur weniger Speicherplatz, sondern kann auch einen praktischen Index für das bewegte Videosignal darstellen. Genauer gesagt bezieht sich die vorliegende Erfindung auf die Echtzeitauswahl statischer Schlüsselbilder aus einem Teil des bewegten Videosignals, der eine globale Bewegung enthält, in dem die Datenverarbeitung nur auf bedeutsame interessante Stellen des Videos beschränkt wird.
  • Die Umwandlung von bewegten Videodaten in statische beinhaltet die Repräsentation des bewegten Mediums (Video, Animationen) durch eine Anzahl von Standbilder, die ausgewählte wichtige Informationen des statischen Mediums tragen. Z.B. in dem Fall eines Videos, das aus einer reinen Schwenk- oder Zoomsequenz besteht (d.h. globaler Bewegung), kann eine effiziente Repräsentation das erste, mittlere und letzte Einzelbild des Schwenks oder Zooms enthalten. Im Fall eines Werbevideos, das aus kurzen Abschnitten mit den verschiedenen von einer Firma hergestellten Produkten besteht, kann die effiziente Repräsentation ein einziges Bild eines jeden der in dem Video gezeigten Produkte enthalten. Obwohl es für einen Techniker einfach wäre, diese Bilder herauszufinden, wenn sich der Techniker das ganze Video ansähe, ist eine derartige editorielle Herausarbeitung sehr zeitaufwendig. Demzufolge besteht ein beträchtlicher Bedarf für ein Verfahren und ein System, das die Information bewegter Medien in Echtzeit analysieren kann zum Zwecke der Auswahl von Schlüsselbildern, die hinreichend repräsentativ sind für das bewegte Medium.
  • Die vorliegende Erfindung ist daher insbesondere auf ein verbessertes Echtzeitauswahlverfahren für eine Mehrzahl von Schlüsselbildern aus Szenen mit globaler Bewegung innerhalb des bewegten Videos anwendbar.
  • Das Hauptproblem in der Auswahl der Schlüsselbilder ist die Abschätzung der globalen Bewegung zwischen den Einzelbildern. Techniken im Zeitbereich zur Abschätzung globaler Bewegung können in drei Gruppen eingeteilt werden: Merkmalentsprechungsverfahren, Verfahren basierend auf dem optischen Fluss und direkte Verfahren. Merkmalsentsprechung erfordert, dass eine Zahl von Punktentsprechungen zwischen zwei oder drei Einzelbildern a priori bekannt ist oder geschätzt wird. Die Bewegungsparameter werden aus diesen Entsprechungen berechnet. Die anderen zwei Verfahren erfordern nicht die Bestimmung bestimmter Merkmalspunkte, sondern verwenden stattdessen die Randbedingung des optischen Flusses zwischen zwei korrespondierenden Ansichten. Das Verfahren des optischen Flusses beinhaltet zwei Schritte: die Schätzung des optischen Flussfeldes und die Rekonstruktion der Bewegungsparameter unter Verwendung des geschätzten optischen Flusses. Auf der anderen Seite verwenden die direkten Verfahren nur die raumzeitlichen Intensitätsgradienten des Bildes, um die Bewegung zu schätzen. Viele Bewegungsschätzer aus jeder dieser Kategorien sind in der Literatur vorgeschlagen worden; dennoch haben alle diese Verfahren einige Nachteile und sind ausschließlich für Offline-Berechnungen ausgelegt.
  • Die Datenmenge, die zur Ermittlung der jeweiligen Werte in jedem Pixel eines bewegten Videos erforderlich ist, macht jede der obigen Verfahren aus dem Stand der Technik zur Berechnung von Echtzeitbewegungsschätzungen für die Auswahl repräsentativer statischer Schlüsselbilder eines bewegten Videos unpraktikabel. Demzufolge besteht auch ein Bedarf für ein Verfahren, das die erforderlichen Berechnungen reduzieren kann, so dass sie in Echtzeit ausgeführt werden können, um damit die Nachteile einer verzögerten Offline-Berechnung zu vermeiden.
  • Vikrant Kobla, et al. beschreiben in dem Artikel „Archiving, indexing and retrieval of video in the compressed domain" in den Verhandlungen der SPIE, 1996 eine Videoanalyse in der komprimierten Domäne zur Videoarchivierung. Zu diesem Zweck werden Schlüsselbilder aus den komprimierten Videodaten ausgewählt. Für große Kamerabewegungen, wie Schwenks, können mehr als ein Schlüsselbild erforderlich sein. Die Art der Kamerabewegung, wie Zoom, Schwenk, Kippen, wird auf Basis der MPEG-codierten Bewegungsvektoren bestimmt. Jeder Bewegungs vektor wird mit einem vorbestimmten Einheitsvektor aus 8 Richtungen verglichen. Die Zahl der Bewegungsvektoren, die in jede dieser Einheitsrichtungen fallen, wird gezählt. Für ein Einzelbild wird festgestellt, dass es eine Bewegung entlang einer bestimmten Richtung hat, wenn die Mehrzahl der Bewegungsvektoren in dieser Richtung ausgerichtet ist.
  • EP-A-0-690 413 bezieht sich auf eine automatische zeitliche Segmentierung von Videosequenzen in einzelne Kameraeinstellungen, d.h. eine inhaltsbasierte Schlüsselbildauswahl einzelner Einstellungen. Um scharfe Bildinhaltsschnitte oder Bildinhaltsübergänge zu detektieren, werden Pixeldifferenzen aller Pixel von aufeinanderfolgenden Einzelbildern berechnet, wobei die Einzelbilder einen vordefinierten Abstand haben. Scharte Schnitte und Bildinhaltsübergänge werden basierend auf dem Differenzwert in einer Histogrammdarstellung ermittelt.
  • Die vorliegende Erfindung betrachtet ein neues und verbessertes Verfahren und System, dass die oben genannten und anderen Probleme überwindet, um ein neues Verfahren zur Ermittlung einer globalen Bewegung in einer bewegten Videosequenz zur Verfügung zu stellen, wobei die zugrunde liegenden Berechnungen für die Erzeugung einer Mehrzahl von statischen Schlüsselbildern, die repräsentativ sind für den Teil der Videosequenz mit globaler Bewegung, in Echtzeit ausgeführt werden können.
  • Dies wird durch die Merkmale der angefügten unabhängigen Ansprüche 1 und 4 erreicht. Die bedeutsamen Teile umfassen vorzugsweise die Teile oder Kanten eines Einzelbildes innerhalb der Videosequenz, die Bereiche eines hohen Gradienten enthalten. Die interessanten Punkte, die der Berechnung zugeführt werden, werden weiter reduziert, indem das Einzelbild auf ein Verteilungsgitter aufgeteilt wird und in jeder Gitterzelle nur ein interessanter Punkt ausgewählt wird. Indem lediglich die Unterschiede in den minimierten interessanten Punkten berechnet werden, d.h. bei einer reduzierten Zahl von Pixeln, kann daher die Berechnungszeit minimiert werden und für eine Echtzeitprozessierung der bewegten Videosequenz in eine Menge statischer Einzelbilder beschleunigt werden.
  • Ein Vorteil, der durch die Verwendung der vorliegenden Erfindung erzielt wird, ist die Fähigkeit, gleichzeitig mit dem Empfang des Stroms der Videodaten Pixelwerte der interessanten Punkte zu vergleichen, um die Schlüsselbilder in Echtzeit auszuwählen.
  • Ein anderer Vorteil, der durch die vorliegende Erfindung erzielt wird, ist das Verfahren zur Auswahl interessanter Punkte aus all den zur Verfügung stehenden Pixeln eines Einzelbildes, um die Echtzeitberechnung zu ermöglichen, indem die interessanten Punkte auf Bereiche hoher ausgewählter Bedeutsamkeit, wie solche mit einem hohen Gradienten, der Kantenabschnitte wie einen schwarzweiß Übergang anzeigt, beschränkt. Die interessanten Punkte werden weiter beschränkt, indem das Einzelbild in ein Gitter eingeteilt wird und für jede Gitterzelle nur ein einzelner interessanter Punkt ausgewählt wird. Durch eine Beurteilung von Änderungen in den Werten der interessanten Punkte mit einem herkömmlichen Verarbeitungsoperator zur Fehlerschätzung, können die über das ganze Einzelbild verteilten Punkte überwacht werden zum Zwecke der Erkennung der globalen Bewegung.
  • Die Erfindung kann physikalische Formen annehmen in bestimmten Teilen und Schritten und Anordnungen von Teilen und Schritten. Die bevorzugten und alternativen Ausführungsformen werden in der Beschreibung im Detail beschrieben und in den beigefügten Zeichnungen, die einen Teil hiervon bilden, illustriert, wobei:
  • 1 ein Flussdiagramm des Verarbeitungsverfahrens der vorliegenden Erfindung ist;
  • 2 ein stilisiertes statisches Einzelbild ist, das insbesondere ausgewählte interessante Punkte illustriert; und
  • 3 ein Flussdiagramm des Verarbeitungsverfahrens des Schlüsselbildauswahlprozesses ist.
  • Im Folgenden wird auf die Zeichnungen Bezug genommen, die lediglich zum Zweck der Illustration bevorzugter Ausführungsformen der Erfindung gezeigt werden und nicht zum Zwecke der Beschränkung derselben. Die vorliegende Erfindung richtet sich auf ein Verfahren und ein System zur Erzeugung einer kleineren statischen Repräsentation, d.h. eines zusammengestellten Dokuments, von einer bewegten Videosequenz. Eine derartige Zusammenstellung hat beträchtliche Vorteile hinsichtlich des Speicherverbrauchs, der Leichtigkeit und Bequemlichkeit in der Handhabung und kann zugleich einen praktischen Index für die ursprüngliche bewegte Videodatenbank zur Verfügung stellen. Die vorliegende Erfindung bezieht sich insbesondere auf die Erzeugung einer Zusammenstellung statischer Einzelbilder für einen bestimmten Teil der bewegten Videosequenz, d.h. des Teils, der generell globale Bewegung des Videobildes enthält, wie z.B. einen Panoramaschwenk, Zoomen oder Mitführen des Bildes. Wie oben erwähnt, können die Pixeldaten, die sich mit der globalen Bewegung über die Zeit ändern, eine derartig große Datenmenge umfassen, dass der Versuch, Änderungen in all den Pixeldaten zu überwachen, unpraktikabel wird. Die Erfindung nutzt jedoch die Tatsache aus, dass nicht alle derartigen Änderungen erforderlich sind, um eine befriedigende statische Repräsentation der gesamten globalen Bewegung zu erhalten, wenn nur relativ wenige, ausgewählte Schlüsselbilder aus der gesamten bewegten Videosequenz herausgepflückt werden müssen, um eine adäquate Repräsentation der gesamten vorliegenden globalen Bewegung zu liefern.
  • Ein weiterer wichtiger Aspekt, der im Verlauf der Beschreibung der Erfindung beachtet werden sollte, ist, dass die Verarbeitung zur Ermittlung ausgewählter Schlüsselbilder in Echtzeit erreicht wird, d.h. im Wesentlichen gleichzeitig zur Erfassung der ursprünglichen bewegten Videodaten selbst. Dies überwindet das notorische bisherige Problem der Erfassung und Speicherung einer umfänglichen Menge von Videodaten und der Offline-Verarbeitung der Daten über einen ausgedehnten Zeitraum hinweg zur Ermittlung der Schlüsselbilder, wie es in den Systemen des Standes der Technik getan wurde.
  • Insbesondere unter Bezugnahme auf 1 wird ein Flussdiagramm des Verarbeitungsverfahrens der vorliegenden Erfindung illustriert. Im ersten Schritt umfasst das Verfahren den Empfang 10 des bewegten Videos und das Aufbrechen des Videostroms in einzelne Segmente durch Digitalisierung 12 des Videos in eine zeitliche Sequenz statischer Einzelbilder, wobei jedes Einzelbild ein zweidimensionales Koordinatenfeld einer Anzahl von digitalisierten Bildelementen oder Pixeln mit zugehörigen Pixelsignalpegeln entsprechend eines Szeneninhalts enthält.
  • 2 ist eine stark vereinfachte Illustration eines digitalisierten statischen Einzelbildes, das zwei Personen zeigt, das aber zur Vermittlung der Prinzipien der vorliegenden Erfindung adäquat ist. Das Einzelbild aus 2 ist aus einer Vielzahl von Pixeln mit jeweils einem digitalen Wert zusammengesetzt. Die meisten Systeme des Standes der Technik zur Bewegungsschätzung erfordern die Verarbeitung der Pixeldaten für das gesamte Bild. Die vorliegende Erfindung hat das wichtige Merkmal der Reduktion der Berechnungszeit durch die Ermittlung der Pixeldatendifferenzen für nur einen Teil des gesamten Bildes, wobei die ausgewählten Differenzen verwendet werden, die globale Bewegung zu schätzen, so dass die Berechnung in Echtzeit getan werden kann. Ein Hauptpunkt ist es, nicht nur auf die Teile des Bildes zu schauen, die einfach zu beobachten sind, sondern auch höchstwahrscheinlich Indikatoren für Bewegungen sind, oder gar für globale Bewegungen, wenn sie über eine gewählte Zeitspanne verfolgt werden. Demzufolge ist der dritte Schritt in dem Verfahren aus 1 die Auswahl 14 der geeigneten interessanten Punkte.
  • Die Kanten der Personen in dem Bild aus 2 enthalten Bereiche mit einem hohen Gradienten, die leicht mit einem herkömmlichen Differenzoperator erkannt werden können, um die Pixelorte zu identifizieren, die die interessanten Punkte enthalten. Beispielsweise umfassen all die mit einem „x" markierten Bereiche 30, 32 und 34 auf den Kantenlinien des Bildes einen Teil der Gesamtheit der interessanten Punkte, die in dem Standbild aus 2 identifiziert werden können. Es ist wichtig, zu beachten, dass die interessanten Punkte eine globale Bewegung über die Zeit anzeigen sollen. Operatoren zur Bewegungsschätzung hängen typischerweise von Bildableitungen ab, so dass die Stellen mit einem hohen Gradienten als praktische Faktoren für diese Art der Verarbeitungsberechnung ausgewählt werden. Die Punkte mit hohem Gradienten erhält man mit einem herkömmlichen Differenzoperator (nicht gezeigt) und die Ergebnisse werden mit einer Schwelle verglichen, um alle möglichen Kandidaten für letztlich ausgewählte interessante Punkte zu erhalten. Ein Postprozessor legt im Wesentlichen ein Gitter 36 über das gesamte Bild und reduziert die Zahl der Kandidaten auf einen einzigen interessan ten Punkt innerhalb einer jeden Gitterzelle oder jedes Quadrates, so dass nicht nur die Gesamtzahl der interessanten Punkte reduziert wird, sondern auch eine gleichförmige Verteilung der interessanten Punkte über das Bild sichergestellt wird. Das Gitter wird über das gesamte Bild hinweg angewendet, so dass die interessanten Punkte, die bei 30, 32 und 34 identifiziert wurden, wahrscheinliche Kandidaten sind, die als interessante Punkte ausgewählt werden. Jede Zelle des Gitters ist vorzugsweise aus 8 × 8 Pixeln zusammengesetzt, aber andere Gittergrößen sind möglich.
  • Wenn man bedenkt, dass das Gesamtziel dieser Erfindung das Erkennen einer globalen Bewegung des Bildes ist und nicht, ob lediglich ein Objekt in dem Bild bewegt wird, so liefert die Begrenzung der interessanten Punkte auf einen interessanten Punkt für jede Zelle des Gitters 36 eine zufrieden stellende Verteilung der interessanten Punkte und vermeidet eine starke Anhäufung von interessanten Punkten.
  • Sobald die interessanten Punkte ausgewählt wurden, ist der nächste wichtige Schritt in dem Verfahren (1) das Erkennen 16, ob die interessanten Punkte sich in ihrer Zusammensetzung über die Zeit unterscheiden. Konkret wird ein Operator zur Bewegungsschätzung verwendet, um eine Bewegung der interessanten Punkte über die Zeit, d.h. einen optischen Fluss, nachzuvollziehen. In der tatsächlichen Berechnung wird die globale Bewegung durch einen Operator zur Bewegungsschätzung erkannt, der eine Bewegungstrajektorie nachvollzieht, indem er eine konstante Intensität entlang der Trajektorie schätzt und, genauer, indem er den Fehler in der Schätzung der optischen Flussgleichung bestimmt. Die unten angegebene Gleichung enthält einen herkömmlichen Operator zur Bewegungsschätzung, wobei angenommen wird, dass die globale Bewegung durch sechs affine Parameter dargestellt werden kann. Unter der Annahme, dass die Pixeldatenintensität entlang einer Bewegungstrajektorie konstant bleibt, ist der Fehler in der optischen Flussgleichung definiert als:
    Figure 00070001
    wobei Ix, Iy die Bildableitungen in x und y-Richtung sind; It die Pixeldifferenz zwischen den Einzelbildern zur Zeit t und t + 1 ist; S die Menge der Bildpunkte ist, die in der Berechnung verwendet wird; a0 und a3 die horizontale und vertikale Verschiebung sind; a1, a2, a4, a5 Rotation und gleichförmige Skalierung darstellen. Die affinen Parameter a0 bis a5 sind im Wesentlichen Koeffizienten einer Transformation, die im Wesentlichen die Berechnung eines minimalen Fehlers über einen optischen Fluss bewirkt, der eine Nachverfolgung der Verschiebung, Skalierung und Rotation der Pixeldaten der ausgewählten interessanten Punkte zulässt. Mit anderen Worten, durch die Berechnung von null Fehlerwerten für die affinen Parameter zwischen Pixeldatendifferenzen zwischen zwei Bildern über die Zeit kann die Bewegung zwischen den Bildern nachverfolgt werden und zur Entscheidung, ob globale Bewegung vorliegt, verwendet werden, wenn eine Schwelle angewendet wird. Unter der Berücksichtigung, dass die Menge „S" alle möglichen Pixelorte interessanter Punkte, die Gegenstand der Berechnung sein könnten, darstellt, und für die gesamten Standbilddaten eine unpraktikabel große Menge an Daten umfasst, führt die Reduktion von Gleichung 1 auf Gleichung 2 bezüglich der affinen Parameter und für eine Menge von interessanten Punkten „B" zu einer wesentlichen Reduktion der zur Lösung der unten angegebenen Gleichung 2 erforderlichen Berechnungen und liefert eine Schätzung für die affinen Parameter.
    Figure 00080001
  • Der Effekt der Reduktion von Gleichung 1 auf Gleichung 2 bedeutet, dass lediglich die ausgewählten interessanten Punkte mit Bereichen des hohen Gradienten Gegenstand der Berechnung sind, und eliminiert all die Punkte, die keine interessanten Punkte sind, von der gesamten Berechnung. Eine derartige Reduktion ermöglicht eine Echtzeitberechnung der Bewegungsschätzung, das Erkennen der gewünschten globalen Bewegung und schließlich die Auswahl der Schlüsseleinzelbilder.
  • Schritt 18 (1) umfasst den letzten Berechnungsschritt und umfasst die Anwendung einer Schwelle auf die affinen Parameter, um sie mit bisherigen Schätzungen über eine ausgewählte Zeitperiode zu vergleichen, um zu entscheiden, ob eine globale Bewegung vorliegt oder nicht. Schwellenwerte werden empirisch bestimmt und die Folge ist eine Reduktion des Rauschens. Ein Vergleich bestimmt, ob die geschätzte Bewegung einem Muster folgt oder nicht. Wenn ein Muster erkannt wird, erfasst das System die Einzelbilder mit einer vorausgewählten Rate von Einzelbildern pro Sekunde bis zum Ende der Bewegung. Eine derartige Erfassung umfasst die Auswahl (20) von Schlüsseleinzelbildern aus den Einzelbildern der globalen Bewegung. Eine akzeptable Erfassungsrate ist vier Einzelbilder pro Sekunde bis zum Ende der globalen Bewegung.
  • Unter besonderer Bezugnahme auf 3 wird ein Flussdiagramm zur Beschreibung der Schritte zur Berechnung der Differenzen der Bewegungsvektoren zwischen aufeinanderfolgenden Einzelbildern zur Verfügung gestellt. Im Schritt 40 wird der Berechnungsprozess initialisiert, wobei „i" die Einzelbildzahl darstellt und „n" die Zahl der Einzelbilder, über die die globale Bewegung beurteilt wird, darstellt. Im Schritt 42 wird die Bewegungsinformation mi zwischen aufeinanderfolgenden Einzelbildern berechnet und im Schritt 43 der Schwellenfunktion mit Thres0 unterworfen. Im Schritt 44 wird die Bewegungsinformation für das nächste Einzelbild berechnet und im Schritt 45 der Schwellwertfunktion mit Thres0 unterworfen. Die Schwellwertfunktion bestimmt, ob eine hinreichende Bewegung zwischen den Einzelbildern vorliegt, so dass diese Einzelbilder als einer globalen Bewegung unterliegend betrachtet werden können. Im Schritt 46 wird eine Differenzberechnung Ki durchgeführt, und wenn die Differenz der Bewegungsvektoren kleiner ist als ein vorbestimmter Schwellwert, Thres1 wie in Schritt 48 gezeigt, dann ist bekannt, dass die Möglichkeit besteht, dass eine globale Bewegung vorliegt. Da die Schwellwertberechnung aber auch auf Rauschen zurückgeführt werden kann, ist es erforderlich, einen weiteren Parameter zu behalten, um zu erkennen, ob die Bewegung über eine bestimme Zahl von Einzelbildern (Parameter n) anhält. Wenn n über einem bestimmten Schwellwert Thres2 liegt, der ebenfalls ein vorausgewählter Wert ist, dann wird das System die Detektion eines globalen Bewegungsmusters anzeigen. Demzufolge wird im Schritt 50 n erhöht und im Schritt 52 ein Vergleich durchgeführt, um zu bestimmen, ob die Zahl der Einzelbilder, die ausgewertet wurden, größer ist als der vorausgewählte Schwellenwert Thres2. Wenn dies der Fall ist, wird eine globale Bewegung detektiert 54. Alternativ wird, wenn Thres1 nicht erfüllt ist, n reinitialisiert 49, und wenn die erforderliche Zahl von Einzelbildern noch nicht ausgewertet wurde, so dass n kleiner ist als Thres2, so wird die Bewegungsinformation zwischen dem nächsten erhöhten Einzelbild durchgeführt 56. Alle Bereiche der Bewegungsinformation in der Videosequenz können dann bis zum Ende 58 der Videosequenz erkannt werden. In einer bevorzugten Ausführungsform wurde Thres2 auf 7 gesetzt, wobei das Video 20 Bilder pro Sekunde verarbeitete.
  • Eine Kombination dieser erfinderischen Technik mit einem Szenenschneideprozessor für die gesamten Videodaten ermöglicht es einem Techniker, mehr als ein einziges Einzelbild im Falle einer globalen Bewegung und nur ein einzelnes Einzelbild, wenn keine Bewegung oder lediglich lokale Bewegungen vorliegen, zu erfassen, um eine angemessene Zusammenstellung ausgewählter Schlüsseleinzelbilder, die repräsentativ sind für das gesamte bewegte Video, zu liefern.
  • Die vorliegende globale Bewegung und das Erkennungsverfahren können mit einem Szenenschnitterkennungsalgorithmus, der auf einer zugehörigen Histogramm- und Pixeldifferenz basiert, kombiniert werden. Ein derartiger Erkennungsalgorithmus kann zunächst das Histogramm und die Einzelbilddifferenzen analysieren, so dass, falls sie beide über einem bestimmten Schwellwert liegen, das Einzelbild als Schlüsseleinzelbild identifiziert wird. Wenn sie unterhalb eines Schwellwerts liegen, wird die Bewegungsinformation unter Verwendung des Gegenstands dieser Erfindung analysiert, so dass, falls eine globale Bewegung erkannt wird, mehr als ein einziges Einzelbild als Schlüsseleinzelbild ausgewählt wird. Die gesamte Kombination ermöglicht es, das bewegte Video auf Szenenschnitte und ausgewählte Schlüsseleinzelbilder globaler Bewegung herunterzudestillieren, so dass die Schlüsseleinzelbilder Schwenks, Zooms und plötzliche Szenenschnitte umfassen können.
  • Die vorliegende Erfindung wurde unter Bezugnahme auf verschiedene Ausführungsformen im Detail beschrieben. Es ist beabsichtigt, dass verschiedene Abänderungen realisiert werden können, ohne vom Geist der vorliegenden Erfindung abzuweichen. Obwohl die vorliegende Erfindung im Zusammenhang mit dokumentenerzeugenden Ausführungsformen erwähnt wurde, anstelle von Bildern, wie sie im Zusammenhang mit einem Drucksystem beschrieben werden könnten, ist die Erfindung beispielsweise auch anwendbar und leicht realisierbar in einem Anzeigesystem. Darüber hinaus kann die Erfindung leicht in einem ASIC, einer programmierbaren Gatteranordnung, oder als Software realisiert werden, wodurch dieser Prozess in einer Scanner-Vorrichtung, einem elektronischen Teilsystem, Drucker- oder Anzeigevorrichtung platziert werden kann. Zusätzlich wurde erwogen, dass die vorliegende Erfindung in einem Verarbeitungssystem realisiert werden kann, wobei ein Video in einem geeigneten Bereich liegt, um interessante Punkte mit einem hohen Gradienten zu erkennen, und als solches auf jedes Wiedergabesystem, welches nicht notwendigerweise ein binäres oder digitales Verarbeitungssystem ist, anwendbar ist.
  • Insbesondere ist das Konzept der vorliegenden Erfindung leicht auf eine Farbumgebung wie auch auf eine monochrome oder Schwarz/weiss-Umgebung anwendbar.

Claims (4)

  1. Verfahren zur Auswahl von Schlüsselbildern aus einem Videosignal, wobei die Schlüsselbilder statische Bilder zur Repräsentierung des Videosignals enthalten, umfassend die folgenden Schritte: Segmentieren (12) des Videosignals in eine Mehrzahl statischer Einzelbilder, wobei jedes eine Mehrzahl von Pixeln umfasst, Bestimmen (16) von Unterschieden zwischen den statischen Einzelbildern, Auswählen (20) statischer Einzelbilder des Videosignals als Schlüsselbilder in Abhängigkeit von den bestimmten Unterschieden und Identifizieren (14) bestimmter Pixel aus den statischen Einzelbildern, wobei die bestimmten Pixel wichtige Merkmale des Bildes betreffen, dadurch gekennzeichnet, dass das Bestimmen (16) von Unterschieden globale Bewegung zwischen den Einzelbildern basierend auf den identifizierten bestimmten Pixeln in den statischen Einzelbildern bestimmt.
  2. Verfahren nach Anspruch 1, wobei der Schritt zum Bestimmen (16) globaler Bewegung die folgenden Schritte umfasst: Bestimmen (42) eines ersten Bewegungsparameters (mi), der die Bewegung zwischen zwei Einzelbildern repräsentiert, Bestimmen (44) eines zweiten Bewegungsparameters (mi+1), der die Bewegung zwischen zwei auf die Einzelbilder des ersten Bewegungsparameters (mi) folgenden Einzelbildern repräsentiert, Berechnen (46) einer Differenz (Ki) zwischen den bestimmten Bewegungsparametern (mi, mi+1) und Vergleichen (48) der berechneten Differenz (Ki) mit einem vorbestimmten Schwellwert (THRES1), wobei globale Bewegung detektiert wird, wenn die Differenz kleiner als der Schwellwert (THRES1) ist.
  3. Verfahren nach Anspruch 2, wobei globale Bewegung detektiert wird, wenn die globale Bewegungsbestimmung in dem Vergleichsschritt (48) über eine bestimmte Zahl von Einzelbildern (52, 54) andauert.
  4. System zur Auswahl von Schlüsselbildern aus einem Videosignal, wobei die Schlüsselbilder statische Bilder zur Repräsentierung des Videosignals enthalten, umfassend: eine Segmentierungseinrichtung zur Segmentierung des Videosignals in eine Mehrzahl von statischen Einzelbildern, die jeweils eine Mehrzahl von Pixeln umfassen, eine Unterschiedsbestimmungseinrichtung zur Bestimmung von Unterschieden zwischen den statischen Einzelbildern, ein Auswahleinrichtung zur Auswahl statischer Einzelbilder des Videosignals als Schlüsselbilder in Abhängigkeit von der bestimmten globalen Bewegung und eine Pixel-Identifiziereinrichtung zur Identifizierung bestimmter Pixel aus den statischen Einzelbildern, wobei die bestimmten Pixel wichtige Merkmale des Bildes betreffen, dadurch gekennzeichnet, dass die Unterschiedsbestimmungseinrichtung globale Bewegung zwischen den Einzelbildern basierend auf den identifizierten bestimmten Pixeln in den statischen Einzelbildern bestimmt.
DE69932489T 1998-12-17 1999-12-14 Verfahren und System zur merkmalbasierten Echtzeitbewegungsanalyse zur Auswahl von Schlüsselbildern aus einer Videosequenz Expired - Lifetime DE69932489T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/215,594 US6252975B1 (en) 1998-12-17 1998-12-17 Method and system for real time feature based motion analysis for key frame selection from a video
US215594 1998-12-17

Publications (2)

Publication Number Publication Date
DE69932489D1 DE69932489D1 (de) 2006-09-07
DE69932489T2 true DE69932489T2 (de) 2006-11-23

Family

ID=22803599

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69932489T Expired - Lifetime DE69932489T2 (de) 1998-12-17 1999-12-14 Verfahren und System zur merkmalbasierten Echtzeitbewegungsanalyse zur Auswahl von Schlüsselbildern aus einer Videosequenz

Country Status (4)

Country Link
US (1) US6252975B1 (de)
EP (1) EP1011074B1 (de)
JP (1) JP4666706B2 (de)
DE (1) DE69932489T2 (de)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) * 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US6924832B1 (en) * 1998-08-07 2005-08-02 Be Here Corporation Method, apparatus & computer program product for tracking objects in a warped video image
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
JP4226730B2 (ja) * 1999-01-28 2009-02-18 株式会社東芝 物体領域情報生成方法及び物体領域情報生成装置並びに映像情報処理方法及び情報処理装置
US7006569B1 (en) * 1999-02-05 2006-02-28 Samsung Electronics Co., Ltd. Digital video processing method and apparatus thereof
US6647535B1 (en) * 1999-03-18 2003-11-11 Xerox Corporation Methods and systems for real-time storyboarding with a web page and graphical user interface for automatic video parsing and browsing
US6766098B1 (en) * 1999-12-30 2004-07-20 Koninklijke Philip Electronics N.V. Method and apparatus for detecting fast motion scenes
US6665423B1 (en) * 2000-01-27 2003-12-16 Eastman Kodak Company Method and system for object-oriented motion-based video description
US6842196B1 (en) * 2000-04-04 2005-01-11 Smith & Nephew, Inc. Method and system for automatic correction of motion artifacts
JP3681157B2 (ja) * 2000-06-27 2005-08-10 株式会社東芝 電子透かし検出方法、電子透かし検出装置、領域決定方法、および、記憶媒体
US20020051081A1 (en) * 2000-06-30 2002-05-02 Osamu Hori Special reproduction control information describing method, special reproduction control information creating apparatus and method therefor, and video reproduction apparatus and method therefor
US6834080B1 (en) * 2000-09-05 2004-12-21 Kabushiki Kaisha Toshiba Video encoding method and video encoding apparatus
WO2002101651A2 (en) * 2001-06-11 2002-12-19 Koninklijke Philips Electronics N.V. Feature point selection
KR100396558B1 (ko) * 2001-10-25 2003-09-02 삼성전자주식회사 적응 움직임 보상형 프레임 및/또는 레이트 변환 장치 및그 방법
WO2003051031A2 (en) 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
US7035435B2 (en) * 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
US7047494B2 (en) * 2002-05-07 2006-05-16 Hewlett-Packard Development Company, L.P. Scalable video summarization
JP4070104B2 (ja) * 2002-10-16 2008-04-02 独立行政法人情報通信研究機構 動画像符号化復号方法及び動画像符号化装置並びに動画像復号装置
US20060153447A1 (en) * 2002-12-05 2006-07-13 Seiko Epson Corporation Characteristic region extraction device, characteristic region extraction method, and characteristic region extraction program
EP1645127B1 (de) * 2003-07-08 2010-05-19 Panasonic Corporation Inhaltsspeichersystem, home-server-vorrichtung, informationszuführungsvorrichtung, integrierte schaltung und programm
US7664292B2 (en) * 2003-12-03 2010-02-16 Safehouse International, Inc. Monitoring an output from a camera
US7843512B2 (en) * 2004-03-31 2010-11-30 Honeywell International Inc. Identifying key video frames
US7542588B2 (en) * 2004-04-30 2009-06-02 International Business Machines Corporation System and method for assuring high resolution imaging of distinctive characteristics of a moving object
CN100356781C (zh) * 2004-07-07 2007-12-19 华晶科技股份有限公司 动态影像取样的方法与装置
US7382417B2 (en) * 2004-12-23 2008-06-03 Intel Corporation Method and algorithm for detection of scene cuts or similar images in video images
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
US8666661B2 (en) * 2006-03-31 2014-03-04 The Boeing Company Video navigation
US20070291985A1 (en) * 2006-06-20 2007-12-20 Nils Oliver Krahnstoever Intelligent railyard monitoring system
US20080019661A1 (en) * 2006-07-18 2008-01-24 Pere Obrador Producing output video from multiple media sources including multiple video sources
US20080019669A1 (en) * 2006-07-18 2008-01-24 Sahra Reza Girshick Automatically editing video data
CN101112320B (zh) * 2006-07-28 2010-07-21 深圳迈瑞生物医疗电子股份有限公司 波束合成的接收聚焦参数的实时计算方法及其装置
CN101116622B (zh) 2006-08-02 2010-12-01 深圳迈瑞生物医疗电子股份有限公司 波束合成的接收变迹参数的实时计算方法及其装置
JP4909840B2 (ja) * 2007-08-21 2012-04-04 株式会社東芝 映像処理装置、プログラムおよび方法
CN101373181B (zh) * 2007-08-24 2012-03-21 深圳迈瑞生物医疗电子股份有限公司 实时计算逐点变迹系数的方法及装置
US20090091564A1 (en) * 2007-10-03 2009-04-09 Raju Thevan System and method for rendering electronic documents having overlapping primitives
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US20110110649A1 (en) * 2008-06-19 2011-05-12 Thomson Licensing Adaptive video key frame selection
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US20110191679A1 (en) * 2010-02-02 2011-08-04 Futurewei Technologies, Inc. System and Method for Online Media Preview
US8451384B2 (en) * 2010-07-08 2013-05-28 Spinella Ip Holdings, Inc. System and method for shot change detection in a video sequence
US9602849B2 (en) 2010-09-17 2017-03-21 Futurewei Technologies, Inc. Method and apparatus for scrub preview services
US9288511B2 (en) 2011-02-18 2016-03-15 Futurewei Technologies, Inc. Methods and apparatus for media navigation
CN102819528B (zh) * 2011-06-10 2016-06-29 中国电信股份有限公司 生成视频摘要的方法和装置
AU2011253913A1 (en) 2011-12-08 2013-06-27 Canon Kabushiki Kaisha Band-based patch selection with a dynamic grid
US20170169609A1 (en) * 2014-02-19 2017-06-15 Koninklijke Philips N.V. Motion adaptive visualization in medical 4d imaging
KR101650153B1 (ko) * 2015-03-19 2016-08-23 네이버 주식회사 만화 데이터 편집 방법 및 만화 데이터 편집 장치
US20170316806A1 (en) * 2016-05-02 2017-11-02 Facebook, Inc. Systems and methods for presenting content
JP6747227B2 (ja) * 2016-09-30 2020-08-26 株式会社ニデック 眼底画像観察プログラム
CN106851302B (zh) * 2016-12-22 2019-06-25 国网浙江省电力公司杭州供电公司 一种基于帧内编码压缩域的监控视频运动目标检测方法
CN108288015B (zh) * 2017-01-10 2021-10-22 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
SG11202008143WA (en) 2018-02-26 2020-09-29 Videonetics Tech Private Limited System for computationally efficient analysis of traffic details in traffic video stream and a method thereof
JP6638851B1 (ja) 2018-08-31 2020-01-29 ソニー株式会社 撮像装置、撮像システム、撮像方法および撮像プログラム
TWI820194B (zh) 2018-08-31 2023-11-01 日商索尼半導體解決方案公司 電子機器及固體攝像裝置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05145823A (ja) * 1991-11-25 1993-06-11 Matsushita Electric Ind Co Ltd 動体追尾装置
JP3679426B2 (ja) * 1993-03-15 2005-08-03 マサチューセッツ・インスティチュート・オブ・テクノロジー 画像データを符号化して夫々がコヒーレントな動きの領域を表わす複数の層とそれら層に付随する動きパラメータとにするシステム
WO1995010915A1 (en) * 1993-10-12 1995-04-20 Orad, Inc. Sports event video
JPH07220082A (ja) * 1994-02-04 1995-08-18 Hitachi Ltd パターン処理装置及び降雨量予測システム
US5635982A (en) 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
JPH09223234A (ja) * 1996-02-19 1997-08-26 Oki Electric Ind Co Ltd 動画像処理システムにおける動画像情報検出装置
JP3131560B2 (ja) * 1996-02-26 2001-02-05 沖電気工業株式会社 動画像処理システムにおける動画像情報検出装置
US6037988A (en) * 1996-03-22 2000-03-14 Microsoft Corp Method for generating sprites for object-based coding sytems using masks and rounding average
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
JPH10320566A (ja) * 1997-05-19 1998-12-04 Canon Inc 画像処理装置、画像処理方法及びその方法を記憶した記憶媒体
US5943445A (en) * 1996-12-19 1999-08-24 Digital Equipment Corporation Dynamic sprites for encoding video data
US5784115A (en) 1996-12-31 1998-07-21 Xerox Corporation System and method for motion compensated de-interlacing of video frames

Also Published As

Publication number Publication date
EP1011074A3 (de) 2001-02-21
JP4666706B2 (ja) 2011-04-06
EP1011074B1 (de) 2006-07-26
US6252975B1 (en) 2001-06-26
JP2000182065A (ja) 2000-06-30
EP1011074A2 (de) 2000-06-21
DE69932489D1 (de) 2006-09-07

Similar Documents

Publication Publication Date Title
DE69932489T2 (de) Verfahren und System zur merkmalbasierten Echtzeitbewegungsanalyse zur Auswahl von Schlüsselbildern aus einer Videosequenz
EP0385384B1 (de) Verfahren zur Detektion bewegter Objekte in digitaler Bildfolge
DE69934605T2 (de) Verfahren und Vorrichtung zur Bearbeitung von Videosignalen durch Charakteristischen Punkten Extraktion im komprimierten Bereich.
DE69733992T2 (de) Verfahren zur Verstecken und Extrahieren von Daten
DE602004005358T2 (de) Objektdetektion in bildern
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
DE69629930T2 (de) Verfahren zum Festlegen eines auf einem Objekt angebrachten optischen Codes
DE2831582C2 (de) Verfahren zur Identifizierung einer Person und Vorrichtung zur Durchführung des Verfahrens
DE69635980T2 (de) Verfahren und vorrichtung zur detektierung von objektbewegung in einer bilderfolge
DE112017000816T5 (de) Fahrerassistenzsystem mit variabler Bildauflösung
DE10214079B4 (de) WEB-Camming und Bandbreitensteuerung auf Grundlage der Bewegungs- und Audioerkennung
DE10195927B4 (de) Verallgemeinerte Textlokalisation in Bildern
DE60307583T2 (de) Auswertung der Schärfe eines Bildes der Iris eines Auges
EP2265023A1 (de) Subjektverfolgungseinrichtung und subjektverfolgungsverfahren
EP2555160B1 (de) Erzeugung eines in interessante und uninteressante Bereiche vorsegmentierten Bildes
DE102011056975A1 (de) Digitale Bildstabilisierung
DE112011103690T5 (de) Erkennung und Verfolgung sich bewegender Objekte
DE112013003859T5 (de) Identifizieren von Schlüsselrahmen unter Verwendung einer auf dünner Besiedelung basierenden Gruppenanalyse
DE69732089T2 (de) Vorrichtung und verfahren zur zeitlichen und räumlichen integration und verwaltung einer vielzahl von videos sowie speichermedium zur speicherung eines programms dafür
DE112020004301T5 (de) Objekterkennungsvorrichtung
DE10145608B4 (de) Modellbasierte Objektklassifikation und Zielerkennung
DE10049366A1 (de) Verfahren zum Überwachen eines Sicherheitsbereichs und entsprechendes System
Maalouf et al. Offline quality monitoring for legal evidence images in video-surveillance applications
Li et al. Pulse coupled neural network based image fusion
DE102019132012A1 (de) Verfahren und System zur Detektion von kleinen unklassifizierten Hindernissen auf einer Straßenoberfläche

Legal Events

Date Code Title Description
8364 No opposition during term of opposition