DE60216547T2 - Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten - Google Patents

Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten Download PDF

Info

Publication number
DE60216547T2
DE60216547T2 DE60216547T DE60216547T DE60216547T2 DE 60216547 T2 DE60216547 T2 DE 60216547T2 DE 60216547 T DE60216547 T DE 60216547T DE 60216547 T DE60216547 T DE 60216547T DE 60216547 T2 DE60216547 T2 DE 60216547T2
Authority
DE
Germany
Prior art keywords
video
segment
merge
feature
temporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60216547T
Other languages
English (en)
Other versions
DE60216547D1 (de
Inventor
Alexander C. Rochester Loui
Eastman Kodak Company Daniel Rochester Gatica-Perez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eastman Kodak Co
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Publication of DE60216547D1 publication Critical patent/DE60216547D1/de
Application granted granted Critical
Publication of DE60216547T2 publication Critical patent/DE60216547T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung betrifft allgemein die Verarbeitung und das Sichten von Videomaterial und insbesondere den Zugriff auf und die Organisation und Manipulation von Heimvideos.
  • Unter allen Videoinhaltsquellen stellt unstrukturiertes Videomaterial von Verbrauchern wohl den Inhalt dar, an dessen Handhabung die meisten Menschen schließlich interessiert sind. Die Organisation und Bearbeitung persönlicher Erinnerungen durch Zugriff und Manipulation von Heimvideos stellt eine natürliche technische Erweiterung der herkömmlichen Organisation von Standbildern dar. Obwohl diese Bemühungen mit dem Aufkommen von digitalem Video attraktiv werden, bleiben sie aufgrund der Größe der visuellen Archive und dem Fehlen effizienter Werkzeuge für Zugriff, Organisation und Manipulation von Heimvideoinformationen begrenzt. Die Schaffung derartiger Werkzeuge würde auch die Türen zur Organisation von Videoereignissen in Alben, Videobabybüchern, Postkarteneditionen mit aus Videodaten extrahierten Standbildern sowie Multimedia-Familienwebseiten usw. öffnen. Die Vielzahl der unterschiedlichen Benutzerinteressen lässt eine interaktive Lösung sinnvoll erscheinen, die eine Mindestmenge an Rückmeldungen seitens des Benutzers erfordert, um die gewünschten Aufgaben auf der semantischen Ebene zu spezifizieren, und die automatisierte Algorithmen für solche Aufgaben bereitstellt, die mühsam sind oder die zuverlässig durchgeführt werden können.
  • Im kommerziellen Video haben viele Bewegtbilddokumente Handlungsstrukturen, die sich in dem visuellen Inhalt niederschlagen. In dieser Hinsicht wird ein vollständiges Bewegtbilddokument als Videoclip bezeichnet. Die Grundeinheit zur Produktion von Video ist die Einstellung, mit der eine fortlaufende Handlung erfasst wird. Die Identifizierung von Videoeinstellungen wird durch Schemata zur Erkennung von Szenenänderungen erreicht, die den Anfang und das Ende jeder Einstellung kennzeichnen. Eine Szene ist normalerweise aus einer Anzahl zusammengehöriger Einstellungen zusammengesetzt, die aufgrund des Orts oder des dramaturgischen Ereignisses eine Einheit bilden. Spielfilme setzen sich normalerweise aus einer Reihe von Szenen zusammen, die eine Handlung zum Verständnis des Inhalts des Bewegtbilddokuments definieren.
  • Im Unterschied zum kommerziellen Video sind die uneingeschränkten Inhalte und das Fehlen einer Handlung die Haupteigenschaften von Heimvideo. Videoinhalte von Verbrauchern setzen sich üblicherweise aus einer Reihe von Ereignissen zusammen, die entweder isoliert oder verwandt sind, und von denen jedes aus einer oder einigen wenigen Einstellungen besteht, die willkürlich im zeitlichen Ablauf angeordnet sind. Derartige Kennzeichen machen Videoinhalte von Verbrauchern für eine Videoanalyse, die sich an Handlungsmodellen orientiert, ungeeignet. Allerdings gibt es auch hier eine räumlich-zeitliche Struktur, die auf der visuellen Ähnlichkeit und einer zeitlichen Nähe zwischen den Videosegmenten (Einstellungsmengen) beruht, die nach einer statistischen Analyse einer großen Heimvideodatenbank offensichtlich erscheint. Eine derartige Struktur, die im Wesentlichen äquivalent zu der Struktur von Verbraucher-Standbildern sind, weist darauf hin, dass die Strukturierung von Heimvideomaterial als ein Problem der Zusammenfassung oder Gruppierung zu sehen ist. Die Aufgabe könnte so definiert werden, dass es um die Ermittlung der Zahl der Cluster geht, die in einem gegebenen Videoclip vorhanden sind, sowie um den Entwurf eines Optimierungskriteriums, um jedem Vollbild/jeder Einstellung in einer Videosequenz entsprechende Clusteretikette zuzuweisen. Diese Richtung wurde bislang auch von den meisten Forschungsvorhaben in der Videoanalyse beschritten, sogar beim Umgang mit Inhalten, denen eine Handlungsgeschichte zu Grunde liegt.
  • Beispielsweise wird in US-A-5,821,945 eine Technik zur Extraktion einer hierarchischen Zerlegung einer komplexen Videoauswahl für Sichtungszwecke beschrieben, sowie die Kombination von visuellen und zeitlichen Informationen zur Erfassung der wichtigen Beziehungen innerhalb einer Szene und zwischen Szenen in einem Video. Es wird gesagt, dass die Analyse das Verständnis der zugrundeliegenden Handlungsstruktur ohne vorherige Kenntnis des Inhalts ermöglicht. Derartige Ansätze führen eine Videostrukturierung in Variationen einer Zweistufen-Methodik durch: Erkennung der Videoeinstellungsgrenzen (Einstellungssegmentierung) und Einstellungsgruppierung. Die erste Stufe ist die bei weitem in der Video analyse am meisten untersuchte (siehe z.B. U. Gargi, R. Kasturi und S. H. Strayer, "Performance Characterization of Video-Shot-Change Detection Methods", IEEE CSVT, Band 10, Nr. 1, Februar 2000, Seite 1–13). Für die zweite Stufe, also die Verwendung der Einstellungen als Grundeinheit von Videostrukturen, bedeutet K eine verteilungsgestützte Gruppierung, wobei nach dem Stand der Technik bereits zeitlicht bedingte Verknüpfungstechniken umfassend beschrieben worden sind. Einige dieser Verfahren setzen üblicherweise die Einstellung einer Reihe von Parametern voraus, die entweder anwendungsabhängig oder empirisch über Benutzerrückmeldung ermittelt werden.
  • Wie nach dem Stand der Technik bekannt, eignen sich hierarchische Darstellungen nicht nur von Natur aus zur Darstellung unstrukturierter Inhalte, sondern sind wahrscheinlich der beste Weg, um geeignete nicht lineare Interaktionsmodelle für Sichtung und Manipulation bereitzustellen. Als Nebenprodukt ermöglicht die Gruppierung die Erzeugung hierarchischer Darstellungen der Videoinhalte. Nach dem Stand der Technik sind bereits verschiedene Modelle für die hierarchische Organisation vorgeschlagen worden, beispielsweise Szenenübergangskurven (siehe z.B. das oben genannte US-Patent Nr. 5,821,945), sowie Inhaltstabellen, die auf Baumstrukturen beruhen, obwohl die Effizienz/Nutzbarkeit jedes spezifischen Modells im Allgemeinen ein offenes Thema bleibt.
  • Bislang haben sich nur wenige Arbeiten mit der Analyse von Heimvideomaterial beschäftigt (siehe z.B. G. Iyengar und A. Lippman, "Content-based Browsing and Edition of Unstructured Video", IEEE ICME, New York City, August 2000; R. Lienhart, "Abstracting Home Video Automatically", ACM Multimedia Conference, Orlando, October, 1999, Seite 37–41; und Y. Rui und T. S. Huang, "A Unified Framework for Video Browsing and Retrieval", in A. C. Bovik, Ed., Handbook of Image and Video Processing, Academic Press, 1999). Die Arbeit in dem Artikel von Lienhart nutzt Zeitstempel-Informationen, um eine Gruppierung für die Erzeugung von Videozusammenfassungen durchzuführen. Zeitstempel-Informationen stehen jedoch nicht immer zur Verfügung. Obwohl Digitalkameras diese Informationen beinhalten, wird diese Funktion von den Benutzern nicht immer eingesetzt. Eine allgemeine Lösung kann sich daher nicht auf diese Informationen stützen. Die Arbeit in dem Artikel von Rui und Huang zur Erstellung von Inhaltstabellen anhand sehr einfacher statistischer Annahmen wurde anhand einiger Heimvideos mit „Handlungsstruktur" getestet. Die stark unstrukturierte Art von Heimvideomaterial begrenzt die Anwendung bestimmter Handlungsmodelle relativ stark. Mit Ausnahme des Beitrags von Iyengar und Lippman hat keiner der vorausgehenden Ansätze im Detail die inhärenten Statistiken derartiger Inhalte detailliert analysiert. Aus dieser Sicht bezieht sich die vorliegende Erfindung eher auf die Arbeit von N. Vasconcelos and A. Lippman mit dem Titel "A Bayesian Video Modeling Framework for Shot Segmentation and Content Characterization", Proc. CVPR, 1997, die eine Bayessche Formel zur Erkennung von Einstellungsgrenzen vorschlägt, die auf statistischen Modellen der Einstellungsdauer beruht, sowie auf der Arbeit in dem Beitrag von Iyengar und Lippman, der sich mit der Heimvideoanalyse anhand verschiedener wahrscheinlichkeitstheoretischer Formeln widmet.
  • WO 98 21688 A beschreibt ein Verfahren für die Darstellung, die Speicherung und für den Zugriff auf Videoinformationen, in dem man eine Vielzahl von Vollbildern aus unstrukturiertem Video heranzieht, wobei die Videosegmente erzeugt werden, indem die Einstellungsgrenzen anhand von Attributen erkannt und die Videosegmente zusammengeführt werden.
  • EP 1 067 800 A beschreibt ein Verfahren, in dem die Einstellungsgrenzen anhand von Attributen des Hintergrunds des Vollbildes erkannt werden.
  • US-A-5,710,833 beschreibt ein Verfahren zur Erfassung, Erkennung und Codierung komplexer Subjekte anhand einer wahrscheinlichkeitstheoretischen Eigenraumanalyse, in der ein parametrisches Mischungsmodell benutzt wird, um Wahrscheinlichkeitsdichten von Hauptkomponenten zu ermitteln.
  • Dennoch ist nach dem Stand der Technik nicht klar, dass eine wahrscheinlichkeitstheoretische Methode, in der Videoeinstellungen als Organisationseinheit benutzt werden, die Erstellung einer Videohierarchie für Interaktionszwecke nutzbar wäre. Mit Blick auf die vorliegende Erfindung wurden statistische Modelle von visuellen und zeitlichen Merkmalen in Verbrauchervideomaterial für Organisationszwecke untersucht. Insbesondere erschien eine Bayessche Formel zur Codierung von Wissen nach dem Stand der Technik über die räumlich zeitliche Struktur von Heimvideomaterial geeignet. Im Unterschied zum Stand der Technik beruht der hier beschriebene erfindungsgemäße Ansatz auf einem effizienten wahrscheinlichkeitstheoretischen Algorithmus zur Zusammenführung von Videosegmenten, der Inter-Segmentmerkmale der visuellen Ähnlichkeit, der zeitlichen Nähe und der Dauer in einem gemeinsamen Modell integriert, das die Erzeugung von Videoclustern ohne Ermittlung empirischer Parameter ermöglicht.
  • Die vorliegende Erfindung löst eines oder mehrere der vorstehend genannten Probleme. Zusammenfassend umfasst nach einem Aspekt der vorliegenden Erfindung ein Verfahren zur Videostrukturierung durch wahrscheinlichkeitstheoretisches Zusammenführen von Videosegmenten folgende Schritte: a) Erhalten einer Vielzahl von Vollbildern aus unstrukturiertem Video; b) Erzeugen von Videosegmenten aus dem unstrukturierten Video durch Erfassen von Aufnahme- oder Einstellungsgrenzen, beruhend auf Farbverschiedenheit zwischen aufeinanderfolgenden Vollbildern; c) Extrahieren einer Merkmalsmenge durch Verarbeiten von Segmentpaaren auf visuelle Verschiedenheit und deren zeitliche Beziehung, wodurch ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Intersegment-Beziehungsmerkmal erzeugt wird; d) Zusammenführen von Videosegmenten und e) Wiederholen des genannten Zusammenführungsschritts zum Erzeugen einer Zusammenführungsfolge, welche die Videostruktur in ein einzelnes Segment wandelt. Die Zusammenführung ist dadurch gekennzeichnet, dass sie mit einem Zusammenführungskriterium erfolgt, das die Merkmalsmenge einer wahrscheinlichkeitstheoretischen Analyse unterzieht, wobei diese wahrscheinlichkeitstheoretische Analyse folgende Schritte umfasst: Erzeugen parametrischer Mischungsmodelle zur Darstellung gemeinsamer Wahrscheinlichkeitsdichten von Merkmalsmengen der Segmentpaare, wobei jede Merkmalsmenge ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Beziehungsmerkmal des jeweiligen Segments aufweist; Initialisieren einer Hierarchiereihe durch Einsetzen jeder Merkmalsmenge in die Reihe mit einer Priorität, die gleich der Wahrscheinlichkeit der Zusammenführung jedes entsprechenden Segmentpaares ist; Entleeren der Reihe durch Zusammenführen der Segmente, sofern das Zusammenführungskriterium erfüllt ist; und Aktualisieren des Modells des zusammengeführten Segments und anschließendes Aktualisieren der Reihe anhand des aktualisierten Modells.
  • In dem bevorzugten Ausführungsbeispiel folgt der Wahrscheinlichkeitsanalyse eine Bayessche Formel, und die Zusammenführungsfolge wird in einer hierarchischen Baumstruktur dargestellt, die ein aus jedem Segment extrahiertes Vollbild umfasst.
  • Wie zuvor beschrieben, verwendet diese Erfindung Verfahren zur Strukturierung von Verbrauchervideomaterial anhand wahrscheinlichkeitstheoretischer Modelle. Insbesondere beschreibt die Erfindung eine neuartige Methodik zur Erkennung von Clusterstrukturen in Heimvideos, wobei Videoeinstellungen als Organisationseinheit herangezogen werden. Die Methodik beruht auf zwei Konzepten: (i) der Entwicklung statistischer Modelle (z.B. gemeinsame Gaußsche Mischungsmodelle) zur Darstellung der Verteilung der visuellen Intersegment-Ähnlichkeitmerkmale und Intersegment-Zeitmerkmale, einschließlich einer zeitlichen Nähe und Dauer von Heimvideosegmenten, und (ii) der Umformulierung hierarchischer Gruppierungen (Zusammenführung) als sequenzieller binärer Klassifizierungsprozess. Die Modelle werden in (ii) in einem Algorithmus zur wahrscheinlichkeitstheoretischen Gruppierung verwendet, für den eine Bayessche Formel geeignet ist, weil diese Modelle eine vorherige Kenntnis der statistischen Struktur von Heimvideo beinhalten können, und sie bieten die Vorteile einer auf Grundsätzen beruhenden Methodik. Eine vorherige Kenntnis kann aus der detaillierten Analyse der Clusterstruktur einer realen Heimvideodatenbank extrahiert werden.
  • Der Videostrukturierungsalgorithmus kann erfindungsgemäß effizient implementiert werden und benötigt keine Festlegung von ad-hoc-Parametern. Als Nebenprodukt ermöglicht die Auffindung von Videoclustern die Erzeugung hierarchischer Darstellungen des Videoinhalts, die einen nicht linearen Zugriff auf Sichtung und Manipulation der Inhalte bereitstellen.
  • Ein grundsätzlicher Vorteil der Erfindung ist der, dass sie anhand der leistungsstarken Methodik in Hinsicht auf die Clustererkennung und Etikettierung einzelner Einstellungscluster in der Lage ist, mit unstrukturiertem Videomaterial und mit uneingeschränkten Inhalten zu arbeiten, wie sie in Heimvideos von Verbrauchern zu finden sind. Sie stellt somit den ersten Schritt in der Schaffung von Werkzeugen für ein System zur interaktiven Organisation von und für den Rückgriff auf Heimvideoinformationen dar.
  • Als eine Methodik zur Strukturierung von Verbrauchervideos anhand eines Bayesschen Algorithmus zur Videozusammenführung besteht ein weiterer Vorteil darin, dass das Verfahren den Zusammenführungsprozess ohne eine Ermittlung empirischer Parameter regelt und visuelle und zeitliche Segmentverschiedenheitsmerkmale in ein einziges Modell integriert.
  • Des Weiteren stellt die Darstellung der Zusammenführungsfolge in einer Baumstruktur die Grundlage für eine Benutzeroberfläche bereit, die den hierarchischen, nicht linearen Zugriff auf den Videoinhalt ermöglicht.
  • Die Erfindung wird im Folgenden anhand in der Zeichnung dargestellter Ausführungsbeispiele näher erläutert.
  • Es zeigen:
  • 1 ein Blockdiagramm zur Darstellung einer Funktionsübersicht zur erfindungsgemäßen Videostrukturierung.
  • 2 ein Ablaufdiagramm der in 1 gezeigten Videosegment-Zusammenführungsstufe.
  • 3 eine Verteilungskurve einer Verbraucher-Videoeinstellungsdauer für eine Gruppe von Verbraucherbildern.
  • 4 ein Punktdiagramm von etikettierten Intersegment-Merkmalsvektoren, die aus einem Heimvideo extrahiert wurden.
  • 5 eine Baumstrukturdarstellung wesentlicher Vollbilder aus einem typischen Heimvideo.
  • Da Videoverarbeitungssysteme bekannt sind, die mit einer Analyse der Einstellungsdauer und der Cluster arbeiten, bezieht sich die vorliegende Beschreibung insbesondere auf Attribute, die Teil der erfindungsgemäßen Videostrukturierungstechnik sind oder direkt damit zusammenwirken. Hier nicht gezeigte oder beschriebene Attribute sind aus den nach dem Stand der Technik bekannten wählbar. In der folgenden Beschreibung würde ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung als ein Softwareprogramm implementiert werden, obwohl Fachleute selbstverständlich wissen, dass das Äquivalent zu dieser Hardware auch in Hardware implementierbar ist. Bezogen auf das nachfolgend beschriebene, erfindungsgemäße System ist die hier nicht explizit gezeigte, beschriebene oder vorgesehene Software, die zur Implementierung der vorliegenden Erfindung verwendbar ist, von herkömmlicher Art, wie in der einschlägigen Technik üblich. Wenn die Erfindung als Computerprogramm implementiert wird, kann das Programm auf einem herkömmlichen, computerlesbaren Speichermedium gespeichert werden, beispielsweise auf magnetischen Speichermedien, wie Magnetplatten (z.B. Diskette oder Festplatte) oder auf Magnetband, optischen Speichermedien, wie einer optischen Platte, einem optischen Band oder einem maschinenlesbaren Strichcode, auf Halbleiterspeichervorrichtungen, wie RAM (Random Access Memory) oder ROM (Read Only Memory) oder auf jeder anderen physischen Vorrichtung oder jedem anderen Medium, das zur Speicherung eines Computerprogramms geeignet ist.
  • Der Zugriff, die Organisation und die Manipulation persönlicher Erinnerungen, die in Heimvideos festgehalten sind, stellen eine technische Herausforderung aufgrund der uneingeschränkten Inhalte und des Fehlens einer klaren Handlungsstruktur dar. In der vorliegenden Erfindung wird eine Methodik zur Strukturierung von Verbrauchervideo bereitgestellt, die auf der Entwicklung parametrischer, statistischer Ähnlichkeitsmodelle und der Nähe zwischen den Einstellungen beruht, also den Grundeinheiten der visuellen Informationen in Verbraucher-Videoclips. Eine Bayessche Formel zur Zusammenführung von Einstellungen erscheint eine sinnvolle Wahl, da diese Modelle vorheriges Wissen über die statistische Struktur von Heimvideos codieren können. Die Methodik beruht daher auf der Erkennung von Einstellungsgrenzen und einer Bayesschen Segmentzusammenführung. Gaußsche Mischungsmodelle der visuellen Intersegment-Ähnlichkeit, zeitlichen Nähe und Segmentdauer – wie anhand von Heimvideo-Schulungsproben mithilfe des EM-Algorithmus (Expectation-Maximization-Algorithmus) erlernt – werden zur Darstellung der klassenbedingten Dichten der beobachteten Merkmale verwendet. Derartige Modelle werden dann in einem Zusammenführungsalgorithmus verwendet, der aus einem binären Bayesschen Klassifizierer besteht, wobei die Zusammenführungsordnung durch eine HCF-Variation (Highest Confidence First) bestimmt wird, und wobei das MAP-Kriterium (Maximum A Posteriori) das Zusammenführungskriterium bestimmt. Der Zusammenführungsalgorithmus lässt sich durch Verwendung einer Hierarchiereihe effizient implementieren und benötigt keine empirische Parameterbestimmung. Schließlich stellt die Darstellung der Zusammenführungsfolge in einer Baumstruktur die Grundlage für eine Benutzeroberfläche bereit, die den hierarchischen, nicht linearen Zugriff auf den Videoinhalt ermöglicht.
  • Wie in 1 gezeigt, wirkt das Videostrukturierungsverfahren auf eine Folge von Videovollbildern 8, die aus einer unstrukturierten Videoquelle stammen und typischerweise einen uneingeschränkten Inhalt zeigen, wie er in Verbraucher-Heimvideos vorkommt. Die Über gangsmerkmale des erfindungsgemäßen Videostrukturierungsverfahrens können knapp in den folgenden vier Stufen zusammengefasst werden (die später detaillierter beschrieben werden):
    • 1) Videosegmentierungsstufe 10: Die Einstellungserkennung wird durch eine adaptive Schwellenwertoperation eines Histogramm-Differenzsignals berechnet. 1-D-Farbhistogramme werden im RGB-Raum mit N = 64 Quantisierungsstufen für jedes Band berechnet. Die Metrik L1 wird zur Darstellung der Verschiedenheit dC (t, t + 1) zwischen zwei aufeinanderfolgenden Vollbildern verwendet. Als Nachverarbeitungsschritt wird eine morphologische Hit-or-Miss-Transformation vor Ort auf das binäre Signal mit zwei Strukturierungselementen angewandt, die das Vorhandensein mehrerer benachbarter Einstellungsgrenzen beseitigen.
    • 2) Stufe 12 zur Extraktion von Videoeinstellungsmerkmalen: In der Technik ist bekannt, dass die visuelle Ähnlichkeit nicht ausreicht, um zwischen zwei verschiedenen Videoereignissen zu differenzieren (siehe z.B. den Beitrag von Rui und Huang). In der Technik wurden sowohl Informationen über visuelle Ähnlichkeit als auch Zeit für die Bildung von Einstellungs-Clustern verwendet. (Die statistischen Eigenschaften derartiger Variablen sind unter einer Bayesschen Perspektive allerdings nicht untersucht worden.) In der Erfindung werden drei Hauptmerkmale in einer Videosequenz als Kriterien für eine nachfolgende Zusammenführung verwendet: • Visuelle Ähnlichkeit wird durch das mittlere Segmenthistogramm beschrieben, das die Segmenterscheinung repräsentiert. Das mittlere Histogramm stellt sowohl das Vorhandensein der dominanten Farben als auch deren Beständigkeit in dem Segment dar. • Die zeitliche Trennung zwischen den Segmenten ist ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster. • Die kombinierte zeitliche Dauer von zwei einzelnen Segmenten ist ebenfalls ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster (beispielsweise gehören zwei lange Einstellungen wahrscheinlich nicht zu demselben Videocluster.)
    • 3) Videosegment-Zusammenführungsstufe 14: Dieser Schritt wird durch Formulierung eines Zweiklassen-Musterklassifizierers (zusammenführen/nicht zusammenführen) anhand einer Bayesschen Entscheidungstheorie formuliert. Gaußsche Mischungsmodelle der visuellen Intersegment-Ähnlichkeit, zeitlichen Nähe und Segmentdauer – wie anhand von Heimvideo-Schulungsproben mithilfe des EM-Algorithmus (Expectation-Maximization-Algorithmus) erlernt – werden zur Darstellung der klassenbedingten Dichten der beobachteten Merkmale verwendet. Derartige Modelle werden dann in einem Zusammenführungsalgorithmus verwendet, der aus einem binären Bayesschen Klassifizierer besteht, wobei die Zusammenführungsordnung durch eine HCF-Variation (Highest Confidence First) bestimmt wird, und wobei das MAP-Kriterium (Maximum A Posteriori) das Zusammenführungskriterium bestimmt. Der Zusammenführungsalgorithmus lässt sich durch Verwendung einer Hierarchiereihe effizient implementieren und benötigt keine empirische Parameterbestimmung. Ein Ablaufdiagramm der Zusammenführungsprozedur wird in 2 gezeigt und später detailliert beschrieben.
    • 4) Videosegment-Baumkonstruktionsstufe 16: Die Zusammenführungsfolge, d.h. eine Liste mit einer aufeinanderfolgenden Zusammenführung von Videosegmentpaaren, wird gespeichert und zur Erzeugung einer Hierarchie verwendet, deren Zusammenführungsfolge durch einen binären Partitionsbaum 18 dargestellt wird. 5 zeigt eine Baumdarstellung eines typischen Heimvideos.
  • 1. Der Ansatz im Überblick
  • Es sei angenommen, dass ein Videoclip in Einstellungen oder Segmente unterteilt worden ist (wobei ein Segment aus einer oder mehreren Einstellungen zusammengesetzt ist), und dass die Merkmale, die dieses repräsentieren, extrahiert worden sind. Jedes Clusterverfahren sollte Mechanismen spezifizieren, um jedem Segment in dem Heimvideoclip Clusteretiketten zuzuweisen und die Zahl der Cluster zu ermitteln (wobei ein Cluster ein oder mehrere Segmente umfassen kann). Der Clusterprozess muss die Zeit als Einschränkung beinhalten, da Videoereignisse von begrenzter Dauer sind (siehe z.B. den Beitrag von Rui und Huang). Die Definition eines generischen, generativen Modells für Intrasegment-Merkmale in Heimvideos sind aufgrund ihres uneingeschränkten Inhalts besonders schwierig. Erfindungsgemäß wird Heimvideo stattdessen mithilfe statistischer Intersegmentmodelle analysiert. Mit anderen Worten sieht die Erfindung die Erstellung von Modellen vor, die die Eigenschaften von visuellen und zeitlichen Merkmalen beschreiben, die für Segmentpaare definiert sind. Intersegment-Merkmale treten natürlicherweise in einem zusammengeführten Rahmen auf und integrieren visuelle Verschiedenheit, Dauer und zeitliche Nähe. Ein Zusammenführungsalgorithmus kann als Klassifizierer gesehen werden, der ein Videosegmentpaar nimmt und entscheidet, ob die zusammengeführt werden sollten oder nicht. Es sei angenommen, dass si und sj das ite und das jte Videosegment in einem Videoclip bezeichnen, und dass ε für eine binäre Zufallsvariable (r.v.) steht, die besagt, ob dieses Segmentpaar demselben Cluster entspricht und zusammengeführt werden sollte oder nicht. Die Formulierung des Zusammenführungsprozesses als sequenzielles Zweiklassen-Musterklassifizierungsproblem (zusammenführen/nicht zusammenführen) ermöglicht die Anwendung von Konzepten der Bayesschen Entscheidungstheorie (eine Erörterung der Bayesschen Entscheidungstheorie siehe z.B. R.O. Duda, P.E. Han und D.G. Stork, Pattern Classification, 2. Auflage, John Wiley und Sons, 2000). Das MAP-Kriterium (Maximum A Posteriori) besagt, dass bei einer gegebenen n-dimensionalen Realisierung xij einer Zufallsvariablen x (die die Intersegmentmerkmale darstellt und später detailliert beschrieben wird) die Klasse, die zu wählen ist, diejenige ist, die die A-Posteriori-Wahrscheinlichkeits-Massenfunktion von ε gegeben x maximiert, d.h.,
    Figure 00110001
  • Nach der Bayesschen Regel,
    Figure 00110002
    wobei p(x|ε) für die Wahrscheinlichkeit von x gegeben ε steht, und Pr(ε) für die A-Priori-Verteilung von ε steht und p(x) für die Verteilung der Merkmale steht. Die Anwendung des MAP-Prinzips lässt sich ausdrücken als
    Figure 00110003
    oder in der standardmäßigen Hypothese-Testnotation lässt sich das MAP-Prinzip ausdrücken als
    Figure 00120001
    wobei H1, die Hypothese bezeichnet, dass ein Segmentpaar zusammengeführt werden sollte, und wobei H0 das Gegenteil bezeichnet. Mit dieser Formulierung wird die Klassifizierung von Einstellungspaaren sequenziell durchgeführt, bis ein bestimmtes Stoppkriterium erfüllt ist. Die Aufgaben sind daher die Ermittlung eines sinnvollen Merkmalraums, die Wahl von Modellen für die Verteilungen und die Spezifikation des Zusammenführungsalgorithmus. Jeder dieser Schritte wird in den folgenden Abschnitten der Beschreibung beschrieben.
  • 2. Videosegmentierung
  • Um die Basissegmente zu erzeugen, wird in Stufe 10 die Erkennung der Einstellungsgrenzen mithilfe von Verfahren berechnet, die die Schnitte erkennen, die in Heimvideos üblich sind (siehe z.B. U. Gargi, R. Kasturi und S. H. Strayer, "Performance Characterization of Video-Shot-Change Detection Methods", IEEE CSVT, Band 10, Nr. 1, Februar 2000, Seite 1–13). Eine Übersegmentierung aufgrund von Erkennungsfehlern (z.B. aufgrund von Beleuchtungs- oder Rauschartefakten) lässt sich durch den Clusteralgorithmus behandeln. Außerdem werden Videos von sehr schlechter Qualität entfernt.
  • Bei der Implementierung eines bevorzugten Ausführungsbeispiels der Erfindung wird die Einstellungserkennung mithilfe einer adaptiven Schwellenwertbildung eines Histogramm-Differenzsignals ermittelt. 1-D-Farbhistogramme werden im RGB-Raum mit N = 64 Quantisierungsstufen für jedes Band berechnet. Andere Farbmodelle (LAB oder LUV) könnten verwendet werden und eine bessere Leistung bei der Einstellungserkennung ermöglichen, jedoch zu höheren Berechnungskosten.
  • Die Metrik L1 wird zur Darstellung der Farbverschiedenheit dC (t, t + 1) zwischen zwei aufeinanderfolgenden Vollbildern verwendet:
    Figure 00130001
    wobei h k / t für den Wert des kten Fachs für das verkettete RGB-Histogramm von Vollbild t steht. Das 1-D Signal dC wird dann von einem Schwellenwert binarisiert, der in einem verschiebbaren Fenster berechnet wird, das zum Zeitpunkt t auf die Länge fr/2 mittig gestellt ist, wobei fr die Bildwechselfrequenz (frame rate) bezeichnet.
    Figure 00130002
    wobei μd(t) für den Mittelwert der in dem verschiebbaren Fenster berechneten Verschiedenheiten steht, σd(t) steht für die mittlere Absolutabweichung der Verschiedenheiten in dem Fenster, wobei es sich um einen robusteren Schätzwert der Variabilität einer Datenmenge um deren Mittelwert herum handelt, und k steht für einen Faktor, der das Konfidenzintervall zur Ermittlung des in dem Intervall festgelegten Schwellenwerts einstellt. Aufeinanderfolgende Vollbilder werden daher als zugehörig zu derselben Einstellung betrachtet, wenn s(t) = 0, und eine Einstellungsgrenze zwischen benachbarten Vollbildern wird identifiziert, wenn s(t) = 1.
  • Als Nachverarbeitungsschritt, wird eine morphologische Hit-or-Miss-Transformation vor Ort auf das binäre Signal mit zwei Strukturierungselementen angewandt, die das Vorhandensein mehrerer benachbarter Einstellungsgrenzen beseitigen. b(t) = s(t) ⊗ (e1(t), e2(t))wobei ⊗ Hit-or-Miss bezeichnet, und wobei die Größe der Strukturierungselemente auf den Histogrammen zur Heimvideo-Einstellungsdauer beruht (es ist unwahrscheinlich, dass Heimvideoeinstellungen kürzer als nur einige wenige Sekunden dauern), und auf fr/2 eingestellt wird (siehe Jean Serra: Image Analysis and Mathematical Morphology, Vol. 1, Academic Press, 1982).
  • 3. Definition der Video-Intersegmentmerkmale
  • Ein Merkmalssatz für die visuelle Verschiedenheit, zeitliche Trennung und kumulierte Segmentdauer wird in der Stufe 12 zur Extraktion der Videoeinstellungsmerkmale erzeugt. Die visuelle Verschiedenheit und die zeitlichen Informationen, insbesondere die zeitliche Trennung, sind in der Vergangenheit für die Clusterbildung genutzt worden. Im Falle der visuellen Verschiedenheit und in Bezug auf die Wahrnehmungskraft eines visuellen Merkmals ist klar, dass ein einzelnes Vollbild oft nicht ausreicht, um den Inhalt eines Segments darzustellen. Aus den verschiedenen verfügbaren Lösungen wird das mittlere Farbhistogramm für das Segment ausgewählt, um die Segmentdarstellung zu repräsentieren:
    Figure 00140001
    wobei ht für das tte Farbhistogramm steht, mi für das mittlere Histogramm des Segments si, welches jeweils aus Mi = ei – bi + 1 Vollbildern besteht (bi und ei bezeichnen das Anfangs- und das Endbild des Segments si). Das mittlere Histogramm stellt sowohl das Vorhandensein der dominanten Farben als auch deren Beständigkeit in dem Segment dar. Die Norm L1 der Differenz des mittleren Segmenthistogramms wird benutzt, um zwei Segmente i und j miteinander visuell zu vergleichen,
    Figure 00140002
    wobei aij eine visuelle Verschiedenheit zwischen den Segmenten i und j bezeichnet, B die Zahl der Histogrammfächer, mik den Wert des kten Fachs des mittleren Farbhistogramms des Segments si und mjk den Wert des kten Fachs des mittleren Farbhistogramms des Segments sj.
  • Im Falle der zeitlichen Information ist die zeitliche Information, also die zeitliche Trennung zwischen den Segmenten si und sj, die ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster ist, definiert als βij = min(|ei – bj|,|ej – bi|)(1 – δij)wobei δij für ein Kronecker-Delta, bi, ei für das erste und letzte Vollbild des Segments si und bj, ej für das erste und letzte Vollbild des Segments sj steht.
  • Gleichzeitig ist die kumulierte (kombinierte) Segmentdauer von zwei einzelnen Segmenten ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster. 3 zeigt die empirische Verteilung der Einstellungsdauer von Heimvideos für ca. 660 Einstellungen aus einer Datenbank mit Ground Truth sowie deren Einpassung nach einem Gaußschen Mischungsmodell (siehe nächster Unterabschnitt). (In 3 überlagern sich die empirische Verteilung und ein aus sechs Komponenten bestehendes geschätztes Gaußsches Mischungsmodell. Die Dauer wurde auf die längste in der Datenbank gefundene Dauer (580 s) normalisiert).
  • Obwohl die Videos verschiedenen Szenarien entsprechen und von mehreren Personen gefilmt wurden, ist ein klares Zeitmuster vorhanden (siehe auch den Beitrag von Vasconcelos and Lippman). Die kumulierte Segmentdauer τij ist definiert als τij = card(si) + card(sj)wobei card(s) für die Zahl der Vollbilder in Segment s steht.
  • 4. Modellierung der Wahrscheinlichkeiten und Vorgaben
  • Die statistische Modellierung der Intersegment-Merkmalsmenge wird in der Stufe 14 zur Zusammenführung der Videosegmente erzeugt. Die drei beschriebenen Merkmale werden zu den Komponenten des Merkmalsraums x mit den Vektoren x = (α, β, τ). Um die Trennbarkeit der beiden Klassen zu analysieren, zeigt 4 ein Streudiagramm aus 4000 etikettierten Intersegment-Merkmalsvektoren, die aus Heimvideomaterial extrahiert wurden. (Die Hälfte der Proben entspricht der Hypothese H1, (Segmentpaare gehören zusammen und sind hellgrau etikettiert), die andere Hälfte entspricht der Hypothese H0 (Segmentpaare gehören nicht zusammen und sind dunkelgrau etikettiert). Die Merkmale wurden normalisiert.)
  • Das Diagramm macht deutlich, dass die beiden Klassen im Allgemeinen getrennt sind. Eine Projektion dieses Diagramms veranschaulicht die Grenzen, die eine Berufung auf die reine visuelle Ähnlichkeit hat. Ein parametrisches Mischungsmodell wird für jede der klassenbedingten Dichten der beobachteten Intersegmentmerkmale verwendet.
    Figure 00160001
    wobei Kε für die Zahl der Komponenten in jeder Mischung steht, Pr(c = i) für die A-priori-Wahrscheinlichkeit der iten Komponente, p(x|ε,θi) für das ite pdf, parametrisiert mit θi, und Θ = {Pr(c),{θi}} für die Menge sämtlicher Parameter. In dieser Erfindung werden multivariante Gaußsche Formen für die Komponenten der Mischungen in d-Dimensionen angenommen,
    Figure 00160002
    so dass die Parameter θi die Mittelwerts- μi und Covarianzmatrizen Σi sind (siehe Duda et al., Pattern Classification, op. cit.).
  • Der bekannte EM-Algorithmus (Expectation-Maximization-Algorithmus) stellt die Standardprozedur für die ML-Schätzung (maximale Wahrscheinlichkeit) der Parametermenge Θ dar (siehe A. P. Dempster, N. M. Laird und D. B. Rubin, "Maximum Liklihood from Incomplete Data via the EM Algorithm", Journal of the Royal Statistical Society, Reihe B, 39:1–38, 1977). EM ist eine bekannte Technik, um ML-Schätzungen für einen breiten Bereich von Problemen zu ermitteln, bei denen die beobachteten Daten in gewisser Weise unvollständig sind. Im Falle einer Gaußschen Mischung sind die unvollständigen Daten die unbeobachteten Mischungskomponenten, deren A-priori-Wahrscheinlichkeiten die Parameter {Pr(c)} sind. EM beruht auf einer Steigerung der bedingten Erwartung der logarithmischen Wahrscheinlichkeit der vollständigen Daten, die beobachteten Daten vorausgesetzt, unter Verwendung einer iterativen Hill-Climbing-Prozedur (Gradientenprozedur). Zudem kann die Modellwahl, d.h. die Zahl der Komponenten jeder Mischung, automatisch anhand des MDL-Prinzips (Mini mum Description Length) geschätzt werden (siehe J. Rissanen, "Modeling by Shortest Data Description", Automatica, 14:465–471, 1978).
  • Der allgemeine EM-Algorithmus, der für jede Verteilung gültig ist, beruht auf der Steigerung der bedingten Erwartung der logarithmischen Wahrscheinlichkeit der vollständigen Daten Y, die beobachteten Daten X = {x1, ..., xN} vorausgesetzt: Q(θ|θ(p)) = E{logp(Y|θ)|x,θ(p)}durch Verwendung einer Hill-Climbing-Prozedur. In der vorherigen Gleichung bezeichnet X = h(Y) eine bekannte mehr-eindeutige Funktion (z.B. einen Untermengenoperator), x steht für eine Folge oder einen Vektor von Daten und p steht hochgestellt für eine Iterationszahl. Der EM-Algorithmus iteriert die folgenden beiden Schritte bis zur Konvergenz zwecks Maximierung von Q(θ):
    E-Schritt: Suche die erwartete Wahrscheinlichkeit der vollständigen Daten als eine Funktion von θ, Q(θ|θ(p)).
    M-Schritt: Schätze die Parameter erneut gemäß
    Figure 00170001
  • Mit anderen Worten werden zunächst Werte zur Auffüllung der unvollständigen Daten im E-Schritt geschätzt (mithilfe der bedingten Erwartung der logarithmischen Wahrscheinlichkeit der vollständigen Daten, die beobachteten Daten vorausgesetzt, anstelle der logarithmischen Wahrscheinlichkeit selbst). Dann wird die maximale Wahrscheinlichkeitsparameterschätzung mithilfe des M-Schritts berechnet und so lange wiederholt, bis ein geeignetes Stoppkriterium erreicht ist. EM ist ein iterativer Algorithmus, der ein lokales Maximum der Wahrscheinlichkeit der Probenmenge konvergiert.
  • Für den speziellen Fall der mehrvariablen Gaußschen Modelle sind die vollständigen Daten gegeben durch Y = (X, I), wobei I für die Gaußsche Komponente steht, die zur Erzeugung jeder Probe der beobachteten Daten verwendet wurde. Elementweise y = (x, i), i ∊ {1, ..., Kε}. In diesem Fall nimmt EM eine weitere vereinfachte Form an:
    E-Schritt: Berechne für alle N Schulungsproben und für alle Mischungskomponenten die Wahrscheinlichkeit, dass das Gaußsche i in die Probe xj passe, die aktuelle Schätzung Θ(p) vorausgesetzt.
    Figure 00180001
    M-Schritt: Schätze die Parameter erneut
    Figure 00180002
  • Die mittleren Vektoren und Kovarianzmatrizen für jede Mischungskomponente müssen zunächst initialisiert werden. In dieser Implementierung werden die Mittelwerte mithilfe des traditionellen K-Mittelwertalgorithmus initialisiert, während die Kovarianzmatrizen mit der Identitätsmatrix initialisiert werden. Wie andere Hill-Climbing-Verfahren, so ist die auf Daten basierende Initialisierung normalerweise leistungsstärker als die rein auf Zufall basierende Initialisierung. Bei aufeinanderfolgenden Neustarts der EM-Iteration wird jedem Mittelwert eine kleine Rauschmenge zugefügt, um die im lokalen Maximum einzufangende Prozedur zu mindern.
  • Das Konvergenzkriterium ist anhand der Steigerungsrate für die logarithmische Wahrscheinlichkeit der beobachteten Daten in aufeinanderfolgenden Iterationen definiert,
    Figure 00190001
    d.h. die EM-Iteration ist beendet, wenn
    Figure 00190002
  • Das spezifische Modell, d.h. die Anzahl der Komponenten Kε jeder Mischung wird automatisch mit dem MDL-Prinzip der Mindestbeschreibungslänge geschätzt durch Wahl von
    Figure 00190003
    wobei L(.) die Wahrscheinlichkeit der Schulungsmenge bezeichnet und
    Figure 00190004
    die Zahl der für das Modell benötigten Parameter, die für eine Gaußsche Mischung sind gleich
    Figure 00190005
  • Wenn zwei Modelle in ähnlicher Weise zu den Probendaten passen, wird das einfachere Modell (kleinerer Wert Kε) gewählt.
  • Anstatt unter den Variablen die Unabhängigkeitsvermutung anzuwenden, werden die vollen verbundenen klassenbedingten pdfs geschätzt. Die ML-Schätzung der parametrischen Modelle für p(x|ε = 0) und p(x|ε = 1) anhand des soeben beschriebenen Verfahrens erzeugt Wahrscheinlichkeitsdichten, die in beiden Fällen jeweils durch zehn Komponenten dargestellt werden.
  • Nach dem Bayesschen Ansatz codiert die A-priori-Wahrscheinlichkeits-Massenfunktion Pr(ε) das gesamte vorherige, vorhandene Wissen über das spezifische Problem. In diesem speziellen Fall stellt dies das Wissen oder die Überzeugung hinsichtlich der Eigenschaften des Zusammenführungsprozesses dar (Heimvideo-Cluster bestehen meist nur aus einigen wenigen Einstellungen). Es gibt eine Vielzahl von Lösungen, die untersucht werden können:
    • – Die einfachste Annahme ist Pr(ε = 0) = Pr(ε = 1) = 1/2, die wiederum das MAP-Kriterium zu einem ML-Kriterium macht.
    • – Das A-priori-Wissen kann anhand der Schulungsdaten ML-geschätzt werden (siehe Duda et al., Pattern Classification, op. cit.). Es liegt auf der Hand, dass unter der Annahme; dass die Werte N unabhängig sind, der ML-Estimator des A-priori-Wissens wie folgt ist
      Figure 00200001
      wobei ι(e, k) gleich eins ist, wenn die kte Schulungsprobe zu der Klasse gehört, die dargestellt wird durch ε = e, e ∊ {0,1}, andernfalls null. Mit anderen Worten stellt das A-priori-Wissen einfache Gewichte dar, die durch die verfügbare Evidenz (die Schulungsdaten) ermittelt werden.
    • – Die in dem Zusammenführungsalgorithmus enthaltene Dynamik (im folgenden Abschnitt erläutert) beeinflusst auch das A-priori-Wissen in sequenzieller Weise (es wird erwartet, dass mehr Segmente zu Beginn des Prozesses und weniger zum Ende des Prozesses zusammengeführt werden). Mit anderen Worten kann das A-priori-Wissen anhand dieser Rationale dynamisch aktualisiert werden.
  • 5. Videosegment-Clusterbildung
  • Der Zusammenführungsalgorithmus wird in der Stufe 14 zur Zusammenführung der Videosegmente implementiert. Jeder Zusammenführungsalgorithmus benötigt drei Elemente: ein Merkmalsmodell, eine Zusammenführungsordnung, ein Zusammenführungskriterium (L. Garrido, P. Salembier, D. Garcia, "Extensive Operators in Partition Lattices for Image Sequence Analysis", Sign. Proc., 66(2): 157–180, 1998). Die Zusammenführungsordnung bestimmt, welche Cluster einer Prüfung auf mögliche Zusammenführung bei jedem Prozessschritt unterzogen werden sollten. Das Zusammenführungskriterium entscheidet, ob die Zusammenführung erfolgen sollte oder nicht. Das Merkmalsmodell jedes Clusters sollte aktualisiert werden, wenn eine Zusammenführung erfolgt. Das vorliegende Videosegment-Clusterverfahren verwendet diese allgemeine Formulierung, gestützt auf die in dem vorausgehenden Abschnitt entwickelten statistischen Intersegmentmodelle. In dem vorliegenden Algorithmus werden die Klassenbedingungen benutzt, um sowohl die Zusammenführungsordnung als auch das Zusammenführungskriterium zu definieren.
  • Zusammenführungsalgorithmen lassen sich effizient implementieren, indem man benachbarte Kurven und hierarchische Reihen benutzt, die eine prioritätsgestützte Verarbeitung ermöglichen. Den zu verarbeitenden Elementen wird eine Priorität zugewiesen und sie werden dementsprechend in die Reihe eingeordnet. Anschließend ist das in jedem Schritt extrahierte Element dasjenige mit der höchsten Priorität. Hierarchische Reihen sind mittlerweile traditionelle Instrumente in der mathematischen Morpohologie. Ihre Verwendung in der Bayesschen Bildanalyse wurde zuerst von C. Chou und C. Brown in "The Theory and Practice of Bayesian Image Labeling", IJCV, 4, Seite 185–210, 1990, mit dem HCF-Optimierungsverfahren (Highest Confidence First) beschrieben. Das zugrundeliegende Konzept ist auf Anhieb attraktiv: bei jedem Schritt sollten Entscheidungen anhand des Informationsteils getroffen werden, das die höchste Gewissheit aufweist. In jüngster Zeit wurden ähnliche Formulierungen in der morphologischen Verarbeitung vorgestellt.
  • Wie in 2 gezeigt, umfasst das Segmentzusammenführungsverfahren zwei Stufen: eine Reiheninitialisierungsstufe 20 und eine Reihenaktualisierungs-/Reihenentleerungsstufe 30. Der Zusammenführungsalgorithmus umfasst einen binären Bayesschen Klassifizierer, wobei die Zusammenführungsordnung durch eine HCF-Variation (Highest Confidence First) bestimmt wird, und wobei das MAP-Kriterium (Maximum A Posteriori) das Zusammenführungskriterium bestimmt.
  • Reiheninitialisierung. Zu Beginn (22) des Prozesses werden die Zwischeneinstellungs-Merkmale xij für alle Paare aus benachbarten Einstellungen in dem Videomaterial berechnet. Jedes Merkmal xij wird in die Reihe mit der Priorität eingeführt (24), die der Wahrscheinlichkeit der Zusammenführung der entsprechenden Einstellungspaare Pr(ε = 1|xij) entspricht.
  • Reihenentleerung/-aktualisierung. Die Definition der Priorität ermöglicht es, stets Entscheidungen über die Segmentpaare von höchster Gewissheit zu treffen. Bis die Reihe leer ist (32), läuft das Verfahren wie folgt ab:
    • 1. Extrahiere in der Elementextraktionsstufe 34 ein Element (Segmentpaar) aus der Reihe. Dieses Element ist dasjenige mit der höchsten Priorität.
    • 2. Wende das MAP-Kriterium (36) an, um die Segmentpaare zusammenzuführen, d.h. p(xij|ε = 1) Pr (ε = 1) > p (xij|ε = 0) Pr(ε = 0)
    • 3. Wenn die Segmente zusammengeführt werden (der Pfad 38 bezeichnet die Anwendung der Hypothese H1) aktualisiere das Modell des zusammengeführten Segments in der Segmentmodell-Aktualisierungsstufe 40, dann aktualisiere die Reihe in der Reihenaktualisierungsstufe 42 anhand des neuen Modells und fahre mit Schritt 1 fort. Wenn die Segmente nicht zusammengeführt werden (der Pfad 44 bezeichnet die Anwendung der Hyphothese H0), fahre fort mit Schritt 1.
  • Wenn ein Segmentpaar zusammengeführt wird, wird das Modell des neuen Segments si aktualisiert durch
    Figure 00220001
    Figure 00230001
  • Nachdem das Modell des (neuen) zusammengeführten Segments aktualisiert worden ist, müssen vier Funktionen zur Aktualisierung der Reihe implementiert werden:
    • 1. Extrahiere aus der Reihe alle Elemente, die die ursprünglich einzelnen (und jetzt zusammengeführten) Segmente beinhalten.
    • 2. Berechne die neuen Intersegmentmerkmale x = (α, β, τ) anhand des aktualisierten Modells.
    • 3. Berechne die neuen Prioritäten Pr(ε =1|xij).
    • 4. Füge in die Elementreihe gemäß der neuen Prioritäten ein.
  • Im Unterschied zu zahlreichen vorherigen Verfahren (wie in dem Beitrag von Rui und Huang beschrieben), bedarf diese Formulierung keiner Bestimmung von empirischen Parametern.
  • Die Zusammenführungsfolge, d.h. eine Liste mit einer aufeinanderfolgenden Zusammenführung von Videosegmentpaaren, wird gespeichert und zur Erzeugung einer Hierarchie verwendet. Zur Visualisierung und Manipulation wird nach Entleerung der hierarchischen Reihe in dem Zusammenführungsalgorithmus eine weitere Zusammenführung von Videosegmenten zugelassen, um eine vollständige Zusammenführungsfolge zu erstellen, die zu einem einzelnen Segment konvergiert wird (dem gesamten Videoclip). Die Zusammenführungsfolge wird durch den Partitionsbaum 18 (1) dargestellt, der bekanntermaßen eine effiziente Struktur zur hierarchischen Darstellung visueller Inhalte ist und einen Ausgangspunkt für die Benutzerinteraktion bereitstellt.
  • 6. Visualisierung der Videohierarchie.
  • 5 zeigt ein Beispiel einer Baumdarstellungsstufe 50. Ein Prototyp einer Schnittstelle zur Anzeige der Baumdarstellung des analysierten Heimvideos kann auf Schlüsselbildern basie ren, d.h. einem für jedes Segment extrahierten Vollbild. Eine Funktionsmenge, die die Manipulation (Korrektur, Erweiterung, Reorganisation) der automatisch erzeugten Videocluster zusammen mit Clusterwiedergabe und anderen VCR-Funktionen ermöglicht, kann auf die Darstellung angewandt werden. Der Benutzer kann das Videomaterial über diese Baumdarstellung sichten, Vorschau-Clips abrufen und das Video bearbeiten.
  • Reihenbasierende Verfahren mit real bewerteten Prioritäten lassen sich mithilfe binärer Suchbäume sehr effizient mit einfachen Operationen aus Einfügen, Löschen und Minimum-/Maximum-Lage implementieren. In dem bevorzugten Ausführungsbeispiel der Erfindung bezieht sich die Implementierung auf die Beschreibung von L. Garrido, P. Salembier, D. Garcia, "Extensive Operators in Partition Lattices for Image Sequence Analysis", Signal Processing (66), 2, 1998, Seite 157–180.
  • Die Zusammenführungsfolge, d.h. eine Liste mit einer aufeinanderfolgenden Zusammenführung von Videosegmentpaaren, wird gespeichert und zur Erzeugung einer Hierarchie verwendet. Die erste Stufe 52 in der Hierarchie ist durch Schlüsselbilder aus den einzelnen Segmenten definiert, die durch die Videosegmentierungsstufe 10 bereitgestellt werden. Die zweite Stufe 54 in der Hierarchie ist durch die Schlüsselbilder aus den Clustern definiert, die von dem in der Segmentzusammenführungsstufe 14 erzeugten Algorithmus erzeugt werden.
  • Zur Visualisierung und Manipulation wird nach Entleerung der hierarchischen Reihe in dem Zusammenführungsalgorithmus eine weitere Zusammenführung von Videosegmenten zugelassen, um eine vollständige Zusammenführungsfolge zu erstellen, die zu einem einzelnen Segment konvergiert wird (d.h. die Schlüsselbildstufe 56 stellt den gesamten Videoclip dar). Der gesamte Videoclip stellt somit die dritte Stufe der Hierarchie dar. Die Zusammenführungsfolge wird durch den binären Partitionsbaum (BPT) dargestellt, der bekanntermaßen eine effiziente Struktur zur hierarchischen Darstellung visueller Inhalte ist. In einem BPT hat jeder Knoten (mit Ausnahme der Blätter, die den Ausgangseinstellungen entsprechen) zwei Kinder. (P. Salembier, L. Garrido, "Binary Partition Tree as an Efficient Representation for Filtering, Segmentation, and Information Retrieval", IEEE Intl. Conference on Image Processing, ICIP '98, Chicago, Illinois, USA, 4.–7. Oktober, 1998.) Der BPT stellt zudem den Ausgangspunkt zur Erstellung eines Instruments für die Benutzeraktion dar.
  • Die Baumdarstellung stellt eine bedienerfreundliche Oberfläche zur Visualisierung und Manipulation (Verifizierung, Korrektur, Erweiterung, Reorganisation) der automatisch erzeugten Videocluster bereit. Angesichts der Allgemeinheit des Heimvideomaterials und der Vielzahl der Benutzervorlieben können manuelle Rückmeldemechanismen die Erstellung von Videoclustern verbessern und den Benutzern zusätzlich die Gelegenheit geben, aktiv mit ihren Videos umzugehen.
  • In einer einfachen Oberfläche zur Anzeige der Baumdarstellung 50 des Zusammenführungsprozesses würde ein Implementierungsprogramm eine Zusammenführungsfolge lesen und den Binärbaum aufbauen, wobei jeder Knoten der Folge von einem aus jedem Segment extrahierten Vollbild dargestellt wird. Ein Zufallsbild stellt jedes Blatt (Einstellung) des Baums dar. Jeder Elternknoten wird von dem Zufallskindbild mit einer kleineren Einstellungsnummer dargestellt. (Der Begriff „Zufallsbild" könnte anstelle von „Schlüsselbild" bevorzugt werden, weil dessen Wahl keinen Aufwand verursacht). Zudem sei darauf hingewiesen, dass die in 5 gezeigte Einstellung zur Visualisierung des Zusammenführungsprozesses, zur Identifizierung fehlerhafter Cluster oder zur allgemeinen Anzeige dienlich ist, wenn die Anzahl der Einstellungen klein ist, wobei diese Anzeige jedoch sehr umfassend werden kann, wenn die ursprüngliche Zahl der Einstellungen groß ist.
  • Eine zweite Version der Oberfläche könnte nur die drei Hierarchiestufen anzeigen, d.h. die Blätter des Baums, die Cluster, die als Ergebnis des wahrscheinlichkeitstheoretischen Zusammenführungsalgorithmus erzielt wurden, und den vollständigen Videoknoten. Diese Betriebsart würde eine interaktive Reorganisation der Zusammenführungsfolge ermöglichen, so dass der Benutzer Videosegmente unter den Clustern frei austauschen oder Cluster aus mehreren Videoclips kombinieren kann, usw. Die Integration sonstiger gewünschter Merkmale in jede der beiden Oberflächen, wie z.B. der Wiedergabe von Vorschausequenzen beim Anklicken der Baumknoten sowie VCR-Funktionen, dürfte einschlägigen Fachleuten klar sein.
  • Die vorliegende Erfindung wurde mit Bezug auf ein bestimmtes Ausführungsbeispiel beschrieben. Es sei jedoch darauf hingewiesen, dass Abwandlungen und Modifikationen von Fachleuten vorgenommen werden können, ohne vom Geltungsbereich und Umfang der Erfindung abzuweichen. Zwar wurde das bevorzugte Ausführungsbeispiel der Erfindung zur Verwendung mit Heimvideos von Verbrauchern beschrieben, aber selbstverständlich kann die Erfindung ohne weiteres an andere Anwendungen angepasst werden, beispielsweise, aber nicht abschließend, an die Zusammenfassung und Konzepterarbeitung von digitalen Filmen im Allgemeinen, für die Organisation von Videomaterialien aus Nachrichten und produktbezogenen Gesprächen, für Bebilderungsanwendungen im Gesundheitswesen, die Bewegung beinhalten usw.

Claims (10)

  1. Verfahren zur Videostrukturierung durch wahrscheinlichkeitstheoretisches Zusammenführen von Videosegmenten mit folgenden Schritten: a) Erhalten einer Vielzahl von Vollbildern aus unstrukturiertem Video (8); b) Erzeugen von Videosegmenten aus dem unstrukturierten Video durch Erfassen von Aufnahmegrenzen, beruhend auf Farbverschiedenheit zwischen aufeinanderfolgenden Vollbildern (10); c) Extrahieren einer Merkmalsmenge durch Verarbeiten von Segmentpaaren auf visuelle Verschiedenheit und deren zeitliche Beziehung, wodurch ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Intersegment-Beziehungsmerkmal erzeugt wird; und d) Zusammenführen von Videosegmenten (14); e) Wiederholen des genannten Zusammenführungsschritts zum Erzeugen einer Zusammenführungsfolge, welche die Videostruktur in ein einzelnes Segment (16) wandelt; dadurch gekennzeichnet, dass das Zusammenführen mit einem Zusammenführungskriterium erfolgt, das die Merkmalsmenge einer wahrscheinlichkeitstheoretischen Analyse unterzieht, wobei diese wahrscheinlichkeitstheoretische Analyse folgende Schritte umfasst: Erzeugen parametrischer Mischungsmodelle zur Darstellung gemeinsamer Wahrscheinlichkeitsdichten von Merkmalsmengen der Segmentpaare, wobei jede Merkmalsmenge ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Beziehungsmerkmal des jeweiligen Segments aufweist; Initialisieren einer Hierarchiereihe (24) durch Einsetzen jeder Merkmalsmenge in die Reihe mit einer Priorität, die gleich der Wahrscheinlichkeit der Zusammenführung jedes entsprechenden Segmentpaares ist; Entleeren der Reihe durch Zusammenführen der Segmente, sofern das Zusammenführungskriterium erfüllt ist; und Aktualisieren des Modells des zusammengeführten Segments (40) und anschließendes Aktualisieren der Reihe anhand des aktualisierten Modells (42).
  2. Verfahren nach Anspruch 1, worin die zeitlichen Intersegment-Beziehungsmerkmale zeitliche Nähe und Zeitdauer umfassen.
  3. Verfahren nach Anspruch 1 oder 2, worin Schritt b) folgende Schritte umfasst: Erzeugen von Farbhistogrammen aus aufeinanderfolgenden Vollbildern; Erzeugen eines Differenzsignals aus den Farbhistogrammen, das die Farbverschiedenheit zwischen aufeinanderfolgenden Vollbildern darstellt; und Anwenden einer Schwellenwertoperation auf das Differenzsignal, gestützt auf eine mittlere Verschiedenheit, die über einer Vielzahl von Vollbildern ermittelt worden ist, wodurch ein Signal entsteht, das das Vorhandensein einer Aufnahmegrenze anzeigt.
  4. Verfahren nach Anspruch 3, worin das Differenzsignal auf einer mittleren Verschiedenheit beruht, die über einer Vielzahl von Vollbildern ermittelt worden ist, zentriert auf einem der aufeinanderfolgenden Vollbilder und nach der Anzahl der Vollbilder einem Bruchteil der Bildwechselfrequenz der Videoerfassung entsprechend.
  5. Verfahren nach Anspruch 3 mit zudem dem Schritt der morphologischen Transformation des einer Schwellenwertoperation unterzogenen Differenzsignals mit einem Strukturierungselementpaar, das das Vorhandensein mehrfacher, benachbarter Aufnahmegrenzen beseitigt.
  6. Verfahren nach Anspruch 1 oder 2, worin die Verarbeitung der Segmentpaare auf visuelle Verschiedenheit in Schritt c) die Schritte des Berechnens eines mittleren Farbhistogramms für jedes Segment und des Berechnens einer visuellen Verschiedenheitsmerkmalsmetrik aus der Differenz zwischen mittleren Farbhistogrammen von Segmentpaaren umfasst.
  7. Verfahren nach Anspruch 1, worin die Verarbeitung von Segmentpaaren auf ihre zeitliche Beziehung in Schritt c) die Verarbeitung von Segmentpaaren auf eine zeitliche Trennung zwischen Segmentpaaren und auf eine akkumulierte zeitliche Dauer zwischen Segmentpaaren umfasst.
  8. Verfahren nach Anspruch 1 oder 2, worin Schritt d) mithilfe eines Bayesschen Algorithmus durchgeführt wird.
  9. Verfahren nach Anspruch 1 oder 2, worin die Darstellung der Zusammenführungsfolge in einer hierarchischen Baumstruktur (18) erfolgt.
  10. Computerspeichermedium mit darauf gespeicherten Anweisungen zur Veranlassung eines Computers, das Verfahren nach Anspruch 1 oder 2 auszuführen.
DE60216547T 2001-08-09 2002-07-29 Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten Expired - Lifetime DE60216547T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US927041 2001-08-09
US09/927,041 US7296231B2 (en) 2001-08-09 2001-08-09 Video structuring by probabilistic merging of video segments

Publications (2)

Publication Number Publication Date
DE60216547D1 DE60216547D1 (de) 2007-01-18
DE60216547T2 true DE60216547T2 (de) 2007-09-27

Family

ID=25454072

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60216547T Expired - Lifetime DE60216547T2 (de) 2001-08-09 2002-07-29 Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten

Country Status (4)

Country Link
US (2) US7296231B2 (de)
EP (1) EP1286278B1 (de)
JP (1) JP4197905B2 (de)
DE (1) DE60216547T2 (de)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7075683B1 (en) * 1999-02-15 2006-07-11 Canon Kabushiki Kaisha Dynamic image digest automatic editing system and dynamic image digest automatic editing method
KR100694238B1 (ko) * 2000-09-28 2007-03-14 가부시키가이샤 리코 구조편집방법, 영상구조편집방법, 오브젝트의 내용구조관리방법, 오브젝트의 내용구조표시방법, 컨텐츠관리방법 및 기록매체
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7082572B2 (en) * 2002-12-30 2006-07-25 The Board Of Trustees Of The Leland Stanford Junior University Methods and apparatus for interactive map-based analysis of digital video content
US7127127B2 (en) * 2003-03-04 2006-10-24 Microsoft Corporation System and method for adaptive video fast forward using scene generative models
KR100609154B1 (ko) * 2003-05-23 2006-08-02 엘지전자 주식회사 비디오 콘텐츠 재생 방법 및 장치
US7292737B2 (en) * 2003-08-15 2007-11-06 Microsoft Corporation Unified bayesian framework for shape registration
KR100590537B1 (ko) * 2004-02-18 2006-06-15 삼성전자주식회사 복수 영상의 요약 방법 및 장치
JP4511850B2 (ja) * 2004-03-03 2010-07-28 学校法人早稲田大学 人物属性識別方法およびそのシステム
US7653241B2 (en) * 2004-07-15 2010-01-26 Nippon Telegraph And Telephone Corporation Signal detection method, signal detection system, signal detection processing program, and recording medium recorded with program thereof
JP4660736B2 (ja) * 2004-09-24 2011-03-30 独立行政法人産業技術総合研究所 動画像時間分割処理方法および装置
US7640218B2 (en) * 2005-01-18 2009-12-29 Fuji Xerox Co., Ltd. Efficient methods for temporal event clustering of digital photographs
US7735111B2 (en) * 2005-04-29 2010-06-08 The Directv Group, Inc. Merging of multiple encoded audio-video streams into one program with source clock frequency locked and encoder clock synchronized
US7561206B2 (en) * 2005-06-29 2009-07-14 Microsoft Corporation Detecting progressive video
US7551234B2 (en) * 2005-07-28 2009-06-23 Seiko Epson Corporation Method and apparatus for estimating shot boundaries in a digital video sequence
KR100703801B1 (ko) * 2005-10-21 2007-04-06 삼성전자주식회사 Av 태스크 계산 방법, av 태스크 계산을 위한 요약정보 제공 방법 및 이를 위한 장치
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US9554093B2 (en) 2006-02-27 2017-01-24 Microsoft Technology Licensing, Llc Automatically inserting advertisements into source video content playback streams
JP4377887B2 (ja) * 2006-03-30 2009-12-02 株式会社東芝 映像分割装置
US8009193B2 (en) * 2006-06-05 2011-08-30 Fuji Xerox Co., Ltd. Unusual event detection via collaborative video mining
US8064662B2 (en) * 2006-07-17 2011-11-22 Siemens Medical Solutions Usa, Inc. Sparse collaborative computer aided diagnosis
ITTO20060534A1 (it) * 2006-07-20 2008-01-21 Si Sv El S P A Gestione automatica di archivi digitali in particolare di file audio e/o video
US20080127270A1 (en) * 2006-08-02 2008-05-29 Fuji Xerox Co., Ltd. Browsing video collections using hypervideo summaries derived from hierarchical clustering
BRPI0720802B1 (pt) * 2007-02-01 2021-10-19 Briefcam, Ltd. Método e sistema para gerar uma sinopse de vídeo de uma fonte de fluxo de vídeo ininterrupta como a gerada por uma câmera de segurança de vídeo
US20080231741A1 (en) * 2007-03-21 2008-09-25 Mcintyre Dale F Camera with multiple displays
US20080231740A1 (en) * 2007-03-21 2008-09-25 Mcintyre Dale F Camera with multiple displays
US8154600B2 (en) * 2007-04-20 2012-04-10 Utc Fire & Security Americas Corporation, Inc. Method and system for distributed multiple target tracking
US8874468B2 (en) 2007-04-20 2014-10-28 Google Inc. Media advertising
WO2008152556A1 (en) * 2007-06-15 2008-12-18 Koninklijke Philips Electronics N.V. Method and apparatus for automatically generating summaries of a multimedia file
US20080319844A1 (en) * 2007-06-22 2008-12-25 Microsoft Corporation Image Advertising System
US9304994B2 (en) * 2007-08-30 2016-04-05 At&T Intellectual Property Ii, L.P. Media management based on derived quantitative data of quality
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US8654255B2 (en) * 2007-09-20 2014-02-18 Microsoft Corporation Advertisement insertion points detection for online video advertising
US9106804B2 (en) * 2007-09-28 2015-08-11 Gracenote, Inc. Synthesizing a presentation of a multimedia event
AU2007231756B2 (en) * 2007-10-30 2011-04-07 Canon Kabushiki Kaisha A method of segmenting videos into a hierachy of segments
US20090171787A1 (en) * 2007-12-31 2009-07-02 Microsoft Corporation Impressionative Multimedia Advertising
US8804005B2 (en) 2008-04-29 2014-08-12 Microsoft Corporation Video concept detection using multi-layer multi-instance learning
JP5231928B2 (ja) * 2008-10-07 2013-07-10 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
WO2010055242A1 (fr) * 2008-11-13 2010-05-20 France Telecom Procede de decoupage de contenu multimedia, dispositif et programme d'ordinateur correspondant
US8207989B2 (en) * 2008-12-12 2012-06-26 Microsoft Corporation Multi-video synthesis
JP5159654B2 (ja) * 2009-01-23 2013-03-06 株式会社東芝 映像処理装置および映像処理方法
US9190110B2 (en) 2009-05-12 2015-11-17 JBF Interlude 2009 LTD System and method for assembling a recorded composition
US9400842B2 (en) 2009-12-28 2016-07-26 Thomson Licensing Method for selection of a document shot using graphic paths and receiver implementing the method
US11232458B2 (en) * 2010-02-17 2022-01-25 JBF Interlude 2009 LTD System and method for data mining within interactive multimedia
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US8923607B1 (en) 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US8621355B2 (en) * 2011-02-02 2013-12-31 Apple Inc. Automatic synchronization of media clips
US9396757B2 (en) * 2011-06-21 2016-07-19 Nokia Technologies Oy Video remixing system
US8706675B1 (en) * 2011-08-29 2014-04-22 Google Inc. Video content claiming classifier
US9020294B2 (en) * 2012-01-18 2015-04-28 Dolby Laboratories Licensing Corporation Spatiotemporal metrics for rate distortion optimization
KR20130111061A (ko) * 2012-03-30 2013-10-10 한국전자통신연구원 이진 분할 트리를 이용한 영상 인코딩 방법
US9015201B2 (en) * 2012-04-24 2015-04-21 Honeywell International Inc. Discriminative classification using index-based ranking of large multimedia archives
CN103578094B (zh) * 2012-07-20 2016-07-13 清华大学 镜头分割方法
US8818037B2 (en) * 2012-10-01 2014-08-26 Microsoft Corporation Video scene detection
CN103235806B (zh) * 2013-04-19 2016-04-20 北京理工大学 基于时空关系的互联网视频片段间关系识别方法
US10311496B2 (en) * 2013-09-14 2019-06-04 DemoChimp, Inc. Web-based automated product demonstration
US9501719B1 (en) * 2013-10-28 2016-11-22 Eyecue Vision Technologies Ltd. System and method for verification of three-dimensional (3D) object
US9792957B2 (en) 2014-10-08 2017-10-17 JBF Interlude 2009 LTD Systems and methods for dynamic video bookmarking
US9436876B1 (en) 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
JP6421669B2 (ja) * 2015-03-26 2018-11-14 富士通株式会社 評価方法、評価プログラム、及び評価装置
US10331787B2 (en) * 2015-04-06 2019-06-25 Omniscience Corporation Distributed storytelling framework for intelligence analysis
US10460765B2 (en) 2015-08-26 2019-10-29 JBF Interlude 2009 LTD Systems and methods for adaptive and responsive video
WO2017040632A2 (en) 2015-08-31 2017-03-09 Omniscience Corporation Event categorization and key prospect identification from storylines
US9971904B2 (en) * 2015-09-30 2018-05-15 Robert Bosch Gmbh Method and system for range search on encrypted data
US11856271B2 (en) 2016-04-12 2023-12-26 JBF Interlude 2009 LTD Symbiotic interactive video
US10282632B1 (en) * 2016-09-21 2019-05-07 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video
US10268898B1 (en) * 2016-09-21 2019-04-23 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video via segments
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11050809B2 (en) 2016-12-30 2021-06-29 JBF Interlude 2009 LTD Systems and methods for dynamic weighting of branched video paths
CN109982066B (zh) * 2017-12-27 2021-02-02 浙江宇视科技有限公司 诊断颗粒计算方法、装置及可读存储介质
US10257578B1 (en) 2018-01-05 2019-04-09 JBF Interlude 2009 LTD Dynamic library display for interactive videos
CN112836687B (zh) * 2018-05-10 2024-05-10 北京影谱科技股份有限公司 视频行为分割方法、装置、计算机设备及介质
US11601721B2 (en) 2018-06-04 2023-03-07 JBF Interlude 2009 LTD Interactive video dynamic adaptation and user profiling
CN109086774B (zh) * 2018-08-02 2021-09-03 武汉大学 基于朴素贝叶斯的彩色图像二值化方法和系统
US11490047B2 (en) 2019-10-02 2022-11-01 JBF Interlude 2009 LTD Systems and methods for dynamically adjusting video aspect ratios
US11093755B2 (en) * 2019-11-19 2021-08-17 International Business Machines Corporation Video segmentation based on weighted knowledge graph
US11245961B2 (en) 2020-02-18 2022-02-08 JBF Interlude 2009 LTD System and methods for detecting anomalous activities for interactive videos
CN112149575B (zh) * 2020-09-24 2024-05-24 新华智云科技有限公司 从视频中自动筛选具有汽车部位片段的方法
CN114501165A (zh) * 2020-10-23 2022-05-13 国家广播电视总局广播电视科学研究院 视频结构化表示方法、装置及电子设备
US11882337B2 (en) 2021-05-28 2024-01-23 JBF Interlude 2009 LTD Automated platform for generating interactive videos
US11934477B2 (en) 2021-09-24 2024-03-19 JBF Interlude 2009 LTD Video player integration within websites

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664227A (en) 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US5805733A (en) 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US5821945A (en) 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US5969755A (en) * 1996-02-05 1999-10-19 Texas Instruments Incorporated Motion based event detection system and method
US5675382A (en) * 1996-04-08 1997-10-07 Connectix Corporation Spatial compression and decompression for video
US5828809A (en) 1996-10-01 1998-10-27 Matsushita Electric Industrial Co., Ltd. Method and apparatus for extracting indexing information from digital video data
JP2001503895A (ja) 1996-11-15 2001-03-21 サーノフ コーポレイション ビデオ情報を効果的に表示、保存、およびアクセスするための方法および装置
US6263507B1 (en) * 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US5963653A (en) * 1997-06-19 1999-10-05 Raytheon Company Hierarchical information fusion object recognition system and method
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6249285B1 (en) * 1998-04-06 2001-06-19 Synapix, Inc. Computer assisted mark-up and parameterization for scene analysis
US6278466B1 (en) * 1998-06-11 2001-08-21 Presenter.Com, Inc. Creating animation from a video
US6721454B1 (en) * 1998-10-09 2004-04-13 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US6263103B1 (en) * 1998-11-30 2001-07-17 Mitsubishi Electric Research Laboratories, Inc. Estimating scenes using statistical properties of images and scenes
EP1067800A4 (de) 1999-01-29 2005-07-27 Sony Corp Verfahren zur signalverarbeitung und vorrichtung zur verarbeitung von bild/ton
US6373979B1 (en) * 1999-01-29 2002-04-16 Lg Electronics, Inc. System and method for determining a level of similarity among more than one image and a segmented data structure for enabling such determination
US6462754B1 (en) * 1999-02-22 2002-10-08 Siemens Corporate Research, Inc. Method and apparatus for authoring and linking video documents
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
KR100741300B1 (ko) * 1999-07-06 2007-07-23 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 시퀀스 구조의 자동 추출 방법
US6489989B1 (en) * 1999-09-15 2002-12-03 Electric Planet, Inc. System, method and article of manufacture for executing a video setup protocol
US6642940B1 (en) * 2000-03-03 2003-11-04 Massachusetts Institute Of Technology Management of properties for hyperlinked video
US6747707B2 (en) * 2000-03-31 2004-06-08 Matsushita Electric Industrial Co., Ltd. Data editing system for finally editing a recording medium using received compressed data
US6616529B1 (en) * 2000-06-19 2003-09-09 Intel Corporation Simulation and synthesis of sports matches
US7624337B2 (en) * 2000-07-24 2009-11-24 Vmark, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US20020157116A1 (en) * 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing

Also Published As

Publication number Publication date
JP2003069924A (ja) 2003-03-07
US20080059885A1 (en) 2008-03-06
EP1286278A2 (de) 2003-02-26
US7296231B2 (en) 2007-11-13
US20030058268A1 (en) 2003-03-27
JP4197905B2 (ja) 2008-12-17
EP1286278B1 (de) 2006-12-06
EP1286278A3 (de) 2003-03-05
DE60216547D1 (de) 2007-01-18

Similar Documents

Publication Publication Date Title
DE60216547T2 (de) Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten
DE60307224T2 (de) Computergestütztes verfahren zur entdeckung von mustern in unbekannten hochdimensionalen daten
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
DE69723346T2 (de) Verfahren zum auf eine Wahrscheinlichkeitsfunktion basierten Wiederauffinden von Bildern
EP2089886B1 (de) Verfahren zur zeitlichen segmentierung eines videos in videobildfolgen und zur auswahl von keyframes für das auffinden von bildinhalten unter einbeziehung einer subshot-detektion
DE10195927B4 (de) Verallgemeinerte Textlokalisation in Bildern
DE60116717T2 (de) Vorrichtung und Verfahren zur Erzeugungung von objekt-markierten Bildern in einer Videosequenz
DE60317053T2 (de) Verfahren und Vorrichtung zur Darstellung einer Bildgruppe
DE602004008984T2 (de) Verfahren zur Erkennung von farbigen Objekten in digitalen Bildern
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE60210199T2 (de) Verfahren zur erkennung von motivbereichen in bildern
DE10195928B4 (de) Abschätzen der Textfarbe und Segmentieren von Bildern
DE60215063T2 (de) System und verfahren zur ermittlung von bildähnlichkeiten
DE60111851T2 (de) Videobildsegmentierungsverfahren unter verwendung von elementären objekten
DE602004003497T2 (de) System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen
DE102013210375A1 (de) Auffinden von text in natürlichen szenen
DE102017010210A1 (de) Bild-Matting mittels tiefem Lernen
DE112017006136T5 (de) System und Verfahren zur CNN-Schichtenteilung
DE60307583T2 (de) Auswertung der Schärfe eines Bildes der Iris eines Auges
DE102018007937A1 (de) Entfernen und Ersetzen von Objekten in Bildern entsprechend einem geführten Nutzerdialog
DE112017002821T5 (de) Verfahren, System und Computerprogrammprodukt zur interaktiven Identifizierung von gleichen Personen oder Objekten in Videoaufnahmen
Torralba et al. Tiny images
DE69732089T2 (de) Vorrichtung und verfahren zur zeitlichen und räumlichen integration und verwaltung einer vielzahl von videos sowie speichermedium zur speicherung eines programms dafür
DE102008056603A1 (de) Verfahren und Vorrichtungen zur Messung von Markenexposition in Medienstreams und zur Festlegung von Interessenbereichen in zugeordneten Videoframes
DE112013003859T5 (de) Identifizieren von Schlüsselrahmen unter Verwendung einer auf dünner Besiedelung basierenden Gruppenanalyse

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: LOUI, ALEXANDER C., ROCHESTER, NEW YORK, US

Inventor name: GATICA-PEREZ, EASTMAN KODAK COMPANY, DANIEL, R, US

8364 No opposition during term of opposition