DE60216547T2

DE60216547T2 - Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten

Info

Publication number: DE60216547T2
Application number: DE60216547T
Authority: DE
Inventors: Alexander C. Rochester Loui; Eastman Kodak Company Daniel Rochester Gatica-Perez
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2001-08-09
Filing date: 2002-07-29
Publication date: 2007-09-27
Anticipated expiration: 2022-07-30
Also published as: JP2003069924A; US20080059885A1; EP1286278A2; US7296231B2; US20030058268A1; JP4197905B2; EP1286278B1; EP1286278A3; DE60216547D1

Description

Die vorliegende Erfindung betrifft allgemein die Verarbeitung und das Sichten von Videomaterial und insbesondere den Zugriff auf und die Organisation und Manipulation von Heimvideos.
Unter allen Videoinhaltsquellen stellt unstrukturiertes Videomaterial von Verbrauchern wohl den Inhalt dar, an dessen Handhabung die meisten Menschen schließlich interessiert sind. Die Organisation und Bearbeitung persönlicher Erinnerungen durch Zugriff und Manipulation von Heimvideos stellt eine natürliche technische Erweiterung der herkömmlichen Organisation von Standbildern dar. Obwohl diese Bemühungen mit dem Aufkommen von digitalem Video attraktiv werden, bleiben sie aufgrund der Größe der visuellen Archive und dem Fehlen effizienter Werkzeuge für Zugriff, Organisation und Manipulation von Heimvideoinformationen begrenzt. Die Schaffung derartiger Werkzeuge würde auch die Türen zur Organisation von Videoereignissen in Alben, Videobabybüchern, Postkarteneditionen mit aus Videodaten extrahierten Standbildern sowie Multimedia-Familienwebseiten usw. öffnen. Die Vielzahl der unterschiedlichen Benutzerinteressen lässt eine interaktive Lösung sinnvoll erscheinen, die eine Mindestmenge an Rückmeldungen seitens des Benutzers erfordert, um die gewünschten Aufgaben auf der semantischen Ebene zu spezifizieren, und die automatisierte Algorithmen für solche Aufgaben bereitstellt, die mühsam sind oder die zuverlässig durchgeführt werden können.
Im kommerziellen Video haben viele Bewegtbilddokumente Handlungsstrukturen, die sich in dem visuellen Inhalt niederschlagen. In dieser Hinsicht wird ein vollständiges Bewegtbilddokument als Videoclip bezeichnet. Die Grundeinheit zur Produktion von Video ist die Einstellung, mit der eine fortlaufende Handlung erfasst wird. Die Identifizierung von Videoeinstellungen wird durch Schemata zur Erkennung von Szenenänderungen erreicht, die den Anfang und das Ende jeder Einstellung kennzeichnen. Eine Szene ist normalerweise aus einer Anzahl zusammengehöriger Einstellungen zusammengesetzt, die aufgrund des Orts oder des dramaturgischen Ereignisses eine Einheit bilden. Spielfilme setzen sich normalerweise aus einer Reihe von Szenen zusammen, die eine Handlung zum Verständnis des Inhalts des Bewegtbilddokuments definieren.
Im Unterschied zum kommerziellen Video sind die uneingeschränkten Inhalte und das Fehlen einer Handlung die Haupteigenschaften von Heimvideo. Videoinhalte von Verbrauchern setzen sich üblicherweise aus einer Reihe von Ereignissen zusammen, die entweder isoliert oder verwandt sind, und von denen jedes aus einer oder einigen wenigen Einstellungen besteht, die willkürlich im zeitlichen Ablauf angeordnet sind. Derartige Kennzeichen machen Videoinhalte von Verbrauchern für eine Videoanalyse, die sich an Handlungsmodellen orientiert, ungeeignet. Allerdings gibt es auch hier eine räumlich-zeitliche Struktur, die auf der visuellen Ähnlichkeit und einer zeitlichen Nähe zwischen den Videosegmenten (Einstellungsmengen) beruht, die nach einer statistischen Analyse einer großen Heimvideodatenbank offensichtlich erscheint. Eine derartige Struktur, die im Wesentlichen äquivalent zu der Struktur von Verbraucher-Standbildern sind, weist darauf hin, dass die Strukturierung von Heimvideomaterial als ein Problem der Zusammenfassung oder Gruppierung zu sehen ist. Die Aufgabe könnte so definiert werden, dass es um die Ermittlung der Zahl der Cluster geht, die in einem gegebenen Videoclip vorhanden sind, sowie um den Entwurf eines Optimierungskriteriums, um jedem Vollbild/jeder Einstellung in einer Videosequenz entsprechende Clusteretikette zuzuweisen. Diese Richtung wurde bislang auch von den meisten Forschungsvorhaben in der Videoanalyse beschritten, sogar beim Umgang mit Inhalten, denen eine Handlungsgeschichte zu Grunde liegt.
Beispielsweise wird in US-A-5,821,945 eine Technik zur Extraktion einer hierarchischen Zerlegung einer komplexen Videoauswahl für Sichtungszwecke beschrieben, sowie die Kombination von visuellen und zeitlichen Informationen zur Erfassung der wichtigen Beziehungen innerhalb einer Szene und zwischen Szenen in einem Video. Es wird gesagt, dass die Analyse das Verständnis der zugrundeliegenden Handlungsstruktur ohne vorherige Kenntnis des Inhalts ermöglicht. Derartige Ansätze führen eine Videostrukturierung in Variationen einer Zweistufen-Methodik durch: Erkennung der Videoeinstellungsgrenzen (Einstellungssegmentierung) und Einstellungsgruppierung. Die erste Stufe ist die bei weitem in der Video analyse am meisten untersuchte (siehe z.B. U. Gargi, R. Kasturi und S. H. Strayer, "Performance Characterization of Video-Shot-Change Detection Methods", IEEE CSVT, Band 10, Nr. 1, Februar 2000, Seite 1–13). Für die zweite Stufe, also die Verwendung der Einstellungen als Grundeinheit von Videostrukturen, bedeutet K eine verteilungsgestützte Gruppierung, wobei nach dem Stand der Technik bereits zeitlicht bedingte Verknüpfungstechniken umfassend beschrieben worden sind. Einige dieser Verfahren setzen üblicherweise die Einstellung einer Reihe von Parametern voraus, die entweder anwendungsabhängig oder empirisch über Benutzerrückmeldung ermittelt werden.
Wie nach dem Stand der Technik bekannt, eignen sich hierarchische Darstellungen nicht nur von Natur aus zur Darstellung unstrukturierter Inhalte, sondern sind wahrscheinlich der beste Weg, um geeignete nicht lineare Interaktionsmodelle für Sichtung und Manipulation bereitzustellen. Als Nebenprodukt ermöglicht die Gruppierung die Erzeugung hierarchischer Darstellungen der Videoinhalte. Nach dem Stand der Technik sind bereits verschiedene Modelle für die hierarchische Organisation vorgeschlagen worden, beispielsweise Szenenübergangskurven (siehe z.B. das oben genannte US-Patent Nr. 5,821,945), sowie Inhaltstabellen, die auf Baumstrukturen beruhen, obwohl die Effizienz/Nutzbarkeit jedes spezifischen Modells im Allgemeinen ein offenes Thema bleibt.
Bislang haben sich nur wenige Arbeiten mit der Analyse von Heimvideomaterial beschäftigt (siehe z.B. G. Iyengar und A. Lippman, "Content-based Browsing and Edition of Unstructured Video", IEEE ICME, New York City, August 2000; R. Lienhart, "Abstracting Home Video Automatically", ACM Multimedia Conference, Orlando, October, 1999, Seite 37–41; und Y. Rui und T. S. Huang, "A Unified Framework for Video Browsing and Retrieval", in A. C. Bovik, Ed., Handbook of Image and Video Processing, Academic Press, 1999). Die Arbeit in dem Artikel von Lienhart nutzt Zeitstempel-Informationen, um eine Gruppierung für die Erzeugung von Videozusammenfassungen durchzuführen. Zeitstempel-Informationen stehen jedoch nicht immer zur Verfügung. Obwohl Digitalkameras diese Informationen beinhalten, wird diese Funktion von den Benutzern nicht immer eingesetzt. Eine allgemeine Lösung kann sich daher nicht auf diese Informationen stützen. Die Arbeit in dem Artikel von Rui und Huang zur Erstellung von Inhaltstabellen anhand sehr einfacher statistischer Annahmen wurde anhand einiger Heimvideos mit „Handlungsstruktur" getestet. Die stark unstrukturierte Art von Heimvideomaterial begrenzt die Anwendung bestimmter Handlungsmodelle relativ stark. Mit Ausnahme des Beitrags von Iyengar und Lippman hat keiner der vorausgehenden Ansätze im Detail die inhärenten Statistiken derartiger Inhalte detailliert analysiert. Aus dieser Sicht bezieht sich die vorliegende Erfindung eher auf die Arbeit von N. Vasconcelos and A. Lippman mit dem Titel "A Bayesian Video Modeling Framework for Shot Segmentation and Content Characterization", Proc. CVPR, 1997, die eine Bayessche Formel zur Erkennung von Einstellungsgrenzen vorschlägt, die auf statistischen Modellen der Einstellungsdauer beruht, sowie auf der Arbeit in dem Beitrag von Iyengar und Lippman, der sich mit der Heimvideoanalyse anhand verschiedener wahrscheinlichkeitstheoretischer Formeln widmet.
WO 98 21688 A beschreibt ein Verfahren für die Darstellung, die Speicherung und für den Zugriff auf Videoinformationen, in dem man eine Vielzahl von Vollbildern aus unstrukturiertem Video heranzieht, wobei die Videosegmente erzeugt werden, indem die Einstellungsgrenzen anhand von Attributen erkannt und die Videosegmente zusammengeführt werden.
EP 1 067 800 A beschreibt ein Verfahren, in dem die Einstellungsgrenzen anhand von Attributen des Hintergrunds des Vollbildes erkannt werden.
US-A-5,710,833 beschreibt ein Verfahren zur Erfassung, Erkennung und Codierung komplexer Subjekte anhand einer wahrscheinlichkeitstheoretischen Eigenraumanalyse, in der ein parametrisches Mischungsmodell benutzt wird, um Wahrscheinlichkeitsdichten von Hauptkomponenten zu ermitteln.
Dennoch ist nach dem Stand der Technik nicht klar, dass eine wahrscheinlichkeitstheoretische Methode, in der Videoeinstellungen als Organisationseinheit benutzt werden, die Erstellung einer Videohierarchie für Interaktionszwecke nutzbar wäre. Mit Blick auf die vorliegende Erfindung wurden statistische Modelle von visuellen und zeitlichen Merkmalen in Verbrauchervideomaterial für Organisationszwecke untersucht. Insbesondere erschien eine Bayessche Formel zur Codierung von Wissen nach dem Stand der Technik über die räumlich zeitliche Struktur von Heimvideomaterial geeignet. Im Unterschied zum Stand der Technik beruht der hier beschriebene erfindungsgemäße Ansatz auf einem effizienten wahrscheinlichkeitstheoretischen Algorithmus zur Zusammenführung von Videosegmenten, der Inter-Segmentmerkmale der visuellen Ähnlichkeit, der zeitlichen Nähe und der Dauer in einem gemeinsamen Modell integriert, das die Erzeugung von Videoclustern ohne Ermittlung empirischer Parameter ermöglicht.
Die vorliegende Erfindung löst eines oder mehrere der vorstehend genannten Probleme. Zusammenfassend umfasst nach einem Aspekt der vorliegenden Erfindung ein Verfahren zur Videostrukturierung durch wahrscheinlichkeitstheoretisches Zusammenführen von Videosegmenten folgende Schritte: a) Erhalten einer Vielzahl von Vollbildern aus unstrukturiertem Video; b) Erzeugen von Videosegmenten aus dem unstrukturierten Video durch Erfassen von Aufnahme- oder Einstellungsgrenzen, beruhend auf Farbverschiedenheit zwischen aufeinanderfolgenden Vollbildern; c) Extrahieren einer Merkmalsmenge durch Verarbeiten von Segmentpaaren auf visuelle Verschiedenheit und deren zeitliche Beziehung, wodurch ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Intersegment-Beziehungsmerkmal erzeugt wird; d) Zusammenführen von Videosegmenten und e) Wiederholen des genannten Zusammenführungsschritts zum Erzeugen einer Zusammenführungsfolge, welche die Videostruktur in ein einzelnes Segment wandelt. Die Zusammenführung ist dadurch gekennzeichnet, dass sie mit einem Zusammenführungskriterium erfolgt, das die Merkmalsmenge einer wahrscheinlichkeitstheoretischen Analyse unterzieht, wobei diese wahrscheinlichkeitstheoretische Analyse folgende Schritte umfasst: Erzeugen parametrischer Mischungsmodelle zur Darstellung gemeinsamer Wahrscheinlichkeitsdichten von Merkmalsmengen der Segmentpaare, wobei jede Merkmalsmenge ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Beziehungsmerkmal des jeweiligen Segments aufweist; Initialisieren einer Hierarchiereihe durch Einsetzen jeder Merkmalsmenge in die Reihe mit einer Priorität, die gleich der Wahrscheinlichkeit der Zusammenführung jedes entsprechenden Segmentpaares ist; Entleeren der Reihe durch Zusammenführen der Segmente, sofern das Zusammenführungskriterium erfüllt ist; und Aktualisieren des Modells des zusammengeführten Segments und anschließendes Aktualisieren der Reihe anhand des aktualisierten Modells.
In dem bevorzugten Ausführungsbeispiel folgt der Wahrscheinlichkeitsanalyse eine Bayessche Formel, und die Zusammenführungsfolge wird in einer hierarchischen Baumstruktur dargestellt, die ein aus jedem Segment extrahiertes Vollbild umfasst.
Wie zuvor beschrieben, verwendet diese Erfindung Verfahren zur Strukturierung von Verbrauchervideomaterial anhand wahrscheinlichkeitstheoretischer Modelle. Insbesondere beschreibt die Erfindung eine neuartige Methodik zur Erkennung von Clusterstrukturen in Heimvideos, wobei Videoeinstellungen als Organisationseinheit herangezogen werden. Die Methodik beruht auf zwei Konzepten: (i) der Entwicklung statistischer Modelle (z.B. gemeinsame Gaußsche Mischungsmodelle) zur Darstellung der Verteilung der visuellen Intersegment-Ähnlichkeitmerkmale und Intersegment-Zeitmerkmale, einschließlich einer zeitlichen Nähe und Dauer von Heimvideosegmenten, und (ii) der Umformulierung hierarchischer Gruppierungen (Zusammenführung) als sequenzieller binärer Klassifizierungsprozess. Die Modelle werden in (ii) in einem Algorithmus zur wahrscheinlichkeitstheoretischen Gruppierung verwendet, für den eine Bayessche Formel geeignet ist, weil diese Modelle eine vorherige Kenntnis der statistischen Struktur von Heimvideo beinhalten können, und sie bieten die Vorteile einer auf Grundsätzen beruhenden Methodik. Eine vorherige Kenntnis kann aus der detaillierten Analyse der Clusterstruktur einer realen Heimvideodatenbank extrahiert werden.
Der Videostrukturierungsalgorithmus kann erfindungsgemäß effizient implementiert werden und benötigt keine Festlegung von ad-hoc-Parametern. Als Nebenprodukt ermöglicht die Auffindung von Videoclustern die Erzeugung hierarchischer Darstellungen des Videoinhalts, die einen nicht linearen Zugriff auf Sichtung und Manipulation der Inhalte bereitstellen.
Ein grundsätzlicher Vorteil der Erfindung ist der, dass sie anhand der leistungsstarken Methodik in Hinsicht auf die Clustererkennung und Etikettierung einzelner Einstellungscluster in der Lage ist, mit unstrukturiertem Videomaterial und mit uneingeschränkten Inhalten zu arbeiten, wie sie in Heimvideos von Verbrauchern zu finden sind. Sie stellt somit den ersten Schritt in der Schaffung von Werkzeugen für ein System zur interaktiven Organisation von und für den Rückgriff auf Heimvideoinformationen dar.
Als eine Methodik zur Strukturierung von Verbrauchervideos anhand eines Bayesschen Algorithmus zur Videozusammenführung besteht ein weiterer Vorteil darin, dass das Verfahren den Zusammenführungsprozess ohne eine Ermittlung empirischer Parameter regelt und visuelle und zeitliche Segmentverschiedenheitsmerkmale in ein einziges Modell integriert.
Des Weiteren stellt die Darstellung der Zusammenführungsfolge in einer Baumstruktur die Grundlage für eine Benutzeroberfläche bereit, die den hierarchischen, nicht linearen Zugriff auf den Videoinhalt ermöglicht.
Die Erfindung wird im Folgenden anhand in der Zeichnung dargestellter Ausführungsbeispiele näher erläutert.
Es zeigen:
1 ein Blockdiagramm zur Darstellung einer Funktionsübersicht zur erfindungsgemäßen Videostrukturierung.
2 ein Ablaufdiagramm der in 1 gezeigten Videosegment-Zusammenführungsstufe.
3 eine Verteilungskurve einer Verbraucher-Videoeinstellungsdauer für eine Gruppe von Verbraucherbildern.
4 ein Punktdiagramm von etikettierten Intersegment-Merkmalsvektoren, die aus einem Heimvideo extrahiert wurden.
5 eine Baumstrukturdarstellung wesentlicher Vollbilder aus einem typischen Heimvideo.
Da Videoverarbeitungssysteme bekannt sind, die mit einer Analyse der Einstellungsdauer und der Cluster arbeiten, bezieht sich die vorliegende Beschreibung insbesondere auf Attribute, die Teil der erfindungsgemäßen Videostrukturierungstechnik sind oder direkt damit zusammenwirken. Hier nicht gezeigte oder beschriebene Attribute sind aus den nach dem Stand der Technik bekannten wählbar. In der folgenden Beschreibung würde ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung als ein Softwareprogramm implementiert werden, obwohl Fachleute selbstverständlich wissen, dass das Äquivalent zu dieser Hardware auch in Hardware implementierbar ist. Bezogen auf das nachfolgend beschriebene, erfindungsgemäße System ist die hier nicht explizit gezeigte, beschriebene oder vorgesehene Software, die zur Implementierung der vorliegenden Erfindung verwendbar ist, von herkömmlicher Art, wie in der einschlägigen Technik üblich. Wenn die Erfindung als Computerprogramm implementiert wird, kann das Programm auf einem herkömmlichen, computerlesbaren Speichermedium gespeichert werden, beispielsweise auf magnetischen Speichermedien, wie Magnetplatten (z.B. Diskette oder Festplatte) oder auf Magnetband, optischen Speichermedien, wie einer optischen Platte, einem optischen Band oder einem maschinenlesbaren Strichcode, auf Halbleiterspeichervorrichtungen, wie RAM (Random Access Memory) oder ROM (Read Only Memory) oder auf jeder anderen physischen Vorrichtung oder jedem anderen Medium, das zur Speicherung eines Computerprogramms geeignet ist.
Der Zugriff, die Organisation und die Manipulation persönlicher Erinnerungen, die in Heimvideos festgehalten sind, stellen eine technische Herausforderung aufgrund der uneingeschränkten Inhalte und des Fehlens einer klaren Handlungsstruktur dar. In der vorliegenden Erfindung wird eine Methodik zur Strukturierung von Verbrauchervideo bereitgestellt, die auf der Entwicklung parametrischer, statistischer Ähnlichkeitsmodelle und der Nähe zwischen den Einstellungen beruht, also den Grundeinheiten der visuellen Informationen in Verbraucher-Videoclips. Eine Bayessche Formel zur Zusammenführung von Einstellungen erscheint eine sinnvolle Wahl, da diese Modelle vorheriges Wissen über die statistische Struktur von Heimvideos codieren können. Die Methodik beruht daher auf der Erkennung von Einstellungsgrenzen und einer Bayesschen Segmentzusammenführung. Gaußsche Mischungsmodelle der visuellen Intersegment-Ähnlichkeit, zeitlichen Nähe und Segmentdauer – wie anhand von Heimvideo-Schulungsproben mithilfe des EM-Algorithmus (Expectation-Maximization-Algorithmus) erlernt – werden zur Darstellung der klassenbedingten Dichten der beobachteten Merkmale verwendet. Derartige Modelle werden dann in einem Zusammenführungsalgorithmus verwendet, der aus einem binären Bayesschen Klassifizierer besteht, wobei die Zusammenführungsordnung durch eine HCF-Variation (Highest Confidence First) bestimmt wird, und wobei das MAP-Kriterium (Maximum A Posteriori) das Zusammenführungskriterium bestimmt. Der Zusammenführungsalgorithmus lässt sich durch Verwendung einer Hierarchiereihe effizient implementieren und benötigt keine empirische Parameterbestimmung. Schließlich stellt die Darstellung der Zusammenführungsfolge in einer Baumstruktur die Grundlage für eine Benutzeroberfläche bereit, die den hierarchischen, nicht linearen Zugriff auf den Videoinhalt ermöglicht.
Wie in 1 gezeigt, wirkt das Videostrukturierungsverfahren auf eine Folge von Videovollbildern 8, die aus einer unstrukturierten Videoquelle stammen und typischerweise einen uneingeschränkten Inhalt zeigen, wie er in Verbraucher-Heimvideos vorkommt. Die Über gangsmerkmale des erfindungsgemäßen Videostrukturierungsverfahrens können knapp in den folgenden vier Stufen zusammengefasst werden (die später detaillierter beschrieben werden):

1) Videosegmentierungsstufe 10: Die Einstellungserkennung wird durch eine adaptive Schwellenwertoperation eines Histogramm-Differenzsignals berechnet. 1-D-Farbhistogramme werden im RGB-Raum mit N = 64 Quantisierungsstufen für jedes Band berechnet. Die Metrik L1 wird zur Darstellung der Verschiedenheit d_C (t, t + 1) zwischen zwei aufeinanderfolgenden Vollbildern verwendet. Als Nachverarbeitungsschritt wird eine morphologische Hit-or-Miss-Transformation vor Ort auf das binäre Signal mit zwei Strukturierungselementen angewandt, die das Vorhandensein mehrerer benachbarter Einstellungsgrenzen beseitigen.
2) Stufe 12 zur Extraktion von Videoeinstellungsmerkmalen: In der Technik ist bekannt, dass die visuelle Ähnlichkeit nicht ausreicht, um zwischen zwei verschiedenen Videoereignissen zu differenzieren (siehe z.B. den Beitrag von Rui und Huang). In der Technik wurden sowohl Informationen über visuelle Ähnlichkeit als auch Zeit für die Bildung von Einstellungs-Clustern verwendet. (Die statistischen Eigenschaften derartiger Variablen sind unter einer Bayesschen Perspektive allerdings nicht untersucht worden.) In der Erfindung werden drei Hauptmerkmale in einer Videosequenz als Kriterien für eine nachfolgende Zusammenführung verwendet: • Visuelle Ähnlichkeit wird durch das mittlere Segmenthistogramm beschrieben, das die Segmenterscheinung repräsentiert. Das mittlere Histogramm stellt sowohl das Vorhandensein der dominanten Farben als auch deren Beständigkeit in dem Segment dar. • Die zeitliche Trennung zwischen den Segmenten ist ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster. • Die kombinierte zeitliche Dauer von zwei einzelnen Segmenten ist ebenfalls ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster (beispielsweise gehören zwei lange Einstellungen wahrscheinlich nicht zu demselben Videocluster.)
3) Videosegment-Zusammenführungsstufe 14: Dieser Schritt wird durch Formulierung eines Zweiklassen-Musterklassifizierers (zusammenführen/nicht zusammenführen) anhand einer Bayesschen Entscheidungstheorie formuliert. Gaußsche Mischungsmodelle der visuellen Intersegment-Ähnlichkeit, zeitlichen Nähe und Segmentdauer – wie anhand von Heimvideo-Schulungsproben mithilfe des EM-Algorithmus (Expectation-Maximization-Algorithmus) erlernt – werden zur Darstellung der klassenbedingten Dichten der beobachteten Merkmale verwendet. Derartige Modelle werden dann in einem Zusammenführungsalgorithmus verwendet, der aus einem binären Bayesschen Klassifizierer besteht, wobei die Zusammenführungsordnung durch eine HCF-Variation (Highest Confidence First) bestimmt wird, und wobei das MAP-Kriterium (Maximum A Posteriori) das Zusammenführungskriterium bestimmt. Der Zusammenführungsalgorithmus lässt sich durch Verwendung einer Hierarchiereihe effizient implementieren und benötigt keine empirische Parameterbestimmung. Ein Ablaufdiagramm der Zusammenführungsprozedur wird in 2 gezeigt und später detailliert beschrieben.
4) Videosegment-Baumkonstruktionsstufe 16: Die Zusammenführungsfolge, d.h. eine Liste mit einer aufeinanderfolgenden Zusammenführung von Videosegmentpaaren, wird gespeichert und zur Erzeugung einer Hierarchie verwendet, deren Zusammenführungsfolge durch einen binären Partitionsbaum 18 dargestellt wird. 5 zeigt eine Baumdarstellung eines typischen Heimvideos.

1. Der Ansatz im Überblick
Es sei angenommen, dass ein Videoclip in Einstellungen oder Segmente unterteilt worden ist (wobei ein Segment aus einer oder mehreren Einstellungen zusammengesetzt ist), und dass die Merkmale, die dieses repräsentieren, extrahiert worden sind. Jedes Clusterverfahren sollte Mechanismen spezifizieren, um jedem Segment in dem Heimvideoclip Clusteretiketten zuzuweisen und die Zahl der Cluster zu ermitteln (wobei ein Cluster ein oder mehrere Segmente umfassen kann). Der Clusterprozess muss die Zeit als Einschränkung beinhalten, da Videoereignisse von begrenzter Dauer sind (siehe z.B. den Beitrag von Rui und Huang). Die Definition eines generischen, generativen Modells für Intrasegment-Merkmale in Heimvideos sind aufgrund ihres uneingeschränkten Inhalts besonders schwierig. Erfindungsgemäß wird Heimvideo stattdessen mithilfe statistischer Intersegmentmodelle analysiert. Mit anderen Worten sieht die Erfindung die Erstellung von Modellen vor, die die Eigenschaften von visuellen und zeitlichen Merkmalen beschreiben, die für Segmentpaare definiert sind. Intersegment-Merkmale treten natürlicherweise in einem zusammengeführten Rahmen auf und integrieren visuelle Verschiedenheit, Dauer und zeitliche Nähe. Ein Zusammenführungsalgorithmus kann als Klassifizierer gesehen werden, der ein Videosegmentpaar nimmt und entscheidet, ob die zusammengeführt werden sollten oder nicht. Es sei angenommen, dass s_i und s_j das i^te und das j^te Videosegment in einem Videoclip bezeichnen, und dass ε für eine binäre Zufallsvariable (r.v.) steht, die besagt, ob dieses Segmentpaar demselben Cluster entspricht und zusammengeführt werden sollte oder nicht. Die Formulierung des Zusammenführungsprozesses als sequenzielles Zweiklassen-Musterklassifizierungsproblem (zusammenführen/nicht zusammenführen) ermöglicht die Anwendung von Konzepten der Bayesschen Entscheidungstheorie (eine Erörterung der Bayesschen Entscheidungstheorie siehe z.B. R.O. Duda, P.E. Han und D.G. Stork, Pattern Classification, 2. Auflage, John Wiley und Sons, 2000). Das MAP-Kriterium (Maximum A Posteriori) besagt, dass bei einer gegebenen n-dimensionalen Realisierung x_ij einer Zufallsvariablen x (die die Intersegmentmerkmale darstellt und später detailliert beschrieben wird) die Klasse, die zu wählen ist, diejenige ist, die die A-Posteriori-Wahrscheinlichkeits-Massenfunktion von ε gegeben x maximiert, d.h.,
Nach der Bayesschen Regel,
wobei p(x|ε) für die Wahrscheinlichkeit von x gegeben ε steht, und Pr(ε) für die A-Priori-Verteilung von ε steht und p(x) für die Verteilung der Merkmale steht. Die Anwendung des MAP-Prinzips lässt sich ausdrücken als
oder in der standardmäßigen Hypothese-Testnotation lässt sich das MAP-Prinzip ausdrücken als
wobei H₁, die Hypothese bezeichnet, dass ein Segmentpaar zusammengeführt werden sollte, und wobei H₀ das Gegenteil bezeichnet. Mit dieser Formulierung wird die Klassifizierung von Einstellungspaaren sequenziell durchgeführt, bis ein bestimmtes Stoppkriterium erfüllt ist. Die Aufgaben sind daher die Ermittlung eines sinnvollen Merkmalraums, die Wahl von Modellen für die Verteilungen und die Spezifikation des Zusammenführungsalgorithmus. Jeder dieser Schritte wird in den folgenden Abschnitten der Beschreibung beschrieben.
2. Videosegmentierung
Um die Basissegmente zu erzeugen, wird in Stufe 10 die Erkennung der Einstellungsgrenzen mithilfe von Verfahren berechnet, die die Schnitte erkennen, die in Heimvideos üblich sind (siehe z.B. U. Gargi, R. Kasturi und S. H. Strayer, "Performance Characterization of Video-Shot-Change Detection Methods", IEEE CSVT, Band 10, Nr. 1, Februar 2000, Seite 1–13). Eine Übersegmentierung aufgrund von Erkennungsfehlern (z.B. aufgrund von Beleuchtungs- oder Rauschartefakten) lässt sich durch den Clusteralgorithmus behandeln. Außerdem werden Videos von sehr schlechter Qualität entfernt.
Bei der Implementierung eines bevorzugten Ausführungsbeispiels der Erfindung wird die Einstellungserkennung mithilfe einer adaptiven Schwellenwertbildung eines Histogramm-Differenzsignals ermittelt. 1-D-Farbhistogramme werden im RGB-Raum mit N = 64 Quantisierungsstufen für jedes Band berechnet. Andere Farbmodelle (LAB oder LUV) könnten verwendet werden und eine bessere Leistung bei der Einstellungserkennung ermöglichen, jedoch zu höheren Berechnungskosten.
Die Metrik L1 wird zur Darstellung der Farbverschiedenheit d_C (t, t + 1) zwischen zwei aufeinanderfolgenden Vollbildern verwendet:
wobei h k / t für den Wert des k^ten Fachs für das verkettete RGB-Histogramm von Vollbild t steht. Das 1-D Signal d_C wird dann von einem Schwellenwert binarisiert, der in einem verschiebbaren Fenster berechnet wird, das zum Zeitpunkt t auf die Länge fr/2 mittig gestellt ist, wobei fr die Bildwechselfrequenz (frame rate) bezeichnet.
wobei μ_d(t) für den Mittelwert der in dem verschiebbaren Fenster berechneten Verschiedenheiten steht, σ_d(t) steht für die mittlere Absolutabweichung der Verschiedenheiten in dem Fenster, wobei es sich um einen robusteren Schätzwert der Variabilität einer Datenmenge um deren Mittelwert herum handelt, und k steht für einen Faktor, der das Konfidenzintervall zur Ermittlung des in dem Intervall festgelegten Schwellenwerts einstellt. Aufeinanderfolgende Vollbilder werden daher als zugehörig zu derselben Einstellung betrachtet, wenn s(t) = 0, und eine Einstellungsgrenze zwischen benachbarten Vollbildern wird identifiziert, wenn s(t) = 1.
Als Nachverarbeitungsschritt, wird eine morphologische Hit-or-Miss-Transformation vor Ort auf das binäre Signal mit zwei Strukturierungselementen angewandt, die das Vorhandensein mehrerer benachbarter Einstellungsgrenzen beseitigen. b(t) = s(t) ⊗ (e1(t), e2(t))wobei ⊗ Hit-or-Miss bezeichnet, und wobei die Größe der Strukturierungselemente auf den Histogrammen zur Heimvideo-Einstellungsdauer beruht (es ist unwahrscheinlich, dass Heimvideoeinstellungen kürzer als nur einige wenige Sekunden dauern), und auf fr/2 eingestellt wird (siehe Jean Serra: Image Analysis and Mathematical Morphology, Vol. 1, Academic Press, 1982).
3. Definition der Video-Intersegmentmerkmale
Ein Merkmalssatz für die visuelle Verschiedenheit, zeitliche Trennung und kumulierte Segmentdauer wird in der Stufe 12 zur Extraktion der Videoeinstellungsmerkmale erzeugt. Die visuelle Verschiedenheit und die zeitlichen Informationen, insbesondere die zeitliche Trennung, sind in der Vergangenheit für die Clusterbildung genutzt worden. Im Falle der visuellen Verschiedenheit und in Bezug auf die Wahrnehmungskraft eines visuellen Merkmals ist klar, dass ein einzelnes Vollbild oft nicht ausreicht, um den Inhalt eines Segments darzustellen. Aus den verschiedenen verfügbaren Lösungen wird das mittlere Farbhistogramm für das Segment ausgewählt, um die Segmentdarstellung zu repräsentieren:
wobei h_t für das t^te Farbhistogramm steht, m_i für das mittlere Histogramm des Segments s_i, welches jeweils aus M_i = e_i – b_i + 1 Vollbildern besteht (b_i und e_i bezeichnen das Anfangs- und das Endbild des Segments s_i). Das mittlere Histogramm stellt sowohl das Vorhandensein der dominanten Farben als auch deren Beständigkeit in dem Segment dar. Die Norm L1 der Differenz des mittleren Segmenthistogramms wird benutzt, um zwei Segmente i und j miteinander visuell zu vergleichen,
wobei a_ij eine visuelle Verschiedenheit zwischen den Segmenten i und j bezeichnet, B die Zahl der Histogrammfächer, m_ik den Wert des k^ten Fachs des mittleren Farbhistogramms des Segments s_i und m_jk den Wert des k^ten Fachs des mittleren Farbhistogramms des Segments s_j.
Im Falle der zeitlichen Information ist die zeitliche Information, also die zeitliche Trennung zwischen den Segmenten s_i und s_j, die ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster ist, definiert als βij = min(|ei – bj|,|ej – bi|)(1 – δij)wobei δ_ij für ein Kronecker-Delta, b_i, e_i für das erste und letzte Vollbild des Segments s_i und b_j, e_j für das erste und letzte Vollbild des Segments s_j steht.
Gleichzeitig ist die kumulierte (kombinierte) Segmentdauer von zwei einzelnen Segmenten ein starker Hinweis auf deren Zugehörigkeit zu demselben Cluster. 3 zeigt die empirische Verteilung der Einstellungsdauer von Heimvideos für ca. 660 Einstellungen aus einer Datenbank mit Ground Truth sowie deren Einpassung nach einem Gaußschen Mischungsmodell (siehe nächster Unterabschnitt). (In 3 überlagern sich die empirische Verteilung und ein aus sechs Komponenten bestehendes geschätztes Gaußsches Mischungsmodell. Die Dauer wurde auf die längste in der Datenbank gefundene Dauer (580 s) normalisiert).
Obwohl die Videos verschiedenen Szenarien entsprechen und von mehreren Personen gefilmt wurden, ist ein klares Zeitmuster vorhanden (siehe auch den Beitrag von Vasconcelos and Lippman). Die kumulierte Segmentdauer τ_ij ist definiert als τij = card(si) + card(sj)wobei card(s) für die Zahl der Vollbilder in Segment s steht.
4. Modellierung der Wahrscheinlichkeiten und Vorgaben
Die statistische Modellierung der Intersegment-Merkmalsmenge wird in der Stufe 14 zur Zusammenführung der Videosegmente erzeugt. Die drei beschriebenen Merkmale werden zu den Komponenten des Merkmalsraums x mit den Vektoren x = (α, β, τ). Um die Trennbarkeit der beiden Klassen zu analysieren, zeigt 4 ein Streudiagramm aus 4000 etikettierten Intersegment-Merkmalsvektoren, die aus Heimvideomaterial extrahiert wurden. (Die Hälfte der Proben entspricht der Hypothese H₁, (Segmentpaare gehören zusammen und sind hellgrau etikettiert), die andere Hälfte entspricht der Hypothese H₀ (Segmentpaare gehören nicht zusammen und sind dunkelgrau etikettiert). Die Merkmale wurden normalisiert.)
Das Diagramm macht deutlich, dass die beiden Klassen im Allgemeinen getrennt sind. Eine Projektion dieses Diagramms veranschaulicht die Grenzen, die eine Berufung auf die reine visuelle Ähnlichkeit hat. Ein parametrisches Mischungsmodell wird für jede der klassenbedingten Dichten der beobachteten Intersegmentmerkmale verwendet.
wobei K_ε für die Zahl der Komponenten in jeder Mischung steht, Pr(c = i) für die A-priori-Wahrscheinlichkeit der i^ten Komponente, p(x|ε,θ_i) für das i^te pdf, parametrisiert mit θ_i, und Θ = {Pr(c),{θ_i}} für die Menge sämtlicher Parameter. In dieser Erfindung werden multivariante Gaußsche Formen für die Komponenten der Mischungen in d-Dimensionen angenommen,
so dass die Parameter θ_i die Mittelwerts- μ_i und Covarianzmatrizen Σ_i sind (siehe Duda et al., Pattern Classification, op. cit.).
Der bekannte EM-Algorithmus (Expectation-Maximization-Algorithmus) stellt die Standardprozedur für die ML-Schätzung (maximale Wahrscheinlichkeit) der Parametermenge Θ dar (siehe A. P. Dempster, N. M. Laird und D. B. Rubin, "Maximum Liklihood from Incomplete Data via the EM Algorithm", Journal of the Royal Statistical Society, Reihe B, 39:1–38, 1977). EM ist eine bekannte Technik, um ML-Schätzungen für einen breiten Bereich von Problemen zu ermitteln, bei denen die beobachteten Daten in gewisser Weise unvollständig sind. Im Falle einer Gaußschen Mischung sind die unvollständigen Daten die unbeobachteten Mischungskomponenten, deren A-priori-Wahrscheinlichkeiten die Parameter {Pr(c)} sind. EM beruht auf einer Steigerung der bedingten Erwartung der logarithmischen Wahrscheinlichkeit der vollständigen Daten, die beobachteten Daten vorausgesetzt, unter Verwendung einer iterativen Hill-Climbing-Prozedur (Gradientenprozedur). Zudem kann die Modellwahl, d.h. die Zahl der Komponenten jeder Mischung, automatisch anhand des MDL-Prinzips (Mini mum Description Length) geschätzt werden (siehe J. Rissanen, "Modeling by Shortest Data Description", Automatica, 14:465–471, 1978).
Der allgemeine EM-Algorithmus, der für jede Verteilung gültig ist, beruht auf der Steigerung der bedingten Erwartung der logarithmischen Wahrscheinlichkeit der vollständigen Daten Y, die beobachteten Daten X = {x₁, ..., x_N} vorausgesetzt: Q(θ|θ(p)) = E{logp(Y|θ)|x,θ(p)}durch Verwendung einer Hill-Climbing-Prozedur. In der vorherigen Gleichung bezeichnet X = h(Y) eine bekannte mehr-eindeutige Funktion (z.B. einen Untermengenoperator), x steht für eine Folge oder einen Vektor von Daten und p steht hochgestellt für eine Iterationszahl. Der EM-Algorithmus iteriert die folgenden beiden Schritte bis zur Konvergenz zwecks Maximierung von Q(θ):
E-Schritt: Suche die erwartete Wahrscheinlichkeit der vollständigen Daten als eine Funktion von θ, Q(θ|θ^(p)).
M-Schritt: Schätze die Parameter erneut gemäß
Mit anderen Worten werden zunächst Werte zur Auffüllung der unvollständigen Daten im E-Schritt geschätzt (mithilfe der bedingten Erwartung der logarithmischen Wahrscheinlichkeit der vollständigen Daten, die beobachteten Daten vorausgesetzt, anstelle der logarithmischen Wahrscheinlichkeit selbst). Dann wird die maximale Wahrscheinlichkeitsparameterschätzung mithilfe des M-Schritts berechnet und so lange wiederholt, bis ein geeignetes Stoppkriterium erreicht ist. EM ist ein iterativer Algorithmus, der ein lokales Maximum der Wahrscheinlichkeit der Probenmenge konvergiert.
Für den speziellen Fall der mehrvariablen Gaußschen Modelle sind die vollständigen Daten gegeben durch Y = (X, I), wobei I für die Gaußsche Komponente steht, die zur Erzeugung jeder Probe der beobachteten Daten verwendet wurde. Elementweise y = (x, i), i ∊ {1, ..., K_ε}. In diesem Fall nimmt EM eine weitere vereinfachte Form an:
E-Schritt: Berechne für alle N Schulungsproben und für alle Mischungskomponenten die Wahrscheinlichkeit, dass das Gaußsche i in die Probe x_j passe, die aktuelle Schätzung Θ^(p) vorausgesetzt.
M-Schritt: Schätze die Parameter erneut
Die mittleren Vektoren und Kovarianzmatrizen für jede Mischungskomponente müssen zunächst initialisiert werden. In dieser Implementierung werden die Mittelwerte mithilfe des traditionellen K-Mittelwertalgorithmus initialisiert, während die Kovarianzmatrizen mit der Identitätsmatrix initialisiert werden. Wie andere Hill-Climbing-Verfahren, so ist die auf Daten basierende Initialisierung normalerweise leistungsstärker als die rein auf Zufall basierende Initialisierung. Bei aufeinanderfolgenden Neustarts der EM-Iteration wird jedem Mittelwert eine kleine Rauschmenge zugefügt, um die im lokalen Maximum einzufangende Prozedur zu mindern.
Das Konvergenzkriterium ist anhand der Steigerungsrate für die logarithmische Wahrscheinlichkeit der beobachteten Daten in aufeinanderfolgenden Iterationen definiert,
d.h. die EM-Iteration ist beendet, wenn
Das spezifische Modell, d.h. die Anzahl der Komponenten K_ε jeder Mischung wird automatisch mit dem MDL-Prinzip der Mindestbeschreibungslänge geschätzt durch Wahl von
wobei L(.) die Wahrscheinlichkeit der Schulungsmenge bezeichnet und
die Zahl der für das Modell benötigten Parameter, die für eine Gaußsche Mischung sind gleich
Wenn zwei Modelle in ähnlicher Weise zu den Probendaten passen, wird das einfachere Modell (kleinerer Wert K_ε) gewählt.
Anstatt unter den Variablen die Unabhängigkeitsvermutung anzuwenden, werden die vollen verbundenen klassenbedingten pdfs geschätzt. Die ML-Schätzung der parametrischen Modelle für p(x|ε = 0) und p(x|ε = 1) anhand des soeben beschriebenen Verfahrens erzeugt Wahrscheinlichkeitsdichten, die in beiden Fällen jeweils durch zehn Komponenten dargestellt werden.
Nach dem Bayesschen Ansatz codiert die A-priori-Wahrscheinlichkeits-Massenfunktion Pr(ε) das gesamte vorherige, vorhandene Wissen über das spezifische Problem. In diesem speziellen Fall stellt dies das Wissen oder die Überzeugung hinsichtlich der Eigenschaften des Zusammenführungsprozesses dar (Heimvideo-Cluster bestehen meist nur aus einigen wenigen Einstellungen). Es gibt eine Vielzahl von Lösungen, die untersucht werden können:

– Die einfachste Annahme ist Pr(ε = 0) = Pr(ε = 1) = 1/2, die wiederum das MAP-Kriterium zu einem ML-Kriterium macht.
– Das A-priori-Wissen kann anhand der Schulungsdaten ML-geschätzt werden (siehe Duda et al., Pattern Classification, op. cit.). Es liegt auf der Hand, dass unter der Annahme; dass die Werte N unabhängig sind, der ML-Estimator des A-priori-Wissens wie folgt ist
wobei ι(e, k) gleich eins ist, wenn die k^te Schulungsprobe zu der Klasse gehört, die dargestellt wird durch ε = e, e ∊ {0,1}, andernfalls null. Mit anderen Worten stellt das A-priori-Wissen einfache Gewichte dar, die durch die verfügbare Evidenz (die Schulungsdaten) ermittelt werden.
– Die in dem Zusammenführungsalgorithmus enthaltene Dynamik (im folgenden Abschnitt erläutert) beeinflusst auch das A-priori-Wissen in sequenzieller Weise (es wird erwartet, dass mehr Segmente zu Beginn des Prozesses und weniger zum Ende des Prozesses zusammengeführt werden). Mit anderen Worten kann das A-priori-Wissen anhand dieser Rationale dynamisch aktualisiert werden.

5. Videosegment-Clusterbildung
Der Zusammenführungsalgorithmus wird in der Stufe 14 zur Zusammenführung der Videosegmente implementiert. Jeder Zusammenführungsalgorithmus benötigt drei Elemente: ein Merkmalsmodell, eine Zusammenführungsordnung, ein Zusammenführungskriterium (L. Garrido, P. Salembier, D. Garcia, "Extensive Operators in Partition Lattices for Image Sequence Analysis", Sign. Proc., 66(2): 157–180, 1998). Die Zusammenführungsordnung bestimmt, welche Cluster einer Prüfung auf mögliche Zusammenführung bei jedem Prozessschritt unterzogen werden sollten. Das Zusammenführungskriterium entscheidet, ob die Zusammenführung erfolgen sollte oder nicht. Das Merkmalsmodell jedes Clusters sollte aktualisiert werden, wenn eine Zusammenführung erfolgt. Das vorliegende Videosegment-Clusterverfahren verwendet diese allgemeine Formulierung, gestützt auf die in dem vorausgehenden Abschnitt entwickelten statistischen Intersegmentmodelle. In dem vorliegenden Algorithmus werden die Klassenbedingungen benutzt, um sowohl die Zusammenführungsordnung als auch das Zusammenführungskriterium zu definieren.
Zusammenführungsalgorithmen lassen sich effizient implementieren, indem man benachbarte Kurven und hierarchische Reihen benutzt, die eine prioritätsgestützte Verarbeitung ermöglichen. Den zu verarbeitenden Elementen wird eine Priorität zugewiesen und sie werden dementsprechend in die Reihe eingeordnet. Anschließend ist das in jedem Schritt extrahierte Element dasjenige mit der höchsten Priorität. Hierarchische Reihen sind mittlerweile traditionelle Instrumente in der mathematischen Morpohologie. Ihre Verwendung in der Bayesschen Bildanalyse wurde zuerst von C. Chou und C. Brown in "The Theory and Practice of Bayesian Image Labeling", IJCV, 4, Seite 185–210, 1990, mit dem HCF-Optimierungsverfahren (Highest Confidence First) beschrieben. Das zugrundeliegende Konzept ist auf Anhieb attraktiv: bei jedem Schritt sollten Entscheidungen anhand des Informationsteils getroffen werden, das die höchste Gewissheit aufweist. In jüngster Zeit wurden ähnliche Formulierungen in der morphologischen Verarbeitung vorgestellt.
Wie in 2 gezeigt, umfasst das Segmentzusammenführungsverfahren zwei Stufen: eine Reiheninitialisierungsstufe 20 und eine Reihenaktualisierungs-/Reihenentleerungsstufe 30. Der Zusammenführungsalgorithmus umfasst einen binären Bayesschen Klassifizierer, wobei die Zusammenführungsordnung durch eine HCF-Variation (Highest Confidence First) bestimmt wird, und wobei das MAP-Kriterium (Maximum A Posteriori) das Zusammenführungskriterium bestimmt.
Reiheninitialisierung. Zu Beginn (22) des Prozesses werden die Zwischeneinstellungs-Merkmale x_ij für alle Paare aus benachbarten Einstellungen in dem Videomaterial berechnet. Jedes Merkmal x_ij wird in die Reihe mit der Priorität eingeführt (24), die der Wahrscheinlichkeit der Zusammenführung der entsprechenden Einstellungspaare Pr(ε = 1|x_ij) entspricht.
Reihenentleerung/-aktualisierung. Die Definition der Priorität ermöglicht es, stets Entscheidungen über die Segmentpaare von höchster Gewissheit zu treffen. Bis die Reihe leer ist (32), läuft das Verfahren wie folgt ab:

1. Extrahiere in der Elementextraktionsstufe 34 ein Element (Segmentpaar) aus der Reihe. Dieses Element ist dasjenige mit der höchsten Priorität.
2. Wende das MAP-Kriterium (36) an, um die Segmentpaare zusammenzuführen, d.h. p(xij|ε = 1) Pr (ε = 1) > p (xij|ε = 0) Pr(ε = 0)
3. Wenn die Segmente zusammengeführt werden (der Pfad 38 bezeichnet die Anwendung der Hypothese H₁) aktualisiere das Modell des zusammengeführten Segments in der Segmentmodell-Aktualisierungsstufe 40, dann aktualisiere die Reihe in der Reihenaktualisierungsstufe 42 anhand des neuen Modells und fahre mit Schritt 1 fort. Wenn die Segmente nicht zusammengeführt werden (der Pfad 44 bezeichnet die Anwendung der Hyphothese H₀), fahre fort mit Schritt 1.

Wenn ein Segmentpaar zusammengeführt wird, wird das Modell des neuen Segments s_i aktualisiert durch
Nachdem das Modell des (neuen) zusammengeführten Segments aktualisiert worden ist, müssen vier Funktionen zur Aktualisierung der Reihe implementiert werden:

1. Extrahiere aus der Reihe alle Elemente, die die ursprünglich einzelnen (und jetzt zusammengeführten) Segmente beinhalten.
2. Berechne die neuen Intersegmentmerkmale x = (α, β, τ) anhand des aktualisierten Modells.
3. Berechne die neuen Prioritäten Pr(ε =1|x_ij).
4. Füge in die Elementreihe gemäß der neuen Prioritäten ein.

Im Unterschied zu zahlreichen vorherigen Verfahren (wie in dem Beitrag von Rui und Huang beschrieben), bedarf diese Formulierung keiner Bestimmung von empirischen Parametern.
Die Zusammenführungsfolge, d.h. eine Liste mit einer aufeinanderfolgenden Zusammenführung von Videosegmentpaaren, wird gespeichert und zur Erzeugung einer Hierarchie verwendet. Zur Visualisierung und Manipulation wird nach Entleerung der hierarchischen Reihe in dem Zusammenführungsalgorithmus eine weitere Zusammenführung von Videosegmenten zugelassen, um eine vollständige Zusammenführungsfolge zu erstellen, die zu einem einzelnen Segment konvergiert wird (dem gesamten Videoclip). Die Zusammenführungsfolge wird durch den Partitionsbaum 18 (1) dargestellt, der bekanntermaßen eine effiziente Struktur zur hierarchischen Darstellung visueller Inhalte ist und einen Ausgangspunkt für die Benutzerinteraktion bereitstellt.
6. Visualisierung der Videohierarchie.
5 zeigt ein Beispiel einer Baumdarstellungsstufe 50. Ein Prototyp einer Schnittstelle zur Anzeige der Baumdarstellung des analysierten Heimvideos kann auf Schlüsselbildern basie ren, d.h. einem für jedes Segment extrahierten Vollbild. Eine Funktionsmenge, die die Manipulation (Korrektur, Erweiterung, Reorganisation) der automatisch erzeugten Videocluster zusammen mit Clusterwiedergabe und anderen VCR-Funktionen ermöglicht, kann auf die Darstellung angewandt werden. Der Benutzer kann das Videomaterial über diese Baumdarstellung sichten, Vorschau-Clips abrufen und das Video bearbeiten.
Reihenbasierende Verfahren mit real bewerteten Prioritäten lassen sich mithilfe binärer Suchbäume sehr effizient mit einfachen Operationen aus Einfügen, Löschen und Minimum-/Maximum-Lage implementieren. In dem bevorzugten Ausführungsbeispiel der Erfindung bezieht sich die Implementierung auf die Beschreibung von L. Garrido, P. Salembier, D. Garcia, "Extensive Operators in Partition Lattices for Image Sequence Analysis", Signal Processing (66), 2, 1998, Seite 157–180.
Die Zusammenführungsfolge, d.h. eine Liste mit einer aufeinanderfolgenden Zusammenführung von Videosegmentpaaren, wird gespeichert und zur Erzeugung einer Hierarchie verwendet. Die erste Stufe 52 in der Hierarchie ist durch Schlüsselbilder aus den einzelnen Segmenten definiert, die durch die Videosegmentierungsstufe 10 bereitgestellt werden. Die zweite Stufe 54 in der Hierarchie ist durch die Schlüsselbilder aus den Clustern definiert, die von dem in der Segmentzusammenführungsstufe 14 erzeugten Algorithmus erzeugt werden.
Zur Visualisierung und Manipulation wird nach Entleerung der hierarchischen Reihe in dem Zusammenführungsalgorithmus eine weitere Zusammenführung von Videosegmenten zugelassen, um eine vollständige Zusammenführungsfolge zu erstellen, die zu einem einzelnen Segment konvergiert wird (d.h. die Schlüsselbildstufe 56 stellt den gesamten Videoclip dar). Der gesamte Videoclip stellt somit die dritte Stufe der Hierarchie dar. Die Zusammenführungsfolge wird durch den binären Partitionsbaum (BPT) dargestellt, der bekanntermaßen eine effiziente Struktur zur hierarchischen Darstellung visueller Inhalte ist. In einem BPT hat jeder Knoten (mit Ausnahme der Blätter, die den Ausgangseinstellungen entsprechen) zwei Kinder. (P. Salembier, L. Garrido, "Binary Partition Tree as an Efficient Representation for Filtering, Segmentation, and Information Retrieval", IEEE Intl. Conference on Image Processing, ICIP '98, Chicago, Illinois, USA, 4.–7. Oktober, 1998.) Der BPT stellt zudem den Ausgangspunkt zur Erstellung eines Instruments für die Benutzeraktion dar.
Die Baumdarstellung stellt eine bedienerfreundliche Oberfläche zur Visualisierung und Manipulation (Verifizierung, Korrektur, Erweiterung, Reorganisation) der automatisch erzeugten Videocluster bereit. Angesichts der Allgemeinheit des Heimvideomaterials und der Vielzahl der Benutzervorlieben können manuelle Rückmeldemechanismen die Erstellung von Videoclustern verbessern und den Benutzern zusätzlich die Gelegenheit geben, aktiv mit ihren Videos umzugehen.
In einer einfachen Oberfläche zur Anzeige der Baumdarstellung 50 des Zusammenführungsprozesses würde ein Implementierungsprogramm eine Zusammenführungsfolge lesen und den Binärbaum aufbauen, wobei jeder Knoten der Folge von einem aus jedem Segment extrahierten Vollbild dargestellt wird. Ein Zufallsbild stellt jedes Blatt (Einstellung) des Baums dar. Jeder Elternknoten wird von dem Zufallskindbild mit einer kleineren Einstellungsnummer dargestellt. (Der Begriff „Zufallsbild" könnte anstelle von „Schlüsselbild" bevorzugt werden, weil dessen Wahl keinen Aufwand verursacht). Zudem sei darauf hingewiesen, dass die in 5 gezeigte Einstellung zur Visualisierung des Zusammenführungsprozesses, zur Identifizierung fehlerhafter Cluster oder zur allgemeinen Anzeige dienlich ist, wenn die Anzahl der Einstellungen klein ist, wobei diese Anzeige jedoch sehr umfassend werden kann, wenn die ursprüngliche Zahl der Einstellungen groß ist.
Eine zweite Version der Oberfläche könnte nur die drei Hierarchiestufen anzeigen, d.h. die Blätter des Baums, die Cluster, die als Ergebnis des wahrscheinlichkeitstheoretischen Zusammenführungsalgorithmus erzielt wurden, und den vollständigen Videoknoten. Diese Betriebsart würde eine interaktive Reorganisation der Zusammenführungsfolge ermöglichen, so dass der Benutzer Videosegmente unter den Clustern frei austauschen oder Cluster aus mehreren Videoclips kombinieren kann, usw. Die Integration sonstiger gewünschter Merkmale in jede der beiden Oberflächen, wie z.B. der Wiedergabe von Vorschausequenzen beim Anklicken der Baumknoten sowie VCR-Funktionen, dürfte einschlägigen Fachleuten klar sein.
Die vorliegende Erfindung wurde mit Bezug auf ein bestimmtes Ausführungsbeispiel beschrieben. Es sei jedoch darauf hingewiesen, dass Abwandlungen und Modifikationen von Fachleuten vorgenommen werden können, ohne vom Geltungsbereich und Umfang der Erfindung abzuweichen. Zwar wurde das bevorzugte Ausführungsbeispiel der Erfindung zur Verwendung mit Heimvideos von Verbrauchern beschrieben, aber selbstverständlich kann die Erfindung ohne weiteres an andere Anwendungen angepasst werden, beispielsweise, aber nicht abschließend, an die Zusammenfassung und Konzepterarbeitung von digitalen Filmen im Allgemeinen, für die Organisation von Videomaterialien aus Nachrichten und produktbezogenen Gesprächen, für Bebilderungsanwendungen im Gesundheitswesen, die Bewegung beinhalten usw.

Claims

Verfahren zur Videostrukturierung durch wahrscheinlichkeitstheoretisches Zusammenführen von Videosegmenten mit folgenden Schritten: a) Erhalten einer Vielzahl von Vollbildern aus unstrukturiertem Video (8); b) Erzeugen von Videosegmenten aus dem unstrukturierten Video durch Erfassen von Aufnahmegrenzen, beruhend auf Farbverschiedenheit zwischen aufeinanderfolgenden Vollbildern (10); c) Extrahieren einer Merkmalsmenge durch Verarbeiten von Segmentpaaren auf visuelle Verschiedenheit und deren zeitliche Beziehung, wodurch ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Intersegment-Beziehungsmerkmal erzeugt wird; und d) Zusammenführen von Videosegmenten (14); e) Wiederholen des genannten Zusammenführungsschritts zum Erzeugen einer Zusammenführungsfolge, welche die Videostruktur in ein einzelnes Segment (16) wandelt; dadurch gekennzeichnet, dass das Zusammenführen mit einem Zusammenführungskriterium erfolgt, das die Merkmalsmenge einer wahrscheinlichkeitstheoretischen Analyse unterzieht, wobei diese wahrscheinlichkeitstheoretische Analyse folgende Schritte umfasst: Erzeugen parametrischer Mischungsmodelle zur Darstellung gemeinsamer Wahrscheinlichkeitsdichten von Merkmalsmengen der Segmentpaare, wobei jede Merkmalsmenge ein visuelles Intersegment-Verschiedenheitsmerkmal und ein zeitliches Beziehungsmerkmal des jeweiligen Segments aufweist; Initialisieren einer Hierarchiereihe (24) durch Einsetzen jeder Merkmalsmenge in die Reihe mit einer Priorität, die gleich der Wahrscheinlichkeit der Zusammenführung jedes entsprechenden Segmentpaares ist; Entleeren der Reihe durch Zusammenführen der Segmente, sofern das Zusammenführungskriterium erfüllt ist; und Aktualisieren des Modells des zusammengeführten Segments (40) und anschließendes Aktualisieren der Reihe anhand des aktualisierten Modells (42).
Verfahren nach Anspruch 1, worin die zeitlichen Intersegment-Beziehungsmerkmale zeitliche Nähe und Zeitdauer umfassen.
Verfahren nach Anspruch 1 oder 2, worin Schritt b) folgende Schritte umfasst: Erzeugen von Farbhistogrammen aus aufeinanderfolgenden Vollbildern; Erzeugen eines Differenzsignals aus den Farbhistogrammen, das die Farbverschiedenheit zwischen aufeinanderfolgenden Vollbildern darstellt; und Anwenden einer Schwellenwertoperation auf das Differenzsignal, gestützt auf eine mittlere Verschiedenheit, die über einer Vielzahl von Vollbildern ermittelt worden ist, wodurch ein Signal entsteht, das das Vorhandensein einer Aufnahmegrenze anzeigt.
Verfahren nach Anspruch 3, worin das Differenzsignal auf einer mittleren Verschiedenheit beruht, die über einer Vielzahl von Vollbildern ermittelt worden ist, zentriert auf einem der aufeinanderfolgenden Vollbilder und nach der Anzahl der Vollbilder einem Bruchteil der Bildwechselfrequenz der Videoerfassung entsprechend.
Verfahren nach Anspruch 3 mit zudem dem Schritt der morphologischen Transformation des einer Schwellenwertoperation unterzogenen Differenzsignals mit einem Strukturierungselementpaar, das das Vorhandensein mehrfacher, benachbarter Aufnahmegrenzen beseitigt.
Verfahren nach Anspruch 1 oder 2, worin die Verarbeitung der Segmentpaare auf visuelle Verschiedenheit in Schritt c) die Schritte des Berechnens eines mittleren Farbhistogramms für jedes Segment und des Berechnens einer visuellen Verschiedenheitsmerkmalsmetrik aus der Differenz zwischen mittleren Farbhistogrammen von Segmentpaaren umfasst.
Verfahren nach Anspruch 1, worin die Verarbeitung von Segmentpaaren auf ihre zeitliche Beziehung in Schritt c) die Verarbeitung von Segmentpaaren auf eine zeitliche Trennung zwischen Segmentpaaren und auf eine akkumulierte zeitliche Dauer zwischen Segmentpaaren umfasst.
Verfahren nach Anspruch 1 oder 2, worin Schritt d) mithilfe eines Bayesschen Algorithmus durchgeführt wird.
Verfahren nach Anspruch 1 oder 2, worin die Darstellung der Zusammenführungsfolge in einer hierarchischen Baumstruktur (18) erfolgt.
Computerspeichermedium mit darauf gespeicherten Anweisungen zur Veranlassung eines Computers, das Verfahren nach Anspruch 1 oder 2 auszuführen.