DE69531421T2

DE69531421T2 - Darstellung des Inhalts eines einzigen Videobildes mit Anwendung von Rahmen

Info

Publication number: DE69531421T2
Application number: DE69531421T
Authority: DE
Inventors: Farshid Arman; Arding Hsu; Ming-Yee Chiu
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Corporate Research Inc
Priority date: 1994-03-31
Filing date: 1995-03-23
Publication date: 2004-07-08
Anticipated expiration: 2015-03-24
Also published as: US5606655A; EP0675496A2; DE69531421D1; EP0675496A3; EP0675496B1

Description

Die Erfindung betrifft die Aufgabe, Szenenveränderungen in codierten Videosequenzen zu erkennen, um Videoeinstellungen zu bilden, und die Darstellung von Videoeinstellungen. Die Erfindung betrifft insbesondere Systeme, die codiertes Video enthalten und in denen die Fähigkeit, Videodaten und Anzeigeinformation effizient zu verwalten, besonders wichtig ist, und Verwaltungstechniken für digitales Video auf unteren Ebenen.
Für Systeme, die codiertes Video enthalten, also beispielsweise Videoeditiersysteme, verschiedene Multimediaerzeugungssysteme, videogestützte Schulungssysteme und Videoauf-Abruf-Systeme, ist die Fähigkeit, Videodaten und Anzeigeinformation effizient zu verwalten, kritisch. Bekannte Systeme können auch andere Medienarten einschließen. Die Videoverwaltung ist jedoch wegen der zugehörigen riesigen Datenmengen und der hohen Datenraten, in der Regel zahlreiche Megabyte pro Minute an Daten, besonders schwierig. Frühere Ansätze zum Lösen der Videoverwaltungsprobleme beruhen entweder auf arbeitsintensiven Techniken, beispielsweise dem manuellen Eingeben von Schlüsselwörtern zum Beschreiben des Videoinhalts, oder auf einfachen Bildverarbeitungstechniken, z. B. der Histogrammanalyse. Diese Ansätze weisen Nachteile auf und sind weit von idealen Lösungen entfernt, und sie bearbeiten ihre Aufgaben zudem wenig effizient. Schlüsselwörter weisen zahlreiche Nachteile auf, beispielsweise eine unpassende Begriffswahl beim Suchvorgang, den veränderlichen Kontext, in dem die Wörter verwendet werden, und den Einfluss der einzelnen Bedienperson. Siehe hierzu beispielsweise S-K. Chang und A. Hsu, Image information systems: Where do we go from here?, IEEE Transactions on Knowledge and Data Engineering, 4(5): 431–442, October 1992.
Weiterhin kann man Bildverarbeitungsschritte auf die hunderte oder tausende von Bildern, die normalerweise zu einem Video gehören, nicht wirksam anwenden. Diese Veröffentlichung stellt Verfahren vor, die auf die Verwaltung von codiertem Video abzielen, z. B. MPEG (D. Le Gall, MPEG: A video compression standard for multimedia applications, Communications of ACM, 34(4): 46–58, April 1991.), JPEG (K. G. Wallace, The JPEG still picture compression standard, Communications of ACM, 34(4): 30–44, April 1991.) und H.261 (M. Liou, Overview of the 64 kbit/s video coding standard, Communications of ACM, 34(4): 59–63, April 1991.), die die Beschränkungen der herkömmlichen Bildverarbeitungsschritte beseitigen und die derzeit weit verbreiteten, auf Schlüsselwörtern beruhenden Ansätze verbessern.
Teilaufgaben der Videoverwaltung umfassen die Fähigkeit, eine bestimmte Videosequenz rasch zu finden – dies wird im Weiteren als Videoverwaltung auf höherer Ebene bezeichnet – und die Fähigkeit bestimmte interessante Punkte innerhalb der Videosequenz anzusehen; dies wird im Weiteren als Videoverwaltung auf unterer Ebene bezeichnet. Bedarf für Videoverwaltung besteht auf zahlreichen Gebieten von der TV-Nachrichtenorganisation, bei der diese Fähigkeiten kritisch sind, bis zu Video-Heimbibliotheken, bei denen diese Fähigkeiten recht nützlich sein können.
Die Erfindung betrifft insbesondere Verwaltungstechniken für digitales Video auf unterer Ebene. Ein derzeit weit verbreitetes Suchverfahren zum Auffinden der interessanten Stelle, das beispielsweise bei Bandaufzeichnungsmaschinen verwendbar ist, besteht im schnellen Vor- und Rücklauf. Dieses Verfahren ist langsam und ineffizient. Neuerdings werden Bildverarbeitungsverfahren entwickelt, die mit digitalem Video arbeiten und diese Aufgabe vereinfachen sollen. Ein erster Schritt zum Lösen dieses Problems ist das "Unterteilen" der Videosequenz in Segmente mit Bedeutungsgehalt, so wie man Text in einem Buch in Sätze unterteilen kann. Bei Video befindet sich ein logischer Punkt zum Unterteilen der Videosequenz bei einer gewissen "Änderung" des Videoinhalts zwischen einem Frame und dem folgenden. Dies wird als Szenenwechsel bezeichnet.
Die bisherigen Forschungsarbeiten bezüglich der Videoverwaltung auf unterer Ebene haben sich auf das Zerlegen der Videosequenzen in Videoclips konzentriert. In den meisten Fällen ist der logische Zerlegungspunkt eine Veränderung des Kamerablickwinkels oder eine Veränderung in der Szene. In der Regel werden Histogramme einer jeden Szene erzeugt. Eine starke Änderung im Histogramm zwischen einer Szene und der folgenden wird als Schnittpunkt verwendet [11]. Ueda et al. schlagen vor, den Gebrauch der Veränderungsrate des Histogramms anstelle der absoluten Veränderung zu verwenden, um die Verlässlichkeit des Schnittabtrennmechanismus zu erhöhen. H. Ueda, T. Miyatake, S. Sumino und A. Nagasaka, Automatic Structure Visualization for Video Editing, in InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 137–141. Ueda et al. betrachten auch das Zoomen und Schwenken der Kamerad jeder Videoframe wird in eine Anzahl kleiner nicht überlappender Bereiche unterteilt. In jedem Bereich wird der zu diesem Bereich gehörende optische Fluss der Pixel angenähert und als Zoomen und Schwenken der Kamera klassifiziert. Diese Information wird zusammen mit jedem Schnitt gespeichert. Nagasaka und Tanaka haben verschieden Maßnahmen zum Erkennen der Szenenveränderung untersucht, siehe A. Nagasaka und Y. Tanaka, Automatic video indexing and full-video search for object appearances, zu finden in E. Knuth und L. M. Wegner, Herausgeber, Proceedings of the IFIP TC2/WG2.6 Second Working Conference on Visual Database Systems, pages 113–127, North-Holland, 30. Sept.–3. Okt. 1991. Gemäß diesen Untersuchungen ist die beste Maßnahme ein normierter c2-Test zum Vergleich des Abstands zwischen zwei Histogrammen. Um die Auswirkungen von Kamerablitzen und ge wissen anderen Geräuschen so klein wie möglich zu machen, werden die Frames jeweils in einige Subframes unterteilt. Anstatt nun zwei Frames zu vergleichen wird jedes Paar von Subframes zwischen den beiden Frames verglichen. Die größten Unterschiede werden verworfen, und die Entscheidung beruht auf den Unterschieden der verbleibenden Subframes.
Der Gebrauch von DCT-Koeffizienten vor der Dekompression ist bereits in anderen Anwendungen versucht worden. Hsu et al. verwenden DCT-komprimierte Bilder in einem militärischen Zielklassifikationssystem zum Unterscheiden zwischen vom Menschen erzeugten und natürlichen Objekten. Siehe Y. Hsu, S. Prum, J. H. Kagel und H. C. Andrews, Pattern recognition experiments in mandala/cosine domain, IEEE Transactions on Pattern Analysis and Machine Intelligence, 5(5): 512–520, September 1983. Der Bhattacharyya-Abstandsdiskriminator wird zum Messen und Einordnen zahlreicher statistischer Berechnungen eingesetzt, die aus den DCT-Koeffizienten abgeleitet werden. Diese werden wiederum für den Entscheidungsfindungsvorgang verwendet. Smith und Rowe haben zahlreiche Eigenschaften der Cosinus- und Fouriertransformation auf die DCT-Koeffizienten erweitert, um gewisse algebraische Operationen auf einem Bildpaar auszuführen. Siehe B. C. Smith und L. A. Rowe, Algorithms for manipulating compressed Images, erscheint in IEEE Computer Graphics and Applications, 13(5), September 1993. Mit Hilfe der DCT-Koeffizienten wurden die skalare Addition, die skalare Multiplikation, die Pixel-für-Pixel-Addition und die Pixel-für-Pixel-Multiplikation auf zwei Bildern definiert. Diese Operationen werden in Videoeditiersystemen dazu verwendet, Aufgaben wie Überblenden und Untertiteleinfügung auszuführen.
Tonomura et al. haben mehrere Ansätze zum Betrachten des Inhalts von Videoeinstellungen eingeführt, nämlich veränderliche Geschwindigkeit, Abtastblitz, Bildmuster und Zeit-Raum-Browser. Siehe Y. Tonomura, A. Akutsu, K. Otsuji und T. Sada kata, VideoMAP and VideoSpaceIcon: Tools for Anatomizing Video Content, InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 131–136, sowie Tonomura, Y. und Abe, S., Content Oriented Visual Interface Using Video Icons for Visual Database Systems, Journal of Visual Languages and Computing, Vol. 1, 1990, pp. 183–198. Der Browser mit veränderlicher Geschwindigkeit gleicht stark den Hin- und-Her-Springfunktionen eines Videorecorders. Der Abtastblitzbrowser besteht aus einer Reihe von Icons, die aus dem ersten Frame einer jeden Videoeinstellung gebildet werden und keinerlei Hinweise auf den Inhalt geben. Im Bildmusterbrowser werden nicht die Videoeinstellungen verwendet, sondern die Folge wird in Zeitintervalle mit gleichem Abstand unterteilt. Der Zeit-Raum-Browser zeigt eine zeitliche Folge auf einigen Icons. In Y. Tonomura, A. Akutsu, K. Otsuji und T. Sadakata, VideoMAP and VideoSpaceIcon: Tools for Anatomizing Video Content, InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 131–136, liegt ein starkes Gewicht auf der Charakterisierung des Inhalts von Videoeinstellungen hinsichtlich der Kamera- und Objektbewegungen.
Ähnlich wie Tonomura hat Elliot einen Browser eingeführt, der jeden Frame der Folge auf einem Stapel ablegt. Dieser Ansatz weist diverse Unzulänglichkeiten auf. Erstens wird der Stapel aufgebaut, während der Benutzer die Folge ansieht. Siehe E. Elliot, Watch, Grab, Arrange, See: Thinking With Motion Images via Streams and Collages, Ph. D. Thesis, MIT, February 1993. Dies ist zum Videobrowsen wenig nützlich, da der Benutzer "gezwungen" wird, die Videosequenz anzusehen. Der Stapel hat natürlich nur Sinn, nachdem das Video angesehen worden ist. Der zweite Nachteil besteht darin, dass der Stapel nur ungefähr 20 Sekunden Video enthält. Dieser Videoumfang ist für praktische Anwendungen unbrauchbar. Drittens kann der Benutzer nach dem Aufbau des Stapels den Stapel "abräumen", um den Inhalt anzusehen. Dies ist aus Sicht des Benutzers eine kleine Verbesserung gegenüber schnellem Vorlauf bzw. Rücklauf. Dieser Ansatz liefert dem Benutzer keine grundlegende Browsereinheit; er eignet sich eher für das Videoeditieren als zum Browsen.
Zhang et al. haben die Videoeinstellung als ihre grundlegende Browsereinheit verwendet. Siehe H-J. Zhang und W. Smoliar, Developing Power Tools for Video Indexing and Retrieval, Proceedings of SPIE Conference on Storage and Retrieval for Image and Video Databases, San Jose, CA, 1994. Ähnlich wie bei Tonomura werden die Frames der Einstellung auf einen Stapel gelegt, um die Bewegungsinformation und Dauer der Einstellung zu übertragen. Man kann einen Frame einer Einstellung "ergreifen", indem man die Maus entlang der Seite des Icons anordnet. In einem anderen Modus werden die Frame nicht auf einen Stapel gelegt, sondern die Dicke der Icons wird dazu benutzt, die Dauer der Einstellung zu vermitteln. Dadurch wird Bildschirmplatz vergeudet, da die Wichtigkeit der Information den verbrauchten Bildschirmplatz nicht rechtfertigt.
Mills et al. haben einen Browser für kurze Videosequenzen eingeführt. Siehe M. Mills, J. Cohen und Y-Y. Wong, A Magnifier Tool for Video Data, Proceedings of ACM Computer Human Interface (CHI), 3.–7. Mai 1992. Ähnlich wie der Bildmusterbrowser von Tonomura betrachtet dieser Browser den Videoinhalt nicht; er unterteilt statt dessen die Folge systematisch in mehrere gleiche Segmente. Hat der Benutzer ein Segment gewählt, so wird es in gleiche Längen unterteilt usw., bis der Benutzer jeden Frame ansehen kann. In jedem Fall wird das Segment mit Hilfe seines ersten Frames dargestellt. Dieser Ansatz stellt eine geringe Verbesserung gegen schnellem Vorlauf bzw. Rücklauf dar. Es liefert dem Benutzer jedoch nicht die Bedeutung des Videoinhalts. Der Benutzer kann die Information, an der er interessiert ist, leicht verfehlen, da die Darstellung eines jeden Segments keinen Zusammenhang mit den restlichen Frames in diesem Segment hat.
Nachteile der obigen Arbeiten bestehen darin, dass entweder keine grundlegende Browsereinheit verwendet wird und/oder dass jeder Frame des Videos vom Benutzer während der Browsevorgänge benötigt wird. Dadurch ist es für einen Einsatz über das Netz ungeeignet. Zudem behandelt keines der obigen Systeme das Problem der Iconverwaltung. Dies ist sehr wichtig, da mehrere tausend Icons nötig sein können, die Einstellungen für jeweils zweistündige Videosequenzen darzustellen. Ueda et al. greifen diesen Gegenstand mit Hilfe von Farbinformation an. Siehe H. Ueda, T. Miyatake, S. Sumino und A. Nagasaka, Automatic Structure Visualization for Video Editing, in InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 137–141. Farbe kann jedoch nicht das einzige Darstellungsmittel sein, da Farbhistogramme sehr viel Information auf eine einzige Information abbilden. In unserem Videobrowser wird die Form zusammen mit der Farbe dazu verwendet, den Benutzer bei der Iconverwaltung und beim Navigieren durch eine gegebene Videosequenz zu unterstützen.
Gemäß einem Aspekt der Erfindung wird ein computerimplementiertes Verfahren zum Angeben eines repräsentativen Frames (Rframe) für eine Gruppe von Frames in einer Videosequenz bereitgestellt, umfassend:

a) das Auswählen eines Bezugsframes aus der Gruppe von Frames;
b) das Speichern des Bezugsframes in einem Computerspeicher;
c) das Definieren eines Randbewegungs-Verfolgungsbereichs entlang einer Kante des Bezugsframes; und
d) nacheinander das Verfolgen der Bewegung von Grenzpixeln im Verfolgungsbereich, damit ein repräsentativer Frame (Rframe) der Gruppe von Frames bereitgestellt wird, wobei der repräsentative Frame den Bezugsframe und den Bewegungsverfolgungsbereich enthält.

Gemäß einer bevorzugten Ausführungsform der Erfindung wird im Schritt d) die Bewegung der Grenzpixel nacheinander von Frame zu Frame in der Gruppe von Frames verfolgt.
Gemäß einer bevorzugten Ausführungsform der Erfindung führt der Schritt d) zu einer Bahn, die eine Kamerabewegung oder Gesamtbewegung darstellt.
Gemäß einer bevorzugten Ausführungsform der Erfindung führt der Schritt d) zu einer Bahn, die einen verpassten Frame in der Gruppe von Frames anzeigt.
Bevorzugt führt der Schritt d) zu einer Bahn oder sichtbaren Darstellung, die die Länge oder Dauer einer jeweiligen Einstellung angibt.
In einer bevorzugten Ausführungsform wird die Einstellung oder die Gruppe von Frames unterabgetastet, um eine Anzahl Frames daraus auszuwählen, und das Verfahren umfasst zudem das Ablegen einer geringeren Anzahl Ausschnitte auf einem Stapel, einen von jeder Seite des gewählten Frames, und das Anwenden eines Kantenerkennungsalgorithmus für jeden Ausschnitt der geringeren Anzahl Ausschnitte, wobei Grenzpixel aus einem Frame zum nächsten verfolgt werden, so dass es einem Benutzer ermöglicht wird, die zu der Einstellung gehörende Bewegung zu visualisieren.
In dem Kantenerkennungsalgorithmus wird bevorzugt die Vorgehensweise der Faltung angewendet, und eine Maske, die eine m × m Matrix ist, wird mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet.
Zudem stellt der Kantenerkennungsalgorithmus bevorzugt eine lokale Operation dar, die mit Hilfe der Vorgehensweisen der Faltung ausgeführt wird, wobei eine Maske, die eine m × m Matrix ist, mit den Pixeln in jedem Bewegungsverfolgungsbe reich gefaltet wird, und ein Ausgangssignal der Faltung die Pixel hervorhebt, bei denen Veränderungen an zwei benachbarten Pixeln vorliegen. Dabei bedeutet benachbart links, rechts, oben oder unten.
Bevorzugt ist der Verfolgungsbereich relativ zu den Abmessungen des Frames schmal. Zudem bevorzugt man, dass sich der Verfolgungsbereich im Wesentlichen rechteckig in Form eines Rings um den Bezugsframe herum erstreckt.
Die Erfindung wird nun anhand beispielhafter Ausführungsformen und mit Bezug auf die Zeichnungen beschrieben, die das Verständnis der Erfindung unterstützen.
Es zeigt:
1 einen repräsentativen Frame, Rframe, für jede Videoeinstellung, wobei a) die Struktur des Rframes, b) der Bewegungsverfolgungsbereich mit dem Beginn t = 0 in der Mitte des Rframes und c)–f) einige Beispiele dargestellt sind;
2 den Browser in Grundbetriebsmodus;
3 den Browser in einem höheren Betriebsmodus;
4 den Browser im höheren Betriebsmodus mit Präferenzen;
5 die Frequenzverteilung a) und die Blockmerkmale b) der DFT-Koeffizienten innerhalb eines Blocks;
6 ein Beispiel für die Auswahl von Kanten enthaltenden Unterbereichen mit Hilfe der DFT-Koeffizienten, wobei a) den Originalframe darstellt und in b) die Unterbereiche, in denen keine Kanten gefunden wurden, ausgefüllt dargestellt sind, und die verbleibenden Bereiche für die Kantendetektion entkomprimiert werden können; und
7 einen Überblick über die DCT- und Blockkonzepte.
Die Erfindung führt einen neuartigen Ansatz zum Verarbeiten von codierten Videosequenzen vor der vollständigen Decodierung aus. In JPEG- und MPEG-codierten Videosequenzen lassen sich Szenenveränderungen leicht mit Hilfe der DFT-Ko effizienten erkennen. Innerhalb eines jeden 8 × 8-DCT-Blocks wird die Verteilung der DFT-Koeffizienten dazu verwendet, den Block entweder in die Klasse 0 (enthält keine Hochfrequenzkomponenten) oder die Klasse 1 (enthält Hochfrequenzkomponenten) einzustufen. Die Veränderung in der Verteilung der Nullen und Einsen zwischen einem Frame und dem folgenden werden mit Hilfe von Eigenvektoren erfasst und zum Darstellen von Szenenveränderungen eingesetzt. Die Frames zwischen zwei aufeinander folgenden Szenenveränderungen bilden eine Videoeinstellung. Videoeinstellungen kann man als die Bausteine der Videosequenzen betrachten. Sie werden beim Browsen, im weiteren ausführlicher erklärt, Datenbankindizieren und beliebigen weiteren Operationen eingesetzt, die im Wesentlichen eine Abstraktion des Videos darstellen. Zum Visualisieren einer jeden Videoeinstellung werden die Inhalte in sinnvoller Weise abstrahiert, so dass der Inhalt der Einstellung repräsentiert wird. Man erreicht dies mit repräsentativen Frames bzw. Rframes, die im Weiteren ausführlicher erklärt werden.
Die Erfindung betrifft das Problem der Erkennung von Szenenveränderungen in codierten Videosequenzen, und zwar insbesondere im Zusammenhang mit einer sehr raschen Betrachtung des Inhalts einer gegebenen Videosequenz. Dieser Vorgang sei hier als Browsen bezeichnet. Das Browsen durch eine Videosequenz stellt eine kritische Anforderung in vielen Bereichen und für viele Anwendungen dar, bei denen der Benutzer einige wenige Videosequenzen aus einer großen Anzahl auswählen muss und/oder der Benutzer einen bestimmten Punkt innerhalb einer einzelnen Videosequenz finden muss.
Derartige Fälle entstehen in zahlreichen Situationen, beispielsweise beim Fernzugriff auf ein Video, in der Videodatenbanknavigation, beim Videoeditieren, bei videogestützten Schulungen und Ausbildungen, und in naher Zukunft bei Video-E-Mail und aufgezeichneten Desktop-Videokonferenzsitzungen. In diesen Fällen muss der Benutzer den Inhalt der Videosequen zen durchsehen, um die wichtigsten auszuwählen oder einen gewünschten Punkt zu finden. Zugewiesene Kennungen, Schlüsselwörterbeschreibungen und Datenbankindizierungen können die Anzahl der Möglichkeiten ein Stück weit reduzieren. In vielen Fällen muss sich der Benutzer aber immer noch zwischen mehreren Möglichkeiten entscheiden. Man betrachte beispielsweise den Fall, dass der Benutzer eine Abfrage an eine entfernte Datenbank gerichtet hat, und dass die Datenbanksuche dazu geführt hat, dass mehrere Möglichkeiten angeboten werden. An dieser Stelle muss der Benutzer entscheiden, ob der Kontext und der Inhalt der gelieferten Videos die Anforderungen erfüllen. Dies kann möglicherweise nur dadurch geschehen, dass jedes gelieferte Video angesehen wird. Das Ansehen des Videos erfordert, dass jedes Video von einem normalerweise hierarchischen Speichersystem geholt wird und vollständig über das Netz übertragen wird, wenn der Benutzer das Video abspielt oder zumindest schnell vor- und zurückspult. Dieser Vorgang erfordert viel Zeit, ist wenig wirkungsvoll, nicht kosteneffizient und vergeudet Bandbreite.
Es werden Abstraktionen einer jeden Videosequenz vorab berechnet. Die Abstraktionen werden vom System geholt, übertragen und bei Bedarf vom Benutzer angesehen. Die Abstraktionen sind um viele Größenordnungen kleiner als die Videosequenzen selbst. Damit nehmen die Antwortzeit des Systems, der Bandbreitenbedarf und – am wichtigsten – die Betrachtungszeit des Benutzers ab. Zusätzlich erlaubt es das vorgeschlagene System dem Benutzer, eine gewünschte Stelle innerhalb einer Videosequenz sehr rasch genau zu lokalisieren.
Gemäß einem Aspekt der Erfindung erzielt man das inhaltsgestützte Videobrowsen durch Vorverarbeitungsschritte, die vorab off-line ausgeführt werden, bevor der Benutzer Zugriff erhält:

a) Erfassen von Szenenveränderungen im komprimierten Video zum Bilden von Videoeinstellungen; und
b) Konstruieren der Abstraktionen für jede Videoeinstellung zum Darstellen des Inhalts. Die Abstraktionen werden als Rframes bezeichnet. Zusätzlich wird eine Anzahl weiterer Schritte während des Browsens ausgeführt, die von den besonderen Bedürfnissen des Benutzers bestimmt sind:
c) Darstellen der Rframes, so dass der Benutzer den Inhalt der Videosequenz leicht suchen kann; und
d) Anwenden eines Verfahrens zum Verwalten der Rframes umfassend das Verbinden von Gleichartigkeitsmessungen abhängig von Form und Farbe.

Die Verarbeitung während des Browsens ist nötig, da sich alle Benutzer unterscheiden und jeder Benutzer zu unterschiedlichen Zeiten unterschiedliche Ansprüche auch an die gleiche Sequenz stellen kann.
Die hier offenbarten Vorgehensweisen stellen den Inhalt einer Videosequenz dar. Die Darstellung dient dazu, dem Benutzer ein rasches Ansehen einer Videosequenz zu erlauben, damit er einen bestimmten Punkt in der Folge findet und/oder entscheiden kann, ob die Inhalte der Sequenz für seine Bedürfnisse wichtig sind. Dieses System, als inhaltsabhängiges Browsen bezeichnet, bildet eine Abstraktion, im Weiteren ausführlicher erklärt, um jede erfasste Einstellung der Sequenz mit einem repräsentativen Frame oder Rframe zu repräsentieren, siehe unten, und es enthält Verwaltungstechniken, die es dem Benutzer erlauben, einfach in den Rframes zu navigieren. Diese Vorgehensweise ist den geläufigen Techniken des schnellen Vor- und Rücklaufs überlegen, da nicht jeder Frame zum Ansehen und Beurteilen der Inhalte verwendet wird, sondern nur einige Abstraktionen. Daher besteht keine Notwendigkeit mehr, das Video aus einem Speichersystem zu holen und jeden Frame vollständig über das Netz zu übertragen. Man spart Zeit, Kosten und Bandbreite.
Das inhaltsabhängige Browsen hat gegenüber dem schnellen Vorlauf und Rücklauf (FF/REW) Vorteile und ist genauso einfach zu benutzen. Verwendet der Benutzer FF/REW, so muss er jeden Frame mit sehr hoher Geschwindigkeit ansehen, wobei es wahrscheinlich ist, dass kurze Einstellungen übersehen werden, und der Benutzer ist gezwungen, lang andauernde und möglicherweise unwichtige Einstellungen anzusehen. Zudem sind Benutzer, die eine bestimmte Stelle in einer Sequenz suchen, normalerweise gezwungen, ihre Suche nach einer Anzahl schneller Vorlauf- und Rücklaufvorgänge zu verfeinern, bis sich das Video exakt am interessierenden Punkt befindet. Dies ist ein zeitaufwendiger und ermüdender Vorgang. Beim inhaltsabhängigen Browser der Erfindung sind die genauen Szenenveränderungspunkte intern definiert. Somit braucht der Benutzer keine "Feinabstimmung" auszuführen. Man sollte nicht übersehen, dass die beschriebenen Nachteile von FF/REW auch bei digitalem Video und auf anderen Medien mit wahlfreiem Zugriff weiterbestehen, z. B. auf Laserdisks. Schließlich ist FF/REW als Mittel zum Browsen von digitalem Video äußerst ineffizient wenn man den Aufwand hinsichtlich des Zugriffs auf Disks und/oder Bänder, der Decodierung und der Übertragung in Betracht zieht.
Die Erfindung betrifft auch die wirksame Verarbeitung von komprimiertem Video zum Erkennen von Szenenveränderungen. Gemäß einem Aspekt der Erfindung wird eine gezielte Decodierung verwendet, um die Vorteile der Information zu nutzen, die bereits in den komprimierten Daten enthalten ist. Insbesondere werden vor der vollständigen Dekompression ein auf der diskreten Cosinustransformation (DCT) beruhender Standard wie JPEG (siehe K. G. Wallace, "The JPEG still picture compression standard", Communications of ACM, 34(4): 30–44, April 1991.) oder H.261 (M. Liou, Overview of the 64 kbit/s video coding standard, Communications of ACM, 34(4): 59–63, April 1991.) und zahlreiche für jeden Frame einer Videosequenz erforderliche Verarbeitungsschritte ausgeführt. Die DFT-Koeffi zienten werden analysiert, um systematisch Szenenveränderungen oder Videoschnitte zu erkennen, die beim Browsen oder der zukünftigen Merkmalsextraktion und Indizierung verwendet werden. Früher hat man aufwändige Verfahren wie die Farbhistogrammanalyse für jeden Frame ausgeführt, um die gleichen Aufgaben zu erfüllen. Siehe D. Le Gall, MPEG: A video compression standard for multimedia applications, Communications of ACM, 34(4): 46–58, April 1991.
Der Standardcodiervorgang beginnt mit dem Unterteilen jeder Farbkomponente des Bilds in einen Satz von 8 × 8-Blöcken. 7 zeigt einen Überblick über die DCT- und Blockkonzepte. Die Pixel in den Blöcken werden nun jeweils mit Hilfe der diskreten Cosinusvorwärtstransformation (DCT) transformiert:
wobei C(τ) = 1/(√2) falls τ = 0 und 1 sonst gilt. F(u, v) sind die DFT-Koeffizienten, f(x, y) sind die Eingabepixel, F(0, 0) ist der DC-Koeffizient oder Gleichanteil, d. h. der Mittelwert der 64 Pixelwerte, und die verbleibenden 63 Koeffizienten werden als AC-Koeffizienten bezeichnet. Die 64 Koeffizienten eines jeden Blocks werden nun quantisiert, damit nur die visuell wesentliche Information erhalten bleibt.
wobei Q(u, v) die Elemente der Quantisierungstabelle bezeichnet und [] einen Rundungsvorgang auf ganze Zahlen darstellt. Die Koeffizienten werden nun in einer Zick-Zack-Reihenfolge codiert, in der die Niederfrequenzanteile vor den Hochfrequenzanteilen angeordnet sind. Die Koeffizienten werden nun mit Hilfe einer Huffman-Entropie-Codierung codiert. Die im Folgenden vorgestellte Verarbeitung setzt voraus, dass die codierten Daten durch Anwendung des Huffman-Decoders bereits teilweise decodiert sind. Die entstehenden Koeffizienten können abhängig von der Quantisierungstabelle entquantisiert sein oder auch nicht. Siehe 5 für die Frequenzverteilung a) und die Blockmerkmale b) der DFT-Koeffizienten innerhalb eines Blocks. Koeffizienten mit dem Wert null in den "hohen" Bereichen zeigen an, dass der 8 × 8-Block nur Niederfrequenzkomponenten aufweist und im Wesentlichen keine Hochfrequenzkoeffizienten. 6 zeigt ein Beispiel für die Auswahl von Unterbereichen, die Kanten enthalten, mit Hilfe der DFT-Koeffizienten. Es zeigt a) den Originalframe und b) die gefundenen Unterbereiche ohne Kanten in ausgefüllter Darstellung. Die verbleibenden Bereiche können für die Kantendetektion entkomprimiert werden.
Der Ansatz der Erfindung unterscheidet sich von früheren Lösungen unter anderem dadurch, dass bei herkömmlichen Verfahren alle Schritte anhand der entkomprimierten Videoframes ausgeführt werden, die Erfindung jedoch Vorteil daraus zieht, dass das eingehende Video bereits in komprimierter Form vorliegt. Nun wird die Information, die bereits beim Codiervorgang codiert wurde, vorteilhaft ausgenutzt. Erstens ist der Rechenaufwand zum vollständigen Entkomprimieren eines jeden Frames nicht nötig und wird eingespart, falls nur eine ausgewählte Anzahl Frames vor der Dekompression für die Weiterverarbeitung oder für das Browsen ausgewählt werden. Zweitens sind Koeffizienten im Ortsfrequenzbereich mathematisch mit dem Ortsbereich verknüpft, und man kann sie direkt für das Erkennen von Veränderungen in den Videosequenzen einsetzen. Drittens spart die Kenntnis der Blockorte in gewissem Umfang Ortsbereichsinformation ein.
Das Erkennen der Szenenveränderung erfolgt durch die Anwendung eines programmierten Computers gemäß dem folgenden Verfahren oder "Algorithmus":

a) Untersuche jeden DCT-Block im komprimierten Videoframe, und falls Hochfrequenzkoeffizienten vorhanden sind, kennzeichne den Block mit 1, andernfalls kennzeichne den Block mit 0. Die Ausgabe dieses Schritts ist eine Matrix mit Nullen und Einsen, und die Größe der Matrix wird bestimmt durch die Größe des Videoframes jeweils der Länge und der Breite nach durch 8 geteilt. Beispielsweise führt ein 320 × 240-Videoframe auf eine 40 × 30-Matrix;
b) Lösche Spalten oder Zeilen zum Transformieren der Matrix aus dem Schritt a) in eine quadratische Matrix. Lösche beispielsweise 10 Spalten, um eine 30 × 30-Matrix zu erhalten. Bevorzugt werden für jeden Frame des Videos die gleichen entsprechenden Spalten und Zeilen gelöscht. Dieser Schritt kann das Unterabtasten der Matrix enthalten, damit diese kleiner wird. Man löscht beispielsweise jede zweite Spalte und Zeile. Die endgültige Ausgabe dieses Schritts ist eine n × n-Matrix;
c) Leite die zwei Hauptvektoren der Matrix zum Beschreiben des Inhalts eines jeden Videoframes gemäß den Verfahren der linearen Algebra ab, die aussagen, dass jede n × n-Matrix mindestens einen und höchstens n Eigenwerte hat: λ_i, 1 ≥ i ≥ n, und da die Bilder zweidimensional sind und es somit 2 Eigenwerte gibt, dass jeder Eigenwert einen zugehörigen Eigenvektor hat, und dass diese zwei Vektoren die Hauptvektoren der Matrix sind;
d) Erkenne eine Veränderung des Inhalts zwischen einem Videoframe und dem folgenden oder Szenenveränderungen, und verwende das innere Produkt zum Erkennen einer derartigen Veränderung, da eine Veränderung im Inhalt zwischen einem Videoframe und dem folgenden oder eine Szenenveränderung auch bewirkt, dass sich die Vektoren gemäß der folgenden Gleichung ändern,
wobei Δ der zeitliche Abstand zwischen zwei Frames ist; und
e) falls ∂, 1 ≥ ∂ ≥ 0 größer ist als ein Grenzwert τ, zeige an, dass eine Szenenveränderung erfolgt ist.

Der Videoinhalt zwischen zwei Szenenveränderungen wird als "Einstellung" bezeichnet.
Hat das Video das Format Motion-JPEG, so werden die DCT-Koeffizienten des Schritts a) aus jedem Frame gewonnen und Gleichung (1) wird wie im Schritt e) angegeben angewendet. Liegt das Format MPEG vor, bei dem drei Arten von Frames definiert sind, (nämlich I, B und P), so müssen je zwei Frames in Gleichung (1) den gleichen Typ haben. D. h., man kann in Gleichung (1) einen I-Frame nicht mit einem benachbarten B- oder P-Frame vergleichen.
Jede erfasste Einstellung wird mit Hilfe eines Rframes dargestellt, der so gestaltet ist, dass der Benutzer damit fünf Aufgaben erfüllen kann. Erstens ist er damit in der Lage, den Inhalt der Einstellung zu beurteilen. Zweitens kann er damit entscheiden, ob die Szenenveränderungserkennung vielleicht eine Einstellung übersehen hat. Viele vorgeschlagene Szenenveränderungserkenner weisen hohe Genauigkeitsraten von 90 Prozent und mehr auf, es beansprucht jedoch keiner eine hundertprozentige Genauigkeit. Zusätzlich können viele komplizierte Übergänge während der Szenenveränderungserkennung falsche Verneinungen erzeugen. Daher ist es aus Sicht des Benutzers erwünscht, dass es einen Mechanismus gibt, mit dem der Benutzer sicherstellen kann, dass während dieser Einstellung keine Szenenveränderungen übersehen worden sind. Die dritte Aufgabe des Rframes besteht darin, dem Benutzer den Bewegungssinn innerhalb der Einstellung zu liefern. Das vierte Merkmal erlaubt es dem Benutzer, die Länge oder Dauer der Einstellung in Sekunden leicht zu ermitteln. Das fünfte Merkmal erlaubt es dem Benutzer, festzustellen ob irgendwelche Untertitel in der Videoeinstellung auftreten. Zum Bilden der Rframes muss die Videosequenz bereits in Segmente mit gewisser Bedeutung zerlegt sein, z. B. in Videoeinstellungen (die Frames zwischen zwei aufeinander folgenden Szenenveränderungen bilden eine Videoeinstellung) wie offenbart. Die Sammlung der Rframes dient dazu, den Inhalt der gesamten Videosequenz beim Browsen und bei Navigationsvorgängen darzustellen. Dies wird im Zusammenhang mit dem Browsen des Inhalts einer gegebenen Videosequenz erklärt.
Jeder Rframe enthält einen Körper, vier Bewegungsverfolgungsbereiche, Einstellungslängenanzeiger und eine Untertitelanzeige, siehe 1. Der Körper des Rframes ist ein Frame, der aus der Videoeinstellung ausgewählt wird. Derzeit wird der zehnte Frame gewählt. Es gibt jedoch auch andere Möglichkeiten, z. B. den letzten Frame für gezoomte Einstellungen. Die Bewegungsverfolgungsbereiche verfolgen die Bewegung der Randpixel über der Zeit. Damit kann man sie als Führer für die Kamera- bzw. Gesamtbewegung verwenden. Die Bewegungsverfolgungsbereiche dienen auch als Indikator für übersehene Szenenveränderungen. Enthält die Einstellung eine Szenenveränderung, so "versagt" die Verfolgung der Randpixel und bewirkt, dass keine gerade Linie im Bewegungsverfolgungsbereich erscheint (siehe 1–e). Die Zeitanzeiger sind so gestaltet, dass es ein kurzer Blick des Benutzers auf jeden Rframe ermöglicht, festzustellen ob die zugehörige Einstellung kurz oder lang ist. Eine genauere Schätzung der Einstellungslänge ist dadurch gut möglich, dass man die 2- und 4-Sekunden-Qua drate zählt. Diese Darstellung der Einstellungslänge belegt keinerlei wertvollen Bildschirmplatz. Dagegen würde es das Darstellen der genauen Sekundenanzahl dem Benutzer nicht ermöglichen, die Einstellungslängen rasch zu vergleichen.
1 zeigt einen repräsentativen Frame, den Rframe, für jede Videoeinstellung. a) zeigt die Struktur des Rframes; b) zeigt den Bewegungsverfolgungsbereich, wobei t = 0 in der Mitte des Rframes beginnt; c)–f) zeigen einige Beispiele. In c) bewegt der Moderator seine Hände, die Kamera ist jedoch stationär. Dies wird durch die geraden Linien bewiesen. Die Einstellung enthält auch einen Untertitel. d) zeigt, dass die Kamera nach links geschwenkt ist und der Bewegung des Tiers folgt. Die Kurven beginnen (t = 0) und bewegen sich nach rechts. Diese Einstellung enthält keine Untertitel. e) zeigt ein Beispiel für eine verpasste Szenenveränderung. Die geraden Linien, die das Zentrum nicht berühren, zeigen die Möglichkeit an, dass die Einstellung eine Szenenveränderung enthalten kann. f) zeigt, dass die Kamera stationär ist, dass sich jedoch die Objekte in verschiedene Richtungen bewegt haben. Diese Einstellung enthält einen Untertitel.
Zum Konstruieren der Bewegungsverfolgungsbereiche wird die Einstellung unterabgetastet, um einige wenige Frames auszuwählen. Vier Schnitte, einer von jeder Seite, eines jeden gewählten Frames werden dann übereinander gestapelt, und es wird ein Kantendetektionsalgorithmus auf jeden der vier Stapel angewendet. Diese einfache Operation verfolgt tatsächlich die Randpixel von einem Frame zum folgenden und erlaubt dem Benutzer, die Bewegung zu visualisieren.
Die Kantendetektion ist eine lokale Operation und wird mit Hilfe des Faltungsprinzips ausgeführt. Eine Maske in Form einer m × m-Matrix wird mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet. Die Ausgabe der Faltung hebt diejenigen Pixel hervor, bei denen sich zwei benachbarte Pixel än dern. Benachbart bedeutet links, rechts oben oder unten. Es sind zahlreiche m × m-Matrizen bekannt, z. B. die Laplace-Matrix
Für Einzelheiten wird auf Gonzales, a. a. O., verwiesen.
Wie bereits erwähnt erfordern Videosequenzen eine "Basisbrowsereinheit", die man zum Browsen verwenden kann. Anders als bei Zeitungen oder Büchern, bei denen ein Editor von Hand die Überschriften für jeden Artikel oder jedes Kapitel von Hand wählt, muss der Auswahlvorgang der Videobrowsereinheit automatisch erfolgen, und zwar wegen der äußerst umfangreichen Datenmengen in den Videosequenzen. Zudem würden manuelle Eingriffe von sich aus äußere Einflüsse in das Material hineintragen. Diese Einflüsse könnten ihrerseits den Benutzer bei der Suche behindern, indem sie falsche Anhaltspunkte oder zuwenig Anhaltspunkte liefern und dadurch den Benutzer zwingen, FF/REW zu verwenden. Der Auswahlvorgang der Videobrowsereinheit muss automatisch erfolgen, und sein Ergebnis muss eine Bedeutung für den Benutzer haben, da dies das Werkzeug ist, anhand dessen entschieden wird, ob die zurückgelieferten Videosequenzen für die vorliegende Aufgabe wichtig sind. Eine verbleibende Aufgabe beim Entwurf eines Videobrowsers ist seine Geschwindigkeit. Der Videobrowser muss verglichen mit FF/REW beträchtlich schneller und dabei bequem zu bedienen sein.
Der hier offenbarte Videobrowser erfüllt die genannten Anforderungen. Der vorgeschlagene Videobrowser verwendet Einstellungen als Grundbausteine einer Videosequenz, die durch "repräsentative Frames" oder Rframes gekennzeichnet wird. Die Sequenzen in der Videosammlung werden einmal vorverarbeitet, um die Szenenveränderungen zu erkennen und die Rframes auf zubauen. Zum Browsen einer bestimmten Videosequenz kann der Benutzer durch alle Rframes rollen und den sichtbaren Inhalt der Sequenz ansehen. Hat der Benutzer einen Rframe gewählt, so kann die zugehörige Videoeinstellung abgespielt werden. Weitere Informationen, z. B. die Länge einer jeden Einstellung und die ungefähren Bewegungen sind ebenfalls leicht darzustellen. In Fällen in denen mehrere hundert Szenen und damit mehrere hundert Rframes in einer gegebenen Videosequenz vorhanden sind, werden fortgeschrittene Verfahren dazu eingesetzt, dass der Benutzer die Information mit Leichtigkeit verwalten kann.
Beim Aufruf zeigt der Browser die vorab berechneten Rframes in chronologischer Reihenfolge (Siehe 2, die den Browser im Grundbetriebsmodus darstellt. Die Zeile mit den Rframes befindet sich unten, und die Sequenz am vom Benutzer gewählten Punkt wird oben angezeigt. Der Benutzer kann das Video ab diesem Punkt wiedergeben und am Ende der Einstellung automatisch anhalten oder über die Szenenveränderung hinaus fortfahren.). Der Benutzer kann durch die Rframes rollen. Hat er einen Rframe gewählt, so wird das Video exakt ab dieser Stelle wiedergegeben. Die zweite Option des Benutzers besteht darin, einen Rframe zu wählen und alle ähnlichen Rframes anzusehen. Der Verwandtschaftsgrad eines jeden Rframes zum gewählten Rframe wird dem Benutzer durch eine veränderte Größe eines jeden Rframes übermittelt. Die ähnlichsten Rframes werden in ihrer Originalgröße dargestellt. Einigermaßen ähnliche Rframes werden verkleinert dargestellt, beispielsweise mit einem Voreinstellungswert von 33 Prozent der Größe. Die davon verschiedenen Rframes werden in noch kleineren Maßstäben dargestellt (Voreinstellung 5 Prozent), siehe 3, die den Browser im fortgeschrittenen Betriebsmodus zeigt. Die obere Zeile zeigt die ursprüngliche Menge an Rframes, aus der der Benutzer einen Rframe gewählt hat (mit dem roten Quadrat eingerahmt). Die untere Zeile zeigt alle anderen ähnlichen Rfra mes, wobei die einigermaßen ähnlichen Rframes mit 33 Prozent der Originalbreite dargestellt sind, und die nicht ähnlichen Rframes mit 5 Prozent der Originalbreite dargestellt sind; sie erscheinen als schwarze Balken. Der Benutzer kann die Voreinstellungen leicht verändern (Siehe 4, die den Browser im fortgeschrittenen Betriebsmodus mit den Vorzugswerten zeigt. Der Browser ist im fortgeschrittenen Betriebsmodus dargestellt, wobei der Benutzer im Vorzugsfenster wählt, wie jede Gruppierungskategorie dargestellt wird. Die dargestellte Einstellung zeigt, dass die einigermaßen ähnlichen und die nicht ähnlichen Rframes als schwarze Balken dargestellt werden, und dass nur die vergleichbaren Rframes in voller Größe dargestellt werden.).
Der Benutzer kann verlangen, dass vergleichbare Rframes in der zweiten Zeile des Browsers dargestellt werden. Zusätzlich kann der Benutzer mehrere Anforderungen verbinden: zeige Rframes, die dem Rframe X "ähnlich" sind und die dem Rframe Y "nicht ähnlich" sind. Nach jeder Forderung werden die Ergebnisse in einem neuen Streifen Rframes dargestellt. Damit kann der Benutzer zu jedem Zeitpunkt über mehrere Streifen verfügen, von denen jeder einen unterschiedlichen "Blickwinkel" auf die selbe Sequenz enthält. Die Benutzeranforderungen können auf beliebigen Streifen ausgeführt werden. Die Ergebnisse werden in einem neuen Streifen dargestellt oder überschreiben abhängig von der Vorgabe des Benutzers einen vorhandenen Streifen.
Wie erwähnt muss der Browser genauso bequem zu verwenden sein wie das derzeitige FF/REW-Verfahren. Der vorgeschlagene Browser erfüllt dieses Kriterium. Vom Benutzer werden nur die Handlungen Rollen und Einfach- oder Doppelklicks auf einer Steuermaus verlangt.
Es sei nun davon ausgegangen, dass die Szenenveränderungen erkannt sind. Liegen sehr viele Rframes vor, beispiels weise mehr als der Benutzer leicht durchsuchen und durchlaufen kann, so treten einige Aufgaben auf. Wie angegeben kann der Benutzer einen Rframe wählen und vom System verlangen, dass es alle ähnlichen Rframes in der selben Videosequenz zurückgibt. Der Schlüssel, mit dem man diese Ähnlichkeit wirksam und korrekt messen kann, liegt in der Weise, in der jeder Rframe intern dargestellt wird. Zum Beschreiben von Rframes werden Repräsentationen eingesetzt; dies ist eine Schlüsselaufgabe auf dem Gebiet der Computersicht. Die Repräsentationen bestimmen die Übereinstimmungsstrategie, ihre Robustheit und die Systemwirksamkeit. Die Beschreibungen werden auch in den Berechnungen verschiedener benötigter Objekteigenschaften in der Szene während der Gruppierungsphase eingesetzt. In nahezu allen Fällen ist die zweidimensionale Zahlenanordnung, die man zum Anzeigen der Rframes verwendet, in ihrer "Rohform" nicht sehr nützlich.
Der Browser verwendet zwei Repräsentationen, die einander ergänzen. Formeigenschaften werden mit Momenten dargestellt und Farbeigenschaften werden mit Farbhistogrammen dargestellt. Beide Repräsentationsschemata sind gegen geringe Änderungen der Szene unempfindlich, beispielsweise Objektbewegung, Sichtentfernung usw. Beide sind kompakte Repräsentationen, die wirksame Ähnlichkeitsmessungen erlauben. Die beiden folgenden Abschnitte beschreiben diese Repräsentationsschemata und ihren Gebrauch ausführlicher.
Die Form von Objekten innerhalb eines Rframes ist die Haupteigenschaft, die in der Rframeverwaltung verwendet wird. Sie wird durch Momenteninvarianten dargestellt. Das Moment eines Bilds f(x, y) ist definiert als: mpq = ΣΣxpyqf(x, y) (2)
Eine physikalische Interpretation der Momente ist möglich, wenn man den Grauwert eines jeden Rframes als seine Masse betrachtet. Dann ist in dieser Analogie m₀₀ die Gesamtmasse eines Rframes und m₂₀ und m₀₂ sind die Trägheitsmomente um die x- und y-Achse. Momenteninvarianten zeigen Eigenschaften, die sie zu einem idealen Repräsentationsmechanismus für den Videobrowser machen. Die Invarianz gegen irgendwelche Maßstabsänderungen, Drehungen und Verschiebungen sind einige dieser Eigenschaften, die im Browser zum Beschreiben der Rframes eingesetzt werden. Momenteninvarianten werden von den normierten Zentralmomenten abgeleitet, die wie folgt definiert sind:
wobei gilt
x - = m₁₀/m₀₀ und y - = m₁₀/m₀₀. Einige erste Momenteninvarianten werden nun wie folgt definiert (siehe M. -K. Hu, Pattern Recognition by moment invariants, Proc. IRE, Vol. 49, 1961, p. 1428; M. -K. Hu, Visual pattern recognition by moment invariants, IRE Trans. Inform. Theory, Vol. 8, February 1962, pp. 179–187; R. Gonzales und P. Witz, Digital Image Processing, Addison-Wesley, Readings, MA, 1977.) φ1 = η20 + η02 φ2 = (η20 – η02)2 + 4η211 φ3 = (η30 – 3η12)2 + (3η21 – η03)2 (4)
Die Form eines jeden Rframes wird dann mit Hilfe des Vektors dargestellt, der wie folgt definiert ist: = {φ1, φ2, φ3, ..., φ7} (5)
Zuletzt wird der euklidische Abstand zum Messen der Verwandtschaft von zwei Rframes verwendet: ψ(α, β) = | α- β|2 (6)
Das zweite Merkmal, das in der Rframeverwaltung gemäß der Erfindung umfangreich eingesetzt wird, ist die Farbe. Farbe besitzt viele Eigenschaften der Momente, z. B. die leichte Darstellbarkeit oder Beschreibbarkeit eines jeden Rframes. Im Gegensatz zu Momenten ist sie jedoch weniger empfindlich für Unterschiede, beispielsweise durch Bewegung innerhalb eines Frames. Die Farbe kann nicht die einzige Repräsentation des Rframeinhalts sein, da die meisten Farbrepräsentationsmittel auf Farbhistogrammen beruhen, die per Definition sehr viele Merkmale auf ein Merkmal abbilden. Damit können viele vollständig verschiedene Rframes oder Videoframes sehr ähnliche Farbrepräsentationen besitzen. Farbhistogramme allein reichen beispielsweise nicht dazu aus, irgendwelche Unterschiede zwischen einem weiß und rot karierten Brett und einem weißen Brett mit parallelen roten Streifen zu erkennen, da der Farbgehalt der beiden Bretter identisch sein kann.
Der Browser stellt den Farbgehalt eines jeden Rframes mit Hilfe des Farbhistogramms dar, das im Wesentlichen die Frequenzverteilungsfunktion der Farbe eines jeden Pixels ist. Bei einem gegebenen Farbmodell (RGB, HSI, usw.) erhält man das Histogramm dadurch, dass man zählt, wie oft jede Farbe in jedem Rframe vorkommt (für weitere Einzelheiten siehe C. L. Novak und S. A. Shafer, Anatomy of a Color Histogram, Proceedings of Computer Vision and Pattern Recognition, Champaign, IL, June 1992, pp. 599–605). Gemäß den früheren Arbeiten der Erfinder (F. Arman, A. Hsu und M-Y. Chiu, Image Processing on Encoded Video Sequences, ACM Multimedia Systems Journal, erscheint 1994) werden hier die Farbton- und Sättigungskomponenten des HSI-Farbraums zum Berechnen des Farbhisto gramms für jeden Rframe verwendet. Zum Messen der Ähnlichkeit von zwei gegebenen Rframes wird hier das Verfahren der Histogrammdurchschnitte nach Swain und Ballard verwendet (Swain, M. J. und Ballard, D. H., Color Indexing, Int. J. of Computer Vision, Vol. 7, No. 1, 1991, pp. 11–32). Der Durchschnitt zweier Histogramme ist definiert durch:
wobei α und β die beiden Histogramme sind. Das Ergebnis dieses Durchschnitts gibt an, wieviel Pixel in einem Bild entsprechende Pixel mit der gleichen Farbe im anderen Bild haben. Das Maß wird normiert mit Hilfe von:
wobei β_i das i-te Histogramm ist.
Hat der Benutzer einen Rframe gewählt, so werden die Momente und das Farbhistogramm dieses Rframes mit den verbleibenden Rframes verglichen. Die Ausgabe der momentengestützten und der farbhistogrammgestützten Analysen sind zwei Gleitkommazahlen, die die Verwandtschaft der Rframe-Körper bezüglich der Form und der Farbe beschreiben. Zum Verknüpfen und Vergleichen dieser beiden verschiedenen Entitäten wird eine Zuordnungsfunktion verwendet, die beide Entitäten auf einen gemeinsamen Raum abbildet. Dies erfolgt mit Hilfe von:
wobei ζ = ε(α, β_i) zum Zuordnen der Ausgabe des Farbhistogramm-Durchschnitts aus Gleichung (7) ist: ΩHistogramm[ε(α, βi)]ε {1, 2, 3} (10)und ζ = (α, β_i) zum Zuordnen des Momentenabstandsmaßes aus Gleichung (5) ist: ΩMoment [(α, βi)]ε {1, 2, 3} (11)wobei Ω = 3 sehr ähnlich bedeutet, Ω = 2 einigermaßen ähnlich und Ω = 1 nicht ähnlich.
Anschließend verwendet man die Regeln aus Tabelle 1 zum Verknüpfen der abgebildeten Eigenschaften.
Tabelle 1: Die Regeln zum Kombinieren der Ergebnisse der momentenbasierten und histogrammbasierten Zuordnung lauten: 3 = sehr ähnlich, 2 = einigermaßen ähnlich und 1 = nicht ähnlich.
Im Allgemeinen kommt den Ausgaben der Momente ein größeres Gewicht zu (siehe Tabelle 1). Ist das Wmoment = 1, so wird die Ausgabe der farbhistogrammbasierten Analyse unterdrückt, d. h. die endgültige Ausgabe ist stets, dass die beiden untersuchten Rframes nicht ähnlich sind. Ist das Wmoment = 3, so ist die endgültige Ausgabe ebenfalls sehr ähnlich. Eine Ausnahme liegt nur vor, wenn die farbbasierte Ausgabe Whistogramm = 1 gilt; in diesem Fall hat die endgültige Ausgabe ebenfalls den Wert 2 oder einigermaßen ähnlich. Die Zuordnung aus dem Farbhistogramm wird verwendet, falls Wmoment keinen schlüssigen Wert liefert, d. h. Wmoment = 2 ist. In diesen Fall wird die endgültige Ausgabe auf den Wert der Farbhistogramm-Zuordnung gesetzt.
Die Verarbeitungszeit für die Gruppierung bezieht aus zwei Punkten Vorteile. Ersten werden die Momente und die Histogramme vorab berechnet; der einzige zur Laufzeit nötige Schritt ist das Messen der Ähnlichkeit, d. h. das Anwenden von Gleichung (2) und Gleichung (8). Benutzt man die in Tabelle 1 angegebenen Regeln, so muss zweitens die Histogrammdurchschnittsoperation, die von beiden Operationen die aufwendigere ist, auf einer Untermenge der Rframes ausgeführt werden und liefert damit zusätzliche zeitsparende Schritte. Im Zusammenhang der Erfindung ist auch daran gedacht, ein Indizierungsschema zum Speichern der Histogramm- und Momentenberechnungen zu verwenden. Dies beschleunigt die Gruppierung sehr stark.
Es wird Bezug auf die folgenden Patente genommen, die gemeinsam mit dieser Anmeldung eingereicht wurden, und die der Abtretungspflicht an den Inhaber dieser Anmeldung unterliegen: Farshid Arman, Arding Hsu und Ming-Yee Chiu, DETECTING SCENE CHANGES ON ENCODED VIDEO SEQUENCES; und Farshid Arman, Remi Depommier, Arding Hsu und Ming-Yee Chiu, BROWSING CONTENTS OF A GIVEN VIDEO SEQUENCE.
Hierbei wird auch Bezug genommen auf Tonomura, Y. und Abe, S., Content Oriented Visual Interface Using Video Icons for Visual Database Systems, Journal of Visual Languages and Computing, Vol. 1, 1990, pp. 183–198.

Claims

Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) für eine Gruppe von Frames in einer Videosequenz, umfassend: a) das Auswählen eines Bezugsframes aus der Gruppe von Frames; b) das Speichern des Bezugsframes in einem Computerspeicher; c) das Definieren eines Randbewegungs-Verfolgungsbereichs entlang einer Kante des Bezugsframes; und d) nacheinander das Verfolgen der Bewegung von Grenzpixeln im Verfolgungsbereich, damit ein repräsentativer Frame (Rframe) der Gruppe von Frames bereitgestellt wird, wobei der repräsentative Frame den Bezugsframe und den Bewegungsverfolgungsbereich enthält.
Computerimplementiertes Verfahren nach Anspruch 1, wobei die Gruppe von Frames eine "Einstellung" bilden, die eine Gruppe von Frames zwischen Szenenveränderungen ist.
Computerimplementiertes Verfahren nach Anspruch 1 oder 2, wobei man die Bewegungsverfolgungsbereiche dazu verwenden kann, verpasste Szenenveränderungen in der Videosequenz zu erkennen.
Computerimplementiertes Verfahren nach irgendeinem vorhergehenden Anspruch, wobei im Schritt d) die Bewegung der Grenzpixel nacheinander von Frame zu Frame in der Gruppe von Frames verfolgt wird.
Computerimplementiertes Verfahren nach Anspruch 4, wobei Schritt d) zu einer Bahn führt, die eine Kamerabewegung oder Gesamtbewegung darstellt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei Schritt d) zu einer Bahn führt, die einen verpassten Frame in der Gruppe von Frames anzeigt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei Schritt d) zu einer Bahn führt, die die Länge oder Dauer einer jeweiligen Einstellung angibt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei eine Anzahl Frames zwischen Szenenveränderungen verknüpft mit der Anzahl der Frames je Sekunde in der Aufzeichnung des gespeicherten Videos zu einer Bahn führt, die die Dauer einer jeweiligen Einstellung angibt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei der Bewegungsverfolgungsbereich eine Lücke enthält, und in der Lücke eine Anzeige erfolgt, die die Länge der Einstellung angibt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei der Bewegungsverfolgungsbereich eine Lücke enthält, und in der Lücke eine Anzeige erfolgt, die das Vorhandensein eines Untertitels in dem Rframe angibt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 7 oder 8, wobei für die relative Zeit t = 0 die Verfolgung im Wesentlichen in der Mitte des Rframes beginnt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem der vorhergehenden Ansprüche, wobei eine verpasste Szenenveränderung zu einer Linie im Verfolgungsbereich führt, die nicht mit der Mitte des Rframes verbunden ist.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei die Verfolgungsbewegung der Grenzpixel im Verfolgungsbereich derart erfolgt, dass eine verfolgte Position für jedes Grenzpixel, das nach einem vorhergehenden Pixel folgt, eine Position benachbart zu einer verfolgten Position des vorhergehenden Pixels einnimmt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem der vorhergehenden Ansprüche, wobei die Einstellung oder die Gruppe von Frames unterabgetastet wird, um eine Anzahl Frames daraus auszuwählen, und das Verfahren zudem das Ablegen einer geringeren Anzahl Ausschnitte auf einem Stapel umfasst, einen von jeder Seite des gewählten Frames, und das Anwenden eines Kantenerkennungsalgorithmus für jeden Ausschnitt der geringeren Anzahl Ausschnitte, wobei Grenzpixel aus einem Frame zum nächsten verfolgt werden, so dass es einem Benutzer ermöglicht wird, die zu der Einstellung gehörende Bewegung zu visualisieren.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 14, wobei der Kantenerkennungsalgorithmus die Vorgehensweisen der Faltung anwendet, und eine Maske, die eine m × m Matrix ist, mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet wird.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 15, wobei der Kantenerkennungsalgorithmus eine lokale Operation darstellt, die mit Hilfe der Vorgehensweisen der Faltung ausgeführt wird, und eine Maske, die eine m × m Matrix ist, mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet wird, und ein Ausgangssignal der Faltung die Pixel hervorhebt, bei denen Veränderungen an zwei benachbarten Pixeln vorliegen, wobei benachbart links, rechts, oben oder unten bedeutet.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 16, wobei die geringere Anzahl Stapel ungefähr 4 beträgt.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem der vorhergehenden Ansprüche, wobei der Verfolgungsbereich relativ zu den Abmessungen des Frames schmal ist.
Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei sich der Verfolgungsbereich im Wesentlichen rechteckig in Form eines Rings um den Rframe herum erstreckt.