DE69531421T2 - Darstellung des Inhalts eines einzigen Videobildes mit Anwendung von Rahmen - Google Patents

Darstellung des Inhalts eines einzigen Videobildes mit Anwendung von Rahmen Download PDF

Info

Publication number
DE69531421T2
DE69531421T2 DE69531421T DE69531421T DE69531421T2 DE 69531421 T2 DE69531421 T2 DE 69531421T2 DE 69531421 T DE69531421 T DE 69531421T DE 69531421 T DE69531421 T DE 69531421T DE 69531421 T2 DE69531421 T2 DE 69531421T2
Authority
DE
Germany
Prior art keywords
frames
rframe
computer
frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69531421T
Other languages
English (en)
Other versions
DE69531421D1 (de
Inventor
Farshid Arman
Arding Hsu
Ming-Yee Chiu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corporate Research Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Application granted granted Critical
Publication of DE69531421D1 publication Critical patent/DE69531421D1/de
Publication of DE69531421T2 publication Critical patent/DE69531421T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/40Combinations of multiple record carriers
    • G11B2220/41Flat as opposed to hierarchical combination, e.g. library of tapes or discs, CD changer, or groups of record carriers that together store one title
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/60Solid state media
    • G11B2220/65Solid state media wherein solid state memory is used for storing indexing information or metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die Erfindung betrifft die Aufgabe, Szenenveränderungen in codierten Videosequenzen zu erkennen, um Videoeinstellungen zu bilden, und die Darstellung von Videoeinstellungen. Die Erfindung betrifft insbesondere Systeme, die codiertes Video enthalten und in denen die Fähigkeit, Videodaten und Anzeigeinformation effizient zu verwalten, besonders wichtig ist, und Verwaltungstechniken für digitales Video auf unteren Ebenen.
  • Für Systeme, die codiertes Video enthalten, also beispielsweise Videoeditiersysteme, verschiedene Multimediaerzeugungssysteme, videogestützte Schulungssysteme und Videoauf-Abruf-Systeme, ist die Fähigkeit, Videodaten und Anzeigeinformation effizient zu verwalten, kritisch. Bekannte Systeme können auch andere Medienarten einschließen. Die Videoverwaltung ist jedoch wegen der zugehörigen riesigen Datenmengen und der hohen Datenraten, in der Regel zahlreiche Megabyte pro Minute an Daten, besonders schwierig. Frühere Ansätze zum Lösen der Videoverwaltungsprobleme beruhen entweder auf arbeitsintensiven Techniken, beispielsweise dem manuellen Eingeben von Schlüsselwörtern zum Beschreiben des Videoinhalts, oder auf einfachen Bildverarbeitungstechniken, z. B. der Histogrammanalyse. Diese Ansätze weisen Nachteile auf und sind weit von idealen Lösungen entfernt, und sie bearbeiten ihre Aufgaben zudem wenig effizient. Schlüsselwörter weisen zahlreiche Nachteile auf, beispielsweise eine unpassende Begriffswahl beim Suchvorgang, den veränderlichen Kontext, in dem die Wörter verwendet werden, und den Einfluss der einzelnen Bedienperson. Siehe hierzu beispielsweise S-K. Chang und A. Hsu, Image information systems: Where do we go from here?, IEEE Transactions on Knowledge and Data Engineering, 4(5): 431–442, October 1992.
  • Weiterhin kann man Bildverarbeitungsschritte auf die hunderte oder tausende von Bildern, die normalerweise zu einem Video gehören, nicht wirksam anwenden. Diese Veröffentlichung stellt Verfahren vor, die auf die Verwaltung von codiertem Video abzielen, z. B. MPEG (D. Le Gall, MPEG: A video compression standard for multimedia applications, Communications of ACM, 34(4): 46–58, April 1991.), JPEG (K. G. Wallace, The JPEG still picture compression standard, Communications of ACM, 34(4): 30–44, April 1991.) und H.261 (M. Liou, Overview of the 64 kbit/s video coding standard, Communications of ACM, 34(4): 59–63, April 1991.), die die Beschränkungen der herkömmlichen Bildverarbeitungsschritte beseitigen und die derzeit weit verbreiteten, auf Schlüsselwörtern beruhenden Ansätze verbessern.
  • Teilaufgaben der Videoverwaltung umfassen die Fähigkeit, eine bestimmte Videosequenz rasch zu finden – dies wird im Weiteren als Videoverwaltung auf höherer Ebene bezeichnet – und die Fähigkeit bestimmte interessante Punkte innerhalb der Videosequenz anzusehen; dies wird im Weiteren als Videoverwaltung auf unterer Ebene bezeichnet. Bedarf für Videoverwaltung besteht auf zahlreichen Gebieten von der TV-Nachrichtenorganisation, bei der diese Fähigkeiten kritisch sind, bis zu Video-Heimbibliotheken, bei denen diese Fähigkeiten recht nützlich sein können.
  • Die Erfindung betrifft insbesondere Verwaltungstechniken für digitales Video auf unterer Ebene. Ein derzeit weit verbreitetes Suchverfahren zum Auffinden der interessanten Stelle, das beispielsweise bei Bandaufzeichnungsmaschinen verwendbar ist, besteht im schnellen Vor- und Rücklauf. Dieses Verfahren ist langsam und ineffizient. Neuerdings werden Bildverarbeitungsverfahren entwickelt, die mit digitalem Video arbeiten und diese Aufgabe vereinfachen sollen. Ein erster Schritt zum Lösen dieses Problems ist das "Unterteilen" der Videosequenz in Segmente mit Bedeutungsgehalt, so wie man Text in einem Buch in Sätze unterteilen kann. Bei Video befindet sich ein logischer Punkt zum Unterteilen der Videosequenz bei einer gewissen "Änderung" des Videoinhalts zwischen einem Frame und dem folgenden. Dies wird als Szenenwechsel bezeichnet.
  • Die bisherigen Forschungsarbeiten bezüglich der Videoverwaltung auf unterer Ebene haben sich auf das Zerlegen der Videosequenzen in Videoclips konzentriert. In den meisten Fällen ist der logische Zerlegungspunkt eine Veränderung des Kamerablickwinkels oder eine Veränderung in der Szene. In der Regel werden Histogramme einer jeden Szene erzeugt. Eine starke Änderung im Histogramm zwischen einer Szene und der folgenden wird als Schnittpunkt verwendet [11]. Ueda et al. schlagen vor, den Gebrauch der Veränderungsrate des Histogramms anstelle der absoluten Veränderung zu verwenden, um die Verlässlichkeit des Schnittabtrennmechanismus zu erhöhen. H. Ueda, T. Miyatake, S. Sumino und A. Nagasaka, Automatic Structure Visualization for Video Editing, in InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 137–141. Ueda et al. betrachten auch das Zoomen und Schwenken der Kamerad jeder Videoframe wird in eine Anzahl kleiner nicht überlappender Bereiche unterteilt. In jedem Bereich wird der zu diesem Bereich gehörende optische Fluss der Pixel angenähert und als Zoomen und Schwenken der Kamera klassifiziert. Diese Information wird zusammen mit jedem Schnitt gespeichert. Nagasaka und Tanaka haben verschieden Maßnahmen zum Erkennen der Szenenveränderung untersucht, siehe A. Nagasaka und Y. Tanaka, Automatic video indexing and full-video search for object appearances, zu finden in E. Knuth und L. M. Wegner, Herausgeber, Proceedings of the IFIP TC2/WG2.6 Second Working Conference on Visual Database Systems, pages 113–127, North-Holland, 30. Sept.–3. Okt. 1991. Gemäß diesen Untersuchungen ist die beste Maßnahme ein normierter c2-Test zum Vergleich des Abstands zwischen zwei Histogrammen. Um die Auswirkungen von Kamerablitzen und ge wissen anderen Geräuschen so klein wie möglich zu machen, werden die Frames jeweils in einige Subframes unterteilt. Anstatt nun zwei Frames zu vergleichen wird jedes Paar von Subframes zwischen den beiden Frames verglichen. Die größten Unterschiede werden verworfen, und die Entscheidung beruht auf den Unterschieden der verbleibenden Subframes.
  • Der Gebrauch von DCT-Koeffizienten vor der Dekompression ist bereits in anderen Anwendungen versucht worden. Hsu et al. verwenden DCT-komprimierte Bilder in einem militärischen Zielklassifikationssystem zum Unterscheiden zwischen vom Menschen erzeugten und natürlichen Objekten. Siehe Y. Hsu, S. Prum, J. H. Kagel und H. C. Andrews, Pattern recognition experiments in mandala/cosine domain, IEEE Transactions on Pattern Analysis and Machine Intelligence, 5(5): 512–520, September 1983. Der Bhattacharyya-Abstandsdiskriminator wird zum Messen und Einordnen zahlreicher statistischer Berechnungen eingesetzt, die aus den DCT-Koeffizienten abgeleitet werden. Diese werden wiederum für den Entscheidungsfindungsvorgang verwendet. Smith und Rowe haben zahlreiche Eigenschaften der Cosinus- und Fouriertransformation auf die DCT-Koeffizienten erweitert, um gewisse algebraische Operationen auf einem Bildpaar auszuführen. Siehe B. C. Smith und L. A. Rowe, Algorithms for manipulating compressed Images, erscheint in IEEE Computer Graphics and Applications, 13(5), September 1993. Mit Hilfe der DCT-Koeffizienten wurden die skalare Addition, die skalare Multiplikation, die Pixel-für-Pixel-Addition und die Pixel-für-Pixel-Multiplikation auf zwei Bildern definiert. Diese Operationen werden in Videoeditiersystemen dazu verwendet, Aufgaben wie Überblenden und Untertiteleinfügung auszuführen.
  • Tonomura et al. haben mehrere Ansätze zum Betrachten des Inhalts von Videoeinstellungen eingeführt, nämlich veränderliche Geschwindigkeit, Abtastblitz, Bildmuster und Zeit-Raum-Browser. Siehe Y. Tonomura, A. Akutsu, K. Otsuji und T. Sada kata, VideoMAP and VideoSpaceIcon: Tools for Anatomizing Video Content, InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 131–136, sowie Tonomura, Y. und Abe, S., Content Oriented Visual Interface Using Video Icons for Visual Database Systems, Journal of Visual Languages and Computing, Vol. 1, 1990, pp. 183–198. Der Browser mit veränderlicher Geschwindigkeit gleicht stark den Hin- und-Her-Springfunktionen eines Videorecorders. Der Abtastblitzbrowser besteht aus einer Reihe von Icons, die aus dem ersten Frame einer jeden Videoeinstellung gebildet werden und keinerlei Hinweise auf den Inhalt geben. Im Bildmusterbrowser werden nicht die Videoeinstellungen verwendet, sondern die Folge wird in Zeitintervalle mit gleichem Abstand unterteilt. Der Zeit-Raum-Browser zeigt eine zeitliche Folge auf einigen Icons. In Y. Tonomura, A. Akutsu, K. Otsuji und T. Sadakata, VideoMAP and VideoSpaceIcon: Tools for Anatomizing Video Content, InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 131–136, liegt ein starkes Gewicht auf der Charakterisierung des Inhalts von Videoeinstellungen hinsichtlich der Kamera- und Objektbewegungen.
  • Ähnlich wie Tonomura hat Elliot einen Browser eingeführt, der jeden Frame der Folge auf einem Stapel ablegt. Dieser Ansatz weist diverse Unzulänglichkeiten auf. Erstens wird der Stapel aufgebaut, während der Benutzer die Folge ansieht. Siehe E. Elliot, Watch, Grab, Arrange, See: Thinking With Motion Images via Streams and Collages, Ph. D. Thesis, MIT, February 1993. Dies ist zum Videobrowsen wenig nützlich, da der Benutzer "gezwungen" wird, die Videosequenz anzusehen. Der Stapel hat natürlich nur Sinn, nachdem das Video angesehen worden ist. Der zweite Nachteil besteht darin, dass der Stapel nur ungefähr 20 Sekunden Video enthält. Dieser Videoumfang ist für praktische Anwendungen unbrauchbar. Drittens kann der Benutzer nach dem Aufbau des Stapels den Stapel "abräumen", um den Inhalt anzusehen. Dies ist aus Sicht des Benutzers eine kleine Verbesserung gegenüber schnellem Vorlauf bzw. Rücklauf. Dieser Ansatz liefert dem Benutzer keine grundlegende Browsereinheit; er eignet sich eher für das Videoeditieren als zum Browsen.
  • Zhang et al. haben die Videoeinstellung als ihre grundlegende Browsereinheit verwendet. Siehe H-J. Zhang und W. Smoliar, Developing Power Tools for Video Indexing and Retrieval, Proceedings of SPIE Conference on Storage and Retrieval for Image and Video Databases, San Jose, CA, 1994. Ähnlich wie bei Tonomura werden die Frames der Einstellung auf einen Stapel gelegt, um die Bewegungsinformation und Dauer der Einstellung zu übertragen. Man kann einen Frame einer Einstellung "ergreifen", indem man die Maus entlang der Seite des Icons anordnet. In einem anderen Modus werden die Frame nicht auf einen Stapel gelegt, sondern die Dicke der Icons wird dazu benutzt, die Dauer der Einstellung zu vermitteln. Dadurch wird Bildschirmplatz vergeudet, da die Wichtigkeit der Information den verbrauchten Bildschirmplatz nicht rechtfertigt.
  • Mills et al. haben einen Browser für kurze Videosequenzen eingeführt. Siehe M. Mills, J. Cohen und Y-Y. Wong, A Magnifier Tool for Video Data, Proceedings of ACM Computer Human Interface (CHI), 3.–7. Mai 1992. Ähnlich wie der Bildmusterbrowser von Tonomura betrachtet dieser Browser den Videoinhalt nicht; er unterteilt statt dessen die Folge systematisch in mehrere gleiche Segmente. Hat der Benutzer ein Segment gewählt, so wird es in gleiche Längen unterteilt usw., bis der Benutzer jeden Frame ansehen kann. In jedem Fall wird das Segment mit Hilfe seines ersten Frames dargestellt. Dieser Ansatz stellt eine geringe Verbesserung gegen schnellem Vorlauf bzw. Rücklauf dar. Es liefert dem Benutzer jedoch nicht die Bedeutung des Videoinhalts. Der Benutzer kann die Information, an der er interessiert ist, leicht verfehlen, da die Darstellung eines jeden Segments keinen Zusammenhang mit den restlichen Frames in diesem Segment hat.
  • Nachteile der obigen Arbeiten bestehen darin, dass entweder keine grundlegende Browsereinheit verwendet wird und/oder dass jeder Frame des Videos vom Benutzer während der Browsevorgänge benötigt wird. Dadurch ist es für einen Einsatz über das Netz ungeeignet. Zudem behandelt keines der obigen Systeme das Problem der Iconverwaltung. Dies ist sehr wichtig, da mehrere tausend Icons nötig sein können, die Einstellungen für jeweils zweistündige Videosequenzen darzustellen. Ueda et al. greifen diesen Gegenstand mit Hilfe von Farbinformation an. Siehe H. Ueda, T. Miyatake, S. Sumino und A. Nagasaka, Automatic Structure Visualization for Video Editing, in InterCHI'93 Conference Proceedings, Amsterdam, Niederlande, 24.–29. April 1993, pp. 137–141. Farbe kann jedoch nicht das einzige Darstellungsmittel sein, da Farbhistogramme sehr viel Information auf eine einzige Information abbilden. In unserem Videobrowser wird die Form zusammen mit der Farbe dazu verwendet, den Benutzer bei der Iconverwaltung und beim Navigieren durch eine gegebene Videosequenz zu unterstützen.
  • Gemäß einem Aspekt der Erfindung wird ein computerimplementiertes Verfahren zum Angeben eines repräsentativen Frames (Rframe) für eine Gruppe von Frames in einer Videosequenz bereitgestellt, umfassend:
    • a) das Auswählen eines Bezugsframes aus der Gruppe von Frames;
    • b) das Speichern des Bezugsframes in einem Computerspeicher;
    • c) das Definieren eines Randbewegungs-Verfolgungsbereichs entlang einer Kante des Bezugsframes; und
    • d) nacheinander das Verfolgen der Bewegung von Grenzpixeln im Verfolgungsbereich, damit ein repräsentativer Frame (Rframe) der Gruppe von Frames bereitgestellt wird, wobei der repräsentative Frame den Bezugsframe und den Bewegungsverfolgungsbereich enthält.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung wird im Schritt d) die Bewegung der Grenzpixel nacheinander von Frame zu Frame in der Gruppe von Frames verfolgt.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung führt der Schritt d) zu einer Bahn, die eine Kamerabewegung oder Gesamtbewegung darstellt.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung führt der Schritt d) zu einer Bahn, die einen verpassten Frame in der Gruppe von Frames anzeigt.
  • Bevorzugt führt der Schritt d) zu einer Bahn oder sichtbaren Darstellung, die die Länge oder Dauer einer jeweiligen Einstellung angibt.
  • In einer bevorzugten Ausführungsform wird die Einstellung oder die Gruppe von Frames unterabgetastet, um eine Anzahl Frames daraus auszuwählen, und das Verfahren umfasst zudem das Ablegen einer geringeren Anzahl Ausschnitte auf einem Stapel, einen von jeder Seite des gewählten Frames, und das Anwenden eines Kantenerkennungsalgorithmus für jeden Ausschnitt der geringeren Anzahl Ausschnitte, wobei Grenzpixel aus einem Frame zum nächsten verfolgt werden, so dass es einem Benutzer ermöglicht wird, die zu der Einstellung gehörende Bewegung zu visualisieren.
  • In dem Kantenerkennungsalgorithmus wird bevorzugt die Vorgehensweise der Faltung angewendet, und eine Maske, die eine m × m Matrix ist, wird mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet.
  • Zudem stellt der Kantenerkennungsalgorithmus bevorzugt eine lokale Operation dar, die mit Hilfe der Vorgehensweisen der Faltung ausgeführt wird, wobei eine Maske, die eine m × m Matrix ist, mit den Pixeln in jedem Bewegungsverfolgungsbe reich gefaltet wird, und ein Ausgangssignal der Faltung die Pixel hervorhebt, bei denen Veränderungen an zwei benachbarten Pixeln vorliegen. Dabei bedeutet benachbart links, rechts, oben oder unten.
  • Bevorzugt ist der Verfolgungsbereich relativ zu den Abmessungen des Frames schmal. Zudem bevorzugt man, dass sich der Verfolgungsbereich im Wesentlichen rechteckig in Form eines Rings um den Bezugsframe herum erstreckt.
  • Die Erfindung wird nun anhand beispielhafter Ausführungsformen und mit Bezug auf die Zeichnungen beschrieben, die das Verständnis der Erfindung unterstützen.
  • Es zeigt:
  • 1 einen repräsentativen Frame, Rframe, für jede Videoeinstellung, wobei a) die Struktur des Rframes, b) der Bewegungsverfolgungsbereich mit dem Beginn t = 0 in der Mitte des Rframes und c)–f) einige Beispiele dargestellt sind;
  • 2 den Browser in Grundbetriebsmodus;
  • 3 den Browser in einem höheren Betriebsmodus;
  • 4 den Browser im höheren Betriebsmodus mit Präferenzen;
  • 5 die Frequenzverteilung a) und die Blockmerkmale b) der DFT-Koeffizienten innerhalb eines Blocks;
  • 6 ein Beispiel für die Auswahl von Kanten enthaltenden Unterbereichen mit Hilfe der DFT-Koeffizienten, wobei a) den Originalframe darstellt und in b) die Unterbereiche, in denen keine Kanten gefunden wurden, ausgefüllt dargestellt sind, und die verbleibenden Bereiche für die Kantendetektion entkomprimiert werden können; und
  • 7 einen Überblick über die DCT- und Blockkonzepte.
  • Die Erfindung führt einen neuartigen Ansatz zum Verarbeiten von codierten Videosequenzen vor der vollständigen Decodierung aus. In JPEG- und MPEG-codierten Videosequenzen lassen sich Szenenveränderungen leicht mit Hilfe der DFT-Ko effizienten erkennen. Innerhalb eines jeden 8 × 8-DCT-Blocks wird die Verteilung der DFT-Koeffizienten dazu verwendet, den Block entweder in die Klasse 0 (enthält keine Hochfrequenzkomponenten) oder die Klasse 1 (enthält Hochfrequenzkomponenten) einzustufen. Die Veränderung in der Verteilung der Nullen und Einsen zwischen einem Frame und dem folgenden werden mit Hilfe von Eigenvektoren erfasst und zum Darstellen von Szenenveränderungen eingesetzt. Die Frames zwischen zwei aufeinander folgenden Szenenveränderungen bilden eine Videoeinstellung. Videoeinstellungen kann man als die Bausteine der Videosequenzen betrachten. Sie werden beim Browsen, im weiteren ausführlicher erklärt, Datenbankindizieren und beliebigen weiteren Operationen eingesetzt, die im Wesentlichen eine Abstraktion des Videos darstellen. Zum Visualisieren einer jeden Videoeinstellung werden die Inhalte in sinnvoller Weise abstrahiert, so dass der Inhalt der Einstellung repräsentiert wird. Man erreicht dies mit repräsentativen Frames bzw. Rframes, die im Weiteren ausführlicher erklärt werden.
  • Die Erfindung betrifft das Problem der Erkennung von Szenenveränderungen in codierten Videosequenzen, und zwar insbesondere im Zusammenhang mit einer sehr raschen Betrachtung des Inhalts einer gegebenen Videosequenz. Dieser Vorgang sei hier als Browsen bezeichnet. Das Browsen durch eine Videosequenz stellt eine kritische Anforderung in vielen Bereichen und für viele Anwendungen dar, bei denen der Benutzer einige wenige Videosequenzen aus einer großen Anzahl auswählen muss und/oder der Benutzer einen bestimmten Punkt innerhalb einer einzelnen Videosequenz finden muss.
  • Derartige Fälle entstehen in zahlreichen Situationen, beispielsweise beim Fernzugriff auf ein Video, in der Videodatenbanknavigation, beim Videoeditieren, bei videogestützten Schulungen und Ausbildungen, und in naher Zukunft bei Video-E-Mail und aufgezeichneten Desktop-Videokonferenzsitzungen. In diesen Fällen muss der Benutzer den Inhalt der Videosequen zen durchsehen, um die wichtigsten auszuwählen oder einen gewünschten Punkt zu finden. Zugewiesene Kennungen, Schlüsselwörterbeschreibungen und Datenbankindizierungen können die Anzahl der Möglichkeiten ein Stück weit reduzieren. In vielen Fällen muss sich der Benutzer aber immer noch zwischen mehreren Möglichkeiten entscheiden. Man betrachte beispielsweise den Fall, dass der Benutzer eine Abfrage an eine entfernte Datenbank gerichtet hat, und dass die Datenbanksuche dazu geführt hat, dass mehrere Möglichkeiten angeboten werden. An dieser Stelle muss der Benutzer entscheiden, ob der Kontext und der Inhalt der gelieferten Videos die Anforderungen erfüllen. Dies kann möglicherweise nur dadurch geschehen, dass jedes gelieferte Video angesehen wird. Das Ansehen des Videos erfordert, dass jedes Video von einem normalerweise hierarchischen Speichersystem geholt wird und vollständig über das Netz übertragen wird, wenn der Benutzer das Video abspielt oder zumindest schnell vor- und zurückspult. Dieser Vorgang erfordert viel Zeit, ist wenig wirkungsvoll, nicht kosteneffizient und vergeudet Bandbreite.
  • Es werden Abstraktionen einer jeden Videosequenz vorab berechnet. Die Abstraktionen werden vom System geholt, übertragen und bei Bedarf vom Benutzer angesehen. Die Abstraktionen sind um viele Größenordnungen kleiner als die Videosequenzen selbst. Damit nehmen die Antwortzeit des Systems, der Bandbreitenbedarf und – am wichtigsten – die Betrachtungszeit des Benutzers ab. Zusätzlich erlaubt es das vorgeschlagene System dem Benutzer, eine gewünschte Stelle innerhalb einer Videosequenz sehr rasch genau zu lokalisieren.
  • Gemäß einem Aspekt der Erfindung erzielt man das inhaltsgestützte Videobrowsen durch Vorverarbeitungsschritte, die vorab off-line ausgeführt werden, bevor der Benutzer Zugriff erhält:
    • a) Erfassen von Szenenveränderungen im komprimierten Video zum Bilden von Videoeinstellungen; und
    • b) Konstruieren der Abstraktionen für jede Videoeinstellung zum Darstellen des Inhalts. Die Abstraktionen werden als Rframes bezeichnet. Zusätzlich wird eine Anzahl weiterer Schritte während des Browsens ausgeführt, die von den besonderen Bedürfnissen des Benutzers bestimmt sind:
    • c) Darstellen der Rframes, so dass der Benutzer den Inhalt der Videosequenz leicht suchen kann; und
    • d) Anwenden eines Verfahrens zum Verwalten der Rframes umfassend das Verbinden von Gleichartigkeitsmessungen abhängig von Form und Farbe.
  • Die Verarbeitung während des Browsens ist nötig, da sich alle Benutzer unterscheiden und jeder Benutzer zu unterschiedlichen Zeiten unterschiedliche Ansprüche auch an die gleiche Sequenz stellen kann.
  • Die hier offenbarten Vorgehensweisen stellen den Inhalt einer Videosequenz dar. Die Darstellung dient dazu, dem Benutzer ein rasches Ansehen einer Videosequenz zu erlauben, damit er einen bestimmten Punkt in der Folge findet und/oder entscheiden kann, ob die Inhalte der Sequenz für seine Bedürfnisse wichtig sind. Dieses System, als inhaltsabhängiges Browsen bezeichnet, bildet eine Abstraktion, im Weiteren ausführlicher erklärt, um jede erfasste Einstellung der Sequenz mit einem repräsentativen Frame oder Rframe zu repräsentieren, siehe unten, und es enthält Verwaltungstechniken, die es dem Benutzer erlauben, einfach in den Rframes zu navigieren. Diese Vorgehensweise ist den geläufigen Techniken des schnellen Vor- und Rücklaufs überlegen, da nicht jeder Frame zum Ansehen und Beurteilen der Inhalte verwendet wird, sondern nur einige Abstraktionen. Daher besteht keine Notwendigkeit mehr, das Video aus einem Speichersystem zu holen und jeden Frame vollständig über das Netz zu übertragen. Man spart Zeit, Kosten und Bandbreite.
  • Das inhaltsabhängige Browsen hat gegenüber dem schnellen Vorlauf und Rücklauf (FF/REW) Vorteile und ist genauso einfach zu benutzen. Verwendet der Benutzer FF/REW, so muss er jeden Frame mit sehr hoher Geschwindigkeit ansehen, wobei es wahrscheinlich ist, dass kurze Einstellungen übersehen werden, und der Benutzer ist gezwungen, lang andauernde und möglicherweise unwichtige Einstellungen anzusehen. Zudem sind Benutzer, die eine bestimmte Stelle in einer Sequenz suchen, normalerweise gezwungen, ihre Suche nach einer Anzahl schneller Vorlauf- und Rücklaufvorgänge zu verfeinern, bis sich das Video exakt am interessierenden Punkt befindet. Dies ist ein zeitaufwendiger und ermüdender Vorgang. Beim inhaltsabhängigen Browser der Erfindung sind die genauen Szenenveränderungspunkte intern definiert. Somit braucht der Benutzer keine "Feinabstimmung" auszuführen. Man sollte nicht übersehen, dass die beschriebenen Nachteile von FF/REW auch bei digitalem Video und auf anderen Medien mit wahlfreiem Zugriff weiterbestehen, z. B. auf Laserdisks. Schließlich ist FF/REW als Mittel zum Browsen von digitalem Video äußerst ineffizient wenn man den Aufwand hinsichtlich des Zugriffs auf Disks und/oder Bänder, der Decodierung und der Übertragung in Betracht zieht.
  • Die Erfindung betrifft auch die wirksame Verarbeitung von komprimiertem Video zum Erkennen von Szenenveränderungen. Gemäß einem Aspekt der Erfindung wird eine gezielte Decodierung verwendet, um die Vorteile der Information zu nutzen, die bereits in den komprimierten Daten enthalten ist. Insbesondere werden vor der vollständigen Dekompression ein auf der diskreten Cosinustransformation (DCT) beruhender Standard wie JPEG (siehe K. G. Wallace, "The JPEG still picture compression standard", Communications of ACM, 34(4): 30–44, April 1991.) oder H.261 (M. Liou, Overview of the 64 kbit/s video coding standard, Communications of ACM, 34(4): 59–63, April 1991.) und zahlreiche für jeden Frame einer Videosequenz erforderliche Verarbeitungsschritte ausgeführt. Die DFT-Koeffi zienten werden analysiert, um systematisch Szenenveränderungen oder Videoschnitte zu erkennen, die beim Browsen oder der zukünftigen Merkmalsextraktion und Indizierung verwendet werden. Früher hat man aufwändige Verfahren wie die Farbhistogrammanalyse für jeden Frame ausgeführt, um die gleichen Aufgaben zu erfüllen. Siehe D. Le Gall, MPEG: A video compression standard for multimedia applications, Communications of ACM, 34(4): 46–58, April 1991.
  • Der Standardcodiervorgang beginnt mit dem Unterteilen jeder Farbkomponente des Bilds in einen Satz von 8 × 8-Blöcken. 7 zeigt einen Überblick über die DCT- und Blockkonzepte. Die Pixel in den Blöcken werden nun jeweils mit Hilfe der diskreten Cosinusvorwärtstransformation (DCT) transformiert:
    Figure 00140001
    wobei C(τ) = 1/(√2) falls τ = 0 und 1 sonst gilt. F(u, v) sind die DFT-Koeffizienten, f(x, y) sind die Eingabepixel, F(0, 0) ist der DC-Koeffizient oder Gleichanteil, d. h. der Mittelwert der 64 Pixelwerte, und die verbleibenden 63 Koeffizienten werden als AC-Koeffizienten bezeichnet. Die 64 Koeffizienten eines jeden Blocks werden nun quantisiert, damit nur die visuell wesentliche Information erhalten bleibt.
    Figure 00140002
    wobei Q(u, v) die Elemente der Quantisierungstabelle bezeichnet und [] einen Rundungsvorgang auf ganze Zahlen darstellt. Die Koeffizienten werden nun in einer Zick-Zack-Reihenfolge codiert, in der die Niederfrequenzanteile vor den Hochfrequenzanteilen angeordnet sind. Die Koeffizienten werden nun mit Hilfe einer Huffman-Entropie-Codierung codiert. Die im Folgenden vorgestellte Verarbeitung setzt voraus, dass die codierten Daten durch Anwendung des Huffman-Decoders bereits teilweise decodiert sind. Die entstehenden Koeffizienten können abhängig von der Quantisierungstabelle entquantisiert sein oder auch nicht. Siehe 5 für die Frequenzverteilung a) und die Blockmerkmale b) der DFT-Koeffizienten innerhalb eines Blocks. Koeffizienten mit dem Wert null in den "hohen" Bereichen zeigen an, dass der 8 × 8-Block nur Niederfrequenzkomponenten aufweist und im Wesentlichen keine Hochfrequenzkoeffizienten. 6 zeigt ein Beispiel für die Auswahl von Unterbereichen, die Kanten enthalten, mit Hilfe der DFT-Koeffizienten. Es zeigt a) den Originalframe und b) die gefundenen Unterbereiche ohne Kanten in ausgefüllter Darstellung. Die verbleibenden Bereiche können für die Kantendetektion entkomprimiert werden.
  • Der Ansatz der Erfindung unterscheidet sich von früheren Lösungen unter anderem dadurch, dass bei herkömmlichen Verfahren alle Schritte anhand der entkomprimierten Videoframes ausgeführt werden, die Erfindung jedoch Vorteil daraus zieht, dass das eingehende Video bereits in komprimierter Form vorliegt. Nun wird die Information, die bereits beim Codiervorgang codiert wurde, vorteilhaft ausgenutzt. Erstens ist der Rechenaufwand zum vollständigen Entkomprimieren eines jeden Frames nicht nötig und wird eingespart, falls nur eine ausgewählte Anzahl Frames vor der Dekompression für die Weiterverarbeitung oder für das Browsen ausgewählt werden. Zweitens sind Koeffizienten im Ortsfrequenzbereich mathematisch mit dem Ortsbereich verknüpft, und man kann sie direkt für das Erkennen von Veränderungen in den Videosequenzen einsetzen. Drittens spart die Kenntnis der Blockorte in gewissem Umfang Ortsbereichsinformation ein.
  • Das Erkennen der Szenenveränderung erfolgt durch die Anwendung eines programmierten Computers gemäß dem folgenden Verfahren oder "Algorithmus":
    • a) Untersuche jeden DCT-Block im komprimierten Videoframe, und falls Hochfrequenzkoeffizienten vorhanden sind, kennzeichne den Block mit 1, andernfalls kennzeichne den Block mit 0. Die Ausgabe dieses Schritts ist eine Matrix mit Nullen und Einsen, und die Größe der Matrix wird bestimmt durch die Größe des Videoframes jeweils der Länge und der Breite nach durch 8 geteilt. Beispielsweise führt ein 320 × 240-Videoframe auf eine 40 × 30-Matrix;
    • b) Lösche Spalten oder Zeilen zum Transformieren der Matrix aus dem Schritt a) in eine quadratische Matrix. Lösche beispielsweise 10 Spalten, um eine 30 × 30-Matrix zu erhalten. Bevorzugt werden für jeden Frame des Videos die gleichen entsprechenden Spalten und Zeilen gelöscht. Dieser Schritt kann das Unterabtasten der Matrix enthalten, damit diese kleiner wird. Man löscht beispielsweise jede zweite Spalte und Zeile. Die endgültige Ausgabe dieses Schritts ist eine n × n-Matrix;
    • c) Leite die zwei Hauptvektoren der Matrix zum Beschreiben des Inhalts eines jeden Videoframes gemäß den Verfahren der linearen Algebra ab, die aussagen, dass jede n × n-Matrix mindestens einen und höchstens n Eigenwerte hat: λi, 1 ≥ i ≥ n, und da die Bilder zweidimensional sind und es somit 2 Eigenwerte gibt, dass jeder Eigenwert einen zugehörigen Eigenvektor hat, und dass diese zwei Vektoren die Hauptvektoren der Matrix sind;
    • d) Erkenne eine Veränderung des Inhalts zwischen einem Videoframe und dem folgenden oder Szenenveränderungen, und verwende das innere Produkt zum Erkennen einer derartigen Veränderung, da eine Veränderung im Inhalt zwischen einem Videoframe und dem folgenden oder eine Szenenveränderung auch bewirkt, dass sich die Vektoren gemäß der folgenden Gleichung ändern,
      Figure 00170001
      wobei Δ der zeitliche Abstand zwischen zwei Frames ist; und
    • e) falls ∂, 1 ≥ ∂ ≥ 0 größer ist als ein Grenzwert τ, zeige an, dass eine Szenenveränderung erfolgt ist.
  • Der Videoinhalt zwischen zwei Szenenveränderungen wird als "Einstellung" bezeichnet.
  • Hat das Video das Format Motion-JPEG, so werden die DCT-Koeffizienten des Schritts a) aus jedem Frame gewonnen und Gleichung (1) wird wie im Schritt e) angegeben angewendet. Liegt das Format MPEG vor, bei dem drei Arten von Frames definiert sind, (nämlich I, B und P), so müssen je zwei Frames in Gleichung (1) den gleichen Typ haben. D. h., man kann in Gleichung (1) einen I-Frame nicht mit einem benachbarten B- oder P-Frame vergleichen.
  • Jede erfasste Einstellung wird mit Hilfe eines Rframes dargestellt, der so gestaltet ist, dass der Benutzer damit fünf Aufgaben erfüllen kann. Erstens ist er damit in der Lage, den Inhalt der Einstellung zu beurteilen. Zweitens kann er damit entscheiden, ob die Szenenveränderungserkennung vielleicht eine Einstellung übersehen hat. Viele vorgeschlagene Szenenveränderungserkenner weisen hohe Genauigkeitsraten von 90 Prozent und mehr auf, es beansprucht jedoch keiner eine hundertprozentige Genauigkeit. Zusätzlich können viele komplizierte Übergänge während der Szenenveränderungserkennung falsche Verneinungen erzeugen. Daher ist es aus Sicht des Benutzers erwünscht, dass es einen Mechanismus gibt, mit dem der Benutzer sicherstellen kann, dass während dieser Einstellung keine Szenenveränderungen übersehen worden sind. Die dritte Aufgabe des Rframes besteht darin, dem Benutzer den Bewegungssinn innerhalb der Einstellung zu liefern. Das vierte Merkmal erlaubt es dem Benutzer, die Länge oder Dauer der Einstellung in Sekunden leicht zu ermitteln. Das fünfte Merkmal erlaubt es dem Benutzer, festzustellen ob irgendwelche Untertitel in der Videoeinstellung auftreten. Zum Bilden der Rframes muss die Videosequenz bereits in Segmente mit gewisser Bedeutung zerlegt sein, z. B. in Videoeinstellungen (die Frames zwischen zwei aufeinander folgenden Szenenveränderungen bilden eine Videoeinstellung) wie offenbart. Die Sammlung der Rframes dient dazu, den Inhalt der gesamten Videosequenz beim Browsen und bei Navigationsvorgängen darzustellen. Dies wird im Zusammenhang mit dem Browsen des Inhalts einer gegebenen Videosequenz erklärt.
  • Jeder Rframe enthält einen Körper, vier Bewegungsverfolgungsbereiche, Einstellungslängenanzeiger und eine Untertitelanzeige, siehe 1. Der Körper des Rframes ist ein Frame, der aus der Videoeinstellung ausgewählt wird. Derzeit wird der zehnte Frame gewählt. Es gibt jedoch auch andere Möglichkeiten, z. B. den letzten Frame für gezoomte Einstellungen. Die Bewegungsverfolgungsbereiche verfolgen die Bewegung der Randpixel über der Zeit. Damit kann man sie als Führer für die Kamera- bzw. Gesamtbewegung verwenden. Die Bewegungsverfolgungsbereiche dienen auch als Indikator für übersehene Szenenveränderungen. Enthält die Einstellung eine Szenenveränderung, so "versagt" die Verfolgung der Randpixel und bewirkt, dass keine gerade Linie im Bewegungsverfolgungsbereich erscheint (siehe 1e). Die Zeitanzeiger sind so gestaltet, dass es ein kurzer Blick des Benutzers auf jeden Rframe ermöglicht, festzustellen ob die zugehörige Einstellung kurz oder lang ist. Eine genauere Schätzung der Einstellungslänge ist dadurch gut möglich, dass man die 2- und 4-Sekunden-Qua drate zählt. Diese Darstellung der Einstellungslänge belegt keinerlei wertvollen Bildschirmplatz. Dagegen würde es das Darstellen der genauen Sekundenanzahl dem Benutzer nicht ermöglichen, die Einstellungslängen rasch zu vergleichen.
  • 1 zeigt einen repräsentativen Frame, den Rframe, für jede Videoeinstellung. a) zeigt die Struktur des Rframes; b) zeigt den Bewegungsverfolgungsbereich, wobei t = 0 in der Mitte des Rframes beginnt; c)–f) zeigen einige Beispiele. In c) bewegt der Moderator seine Hände, die Kamera ist jedoch stationär. Dies wird durch die geraden Linien bewiesen. Die Einstellung enthält auch einen Untertitel. d) zeigt, dass die Kamera nach links geschwenkt ist und der Bewegung des Tiers folgt. Die Kurven beginnen (t = 0) und bewegen sich nach rechts. Diese Einstellung enthält keine Untertitel. e) zeigt ein Beispiel für eine verpasste Szenenveränderung. Die geraden Linien, die das Zentrum nicht berühren, zeigen die Möglichkeit an, dass die Einstellung eine Szenenveränderung enthalten kann. f) zeigt, dass die Kamera stationär ist, dass sich jedoch die Objekte in verschiedene Richtungen bewegt haben. Diese Einstellung enthält einen Untertitel.
  • Zum Konstruieren der Bewegungsverfolgungsbereiche wird die Einstellung unterabgetastet, um einige wenige Frames auszuwählen. Vier Schnitte, einer von jeder Seite, eines jeden gewählten Frames werden dann übereinander gestapelt, und es wird ein Kantendetektionsalgorithmus auf jeden der vier Stapel angewendet. Diese einfache Operation verfolgt tatsächlich die Randpixel von einem Frame zum folgenden und erlaubt dem Benutzer, die Bewegung zu visualisieren.
  • Die Kantendetektion ist eine lokale Operation und wird mit Hilfe des Faltungsprinzips ausgeführt. Eine Maske in Form einer m × m-Matrix wird mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet. Die Ausgabe der Faltung hebt diejenigen Pixel hervor, bei denen sich zwei benachbarte Pixel än dern. Benachbart bedeutet links, rechts oben oder unten. Es sind zahlreiche m × m-Matrizen bekannt, z. B. die Laplace-Matrix
  • Figure 00200001
  • Für Einzelheiten wird auf Gonzales, a. a. O., verwiesen.
  • Wie bereits erwähnt erfordern Videosequenzen eine "Basisbrowsereinheit", die man zum Browsen verwenden kann. Anders als bei Zeitungen oder Büchern, bei denen ein Editor von Hand die Überschriften für jeden Artikel oder jedes Kapitel von Hand wählt, muss der Auswahlvorgang der Videobrowsereinheit automatisch erfolgen, und zwar wegen der äußerst umfangreichen Datenmengen in den Videosequenzen. Zudem würden manuelle Eingriffe von sich aus äußere Einflüsse in das Material hineintragen. Diese Einflüsse könnten ihrerseits den Benutzer bei der Suche behindern, indem sie falsche Anhaltspunkte oder zuwenig Anhaltspunkte liefern und dadurch den Benutzer zwingen, FF/REW zu verwenden. Der Auswahlvorgang der Videobrowsereinheit muss automatisch erfolgen, und sein Ergebnis muss eine Bedeutung für den Benutzer haben, da dies das Werkzeug ist, anhand dessen entschieden wird, ob die zurückgelieferten Videosequenzen für die vorliegende Aufgabe wichtig sind. Eine verbleibende Aufgabe beim Entwurf eines Videobrowsers ist seine Geschwindigkeit. Der Videobrowser muss verglichen mit FF/REW beträchtlich schneller und dabei bequem zu bedienen sein.
  • Der hier offenbarte Videobrowser erfüllt die genannten Anforderungen. Der vorgeschlagene Videobrowser verwendet Einstellungen als Grundbausteine einer Videosequenz, die durch "repräsentative Frames" oder Rframes gekennzeichnet wird. Die Sequenzen in der Videosammlung werden einmal vorverarbeitet, um die Szenenveränderungen zu erkennen und die Rframes auf zubauen. Zum Browsen einer bestimmten Videosequenz kann der Benutzer durch alle Rframes rollen und den sichtbaren Inhalt der Sequenz ansehen. Hat der Benutzer einen Rframe gewählt, so kann die zugehörige Videoeinstellung abgespielt werden. Weitere Informationen, z. B. die Länge einer jeden Einstellung und die ungefähren Bewegungen sind ebenfalls leicht darzustellen. In Fällen in denen mehrere hundert Szenen und damit mehrere hundert Rframes in einer gegebenen Videosequenz vorhanden sind, werden fortgeschrittene Verfahren dazu eingesetzt, dass der Benutzer die Information mit Leichtigkeit verwalten kann.
  • Beim Aufruf zeigt der Browser die vorab berechneten Rframes in chronologischer Reihenfolge (Siehe 2, die den Browser im Grundbetriebsmodus darstellt. Die Zeile mit den Rframes befindet sich unten, und die Sequenz am vom Benutzer gewählten Punkt wird oben angezeigt. Der Benutzer kann das Video ab diesem Punkt wiedergeben und am Ende der Einstellung automatisch anhalten oder über die Szenenveränderung hinaus fortfahren.). Der Benutzer kann durch die Rframes rollen. Hat er einen Rframe gewählt, so wird das Video exakt ab dieser Stelle wiedergegeben. Die zweite Option des Benutzers besteht darin, einen Rframe zu wählen und alle ähnlichen Rframes anzusehen. Der Verwandtschaftsgrad eines jeden Rframes zum gewählten Rframe wird dem Benutzer durch eine veränderte Größe eines jeden Rframes übermittelt. Die ähnlichsten Rframes werden in ihrer Originalgröße dargestellt. Einigermaßen ähnliche Rframes werden verkleinert dargestellt, beispielsweise mit einem Voreinstellungswert von 33 Prozent der Größe. Die davon verschiedenen Rframes werden in noch kleineren Maßstäben dargestellt (Voreinstellung 5 Prozent), siehe 3, die den Browser im fortgeschrittenen Betriebsmodus zeigt. Die obere Zeile zeigt die ursprüngliche Menge an Rframes, aus der der Benutzer einen Rframe gewählt hat (mit dem roten Quadrat eingerahmt). Die untere Zeile zeigt alle anderen ähnlichen Rfra mes, wobei die einigermaßen ähnlichen Rframes mit 33 Prozent der Originalbreite dargestellt sind, und die nicht ähnlichen Rframes mit 5 Prozent der Originalbreite dargestellt sind; sie erscheinen als schwarze Balken. Der Benutzer kann die Voreinstellungen leicht verändern (Siehe 4, die den Browser im fortgeschrittenen Betriebsmodus mit den Vorzugswerten zeigt. Der Browser ist im fortgeschrittenen Betriebsmodus dargestellt, wobei der Benutzer im Vorzugsfenster wählt, wie jede Gruppierungskategorie dargestellt wird. Die dargestellte Einstellung zeigt, dass die einigermaßen ähnlichen und die nicht ähnlichen Rframes als schwarze Balken dargestellt werden, und dass nur die vergleichbaren Rframes in voller Größe dargestellt werden.).
  • Der Benutzer kann verlangen, dass vergleichbare Rframes in der zweiten Zeile des Browsers dargestellt werden. Zusätzlich kann der Benutzer mehrere Anforderungen verbinden: zeige Rframes, die dem Rframe X "ähnlich" sind und die dem Rframe Y "nicht ähnlich" sind. Nach jeder Forderung werden die Ergebnisse in einem neuen Streifen Rframes dargestellt. Damit kann der Benutzer zu jedem Zeitpunkt über mehrere Streifen verfügen, von denen jeder einen unterschiedlichen "Blickwinkel" auf die selbe Sequenz enthält. Die Benutzeranforderungen können auf beliebigen Streifen ausgeführt werden. Die Ergebnisse werden in einem neuen Streifen dargestellt oder überschreiben abhängig von der Vorgabe des Benutzers einen vorhandenen Streifen.
  • Wie erwähnt muss der Browser genauso bequem zu verwenden sein wie das derzeitige FF/REW-Verfahren. Der vorgeschlagene Browser erfüllt dieses Kriterium. Vom Benutzer werden nur die Handlungen Rollen und Einfach- oder Doppelklicks auf einer Steuermaus verlangt.
  • Es sei nun davon ausgegangen, dass die Szenenveränderungen erkannt sind. Liegen sehr viele Rframes vor, beispiels weise mehr als der Benutzer leicht durchsuchen und durchlaufen kann, so treten einige Aufgaben auf. Wie angegeben kann der Benutzer einen Rframe wählen und vom System verlangen, dass es alle ähnlichen Rframes in der selben Videosequenz zurückgibt. Der Schlüssel, mit dem man diese Ähnlichkeit wirksam und korrekt messen kann, liegt in der Weise, in der jeder Rframe intern dargestellt wird. Zum Beschreiben von Rframes werden Repräsentationen eingesetzt; dies ist eine Schlüsselaufgabe auf dem Gebiet der Computersicht. Die Repräsentationen bestimmen die Übereinstimmungsstrategie, ihre Robustheit und die Systemwirksamkeit. Die Beschreibungen werden auch in den Berechnungen verschiedener benötigter Objekteigenschaften in der Szene während der Gruppierungsphase eingesetzt. In nahezu allen Fällen ist die zweidimensionale Zahlenanordnung, die man zum Anzeigen der Rframes verwendet, in ihrer "Rohform" nicht sehr nützlich.
  • Der Browser verwendet zwei Repräsentationen, die einander ergänzen. Formeigenschaften werden mit Momenten dargestellt und Farbeigenschaften werden mit Farbhistogrammen dargestellt. Beide Repräsentationsschemata sind gegen geringe Änderungen der Szene unempfindlich, beispielsweise Objektbewegung, Sichtentfernung usw. Beide sind kompakte Repräsentationen, die wirksame Ähnlichkeitsmessungen erlauben. Die beiden folgenden Abschnitte beschreiben diese Repräsentationsschemata und ihren Gebrauch ausführlicher.
  • Die Form von Objekten innerhalb eines Rframes ist die Haupteigenschaft, die in der Rframeverwaltung verwendet wird. Sie wird durch Momenteninvarianten dargestellt. Das Moment eines Bilds f(x, y) ist definiert als: mpq = ΣΣxpyqf(x, y) (2)
  • Eine physikalische Interpretation der Momente ist möglich, wenn man den Grauwert eines jeden Rframes als seine Masse betrachtet. Dann ist in dieser Analogie m00 die Gesamtmasse eines Rframes und m20 und m02 sind die Trägheitsmomente um die x- und y-Achse. Momenteninvarianten zeigen Eigenschaften, die sie zu einem idealen Repräsentationsmechanismus für den Videobrowser machen. Die Invarianz gegen irgendwelche Maßstabsänderungen, Drehungen und Verschiebungen sind einige dieser Eigenschaften, die im Browser zum Beschreiben der Rframes eingesetzt werden. Momenteninvarianten werden von den normierten Zentralmomenten abgeleitet, die wie folgt definiert sind:
    Figure 00240001
    wobei gilt
    Figure 00240002
    x - = m10/m00 und y - = m10/m00. Einige erste Momenteninvarianten werden nun wie folgt definiert (siehe M. -K. Hu, Pattern Recognition by moment invariants, Proc. IRE, Vol. 49, 1961, p. 1428; M. -K. Hu, Visual pattern recognition by moment invariants, IRE Trans. Inform. Theory, Vol. 8, February 1962, pp. 179–187; R. Gonzales und P. Witz, Digital Image Processing, Addison-Wesley, Readings, MA, 1977.) φ1 = η20 + η02 φ2 = (η20 – η02)2 + 4η211 φ3 = (η30 – 3η12)2 + (3η21 – η03)2 (4)
  • Die Form eines jeden Rframes wird dann mit Hilfe des Vektors dargestellt, der wie folgt definiert ist: = {φ1, φ2, φ3, ..., φ7} (5)
  • Zuletzt wird der euklidische Abstand zum Messen der Verwandtschaft von zwei Rframes verwendet: ψ(α, β) = | α- β|2 (6)
  • Das zweite Merkmal, das in der Rframeverwaltung gemäß der Erfindung umfangreich eingesetzt wird, ist die Farbe. Farbe besitzt viele Eigenschaften der Momente, z. B. die leichte Darstellbarkeit oder Beschreibbarkeit eines jeden Rframes. Im Gegensatz zu Momenten ist sie jedoch weniger empfindlich für Unterschiede, beispielsweise durch Bewegung innerhalb eines Frames. Die Farbe kann nicht die einzige Repräsentation des Rframeinhalts sein, da die meisten Farbrepräsentationsmittel auf Farbhistogrammen beruhen, die per Definition sehr viele Merkmale auf ein Merkmal abbilden. Damit können viele vollständig verschiedene Rframes oder Videoframes sehr ähnliche Farbrepräsentationen besitzen. Farbhistogramme allein reichen beispielsweise nicht dazu aus, irgendwelche Unterschiede zwischen einem weiß und rot karierten Brett und einem weißen Brett mit parallelen roten Streifen zu erkennen, da der Farbgehalt der beiden Bretter identisch sein kann.
  • Der Browser stellt den Farbgehalt eines jeden Rframes mit Hilfe des Farbhistogramms dar, das im Wesentlichen die Frequenzverteilungsfunktion der Farbe eines jeden Pixels ist. Bei einem gegebenen Farbmodell (RGB, HSI, usw.) erhält man das Histogramm dadurch, dass man zählt, wie oft jede Farbe in jedem Rframe vorkommt (für weitere Einzelheiten siehe C. L. Novak und S. A. Shafer, Anatomy of a Color Histogram, Proceedings of Computer Vision and Pattern Recognition, Champaign, IL, June 1992, pp. 599–605). Gemäß den früheren Arbeiten der Erfinder (F. Arman, A. Hsu und M-Y. Chiu, Image Processing on Encoded Video Sequences, ACM Multimedia Systems Journal, erscheint 1994) werden hier die Farbton- und Sättigungskomponenten des HSI-Farbraums zum Berechnen des Farbhisto gramms für jeden Rframe verwendet. Zum Messen der Ähnlichkeit von zwei gegebenen Rframes wird hier das Verfahren der Histogrammdurchschnitte nach Swain und Ballard verwendet (Swain, M. J. und Ballard, D. H., Color Indexing, Int. J. of Computer Vision, Vol. 7, No. 1, 1991, pp. 11–32). Der Durchschnitt zweier Histogramme ist definiert durch:
    Figure 00260001
    wobei α und β die beiden Histogramme sind. Das Ergebnis dieses Durchschnitts gibt an, wieviel Pixel in einem Bild entsprechende Pixel mit der gleichen Farbe im anderen Bild haben. Das Maß wird normiert mit Hilfe von:
    Figure 00260002
    wobei βi das i-te Histogramm ist.
  • Hat der Benutzer einen Rframe gewählt, so werden die Momente und das Farbhistogramm dieses Rframes mit den verbleibenden Rframes verglichen. Die Ausgabe der momentengestützten und der farbhistogrammgestützten Analysen sind zwei Gleitkommazahlen, die die Verwandtschaft der Rframe-Körper bezüglich der Form und der Farbe beschreiben. Zum Verknüpfen und Vergleichen dieser beiden verschiedenen Entitäten wird eine Zuordnungsfunktion verwendet, die beide Entitäten auf einen gemeinsamen Raum abbildet. Dies erfolgt mit Hilfe von:
    Figure 00260003
    wobei ζ = ε(α, βi) zum Zuordnen der Ausgabe des Farbhistogramm-Durchschnitts aus Gleichung (7) ist: ΩHistogramm[ε(α, βi)]ε {1, 2, 3} (10)und ζ = (α, βi) zum Zuordnen des Momentenabstandsmaßes aus Gleichung (5) ist: ΩMoment [(α, βi)]ε {1, 2, 3} (11)wobei Ω = 3 sehr ähnlich bedeutet, Ω = 2 einigermaßen ähnlich und Ω = 1 nicht ähnlich.
  • Anschließend verwendet man die Regeln aus Tabelle 1 zum Verknüpfen der abgebildeten Eigenschaften.
  • Figure 00270001
    Tabelle 1: Die Regeln zum Kombinieren der Ergebnisse der momentenbasierten und histogrammbasierten Zuordnung lauten: 3 = sehr ähnlich, 2 = einigermaßen ähnlich und 1 = nicht ähnlich.
  • Im Allgemeinen kommt den Ausgaben der Momente ein größeres Gewicht zu (siehe Tabelle 1). Ist das Wmoment = 1, so wird die Ausgabe der farbhistogrammbasierten Analyse unterdrückt, d. h. die endgültige Ausgabe ist stets, dass die beiden untersuchten Rframes nicht ähnlich sind. Ist das Wmoment = 3, so ist die endgültige Ausgabe ebenfalls sehr ähnlich. Eine Ausnahme liegt nur vor, wenn die farbbasierte Ausgabe Whistogramm = 1 gilt; in diesem Fall hat die endgültige Ausgabe ebenfalls den Wert 2 oder einigermaßen ähnlich. Die Zuordnung aus dem Farbhistogramm wird verwendet, falls Wmoment keinen schlüssigen Wert liefert, d. h. Wmoment = 2 ist. In diesen Fall wird die endgültige Ausgabe auf den Wert der Farbhistogramm-Zuordnung gesetzt.
  • Die Verarbeitungszeit für die Gruppierung bezieht aus zwei Punkten Vorteile. Ersten werden die Momente und die Histogramme vorab berechnet; der einzige zur Laufzeit nötige Schritt ist das Messen der Ähnlichkeit, d. h. das Anwenden von Gleichung (2) und Gleichung (8). Benutzt man die in Tabelle 1 angegebenen Regeln, so muss zweitens die Histogrammdurchschnittsoperation, die von beiden Operationen die aufwendigere ist, auf einer Untermenge der Rframes ausgeführt werden und liefert damit zusätzliche zeitsparende Schritte. Im Zusammenhang der Erfindung ist auch daran gedacht, ein Indizierungsschema zum Speichern der Histogramm- und Momentenberechnungen zu verwenden. Dies beschleunigt die Gruppierung sehr stark.
  • Es wird Bezug auf die folgenden Patente genommen, die gemeinsam mit dieser Anmeldung eingereicht wurden, und die der Abtretungspflicht an den Inhaber dieser Anmeldung unterliegen: Farshid Arman, Arding Hsu und Ming-Yee Chiu, DETECTING SCENE CHANGES ON ENCODED VIDEO SEQUENCES; und Farshid Arman, Remi Depommier, Arding Hsu und Ming-Yee Chiu, BROWSING CONTENTS OF A GIVEN VIDEO SEQUENCE.
  • Hierbei wird auch Bezug genommen auf Tonomura, Y. und Abe, S., Content Oriented Visual Interface Using Video Icons for Visual Database Systems, Journal of Visual Languages and Computing, Vol. 1, 1990, pp. 183–198.

Claims (19)

  1. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) für eine Gruppe von Frames in einer Videosequenz, umfassend: a) das Auswählen eines Bezugsframes aus der Gruppe von Frames; b) das Speichern des Bezugsframes in einem Computerspeicher; c) das Definieren eines Randbewegungs-Verfolgungsbereichs entlang einer Kante des Bezugsframes; und d) nacheinander das Verfolgen der Bewegung von Grenzpixeln im Verfolgungsbereich, damit ein repräsentativer Frame (Rframe) der Gruppe von Frames bereitgestellt wird, wobei der repräsentative Frame den Bezugsframe und den Bewegungsverfolgungsbereich enthält.
  2. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Gruppe von Frames eine "Einstellung" bilden, die eine Gruppe von Frames zwischen Szenenveränderungen ist.
  3. Computerimplementiertes Verfahren nach Anspruch 1 oder 2, wobei man die Bewegungsverfolgungsbereiche dazu verwenden kann, verpasste Szenenveränderungen in der Videosequenz zu erkennen.
  4. Computerimplementiertes Verfahren nach irgendeinem vorhergehenden Anspruch, wobei im Schritt d) die Bewegung der Grenzpixel nacheinander von Frame zu Frame in der Gruppe von Frames verfolgt wird.
  5. Computerimplementiertes Verfahren nach Anspruch 4, wobei Schritt d) zu einer Bahn führt, die eine Kamerabewegung oder Gesamtbewegung darstellt.
  6. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei Schritt d) zu einer Bahn führt, die einen verpassten Frame in der Gruppe von Frames anzeigt.
  7. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei Schritt d) zu einer Bahn führt, die die Länge oder Dauer einer jeweiligen Einstellung angibt.
  8. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei eine Anzahl Frames zwischen Szenenveränderungen verknüpft mit der Anzahl der Frames je Sekunde in der Aufzeichnung des gespeicherten Videos zu einer Bahn führt, die die Dauer einer jeweiligen Einstellung angibt.
  9. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei der Bewegungsverfolgungsbereich eine Lücke enthält, und in der Lücke eine Anzeige erfolgt, die die Länge der Einstellung angibt.
  10. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei der Bewegungsverfolgungsbereich eine Lücke enthält, und in der Lücke eine Anzeige erfolgt, die das Vorhandensein eines Untertitels in dem Rframe angibt.
  11. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 7 oder 8, wobei für die relative Zeit t = 0 die Verfolgung im Wesentlichen in der Mitte des Rframes beginnt.
  12. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem der vorhergehenden Ansprüche, wobei eine verpasste Szenenveränderung zu einer Linie im Verfolgungsbereich führt, die nicht mit der Mitte des Rframes verbunden ist.
  13. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei die Verfolgungsbewegung der Grenzpixel im Verfolgungsbereich derart erfolgt, dass eine verfolgte Position für jedes Grenzpixel, das nach einem vorhergehenden Pixel folgt, eine Position benachbart zu einer verfolgten Position des vorhergehenden Pixels einnimmt.
  14. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem der vorhergehenden Ansprüche, wobei die Einstellung oder die Gruppe von Frames unterabgetastet wird, um eine Anzahl Frames daraus auszuwählen, und das Verfahren zudem das Ablegen einer geringeren Anzahl Ausschnitte auf einem Stapel umfasst, einen von jeder Seite des gewählten Frames, und das Anwenden eines Kantenerkennungsalgorithmus für jeden Ausschnitt der geringeren Anzahl Ausschnitte, wobei Grenzpixel aus einem Frame zum nächsten verfolgt werden, so dass es einem Benutzer ermöglicht wird, die zu der Einstellung gehörende Bewegung zu visualisieren.
  15. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 14, wobei der Kantenerkennungsalgorithmus die Vorgehensweisen der Faltung anwendet, und eine Maske, die eine m × m Matrix ist, mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet wird.
  16. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 15, wobei der Kantenerkennungsalgorithmus eine lokale Operation darstellt, die mit Hilfe der Vorgehensweisen der Faltung ausgeführt wird, und eine Maske, die eine m × m Matrix ist, mit den Pixeln in jedem Bewegungsverfolgungsbereich gefaltet wird, und ein Ausgangssignal der Faltung die Pixel hervorhebt, bei denen Veränderungen an zwei benachbarten Pixeln vorliegen, wobei benachbart links, rechts, oben oder unten bedeutet.
  17. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach Anspruch 16, wobei die geringere Anzahl Stapel ungefähr 4 beträgt.
  18. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem der vorhergehenden Ansprüche, wobei der Verfolgungsbereich relativ zu den Abmessungen des Frames schmal ist.
  19. Computerimplementiertes Verfahren zum Bereitstellen eines repräsentativen Frames (Rframe) nach irgendeinem vorhergehenden Anspruch, wobei sich der Verfolgungsbereich im Wesentlichen rechteckig in Form eines Rings um den Rframe herum erstreckt.
DE69531421T 1994-03-31 1995-03-23 Darstellung des Inhalts eines einzigen Videobildes mit Anwendung von Rahmen Expired - Lifetime DE69531421T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US221225 1994-03-31
US08/221,225 US5606655A (en) 1994-03-31 1994-03-31 Method for representing contents of a single video shot using frames

Publications (2)

Publication Number Publication Date
DE69531421D1 DE69531421D1 (de) 2003-09-11
DE69531421T2 true DE69531421T2 (de) 2004-07-08

Family

ID=22826916

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69531421T Expired - Lifetime DE69531421T2 (de) 1994-03-31 1995-03-23 Darstellung des Inhalts eines einzigen Videobildes mit Anwendung von Rahmen

Country Status (3)

Country Link
US (1) US5606655A (de)
EP (1) EP0675496B1 (de)
DE (1) DE69531421T2 (de)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US6418424B1 (en) 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
EP0665513B1 (de) * 1994-01-31 2002-11-20 Canon Kabushiki Kaisha System und Verfahren zum Editieren bewegter Bilder
US5727141A (en) * 1995-05-05 1998-03-10 Apple Computer, Inc. Method and apparatus for identifying user-selectable regions within multiple display frames
US6574416B1 (en) * 1995-11-02 2003-06-03 Videa, Llc Picture-based video indexing system
US5828371A (en) * 1995-11-22 1998-10-27 International Business Machines Corporation Method and system for graphic video image presentation control
US5751281A (en) 1995-12-11 1998-05-12 Apple Computer, Inc. Apparatus and method for storing a movie within a movie
US5767923A (en) * 1996-06-07 1998-06-16 Electronic Data Systems Corporation Method and system for detecting cuts in a video signal
US6061471A (en) * 1996-06-07 2000-05-09 Electronic Data Systems Corporation Method and system for detecting uniform images in video signal
US8107015B1 (en) 1996-06-07 2012-01-31 Virage, Incorporated Key frame selection
US5778108A (en) * 1996-06-07 1998-07-07 Electronic Data Systems Corporation Method and system for detecting transitional markers such as uniform fields in a video signal
US5959697A (en) * 1996-06-07 1999-09-28 Electronic Data Systems Corporation Method and system for detecting dissolve transitions in a video signal
US5920360A (en) * 1996-06-07 1999-07-06 Electronic Data Systems Corporation Method and system for detecting fade transitions in a video signal
TW303555B (en) * 1996-08-08 1997-04-21 Ind Tech Res Inst Digital data detecting method
JPH1066008A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像検索編集装置
US6041147A (en) * 1996-10-15 2000-03-21 Hughes Electronics Corporation Content-based indexing of images by coding levels defined as a function of reduced entropy
US5774666A (en) * 1996-10-18 1998-06-30 Silicon Graphics, Inc. System and method for displaying uniform network resource locators embedded in time-based medium
US6219382B1 (en) * 1996-11-25 2001-04-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for locating a caption-added frame in a moving picture signal
US5990959A (en) * 1996-12-20 1999-11-23 U S West, Inc. Method, system and product for direct rendering of video images to a video data stream
US6222532B1 (en) * 1997-02-03 2001-04-24 U.S. Philips Corporation Method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel
US6741655B1 (en) 1997-05-05 2004-05-25 The Trustees Of Columbia University In The City Of New York Algorithms and system for object-oriented content-based video search
KR20010012261A (ko) * 1997-05-05 2001-02-15 더 트러스티스 오브 컬럼비아 유니버시티 인 더 시티 오브 뉴욕 객체 지향형 콘텐트에 기초한 비디오 탐색용 알고리즘 및시스템
WO1998052356A1 (en) * 1997-05-16 1998-11-19 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7295752B1 (en) 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
US6567980B1 (en) 1997-08-14 2003-05-20 Virage, Inc. Video cataloger system with hyperlinked output
US6463444B1 (en) 1997-08-14 2002-10-08 Virage, Inc. Video cataloger system with extensibility
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US6310648B1 (en) 1997-09-12 2001-10-30 Eastman Kodak Company User interface for electronic image viewing apparatus
US6219837B1 (en) * 1997-10-23 2001-04-17 International Business Machines Corporation Summary frames in video
US6181817B1 (en) 1997-11-17 2001-01-30 Cornell Research Foundation, Inc. Method and system for comparing data objects using joint histograms
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6845176B1 (en) 1998-03-17 2005-01-18 Sharp Laboratories Of America, Inc. System and method for on-line computation and storage of scene histograms in an image acquisition appliance
US6393054B1 (en) 1998-04-20 2002-05-21 Hewlett-Packard Company System and method for automatically detecting shot boundary and key frame from a compressed video data
JP3645716B2 (ja) * 1998-07-31 2005-05-11 シャープ株式会社 アニメーション作成方法、アニメーション作成装置、及びアニメーション作成プログラムを記録したコンピュータ読み取り可能な記録媒体
US6833865B1 (en) * 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
JP2000098949A (ja) * 1998-09-22 2000-04-07 Inner Brain Kk 動画の表示方法
US6516100B1 (en) 1998-10-29 2003-02-04 Sharp Laboratories Of America, Inc. Method for image characterization using color and texture statistics with embedded spatial information
US7143434B1 (en) * 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
US6342904B1 (en) 1998-12-17 2002-01-29 Newstakes, Inc. Creating a slide presentation from full motion video
US6892351B2 (en) * 1998-12-17 2005-05-10 Newstakes, Inc. Creating a multimedia presentation from full motion video using significance measures
JP2001160066A (ja) * 1998-12-25 2001-06-12 Matsushita Electric Ind Co Ltd データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム
US6542632B1 (en) 1999-02-01 2003-04-01 Sharp Laboratories Of America, Inc. Method for image characterization using color and texture statistics with embedded spatial information
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
EP1033718B1 (de) * 1999-03-02 2006-01-11 Hitachi Denshi Kabushiki Kaisha Laufbilderinformationsanzeigeverfahren und -gerät
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
US6625319B1 (en) * 1999-03-30 2003-09-23 Koninklijke Philips Electronics N.V. Image compression using content-based image similarity
US6993789B1 (en) 1999-04-23 2006-01-31 Sharp Laboratories Of America DTV data service application and receiver mechanism
US7092620B1 (en) 1999-08-05 2006-08-15 Hewlett-Packard Development Company, L.P. Converting analog video data into digital form
US6624844B1 (en) * 1999-08-20 2003-09-23 Mti Film Llc Video field labeling
US8051446B1 (en) 1999-12-06 2011-11-01 Sharp Laboratories Of America, Inc. Method of creating a semantic video summary using information from secondary sources
KR20000024126A (ko) * 2000-01-24 2000-05-06 이재섭 네트워크를 통한 영상제공방법 및 영상제공시스템
US7260564B1 (en) * 2000-04-07 2007-08-21 Virage, Inc. Network video guide and spidering
US7222163B1 (en) * 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
US7962948B1 (en) 2000-04-07 2011-06-14 Virage, Inc. Video-enabled community building
US8171509B1 (en) 2000-04-07 2012-05-01 Virage, Inc. System and method for applying a database to video multimedia
US7334191B1 (en) 2000-05-09 2008-02-19 International Business Machines Corporation Segmentation and detection of representative frames in video sequences
US6760536B1 (en) 2000-05-16 2004-07-06 International Business Machines Corporation Fast video playback with automatic content based variable speed
US6954850B1 (en) * 2000-10-30 2005-10-11 Matsushita Electric Works, Ltd. Electronic device that uses a pager network for remote reprogramming of the device
US20020147834A1 (en) * 2000-12-19 2002-10-10 Shih-Ping Liou Streaming videos over connections with narrow bandwidth
US7089496B2 (en) * 2001-07-20 2006-08-08 Hewlett-Packard Development Company, L.P. System and method for scene detection information storage
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7440611B2 (en) * 2002-01-31 2008-10-21 Sharp Laboratories Of America, Inc. Method for image characterization using color and texture statistics with embedded spatial information
WO2003091850A2 (en) * 2002-04-26 2003-11-06 The Trustees Of Columbia University In The City Of New York Method and system for optimal video transcoding based on utility function descriptors
US20030202110A1 (en) * 2002-04-30 2003-10-30 Owens James W. Arrangement of images
US7177470B2 (en) 2002-11-13 2007-02-13 Koninklijke Philips Electronics N. V. Method of and system for detecting uniform color segments
FR2882160B1 (fr) * 2005-02-17 2007-06-15 St Microelectronics Sa Procede de capture d'images comprenant une mesure de mouvements locaux
WO2006096612A2 (en) * 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
WO2006134509A2 (en) * 2005-06-15 2006-12-21 Koninklijke Philips Electronics N.V. Method and apparatus for storing image data files
WO2008055273A2 (en) * 2006-11-05 2008-05-08 Sean Joseph Leonard System and methods for rapid subtitling
US7465241B2 (en) * 2007-03-23 2008-12-16 Acushnet Company Functionalized, crosslinked, rubber nanoparticles for use in golf ball castable thermoset layers
US8686991B2 (en) 2007-09-26 2014-04-01 Autodesk, Inc. Navigation system for a 3D virtual scene
US8218811B2 (en) 2007-09-28 2012-07-10 Uti Limited Partnership Method and system for video interaction based on motion swarms
US20090133060A1 (en) * 2007-11-21 2009-05-21 Microsoft Corporation Still-Frame Content Navigation
WO2009126785A2 (en) * 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US8671109B2 (en) * 2009-10-01 2014-03-11 Crim (Centre De Recherche Informatique De Montreal) Content-based video copy detection
CA2716266C (en) * 2009-10-01 2016-08-16 Crim (Centre De Recherche Informatique De Montreal) Content based audio copy detection
US8600106B1 (en) * 2010-08-31 2013-12-03 Adobe Systems Incorporated Method and apparatus for tracking objects within a video frame sequence
CN103973968B (zh) 2013-02-01 2017-06-13 宏达国际电子股份有限公司 电子装置及其影像合成方法
US11122083B1 (en) 2017-09-08 2021-09-14 F5 Networks, Inc. Methods for managing network connections based on DNS data and network policies and devices thereof

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04207878A (ja) * 1990-11-30 1992-07-29 Toshiba Corp 動画像管理装置

Also Published As

Publication number Publication date
US5606655A (en) 1997-02-25
EP0675496A2 (de) 1995-10-04
DE69531421D1 (de) 2003-09-11
EP0675496A3 (de) 1997-06-11
EP0675496B1 (de) 2003-08-06

Similar Documents

Publication Publication Date Title
DE69531421T2 (de) Darstellung des Inhalts eines einzigen Videobildes mit Anwendung von Rahmen
DE69737824T2 (de) Video-wiederauffinden von mpeg-komprimierten sequenzen unter verwendung von dc- und bewegungssignaturen
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
EP2140403B1 (de) Vorrichtung und verfahren zum bestimmen eines kanten-histogramms, vorrichtung und verfahren zum ablegen eines bildes in einer bilddatenbank, vorrichtung und verfahren zum auffinden von zwei ähnlichen bildern und computerprogramm
DE69925805T2 (de) Skalierbare lösung für das wiederauffinden von bildern
DE112017002821T5 (de) Verfahren, System und Computerprogrammprodukt zur interaktiven Identifizierung von gleichen Personen oder Objekten in Videoaufnahmen
DE60307224T2 (de) Computergestütztes verfahren zur entdeckung von mustern in unbekannten hochdimensionalen daten
DE69836790T2 (de) Suchen von Videobildern, Produktion von Videoinformationen und Speichermedium zur Speicherung eines Verarbeitungsprogramms dafür
DE60313283T2 (de) Verfahren zur zusammenfassung von unbekanntem videoinhalt
Arman et al. Content-based browsing of video sequences
DE69628282T2 (de) Verfahren zur kompression mehrerer videobilder
DE19983528B3 (de) Multi-Linearisierungs-Datenstruktur zum Bild-Browsing
DE60211978T2 (de) Laufbildsystem mit bildinterpolation und variabler bildfrequenz
DE69635528T2 (de) Bildverarbeitungsgerät
WO2008113596A2 (de) Verfahren zur zeitlichen segmentierung eines videos in videobildfolgen und zur auswahl von keyframes für das auffinden von bildinhalten unter einbeziehung einer subshot-detektion
DE69723346T2 (de) Verfahren zum auf eine Wahrscheinlichkeitsfunktion basierten Wiederauffinden von Bildern
DE60025406T2 (de) Laufbilderinformationsanzeigeverfahren und -gerät
DE69733527T2 (de) Bildanzeigeeinheit, Bildanzeigesystem und Wiederauffindungssystem für bewegte Bilder
DE4225872A1 (de) Verfahren zum kennzeichnen und identifizieren ausgewaehlter gebiete in bildern
DE102019109288A1 (de) Anlage und Verfahren für Analyse des importierten Videos
DE112007001788T5 (de) Bildlayoutbeschränkungserzeugung
DE102006034088A1 (de) Anzeigevorrichtung, Anzeigeprogrammspeichermedium und Anzeigeverfahren
DE60216381T2 (de) Panoramavideoeditieranzeige mit Navigationssteuerungsanwendung zu diesem Panoramavideo
DE60131796T2 (de) Objektgebietdatenerzeugungsmethode und -vorrichtung, Polygonannäherungsmethode und -vorrichtung
DE60307916T2 (de) Anordnung und Verfahren zur Bestimmung, ob Bilder einander entsprechen, und zugehöriges Programm

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8328 Change in the person/name/address of the agent

Representative=s name: MAIER, D., DIPL.-ING. UNIV., PAT.-ASS., 85221 DACH

8328 Change in the person/name/address of the agent

Representative=s name: FRITZSCHE, T., DIPL.-CHEM. DR.RER.NAT., PAT.-ANW.,

R082 Change of representative

Ref document number: 675496

Country of ref document: EP

Representative=s name: FRITZSCHE PATENT, 81545 MUENCHEN, DE