DE69911569T2 - Verfahren zur Szenenänderungs- und Überblendungensdetektion für Videosequenzindexierung - Google Patents

Verfahren zur Szenenänderungs- und Überblendungensdetektion für Videosequenzindexierung Download PDF

Info

Publication number
DE69911569T2
DE69911569T2 DE69911569T DE69911569T DE69911569T2 DE 69911569 T2 DE69911569 T2 DE 69911569T2 DE 69911569 T DE69911569 T DE 69911569T DE 69911569 T DE69911569 T DE 69911569T DE 69911569 T2 DE69911569 T2 DE 69911569T2
Authority
DE
Germany
Prior art keywords
frames
frame
macroblock
bit rate
differences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69911569T
Other languages
English (en)
Other versions
DE69911569D1 (de
Inventor
Ajay Scotch Plains Divakaran
Huifang Cranbury Sun
Hiroshi Fort Lee Ito
Tommy C. Murray Hill Poon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE69911569D1 publication Critical patent/DE69911569D1/de
Application granted granted Critical
Publication of DE69911569T2 publication Critical patent/DE69911569T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • GEBIET DER ERFINDUNG
  • Diese Erfindung bezieht sich auf Verfahren zur Szenenänderungserfassung und Überblendungserfassung für die Indexierung von Videosignalfolgen der Typen, die z. B. bei Hochauflösungsfernseh(HDTV)-Rundfunksignalen und anderen Videoverteilungssystemen wie bei Internet-Videodiensten angetroffen werden.
  • BESCHREIBUNG DES STANDES DER TECHNIK
  • Grundlegende Verfahren zum Verdichten der Bandbreite von digitalen Farbvideosignalen wurden von der Motion Picture Experts Group (MPEG) angewendet.
  • Die MPEG-Standards erzielen hohe Datenverdichtungsraten durch Entwicklung von Informationen für ein ganzes Vollbild. Die ganzen Vollbilder oder intracodier te Bilder werden als "I-Vollbilder" bezeichnet und enthalten unabhängig von irgendwelchen anderen Vollbildern die Informationen eines ganzen Vollbildes. B-Vollbilder und P-Vollbilder werden zwischen den I-Vollbildern codiert und speichern nur Bilddifferenzen in Beziehung auf die Bezugsanker-Vollbilder.
  • Typischerweise ist jedes Vollbild einer Videofolge in kleinere Blöcke von Pixeldaten geteilt und jeder Block ist einer diskreten Kosinustransformationsfunktion (DCT) unterzogen, um die statistisch abhängigen Raumdomänen-Bildelemente (Pixel) in unabhängige Frequenzdomänen-DCT-Koeffizienten umzuwandeln. Jeweils 8 × 8-Blöcke von Pixeln werden der diskreten Kosinustransformation (DCT) unterzogen, um das codierte Signal zu erhalten. Die sich ergebenden Koeffizienten werden typischerweise der adaptiven Quantisierung unterzogen und werden dann Runlängen- und mit variabler Länge codiert. Somit enthalten die Blöcke von gesendeten Daten typischerweise weniger als eine 8 × 8-Matrix von Codewörtern. Makroblöcke von intravollbildcodierten Daten (I-Vollbilder) enthalten auch Informationen wie den verwendeten Pegel der Quantisierung, eine Makroblockadresse oder Lageanzeiger und einen Makroblocktyp, wobei die letztgenannten Informationen als "Kopf"- oder "Vorsatz"-Informationen bezeichnet werden.
  • Die Blöcke von gemäß der P- oder B-Inter-Vollbildcodierung bestehen auch aus Matrizen von diskreten Kosinuskoeffizienten. In diesem Fall stellen jedoch die Koeffizienten Reste oder Differenzen zwischen einer vorhergesagten 8 × 8-Pixelmatrix und der tatsächlichen 8 × 8-Pixelmatrix dar. Diese Koeffizienten werden auch der Quantisierung und der Runlängen-Codierung und Codierung mit variabler Länge unterzo gen. In der Vollbildfolge werden I- und P-Vollbilder als Ankervollbilder bezeichnet. Jedes P-Vollbild wird von dem zuletzt auftretenden Ankervollbild vorhergesagt. Jedes B-Vollbild wird von einem oder beiden der Ankervollbilder vorhergesagt, zwischen denen es angeordnet ist. Der Vorhersage-Codiervorgang enthält die Erzeugung von Versetzungsvektoren, die anzeigen, welcher Block eines Ankervollbildes am stärksten dem Block des vorhergesagten Vollbildes, das gegenwärtig codiert wird, angepasst ist. Die Pixeldaten des angepassten Blocks in dem Ankervollbild werden auf einer Pixel-für-Pixel-Basis von dem Block des gerade codierten Vollbildes subtrahiert, um den Rest zu entwickeln. Die transformierten Reste und die Vektoren umfassen die codierten Daten für die Vorhersagevollbilder. Wie bei intervollbild-codierten Vollbildern enthalten die Makroblöcke die Quantisierung, Adresse und Typeninformationen.
  • Die Ergebnisse sind üblicherweise energiekonzentriert, so dass wenige der Koeffizienten in einem Block den Hauptteil der Bildinformationen enthalten. Die Koeffizienten sind in einer bekannten Weise quantisiert, um wirksam den dynamischen Bereich von einzelnen der Koeffizienten zu begrenzen, und die Ergebnisse werden dann Runlängen- und mit variabler Länge codiert für die Zuführung zu einem Übertragungsmedium.
  • Das so genannte MPEG-4-Format wird beschrieben in "MPEG-4 Video Verification Model Version 5.0", ausgegeben von der Adhoc Group on MPEG-4 Video VM Editing an ihre Mitglieder unter der Bezeichnung ISO/IECJTCI/SC29/WG11 MPEG 96/N1469, November 1996. Das MPEG-4-Videocodierformat erzeugt einen Strom mit variabler Bitrate in dem Codierer von Vollbild zu Vollbild (wie es der Fall bei früheren Schemen war). Da der Strom mit variabler Bitrate über einen Kanal mit fester Rate übertragen wird, wird ein Kanalpuffer verwendet, um den Bitstrom zu vergleichmäßigen. Um einen Überlauf oder Unterlauf des Puffers zu verhindern, wird eine Geschwindigkeitssteuerung des Codiervorgangs verwendet.
  • Durch das Erscheinen von neuen digitalen Videodiensten wie über das Internet verteilten Videoinformationen besteht ein zunehmendes Bedürfnis nach Signalverarbeitungstechniken zum Identifizieren von Szenenänderungen und anderen Eigenschaften in den Videofolgen wie szenenänderungsähnlichen Objektänderungen in dem MPEG-4-Kontext. Die Identifikation von Szenenänderungen, seien sie abrupt oder allmählich, ist nützlich für die Zwecke der Indexierung, die z. B. eine schnelle und einfache Bildwiedergewinnung und Szenenanalyse erleichtert.
  • Für die Zukunft ist zu erwarten, dass eine beträchtliche Menge von digitalem Videomaterial in der vorbeschriebenen Form von verdichteten oder codierten Daten erhalten wird. Die Verarbeitung der Videofolgeninformationen in ihrer verdichteten Form ermöglicht anders als in der auseinander gezogenen oder decodierten Form, wo es möglich ist, gewöhnlich eine schnellere Verarbeitung wegen der verringerten Datenmenge und des Vermeidens von Transformationen. Es ist vorteilhaft, Methoden und Techniken zu entwickeln, die eine direkte Verarbeitung der verdichteten Daten zulassen, anstelle eine Dekomprimierung des ganzen Vollbildes durchzuführen, bevor eine andere Verarbeitung durchgeführt wird.
  • Es ist bekannt, dass, wenn ein Block (Makroblock) ei ne Kantengrenze eines Objekts enthält, die Energie dieses Blockes nach der Transformierung, wie durch die DCT-Koeffizienten dargestellt, einen relativ großen Gleichstromkoeffizienten (obere linke Ecke der Matrix) und zufällig verteilte Wechselstromkoeffizienten über die Matrix enthält. Ein Nichtkantenblock andererseits ist gewöhnlich gekennzeichnet durch einen ähnlich großen Gleichkoeffizienten (obere linke Ecke) und wenige (z. B. zwei) benachbarte Wechselstromkoeffizienten, die wesentlich größer als andere mit diesem Block assoziierte Koeffizienten sind. Diese Informationen beziehen sich auf Bildänderungen in der räumlichen Domäne und, wenn sie mit Bilddifferenzinformationen kombiniert werden, die durch Vergleichen aufeinander folgender Vollbilder (d. h., zeitliche Differenzen) erhalten wurden, sind Faktoren verfügbar zum Unterscheiden eines Videoobjekts (VO) von einem anderen. Wenn nur die Gleichstromwerte von Makroblöcken verwendet werden, hat ein sich ergebendes Bild eine verschwommene Version des ursprünglichen Bildes, die viel von dem Inhalt des Originals zurückhält.
  • Somit hat die vorhergehende Arbeit der Indexierung aus komprimierten Videoinformationen zumeist die Extraktion von Gleichstromkoeffizienten betont. In einem Papier, bezeichnet "Rapid Scene Analysis on Compressed Video", IEEE Transactions on Circuits and Systems for Video Technology, Band 5, Nr. 6, Dezember 1995, Seiten 533–544, durch das Anspruch 1 in die zweiteilige Form gebracht wurde, beschreiben Yeo und Liu einen Weg der Szenenänderungserfassung in der komprimierten MPEG-2-Videodomäne sowie eine Übersicht über frühere Versuche der Erfassung von Szenenänderungen auf der Grundlage von Folgen von ganzen (unverdichteten) Bilddaten und verschiedene Techniken der Verarbeitung verdichteter Videoinformationen von anderen. Yeo und Liu haben die Verwendung von räumlich reduzierten Versionen der ursprünglichen Bilder eingeführt, so genannter Gleichstrombilder, und aus verdichteten Videodaten herausgezogene Gleichstromfolgen, um Szenenanalyseoperationen zu erleichtern. Ihr Gleichstrombild besteht aus Pixeln, die der Durchschnittswert der Pixel in einem Block des ursprünglichen Bildes sind, und die Gleichstromfolge ist die Kombination der sich ergebenden reduzierten Anzahl von Pixeln des Gleichstrombildes.
  • Won et al beschreiben in einem Papier, das in Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases, Januar 1998, veröffentlicht wurde, ein Verfahren zum Herausziehen von Merkmalen aus verdichteten MPEG-2-Videodaten durch Verwendung der für die Gleichstromkoeffizienten verwendeten Bits, um Kanten in den Vollbildern zu lokalisieren. Jedoch ist ihre Arbeit nur auf I-Vollbilder begrenzt. Kobla et al beschreiben ein Verfahren in denselben Proceedings unter Verwendung der Gleichstrom-Bildextraktion von Yeo et al, um Videopfade zu bilden, die Videoclips charakterisieren. Feng et al (IEEE International Conference on Image Processing, Band II, Seiten 821–824, September 16–19, 1996) verwenden die Bitzuweisung über die Makroblöcke von MPEG-2-Vollbildern, um abrupte Szenenwechsel zu erfassen, ohne Gleichstrombilder herauszuziehen. Die Technik von Feng et al ist rechenmäßig die einfachste, da sie keine beträchtliche Berechnung erfordert zusätzlich zu der, die für das Parsing des verdichteten Bitstroms benötigt wird.
  • FESTSTELLUNG DER ERFINDUNG
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wurden rechenmäßig einfache Verfahren entwickelt, die Kombinationen von gewissen Aspekten des Weges von Feng et al und des Weges von Yeo et al verwenden, um eine genaue und einfache Erfassung abrupter und/oder allmählicher Szenenänderungen zu geben. Die vorliegenden Erfinder haben auch Techniken untersucht, die Bitzuweisungsinformationen verwenden, um Merkmale herauszuziehen und allmähliche Szenenänderungen zu erfassen, von denen jede im Einzelnen in gegenwärtigen Feldanwendungen beschrieben ist.
  • Die vorhergehende Arbeit für die Erfassung allmählicher Szenenänderungen hat verschiedene Techniken angewendet wie die Berücksichtigung der Kantenänderungsfraktionen, einen Doppelvergleichsweg, Blockanpassung auf der Grundlage der Bewegungskompensationsschätzung, die Erfassung von Plateaus in einer verzögerten Vollbild-Differenzmetrik und ein auf einem Videoaufbereitungsmodell basierender Weg. Von diesen arbeitet nur der Weg der Erfassung von Plateaus in der verdichteten Domäne.
  • Es ist festzustellen, dass die auf der Gleichstrombildextraktion basierende Technik gut für I-Vollbilder ist, da die Extraktion der Gleichstromwerte aus I-Vollbildern relativ einfach ist. Jedoch wird für P-Vollbilder typischerweise eine zusätzliche Berechnung benötigt.
  • Die vorliegenden Erfinder haben bestimmt, dass, nachdem eine vermuteten Szenen/Objektänderung in einer Gruppe von aufeinander folgenden Vollbildern/Objekten durch Verwendung einer auf Gleichstrombildextraktion basierenden Technik genau lokalisiert wurde, die Anwendung einer angemessenen auf Bitzuweisung basierenden Technik und/oder einer angemessenen Technik zur Gleichstrom-Restkoeffizientenverarbeitung auf P-Vollbildinformationen in der Nähe der vermuteten Änderungsinformationen den Schnittpunkt schnell und genau lokalisiert. Dieses kombinierte Verfahren ist entweder auf MPEG-2-Folgen oder MPEG-4-Mehrobjektfolgen anwendbar. In dem Fall von MPEG-4 wurde es als vorteilhaft gefunden, eine gewichtete Summe der Änderungen in jedem Objekt des Vollbilds zu verwenden, wobei der Bereich jedes Objekts als der Gewichtungsfaktor verwendet wurde.
  • Die den Gleichstromkoeffizienten der P-Vollbilder zugewiesenen Bits werden auch verwendet, um allmähliche Einblend- und Ausblend-Szenenänderungen zu erfassen.
  • Gemäß diesem Aspekt der vorliegenden Erfindung weist ein Verfahren zum Verarbeiten digitaler bilddarstellender Videodaten in verdichteter Form den Schritt des Herausziehens von Subfolgen von Vollbildern, die jeweils zumindest einen Satz von zeitlich benachbarten I-Vollbildern enthalten, aus einer Folge von digitalen bilddarstellenden Videodaten in verdichteter Form, die zumindest I-Vollbilder und P-Vollbilder aufweisen, die zwischen den I-Vollbildern auftreten, auf. Die verdichteten Daten für jede Subfolge werden verarbeitet, um entsprechende Gleichstrom-Bildwerte für jedes der I-Vollbilder herauszuziehen. Entsprechende Gleichstrom-Bildwerte für zeitlich benachbarte Paare der I-Vollbilder werden verglichen, um Fälle von Differenzinformationen zu erfassen, die einen ersten Schwellenwert überschreiten. Paare der I-Vollbilder, die potentielle Szenenänderungen anzeigen, werden identifiziert entsprechend dem Vergleichsschritt. Der Prozess umfasst weiterhin die Wiedergewinnung von Videodaten für P-Vollbilder, die nur zwischen solchen I-Vollbildern auftreten, die an hand der Gleichstrom-Bilddifferenzen als potentielle Szenenänderungen anzeigend identifiziert sind, und die Erfassung des Auftretens von Szenenänderungen durch zumindest einen der Schritte des Bestimmens der Bitzuweisungs-Verteilungsdifferenzen über die wiedergewonnenen P-Vollbilder, um das Auftreten von abrupten Szenenänderungen zu lokalisieren, und durch Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den wiedergewonnenen P-Vollbildern oberhalb eines zweiten Schwellenwertes, um Einblenden bzw. Ausblenden zu lokalisieren.
  • ZEICHNUNG
  • In der Zeichnung:
  • 1 ist ein schematisches Blockschaltbild, das bestimmte Aspekte der vorliegenden Erfindung illustriert.
  • DETAILLIERTE BESCHREIBUNG
  • BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
  • Unter Bezug auf das schematische Diagramm nach 1 der Zeichnung ist ersichtlich, dass Verfahren gemäß einem ersten Aspekt der vorliegenden Erfindung einen vorläufigen Schritt verwenden, der die Lokalisierung vermuteter Szenenänderungen unter Verwendung nur von I-Vollbildinformationen in der verdichteten Domäne einbezieht (Block 10 des Diagramms). Dieser Schritt beruht auf der Verwendung von gleichstrombildbasierenden Kriterien zum "Qualifizieren" bestimmter Paare von Vollbildern als allmähliche oder abrupte Szenenänderungen anzeigend.
  • Danach werden die mit dem qualifizierten Vollbild assoziierten Informationen weiterhin verarbeitet, um abrupte und/oder Einblend-, Ausblend-Szenenänderungen zu lokalisieren unter Verwendung entweder eines Bitzuweisungs-Verteilungskriteriums über P-Vollbilder (Block 30) oder eines Kriteriums, das die Anzahl von positiven/negativen Gleichstrom-Restkoeffizienten vergleicht (Block 40) mit Bezug auf jedes P-Vollbild in den Bereichen, in denen eine vermutete Szenen- oder Objektänderung ist.
  • Auf diese Weise können zeitliche Segmentationsmarkierungen erzeugt werden und sind mit der eingegebenen Videofolge assoziiert, um die besonderen Typen von Szenenänderungen der Videofolge zu lokalisieren und zu identifizieren.
  • Die spezifische besondere Anordnung für jeden der Erfassungsschritte der abrupten Szenenänderung und der Einblend/Ausblend-Szenenänderung wird nun im Einzelnen beschrieben. Es ist festzustellen, dass es eine wesentliche Gelegenheit zum Verändern von Einzelheiten dieser Schritte gibt, ohne die allgemeineren Aspekte der vorliegenden Erfindung zu verlassen. Detaillierte Verfahrensschritte sind jedoch nachfolgend angezeigt, um dem Fachmann mögliche Veränderungen aufzuzeigen.
  • Ein Aspekt des vorliegenden Verfahrens weist die folgenden Schritte auf:
    • 1. Lokalisieren der GOPs, in denen Szenenänderungen vermutet werden, durch Verwendung des gleichstrombild-basierenden Prozesses bei aufeinander folgenden I-Vollbildern;
    • 2. Anwenden des bitzuweisungs-basierenden Kriteriums auf P-Vollbilder in jeder der im Schritt 1 ausgewählten GOPs, um Schnittpunkte zu lokalisieren.
  • Um diese letztere Technik auf verdichtete MPEG-4-Videodaten anzuwenden, werden die folgenden detaillierten Schritte angewendet.
  • Da MPEG-4 objektbasiert ist, werden ähnlich lokalisierte Objekte in zwei benachbarten Vollbildern verglichen. Die zeitliche Änderung in jedem Objekt wird gemessen in Bezug auf die Anzahl von Bits zum Codieren und ein gewichteter Durchschnitt der Änderungen (Differenzen) über alle Objekte in einem Vollbild wird bestimmt, wobei das Gewicht bezogen ist auf den Anteil der gesamten Vollbildfläche, die von dem Objekt eingenommen ist. Objektänderungen werden auch erfasst durch Wiederholen des Vorgangs bei dem Objektpegel in jeder Aufnahme oder Szene. Änderungen oberhalb eines Schwellenpegels zeigen eine vermutete Szenenänderung an.
  • Da die Anzahl von beim Codieren jedes Objekts genommenen Bits sich beträchtlich ändert, ist eine feste Schwelle nicht geeignet, so wie es bei MPEG-2-Daten sein könnte. Die Verwendung einer festen Schwelle bei MPEG-4-Daten führt zu falscher Erfassung und/oder zu einem Versagen bei der Erfassung von Szenenänderungen bei dem Objektpegel. Eine Kombination aus einer festen Schwelle und einem Gleitfenster wird daher verwendet, um sicherzustellen, dass die Erfassung bei allen interessierenden Bitraten arbeitet.
  • Es sollte auch berücksichtigt werden, dass manchmal eine Vollbildreproduktion verwendet wird, wenn von einer Vollbildrate zu einer anderen gewechselt wird. Diese Praxis kann zu einer falschen Szenenänderungserfassung führen, wenn Bitzuweisungstechniken wie vorstehend beschrieben verwendet werden. Daher kann als eine weitere Verfeinerung durch Aufteilen des Bitzuweisungs-Bitbildes in zwei Bilder, eines entsprechend der Bitzuweisung für Bewegungsvektoren und das andere entsprechend dem Rest, die Vollbildreproduktion erfasst werden als ein plötzliches Absinken der Anzahl von Bits, die zum Codieren der Bewegungsvektoren erforderlich sind, sowie als ein begleitendes Absinken der Anzahl von Bits, die zum Codieren des Rests erforderlich sind. Dieses gleichzeitige Absinken in beiden Parametern disqualifiziert diese Daten für die Szenenänderungsbestimmung. Somit eliminiert diese zusätzliche Verfeinerung ein Falscherfassungsproblem, wenn eine Vollbildreproduktion verwendet wird.
  • Die spezifischen Schritte, die für die Erfassung einer abrupten Szenenänderung verwendet werden, sind wie folgt:
    • 1. Die Prüffolgen S sollen aus Vollbildern I0PP ... I1PP ... I3 ... bestehen
    • 2. Es wird eine Subfolge S1 gebildet, die aus den I-Vollbildern I0I1 ... besteht
    • 3. Es wird eine Szenenänderungserfassung von S1 unter Verwendung des gleichstrombild-basierten Kriteriums durchgeführt. D. h., es wird für jeden Makroblock ein durchschnittlicher Gleichstromwert gleich 1/4 der Summe der Gleichstromwerte für jeden 8 x 8-Block in dem Makroblock bestimmt und werden zeitlich benachbarte entsprechende Makroblöcke verglichen, um die Differenz für jeden Makroblock zu bestimmen. Die Summe der Absolutwerte der Differenzen für alle Makroblöcke in dem Vollbild wird dann berechnet und durch die Summe der Absolutwerte der Gleichstromwerte für alle Makroblöcke in dem Vollbild geteilt, um eine normierte Änderung pro Makroblock zu erhalten. Es ist dann möglich, zu bestimmen, dass eine potentielle Szenenänderung besteht, wenn irgendeine Vollbild-zu-Vollbild-Differenz (normierte Änderung pro Makroblock) größer ist als ein ausgewählter erster Schwellenwert. Es wurde empirisch bestimmt, dass eine Schwelle von 0,25 eine geeignete Schwelle ist. In dem Fall von MPEG-4 werden, während Vollbilder verglichen werden, Objekte, die die nähesten entsprechenden Räume in den Vollbildern einnehmen, verglichen, und wenn die verglichenen Objekte unterschiedliche Größen haben, die beste Anpassung zwischen den beiden Objekten erhalten, um das Differenzkriterium durch Verwendung eines bewegungsschätzartigen Prozesses berechnet. Wenn der Bereich jedes Objekts Oi gleich Ai ist, sein Differenzkriterium gleich di ist und das Differenzkriterium entsprechend dem Vollbild n gleich Dn ist, dann ist das Gesamtkriterium:
      Figure 00130001
    • 4. Anhand der vorhergehenden Schrittes werden Paare Im, Im+1 identifiziert, die eine vermutete Szenenänderung haben. Die entsprechenden GOPs sollen sein Gtest[1], Gtest[2]
    • 5. Für jede GOP von dem vorhergehenden Schritt wird eine Szenenänderungserfassung durchgeführt unter Verwendung:
    • (a) P-Vollbild-zu-P-Vollbild-Vergleich unter Verwendung eines Bitzuweisungs(Bits pro Makroblock)-Kriteriums;
    • (b) Wenn keine Szenenänderung in dem vorhergehenden Schritt erfasst wird, soll die GOP vor der geprüften GOP gleich GOPprcv sein und die GOP nach der geprüften GOP soll GOPnext sein. Dann wird das letzte P-Vollbild von GOPprcv genommen und mit dem ersten P-Vollbild von GOPtest verglichen unter Verwendung des Bits pro Makroblock-Kriteriums, in gleicher Weise wird das letzte P-Vollbild der geprüften GOP genommen und mit dem ersten P-Vollbild von GOPnext verglichen. Wenn dann eine Szenenänderung erfasst wird, wird das Auftreten einer Szenenänderung in dem entsprechenden I-Vollbild erklärt, oder anderenfalls wird ein Versagen des bitzuweisungs-basierten Algorithmus erklärt. Wenn der Algorithmus versagt, wird der gleichstrombild-basierte Algorithmus für die nächste Folge verwendet.
    • 6. Segmentieren von S in Aufnahmen auf der Grundlage der obigen Szenenänderungserfassung.
    • 7. In dem Fall von MPEG-4 wird derselbe Vorgang innerhalb jeder Aufnahme wiederholt, um abrupte Objektänderungen zu erfassen.
  • Es wurde auch beobachtet, dass eine Mehrdeutigkeit auftreten kann, wenn eine Szenenänderung entweder bei einem I-Vollbild oder bei einem P-Vollbild, das unmittelbar einem I-Vollbild folgt, lokalisiert ist. Es wird daran erinnert, dass die definitiven Szenenänderungs-Verarbeitungsschritte mit Bezug auf P-Vollbild-Informationen genommen werden, nachdem eine vermutete Szenenänderung durch Untersuchung von I-Vollbild-Informationen identifiziert wurde. Wenn dann die GOP-Folge genommen wird als I1 P1 P2 P3 – I2 und eine Spitze in der Bitraten-Differenzfunktion bei dem Vergleich von P1 und P2 erfasst wird, würde gemäß dem vorbeschriebenen früheren Weg von Feng et al eine Szenenänderung zwischen P1 und P2 erklärt. Jedoch kann die Änderung tatsächlich zwischen I1 und P1 oder bei P2 aufgetreten sein.
  • Wenn die Szenenänderung tatsächlich zwischen I1 und P1 aufgetreten ist, unterscheidet sich die Bitzuweisung des letztgenannten Vollbildes ausreichend von der von P2, um das Auftreten einer Szenenänderung an diesem Punkt anzunehmen, selbst wenn die beiden benachbarten P-Vollbilder tatsächlich im Inhalt ähnlich sind. Tatsächlich ist die Ähnlichkeit zwischen P1 und P2, die die Differenz in der Bitzuweisung in den beiden bedingt. Die Mehrdeutigkeit in der Zeit der Szenenänderung kann gelöst werden durch Bezugnahme auf die für Bewegungsvektoren in den beiden benachbarten P-Vollbildern verwendeten Bits. D. h., die Gesamtsumme von für Bewegungsvektoren verwendeten Bits wird für jedes Vollbild berechnet, wann immer die Möglichkeit der Mehrdeutigkeit auftritt (d. h., wenn das nachfolgend beschriebene Bitzuweisungskriterium das Auftreten einer Szenenänderung zwischen einem P1- und einem P2-Vollbild anzeigt). Eine Szenenänderung zwischen I1 und P1 induziert eine Spitze in den für P1 verwendeten Bewegungsvektoren. Wenn die Szene sich nicht un mittelbar folgend einer solchen Spitze ändert, zeigt die Anzahl von für Bewegungsvektoren verwendeten Bits in den folgenden Vollbildern eine Kontinuität in der Größe an, die nicht geteilt wird von den für die Bewegungsvektoren von P1 verwendeten Bits. Durch Vergleich der für Bewegungsvektoren für P1 verwendeten Bits mit den folgenden Vollbildern kann die Szenenänderung definiert werden als zwischen I1 und P1 auftretend. Wenn die Szenenänderung tatsächlich bei P2 aufgetreten ist, dann wird die anomale Bewegungsvektorzuweisung bei P2 gesehen. Es ist ein rechtmäßig einfacher Vorgang, um diese Bewegungsvektorinformationen in der beschriebenen Weise zu analysieren.
  • Das bitzuweisungs-basierte Kriterium
  • Für jedes Objekt wird eine "Bitratenmatrix" gebildet, die aus der Anzahl von Bits besteht, die zum Codieren jedes Makroblocks erforderlich sind. Wenn R = {r(i, j)} und S = {s(i, j)} zwei Ratenmatrizen sind, dann ist die Ratendifferenz zwischen R und S gleich
    Figure 00160001
    worin r(i, j) die Anzahl von Bits ist, die durch den (i, j)-ten Makroblock des Objekts in einem P-Vollbild benötigt wird, und s(i, j) die Anzahl von Bits ist, die durch den entsprechenden Block in dem nächsten P-Vollbild benötigt wird. Wenn eine Folge von Ratenmatrizen Rm m = 1,2, .... N + 1 gegeben ist, kann die normierte Ratendifferenzfolge RPm m = 1,2, ..., N erhalten werden als
    Figure 00160002
    worin Tm die Gesamtanzahl von Bits ist, die durch das m-te Objekt der Folge RPm benötigt wird. Es wird ein Gleitfenster (d. h. eine vorbestimmte Anzahl von Vollbildern vor und nach einem interessierenden Vollbild) verwendet, um die Ratendifferenzfolge RPm so zu verarbeiten, dass eine lokale Veränderung eingefangen wird. Es wird eine Szenenänderung von Ri bis Ri–1 erklärt, wenn:
    • 1. Die Differenz RP1 ist das Maximum innerhalb eines symmetrischen Gleitfensters mit der Größe von 2k – 1 Vollbildern, und
    • 2. Die Differenz RP1 ist auch das n-fache des zweitgrößten Maximums in dem Gleitfenster k = 3 und n = 2 werden in Beispielen verwendet, die geprüft wurden. Die Wahl dieser Parameter hängt von empirischen Daten wie von der Vollbildrate, der Frequenz von periodischen I-Vollbildern und zusätzlichen Faktoren ab. Es ist festzustellen, dass die Ratendifferenz nur zwischen zwei I-Vollbildern/Objekten oder zwischen zwei P-Vollbildern/Objekten berechnet werden kann. Mit anderen Worten, alle Vollbilder in der Folge Ri sollten alle entweder I- oder P-Vollbilder (Objekte) sein. Es ist auch festzustellen, dass in einer MPEG-4-Folge alle Objekte nicht notwendigerweise mit Intracodierung zur selben Zeit "aufgefrischt" werden müssen.
  • gleichstromfolge-basiertes Kriterium
  • Bei diesem Weg wird eine Folge von Gleichstrombildern (Objekten) X – {dc(i, j)} gebildet, wobei dc(i, j) der Gleichstromwert des (i, j)-ten Makroblocks des Bildes (Objekts) ist. Das Herausziehen von Gleichstromwerten aus intracodierten Vollbildern oder Objekten ist einfach, da es nur die Entropie-Decodierung erfordert, wie vorstehend festgestellt ist, aber die Extraktion von Gleichstromwerten aus vorhersagenden oder P-Vollbildern (Objekten) erfordert mehr Berechnung und Speicher. Danach wird eine Differenzfolge gebildet wie bei der vorhergehenden Folge unter Verwendung einer von mehreren möglichen Metriken. Die Metrik (dc(X, Y) wird verwendet zwischen zwei Vollbildern X und Y und ist wie nachfolgend definiert:
    Figure 00180001
  • Es kann daher eine Folge dc(Xi, Xi+1) für die Folge gebildet werden und den vorstehend beschriebenen Gleitfenster-Weg verwenden, um Szenenänderungen zu erfassen.
  • Blenderfassung unter Verwendung von Änderungen von Bits, die zum Codieren von Gleichstromkomponenten von Resten verwendet werden
  • Es wurde beobachtet, dass, wenn eine allmähliche Szenenänderung auftritt, jeder Block des Bildes ein Gleichstrom-Korrekturglied enthält, da das Bild aus einem vollständig schwarzen Vollbild eingeblendet oder zu einem vollständig schwarzen Vollbild ausgeblendet wird. Unter Berücksichtigung hiervon wurde gefunden, dass Bitzuweisungsprofile für Gleichstromkomponenten von Restblöcken eine Anzeige für die Blenderfassung liefern. Gemäß einem Aspekt der vorliegenden Erfindung weist ein Verfahren der Blenderfassung die folgenden Schritte auf.
    • 1. Es werden die Gleichstrombilder von aufeinander folgenden I-Vollbildern verglichen, um vermuteten Szenenänderungen zu lokalisieren. Dies hat sich als notwendig erwiesen für das vorstehend beschriebene Verfahren zum Erfassen abrupter Szenenänderungen. Dieser Schritt hilft, Berechnungen einzusparen, da eine Suche nach einer Szenenänderung nachfolgend nur in den Signalsegmenten durchgeführt wird, in denen aufeinander folgende I-Vollbilder sich stark unterscheiden, wodurch die Verarbeitung der gesamten Signalfolge vermieden wird.
    • 2. Für jedes P-Vollbild in den Bereichen, in denen sich eine vermutete Szenenänderung befindet, werden die Anzahl von Blöcken mit negativen Gleichstromkomponenten sowie die Anzahl von Blöcken mit positiven Gleichstromkomponenten gezählt. Für den Fall von MPEG-2 sowie von MPEG-4 wäre dieser Schritt geradewegs von dem VLC-Parsing, da jede sich von null unterscheidende Gleichstromkomponente einer sich von null unterscheidenden Anzahl von Bits und einem Vorzeichenbit, das anzeigt, ob die Komponente positiv oder negativ ist, zugewiesen wird. Gleichstromkomponenten von null werden durch die Runlängen angezeigt und können so leicht übersprungen werden.
    • 3. Es wird die Charakteristik der beiden wie vorstehenden erhaltenen Anzahlen gegenüber der Vollbildzahl bestimmt und es werden die Bereiche bestimmt, in denen vermutete Szenenänderungen entsprechend dem obigen Schritt 1 lokalisiert wurden.
    • 4. Es wird ein Ausblenden erklärt, wenn die Anzahl von negativen Übergängen beständig größer als oder gleich 60% der Gesamtanzahl er von null abweichenden Übergänge über eine Zeitperiode (Anzahl von Vollbildern) entsprechend im Wesentlichen einem normalen Szenenänderungsintervall (angenähert eine Sekunde) ist. Umgekehrt wird ein Einblenden erklärt, wenn die Anzahl von positiven Übergängen die vorgenannte Schwelle trifft. Diese Blenderfassungstechnik macht sich die von dem Codierer durchgeführte Bewegungssuche zunutze. Sie misst die für das Codieren der Gleichstromdifferenz zwischen einem besonderen Makroblock und seiner engsten Anpassung in dem vorhergehenden Vollbild verwendete Rate.
  • Als eine noch weitere Verfeinerung der Szenenänderungserfassung kann die Möglichkeit einer bei einem B-Vollbild zwischen zwei P-Vollbildern auftretenden Szenenänderung ebenfalls erfasst werden, nachdem bestimmt wurde, dass die beiden besonderen P-Vollbilder zwischen zwei I-Vollbildern liegen, für die eine Szenenänderung angezeigt ist. Indem so das Szenenänderungsintervall definiert ist, wird bekannt, dass die Szenenänderung nicht später als beim letzten P-Vollbild in diesem Intervall aufgetreten ist. Jedoch kann die Szenenänderung bei dem ersten P-Vollbild oder bei einem B-Vollbild zwischen den beiden P-Vollbildern aufgetreten sein. Um die weitere Bestimmung vorzunehmen, wird Nutzen aus dem Umstand gezogen, dass die als Teil der B-Vollbildinformationen codierten Bits ein Kennzeichen enthalten, das identifiziert, welches der vorhergehenden oder nachfolgenden P-Vollbilder als ein Bezugsvollbild für die Bildung des fraglichen B-Vollbildes gedient hat. Das B- Vollbild wird gebildet unter Verwendung entweder des Vorwärts- oder Rückwärts- oder Zweirichtungs-Vergleichs mit Informationen angrenzender P-Vollbilder. Das Kennzeichen identifiziert den verwendeten besonderen Vergleich.
  • Durch Untersuchung des Kennzeichens kann das Folgende bestimmt werden:
    • 1. Wenn das B-Vollbild das vorhergehende P-Vollbild als Bezug genommen hat, dann bestand die minimale Differenz in dieser Richtung und die Szenenänderung sollte als bei dem späteren P-Vollbild auftretend identifiziert werden;
    • 2. Wenn das B-Vollbild das folgende (spätere) P-Vollbild als Bezug genommen hat, dann bestand die minimale Differenz in dieser Richtung und die Szenenänderung sollte als bei dem B-Vollbild auftretend identifiziert werden;
    • 3. Wenn das B-Vollbild auf einem Zweirichtungsvergleich beruht, ist keine Szenenänderung zwischen den P-Vollbildern aufgetreten, und daher sollte die Szenenänderung als bei dem ersten (früheren) P-Vollbild auftretend identifiziert werden.
  • Während die Erfindung mit Bezug auf ein bevorzugten Ausführungsbeispiel beschrieben wurde, können verschiedene Modifikationen durchgeführt werden, ohne dass der Bereich der Erfindung verlassen wird, die in den folgenden Ansprüchen definiert ist.

Claims (20)

  1. Verfahren zum Verarbeiten digitaler bilddarstellender Videodaten in verdichteter Form, welches die Schritte aufweist: Herausziehen einer Subfolge aus Vollbildern aus einer Folge von digitalen bilddarstellenden Videodaten in verdichteter Form, die zumindest I-Vollbilder und zwischen den I-Vollbildern auftretende P-Vollbilder aufweist, welche Subfolge aus Vollbildern einen Satz von zeitlich benachbarten I-Vollbildern enthält, Verarbeiten der Daten in verdichteter Form für jedes Vollbild in der Subfolge, um entsprechende Gleichstrom-Bildwerte in jedem der I-Vollbilder herauszuziehen, Vergleichen der entsprechenden Gleichstrom-Bildwerte für zeitlich benachbarte Paare der besagten I-Vollbilder, um Fälle von Differenzinformationen, die einen ersten Schwellenwert überschreiten, zu erfassen, gekennzeichnet durch Identifizieren von Paaren von I-Vollbildern, welche potentielle Szenenwechsel anzeigen, gemäß dem Vergleichsschritt, Abrufen von Videodaten für P-Vollbilder, die nur zwischen solchen I-Vollbildern auftreten, die anhand der Gleichstrom-Bilddifferenzen als potentielle Szenenwechsel anzeigend identifiziert wurden, und Erfassen des Auftretens von Szenewechseln durch zumindest einen der Schritte der Bestimmung von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder, um das Auftreten von abrupten Szenenwechseln zu lokalisieren, und durch Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den abgerufenen P-Vollbildern oberhalb eines zweiten Schwellenwertes, um Einblend- bzw. Ausblend-Szenenwechsel zu lokalisieren.
  2. Verfahren nach Anspruch 1, bei dem: die Videodaten in verdichteter Form enthalten zumindest einen ersten Koeffizienten für die diskrete Kosinustransformation (DCT), der mit jedem Block jedes Makroblocks jedes I-Vollbildes assoziiert ist, und der Schritt des Verarbeitens zum Herausziehen von Gleichstrom-Bildwerten in jedem der besagten I-Vollbilder weist die Durchschnittswertbildung für die ersten DCT-Koeffizienten für jeden Block von jedem besagten Makroblock auf, um einen Satz von Gleichstrom-Bildwerten für jedes I-Vollbild zu bilden, und der Schritt des Vergleichens umfasst das Vergleichen von Sätzen von entsprechenden Gleichstrom-Bildwerten für zeitlich benachbarte I-Vollbilder, um die Differenzinformationen zu erzeugen.
  3. Verfahren nach Anspruch 1, bei dem: die Videodaten in verdichteter Form enthalten zumindest einen ersten Koeffizienten für diskrete Kosinustransformation (DCT), der mit jedem Block jedes Makroblocks jedes Objekts in dem besagten I-Vollbild assoziiert ist, und der Schritt des Verarbeitens zum Herausziehen von Gleichstrom-Bildwerten in jedem der besagten I-Vollbilder umfasst die Durchschnittswertbildung für die ersten DCT-Koeffizienten für jeden Block jedes besagten Makroblocks von jedem besagten Objekt, um einen Satz von Gleichstrom-Bildwerten für jedes Objekt in jedem besagten I-Vollbild zu bilden, und der Schritt des Vergleichens umfasst das Vergleichen von Sätzen von Gleichstrom-Bildwerten für entsprechende Objekte in den besagten zeitlich benachbarten I-Vollbildern, um die Differenzinformationen zu erzeugen.
  4. Verfahren nach Anspruch 3, bei dem: die entsprechenden Objekte sind solche Objekte, die den nächsten entsprechenden Raum in zeitlich benachbarten I-Vollbildern einnehmen.
  5. Verfahren nach Anspruch 3, bei dem: der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder umfasst: für jedes Objekt in jedem abgerufenen Vollbild das Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich sind, Vergleichen der Bitratenmatrizen für jedes Objekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Ratendifferenz aufweisend die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen zu bestimmen, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der Ratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des Objekts in dem Vollbild verwendet wird.
  6. Verfahren nach Anspruch 5, bei dem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der Bitratendifferenzen über eine erste vorbestimmte Anzahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit jedem seiner benachbarten Vollbilder assoziiert ist.
  7. Verfahren nach Anspruch 6, bei dem die erste vorbestimmte Anzahl zumindest fünf ist.
  8. Verfahren nach Anspruch 1, bei dem der Schritt des Vergleichens von Gleichstrom-Bildwerten umfasst: Vergleichen von Gleichstromwerten für entsprechende Makroblöcke in den besagten zeitlich benachbarten Paaren von I-Vollbildern, um Differenzen zwischen den Gleichstromwerten zu bestimmen, Summieren der absoluten Werte aller besagter Differenzen für alle Makroblöcke in dem besagten Paar von I-Vollbildern, Teilen der Summe von absoluten Werten durch die Anzahl von Makroblöcken in einem I-Vollbild, um eine Durchschnittsdifferenz pro Makroblock zu bestimmen, und Vergleichen der Durchschnittsdifferenz mit dem ersten Schwellenwert und Verkünden eines möglichen Szenenwechsels, wenn der besagte Durchschnittswert größer als der besagte Schwellenwert ist.
  9. Verfahren nach Anspruch 8, bei dem der erste Schwellenwert angenähert 0,25 ist.
  10. Verfahren nach Anspruch 3, bei dem der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder aufweist: für jedes Objekt in jedem abgerufenen Vollbild das Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich ist, Vergleichen der Bitratenmatrizen für jedes Objekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Bitratendifferenz zu bestimmen, die die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen aufweist, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der besagten Bitratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des besagten Objekts verwendet wird.
  11. Verfahren nach Anspruch 10, bei dem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der besagten Bitratendifferenzen über eine erste vorbestimmte An zahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit seinen benachbarten Vollbildern assoziiert ist.
  12. Verfahren nach Anspruch 11, bei dem die erste vorbestimmte Anzahl zumindest fünf ist.
  13. Verfahren nach Anspruch 1, bei dem: der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder aufweist: für jedes Objekt in jedem abgerufenen Vollbild das Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich sind, Vergleichen der Bitratenmatrizen für jedes Objekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Ratendifferenz aufweisend die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen zu bestimmen, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der Ratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des besagten Objekts in dem besagten Vollbild verwendet werden.
  14. Verfahren nach Anspruch 13, bei dem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der besagten Bitratendifferenzen über eine erste vorbestimmte Anzahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit jedem seiner benachbarten Vollbilder assoziiert ist.
  15. Verfahren nach Anspruch 14, bei dem die erste vorbestimmte Anzahl zumindest fünf ist.
  16. Verfahren nach Anspruch 1, bei dem der Schritt des Bestimmens der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den abgerufenen P-Vollbildern aufweist: Verarbeiten der verdichteten Vollbilddaten für jedes P-Vollbild, das in jeder Subfolge zwischen Paaren von I-Vollbildern enthalten ist, die als Anzeige für potentielle Szenenwechsel identifiziert wurden, um entsprechende Gleichstrom-Restkoeffizienten herauszuziehen, enthaltend Vorzeicheninformationen für jedes der besagten enthaltenen P-Vollbilder, und Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den besagten enthaltenen P-Vollbildern oberhalb eines zweiten Schwellenwertes, um Einblend- bzw. Ausblend-Szenenwechsel zu lokalisieren.
  17. Verfahren nach Anspruch 16, bei dem der Schritt des Bestimmens umfasst: Zählen der Anzahl von Blöcken mit positiven Gleichstromkomponenten und der Anzahl von Blöcken mit negativen Gleichstromkomponenten in jedem besagten P-Vollbild, Bestimmen, welcher Zählwert größer ist, und Be wahren des Vorzeichens des größeren für jedes besagte P-Vollbild, Identifizieren jedes P-Vollbildes, bei dem der größere Zählwert gleich dem oder größer als eine vorbestimmte Majorität von von null abweichenden Gleichstromkomponenten in besagtem Vollbild ist, Identifizieren von jeder Gruppe von Bildern, in denen Gleichstromkomponenten mit einem bestimmten Vorzeichen durchweg diejenigen mit dem entgegengesetzten Vorzeichen übersteigen, Bezeichnen eines Einblend-Szenenwechsels, wenn der größere Zählwert in jeder besagten identifizierten Gruppe von Bildern mit einem positiven Vorzeichen assoziiert ist, Bezeichnen eines Ausblend-Szenenwechsels, wenn der größere Zählwert in jeder besagten identifizierten Gruppe von Bildern mit einem negativen Vorzeichen assoziiert ist.
  18. Verfahren nach Anspruch 17, bei dem der Schritt des Identifizierens jedes P-Vollbildes weiterhin das Identifizieren jedes P-Vollbildes umfasst, bei dem der größere Zählwert gleich oder mehr als 60 Prozent der von null abweichenden Gleichstromkomponenten in dem besagten Vollbild ist.
  19. Verfahren nach Anspruch 16, bei dem der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder aufweist: für jedes Objekt in jedem abgerufenen Vollbild Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich ist, Vergleichen der Bitratenmatrizen für jedes Ob jekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Ratendifferenz zu bestimmen, die die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen aufweist, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der besagten Ratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des besagten Objekts in dem besagten Vollbild verwendet wird.
  20. Verfahren nach Anspruch 19, beidem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der Bitratendifferenzen über eine erste vorbestimmte Anzahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit jedem seiner benachbarten Vollbilder assoziiert ist.
DE69911569T 1999-01-14 1999-12-02 Verfahren zur Szenenänderungs- und Überblendungensdetektion für Videosequenzindexierung Expired - Lifetime DE69911569T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/231,698 US6449392B1 (en) 1999-01-14 1999-01-14 Methods of scene change detection and fade detection for indexing of video sequences
US231698 1999-01-14

Publications (2)

Publication Number Publication Date
DE69911569D1 DE69911569D1 (de) 2003-10-30
DE69911569T2 true DE69911569T2 (de) 2004-06-17

Family

ID=22870306

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69911569T Expired - Lifetime DE69911569T2 (de) 1999-01-14 1999-12-02 Verfahren zur Szenenänderungs- und Überblendungensdetektion für Videosequenzindexierung

Country Status (6)

Country Link
US (1) US6449392B1 (de)
EP (1) EP1021042B1 (de)
JP (1) JP3609965B2 (de)
AT (1) ATE250835T1 (de)
DE (1) DE69911569T2 (de)
HK (1) HK1029698A1 (de)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7123772B2 (en) * 2001-03-28 2006-10-17 Texas Instruments Incorporated Image compression by differences within a strip
JP3593929B2 (ja) * 1999-09-03 2004-11-24 日本電気株式会社 動画像符号化方法及び動画像符号化装置
US7110454B1 (en) * 1999-12-21 2006-09-19 Siemens Corporate Research, Inc. Integrated method for scene change detection
KR20010087552A (ko) * 2000-03-07 2001-09-21 구자홍 엠펙(mpeg)압축 비디오 환경에서 매크로 블록의시공간상의 분포를 이용한 디졸브/페이드 검출 방법
US7042525B1 (en) * 2000-07-06 2006-05-09 Matsushita Electric Industrial Co., Ltd. Video indexing and image retrieval system
US7624337B2 (en) 2000-07-24 2009-11-24 Vmark, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US7471834B2 (en) * 2000-07-24 2008-12-30 Vmark, Inc. Rapid production of reduced-size images from compressed video streams
AUPR133700A0 (en) * 2000-11-09 2000-11-30 Mediaware Solutions Pty Ltd Transition templates for compressed digital video and method of generating same
KR100881531B1 (ko) * 2001-07-19 2009-02-05 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 비디오스트림 스위칭을 위한 멀티미디어 서버 구동 방법
US6959044B1 (en) * 2001-08-21 2005-10-25 Cisco Systems Canada Co. Dynamic GOP system and method for digital video encoding
US6959042B1 (en) * 2001-10-01 2005-10-25 Cisco Technology, Inc. Methods and apparatus for measuring compressed video signals and applications to statistical remultiplexing
US7001798B2 (en) * 2001-11-14 2006-02-21 Oki Electric Industry Co., Ltd. Method of manufacturing semiconductor device
KR100465244B1 (ko) 2002-02-05 2005-01-13 삼성전자주식회사 영상 데이터의 움직임 감지장치 및 방법
JP4350342B2 (ja) * 2002-04-26 2009-10-21 株式会社リコー 画像処理装置、画像記録装置、カメラシステム、プログラム、記憶媒体及び画像処理方法
US7046729B2 (en) * 2002-08-27 2006-05-16 Ess Technology, Inc. Bit rate control for motion compensated video compression system
US20040125237A1 (en) * 2002-12-31 2004-07-01 Intel Corporation Fast slope calculation method for shot detection in a video sequence
CN1926884A (zh) * 2004-03-01 2007-03-07 皇家飞利浦电子股份有限公司 视频编码方法和装置
WO2005104676A2 (en) 2004-03-29 2005-11-10 Nielsen Media Research, Inc. Methods and apparatus to detect a blank frame in a digital video broadcast signal
US7680181B1 (en) * 2005-01-07 2010-03-16 Apple Inc. Spooling during video format conversions
US7616821B2 (en) * 2005-07-19 2009-11-10 International Business Machines Corporation Methods for transitioning compression levels in a streaming image system
US7506071B2 (en) * 2005-07-19 2009-03-17 International Business Machines Corporation Methods for managing an interactive streaming image system
US20070028286A1 (en) * 2005-07-28 2007-02-01 Greene David P Systems, methods, and media for detecting content change in a streaming image system
US20070201554A1 (en) * 2006-02-24 2007-08-30 Samsung Electronics Co., Ltd. Video transcoding method and apparatus
EP2094014A1 (de) * 2008-02-21 2009-08-26 British Telecommunications Public Limited Company Video-Streaming
US20090268097A1 (en) * 2008-04-28 2009-10-29 Siou-Shen Lin Scene change detection method and related apparatus according to summation results of block matching costs associated with at least two frames
US8831090B2 (en) 2008-11-18 2014-09-09 Avigilon Corporation Method, system and apparatus for image capture, analysis and transmission
KR101149522B1 (ko) * 2008-12-15 2012-05-25 한국전자통신연구원 장면 전환 검출 시스템 및 방법
DE102009017436B4 (de) * 2009-04-15 2011-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erkennung einer Änderung zwischen Bildern oder in einer Sequenz von Bildern
US8925024B2 (en) 2009-12-31 2014-12-30 The Nielsen Company (Us), Llc Methods and apparatus to detect commercial advertisements associated with media presentations
CN102737383B (zh) * 2011-03-31 2014-12-17 富士通株式会社 视频中的摄像机运动分析方法及装置
KR101942371B1 (ko) * 2012-07-19 2019-04-18 한국전자통신연구원 모바일 무선환경에서의 비디오 프레임 장면전환 검출 및 인코딩장치 및 이를 이용한 방법
US9053366B2 (en) * 2013-02-20 2015-06-09 Honeywell International Inc. System and method for detecting motion in compressed video
CN104125477B (zh) * 2013-04-27 2017-08-18 华为技术有限公司 一种视频帧淡入/淡出检测方法及装置
US9723377B2 (en) * 2014-04-28 2017-08-01 Comcast Cable Communications, Llc Video management
US9866734B2 (en) 2014-08-26 2018-01-09 Dolby Laboratories Licensing Corporation Scene-change detection using video stream pairs
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
KR20170090868A (ko) * 2016-01-29 2017-08-08 주식회사 마크애니 장면 전환 프레임 검출 장치 및 방법
AU2016231661A1 (en) * 2016-09-27 2018-04-12 Canon Kabushiki Kaisha Method, system and apparatus for selecting a video frame
US10194147B2 (en) * 2017-01-19 2019-01-29 Google Llc DC coefficient sign coding scheme
CN112165621B (zh) * 2020-09-24 2024-01-19 北京金山云网络技术有限公司 场景切换帧的检测方法及装置、存储介质、电子设备
US11798273B2 (en) * 2021-03-12 2023-10-24 Lawrence Livermore National Security, Llc Model-based image change quantification

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3315766B2 (ja) 1992-09-07 2002-08-19 富士通株式会社 画像データ符号化方法、その方法を用いた画像データ符号化装置、画像データ復元方法、その方法を用いた画像データ復元装置、シーン変化検出方法、その方法を用いたシーン変化検出装置、シーン変化記録装置、及び画像データのシーン変化記録・再生装置
EP0675495B1 (de) 1994-03-31 2002-07-24 Siemens Corporate Research, Inc. Feststellung von Szenenwechseln in kodierten Videosequenzen
US5911008A (en) * 1996-04-30 1999-06-08 Nippon Telegraph And Telephone Corporation Scheme for detecting shot boundaries in compressed video data using inter-frame/inter-field prediction coding and intra-frame/intra-field coding
JPH09322174A (ja) 1996-05-30 1997-12-12 Hitachi Ltd 動画データの再生方法
US5990980A (en) * 1997-12-23 1999-11-23 Sarnoff Corporation Detection of transitions in video sequences

Also Published As

Publication number Publication date
HK1029698A1 (en) 2001-04-06
EP1021042A1 (de) 2000-07-19
JP2000217117A (ja) 2000-08-04
US6449392B1 (en) 2002-09-10
ATE250835T1 (de) 2003-10-15
DE69911569D1 (de) 2003-10-30
JP3609965B2 (ja) 2005-01-12
EP1021042B1 (de) 2003-09-24

Similar Documents

Publication Publication Date Title
DE69911569T2 (de) Verfahren zur Szenenänderungs- und Überblendungensdetektion für Videosequenzindexierung
DE69912084T2 (de) Verfahren zur Erkennung von Szenenüberblendungen zur Indexierung von Videosequenzen
EP1635578B1 (de) Verfahren und Anordnung zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese sowie Texturverzerrung umfasst, sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium
DE60014444T2 (de) Verfahren und vorrichtung zur bewegungsschätzung unter verwendung von nachbarmacroblöcken
DE69839100T2 (de) Verbesserte Videokodierung unter Verwendung von adaptiven Blockparametern für kodierte/unkodierte Blöcke
DE69433272T2 (de) Vorrichtung zum Vermeiden von Rundungsfehlern bei der inversen Transformation von Transformationskoeffizienten eines Bewegtbildsignales
DE69817460T2 (de) Bildsequenzdekodierungsverfahren
DE69233620T2 (de) Adaptive Kodierung und Dekodierung von Vollbildern und Halbbildern von Videosignalen
DE69937462T2 (de) Effiziente macroblockheaderkodierung zur videokompression
DE60023779T2 (de) Vorrichtung und Verfahren zur Überblendungsdetektion und Überblendungsinformationscodierung
DE60215241T2 (de) Verfahren und Vorrichtung zur Reduzierung von Störungen in dekodierten Bildern mit Nachfilterung
DE69929430T2 (de) Verfahren und vorrichtung zur codierung von video-information
DE69738502T2 (de) Verfahren und system zum verstecken von daten
DE602004008763T2 (de) Videotranskodierung
DE69834029T2 (de) Bedeutsame szenenfeststellung und rahmenfilterung für ein visuelles indexierungssystem
DE19734882C2 (de) Verfahren zum Kodieren von Bewegungsvektoren bei Filmaufnahmen
DE69925296T2 (de) Verfahren zur estimation der bildqualität eines dekodierten bildes
EP1022667A2 (de) Verfahren zum Extrahieren von Merkmalen aus Videosequenzen
DE60302456T2 (de) System und verfahren zur verbesserung der schärfe für codierte digitale videosignale
DE69822975T2 (de) Gerät und verfahren zum kodieren/dekodieren von bewegtbildern und speichermedium zum speichern kodierter bewegtbilddaten
DE19743202B4 (de) Verfahren zum Codieren eines Bewegungsvektors
DE60213039T2 (de) MPEG4-Videokodierung mit "skipped macroblock" Mode
DE69928616T2 (de) System zur extrahierung von codierungsparametern aus videodaten
DE69918533T2 (de) Verfahren zur detektion von übergängen in abgetastenen digitalen videosequenzen
DE60220047T2 (de) Verfahren und einrichtung zum verbergen von fehlern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)