DE69911569T2

DE69911569T2 - Verfahren zur Szenenänderungs- und Überblendungensdetektion für Videosequenzindexierung

Info

Publication number: DE69911569T2
Application number: DE69911569T
Authority: DE
Inventors: Ajay Scotch Plains Divakaran; Huifang Cranbury Sun; Hiroshi Fort Lee Ito; Tommy C. Murray Hill Poon
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-01-14
Filing date: 1999-12-02
Publication date: 2004-06-17
Anticipated expiration: 2019-12-03
Also published as: HK1029698A1; EP1021042A1; JP2000217117A; US6449392B1; ATE250835T1; DE69911569D1; JP3609965B2; EP1021042B1

Description

HINTERGRUND DER ERFINDUNG
GEBIET DER ERFINDUNG
Diese Erfindung bezieht sich auf Verfahren zur Szenenänderungserfassung und Überblendungserfassung für die Indexierung von Videosignalfolgen der Typen, die z. B. bei Hochauflösungsfernseh(HDTV)-Rundfunksignalen und anderen Videoverteilungssystemen wie bei Internet-Videodiensten angetroffen werden.
BESCHREIBUNG DES STANDES DER TECHNIK
Grundlegende Verfahren zum Verdichten der Bandbreite von digitalen Farbvideosignalen wurden von der Motion Picture Experts Group (MPEG) angewendet.
Die MPEG-Standards erzielen hohe Datenverdichtungsraten durch Entwicklung von Informationen für ein ganzes Vollbild. Die ganzen Vollbilder oder intracodier te Bilder werden als "I-Vollbilder" bezeichnet und enthalten unabhängig von irgendwelchen anderen Vollbildern die Informationen eines ganzen Vollbildes. B-Vollbilder und P-Vollbilder werden zwischen den I-Vollbildern codiert und speichern nur Bilddifferenzen in Beziehung auf die Bezugsanker-Vollbilder.
Typischerweise ist jedes Vollbild einer Videofolge in kleinere Blöcke von Pixeldaten geteilt und jeder Block ist einer diskreten Kosinustransformationsfunktion (DCT) unterzogen, um die statistisch abhängigen Raumdomänen-Bildelemente (Pixel) in unabhängige Frequenzdomänen-DCT-Koeffizienten umzuwandeln. Jeweils 8 × 8-Blöcke von Pixeln werden der diskreten Kosinustransformation (DCT) unterzogen, um das codierte Signal zu erhalten. Die sich ergebenden Koeffizienten werden typischerweise der adaptiven Quantisierung unterzogen und werden dann Runlängen- und mit variabler Länge codiert. Somit enthalten die Blöcke von gesendeten Daten typischerweise weniger als eine 8 × 8-Matrix von Codewörtern. Makroblöcke von intravollbildcodierten Daten (I-Vollbilder) enthalten auch Informationen wie den verwendeten Pegel der Quantisierung, eine Makroblockadresse oder Lageanzeiger und einen Makroblocktyp, wobei die letztgenannten Informationen als "Kopf"- oder "Vorsatz"-Informationen bezeichnet werden.
Die Blöcke von gemäß der P- oder B-Inter-Vollbildcodierung bestehen auch aus Matrizen von diskreten Kosinuskoeffizienten. In diesem Fall stellen jedoch die Koeffizienten Reste oder Differenzen zwischen einer vorhergesagten 8 × 8-Pixelmatrix und der tatsächlichen 8 × 8-Pixelmatrix dar. Diese Koeffizienten werden auch der Quantisierung und der Runlängen-Codierung und Codierung mit variabler Länge unterzo gen. In der Vollbildfolge werden I- und P-Vollbilder als Ankervollbilder bezeichnet. Jedes P-Vollbild wird von dem zuletzt auftretenden Ankervollbild vorhergesagt. Jedes B-Vollbild wird von einem oder beiden der Ankervollbilder vorhergesagt, zwischen denen es angeordnet ist. Der Vorhersage-Codiervorgang enthält die Erzeugung von Versetzungsvektoren, die anzeigen, welcher Block eines Ankervollbildes am stärksten dem Block des vorhergesagten Vollbildes, das gegenwärtig codiert wird, angepasst ist. Die Pixeldaten des angepassten Blocks in dem Ankervollbild werden auf einer Pixel-für-Pixel-Basis von dem Block des gerade codierten Vollbildes subtrahiert, um den Rest zu entwickeln. Die transformierten Reste und die Vektoren umfassen die codierten Daten für die Vorhersagevollbilder. Wie bei intervollbild-codierten Vollbildern enthalten die Makroblöcke die Quantisierung, Adresse und Typeninformationen.
Die Ergebnisse sind üblicherweise energiekonzentriert, so dass wenige der Koeffizienten in einem Block den Hauptteil der Bildinformationen enthalten. Die Koeffizienten sind in einer bekannten Weise quantisiert, um wirksam den dynamischen Bereich von einzelnen der Koeffizienten zu begrenzen, und die Ergebnisse werden dann Runlängen- und mit variabler Länge codiert für die Zuführung zu einem Übertragungsmedium.
Das so genannte MPEG-4-Format wird beschrieben in "MPEG-4 Video Verification Model Version 5.0", ausgegeben von der Adhoc Group on MPEG-4 Video VM Editing an ihre Mitglieder unter der Bezeichnung ISO/IECJTCI/SC29/WG11 MPEG 96/N1469, November 1996. Das MPEG-4-Videocodierformat erzeugt einen Strom mit variabler Bitrate in dem Codierer von Vollbild zu Vollbild (wie es der Fall bei früheren Schemen war). Da der Strom mit variabler Bitrate über einen Kanal mit fester Rate übertragen wird, wird ein Kanalpuffer verwendet, um den Bitstrom zu vergleichmäßigen. Um einen Überlauf oder Unterlauf des Puffers zu verhindern, wird eine Geschwindigkeitssteuerung des Codiervorgangs verwendet.
Durch das Erscheinen von neuen digitalen Videodiensten wie über das Internet verteilten Videoinformationen besteht ein zunehmendes Bedürfnis nach Signalverarbeitungstechniken zum Identifizieren von Szenenänderungen und anderen Eigenschaften in den Videofolgen wie szenenänderungsähnlichen Objektänderungen in dem MPEG-4-Kontext. Die Identifikation von Szenenänderungen, seien sie abrupt oder allmählich, ist nützlich für die Zwecke der Indexierung, die z. B. eine schnelle und einfache Bildwiedergewinnung und Szenenanalyse erleichtert.
Für die Zukunft ist zu erwarten, dass eine beträchtliche Menge von digitalem Videomaterial in der vorbeschriebenen Form von verdichteten oder codierten Daten erhalten wird. Die Verarbeitung der Videofolgeninformationen in ihrer verdichteten Form ermöglicht anders als in der auseinander gezogenen oder decodierten Form, wo es möglich ist, gewöhnlich eine schnellere Verarbeitung wegen der verringerten Datenmenge und des Vermeidens von Transformationen. Es ist vorteilhaft, Methoden und Techniken zu entwickeln, die eine direkte Verarbeitung der verdichteten Daten zulassen, anstelle eine Dekomprimierung des ganzen Vollbildes durchzuführen, bevor eine andere Verarbeitung durchgeführt wird.
Es ist bekannt, dass, wenn ein Block (Makroblock) ei ne Kantengrenze eines Objekts enthält, die Energie dieses Blockes nach der Transformierung, wie durch die DCT-Koeffizienten dargestellt, einen relativ großen Gleichstromkoeffizienten (obere linke Ecke der Matrix) und zufällig verteilte Wechselstromkoeffizienten über die Matrix enthält. Ein Nichtkantenblock andererseits ist gewöhnlich gekennzeichnet durch einen ähnlich großen Gleichkoeffizienten (obere linke Ecke) und wenige (z. B. zwei) benachbarte Wechselstromkoeffizienten, die wesentlich größer als andere mit diesem Block assoziierte Koeffizienten sind. Diese Informationen beziehen sich auf Bildänderungen in der räumlichen Domäne und, wenn sie mit Bilddifferenzinformationen kombiniert werden, die durch Vergleichen aufeinander folgender Vollbilder (d. h., zeitliche Differenzen) erhalten wurden, sind Faktoren verfügbar zum Unterscheiden eines Videoobjekts (VO) von einem anderen. Wenn nur die Gleichstromwerte von Makroblöcken verwendet werden, hat ein sich ergebendes Bild eine verschwommene Version des ursprünglichen Bildes, die viel von dem Inhalt des Originals zurückhält.
Somit hat die vorhergehende Arbeit der Indexierung aus komprimierten Videoinformationen zumeist die Extraktion von Gleichstromkoeffizienten betont. In einem Papier, bezeichnet "Rapid Scene Analysis on Compressed Video", IEEE Transactions on Circuits and Systems for Video Technology, Band 5, Nr. 6, Dezember 1995, Seiten 533–544, durch das Anspruch 1 in die zweiteilige Form gebracht wurde, beschreiben Yeo und Liu einen Weg der Szenenänderungserfassung in der komprimierten MPEG-2-Videodomäne sowie eine Übersicht über frühere Versuche der Erfassung von Szenenänderungen auf der Grundlage von Folgen von ganzen (unverdichteten) Bilddaten und verschiedene Techniken der Verarbeitung verdichteter Videoinformationen von anderen. Yeo und Liu haben die Verwendung von räumlich reduzierten Versionen der ursprünglichen Bilder eingeführt, so genannter Gleichstrombilder, und aus verdichteten Videodaten herausgezogene Gleichstromfolgen, um Szenenanalyseoperationen zu erleichtern. Ihr Gleichstrombild besteht aus Pixeln, die der Durchschnittswert der Pixel in einem Block des ursprünglichen Bildes sind, und die Gleichstromfolge ist die Kombination der sich ergebenden reduzierten Anzahl von Pixeln des Gleichstrombildes.
Won et al beschreiben in einem Papier, das in Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases, Januar 1998, veröffentlicht wurde, ein Verfahren zum Herausziehen von Merkmalen aus verdichteten MPEG-2-Videodaten durch Verwendung der für die Gleichstromkoeffizienten verwendeten Bits, um Kanten in den Vollbildern zu lokalisieren. Jedoch ist ihre Arbeit nur auf I-Vollbilder begrenzt. Kobla et al beschreiben ein Verfahren in denselben Proceedings unter Verwendung der Gleichstrom-Bildextraktion von Yeo et al, um Videopfade zu bilden, die Videoclips charakterisieren. Feng et al (IEEE International Conference on Image Processing, Band II, Seiten 821–824, September 16–19, 1996) verwenden die Bitzuweisung über die Makroblöcke von MPEG-2-Vollbildern, um abrupte Szenenwechsel zu erfassen, ohne Gleichstrombilder herauszuziehen. Die Technik von Feng et al ist rechenmäßig die einfachste, da sie keine beträchtliche Berechnung erfordert zusätzlich zu der, die für das Parsing des verdichteten Bitstroms benötigt wird.
FESTSTELLUNG DER ERFINDUNG
Gemäß einem ersten Aspekt der vorliegenden Erfindung wurden rechenmäßig einfache Verfahren entwickelt, die Kombinationen von gewissen Aspekten des Weges von Feng et al und des Weges von Yeo et al verwenden, um eine genaue und einfache Erfassung abrupter und/oder allmählicher Szenenänderungen zu geben. Die vorliegenden Erfinder haben auch Techniken untersucht, die Bitzuweisungsinformationen verwenden, um Merkmale herauszuziehen und allmähliche Szenenänderungen zu erfassen, von denen jede im Einzelnen in gegenwärtigen Feldanwendungen beschrieben ist.
Die vorhergehende Arbeit für die Erfassung allmählicher Szenenänderungen hat verschiedene Techniken angewendet wie die Berücksichtigung der Kantenänderungsfraktionen, einen Doppelvergleichsweg, Blockanpassung auf der Grundlage der Bewegungskompensationsschätzung, die Erfassung von Plateaus in einer verzögerten Vollbild-Differenzmetrik und ein auf einem Videoaufbereitungsmodell basierender Weg. Von diesen arbeitet nur der Weg der Erfassung von Plateaus in der verdichteten Domäne.
Es ist festzustellen, dass die auf der Gleichstrombildextraktion basierende Technik gut für I-Vollbilder ist, da die Extraktion der Gleichstromwerte aus I-Vollbildern relativ einfach ist. Jedoch wird für P-Vollbilder typischerweise eine zusätzliche Berechnung benötigt.
Die vorliegenden Erfinder haben bestimmt, dass, nachdem eine vermuteten Szenen/Objektänderung in einer Gruppe von aufeinander folgenden Vollbildern/Objekten durch Verwendung einer auf Gleichstrombildextraktion basierenden Technik genau lokalisiert wurde, die Anwendung einer angemessenen auf Bitzuweisung basierenden Technik und/oder einer angemessenen Technik zur Gleichstrom-Restkoeffizientenverarbeitung auf P-Vollbildinformationen in der Nähe der vermuteten Änderungsinformationen den Schnittpunkt schnell und genau lokalisiert. Dieses kombinierte Verfahren ist entweder auf MPEG-2-Folgen oder MPEG-4-Mehrobjektfolgen anwendbar. In dem Fall von MPEG-4 wurde es als vorteilhaft gefunden, eine gewichtete Summe der Änderungen in jedem Objekt des Vollbilds zu verwenden, wobei der Bereich jedes Objekts als der Gewichtungsfaktor verwendet wurde.
Die den Gleichstromkoeffizienten der P-Vollbilder zugewiesenen Bits werden auch verwendet, um allmähliche Einblend- und Ausblend-Szenenänderungen zu erfassen.
Gemäß diesem Aspekt der vorliegenden Erfindung weist ein Verfahren zum Verarbeiten digitaler bilddarstellender Videodaten in verdichteter Form den Schritt des Herausziehens von Subfolgen von Vollbildern, die jeweils zumindest einen Satz von zeitlich benachbarten I-Vollbildern enthalten, aus einer Folge von digitalen bilddarstellenden Videodaten in verdichteter Form, die zumindest I-Vollbilder und P-Vollbilder aufweisen, die zwischen den I-Vollbildern auftreten, auf. Die verdichteten Daten für jede Subfolge werden verarbeitet, um entsprechende Gleichstrom-Bildwerte für jedes der I-Vollbilder herauszuziehen. Entsprechende Gleichstrom-Bildwerte für zeitlich benachbarte Paare der I-Vollbilder werden verglichen, um Fälle von Differenzinformationen zu erfassen, die einen ersten Schwellenwert überschreiten. Paare der I-Vollbilder, die potentielle Szenenänderungen anzeigen, werden identifiziert entsprechend dem Vergleichsschritt. Der Prozess umfasst weiterhin die Wiedergewinnung von Videodaten für P-Vollbilder, die nur zwischen solchen I-Vollbildern auftreten, die an hand der Gleichstrom-Bilddifferenzen als potentielle Szenenänderungen anzeigend identifiziert sind, und die Erfassung des Auftretens von Szenenänderungen durch zumindest einen der Schritte des Bestimmens der Bitzuweisungs-Verteilungsdifferenzen über die wiedergewonnenen P-Vollbilder, um das Auftreten von abrupten Szenenänderungen zu lokalisieren, und durch Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den wiedergewonnenen P-Vollbildern oberhalb eines zweiten Schwellenwertes, um Einblenden bzw. Ausblenden zu lokalisieren.
ZEICHNUNG
In der Zeichnung:
1 ist ein schematisches Blockschaltbild, das bestimmte Aspekte der vorliegenden Erfindung illustriert.
DETAILLIERTE BESCHREIBUNG
BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
Unter Bezug auf das schematische Diagramm nach 1 der Zeichnung ist ersichtlich, dass Verfahren gemäß einem ersten Aspekt der vorliegenden Erfindung einen vorläufigen Schritt verwenden, der die Lokalisierung vermuteter Szenenänderungen unter Verwendung nur von I-Vollbildinformationen in der verdichteten Domäne einbezieht (Block 10 des Diagramms). Dieser Schritt beruht auf der Verwendung von gleichstrombildbasierenden Kriterien zum "Qualifizieren" bestimmter Paare von Vollbildern als allmähliche oder abrupte Szenenänderungen anzeigend.
Danach werden die mit dem qualifizierten Vollbild assoziierten Informationen weiterhin verarbeitet, um abrupte und/oder Einblend-, Ausblend-Szenenänderungen zu lokalisieren unter Verwendung entweder eines Bitzuweisungs-Verteilungskriteriums über P-Vollbilder (Block 30) oder eines Kriteriums, das die Anzahl von positiven/negativen Gleichstrom-Restkoeffizienten vergleicht (Block 40) mit Bezug auf jedes P-Vollbild in den Bereichen, in denen eine vermutete Szenen- oder Objektänderung ist.
Auf diese Weise können zeitliche Segmentationsmarkierungen erzeugt werden und sind mit der eingegebenen Videofolge assoziiert, um die besonderen Typen von Szenenänderungen der Videofolge zu lokalisieren und zu identifizieren.
Die spezifische besondere Anordnung für jeden der Erfassungsschritte der abrupten Szenenänderung und der Einblend/Ausblend-Szenenänderung wird nun im Einzelnen beschrieben. Es ist festzustellen, dass es eine wesentliche Gelegenheit zum Verändern von Einzelheiten dieser Schritte gibt, ohne die allgemeineren Aspekte der vorliegenden Erfindung zu verlassen. Detaillierte Verfahrensschritte sind jedoch nachfolgend angezeigt, um dem Fachmann mögliche Veränderungen aufzuzeigen.
Ein Aspekt des vorliegenden Verfahrens weist die folgenden Schritte auf:

1. Lokalisieren der GOPs, in denen Szenenänderungen vermutet werden, durch Verwendung des gleichstrombild-basierenden Prozesses bei aufeinander folgenden I-Vollbildern;
2. Anwenden des bitzuweisungs-basierenden Kriteriums auf P-Vollbilder in jeder der im Schritt 1 ausgewählten GOPs, um Schnittpunkte zu lokalisieren.

Um diese letztere Technik auf verdichtete MPEG-4-Videodaten anzuwenden, werden die folgenden detaillierten Schritte angewendet.
Da MPEG-4 objektbasiert ist, werden ähnlich lokalisierte Objekte in zwei benachbarten Vollbildern verglichen. Die zeitliche Änderung in jedem Objekt wird gemessen in Bezug auf die Anzahl von Bits zum Codieren und ein gewichteter Durchschnitt der Änderungen (Differenzen) über alle Objekte in einem Vollbild wird bestimmt, wobei das Gewicht bezogen ist auf den Anteil der gesamten Vollbildfläche, die von dem Objekt eingenommen ist. Objektänderungen werden auch erfasst durch Wiederholen des Vorgangs bei dem Objektpegel in jeder Aufnahme oder Szene. Änderungen oberhalb eines Schwellenpegels zeigen eine vermutete Szenenänderung an.
Da die Anzahl von beim Codieren jedes Objekts genommenen Bits sich beträchtlich ändert, ist eine feste Schwelle nicht geeignet, so wie es bei MPEG-2-Daten sein könnte. Die Verwendung einer festen Schwelle bei MPEG-4-Daten führt zu falscher Erfassung und/oder zu einem Versagen bei der Erfassung von Szenenänderungen bei dem Objektpegel. Eine Kombination aus einer festen Schwelle und einem Gleitfenster wird daher verwendet, um sicherzustellen, dass die Erfassung bei allen interessierenden Bitraten arbeitet.
Es sollte auch berücksichtigt werden, dass manchmal eine Vollbildreproduktion verwendet wird, wenn von einer Vollbildrate zu einer anderen gewechselt wird. Diese Praxis kann zu einer falschen Szenenänderungserfassung führen, wenn Bitzuweisungstechniken wie vorstehend beschrieben verwendet werden. Daher kann als eine weitere Verfeinerung durch Aufteilen des Bitzuweisungs-Bitbildes in zwei Bilder, eines entsprechend der Bitzuweisung für Bewegungsvektoren und das andere entsprechend dem Rest, die Vollbildreproduktion erfasst werden als ein plötzliches Absinken der Anzahl von Bits, die zum Codieren der Bewegungsvektoren erforderlich sind, sowie als ein begleitendes Absinken der Anzahl von Bits, die zum Codieren des Rests erforderlich sind. Dieses gleichzeitige Absinken in beiden Parametern disqualifiziert diese Daten für die Szenenänderungsbestimmung. Somit eliminiert diese zusätzliche Verfeinerung ein Falscherfassungsproblem, wenn eine Vollbildreproduktion verwendet wird.
Die spezifischen Schritte, die für die Erfassung einer abrupten Szenenänderung verwendet werden, sind wie folgt:

1. Die Prüffolgen S sollen aus Vollbildern I₀PP ... I₁PP ... I₃ ... bestehen
2. Es wird eine Subfolge S₁ gebildet, die aus den I-Vollbildern I₀I₁ ... besteht
3. Es wird eine Szenenänderungserfassung von S₁ unter Verwendung des gleichstrombild-basierten Kriteriums durchgeführt. D. h., es wird für jeden Makroblock ein durchschnittlicher Gleichstromwert gleich 1/4 der Summe der Gleichstromwerte für jeden 8 x 8-Block in dem Makroblock bestimmt und werden zeitlich benachbarte entsprechende Makroblöcke verglichen, um die Differenz für jeden Makroblock zu bestimmen. Die Summe der Absolutwerte der Differenzen für alle Makroblöcke in dem Vollbild wird dann berechnet und durch die Summe der Absolutwerte der Gleichstromwerte für alle Makroblöcke in dem Vollbild geteilt, um eine normierte Änderung pro Makroblock zu erhalten. Es ist dann möglich, zu bestimmen, dass eine potentielle Szenenänderung besteht, wenn irgendeine Vollbild-zu-Vollbild-Differenz (normierte Änderung pro Makroblock) größer ist als ein ausgewählter erster Schwellenwert. Es wurde empirisch bestimmt, dass eine Schwelle von 0,25 eine geeignete Schwelle ist. In dem Fall von MPEG-4 werden, während Vollbilder verglichen werden, Objekte, die die nähesten entsprechenden Räume in den Vollbildern einnehmen, verglichen, und wenn die verglichenen Objekte unterschiedliche Größen haben, die beste Anpassung zwischen den beiden Objekten erhalten, um das Differenzkriterium durch Verwendung eines bewegungsschätzartigen Prozesses berechnet. Wenn der Bereich jedes Objekts O_i gleich A_i ist, sein Differenzkriterium gleich d_i ist und das Differenzkriterium entsprechend dem Vollbild n gleich D_n ist, dann ist das Gesamtkriterium:
4. Anhand der vorhergehenden Schrittes werden Paare I_m, I_m+1 identifiziert, die eine vermutete Szenenänderung haben. Die entsprechenden GOPs sollen sein G_test[1], G_test[2]
5. Für jede GOP von dem vorhergehenden Schritt wird eine Szenenänderungserfassung durchgeführt unter Verwendung:
(a) P-Vollbild-zu-P-Vollbild-Vergleich unter Verwendung eines Bitzuweisungs(Bits pro Makroblock)-Kriteriums;
(b) Wenn keine Szenenänderung in dem vorhergehenden Schritt erfasst wird, soll die GOP vor der geprüften GOP gleich GOP_prcv sein und die GOP nach der geprüften GOP soll GOP_next sein. Dann wird das letzte P-Vollbild von GOP_prcv genommen und mit dem ersten P-Vollbild von GOP_test verglichen unter Verwendung des Bits pro Makroblock-Kriteriums, in gleicher Weise wird das letzte P-Vollbild der geprüften GOP genommen und mit dem ersten P-Vollbild von GOP_next verglichen. Wenn dann eine Szenenänderung erfasst wird, wird das Auftreten einer Szenenänderung in dem entsprechenden I-Vollbild erklärt, oder anderenfalls wird ein Versagen des bitzuweisungs-basierten Algorithmus erklärt. Wenn der Algorithmus versagt, wird der gleichstrombild-basierte Algorithmus für die nächste Folge verwendet.
6. Segmentieren von S in Aufnahmen auf der Grundlage der obigen Szenenänderungserfassung.
7. In dem Fall von MPEG-4 wird derselbe Vorgang innerhalb jeder Aufnahme wiederholt, um abrupte Objektänderungen zu erfassen.

Es wurde auch beobachtet, dass eine Mehrdeutigkeit auftreten kann, wenn eine Szenenänderung entweder bei einem I-Vollbild oder bei einem P-Vollbild, das unmittelbar einem I-Vollbild folgt, lokalisiert ist. Es wird daran erinnert, dass die definitiven Szenenänderungs-Verarbeitungsschritte mit Bezug auf P-Vollbild-Informationen genommen werden, nachdem eine vermutete Szenenänderung durch Untersuchung von I-Vollbild-Informationen identifiziert wurde. Wenn dann die GOP-Folge genommen wird als I₁ P₁ P₂ P₃ – I₂ und eine Spitze in der Bitraten-Differenzfunktion bei dem Vergleich von P₁ und P₂ erfasst wird, würde gemäß dem vorbeschriebenen früheren Weg von Feng et al eine Szenenänderung zwischen P₁ und P₂ erklärt. Jedoch kann die Änderung tatsächlich zwischen I₁ und P₁ oder bei P₂ aufgetreten sein.
Wenn die Szenenänderung tatsächlich zwischen I₁ und P₁ aufgetreten ist, unterscheidet sich die Bitzuweisung des letztgenannten Vollbildes ausreichend von der von P₂, um das Auftreten einer Szenenänderung an diesem Punkt anzunehmen, selbst wenn die beiden benachbarten P-Vollbilder tatsächlich im Inhalt ähnlich sind. Tatsächlich ist die Ähnlichkeit zwischen P₁ und P₂, die die Differenz in der Bitzuweisung in den beiden bedingt. Die Mehrdeutigkeit in der Zeit der Szenenänderung kann gelöst werden durch Bezugnahme auf die für Bewegungsvektoren in den beiden benachbarten P-Vollbildern verwendeten Bits. D. h., die Gesamtsumme von für Bewegungsvektoren verwendeten Bits wird für jedes Vollbild berechnet, wann immer die Möglichkeit der Mehrdeutigkeit auftritt (d. h., wenn das nachfolgend beschriebene Bitzuweisungskriterium das Auftreten einer Szenenänderung zwischen einem P₁- und einem P₂-Vollbild anzeigt). Eine Szenenänderung zwischen I₁ und P₁ induziert eine Spitze in den für P1 verwendeten Bewegungsvektoren. Wenn die Szene sich nicht un mittelbar folgend einer solchen Spitze ändert, zeigt die Anzahl von für Bewegungsvektoren verwendeten Bits in den folgenden Vollbildern eine Kontinuität in der Größe an, die nicht geteilt wird von den für die Bewegungsvektoren von P₁ verwendeten Bits. Durch Vergleich der für Bewegungsvektoren für P₁ verwendeten Bits mit den folgenden Vollbildern kann die Szenenänderung definiert werden als zwischen I₁ und P₁ auftretend. Wenn die Szenenänderung tatsächlich bei P₂ aufgetreten ist, dann wird die anomale Bewegungsvektorzuweisung bei P₂ gesehen. Es ist ein rechtmäßig einfacher Vorgang, um diese Bewegungsvektorinformationen in der beschriebenen Weise zu analysieren.
Das bitzuweisungs-basierte Kriterium
Für jedes Objekt wird eine "Bitratenmatrix" gebildet, die aus der Anzahl von Bits besteht, die zum Codieren jedes Makroblocks erforderlich sind. Wenn R = {r(i, j)} und S = {s(i, j)} zwei Ratenmatrizen sind, dann ist die Ratendifferenz zwischen R und S gleich
worin r(i, j) die Anzahl von Bits ist, die durch den (i, j)-ten Makroblock des Objekts in einem P-Vollbild benötigt wird, und s(i, j) die Anzahl von Bits ist, die durch den entsprechenden Block in dem nächsten P-Vollbild benötigt wird. Wenn eine Folge von Ratenmatrizen R_m m = 1,2, .... N + 1 gegeben ist, kann die normierte Ratendifferenzfolge RP_m m = 1,2, ..., N erhalten werden als
worin T_m die Gesamtanzahl von Bits ist, die durch das m-te Objekt der Folge RP_m benötigt wird. Es wird ein Gleitfenster (d. h. eine vorbestimmte Anzahl von Vollbildern vor und nach einem interessierenden Vollbild) verwendet, um die Ratendifferenzfolge RP_m so zu verarbeiten, dass eine lokale Veränderung eingefangen wird. Es wird eine Szenenänderung von R_i bis R_i–1 erklärt, wenn:

1. Die Differenz RP₁ ist das Maximum innerhalb eines symmetrischen Gleitfensters mit der Größe von 2k – 1 Vollbildern, und
2. Die Differenz RP₁ ist auch das n-fache des zweitgrößten Maximums in dem Gleitfenster k = 3 und n = 2 werden in Beispielen verwendet, die geprüft wurden. Die Wahl dieser Parameter hängt von empirischen Daten wie von der Vollbildrate, der Frequenz von periodischen I-Vollbildern und zusätzlichen Faktoren ab. Es ist festzustellen, dass die Ratendifferenz nur zwischen zwei I-Vollbildern/Objekten oder zwischen zwei P-Vollbildern/Objekten berechnet werden kann. Mit anderen Worten, alle Vollbilder in der Folge R_i sollten alle entweder I- oder P-Vollbilder (Objekte) sein. Es ist auch festzustellen, dass in einer MPEG-4-Folge alle Objekte nicht notwendigerweise mit Intracodierung zur selben Zeit "aufgefrischt" werden müssen.

gleichstromfolge-basiertes Kriterium
Bei diesem Weg wird eine Folge von Gleichstrombildern (Objekten) X – {dc(i, j)} gebildet, wobei dc(i, j) der Gleichstromwert des (i, j)-ten Makroblocks des Bildes (Objekts) ist. Das Herausziehen von Gleichstromwerten aus intracodierten Vollbildern oder Objekten ist einfach, da es nur die Entropie-Decodierung erfordert, wie vorstehend festgestellt ist, aber die Extraktion von Gleichstromwerten aus vorhersagenden oder P-Vollbildern (Objekten) erfordert mehr Berechnung und Speicher. Danach wird eine Differenzfolge gebildet wie bei der vorhergehenden Folge unter Verwendung einer von mehreren möglichen Metriken. Die Metrik (d_c(X, Y) wird verwendet zwischen zwei Vollbildern X und Y und ist wie nachfolgend definiert:
Es kann daher eine Folge d_c(X_i, X_i+1) für die Folge gebildet werden und den vorstehend beschriebenen Gleitfenster-Weg verwenden, um Szenenänderungen zu erfassen.
Blenderfassung unter Verwendung von Änderungen von Bits, die zum Codieren von Gleichstromkomponenten von Resten verwendet werden
Es wurde beobachtet, dass, wenn eine allmähliche Szenenänderung auftritt, jeder Block des Bildes ein Gleichstrom-Korrekturglied enthält, da das Bild aus einem vollständig schwarzen Vollbild eingeblendet oder zu einem vollständig schwarzen Vollbild ausgeblendet wird. Unter Berücksichtigung hiervon wurde gefunden, dass Bitzuweisungsprofile für Gleichstromkomponenten von Restblöcken eine Anzeige für die Blenderfassung liefern. Gemäß einem Aspekt der vorliegenden Erfindung weist ein Verfahren der Blenderfassung die folgenden Schritte auf.

1. Es werden die Gleichstrombilder von aufeinander folgenden I-Vollbildern verglichen, um vermuteten Szenenänderungen zu lokalisieren. Dies hat sich als notwendig erwiesen für das vorstehend beschriebene Verfahren zum Erfassen abrupter Szenenänderungen. Dieser Schritt hilft, Berechnungen einzusparen, da eine Suche nach einer Szenenänderung nachfolgend nur in den Signalsegmenten durchgeführt wird, in denen aufeinander folgende I-Vollbilder sich stark unterscheiden, wodurch die Verarbeitung der gesamten Signalfolge vermieden wird.
2. Für jedes P-Vollbild in den Bereichen, in denen sich eine vermutete Szenenänderung befindet, werden die Anzahl von Blöcken mit negativen Gleichstromkomponenten sowie die Anzahl von Blöcken mit positiven Gleichstromkomponenten gezählt. Für den Fall von MPEG-2 sowie von MPEG-4 wäre dieser Schritt geradewegs von dem VLC-Parsing, da jede sich von null unterscheidende Gleichstromkomponente einer sich von null unterscheidenden Anzahl von Bits und einem Vorzeichenbit, das anzeigt, ob die Komponente positiv oder negativ ist, zugewiesen wird. Gleichstromkomponenten von null werden durch die Runlängen angezeigt und können so leicht übersprungen werden.
3. Es wird die Charakteristik der beiden wie vorstehenden erhaltenen Anzahlen gegenüber der Vollbildzahl bestimmt und es werden die Bereiche bestimmt, in denen vermutete Szenenänderungen entsprechend dem obigen Schritt 1 lokalisiert wurden.
4. Es wird ein Ausblenden erklärt, wenn die Anzahl von negativen Übergängen beständig größer als oder gleich 60% der Gesamtanzahl er von null abweichenden Übergänge über eine Zeitperiode (Anzahl von Vollbildern) entsprechend im Wesentlichen einem normalen Szenenänderungsintervall (angenähert eine Sekunde) ist. Umgekehrt wird ein Einblenden erklärt, wenn die Anzahl von positiven Übergängen die vorgenannte Schwelle trifft. Diese Blenderfassungstechnik macht sich die von dem Codierer durchgeführte Bewegungssuche zunutze. Sie misst die für das Codieren der Gleichstromdifferenz zwischen einem besonderen Makroblock und seiner engsten Anpassung in dem vorhergehenden Vollbild verwendete Rate.

Als eine noch weitere Verfeinerung der Szenenänderungserfassung kann die Möglichkeit einer bei einem B-Vollbild zwischen zwei P-Vollbildern auftretenden Szenenänderung ebenfalls erfasst werden, nachdem bestimmt wurde, dass die beiden besonderen P-Vollbilder zwischen zwei I-Vollbildern liegen, für die eine Szenenänderung angezeigt ist. Indem so das Szenenänderungsintervall definiert ist, wird bekannt, dass die Szenenänderung nicht später als beim letzten P-Vollbild in diesem Intervall aufgetreten ist. Jedoch kann die Szenenänderung bei dem ersten P-Vollbild oder bei einem B-Vollbild zwischen den beiden P-Vollbildern aufgetreten sein. Um die weitere Bestimmung vorzunehmen, wird Nutzen aus dem Umstand gezogen, dass die als Teil der B-Vollbildinformationen codierten Bits ein Kennzeichen enthalten, das identifiziert, welches der vorhergehenden oder nachfolgenden P-Vollbilder als ein Bezugsvollbild für die Bildung des fraglichen B-Vollbildes gedient hat. Das B- Vollbild wird gebildet unter Verwendung entweder des Vorwärts- oder Rückwärts- oder Zweirichtungs-Vergleichs mit Informationen angrenzender P-Vollbilder. Das Kennzeichen identifiziert den verwendeten besonderen Vergleich.
Durch Untersuchung des Kennzeichens kann das Folgende bestimmt werden:

1. Wenn das B-Vollbild das vorhergehende P-Vollbild als Bezug genommen hat, dann bestand die minimale Differenz in dieser Richtung und die Szenenänderung sollte als bei dem späteren P-Vollbild auftretend identifiziert werden;
2. Wenn das B-Vollbild das folgende (spätere) P-Vollbild als Bezug genommen hat, dann bestand die minimale Differenz in dieser Richtung und die Szenenänderung sollte als bei dem B-Vollbild auftretend identifiziert werden;
3. Wenn das B-Vollbild auf einem Zweirichtungsvergleich beruht, ist keine Szenenänderung zwischen den P-Vollbildern aufgetreten, und daher sollte die Szenenänderung als bei dem ersten (früheren) P-Vollbild auftretend identifiziert werden.

Während die Erfindung mit Bezug auf ein bevorzugten Ausführungsbeispiel beschrieben wurde, können verschiedene Modifikationen durchgeführt werden, ohne dass der Bereich der Erfindung verlassen wird, die in den folgenden Ansprüchen definiert ist.

Claims

Verfahren zum Verarbeiten digitaler bilddarstellender Videodaten in verdichteter Form, welches die Schritte aufweist: Herausziehen einer Subfolge aus Vollbildern aus einer Folge von digitalen bilddarstellenden Videodaten in verdichteter Form, die zumindest I-Vollbilder und zwischen den I-Vollbildern auftretende P-Vollbilder aufweist, welche Subfolge aus Vollbildern einen Satz von zeitlich benachbarten I-Vollbildern enthält, Verarbeiten der Daten in verdichteter Form für jedes Vollbild in der Subfolge, um entsprechende Gleichstrom-Bildwerte in jedem der I-Vollbilder herauszuziehen, Vergleichen der entsprechenden Gleichstrom-Bildwerte für zeitlich benachbarte Paare der besagten I-Vollbilder, um Fälle von Differenzinformationen, die einen ersten Schwellenwert überschreiten, zu erfassen, gekennzeichnet durch Identifizieren von Paaren von I-Vollbildern, welche potentielle Szenenwechsel anzeigen, gemäß dem Vergleichsschritt, Abrufen von Videodaten für P-Vollbilder, die nur zwischen solchen I-Vollbildern auftreten, die anhand der Gleichstrom-Bilddifferenzen als potentielle Szenenwechsel anzeigend identifiziert wurden, und Erfassen des Auftretens von Szenewechseln durch zumindest einen der Schritte der Bestimmung von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder, um das Auftreten von abrupten Szenenwechseln zu lokalisieren, und durch Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den abgerufenen P-Vollbildern oberhalb eines zweiten Schwellenwertes, um Einblend- bzw. Ausblend-Szenenwechsel zu lokalisieren.
Verfahren nach Anspruch 1, bei dem: die Videodaten in verdichteter Form enthalten zumindest einen ersten Koeffizienten für die diskrete Kosinustransformation (DCT), der mit jedem Block jedes Makroblocks jedes I-Vollbildes assoziiert ist, und der Schritt des Verarbeitens zum Herausziehen von Gleichstrom-Bildwerten in jedem der besagten I-Vollbilder weist die Durchschnittswertbildung für die ersten DCT-Koeffizienten für jeden Block von jedem besagten Makroblock auf, um einen Satz von Gleichstrom-Bildwerten für jedes I-Vollbild zu bilden, und der Schritt des Vergleichens umfasst das Vergleichen von Sätzen von entsprechenden Gleichstrom-Bildwerten für zeitlich benachbarte I-Vollbilder, um die Differenzinformationen zu erzeugen.
Verfahren nach Anspruch 1, bei dem: die Videodaten in verdichteter Form enthalten zumindest einen ersten Koeffizienten für diskrete Kosinustransformation (DCT), der mit jedem Block jedes Makroblocks jedes Objekts in dem besagten I-Vollbild assoziiert ist, und der Schritt des Verarbeitens zum Herausziehen von Gleichstrom-Bildwerten in jedem der besagten I-Vollbilder umfasst die Durchschnittswertbildung für die ersten DCT-Koeffizienten für jeden Block jedes besagten Makroblocks von jedem besagten Objekt, um einen Satz von Gleichstrom-Bildwerten für jedes Objekt in jedem besagten I-Vollbild zu bilden, und der Schritt des Vergleichens umfasst das Vergleichen von Sätzen von Gleichstrom-Bildwerten für entsprechende Objekte in den besagten zeitlich benachbarten I-Vollbildern, um die Differenzinformationen zu erzeugen.
Verfahren nach Anspruch 3, bei dem: die entsprechenden Objekte sind solche Objekte, die den nächsten entsprechenden Raum in zeitlich benachbarten I-Vollbildern einnehmen.
Verfahren nach Anspruch 3, bei dem: der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder umfasst: für jedes Objekt in jedem abgerufenen Vollbild das Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich sind, Vergleichen der Bitratenmatrizen für jedes Objekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Ratendifferenz aufweisend die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen zu bestimmen, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der Ratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des Objekts in dem Vollbild verwendet wird.
Verfahren nach Anspruch 5, bei dem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der Bitratendifferenzen über eine erste vorbestimmte Anzahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit jedem seiner benachbarten Vollbilder assoziiert ist.
Verfahren nach Anspruch 6, bei dem die erste vorbestimmte Anzahl zumindest fünf ist.
Verfahren nach Anspruch 1, bei dem der Schritt des Vergleichens von Gleichstrom-Bildwerten umfasst: Vergleichen von Gleichstromwerten für entsprechende Makroblöcke in den besagten zeitlich benachbarten Paaren von I-Vollbildern, um Differenzen zwischen den Gleichstromwerten zu bestimmen, Summieren der absoluten Werte aller besagter Differenzen für alle Makroblöcke in dem besagten Paar von I-Vollbildern, Teilen der Summe von absoluten Werten durch die Anzahl von Makroblöcken in einem I-Vollbild, um eine Durchschnittsdifferenz pro Makroblock zu bestimmen, und Vergleichen der Durchschnittsdifferenz mit dem ersten Schwellenwert und Verkünden eines möglichen Szenenwechsels, wenn der besagte Durchschnittswert größer als der besagte Schwellenwert ist.
Verfahren nach Anspruch 8, bei dem der erste Schwellenwert angenähert 0,25 ist.
Verfahren nach Anspruch 3, bei dem der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder aufweist: für jedes Objekt in jedem abgerufenen Vollbild das Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich ist, Vergleichen der Bitratenmatrizen für jedes Objekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Bitratendifferenz zu bestimmen, die die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen aufweist, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der besagten Bitratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des besagten Objekts verwendet wird.
Verfahren nach Anspruch 10, bei dem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der besagten Bitratendifferenzen über eine erste vorbestimmte An zahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit seinen benachbarten Vollbildern assoziiert ist.
Verfahren nach Anspruch 11, bei dem die erste vorbestimmte Anzahl zumindest fünf ist.
Verfahren nach Anspruch 1, bei dem: der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder aufweist: für jedes Objekt in jedem abgerufenen Vollbild das Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich sind, Vergleichen der Bitratenmatrizen für jedes Objekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Ratendifferenz aufweisend die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen zu bestimmen, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der Ratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des besagten Objekts in dem besagten Vollbild verwendet werden.
Verfahren nach Anspruch 13, bei dem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der besagten Bitratendifferenzen über eine erste vorbestimmte Anzahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit jedem seiner benachbarten Vollbilder assoziiert ist.
Verfahren nach Anspruch 14, bei dem die erste vorbestimmte Anzahl zumindest fünf ist.
Verfahren nach Anspruch 1, bei dem der Schritt des Bestimmens der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den abgerufenen P-Vollbildern aufweist: Verarbeiten der verdichteten Vollbilddaten für jedes P-Vollbild, das in jeder Subfolge zwischen Paaren von I-Vollbildern enthalten ist, die als Anzeige für potentielle Szenenwechsel identifiziert wurden, um entsprechende Gleichstrom-Restkoeffizienten herauszuziehen, enthaltend Vorzeicheninformationen für jedes der besagten enthaltenen P-Vollbilder, und Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den besagten enthaltenen P-Vollbildern oberhalb eines zweiten Schwellenwertes, um Einblend- bzw. Ausblend-Szenenwechsel zu lokalisieren.
Verfahren nach Anspruch 16, bei dem der Schritt des Bestimmens umfasst: Zählen der Anzahl von Blöcken mit positiven Gleichstromkomponenten und der Anzahl von Blöcken mit negativen Gleichstromkomponenten in jedem besagten P-Vollbild, Bestimmen, welcher Zählwert größer ist, und Be wahren des Vorzeichens des größeren für jedes besagte P-Vollbild, Identifizieren jedes P-Vollbildes, bei dem der größere Zählwert gleich dem oder größer als eine vorbestimmte Majorität von von null abweichenden Gleichstromkomponenten in besagtem Vollbild ist, Identifizieren von jeder Gruppe von Bildern, in denen Gleichstromkomponenten mit einem bestimmten Vorzeichen durchweg diejenigen mit dem entgegengesetzten Vorzeichen übersteigen, Bezeichnen eines Einblend-Szenenwechsels, wenn der größere Zählwert in jeder besagten identifizierten Gruppe von Bildern mit einem positiven Vorzeichen assoziiert ist, Bezeichnen eines Ausblend-Szenenwechsels, wenn der größere Zählwert in jeder besagten identifizierten Gruppe von Bildern mit einem negativen Vorzeichen assoziiert ist.
Verfahren nach Anspruch 17, bei dem der Schritt des Identifizierens jedes P-Vollbildes weiterhin das Identifizieren jedes P-Vollbildes umfasst, bei dem der größere Zählwert gleich oder mehr als 60 Prozent der von null abweichenden Gleichstromkomponenten in dem besagten Vollbild ist.
Verfahren nach Anspruch 16, bei dem der Schritt des Bestimmens von Bitzuweisungs-Verteilungsdifferenzen über abgerufene P-Vollbilder aufweist: für jedes Objekt in jedem abgerufenen Vollbild Konstruieren einer Bitratenmatrix bestehend aus der Anzahl von Bits, die zum Kodieren jedes Makroblocks in seinem jeweiligen Vollbild erforderlich ist, Vergleichen der Bitratenmatrizen für jedes Ob jekt in jedem zeitlich benachbarten Paar von abgerufenen P-Vollbildern, um eine Ratendifferenz zu bestimmen, die die Summe der absoluten Werte von Makroblock für Makroblock-Bitdifferenzen aufweist, und für jedes Objekt in jedem besagten Paar von Vollbildern Normieren der besagten Ratendifferenz durch Teilen durch die Gesamtzahl von Bits, die zum Kodieren des besagten Objekts in dem besagten Vollbild verwendet wird.
Verfahren nach Anspruch 19, beidem der Schritt des Erfassens von Szenenwechseln zum Lokalisieren des Auftretens von abrupten Szenenwechseln weiterhin aufweist: Bestimmen des Auftretens einer normierten Bitratendifferenz, die einen abrupten Szenenwechsel anzeigt, durch Vergleichen der Bitratendifferenzen über eine erste vorbestimmte Anzahl von benachbarten Vollbildern miteinander, um jede normierte Bitratendifferenz zu identifizieren, die größer als im Wesentlichen das Zweifache von der ist, die mit jedem seiner benachbarten Vollbilder assoziiert ist.