-
HINTERGRUND
DER ERFINDUNG
-
GEBIET DER
ERFINDUNG
-
Diese Erfindung bezieht sich auf
Verfahren zur Szenenänderungserfassung
und Überblendungserfassung
für die
Indexierung von Videosignalfolgen der Typen, die z. B. bei Hochauflösungsfernseh(HDTV)-Rundfunksignalen
und anderen Videoverteilungssystemen wie bei Internet-Videodiensten angetroffen
werden.
-
BESCHREIBUNG
DES STANDES DER TECHNIK
-
Grundlegende Verfahren zum Verdichten
der Bandbreite von digitalen Farbvideosignalen wurden von der Motion
Picture Experts Group (MPEG) angewendet.
-
Die MPEG-Standards erzielen hohe
Datenverdichtungsraten durch Entwicklung von Informationen für ein ganzes
Vollbild. Die ganzen Vollbilder oder intracodier te Bilder werden
als "I-Vollbilder" bezeichnet und enthalten
unabhängig
von irgendwelchen anderen Vollbildern die Informationen eines ganzen
Vollbildes. B-Vollbilder
und P-Vollbilder werden zwischen den I-Vollbildern codiert und speichern nur
Bilddifferenzen in Beziehung auf die Bezugsanker-Vollbilder.
-
Typischerweise ist jedes Vollbild
einer Videofolge in kleinere Blöcke
von Pixeldaten geteilt und jeder Block ist einer diskreten Kosinustransformationsfunktion
(DCT) unterzogen, um die statistisch abhängigen Raumdomänen-Bildelemente
(Pixel) in unabhängige
Frequenzdomänen-DCT-Koeffizienten
umzuwandeln. Jeweils 8 × 8-Blöcke von
Pixeln werden der diskreten Kosinustransformation (DCT) unterzogen,
um das codierte Signal zu erhalten. Die sich ergebenden Koeffizienten
werden typischerweise der adaptiven Quantisierung unterzogen und
werden dann Runlängen-
und mit variabler Länge
codiert. Somit enthalten die Blöcke
von gesendeten Daten typischerweise weniger als eine 8 × 8-Matrix von Codewörtern. Makroblöcke von
intravollbildcodierten Daten (I-Vollbilder) enthalten auch Informationen
wie den verwendeten Pegel der Quantisierung, eine Makroblockadresse
oder Lageanzeiger und einen Makroblocktyp, wobei die letztgenannten
Informationen als "Kopf"- oder "Vorsatz"-Informationen bezeichnet werden.
-
Die Blöcke von gemäß der P- oder B-Inter-Vollbildcodierung
bestehen auch aus Matrizen von diskreten Kosinuskoeffizienten. In
diesem Fall stellen jedoch die Koeffizienten Reste oder Differenzen
zwischen einer vorhergesagten 8 × 8-Pixelmatrix und der tatsächlichen
8 × 8-Pixelmatrix
dar. Diese Koeffizienten werden auch der Quantisierung und der Runlängen-Codierung und Codierung
mit variabler Länge
unterzo gen. In der Vollbildfolge werden I- und P-Vollbilder als
Ankervollbilder bezeichnet. Jedes P-Vollbild wird von dem zuletzt
auftretenden Ankervollbild vorhergesagt. Jedes B-Vollbild wird von
einem oder beiden der Ankervollbilder vorhergesagt, zwischen denen
es angeordnet ist. Der Vorhersage-Codiervorgang enthält die Erzeugung
von Versetzungsvektoren, die anzeigen, welcher Block eines Ankervollbildes
am stärksten
dem Block des vorhergesagten Vollbildes, das gegenwärtig codiert
wird, angepasst ist. Die Pixeldaten des angepassten Blocks in dem
Ankervollbild werden auf einer Pixel-für-Pixel-Basis von dem Block
des gerade codierten Vollbildes subtrahiert, um den Rest zu entwickeln. Die
transformierten Reste und die Vektoren umfassen die codierten Daten
für die
Vorhersagevollbilder. Wie bei intervollbild-codierten Vollbildern
enthalten die Makroblöcke
die Quantisierung, Adresse und Typeninformationen.
-
Die Ergebnisse sind üblicherweise
energiekonzentriert, so dass wenige der Koeffizienten in einem Block
den Hauptteil der Bildinformationen enthalten. Die Koeffizienten
sind in einer bekannten Weise quantisiert, um wirksam den dynamischen
Bereich von einzelnen der Koeffizienten zu begrenzen, und die Ergebnisse
werden dann Runlängen-
und mit variabler Länge
codiert für
die Zuführung
zu einem Übertragungsmedium.
-
Das so genannte MPEG-4-Format wird
beschrieben in "MPEG-4
Video Verification Model Version 5.0", ausgegeben von der Adhoc Group on MPEG-4
Video VM Editing an ihre Mitglieder unter der Bezeichnung ISO/IECJTCI/SC29/WG11
MPEG 96/N1469, November 1996. Das MPEG-4-Videocodierformat erzeugt
einen Strom mit variabler Bitrate in dem Codierer von Vollbild zu Vollbild
(wie es der Fall bei früheren
Schemen war). Da der Strom mit variabler Bitrate über einen
Kanal mit fester Rate übertragen
wird, wird ein Kanalpuffer verwendet, um den Bitstrom zu vergleichmäßigen. Um
einen Überlauf
oder Unterlauf des Puffers zu verhindern, wird eine Geschwindigkeitssteuerung
des Codiervorgangs verwendet.
-
Durch das Erscheinen von neuen digitalen Videodiensten
wie über
das Internet verteilten Videoinformationen besteht ein zunehmendes
Bedürfnis nach
Signalverarbeitungstechniken zum Identifizieren von Szenenänderungen
und anderen Eigenschaften in den Videofolgen wie szenenänderungsähnlichen
Objektänderungen
in dem MPEG-4-Kontext. Die Identifikation von Szenenänderungen,
seien sie abrupt oder allmählich,
ist nützlich
für die
Zwecke der Indexierung, die z. B. eine schnelle und einfache Bildwiedergewinnung
und Szenenanalyse erleichtert.
-
Für
die Zukunft ist zu erwarten, dass eine beträchtliche Menge von digitalem
Videomaterial in der vorbeschriebenen Form von verdichteten oder
codierten Daten erhalten wird. Die Verarbeitung der Videofolgeninformationen
in ihrer verdichteten Form ermöglicht
anders als in der auseinander gezogenen oder decodierten Form, wo
es möglich
ist, gewöhnlich
eine schnellere Verarbeitung wegen der verringerten Datenmenge und
des Vermeidens von Transformationen. Es ist vorteilhaft, Methoden
und Techniken zu entwickeln, die eine direkte Verarbeitung der verdichteten
Daten zulassen, anstelle eine Dekomprimierung des ganzen Vollbildes
durchzuführen,
bevor eine andere Verarbeitung durchgeführt wird.
-
Es ist bekannt, dass, wenn ein Block
(Makroblock) ei ne Kantengrenze eines Objekts enthält, die Energie
dieses Blockes nach der Transformierung, wie durch die DCT-Koeffizienten
dargestellt, einen relativ großen
Gleichstromkoeffizienten (obere linke Ecke der Matrix) und zufällig verteilte
Wechselstromkoeffizienten über
die Matrix enthält.
Ein Nichtkantenblock andererseits ist gewöhnlich gekennzeichnet durch
einen ähnlich
großen
Gleichkoeffizienten (obere linke Ecke) und wenige (z. B. zwei) benachbarte Wechselstromkoeffizienten,
die wesentlich größer als andere
mit diesem Block assoziierte Koeffizienten sind. Diese Informationen
beziehen sich auf Bildänderungen
in der räumlichen
Domäne
und, wenn sie mit Bilddifferenzinformationen kombiniert werden,
die durch Vergleichen aufeinander folgender Vollbilder (d. h., zeitliche
Differenzen) erhalten wurden, sind Faktoren verfügbar zum Unterscheiden eines
Videoobjekts (VO) von einem anderen. Wenn nur die Gleichstromwerte
von Makroblöcken
verwendet werden, hat ein sich ergebendes Bild eine verschwommene
Version des ursprünglichen
Bildes, die viel von dem Inhalt des Originals zurückhält.
-
Somit hat die vorhergehende Arbeit
der Indexierung aus komprimierten Videoinformationen zumeist die
Extraktion von Gleichstromkoeffizienten betont. In einem Papier,
bezeichnet "Rapid
Scene Analysis on Compressed Video", IEEE Transactions on Circuits and
Systems for Video Technology, Band 5, Nr. 6, Dezember 1995, Seiten
533–544,
durch das Anspruch 1 in die zweiteilige Form gebracht wurde, beschreiben
Yeo und Liu einen Weg der Szenenänderungserfassung
in der komprimierten MPEG-2-Videodomäne sowie eine Übersicht über frühere Versuche
der Erfassung von Szenenänderungen
auf der Grundlage von Folgen von ganzen (unverdichteten) Bilddaten
und verschiedene Techniken der Verarbeitung verdichteter Videoinformationen
von anderen. Yeo und Liu haben die Verwendung von räumlich reduzierten
Versionen der ursprünglichen
Bilder eingeführt,
so genannter Gleichstrombilder, und aus verdichteten Videodaten
herausgezogene Gleichstromfolgen, um Szenenanalyseoperationen zu
erleichtern. Ihr Gleichstrombild besteht aus Pixeln, die der Durchschnittswert
der Pixel in einem Block des ursprünglichen Bildes sind, und die
Gleichstromfolge ist die Kombination der sich ergebenden reduzierten Anzahl
von Pixeln des Gleichstrombildes.
-
Won et al beschreiben in einem Papier,
das in Proc. SPIE Conf. on Storage and Retrieval for Image and Video
Databases, Januar 1998, veröffentlicht
wurde, ein Verfahren zum Herausziehen von Merkmalen aus verdichteten
MPEG-2-Videodaten durch Verwendung der für die Gleichstromkoeffizienten
verwendeten Bits, um Kanten in den Vollbildern zu lokalisieren.
Jedoch ist ihre Arbeit nur auf I-Vollbilder begrenzt. Kobla et al
beschreiben ein Verfahren in denselben Proceedings unter Verwendung
der Gleichstrom-Bildextraktion von Yeo et al, um Videopfade zu bilden,
die Videoclips charakterisieren. Feng et al (IEEE International
Conference on Image Processing, Band II, Seiten 821–824, September 16–19, 1996)
verwenden die Bitzuweisung über
die Makroblöcke
von MPEG-2-Vollbildern, um abrupte Szenenwechsel zu erfassen, ohne
Gleichstrombilder herauszuziehen. Die Technik von Feng et al ist
rechenmäßig die
einfachste, da sie keine beträchtliche Berechnung
erfordert zusätzlich
zu der, die für
das Parsing des verdichteten Bitstroms benötigt wird.
-
FESTSTELLUNG
DER ERFINDUNG
-
Gemäß einem ersten Aspekt der vorliegenden
Erfindung wurden rechenmäßig einfache
Verfahren entwickelt, die Kombinationen von gewissen Aspekten des
Weges von Feng et al und des Weges von Yeo et al verwenden, um eine
genaue und einfache Erfassung abrupter und/oder allmählicher
Szenenänderungen
zu geben. Die vorliegenden Erfinder haben auch Techniken untersucht,
die Bitzuweisungsinformationen verwenden, um Merkmale herauszuziehen
und allmähliche
Szenenänderungen
zu erfassen, von denen jede im Einzelnen in gegenwärtigen Feldanwendungen
beschrieben ist.
-
Die vorhergehende Arbeit für die Erfassung allmählicher
Szenenänderungen
hat verschiedene Techniken angewendet wie die Berücksichtigung
der Kantenänderungsfraktionen,
einen Doppelvergleichsweg, Blockanpassung auf der Grundlage der Bewegungskompensationsschätzung, die
Erfassung von Plateaus in einer verzögerten Vollbild-Differenzmetrik
und ein auf einem Videoaufbereitungsmodell basierender Weg. Von
diesen arbeitet nur der Weg der Erfassung von Plateaus in der verdichteten
Domäne.
-
Es ist festzustellen, dass die auf
der Gleichstrombildextraktion basierende Technik gut für I-Vollbilder ist, da
die Extraktion der Gleichstromwerte aus I-Vollbildern relativ einfach
ist. Jedoch wird für
P-Vollbilder typischerweise eine zusätzliche Berechnung benötigt.
-
Die vorliegenden Erfinder haben bestimmt, dass,
nachdem eine vermuteten Szenen/Objektänderung in einer Gruppe von
aufeinander folgenden Vollbildern/Objekten durch Verwendung einer
auf Gleichstrombildextraktion basierenden Technik genau lokalisiert
wurde, die Anwendung einer angemessenen auf Bitzuweisung basierenden
Technik und/oder einer angemessenen Technik zur Gleichstrom-Restkoeffizientenverarbeitung
auf P-Vollbildinformationen
in der Nähe
der vermuteten Änderungsinformationen
den Schnittpunkt schnell und genau lokalisiert. Dieses kombinierte
Verfahren ist entweder auf MPEG-2-Folgen oder MPEG-4-Mehrobjektfolgen anwendbar.
In dem Fall von MPEG-4 wurde es als vorteilhaft gefunden, eine gewichtete
Summe der Änderungen
in jedem Objekt des Vollbilds zu verwenden, wobei der Bereich jedes
Objekts als der Gewichtungsfaktor verwendet wurde.
-
Die den Gleichstromkoeffizienten
der P-Vollbilder zugewiesenen Bits werden auch verwendet, um allmähliche Einblend-
und Ausblend-Szenenänderungen
zu erfassen.
-
Gemäß diesem Aspekt der vorliegenden
Erfindung weist ein Verfahren zum Verarbeiten digitaler bilddarstellender
Videodaten in verdichteter Form den Schritt des Herausziehens von
Subfolgen von Vollbildern, die jeweils zumindest einen Satz von
zeitlich benachbarten I-Vollbildern enthalten, aus einer Folge von
digitalen bilddarstellenden Videodaten in verdichteter Form, die
zumindest I-Vollbilder und P-Vollbilder aufweisen, die zwischen
den I-Vollbildern auftreten, auf. Die verdichteten Daten für jede Subfolge
werden verarbeitet, um entsprechende Gleichstrom-Bildwerte für jedes
der I-Vollbilder herauszuziehen. Entsprechende Gleichstrom-Bildwerte
für zeitlich
benachbarte Paare der I-Vollbilder werden verglichen, um Fälle von
Differenzinformationen zu erfassen, die einen ersten Schwellenwert überschreiten.
Paare der I-Vollbilder,
die potentielle Szenenänderungen
anzeigen, werden identifiziert entsprechend dem Vergleichsschritt.
Der Prozess umfasst weiterhin die Wiedergewinnung von Videodaten
für P-Vollbilder,
die nur zwischen solchen I-Vollbildern auftreten, die an hand der
Gleichstrom-Bilddifferenzen als potentielle Szenenänderungen
anzeigend identifiziert sind, und die Erfassung des Auftretens von
Szenenänderungen
durch zumindest einen der Schritte des Bestimmens der Bitzuweisungs-Verteilungsdifferenzen über die
wiedergewonnenen P-Vollbilder, um das Auftreten von abrupten Szenenänderungen
zu lokalisieren, und durch Bestimmen der Anzahl von positiven und
negativen Gleichstrom-Restkoeffizienten in den wiedergewonnenen
P-Vollbildern oberhalb eines zweiten Schwellenwertes, um Einblenden
bzw. Ausblenden zu lokalisieren.
-
ZEICHNUNG
-
In der Zeichnung:
-
1 ist
ein schematisches Blockschaltbild, das bestimmte Aspekte der vorliegenden
Erfindung illustriert.
-
DETAILLIERTE
BESCHREIBUNG
-
BESCHREIBUNG
DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
-
Unter Bezug auf das schematische
Diagramm nach 1 der
Zeichnung ist ersichtlich, dass Verfahren gemäß einem ersten Aspekt der vorliegenden
Erfindung einen vorläufigen
Schritt verwenden, der die Lokalisierung vermuteter Szenenänderungen
unter Verwendung nur von I-Vollbildinformationen in der verdichteten
Domäne
einbezieht (Block 10 des Diagramms). Dieser Schritt beruht
auf der Verwendung von gleichstrombildbasierenden Kriterien zum "Qualifizieren" bestimmter Paare
von Vollbildern als allmähliche
oder abrupte Szenenänderungen
anzeigend.
-
Danach werden die mit dem qualifizierten Vollbild
assoziierten Informationen weiterhin verarbeitet, um abrupte und/oder
Einblend-, Ausblend-Szenenänderungen
zu lokalisieren unter Verwendung entweder eines Bitzuweisungs-Verteilungskriteriums über P-Vollbilder
(Block 30) oder eines Kriteriums, das die Anzahl von positiven/negativen Gleichstrom-Restkoeffizienten
vergleicht (Block 40) mit Bezug auf jedes P-Vollbild in
den Bereichen, in denen eine vermutete Szenen- oder Objektänderung ist.
-
Auf diese Weise können zeitliche Segmentationsmarkierungen
erzeugt werden und sind mit der eingegebenen Videofolge assoziiert,
um die besonderen Typen von Szenenänderungen der Videofolge zu
lokalisieren und zu identifizieren.
-
Die spezifische besondere Anordnung
für jeden
der Erfassungsschritte der abrupten Szenenänderung und der Einblend/Ausblend-Szenenänderung wird
nun im Einzelnen beschrieben. Es ist festzustellen, dass es eine
wesentliche Gelegenheit zum Verändern
von Einzelheiten dieser Schritte gibt, ohne die allgemeineren Aspekte
der vorliegenden Erfindung zu verlassen. Detaillierte Verfahrensschritte
sind jedoch nachfolgend angezeigt, um dem Fachmann mögliche Veränderungen
aufzuzeigen.
-
Ein Aspekt des vorliegenden Verfahrens weist
die folgenden Schritte auf:
- 1. Lokalisieren
der GOPs, in denen Szenenänderungen
vermutet werden, durch Verwendung des gleichstrombild-basierenden
Prozesses bei aufeinander folgenden I-Vollbildern;
- 2. Anwenden des bitzuweisungs-basierenden Kriteriums auf P-Vollbilder
in jeder der im Schritt 1 ausgewählten
GOPs, um Schnittpunkte zu lokalisieren.
-
Um diese letztere Technik auf verdichtete MPEG-4-Videodaten anzuwenden,
werden die folgenden detaillierten Schritte angewendet.
-
Da MPEG-4 objektbasiert ist, werden ähnlich lokalisierte
Objekte in zwei benachbarten Vollbildern verglichen. Die zeitliche Änderung
in jedem Objekt wird gemessen in Bezug auf die Anzahl von Bits zum Codieren
und ein gewichteter Durchschnitt der Änderungen (Differenzen) über alle
Objekte in einem Vollbild wird bestimmt, wobei das Gewicht bezogen
ist auf den Anteil der gesamten Vollbildfläche, die von dem Objekt eingenommen
ist. Objektänderungen werden
auch erfasst durch Wiederholen des Vorgangs bei dem Objektpegel
in jeder Aufnahme oder Szene. Änderungen
oberhalb eines Schwellenpegels zeigen eine vermutete Szenenänderung
an.
-
Da die Anzahl von beim Codieren jedes
Objekts genommenen Bits sich beträchtlich ändert, ist eine feste Schwelle
nicht geeignet, so wie es bei MPEG-2-Daten sein könnte. Die
Verwendung einer festen Schwelle bei MPEG-4-Daten führt zu falscher Erfassung
und/oder zu einem Versagen bei der Erfassung von Szenenänderungen
bei dem Objektpegel. Eine Kombination aus einer festen Schwelle
und einem Gleitfenster wird daher verwendet, um sicherzustellen,
dass die Erfassung bei allen interessierenden Bitraten arbeitet.
-
Es sollte auch berücksichtigt
werden, dass manchmal eine Vollbildreproduktion verwendet wird, wenn
von einer Vollbildrate zu einer anderen gewechselt wird. Diese Praxis
kann zu einer falschen Szenenänderungserfassung
führen,
wenn Bitzuweisungstechniken wie vorstehend beschrieben verwendet
werden. Daher kann als eine weitere Verfeinerung durch Aufteilen
des Bitzuweisungs-Bitbildes in zwei Bilder, eines entsprechend der
Bitzuweisung für Bewegungsvektoren
und das andere entsprechend dem Rest, die Vollbildreproduktion erfasst
werden als ein plötzliches
Absinken der Anzahl von Bits, die zum Codieren der Bewegungsvektoren
erforderlich sind, sowie als ein begleitendes Absinken der Anzahl
von Bits, die zum Codieren des Rests erforderlich sind. Dieses gleichzeitige
Absinken in beiden Parametern disqualifiziert diese Daten für die Szenenänderungsbestimmung.
Somit eliminiert diese zusätzliche
Verfeinerung ein Falscherfassungsproblem, wenn eine Vollbildreproduktion
verwendet wird.
-
Die spezifischen Schritte, die für die Erfassung
einer abrupten Szenenänderung
verwendet werden, sind wie folgt:
- 1. Die Prüffolgen
S sollen aus Vollbildern I0PP ... I1PP ... I3 ... bestehen
- 2. Es wird eine Subfolge S1 gebildet,
die aus den I-Vollbildern I0I1 ...
besteht
- 3. Es wird eine Szenenänderungserfassung
von S1 unter Verwendung des gleichstrombild-basierten
Kriteriums durchgeführt.
D. h., es wird für
jeden Makroblock ein durchschnittlicher Gleichstromwert gleich 1/4
der Summe der Gleichstromwerte für
jeden 8 x 8-Block in dem Makroblock bestimmt und werden zeitlich
benachbarte entsprechende Makroblöcke verglichen, um die Differenz für jeden
Makroblock zu bestimmen. Die Summe der Absolutwerte der Differenzen
für alle
Makroblöcke
in dem Vollbild wird dann berechnet und durch die Summe der Absolutwerte
der Gleichstromwerte für
alle Makroblöcke
in dem Vollbild geteilt, um eine normierte Änderung pro Makroblock zu erhalten.
Es ist dann möglich,
zu bestimmen, dass eine potentielle Szenenänderung besteht, wenn irgendeine
Vollbild-zu-Vollbild-Differenz (normierte Änderung pro Makroblock) größer ist
als ein ausgewählter
erster Schwellenwert. Es wurde empirisch bestimmt, dass eine Schwelle von
0,25 eine geeignete Schwelle ist.
In dem Fall von MPEG-4 werden,
während
Vollbilder verglichen werden, Objekte, die die nähesten entsprechenden Räume in den
Vollbildern einnehmen, verglichen, und wenn die verglichenen Objekte
unterschiedliche Größen haben,
die beste Anpassung zwischen den beiden Objekten erhalten, um das
Differenzkriterium durch Verwendung eines bewegungsschätzartigen
Prozesses berechnet. Wenn der Bereich jedes Objekts Oi gleich Ai ist, sein Differenzkriterium gleich di ist und das Differenzkriterium entsprechend
dem Vollbild n gleich Dn ist, dann ist das
Gesamtkriterium:
- 4. Anhand der vorhergehenden Schrittes werden Paare Im, Im+1 identifiziert,
die eine vermutete Szenenänderung
haben. Die entsprechenden GOPs sollen sein Gtest[1],
Gtest[2]
- 5. Für
jede GOP von dem vorhergehenden Schritt wird eine Szenenänderungserfassung
durchgeführt
unter Verwendung:
- (a) P-Vollbild-zu-P-Vollbild-Vergleich unter Verwendung eines
Bitzuweisungs(Bits pro Makroblock)-Kriteriums;
- (b) Wenn keine Szenenänderung
in dem vorhergehenden Schritt erfasst wird, soll die GOP vor der
geprüften
GOP gleich GOPprcv sein und die GOP nach
der geprüften
GOP soll GOPnext sein. Dann wird das letzte
P-Vollbild von GOPprcv genommen und mit
dem ersten P-Vollbild
von GOPtest verglichen unter Verwendung
des Bits pro Makroblock-Kriteriums, in gleicher Weise wird das letzte
P-Vollbild der geprüften
GOP genommen und mit dem ersten P-Vollbild von GOPnext verglichen.
Wenn dann eine Szenenänderung
erfasst wird, wird das Auftreten einer Szenenänderung in dem entsprechenden
I-Vollbild erklärt,
oder anderenfalls wird ein Versagen des bitzuweisungs-basierten
Algorithmus erklärt.
Wenn der Algorithmus versagt, wird der gleichstrombild-basierte
Algorithmus für
die nächste
Folge verwendet.
- 6. Segmentieren von S in Aufnahmen auf der Grundlage der obigen
Szenenänderungserfassung.
- 7. In dem Fall von MPEG-4 wird derselbe Vorgang innerhalb jeder
Aufnahme wiederholt, um abrupte Objektänderungen zu erfassen.
-
Es wurde auch beobachtet, dass eine
Mehrdeutigkeit auftreten kann, wenn eine Szenenänderung entweder bei einem
I-Vollbild oder bei einem P-Vollbild, das unmittelbar einem I-Vollbild
folgt, lokalisiert ist. Es wird daran erinnert, dass die definitiven Szenenänderungs-Verarbeitungsschritte
mit Bezug auf P-Vollbild-Informationen
genommen werden, nachdem eine vermutete Szenenänderung durch Untersuchung
von I-Vollbild-Informationen
identifiziert wurde. Wenn dann die GOP-Folge genommen wird als I1 P1 P2 P3 – I2 und eine Spitze in der Bitraten-Differenzfunktion
bei dem Vergleich von P1 und P2 erfasst
wird, würde
gemäß dem vorbeschriebenen
früheren
Weg von Feng et al eine Szenenänderung
zwischen P1 und P2 erklärt. Jedoch
kann die Änderung tatsächlich zwischen
I1 und P1 oder bei
P2 aufgetreten sein.
-
Wenn die Szenenänderung tatsächlich zwischen
I1 und P1 aufgetreten
ist, unterscheidet sich die Bitzuweisung des letztgenannten Vollbildes
ausreichend von der von P2, um das Auftreten
einer Szenenänderung
an diesem Punkt anzunehmen, selbst wenn die beiden benachbarten
P-Vollbilder tatsächlich
im Inhalt ähnlich
sind. Tatsächlich
ist die Ähnlichkeit
zwischen P1 und P2,
die die Differenz in der Bitzuweisung in den beiden bedingt. Die
Mehrdeutigkeit in der Zeit der Szenenänderung kann gelöst werden durch
Bezugnahme auf die für
Bewegungsvektoren in den beiden benachbarten P-Vollbildern verwendeten
Bits. D. h., die Gesamtsumme von für Bewegungsvektoren verwendeten
Bits wird für
jedes Vollbild berechnet, wann immer die Möglichkeit der Mehrdeutigkeit
auftritt (d. h., wenn das nachfolgend beschriebene Bitzuweisungskriterium
das Auftreten einer Szenenänderung
zwischen einem P1- und einem P2-Vollbild
anzeigt). Eine Szenenänderung
zwischen I1 und P1 induziert
eine Spitze in den für
P1 verwendeten Bewegungsvektoren. Wenn die Szene sich nicht un mittelbar
folgend einer solchen Spitze ändert,
zeigt die Anzahl von für
Bewegungsvektoren verwendeten Bits in den folgenden Vollbildern
eine Kontinuität
in der Größe an, die
nicht geteilt wird von den für
die Bewegungsvektoren von P1 verwendeten Bits.
Durch Vergleich der für
Bewegungsvektoren für P1 verwendeten Bits mit den folgenden Vollbildern kann
die Szenenänderung
definiert werden als zwischen I1 und P1 auftretend. Wenn die Szenenänderung
tatsächlich
bei P2 aufgetreten ist, dann wird die anomale
Bewegungsvektorzuweisung bei P2 gesehen.
Es ist ein rechtmäßig einfacher
Vorgang, um diese Bewegungsvektorinformationen in der beschriebenen
Weise zu analysieren.
-
Das bitzuweisungs-basierte
Kriterium
-
Für
jedes Objekt wird eine "Bitratenmatrix" gebildet, die aus
der Anzahl von Bits besteht, die zum Codieren jedes Makroblocks
erforderlich sind. Wenn R = {r(i, j)} und S = {s(i, j)} zwei Ratenmatrizen
sind, dann ist die Ratendifferenz zwischen R und S gleich
worin
r(i, j) die Anzahl von Bits ist, die durch den (i, j)-ten Makroblock
des Objekts in einem P-Vollbild benötigt wird, und s(i, j) die
Anzahl von Bits ist, die durch den entsprechenden Block in dem nächsten P-Vollbild benötigt wird.
Wenn eine Folge von Ratenmatrizen R
m m =
1,2, .... N + 1 gegeben ist, kann die normierte Ratendifferenzfolge
RP
m m = 1,2, ..., N erhalten werden als
worin T
m die
Gesamtanzahl von Bits ist, die durch das m-te Objekt der Folge RP
m benötigt
wird. Es wird ein Gleitfenster (d. h. eine vorbestimmte Anzahl von
Vollbildern vor und nach einem interessierenden Vollbild) verwendet,
um die Ratendifferenzfolge RP
m so zu verarbeiten,
dass eine lokale Veränderung
eingefangen wird. Es wird eine Szenenänderung von R
i bis R
i–1 erklärt, wenn:
- 1. Die Differenz RP1 ist
das Maximum innerhalb eines symmetrischen Gleitfensters mit der
Größe von 2k – 1 Vollbildern,
und
- 2. Die Differenz RP1 ist auch das n-fache
des zweitgrößten Maximums
in dem Gleitfenster k = 3 und n = 2 werden in Beispielen verwendet,
die geprüft
wurden. Die Wahl dieser Parameter hängt von empirischen Daten wie
von der Vollbildrate, der Frequenz von periodischen I-Vollbildern
und zusätzlichen
Faktoren ab. Es ist festzustellen, dass die Ratendifferenz nur zwischen
zwei I-Vollbildern/Objekten
oder zwischen zwei P-Vollbildern/Objekten
berechnet werden kann. Mit anderen Worten, alle Vollbilder in der
Folge Ri sollten alle entweder I- oder P-Vollbilder
(Objekte) sein. Es ist auch festzustellen, dass in einer MPEG-4-Folge
alle Objekte nicht notwendigerweise mit Intracodierung zur selben
Zeit "aufgefrischt" werden müssen.
-
gleichstromfolge-basiertes
Kriterium
-
Bei diesem Weg wird eine Folge von
Gleichstrombildern (Objekten) X – {dc(i, j)} gebildet, wobei dc(i,
j) der Gleichstromwert des (i, j)-ten Makroblocks des Bildes (Objekts)
ist. Das Herausziehen von Gleichstromwerten aus intracodierten Vollbildern oder
Objekten ist einfach, da es nur die Entropie-Decodierung erfordert,
wie vorstehend festgestellt ist, aber die Extraktion von Gleichstromwerten
aus vorhersagenden oder P-Vollbildern
(Objekten) erfordert mehr Berechnung und Speicher. Danach wird eine Differenzfolge
gebildet wie bei der vorhergehenden Folge unter Verwendung einer
von mehreren möglichen
Metriken. Die Metrik (d
c(X, Y) wird verwendet zwischen
zwei Vollbildern X und Y und ist wie nachfolgend definiert:
-
Es kann daher eine Folge dc(Xi, Xi+1)
für die Folge
gebildet werden und den vorstehend beschriebenen Gleitfenster-Weg
verwenden, um Szenenänderungen
zu erfassen.
-
Blenderfassung unter Verwendung
von Änderungen von
Bits, die zum Codieren von Gleichstromkomponenten von Resten verwendet
werden
-
Es wurde beobachtet, dass, wenn eine
allmähliche
Szenenänderung
auftritt, jeder Block des Bildes ein Gleichstrom-Korrekturglied
enthält,
da das Bild aus einem vollständig
schwarzen Vollbild eingeblendet oder zu einem vollständig schwarzen
Vollbild ausgeblendet wird. Unter Berücksichtigung hiervon wurde
gefunden, dass Bitzuweisungsprofile für Gleichstromkomponenten von
Restblöcken
eine Anzeige für
die Blenderfassung liefern. Gemäß einem Aspekt
der vorliegenden Erfindung weist ein Verfahren der Blenderfassung
die folgenden Schritte auf.
-
- 1. Es werden die Gleichstrombilder von aufeinander folgenden
I-Vollbildern verglichen, um vermuteten Szenenänderungen zu lokalisieren.
Dies hat sich als notwendig erwiesen für das vorstehend beschriebene
Verfahren zum Erfassen abrupter Szenenänderungen. Dieser Schritt hilft,
Berechnungen einzusparen, da eine Suche nach einer Szenenänderung
nachfolgend nur in den Signalsegmenten durchgeführt wird, in denen aufeinander
folgende I-Vollbilder sich stark unterscheiden, wodurch die Verarbeitung
der gesamten Signalfolge vermieden wird.
- 2. Für
jedes P-Vollbild in den Bereichen, in denen sich eine vermutete
Szenenänderung
befindet, werden die Anzahl von Blöcken mit negativen Gleichstromkomponenten
sowie die Anzahl von Blöcken
mit positiven Gleichstromkomponenten gezählt. Für den Fall von MPEG-2 sowie
von MPEG-4 wäre
dieser Schritt geradewegs von dem VLC-Parsing, da jede sich von null unterscheidende
Gleichstromkomponente einer sich von null unterscheidenden Anzahl
von Bits und einem Vorzeichenbit, das anzeigt, ob die Komponente
positiv oder negativ ist, zugewiesen wird. Gleichstromkomponenten
von null werden durch die Runlängen
angezeigt und können
so leicht übersprungen werden.
- 3. Es wird die Charakteristik der beiden wie vorstehenden erhaltenen
Anzahlen gegenüber
der Vollbildzahl bestimmt und es werden die Bereiche bestimmt, in
denen vermutete Szenenänderungen
entsprechend dem obigen Schritt 1 lokalisiert wurden.
- 4. Es wird ein Ausblenden erklärt, wenn die Anzahl von negativen Übergängen beständig größer als
oder gleich 60% der Gesamtanzahl er von null abweichenden Übergänge über eine
Zeitperiode (Anzahl von Vollbildern) entsprechend im Wesentlichen
einem normalen Szenenänderungsintervall (angenähert eine
Sekunde) ist. Umgekehrt wird ein Einblenden erklärt, wenn die Anzahl von positiven Übergängen die
vorgenannte Schwelle trifft.
Diese Blenderfassungstechnik macht
sich die von dem Codierer durchgeführte Bewegungssuche zunutze.
Sie misst die für
das Codieren der Gleichstromdifferenz zwischen einem besonderen
Makroblock und seiner engsten Anpassung in dem vorhergehenden Vollbild
verwendete Rate.
-
Als eine noch weitere Verfeinerung
der Szenenänderungserfassung
kann die Möglichkeit
einer bei einem B-Vollbild zwischen zwei P-Vollbildern auftretenden
Szenenänderung
ebenfalls erfasst werden, nachdem bestimmt wurde, dass die beiden
besonderen P-Vollbilder zwischen zwei I-Vollbildern liegen, für die eine
Szenenänderung
angezeigt ist. Indem so das Szenenänderungsintervall definiert
ist, wird bekannt, dass die Szenenänderung nicht später als beim
letzten P-Vollbild
in diesem Intervall aufgetreten ist. Jedoch kann die Szenenänderung
bei dem ersten P-Vollbild oder bei einem B-Vollbild zwischen den beiden
P-Vollbildern aufgetreten
sein. Um die weitere Bestimmung vorzunehmen, wird Nutzen aus dem Umstand
gezogen, dass die als Teil der B-Vollbildinformationen codierten
Bits ein Kennzeichen enthalten, das identifiziert, welches der vorhergehenden oder
nachfolgenden P-Vollbilder als ein Bezugsvollbild für die Bildung
des fraglichen B-Vollbildes gedient hat. Das B- Vollbild wird gebildet unter Verwendung
entweder des Vorwärts-
oder Rückwärts- oder Zweirichtungs-Vergleichs mit Informationen
angrenzender P-Vollbilder.
Das Kennzeichen identifiziert den verwendeten besonderen Vergleich.
-
Durch Untersuchung des Kennzeichens kann
das Folgende bestimmt werden:
- 1. Wenn das B-Vollbild
das vorhergehende P-Vollbild als Bezug genommen hat, dann bestand
die minimale Differenz in dieser Richtung und die Szenenänderung
sollte als bei dem späteren P-Vollbild
auftretend identifiziert werden;
- 2. Wenn das B-Vollbild das folgende (spätere) P-Vollbild als Bezug genommen hat, dann
bestand die minimale Differenz in dieser Richtung und die Szenenänderung
sollte als bei dem B-Vollbild auftretend identifiziert werden;
- 3. Wenn das B-Vollbild auf einem Zweirichtungsvergleich beruht,
ist keine Szenenänderung
zwischen den P-Vollbildern aufgetreten, und daher sollte die Szenenänderung
als bei dem ersten (früheren)
P-Vollbild auftretend identifiziert werden.
-
Während
die Erfindung mit Bezug auf ein bevorzugten Ausführungsbeispiel beschrieben
wurde, können
verschiedene Modifikationen durchgeführt werden, ohne dass der Bereich
der Erfindung verlassen wird, die in den folgenden Ansprüchen definiert ist.