DE69233411T2

DE69233411T2 - Verfahren und Einrichtung zur Kompression von sich bewegenden Videobildern mit adaptiver Bitzuordnung und Quantisierung

Info

Publication number: DE69233411T2
Application number: DE69233411T
Authority: DE
Inventors: Cesar Augusto Katonah Gonzales; Eric San Francisco Viscito
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-11-08
Filing date: 1992-10-23
Publication date: 2005-09-22
Anticipated expiration: 2012-10-24
Also published as: KR960007264B1; EP0959627A3; EP0959628A2; EP0540961A2; EP0959627B1; CA2077058C; DE69230704D1; TW221085B; US5231484A; JP2818340B2; DE69233411D1; EP0540961B1; EP0959627A2; JPH05252507A; CN1035593C; CA2077058A1; CN1072554A; KR930011724A; EP0959628A3; EP0540961A3

Description

Die vorliegende Erfindung betrifft das Gebiet der Datenkompression und insbesondere ein System und Techniken zum Komprimieren digitaler Signale von sich bewegenden Videobildern in Anlehnung an Algorithmen, die der in der Beratung befindlichen MPEG-Norm, die von der Moving Picture Expert Group (MPEG) der International Standards Organization (ISO) vorgeschlagen wurde, ähnlich sind.
Technologische Fortschritte bei digitalen Übertragungsnetzen, digitalen Speichermedien, bei hochintegrierten Schaltkreisen und bei der digitalen Verarbeitung von Video- und Audiosignalen laufen darauf hinaus, die Übertragung und Speicherung von digitalen Videobildern in einer großen Vielzahl von Anwendungen wirtschaftlich durchzuführen. Da die Speicherung und Übertragung von digitalen Videosignalen bei vielen Anwendungen eine zentrale Stellung einnehmen und da eine unkomprimierte Darstellung eines Videosignals eine große Menge Speicherplatz erfordert, ist die Verwendung von digitalen Videokompressionstechniken für diese hochentwickelte Technik entscheidend. In diesem Zusammenhang sind im letzten Jahrzehnt mehrere internationale Standards für die Kompression digitaler Videosignale entstanden, wobei weitere gegenwärtig entwickelt werden. Diese Standards stützen sich auf Algorithmen für die Übertragung und Speicherung von komprimierten digitalen Videobildern in einer Vielzahl von Anwendungen, darunter: Bildfernsprechtechnik und Konferenzschaltungen; hochwertige digitale Fernsehübertragungen in Netzen aus Koaxialkabeln und Lichtwellenleiterkabeln sowie das terrestrische Rundsenden und Rundsenden über Direktsendesatelliten; und bei interaktiven Multimedia-Produkten auf CD-ROM, auf digitalem Audioband und in Winchester-Plattenlaufwerken.
Einige dieser Standards enthalten Algorithmen, die auf einem gemeinsamen Kern der Kompressionstechniken basieren, z.B. die Empfehlung 11.120 des CCITT (Consultative Committee on International Telegraphy and Telephony), die Empfehlung 11.261 des CCITT und die ISO/IEC MPEG-Norm. Der MPEG-Algorithmus wurde von der Moving Picture Expert Group (MPEG), eines Teils des gemeinsamen technischen Ausschusses der International Standards Organization (ISO) und der International Electrotechnical Commission (IEC), entwickelt. Der MPEG-Ausschuss hat einen Standard für die gemultiplexte, komprimierte Darstellung von Videosignalen und zugehörigen Audiosignalen entwickelt. Der Standard spezifiziert die Syntax des komprimierten Bitstroms und das Verfahren der Decodierung, lässt jedoch beträchtlichen Spielraum für Neuheiten und Abarten für den im Codierer verwendeten Algorithmus.
Da die vorliegende Erfindung in Verbindung mit einem derartigen Codierer angewendet werden kann, wird zur Vereinfachung des Verständnisses der Erfindung ein Überblick über einige sachbezogene Aspekte des MPEG-Algorithmus zur Videokompression gegeben. Es sollte jedoch angemerkt werden, dass die Erfindung außerdem auf weitere Algorithmen der Videocodierung angewendet werden kann, denen einige Merkmale des MPEG-Algorithmus gemein sind.
Der MPEG-Algorithmus zur Videokompression
Zunächst sollte klar sein, dass die Komprimierung irgendeines Datenobjekts, wie etwa eine Textseite, ein Bild, ein Sprachsegment oder eine Videobildfolge, als eine Folge von Schritten vorstellbar ist, die enthält: 1) eine Zerlegung dieses Objekts in eine Sammlung von Zeichen (Token); 2) die Darstellung dieser Zeichen durch binäre Zeichenketten, die in gewisser Hinsicht eine minimale Länge aufweisen; und 3) die Verknüpfung der Zeichenketten in einer wohldefinierten Reihenfolge. Die Schritte 2 und 3 sind verlustfrei, d.h., die ursprünglichen Daten können bei der Umkehrung eins-zu-eins wiederhergestellt werden, wobei der Schritt 2 als Entropie-Codierung bekannt ist. (Siehe z.B. T. BERGER, "Rate Distortion Theory", Englewood Cliffs, NJ: Prentice-Hall, 1977; R. McELIECE, "The Theory of Information and Coding", Reading, MA: Addison-Wesley, 1971; D. A. HUFFMAN, "A Method for the Construction of Minimum Redundancy Codes", Proc. IRE, S. 109 bis 1101, September 1952; G. G. LANGDON, "An Introduction to Arithmetic Coding", IBM J. Res. Develop., Bd. 28, S. 135 bis 149, März 1984.) Der Schritt 1 kann im Allgemeinen verlustfrei oder verlustbehaftet sein. Die meisten Algorithmen der Videokompression sind wegen einengender Bitraten-Anforderungen verlustbehaftet. Ein erfolgreicher verlustbehafteter Kompressionsalgorithmus entfernt redundante und irrelevante Daten, wodurch verhältnismäßig große Fehler dort zugelassen werden, wo sie wahrscheinlich visuell nicht bedeutend sind, und Aspekte einer Folge, auf die der menschliche Betrachter sehr empfindlich ist, sorgfältig dargestellt werden. Diese Techniken, die in dem MPEG-Algorithmus für den Schritt 1 verwendet werden, können als prädiktive/interpolative bewegungskompensierte DCT/DPCM-Hybridcodierung beschrieben werden. Die Huffman-Codierung, die auch als Codierung mit variabler Länge bekannt ist (siehe das oben angeführte Dokument von Huffman aus dem Jahr 1952), wird im Schritt 2 verwendet. Obwohl die MPEG-Norm tatsächlich eine Spezifikation des Decoders und der Syntax des komprimierten Bitstroms ist, wie erwähnt wurde, erfolgt die folgende Beschreibung der MPEG-Spezifikation für die Einfachheit der Darstellung hauptsächlich vom Standpunkt eines Codierers.
Die MPEG-Videonorm spezifiziert eine codierte Darstellung von Videobildern für digitale Speichermedien, wie in ISO-IEC JTC1/SC2/WG11 MPEG CD-11172, MPEG Committee Draft, 1991 dargestellt ist. Es ist vorgesehen, dass der Algorithmus bei Videobildern mit nichtverschachtelten Komponenten angewendet wird. Jedes Bild besitzt drei Komponenten: Luminanz (Y), rote Farbdifferenz (C_r) und blaue Farbdifferenz (C_b). Die C_r- und C_b-Komponenten besitzen jeweils halb so viele Abtastwerte wie die Y-Komponente, sowohl in horizontaler als auch in vertikaler Richtung.
Schichtstruktur einer MPEG-Bildfolge
Ein MPEG-Datenstrom enthält einen Videostrom und einen Audiostrom, die zusammen mit Systeminformationen und möglicherweise weiteren Bitströmen in einen System-Datenstrom gepackt sind, der als geschichtet betrachtet werden kann. In der Videoschicht des MPEG-Datenstroms sind die komprimierten Daten ebenfalls geschichtet. Eine Beschreibung der Organisation der Schichten wird das Verständnis der Erfindung unterstützen. Diese Schichten der MPEG-Video-Schichtstruktur sind in den 1 bis 4 gezeigt. Die Figuren zeigen im Einzelnen:
1: ein beispielhaftes Paar von Gruppen von Bildern (GOPs);
2: eine beispielhafte Makroblock-(MB)Unterteilung eines Bilds;
3: eine beispielhafte Scheibenunterteilung eines Bilds; und
4: eine Blockunterteilung eines Makroblocks.
Die Schichten betreffen die Funktionsweise des Kompressionsalgorithmus sowie die Zusammensetzung eines komprimierten Bitstroms. Die höchste Schicht ist die Video-Schicht, die Steuerinformationen und Parameter für die gesamte Bildfolge enthält. In der nächsten Schicht ist eine Bildfolge in Gruppen von aufeinander folgenden Bildern unterteilt, die jeweils als eine Gruppe von Bildern (Group of Pictures – GOP) bezeichnet werden. Eine allgemeine Darstellung dieser Schicht ist in 1 gezeigt. Eine Decodierung kann im Wesentlichen unabhängig von den vorhergehenden GOPs am Anfang einer GOP beginnen. Es gibt weder eine Beschränkung der Anzahl von Bildern, die in einer GOP vorhanden sein können, noch müssen in allen GOPs gleiche Anzahlen von Bildern vorhanden sein.
Die dritte Schicht oder Bildschicht ist ein einzelnes Bild. Eine allgemeine Darstellung dieser Schicht ist in 2 gezeigt. Die Luminanzkomponente jedes Bilds ist in 16 × 16 Bereiche unterteilt, und die Farbdifferenzkomponenten sind in 8 × 8 Bereiche unterteilt, die räumlich übereinstimmend mit den 16 × 16 Luminanzbereichen angeordnet sind. Dieser übereinstimmend angeordnete Luminanzbereich und die Farbdifferenzbereiche bilden gemeinsam die fünfte Schicht, die als ein Makroblock (MB) bezeichnet wird. Makroblöcke in einem Bild sind nacheinander in lexikografischer Reihenfolge, beginnend beim Makroblock 1, nummeriert.
Zwischen der Bildschicht und der MB-Schicht befindet sich die vierte Schicht oder Scheibenschicht. Jede Scheibe enthält eine bestimmte Anzahl von aufeinander folgenden MBs. Scheiben müssen innerhalb eines Bilds oder von Bild zu Bild keine gleichmäßige Größe besitzen. Sie können eine Größe von lediglich wenigen Makroblöcken aufweisen oder sich über mehrere Zeilen von MBs erstrecken, wie in 3 gezeigt ist.
Schließlich enthält jeder MB vier 8 × 8 Luminanzblöcke und zwei 8 × 8 Chrominanzblöcke, wie in 4 ersichtlich ist. Wenn die Breite jedes Luminanzbildes (in Bildelementen oder Pixeln) als C und die Höhe als R bezeichnet werden (C steht für Spalten und R für Zeilen), besitzt ein Bild eine Breite von C_MB = C/16 MBs und eine Höhe von R_MB = R/16 MBs. Es besitzt gleichfalls eine Höhe von C_B = C/8 Blöcken und eine Höhe von R_B = R/8 Blöcken.
Die Bildfolge-, die GOP-, die Bild- und die Scheibenschichten besitzen jeweils ihnen zugeordnete Kopfabschnitte. Die Kopfabschnitte beginnen mit an Bytes ausgerichteten Start-Codes und enthalten Informationen, die die Daten betreffen, die in den entsprechenden Schichten enthalten sind.
In einer GOP können drei Typen von Bildern erscheinen. Der kennzeichnende Unterschied zwischen den Bildtypen besteht in dem verwendeten Kompressionsverfahren. Der erste Typ sind Intramode-Bilder oder I-Bilder, die unabhängig von anderen Bildern komprimiert werden. Obwohl es keine feststehende obere Begrenzung des Abstands zwischen I-Bildern gibt, wird erwartet, dass sie häufig über eine vollständige Bildfolge eingestreut sind, um einen willkürlichen Zugriff sowie andere spezielle Betriebsarten zu ermöglichen. Jede GOP muss mit einem I-Bild beginnen, und in einer GOP können zusätzliche I-Bilder erscheinen. Die anderen beiden Typen von Bildern sind prädiktiv bewegungskompensierte Bilder (P-Bilder) und bidirektional bewegungskompensierte Bilder (B-Bilder), die während der folgenden Erläuterung der Bewegungskompensation beschrieben werden.
Für Anzahl und Reihenfolge von I-, P- und B-Bildern in einer GOP gelten bestimmte Regeln. Bezeichnet man I- und P-Bilder gemeinsam als Fixpunktbilder, muss eine GOP wenigstens ein Fixpunktbild enthalten bzw. kann mehrere Fixpunktbilder enthalten. Außerdem können sich zwischen jedem benachbarten Paar von Fixpunktbildern null oder mehr B-Bilder befinden. Eine Darstellung einer typischen GOP ist in 5 gezeigt.
Makroblock-Codierung in I-Bildern
Eine sehr nützliche Bildkompressionstechnik ist die Transformationscodierung. (Siehe N. S. JAYANT und P. NOLL, "Digital Coding of Waveforms, Principles and Applications to Speech and Video", Englewood Cliffs, NJ: Prentice-Hall, 1984 und A. G. TESCHER, "Transform Image Coding", in W. K. Pratt, Herausgeber, Image Transmission Techniques, S. 113 bis 155, New York, NY: Academic Press, 1979.) Bei der MPEG-Norm und verschiedenen anderen Kompressionsstandards ist die diskrete Kosinustransformation (DCT) die gewählte Transformation. (Siehe K. R. RAO und P. YIP, "Discrete Cosine Transform, Algorithms, Advantages, Applications", San Diego, CA: Academic Press, 1900 und N. AHMED, T. NATARAJAN und K. R. RAO, "Discrete Cosine Transform", IEEE Transactions on Computers, S. 90 bis 93, Januar 1974.) Die Kompression eines I-Bilds wird durch die folgenden Schritte erreicht: 1) Bilden der DCT von Pixelblöcken; 2) Quantisieren der DCT-Koeffizienten; und 3) Huffman-Codieren des Ergebnisses. Bei MPEG wandelt die DCT-Operation einen Block von n × n Pixeln in eine Menge von n × n Transformationskoeffizienten um. Der MPEG-Algorithmus verwendet wie mehrere der internationalen Kompressionsstandards eine DCT-Blockgröße von 8 × 8. Die eigentliche DCT-Transformation ist eine verlustfreie Operation, die innerhalb der Genauigkeit der Berechnungsvorrichtung und des Algorithmus, mit dem sie ausgeführt wird, umgekehrt werden kann.
Der zweite Schritt, die Quantisierung der DCT-Koeffizienten, ist im MPEG-Algorithmus die Hauptquelle von Verlusten. Werden die Elemente der zweidimensionalen Matrix der DCT-Koeffizienten als csubmn bezeichnet, wobei m und n im Bereich von 0 bis 7 liegen, wird die Quantisierung außer Kürzungs- oder Rundungskorrekturen erreicht, indem jeder DCT-Koeffizient c_mn durch w_mn × QP dividiert wird, wobei w_mn ein Gewichtungsfaktor und QP der Quantisierungsparameter ist. Es wird angemerkt, dass QP auf jeden DCT-Koeffizienten angewendet wird. Der Gewichtungsfaktor w_mn, ermöglicht, dass auf die visuell weniger wichtigen Koeffizienten eine gröbere Quantisierung angewendet wird. Es können zwei Mengen dieser Gewichtungen vorhanden sein, eine für I-Bilder und die andere für P- und B-Bilder. Es können kundenspezifische Gewichtungen in der Videobildfolge-Schicht übertragen oder Vorzugswerte verwendet werden. Der Quantisierungsparameter QP ist bei MPEG das Hauptmittel für einen Kompromiss zwischen Qualität und Bitrate. Es ist wichtig anzumerken, dass QP in einem Bild von MB zu MB variieren kann. Durch dieses Merkmal, das als adaptive Quantisierung (AQ) bezeichnet wird, können verschiedene Bereiche jedes Bilds mit unterschiedlichen Schrittgrößen quantisiert werden, und es kann bei einem Versuch verwendet werden, die visuelle Qualität in jedem Bild und von Bild zu Bild auszugleichen (und zu optimieren). Obwohl die MPEG-Norm eine adaptive Quantisierung zulässt, sind Algorithmen, die Regeln für die Verwendung der AQ enthalten, um die visuelle Qualität zu verbessern, nicht Gegenstand der Normgebung. Ein Klasse von Regeln für eine AQ ist eine Aufgabe dieser Erfindung.
Nach der Quantisierung werden die Informationen der DCT-Koeffizienten organisiert und unter Verwendung einer Menge von Huffman-Codes codiert. Da die Einzelheiten dieses Schritts für das Verständnis der Erfindung nicht wesentlich und in der Technik allgemein bekannt sind, erfolgt an dieser Stelle keine weitere Beschreibung. Hinsichtlich weiterer Informationen diesbezüglich kann auf das oben angeführte Dokument HUFFMAN 1952 Bezug genommen werden.
Bewegungskompensation
Die meisten Videobildfolgen weisen einen hohen Grad der Korrelation zwischen aufeinander folgenden Bildern auf. Ein nützliches Verfahren zum Entfernen dieser Redundanz vor dem Codieren eines Bilds ist die "Bewegungskompensation". Die Bewegungskompensation erfordert bestimmte Mittel zum Modellieren und Abschätzen der Bewegung in einer Szene. Bei MPEG wird jedes Bild in Makroblöcke unterteilt, und jeder MB wird mit 16 × 16 Bereichen an der gleichen allgemeinen räumlichen Stelle in einem oder mehreren vorhergesagten Bildern verglichen. Der Bereich in dem bzw. den vorhergesagten Bildern, der in bestimmter Hinsicht mit dem MB am besten übereinstimmt, wird als Vorhersage verwendet. Die Differenz zwischen dem räumlichen Ort des MB und dem seiner Vorhersage wird als Bewegungsvektor bezeichnet. Somit sind die Ausgaben der Bewegungsabschätzung und -kompensation für einen MB Bewegungsvektoren und ein bewegungskompensierter Differenz-Makroblock. Diese erfordern in komprimierter Form im Allgemeinen weniger Bits als der ursprüngliche MB selbst. Bilder, die in der Vergangenheit unter Verwendung eines einzelnen Vorhersagebilds prädiktiv bewegungskompensiert wurden, sind als P-Bilder bekannt. Diese Art der Vorhersage wird bei MPEG außerdem als zeitlich vorausschauende Vorhersage bezeichnet.
Wie oben erläutert wurde, kann das Zeitintervall zwischen einem P-Bild und seinem Vorsagebild größer als ein Bildintervall sein. Für Bilder, die zwischen P-Bilder oder zwischen ein I-Bild und ein P-Bild fallen, kann zusätzlich zur zeitlich vorausschauende Vorhersage eine zeitlich zurückblickende Vorhersage verwendet werden (siehe 5). Solche Bilder sind als bidirektional bewegungskompensierte Bilder oder B-Bilder bekannt. Bei B-Bildern ist zusätzlich zur Vorwärts- und Rückwärts-Vorhersage eine Interpolations-Bewegungsvorhersage zulässig, bei der die Vorhersage ein Mittelwert aus einem Block von dem vorherigen Vorhersagebild und einem Block von dem zukünftigen Vorhersagebild ist. In diesem Fall werden zwei Bewegungsvektoren benötigt.
Die Verwendung der bidirektionalen Bewegungskompensation führt zu einer Bewegungskompensationsstruktur in zwei Ebenen, wie in 5 dargestellt ist. Jeder Pfeil gibt die Vorhersage des Bilds, das die Pfeilspitze berührt, unter Verwendung des Bilds, das den Rasterpunkt berührt, an. Jedes P-Bild ist bewegungskompensiert, wobei das vorherige Fixpunktbild verwendet wird (von Fall zu Fall ein I-Bild oder P-Bild). Jedes B-Bild ist durch die Fixpunktbilder, die sich unmittelbar vor und nach ihm befinden, bewegungskompensiert. Bei MPEG ist weder für den Abstand zwischen Fixpunktbildern noch für den Abstand zwischen I-Bildern eine Begrenzung festgelegt. Diese Parameter müssen tatsächlich nicht über eine vollständige Bildfolge konstant sein. Bezeichnet man den Abstand zwischen I-Bildern mit N und den Abstand zwischen P-Bildern mit M, besitzt die in 5 gezeigte Bildfolge den Wert (N, M) = (9, 3). Bei der Codierung der drei Bildtypen werden unterschiedliche Mengen komprimierter Daten benötigt, um ein ähnliches Qualitätsniveau des rekonstruierten Bilds zu erreichen. Die exakten Verhältnisse hängen von vielen Dingen ab, darunter die Menge der räumlichen Einzelheiten in der Bildfolge und der Umfang und Kompensationsfähigkeit der Bewegung in der Bildfolge.
Es sollte deswegen klar sein, dass eine MPEG-I-Bildfolge eine Reihe von I-Bildern enthält, die keine, ein oder mehrere P-Bilder enthält, die sandwichartig zwischen ihnen eingeschoben sind. Die verschiedenen I- und P-Bilder können kein B-Bild oder ein oder mehrere B-Bilder aufweisen, die sandwichartig zwischen ihnen eingeschoben sind, wobei sie im letzteren Fall als Fixpunktbilder dienen.
Makroblock-Codierung in P-Bildern und B-Bildern
Es wird anerkannt, dass es drei Arten der Bewegungskompensation gibt, die in MBs auf B-Bilder angewendet werden können: die Vorwärtskompensation, die Rückwärtskompensation und die Interpolationskompensation. Der Codierer muss eine dieser Betriebsarten auswählen. Bei einigen MBs erzielt keine der Bewegungskompensation-Betriebsarten eine genaue Vorhersage. In diesen Fällen kann der MB in der gleichen Weise wie ein Makroblock in einem I-Bild verarbeitet werden, d.h. als ein Intramode-MB. Dies ist eine weitere mögliche MB-Betriebsart. Es gibt somit eine Vielzahl von MB-Betriebsarten für P- und B-Bilder.
Neben der Notwendigkeit, Zusatzinformationen zu codieren, die die MB-Betriebsart, die zum Codieren aller MBs verwendet wurde, und dieser Betriebsart zugeordnete Bewegungsvektoren betreffen, ist die Codierung von bewegungskompensierten Makroblöcken der Codierung von Intramode-MBs sehr ähnlich. Obwohl kleine Unterschiede bei der Quantisierung vorhanden sind, gilt das Modell der Division durch w_mn × QP weiterhin. Ferner kann die adaptive Quantisierung (AQ) verwendet werden.
Ratensteuerung
Es ist beabsichtigt, dass der MPEG-Algorithmus hauptsächlich bei Speichermedien mit fester Bitrate verwendet werden sollte. Die Anzahl von Bits in jedem Bild wird jedoch infolge der unterschiedlichen Typen der Bildverarbeitung sowie der inhärenten zeitlichen Änderung der räumlich-zeitlichen Komplexität der zu codierenden Szene nicht immer konstant sein. Der MPEG-Algorithmus verwendet eine puffergestützte Strategie der Ratensteuerung, um sinnvolle Beschränkungen an den zulässigen Schwankung bei der Bitrate einzurichten. Eine Videopuffer-Prüfeinrichtung (VBV) ist in Form eines virtuellen Puffers vorgesehen, dessen einzige Aufgabe darin besteht, Begrenzungen der Anzahl von Bits, die zum Codieren jedes Bilds verwendet werden, so einzurichten, dass die Gesamtbitrate gleich der Soll-Zuweisung ist und die kurzfristige Abweichung von Sollwert begrenzt ist. Dieses Ratensteuerungsschema kann folgendermaßen erläutert werden. Es wird ein System betrachtet, das einen Puffer enthält, dem ein hypothetischer Decodierer folgt. Der Puffer wird mit konstanter Bitrate mit komprimierten Daten in einem Bitstrom vom Speichermedium gefüllt. Sowohl die Puffergröße als auch die Bitrate sind Parameter, die in dem komprimierten Bitstrom übertragen werden. Nach einen anfänglichen Verzögerung, die ebenfalls aus den Informationen in dem Bitstrom abgeleitet wird, entfernt der hypothetische Decodierer unverzüglich alle Daten, die dem ersten Bild zugehörig sind, aus dem Puffer. Daraufhin entfernt der Decodierer in Intervallen, die gleich der Bildrate der Bildfolge sind, alle Daten, die dem ältesten in dem Puffer befindlichen Bild zugehörig sind. Damit der Bitstrom die Forderungen der MPEG-Ratensteuerung erfüllt, ist es erforderlich, dass alle Daten für jedes Bild in dem Moment, wenn sie von dem Decodierer benötigt werden, in dem Puffer zur Verfügung stehen. Diese Forderung wird durch obere und untere Begrenzungen (U^VBV und L^VBV) der Anzahl von Bits, die in jedem Bild zulässig sind, wiedergegeben. Die obere und die untere Begrenzung für ein vorgegebenes Bild hängen von der Anzahl von Bits ab, die in allen diesem Bild vorhergehenden Bildern verwendet werden. Es ist die Aufgabe des Codierers, Bitströme zu erzeugen, die diese Forderung erfüllen. Es ist nicht zu erwarten, dass reale Decodierer in der oben beschriebenen Weise konfiguriert sind oder derart betrieben werden können.
Der hypothetische Decodierer und sein zugehöriger Puffer sind einfach Mittel, um für die Größe von komprimierten Bildern berechenbare Begrenzungen einzurichten.
Als eine wichtige Funktion soll ein MPEG-Codierer sicherstellen, dass der Videobitstrom, den er erzeugt, diese Begrenzungen einhält. Es gibt keine weiteren Einschränkungen an der Anzahl von Bits, die zum Codieren der Bilder in einer Bildfolge verwendet werden. Diese Freiheit sollte verwendet werden, um die Bits so zuzuordnen, dass die visuelle Qualität der sich ergebenden rekonstruierten Bilder ausgeglichen (und optimiert) wird. Eine Lösung für dieses Bitzuordnungsproblem ist eine weitere Aufgabe dieser Erfindung.
Das Problem
Es sollte deswegen aus der vorhergehenden Beschreibung des MPEG-Algorithmus klar sein, dass der Zweck der MPEG-Norm darin besteht, die Syntax des komprimierten Bitstroms und die Verfahren, die für dessen Decodierung verwendet werden, zu spezifizieren. Dem Codierer-Algorithmus und den Hardware-Entwicklern wird eine beträchtliche Freiheit eingeräumt, um ihre Systeme auf die speziellen Bedürfnisse ihrer Anwendung anzupassen. Der Grad der Komplexität in dem Codierer kann durch die visuelle Qualität bei einer bestimmten Bitrate ausgeglichen werden, um speziellen Anwendungen zu genügen. Eine große Vielfalt von komprimierten Bitraten und Bildgrößen sind außerdem möglich. Das umfasst Anwendungen, die von Bildtelefonen mit geringer Bitrate bis zu Vollbildschirm-Multimedia-Präsentationen mit einer Qualität, die mit Aufzeichnungen auf VHS-Videokassette vergleichbar ist, reichen. Demzufolge besteht das Problem, auf das die vorliegende Erfindung gerichtet ist, darin, eine Kompression von digitalen Videobildfolgen nach der MPEG-Norm zu erreichen, Techniken des oben erläuterten Typs, die adaptive Quantisierung und Bitratensteuerung verwenden, so anzuwenden, dass die visuelle Qualität der komprimierten Bildfolge optimiert wird, während sichergestellt ist, dass der Bitstrom die MPEG-Forderungen der festen Bitrate erfüllt.
Stand der Technik
Aus der veröffentlichten Literatur sind mehrere Modelle bekannt, die sich bestimmten Aspekten des Problems der adaptiven Quantisierung und der Bitratensteuerung widmen. W. H. CHEN und W. K. PRATT erläutern z.B. in ihrem Artikel "Scene Adaptive Coder", IEEE Trans. Communications, Bd. 32, S. 225 bis 232, März 1984, die Idee eines ratengesteuerten Quantisierungsfaktors für Transformationskoeffizienten. Die dabei verwendete Strategie der Ratensteuerung wird gewöhnlich bei Bild- und Videokompressionsalgorithmen angewendet, um die variable Bitrate, die beim Codieren erzeugt wird, an einen Kanal mit konstanter Bitrate anzupassen. Weitere Einzelheiten zu derartigen Techniken sind in dem oben angeführten Buchkapitel TESCHER 1979 angegeben.
Obwohl sich der Artikel von CHEN und PRATT von 1984 mit der Bildcodierung beschäftigt, könnten die darin dargestellten Ideen ebenso auf die Videocodierung angewendet werden. Es gibt jedoch keinen Mechanismus zum Anpassen des Quantisierungsfaktors auf das Wesen der Bilder selbst.
C-T. CHEN und D. J. LeGALL beschreiben in ihrem Artikel "A K-th Order Adaptive Transform Coding Algorithm for Image Data Compression", SPIE Bd. 1153, Applications of Digital Image Processing XII, Bd. 1153, S. 7 bis 18, 1989, ein adaptives Verfahren zum Auswählen des Quantisierungsfaktors anhand der Größe des DCT-Koeffizienten, der größenmäßig an k-ter Stelle steht, in jedem Block.
H. LOHSCHELLER schlägt in "A Subjectively Adapted Image Communication System", IEEE Trans. Communications, Bd. COM-32, S. 1316 bis 1322, Dezember 1984, eine Technik zum Klassifizieren von Blöcken vor. Diese Technik bezieht sich auf eine adaptive Zonenabtastung und eine adaptive Vektorquantisierung.
K. N. NGAN, K. S. LEONG und H. SINGH schlagen in "A HVS-weighted Cosine Transform Coding Scheme with Adaptive Quantization", SPIE Bd. 1001, Visual Communications and Image Processing, Bd. 1001, S. 702 bis 708, 1988, ein Bildcodierungsverfahren mit adaptiver Quantisierungstransformation vor, bei dem ein Puffer zur Ratensteuerung und der Unterschied des DC-Terms jedes Blocks in Bezug auf seinen nächsten Nachbarblock in der Rasterabtastreihenfolge in Kombination verwendet werden, um den Quantisierungsfaktor anzupassen.
H. Hoelzlwimmer erläutert in "Rate Control in Variable Transmission Rate Image Coders", SPIE Bd. 1153 Applications of Digital Image Processing XH, Bd. 1153, S. 77 bis 89, 1989, eine kombinierte Bitraten- und Qualitäts-Steuereinheit. Es werden zwei Parameter verwendet, um den Rekonstruktionsfehler und die Bitrate, die Schrittgröße der Quantisierungseinrichtung und die räumliche Auflösung zu steuern. Eine Messung des räumlich gewichteten mittleren quadratischen Fehlers wird verwendet, um die Parameter zu steuern.
Die gleichzeitig anhängige Anmeldung US Nr. 705 234, die am 24. Mai 1991 durch die vorliegenden Erfinder eingereicht wurde, widmet sich dem Problem der adaptiven Quantisierung. Die darin offenbarten Techniken können als eines der Teilsysteme in der vorliegenden Erfindung, d.h. als der Bildcodierer mit durch adaptive Quantisierung gesteuerter Rate (AQ/RC), verwendet werden.
Die europäische Patentschrift EP 0 449 555 offenbart eine Bildcodiervorrichtung, die eine Bereichserfassungsschaltung, um einen speziellen Bereich aus eingegebenen Bildsignalen zu erfassen und das den Bereich spezifizierende Signal auszugeben, um den speziellen Bereich von anderen Bereichen zu unterscheiden, ein Tiefpassfilter zum selektiven Filtern und Ausgeben von Bildsignalen der Bereiche, die sich von dem speziellen Bereich in den eingegebenen Bildsignalen unterscheiden, und eine Codierungsschaltung zum Codieren des von dem Tiefpassfilter ausgegebenen Bildsignals umfasst.
Die europäische Patentschrift EP 0 444 912 A2 offenbart eine Datenkompressionsvorrichtung, bei der eingegebene Daten einem vorgegebenen Filterungsprozess unterzogen werden. Eine vorgegebene Berechnung wird an Daten, die sich aus dem Filterungsprozess ergeben, ausgeführt. Die vorgegebene Berechnung enthält wenigstens eine Addition. Das Ergebnis der vorgegebenen Berechnung wird in eine entsprechende vorhergesagte Codemenge umgesetzt. Eine Soll-Codemenge wird gesetzt. Eine Differenz zwischen der vorhergesagten Codemenge und der Soll-Codemenge wird abgeleitet, und eine Quantisierungsschrittgröße wird entsprechend der Differenz erzeugt. Die eingegebenen Daten, die sich aus der orthogonalen Transformation ergeben, werden mit der erzeugten Quantisierungsschrittgröße quantisiert.
Die europäische Patentanmeldung EP 0 424 060 offenbart ein Verfahren und eine Vorrichtung zum Codieren von Videodaten, um die Menge der Daten, die übertragen werden müssen, zu verringern, und die das Ausführen einer diskreten Kosinustransformation eines Rahmens von Daten, das erneute Quantisieren der transformierten Daten mit einem variablen Quantisierungsschritt und das Aufzeichnen der neu quantisierten Daten mit variabler Codierungslänge enthalten. Die Größe des Quantisierungsschrittes wird gemäß den Charakteristiken der Daten gesteuert.
Es ist eine Aufgabe der vorliegenden Erfindung, ein System und Techniken für eine adaptive Quantisierung von Transformationskoeffizienten in verschiedenen Bereichen eines Bilds in einer Videobildfolge bereitzustellen, um diesem Bild eine feste Anzahl von Bits optimal zuzuordnen, sowie Techniken zur Rückführung des Bitratenfehlers bereitzustellen, um sicherzustellen, dass die tatsächliche Anzahl von verwendeten Bits nahe bei der Anzahl von Bits liegt, die dem Bild zugeordnet sind. Dieses System kann im Prinzip in einem Codierer mit variabler Bitrate sowie kompatibel in einem Codierer mit fester Bitrate verwendet werden.
Zusammenfassung der Erfindung
Die vorliegende Erfindung enthält ein System und ein Verfahren für die Kompressionscodierung einer Folge von sich bewegenden Videobildern, wobei die Bilder dieser Folge jeweils durch digitale Datensignale dargestellt werden, die die räumlichen Bereiche, aus denen die Bilder aufgebaut sind, angeben, wobei das System umfasst:
ein Mittel zum Kennzeichnen jedes Bilds, das kompressionscodiert werden soll, als einen von drei Typen I, P oder B;
ein Mittel zum Empfangen eines Bitzuordnungssignals für jedes Bild, das die Anzahl der Bits angibt, die zugewiesen werden, um an dem Bild eine Kompressionscodierung auszuführen; und
Mittel für die Kompressionscodierung jedes Bilds in der Folge, wobei die Mittel für die Kompressionscodierung umfassen:
ein Mittel zum Klassifizieren jedes räumlichen Bereichs eines zu codierenden Bilds auf der Grundlage der Pixeldaten oder Pixeldifferenzdaten des räumlichen Bereichs;
ein Mittel zum Festlegen einer Quantisierungsschrittgröße, die verwendet werden soll, um jeden räumlichen Bereich des Bilds auf der Grundlage der Klassifizierung des räumlichen Bereichs und der Klassifizierung anderer räumlicher Bereiche in dem Bild sowie des Bitzuordnungssignals für das Bild zu codieren;
ein Mittel zum Unterteilen des Bilds in Gruppen räumlicher Bereiche und Zuordnen von Bits aus der Anzahl von Bits, die in diesen Gruppen zugewiesen wurden, um an dem Bild eine Kompressionscodierung auszuführen;
ein Mittel, um an den Gruppen räumlicher Bereiche unter Verwendung der festgelegten Quantisierungsschrittgrößen nacheinander eine Kompressionscodierung auszuführen; und
ein Mittel, um nach der Kompressionscodierung jeder Gruppe räumlicher Bereiche die Quantisierungsschrittgrößen einzustellen, die bei den restlichen uncodierten räumlichen Bereichen in dem Bild angewendet werden sollen, wenn die Anzahl von Bits, die für das Codieren der bereits codierten Gruppen verwendet wird, von der an die bereits codierten Gruppen zugewiesenen Bitzuordnung abweicht.
Kurzbeschreibung der Zeichnungen
Die 1–4 veranschaulichen Schichten von komprimierten Daten in der Videokompressionsschicht des MPEG-Datenstroms, d.h., 1 zeigt eine beispielhafte Menge von Gruppen aus Bildern (GOPs), 2 zeigt eine beispielhafte Makroblock-(MB)Unterteilung eines Bilds. 3 zeigt eine beispielhafte Scheiben-Unterteilung eines Rahmens oder Bilds, und 4 zeigt eine Blockunterteilung eines Makroblocks.
5 veranschaulicht eine Zwei-Ebenen-Bewegungskompensation bei Bildern in einer GOP, die bei MPEG verwendet wird.
6 ist ein Blockschaltplan eines MPEG-Codierers, der ein aus drei Komponenten bestehendes Teilsystem zum Ausführen von Techniken gemäß der vorliegenden Erfindung enthält.
7 zeigt die Codierungs-Schwierigkeitsfaktoren für die gesamte Folge von Bildern in einer Videobildfolge, die zwei bei dem Versuch nach MPEG-Norm verwendete Prüfbildfolgen enthält, die die ersten 60 Vollbilder der Blumengarten-Bildfolge enthalten, gefolgt von den ersten 60 Vollbildern der Tischtennis-Bildfolge, gefolgt von 30 Wiederholungen des 61. Vollbildes der Tischtennis-Bildfolge (um eine Standbildszene zu simulieren), und die in der gesamten Beschreibung verwendet werden, um die Verfahren der Erfindung zu veranschaulichen.
8 zeigt die Bitzuordnung, die für jedes Bild der Bildfolge von 7 berechnet wurde.
9 zeigt die Soll- und die Ist-Bitrate für jedes Bild der Bildfolge von 7.
10 ist eine Darstellung der Quantisierungsfaktoren (QP-Faktoren), die verwendet werden, um die Bildfolge von 7 zu codieren.
11 ist ein Blockschaltplan, der das AQ/RC-Bildcodierer-Teilsystem von 6 genauer zeigt.
12 zeigt typische Klassenverteilungen für I- und P-Bilder, die sich sowohl aus der Blumengarten- als auch aus der Tischtennis-Bildfolge der MPEG-Prüfbildfolgen ergeben.
Die 13 und 14 zeigen die Leistungsfähigkeit der QP-Zuweisungs- und der Aktualisierungsstrategien bei der Bitratensteuerung gemäß der Erfindung, wobei 13 den Wert QP_low und den mittleren Wert von QP in jeder Zeile der Vollbilder 16, 21, 61 und 67 einer Prüfbildfolge zeigt und 14 die erzeugten Bits gegenüber den Sollwerten zeilenweise zeigt.
Genaue Beschreibung der bevorzugten Ausführungsformen
Als einleitende Anmerkung besteht, wie oben angemerkt wurde, ein wichtiges Merkmal der ISO/IEC MPEG-Norm darin, dass lediglich die Syntax des komprimierten Bitstroms und das Verfahren der Codierung genau spezifiziert sind. Es ist deshalb möglich, verschiedene Codierer zu haben, die jeweils Bitströme erzeugen, die mit der Syntax der Norm kompatibel sind, die jedoch eine unterschiedliche Komplexität besitzen und unterschiedliche Grade der visuellen Qualität bei einer vorgegebenen Bitrate zur Folge haben. Die MPEG-Norm wird hauptsächlich, jedoch nicht ausschließlich, bei Situationen angewandt, bei denen die mittlere Bitrate des komprimierten Bitstroms feststehend ist. Die MPEG-Spezifikation enthält eine genaue Definition des Terms "feststehende Bitrate". Obwohl die mittlere Rate konstant sein muss, ist es jedoch nicht erforderlich, dass die Anzahl von Bits, die in einer MPEG-Videobildfolge jedem Bild zugewiesen ist, für alle Bilder gleich ist. Ferner muss die Zuordnung von Bits in einem Bild nicht gleichmäßig sein. Ein Teil der Herausforderung beim Entwerfen eines Codierers, der hochwertige Bildfolgen bei geringen Bitraten erzeugt, besteht in der Entwicklung einer Technik, um alle zur Verfügung stehenden Bits auf die Bilder und innerhalb eines Bilds zuzuweisen.
Außerdem ist ein weiteres wichtiges Codierungsmerkmal der MPEG-Norm zu berücksichtigen, nämlich die adaptive Quantisierung (AQ). Diese Technik ermöglicht, dass verschiedene Bereiche jedes Bilds mit einem veränderlichen Grad der Wiedergabetreue codiert werden können und kann bei der Bildkompression und der Kompression von sich bewegenden Bildern verwendet werden, um zu versuchen, die visuelle Qualität in jedem Bild sowie von Bild zu Bild auszugleichen (und zu optimieren). Obwohl die MPEG-Norm die adaptive Quantisierung zulässt, werden in der Norm keine Algorithmen beschrieben, die Regeln für die Verwendung der AQ zur Verbesserung der visuellen Qualität enthalten.
Ein weitere umfangreiche Klasse von Techniken, die in einem MPEG-Codierer oder einem ähnlichen Codierer angewendet werden können, wird im Allgemeinen als Vorverarbeitung bezeichnet. Jede Art der Vorverarbeitung einer digitale Videobildfolge, die die grundlegende räumliche Beziehung der Abtastwerte untereinander nicht ändert, kann in einem MPEG-kompatiblen Codierer für den Zweck der Verbesserung der visuellen Qualität der komprimierten Bildfolge enthalten sein. Zu Beispielen dafür zählen die lineare oder nichtlineare Vorfilterung.
Bei der Erfindung ist in 6 ein Blockschaltplan eines MPEG-Codierers, der ein aus drei Komponenten bestehendes Teilsystem zum Ausführen der oben erwähnten Techniken gemäß der vorliegenden Erfindung enthält, gezeigt. Wie in der Figur zu sehen ist, werden anfangs Bilddaten P_k, die das k-te Bild in einer Bildfolge darstellen, in ein Teilsystem, den QP-adaptiven Vorprozessor 3, eingegeben, in dem bei Bedarf die Vorverarbeitung stattfindet. Die Art der Vorverarbeitung wird durch Quantisierungspegel (QP_prev) von zuvor codierten Bildern gesteuert, die zuvor vom Bildcodierer 1 mit durch adaptive Quantisierung gesteuerter Rate (AQ/RC) an das Teilsystem 3 in Verlauf der Codierung der Datenfolge übertragen worden sind. Die möglicherweise vorverarbeiteten Bilddaten F_k, die vom Teilsystem 3 ausgegeben werden, werden in das nächste Teilsystem, den AQ/RC-Bildcodierer 1, eingegeben, in dem die Bewegungsabschätzung und die MB-Klassifizierung stattfinden.
Einige Ergebnisse dieser Operationen in dem AQ/RC-Bildcodierer 1 (D_k) werden zu dem verbleibenden Teilsystem, dem Bild-Bitzuordnungs-Teilsystem 2, weitergeleitet, und eine Sollanzahl von Bits für die Bilddaten F_k wird an den AQ/RC-Bildcodierer 1 zurückgegeben (A_k, S_k und C_k). Die Codierung wird dann fortgesetzt, wie später genauer beschrieben wird. Schließlich werden komprimierte Daten CD_k für die Bilddaten F_k vom AQ/RC-Bildcodierer 1 ausgegeben. Außerdem werden Daten, die die Anzahl der benötigten Bits betreffen, die zum Codieren von F_k (B_k) benötigt werden, und der Rekonstruktionsfehler (E_k) an das Bildbitzuordnungs-Teilsystem 2 weitergeleitet, und der vorherige Quantisierungspegel QP_prev, der ein mittlerer Wert QP_avg sein kann, wird zu dem QP-adaptiven Vorprozessor-Teilsystem 3 zur Verwendung bei der Verarbeitung zukünftiger Rahmen geleitet.
Für die Zwecke der Funktionsbeschreibung der drei Teilsysteme wird die Funktionsweise des Teilsystems 2 zur bildweisen Bitzuordnung zuerst erläutert, gefolgt von einer Erläuterung der Funktionsweise des AQ/RC-Bildcodierer-Teilsystems 1, und dann wird das Teilsystem 3 des QP-adaptiven Vorprozessors 3 beschrieben. Für ein vollständiges Verständnis der Beziehung der Erfindung zu dem MPEG-Videokompressionsalgorithmus kann es nützlich sein, die oben angeführten Dokumente MPEG CD-11172 und auf ISO/IEC JTCI/SC2/WG11 MPEG 91/74, MPEG Video Report Draft, 1991 oder D. LcGALL, "MPEG: A Video Compression Standard for Multimedia Applications", Communications of the ACM, Bd. 34, April 1991, heranzuziehen.
Bildweise Bitzuordnung
Videobild-Kompressionsalgorithmen verwenden die Bewegungskompensation, um die Menge der Daten zu verringern, die für die Darstellung jedes Bilds in einer Videobildfolge benötigt werden. Obwohl Kompressionsalgorithmen mit feststehender Bitrate eine mittlere Gesamtbitrate nahe an einem spezifizierten Sollwert aufrechterhalten müssen, besitzen sie häufig eine gewisse Freiheit bei der Anzahl von Bits, die einem einzelnen Bild zugeordnet werden. Das Zuweisen einer genau gleichen Anzahl von Bits an jedes Bild erzeugt eine komprimierte Bildfolge, deren Qualität zeitlich schwankt, ein Phänomen, das den Betrachter visuell ablenkt. Das Bildbitzuordnungs-Teilsystem 2 enthält Prozeduren zum Zuordnen von Bits zu komprimierten Bildern in einer Videobildfolge. Es ist insbesondere anwendbar bei Video-Kompressionsalgorithmen, die für die Erzeugung eines komprimierten Datenstrom mit feststehender Bitrate gedacht sind und bei denen Bewegungskompensation verwendet wird, z.B. die ISO/IEC MPEG-Videokompressionsnorm.
Im Idealfall würde ein Bildbitzuordnungssystem jedem Bild eine Anzahl von Bits so zuweisen, dass die wahrgenommene visuelle Qualität der codierten Bildfolge von Bild zu Bild gleichmäßig und gleich dem Optimum ist, das bei einer vorgegebenen Bitrate erreicht werden kann, die durch Bitzuordnungseinschränkungen, die durch Regeln der feststehenden Bitrate aufgestellt werden, beeinflusst ist. Ein derartiges System würde im Allgemeinen die Kenntnis des Inhalts der gesamten Bildfolge vor der Codierung des ersten Vollbildes erfordern. Es würde außerdem von vornherein eine Kenntnis der visuellen Qualität erfordern, die rekonstruierte Bilder besitzen würden, wenn sie unter Verwendung einer vorgegebenen Bitzuordnung codiert werden. Die erste Forderung ist wegen der potenziell großen Speichereinrichtung und der damit einhergehenden Verzögerung unmöglich. Die zweite Forderung ist gegenwärtig sehr schwierig, da kein mathematisch lenkbares Modell der wahrgenommenen visuellen Qualität der codierten Bilddaten bekannt ist, selbst wenn das codierte und das ursprüngliche Bild zur Verfügung stehen.
Das Bildbitzuordnungs-Teilsystem der vorliegenden Erfindung stellt eine praktische Lösung dieses Problems bereit, indem es eine Angabe der Schwierigkeit bei der Codierung von Bildern jedes Typs in der unmittelbaren Vergangenheit beobachtet. Diese Angabe, die als die Codierungsschwierigkeit bezeichnet wird, hängt von der räumlichen Komplexität eines Bilds und dem Grad ab, wie die Bewegungskompensation in der Lage ist, den Inhalt eines Bilds vorherzusagen. Bits werden den drei Bildtypen in Mengen zugeordnet, die von den relativen Codierungsschwierigkeiten der drei Typen abhängen. Außerdem sind die drei Zuordnungen, die bei jedem Bild berechnet werden (jeweils eine für jeden Bildtyp) derart, dass dann, wenn eine vollständige Gruppe von Bildern (GOP) unter Verwendung dieser Zuordnungen codiert wird, die Anzahl der benötigten Bits gleich der Soll-Bitrate sein würde.
In 6 ermittelt das Bildbitzuordnungs-Teilsystem 2, wie viele Bits dem Bild k zuzuordnen sind, nachdem die Daten F_k für das Bild in dem AQ/RC-Bildcodierer 1 analysiert wurden und der Codierungsschwierigkeitsfaktor des Bilds von dem AQ/RC-Bildcodierer 1 an das Bildbitzuordnungs-Teilsystem 2 geleitet wurde, jedoch vor der Codierung des Bilds. Das Bildbitzuordnungs-Teilsystem 2 verwendet außerdem Informationen, die vorher codierte Bilder betreffen, wobei angenommen wird, dass der AQ/RC-Bildcodierer 1 diese Informationen bereits an das Bildbitzuordnungs-Teilsystem 2 weitergeleitet hat. Diese Informationen enthalten im Einzelnen B_k, die Anzahl von Bits, die zum Codieren des letzten Bilds jedes Typs verwendet wurden (unterteilt in Transformationskoeffizienten-Bits und Zusatzbits) und E_r, der Rekonstruktionsfehler der beiden letzten Fixpunktbilder. Wenn die Anzahl von Bits abgeschätzt wird, die einem bestimmten Bild zuzuordnen sind, ist es zuerst erforderlich, eine feste Anzahl von aufeinander folgenden Bildern in der unmittelbaren Zukunft auszuwählen und zu betrachten, d.h. eine Menge von Bildern in der Bildfolge, die noch codiert werden soll, und eine feststehende Anzahl von I-Bildern (n_I), P-Bildern (n_P) und B-Bildern (n_B) umfasst. Es ist vorteilhaft, jedoch nicht notwendig, dass die Anzahl und die Zusammensetzung der Bilder in der Menge, die für die Betrachtung dieses Schritts ausgewählt ist, gleich jenen sind, die für die Bildbitzuordnungsprozedur verwendet werden, die in der Bildfolge bildweise ausgeführt wird. Es ist jedoch erforderlich, dass der zeitliche Mittelwert der sich ergebenden Bildbitzuordnungen gleich der mittleren Soll-Bildbitzuordnung ist.
Die Zuordnungsoperation, die beschrieben werden soll, beginnt durch die Betrachtung einer Zuordnung für die ausgewählte Menge von Bildern, obwohl es als Endergebnis drei Bildbitzuordnungen sein werden, jeweils eine für jeden Bildtyp, wobei lediglich die Bildbitzuordnung für den Bildtyp, der dem Typ des zu codierenden Bilds entspricht, verwendet wird. Somit beginnt der Prozess mit der Berechnung einer Gesamtbitzuordnung B_set für die Menge von Bildern, die gleich der mittleren Bitzuordnung ist, die mit der Soll-Bitrate übereinstimmt: Bset = (n1 + np + nB) × Bavg wobei B_avg die mittlere Bildbitzuordnung ist, die mit der Soll-Bitrate übereinstimmt. In der bevorzugten Ausführungsform, die in diesem gesamten Abschnitt der Beschreibung als ein Beispiel verwendet wird, gehören die Bits, die der Menge von Bildern zugeordnet sind, und jene Bits, die jedem Bild zugeordnet sind, zwei Klassen an: Zusatzbits (S) und Koeffizientenbits (C). Dabei soll S alle codierten Daten außer den Daten der codierten Transformationskoeffizienten enthalten. Durch Subtraktion von der Gesamtbitzuordnung B_set werden ein Schätzwert S_set der Anzahl von Bits, die zum Codieren von Zusatzinformationen in der Menge von Bildern (B_set) erforderlich sind, und eine Transformationskoeffizienten-Bitzuordnung C_set für die Menge von Bildern erhalten. Die Anzahl von Bits, die zum Codieren der Transformationskoeffizienten des zu codierenden Bilds zugeordnet werden, ist dann ein Bruchteil von C_set, wobei die Größe des Bruchteils von dem Schätzwert der Codierungsschwierigkeit, die mit diesem Bild verbunden ist, abhängt. Eine beispielhafte Technik zum Berechnen der Zuordnung unter Verwendung der Informationen der Codierungsschwierigkeit wird nun im Einzelnen beschrieben.
Zuordnung von Transformationskoeffizienten und Zusatzinformationen
Zusatzbits werden so zugewiesen, dass sie Bild-Kopfabschnitt-Informationen und alle Zusatzinformationen enthalten: z.B. Informationen der Betriebsart der Bewegungskompensation, Bewegungsvektoren und Daten der adaptiven Quantisierung.
Koeffizienteninformationen sind lediglich in den Bits enthalten, die zum Codieren der Transformationskoeffizienten der eigentlichen Pixeldaten (bei I-Bildern) oder der Pixel-Differenzdaten (bei P- und B-Bildern) verwendet werden. A_I, A_P und A_B sollen die Bitzuordnung für I-, P- bzw. B-Bilder sein, wobei gilt : Ar = S_I + C_I, A_P = S_P + C_P und A_B = S_B + C_B (wobei S und C Zusatz- bzw. Koeffizientenbits angeben). In der bevorzugten Ausführungsform wird die Zusatzinformationen-Bitzuordnung für das nächste zu codierende Bild so eingestellt, dass sie gleich der tatsächlichen Anzahl von Bits ist, die zum Codieren der Zusatzinformationen in dem letzten Bild des gleichen Typs in der Bildfolge erforderlich sind. Ein alternatives Verfahren der Berechnung der Zusatzbitinformationszuordnung besteht darin, einen Mittelwert der tatsächlichen Anzahlen von Bits zu verwenden, die erforderlich sind, um mehrere oder alle letzten Bilder des selben Typs in der Bildfolge zu codieren. Es ist außerdem möglich, die Zusatzinformationszuordnung in dieser Prozedur zu ignorieren und die Bildbitzuordnung lediglich auf der Grundlage der Bitzuordnung der Transformationskoeffizienten zu berechnen. Diese letztere Lösung kann im Kontext der folgenden Erläuterung ausgeführt werden, wobei angenommen wird, dass alle Zusatzzuordnungsvariablen S_x 0 sind.
Ein beispielhaftes Mittel zum Berechnen des Codierungsschwierigkeitsfaktors, der einem Bild zugehörig ist, wird nachfolgend beschrieben, für die Zwecke der Beschreibung sollte jedoch vorher klar sein, dass der Codierungsschwierigkeitsfaktor, nachdem er für die letzten Bilder jedes Typs berechnet wurde, in dem Bildbitzuordnungs-Teilsystem 2 gespeichert wird, wobei die folgende Prozedur verwendet wird, um die Transformationskoeffizientenzuordnung für das aktuelle Bild zu berechnen. Zuerst wird die Zusatzinformationszuordnung für die Menge von Bildern abgeschätzt durch: (S_set = n_IS_I + n_PS_P + n_BS_B). Diese Größe wird von der Gesamtzahl von Bits B_set, die der Menge zugeordnet sind, subtrahiert, wodurch die Menge der Bilder-Transformationskoeffizientenzuordnung erhalten werden: Cset = Bset – Sset
Dann werden C_I, C_P und C_B als die eindeutige Lösung der folgenden Gleichungen ermittelt:
Die erste Gleichung (für C_set) in dieser Menge stellt sicher, dass der Gesamtmengendurchschnitt korrekt ist. E_r' ist der Mittelwert des mittleren absoluten Fehlers der in der Vergangenheit und in der Zukunft rekonstruierten Fixpunktbilder, und die Gewichtungsterme w_P und w_B dienen dazu, um die P- und die B-Bildzuordnung in Bezug auf die anderen hervorzuheben. Die Werte von w_P = 1,0 und w_B = 0,5 werden in der bevorzugten Ausführungsform verwendet. Außer diesen Gewichtungen weisen die letzten beiden Gleichungen (für C_P und C_B) Bits den P- und B-Bildern proportional zu dem Grad zu, wie ihre Schwierigkeit den mittleren absoluten Fehler in dem (rekonstruierten) Vorhersagebild bzw. den Vorhersagebildern übersteigt.
Weitere Bitzuordnungsregeln, die auf den Codierungsschwierigkeiten der unterschiedlichen Bildtypen basieren, sind möglich. Das vorhergehende beispielhafte Verfahren ist nützlich, da es die räumliche Komplexität der Folge durch die drei Codierungsschwierigkeitsfaktoren D_I, D_P und DB, den Erfolg der Bewegungskompensation durch D_P und D_B, die Soll-Bitrate durch die Forderung der ersten Gleichung für C_set und die Qualität von zuletzt codierten Bildern durch E_r und E_r' berücksichtigt.
Gelegentlich hat die obige Bitzuordnungsstrategie eine Zuordnung zur Folge, die U^VBV übersteigt oder unter L^VBV fällt. Die Häufigkeit, mit der das vorkommt, hängt von der Größe des VBV-Puffers und der Art der Bildfolge ab. Ein typisches Szenario liegt vor, wenn der VBV-Puffer verhältnismäßig klein ist (z.B. sechs mittlere Bilder oder weniger) und die Bewegungskompensation sehr erfolgreich ist. In einer derartigen Situation versucht die Zuordnungsstrategie, praktisch alle Transformationsbits für eine Menge an die I-Bilder zu geben, was eine Zuordnung für ein einzelnes Bild zur Folge hat, die größer als die VBV-Puffergröße ist. In der bevorzugten Ausführungsform wird die I-Bild-Zuordnung dann, wenn das eintritt, so verändert, dass eine kleine Menge in die entsprechende VBV-Begrenzung fällt, und die Bits, die von dem I-Bild entnommen wurden, werden dem P-Bild neu zugeordnet. Dieser letztere Schritt ist wichtig, da dann, wenn keine explizite Neuzuordnung erfolgt, die mittlere Bitrate abfällt. Das hat schließlich VBV-Überlaufprobleme zur Folge, gewöhnlich dann, wenn L^VBV beginnt, die B-Bild-Zuordnungen zu übersteigen. Das Endergebnis ist eine implizite Neuzuordnung an B-Bilder, die im Allgemeinen eine schlechtere Gesamtbildqualität zur Folge hat. Ein zusätzlicher Vorteil der Technik der expliziten P-Bild-Neuzuordnung ist die schnellere Konvergenz auf eine sehr hohe Bildqualität bei Standbildszenen. Wenn eine P-Bild- oder B-Bild-Zuordnung außerhalb der VBV-Begrenzungen liegt, erfolgt keine Neuzuordnung von Bits.
Es wird angemerkt, dass die Zuordnungsstrategie dann angewendet werden kann, wenn keine B-Bilder vorhanden sind, indem einfach n_B = 0 gesetzt wird und die Gleichung, die C_B festlegt, bei der Berechnung von Zuordnungen ignoriert wird. Das kann gleichfalls dann angewendet werden, wenn keine P-Bilder vorhanden sind. Außerdem kann die Unterscheidung zwischen Koeffizienten und Zusatzinformationen ignoriert werden, indem der Schätzwert der Codierungsschwierigkeit verwendet wird, um alle Bits für ein Bild zuzuordnen. Dabei könnte der Schätzwert der Codierungsschwierigkeit die Schwierigkeit zum Codieren von Zusatzinformationen direkt einschließen oder Zusatzinformationen vollkommen ignorieren.
Zwei Prüfbildfolgen, die Blumengarten-Bildfolge und die Tischtennis-Bildfolge, die in dem Versuch der MPEG-Norm zum Einsatz kommen, wurden verwendet, um die Wirksamkeit der Techniken der Erfindung zu prüfen. Im Einzelnen wird eine Videobildfolge, die die ersten 60 Vollbilder der Blumengarten-Bildfolge enthält, gefolgt von den ersten 60 Vollbildern der Tischtennis-Bildfolge, gefolgt von 30 Wiederholungen des 61. Vollbildes der Tischtennis-Bildfolge (um eine Standbildszene zu simulieren) enthält, in der gesamten Beschreibung verwendet, um die Verfahren zu veranschaulichen. Diese Bildfolgen sind YUV-Prüfbildfolgen mit 352 × 240 Pixeln. Die Codierung erfolgte bei 1,15 Mbit/s bei einem I-Bildabstand von N = 15 und einem Fixpunktbildabstand von M = 3. 7 zeigt die Codierungsschwierigkeitsfaktoren für die gesamte Folge und 8 stellt die Bitzuordnungen da, die für jedes Bild berechnet wurden.
Es sollte angemerkt werden, dass die drei Bitzuordnungen, die für jedes Bild in der Bildfolge gezeigt sind, die Bitzuordnungen unmittelbar vor der Codierung dieses Bilds sind, dass jedoch lediglich eine dieser Zuordnungen tatsächlich verwendet wird. Die Soll-Bitrate, die sich aus diesem Zuordnungsverfahren ergibt, ist in 9 zusammen mit den eigentlichen Bitraten für die Bildfolge gezeigt.
Die Stabilität bei der Szenenänderung (Vollbild 61) und die Konvergenz der eigentlichen Bitrate für P- und B-Bilder auf fast null wird in dem Standbildabschnitt (Vollbilder 121 bis 151) beobachtet. Die Quantisierungsfaktoren (QP), die zum Codieren der Folge verwendet werden, sind in 10 dargestellt. Es wird außerdem angemerkt, dass die I- und P-Bilder im Allgemeinen mit einer feineren Schrittgröße codiert werden als die B-Bilder.
AQ/RC-Bildcodierer
In Bezug auf den AQ/RC-Bildcodierer 1 enthält dieses Teilsystem Prozeduren für die adaptive Quantisierung (AQ) der aufeinander folgenden Bilder einer Videobildfolge, um eine bessere visuelle Qualität zu erreichen, während sichergestellt ist, dass die Anzahl von Bits, die zum Codieren jedes Bilds verwendet werden, nahe bei einem vorgegebenen Sollwert liegt. Prozeduren werden für I-Bilder, P-Bilder und B-Bilder ausgeführt. Diese Prozeduren enthalten die Behandlung der räumlichen Bereiche, aus denen ein Bild aufgebaut sind, unter Verwendung einer Bereichsklassifizierungsstrategie, die zusammenwirkt mit:
einer Bewegungsabschätzung;
einem adaptiven Modell der Anzahl von Bits, die zum Codieren eines Bildbereichs erforderlich sind, als eine Funktion des Quantisierungsfaktors QP und gemessener Charakteristiken des Bereichs; und
einem Verfahren zum Anpassen des Quantisierungspegels, wenn ein Bild codiert wird, um sicherzustellen, dass die Gesamtzahl der erzeugten Bits nahe an dem vorgegebenen Sollwert liegt.
Obwohl die räumlichen Bereiche an dieser Stelle für die Zwecke der Beschreibung als MPEG-Makroblöcke (MB) behandelt werden, sollte klar sein, dass die beschriebenen Prozeduren bei Bereichen mit anderen Größen und Formen angewendet werden können.
11 veranschaulicht im Allgemeinen die Komponenten des AQ/RC-Bildcodierers 1. Die Funktionsweise dieses Teilsystems hängt von dem Typ des zu codierenden Bilds ab. Wie in der Figur zu sehen ist, wird ein Videobildsignal F_k für ein Bild k, das möglicherweise in dem QP-adaptiven Vorprozessor 3 vorverarbeitet wurde, in eine Bewegungsabschätzungs- und MB-Klassifizierungseinheit 14 des AQ/RC-Bildcodierers 1 eingegeben. Dort wird das Signal analysiert, und jeder MB wird gemäß den nachfolgend beschriebenen Prozeduren klassifiziert. Wenn das Bild ein P-Bild oder ein B-Bild ist, wird außerdem eine Bewegungsabschätzung ausgeführt. Ergebnisse dieser Operationen in der Form eines Codierungsschwierigkeitsfaktors D_k werden zu dem Bildbitzuordnungs-Teilsystem 2 für die oben genauer beschriebene Verwendung geleitet. Das Bildbitzuordnungs-Teilsystem 2 sendet dann ein Bitzuordnungssignal C_k für das Bild k zurück. Dieses Bitzuordnungssignal wird von einer QP-Pegel-Festlegungseinheit 15 gemeinsam mit einer Menge von Informationen, die von der Bewegungsabschätzungs- und MB-Klassifizierungseinheit 14 gesendet werden, verwendet, um Anfangswerte des Quantisierungsfaktors QP zu bestimmen, die beim Codieren jedes MB zu verwenden sind. Außerdem berechnet die QP-Pegel-Festlegungseinheit 15 einen Schätzwert der Anzahl von Bits, die zum Codieren jeder Zeile von MBs in dem Bild benötigt werden. Diese Quantisierungsfaktoren und Zeilen-Sollwerte werden zurück zu der ratengesteuerten Bildcodierer-Einheit 16 geleitet, die das Codieren des Bilds vornimmt, wobei sie außerdem Informationen verwendet, die von der Bewegungsabschätzungs- und MB-Klassifizierungseinheit 14 gesendet werden. Da die Funktionsweise des AQ/RC-Bildcodierers 1 auf drei Untereinheiten aufgeteilt ist, erfolgt die folgende Beschreibung in der gleichen Aufteilung, während hauptsächlich Bezug auf 11 genommen wird.
Bewegungsabschätzungs- und MB-Klassifizierungseinheit
Eine der Hauptaufgaben der Bewegungsabschätzungs- und MB-Klassifizierungseinheit 14 besteht darin zu bestimmen, welche Codierungsbetriebsart m(r,c) zum Codieren jedes MB in einem Bild verwendet wird. Diese Funktion wird lediglich für bewegungskompensierte Bilder verwendet, da es lediglich eine Betriebsart für MBs in I-Bildern gibt: Intramode. Die Betriebsartentscheidung basiert auf einem Bewegungsabschätzungsprozess, der außerdem Bewegungsvektoren und bewegungskompensierte Differenz-MBs erzeugt. Eine weitere wichtige Funktion der Bewegungsabschätzungs- und MB-Klassifizierungseinheit 14 besteht darin, jeden MB zu klassifizieren. Die Klasse cl(r,c) eines MB(r,c) wird schließlich den Wert des Quantisierungsfaktors QP(r,c), der zum Codieren dieses MB verwendet wird, bestimmen. Die Betriebsarten und Klassen werden durch Analysieren jedes Bilds und die Abschätzung der Bewegung zwischen dem zu codierenden Bild und dem vorhergehenden Bild (bzw. Bildern) bestimmt. Die gleichen Informationen werden außerdem verwendet, um den Codierungsschwierigkeitsfaktor D_k zu berechnen, der an das Bildbitzuordnungs-Teilsystem 2 gesendet wird.
Die Zielsetzung der Bewegungsabschätzung in dem MPEG-Videobild-Codierungsalgorithmus besteht darin, einen Bewegungsvektor mv(r,c) und den zugehörigen bewegungskompensierten Differenz-MB zu erhalten. Der bewegungskompensierte Differenz-MB ist die pixelweise Differenz zwischen dem aktuellen MB, der betrachtet wird, und dem vorhergehenden MB. Das genaue Verfahren zum Bilden des Vorhersage-MB hängt von der verwendeten Betriebsart der Bewegungskompensation ab und ist in dem oben erwähnten Dokument ISO-IEC JTC1/SC2/WG11 MPEG CD-11172, MPEG Committee Draft, 1991, genau beschrieben. Der Bewegungsvektor sollte in gewisser Hinsicht eine Angabe der echten Bewegung des Bildabschnitts, dem er zugeordnet ist, sein. Einzelheiten von Bewegungsabschätzungstechniken sind in A. N. NETRAVALI und B. G. HASKELL, Digital Pictures: Representation and Compression, New York, NY: Plenum Press, 1988, angegeben.
Für die Zwecke der vorliegenden Beschreibung wird angenommen, dass ein Vollsuche-Bewegungsabschätzungsalgorithmus verwendet wurde, der einen Bereich von ±7 × n Pixeln in der horizontalen und der vertikalen Richtung abdeckt, wobei n der Abstand in Pixelintervallen zwischen dem Bild, das analysiert wird, und dem Vorhersagebild ist und die Bewegungsvektoren die Genauigkeit eines halben Pixels besitzen. Die vorliegende Erfindung enthält Techniken zum Verwenden der Ergebnisse der Bewegungsabschätzung, um Videobildfolgen zu codieren, sie ist jedoch nicht auf eine Verwendung mit speziellen Bewegungsabschätzungstechniken beschränkt und kann mit einem beliebigen Bewegungsabschätzungsverfahren verwendet werden, vorausgesetzt, dass eine Angabe des Erfolgs der Bewegungskompensation (Bewegungskompensationsfehler), die angibt, wie gut die Übereinstimmung zwischen dem MB, der kompensiert wird, und dem Vorhersagebereich, auf den der Bewegungsvektor zeigt, ist, zur Verfügung gestellt werden kann. Es wird daran erinnert, dass es für P-Bilder lediglich einen Typ der Bewegungsabschätzung (zeitlich vorwärts) gibt, wobei es für B-Bilder drei Typen (zeitlich vorwärts, zeitlich rückwärts und zeitlich interpolierend) gibt. Der Vorwärts-Bewegungsvektor für MB(r,c) kann als mv_f(r,c) bezeichnet werden, und der Rückwärts-Bewegungsvektor kann als mv_r(r,c) bezeichnet werden. Die Interpolationsbetriebsart verwendet sowohl den Vorwärts- als auch den Rückwärts-Vektor. Der Vorwärts-, der Rückwärts- und der Interpolations-Bewegungsvektorfehler können als Δ_mc,f(r,c), Δ_mc,r(r,c) bzw. Δ_mc,i(r,c) bezeichnet werden.
Außer dem Bewegungskompensationsfehler (bzw. Bewegungskompensationsfehlern) wird eine Angabe der räumlichen Komplexität jedes MB benötigt. Diese Angabe wird als Δ(r,c) bezeichnet. Es ist wichtig, dass Δ(r,c), Δ_mc,f(r,c), Δ_mc,r(r,c) und Δ_mc,i(r,c) dahingehend gleiche Angaben sind, dass ein numerischer Vergleich zwischen ihnen sinnvoll ist. In der bevorzugten Ausführungsform sind diese Angaben alle durch mittlere absolute Größen definiert, wie später angegeben ist. Wenn jeder MB durch seine Zeilen- und Spaltenkoordinaten (r,c) angegeben wird, werden die Luminanzwerte der vier 8 × 8-Blöcke im MB(r,c) durch y_k(r,c) angegeben, wobei i = 0, ..., 7, j = 0, ..., 7; k = 0, ..., 3, und der mittlere Wert jedes 8 × 8-Blocks wird durch dc_k angegeben. Die Angabe der räumlichen Komplexität für den MB(r,c) ist dann die mittlere absolute Differenz von DC und ist gegeben durch:
Der wahrscheinliche Bewegungskompensationsfehler ist der mittlere absolute Fehler. Werden die vier 8 × 8-Blöcke im vorhergehenden Vorhersage-MB als p_k(i,j) bezeichnet, wobei i = 0, ..., 7, j = 0, ..., 7; k = 0, ..., 3, wird dieser definiert durch:
In der bevorzugten Ausführungsform der Erfindung basieren die Codierungsschwierigkeitsfaktoren, die zu dem Bildbitzuordnungs-Teilsystem 2 geleitet werden, vollständig auf den oben genannten Angaben der räumlichen Komplexität und des Bewegungskompensationsfehlers. Für I-Bilder lautet der Gesamtschwierigkeitsfaktor
Für P-Bilder und B-Bilder wird zuerst die Codierungsbetriebsart festgelegt, und die Angabe, die dieser Betriebsart zugeordnet ist, wird bei einer Summenbildung, die der obigen Summenbildung ähnlich ist, verwendet. Die folgenden Betriebsarten sind möglich:

Intramode: m(r,c) = I,

Vorwärts-Bewegungskompensation: m(r,c) = mc_f,

Rückwärts-Bewegungskompensation: m(r,c) = mc_b,

Interpolations-Bewegungskompensation: m(r,c) = mc_i.
Die Schwierigkeitsfaktoren werden berechnet durch:
Es können viele mögliche Regeln verwendet werden, um zu entscheiden, welche Betriebsart verwendet werden soll. In der bevorzugten Ausführungsform wird die folgende Regel für I-Bilder verwendet:
Ein Wert von β = 1,0 wird verwendet. In der bevorzugten Ausführungsform lautet die Betriebsart-Auswahlregel, die für B-Bilder verwendet wird: die Betriebsart mit dem kleinsten Wert Δ(r,c) wird verwendet, um den MB zu codieren. Obwohl in der bevorzugten Ausführungsform mittlere absolute Größen als die Angabe der Schwierigkeit verwendet werden, sollte anerkannt werden, dass außerdem jede ähnliche Angabe (z.B. mittlere quadratische Größen) verwendet werden kann.
Es ist vorgesehen, dass die Angaben, die zum Festlegen der MB-Betriebsarten und zum Berechnen der Codierungsschwierigkeiten verwendet werden, Nebenprodukte der Bewegungsabschätzungsprozedur sein können. Das ist teilweise möglich, da die oben beschriebenen Angaben häufig verwendet werden, um den besten Bewegungsvektor in Bewegungsabschätzungsprozeduren zu finden.
Diese Angaben werden außerdem zum Klassifizieren von Makroblöcken verwendet. In der bevorzugten Ausführungsform werden die MBs folgendermaßen klassifiziert. Die Klasse aller Intramode-MBs wird berechnet, indem der minimale Wert von Δ_k(r,c) für diesen MB quantisiert wird. Wird ein Schwellenwert t definiert, ist die Klasse cl(r,c) des MB(r,c) gegeben durch
Nachdem eine Betriebsart der Bewegungskompensation für bewegungskompensierte MBs ausgewählt wurde, werden sie klassifiziert gemäß:
In der bevorzugten Ausführungsform wird ein Wert von t = 2 verwendet. Es wird angemerkt, dass sowohl Intramode-Angaben als auch bewegungskompensierte Angaben verwendet werden, um bewegungskompensierte MBs zu klassifizieren. Die Betriebsart und die Klasseninformationen werden gemeinsam mit den zu Grunde liegenden Angaben von der QP-Pegel-Festlegungseinheit 15 zur Bestimmung eines anfänglichen Quantisierungspegels sowie von dem RC-Bildcodierer 16 während des Codierens verwendet.
Typische Klassenverteilungen für I- und P-Bilder, die sowohl von dem Blumengarten- als auch von dem Tischtennis-Abschnitt der Bildfolge gewonnen werden, sind in 12 gezeigt.
Um die Berechnungskomplexität in der bevorzugten Ausführungsform gering zu halten, werden MBs von B-Bildern nicht klassifiziert, die Q-Pegel-Festlegungseinheit 15 wird nicht verwendet, und das in der RC-Bildcodierereinheit 16 verwendete Codierungsverfahren ist einfacher als das Verfahren, das für I-Bilder und P-Bilder verwendet wird.
QP-Pegel-Festlegungseinheit
Die Funktion der QP-Pegel-Festlegungseinheit 15 besteht darin, einen Anfangswert für die Quantisierungsschrittgröße für jede Klasse zu berechnen. Allen MBs in einer vorgegebenen Klasse wird die gleiche Quantisierungsschrittgröße zugewiesen. In der bevorzugten Ausführungsform wird die Quantisierungsschrittgröße für jede Klasse relativ zu einer allgemeinen minimalen Schrittgröße zugewiesen gemäß: QP(r,c) = QPlow + ΔQP × cl(r,c).
Die Werte von ΔQP, die in der bevorzugten Ausführungsform verwendet wurden, sind 5 und 6. Es wird angemerkt, dass der zulässige Bereich für QP_low in der bevorzugten Ausführungsform –31, ..., 31 lautet, obwohl MPEG lediglich ganzzahlige Werte von QP(r,c) im Bereich 1, ..., 31 zulässt. Deswegen wird dann, wenn die obige Formel einen Wert über 31 gesetzt, dieser auf 31 gekürzt, und alle Werte unter 1 werden auf 1 gesetzt. Es ist vorteilhaft zuzulassen, dass QP_low kleiner als 1 ist, um sicherzustellen, dass der feinste Quantisierungsschritt auf MBs aller Klassen angewendet werden kann, wenn die Bitrate dies rechtfertigt. Der Prozess zum Auswählen des Anfangswerts
von QP_low wird später erläutert.
Das zu Grunde liegende Modell der menschlichen Wahrnehmung von Codierungsfehlern, das in der bevorzugten Ausführungsform verwendet wird und sich in dem Verfahren zum Berechnen der Klasse cl(r,c) jedes MB und zum Berechnen von QP(r,c) bei vorgegebenem Wert cl(r,c) widerspiegelt, besteht darin, dass wahrscheinliche Größenfehler in weniger aktiven Bereichen eines Bilds stärker sichtbar sind. Obwohl dieses Modell eindeutig eine zu starke Vereinfachung darstellt, ist es ein annehmbarer Kompromiss zwischen der visuellen Qualität und der Berechnungslast. Der Grund, warum der minimale Wert Δ bei den vier Luminanzblöcken in dem MB für die Klassifikation an Stelle des Werts Δ für den gesamten Block verwendet wird, besteht darin, dass MBs mit irgendwelchen gleichmäßigen Bereichen einer kleineren Quantisierungsschrittgröße zugewiesen werden sollten.
Die MB-Betriebsarten m(r,c) und die Klassen cl(r,c) werden gemeinsam mit Δ(r,c) und Δ_mc(r,c) und der Soll-Bitrate für die Bild-Transformationskoeffizienten verwendet, um den anfänglichen niedrigen Quantisierungswert QP_low einzustellen. Es wurde ein Modell in Übereinstimmung mit der Erfindung entwickelt, das die Anzahl von Bits vorhersagt, die zum Codieren der Transformationskoeffizienten eines MB benötigt werden, wenn der zu verwendende Quantisierungswert und Δ (bei Intramode-MBs) oder Δ_mc (bei bewegungskompensierten MBs) vorgegeben sind. Experimentelle Daten führen zu einem Modell der folgenden Form
für Intramode-MBs und
für bewegungskompensierte MBs. Die Exponenten lauten b_I = –0,75 und b_P = –1,50. Diese Werte hängen jedoch stark von den speziellen Quantisierungsgewichtungswerten w_mn ab, die verwendet werden, und sollten optimiert werden, damit sie diesen entsprechen.
Um geeignete Werte für die Parameter a und b zu schätzen, ist die folgende experimentelle Lösung gewählt worden. Es wird der Fall eines I-Bild-Modells betrachtet, für das a_I und b_I geschätzt werden sollen. Da die Parameter des Modells angepasst werden müssen, damit sie Änderungen verfolgen, die von Bild zu Bild auftreten, liegt das Hauptinteresse auf der Modellgenauigkeit in Bezug auf ein einzelnes Bild und nicht in Bezug auf ein Ensemble von Bildern. Demzufolge wird ein repräsentatives Bild mehrmals codiert, wobei für jeden Durchlauf ein anderer Wert der QP-Quantisierungsschrittgröße verwendet wird. Die Anzahl von Bits, die zum Codieren jedes MB bei jedem Wert von QP benötigt werden, wird gemessen. Anschließend wird für jeden Wert von QP die Anzahl von Bits, die zum Codieren aller MBs, die einen vorgegebenen Wert Δ aufweisen, benötigt werden, gemittelt. Das Ergebnis ist eine zweidimensionale Datenmenge, die die mittlere Anzahl von Bits, die zum Codieren von MBs benötigt werden, als eine Funktion des Δ-Werts des MB und der für seine Codierung verwendeten QP-Schrittgröße angibt. Dieser mittlere Wert kann als B_ij = B(QP_i, Δ_j) bezeichnet werden. Diese gemessenen Werte sollten in eine Gleichung der folgenden Form eingesetzt werden:
Das ist eine überbestimmte Menge von nichtlinearen Gleichungen in a_I und b_I und kann gelöst werden, indem nichtlineare Verfahren der kleinsten Quadrate verwendet werden. Um das Problem linear zu machen, wird auf beiden Seiten der Gleichung der Logarithmus gebildet. Das ergibt ein einfach zu lösendes lineares Problem der kleinsten Quadrate in log(a_I) und log(b_I).
Die linearen Parameter a_I und a_P sollten nach dem Codieren jedes I- oder P-Bilds eingestellt werden, damit sie die sich dynamisch verändernden Charakteristiken der Videobildfolge verfolgen. Das kann gemäß einem Verfahren erfolgen, das später in der Beschreibung der RC-Bildcodierereinheit 16 dargelegt wird. (Bei Intramode-MBs kann dieses Modell verbessert werden, indem ein zusätzlicher Term angefügt wird, um die Anzahl von Bits zu berücksichtigen, die zum Codieren des DC-Terms in dem MB benötigt werden, da die Codierung für DC-Koeffizienten separat abgewickelt wird.)
Die vorhergesagte Anzahl von Bits, die zum Codieren der Transformationskoeffizienten für das gesamte Bild gemäß diesen Bitraten-Modellen benötigt werden, lautet
für I-Bilder und
für P-Bilder, wobei QP(r,c) gemäß QP(r,c) = QPlow + ΔQP × cl(r,c)berechnet wird.
Als Anfangswert für QP_low wird der Wert von QP genommen, für den B(QP) der Bild-Transformationskoeffizientenzuordnung C am nächsten liegt.
In der bevorzugten Ausführungsform wird eine Halbintervall-Suche zwischen –31 und 31 ausgeführt, um
zu finden. Die Rolle der oberen und der unteren Begrenzung von QP ist in dieser Prozedur raffiniert. Während eine obere Begrenzung von 31 ausreichend ist, um sicherzustellen, dass der Codierer mit der gröbsten Quantisierung betrieben wird, die die Norm zulässt, wird eine größere Begrenzung die Leistungsfähigkeit des Algorithmus der Ratensteuerung verändern, wie später genauer beschrieben wird, indem er auf die Überproduktion von Bits empfindlicher gemacht wird. Ähnliche Eigenschaften gelten für die untere Begrenzung von QP.
Wenn QP_low ermittelt wurde, berechnet die QP-Pegel-Festlegungseinheit 15 die erwartete Anzahl von Bits, die zum Codieren der Zeile r der MBs benötigt werden, unter Verwendung von QP_low durch:
wobei N_row die Anzahl der Zeilen von MBs ist. Der zweite Term in diesem Ausdruck berücksichtigt die Differenz zwischen der Anzahl von Bits, die durch das Modell bei QP_low vorhergesagt wurde, und der tatsächlichen Transformationskoeffizientenzuordnung C, und der dritte Term berücksichtigt den gemeinsamen Anteil jeder Zeile an der Zusatzinformationszuordnung S. Die Summe der Sollwerte T(r) über alle Zeilen ergibt die Gesamtbildzuordnung Λ. Diese erwarteten Werte werden Soll-Zeilenbitraten für die RC-Bildcodierereinheit 16.
Ratengesteuerter Bildcodierer
Die Bildcodierung erfolgt, indem die MBs indexiert werden und jeder MB gemäß der Betriebsart und der Quantisierungsschrittgrößen, die in den vorherigen Schritten ermittelt wurden, codiert wird. Wegen Fehlanpassungen in dem Bitratenmodell und der ständigen Änderung des Inhalts einer Bildfolge wird jedoch die tatsächliche Anzahl von erzeugten Bits nicht genau mit der erwarteten Anzahl übereinstimmen. Diese Abweichung sollte gesteuert werden, nicht nur um die tatsächlich erzeugten Bits für das Bild nahe am Sollwert zu halten, sondern auch um eine Verletzung der VBV-Bitratenbegrenzungen zu verhindern. Es ist eine Rückkopplungsstrategie der Ratensteuerung in Übereinstimmung mit der Erfindung entwickelt worden, die am Ende jeder Zeile von MBs den Wert QP_low aktualisiert. Mehrere Faktoren bestimmen die Aktualisierung. Ein Faktor besteht darin, dass wegen der Schwankungen der Werte Δ(r,c) und Δ_mc(r,c) sowie der zugewiesenen Quantisierungsschrittgrößen nicht erwartet wird, dass verschiedene Zeilen von MBs in einem Bild die gleiche Anzahl von Bits erzeugen. Am Ende jeder Zeile wird die Anzahl der erzeugten Bits mit der erwarteten Anzahl T(r), die in der QP-Pegel-Festlegungseinheit 15 berechnet wird, verglichen. Ein weiterer Faktor, der bei der Aktualisierung von QP_low eine Rolle spielt, ist die Nähe sowohl der Bildzuordnung als auch der tatsächlichen Anzahl der erzeugten Bits zu den VBV-Begrenzungen. Der Gewinn der QP_low-Aktualisierung als eine Funktion der Bitratenabweichungen ist eine Funktion der Nähe der VBV-Begrenzung in Richtung des Fehlers. Geringe Abweichungen von der vorhergesagten Bitrate bewirken eine kleine oder keine Änderung von QP_low, wobei Änderungen, die die Bildbitrate nahe zu der einen oder der anderen VBV-Begrenzung bringen, die maximal mögliche Einstellung von QP_low bewirken. Eine derartige Strategie ist recht erfolgreich bei der Verhinderung von VBV-Verletzungen und vermeidet somit unerwünschte Aktionen wie das Verwerfen von codierten Daten oder das Einschieben von Ausschussbits in den Bitstrom.
Die folgenden Gleichungen beschreiben die Aktualisierungsprozedur für QP_low, wie sie in der bevorzugten Ausführungsform ausgeführt wird. Die Gesamtzahl von Bits, die zum Codieren der Zeile m und aller vorhergehenden Zeilen verwendet werden, wird mit B(m) bezeichnet und die Differenz zwischen B(m) und dem kumulativen Sollwert wird als ΔB(m) bezeichnet:
Nach dem Codieren der Zeile m wird QP_low, falls ΔB(m) ≠ 0, folgendermaßen aktualisiert:
wobei Δu und Δl die Differenzen zwischen der Bildzuordnung A und der oberen bzw. unteren VBV-Begrenzung für das Bild m sind: Δu = UVBV – Λ Δl = max(0,LVBV) – Λ.
Diese Strategie aktualisiert QP_low auf der Grundlage des Gesamtbitzuordnungsfehlers bis zur aktuellen Zeile, da sie sich auf den maximalen Fehler bezieht, der gemäß dem VBV-Kriterium zulässig ist.
Nachdem alle I- und P-Bilder codiert wurden, werden neue Parameter (a_I und a_P) des Bitratenmodells berechnet, so dass das Bitratenmodell mit der Anzahl der Transformationskoeffizientenbits, die tatsächlich erzeugt wurden (Ca) übereinstimmt. Um das für das I-Bild zu veranschaulichen, wird im Verlaufs der Codierung jedes Bilds die Summe aller Werte Δ(r,c) für MBs, die mit dem gleichen Wert von QP codiert wurden, erzeugt:
Ein aktualisierter Wert von a_I wird berechnet durch
und aI = (I – α)aI + αa'I.
Bei der Ausführung kann ein Wert von α = 0,667 verwendet werden. Eine ähnliche Strategie wird verwendet, um sowohl a_I als auch a_P nach dem Codieren eines P-Bilds zu aktualisieren. In diesem Fall ist a zu dem Bruchteil von MBs proportional, die in der Betriebsart codiert wurden, die dem aktualisierten Parameter des Bitratenmodells entspricht.
Schließlich wird die Anzahl von Bits, die zum Codieren aller Zusatzinformationen für das Bild verwendet werden, für die Verwendung als der Wert der Zusatzinformationszuordnung S für das nächste Bild des gleichen Typs gespeichert.
Die Leistungsfähigkeit der QP-Zuweisungs- und Aktualisierungsstrategien ist in 13 dargestellt. 13 zeigt die Werte QP_low und mittlerer QP in jeder Zeile der Vollbilder 16, 22, 61 und 67 der Prüfbildfolge. Es sollte klar sein, dass es dann, wenn die anfänglichen Schätzwerte für QP_low und die Bitratenmodelle exakt wären, keine Änderung von QP_low von Zeile zu Zeile geben würde. QP_avg würde jedoch in Abhängigkeit von der räumlichen Aktivität und der Bewegungskompensationsfähigkeit der verschiedenen Zeilen in den Bildern schwanken. Es kann z.B. aus den QP-Werten des I-Bilds leicht erkannt werden, dass die untere Hälfte der Zeilen des Blumengarten-Abschnitts räumlich viel komplexer ist als die obere Hälfte. Die P-Bild-Ergebnisse zeigen, dass die Bewegungskompensation die Schwankung von QP_avg verringert, und 14 zeigt zeilenweise die erzeugten Bits gegenüber den Sollwerten. Es kann erkannt werden, dass die Ergebnisse den Sollwerten verhältnismäßig gut nachlaufen.
Das Verfahren der Ratensteuerung für B-Bilder unterscheidet sich von dem für die I- und P-Bilder. Es erfolgt keine MB-Klassifikation, und somit wird nicht versucht, die Menge der komprimierten Daten abzuschätzen, die jede Reihe von MBs erzeugen wird. Somit sind alle Sollwerte in einem Bild gleich. Am Anfang jedes Bilds wird der Quantisierungsfaktor auf den Wert gesetzt, den er am Ende des vorherigen B-Bilds hatte. Nach jeder Zeile von MBs wird QP in der gleichen Weise wie für die anderen Bildtypen aktualisiert, wobei jedoch die obere und untere Begrenzung festgelegt sind durch: Δu = max(UVBV – Λ. Λ), Δl =max(0, LVBV) – Λ.
Das Voranstehende stellt eine Codierungsprozedur für sich bewegende Videobilder dar, die eine adaptive Bitzuordnung und eine Quantisierung verwendet, um robuste, hochwertig codierte Folgen über einen Bereich des Ausgangsmaterials und von Bitraten bereitzustellen. Die codierten Daten genügen den Anforderungen einer festen Bitrate der ISO/IEC MPEG-Videocodierungsnorm. Die zusätzliche Codiererkomplexität, die erforderlich ist, um die adaptive Technik zu umzusetzen, ist moderat in Bezug auf die Grundoperationen der Bewegungsabschätzung, der diskreten Kosinustransformation, Quantisierung und Huffman-Codierung, die Teil eines grundlegenden Codierers sind. Diese Merkmale macht den Algorithmus für flexible A von Echtzeit-Video-Codecs geeignet.

Claims

Verfahren für die Kompressionscodierung einer Folge von sich bewegenden Videobildern, wobei die Bilder dieser Folge jeweils durch digitale Datensignale dargestellt werden, die die räumlichen Bereiche, aus denen die Bilder aufgebaut sind, angeben, wobei das Verfahren die folgenden Schritte umfasst: Kennzeichnen jedes Bilds, das kompressionscodiert werden soll, als einen von drei Typen I, P oder B; Empfangen eines Bitzuordnungssignals für jedes Bild, das die Anzahl der Bits angibt, die zugewiesen werden, um an dem Bild eine Kompressionscodierung auszuführen; und Kompressionscodieren jedes Bilds in der Folge, wobei die Kompressionscodierung die folgenden Schritte umfasst: Klassifizieren jedes räumlichen Bereichs eines zu codierenden Bilds auf der Grundlage der Pixeldaten oder Pixeldifferenzdaten des räumlichen Bereichs; Festlegen einer Quantisierungsschrittgröße, die verwendet werden soll, um jeden räumlichen Bereich des Bilds auf der Grundlage der Klassifizierung des räumlichen Bereichs und der Klassifizierung anderer räumlicher Bereiche in dem Bild sowie des Bitzuordnungssignals für das Bild zu codieren; Unterteilen des Bilds in Gruppen räumlicher Bereiche und Zuordnen von Bits aus der Anzahl von Bits, die in diesen Gruppen zugewiesen wurden, um an dem Bild eine Kompressionscodierung auszuführen; nacheinander ausgeführte Kompressionscodierung der Gruppen räumlicher Bereiche unter Verwendung der festgelegten Quantisierungsschrittgrößen; und nach der Kompressionscodierung jeder Gruppe räumlicher Bereiche Einstellen der Quantisierungsschrittgrößen, die bei den restlichen uncodierten räumlichen Bereichen in dem Bild angewendet werden sollen, wenn die Anzahl von Bits, die für das Codieren der bereits codierten Gruppen des Bilds verwendet wird, von der an die bereits codierten Gruppen zugewiesenen Bitzuordnung abweicht.
System (1) für die Kompressionscodierung einer Folge sich bewegender Videobilder, wobei die Bilder dieser Folge jeweils durch digitale Datensignale dargestellt werden, die die räumlichen Bereiche, aus denen die Bilder aufgebaut sind, angeben, wobei das System umfasst: ein Mittel (2) zum Kennzeichnen jedes Bilds, das kompressionscodiert werden soll, als einen von drei Typen I, P oder B; ein Mittel (3) zum Empfangen eines Bitzuordnungssignals (Ck) für jedes Bild, das die Anzahl der Bits angibt, die zugewiesen werden, um an dem Bild eine Kompressionscodierung auszuführen; und Mittel für die Kompressionscodierung jedes Bilds in der Folge, wobei die Mittel für die Kompressionscodierung umfassen: ein Mittel (14) zum Klassifizieren jedes räumlichen Bereichs eines zu codierenden Bilds auf der Grundlage der Pixeldaten oder Pixeldifferenzdaten des räumlichen Bereichs; ein Mittel (15) zum Festlegen einer Quantisierungsschrittgröße, die verwendet werden soll, um jeden räumlichen Bereich des Bilds auf der Grundlage der Klassifizierung des räumlichen Bereichs und der Klassifizierung anderer räumlicher Bereiche in dem Bild sowie des Bitzuordnungssignals für das Bild zu codieren; ein Mittel zum Unterteilen des Bilds in Gruppen räumlicher Bereiche und Zuordnen von Bits aus der Anzahl von Bits, die in diesen Gruppen zugewiesen wurden, um an dem Bild eine Kompressionscodierung auszuführen; ein Mittel (16), um an den Gruppen räumlicher Bereiche unter Verwendung der festgelegten Quantisierungsschrittgrößen nacheinander eine Kompressionscodierung auszuführen; und ein Mittel, um nach der Kompressionscodierung jeder Gruppe räumlicher Bereiche die Quantisierungsschrittgrößen einzustellen, die bei den restlichen uncodierten räumlichen Bereichen in dem Bild angewendet werden sollen, wenn die Anzahl von Bits, die für das Codieren der bereits codierten Gruppen verwendet wird, von der an die bereits codierten Gruppen zugewiesenen Bitzuordnung abweicht.