DE69111264T2

DE69111264T2 - Verbesserungen von Systemen zur Hybrid-Kodierung eines Videosignals.

Info

Publication number: DE69111264T2
Application number: DE69111264T
Authority: DE
Inventors: Lorenzo Masera; Fernando Pereira
Original assignee: CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Current assignee: Telecom Italia SpA
Priority date: 1990-03-02
Filing date: 1991-02-28
Publication date: 1996-01-18
Anticipated expiration: 2011-03-01
Also published as: DE69111264D1; JPH04217191A; EP0444660A2; JPH0817491B2; US5142362A; CA2037444A1; CA2037444C; IT1241184B; EP0444660A3; DE444660T1; IT9067148A0; EP0444660B1; IT9067148A1

Description

Die Erfindung betrifft Kodierungssysteme für Videosignale und bezieht sich speziell auf ein Verfahren, das in Hybrid-Kodierungssystemen anzuwenden ist, wenn stehende und bewegte Bilder (Stehbilder und Laufbilder) zu kodieren sind.
Bei der Kodierung von Videosignalen werden die Probleme des Kodierens von stehenden Bildern (photographische Videotex) oder bewegten Bildern (Videokonferenz, visuelle Telephonie) allgemein getrennt betrachtet: geeignete Kodierungsalgorithmen, die bereits international standardisiert sind oder deren Standardisierung fortschreitet, sind für beide Arten von Bildern entwickelt worden.
Speziell ist die CCITT-Studiengruppe SGXV dabei, für bewegte Bilder einen Kodierungsprozeß zu definieren, der in synchronen Netzen anzuwenden ist und Gegenstand der CCITT-Empfehlung H 261 sein wird. Der von dieser Gruppe vorgeschlagene Prozeß ist ein differentieller Prozeß der sogenannten Hybrid-Art, bei dem zu einem gegebenen Zeitpunkt:
- der Unterschied zwischen dem originalen laufenden Rahmen und dem kodierten Rahmen, der sich auf den vorhergehenden Zeitpunkt bezieht, berechnet wird;
- eine Überprüfung darüber durchgeführt wird, ob bei diesem Unterschied eine Bewegungskompensation zweckmäßig ist;
- eine zweidimensionale diskrete Cosinus-Transformation an Pixelblöcke angelegt wird, die möglicherweise einer Bewegungskompensation unterworfen sind;
- die Transform-Koeffizienten durch Quantisierer mit variablem Schritt quantisiert werden; und
- die quantisierten Koeffizienten mit einem Kode mit variabler Länge kodiert werden.
Der Quantisierungsschritt wird in Abhängigkeit von der Füllung eines Übertragungspuffers, der zwischen den Kodierer und eine Leitung zum Übertragen der kodierten Signale zu Gebrauchsvorrichtungen geschaltet ist, periodisch fortgeschrieben. Für Szenen mit starken Änderungen ist es auch möglich, nicht die Unterschiede, sondern die Blöcke eines gegenwärtigen Rahmens der Transformation zu unterwerfen.
Dieses Vorgehen ist beispielsweise in den Aufsätzen "Motion Video Coding in CCITT SGXV - The Coded Picture Format" von R.C. Nicol und N. Mukawa, "Motion Video Coding in CCITT SGXV - The Video Source Coding", von R. Plompen, Y. Hatori, W. Geuen, J. Guichard, M. Guglielmo, H. Brusewitz, und "Motion Video Coding in CCITT SGXV - The Video Multiplex and Transmission Coding", von M. Carr, J. Guichard, K. Matsuda, R. Plompen, J. Speidel, die bei der IEEE Global Telecommunications Conference & Exhibition (Globecom'88), Hollywood, Florida, USA, 28. November bis 1. Dezember 1988, vorgelegt wurden und auf den Seiten 992 bis 996, 997 bis 1004 bzw. 1005 bis 1010 der Conference Proceedings (Papiere 31.1, 31.2, 31.3) veröffentlicht wurden, beschrieben.
Es sind auch einige Modifikationen dieses Algorithmus vorgeschlagen worden, um seine Verwendung in asynchronen Netzen zu ermöglichen, für die es ein wachsendes Interesse gibt, da ihre Eigenflexibilität sie besonders geeignet für die Übertragung von Videosignalen macht, die durch einen nicht-einförmigen Informationsfluß charakterisiert sind, wie beispielsweise die Signale, die sich auf Videokonferenzen und die visuelle Telephonie beziehen. Ein Beispiel eines modifizierten Algorithmus wurde von den Erfindern beschrieben in dem Aufsatz "An ATM Adapted Video Coding Algorithm Operating at Low Bit-Rates", der vorgestellt wurde am Second International Workshop on 64 kbit/s Coding of Moving Video, Hannover, 1989. Bei diesem Algorithmus sind die Kodieroperationen im wesentlichen identisch denen des von der CCITT-Studiengruppe vorgeschlagenen Algorithmus, jedoch findet die Übertragung mit variabler Bitrate statt und ist durch eine mittlere Bitrate und eine Spitzenbitrate charakterisiert, die vor Beginn der Übertragung von Netzsteuervorrichtungen festgesetzt werden und während der Übertragung periodisch überprüft werden, um den Quantisierungsschritt und gegebenenfalls die Raum- und Zeitauflösung entsprechend anzupassen.
Im Falle der Videokonferenz und der visuellen Telephonie mag es nötig sein, nicht nur das Gesicht des Sprechers (bewegte Bildkomponente) zu übertragen, sondern auch Schemen oder geschriebene Texte (stehende Bildkomponente). Da der Kodierungsalgorithmus von differentieller Art ist, sollte der Unterschied zwischen aufeinanderfolgenden Rahmen Null sein, wenn ein stehendes Bild kodiert wird, und somit brauchen in kurzer Zeit keine weiteren Bits übertragen zu werden. In der Praxis existiert jedoch immer aufgrund des Rauschens, das sowohl von der Transformations- und der Quantisierungsoperation als auch durch die Kamera eingeführt wird, ein Unterschied zwischen aufeinanderfolgenden Rahmen eines stehenden Bildes sowohl bei synchronen als auch bei asynchronen Netzen, so daß der Koder weiterhin Bits sendet, ohne die Qualität des kodierten Bilds zu erhöhen. Somit verringert die Übertragung von Bildkodierungsbits Möglichkeiten der Übertragung anderer Information.
Bisher ist keine Lösung dieses Problems vorgeschlagen worden. Man könnte theoretisch vorsehen, beim Übergang von einer bewegten zu einer stehenden Szene auf einen anderen Kodieralgorithmus umzuschalten und die Bilder der stehenden Szene durch einen beliebigen Standard-Kodealgorithmus für stehende Bilder zu kodieren. Dies würde jedoch die Komplexität erheblich erhöhen, da zwei verschiedene Kodiersysteme sowie handgesteuerte Geräte zum Signalisieren eines Szenenwechsels und zum Bewirkung der Umschaltung von einem Kodiersystem auf das andere erforderlich wären; außerdem erfordert, wenn das Kodieren des bewegten Bild fortgesetzt wird, der Kodieralgorithmus eine Neuinitialisierung, was eine Periode niedriger Qualtität des kodierten Bildes mit sich bringt.
Demgegenüber schafft die Erfindung ein Verfahren, das während der selben Videoübertragung sowohl für stehende als auch für bewegte Bilder verwendet werden kann und durch das eine gewünschte Qualität eines stehenden Bilds erreicht werden kann, ohne einen Bitüberschuß zu kodieren, und die Kodierung bewegter Bilder mit ausreichend hoher Qualität fortgesetzt werden kann.
Die Erfindung schafft deshalb ein Verfahren der digitalen Hybrid-Kodierung von Videosignalen, die sowohl bewegliche als auch stehende Bilder betreffen, und in eine Folge von Rahmen organisiert sind, die in einer gegebenen Frequenz auftreten und durch eine Folge von Zeilen gebildet werden, die jeweils eine gegebene Anzahl von Pixeln umfassen, wobei: jeder Rahmen in Pixelgruppen unterteilt wird, die eine Mehrzahl hierarchischer Ebenen definieren; für jeden Rahmen nach einer Quantisierung durch ein Quantisierungsgesetz, das für jede zu einer ersten hierarchischen Ebene gehörende Gruppe gewählt wird, Koeffizienten einer zweidimensionalen Transformation kodiert werden, die entweder auf einen gegenwärtigen Rahmen oder auf die signifikanten Unterschiede zwischen dem gegenwärtigen Rahmen und einem vorhergesagten Rahmen, der eventuell einer Bewegungskompensation unterworfen wurde, angewandt wird; und ein kodiertes Signal erzeugt wird, das unter anderen Informationen eine Information umfaßt, die sich auf den Kodierungstyp und das angewandte Quantisierungsgesetz bezieht, und das asynchron mit variabler Bitrate übertragen wird, wobei das für eine Pixelgruppe der ersten hierarchischen Ebene angewandte Quantisierungsgesetz einen Quantisierungsschritt verwendet, welcher von einer Kodiersteuervorrichtung bestimmt wird und sich in Abhängigkeit von den für die Übertragung zur Verfügung stehenden Bits ändert; dadurch gekennzeichnet, daß man für jeden Rahmen die Pixelgruppen zählt, die zu einer zweiten hierarchischen Ebene gehören und einem gegebenen Kodierungstyp für eine erste Anzahl vorhergegangener aufeinanderfolgender Rahmen unterworfen waren, zum Erkennen, ob der Rahmen zu einem stehenden oder einem bewegten Bild gehört, und daß man bei Erkennung eines stehenden Bilds für jede Pixelgruppe dieses Bilds, die zur ersten hierarchischen Ebene gehört, bewirkt, daß der Quantisierungsschritt zu einem gegebenen Minimum wert konvergiert, der für alle Gruppen gleich ist, und zwar durch die folgenden Operationen:
a) man speichert die für diese Gruppe in den verschiedenen Rahmen des stehenden Bilds verwendeten Quantisierungsschritte;
b) man stellt einen realen Quantisierungsschritt, der der bis zum gegenwärtigen Rahmen verwendete kleinste Quantisierungsschritt ist, fest und speichert ihn;
c) man vergleicht den realen Quantisierungsschritt und den für diese Gruppe im gegenwärtigen Rahmen durch die Kodiersteuervorrichtung festgelegten Quantisierungsschritt miteinander;
d) man kodiert die Transformations-Koeffizienten, die sich auf diese Gruppe beziehen, mit einem Quantisierungsschritt gleich demjenigen, der von der Kodiersteuervorrichtung bestimmt worden ist, falls dieser letztere Schritt niedriger ist als der reale Quantisierungsschritt; oder man kodiert die Koeffizienten, falls der von der Kodiersteuervorrichtung bestimmte Quantisierungsschritt größer als der reale Quantisierungsschritt oder gleich diesem ist, im Fall einer geringen Bitverfügbarkeit mit einem politischen Quantisierungsschritt, der durch Erhöhung des realen Quantisierungsschritts um eine erste vorgegebene Menge erhalten wird, und im Fall einer hohen Bitverfügbarkeit mit einem Schritt, der durch Reduzierung des realen Schritts um eine zweite vorgegebene Menge erhalten wird, wobei der im letzteren Fall anzuwendende Kodierungs-Quantisierungsschritt ein einheitlicher Schritt ist, falls der Wert des realen Schritts niedriger ist als die zweite gegebene Menge;
e) man schreibt den realen Quantisierungsschritt jedesmal dann fort, wenn die Kodierung mit einem Quantisierungsschritt durchgeführt wird, der niedriger ist als der reale Quantisierungsschritt.
Vorzugsweise werden für Bilder, bei denen die Rahmen in Blöcke von Luminanz- und Chrominanz-Pixeln, Makroblöcke und Gruppen von Makroblöcken unterteilt sind, die Konvergenzoperationen für jede Gruppe von Makroblöcken innerhalb eines Rahmens durchgeführt, und wird das stehende Bild durch Zählen der Makroblöcke erkannt, für die:
- die Transformation auf die Differenz zwischen einem gegenwärtigen und einem vorhergesagten Rahmen angewandt worden ist;
- die Transformations-Koeffizienten kodiert worden sind;
- in der Vorhersage eine Bewegungskompensation durchgeführt worden ist.
Gemäß einer weiteren Eigenschaft der Erfindung werden progressiv wachsende Raum- und/oder Zeit-Auflösungspegel während der Kodierung des stehenden Bilds verwendet, und die Operationen, die eine Konvergenz zum Minimumwert des für die verschiedenen Gruppen, die zur ersten hierarchischen Ebene gehören, verwendeten Quantisierungsschritts bewirken, werden für jeden Auflösungspegel durchgeführt.
Die Eigenschaften der Erfindung werden ersichtlicher durch Bezugnahme auf die Zeichnung; es zeigen:
Fig. 1 einen Blockschaltplan eines Kodierers, an dem die Erfindung angewandt wird;
Fig.n 2 und 3 Ablaufdiagramme der Operationen der Konvergenzsteuerschaltung, die die Erfindung implementiert; und
Fig. 4 ein Ablaufdiagramm des Einsetzens des Konvergenzprozesses in eine Kodierung mit Auflösungspegelanpassung.
Das Bezugszeichen COD in Fig. 1 bezeichnet die Gesamtheit eines Kodierers für Signale bewegter Bilder der von der CCITT-Studiengruppe SGXV entwickelten Art, der an den Gebrauch in asynchronen Netzen angepaßt wurde. Die Anwendung der Erfindung bei diesem Kodierer bringt keine Änderung seines Aufbaus mit sich, der deshalb nur in dem für das Verständnis der Erfindung notwendigen Ausmaß beschrieben wird.
Der Kodierer empfängt von einer nicht gezeigten Fernsehkamera digitale Abtastwerte (Pixels), die sich auf einzelne Rahmen einer Fernsehübertragung beziehen und die in einem Rahmenspeicher MQ1 gespeichert werden. Die Abtastwerte werden von MQ1 so gelesen, daß sie die nachrichtenstromabwärts gelegenen Vorrichtungen bei jedem Rahmen mit einem digitalisierten Bild speisen, das eine von einer Kodiersteuervorrichtung CCD festgelegte Auflösung hat. Im einzelnen wird während des Lesens eine Unterabtastung durchgeführt, die entsprechend den Empfehlungen der CCITT-Studiengruppe SGXV in einer Standardauflösung von 360 288 Luminanzpixeln (288 Zeilen pro Rahmen und 360 Pixel je Zeile) und 180 144 Chrominanzpixeln resultiert. Wie in dem oben genannten Aufsatz der Erfinder beschrieben ist, könnte die Auflösung in Abhängigkeit von der Bitverfügbarkeit während der Übertragung geändert werden, beispielsweise in Funktion von einem im folgenden als "Überzahl" bezeichneten Parameter, der den Unterschied zwischen der Zahl der vom Beginn der Übertragung bis zum gegenwärtigen Zeitpunkt erzeugten Bits und der Zahl von Bits, die während der selben Zeit bei einem Kanalbetrieb mit fester Bitrate bei der durchschnittlichen Bitrate, die vor Beginn der Übertragung festgesetzt wurde, übertragen werden könnte, wiedergibt. Zusätzlich wird die Möglichkeit in Betracht gezogen, die Auflösung während der Kodierung stehender Bilder auf der Basis der Kodierentwicklung zu erhöhen, wie später klarer ersichtlich wird. Die Möglichkeit, die räumliche Auflösung zu modifizieren, wird durch die Existenz der Auflösungssteuervorrichtung CR dargestellt, die von der Kodiersteuervorrichtung CCD getrieben wird und im wesentlichen aus einer Speichervorrichtung besteht, in der die tatsächlich für die Kodieroperationen verwendeten Abtastwerte gespeichert werden.
Nachwievor in Übereinstimmung mit den Empfehlungen der CCITT-Studiengruppe SGXV werden die zu kodierenden Abtastwerte nach einer hierarchischen Struktur organisiert, gemäß der sie folgendermaßen gruppiert werden: in Blöcke (B) von 8 8 Luminanz- oder Chrominanz-Pixeln (nämlich acht benachbarte Abtastwerte in jeder von acht aufeinanderfolgenden Zeilen), in Makroblöcke (MB) von 16 16 Luminanzpixeln (vier Blöcke B) und zwei physikalisch zusammenfallende Gruppen von 8 8 Chrominanz-(U,V)-Pixeln, und in Gruppen von Makroblöcken (GOB), die aus 33 Makroblöcken zusammengesetzt sind, die auf drei Zeilen von elf Makroblöcken angeordnet sind; ein Rahmen umfaßt seinerseits zwölf Gruppen von Makroblöcken. Da der Kodieralgorithmus auf die Makroblöcke wirkt, werden einige Pixeln ausgeschaltet, um eine gerade Zahl von Makroblöcken zu erhalten. Die tatsächliche Auflösung ist 352 288 (Luminanz) und 176 144 (Chrominanz).
In Abhängigkeit von den Charakteristiken des Bilds im laufenden Rahmen bestimmt die Kodiersteuervorrichtung CCD, ob die Kodierung nur den gegenwärtigen Rahmen in Betracht ziehen muß (Intrarahmen-Kodierung) oder sowohl den gegenwärtigen als auch den vorhergehenden Rahmen in Betracht ziehen muß (Interrahmen-Kodierung). Wird die Intrarahmen-Kodierung durchgeführt, so werden die Abtastblöcke des gegenwärtigen Rahmens zu Vorrichtungen TR gesendet, die eine zweidimensionale Transformation berechnen (beispielsweise eine diskrete Cosinus-Transformation); im Fall der Interrahmen- Kodierung wird hingegen die Differenz zwischen dem gegenwärtigen Rahmen und dem quantisierten und rekonstruierten vorhergehenden Rahmen übermittelt. Ein Addierer SM1 gibt schematisch die Vorrichtung an, die den Unterschied berechnet, und ein von CCD gesteuerter Schalter SW zeigt schematisch die Möglichkeit an, entweder die Intrarahmen- oder die Interrahmen-Kodierung zu wählen.
Die Schaltung TR führt eine zweidimensionale Transformation an allen Blöcken aus, sofern die Intrarahmen-Kodierung in Betracht kommt, während im Fall der Interrahmen-Kodierung die Transformation nur an solchen Differenzblöcken durchgeführt wird, die in signifikanter Weise unterschiedlich von einem gleichnamigen Block im vorhergehenden Rahmen oder von einem Block, der eine Verschiebung in Bezug auf den vorhergehenden Rahmen durchgeführt hat, sind. Die in TR berechneten Transformationskoeffizienten werden an einen Quantisierer QU geliefert, der nach einem von der Vorrichtung CCD gewählten Quantisierungsgesetz in der Makroblockgruppen-Ebene in Funktion vom Überzahlparameter alle Koeffizienten quantisiert, deren Wert eine gegebene Schwelle übersteigt. Die quantisierten Koeffizienten werden einerseits zu einer Schaltung CLV1 gegeben, die sie entsprechend einer Kodierung mit variabler Länge kodiert, und andererseits zu einem inversen Quantisierer QIN. Dem letzteren folgen eine Schaltung AT, die die inverse Transformation berechnet, und ein Addierer SM2, der den quantisierten und rekonstruierten Unterschied, der von AT geliefert wird, mit dem in einem zweiten Rahmenspeicher MQ2 gespeicherten Block addiert, wodurch der rekonstruierte Block gebildet wird, der sich auf den vorhergehenden Rahmen bezieht; der rekonstruierte Block bildet den fortgeschriebenen Inhalt von MQ2.
Die in den Speichern MQ1 und MQ2 gelesenen Abtastwerte werden einer Versatzschätzungsschaltung SS eingegeben, die im Fall der Interrahmen-Kodierung aktiv ist und einen im gegenwärtigen Rahmen zu kodieren den Block mit den angrenzenden Blöcken des vorhergehenden Rahmens vergleicht, um Änderungen zu erkennen, die ausschließlich auf einem Versatz des betrachteten Bildteils beruhen, um die Gesamtheit der Verschiebung auszuwerten (Bewegungskompensation). Diese Schaltung berechnet einen Verschiebungsvektor, der sich auf einen Makroblock bezieht, und liefert ihn sowohl zum Speicher MQ2 als auch zu einem Tiefpaßfilter FL, der im Fall der Bewegungskompensation aktiv ist, um die Kontraste zu reduzieren, und schließlich zu einem zweiten Variabellänge- Kodierer CLV2, der diejenigen Vektoren, die unterschiedlich von 0 sind, in differentieller Weise in Bezug zum vorhergehenden Vektor kodiert. Der Verschiebungsvektor kann beispielsweise so berechnet werden, wie es im oben genannten Papier von R. Plompen beschrieben ist. Die Ausgangssignale von CLV1, CLV2 und eine Kennzeichnungsmarke, die die Interrahmen/Intrarahmen-Kodierung anzeigt, werden von der Steuervorrichtung CCD dazu verwendet, die Makroblöcke zu klassifizieren, nämlich: intrarahmen-kodierte Makroblöcke; nicht-kompensierter, nicht-kodierter Makroblock (d.h. ein Makroblock, für den der Verschiebungsvektor 0 ist und für den keine Transformationskoeffizienten kodiert wurden); nicht-kompensierter, kodierter Makroblock (d.h. ein Makroblock, für den der Verschiebungsvektor 0 ist, jedoch Transformationskoeffizienten kodiert wurden); kompensierter, nicht-kodierter Makroblock (für den nur der kodierte Verschiebungsvektor übertragen wird); kompensierter und kodierter Makroblock (für den sowohl der kodierte Verschiebungsvektor als auch die kodierten Transformationskoeffizienten übertragen werden).
Die Signale, die diese Klassifikation wiedergeben, werden zusammen mit den von CLV1, CLV2 kodierten Signalen, dem verwendeten Index des Quantisierers und anderer Dienstinformation durch einen Multiplexer MX zu einem Kodewort von geeignetem Format kombiniert (beispielsweise zu dem Format, das im oben genannten Artikel von M. Carr beschrieben ist). Das Ausgangssignal von MX bildet das kodierte Videosignal, das anschließend mit anderen Signalen kombiniert wird, beispielsweise mit Audiosignalen, Datensignalen und speziellen durch die Art des Dienstes, bei dem der Kodierer verwendet wird, geforderten Signalisierungen, und wird zu einer Dekodiervorrichtung an einen Empfänger gesendet.
Die vorliegende Erfindung ist ein Teil der Kodierungsoperationssteuerung und ermöglicht die Optimierung des Quantisierungsschritts bei Vorliegen von stehenden Bildern während einer Übertragung. Die Erfindung vermeidet wiederholte Quantisierungen einer selben hierarchischen Einheit im Bild durch den selben Quantisierungsschritt, da dies Bits erzeugen würde, die nur die verschiedenen Arten von Fehlern kodieren. Im folgenden wird beispielhaft Bezug genommen auf die Anwendung der Erfindung in der Ebene der Gruppe von Makroblöcken, da gemäß den Empfehlungen der Studiengruppe SGXV der Quantisierungsschritt in dieser Ebene gewählt wird; es ist jedoch ersichtlich, daß das Verfahren auch auf eine andere hierarchische Einheit angewendet werden kann.
Zum Implementieren des erfindungsgemäßen Verfahrens wird eine Konvergenzsteuervorrichtung CCN zwischen den Multiplexer MX und die Kodiersteuervorrichtung CCD geschaltet, um stehende Bilder zu erkennen und auf eine solche Erkennung hin die Schaltung CCD so zu steuern, daß der eine optimale Auswertung der verfügbaren Bits erlaubende Quantisierungsschritt für jede Gruppe von Makroblöcken gewählt werden kann.
Das erfindungsgemäße Verfahren ist in den Ablaufdiagrammen der Fig.n 2 und 3 dargestellt.
Zum Erkennen stehender Bilder wertet CCN die Klassifikation der Makroblöcke aus, wobei diese Schaltung ein a-posteriori-Erkennungskriterium implementiert, also eine Erkennung im Nachherein. Im einzelnen zählt ein Zähler in CCN die kodierten und kompensierten Makroblöcke und ein Bild wird als stehend angesehen, wenn die Zahl MB dieser Makroblöcke kleiner ist als eine gegebene Schwelle M1, deren Wert von der Rahmenfrequenz abhängt, und zwar für eine bestimmte Anzahl aufeinanderfolgender Rahmen (z.B. 2). Ein geeigneter Wert für M1 kann für Rahmenfrequenzen, die unter 25 Hz liegen, 30 sein, oder für Rahmenfrequenzen, die 25 Hz oder höher betragen, 20 sein.
Diese Wahl ist gerechtfertigt durch die Tatsache, daß, wenn eine ausreichend erhebliche Zahl von Makroblöcken der Bewegungskompensation und Kodierung in zwei aufeinanderfolgenden Rahmen unterworfen worden ist, die Annahme vernünftig ist, daß sich das Bild bewegt und die Unterschiede zwischen aufeinanderfolgenden Rahmen nicht nur auf dem Rauschen beruhen; andererseits wurde festgestellt, daß unkorreliertes Rauschen eine Erhöhung der Zahl von kodierten nicht-kompensierten Makroblöcken bewirkt, und somit ist das angenommene Wahlkriterium ausreichend genau.
Nachdem das stehende Bild einmal erkannt ist, wird der Quantisierungsschritt CQS, der zum Kodieren einer Gruppe von Makroblöcken anzuwenden ist, dadurch bestimmt, daß man die Geschichte des diese Gruppe von Makroblöcken betreffenden Kodierungsprozesses in Betracht zieht. Speziell wird der Quantisierungsschritt, der von der Vorrichtung CCD durch Anwenden des Standard-Kodieralgorithmus festgelegt wird, mit dem Minimum- Quantisierungsschritt RQS verglichen, der zum Kodieren der selben Gruppe von Makroblöcken im vorhergehenden Rahmen verwendet wurde. Dieser Wert RQS wird im folgenden als "realer Quantisierungsschritt" bezeichnet. Das Vergleichsergebnis bestimmt zusammen mit einer möglichen Auswertung des oben definierten Überzahlparameters und der Maximumdifferenz zwischen den Werten von RQS, die sich auf verschiedene Gruppen von Makroblöcken im gegenwärtig kodierten Rahmen beziehen, ob CQS den vom Algorithmus bestimmten Wert oder einen mit RQS zusammenhängenden anderen Wert haben muß. Im einzelnen wird unter bestimmten Bedingungen, die später noch genauer angegeben werden, der verwendete Quantisierungsschritt dadurch erhalten, daß man RQS um eine gegebene feste Menge p2 (z.B. 20) erhöht. Der Wert CQS = RQS + p2 wird im folgenden als "politischer Quantisierungsschritt" bezeichnet. Der Wert von p2 ist so gewählt, daß der Quantisierungsschritt klein genug ist, um eine Kodierung ausreichend hoher Qualität im Fall eines Szenenwechsels oder abrupter Bewegungen zu erlauben, während er ausreichend unterschiedlich vom bis zu diesem Zeitpunkt verwendeten Minimum- Quantisierungsschritt ist, um ein signifikantes kodiertes Signal zu liefern.
Der Konvergenzprozeß endet, wenn der Wert RQS einen gegebenen Wert p1 (z.B. 1) für alle Gruppen von Makroblöcken erreicht hat; ist dieser Wert erreicht, so wird der politische Wert von CQS so lange verwendet, als das Bild ein stehendes Bild bleibt, so daß die Vorrichtung in Bereitschaft ist, ein bewegtes Bild oder einen Szenenwechsel zu kodieren.
Natürlich können eine Bildbewegung oder ein Szenenwechsel erfolgen, bevor oder nachdem der Wert RQS den Wert p1 für alle Gruppen von Makroblöcken erreicht hat. Ein Verlassen des Konvergenzprozesses kann folglich auf zweierlei Weise stattfinden:
- unabhängig vom Wert RQS, wenn die Zahl MB der kodierten und kompensierten Makroblöcke im letzten Rahmen einen Schwelle M2 überschritten hat, die geringfügig niedriger liegt als M1: es ist zu bedenken, daß der Prozeß anläuft, wenn die Zahl dieser Makroblöcke für zwei aufeinanderfolgende Rahmen niedriger ist als die Schwelle M1, und somit ist das Verlassen des Prozesses leichter, als in ihn einzutreten; geeignete Werte von M2 können 25 und 18 sein, in Abhängigkeit von der Rahmenfrequenz.
- wenn RQS für alle Gruppen p1 ist und die Zahl der Bits in einem Rahmen einen bestimmten Wert B1 (z.B. 1000) überschreitet, auch wenn die Zahl MB im letzten Rahmen die Schwelle M2 nicht überschritten hat: es sind tatsächlich Szenenwechsel oder Bewegungen möglich, die nur für eine begrenzte Anzahl von Makroblöcken von Interesse sind; jedoch ergibt sich bei diesen Wechseln eine starke Erhöhung der Zahl der zu übertragenden Bits, und dies ermöglicht die Erkennung des Wechsels.
Beim Verlassen des Konvergenzprozesses werden nach dem Austritt aus dem Prozeß diejenigen Gruppen von Makroblöcken, die zum ersten Rahmen gehören, mit einem Quantisierungsschritt p4 (z.B. 8) kodiert, um so Bildabschneiderscheinungen zu vermeiden.
Fig. 3 zeigt mehr im einzelnen den Teil des Konvergenzprozesses, der sich auf eine Gruppe von Makroblöcken bezieht. Wie gesagt, ist der erste Schritt nach dem Feststellen eines stehenden Bilds der Vergleich zwischen den Werten CQS und RQS. Es sind dann drei Wege der Entwicklung des Konvergenzprozesses auf der Basis des Vergleichsergebnisses möglich:
1) CQS < RQS: dies ist die einfachste Situation; der neue vom Algorithmus bestimmte Quantisierungsschritt ist noch nicht bei der Kodierung dieser Gruppe von Makroblöcken angewendet worden, und außerdem sichert er eine Verbesserung der Qualität des kodierten Bilds; die Kodierung wird unter Verwendung des Werts CQS, der vom Algorithmus aktuell bestimmt worden ist, durchgeführt, und dieser Wert ist der fortgeschriebene Wert RQS, der in CCN gespeichert ist.
2) CQS > RQS: unter dieser Bedingung könnte die Kodierung zunächst durch den politischen Wert des Quantisierungsschritts durchgeführt werden, da der vom Algorithmus bestimmte Schritt CQS nicht zu hoch sein könnte, um eine Kodierung eines möglichen Szenenwechsels oder einer abrupten Bewegung mit ausreichender Qualität zu ermöglichen, oder zu nah bei RQS liegen dürfte, um einen ausreichenden Beitrag zum Kodieren zu bieten. Jedoch könnte der Kodierungsprozeß sich so entwickelt haben, daß die Anwendung eines kleineren Quantisierungsschritts ermöglicht ist, und deshalb wird zur Entscheidung über den günstigsten Quantisierungsschritt eine Überprüfung anhand des Überzahlparameters und der Differenz Q1 zwischen dem Schritt RQS, der sich auf die Gruppe von Makroblöcken bezieht, die gerade kodiert wird, und dem Maximumschritt RQS, der für die anderen Makroblöcke des Rahmens verwendet wird, durchgeführt: ist die Überzahl in hohem Maße negativ (mit einem Absolutwert höher als eine Schwelle e1, beispielsweise etwa 2000) und ist die Differenz Q1 klein (z.B. ≤ 4), so wird als Quantisierungsschritt ein Wert RQS - p3 (z.B. RQS - 2), wenn RQS > p3, oder 1, wenn RQS p3, verwendet: tatsächlich zeigt das Vorhandensein einer in hohem Maß negativen Überzahl an, daß die Übertragung mit einer viel niedrigeren Rate als der Durchschnittsrate stattfindet, so daß noch eine hohe Bitverfügbarkeit vorliegt und somit ein kleinerer Quantisierungsschritt problemlos angewandt werden kann; außerdem erlaubt der für p3 angezeigte Wert, daß die Variation des Quantisierungsschritts im Rahmen begrenzt bleibt.
3) CQS = RQS: In diesem Fall ist der durch den Algorithmus bestimmte Quantisierungsschritt nicht anzuwenden, da, wie erwähnt, die wiederholte Kodierung einer Gruppe von Makroblöcken durch einen selben Quantisierungsschritt nur nutzlose Bits erzeugt und die Bildqualität nicht erhöht: Auch in diesem Fall wird die Wahl des zu verwendenden Werts auf der Basis der Überprüfung anhand der Überzahl bestimmt; ist die Überzahl positiv (dies bedeutet, daß mehr Bits als der Durchschnitt verwendet werden, und somit ein größerer Quantisierungsschritt nützlich sein kann, um die Überzahl zu reduzieren), so wird der politische Wert verwendet, und ist die Überzahl negativ, so wird wie im vorhergehenden Fall der Schrittwert RQS - p3 (oder 1) verwendet.
Sind die Operationen für eine Gruppe von Makroblöcken vorüber, so wird die nachfolgende Gruppe von Makroblöcken verarbeitet.
Der erfindungsgemäße Prozeß ist auch mit Erfolg bei einem Kodierer anwendbar, bei dem eine hohe Bitverfügbarkeit ausgenützt werden kann, um die Raum- und/oder Zeitauflösung zu erhöhen. Genauer dargestellt, kann der Konvergenzprozeß, ausgehend von einem Standard-Auflösungspegel, der auch für bewegte Bilder verwendet wird, in Übereinstimmung mit einem Durchschnittswert R des realen Quantisierungsschritts angehalten werden, der höher ist als p1, und dann kann ein höherer Auflösungspegel angewandt werden. Tatsächlich kann die vorher angegebene Standardauflösung (260 288 Pixeln je Rahmen für die Luminanz und 180 144 Pixeln je Rahmen für die Chrominanz) unzureichend sein: es können dann beispielsweise drei Auflösungspegel vorgesehen werden, von denen der erste der Standardpegel ist, der zweite eine horizontale Raumauflösung schafft, die zweimal so hoch wie der Standard ist, und zwar sowohl für die Chrominanz als auch für die Luminanz, während der dritte Pegel sowohl eine horizontale Raumauflösung als auch eine Zeitauflösung aufweist, die zweimal so hoch sind wie der Standardpegel.
Ein Kodierungsverfahren, das sowohl den Konvergenzprozeß als auch die Auflösungsanpassung umfaßt, beginnt unter Verwendung der oben erwähnten Standardauflösung und schreitet unter Verwendung dieser Auflösung fort, bis ein stehendes Bild erkannt wird. In diesem Zustand beginnt der Konvergenzprozeß in der beschriebenen Weise. Hat der Durchschnittswert von RQS im Rahmen den Wert R, so wird der zweite Auflösungspegel angewandt. Für den ersten Rahmen beim neuen Pegel kann der Konvergenzprozeß mit dem durch den Kodieralgorithmus für diesen Rahmen bestimmten Quantisierungsschritt beginnen (es gibt nämlich keine Speicherung des Quantisierungsschritts von einem Pegel zum nächsten). Als Alternative können die beim vorhergehenden Pegel erreichten Werte von RQS herangezogen werden. Außerdem wird für diesen ersten Rahmen die Schwelle M2 für die Zahl der kompensierten und kodierten Makroblöcke geändert, um Austritte aus dem Konvergenzprozeß zur Unzeit zu vermeiden. Wenn auch beim zweiten Pegel die Bedingungen für die Erhöhung der Auflösung erreicht werden, findet der Übergang zum dritten Pegel mit den gleichen Modalitäten statt, wie sie für den Übergang vom ersten zum zweiten Pegel dargelegt wurden. Es ist klar, daß dann, wenn der Konvergenzprozeß für die verschiedenen Gruppen vom Makroblöcken beim Kodieren mit einem gegebenen Auflösungspegel erneut vom Quantisierungsschritt aus startet, der während der Konvergenz beim vorhergehenden Pegel erreicht wurde, die Schwelle M2, die den Übergang von einem Pegel zum nächsten bestimmt, für die verschiedenen Pegel unterschiediich ist und abnimmt, wenn die Auflösung zunimmt.
Eine Vorgehensweise, die sowohl die Auflösungsanpassung als auch die Konvergenz einschließt, ist schematisch im Ablaufdiagramm von Fig. 4 dargestellt, und zwar für den allgemeinen Fall, daß die Auflösungspegel von einem Minimum (Pegel 0) bis zu einem Maximum MRL reichen. Die Symbole M2i, Bi zeigen, für jeden Auflösungspegel, die Schwellen für die Anzahl kodierter, kompensierter Makroblöcke bzw. für die Anzahl von Bits, die den Ausstieg aus dem Konvergenzprozeß bestimmt, an, während Ri der Mittelwert von RQS ist, der den Übergang zum höheren Auflösungspegel bestimmt. Das Ablaufdiagramm ist erschöpfend und braucht nicht weiter erläutert zu werden.
Es ist klar, daß das Beschriebene nur als nicht begrenzendes Beispiel angegeben wurde. Ohne Verlassen des Bereichs der Erfindung sind Änderungen und Modifikationen möglich.

Claims

1. Verfahren der digitalen Hybrid-Kodierung von Videosignalen, die sowohl bewegliche als auch stehende Bilder wiedergeben und in eine Folge von Rahmen organisiert sind, die in einer gegebenen Frequenz auftreten und durch eine Folge von Zeilen gebildet werden, die jeweils eine gegebene Anzahl von Pixeln umfassen, wobei: jeder Rahmen in Pixelgruppen unterteilt wird, die eine Mehrzahl hierarchischer Ebenen definieren; für jeden Rahmen nach einer Quantisierung durch ein Quantisierungsgesetz, das für jede zu einer ersten hierarchischen Ebene gehörende Gruppe gewählt wird, Koeffizienten einer zweidimensionalen Transformation kodiert werden, die entweder auf einen gegenwärtigen Rahmen oder auf die bedeutungsvollen Unterschiede zwischen dem gegenwärtigen Rahmen und einem vorhergesagten Rahmen, der eventuell einer Bewegungskompensation unterworfen wurde, angewandt wird; und ein kodiertes Signal erzeugt wird, das unter anderen Informationen eine Information umfaßt, die sich auf den Kodierungstyp und das angewandte Quantisierungsgesetz bezieht, und das asynchron mit variabler Bitrate übertragen wird, wobei das für eine Pixelgruppe der ersten hierarchischen Ebene angewandte Quantisierungsgesetz einen Quantisierungsschritt verwendet, der von einer Kodiersteuervorrichtung (CCD) bestimmt wird und sich in Abhängigkeit von den für die Übertragung zur Verfügung stehenden Bits ändert; dadurch gekennzeichnet, daß man für jeden Rahmen die Pixelgruppen zählt, die zu einer zweiten hierarchischen Ebene gehören und einem gegebenen Kodierungstyp für eine erste Anzahl vorhergegangener aufeinanderfolgender Rahmen unterworfen waren, zum Erkennen, ob der Rahmen zu einem stehenden oder einem bewegten Bild gehört, und daß man bei Erkennung eines stehenden Bilds für jede Gruppe von Pixeln dieses Bilds, die zur ersten Ebene gehören, den Quantisierungsschritt zu einem gegebenen Minimumwert (P1) konvergieren läßt, der für alle Gruppen gleich ist, und zwar durch die folgenden Operationen:

a) man speichert die für diese Gruppe in den verschiedenen Rahmen des stehenden Bilds verwendeten Quantisierungsschritte;

b) man stellt einen realen Quantisierungsschritt (RQS), der der bis zum gegenwärtigen Rahmen verwendete kleinste Quantisierungsschritt ist, fest und speichert ihn;

c) man vergleicht den realen Quantisierungsschritt (RQS) und den für diese Gruppe im gegenwärtigen Rahmen durch die Kodiersteuervorrichtung (CCD) festgelegten Quantisierungsschritt miteinander;

d) man kodiert die Transformations-Koeffizienten, die sich auf diese Gruppe beziehen, mit einem Quantisierungsschritt (CQS) gleich demjenigen, der von der Kodiersteuervorrichtung (CCD) bestimmt worden ist, falls dieser letztere Schritt niedriger ist als der reale Quantisierungsschritt (RQS); oder man kodiert die Koeffizienten, falls der von der Kodiersteuervorrichtung bestimmte Quantisierungsschritt größer als der reale Quantisierungsschritt (RQS) oder gleich diesem ist, im Fall einer geringen Bitverfügbarkeit mit einem politischen Quantisierungsschritt, der durch Erhöhung des realen Quantisierungsschritts um eine erste vorgegebene Menge (p2) erhalten wird, und im Fall einer hohen Bitverfügbarkeit mit einem Schritt, der durch Reduzierung des realen Schritts um eine zweite vorgegebene Menge (p3) erhalten wird, wobei der im letzteren Fall anzuwendende Kodierungs-Quantisierungsschritt ein einheitlicher Schritt ist, falls der Wert des realen Schritts niedriger ist als die zweite gegebene Menge;

e) man schreibt den realen Quantisierungsschritt jedesmal dann fort, wenn die Kodierung mit einem Quantisierungsschritt durchgeführt wird, der niedriger ist als der reale Quantisierungsschritt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß man ein stehendes Bild dann identifiziert, wenn die Zahl der Gruppen der zweiten hierarchischen Ebene, die dem gegebenen Kodierungstyp unterworfen wird, für eine erste Anzahl aufeinanderfolgender Rahmen unter eine erste Schwelle (M1) abfällt.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß man für Pixelgruppen, die zur ersten hierarchischen Ebene gehören und für die der von der Kodiersteuervorrichtung (CCD) bestimmte Quantisierungsschritt den realen Quantisierungsschritt (RQS) übersteigt, den für die Kodierung anzuwendenden Wert (CQS) des Quantisierungsschritts durch eine gemeinsame Auswertung der Bitverfügbarkeit und des Unterschieds zwischen dem für diese Gruppe zuständigen realen Quantisierungsschritt und dem im Rahmen verwendeten maximalen realen Quantisierungsschritt bestimmt, während man für Pixelgruppen, für die der von der Kodiersteuervorrichtung (CCD) bestimmte Quantisierungsschritt gleich dem realen Schritt ist, den anzuwendenden Wert (CQS) durch Auswertung nur der Bitverfügbarkeit wählt.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß man nach Erreichen des gegebenen Minimumwerts (p1) für den für eine Pixelgruppe zutreffenden Quantisierungsschritt die Kodierung dieser Gruppe dadurch durchführt, daß man den politischen Wert des Quantisierungsschritts anwendet.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß daß der gegebene Minimumwert (p1) 1 beträgt.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß man die die Konvergenz zum Minimum-Quantisierungsschritt (p1) bewirkenden Operationen und/oder das Kodieren durch den politischen Quantisierungsschritt dann beendet, wenn die Anzahl der dem gegebenen Kodierungstyp unterworfenen Gruppen für eine zweite Anzahl von Rahmen, die niedriger ist als die erste, eine zweite Schwelle (M2) überschreitet, die niedriger ist als die erste Schwelle (M1), oder dann, wenn die Zahl der Bits in einem Rahmen eine dritte Schwelle (B) überschreitet.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß man wenigstens für den ersten Rahmen nach dem Beenden der Konvergenzoperationen den realen Quantisierungsschritt (RQS) auf einen gegebenen Wert (p4) setzt.

8. Verfahren nach einem der vorhergehenen Ansprüche, dadurch gekennzeichnet, daß man während der Kodierung eines stehenden Bilds zunehmende Raumauflösungspegel und/oder Zeitauflösungspegel für ein Bild aufeinanderfolgend vewendet und die Operationen, die bewirken, daß der Quantisierungsschritt der einzelnen zur ersten hierarchischen Ebene gehördenden Gruppen zum Minimumwert (p1) konvergiert, für jeden Auflösungspegel durchführt.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß man einen Mittelwert des realen Quantisierungsschritts (RQS) der verschiedenen zur ersten hierarchischen Ebene gehörenden Gruppen für jeden Rahmen berechnet und einen höheren Auflösungspegel anwendet, wenn dieser Mittelwert niedriger ist als ein gegebener Schwellenwert (Ri).

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß für den ersten Rahmen, der einer Änderung des Auflösungspegels folgt, der reale Quantisierungsschritt für jede zur ersten hierarchischen Ebene gehörende Gruppe der durch die Kodiersteuervorrichtung (CCD) bestimmte Quantisierungsschritt ist.

11. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß für den ersten Rahmen, der einer Änderung des Auflösungspegels folgt, der reale Quantisierungsschritt derjenige ist, der am Ende der beim vorhergehenden Auflösungspegel durchgeführten Operationen erreicht worden ist.

12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß der Schwellenwert (Ri) für die verschiedenen Auflösungspegel unterschiedlich ist und abnimmt, wenn der Auflösungspegel zunimmt.

13. Verfahren nach einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, daß man für den ersten Rahmen, der einer Änderung des Auflösungspegels folgt, den Wert der zweiten Schwelle (M2) erhöht.

14. Verfahren nach einem der Ansprüche 8 bis 13, dadurch gekennzeichnet, daß die Auflösungspegel einen Grundpegel, der auch bei der Kodierung bewegter Bilder verwendet wird, einen mittleren Pegel, der dadurch erhalten wird, daß man die Zahl der Pixel je Zeile verdoppelt, und einen oberen Pegel, der dadurch erhalten wird, daß man die Rahmenfrequenz im Vergleich zum mittleren Pegel verdoppelt, umfassen.

15. Verfahren nach einem der vorhergehenden Anspruche, bei dem man die Pixel in einem Rahmen in folgende Blöcke gruppiert: Blöcke von Luminanz- oder Chrominanz-Pixeln, Makroblöcke, die eine Mehrzahl von Blöcken umfassen, und Gruppen von Makroblöcken, dadurch gekennzeichnet, daß die erste hierarchische Ebene die Ebene der Gruppen von Makroblöcken ist und die zweite hierarische Ebene die Ebene der Makroblöcke ist.

16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß man ein stehendes Bild durch Zählen der Makroblöcke identifiziert, für die: die Transformation auf die Differenzen zwischen einem gegenwärtigen und einem vorhergesagten Rahmen angewandt worden ist; die Transformations-Koeffizienten kodiert worden sind; und in der Vorhersage eine Bewegungskompensation durchgeführt worden ist.